Data Lake oder Data Pfütze? Das Potenzial von Big Data für Unternehmen

Data Lake oder Data Pfütze

Beim Stichwort Statistik oder Datenanalyse würden viele Menschen wohl am liebsten die Flucht ergreifen. Dass das Jonglieren mit Zahlen, insbesondere mit extrem großen Datensätzen, kein furchteinflößendes, sondern ein spannendes Themenfeld darstellt, bewies Datenexperte Daniel Fügner
bei seinem Webinar „Data Mining – Wenn Statistik nicht mehr ausreicht“.

Erfahren Sie in diesem Beitrag, was Data Mining ausmacht und was Seen und Pfützen damit zu tun haben.

 

Daniel-Fuegner-Bild-2

 

Data-Mining-Algorithmen: Blackbox oder nachvollziehbare Formeln?

Beim Data Mining werden enorme Datenmengen anhand von unterschiedlichen Algorithmen auf bestimmte Faktoren hin geprüft. Bei den besagten Algorithmen handelt es sich jedoch keinesfalls um Formeln im klassischen Sinne. „Jeder kann einen Data-Mining-Algorithmus entwickeln,“ erklärt Daniel Fügner, der verschiedenste Firmen im Bereich der Statistiksoftware Minitab® betreut. „Es muss nur gezeigt werden, dass der jeweilige Algorithmus für die entsprechende Aufgabe funktioniert.“ Im Bereich Data Mining unterscheidet man im Wesentlichen zwei Arten von Algorithmen: Diejenigen, die man noch mehr oder weniger nachvollziehen kann, und diejenigen, die so komplex sind, dass sie einer Blackbox gleichen. Solch komplexe Algorithmen müssen die Analysten erst an einem Testdatensatz verifizieren und damit zeigen, dass das Modell funktioniert.

 

Voraussetzungen für Datenanalysen

Doch in welcher Form kommen die großen Datensätze daher, damit man mit ihnen arbeiten kann? Spätestens nach der Datenaufbereitung müssen die Datensätze, mit denen man arbeiten möchte, gut strukturiert sein und ein hohes Maß an Konsistenz aufweisen. Ein Fließtext, wie beispielsweise eine E-Mail, ist zunächst unstrukturiert. Für die Analyse werden die vorhandenen Datensätze in multidimensionaler Form aufbereitet und weisen in der Regel eine enorme Länge auf. Das heißt, sie haben sehr viele Zeilen und Spalten – genau die richtigen Voraussetzungen für Data-Mining-Algorithmen könnte man meinen. Doch längst nicht alle Datensituationen sind dafür geeignet.

 

Typische Datensituationen: Wo die klassische Statistik nicht mehr greift

„Data-Mining-Algorithmen brauchen ein gewisses Datenmaß“, erklärt Daniel Fügner. So kann man mit wenigen Datensätzen und einer geringen Variablenzahl bereits mit klassischen Statistik-Ansätzen arbeiten. Prozessübergreifende Analysen mit einer hohen Anzahl an Datensätzen und vielen Variablen können dagegen allein von Data-Mining-Algorithmen gelöst werden. Der Datenexperte bricht zugleich auch eine Lanze für die klassische Statistik: „Man kann auch dem Gesetz der Statistik vertrauen.“ Da die herkömmlichen Methoden der Statistik für enorm große Datensätze nicht gemacht sind, setzen die Analysten auf das Prinzip der Stichprobe. „Es kostet durchaus etwas Mut, 95 Prozent der Daten wegzulassen,“ so Fügner. „Bei einem stabilen Analyseprozess erzielt man allerdings auch hier dasselbe Ergebnis wie bei der Analyse des kompletten Datensatzes.“

 

Data Mining: Je größer der Datenpool, desto mehr Informationen kann man abschöpfen

Im Bereich des Data Mining sind den Datensätzen dagegen keine Grenzen gesetzt. Hier gilt der Grundsatz: Je mehr Datenmengen (= Datensätze und Variablen), desto mehr Informationen kann man abschöpfen. „Es stellt sich die Frage: Haben Sie einen ganzen Data Lake oder nur eine Data Pfütze?“, erklärt der diplomierte Physiker. Von der bloßen Kennzahlengewinnung über die statistische Modellierung bis hin zu Data-Mining-Algorithmen: Je nach Datensatzgröße greifen zunächst statistische Methoden bis schließlich nur noch Data-Mining-Algorithmen durch den „Daten-See“ dringen können.

 

Data Mining in der Berufspraxis

Ob im Marketing, der Produktionsoptimierung oder im Customer-Relationship-Management: Trotz seiner facettenreichen Anwendungsgebiete wird das Potenzial von Data Mining in der Berufspraxis laut Fügner noch wenig ausgeschöpft. Er fordert eine intensive Auseinandersetzung mit der Anwendung von Data Mining, die nicht allein durch eine autodidaktische Aneignung der Methoden gelingen kann. Um an die gewünschten Erkenntnisse zu gelangen, sei eine professionelle Unterstützung von Experten sinnvoll. Fügner appelliert daher an die Unternehmen, mehr Ressourcen in Data-Mining-Projekte zu stecken, um dauerhaft wettbewerbsfähig bleiben zu können.

Newsletter anmelden

Über karriere tutor® 116 Artikel
karriere tutor® möchte Menschen an jedem Arbeitsplatz der Welt beruflich erfolgreich und glücklich machen. Ein Team aus hervorragend geschulten Dozenten und Tutoren, Karriereberatern und Experten für berufliche Weiterbildung berät und begleitet seine Kunden ganzheitlich auf dem Weg zur beruflichen Erfüllung.