Der Begriff „Data Science“ findet immer mehr Anwendung. Was aber genau versteht man unter dieser „Datenwissenschaft“? Dieses werden wir in diesem und weiteren Artikeln beantworten.
Data Science ist ein Prozess
Oft denkt man bei dem Begriff Data Science an künstlicher Intelligenz. Der Grund mag darin liegen, dass sich der Begriff „künstliche Intelligenz“ oder seine Abkürzung „KI“ seit Jahren durch Kino Block-Buster in unseren Köpfen als Magisches oder stellenweise auch Böses eingeprägt hat. Tatsächlich verstehen wir jedoch künstliche Intelligenz als einen Bestandteil der Data Science.
Wir definieren Data Science als den Prozess, der Mehrwerte aus Daten generiert. Diesen Prozess unterteilen wir in folgende Schritte:
- Daten Akquise
- Datenaufbereitung
- Datenvisualisierung
- Machine Learning
- Bereitstellung der Lösung
Daten Akquise
Ein Meeresforscher braucht ein Meer zum Forschen, ein Datenwissenschaftler benötigt Daten, um Wissen und Informationen zu generieren. Ohne Daten ist Data Science nur in wenigen Ausnahmen möglich. In der Daten Akquise geht es zunächst darum, Daten zu sammeln. Woher die Daten stammen und welche Art von Daten gesammelt werden, ist ziemlich egal. Typische Daten wie aus einem Warenwirtschaftssystem, Maschinendaten aus einer Produktion, Bilder, Videos, Töne oder Texte – für jedes Format gibt es unzählige Möglichkeiten der Verarbeitung und Nutzung.
Daten liegen in Unternehmen oft an unterschiedlichen Orten auf unterschiedlichen Datenbanken. Manchmal werden einzelne Datenquellen bereits für eine Art Reporting verwendet wie zum Beispiel Zahlen aus dem Vertrieb, um wichtige Umsatzprognosen zu erstellen. Leider bleibt es zu oft bei aufwändig zu wartenden Insellösungen.
Datenaufbereitung
Data Science deckt auch die Verknüpfung und Aufbereitung von Daten ab. Um einen Mehrwert aus Daten zu erhalten, sind besonders die Verbindungen zu anderen Prozessen im Unternehmen von Interesse.
Die erste Hürde stellt dabei oft der Zugriff. Werden die Daten auf einer internen SQL Datenbank gespeichert, auf einer externen noSQL oder liegen diese bei einem Drittanbieter und sind nur per API abrufbar? Ein einfaches Beispiel für verteilte Informationen im Unternehmen ist der Lagerbestand, die Vertriebstätigkeiten und die Verfügbarkeit von Servicetechnikern.
Sind diese Unwägbarkeiten beseitigt, stellt sich die Frage wie die Daten miteinander in Verbindung stehen. Maschinendaten lassen sich meist über den Zeitstempel der Einträge verbinden. Andere Prozesse hängen zum Beispiel über eine Rechnungs-ID zusammen. In manchen Fällen fehlt diese Verbindung allerdings und die Herstellung dieser Verbindung stellt dann einen Schritt bei der digitalen Abbildung der Unternehmenslogik dar.
Datenvisualisierung
Sind diese Daten miteinander verknüpft und in Relation zueinander gebracht, werden sie visualisiert. Durch die Visualisierung lässt sich der komplette geschäftliche Ablauf eines Unternehmens zu jeder Zeit einsehen. Mehrwerte sind in diesem Fall zum einen die Gesamtübersicht aber vor allem die Möglichkeit noch viel mehr aus Ihren Daten zu machen und die Daten besser zu verstehen.
Wie stehen die Lagerbestände mit den Vertriebstätigkeiten in Verbindung? Wann muss ich auf potentielle Verkäufe mit einer Lageraufstockung reagieren? Wann muss ich bezogen auf die Vertriebstätigkeiten mit einer Personalaufstockung im Service reagieren, um eine hohe Kundenzufriedenheit zu gewährleisten? Die nun verbundenen Daten geben Aufschluss!
Prozessoptimierung
Sind die Daten erst einmal verbunden und aufbereitet, ist erfolgreich die Brücke zwischen verschiedenen Unternehmensbereichen geschlagen. Jetzt lassen sich Prozesse automatisieren und optimieren. Von einfachen Algorithmen, die nichts außer “wenn dies dann das” machen bis hin zu komplexen statistischen Modellen.
Nun ist es an der Zeit Ihre Unternehmenslogik zu implementieren. Was vielleicht bereits durch Reports für einzelne Bereiche geschehen ist, lässt sich nun unternehmensweit aufbauen. Dabei werden moderne Analyse Tools wie Microsoft Power BI immer wichtiger. Mit Hilfe dieser Tools lassen sich Reports dynamisch gestalten und Teile der Unternehmenslogik im Hintergrund abbilden. Dynamisch hat in diesem Fall mehrere Auswirkungen. Zum einen kann durch mehrere Hierarchien geschaut werden, wie zum Beispiel die Anzahl bestimmter Verkäufe per Klick von monatlich auf täglich aufzufächern, oder hierarchisch durch Kennzahlen einer Abteilung zu den Kennzahlen der Unterabteilungen oder einzelnen Mitarbeiter zu schauen, ohne die Ansicht zu verlassen.
Durch die Implementierung einer Unternehmenslogik und die direkte Anbindung zu Datenbanken oder einem Data Warehouse, wird die Wartung minimiert und durch automatische Aktualisierungen ein Live-Monitoring gewährleistet.
Sind die KPIs identifiziert und in das dynamische Reporting eingebunden, können zusätzlich komplexe Workflows angebunden werden. So lassen sich beispielsweise automatisch Formulare für eine Budget-Freigabe versenden sobald eine oder mehrere Kennzahlen bestimmte Schwellwerte unter- oder überschreiten.
Fazit
Mit der Bereitstellung, der Verbindung und der Visualisierung der Daten steht das wertvolle Grundgerüst, um Mehrwerte aus Daten zu ziehen. Die weiteren Möglichkeiten sind nun nahezu unbegrenzt.
Sobald ein Datenpunkt irgendwo gespeichert ist, ist er historisch. Jedes Unternehmen hat allerdings ein besonderes Interesse, etwas mehr über seine Zukunft zu wissen. Sei es die zukünftige Auslastung seiner Mitarbeiter, eine Umsatzprognose oder die verbleibende Lebensdauer einer Maschine. Diese Möglichkeiten werden wir in einem folgenden Blogeintrag behandeln. Das Ergebnis einer Prognose sind jedoch erneut Datenpunkte, die in einem dynamischen Report eingebunden oder mit anderen Prozessen gekoppelt werden können.