ТОП просматриваемых книг сайта:
Data Science. Michael Zimmer
Читать онлайн.Название Data Science
Год выпуска 0
isbn 9783960885856
Автор произведения Michael Zimmer
Жанр Математика
Серия Edition TDWI
Издательство Bookwire
2.1Geschichte wiederholt sich?
Die aktuelle Entwicklung, die seit einigen Jahren in den Unternehmen zu beobachten ist, erinnert zuweilen an die Anfänge des Data Warehousing in der ersten Hälfte der 1990er-Jahre. Um die Parallelen aufzuzeigen und in einem zweiten Schritt auch Schlüsse für die heutige Situation ziehen zu können, sollen kurz die Herausforderungen und Rahmenbedingungen betrachtet werden, denen die Unternehmen damals gegenüberstanden. Dies betrifft nicht nur die fachlichen und technologischen Aspekte, sondern darüber hinaus auch Fragen der Organisation. Bereits Hans Peter Luhn, der lange vor Howard Dresner den Begriff Business Intelligence prägte, hatte erkannt, dass ein solches Informationssystem nur im Einklang mit entsprechenden organisatorischen Regelungen effizient genutzt werden kann [Luhn 1958].
Als der Data-Warehouse-Gedanke, vor allem getrieben durch die Arbeiten von Kimball und Inmon in den frühen 1990er-Jahren, seinen Siegeszug in der Welt der Unternehmen antrat, sorgte dies für eine grundlegend neue Qualität der betrieblichen Informationssysteme. Bis dato dominierten die sogenannten OLTP-Systeme, deren Hauptaugenmerk in der effizienten Unterstützung von betrieblichen Geschäftsprozessen lag. Waren zunächst in der Regel Insellösungen für die verschiedenen Fachabteilungen zu finden, traten Anfang der 1990er-Jahre verstärkt integrierte Standardsoftwarelösungen auf Client-Server-Basis, allen voran SAPs R/3, auf den Plan. Die neuen ERP-Systeme waren in der Lage, Geschäftsprozesse end-to-end auf einer Plattform abzubilden. Da der Fokus auf der effizienten Unterstützung der Prozesse lag, zeigten die OLTP-Lösungen häufig Schwächen im Bereich des Reportings. Diese Schwächen betrafen unter anderem Zeitreihenanalysen, die Verknüpfung von Daten aus unterschiedlichen OLTP-Anwendungen oder Fachdomänen und die Performance. Data Warehousing und OLAP sollten diese Schwächen nachhaltig überwinden.
Die Idee einer Entkopplung des Informationssystems von den operativen Systemen verbunden mit den neuen Konzepten für die Datenmodellierung und ihrem Fokus auf die Anforderungen der Informationsnachfrager führte letztlich dazu, dass mit dem Data Warehouse vieles von dem umgesetzt werden konnte, was konzeptionell schon lange an- und vorgedacht worden war. Bereits seit den 1960er-Jahren waren immer wieder entsprechende Ideen entwickelt worden, die jedoch zumeist an den technologischen Voraussetzungen scheiterten. Eine interessante historische Übersicht zur Entwicklung von Entscheidungsunterstützungssystemen, die zeigt, wie vielschichtig die Entwicklungen in den letzten 50 Jahren waren, findet sich bei Power [Power 2007]. In ihrem Standardwerk zu Data-Warehouse-Systemen schreiben Bauer und Günzel [Bauer & Günzel 2013] auch entsprechend:
»Was sich im Laufe der MIS-Bemühungen als Utopie abzeichnete […] erhält durch den Fortschritt in der Informationstechnologie im Gewand des Data Warehousing eine Renaissance.«
Die neuen OLAP-Systeme setzten sich nach und nach durch, wobei im Folgenden verschiedene Aspekte vor allem bei ihrer Einführung angesprochen werden sollen, die offensichtliche Parallelen zu heute aufweisen.
Gut Ding will Weile haben
Sowohl BI als auch Data Science benötigten einen langen Atem, bevor sie letztlich Eingang in die Unternehmen fanden und sich dort etablierten. Im Fall von BI wurde gerade schon dargestellt, dass es ein langer Weg mit zahlreichen unterschiedlichen Konzepten war, bevor sich BI tatsächlich als wichtiges Werkzeug der Unternehmenssteuerung etablieren konnte. Data Science wiederum vereint unterschiedliche Ansätze und Konzepte, die ebenfalls über Jahrzehnte hinweg diskutiert und entwickelt wurden, sich jedoch bis dato nicht flächendeckend hatten durchsetzen können. Erst seit Mitte/Ende der 2000er-Jahre hat sich Data Science rasant verbreitet und ist auf dem Weg, für viele Unternehmen zu einem wichtigen Baustein der Unternehmenssteuerung zu werden. Der Begriff Data Science taucht, folgt man Kelleher und Tierney, 1997 zum ersten Mal in einer Vorlesung von Jeff Wu mit dem Titel »Statistics = Data Science« auf. Die Erweiterung des Fokus über die Statistik hinaus in Richtung Machine Learning und das Aufkommen von Big Data hat aber letztlich erst zu dem Verständnis von Data Science geführt, wie man es heute kennt [Kelleher & Tierney 2018, S. 17 ff.].
Data Science ist dabei so vielschichtig und facettenreich, dass auch die Anforderungen an einen Data Scientist kaum durch eine Person allein abdeckbar zu sein scheinen. Von Machine Learning über Storytelling und Datenbanken gehen diese Anforderungen bis hin zu Domänen-Know-how. Daneben muss der Data Scientist selbstverständlich programmieren können, sich mit NoSQL und verteilten Systemen auskennen und sehr gute Kenntnisse in den Bereichen Statistik und Wahrscheinlichkeitsrechnung aufweisen. Das »skill-set desideratum« für einen Data Scientist ist in Abbildung 2–1 dargestellt.
Abb. 2–1 Das »skill set desideratum« für einen Data Scientist
Angesichts dieses Profils galt die Suche nach geeignetem und qualifiziertem Personal, um die Data Science im Unternehmen aufzubauen, daher lange als limitierender Faktor. Doch erst durch die Verknüpfung der unterschiedlichen Aspekte, Disziplinen und Kompetenzen der hier zusammenkommenden Teilbereiche hat es Data Science geschafft, den gewünschten und erhofften Mehrwert in den Unternehmen zu erbringen. Für nicht wenige Unternehmen und Geschäftsideen bedeutete Data Science und die daraus gewonnenen Erkenntnisse einen Quantensprung in der Unternehmenssteuerung mit der Möglichkeit, neue Services und Produkte erfolgreich am Markt zu platzieren.1
Die Technologie muss bereitstehen
Warum aber gerade jetzt? Was hat sich im Vergleich zum Ende der 1990er-Jahre verändert? In Bereichen wie Machine Learning oder Data Mining, abgesehen von der Statistik, wurde seit Jahrzehnten geforscht und gearbeitet, ohne jemals diese Durchschlagskraft zu erreichen. Viele Autoren sind sich einig, dass es zum einen der technologischen Entwicklung geschuldet ist, die das Durchführen komplexer Rechenoperationen in Clustern auf sogenannter »commodity hardware« oder mittlerweile auch in der Cloud für eine breite Masse an Unternehmen ermöglicht hat. Die notwendige Software steht in vielen Fällen als Open Source zur Verfügung, sodass die Unternehmen nicht nur erste Schritte ohne großen Aufwand machen können. Auch die Skalierbarkeit ist durch das Cluster sichergestellt.
Den zweiten wichtigen Faktor stellt sicherlich Big Data dar. Auch wenn man für ein Data-Science-Projekt nicht notwendigerweise Big Data benötigt2, stellt die Tatsache, dass wir heute über einen enormen Fundus an Daten verfügen, einen wichtigen Faktor für den Erfolg und die Verbreitung von Data Science in der Wirtschaft dar. Ob es sich um Sensordaten, um Logfiles, um Daten aus dem eigenen ERP-System oder um Open Data handelt: Unternehmen verfügen heute über einen sehr großen Datenpool, mit dem sie arbeiten können.
Neben den Ideen und Konzepten müssen auch die geeigneten Technologien vorhanden sein: Wie oben für BI gezeigt, machten es erst die technologischen Fortschritte möglich, die zuvor entwickelten Ideen und Utopien tatsächlich umzusetzen. Ähnliches erleben wir heute im Bereich Data Science. Damals wie heute sind es die technischen Fortschritte, die lang erarbeitete Ideen und Konzepte endlich auch realisierbar machen.3
»Garbage in, garbage out«
Im Data Warehousing war der ETL-Prozess lange Zeit ein unterschätzter Faktor. Dabei kommt gerade diesem Teil des Data-Warehouse-Prozesses aus verschiedenen Gründen eine zentrale Rolle zu. Zum einen ist die Auswahl geeigneter Datenquellen von entscheidender Bedeutung. Nur auf der Basis qualitativ hochwertiger Daten kann auch ein qualitativ hochwertiges Ergebnis im Rahmen der bereitgestellten Analysen erwartet werden. Wird dies von den Entwicklern zu wenig beachtet, können die am Ende zur Verfügung gestellten Berichte noch so schön sein, es gilt weiterhin die altbewährte Erkenntnis: »Garbage in, garbage out.«4
Zum anderen hat sich immer wieder gezeigt, dass der Workload, der mit dem ETL-Prozess verbunden ist, tendenziell