Data Science – was ist das?

Data Science ist ein sehr modernes Thema und dementsprechend emotional aufgeladen. Viele wollen mitreden und werfen dabei mit Begriffen um sich, ohne sie genau zu verstehen. Sie verwechseln Begriffe, benutzen sie im falschen Kontext oder lassen sie als Buzzword an allen möglichen Stellen fallen. Doch was genau ist die Definition von Data Science? Und wie unterscheidet sich Advanced Analytics, Business Intelligence und Big Data?

Data Science ist eine Art Oberbegriff für die Kunst, aus Daten Informationen zu gewinnen, oder wie Wikipedia es definiert: „generell die Extraktion von Wissen aus Daten.“ Dazu gehören neben mathematischen Modellen und Statistik auch Computerfertigkeiten.

Data Science als Schnittmenge zwischen BWL, Informatik und Mathematik
Data Science als Schnittmenge zwischen BWL, Informatik und Mathematik

Ziel der Data Science ist es, dem Management Handlungsempfehlungen aufzuzeigen. Darum ist unternehmensspezifischen Fachwissen notwendig, um die Erkenntnisse aus den Modellen einzuordnen und zu bewerten.

Advanced Analytics

Advanced Analytics bezeichnet den Teilbereich von Data Science, der sich nicht nur auf Daten der Vergangenheit fokussiert. Sie versucht vielmehr, Vorhersagen über die Zukunft zu treffen. Im Gegensatz zu Business Intelligence bezieht sich Advanced Analytics somit nicht nur auf historische Ereignisse und deren Auswertung, sondern erweitert die Analysen um eine vorwärtsgerichtete Perspektive.

Advanced Analytics als Teilbereich der Data Science
Advanced Analytics als Teilbereich der Data Science

Predictive Analytics

Predictive Analytics ist der Bereich des Machine Learning. Die Vorhersage von Ereignissen basiert dabei auf der statistischen Modellierung historischer Daten. Sie beantwortet die Frage „Was wird passieren?“ und wendet dazu eine Vielzahl an Data Mining Methoden an.

Hier unterscheidet sich Predictive Analytics von herkömmlicher Datenanalyse, da zur Umsetzung fortgeschrittene statistische Methoden und Programmierkenntnisse notwendig sind. Auch die Anforderungen an Datenumfang und Datenqualität sind für dieses Vorgehen deutlich höher.

Beispiele für Predictive Analytics sind Vorhersagen über Kundenverhalten oder Preisvorhersagen. Hier habe ich etwa ein Modell erstellt, das Mietpreise von AirBnB-Apartments an bestimmten Wochentagen vorhersagt.

Descriptive Analytics

Der zweite Teil von Advanced Analytics ist Descriptive Analytics und beantwortet die Frage „Warum ist etwas passiert?“. Das geht über eine reine Kostenbetrachtung hinaus und versucht, die tatsächlichen Wirkzusammenhänge zu finden. Ein Gewinnrückgang eines Versandhändlers ist dabei zum Beispiel nicht einfach in einer gestiegenen Retourenquote begründet. Vielmehr werden Daten aus unterschiedlichsten Quellen kombiniert, um herauszufinden, warum die Kunden so viele Waren zurückschicken. Dabei stellt sich vielleicht heraus, dass die Artikelbeschreibung im Online-Shop ungeschickt platziert ist und die Kunden gar nicht bis dahin scrollen.

Business Intelligence

Business Intelligence ist ein technologiegetriebener Prozess, der geschäftsrelevante Daten aus unterschiedlichen Quellen und Systemen sammelt. Diese Daten transformiert sie zu Informationen und durch die Anwendung von Erfahrung wird daraus Wissen. Das Ziel ist dabei das Erzeugen von Wissen über die aktuelle Lage des Unternehmens.

Dabei hat Business Intelligence jedoch eine vergangenheitsorientierte Sichtweise, die Frage „Was ist passiert?“ steht im Mittelpunkt. Im Controlling beschäftigt sich der Bereich Reporting mit dieser Frage, aber auch andere Unternehmensbereichen setzen Business Intelligence ein. Dabei geht es nicht nur um Gewinne und Kosten, sondern oft auch um spezielle operative Kennzahlen.

Big Data

Big Data gab es schon, bevor der Begriff erfunden wurde. Banken und Börsen verarbeiten zum Beispiel seit Langem Milliarden an Transaktionen täglich, Luftfahrtgesellschaften benötigen eine weltumspannende real-time Buchungslogistik für ihr Geschäft. Was ist also Big Data?

Eine Eingrenzung von Big Data kann über die drei V erfolgen: Velocity, Variety, Volume. Damit spaltet sich die Frage in drei Unterfragen auf:

Velocity: Können die eintreffenden Daten auf einem einzelnen Rechner verarbeitet werden?

Variety: Kommen die Daten aus einer einzelnen Quelle?

Volume: Können die Daten im Arbeitsspeicher gehalten werden?

Wenn Sie alle drei Fragen mit „ja“ beantworten können, ist es sehr wahrscheinlich kein „Big Data“, sondern vielleicht nur eine umständliche Datenarchitektur. Wenn Ihre Daten jedoch nicht mehr in den Arbeitsspeicher passen, dann betreten Sie langsam die Welt von Big Data. Und spätestens, wenn Sie alle drei Fragen mit „nein“ beantworten, haben Sie es mit wirklich großen Datenmengen zu tun.