Data Science Beispiele

Damit man sich mehr unter dem Thema vorstellen kann, zeige ich ein paar Beispiele für den Einsatz von Data Science. Dabei reicht die Spanne von kleinen R-Skripten bis zu Machine Learning Algorithmen.

Titanic

Die Plattform www.kaggle.com bietet unterschiedlichste Competitions an, in denen Data Scientisten mit ihren Lösungen gegeneinander antreten können. Neben zum Teil recht hohen Preisgeldern geht es aber auch um „Ruhm und Ehre“ oder die reine Lernerfahrung.

Die Titanic-Competition ist dabei so etwas wie das „Hello World“ der Data Science Community. Untersuchungen des Untergangs der Titanic ergaben, dass manche Passagiere bessere Überlebenschancen hatten als andere. Mit Hilfe eines zur Verfügung gestellten Datensatz soll ein Machine Learning Algorithmus vorhersagen, welche Passagiere überleben.

Der Datensatz enthält Informationen über Buchungsklasse, Einstiegsort, Alter, etc. von 891 Passagieren. Wie in der realen Data Science Welt sind die Informationen nicht vollständig, es wird also eine Strategie benötigt, mit fehlenden und fehlerhaften Daten umzugehen.

Nach dem Training des Modells mit diesen Informationen wird es auf unbekannte Passagierdaten angewendet. Die Vorhersagegenauigkeit des Überlebens für diesen Datensatz ergibt den Score in der Competition. Mein Modell hatte auf Trainingsdaten eine Accuracy von 85,31% erreicht, in der Competition leider nur 78,47%. Das hat jedoch immer noch für Platz 3.621 gereicht von ca. 20.000 Teilnehmern (Bitte nicht wundern: die Einreichung habe ich unter dem Pseudonym Dean Corso vorgenommen).

Kaggle-Rank 3.621
Platzierung 3.621 für meine Lösung

Wobei die Platzierung in der Rangliste verfälscht ist. Auf den vordersten Plätzen erreichen Teilnehmer eine Genauigkeit von 100% mit der ersten Einreichung. Aber da die komplette Passagierliste öffentlich zugänglich ist, kann leicht etwas entwickelt werden, das für alle Passagiere das reale Ergebnis auswirft. Schade, da es dem Geist eines Wettbewerbs entgegenläuft.

Meine Lösung und den Weg dahin habe ich mit einer detaillierten Beschreibung auf Github veröffentlicht.

AirBnB

Neben diversen Competitions stellt www.kaggle.com auch komplette Datensätze zum Download frei zur Verfügung. Eines der Datensets enthält die Daten von AirBnB-Apartments in Berlin. Ich habe diesen Datensatz mit R untersucht, die Ergebnisse in einem R-Markdown Dokument festgehalten und auch auf Github hochgeladen.

Das Skript liest die Daten ein, bereinigt sie und führt dann eine explorative Datenanalyse durch. Das beantwortet zwar einige Fragen zum Datensatz, wirft aber auch neue Fragen auf, die mit einer weiteren Analyse beantworten werden müssten. Danach folgt das Training eines einfachen Machine Learning Modells, um Preise für AirBnB-Apartments vorhersagen zu können.

Zinsrechner

Der Zinsrechner ist eine kleine programmiertechnische Fingerübung, aber trotzdem nützlich für Trainings. Die Teilnehmer können damit online schnell finanzmathematischen Faktoren berechnen. Die Faktoren berechnet ein R-Skript, für die Ein- und Ausgabe habe ich eine Oberfläche mit Shiny Apps entwickelt und auf shinyapps.io veröffentlicht.