22Aufbruch Daten und InnovationData Scientists finden in Datensätzen neues Wissenoder Verbesserungsmöglichkeiten. Ein Blick in den Alltagzwischen Rolltreppen, Fußball und DatadriftTEXT: KATHARINA FUHRINILLUSTRATION: ANTON HALLMANNFOTOS: SCHREIBERPÖTTER, JAN ZÜHLKEAuf Erkenntnissuche
Modellieren und visualisieren23Wer in einen Zug steigen will, ist vorher meist auf andere Transportmittelder Deutschen Bahn angewiesen: Rolltreppen oder Fahrstühle helfen denPassagieren beim Wechsel zwischen Ebenen und Zügen. Allerdingskommt es vor, dass die Technik aufgrund einer Störung einfach stillsteht.Weshalb? Welcher Defekt steckt dahinter? Wann kommt es zu solchenAusfällen? Um eine Antwort auf diese Fragen zu finden, beschäftigt sichdie Datenexpertin Anne Traulsen mit den Informationen, die die DeutscheBahn von der Fahrstuhl- und Rolltreppentechnik sammelt. »Am Anfanghabe ich eine Menge roher Daten, die noch ziemlich dreckig sind«, erklärtTraulsen. »Diese Daten nehme ich mir Satz für Satz vor, entferne ›Verkrustungen‹,bearbeite und veredele sie. Erst dann kann ich sie analysieren.«Dafür muss Traulsen aber verstehen, wo das Problem seinen Ausganggenommen haben könnte. »Das klappt am besten, indem ich Hypothesenaufstelle. Zum Beispiel könnte es sein, dass die Technik besonders häufigam Tag eines Bundesligaspiels ausfällt, wenn viele emotional aufgeladeneMenschen am Bahnhof unterwegs sind. Diese Vermutung versuche ichdann, anhand der Daten zu belegen oder zu widerlegen.«Infos zu Wetter, Tageszeitund Auslastung verbinden» Mein Systemkann nur so gut sein wiedie Hypothese,die ich habe «JULIEN SIEBERT, FRAUNHOFER IESEAls Data Scientist arbeitet Anne Traulsen für DB Systel, die IT-Tochter derDeutschen Bahn. Im Gesamtkonzern liegt die Anzahl der Data Scientistsinzwischen etwa im dreistelligen Bereich. Die Spezialistinnen und Spezialistenver binden zum Beispiel Daten zum Wetter, zur Tageszeit oder zurFahrzeugauslastung, um Fahrgästen genauere Prognosen zu Umsteigezeitengeben zu können. Anne Traulsen kümmerte sich aber auch schonum Fragen der Optimierung bei der Auslastung des Schienennetzes oderum die Vorhersage von Fehlern an Zügen, der Einsatzbereich ist groß. Undgerade wegen der Größe des Arbeitsfeldes »Big Data«, so Traulsen, isteine Definition von Data Science so schwierig. Der Schwerpunkt allerdingsliege im Aufbereiten und Auswerten von Daten, etwa im Rahmen desMachine Learning, einem Bereich der künstlichen Intelligenz. Zugleichgebe es fließende Übergänge zum vorgelagerten Data Engineering: Dabeiwerden Datenquellen an einen zentralen Speicher angebunden, auf densich für die Auswertung zugreifen lässt. Anne Traulsen bringt ihre Arbeit soauf den Punkt: »Es geht um Erkenntnisgewinn anhand von Daten, die ichzu diesem Zweck modelliere und visualisiere.«Am Fraunhofer-Institut für Experimentelles Software Engineering (IESE)beschäftigt sich Julien Siebert unter anderem mit der Frage, was ein DataScientist eigentlich können sollte. Siebert definiert einen Data Scientist alsjemanden, der datengetriebene Software baut, die mithilfe von DatenanalysenAufgaben erfüllt und sich ein Stück weit selbst programmiert. »EinData Scientist kann die entsprechende Software bauen, er kann sie aberauch pflegen, warten, testen und weiterent wickeln.« Für seine Forschungzu Methoden der Data Science spricht Siebert häufig mit anderen DataScientists über deren Herausforderungen und Vorgehensweisen. »Oftstarten wir die Arbeit mit einem Problem, das undefiniert ist, wenn wirzum Beispiel etwas ›einfach optimieren‹ sollen.« Elementar wichtig sei esan diesem Punkt, ähnlich wie Anne Traulsen eine Annahme zu treffen, eineHypothese aufzustellen. Julien Siebert sagt: »Mein System kann nur so gut