Data Science: Ich sehe tote Menschen.

Data Science sorgt weiterhin überall für Begeisterung. Und doch können viele Ergebnisse aus der Praxis die datenverliebten Düsentriebe, Manager, Vorstände und Mitarbeiter oft doch bitterböse enttäuschen. Und nicht nur das – sie können sogar töten!

Data-Projekte können ziemlich blutig enden. Und zwar nicht nur im übertragenen Sinne.

Kai Schmidhuber

What!? OK, jetzt muss ich hier aber abliefern. Lesen Sie bitte weiter. Aber bevor es auch in Ihrem Data-Science-Projekt blutig wird, fangen wir mal mit den einfachen Dingen an. Zum Beispiel mit der Grundlage. Quasi mit der „Currywurst-Pommes-Schranke“, bevor es samstagabends zur Party geht. VORSICHT: Wenn Sie jetzt weiterlesen, erhalten Sie eine kostenlose Ferndiagnose ihrer Daten! 3…….2…….1:

Ferndiagnose: Ihre teuren Daten sind erstmal Schrott. Gern geschehen.

Fragen Sie sich bei Data-Vorhaben besser immer erst einmal, ob die Daten, die Sie dafür verwenden wollen, schon einmal in einem Projekt verwendet wurden. Nein? Nicht? Oha. Dann fügen Sie bitte acht bis zwölf Monate in den Zeitplan für die Datenbereinigung ein. Meine Empfehlung: führen Sie immer vor Beginn ein Daten-Audit durch. Überprüfen Sie, ob fehlende oder unsaubere Daten vorhanden sind. Klassiker: Sales-Data. Und plötzlich merken Sie, dass ihre Datenbank verschiedene Transaktionen in Dollar- und Euro-Beträgen gespeichert hat, ohne anzugeben, welche Transaktionen welche waren. Ja, das passiert. Ziemlich oft, sogar.

Daten sind nicht das neue Öl. Sorrriiieeeh!

Nochmal ich

Und nun noch kurz zu denjenigen, die ständig behaupten, Daten wären das neue Öl. Sie liegen falsch. Nochmal SRY, wenn ich hier ihre Keynote Speech zerstöre! Daten sind kein Rohstoff. Sie müssen in ein Produkt umgewandelt werden, bevor sie wertvoll – ein Rohstoff – werden. Daten sind vorher erstmal gar nichts. Ein bisschen so wie das Land Phantasien, das in der unendlichen Geschichte zu Nichts zerfällt. Ich habe in den letzten Jahren eigentlich selten ein Thema erlebt, dass so viele Menschen quasi über Nacht zu superversierten Sofortexperten transformiert. Ich spreche von “Machine Learning“. Heute hat jeder eine großartige Idee zum maschinellen Lernen. Zu den häufigsten „Sofortexperte-Symptomen“ zählen Menschen, die Wörter wie „neuronal“ und „Python“ im falschen Kontext verwenden. Vertrauen Sie mir, das wird dann eher nix. Ich gebe Ihnen mal ein Beispiel, von dem ich kürzlich auf einem Mediziner-Kongress gehört habe (Sie wollen gar nicht wissen, was ich da eigentlich verloren hatte).

Und jetzt wird’s endlich blutig. Ein bisschen. Also los:

Es gab in den USA ein Maschine Learning-Projekt einer Krankenhausgesellschaft. Zur Kostenoptimierung. Das Projekt sollte Daten aus angeschlossenen Krankenhäusern nutzen, um Notfallpatienten mit Lungenentzündung effizienter versorgen zu können. Man wollte ein System aufbauen, das Notfälle mit geringer Todeswahrscheinlichkeit vorhersagen kann, so dass diese einfach mit Antibiotika nach Hause geschickt werden können. Dies würde es ermöglichen, die Pflege auf die schwerwiegendsten Fälle zu konzentrieren, die wahrscheinlich Komplikationen erleiden würden. 

Und ich so: „KRASS. Das ist mega schlau!“ Das von den Wissenschaftlern entwickelte neuronale Netzwerk hatte sogar eine sehr hohe Genauigkeit. Aber seltsamerweise entschied es sich immer, Asthmapatienten nach Hause zu schicken! Das ist merkwürdig, denn wie ich erfuhr, haben Asthmatiker tatsächlich ein hohes Risiko für tödliche Komplikationen durch eine Lungenentzündung. Wir spulen diesen Data-Splatter-Movie mal vor…

Tja… Es stellte sich heraus, dass Asthmatiker, die an einer Lungenentzündung leiden, sonst immer direkt auf die Intensivstation geschickt wurden. Aus diesem Grund gab es in den Trainingsdaten keine Fälle von Asthmatikern, die starben. Das Modell kam so zu dem Schluss, dass Asthmatiker ein geringes Risiko darstellen, obwohl das Gegenteil der Fall war. Es hatte eine hohe Genauigkeit, aber wenn es in der “Produktion“ eingesetzt würde, hätte es sicherlich Menschen getötet.

Merke: Data Science ist nur dann klug, wenn sie ihr zu Grunde liegendes Thema auch versteht. Sonst gibt es Tote.Sie haben es erraten.

Zitat meinerseits.

Falls Sie sich demnächst, Gott bewahre, mal auf den Weg zur Notfallambulanz machen müssen, kann ich Sie aber beruhigen. 

Keine Angst. 

Echt.

Wieso? 

Naja,  

in den meisten Firmen dauert es nämlich Monate, bis die frisch eingestellten Data Scientists überhaupt arbeitsfähig sind. Wenn überhaupt. Da wird schon mal wochenlang auf die richtige Software gewartet. Oder den richtigen Computer. Oder beides. Und dann wären dann ja noch die unstrukturierten Daten, der viel gepriesene „Datenschatz“. Der sich erstmal als Daten-Müllhalde entpuppt. Und aus dem feinmotorischen Data Scientisten wird erstmal ein virtueller Muskelman aka. Data-Entrümpler.

Aber, die Uhr tickt. Bald wird maschinen-gelernt und die Phyton von der Leine gelassen. Merke: Morgens neuronal, abends weiterhin Elmex. 

Bleiben Sie gesund!