Data Science: Ich sehe tote Menschen.

Data Science sorgt weiterhin überall für Begeisterung. Und doch können viele Ergebnisse aus der Praxis die datenverliebten Düsentriebe, Manager, Vorstände und Mitarbeiter oft doch bitterböse enttäuschen. Und nicht nur das – sie können sogar töten!

Data-Projekte können ziemlich blutig enden. Und zwar nicht nur im übertragenen Sinne.

Kai Schmidhuber

What!? OK, jetzt muss ich hier aber abliefern. Lesen Sie bitte weiter. Aber bevor es auch in Ihrem Data-Science-Projekt blutig wird, fangen wir mal mit den einfachen Dingen an. Zum Beispiel mit der Grundlage. Quasi mit der “Currywurst-Pommes-Schranke”, bevor es samstagabends zur Party geht. VORSICHT: Wenn Sie jetzt weiterlesen, erhalten Sie eine kostenlose Ferndiagnose ihrer Daten! 3…….2…….1:

Ferndiagnose: Ihre teuren Daten sind erstmal Schrott. Gern geschehen.

Fragen Sie sich bei Data-Vorhaben besser immer erst einmal, ob die Daten, die Sie dafür verwenden wollen, schon einmal in einem Projekt verwendet wurden. Nein? Nicht? Oha. Dann fügen Sie bitte acht bis zwölf Monate in den Zeitplan für die Datenbereinigung ein. Meine Empfehlung: führen Sie immer vor Beginn ein Daten-Audit durch. Überprüfen Sie, ob fehlende oder unsaubere Daten vorhanden sind. Klassiker: Sales-Data. Und plötzlich merken Sie, dass ihre Datenbank verschiedene Transaktionen in Dollar- und Euro-Beträgen gespeichert hat, ohne anzugeben, welche Transaktionen welche waren. Ja, das passiert. Ziemlich oft, sogar.

Daten sind nicht das neue Öl. Sorrriiieeeh!

Nochmal ich

Und nun noch kurz zu denjenigen, die ständig behaupten, Daten wären das neue Öl. Sie liegen falsch. Nochmal SRY, wenn ich hier ihre Keynote Speech zerstöre! Daten sind kein Rohstoff. Sie müssen in ein Produkt umgewandelt werden, bevor sie wertvoll – ein Rohstoff – werden. Daten sind vorher erstmal gar nichts. Ein bisschen so wie das Land Phantasien, das in der unendlichen Geschichte zu Nichts zerfällt. Ich habe in den letzten Jahren eigentlich selten ein Thema erlebt, dass so viele Menschen quasi über Nacht zu superversierten Sofortexperten transformiert. Ich spreche von “Machine Learning“. Heute hat jeder eine großartige Idee zum maschinellen Lernen. Zu den häufigsten “Sofortexperte-Symptomen” zählen Menschen, die Wörter wie “neuronal” und “Python” im falschen Kontext verwenden. Vertrauen Sie mir, das wird dann eher nix. Ich gebe Ihnen mal ein Beispiel, von dem ich kürzlich auf einem Mediziner-Kongress gehört habe (Sie wollen gar nicht wissen, was ich da eigentlich verloren hatte).

Und jetzt wird’s endlich blutig. Ein bisschen. Also los:

Es gab in den USA ein Maschine Learning-Projekt einer Krankenhausgesellschaft. Zur Kostenoptimierung. Das Projekt sollte Daten aus angeschlossenen Krankenhäusern nutzen, um Notfallpatienten mit Lungenentzündung effizienter versorgen zu können. Man wollte ein System aufbauen, das Notfälle mit geringer Todeswahrscheinlichkeit vorhersagen kann, so dass diese einfach mit Antibiotika nach Hause geschickt werden können. Dies würde es ermöglichen, die Pflege auf die schwerwiegendsten Fälle zu konzentrieren, die wahrscheinlich Komplikationen erleiden würden. 

Und ich so: „KRASS. Das ist mega schlau!“ Das von den Wissenschaftlern entwickelte neuronale Netzwerk hatte sogar eine sehr hohe Genauigkeit. Aber seltsamerweise entschied es sich immer, Asthmapatienten nach Hause zu schicken! Das ist merkwürdig, denn wie ich erfuhr, haben Asthmatiker tatsächlich ein hohes Risiko für tödliche Komplikationen durch eine Lungenentzündung. Wir spulen diesen Data-Splatter-Movie mal vor…

Tja… Es stellte sich heraus, dass Asthmatiker, die an einer Lungenentzündung leiden, sonst immer direkt auf die Intensivstation geschickt wurden. Aus diesem Grund gab es in den Trainingsdaten keine Fälle von Asthmatikern, die starben. Das Modell kam so zu dem Schluss, dass Asthmatiker ein geringes Risiko darstellen, obwohl das Gegenteil der Fall war. Es hatte eine hohe Genauigkeit, aber wenn es in der “Produktion“ eingesetzt würde, hätte es sicherlich Menschen getötet.

Merke: Data Science ist nur dann klug, wenn sie ihr zu Grunde liegendes Thema auch versteht. Sonst gibt es Tote.Sie haben es erraten.

Zitat meinerseits.

Falls Sie sich demnächst, Gott bewahre, mal auf den Weg zur Notfallambulanz machen müssen, kann ich Sie aber beruhigen. 

Keine Angst. 

Echt.

Wieso? 

Naja,  

in den meisten Firmen dauert es nämlich Monate, bis die frisch eingestellten Data Scientists überhaupt arbeitsfähig sind. Wenn überhaupt. Da wird schon mal wochenlang auf die richtige Software gewartet. Oder den richtigen Computer. Oder beides. Und dann wären dann ja noch die unstrukturierten Daten, der viel gepriesene „Datenschatz“. Der sich erstmal als Daten-Müllhalde entpuppt. Und aus dem feinmotorischen Data Scientisten wird erstmal ein virtueller Muskelman aka. Data-Entrümpler.

Aber, die Uhr tickt. Bald wird maschinen-gelernt und die Phyton von der Leine gelassen. Merke: Morgens neuronal, abends weiterhin Elmex. 

Bleiben Sie gesund!

Schulabbrecher erklärt Geheimwissenschaft “Machine Learning”. Geht das?

Früher habe ja ich den Physikunterricht geradezu geliebt. Um ihn zu sabotieren. Der Lehrer machte mit uns physikalische Versuche, und oft musste dann zum Beispiel die Zeit gestoppt werden. Das war meine Rolle. Und ich habe die Zeit immer absichtlich falsch genommen. Physiklehrer: mit den Nerven am Ende. Versuch: missglückt. Man sollte nicht stolz darauf sein.

Analytische Geometrie ist mein Untergang.

Kai Schmidhuber, Schüler wider Willen

Noch weniger stolz bin ich allerdings auf meine mathematischen Fähigkeiten. In der Oberstufe habe ich, anstatt die Klausuraufgaben zu lösen, lieber mal einen Aufsatz verfasst – Titel: „Analytische Geometrie ist mein Untergang“. Ausgerechnet der Matheunterricht soll mir heute dabei helfen, Ihnen das Thema „Machine Learning“ näherzubringen.

Jetzt kommt Ihre Doppelstunde “Machine Learning” – easy!

Also, versetzen Sie sich in alte Zeiten: Holzbank, kippelnder Stuhl, abgelatschter Linoleumboden und der Geruch von feuchten Klamotten nach einer geheimen Raucherpause im Regen hinter der Turnhalle. Ich sehe: Sie haben bereits diesen beseelt-angewiderten Blick. 

Also, los geht’s:

 Beginnen wir mit einer einfachen Erklärung des maschinellen Lernens am Beispiel Mathematikunterricht: Der Lehrer gibt irgendeine Aufgabenstellung vor, die es rechnerisch und logisch zu lösen gilt, und natürlich kommen dann später auch die richtigen Antworten von ihm. So weit, so normal. 



Merke:


  • Die Aufgabenstellung nennt man im Machine-Learning-Kosmos das „Übungsproblem“.
  • Unterschiedliche Übungsprobleme zeichnen sich durch unterschiedliche „Eingabedaten“ aus.

Jetzt nehmen wir einmal meinen persönlichen Worst Case an: Doppelstunde Mathe. Lehrer krank, stattdessen ein topmotivierter Referendar am Start. Und der ballert die Schüler jetzt mit ganz, ganz, ganz vielen Übungsproblemen zu. Und liefert ganz, ganz viele Antworten. Zunächst große Verwirrung: „Was will der Typ?!“ Ganz einfach – der Referendar verlangt von den Schülern, Methoden zur Lösung der Übungsprobleme zu finden, indem sie Muster im Vergleich zwischen den Informationen innerhalb der Probleme und den zugehörigen Antworten erkennen. Denn jedes Übungsproblem kodiert Informationen, die ein Schüler erfassen und sich so eine Antwort zusammenreimen kann. Indem er also die Übungsprobleme miteinander vergleicht, leitet der Schüler aus Gemeinsamkeiten und weiteren Elementen die Antworten ab.

 

Also:

  • Der Referendar ist der „Data Scientist“.
  • Der Schüler ist der „Machine-Learning-Algorithmus“
  • Antworten auf Übungsprobleme werden auch „Labels” genannt.
  • Den Lernprozess können wir als “Training eines Algorithmus” bezeichnen.



Nach Hunderten von Übungsproblemen erwartet der radebrechende Referendar, dass unser exemplarischer Schüler nun in der Lage ist, eine Art Muster zu finden, das er nutzen kann, um das Problem zu lösen. Also testet er den Schüler, beauftragt ihn mit der Prüfung von neuen Fragen und vergleicht die generierten Antworten mit den tatsächlichen Antworten.  Er stellt den Algorithmus damit auf die Probe.  

Die große Auflösung. Ist der Algorithmus genau?



Wenn der Schüler (=Algorithmus) jetzt, wie ich damals, einen emotionalen Aufsatz über sein mathematisches Unvermögen schreibt, haben wir zwar eine Weltsensation – aber der Referendar sein Ziel verfehlt. Denn die Bewertung seiner Genauigkeit gibt ihm ein Maß für die Effektivität sowohl des Schülers als auch der Menge der Übungsprobleme, die ihm gegeben wurden.

 Wir wissen aber auch, dass einzelne Schüler zu unterschiedlichen Lernstilen neigen. 

Ganz ähnlich versucht auch jeder maschinelle Lernalgorithmus auf seine eigene Art und Weise, Muster innerhalb der Eingabedaten zu finden. Diese unterschiedlichen Stile machen Schüler in verschiedenen Fächern individuell besonders kompetent, ebenso wie einige ML-Algorithmen nützlicher und robuster für bestimmte Datentypen sind als andere.

Tja, und das ist erst mal alles, was es über das Thema „Machine Learning“ zu wissen gibt – im Prinzip keine Geheimwissenschaft. Und auch nicht unfassbar schwer. Viel schwerer ist es da schon, die richtigen Übungsprobleme zu finden und deren notwendige Daten. Und dann gemeinsam mit der Fachseite, dem Business, aus einer Idee für einen Algorithmus auch ein funktionierendes Produkt zu entwickeln. 



Die Moral von der Geschicht’: 

Algorithmen sind nichts anderes als schlaue Eliteschüler. 

Kein Eliteschüler

Und ich schreibe weiter Aufsätze. 

So wie den hier.

(Zur Info: Ja, ich habe tatsächlich kein Abitur und die Schule in der dreizehnten Klasse abgebrochen. Ich musste mich um mein Startup kümmern. Erschien mir logisch)