Wieso ich nicht will, dass Daten das neue Öl sind.

Sieht toll aus! Ist aber ziemlich schlecht für die Umwelt.

Daten sind das neue Öl? Wir sprechen uns bei der nächsten Ölkatastrophe.

Kai Schmidhuber, digitaler Umweltaktivist. 

Man hört heute mit einiger Häufigkeit, dass „Daten das neue Öl sind“. Die meisten Menschen, die die Analogie genutzt haben, tun dies, um den enormen Wert von Big Data zu vermitteln. Daten sind eine wesentliche Ressource, die die Informationswirtschaft antreibt, ähnlich wie Öl die Industriewirtschaft beflügelt hat. 

Big Data verspricht eine Vielzahl neuer Anwendungen – die Identifizierung und Prävention der Pandemien, das Entstehen neuer Unternehmen und Geschäftsfelder, und natürlich mein Steckenpferd, die Verbesserung der Qualität und Effizienz im Marketing, um nur einige zu nennen. Genauso wie Öl nützliche Kunststoffe, Petrochemikalien, Schmierstoffe und Benzin hervorgebracht hat. 



Denken wir diesen Vergleich doch mal weiter. 

Öl hat sicherlich viele produktive Anwendungen, aber es führt auch zu Ölverschmutzung. Bei Big Data ist es ähnlich. Daten bringen enorme Vorteile, verursachen aber gleichzeitig erhebliche Verletzungen der Privatsphäre. Mit zunehmender Größe der Datensätze wächst auch die Bedrohung. 

Big Data ist wie ein riesiger Öltanker, der durch die Schwärme von Hackern, Kriminellen, Politikern und menschlichen Fehlern navigiert. Daten können klüger und reicher machen und unser Leben verbessern. Wie Öl können sie uns aber auch schaden.

Denken wir einfach mal noch etwas weiter. 

Um die von Öl ausgehende Gefahr einzudämmen, wurde eine Vielzahl an Gesetzen, Normen und Regeln entwickelt – und Verstöße werden hart sanktioniert. Was können wir also – wenn Big Data wirklich das neue Öl ist – aus diesen Regelwerken lernen? 

Nun, Ölverschmutzungen treten vor allem auf drei Arten auf. 

  • Sie verunreinigen und verwüsten Strände, Küsten und Wasser. 
  • Und sie schädigen natürlich die dort lebenden Wesen. 
  • Sie verursachen zudem Kohlenstoffemissionen und tragen so zum Treibhauseffekt und zum Klimawandel bei (falls Sie daran glauben. Soll ja Leute geben, die halten das für Quatsch).

Die missbräuchliche oder nachlässige Nutzung von Big Data verursacht analoge Verletzungen der Privatsphäre. Wie Öl laufen Daten aus. Datensicherheitsverletzungen verursachen großen Schaden, ebenso wie Ölunfälle Schäden verursachen. Die desaströsen Auswirkungen von Big Data sind auch analog zu Kohlenstoffemissionen und Klimawandel. Die Ölverbrennung trägt zu einer wachsenden Schicht von Treibhausgasen bei, die die Wärme der Sonne einfängt, den Klimawandel verursacht und die Erde so allmählich in eine finnische Sauna transformiert. In ähnlicher Weise erzeugen die Produzenten von Big Data Schicht für Schicht persönliche Informationen. Wir Menschen werden dadurch zur Ameise unter dem Brennglas. Es wird heiß. Und es gibt wenig Schutz und Schatten. 

Mein Mailpostfach kann ein Lied davon singen. Und Alexa auch.

OK, spinnen wir weiter. 

Was könnte man also tun? 

Sich am Umweltrecht bedienen.
 

Zum Beispiel könnten wir eine Gesetzgebung verabschieden, die die „Säuberung“ von „geleakten“ Daten durch die Regierung autorisiert. Wie bei der Wasserverschmutzung durch Ölauslauf in den USA. Das könne geschehen durch Bereitstellung von Dienstleistungen sowie Beratung und Wiederherstellung von Daten nach Identitätsdiebstahl. Die Agentur, die die „Säuberung“ durchführt, könnte dann eine immense Kostenerstattung von den Verantwortlichen für das Datenleak verlangen. Ich bewerbe mich hiermit zum Aufbau dieser Agentur, liebe Frau Merkel. 

Eine solche Gesetzgebung könnte außerdem die Haftung für derlei Handlungen erweitern und sicherstellen, dass auch immaterielle Schäden – zum Beispiel solche an Seele und Psyche von Betroffenen – wiederherzustellen sind. Zum Beispiel könnte ausdrücklich erlaubt werden, Schadenersatz für die emotionale Belastung zu verlangen, die durch die Freigabe wichtiger persönlicher Informationen oder durch das Risiko von Identitätsdiebstahl verursacht wird. Darüber hinaus könnte ein solches Gesetz eine strenge Haftung für Datenverluste vorsehen, wodurch die Notwendigkeit entfällt, die Fahrlässigkeit eines Beklagten nachzuweisen. 

Schließlich – so wie das Gesetz von Öltransportern verlangt, ihre Schiffe umweltschonend zu konstruieren – könnte die Gesetzgebung von informationsintensiven Unternehmen organisatorische Maßnahmen verlangen, um die Privatsphäre durch eine besondere Unternehmenskonstruktion zu respektieren, sodass nicht – sorry für das Beispiel – jeder Praktikant Zugriff darauf hat. Ist nämlich leider oft genug der Fall.Wenn Öltanker teure Doppelhüllen verwenden müssen, sollten Datensicherheitssysteme vielleicht eine Mehrfach-Authentifizierung einsetzen müssen. Oder nehmen wir uns ein Beispiel an Autos. Die müssen alle zwei Jahre zur HU. Oder Restaurants. Die kriegen ständig Besuch von Lebensmittelkontrolleuren. Wer prüft eigentlich die Datensicherheit in Unternehmen? Das Finanzamt? Das BVMI? LOL. Kai Schmidhuber

Bleibt für mich als Fazit: Da ist noch eine Menge zu regeln, wenn Daten wirklich das neue Öl sein sollen. 

„Jaaaa, Moment!“ werden jetzt viele Leserinnen und Leser denken. „Vergisst der Schmidhuber da nicht etwas? Zum Beispiel die Datenschutzgrundverordnung und EU-Privacy Law?“ Nein, habe ich nicht vergessen. Und ich finde es auch richtig, dass es diese Initiativen gibt. Doch ein Blick in Presse, Magazine und sonstige Berichterstattungen über die „gesetzumsetzenden“ Unternehmen zeigt, dass diese Verordnungen weit davon entfernt sind, „doppelwandige Datentanker“ zu kreieren. Ich denke, einige von Ihnen werden mir da zustimmen. Ja, die DSGVO macht Angst. Ja, sie hat auch viel Chaos angerichtet. Aber sie wird keine datentechnische „Ölkatastrophe“ verhindern. Sie ist für mich eher so das obligatorische „Kaugummi-bitte-in-die-Mülltonne-Gesetz“.Die DSGVO ist für mich das obligatorische Kaufgummi-bitte-in-die-Mülltonne-Gesetz.Passionierter Wrigleys-Kauer

Noch viel zu tun, wenn Daten das neue Öl sein sollen.

 

Mein Vorschlag:Daten sind die neue Briefmarkensammlung. Jeder hat irgendwo eine. Alle denken, sie sei wertvoll. Die wenigsten wissen etwas damit anzufangen. Und bis sie es wissen, geprüfte und versierte Datenwissenschaftler an Board haben, ausfallsichere Prozesse installiert und überhaupt mal einen PLAN haben, damit etwas sinnvolllles anzufangen, lassen Sie sie bis dahin besser einfach im Tresor.Kai Schmidhuber, sammelt zwar keine Briefmarken, aber auch keine Daten

Data Science: Ich sehe tote Menschen.

Data Science sorgt weiterhin überall für Begeisterung. Und doch können viele Ergebnisse aus der Praxis die datenverliebten Düsentriebe, Manager, Vorstände und Mitarbeiter oft doch bitterböse enttäuschen. Und nicht nur das – sie können sogar töten!

Data-Projekte können ziemlich blutig enden. Und zwar nicht nur im übertragenen Sinne.

Kai Schmidhuber

What!? OK, jetzt muss ich hier aber abliefern. Lesen Sie bitte weiter. Aber bevor es auch in Ihrem Data-Science-Projekt blutig wird, fangen wir mal mit den einfachen Dingen an. Zum Beispiel mit der Grundlage. Quasi mit der „Currywurst-Pommes-Schranke“, bevor es samstagabends zur Party geht. VORSICHT: Wenn Sie jetzt weiterlesen, erhalten Sie eine kostenlose Ferndiagnose ihrer Daten! 3…….2…….1:

Ferndiagnose: Ihre teuren Daten sind erstmal Schrott. Gern geschehen.

Fragen Sie sich bei Data-Vorhaben besser immer erst einmal, ob die Daten, die Sie dafür verwenden wollen, schon einmal in einem Projekt verwendet wurden. Nein? Nicht? Oha. Dann fügen Sie bitte acht bis zwölf Monate in den Zeitplan für die Datenbereinigung ein. Meine Empfehlung: führen Sie immer vor Beginn ein Daten-Audit durch. Überprüfen Sie, ob fehlende oder unsaubere Daten vorhanden sind. Klassiker: Sales-Data. Und plötzlich merken Sie, dass ihre Datenbank verschiedene Transaktionen in Dollar- und Euro-Beträgen gespeichert hat, ohne anzugeben, welche Transaktionen welche waren. Ja, das passiert. Ziemlich oft, sogar.

Daten sind nicht das neue Öl. Sorrriiieeeh!

Nochmal ich

Und nun noch kurz zu denjenigen, die ständig behaupten, Daten wären das neue Öl. Sie liegen falsch. Nochmal SRY, wenn ich hier ihre Keynote Speech zerstöre! Daten sind kein Rohstoff. Sie müssen in ein Produkt umgewandelt werden, bevor sie wertvoll – ein Rohstoff – werden. Daten sind vorher erstmal gar nichts. Ein bisschen so wie das Land Phantasien, das in der unendlichen Geschichte zu Nichts zerfällt. Ich habe in den letzten Jahren eigentlich selten ein Thema erlebt, dass so viele Menschen quasi über Nacht zu superversierten Sofortexperten transformiert. Ich spreche von “Machine Learning“. Heute hat jeder eine großartige Idee zum maschinellen Lernen. Zu den häufigsten „Sofortexperte-Symptomen“ zählen Menschen, die Wörter wie „neuronal“ und „Python“ im falschen Kontext verwenden. Vertrauen Sie mir, das wird dann eher nix. Ich gebe Ihnen mal ein Beispiel, von dem ich kürzlich auf einem Mediziner-Kongress gehört habe (Sie wollen gar nicht wissen, was ich da eigentlich verloren hatte).

Und jetzt wird’s endlich blutig. Ein bisschen. Also los:

Es gab in den USA ein Maschine Learning-Projekt einer Krankenhausgesellschaft. Zur Kostenoptimierung. Das Projekt sollte Daten aus angeschlossenen Krankenhäusern nutzen, um Notfallpatienten mit Lungenentzündung effizienter versorgen zu können. Man wollte ein System aufbauen, das Notfälle mit geringer Todeswahrscheinlichkeit vorhersagen kann, so dass diese einfach mit Antibiotika nach Hause geschickt werden können. Dies würde es ermöglichen, die Pflege auf die schwerwiegendsten Fälle zu konzentrieren, die wahrscheinlich Komplikationen erleiden würden. 

Und ich so: „KRASS. Das ist mega schlau!“ Das von den Wissenschaftlern entwickelte neuronale Netzwerk hatte sogar eine sehr hohe Genauigkeit. Aber seltsamerweise entschied es sich immer, Asthmapatienten nach Hause zu schicken! Das ist merkwürdig, denn wie ich erfuhr, haben Asthmatiker tatsächlich ein hohes Risiko für tödliche Komplikationen durch eine Lungenentzündung. Wir spulen diesen Data-Splatter-Movie mal vor…

Tja… Es stellte sich heraus, dass Asthmatiker, die an einer Lungenentzündung leiden, sonst immer direkt auf die Intensivstation geschickt wurden. Aus diesem Grund gab es in den Trainingsdaten keine Fälle von Asthmatikern, die starben. Das Modell kam so zu dem Schluss, dass Asthmatiker ein geringes Risiko darstellen, obwohl das Gegenteil der Fall war. Es hatte eine hohe Genauigkeit, aber wenn es in der “Produktion“ eingesetzt würde, hätte es sicherlich Menschen getötet.

Merke: Data Science ist nur dann klug, wenn sie ihr zu Grunde liegendes Thema auch versteht. Sonst gibt es Tote.Sie haben es erraten.

Zitat meinerseits.

Falls Sie sich demnächst, Gott bewahre, mal auf den Weg zur Notfallambulanz machen müssen, kann ich Sie aber beruhigen. 

Keine Angst. 

Echt.

Wieso? 

Naja,  

in den meisten Firmen dauert es nämlich Monate, bis die frisch eingestellten Data Scientists überhaupt arbeitsfähig sind. Wenn überhaupt. Da wird schon mal wochenlang auf die richtige Software gewartet. Oder den richtigen Computer. Oder beides. Und dann wären dann ja noch die unstrukturierten Daten, der viel gepriesene „Datenschatz“. Der sich erstmal als Daten-Müllhalde entpuppt. Und aus dem feinmotorischen Data Scientisten wird erstmal ein virtueller Muskelman aka. Data-Entrümpler.

Aber, die Uhr tickt. Bald wird maschinen-gelernt und die Phyton von der Leine gelassen. Merke: Morgens neuronal, abends weiterhin Elmex. 

Bleiben Sie gesund!