- Home
-
Private Banking
-
Market View & Insights
Daten sind das A und O von vielerlei unternehmerischer Aktivität und ihre wertvollste Ressource, gerade in Zeiten von Künstlicher Intelligenz (KI). In unkritische Nutzung oder gar blinde Hörigkeit gegenüber den Bits und Bytes sollten wir uns gerade deshalb nicht begeben. Denn aus unternehmerischer Sicht gilt auch heute noch: Qualitativ minderwertige Datensätze führen die Algorithmen in die Irre - schlimmstenfalls mit Mehrkosten und Konsequenzen für das Unternehmen.
"Die wertvollste Ressource der Welt ist nicht mehr Öl, sondern Daten." Mit diesem Satz deklarierte das Magazin The Economist am 6. Mai 2017 den Anbruch eines neuen Datenzeitalters. Heute ist diese Ressource noch wichtiger, grösser und allgegenwärtiger geworden. Zunächst die Digitalisierung, dann das Internet of Things und allgegenwärtige Mobilapplikationen sowie heute künstliche Intelligenz mit ihren Large Language Models (LLMs) lassen die damaligen "Big Data" beinahe klein aussehen.
Die Menge des Rohstoffs Daten hat sich seit dem Economist-Artikel vervielfacht. Eine Studie der International Data Corporation aus dem Jahr 2017 ging von 16.1 Zettabytes an gespeicherten Daten insgesamt auf mit dem Internet verbundenen Servern aus. Für das Jahr 2025 prognostizierte die Studie 175 Zettabytes - was Forbes Magazine anfangs letzten Jahres nach oben korrigierte: Nun erwartete man 181 Zettabytes an gespeicherten Daten weltweit.
Zur Veranschaulichung: Ein Zettabyte entspricht 1021 Bytes, also einer 1 mit 21 Nullen dahinter bzw. eine Trilliarde Bytes. Dass das Byte selbst aus acht Bits besteht und ursprünglich als kleinste Speichereinheit des Computers ein Textzeichen kodierte, fällt da schon fast nicht mehr ins Gewicht. Und das sind nur gespeicherte Daten. Jeden Tag zirkulieren gemäss International Data Corporation (IDC) auf dem Internet Datenströme von insgesamt rund 2.5 Quintillionen Bytes (auf zwei und fünf folgen dabei 29 Nullen). Das sind schwer zu begreifende Grössenordnungen.
Nicht nur wächst die wertvolle Ressource "Daten" selbst offenbar kräftig (wiederum gemäss IDC um mehr als 20 % pro Jahr). Auch das Geschäft mit Daten floriert: Gemäss dem Branchenanalysten Netguru.com soll der Markt für "Big Data" von knapp USD 200 Milliarden im Jahr 2024 auf über USD 500 Milliarden im Jahr 2032 anwachsen. Die Erwartung auf rapides Wachstum und hohe Investitionen im Industriesektor Intelligenz (von Chip-Herstellern wie Nvidia bis zu KI-Bots von OpenAIs ChatGPT, Anthropics Claude, Googles Gemini oder Grok von X) befeuern die Wertpapiermärkte dieser Welt.
Das Daten-Business hinwiederum treibt die Erschaffung neuer Daten voran: Heute schon saugen digitale Produkte (Smartphone, Auto, TV und Computer) ständig neue Daten zum Konsumverhalten ab, die als Kundeninformation und User-Profile ins Geschäft zurückfliessen. Anders als fossile Brennstoffe scheinen Daten, die wertvolle Ressource der Gegenwart, nicht durch Knappheit bedroht. Mit dem breiteren und intensiveren Einsatz von KI wird sich dies weiter beschleunigen. Kein Wunder, dass allein Apple und OpenAI Investitionen in der Höhe von je USD 500 Milliarden zum Bau neuer Daten-Center ankündigen - in den nächsten vier Jahren.
Gewiss bestehen Fragen zu den Ressourcen, z. B. wie der enorme Energiebedarf von Daten-Centern, Server-Farmen und KI-Anwendungen gedeckt werden soll. So schätzt die MIT Technology Review, dass bis 2028 alleine KI-Anwendungen so viel Energie verbrauchen werden wie 22 % aller US-Haushalte. Wie auch immer solche Herausforderungen gestaltet werden: Es läuft in einer durchdigitalisierten Wirtschaft nichts mehr ohne Daten. Wer sie klug und schnell nutzt, erhöht seine Wettbewerbsfähigkeit. Daten sind demnach nicht nur die wertvollste Ressource, sondern zentraler unternehmerischer Wert und Wachstumsfaktor.
Die Verheissung grenzenlosen Datenwachstums birgt indes auch Risiken für Unternehmerinnen und Unternehmer. Denn zunehmende unternehmerische Abhängigkeit von Daten impliziert auch Handlungseinschränkung und Kontrollverlust.
Daher ist ein Blick auf einige grundsätzliche Probleme in der Datenwelt angebracht. Zahlreiche Daten-Desaster, bei denen der Umgang mit und das blinde Vertrauen auf Daten zu teuren Problemen führten, zeigen, wie real diese Risiken sind und dass eine gewisse Um- und Vorsicht unternehmerisch durchaus sinnvoll ist.
Qualität, Vollständigkeit und Aktualität der Daten ist keine Selbstverständlichkeit. Wenn Daten redundant oder doppelt geführt werden, falsch kategorisiert, unvollständig oder veraltet sind, laufen Software und Algorithmen ins Leere. Ist die Datenqualität mangelhaft, so ist es zwangsläufig auch der Output. "Garbage in, garbage out", lautet das lapidar im Jargon.
Ein Beispiel dafür gab Unity Technologies, ein Unternehmen, das verschiedene Technologien und Applikationen für Game-Entwickler und -Spieler verkauft. Im Frühjahr 2022 nahm ein Produkt von Unity Technologies namens "Audience Pinpointer" eine grosse Menge an offenbar "schlechten" Daten von einem Drittunternehmen auf. "Audience Pinpointer", welches Game-Entwickler bei der Anwerbung von neuen Spielern sowie bei der Schaltung von individualisierter Werbung unterstützen sollte, lieferte danach viel schlechtere Resultate.
Denn auf der Grundlage der eingespeisten Daten wurden die Machine-Learning-Algorithmen von "Audience Pinpointer" falsch trainiert und lieferten daher anschliessend systematisch Fehlvoraussagen über die Profile möglicher zukünftiger Spieler und auf aktive Spieler zugeschnittene Werbung. Der Schaden durch weniger Einnahmen, der Reputationsverlust von enttäuschten Werbepartnern und Game-Entwicklern und die Kosten für die Neuprogrammierung des Tools beliefen sich auf rund USD 110 Millionen, der Börsenkurs von Unity sackte um 37 % ab - alles wegen eines ins System gelangten Satzes fehlerhafter Daten.
Daten sind nur so wertvoll wie ihre Qualität - und können bei Fehlern schnell zum Risiko werden.
Ein anderes Beispiel ist Equifax, ein US-Datenanalyse-Unternehmen, das die Kreditwürdigkeit von Konsumentinnen und Konsumenten beurteilt. Bei der Bestimmung des "Credit Score", der die Grundlage für Erteilung oder Ablehnung eines Darlehens, etwa für einen Auto- oder Hauskauf, sowie für die Berechnung des Zinssatzes darstellt, unterlief Equifax ein "Kodierungsfehler", der während drei Wochen im Frühjahr 2022 unbemerkt falsche Daten zu einigen Parametern lieferte. Rund 300 000 Menschen waren von der Fehleinschätzung ihrer Kreditwürdigkeit betroffen. Nach Bekanntwerden des Fehlers sank der Börsenkurs von Equifax um 5 %. Kurz darauf wurde das Unternehmen mit einer Sammelklage einer Konsumentin bedacht, der ein Darlehen zum Kauf eines Autos verweigert wurde - mit erheblichen Auswirkungen auf die Glaubwürdigkeit des Unternehmens.
Im Falle von Equifax wog der Datenfehler umso schwerer, als er in den Nachwehen eines früheren Problemfalles stattfand. Im Jahr 2017 gelangten sensible private Informationen von knapp 150 Millionen Equifax-Kundinnen und Kunden in einem Datenleck an die Öffentlichkeit - eine eklatante Verletzung des Datenschutzes. Für die Beilegung der einer Sammelklage hierzu musste Equifax bis heute USD 700 Millionen für die Geschädigten beiseitestellen.
Im Kontext internationalen Rechts zum Wirtschaften mit Daten ist das Datenanalyse-Unternehmen damit nicht einmal der Spitzenreiter: Für die gemäss EU-Recht widerrechtliche Übertragung von Nutzerdaten in die USA wurde Meta, Mutterfirma von Facebook, Instagram u. a. m., in Irland mit USD 1.3 Milliarden gebüsst. Amazon, TikTok, Didi (ein chinesischer Uber), aber auch T-Mobile wurden im dreistelligen Millionenbereich gebüsst oder mussten aussergerichtliche Einigungen berappen. Unzulängliche Datensicherheit und -schutz sowie strafbare regulatorische Zuwiderhandlungen können sowohl durch Reputationsschaden als auch durch Bussgelder teuer und geschäftsschädigend werden.
Weniger spektakulär, aber dennoch relevant sind Probleme im Wirtschaften mit Daten, die aus der hohen Komplexität und Spezialisierung von Datenverarbeitungssystemen erwachsen. Zur Veranschaulichung: Die nahtlose Auswertung und Einbettung von Daten zu Kundinnen und Kunden, Konsumverhalten, Marketing, Lieferketten, Produktion und Lagerbeständen in die Geschäftsprozesse ist ein hochkomplexes Unterfangen. Oftmals müssen dazu verschiedenste Datenwissenschaftler, spezialisierte Programmiererinnen und Programmierer und Plattform-Ingenieurinnen und -Ingenieure Daten sammeln, modellieren, implementieren, messen - und optimieren oder säubern bzw. aktualisieren.
Daten finden sich nicht mehr in einfachen Spreadsheets und Datenbanken, sondern durchlaufen sogenannte "Pipelines" oder finden sich in "Data Lakes", "Clouds" oder "Warehouses". Die Zeit ist über Tabellenkalkulation à la Excel hinweggegangen, heute kommen verschiedenste Datenverarbeitungssysteme zum Einsatz, manch Aufgabe wird an Industriegiganten ausgelagert, andere auf hauseigenen Legacy-Systemen erfüllt, wieder andere werden durch Maschinenlernen und Large-Language-Models (LMM), also KI, erfüllt. Die Koordination von Datenverarbeitungssystemen ist eine Mammutaufgabe für das Management und kann schnell unübersichtlich, ineffizient und damit kostenintensiv werden.
Beispiele für diesen Problembereich sind Schwierigkeiten beim Upgrade oder Implementieren neuer Software-Systeme. Funktionieren beispielsweise neue Versionen von Systemen für CRM (Customer-Relationship-Management) oder ERP (Enterprise Resource Planning) aufgrund von inkompatiblen Datenformaten nicht wie gewünscht oder in gewünschter Frist, können Lieferkette, Inventuren oder die HR-Planung aus den Fugen geraten.
Anschauungsbeispiele dafür, dass eine gescheiterte Implementierung ein Mehrfaches des ursprünglich budgetierten Software-Updates kosten kann, reichen von einem Stadtplanungsprojekt in der englischen Stadt Birmingham (das die Steuerzahler schlussendlich GBP 90 Millionen mehr als geplant kostete) über ein durch Datensalat gecrashtes Avocado-Liefersystem der Firma Mission Produce (das mit einem Verlust von USD 22.5 Millionen zu Buche schlug) bis hin zur deutschen Supermarktkette Lidl (die eine Systemumstellung nach Ausgaben von EUR 500 Millionen erfolglos abbrechen musste, weil das neue System Lagerbestände nach Einkaufspreisen bewertete, wohingegen das alte dazu Verkaufspreise anwendete - diese Differenz liess sich nicht auflösen).
Eine der umfangreichsten Datenanwendungen der Gegenwart sind KI-Chatbots wie ChatGPT, Grok, Perplexity, Claude u. a. m. Nicht umsonst sind diese "Large Language Models" (LLM) als generative Brachialrechenmaschinen bekannt, die mit enormen Datenmengen auf ihre Fähigkeiten trainiert werden. Für ChatGPT 4.0 etwa soll ein Petabyte an Daten eingesetzt worden sein (das entspricht 1000 Terabytes oder einer Billiarde Bytes). Das Training der LLM zielt zwar gerade darauf ab, mittels Pre-Training, Fine-Tuning und menschlichen Feedbacks, d. h. mittels Aufnahme von Unmengen von Texten und Daten aller Art sowie einer Mischung aus selbständigem Lernen und behavioristischer Erziehung zu menschlichen und ethischen Antworten, ein Meister in übergeordneter Mustererkennung und damit generativer Konversation zu werden, was einzelne Datenfehler im Idealfall ausmerzt. Dennoch sind LLM nicht vor Fehlern, d. h. falschen, eingebildeten oder halluzinierten Outputs, gefeit.
Beispiele dafür sind schnell zur Hand. Wenn z. B. die menschlichen Trainer bei der ethischen Erziehung der Chatbots etwas zu wertend eingreifen, kann es zu abstrusen Fehlleistungen kommen. Googles KI Gemini etwa griff 2024 bei der Bebilderung von historischen Ereignissen völlig daneben. Weil es vermutlich zeitgemässe ethische Prinzipien zu ethnischer Gleichheit beherzigte, zeigte Gemini Wehrmachtsoldaten im zweiten Weltkrieg als asiatische Frauen oder Schwarze, US-Präsidenten als Native Americans bzw. den Papst als Frau. Von Menschen vorgegebene Prinzipien aus der Welt von Diversity, Equity und Inclusion (DEI) leiteten die Datenmustererkennung und -generierung, kollidierten allerdings mit historischen und empirischen Gegebenheiten aus der Echtwelt (der Papst kann nicht weiblich sein, Ureinwohner gehörten bisher nicht zu den Präsidenten der USA), über die sich die KI generativ halluzinierend hinwegsetzte.
Halluzinationen lagen ebenfalls vor, als eine KI für einen Journalisten der Chicago Sun-Times etliche Titel einer Liste mit Leseempfehlungen für die Sommerferien einfach erfand - die halluzinierten Strandlektürevorschläge gingen ungeprüft in den Druck. Oder als sich der Anwalt Steven Schwartz 2023 bei der Recherche für eine Gerichtsverhandlung auf einen KI-Chatbot verliess, der ihm eine Reihe inexistenter Präzedenzfälle vorgesetzt hatte. Er sei sich schlichtweg nicht bewusst gewesen, dass "ChatGPT ihn in die Irre führen konnte", so Schwartz. Nachdem die halluzinierte Grundlage seines Plädoyers auffiel, erlegte das zuständige Gericht dem Anwalt eine Geldstrafe von USD 5000 auf.
In solchen Fällen sind nicht unbedingt menschliche Fehlvorgaben für die Halluzination der KI verantwortlich. Laut Google gehören zu den Gründen auch "fehlerhafte Trainingsdaten" oder "fehlendes Verständnis von Informationen zur realen Welt, physikalischen Eigenschaften oder Faktenwissen." Der Verlust einer gesicherten Wissensgrundlage birgt ein hohes Risiko für das Business mit Daten.
Jenseits von LLM-Halluzinationen oder allzu menschlichen Fehlvorgaben warnen Wissenschaftlerinnen und Wissenschaftler auch vor einem KI-inhärenten Problem: dem der Zirkularität. Roberto Simanowski, derzeit Distinguished Fellow an der Freien Universität Berlin, beschreibt in seinem neuen Buch "Sprachmaschinen. Eine Philosophie der künstlichen Intelligenz" (C.H. Beck, 2025) ein Phänomen, das unter verschiedenen Ausformungen als "Fluch der Rekursion", Ouroboros-Effekt (nach dem altägyptischen Bild der Schlange, die sich in den eigenen Schwanz beisst) oder "Text-Inzest" bekannt ist. Dahinter steht folgende Denkfigur: Da generative KI beständig und iterativ ihren Wissensbestand auf Basis bestehender, womöglich aber ebenfalls bereits durch KI zustande gekommener Erkenntnisse optimiert, fallen seltene, als wenig wahrscheinlich taxierte Randphänomene aus der Welt der KI heraus.
In der Rekursion der lernenden KI auf ihrerseits von künstlicher Intelligenz generierte Inhalte beisst sich die KI-Schlange in ihren Schwanz. Wenig populäres oder verbreitetes Spezialwissen von Expertinnen und Experten und Ausnahmen der Regel verschwinden in der rekursiven Datensäuberung aus dem Schatz des Wissens. Ein derart geschlossener KI-Kreislauf kann zu einer "inzestuösen" Verarmung des verfügbaren Wissens führen, sofern wir ausschliesslich auf KI-optimierte Daten vertrauen. Wir laufen so Gefahr, womöglich ein Stück der Welt, ihrer Wirklichkeit und Wahrheit zu verlieren, ohne dass wir uns dessen gewahr werden. Das wiederum erhöht das Risiko, von einem schwarzen Schwan, also einem statistisch unwahrscheinlichen Fall, völlig überrascht zu werden - was enorme Konsequenzen haben kann.
Datensalaten, Halluzinationen, Zirkularität, Rekursion und schwarzen Schwänen ist eines gemeinsam: Diese Fehlleistungen entstehen, wenn man die Echtwelt aus den Augen und sich selbst in der reinen Datenwelt verliert. Während man beispielsweise wissenschaftliche Theorien durch empirische und naturwissenschaftliche Methoden an der realen Welt und Wirklichkeit auf ihre Gültigkeit prüft, scheint der Blick für diese Notwendigkeit in der Welt der unerschöpflichen Datenressourcen noch nicht so weit gereift. Allgemeine Kontrollmechanismen greifen zu kurz oder fehlen ganz - weshalb sich "fehlerhafte Trainingsdaten" selbst in einfache Datenverarbeitungsaufgaben einschleichen können.
Vielleicht sind für einen ganz bestimmten Zweck angelegte und mit spezifischen Algorithmen bearbeitete Datensätze auch einfach zu zufällig und kontingent. Sie bilden womöglich nur Teilaspekte der Realität ab, derweil wir die echte Welt dahinter aus den Augen verloren haben. Der Weltverlust erklärt über das Beispiel KI hinaus das von Google konstatierte "fehlende Verständnis von Informationen zur realen Welt, physikalischen Eigenschaften oder Faktenwissen", das rein auf Daten basierte Systeme ins Leere laufen lassen kann.
Blindes Vertrauen in Daten kann den Blick für die Wirklichkeit verstellen.
Hieraus lässt sich wohl eine Faustregel für den Umgang mit Daten ableiten, um als Unternehmen nicht blindlings in eines der oben angedeuteten Problemfelder zu laufen: Auch wenn die vielfach angekündigte "künstliche allgemeine Intelligenz" einmal perfekt eingespielte Realität sein sollte, sollte der Umgang mit Daten weiterhin von kritischem Abstand, akribischer Prüfung von Datenqualität und -relevanz oder der Funktionalität der Algorithmen geleitet sein. Richtig gelingen wird er nur, wenn bei der Modellierung der Datenwelt auch ständig aktualisiertes und echtes Wissen um die reale Welt und eine Prise gesunder Menschenverstand zum Einsatz kommen.