Erinnerst du dich an die Zeit, als wir einfach nur gestaunt haben, was ChatGPT und Co. so alles ausspucken? Das war die Phase der Magie. Doch die Magie hat einen faden Beigeschmack bekommen, seit wir wissen, dass diese Modelle mit fast allem gefüttert wurden, was nicht bei drei auf den Bäumen war: urheberrechtlich geschützte Bücher, private Fotos, Blogposts. Die „Black Box“ war bisher das Geschäftsmodell. Man wirft Daten rein, rührt kräftig um und verkauft das Ergebnis als technisches Wunderwerk.
Doch damit ist in Kalifornien jetzt Schluss. Mit dem Assembly Bill 2013 (AB 2013), auch bekannt als der „Generative Artificial Intelligence Training Data Transparency Act“, müssen Entwickler seit dem 1. Januar 2026 ihre Quellen offenlegen. Wer seine KI-Systeme den Menschen im Sunshine State zugänglich macht, muss auf seiner Website eine „zusammenfassende Dokumentation“ der Trainingsdaten veröffentlichen. Das klingt erst mal nach bürokratischem Kleinkram, ist aber in Wahrheit ein mittelschweres Erdbeben für die Branche.
Wer muss auspacken und was steht auf dem Spiel?
Die Regeln sind recht simpel gestrickt, aber sie treffen fast jeden. Betroffen sind alle Entwickler von generativer KI, die ihre Systeme nach dem 1. Januar 2022 veröffentlicht oder „wesentlich verändert“ haben. Wenn du also ein Modell feinjustiert hast, um es leistungsfähiger zu machen, bist du dabei. Es spielt keine Rolle, ob du deine KI kostenlos anbietest oder Geld dafür verlangst. Sobald ein Kalifornier darauf zugreifen kann, gelten die Regeln.
Was genau wollen die Behörden wissen? Es geht nicht darum, den kompletten Datensatz hochzuladen – das wäre technisch kaum machbar und ein Albtraum für den Datenschutz. Aber die Entwickler müssen Ross und Reiter nennen. Dazu gehören die Quellen der Daten, die Anzahl der Datenpunkte, die Art der Informationen und ganz wichtig: ob urheberrechtlich geschütztes Material, Marken oder Patente Teil des Trainings waren. Auch die Frage, ob personenbezogene Daten verwendet wurden oder ob die KI mit „synthetischen Daten“ (also von anderer KI erzeugten Inhalten) trainiert wurde, muss beantwortet werden.
Das ist ein direkter Angriff auf das bisherige Mantra der KI-Giganten, die ihre Datensätze wie Staatsgeheimnisse behüten. Firmen wie xAI von Elon Musk laufen deshalb bereits Sturm und argumentieren, dass diese Offenlegung ihre Geschäftsgeheimnisse verletze. Sie sehen darin einen Verstoß gegen die Verfassung, da sie gezwungen werden, ihr „geistiges Eigentum“ ohne Entschädigung preiszugeben. Für uns Nutzer bedeutet es hingegen: Wir erfahren endlich, ob die KI, die wir täglich nutzen, auf dem Rücken von Künstlern und Autoren aufgebaut wurde, ohne diese jemals zu fragen.
Der Blick über den Teich: Was das für Europa bedeutet
Jetzt fragst du dich vielleicht: „Schön für Kalifornien, aber was juckt mich das in Berlin, Wien oder Zürich?“ Eine ganze Menge. Erstens gibt es den sogenannten „California Effect“. Kalifornien ist oft der Vorreiter für US-weite und globale Standards. Wenn OpenAI, Google und Meta ihre Berichte für Kalifornien schreiben müssen, werden sie diese kaum für den Rest der Welt unter Verschluss halten können. Die Transparenz, die dort erzwungen wird, sickert zwangsläufig zu uns durch.
Zweitens haben wir in Europa mit dem EU AI Act bereits ein Monster von einem Regelwerk, das in eine sehr ähnliche Kerbe schlägt. Während der kalifornische AB 2013 sich speziell auf die Transparenz der Trainingsdaten für generative KI konzentriert, ist der EU AI Act ein umfassender, risikobasierter Ansatz. Aber auch bei uns müssen Anbieter von „General Purpose AI“ (GPAI) Modellen technische Dokumentationen erstellen und Zusammenfassungen über die verwendeten Trainingsdaten veröffentlichen, insbesondere im Hinblick auf das Urheberrecht.
Der Unterschied ist die Härte des Aufpralls. In der EU drohen bei Verstößen saftige Bußgelder von bis zu 7 % des weltweiten Jahresumsatzes. Kalifornien ist hier noch etwas vager, was die Strafen angeht, baut aber auf bestehende Gesetze gegen unlauteren Wettbewerb. Was wir hier sehen, ist eine globale Zangenbewegung: Auf der einen Seite die EU mit ihrer massiven Regulierung, auf der anderen Seite Kalifornien als Herz der Tech-Industrie, das nun ebenfalls Transparenz fordert. Entwickler können sich nicht mehr hinter der Ausrede verstecken, dass ihre Daten „zu komplex“ zum Erklären seien.
Zwischen Transparenz und Geschäftsgeheimnis: Ein schmaler Grat
Für Unternehmen, auch für KMUs in Europa, die KI-Modelle nutzen oder selbst anpassen, wird die Luft dünner. Wenn du ein Modell nutzt, das seine Datenquellen nicht offenlegt, läufst du Gefahr, indirekt Urheberrechtsverletzungen zu unterstützen. AB 2013 zwingt die Entwickler dazu, eine Daten-Inventur zu machen, die bisher oft sträflich vernachlässigt wurde. Viele wussten selbst nicht so genau, was in den riesigen Crawls aus dem Internet eigentlich alles drinsteckt.
Das Gesetz hat jedoch auch seine Tücken. Kritiker befürchten, dass die Offenlegungspflichten Innovationen bremsen könnten, weil Startups ihre mühsam kuratierten Datensätze preisgeben müssen, was den großen Playern in die Hände spielen könnte. Zudem ist der Begriff der „zusammenfassenden Dokumentation“ dehnbar wie ein Kaugummi. Reicht es zu sagen: „Wir haben das halbe Internet gelesen“, oder muss es eine detaillierte Liste der Top-1000-Domains sein? Das werden wohl die Gerichte in den nächsten Jahren klären müssen.
Eines ist jedoch klar: Die Zeit der „Wild-West-KI“ ist vorbei. Wer in Zukunft am Markt bestehen will, muss sauber dokumentieren. Das gilt für den Silicon-Valley-Giganten genauso wie für den spezialisierten KI-Dienstleister in Europa. Die Forderung nach Transparenz ist kein Hype, sondern eine notwendige Korrektur, um Vertrauen in eine Technologie zu schaffen, die unser Leben grundlegend verändert.
Wir stehen an einem Wendepunkt. Entweder schaffen wir es, KI-Systeme so zu bauen, dass ihre Grundlagen nachvollziehbar sind, oder wir landen in einer Welt, in der einige wenige Firmen die Kontrolle über das Wissen der Menschheit haben, ohne zu sagen, wie sie es erlangt haben. Kaliforniens AB 2013 ist ein erster, wichtiger Schritt, um das Licht in der Black Box anzuknipsen. Für uns in Europa bedeutet das: Wir bekommen Rückenwind für unsere eigenen Forderungen nach fairer KI. Wer sauber arbeitet, hat nichts zu befürchten. Wer seine Modelle auf gestohlenen Daten aufgebaut hat, bekommt jetzt ein Problem. Und das ist auch gut so.


