Schrecken die Entwickler von KI vor Diebstahl doch nicht zurück? Forscher der Stanford University haben untersucht, inwiefern sich bestimmte urheberrechtsgeschützte Werke mittels KI reproduzieren lassen. Dafür ließen sie große Sprachmodelle (LLMs) wie Claude 3.7 Sonnet, Gemini Abschnitte aus „Harry Potter und der Stein der Weisen“ wiedergeben. Das Ergebnis zeigt: Die KI-Modelle konnten mit den passenden Prompts große Teile des Buches wörtlich rezitieren. Das widerspricht den Angaben der Anbieter – diese behaupten, dass die Modelle die Trainingsdaten eben nicht auswendig lernen, sondern auf Repräsentationen setzen. Wäre dem so, würde das noch unter Fair Use fallen. Doch die Ergebnisse lassen Zweifel daran aufkommen.
Mehr interessante News und Infos rund um KI findest du am Ende dieses Beitrags.
Nur Trainingsdaten oder einfach auswendig gelernt?
Um zu untersuchen, ob sich tatsächlich urhebergeschützte Inhalte aus den Modellen extrahieren lassen, gingen die Wissenschaftler für die Studie in zwei Phasen vor. In der ersten Phase fragten sie die Modelle zunächst nach einer wortwörtlichen Fortführung eines Textabschnitts, beispielsweise nach dem Anfang des ersten Kapitels des „Harry-Potter“-Romans. Lehnte die KI diese Prompt ab, modifizierten die Forscher ihre Anfrage mit zufälligen Änderungen, bis sie ein Ergebnis erhielten oder das Modell die Anweisung auch nach 10.000 Versuchen nicht befolgte. Mit dieser Jailbreak-Technik sollten die Sicherheitsmaßnahmen der KI-Modelle umgangen werden.
In der zweiten Phase forderten die Forscher die KI wiederholt auf, den Text anhand der bisher generierten Abschnitte zu vervollständigen. Anschließend glichen sie die maschinellen Antworten mit dem Originaltext ab. Die Messungen zeigten eine erstaunliche Ähnlichkeit der Texte: Für „Harry Potter und der Stein der Weisen“ konnte mit der Claude-KI ein Ergebnis generiert werden, das eine Ähnlichkeit von 95,8 Prozent aufwies. Damit glichen sich große Teile von KI-Text und Buch Wort für Wort. Mit Gemini erhielten sie einen zu 76,8 Prozent ähnlichen Text generieren, mit Grok einen zu 70,3 Prozent ähnlichen Text. Immerhin: Für GPT 4.1 ließen sich die Abschnitte kaum korrekt vervollständigen. Das Modell wies nur eine Ähnlichkeit von vier Prozent auf.
Bisherige Studien stimmen mit dem Ergebnis überein
Ähnliche Ergebnisse konnten mit drei anderen Büchern erzielt werden, darunter auch „1984“ von George Orwell. Grund zur Sorge ist unter anderem, dass die Forscher nur bei Claude und GPT-4.1 mit der Jailbreak-Technik arbeiten mussten. um Ergebnisse zu erzielen. Gemini und Grok befolgten die Prompts direkt – ohne, dass die Forscher ihre Prompts abändern mussten. Entsprechend schlussfolgert das Forschungspapier, dass die Behauptung der Anbieter falsch sei und die Modelle Teile der Trainingsdaten auswendig lernen.
Das zeigt: Die bisherigen Sicherheitsmaßnahmen reichen nicht aus, um Trainingsdaten davor zu schützen, durch Nutzer extrahiert zu werden. Mit seiner Arbeit schließt das Forscherteam an eine ähnliche Studie der Stanford University aus dem Mai 2025 an. Eine andere Forschungsarbeit der ETH Zürich von November 2024 zeigt außerdem, dass ein großer Teil der Antworten von KIs bereits vorhandenen Abschnitten aus verfügbaren Texten im Internet besteht – auch hier werden in vielen Fällen Texte Wort für Wort übernommen.
Urheber könnten gegen KI-Diebstahl klagen
Für die Anbieter von LLMs könnten diese Eigenheiten zum Ärgernis werden, sollten die Urheber geschützter Werke deswegen klagen. Ein Paradebeispiel dafür ist ein bereits seit mehreren Jahren andauernder Rechtsstreit der New York Times mit OpenAI, die mit einer ähnlichen Methode wie die Stanford-Forscher ganze Artikel aus ChatGPT extrahieren konnte. OpenAI hingegen argumentierte damit, dass die NYT sich irreführender Prompts bedient habe und eine solche Nutzung schlichtweg nicht vorgesehen gewesen sei. Die wortwörtliche Wiedergabe sei demnach ein seltener Bug, der sonst nicht auftrete. Dem widerspricht allerdings die aktuelle Stanford-Studie.
Hier kannst du mehr zu aktuellen KI-News und -Tipps lesen:
- KI-Gesichtsanalyse könnte über Jobchancen entscheiden
- SEO für KI – So optimieren Sie Ihre Website für KI-gestützte Suchmaschinen
- Vorurteile bei KI: Wenn die Maschine voreingenommen ist
- KI-Vorhersagen 2026: Wie sich künstliche Intelligenz laut ChatGPT entwickeln wird
- Fast jede zweite Antwort gelogen: KI-Chatbots liefern Falschinformationen





Vorsorgeuntersuchungen sind heute wichtiger denn je, weil viele Beschwerden lange unbemerkt bleiben.
Sehr guter Überblick – gerade für KMU ist die Priorisierung entscheidend. Gefällt mir, dass ihr Technik, Keyword-Intention und On-/Offpage so…
Spannender Beitrag – und absolut aus der Praxis gesprochen. Ich erlebe das im Webdesign- und SEO-Alltag ständig: Unternehmen investieren viel…