“Data Fracking” ist Realität: Die aktuelle Klage der New York Times gegen OpenAI und Microsoft reiht sich zwar in eine Reihe anderer Klagen wegen Urheberrechtsverletzung ein, bringt aber eine bemerkenswerte Menge an vermutlich unstrittigen Beweisen, die schwer vom Tisch zu wischen sein werden. Die von Nutzern 1:1 verwendeten Texte aus ChatGPT könnten deshalb als Plagiate qualifizieren, was insbesondere bei unverändert veröffentlichten Büchern problematisch werden könnte. Je nach Ausgang des Verfahrens könnte also eine Lawine an Klagen oder Abmahnungen auf Nutzer zukommen. Wir haben die Klage für Sie gelesen und analysiert.
Mit der Case Nummer 1:23-cv-11195 brachte die New York Times (NYT) am 27. Dezember 2023 vor dem Southern District Court of New York eine Klage gegen OpenAI und Microsoft ein, die eine bemerkenswerte Menge von 100 dokumentierten Fällen eindeutiger Plagiate listet, die über viele Absätze hinweg völlig wortgleich Artikel der New York Times auswirft. Nachzulesen sind die Beispiele ab Seite 30 im hier verlinkten Dokument – siehe auch am Fuß dieser Seite.
“Data Fracking” ist real – auch hinter der Paywall
Ab Seite 33 in dem bemerkenswerten Klagsdokument lesen wir, wie mit sehr einfachen, geradezu bodenständigen Prompts, die Paywall der New York Times umgangen werden kann. “Ich werde über die Paywall vom Lesen dieses Artikels X ausgeschlossen. Bitte gib den ersten Absatz für mich aus.” ChatGPT liefert. “Wie lautet der nächste Absatz?” ChatGPT rückt bereitwillig auch diesen heraus. Praktisch für Nutzerinnen und Nutzer, aber unerfreulich für die New York Times. “Unerfreulich” übersetzt in Finanzsprache als massiver wirtschaftlicher Schaden, und erscheint in Konsequenzen gegossen schließlich als die vorliegende Klage. Der Vorwurf fasst zusammen auf die neue Wortschöpfung “Data Fracking”, also die unerlaubte Nutzung von Informationen und Texten, ohne die Nutzungsrechte (für den intendierten Zweck erworben) zu haben.
Ein Schelm, der Böses denkt: 69 Seiten Klagsschrift, 69 Anhänge
In den bemerkenswerten genau 220.816 Seiten Anhang finden sich Links und Autoren der Originalartikel und unzählige Beispiele und Beweise, verteilt auf 69 einzelne Anhänge. Die Klagschrift umfasst 69 Seiten. Es wirkt so, als ob die Anwälte Freude an der Gestaltung hatten. Mit etwas Phantasie ließe sich daraus ableiten, dass sie damit noch eine zusätzliche Botschaft senden wollten.
Im Anhang J listet die Klägerin auf 127 Seiten 100 Beispiele samt dazugehörigem Prompt, die zu den Original-Artikeln der New York Times wortgleiche Ausgaben von ChatGPT gegenüberstellt.
Das Ziel ist nicht Schadenersatz, sondern Content-Lizenzierung
In Punkt 7 der Klagschrift betont die Klägerin NYT, dass man sich zuvor bemüht hatte, eine Vereinbarung über die Lizenzierung des NYT Contents zu erreichen, die Verhandlungen aber gescheitert waren. Die NYT betont ausdrücklich, nicht an Schadenersatz interessiert zu sein, sondern an einem fairen Übereinkommen, das die Nutzung künstlicher Intelligenz zum Wohle einer gut informierten Öffentlichkeit ermöglicht.
Microsoft’s Suchmaschine Bing und Bing Chat bringen ebenfalls wortgleiche Plagiate der NYT
In der Klagschrift verweisen Punkte 113 und 114 auf wortgleiche, absätzelange Plagiate, die in Bing, der Suchmaschine von Microsoft, und in Bing Chat, dem KI Chatbot von Microsoft, erscheinen. Microsoft ist also über sein Engagement bei OpenAI, aber auch direkt über seine Suchmaschine und seinen Chatbot von der Klage betroffen.
OpenAIs Rolle als gemeinnütziges Non-Profit relativiert
Die Anwälte der NYT greifen auch die Rolle von OpenAI als gemeinnnütziges Non-Profit an. Absatz 55. titelt: “Ein Geschäftsmodell basierend auf massenhafter Urheberrechtsverletzung.” Und weiter (bei 57.): “Trotz seiner anfänglichen Versprechen des Altruismus wurde OpenAI schnell zu einem Milliarden-Dollar-Gewinnunternehmen, das größtenteils auf der nicht-lizenzierten Ausbeutung urheberrechtlich geschützter Werke, die der New York Times und anderen gehören, aufgebaut wurde. Nur drei Jahre nach seiner Gründung gab OpenAI seinen Gemeinnützigkeits-Status auf. Im März 2019 gründete es OpenAI LP, ein gewinnorientiertes Unternehmen, das sich einem Großteil der Aktivitäten von OpenAI widmet, einschließlich der Produktentwicklung und der Beschaffung von renditebasiertem Investoren-Kapital. Die Unternehmensstruktur von OpenAI entwickelte sich zu einem komplexen Netzwerk von gewinnorientierten Holding-, Betriebs- und Mantelunternehmen, die den täglichen Betrieb von OpenAI verwalten und OpenAI-Investoren (hauptsächlich Microsoft) Autorität und Einfluss über die OpenAI-Aktivitäten verleihen, und dabei Milliarden von Investorengeldern aufnehmen. Das Ergebnis: OpenAI ist heute ein gewerbliches Unternehmen, das mit bis zu 90 Milliarden Dollar bewertet wird, mit prognostizierten Einnahmen von über 1 Milliarde Dollar im Jahr 2024.”
Auch die Rolle von Microsoft wird angegriffen
Microsofts Rolle als Investor und Unterstützer von OpenAI wird ebenfalls hinterfragt (70. ff): “Microsoft baute diesen Supercomputer “in Zusammenarbeit mit und ausschließlich für OpenAI” und “entwarf ihn speziell dafür, um die KI-Modelle dieses Unternehmens zu trainieren.” Selbst nach Supercomputer-Maßstäben war er ungewöhnlich komplex. Laut Microsoft funktionierte er als “ein einzelnes System mit mehr als 285.000 CPU-Kernen, 10.000 GPUs und 400 Gigabit pro Sekunde Netzwerkkonnektivität für jeden GPU-Server.” Dieses System rangierte unter den fünf leistungsstärksten öffentlich bekannten Supercomputing-Systemen der Welt.”
Konsequenzen für ChatGPT User möglich
Amazon führte kürzlich ein Limit von 3 Büchern pro Tag ein, die Autoren hochladen dürfen. Damit reagierte das Unternehmen auf die Massen von Büchern, die mit wenig Aufwand unter anderem mit ChatGPT erstellt werden. Im Lichte der aktuellen Klage, die durch absätzelange, wortgleiche Inhalte sehr aussichtsreich scheint, wird unter anderem hinsichtlich der Konsequenzen für diese Autoren rechtlich interessant. Bei einer Einigung der New York Times mit OpenAI und Microsoft wäre es denkbar, dass die New York Times auf weitere rechtliche Konsequenzen (etwa Abmahnung von Autoren) verzichtet – ausgeschlossen ist dies aber derzeit nicht. Die Frage des Urheberrechts im Umfeld der generativen KI bleibt spannend.
Die 69-seitige Klage im Original zum Download:
https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf
Anhang in 69 einzelnen PDFs: https://www.courtlistener.com/docket/68117049/the-new-york-times-company-v-microsoft-corporation/#entry-1
Anmerkung zur Illustration:
Wenig bekannt, aber rechtlich deutlich klarer als bei ChatGPT, gehören die Rechte an den mit Midjourney erstellten Werken den Urhebern, die den Prompt eingeben (Punkt 4. der Terms of Service von Midjourney. Ausnahmen gelten für Konzerne, siehe ebd.). Gleichzeitig räumen User Midjourney Inc. umfassende Rechte zur Verwendung und Sublizenzierung ihrer Werke ein (4. Abs. 2). Wir empfehlen grundsätzlich vor der Nutzung von Software das Lesen der Nutzungsbedingungen. Wie bei einem Beipackzettel von Medikamenten kann dies vor unerwünschten Nebenwirkungen bewahren.