Generative KI und Urheberrecht - Interview mit Susanne Barwick und Carsten Wehmeyer

Wie man sich gegen die "Blackbox" KI absichert

11. Juli 2024

Stefanie Herr

Die rasche Entwicklung Künstlicher Intelligenz hat in der Branche eine Reihe von Urheberrechtsfragen aufgeworfen. Rechtsanwältin Susanne Barwick (Rechtsabteilung des Börsenvereins) und Digitalexperte Carsten Wehmeyer (Peergroup Digitale Distribution der IG Digital / VVA arvato) über die Rechtslage und über Maßnahmen, die vor einer unerlaubten Nutzung von Daten schützen.

Susanne Barwick und Carsten Wehmeyer

© privat

Besonders umstritten ist die Frage der verwendeten Trainingsdaten. Generative KI-Systeme werden durch die Analyse großer Datenmengen trainiert, wobei häufig frei zugängliche Texte aus dem Internet verwendet werden. Diese Texte werden durch systematisches Durchsuchen des Netzes gesammelt. Inzwischen ist bekannt, dass dabei auch urheberrechtlich geschützte digitale Inhalte verwendet wurden. Das Auslesen von Daten umfasst dabei eine breite Palette, von Grafiken und Bildern über Buchcover bis hin zu Buchinhalten oder den Stimmen von Sprecher:innen.

Frau Barwick, wie ist die rechtliche Situation bezüglich der Verwendung urheberrechtlich geschützter Texte aus dem Internet für das Training von KI-Systemen?
Susanne Barwick: Die Rechtslage ist nur für die Vergangenheit eindeutig. Für die heute am Markt befindlichen kommerziellen generativen Sprachmodelle sind urheberrechtlich geschützte Werke vervielfältigt und analysiert worden, ohne dass dafür die Zustimmung der Rechteinhaber eingeholt wurde. Da es zum Zeitpunkt des Trainings auch noch keine gesetzliche Ausnahme - keine Schrankenregelung - gab, haben hier aus deutscher Sicht Urheberrechtsverletzungen stattgefunden. In der rechtlichen Durchsetzbarkeit stellen sich jedoch mehrere Probleme: Bisher legen die Unternehmen nicht offen, mit welchen Daten die Modelle trainiert wurden, so dass Rechtsverletzungen nur schwer zu beweisen sind. Zudem fanden die Vervielfältigungen im Ausland statt. Es besteht somit ein größeres Prozessrisiko, zumal in den USA noch nicht geklärt wurde, ob die Nutzung von urheberrechtlich geschützten Werken für KI-Training unter "Fair Use" fällt. Hier laufen bereits mehrere Klagen von Rechteinhabern, deren Ausgang wir natürlich mit Interesse beobachten.

Gibt es im Urheberrecht spezifische Ausnahmen oder "Fair Use"-Regelungen, die es KI-Entwicklern erlauben, geschützte Inhalte für das Training ihrer Systeme zu nutzen?
Susanne Barwick: Wie gerade angedeutet, wird in den USA geklärt werden, ob das Training von generativer KI unter "Fair Use" fällt. Eine solche Regelung kennen wir im europäischen Recht nicht. Aber es gibt seit 2021 die Schrankenregelungen § 44b UrhG sowie § 60d UrhG. Gemäß § 44b UrhG ist unter bestimmten Voraussetzungen Text- und Data-Mining für kommerzielle Zwecke erlaubt, § 60d UrhG regelt Text- und Data-Mining für Forschungszwecke. Beide Vorschriften gehen auf die europäische DSM-Richtlinie aus dem Jahr 2019 zurück. Die DSM-Richtlinie ist aber zu einer Zeit verabschiedet worden, als die großen Sprachmodelle der Öffentlichkeit noch unbekannt waren. Unklar ist daher, ob das Trainieren von generativer KI überhaupt unter Text- and Data-Mining im Sinne der Vorschriften fällt. Aus unserer Sicht ist dies aus verschiedenen Gründen nicht der Fall. Text- und Data-Mining setzt voraus, dass die Extrahierung der Daten erfolgen muss, um Informationen zu gewinnen. Den Entwicklern und Anwendern von generativer KI wird allerdings gerade keine Information über die in den Datensätzen verborgenen Muster ausgegeben, es handelt sich vielmehr technisch um eine sogenannte Blackbox. Zudem würde hier die Schrankenregelung die normale Auswertung der genutzten Werke beeinträchtigen, da die generativen KI-Produkte ja gerade mit diesen Werken konkurrieren.

Unklar ist ja, ob laut § 44b UrhG urheberrechtlich geschützte Werke als Trainingsdaten verwendet werden. Was empfiehlt der Börsenverein seinen Mitgliedern hier?
Susanne Barwick: Aus unserer Sicht können sich KI-Unternehmen für das Training generativer KI nicht auf die Text- und Data-Mining-Schranken berufen. Die KI-Unternehmen sehen dies aber natürlich anders. Da wir nicht wissen können, wie ein Rechtsstreit über diese Frage eines Tages entschieden werden wird, empfehlen wir Rechteinhabern, auf "Nummer sicher" zu gehen. Gemäß § 44b Abs. 3 UrhG können Rechteinhaber einen Nutzungsvorbehalt für Text- und Data-Mining erklären. Geschieht dies, so müssen die KI-Unternehmen wieder die Einwilligung zur Nutzung einholen.

Aus unserer Sicht können sich KI-Unternehmen für das Training generativer KI nicht auf die Text- und Data-Mining-Schranken berufen.

Susanne Barwick

Herr Wehmeyer, wie kommt es, dass Sie sich mit diesem Thema beschäftigen?
Carsten Wehmeyer: Das Thema begleitet mich seit gut zwei Jahren, weniger in meiner Rolle bei der VVA als in ehrenamtlicher Funktion mit der Peergroup Digitale Distribution der IG Digital, die immer wieder Empfehlungen für Prozessoptimierungen im digitalen Zwischenbuchhandel ausspricht. Oft sind diese Prozessoptimierungen zwar fachlich getrieben, aber doch fordern sie eine technische Umsetzung – und wir in der Peergroup sind recht nah an der Technik. Wir hegen auch gute Verbindungen zur IG Produktmetadaten, die man braucht, wenn es an die Umsetzung dieses Themas geht. Daher haben Verlage – und auch der Börsenverein – uns angesprochen, um Szenarien für die technische Umsetzung zu schaffen. Dabei mussten wir in enge Abstimmung mit dem World Wide Web Consortium (W3C), dem European Digital Reading Lab (EDRLab) und auch EDItEUR gehen.

Wie lässt sich ein Nutzungsvorbehalt nach § 44b UrhG erklären? Was muss dabei berücksichtigt werden?
Carsten Wehmeyer: § 44b UrhG sieht vor, dass der Nutzungsvorbehalt ausdrücklich erklärt werden muss, an "üblicher Stelle" – und da beginnt die Herausforderung. Wie genau der Nutzungsvorbehalt umgesetzt werden muss, lässt das Gesetz offen. Bei öffentlich zugänglichen digitalen Inhalten muss er maschinenlesbar sein. In Printbüchern kann ein Satz im Impressum integriert werden, der in etwa sagt: "Der Verlag behält sich das Text- and Data-Mining nach § 44b UrhG vor, was hiermit Dritten ohne Zustimmung des Verlages untersagt ist."

Ideal ist es natürlich, wenn das Opt-Out nah am Inhalt angebracht wird, zum Beispiel direkt im EPUB. Dort warten wir auf eine neue EPUB-Version, die genau das beschreibt.

Carsten Wehmeyer

Wenn Unternehmen den Nutzungsvorbehalt nun nicht nur im Impressum anbringen wollen, wie kann dieser technisch umgesetzt werden?
Carsten Wehmeyer: Eine Hilfe ist dabei das Text and Data Mining Reservation Protocol (TDMRep). Es wird dazu genutzt, um Ausprägungen der Verarbeitungsarten anzubieten. Das dafür genutzte Attribut heißt tdm-reservation. Es kann 2 verschiedene Werte haben:

1: Die Verarbeitung für Text- und Data-Mining ist eingeschränkt (= Rechte sind reserviert).
0: Verarbeitung für Text- und Data-Mining ist ohne Einschränkungen erlaubt (= Rechte sind nicht reserviert).

Bei 1 kann ein Verweis auf eine Richtlinie hinterlegt werden. In diesem Fall beinhaltet die Ausprägung eine URL, die den textlichen Inhalt der Richtlinie als JavaScript Object Notation (.json) zurückgibt und zum Beispiel eine Aufweichung enthält. Webseiten lassen sich mit Hilfe der Datei tdmrep.json schützen. Dort kann explizit angegeben werden, welche Bereiche nicht zum KI-Training genutzt werden dürfen.

Ideal ist es natürlich, wenn das Opt-Out nah am Inhalt angebracht wird, zum Beispiel direkt im EPUB. Dort warten wir auf eine neue EPUB-Version, die genau das beschreibt. Schon heute betten Hersteller ein Opt-Out im EPUB ein, aber solange es nicht einem offiziellen "Standard" entspricht, ist die Wahrscheinlichkeit gering, dass KI-Unternehmen das Kennzeichen auslesen.

Cover können bereits in der JPG-Datei vor dem Zugriff durch Künstliche Intelligenz geschützt werden. Genauere Informationen beschreibt das IPTC (International Press Telecommunications Council) unter https://www.iptc.org/news/exclude-images-from-generative-ai-iptc-photo-metadata-standard-2023-1/

Wenn zu Inhalten Metadaten im ONIX-Format gesendet werden, können schon heute EPUB-, PDF- und Audio-Formate geschützt werden. In ONIX 3.1.1 lässt sich der Nutzungsvorbehalt sogar für Texte, Cover, Leseproben und Links setzen. Es bietet sich außerdem die Möglichkeit, einen Hinweis auf Lizenzen zu inkludieren. Mehr Informationen haben wir dazu im Digitalen Wissens-Hub des Börsenvereins veröffentlicht: Künstliche Intelligenz: So schützen Sie Ihre eigenen Inhalte und kennzeichnen KI-generierte Inhalte als solche (boersenverein.de)

Am 21. Mai 2024 wurde der AI Act von der Europäischen Union verabschiedet, der sogenannte Transparenzpflichten vorsieht. Was genau bedeutet das für die Branche?
Susanne Barwick: Der AI Act enthält eine Regelung, wonach sogenannte General-Purpose-AI-Modelle, worunter generative KI fällt, gewisse Pflichten erfüllen müssen. Dazu gehört die Bereitstellung einer technischen Dokumentation, die Festlegung einer Strategie zur Einhaltung des Urheberrechts sowie die Veröffentlichung einer "hinreichend detaillierten Zusammenfassung" der für das Training verwendeten Inhalte. Dies ist wichtig, um überhaupt nachvollziehen zu können, mit welchen Daten die Modelle trainiert wurden, um zum Beispiel Urheberrechtsverletzungen verfolgen zu können. Allerdings wird es bis zur ersten Veröffentlichung einer solchen Zusammenfassung noch dauern, da der AI Act in dieser Hinsicht eine Übergangsvorschrift von 24 Monaten nach Inkrafttreten vorsieht.