Besonders umstritten ist die Frage der verwendeten Trainingsdaten. Generative KI-Systeme werden durch die Analyse großer Datenmengen trainiert, wobei häufig frei zugängliche Texte aus dem Internet verwendet werden. Diese Texte werden durch systematisches Durchsuchen des Netzes gesammelt. Inzwischen ist bekannt, dass dabei auch urheberrechtlich geschützte digitale Inhalte verwendet wurden. Das Auslesen von Daten umfasst dabei eine breite Palette, von Grafiken und Bildern über Buchcover bis hin zu Buchinhalten oder den Stimmen von Sprecher:innen.
Frau Barwick, wie ist die rechtliche Situation bezüglich der Verwendung urheberrechtlich geschützter Texte aus dem Internet für das Training von KI-Systemen?
Susanne Barwick: Die Rechtslage ist nur für die Vergangenheit eindeutig. Für die heute am Markt befindlichen kommerziellen generativen Sprachmodelle sind urheberrechtlich geschützte Werke vervielfältigt und analysiert worden, ohne dass dafür die Zustimmung der Rechteinhaber eingeholt wurde. Da es zum Zeitpunkt des Trainings auch noch keine gesetzliche Ausnahme - keine Schrankenregelung - gab, haben hier aus deutscher Sicht Urheberrechtsverletzungen stattgefunden. In der rechtlichen Durchsetzbarkeit stellen sich jedoch mehrere Probleme: Bisher legen die Unternehmen nicht offen, mit welchen Daten die Modelle trainiert wurden, so dass Rechtsverletzungen nur schwer zu beweisen sind. Zudem fanden die Vervielfältigungen im Ausland statt. Es besteht somit ein größeres Prozessrisiko, zumal in den USA noch nicht geklärt wurde, ob die Nutzung von urheberrechtlich geschützten Werken für KI-Training unter "Fair Use" fällt. Hier laufen bereits mehrere Klagen von Rechteinhabern, deren Ausgang wir natürlich mit Interesse beobachten.
Gibt es im Urheberrecht spezifische Ausnahmen oder "Fair Use"-Regelungen, die es KI-Entwicklern erlauben, geschützte Inhalte für das Training ihrer Systeme zu nutzen?
Susanne Barwick: Wie gerade angedeutet, wird in den USA geklärt werden, ob das Training von generativer KI unter "Fair Use" fällt. Eine solche Regelung kennen wir im europäischen Recht nicht. Aber es gibt seit 2021 die Schrankenregelungen § 44b UrhG sowie § 60d UrhG. Gemäß § 44b UrhG ist unter bestimmten Voraussetzungen Text- und Data-Mining für kommerzielle Zwecke erlaubt, § 60d UrhG regelt Text- und Data-Mining für Forschungszwecke. Beide Vorschriften gehen auf die europäische DSM-Richtlinie aus dem Jahr 2019 zurück. Die DSM-Richtlinie ist aber zu einer Zeit verabschiedet worden, als die großen Sprachmodelle der Öffentlichkeit noch unbekannt waren. Unklar ist daher, ob das Trainieren von generativer KI überhaupt unter Text- and Data-Mining im Sinne der Vorschriften fällt. Aus unserer Sicht ist dies aus verschiedenen Gründen nicht der Fall. Text- und Data-Mining setzt voraus, dass die Extrahierung der Daten erfolgen muss, um Informationen zu gewinnen. Den Entwicklern und Anwendern von generativer KI wird allerdings gerade keine Information über die in den Datensätzen verborgenen Muster ausgegeben, es handelt sich vielmehr technisch um eine sogenannte Blackbox. Zudem würde hier die Schrankenregelung die normale Auswertung der genutzten Werke beeinträchtigen, da die generativen KI-Produkte ja gerade mit diesen Werken konkurrieren.
Unklar ist ja, ob laut § 44b UrhG urheberrechtlich geschützte Werke als Trainingsdaten verwendet werden. Was empfiehlt der Börsenverein seinen Mitgliedern hier?
Susanne Barwick: Aus unserer Sicht können sich KI-Unternehmen für das Training generativer KI nicht auf die Text- und Data-Mining-Schranken berufen. Die KI-Unternehmen sehen dies aber natürlich anders. Da wir nicht wissen können, wie ein Rechtsstreit über diese Frage eines Tages entschieden werden wird, empfehlen wir Rechteinhabern, auf "Nummer sicher" zu gehen. Gemäß § 44b Abs. 3 UrhG können Rechteinhaber einen Nutzungsvorbehalt für Text- und Data-Mining erklären. Geschieht dies, so müssen die KI-Unternehmen wieder die Einwilligung zur Nutzung einholen.