Hörbuch

Neues Qualitätssiegel: Nicht von KI gesprochen

15. Dezember 2023
Redaktion Börsenblatt

Das Berliner Label speak low möchte nicht zugunsten einer höheren Wirtschaftlichkeit KI-generierte Stimmen in seinen Hörbuchproduktionen einsetzen und kennzeichnet sie deshalb mit dem  Siegel "REAL HUMAN VOICE".

Was bedeutet "korrekte" Wiedergabe?

KI sei mittlerweile in der Lage, so die Befürworter ihres Einsatzes im Hörbuchbereich, Texte mit der richtigen Betonung zu gestalten und sogar Emotionen zu erkennen und korrekt widerzugeben. Nach Auffassung des Verlags speak low ist "korrekt" in diesem Zusammenhang kein relevantes Kriterium. "Die konkrete sprachliche Gestalt macht es möglich, dass Gedanken und Emotionen nachvollziehbar werden und ihre volle Kraft entfalten können", so der Verlag. "Beim Lesen eines Buches, ob still für sich oder im Studio vor dem Mikrofon, entsteht ein Resonanzraum, in dem die Gedanken der Schreibenden einen Widerhall in den Gedanken und Emotionen der Lesenden finden. Die gedankliche und emotionale Durchdringung eines Textes ist die Voraussetzung für dessen Interpretation vor dem Mikrofon, wenn dieser Widerhall auch für die Rezipienten erfahrbar sein soll.

Der Verlag nennt ein Beispiel aus der Praxis, in dem ein renommierter Schauspieler bei speak low einen Roman eingelesen habe, an dessen Ende der Protagonist zu seiner Frau (die er im Verlauf der Handlung beinahe verlassen hätte) "Ich liebe dich" sagt. "Wahrscheinlich hätte eine KI die in diesem Satz enthaltene Emotion "korrekt" dechiffriert und ihn mit einer dazu passenden Intonation wiedergegeben", so der Verlag. Der Schauspieler aber sei mehrfach über den vermeintlich einfachen Dreiwortsatz gestolpert, bis er festgestellt habe: "Mir kommt das nicht über die Lippen, weil ich nicht weiß, wie der Protagonist es meint." Zur Studioarbeit des Labels gehöre es dazu, Fragen an den Text Raum zu geben und ihnen im Gespräch nachzugehen, bis ein überzeugender Ansatz für die Gestaltung vor dem Mikrofon gefunden sei. "Es geht dabei nicht um die Korrektheit des gesprochenen Wortes, sondern um die persönliche Haltung dazu. Diese wird situativ im Studio erarbeitet und kann nicht aus einem Datensatz generiert werden."