Das Gespenst KI gewinnt so allmählich Gestalt. Während wir Normalsterblichen derzeit weder an selbstfahrende Autos noch an selbstlernende Big-Data-Systeme rankommen, können wir mit Sprachassistenten ein Gefühl für das neue Paradigma bekommen. Die Großen Fünf – Apple, Google, Facebook, Amazon, Microsoft – haben in den letzten drei Jahren viel Geld und viel Arbeit in intelligente und lernende Systeme investiert, Scheitern ist keine Option.
Google selbst nimmt das sehr ernst. Auf der letzten eigenen Entwicklerkonferenz, genannt I/O, war die Selbstpositionierung eindeutig: Google sieht sich selbst ab jetzt als KI-Unternehmen. Es wird kein Produkte mehr ohne KI geben. Punkt. Ob Google Lens, die App, die Fotos versteht, oder Google Draw, die App, die mein Gekrakel interpretiert, ob Suchmaschine oder Sprachassistent: jetzt schon und noch mehr in Zukunft steckt hinter all dem digitale Intelligenz. Die Serverschränke der Kalifornier werden mit KI-Chips und neuronalen Netzen vollgestopft. Alle Anwendungen werden selbstlernend, und wer will kann fertige Elektronengehirne von Google leasen und mit nutzen.
Hier stehen wir
»Mustererkennung auf Basis von Massendaten« sollte KI eigentlich heißen: Der Trick ist nicht, ein menschliches Gehirn zu programmieren, sondern durch Software, deren Elemente sich wie Neuronen im Gehirn verhalten sollen, große Datenmengen automatisiert auf bestimmte Ergebnisse hin auszuwerten und die Schritte, die zur gewünschten Auswertung geführt haben, zu »erlernen«, zu »erinnern«.
Google Lens erkennt auf Fotos Objekte oder Schriften auf Bildern, Google Assistant in gesprochenen Texten Wörter und Sätze. Alexa heißt die Software von Amazon, die im sprechende Pömpel Echo steckt, von Apple und Microsoft erwartet die Welt in den nächsten Monaten ebenfalls dezidierte Geräte mit Siri und Cortana. Der redende Assistent erscheint als Konvergenzpunkt der Home-Strategien aller daran Beteiligten Hersteller. Alle bieten Video- und Musik-Streaming an, Amazon auch noch Hörbücher und alle anderen Artikel. Ein eigener Bildschirm bei Amazons Echo, die Ausgabe auf dem Fernseher bei Google Assistant oder die Möglichkeit, Stimmen zu unterscheiden sind nur die neuesten Fähigkeiten. Wenn Eltern und Kinder auf das Gerät einredet, hilft dem kein Fingerabdruck und keine Anmeldung: die Termine, die Einkaufslisten und die Aufgaben der gesamten Familie müssen transparent personenbezogen gepflegt werden.
Stufe I: Der Soldat
Aber bisher verhalten sich die Sprachassistenten nach dem Militärparadigma von Befehl und Gehorsam, dual: Meine Anweisungen werden ausgeführt, sonst gibt es nur Nachfragen oder Schulterzucken. Gefühlte neunzig Prozent der Intelligenz werden benötigt, um »die Wörter zu verstehen, die fallen aus meinem Mund«, um Chris Tucker aus Rush Hour zu zitieren. Noch vor zehn Jahren musste, wer diktieren wollte, sich von seinem Programm zum Tagesschausprecher ausbilden lassen. Die neuen Sprachassistenten verstehen sogar schottisch, was in unserem Sprachraum bairisch wäre.
Die Befehle selbst sind simpel wie Mausklicks: Termin eintragen, Wetter abfragen, Licht dimmen, Tee kochen. Ich will’s mal so sagen: Gemessen an den geschürten Erwartungen ist das Ergebnis eher mickerig. Sogar die programmierten Witze sind schlecht. Glaubt man den Entwicklern, dann geht es im Augenblick noch um die Basics, wir sind im Jahre Null der KI. Was wir sehen und hören ähnelt den Assistenten von vor zehn Jahren, aber das unterliegende Prinzip hat sich grundlegend geändert! Die Erkenntnis wird neu gebaut, die intelligente Verarbeitung steckt noch in den Kinderschuhen.
Die Vizepräsidenten von Diesem und Jenem bei Google, Amazon und Apple lassen keine Zweifel aufkommen: eine echte Unterhaltung ist das Ziel, die Alltagskonversation, der Turing-Test. Aus dem Befehlsempfänger soll ein Gesprächspartner werden. Wie so etwas aussieht, haben sich Leute bei Apple schon im Jahre 1987 überlegt und diese Gedanken in einem Video verfilmt: Knowledge Navigator ist dreißig Jahre alt und immer noch ein visionärer Meilenstein.
Derzeit arbeiten fast alle an humanizern: Für die Unterhaltung muss die Rede des Assistenten, rhetorisch der Vortrag, die pronunciatio, menschlicher werden. Wenn der Heimweg von der Arbeit mit vier Staus und drei Umleitungen angekündigt wird, hilft ein wenig Mitleid in der Stimme. »Toll, Sie haben ihr Ziel erreicht.« kann dagegen durchaus freudig angesagt werden. Das Problem an dieser Stelle für die Entwickler: erste Versuche zeigen, dass die natürlichen Intelligenzen (vulgo: wir) mit Spiegelneuronen ausgestattet sind, das heißt: wir projizieren. Hört sich eine Maschine menschlicher an, dann ändern wir unsere Ansprache, da wir jetzt Verstehen unterstellen: Kompetenzvermutung. Aus unseren präzisen Anweisungen mit erlernten Befehlsworten werden dann schlampig hingeworfene Brocken: »Mir ist kalt!« verstehen aktuelle Systeme noch nicht als Aufforderung, die Heizung hochzudrehen, und ein ÌBah, hier stinkt’s!« sorgt noch nicht automatisch für mehr Frischluft. Je mehr Intelligenz wir aber beim Gegenüber annehmen, desto eher sind wir geneigt, Kontexte oder Bedeutungsrahmen vorauszusetzen, das ist die Ökonomie der sozialen Kommunikation.
Wie dem auch sei, die Vermenschlichung wird betrieben, die Sprechgeräte sollen »Hmm« und »Öhh« sagen können, Pausen machen, hörbar nach dem richtigen Wort … ähh … suchen und idiomatischer reden. Derzeit sind im Silicon Valley erstaunlicherweise Dichterinnen und Dichter sehr beliebt: Poeten, so vermuten die Ingenieure, sind Experten für die Vermenschlichung digitaler Rede. Werden die Alexa und Co also in Bälde möglicherweise pathetisch, ironisch, ja sarkastisch? Bislang hatte ich mir beim Navi immer ein wenig Häme als belebendes Element gewünscht: »Glückwunsch, zum dritten Mal die Abzweigung verpasst!«
Übersetzer für die komplexe Dingwelt
Wäre der Titel noch nicht vergeben, würde ich den Sprachbot den »Gott der kleinen Dinge« nennen. Ich habe eine Schublade voll mit Anleitungen für Kühlschrank, Herd, Espressomaschine, Mixer, Toaster und ungefähr zwanzig weitere Geräte. Die Hälfte von denen hat sich schon in Rührcomputer, Backcomupter und Waschcomputer verwandelt, sie haben Chips und Software. Und jedes dieser Geräte hat ein eigenes Interface, eine eigene Benutzerschnittstelle. Man braucht ein tolles Gedächtnis um in einer heutigen Küche Chef zu bleiben! Inhaltlich und technisch verstehe ich mein MacBook besser als meine Waschmaschine.
IKEA beginnt gerade damit, Lampensysteme zu verkaufen, die mit Siri, Alexa und Assistant reden können. Das Internet der Dinge, so die Hoffnung der digitalen Weltverbesserer, ist dabei, seine Übersetzer zu finden. Keine Knöpfe und Schalter mehr, keine kryptischen Kürzel an Frontpanelen, keine unterschiedlich langen Lichtsignale mehr, um den eigenen Status zu kommunizieren. Neulich habe ich versucht, einen WLAN-Signalverstärker von der Größe einer Streichholzschachtel anzuschließen. Gescheitert bin ich an den beiden Lämpchen, deren Blinken oder Dauererleuchten mir ungefähr 48 Zustände des Systems übermitteln sollten: Repeater, ich verstehe dich nicht, rede mir mir!
Mal auf deutsch gesagt: In einem Umfeld, in dem bald alle Alltagsgeräte tendenziell digital sind und die Dualität von analogen Schalten (an-aus) und Rädchen (mehr-weniger) in eine Plethora von Steuerungselementen und deren Rückmeldungen explodiert, kann nur die Rückkehr zu Sprachmagie helfen: So wie früher Zauberer und Hexen reden wir direkt mit den Dingen, um ihnen unseren Willen aufzuzwingen (»Besen, Besen, sei’s gewesen …«: so gesehen ist Goethes Zauberlehrling ein frühes Beispiel für eine gescheiterte Kommunikation mit einem sprachfähigen Putzbot).
Der zweite Teil dieses Artikels über die Stufen zwei bis vier (»Der Dschinn«, »Der Freund & Helfer« und »Der Konkurrent«) erscheint hier am kommenden Dienstag.