KI-Forschung hinterfragt

Mit Computern reden?

11. August 2015
von Börsenblatt
Wie gut kann ein Computer Texte verstehen? Können wir uns eines Tages tatsächlich mit unseren SmartPhones unterhalten? Gibt es eine Chance, dass unsere Rechner uns VERSTEHEN?

Für die KI-Forscher, die vor etwa dreißig Jahren begannen mit dem Problem des Textverstehens zu beschäftigen, gab es zwei grundlegend verschiedene Ansätze: der erste, naheliegende, fütterte den Rechner mit einem Wörterbuch und Definitionen. Damit kann ein Programm zuerst mal rausfinden, was ein eingegebenes Wort bedeutet. Bei einfachen Sätzen wie »Zeige mir Hamburg« wäre der Rechner also durch Nachschlagen in der Lage zu sehen, dass Hamburg eine Stadt ist und das der Imperativ »Zeige« eine Anweisung enthält. Zusammen könnte das bedeuten, Hamburg auf einer Karte zu zeigen.

Aber nur wenige Texte sind so einfach. Die Frage: »Wie spät ist es?« ist schon schwieriger, weil das Fragewort »Wie« auf eine Antwort mit »so …«, also »so spät« oder »ganz spät« schließen lässt. »Spät« selbst ist sehr vage: Frühmorgens könnte die Antwort heißen, oder gar nicht, im Sinne von es ist nicht spät, sondern früh! Derzeit besteht die einzige Möglichkeit im sinnvollen Verarbeiten solcher Fragen bei Systemen wie Siri darin, solche idiomatischen Redewendungen auch mit ins Wörterbuch aufzunehmen und dann zu übersetzen: »Zeige die Uhrzeit.«

Die Welt im Computer

Um die Komplexität der möglichen Bedeutungen zu reduzieren, versuchen die Wissenschaftler es mit sogenannten frames. Das sind gewissermaßen in einander geschachtelte, beschreibbare Lebenssituationen, die die Bedeutungen von Wörtern und Sätzen eindeutig machen. Arbeit und Freizeit wären relativ hoch angesiedelte Rahmen. Die Freizeit könnte die Teilrahmen Daheim und Auswärts enthalten, und unter Auswärts gäbe es einen Rahmen Restaurant mit einem Teilrahmen Bestellung. Damit wäre ein situatives Raster abgesteckt, in dem Wortbedeutungen sich halbwegs korrekt auflösen lassen. Das Wort »Karte« im Satz »Kann ich die Karte haben?« meint bei der Bestellung die Speisekarte, beim Unterrahmen Bezahlen – »Nehmen Sie auch Karte?« – die Kreditkarte.

Im Teilrahmen Bestellung ist zum Beispiel die Frage Ist das scharf? eindeutig aufzulösen, was ohne solchen Kontext kaum möglich wäre (schon im nächsten frame kann sich die Frage auf das Messer beziehen). Das Spannende ist, dass Hersteller wie Apple an genau solchen Modellen arbeiten: Bei der letzten Entwicklerkonferenz (siehe dazu meinen Artikel »Das Ende der i-Zeit«) zeigten die Apple-Leute, wie Siri auf Apps zugreift, die ihr einen Kontext oder einen Rahmen geben können. Wenn im Kalender steht, dass von 18 bis 20 Uhr Workout angesagt ist, dann wird automatisch die dazu passende Playlist für iTunes auf dem iPhone eingeschaltet.

Explizit wurde es nicht gesagt, aber es liegt auf der Hand, dass solche Informationen auch für Fragen an Siri genutzt werden können. Über die Kalender-App weiß Siri, dass »Herrchen« aktuelle mit seiner Freundin im Restaurant sitzt – wo genau weiß sie sowieso. Anhand der Uhrzeit könnte Siri jetzt den Teilrahmen Bestellung selbständig aktivieren, weil es erst kurz nach Acht ist. Technisch gesehen könnte Siri jetzt den Kellner spielen!

Verstehen heißt eine Welt haben

Das Problem aber ist, dass selbst für solch kleine Szenarien megabyteweise Vorgaben, Regeln und Definitionen gemacht werden müssen. Mit einem derartigen Regelsystem für fast beliebig kleine Teilrahmen müssten dann alle Aspekte des sozialen und beruflichen Lebens ausgestattet werden, damit der Nutzer seine Maschine tatsächlich als nicht nur intelligent (das ist auch mein Hund), sondern menschlich im Sinne des Verstehens ist.

Was, um es kurz zu sagen, der Maschine fehlt, ist Weltwissen, also das Wissen, das uns in die Lage versetzt, Ereignisse und Sprache innerhalb komplexer Kontexte zu verstehen. Der Satz »Kriegen wir den noch?« sagt uns – wenn wir mit einem Freund zu einer Haltestelle mit Bus laufen – sofort was gemeint ist. Halten Sie mal einen Moment inne und versuchen Sie sich klarzumachen, was eine leere, dumme Maschine (die berühmte tabula rasa) von der Welt und uns wissen müsste um diese vier Wörter zu verstehen …

Vermutlich landen Sie da, wo die Logik uns hinführt: Wir müssen dem Computer die gesamte Welt in einer Metasprache erklären, was einem digitalen Doppel gleichkäme. Und Welt meint nicht die Erde, sondern alles das, was jeder von uns im Kopf hat (»Die Welt ist die Summe aller Tatsachen«, heißt es bei Wittgenstein, nicht aller Dinge. Und wenn wir von Weltuntergang reden, meinen wir eigentlich immer Erduntergang.) Bezogen auf das IBM-Watson-Programm (siehe dazu meinen Artikel »Die Melodie im Text«) bedeutet das: Der Rahmen für die erfolgreiche Anwendung eines »Gefühlanalysators« ist hier ein Mail im Geschäftsprozess, das sich nur auf Management-Probleme – im Gegensatz zu Produktionsproblemen zum Beispiel – bezieht, also auf Geschäftsbeziehungen unter Kunden und Lieferanten oder auf die Beziehung zu Kollegen. Schreiben Sie im Mail-Programm einen romantischen Liebesbrief und lassen dann den Watson-Textbot darauf los, sollten Sie ihr Blaues Wunder erleben.

Der Computer in der Welt

Die zweite KI-Strategie im Umgang mit Texten nähert sich dem Problem ganz anders: Wenn ein Computer Weltwissen braucht, dann soll er es selbst erwerben, wie ein Kind. Er könnte zum Beispiel ganz viele Sachbücher lesen und versuchen, selbst Verknüpfungen zwischen Wörtern und Sätzen herzustellen, die ihm der gelesene Kontext selbst zur Verfügung stellt. Aber dann fehlt das Grün des Lebensbaums, der Bezug auf die – vermeintlich – wirklichen Dinge, die Tatsachen. Dass man auf eine Pyramide keinen Würfel legen kann, umgekehrt sehr wohl, steht möglicherweise in keinem Text dieser Welt. Trotzdem wissen wir alle es, Tatsache.

Es ist ziemlich aufwändig, solche selbstlernenden Systeme zu beschreiben, auch IBMs Deep Though Rechner – der eigentliche Schach-Weltmeister – ist ein solcher Selbstlerner. Ein Beispiel: Ich zeige einer Computer-Kamera, die entsprechend programmiert ist, Fotos von Frauen und Männern. Dabei markiere ich für den Rechner bei jedem Bild das entsprechende Geschlecht. Die Software analysiert die Bilder und lernt, gewisse Charakteristiken des Gesichts, der Haare, der Haut mit dem jeweiligen Geschlecht zu verknüpfen. Nach der Lernphase kann das Programm selbständig bei vorgelegten Bilder Frauen und Männer unterscheiden. Das Problem: Man bekommt bei solchen Systemen nicht raus, nach welchen Kriterien entschieden wird! Wir täten uns bei der Antwort auf die gleiche Frage ja auch sehr schwer, denn es geht vermutlich weniger um Merkmale als um Verhältnisse, also Relationen einzelner Teile zueinander in Größe, Distanz, Tönung usw.

Als selbstlernende Blackbox braucht der Rechner also alle Sinne, er muss hören, sehen, riechen, schmecken und tasten können. Und er muss sich autonom bewegen können. Er muss – und nun wird die Falle sichtbar – ein digitaler Säugling sein, bei dem alle, aber auch wirklich alle Körpereigenschaften digital nachgebildet sind – zum Beispiel auch Schmerz zu empfinden. Dieses digitale Baby könnte dann lernen wie ein Mensch, um schließlich auch zu verstehen wie ein Mensch. Aber auch: gehässig, dumm oder verrückt sein zu können wie ein Mensch. Nun haben wir also nicht das digitale Doppel der Welt im Rechner, sondern das digitale Doppel des Menschen in der Welt.

Das Dilemma ist vermutlich auf sehr lange Zeit nicht aufzulösen: Die KI-Wissenschaftler müssten sich entscheiden, ob sie die Welt oder den Menschen digital nachbilden – und eins von beiden muss sein –, um zu dem Weltwissen zu gelangen, dass die einfache Frage »Kriegen wir den noch?« verständlich macht.

Auf dem Wege zur echten Turing-Maschine (einem gedachten Computer, der von einem menschlichen Gesprächspartner nicht zu unterscheiden ist) gibt es natürlich intermediäre Erfolge, die sich aber vermutlich eher im Umfeld der Prothetik oder Servonik beschreiben ließen als in dem des Sinnverstehens: Der bewegliche Computer in zwanzig Jahren muss nicht wissen, was eine Badewanne ist, aber er muss mich da reinlegen und rausholen können. Allein die dazu nötige Intelligenz ist schon beeindruckend, aber auch in Sicht.

Wer also glaubt, dass Textbots auch nur die Vorboten irgend einer Art von Textverstehen wären, ist (gottseidank) auf einem sehr langen Holzweg. Computer arbeiten mit Wörtern wie die Mathematik mit Formeln: Es sind Symbole für Mengen, Operationen und Beziehungen, ohne Bezug auf die Tatsachen unserer Welt. Computer sind symbolverarbeitende Maschinen, sie prozessieren keinen Sinn, keine Bedeutung.