„Du siehst müde aus“, sagte die Stimme. „Vielleicht brauchst du etwas Schlaf. In 25 Minuten kommen wir an einer Raststätte vorbei. Ich werde dich wecken und du kannst dir einen Kaffee kaufen.“ Ich hatte nicht bemerkt, dass die Farbe des Lichts wärmer, die Intensität geringer geworden war. Die Musik passend zu meinem Puls: immer einen Tick langsamer, um mich zu entspannen. Ich lächelte. „Normalerweise dauert es länger, dich zu überzeugen. Schlaf gut“, sagte mein Auto. Und fuhr mich zur Konferenz nach Hamburg.
– Ein Zukunftsbild von Marco Maier
Mensch und Maschine: ein Zusammenspiel. Maschinen zeigen uns den Weg, weisen auf Termine hin oder mahnen, wenn wir uns nicht ausreichend bewegen. Sie fahren Auto, kochen, malen, musizieren, stellen teils treffsicherere Diagnosen als Ärzte und erkennen Probleme, bevor sie auftreten. Doch das komplizierte, undurchsichtige Wesen Mensch bleibt ihnen ein Rätsel. Die Frage lautet: Wie lange noch?
Interaktion zwischen Menschen beruht auf vielfältigen Wegen der Kommunikation: Sprache, Schrift, Mimik oder Gestik. Genauso ist es bei der Interaktion mit Computern: Programmcodes, schriftliche Instruktionen, sorgen dafür, dass Maschinen genau das tun, was Menschen von ihnen verlangen. Benutzeroberflächen reagieren auf Wischgesten. Sprachbasierte Interfaces hören auf Kommandos. Sie basieren auf expliziten Äußerungen und Befehlen. Doch das Unausgesprochene kann genauso viel sagen wie das Ausgesprochene. Maschinen werden in Zukunft nicht nur intelligenter, sie werden auch empathisch. Allein aus der Stimme erkennen sie beispielsweise unsere Emotionen.
Affective Computing: funktionieren und verstehen
Zwei Jahre lang etwa zeichnete der indisch- amerikanische Wissenschaftler Shrikanth Narayanan von der University of Southern California (USC) in Los Angeles gemeinsam mit Kollegen hunderte Therapiegespräche aus der Eheberatung auf. Dazu kamen Informationen über den Ehestatus der beteiligten Personen. Das Team fütterte ihren Algorithmus mit den Stimmdaten, der sie nach Lautstärke, Tonhöhe oder zittrigen oder brechenden Symptomen analysierte. Das genügte: Das System sagte mit 80-prozentiger Sicherheit voraus, ob ein Paar nach Ende des Beobachtungszeitraums noch immer zusammen war oder nicht – besser übrigens als die Einschätzungen von ebenfalls beteiligten Therapeuten. „Ich bin sehr optimistisch, was die Zukunft dieser Technologie angeht“, sagt Narayanan: Schon heute kämen die Systeme nahe an Menschen heran, wenn es darum gehe, Emotionen zu erkennen. „Unsere Stimme transportiert sehr viele Informationen über unseren psychischen Status und unsere Identität.“
Affective Computing legt Wert darauf, dass Maschinen nicht nur funktionieren, sondern dass sie sich auch an den Menschen anpassen und dessen Gefühle verstehen. Die Forschungsrichtung der Informatik erlebt mit steigender Präsenz von Sprachassistenten einen enormen Aufschwung. Stimmen transportieren Emotionen wie kaum eine andere menschliche Äußerung. Sie stellen ein wesentliches Element der Vermittlung zwischen Mensch und Maschine dar.
Ein verändertes Mensch-Maschine-Bündnis
Die stetig wachsende Autonomie von Maschinen und ihr immer größerer Spielraum verändern das emotionale Mensch-Maschine-Bündnis. Statt Befehle zu befolgen, bekommt der intelligente Agent nur einen Aktionsraum und ein Optimierungsziel. Von abstrakten, auf künstlicher Intelligenz (KI) gründenden Geschäftsprozess-Optimierungssystemen bis hin zum autonomen Fahren – Maschinen treffen selbstständig Entscheidungen, die den Alltag beeinflussen: das Licht im Haus nach einem harten Arbeitstag auf Romantik dimmen, die Raumtemperatur oder die Musiklautstärke anpassen, das Badewasser einlaufen lassen.
„Emotion-AI-Technologien erkennen kleinste Veränderungen einzelner Parameter und leiten den Gemütszustand einer Person daraus ab. Nicht nur Sprache, sondern insbesondere auch visuelle und physiologische Daten liefern wertvolle Informationen dafür“, bestätigt auch Dr. Marco Maier von TAWNY, einem Unternehmen, das sich mit Affective Computing beschäftigt und die Technologie bereits im Alltag erprobt: Wie etwa muss man Arbeit in einem Team verteilen, damit die einen nicht überfordert und gestresst, die anderen jedoch nicht unterfordert werden und sich langweilen? Intelligente Systeme optimieren Arbeitsabläufe selbstständig, messen und berücksichtigen Auswirkungen auf Sicherheit, Produktivität und das Wohlbefinden von Mitarbeitern. Empathische Consumer-Endgeräte passen ihre Funktionalität dynamisch an den Zustand der Benutzer an. Profisportler trainieren mit Unterstützung dieser Technologie für einen möglichst langen Flow. Vertriebsmitarbeiter üben Auftreten und innere Einstellung mit einem empathischen Companion.
Der Großteil der Maschinen auf der Welt hat einen emotionalen Intelligenzquotienten von 0. Doch schon jetzt ist klar: Maschinen werden in Zukunft nicht nur intelligenter, sie werden auch empathisch.
Die Stimmung eines Menschen richtig einschätzen zu können, ist nötig für echte Kommunikation ohne Missverständnisse. Dies führt direkt zu einem zweiten Trend: Pervasive Computing – durchdringend – oder Ubiquitous Computing, die allumfassende Umgebenheit von Computern.
Der Amerikaner Thad Starner, Professor am Georgia Institute of Technology und Mitentwickler der Google-Brille, ist ein Pionier auf diesem Gebiet. Seit einem Vierteljahrhundert trägt er einen Computer am Körper so selbstverständlich wie andere Jacke und Hose – früher in Form eines Kastens an der Hüfte, einer klobigen Displaybrille und eines Twiddlers in der Hosentasche, einer Tastatur, die er blind bedienen kann. „Ich bin eine Art Cyborg“, sagt Starner von sich selbst und erinnert sich gut daran, wie er seine Dissertation beim Spazierengehen schrieb und Vorlesungen liegend auf dem Bürosofa einstudierte. Studenten dachten, er schlafe.
Die Technik ist immer dabei
Schon vor zehn Jahren legte Starner das Smartphone ad acta: „Zu umständlich. Man hat nie die Hände frei.“ Stattdessen gilt seine Vorliebe bis heute Brillen mit eingebauten Computern, die immer kleiner und bald nicht mehr zu sehen sein werden. Zum Durchbruch hat es zwar noch nicht gereicht. Doch Starner ist überzeugt, dass solch smarte Systeme in Kombination mit Sprachbefehlen und der Einschätzung der Gemütslage schon bald erkennen können, was ihr Nutzer gerade braucht: den Wetterbericht oder eine Navigation auf dem Weg zur Verabredung – auch, ob wir im Stress sind, eine dringende Verabredung haben und nur wichtige Anrufe durchzustellen sind. Sie spüren, was ihr Träger gerade tut, berechnen voraus, was er vorhat, projizieren beispielsweise mittels Augmented Reality nächste Arbeitsschritte auf eine intelligente Brille oder direkt auf den Arbeitstisch – assistieren unauffällig, indem sie das Kästchen mit den richtigen Schrauben kurz aufleuchten lassen. „Allwissende Organisatoren“ nennt Dieter Schmalstieg, Augmented-Reality-Experte von der TU Graz und Autor des Buches Augmented Reality – Principles and Practice, solche Geräte. „Informationen werden Bestandteil der realen Welt.“
Moderne Automobile, rollende Devices, sind schon heute emsige Datensammler. Sensoren melden die Anspannung des Fahrers mittels Hautleitfähigkeit oder Puls, erkennen, wenn er beispielsweise aufgeregt oder wütend ist – und reagieren angemessen. Das Fraunhofer Institut für Arbeitswirtschaft und Organisation IAO in Stuttgart entwickelt Demonstratoren und Prototypen für die nahe Zukunft des automatisierten Fahrens. Sie verfolgen mittels Pervasive Computing, in welcher Gemütslage Fahrer und Beifahrer augenblicklich sind, indem sie beispielsweise deren Blickbewegungen auswerten. Erkennen sie Müdigkeit oder Unaufmerksamkeit, holt blaues Licht im Innenraum oder eine kleine Bewegung des Lenkrads den Fahrer oder die Fahrerin zurück.
Emotional angepasste Maschinen sind die Zukunft
Emotional angepasste Maschinen werden unsere Zukunft verändern. „Die Erweiterung um emotionale und soziale Botschaften ermöglicht ein interaktives Zusammenwirken zwischen Mensch und Technik“, sagt Tanja Terney Hansen-Schweitzer von VDI/VDE Innovation. Wie sich das anfühlt, kann man bei einer Konferenz rund um den Förderschwerpunkt „sozial- und emotionssensitive Systeme für eine optimierte Mensch-Technik-Interaktion“ des deutschen Bundesministeriums für Bildung und Forschung erleben:
Der Mann auf dem Trainingsrad tritt in die Pedale und strengt sich mächtig an, doch plötzlich verzieht er sein Gesicht. „Du wirkst, als hättest du Schmerzen“, sagt sein Trainer und schaut mitfühlend drein. „Versuche, langsamer zu treten.“ Der Mann folgt dem Rat, der Trainer ist zufrieden: „Viel besser.“
Der Übungsleiter ist kein Mensch, sondern ein Avatar auf einem großen Bildschirm an der Wand gegenüber. Er spürt auf wundersame Weise, wie es seinem Schützling geht – ein Projekt der Universität Augsburg in Kooperation mit dem Universitätsklinikum Ulm. Der intelligente Agent lernt, welche Aktionen – hell oder dunkel, laut oder leise, warm oder kühl – den Nutzer in die gewünschte Richtung drehen: entspannt oder aufmerksam, wach oder schläfrig, sanft oder energisch.
Der künstliche Trainer auf dem Bildschirm soll besonders älteren Menschen helfen, beim Sport das richtige Maß zu finden. Dafür interpretiert er Gesichtsausdrücke, aber auch Geräusche wie lautes Ein- und Ausatmen. Zudem misst das System Hautleitwert sowie Puls und registriert so Stress und Überlastungserscheinungen. Dabei passt der Trainer seine Mimik und Gestik dem jeweiligen Befinden seines Gegenübers an.
Emotionserkennung auf Stimmbasis
Björn Schuller hat ein Start-up gegründet, das Emotionserkennung auf Stimmbasis als Dienstleistung anbietet: Audeering. „Emotionen sind wichtig, weil Menschen sie zum Überleben brauchen. Das gilt auch für die künstliche Intelligenz.“ Für Schuller sollen sich Maschinen den Menschen im Idealfall so anpassen, wie Menschen es untereinander auch tun. Deutschland als Forschungsstandort ist neben den USA treibende Kraft auf diesem Fachgebiet.
Kunden von Audeering sind beispielsweise Marktforschungsunternehmen, die nicht nur an der Beurteilung von Kunden, sondern auch anhand deren Stimme herausfinden wollen, wie gut oder schlecht ein Produkt ankommt. Auch die Analyse von Stimmdaten aus dem Internet (beispielsweise YouTube) sei ein riesiger Markt, sagt Schuller: Hier könne man „Meinungsbildung in Echtzeit verfolgen“. Schuller ist überzeugt: Schon in naher Zukunft können emotional sensitive Systeme Unterhaltungen mit Menschen führen – und nicht nur Geräte per Sprache steuern. Noch antwortet Siri auf einen Heiratsantrag: „Das ist nett von dir.“ Doch im echten Gespräch muss der Dialog weiterlaufen. „Dafür brauche ich die Emotionen“, so Schuller. „Der Computer kann dann perfekt die Stimmung analysieren und weiß, wann ich stark oder schwach, froh oder traurig bin.“
Maschinen müssen lernen, sich an Menschen anzupassen
„Sozialsensitive und kooperative Systeme sind die Zukunft“, sagt Professor Stefan Kopp von der Universität Bielefeld, dort Leiter der Arbeitsgruppe Social Cognitive Systems. Voraussetzung: Maschinen lernen, sich an Menschen anzupassen. Was passiert, wenn nicht, zeigten Versuche des Deutschen Forschungszentrums für Künstliche Intelligenz mit sozial benachteiligten Jugendlichen, die mit einem Avatar Bewerbungsgespräche trainierten. Die Forscher haben inzwischen eine Emotionserkennung nachgerüstet, denn im ersten Versuch ohne eine solche endete das Experiment verheerend – zumindest für die Technik. Einer der Nutzer fühlte sich offenbar zu sehr in die Enge getrieben von dem Avatar, der ihn ohne Rücksicht auf dessen emotionale Verfassung immer wieder mit unangenehmen Erfahrungen konfrontierte. Der junge Mann warf den Monitor mit dem Avatar kurzerhand aus dem Fenster.
Autorin: Eva Wolfangel
Eva Wolfangel ist Wissenschafts- und Reportagejournalistin, Speakerin und Moderatorin. Sie berichtet über Technologien, die unser Leben verändern, unter anderem für die ZEIT, GEO, das Magazin Technology Review und den Spiegel.
Info
Dieser Artkel ist erstmalig erschienen im Geschäfts- und Nachhaltigkeitsbericht der Porsche AG 2018.