Die Zukunft der mobilen Welt

In deutschen Labors arbeiten Forscher weltweit federführend an der Realisierung einer großen Vision: Maschinen verstehen Menschen – wo auch immer, wann auch immer. Tastaturen wollen sie ins Museum bringen, Bedienungsanleitungen überflüssig machen. Multimediale Butler im Westentaschenformat, die uns überall hin begleiten, sehen, hören und fühlen.

 

Alan Turing war seiner Zeit zwei Generationen voraus. Bevor es er zu Lande auch nur Fernsehen gab, erfand der britische Mathematiker bereits den Online-Chat. Und zwar einen mit intellektuellem Anspruch. Via Terminal befragt ein Mensch zwei Gesprächspartner. Einer von ihnen ist ein Computer. Kann der Interviewer aus den Antworten beim besten Willen nicht mehr herauslesen, wer sein humanoider Artgenosse ist und wer der kybernetische Organismus, ist nach Turing’scher Lehre die Ara der künstlichen Intelligenz angebrochen.

50 Jahre später könnten Laien glauben, die Informatiker seien ihrem Ziel, Maschinen die hohe Kunst der Konversation zu lehren, sehr nahe. Elektronische Schaltkreise hören uns zu, lesen uns ziemlich verständlich Texte vor, gewinnen sogar Schachturniere. Software-Robots und virtuelle Agenten im Internet drücken sich gewählter aus als der durchschnittliche Chat-Teilnehmer. Aber das ist alles nur schiere Prozessor-Power, gepaart mit sauberer Programmierung: wenn – dann. Mit maschineller Intelligenz, wie im Turing-Test gefordert, hat es nichts zu tun. „Von Technik à la Enterprise“, sagt der Heidelberger Forscher Rainer Malaka nüchtern, „sind wir noch eine ganze Weile weg.“

Der Mann muss es wissen. Sein Job als Projektleiter am European Media Laboratory (EML), der gemeinnützigen Denkfabrik von SAP-Mitbegründer Klaus Tschira, ist es, die Kommunikation zwischen Mensch und Maschine zu verbessern. Die Ziele, die Malaka und seine Kollegen in den nächsten Jahren für erreichbar halten, klingen für den gemeinen Handy- und PC-Besitzer freilich immer noch nach Science-fiction. Mittels Stimme, Blicken oder Gesten gesteuerte Geräte sollen dem hypermobilen Menschen des UMTS-Zeitalters aufs Wort gehorchen und ihm in jeder Situation genau die passende Information in der passenden Form liefern – ganz egal, ob er in der guten Stube den Videorekorder programmieren will, ob er von unterwegs aus schnell einen Sitzplatz reservieren muss oder ob er sich im Wald verlaufen hat. Die Vision: Auch komplexeste Technik muss so intuitiv zu benutzen sein, dass eine Gebrauchsanweisung gar nicht mehr nötig ist.

Ein Besuch bei Malaka, der seine Doktorarbeit über die Informationsverarbeitung im menschlichen Gehirn geschrieben hat, ist ein Kontrastprogramm zu den Marketing-Veranstaltungen der Mobilfunkbranche. Erzählt der 35-jährige Informatiker von seiner Arbeit, fachsimpelt er nicht von digitalen Signalprozessoren, High-Speed-Datenfunk und sonstigen Cebit-Sensationen, sondern erklärt die Bedeutung von so genannten „mentalen Modellen“ für den Erfolg – oder öfter Misserfolg – technischer Geräte beim Verbraucher: „Um eine Menüsteuerung bedienen zu können, muss man die dahinter liegende Struktur verstehen.“ Diese Struktur spiegele im Zweifelsfall die Denkweise des Programmierers wider – statt, wie es sein müsste, die des Käufers. Die Folgen dieses Von-sich-auf-andere- Schließens kennt jeder, der einmal in einem fremden Büro telefonieren musste und wissen wollte, wie denn wohl die Wahlwiederholung funktioniert. Produkte der Kommunikationstechnik – vom Telefon bis zum Videorekorder – sind heute mit Dutzenden von Sonderfunktionen und Extras ausgestattet, die niemand nutzt, weil sie keiner kennt oder keiner findet. Aus Mangel an echten Innovationen jubelt die Industrie dann schon mal eine Notlösung wie die SMS-Kurzschrift T9 zum Fortschritt hoch. Bisweilen wird der Kunde sogar regelrecht verhöhnt. Malaka: „Von alleine kommt doch niemand drauf, dass der Knopf zum Ausschalten bei Windows im Startmenü liegt.“ Oder bei Apple, auch nicht besser, unter „Spezial“.

Es geht auch anders. Bei der Entwicklung von Smartkom Public, einer futuristischen Multimedia-Breitband-Internet-Telefonzelle, setzen die Projektpartner – darunter das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), Siemens, Philips, DaimlerChrysler und das EML – auf den Wizard-of-Oz-Test. Bevor überhaupt ein Computer programmiert wird, überprüfen die Forscher in einem Rollenspiel die Praxistauglichkeit ihrer Konzepte. Der Wizard als menschlicher Stellvertreter des Computers muss dabei exakt so reagieren, wie es das Software-Skript vorschreibt. Das Studienobjekt bei diesem auf den Kopf gestellten Turing-Test ist der Mensch.

„Hallo, ich bin Smartkom“, säuselt der Zauberer von Oz mit einer Stimme wie Susi „Herzblatt“ Müller aus dem Off. „Ich kann Ihnen Auskunft über das Wetter und das Kinoprogramm geben. Um mich zu aktivieren, verwenden Sie bitte das Kommandowort Computer oder Smartkom.“ Der Proband (forsch): „Computer! Wetter!“ Wizard (höflich): „Für welche Region wünschen Sie eine Wettervorhersage?“ Proband: „Für München. Füüüür Münnn-chännn!“ Wizard (cool): „Verwenden Sie bitte für eine Eingabe das Kommandowort Smartkom oder Computer.“ Proband (unsicher): „Computer! München.“ Wizard: „Heute herrscht unbeständiges Herbstwetter. Es dominieren dichte Wolkenfelder, die zeitweise Regenschauer bringen. Die Temperaturen liegen zwischen 13 und 17 Grad.“ Proband (gedankenverloren): „Gut, mhh, Danke schön.“

Den zwölf an Smartkom beteiligten Forscher-Teams liefern solche Dialoge, per Digitalvideo gefilmt, wertvolle Einblicke in die Erwartungshaltung, mit der Menschen einer scheinbar intelligenten Maschine gegenübertreten. Der Mann weiß, dass er mit einem Computer redet, also erteilt er knappe Befehle. Doch die sympathische Frauenstimme – Idealvorstellung der Hersteller von Sprach-Synthesizern – verunsichert ihn so, dass sich seine Erziehung meldet und er auf einmal unbewusst vom Kommandoton auf Höflichkeitsfloskeln umschaltet.

Solche menschlichen Anpassungsschwierigkeiten muss ein digitales Helferlein, das in ein paar Jahren vielleicht in einem unbemannten Call-Center installiert oder in den Bordcomputer eines Mittelklassewagens eingebaut wird, abfangen können. Eine weitere Herausforderung ist der Variantenreichtum der Sprache. Je nach Herkunft, Alter und Bildung drücken Menschen denselben Wunsch unterschiedlich aus. Das bloße Wiedererkennen einzelner Wörter ist damit verglichen für die Techniker ein Klacks. Federführend beim Sezieren und Filetieren der Alltagssprache ist das DFKI in Saarbrücken. Das Institut, organisiert als Public-Private-Partnership, gilt weltweit als erste Adresse auf dem Sektor des maschinellen Sprachverstehens.

DFKI-Chef Professor Wolfgang Wahlster hält es für realistisch, dass der Computer über kurz oder lang „zum integralen Bestandteil einer universalen Kulturtechnik für die Wissensgesellschaft“ wird. Wahlsters Traum: Wenn die Menschen mit Computern reden oder telefonieren können und merken, dass sie verstanden werden, verlieren sie Berührungsängste gegenüber der Informationstechnik. Die langfristige Idealvorstellung des Professors ist der „weltweite Zugriff auf das gesamte digital gespeicherte Wissen für jedermann, zu jeder Zeit und an jedem Ort“. Darum tüfteln DFKI-Wissenschaftler an Software, die nicht nur versteht, was der Sprecher will, sondern diesen Wunsch auch in Fremdsprachen übersetzt – sei es ins Japanische oder in die kryptische Befehlssprache eines Windows-Rechners.

Einen automatischen Deutsch-Englisch-Dolmetscher gibt es bereits. Sein Wortschatz beschränkt sich allerdings noch auf Anwendungen rund um den Kongresstourismus. Während das DFKI vor allem Grundlagenforschung betreibt, entwickelt der kleine Kooperationspartner EML mit Vorliebe konkrete Szenarien, wie die schlaue, mobile Kommunikationstechnik der Zukunft in der Praxis eingesetzt werden kann. Unter dem Namen Deep Map entstand in der denkmalgeschützten Villa Bosch, dem Sitz der Klaus-Tschira-Stiftung, das Konzept eines mehrsprachigen digitalen Reiseführers für die benachbarte Heidelberger Altstadt. Mit seinem interdisziplinären Team begann Rainer Malaka 1997 mit dem Entwurf eines ultimativen Guides für japanische Kulturtouristen. Deep Map – der Stadtplan, der in die Tiefe geht – soll alles wissen. Über die Geschichte von Stadt und Schlossruine, über Hotels und Gaststätten, Geschäfte und Fahrpläne, soll in Bild und Ton Zeitreisen in vergangene Jahrhunderte simulieren, ständig online sein und dabei immer auf den Meter genau seinen Aufenthaltsort kennen.

Noch vor zwei Jahren experimentierte das Team mit tragbaren Kompakt-PCs am Gürtel, GPS-Peilsendern und monströsen Stereo-Video-Brillen auf dem Kopf. Heute liegt das teure Virtual-Reality-Equipment die meiste Zeit im Schrank. „Wenn ein Urlauber damit durch eine fremde Stadt läuft“, lästert Malaka über die praktisch untragbaren Wearables (Fachjargon), „dann wird er selbst zur Touristenattraktion.“ Mit den quietschbunten und gewollt witzigen Design-Studien, die auf der Cebit stolz herumgezeigt werden, können die Forscher freilich genauso wenig anfangen. Wenn sie mit ihren Vorstellungen von mobilen Freizeitanwendungen auch nur halbwegs richtig liegen, so sind die UMTS-Prototypen von künftigen Großserienmodellen weiter entfernt als ein Concept Car auf dem Genfer Autosalon vom nächsten Golf. Die Puderdose von Siemens mit ihrer runden Riesenwählscheibe oder Ericssons Web-Handy in Form eines Schlüsselanhängers haben derart unterdimensionierte Bildschirmchen, dass es niemandem Spaß machen würde, darauf Straßenkarten zu studieren oder einen virtuellen Kameraschwenk zu betrachten, der Heidelberg zur Zeit des Dreißigjährigen Kriegs zeigt.

Als derzeit besten Kompromiss bei der Hardware hat das Deep-Map-Team, das seine Forschung ohne Rücksicht auf Produkte treiben darf, den Organizer von Compaq ausgemacht. Das Farb-Display ist groß und kontrastreich genug, um Details zu erkennen. Doch glücklich ist Malaka damit nicht, denn solche Apparate sind natürlich noch nicht mit Spracherkennung zu haben: „Ich will im Winter bei minus 20 Grad nicht meine Handschuhe ausziehen, nur um den Eingabestift benutzen zu können.“

Auf dem virtuellen Reißbrett ist das Problem bereits gelöst. Die Designstudie zur mobilen Version des schlauen Kommunikationssystems Smartkom sieht aus wie ein Organizer, den jemand mit Mikrofon, der satellitengestützten GPS-Ortung (Global Positioning System), Kamera sowie einem Fingerabdruckleser als Geheimzahlersatz aufgemotzt hat. In Serie gehen kann ein solches Wunderding freilich erst in ein paar Jahren, wenn die Kapazitäten der mobilen Speicher-Chips deutlich höher sind.

Ein Feature, das bei Smartkom und Deep Map eine zentrale Rolle spielt, wird allerdings schon sehr bald im Alltag auftauchen: die Positionserkennung. Sie ist die technische Grundlage für die so genannten Location-based Services, in die insbesondere E-Commerce- Unternehmen große Hoffnungen setzen. Mit GPS-, Bluetooth-, Wireless-LAN- und Infrarot-Modulen haben die Hardware-Entwickler gleich vier serienreife Techniken zur Auswahl, mit deren Hilfe künftige Nomaden ihren Appetit auf lokale Informationen stillen können.

Während sich die Kombination von GPS mit Mobilfunkdiensten wie GPRS, WAP und HSMD vor allem eignet, um ortsbezogene Web-Seiten aus dem Internet zu fischen, sind die drei anderen Systeme für den Einsatz im Haus gedacht. Gäste eines Hotels, Mitarbeiter einer Firma, Besucher einer Messe oder Touristen in einem Museum klinken sich dann drahtlos in das hauseigene Datennetz ein. Die Infrarotvariante, entwickelt vom Saarbrücker DFKI-Spin-off Eyeled, funktioniert bereits mit heutigen Palm-Modellen. Der Besucher eines mit Eyeled-Technik ausgestatteten Gebäudes muss sich lediglich vorher die Software Brows-IR aus dem Internet in seinen Rechner laden. Malaka geht davon aus, dass die künftigen Kommunikationsgeräte serienmäßig mit mehreren Online-Funkzugängen ausgeliefert werden – allein schon deshalb, weil die UMTS-Netze auf Jahre hinaus aus mehr Funklöchern als Sendezellen bestehen werden. Der Apparat suche sich dann automatisch den besten oder preiswertesten Zugang zu den Daten.

Falls die Sprachtechnik Fortschritte macht, ist es aber auch gut möglich, dass bald ein Handy genügt, um sich die unterwegs benötigten Infos zu beschaffen. Wer’s nicht glaubt: Zugauskünfte erteilt schon heute ein virtueller Bahnmitarbeiter unter (0241) 604020 (bei Philips in Siegen). Meist kapiert er sofort, und seine Stimme klingt überhaupt nicht nach Roboter. Alan Turing wäre platt.

***********************

 

Bilder-Fluten. Fotos, Videos, Skizzen, Landkarten: In den D- und E-Netzen der Mobilfunkbetreiber war für all das kein Platz. Ein gutes Bild sagt zwar mehr als 1000 Worte, beansprucht aber mindestens so viel Übertragungszeit wie 4000 Wörter. Mit neuer schneller Sendetechnik wie GPRS oder HSMD flutschen visuelle Inhalte viermal so schnell durch den Äther. UMTS soll die Bilddaten sogar um den Faktor zehn bis 15 beschleunigen. Das langt zwar noch nicht für die in Aussicht gestellten mobilen Videokonferenzen, aber auf die legt ohnehin kaum jemand Wert.
Stattdessen werden völlig neue Anwendungen möglich: Wer etwa beim Einkaufen Entscheidungshilfe braucht, sendet seinem Partner rasch ein Bild der Ware – ohne teure Digitalkamera, denn die preiswerte Minicam zum Aufstecken auf den Organizer liefert ausreichende Qualität. Aus dem Urlaub schicken mobilen UMTS-Fans statt der Ansichtskarte ein digitales Bild mit dem Charme des Selbstgebastelten.
Wer sich verirrt, lässt sich eine fotografische Wegbeschreibung auf den Organizer oder auf den UMTS-Monitor im Armaturenbrett funken. Schluss auch mit quengelnden Kindern im Auto. Sie haben auf LCD-Schirmen in den Rücklehnen die Wahl zwischen digitalen Fernsehprogrammen, Playstation-Spielen oder dem Internet.

Computer sprechen. Klassische Telefonate, verkündet die Handybranche, werden in wenigen Jahren nur noch einen geringen Teil der Gebühren einbringen. Den Hauptumsatz liefere der Datenverkehr. Deshalb bricht im Funk aber noch lange nicht die Stille aus. Denn ein erheblicher Teil des anschwellenden Bit-Stroms wird aus Audiodaten bestehen – mobiles Multimedia richtet sich an Auge und Ohr. Die Bedeutung der menschlichen Stimme in der mobilen Kommunikation wird dabei zunehmen. Die automatische Spracherkennung ist bald reif für die Großserie. Dann hören Autoradios, Bordcomputer, Organizer und Funktelefone aufs Wort ihrer Benutzer. Gleichzeitig wird die Sprachausgabe, derzeit vor allem in teureren Navigationssystemen zu finden, billiger. Eine synthetische Stimme liest E-Mails oder Zugverbindungen vor. Geht es nach den Netzbetreibern, die ihre Lizenzmilliarden refinanzieren müssen, hört der brave UMTS-Kunde künftig regelmäßig Streaming-Audio-Musik aus dem Internetvia kabellosem Stereokopfhörer. Spätestens nach der ersten Monatsrechnung wird seine Begeisterung freilich abebben. Realistischer ist da schon die Vision, dass der Walkman-on-a-Chip zum Bestandteil jedes besseren Mobiltelefons wird. Der Musikfreund erwirbt bei Bertelsmann, Universal oder Sony im Abo die Lizenz zum Download, holt die Songs per ADSL aus dem Festnetz und überspielt sie drahtlos ins Handy oder den Organizer.

Gefühle wallen. Zur Kommunikation des Menschen gehört seine Körpersprache. Der Kunde steht vor der Käsetheke, zeigt auf den Brie und sagt: „…und 150 Gramm von dem.“ Fahrkartenautomaten, deren berührungsempfindliche Bildschirme heute mit unappetitlichen Fingertappern übersät sind, könnten bald ähnlich funktionieren. Kameras erfassen die Bewegungen der Person, eine Mustererkennungs-Software interpretiert die Daten. In der Praxis scheiterten derartige Systeme bisher an ganz banalen Dingen: Menschen sind unterschiedlich groß und haben oft irgendwelche Gegenstände in der Hand, die den Computer verwirren. Im Forschungsprojekt Smartkom wird die Gestenerkennung dennoch getestet. ln Multimedia-Telefonzellen könnte der Bildschirm durch eine Projektion von oben auf ein weißes Pult ersetzt werden.
Eine von der Decke hängende Kamera hätte eine bessere Perspektive, um einen Fingerzeig richtig zuzuordnen – zumal die Gesten nur das gesprochene Wort ergänzen sollen. Weitgehend ausgereift ist eine Technik, die an die Fly-by-Wire-Steuerknüppel in Flugzeugen erinnert. Videospieler kennen sie als Force-Feedback. Die Kraftrückkopplung vermittelt dem Menschen das Gefühl, er hantiere nicht mit Software, sondern mit echter Materie. Situationsabhängig ändert sich der mechanische Widerstand des Hebels. Anwendungen in der Mobilkommunikation sind vor allem im Unterhaltungssektor denkbar.

Erschienen in BIZZ 4/2001.

Sie sind der oder die 1436. Leser/in dieses Beitrags.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert