Team 4

Sprachverstehende Computer als Dialog- und Übersetzungsassistenten

Beschreibung der Institute und Unternehmen zu ihren nominierten Projekten

Durch die Fortschritte auf dem Gebiet der Sprachtechnologie wird der Computer vom komplexen Werkzeug für Experten zum allgegenwärtigen Assistenten und Dialogpartner, der menschliche Alltagssprache versteht und selbst auch spricht. Prof. Wahlster und seiner Arbeitsgruppe ist nach zwanzig Jahren intensiver Grundlagenforschung mit der Entwicklung einer innovativen Sprachverarbeitungsmethode ein international vielbeachteter Durchbruch gelungen: Das Verbmobil-System, dessen Software Ende 2000 vollständig realisiert wurde, erkennt gesprochene Spontansprache, analysiert die Eingabe, übersetzt sie in eine Fremdsprache (derzeit: Englisch, Japanisch, Chinesisch), erzeugt einen Satz und spricht ihn aus. Damit kann ein Mobiltelefon im Ausland zur Übersetzungshilfe werden. Technisch wird automatisch eine Dreierkonferenz zwischen zwei menschlichen Gesprächspartnern, die unterschiedliche Sprachen sprechen, und dem Verbmobil-System als Dolmetschhilfe geschaltet. Das Verbmobil-System übersetzt wechselweise zwischen den Gesprächspartnern, wobei nur eine geringe Verzögerung durch die automatische Sprachverarbeitung entsteht.

Die maschinelle Sprachverarbeitung ist wissenschaftlich eines der ehrgeizigsten Ziele unseres Zeitalters. Nur durch die von Prof. Wahlster über acht Jahre vorangetriebene enge multidisziplinäre Zusammenarbeit von Informatikern, Linguisten, Sprachpsychologen, Nachrichtentechnikern, Kommunikationswissenschaftlern, sowie Spezialisten der Computerlinguistik und des Bereiches „Künstliche Intelligenz“, waren die jetzt erzielten Fortschritte bei der automatischen Sprachverarbeitung möglich. Für die Konstruktion von natürlichsprachlichen Dialogsystemen ist es notwendig, vom akustischen Signal eines Sprechers durch Spracherkennung zunächst zu einer symbolischen Repräsentation der eingegebenen Äußerung zu kommen. Darauf setzen dann Verfahren der Sprachanalyse sowie des Sprachverstehens auf. Nach der inhaltlichen Interpretation des Dialogbeitrags erfolgt die Sprachgenerierung für die Rückäußerung des Systems. Schließlich wird die symbolische Form der geplanten Systemausgabe durch die Sprachsynthese wieder in ein akustisches Sprachsignal verwandelt. „Hörende und sprechende Computer“ setzen also sehr komplexe Signal-Symbol-Signal Transformationen voraus.

Durch die extrem hohe Variabilität des Sprachsignals bei unterschiedlichen Sprechern, aber auch bei demselben Sprecher in verschiedenen Sprechsituationen und Äußerungskontexten, ist es nicht möglich, fließend gesprochene Sprache ohne Zusatzwissen direkt in eine eindeutige Wortfolge zu überführen. Neben der Vielzahl der Aussprachevarianten für ein Wort müssen dadurch, dass Wortgrenzen im Sprachsignal nicht immer klar erkennbar sind und Laute verschliffen werden, Tausende von Worthypothesen alternativ überprüft werden. Auf den verschiedenen Ebenen der Sprachverarbeitung werden schrittweise immer mehr Wissensquellen in die Verarbeitung eingeführt, so dass die Unsicherheit darüber, was der Sprecher mit seiner Äußerung letztlich will, auf jeder Verarbeitungsebene weiter reduziert wird. Wegen der starken Mehrdeutigkeit von Alltagssprache im lexikalischen und syntaktischen Bereich kann meist nur über ein explizites Modell des Gesprächskontextes oder Wissen über das Gesprächsthema ein eindeutiges Verstehen erreicht werden. Oft erweist sich die zunächst verfolgte Satzhypothese, die auf Grund vom Spracherkenner als wahrscheinlichste Wortfolge eingestuft wurde, auf späteren Ebenen der Sprachverarbeitung durch das Hinzuziehen von syntaktischen und semantischen Modellen und von Weltwissen als falsch, so dass ein alternativer Pfad durch den vom Spracherkenner erzeugten Worthypothesengraphen als Interpretation gewählt werden muss.

Der Kern der Innovation des Projektes besteht in der semantischen Integration und der konfidenzbasierten Selektion multipler und konkurrierender Analyse- und Übersetzungspfade, die erstmals hohe Robustheits- und Realzeitanforderungen mit variabler Verstehenstiefe und Analysekorrektheit verbindet. Der entscheidende technische Fortschritt ist ein innovatives Verfahren zur wechselseitigen, synergistischen Ergänzung flacher, statistischer Algorithmen und tiefer, wissensbasierter Analyseverfahren für spontane Umgangssprache in einer hybriden Multi-Blackboard-Architektur. Die Idee zu einer solchen Informationsfusion auf der semantischen Ebene hatte Prof. Wahlster bereits 1991 erstmals im Rahmen seines XTRA-Projektes entwickelt. In diesem Grundlagenprojekt war es mit Hilfe von typisierter Graphunifikation zum ersten Mal gelungen, die Ergebnisse von Spracheingaben und sprachbegleitenden Gesten auf einer semantischen Ebene so zu integrieren, dass eine wechselseitige Auflösung von Mehrdeutigkeiten erreicht wird. Hier wurde erstmals das später in den Jahren 1993 bis 2000 in Verbmobil auf breiter Basis eingesetzte Prinzip verwirklicht, dass die Verknüpfung verschiedener, in sich mehrdeutiger Analyseergebnisse schließlich ein eindeutiges Resultat liefern, wenn man die wechselseitigen Bedeutungsbeschränkungen bei der Informationsfusion auswertet. Um ausgehend von der Kerninnovation ein vollständig implementiertes Sprachdialogsystem bis zum Jahr 2000 erfolgreich zu entwickeln, war im Rahmen des Verbmobil-Systems die Integration von 69 Softwaremodulen notwendig, die von über 100 Mitarbeitern unter Leitung von Prof. Wahlster entwickelt und in 800 Publikationen dokumentiert wurden. Das Verbmobil-System wurde anhand von 3.200 Dialogen mit 1,5 Millionen Wörtern und 85.000 Syntaxbäumen trainiert und auf der Basis von 30.000 Übersetzungsbeispielen evaluiert.

Aus den im Rahmen des Verbmobil-Prototyps erprobten sprachtechnologischen Innovationen sind inzwischen bereits sechs Spin-Off Firmenneugründungen mit dreihundert neuen Hightech-Arbeitsplätzen und zwanzig marktfähige Produkte (z.B. FairCar zur sprachbasierten Produktsuche im Internet, Beagle zur natürlichsprachlichen Musiksuche, FränKi zur vollautomatischen Kinoauskunft über Telefon) hervorgegangen. Mit den Ergebnissen von Verbmobil hat Deutschland heute im Bereich der Sprachtechnologie eine internationale Spitzenstellung erreicht.

Im derzeit laufenden Nachfolgeprojekt SmartKom, das ebenfalls von Prof. Wahlster geleitet wird, arbeitet ein Konsortium aus Industrieunternehmen und Forschungsinstituten an einem multimodalen Sprachdialogsystem, das die Sprache, Gestik und Mimik eines Benutzers als sich wechselseitige ergänzende Eingabemodi im Dialogzusammenhang inhaltlich interpretiert. Neuartig dabei ist auch, dass auch auf der Ausgabeseite Sprache, Gestik und Mimik kombiniert werden, wobei anthropomorph visualisierte Kommunikationsassistenten als virtuelle Charaktere auf dem Bildschirm erscheinen.

Die Sprachtechnologie zählt deshalb zu den Schlüsseltechnologien bei der Verwirklichung der Wissensgesellschaft, weil sich bislang keine mathematischen Kunstsprachen, sondern nur die menschlichen Sprachen zur Formulierung, Speicherung und Weitergabe komplexer Sachverhalte, Gedanken und Wissensinhalte eignen. Der weltweite Zugriff auf das gesamte digital gespeicherte Wissen für jedermann, zu jeder Zeit und an jedem Ort würde daher im Zeitalter des mobilen Internet und von UMTS ohne den Einsatz von sprachverstehenden Computersystemen eine Fiktion bleiben.

Erst wenn es prinzipiell für jeden Menschen möglich wird, in seiner Muttersprache spontan eine Anfrage oder ein Kommando in Computersysteme zu sprechen, und wenn die entsprechende Antwort oder Reaktion wiederum für ihn verständlich in Alltagssprache ertönt, wird die Mensch-Computer-Interaktion den Stand erreicht haben, der den Computer zum integralen Bestandteil einer universalen Technik für die Wissensgesellschaft macht. Da elektronische Interaktion ein integraler Bestandteil des täglichen Lebens, der Arbeit und der Erziehung sein wird, könnten rasch Nachteile für diejenigen Menschen entstehen, die nicht in der Lage sind, solche Interaktionen auszuführen. Um diesen Personenkreis von der Wissensgesellschaft nicht auszuschließen, wurden mit Hilfe der Sprachtechnologie von Prof. Wahlster und seinen Teams ein Weg zu neuartigen Dialogschnittstellen für informationstechnische Dienste geschaffen, die jedermann, unabhängig von seinem Bildungsstand und seinem Lebensalter, völlig intuitiv über seine Alltagssprache bedienen kann. Maus und Tastatur werden durch natürliche Sprache und intuitive Gestik ersetzt. Damit muss sich der Mensch bei der Computerbenutzung weniger der Maschine anpassen, sondern der Computer passt sich dem Menschen und seinen wichtigsten Kommunikationsmitteln an.

Informationen und Kontakt zum Deutschen Zukunftspreis unter:
E-Mail: info@deutscher-zukunftspreis.de
Internet: www.deutscher-zukunftspreis.de


Das Vorschlagsrecht zum Deutschen Zukunftspreis obliegt den führenden deutschen Einrichtungen aus Wissenschaft und Wirtschaft sowie Stiftungen.

Das Projekt „Sprachverstehende Computer als Dialog- und Übersetzungsassistenten“ wurde vom Bundesministerium für Bildung und Forschung und von der Karl Heinz Beckurts-Stiftung vorgeschlagen.