
Distributed Language Translation (DLT)
Hier folgt ein Bericht über das industrielle Forschungs- und Entwicklungsprojekt Distributed Language Translation (DLT). Da das Projekt lange nach seinem Abschluss auch heute in der Sprachwissenschaft, der Sprachtechnologie und der Interlinguistik immer wieder auf Interesse stößt, veröffentliche ich hier meinen Bericht über das Projekt. Der Bericht datiert vom 22.05.2002.
Träger
BSO/Buro voor Systeemontwikkeling BV
BSO/Research, Utrecht (Niederlande)
Projektleiter
Ir. A. P. M. (Toon) Witkam (1982–1989)
Dr. Klaus Schubert (1989–1990)
Laufzeit
Machbarkeitsstudie 1982–1983
Prototypenphase 1984–1990
Finanzierung
BSO/Buro voor Systeemontwikkeling BV, Utrecht
Ministerie van Economische Zaken, Den Haag (Niederländisches
Wirtschaftsministerium)
Inhalt
Das industrielle Forschungs- und Entwicklungsprojekt Distributed Language Translation (DLT) hatte das Ziel, einen Prototypen eines mehrsprachigen, interaktiven maschinellen Übersetzungssystems für einsprachige Anwender in weltweiten Kommunikationsnetzen zu entwickeln. Das Projekt DLT beruht auf einer Idee von Ir. A. P. M. (Toon) Witkam von dem niederländischen Softwarehaus BSO/Buro voor Systeemontwikkeling BV in Utrecht. Nach einer EU-geförderten Machbarkeitsstudie (Witkam 1983, s.u.) hat das Unternehmen in einer eigens für das Projekt eingerichteten Forschungsabteilung (BSO/Research in Utrecht) von 1984 bis 1990 die Prototypenphase des Projekts durchgeführt. Diese Phase wurde zu gleichen Teilen von dem Unternehmen selbst und vom niederländischen Wirtschaftsministerium finanziert. Ziel des Projekts DLT war ein Prototyp, kein marktreifes Produkt. Dieses Ziel wurde erreicht. Verschiedene Versionen des Prototyps wurden der Presse und der Fachöffentlichkeit vorgeführt. Die Prototypenphase wurde 1990 erfolgreich abgeschlossen.
Entwurfsparameter
Das maschinelle Übersetzungssystem DLT wurde anhand der folgenden grundlegenden Entwurfsparameter entwickelt:
- mehrsprachiges, erweiterbares System
- verteilte Übersetzung im Netz
- anwendbar für einsprachige, nicht speziell geschulte Nutzer
Aus diesen Parametern ergibt sich eine Reihe von Konsequenzen für die Architektur des Systems.
1 Erweiterbarkeit
Aus der Bedingung der Mehrsprachigkeit folgt, dass es einfach sein muss, das maschinelle Übersetzungssystem um eine Sprache zu erweitern. Um dem bekannten Problem der kombinatorischen Explosion zu entgehen, arbeitet DLT daher mit einer Zwischensprache.
2 Verteilte Übersetzung
Aus der Zwischenspracharchitektur zusammen mit der Bedingung der verteilten Übersetzung folgt, dass ein Text im System zweimal übersetzt wird: das erste Mal beim Absender aus der Ausgangs- in die Zwischensprache und das zweite Mal bei jedem der Empfänger aus der Zwischensprache in die dort gewählte Zielsprache. Es ist also möglich, dass derselbe Text parallel in mehrere Zielsprachen übersetzt wird. Diese Übersetzungsprozesse brauchen nicht gleichzeitig stattzufinden und es darf auch nicht erforderlich sein, dass vorab bekannt ist, in welche Zielsprachen der Text übersetzt werden soll. Aus diesen Überlegungen und aus allgemeinen Grundsätzen der Wirtschaftlichkeit und Überschaubarkeit im Softwareentwurf ergibt sich, dass es empfehlenswert ist, als alleinige Übertragungsform die Zwischensprache zu wählen. Jeder Text wird also nur in einer einzigen Form übertragen.
3 Autonome Zwischensprache
Die unter 1 und 2 besprochenen Konsequenzen haben weiter zur Folge, dass die Zwischensprache autonom sein muss. Es ist also notwendig, dass die grammatische Form, die Wortwahl, die Struktur und die eventuelle Etikettierung zwischensprachlicher Texte mit nichtsprachlichen Zeichen unabhängig von der Frage gestaltet werden, in welche Zielsprache weiterübersetzt werden soll. Es muss möglich sein, ein beliebiges zwischensprachliches Dokument in jede Zielsprache zu übersetzen, auch in eine, die erst nach Erstellung des Dokuments in das System aufgenommen wird.
4 Internetübersetzung avant la lettre
Die Bedingung der Tauglichkeit für Laien, die die Zielsprache nicht beherrschen, hat mehrere Folgen. Nach wie vor gilt die Einsicht der 1950-er Jahre, wonach eine vollautomatische Qualitätsübersetzung beliebiger Texte nicht möglich ist. Außer in recht speziellen Fällen, in denen eine vollautomatisch erstellte Rohübersetzung direkt verwendet werden kann, ist es notwendig, einen kombinierten Arbeitsprozess aus manuellen und maschinellen Arbeitsgängen zu durchlaufen. Die Tätigkeit des Menschen kann dabei vor, während oder nach dem maschinellen Übersetzungsarbeitsgang durchgeführt werden. Das System DLT war für “weltweite Kommunikationsnetze” gedacht. Als DLT konzipiert wurde, gab es das Internet noch nicht. Dennoch hat der Erfinder und langjährige Projektleiter von DLT, Toon Witkam, bereits 1979 an eine Form individueller Kommunikation im weltweiten Rechnernetz gedacht, die wir heute im Internet kennen. Insbesondere E-Mail, Internet-Foren und World-Wide Web entsprechen recht genau dem Umfeld, für das DLT gedacht war. In einer internetartigen Umgebung gibt es einen Absender eines Dokuments und eine nicht erfassbare Zahl von Empfängern. Es gibt, wie bereits erwähnt, für Eingriffe des Menschen in den maschinellen Übersetzungsprozess drei Möglichkeiten: Textaufbereitung (Präedition) vor dem maschinellen Arbeitsgang interaktives Übersetzen, d.h. Antworten des Menschen auf vom System gestellte Entscheidungsalternativen, z.B. in der syntaktischen Disambiguierung oder bei semantischen Wahlmöglichkeiten in der lexikalen Übertragung Nachkorrektur (Postedition) Die heute weitaus üblichste Art des Anwendereingriffs, die Nachkorrektur, fällt für das System DLT weg. Bei einer verteilten Übersetzung, bei der die zweite Hälfte des Übersetzungsprozesses, die Übersetzung aus der Zwischensprache in die gewählte Zielsprache, erst beim Empfänger stattfindet, ist niemand zur Stelle, der eine Nachkorrektur ausführen kann, und es wäre zudem ineffektiv, an jedem Ort, an dem der Text übersetzt wird, wieder dieselbe Nachkorrekturarbeit auszuführen. Für DLT bleiben daher die beiden Möglichkeiten der Textaufbereitung und des interaktiven Übersetzens.
5 Regulierte Ausgangssprache
Textaufbereitung für die maschinelle Übersetzung kann in unterschiedlicher Art und Weise erfolgen und unterschiedlich weit gehen. Zumindest für die Prototypphase, die primär auf die Sprachrichtung Englisch-Zwischensprache-Französisch gerichtet war, wurde im Projekt DLT eine relativ weitgehende Form der Textaufbereitung gewählt. Die erste Ausgangssprache des Systems war eine regulierte Sprache, das Simplified English des europäischen Verbandes der Luft- und Raumfahrtindustrie (AECMA, heute bekannt als ASD Simplified Technical English). Regulierte Sprachen dienen meist entweder dem Ziel erhöhter Textverständlichkeit, erhöhter Übersetzbarkeit oder erhöhter maschineller Übersetzbarkeit. Bei Textverständlichkeit und Übersetzbarkeit geht es darum, Missverständnisse zu vermeiden, die Menschen beim Lesen oder Übersetzen des Textes unterlaufen könnten. Hiervon unterscheidet sich die maschinelle Übersetzbarkeit in grundlegender Weise, da maschinelle Übersetzung ohne Verstehen erfolgen muss. Das Simplified English der AECMA musste daher für die Verwendung im Projekt DLT bearbeitet und für die neue Rolle als regulierte Ausgangssprache der maschinellen Übersetzung eingerichtet werden.
6 Interaktives Übersetzen
Zusätzlich zur Textaufbereitung setzte das System DLT einen interaktiven Disambiguierungsdialog ein. Diese Form des interaktiven Übersetzens war in der zweiten Hälfte der 1980er Jahre, als das Projekt stattfand, in der Diskussion und wurde auch in anderen Forschungs- und Entwicklungszentren und auch hier und da in markteingeführten Produkten verwendet. Heute ist man davon weitgehend wieder abgekommen. Was die Ursache hierfür ist, wäre eine gründlichere Untersuchung wert. Ein wichtiger Faktor ist sicherlich der Widerspruch zwischen den für eine Disambiguierungstätigkeit unerlässlichen Wissensvoraussetzungen und dem Anspruch vieler Hersteller, maschinelle Übersetzungssysteme für den breiten Laienmarkt zu entwickeln.
7 Zwischensprache Esperanto
Die Architektur des Systems DLT macht eine Zwischensprache erforderlich. Theoretische Überlegungen der Modularität und der Erweiterbarkeit führen zu der Bedingung, dass die Zwischensprache autonom zu sein hat. Beides habe ich oben kurz dargestellt. Hinzu kommen jetzt die Konsequenzen der Architekturentscheidungen zur verteilten und interaktiven Übersetzung. Sie besagen, dass alle Anwendereingriffe in der ersten Hälfte des Übersetzungsprozesses stattfinden müssen. Die Textaufbereitung kann den zu übersetzenden Text in seiner ausgangssprachlichen Fassung vereinfachen und maschinell übersetzbarer machen. Die Verwendung einer regulierten Sprache ist in diesem Sinne als Textaufbereitung zu sehen. Die interaktive Disambiguierung greift in die Übersetzung aus der Ausgangssprache in die Zwischensprache ein. Danach sind jedoch keine Eingriffe mehr möglich.
Hieraus ergibt sich die Notwendigkeit, eine Zwischensprache zu wählen, aus der eine vollautomatische Qualitätsübersetzung in alle Zielsprachen möglich ist. Da normale menschliche Sprachen dies nicht erlauben, muss also als Zwischensprache eine besondere, maschinell besonders zuverlässig weiterübersetzbare Sprache gewählt werden. Sie ist gleichzeitig Repräsentationsform für die Ergebnisse der Disambiguierung.
Für das System DLT wurde als Zwischensprache Esperanto gewählt. Dieser Entscheidung lagen folgende Einsichten zugrunde:
- Esperanto besitzt eine sehr klare morphologische und syntaktische Struktur. Es ist damit parsegünstig.
- Esperanto funktioniert seit über hundert Jahren in einer kleinen, aber sehr regen internationalen Zweitsprachgemeinschaft. Es gibt einen umfangreichen Wortschatz, auch im fachsprachlichen Bereich. Die notwendigen lexikalen und terminologischen Präzisierungen, die sich aus der Verwendung in einer interkulturellen Gemeinschaft ergeben, sind im Laufe der Sprachentwicklung vorgenommen worden.
- Esperanto ist durch seine mehr als hundertjährige Entwicklung heute als autonom anzusehen.
Zu diesen Beobachtungen ist noch eine Reihe weiterer Bemerkungen zu machen.
Morphologie und Syntax des Esperanto sind sehr klar und einfach. Grundlage ist eine eindeutige Kennzeichnung der Inhaltswortarten (Verb, Adverb, Adjektiv, Substantiv) durch Suffixe und eine Kennzeichnung von Subjekt- und Objektkasus. Die Wortfolge ist von syntaktischen Aufgaben frei und kann für die kommunikative Gliederung von Sätzen und Satzgefügen genutzt werden. Diese Eigenschaften kommen dem Parsing und der Strukturübertragung sehr entgegen. (Eine Zwischensprache braucht eigentlich nicht geparst zu werden, da die Texte innerhalb des maschinellen Übersetzungssystems erzeugt werden und das System nicht verlassen. Bei DLT war dennoch aus Gründen der Übertragungskompaktheit ein Parsing auf der Empfängerseite vorgesehen.)
Esperanto ist jedoch eine von Menschen gesprochene Sprache, die die Anforderungen der Sprachtechnologie nicht vollständig erfüllt. Daher wurden für DLT einige wenige, möglichst unauffällige Veränderungen in der Struktur der Sprache vorgenommen, sodass eine morphologisch und syntaktisch ambiguitätsfreie Zwischensprache entstand. Nach einer längeren Experimentierphase ergab sich, dass im Wesentlichen nur zwei Eingriffe erforderlich waren:
- ein Morphemtrennzeichen
- ein Syntagmentrennzeichen
Esperanto ist eine zu 99% agglutinierende Sprache. Die einzige Ausnahme bilden zwei Suffixe zur Bildung von Kosenamen. Da dies in der Fachsprache nicht vorkommt, liegt für den relevanten Verwendungsbereich eine vollständig agglutinierende Sprache vor. Alle Wörter bestehen also aus klar getrennten Morphemen. Die Morpheme unterliegen keinerlei Veränderung durch Umlaut, Ablaut, Vokalharmonie, Stufenwechsel oder andere Morphemkontaktphänomene. Das leicht modifizierte Esperanto des Systems DLT ist eine syntaktisch eindeutige Sprache.
Projektkalender
1979 Idee
Toon Witkam, Mitarbeiter des Softwarehauses BSO/Buro voor Systeemontwikkeling BV in Utrecht (Niederlande), hat die Idee, maschinelle Übersetzung in verteilter Form im weltweiten Rechnernetz und mit Esperanto als Zwischensprache zu betreiben.
1982–1983 Vorstudie
Toon Witkam führt mit einem Mitarbeiter eine Machbarkeitsuntersuchung für das Projekt DLT durch. Die Untersuchung wird durch einen Zuschuss der Europäischen Kommission finanziert.
1984–1990 Prototypenphase
BSO erhält für das Projekt Distributed Language Translation eine fünfzigprozentige Förderzusage des niederländischen Wirtschaftsministeriums für eine sechsjährige Prototypenentwicklung. Das Unternehmen richtet die Forschungsabteilung BSO/Research ein und baut ein größeres Forschungsteam (bis zu 20 Personen) auf. Es werden mehrere Versionen des Prototyps für das Sprachenpaar Englisch-Französisch mit der Zwischensprache Esperanto entwickelt.
1987 erster Prototyp
Vorführung des ersten Prototyps vor der Fachpresse in Utrecht.
1988 zweiter Prototyp
Vorführung des zweiten Prototyps vor der Fachöffentlichkeit auf der computerlinguistischen Tagung Coling 88 in Budapest.
1988–1990 Perfektionierung
Entwicklung neuer Techniken anhand der Testergebnisse der ersten Prototypen, insbesondere eines semantischen Entscheidungsmechanismus auf Grundlage einer Paralleltextdatenbank. Es werden Patente beantragt und z.T. erteilt.
1990 Projektabschluss
Das Unternehmen überführt das Projektteam in die Tochterfirma BSO/Language Technology BV in Baarn (Niederlande), die für industrielle Auftraggeber maßgeschneiderte sprachtechnologische Software herstellt und sprachtechnologische Beratertätigkeit ausführt.
Ausgewählte Publikationen
Witkam, A. P. M. (1983): Distributed Language
Translation. Feasibility study of a multilingual facility
for videotex information networks. Utrecht: BSO
Machbarkeitsstudie
Erste Entwicklung des wort- und satzsyntaktischen Dependenzmodells für die maschinelle Übersetzung. Vorstudie zum Buch Metataxis (1987)
Papegaaij, Bart C. (1986): Word expert semantics.
V. Sadler, A. P. M. Witkam (Hg.). (Distributed Language
Translation 1.) Dordrecht/Riverton: Foris
Das erste, experimentelle
semantische Modell des Systems DLT mit einer
einsprachigen, in der Zwischensprache gehaltenen
Wissensbank
Schubert, Klaus (1986): “Linguistic and extra-linguistic
knowledge.” Computers and Translation 1: 125–152
Der Übersetzungsprozess des
Systems DLT in detaillierter Darstellung
Schubert, Klaus (1987): Metataxis: Contrastive
dependency syntax for machine translation.
(Distributed Language Translation 2.) Dordrecht/Providence:
Foris
Das dependenzsyntaktische
Grammatikmodell des Systems DLT für Analyse, syntaktische
Übertragung und Synthese
Witkam, Toon (1988): “DLT – an industrial R&D project
for multilingual MT.” Dénes Vargha (Hg.): Coling
Budapest. Budapest: John von Neumann Society for
Computing Sciences, 756–759 – https://web.archive.org/web/20200725164445if_/http://www.mt-archive.info/70/Coling-1988-Witkam.pdf
(18.02.2022)
Gesamtpräsentation des
Projekts DLT
Schubert, Klaus (1988): “Implicitness as a guiding
principle in machine translation.” Dénes Vargha (Hg.): Coling
Budapest. Budapest: John von Neumann Society for
Computing Sciences, 599–601 – https://web.archive.org/web/20200805063854if_/http://www.mt-archive.info/Coling-1988-Schubert.pdf
(18.02.2022)
Diskussion der Möglichkeiten,
nicht voll automatisierbare Merkmale des Ausgangstextes
durch Repräsentation der darunterliegenden Sprachebene
implizit zu halten
Papegaaij, Bart; Klaus Schubert (1988): Text coherence
in translation. (Distributed Language Translation 3.)
Dordrecht/Providence: Foris
Satzübergreifende und
textlinguistische Phänomene der manuellen und maschinellen
Übersetzung
Maxwell, Dan; Klaus Schubert, Toon Witkam (Hg.) (1988): New
directions in machine translation. (Distributed
Language Translation 4.) Dordrecht/Providence: Foris
Tagungsband einer
spezialisierten wissenschaftlichen Konferenz im Vorfeld
der Coling 88 in Budapest
Schubert, Klaus (1988): “The architecture of DLT –
interlingual or double direct?” Dan Maxwell, Klaus Schubert,
Toon Witkam, (Hg.): New directions in machine
translation. (Distributed Language Translation 4.)
Dordrecht/Providence: Foris, 131–144
Diskussion der
Systemarchitektur eines maschinellen Übersetzungssystems
bei Verwendung einer echten Zwischensprache anstelle einer
künstlichen Zwischenrepräsentation
Schubert, Klaus (1989): “An unplanned development in
planned languages.” Klaus Schubert (mit Dan Maxwell) (Hg.):
Interlinguistics. Berlin/New York: Mouton de Gruyter,
249–274
Morphologie und produktive
Wortbildung der Zwischensprache Esperanto
Sadler, Victor (1989): Working with analogical semantics.
(Distributed Language Translation 5.) Dordrecht/Providence:
Foris
Ausführlichste Darstellung
des semantischen Modells des Systems DLT, zweite Version
mit einer zweisprachigen Wissensbank
Maxwell, Dan; Klaus Schubert (Hg.) (1989): Metataxis in
practice. (Distributed Language Translation 6.)
Dordrecht/Providence: Foris
Theoretische Begründung des
Grammatikmodells des Systems DLT und praktische Anwendung
auf eine Reihe typologisch divergenter Sprachen.
Einsprachige Analyse- und zweisprachige
Übertragungssyntaxen (Metataxen)
Sadler, Victor (1991): “Machine translation project reaches
watershed.” Language Problems and Language Planning
15: 78–83
Projektübersicht mit
ausführlicheren bibliografischen Hinweisen
Zuijlen, Job M. van (1991): Method and system for the
representation of multiple analyses in dependency grammar
and parser for generating such representation. United States
Patent, Patent Number 5,060,155, Oct. 22, 1991
Patent aus dem Projekt DLT
für einen Dependenzparser
Schubert, Klaus (1992): “Esperanto as an intermediate
language for machine translation.” John Newton (Hg.): Computers
in translation. London/New York: Routledge, 78–95
Ausführlichere Diskussion der
Wahl der Zwischensprache in der maschinellen Übersetzung
Schubert, Klaus (2003): “Metataxe: ein Dependenzmodell für
die computerlinguistische Praxis.” Vilmos Ágel, Ludwig M.
Eichinger, Hans-Werner Eroms, Peter Hellwig, Hans Jürgen
Heringer, Henning Lobin (Hg.): Dependenz und Valenz /
Dependency and valency. Halbband 1. (Handbücher zur
Sprach- und Kommunikationswissenschaft 25.1.) Berlin/New
York: de Gruyter, 636–660
Systematische, über die
computerlinguistische Anwendung hinausgehende
Weiterentwicklung des dependenzgrammatischen Modells aus
dem Projekt DLT
Witkam, Toon (2005): A new road to automatic translation. –
https://web.archive.org/web/20200720041838if_/http://www.mt-archive.info/05/Witkam-2005.pdf
(18.02.2022)
Perspektive auf neue
korpusgestützte maschinelle Übersetzungstechniken und den
bleibenden Wert der Ergebnisse des Projekts DLT
Schubert, Klaus (2006): “Maschinelle Übersetzung mit
Dependenzgrammatiken.” Vilmos Ágel, Ludwig M. Eichinger,
Hans-Werner Eroms, Peter Hellwig, Hans Jürgen Heringer,
Henning Lobin (Hg.): Dependenz und Valenz / Dependency
and valency. Halbband 2. (Handbücher zur Sprach- und
Kommunikationswissenschaft 25.2.) Berlin/New York: de
Gruyter, 1129–1157
Theoretische Übersicht über
Einsatzfelder der Dependenzgrammatik in der maschinellen
Übersetzung. Enthält einen kurz gefassten historischen
Überblick über dependenzorientierte maschinelle
Übersetzungsprojekte. Geht in knapper Form auch auf das
Projekt DLT ein
Witkam, Toon (2006): History and heritage of the DLT
(Distributed Language Translation) project. – https://web.archive.org/web/20121008055933if_/http://www.mt-archive.info/Witkam-2006.pdf
(18.02.2022)
Persönlicher Rückblick auf
Geschichte, Entwicklung und bleibende Ergebnisse des
Projekts DLT