Klaus Schubert

DLT


Distributed Language Translation (DLT)

Hier folgt ein Bericht über das industrielle Forschungs- und Entwicklungsprojekt Distributed Language Translation (DLT). Da das Projekt lange nach seinem Abschluss auch heute in der Sprachwissenschaft, der Sprachtechnologie und der Interlinguistik immer wieder auf Interesse stößt, veröffentliche ich hier meinen Bericht über das Projekt. Der Bericht datiert vom 22.05.2002.


Träger

BSO/Buro voor Systeemontwikkeling BV
BSO/Research, Utrecht (Niederlande)

Projektleiter

Ir. A. P. M. (Toon) Witkam (1982–1989)
Dr. Klaus Schubert (1989–1990)

Laufzeit

Machbarkeitsstudie 1982–1983
Prototypenphase 1984–1990

Finanzierung

BSO/Buro voor Systeemontwikkeling BV, Utrecht
Ministerie van Economische Zaken, Den Haag (Niederländisches Wirtschaftsministerium)


Inhalt

Das industrielle Forschungs- und Entwicklungsprojekt Distributed Language Translation (DLT) hatte das Ziel, einen Prototypen eines mehrsprachigen, interaktiven maschinellen Übersetzungssystems für einsprachige Anwender in weltweiten Kommunikationsnetzen zu entwickeln. Das Projekt DLT beruht auf einer Idee von Ir. A. P. M. (Toon) Witkam von dem niederländischen Softwarehaus BSO/Buro voor Systeemontwikkeling BV in Utrecht. Nach einer EU-geförderten Machbarkeitsstudie (Witkam 1983, s.u.) hat das Unternehmen in einer eigens für das Projekt eingerichteten Forschungsabteilung (BSO/Research in Utrecht) von 1984 bis 1990 die Prototypenphase des Projekts durchgeführt. Diese Phase wurde zu gleichen Teilen von dem Unternehmen selbst und vom niederländischen Wirtschaftsministerium finanziert. Ziel des Projekts DLT war ein Prototyp, kein marktreifes Produkt. Dieses Ziel wurde erreicht. Verschiedene Versionen des Prototyps wurden der Presse und der Fachöffentlichkeit vorgeführt. Die Prototypenphase wurde 1990 erfolgreich abgeschlossen.


Entwurfsparameter

Das maschinelle Übersetzungssystem DLT wurde anhand der folgenden grundlegenden Entwurfsparameter entwickelt:

  • mehrsprachiges, erweiterbares System
  • verteilte Übersetzung im Netz
  • anwendbar für einsprachige, nicht speziell geschulte Nutzer

Aus diesen Parametern ergibt sich eine Reihe von Konsequenzen für die Architektur des Systems.

1 Erweiterbarkeit

Aus der Bedingung der Mehrsprachigkeit folgt, dass es einfach sein muss, das maschinelle Übersetzungssystem um eine Sprache zu erweitern. Um dem bekannten Problem der kombinatorischen Explosion zu entgehen, arbeitet DLT daher mit einer Zwischensprache.

2 Verteilte Übersetzung

Aus der Zwischenspracharchitektur zusammen mit der Bedingung der verteilten Übersetzung folgt, dass ein Text im System zweimal übersetzt wird: das erste Mal beim Absender aus der Ausgangs- in die Zwischensprache und das zweite Mal bei jedem der Empfänger aus der Zwischensprache in die dort gewählte Zielsprache. Es ist also möglich, dass derselbe Text parallel in mehrere Zielsprachen übersetzt wird. Diese Übersetzungsprozesse brauchen nicht gleichzeitig stattzufinden und es darf auch nicht erforderlich sein, dass vorab bekannt ist, in welche Zielsprachen der Text übersetzt werden soll. Aus diesen Überlegungen und aus allgemeinen Grundsätzen der Wirtschaftlichkeit und Überschaubarkeit im Softwareentwurf ergibt sich, dass es empfehlenswert ist, als alleinige Übertragungsform die Zwischensprache zu wählen. Jeder Text wird also nur in einer einzigen Form übertragen.

3 Autonome Zwischensprache

Die unter 1 und 2 besprochenen Konsequenzen haben weiter zur Folge, dass die Zwischensprache autonom sein muss. Es ist also notwendig, dass die grammatische Form, die Wortwahl, die Struktur und die eventuelle Etikettierung zwischensprachlicher Texte mit nichtsprachlichen Zeichen unabhängig von der Frage gestaltet werden, in welche Zielsprache weiterübersetzt werden soll. Es muss möglich sein, ein beliebiges zwischensprachliches Dokument in jede Zielsprache zu übersetzen, auch in eine, die erst nach Erstellung des Dokuments in das System aufgenommen wird.

4 Internetübersetzung avant la lettre

Die Bedingung der Tauglichkeit für Laien, die die Zielsprache nicht beherrschen, hat mehrere Folgen. Nach wie vor gilt die Einsicht der 1950-er Jahre, wonach eine vollautomatische Qualitätsübersetzung beliebiger Texte nicht möglich ist. Außer in recht speziellen Fällen, in denen eine vollautomatisch erstellte Rohübersetzung direkt verwendet werden kann, ist es notwendig, einen kombinierten Arbeitsprozess aus manuellen und maschinellen Arbeitsgängen zu durchlaufen. Die Tätigkeit des Menschen kann dabei vor, während oder nach dem maschinellen Übersetzungsarbeitsgang durchgeführt werden. Das System DLT war für “weltweite Kommunikationsnetze” gedacht. Als DLT konzipiert wurde, gab es das Internet noch nicht. Dennoch hat der Erfinder und langjährige Projektleiter von DLT, Toon Witkam, bereits 1979 an eine Form individueller Kommunikation im weltweiten Rechnernetz gedacht, die wir heute im Internet kennen. Insbesondere E-Mail, Internet-Foren und World-Wide Web entsprechen recht genau dem Umfeld, für das DLT gedacht war. In einer internetartigen Umgebung gibt es einen Absender eines Dokuments und eine nicht erfassbare Zahl von Empfängern. Es gibt, wie bereits erwähnt, für Eingriffe des Menschen in den maschinellen Übersetzungsprozess drei Möglichkeiten: Textaufbereitung (Präedition) vor dem maschinellen Arbeitsgang interaktives Übersetzen, d.h. Antworten des Menschen auf vom System gestellte Entscheidungsalternativen, z.B. in der syntaktischen Disambiguierung oder bei semantischen Wahlmöglichkeiten in der lexikalen Übertragung Nachkorrektur (Postedition) Die heute weitaus üblichste Art des Anwendereingriffs, die Nachkorrektur, fällt für das System DLT weg. Bei einer verteilten Übersetzung, bei der die zweite Hälfte des Übersetzungsprozesses, die Übersetzung aus der Zwischensprache in die gewählte Zielsprache, erst beim Empfänger stattfindet, ist niemand zur Stelle, der eine Nachkorrektur ausführen kann, und es wäre zudem ineffektiv, an jedem Ort, an dem der Text übersetzt wird, wieder dieselbe Nachkorrekturarbeit auszuführen. Für DLT bleiben daher die beiden Möglichkeiten der Textaufbereitung und des interaktiven Übersetzens.

5 Regulierte Ausgangssprache

Textaufbereitung für die maschinelle Übersetzung kann in unterschiedlicher Art und Weise erfolgen und unterschiedlich weit gehen. Zumindest für die Prototypphase, die primär auf die Sprachrichtung Englisch-Zwischensprache-Französisch gerichtet war, wurde im Projekt DLT eine relativ weitgehende Form der Textaufbereitung gewählt. Die erste Ausgangssprache des Systems war eine regulierte Sprache, das Simplified English des europäischen Verbandes der Luft- und Raumfahrtindustrie (AECMA, heute bekannt als ASD Simplified Technical English). Regulierte Sprachen dienen meist entweder dem Ziel erhöhter Textverständlichkeit, erhöhter Übersetzbarkeit oder erhöhter maschineller Übersetzbarkeit. Bei Textverständlichkeit und Übersetzbarkeit geht es darum, Missverständnisse zu vermeiden, die Menschen beim Lesen oder Übersetzen des Textes unterlaufen könnten. Hiervon unterscheidet sich die maschinelle Übersetzbarkeit in grundlegender Weise, da maschinelle Übersetzung ohne Verstehen erfolgen muss. Das Simplified English der AECMA musste daher für die Verwendung im Projekt DLT bearbeitet und für die neue Rolle als regulierte Ausgangssprache der maschinellen Übersetzung eingerichtet werden.

6 Interaktives Übersetzen

Zusätzlich zur Textaufbereitung setzte das System DLT einen interaktiven Disambiguierungsdialog ein. Diese Form des interaktiven Übersetzens war in der zweiten Hälfte der 1980er Jahre, als das Projekt stattfand, in der Diskussion und wurde auch in anderen Forschungs- und Entwicklungszentren und auch hier und da in markteingeführten Produkten verwendet. Heute ist man davon weitgehend wieder abgekommen. Was die Ursache hierfür ist, wäre eine gründlichere Untersuchung wert. Ein wichtiger Faktor ist sicherlich der Widerspruch zwischen den für eine Disambiguierungstätigkeit unerlässlichen Wissensvoraussetzungen und dem Anspruch vieler Hersteller, maschinelle Übersetzungssysteme für den breiten Laienmarkt zu entwickeln.

7 Zwischensprache Esperanto

Die Architektur des Systems DLT macht eine Zwischensprache erforderlich. Theoretische Überlegungen der Modularität und der Erweiterbarkeit führen zu der Bedingung, dass die Zwischensprache autonom zu sein hat. Beides habe ich oben kurz dargestellt. Hinzu kommen jetzt die Konsequenzen der Architekturentscheidungen zur verteilten und interaktiven Übersetzung. Sie besagen, dass alle Anwendereingriffe in der ersten Hälfte des Übersetzungsprozesses stattfinden müssen. Die Textaufbereitung kann den zu übersetzenden Text in seiner ausgangssprachlichen Fassung vereinfachen und maschinell übersetzbarer machen. Die Verwendung einer regulierten Sprache ist in diesem Sinne als Textaufbereitung zu sehen. Die interaktive Disambiguierung greift in die Übersetzung aus der Ausgangssprache in die Zwischensprache ein. Danach sind jedoch keine Eingriffe mehr möglich.

Hieraus ergibt sich die Notwendigkeit, eine Zwischensprache zu wählen, aus der eine vollautomatische Qualitätsübersetzung in alle Zielsprachen möglich ist. Da normale menschliche Sprachen dies nicht erlauben, muss also als Zwischensprache eine besondere, maschinell besonders zuverlässig weiterübersetzbare Sprache gewählt werden. Sie ist gleichzeitig Repräsentationsform für die Ergebnisse der Disambiguierung.

Für das System DLT wurde als Zwischensprache Esperanto gewählt. Dieser Entscheidung lagen folgende Einsichten zugrunde:

  • Esperanto besitzt eine sehr klare morphologische und syntaktische Struktur. Es ist damit parsegünstig.
  • Esperanto funktioniert seit über hundert Jahren in einer kleinen, aber sehr regen internationalen Zweitsprachgemeinschaft. Es gibt einen umfangreichen Wortschatz, auch im fachsprachlichen Bereich. Die notwendigen lexikalen und terminologischen Präzisierungen, die sich aus der Verwendung in einer interkulturellen Gemeinschaft ergeben, sind im Laufe der Sprachentwicklung vorgenommen worden.
  • Esperanto ist durch seine mehr als hundertjährige Entwicklung heute als autonom anzusehen.

Zu diesen Beobachtungen ist noch eine Reihe weiterer Bemerkungen zu machen.

Morphologie und Syntax des Esperanto sind sehr klar und einfach. Grundlage ist eine eindeutige Kennzeichnung der Inhaltswortarten (Verb, Adverb, Adjektiv, Substantiv) durch Suffixe und eine Kennzeichnung von Subjekt- und Objektkasus. Die Wortfolge ist von syntaktischen Aufgaben frei und kann für die kommunikative Gliederung von Sätzen und Satzgefügen genutzt werden. Diese Eigenschaften kommen dem Parsing und der Strukturübertragung sehr entgegen. (Eine Zwischensprache braucht eigentlich nicht geparst zu werden, da die Texte innerhalb des maschinellen Übersetzungssystems erzeugt werden und das System nicht verlassen. Bei DLT war dennoch aus Gründen der Übertragungskompaktheit ein Parsing auf der Empfängerseite vorgesehen.)

Esperanto ist jedoch eine von Menschen gesprochene Sprache, die die Anforderungen der Sprachtechnologie nicht vollständig erfüllt. Daher wurden für DLT einige wenige, möglichst unauffällige Veränderungen in der Struktur der Sprache vorgenommen, sodass eine morphologisch und syntaktisch ambiguitätsfreie Zwischensprache entstand. Nach einer längeren Experimentierphase ergab sich, dass im Wesentlichen nur zwei Eingriffe erforderlich waren:

  • ein Morphemtrennzeichen
  • ein Syntagmentrennzeichen

Esperanto ist eine zu 99% agglutinierende Sprache. Die einzige Ausnahme bilden zwei Suffixe zur Bildung von Kosenamen. Da dies in der Fachsprache nicht vorkommt, liegt für den relevanten Verwendungsbereich eine vollständig agglutinierende Sprache vor. Alle Wörter bestehen also aus klar getrennten Morphemen. Die Morpheme unterliegen keinerlei Veränderung durch Umlaut, Ablaut, Vokalharmonie, Stufenwechsel oder andere Morphemkontaktphänomene. Das leicht modifizierte Esperanto des Systems DLT ist eine syntaktisch eindeutige Sprache.


Projektkalender

1979 Idee

Toon Witkam, Mitarbeiter des Softwarehauses BSO/Buro voor Systeemontwikkeling BV in Utrecht (Niederlande), hat die Idee, maschinelle Übersetzung in verteilter Form im weltweiten Rechnernetz und mit Esperanto als Zwischensprache zu betreiben.

1982–1983 Vorstudie

Toon Witkam führt mit einem Mitarbeiter eine Machbarkeitsuntersuchung für das Projekt DLT durch. Die Untersuchung wird durch einen Zuschuss der Europäischen Kommission finanziert.

1984–1990 Prototypenphase

BSO erhält für das Projekt Distributed Language Translation eine fünfzigprozentige Förderzusage des niederländischen Wirtschaftsministeriums für eine sechsjährige Prototypenentwicklung. Das Unternehmen richtet die Forschungsabteilung BSO/Research ein und baut ein größeres Forschungsteam (bis zu 20 Personen) auf. Es werden mehrere Versionen des Prototyps für das Sprachenpaar Englisch-Französisch mit der Zwischensprache Esperanto entwickelt.

1987 erster Prototyp

Vorführung des ersten Prototyps vor der Fachpresse in Utrecht.

1988 zweiter Prototyp

Vorführung des zweiten Prototyps vor der Fachöffentlichkeit auf der computerlinguistischen Tagung Coling 88 in Budapest.

1988–1990 Perfektionierung

Entwicklung neuer Techniken anhand der Testergebnisse der ersten Prototypen, insbesondere eines semantischen Entscheidungsmechanismus auf Grundlage einer Paralleltextdatenbank. Es werden Patente beantragt und z.T. erteilt.

1990 Projektabschluss

Das Unternehmen überführt das Projektteam in die Tochterfirma BSO/Language Technology BV in Baarn (Niederlande), die für industrielle Auftraggeber maßgeschneiderte sprachtechnologische Software herstellt und sprachtechnologische Beratertätigkeit ausführt.


Ausgewählte Publikationen

Witkam, A. P. M. (1983): Distributed Language Translation. Feasibility study of a multilingual facility for videotex information networks. Utrecht: BSO
Machbarkeitsstudie

Schubert, Klaus (1986): Syntactic tree structures in DLT. Utrecht: BSO/Research
Erste Entwicklung des wort- und satzsyntaktischen Dependenzmodells für die maschinelle Übersetzung. Vorstudie zum Buch Metataxis (1987)

Papegaaij, Bart C. (1986): Word expert semantics. V. Sadler, A. P. M. Witkam (Hg.). (Distributed Language Translation 1.) Dordrecht/Riverton: Foris
Das erste, experimentelle semantische Modell des Systems DLT mit einer einsprachigen, in der Zwischensprache gehaltenen Wissensbank

Schubert, Klaus (1986): “Linguistic and extra-linguistic knowledge.” Computers and Translation 1: 125–152
Der Übersetzungsprozess des Systems DLT in detaillierter Darstellung

Schubert, Klaus (1987): Metataxis: Contrastive dependency syntax for machine translation. (Distributed Language Translation 2.) Dordrecht/Providence: Foris
Das dependenzsyntaktische Grammatikmodell des Systems DLT für Analyse, syntaktische Übertragung und Synthese

Witkam, Toon (1988): “DLT – an industrial R&D project for multilingual MT.” Dénes Vargha (Hg.): Coling Budapest. Budapest: John von Neumann Society for Computing Sciences, 756–759 – https://web.archive.org/web/20200725164445if_/http://www.mt-archive.info/70/Coling-1988-Witkam.pdf (18.02.2022)
Gesamtpräsentation des Projekts DLT

Schubert, Klaus (1988): “Implicitness as a guiding principle in machine translation.” Dénes Vargha (Hg.): Coling Budapest. Budapest: John von Neumann Society for Computing Sciences, 599–601 – https://web.archive.org/web/20200805063854if_/http://www.mt-archive.info/Coling-1988-Schubert.pdf (18.02.2022)
Diskussion der Möglichkeiten, nicht voll automatisierbare Merkmale des Ausgangstextes durch Repräsentation der darunterliegenden Sprachebene implizit zu halten

Papegaaij, Bart; Klaus Schubert (1988): Text coherence in translation. (Distributed Language Translation 3.) Dordrecht/Providence: Foris
Satzübergreifende und textlinguistische Phänomene der manuellen und maschinellen Übersetzung

Maxwell, Dan; Klaus Schubert, Toon Witkam (Hg.) (1988): New directions in machine translation. (Distributed Language Translation 4.) Dordrecht/Providence: Foris
Tagungsband einer spezialisierten wissenschaftlichen Konferenz im Vorfeld der Coling 88 in Budapest

Schubert, Klaus (1988): “The architecture of DLT – interlingual or double direct?” Dan Maxwell, Klaus Schubert, Toon Witkam, (Hg.): New directions in machine translation. (Distributed Language Translation 4.) Dordrecht/Providence: Foris, 131–144
Diskussion der Systemarchitektur eines maschinellen Übersetzungssystems bei Verwendung einer echten Zwischensprache anstelle einer künstlichen Zwischenrepräsentation

Schubert, Klaus (1989): “An unplanned development in planned languages.” Klaus Schubert (mit Dan Maxwell) (Hg.): Interlinguistics. Berlin/New York: Mouton de Gruyter, 249–274
Morphologie und produktive Wortbildung der Zwischensprache Esperanto

Sadler, Victor (1989): Working with analogical semantics. (Distributed Language Translation 5.) Dordrecht/Providence: Foris
Ausführlichste Darstellung des semantischen Modells des Systems DLT, zweite Version mit einer zweisprachigen Wissensbank

Maxwell, Dan; Klaus Schubert (Hg.) (1989): Metataxis in practice. (Distributed Language Translation 6.)
Dordrecht/Providence: Foris
Theoretische Begründung des Grammatikmodells des Systems DLT und praktische Anwendung auf eine Reihe typologisch divergenter Sprachen. Einsprachige Analyse- und zweisprachige Übertragungssyntaxen (Metataxen)

Sadler, Victor (1991): “Machine translation project reaches watershed.” Language Problems and Language Planning 15: 78–83
Projektübersicht mit ausführlicheren bibliografischen Hinweisen

Zuijlen, Job M. van (1991): Method and system for the representation of multiple analyses in dependency grammar and parser for generating such representation. United States Patent, Patent Number 5,060,155, Oct. 22, 1991
Patent aus dem Projekt DLT für einen Dependenzparser

Schubert, Klaus (1992): “Esperanto as an intermediate language for machine translation.” John Newton (Hg.): Computers in translation. London/New York: Routledge, 78–95
Ausführlichere Diskussion der Wahl der Zwischensprache in der maschinellen Übersetzung

Schubert, Klaus (2003): “Metataxe: ein Dependenzmodell für die computerlinguistische Praxis.” Vilmos Ágel, Ludwig M. Eichinger, Hans-Werner Eroms, Peter Hellwig, Hans Jürgen Heringer, Henning Lobin (Hg.): Dependenz und Valenz / Dependency and valency. Halbband 1. (Handbücher zur Sprach- und Kommunikationswissenschaft 25.1.) Berlin/New York: de Gruyter, 636–660
Systematische, über die computerlinguistische Anwendung hinausgehende Weiterentwicklung des dependenzgrammatischen Modells aus dem Projekt DLT

Witkam, Toon (2005): A new road to automatic translation. – https://web.archive.org/web/20200720041838if_/http://www.mt-archive.info/05/Witkam-2005.pdf (18.02.2022)
Perspektive auf neue korpusgestützte maschinelle Übersetzungstechniken und den bleibenden Wert der Ergebnisse des Projekts DLT

Schubert, Klaus (2006): “Maschinelle Übersetzung mit Dependenzgrammatiken.” Vilmos Ágel, Ludwig M. Eichinger, Hans-Werner Eroms, Peter Hellwig, Hans Jürgen Heringer, Henning Lobin (Hg.): Dependenz und Valenz / Dependency and valency. Halbband 2. (Handbücher zur Sprach- und Kommunikationswissenschaft 25.2.) Berlin/New York: de Gruyter, 1129–1157
Theoretische Übersicht über Einsatzfelder der Dependenzgrammatik in der maschinellen Übersetzung. Enthält einen kurz gefassten historischen Überblick über dependenzorientierte maschinelle Übersetzungsprojekte. Geht in knapper Form auch auf das Projekt DLT ein

Witkam, Toon (2006): History and heritage of the DLT (Distributed Language Translation) project. – https://web.archive.org/web/20121008055933if_/http://www.mt-archive.info/Witkam-2006.pdf (18.02.2022)
Persönlicher Rückblick auf Geschichte, Entwicklung und bleibende Ergebnisse des Projekts DLT