27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Messung</strong> maschineller Übersetzbarkeit<br />

<strong>von</strong> Texten<br />

Diplomarbeit <strong>von</strong> Malte Diehl<br />

Matrikelnummer: 8133810<br />

Studiengang:<br />

Informatik (Diplom)<br />

Erstprüferin:<br />

Dr. Elke Wilkeit<br />

Zweitprüfer:<br />

Dr. Hans Fleischhack<br />

Abgabedatum:<br />

16.04.2007


Zusammenfassung<br />

Seit über 50 Jahren beschäftigt sich die Forschung intensiv mit maschineller Übersetzung<br />

<strong>von</strong> Texten. Allen Erfolgen zum Trotz sind die gegenwärtigen Programme aber noch<br />

nicht perfekt, sondern produzieren nach wie vor zahlreiche Fehler. Diese Fehler wiederum<br />

erzwingen eine zeitintensive und aufwändige Nachbearbeitung der übersetzten Texte. Um<br />

diesen unvermeidlichen Aufwand wenigstens zu minimieren, erscheint es sinnvoll, einen<br />

Text bereits vor seiner Übersetzung so zu formulieren, dass die bei der Übersetzung durch<br />

ein Programm auftretenden Fehler möglichst stark reduziert werden.<br />

Vor diesem Hintergrund zeigt diese Arbeit einen Weg auf, die maschinelle Übersetzbarkeit<br />

eines deutschen Textes in die englische Sprache vor der Übersetzung durch einen Index<br />

zu bestimmen. Dazu werden nach einer kurzen Einführung in den Stand der Technik<br />

zunächst verschiedene Merkmale, die häufig in deutschen Texten auftreten, auf eine Beeinträchtigung<br />

der Leistung <strong>von</strong> Übersetzungsprogrammen untersucht. Auf der Grundlage<br />

der Merkmale, die empirisch untermauert die Fehleranzahl im übersetzten Text erhöhen,<br />

wird danach der Index für die maschinelle Übersetzbarkeit vom Deutschen ins Englische<br />

erstellt. Im dritten Schritt demonstriert diese Arbeit schließlich die Implementierung eines<br />

Programms, das diesen Index mit Hilfe <strong>von</strong> Algorithmen zur detaillierten Satzanalyse<br />

automatisch und zuverlässig berechnet.


Inhaltsverzeichnis<br />

Tabellenverzeichnis 7<br />

Abbildungsverzeichnis 8<br />

I. Einführung 10<br />

1. Grundlagen der Arbeit 11<br />

2. Stand der Technik 13<br />

2.1. Maschinelle und computerunterstützte Übersetzung . . . . . . . . . . . . . 13<br />

2.2. Historischer Abriss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.3. Ansätze der maschinellen Übersetzung . . . . . . . . . . . . . . . . . . . . 15<br />

2.3.1. Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.3.2. Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.3.3. Zwischensprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.3.4. Statistische MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.3.5. Beispielbasierte MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.4. Offene Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.4.1. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.4.2. Komposita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.4.3. Satzkomplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.4.4. Eigennamen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.4.5. Tempus-, Modus- und Aspektsystem . . . . . . . . . . . . . . . . . 20<br />

2.4.6. Fehlerhafte und umgangssprachliche Texte . . . . . . . . . . . . . . 21<br />

3. Ansätze zur Lösung der Übersetzungsprobleme 22<br />

3.1. Kontrollierte Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.1.1. Attempto Controlled English . . . . . . . . . . . . . . . . . . . . . 22<br />

3.1.2. Das KANT-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

3.1.3. Basic English . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.2. Vorbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.2.1. Linguistic Annotation Language . . . . . . . . . . . . . . . . . . . . 25<br />

3.3. Übersetzbarkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.3.1. Logos Translatability Index . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.3.2. Translation Confidence Index . . . . . . . . . . . . . . . . . . . . . 26<br />

3.3.3. Translatability Checker . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

3.3.4. Bewertung der vorgestellten Ansätze . . . . . . . . . . . . . . . . . 27<br />

4


Inhaltsverzeichnis<br />

II. Ein Modell zur Einschätzung der Übersetzbarkeit eines Textes 28<br />

4. Vorbereitende Maßnahmen 29<br />

4.1. Auswahl <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

4.2. Textuelle Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

4.3. Eingesetzte Übersetzungsprogramme . . . . . . . . . . . . . . . . . . . . . 32<br />

4.4. Bewertung der Übersetzungsqualität . . . . . . . . . . . . . . . . . . . . . 32<br />

4.4.1. Fehlersuche und Berechnung der Fehlerzahlen . . . . . . . . . . . . 33<br />

4.4.2. Beispiele zur Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . 34<br />

4.5. Signifikanz der Untersuchungsergebnisse . . . . . . . . . . . . . . . . . . . 35<br />

5. Untersuchung der Textmerkmale auf Fehlerrelevanz 37<br />

5.1. Allgemeine Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

5.1.1. Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

5.1.2. Nebensätze (Relativsätze) . . . . . . . . . . . . . . . . . . . . . . . 39<br />

5.1.3. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

5.1.4. Seltenheit <strong>von</strong> Wörtern . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

5.1.5. Elliptischer Schreibstil . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

5.2. Sprachspezifische Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

5.2.1. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

5.2.2. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

5.2.3. Nominalkomposita . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

5.2.4. Inversion der Wortstellung . . . . . . . . . . . . . . . . . . . . . . . 58<br />

5.3. Signifikanz der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

5.4. Vergleich der eingesetzten Übersetzungsprogramme . . . . . . . . . . . . . 63<br />

6. Zusammenführung der Kriterien in einem Index 66<br />

6.1. Erstellung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . . 66<br />

6.1.1. Übersetzbarkeit <strong>von</strong> Texten . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.1.2. Übersetzbarkeit <strong>von</strong> Sätzen . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.1.3. Bewertung der Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . 68<br />

6.2. Überprüfung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . 69<br />

III. MT Analyser: Automatische <strong>Messung</strong> der maschinellen Übersetzbarkeit<br />

72<br />

7. Modellierung <strong>von</strong> MT Analyser 73<br />

7.1. Systemabgrenzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

7.2. Anforderungen an MT Analyser . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

7.3. Zur Verfügung stehende Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . 75<br />

7.3.1. Java und Swing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

7.3.2. Tagging-Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

7.3.3. TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

7.4. Modellierung wesentlicher Programmteile . . . . . . . . . . . . . . . . . . . 77<br />

7.4.1. Komponenten <strong>von</strong> MT Analyser . . . . . . . . . . . . . . . . . . . . 77<br />

7.4.2. Datenhaltung und Datenbearbeitung im Programmkern . . . . . . . 77<br />

5


Inhaltsverzeichnis<br />

7.4.3. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . 82<br />

8. Implementierung <strong>von</strong> MT Analyser 85<br />

8.1. Einbindung <strong>von</strong> TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

8.1.1. Satzerkennung und Reformatierung des Textes . . . . . . . . . . . . 85<br />

8.1.2. Aufruf <strong>von</strong> TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

8.1.3. Verarbeitung der Ausgabe <strong>von</strong> TreeTagger . . . . . . . . . . . . . . 86<br />

8.2. Algorithmen zur Satzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

8.2.1. Zerlegung in atomare Teilsätze . . . . . . . . . . . . . . . . . . . . . 86<br />

8.2.2. Kategorisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 88<br />

8.2.3. Hierarchisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 91<br />

8.2.4. Zusammenfügen der atomaren Teilsätze . . . . . . . . . . . . . . . . 92<br />

8.2.5. Überprüfung der Satzanalyse . . . . . . . . . . . . . . . . . . . . . 94<br />

8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . 94<br />

8.3.1. Abgetrennte Kompositionsglieder . . . . . . . . . . . . . . . . . . . 94<br />

8.3.2. Inversionen der Wortstellung . . . . . . . . . . . . . . . . . . . . . . 95<br />

8.3.3. Mehrdeutigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

8.3.4. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />

8.3.5. Relativsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

8.3.6. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />

8.4. Weitere Programmmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

8.4.1. Benutzungsmodi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

8.4.2. Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

8.4.3. Editierbares Mehrdeutigkeitslexikon . . . . . . . . . . . . . . . . . . 108<br />

8.4.4. Konfigurationsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 109<br />

8.4.5. Hilfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

8.4.6. Systemanforderungen und Laufzeit . . . . . . . . . . . . . . . . . . 112<br />

8.5. MT Analyser Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

8.5.1. Zusätzliche Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

8.5.2. Unterschiede zu MT Analyser . . . . . . . . . . . . . . . . . . . . . 113<br />

8.5.3. Benutzungsoberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

IV. Fazit und Ausblick 115<br />

9. Zusammenfassung der Ergebnisse 116<br />

10.Ansätze zur Weiterentwicklung 117<br />

Glossar 119<br />

Stichwortverzeichnis 123<br />

Literaturverzeichnis 127<br />

6


Tabellenverzeichnis<br />

5.1. Satzlänge und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

5.2. Relativsätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . 40<br />

5.3. Andere Nebensätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . 41<br />

5.4. Mehrdeutigkeiten und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 44<br />

5.5. Ellipsen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

5.6. Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder . . 48<br />

5.7. Verbklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . 51<br />

5.8. Nominalklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 54<br />

5.9. Nominalkomposita und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 56<br />

5.10. Inversionen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

6.1. Auswirkungen der Textmerkmale im Vergleich . . . . . . . . . . . . . . . . 67<br />

6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70<br />

8.1. Beispielsatz mit Kategorisierung der einzelnen Teilsätze . . . . . . . . . . . 91<br />

7


Abbildungsverzeichnis<br />

2.1. Schema für direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.2. Schema für Transferübersetzung . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.3. Schema für Interlingua-Übersetzung . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.4. Schema für statistische Übersetzung . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.5. Schema für beispielbasierte Übersetzung . . . . . . . . . . . . . . . . . . . 17<br />

5.1. Absolute Veränderungen der Fehleranzahl ohne Relativsätze . . . . . . . . 40<br />

5.2. Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen . . . . 42<br />

5.3. Absolute Veränderungen der Fehleranzahl bei Reduktion <strong>von</strong> Mehrdeutigkeiten<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

5.4. Zusammenhang zwischen Wortlänge und Worthäufigkeit . . . . . . . . . . 45<br />

5.5. Häufigkeit sehr langer Wörter . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

5.6. Absolute Veränderungen der Fehleranzahl beim Ausfüllen <strong>von</strong> Ellipsen . . 48<br />

5.7. Absolute Veränderungen der Fehleranzahl ohne Verbklammern . . . . . . . 52<br />

5.8. Absolute Veränderungen der Fehleranzahl ohne Nominalklammern . . . . . 54<br />

5.9. Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl <strong>von</strong> Nominalkomposita<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

5.10. Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung 60<br />

5.11. Fehlerzahlen <strong>von</strong> Babel Fish und Personal Translator 2006 für die einzelnen<br />

Textkorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

5.12. Gesamtfehlerzahl <strong>von</strong> Babel Fish und Personal Translator 2006 . . . . . . 65<br />

6.1. Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort . . . . . . . . 69<br />

6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70<br />

7.1. Logo <strong>von</strong> MT Analyser (Startbildschirm des Programms) . . . . . . . . . . 73<br />

7.2. Modellierung der zentralen Klassen zur Textbewertung . . . . . . . . . . . 79<br />

7.3. Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für beliebig<br />

viele Sätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

7.4. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . . . 83<br />

8.1. Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden,<br />

mit Klammern und Gedankenstrichen versehenen Satzes . . . . . . 87<br />

8.2. Beispielsatz mit Hierarchisierung der einzelnen Teilsätze . . . . . . . . . . 92<br />

8.3. Reduktionsbaum für Nominalklammer (erstes Beispiel) . . . . . . . . . . . 100<br />

8.4. Reduktionsbaum für Nominalklammer (zweites Beispiel) . . . . . . . . . . 101<br />

8.5. Hauptmenü im Textmodus . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

8.6. Auswahl <strong>von</strong> Textmerkmalen im Bewertungsprozess . . . . . . . . . . . . . 104<br />

8.7. Hauptfenster mit Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . 105<br />

8.8. Baumdarstellung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . 105<br />

8


Abbildungsverzeichnis<br />

8.9. Ausschnitt aus HTML-Übersetzbarkeitsreport . . . . . . . . . . . . . . . . 107<br />

8.10. Klasse AnnotatedString . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

8.11. Bearbeiten eines mehrdeutigen Begriffs . . . . . . . . . . . . . . . . . . . . 108<br />

8.12. Eintrag zum Lexikon hinzufügen . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

8.13. Angabe neuer Gewichte für die Textmerkmale . . . . . . . . . . . . . . . . 110<br />

8.14. An- und Abwahl <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . . . . . . . 110<br />

8.15. Angabe und Test eines Pfades zu TreeTagger . . . . . . . . . . . . . . . . . 111<br />

8.16. Hilfemenü in der grafischen Oberfläche . . . . . . . . . . . . . . . . . . . . 111<br />

8.17. Hilfemenü in der textuellen Oberfläche . . . . . . . . . . . . . . . . . . . . 112<br />

8.18. MT Analyser Web: Erweiterter Übersetzungsmodus . . . . . . . . . . . . . 114 9


Teil I.<br />

Einführung<br />

10


1. Grundlagen der Arbeit<br />

Ausgangslage<br />

Ganz bestimmt gibt es keine andere Sprache, die so ungeordnet und unsystematisch,<br />

so schlüpfrig und unfaßbar ist; man treibt völlig hilflos in ihr umher,<br />

hierhin und dahin; und wenn man schließlich glaubt, man hätte eine Regel erwischt,<br />

die festen Boden böte, auf dem man inmitten der allgemeinen Unruhe<br />

und Raserei der zehn Wortarten ausruhen könne, blättert man um und liest:<br />

Der Schüler beachte sorgfältig folgende Ausnahmen.“ – Mark Twain [Twa94]<br />

”<br />

Dieses harte Urteil über die deutsche Sprache mag man teilen oder nicht, ganz gleich,<br />

ob sie die eigene Muttersprache ist oder man sie sich erst mühsam in Schule oder Studium<br />

aneignen musste. Niemand wird jedoch die Tatsache bestreiten, dass schon viele, die<br />

versucht haben, sie zu lernen, ebenso hilflos in ihr umhergetrieben wurden wie seinerzeit<br />

Mark Twain. Und obwohl seit den ersten Gehversuchen auf dem Gebiet der maschinellen<br />

Übersetzung (MÜ) bereits über fünfzig Jahre vergangen sind, macht man selbst mit<br />

hochspezialisierten Programmen trotz ausgefeilter Regelwerke auch heute noch diese Erfahrung,<br />

wenn man versucht, einen Text <strong>von</strong> einer anderen in die deutsche Sprache zu<br />

bringen oder umgekehrt: Diese Programme treiben in einem Gewirr aus Regeln und Ausnahmen<br />

hin und her und spätestens, wenn sie die dritte Ausnahme <strong>von</strong> der zweiten Regel<br />

entdeckt haben, kapitulieren sie bedingungslos.<br />

Setzt man eines der vielen im Internet verfügbaren Übersetzungsprogramme1 auf obiges<br />

Zitat an, das zwar <strong>von</strong> komplexer Struktur, aber ansonsten frei <strong>von</strong> Fachbegriffen oder<br />

ungewöhnlichen Formulierungen ist, erhält man mitunter belustigende Ergebnisse. Babel<br />

Fish, das die Technologie <strong>von</strong> Systran 2 benutzt, liefert, wenn man das Zitat erst ins<br />

Englische und dann wieder zurück ins Deutsche übersetzen lässt, folgendes:<br />

Es gibt vollständig zweifellos keine andere Sprache, die und unsystematically<br />

so unordered ist, so glatt und unverständlich; ein schwimmt vollständig hilflos<br />

in es herum, in auf diese Weise und dort; und wenn man schließlich glaubt,<br />

würde man eine Richtlinie erhalten haben, die festen Boden anbieten würde,<br />

auf dem man in der Mitte der allgemeinen Ruhelosigkeit und in der Raserei<br />

der 10 Arten des Wortes stillstehen kann, eins wieder Blätter treibt und liest:<br />

Die Schüler betrachtet die sorgfältig folgenden Ausnahmen.“<br />

”<br />

Ohne Schwierigkeiten ließen sich weitere Beispieltexte finden, die ein ähnlich fehlerdurchsetztes,<br />

aber immerhin noch verständliches Ergebnis produzieren.<br />

1 Als Beispiele seien an dieser Stelle Babel Fish (de.babelfish.yahoo.com), Personal Translator 2006<br />

(http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse: Personal Translator<br />

2008 ), webtranslate (http://www.webtranslate.de/) oder opentrad (http://www.opentrad.<br />

org/demo/) genannt, jeweils zuletzt besucht am 28. Februar 2007<br />

2 Die Firma Systran wurde 1968 gegründet und stellt Übsersetzungsprogramme her. 11


1. Grundlagen der Arbeit<br />

Motivation<br />

Inzwischen sind automatische Übersetzungen trotz ihrer offensichtlichen Mängel unverzichtbar<br />

geworden: Weltweit fallen jedes Jahr viele Millionen beschriebener Seiten an, die<br />

– aus welchen Gründen auch immer – vollständig und korrekt in andere Sprachen übertragen<br />

werden müssen. Da diese Arbeit nicht allein <strong>von</strong> ausgebildeten Übersetzern bewältigt<br />

werden kann, müssen Computer einen Teil da<strong>von</strong> übernehmen. Und weil diese nach wie<br />

vor viele Fehler machen, müssen nach erfolgter Übersetzung wieder Menschen die Fehler<br />

finden und beheben. Dies erfordert einen nicht zu unterschätzenden Aufwand an Zeit und<br />

Personal und verursacht damit hohe Kosten.<br />

Solange Übersetzungsprogramme nicht annähernd fehlerfrei arbeiten, wird man um diesen<br />

Sachverhalt auch nicht herumkommen; aber man kann versuchen, so wenig wie möglich<br />

in die Beseitigung <strong>von</strong> Fehlern investieren zu müssen. Dazu bietet es sich an, einen zu<br />

übersetzenden Text bereits in der Ausgangssprache so zu verfassen, dass er dem Übersetzungsprogramm<br />

aller Voraussicht nach nur wenige Probleme bereitet. Es gibt hierzu<br />

bereits mehrere Ansätze (siehe Abschnitt 3), unter anderem Maße für Übersetzbarkeit.<br />

Allerdings fehlt es bislang an einem Maß, das die allgemeine, <strong>von</strong> konkreten Übersetzungsprogrammen<br />

unabhängige Übersetzbarkeit eines deutschen Textes in die englische<br />

Sprache für die aktuelle Generation <strong>von</strong> Übersetzungsprogrammen ermitteln kann.<br />

Ziel der Arbeit<br />

Die Frage, wie sich die Übersetzbarkeit eines Textes messen lässt, war bislang Gegenstand<br />

vergleichsweise weniger Forschungsarbeiten und ist bisher für die deutsche Sprache nur<br />

unzureichend beantwortet, weil sich die meisten Autoren vor allem mit der Übersetzbarkeit<br />

englischer Texte in andere Sprachen befasst haben.<br />

Ziel dieser Arbeit ist daher, auf Basis gegenwärtig verfügbarer Technologie einen Index für<br />

die Übersetzbarkeit eines deutschsprachigen Textes zu erstellen. Als Grundlage für den<br />

Index sollen allgemeine und sprachspezifische Textmerkmale identifiziert und die Auswirkungen<br />

ihres Auftretens auf die Übersetzungsqualität anhand vorhandener Übersetzungsprogramme<br />

empirisch gemessen und gewichtet werden. Der so erstellte Übersetzbarkeitsindex<br />

soll dann automatisch durch ein Programm für gegebene Texte berechnet werden,<br />

wobei eine Analyse sowohl für einzelne Sätze als auch für den gesamten Text erfolgen und<br />

Verbesserungsvorschläge beinhalten soll. Die Benutzung des Programms soll sowohl über<br />

eine Kommandozeile, in Form einer alleinstehenden grafischen Oberfläche (GUI) als auch<br />

über eine Internetseite möglich sein, wobei die Benutzer ihre Texte übergeben und einen<br />

ausführlichen Bericht über mögliche Übersetzungsschwierigkeiten sowie den erzielten Indexwert<br />

zurückerhalten.<br />

12


2. Stand der Technik<br />

In diesem Abschnitt wird dargelegt, wie sich die automatische Übersetzung bis heute<br />

entwickelt hat, welche Ansätze genutzt werden und welche Probleme es gibt. Außerdem<br />

werden die zentralen Probleme der heutigen MÜ-<strong>Systeme</strong> erläutert und dargestellt, welche<br />

Maßnahmen üblicherweise getroffen werden, um Übersetzungsfehler zu vermeiden.<br />

2.1. Maschinelle und computerunterstützte Übersetzung<br />

Um Verwechslungen im weiteren Verlauf zu vermeiden, wird an dieser Stelle zunächst der<br />

Unterschied zwischen maschineller und computerunterstützter Übersetzung (CÜ) geklärt.<br />

MÜ-<strong>Systeme</strong> umfassen neben umfangreichen Lexika der jeweiligen Sprachen auch Regeln<br />

zur Syntax, Morphologie und Semantik in Ausgangs- und Zielsprache und führen auf<br />

dieser Grundlage die Übersetzung auch selbstständig durch. Das Ergebnis wird hinterher<br />

gegebenenfalls korrigiert und in eine korrekte, vollständige und stilistisch angemessene<br />

Form gebracht. Bekannte MÜ-<strong>Systeme</strong> sind zum Beispiel Systran oder Logos.<br />

CÜ-Software hingegen überlässt die Übersetzungsarbeit den Benutzern. Sie ist nicht in<br />

der Lage, Übersetzungen selbst zu erzeugen: Zwar verfügt sie über Lexika, jedoch nicht<br />

über Regeln zur Übersetzung. Vielmehr macht sie dem Benutzer auf Basis ihrer Lexika<br />

Vorschläge und speichert, wie der Benutzer bestimmte Textabschnitte übersetzt hat<br />

(Translation Memory), oder enthält bereits typische vorgefertigte Textabschnitte mit ihren<br />

Übersetzungen. Erkennt sie das Auftreten eines derartigen Textstücks, schlägt sie aus<br />

ihrem Datenbestand verschiedene Möglichkeiten zur Übersetzung vor, aus denen der Nutzer<br />

dann eine auswählen oder auch eine völlig neue Übersetzung angeben kann. Beispiele<br />

für CÜ-Software sind unter anderem MetaTexis1 und Wordfast 2 .<br />

In jedem Fall besteht also bei CÜ-Software zwangsläufig eine ständige Interaktion zwischen<br />

Nutzer und Programm, während MÜ-<strong>Systeme</strong> normalerweise autonom arbeiten,<br />

wobei natürlich nicht ausgeschlossen ist, dass ein solches Programm beim Nutzer nachfragt,<br />

wenn es sich nicht in der Lage sieht, einen bestimmten Textabschnitt selbstständig<br />

korrekt zu übersetzen. CÜ-Programme werden im weiteren Verlauf der Arbeit nicht weiter<br />

betrachtet, weil sie nicht zum Bereich der maschinellen Übersetzung gehören.<br />

2.2. Historischer Abriss<br />

Das Bestreben, sich <strong>von</strong> Computern Texte übersetzen zu lassen, ist fast so alt wie Computer<br />

selbst. Erste Forschungen begannen bereits Ende der 1940er Jahre, und 1954 wurde<br />

in dem vielbeachteten Georgetown-Experiment der erste, wenngleich noch rudimentäre<br />

Übersetzungscomputer vorgestellt, der einfache Sätze mit sehr begrenztem Wortschatz<br />

<strong>von</strong> der russischen in die englische Sprache transferieren konnte [Dos55].<br />

1 Im Internet erreichbar unter: http://www.metatexis.com, zuletzt besucht am 5. April 2007<br />

2 Im Internet erreichbar unter: http://www.wordfast.net, zuletzt besucht am 6. April 2007<br />

13


2. Stand der Technik<br />

In den folgenden Jahren wurde die Entwicklung weiter vorangetrieben, denn insbesondere<br />

die Militärs hatten während des Kalten Krieges ein starkes Interesse daran, ihren jeweiligen<br />

Feind möglichst schnell und unabhängig <strong>von</strong> menschlichen Übersetzern zu verstehen.<br />

Insofern war für sie auch ein System <strong>von</strong> Nutzen, das zwar meilenweit <strong>von</strong> fehlerfreien<br />

Übersetzungen entfernt war, den Inhalt des zugrunde liegenden Textes aber einigermaßen<br />

wiedergeben konnte. Allerdings blieben große Durchbrüche in der maschinellen Übersetzung<br />

aus. Vielmehr traten mehr und mehr vor allem semantische, teilweise bis heute<br />

ungelöste Probleme zutage, so dass der ursprüngliche Optimismus sich langsam in Skepsis<br />

wandelte ([Hut86], Kap. 8).<br />

1966 kam die Forschung dann in den USA und Großbritannien für etliche Jahre fast<br />

komplett zum Erliegen. Grund dafür war eine US-amerikanische Studie, der sogenannte<br />

ALPAC-Report [Pa66], die ein vernichtendes Urteil über den Stand, den Nutzen und die<br />

Perspektiven maschineller Übersetzungen fällte. Als Folge wurden zahlreiche Forschungsprojekte<br />

aufgegeben und die Fördergelder zusammengestrichen ([Hut86], Kap. 8). Auch<br />

auf die Sowjetunion und Westeuropa hatte dieser Bericht Auswirkungen.<br />

Allerdings wurde gerade in der Europäischen Gemeinschaft (EG) die Entwicklung <strong>von</strong><br />

MÜ-<strong>Systeme</strong>n vor allem für die Verwaltungen fortgesetzt, weil man eine Vielzahl <strong>von</strong><br />

Dokumenten in die verschiedenen Sprachen der Mitgliedsländer übersetzen musste und<br />

muss. Ein bekanntes System aus dieser Zeit, das unter anderem <strong>von</strong> der EG-Kommission<br />

eingesetzt wurde, ist das bis heute weiterentwickelte Systran [Lau84].<br />

Als in den 1980er Jahren PCs und Workstations mit Textverarbeitungsprogrammen große<br />

Verbreitung erlangten, nahm die Entwicklungsaktivität auch in den USA wieder zu, da inzwischen<br />

ein Bedarf für konstengünstige Massenprodukte zur automatischen Übersetzung<br />

entstanden war. Zudem bedurften gerade auch internationale Konzerne zuverlässiger Software,<br />

um der großen Anzahl an zu übersetzenden Texten (Verträge, Dokumentationen,<br />

Anleitungen etc.) Herr zu werden. Anstelle des ursprünglichen Ansatzes, die Ausgangssprache<br />

mittels eines spezialisierten Regelsystems direkt in die Zielsprache zu überführen,<br />

wurden nun verstärkt indirekte Interlinguasysteme implementiert. (Eine Beschreibung der<br />

vorherrschenden Übersetzungstechniken findet sich in Abschnitt 2.3.)<br />

In den 90er Jahren entstanden erste <strong>Systeme</strong>, die nicht mehr rein regelbasiert waren, sondern<br />

statistische Methoden oder Korpora <strong>von</strong> Beispielübersetzungen benutzten, um passende<br />

Übersetzungen zu generieren. Zudem stieg durch die rasante Ausbreitung <strong>von</strong> PCs<br />

auf der ganzen Welt der Bedarf für erschwingliche Übersetzungsprogramme seitens der<br />

Privatanwender weiter an, so dass inzwischen eine Vielzahl <strong>von</strong> Firmen solche Produkte<br />

kommerziell vertreibt. Mit dem Aufkommen des Internets wurden auch Online-Übersetzungstools<br />

populär.<br />

Auch die Ausrichtung der Übersetzungsprogramme wandelte sich: Standen in der Anfangszeit<br />

vor allem Übersetzungen wissenschaftlicher und technischer Texte im Vordergrund, so<br />

werden heute alle Arten <strong>von</strong> Texten übersetzt. Dementsprechend sind die Wörterbücher,<br />

die <strong>von</strong> den heutigen Programmen benutzt werden, in aller Regel weniger spezialisiert<br />

und liefern eine gute Abdeckung aller Themengebiete.<br />

Der Markt für Übersetzungen ist nach wie vor <strong>von</strong> starkem Wachstum geprägt. Laut<br />

Angaben der Universität Leipzig (Translatio) steigt die Nachfrage um rund 14 Prozent<br />

jährlich [Tra06] – und damit auch der Bedarf an maschinellen Übersetzungen. Die Qualität<br />

der Übersetzungen ist dabei bis heute, gleich welcher Ansatz einem System zugrundeliegt,<br />

insofern unbefriedigend, als praktisch sämtliche übersetzten Texte umfassende Nachbearbeitung<br />

benötigen, um veröffentlicht werden zu können. Allerdings liefern sie trotz vieler<br />

14


2.3. Ansätze der maschinellen Übersetzung<br />

ungelöster Probleme (siehe Abschnitt 2.4) in den meisten Fällen zwar keine fehlerfreien,<br />

aber immerhin verständliche Übersetzungen. Ein Beispiel hierfür ist etwa das einleitende<br />

Zitat <strong>von</strong> Mark Twain. Manchmal jedoch kommt es auch zu groben Verfälschungen, so<br />

dass der Inhalt des Ausgangstextes nicht einmal erahnt werden kann.<br />

Weil eine umfassende Lösung für die meisten Probleme nicht in Sicht war und/oder ist,<br />

wurden in den vergangenen Jahren parallel zur Weiterentwicklung der Übersetzungstechniken<br />

mehrere Ansätze entwickelt, um zu erreichen, dass die Übersetzung eines Textes<br />

möglichst wenige Fehler und damit nur geringen Nachbearbeitungsaufwand nach sich<br />

zieht. Einige da<strong>von</strong> werden im Rahmen dieser Einführung kurz vorgestellt. Es handelt<br />

sich dabei um kontrollierte Sprachen (Abschnitt 3.1), Annotationssprachen (Abschnitt<br />

3.2) und eben Methoden zur <strong>Messung</strong> der Übersetzbarkeit (Abschnitt 3.3).<br />

2.3. Ansätze der maschinellen Übersetzung<br />

Seit Beginn der Forschung auf diesem Gebiet ist eine Vielzahl an Übersetzungssystemen<br />

entstanden, die verschiedenen Paradigmen folgen. Diese lassen sich in die folgenden<br />

Klassen einordnen, wobei in der Praxis häufig auch Mischformen zum Einsatz kommen<br />

(vergleiche [Hut92], [ABM + 94] und [HS92]).<br />

2.3.1. Direkte Übersetzung<br />

Eine direkte Übersetzung wird vorgenommen, indem ein Text aus einer Ausgangssprache<br />

mit Hilfe eines Regelwerkes in eine Zielsprache überführt wird. Dazu werden nach einer<br />

morphologischen Analyse die Wörter einzeln in die Zielsprache übertragen und Wortstellung<br />

sowie Flexionsformen angepasst. Eine semantische Analyse findet dabei nicht statt,<br />

so dass die Ergebnisse dieser Methode etwa bei Zweideutigkeiten sehr unbefriedigend sind.<br />

Nachteilig ist zudem, dass bei n Sprachen, zwischen denen jeweils direkt übersetzt werden<br />

soll, insgesamt (n 2 − n) Regelsätze angefertigt werden müssen. Abbildung 2.1 zeigt die<br />

Funktionsweise dieses ältesten und einfachsten Ansatzes.<br />

Abbildung 2.1.: Schema für direkte Übersetzung<br />

2.3.2. Transfer<br />

Der Transferansatz analysiert den Ausgangstext grammatikalisch und überführt ihn in eine<br />

spezielle sprachabhängige Zwischendarstellung, die seine Eigenschaften wiedergibt und<br />

auch semantische Informationen enthält. Meist wird dazu eine Baumstruktur benutzt. Anschließend<br />

wird in einem zweiten Schritt mittels eines (namengebenden) Transfermoduls<br />

die Zwischendarstellung der Ausgangssprache in eine gleichwertige Zwischendarstellung<br />

der Zielsprache überführt. Erst dann wird aus der Zwischendarstellung der endgültige<br />

Text in der Zielsprache generiert. Ein wichtiger Vorteil gegenüber dem direkten Ansatz ist<br />

die Beachtung semantischer Strukturen. Auch können die Zwischendarstellungen für jede<br />

15


2. Stand der Technik<br />

Sprache optimiert werden. Allerdings müssen bei n Sprachen insgesamt (n 2 − n) Transfermodule<br />

erstellt werden, um <strong>von</strong> jeder Sprache in jede andere übersetzen zu können.<br />

Außerdem werden noch jeweils n Module zur Erzeugung der Zwischendarstellung und des<br />

Zieltextes benötigt. Abbildung 2.2 zeigt den Ablauf dieses Schemas.<br />

Abbildung 2.2.: Schema für Transferübersetzung<br />

2.3.3. Zwischensprache<br />

So genannte Interlingua-<strong>Systeme</strong> (lat. interlingua: Zwischensprache) erzeugen ebenfalls<br />

aus einem Ausgangstext eine Zwischendarstellung. Diese ist allerdings sprachunabhängig.<br />

So wird bei n Sprachen immer nur eine Zwischendarstellung benötigt, was den Programmieraufwand<br />

im Vergleich zu einem Transfersystem drastisch senkt. Hinzu kommen noch<br />

je n Module zur Erzeugung der Zwischendarstellung aus der Ausgangssprache und der<br />

Zielsprache aus der Zwischendarstellung. Abbildung 2.3 beschreibt den Ansatz grafisch.<br />

Das Problem bei diesem Ansatz ist die sprachunabhängige Zwischendarstellung. Bisher<br />

ist es noch nicht gelungen, eine wirklich allgemeingültige Interlingua zu erstellen. Deshalb<br />

wird trotz des höheren Aufwands der Transferansatz auch bei multilingualen MÜ-<br />

<strong>Systeme</strong>n vorgezogen.<br />

Abbildung 2.3.: Schema für Interlingua-Übersetzung<br />

2.3.4. Statistische MÜ<br />

Statistische MÜ kommt im Gegensatz zu den obigen Ansätzen ohne vorgefertigte Grammatik<br />

aus. Vielmehr werden alle benötigten Informationen wie Worthäufigkeiten, Grammatikregeln<br />

usw. mit Methoden zur Informationsgewinnung aus großen bi- und multilingualen<br />

Textkorpora für die beteiligten Sprachen extrahiert.<br />

Im Zentrum bei der Übersetzung eines Textes steht dann die Berechnung der Wahrscheinlichkeit,<br />

dass ein bestimmter Satz in der Ausgangssprache auf einen bestimmten Satz in<br />

der Zielsprache abgebildet werden kann. Zunächst wird dazu die Wahrscheinlichkeit P (A)<br />

des Auftretens des Ausgangssatzes A berechnet und anschließend die bedingte Wahrscheinlichkeit<br />

P (Z|A), dass Zielsatz Z auftritt, wenn A vorliegt. Beide Wahrscheinlichkeiten<br />

werden miteinander zu P (A) · P (Z|A) verknüpft. Diese Prozedur wird für zahlreiche<br />

mögliche Zielsätze durchgeführt, wobei am Ende derjenige gewählt wird, der die größte<br />

16


2.4. Offene Probleme<br />

Wahrscheinlichkeit liefert. In der Praxis werden meist noch weitere Parameter hinzugefügt,<br />

um die Ergebnisse zu verbessern.<br />

Das Hauptproblem hierbei ist, dass große und vor allem in geeigneter Weise (z. B. durch<br />

Zuordnung <strong>von</strong> Sätzen in Ausgangs- und Zielsprache) aufbereitete Textkorpora relativ selten<br />

sind. Dafür erspart man sich die manuelle Erstellung komplizierter Grammatikregeln.<br />

Abbildung 2.4.: Schema für statistische Übersetzung<br />

2.3.5. Beispielbasierte MÜ<br />

Im Gegensatz zur statistischen Übersetzungsmethode ist die beispielbasierte MÜ wieder<br />

ein regelbasiertes Verfahren, das jedoch nicht wie die ersten drei Verfahren versucht,<br />

möglichst allgemeine Grammatikregeln abzubilden. Vielmehr ist der Hauptbestandteil des<br />

Systems wie bei statistischer MÜ ein bi- oder multilinguales Textkorpus, aus dem mittels<br />

einander zugeordneter Sätze oder Phrasen zahlreiche Übersetzungsvorlagen für die<br />

jeweiligen Sprachen gewonnen werden. Diese lassen sich über mit Bedingungen versehene<br />

Regeln repräsentieren. Eine solche Bedingung könnte etwa sein, dass Zug mit train ins<br />

Englische übersetzt wird, wenn im Beispiel auch das Wort Schiene vorkommt, aber mit<br />

drag, wenn <strong>von</strong> einer Zigarette die Rede ist.<br />

Da es allerdings unmöglich ist, auf diese Weise die gesamte Sprache abzudecken, müssen<br />

Sätze in der Ausgangssprache daraufhin analysiert werden, welchem Übersetzungsbeispiel<br />

sie am ehesten ähneln. Bei fehlenden Vokabeln ist es auch möglich, ähnliche Beispiele wie<br />

Schablonen zu benutzen und Wörter einzusetzen.<br />

Abbildung 2.5.: Schema für beispielbasierte Übersetzung<br />

2.4. Offene Probleme<br />

Wie das einführende Beispiel zeigte, bestehen trotz ausgefeilter Übersetzungstechniken<br />

immer noch starke Defizite, die komplett fehlerfreie und in vielen Fällen selbst annehmbare<br />

Übersetzungen verhindern. Im folgenden werden einige wichtige ungelöste Probleme<br />

vorgestellt, die im weiteren Verlauf dieser Arbeit in ihrer Auswirkung auf die Übersetzungsqualität<br />

betrachtet werden. Dabei gibt es sowohl allgemeingültige Probleme als auch<br />

sprachspezifische.<br />

17


2. Stand der Technik<br />

2.4.1. Mehrdeutigkeit<br />

Ein zentrales Problem beim Übersetzen zwischen zwei Sprachen ist, dass es in praktisch jeder<br />

natürlichen Sprache Wörter gibt, die in einer anderen Sprache zwei oder mehr mögliche<br />

Übersetzungen mit unterschiedlichen Bedeutungen haben. Dieses Phänomen bezeichnet<br />

man als lexikalische Mehrdeutigkeit (vgl. [ABM + 94]). Es ist auch in der deutschen Sprache<br />

häufig anzutreffen.<br />

Als Beispiel sei hier das deutsche Substantiv Verdienst genannt. Es kann sich dabei um<br />

ein Gehalt als auch um eine besondere Leistung handeln. Im Englischen muss je nach<br />

Bedeutung entweder income oder merit als Übersetzung gewählt werden. Für Verdienst<br />

ist diese Unterscheidung noch einfach, weil man nur auf darauf achten muss, ob es der<br />

oder das Verdienst ist. Bei Wörtern wie Zug, das noch wesentlich mehr Bedeutungen hat<br />

– Eisenbahn, Luftzug, Zug an einer Zigarette und andere –, ist es wesentlich schwerer,<br />

die korrekte Übersetzung zu ermitteln. Hier muss ein wie auch immer gearteter anderer<br />

Kontext herangezogen werden. Ein weiteres Beispiel für ein hochfrequentes mehrdeutiges<br />

Wort ist etwa das Verb fahren. Im Englischen kann es je nach Situation unter anderem<br />

go, drive, ride oder cycle heißen, im Spanischen conducir oder ir.<br />

Von lexikalischer Mehrdeutigkeit spricht man auch, wenn ein und dasselbe geschriebene<br />

Wort mehreren Wortarten angehört. Besonders im Englischen, das kaum wortartspezifische<br />

Endungen aufweist, ist dieses Phänomen weit verbreitet. So kann lunch sowohl ein<br />

Substantiv (the lunch) als auch ein Verb (to lunch) sein. Im Deutschen könnte man, wenn<br />

man statt Mittagessen unbedingt den Anglizismus benutzen möchte, immer noch zwischen<br />

dem Substantiv Lunch und dem Verb lunchen unterscheiden. Zwischen Adjektiven und<br />

Verben existieren im Englischen ebenfalls zahlreiche Homographen, etwa cool (kühl bzw.<br />

kühlen). Auch in der deutschen Sprache trifft man auf dieses Problem: Deutsch verfügt<br />

über solche Homographen im wesentlichen nur bei Adjektiven und Adverbien, so etwa bei<br />

schön: Man vergleiche beispielsweise die Sätze Margarete hat ihr Bild schön gemalt., wo<br />

schön als Adverb gebraucht wird, und Margaretes Bild ist schön., wo schön ein Adjektiv<br />

ist.<br />

Darüber hinaus gibt es noch die strukturelle Mehrdeutigkeit, die auftritt, wenn ein Satz<br />

oder ein Satzteil mehrere mögliche Strukturen hat. Ein Beispiel für dieses Problem ist<br />

der Satz Die Spaziergänger beobachteten die Sternschnuppe mit ihrem Fernglas. Für einen<br />

Menschen ist sofort klar, dass mit ihrem Fernglas sich nur sinnvoll auf die Spaziergänger<br />

beziehen kann, die es einsetzen, um den Himmelskörper zu betrachten. Für eine Maschine,<br />

die zuvorderst mit Regeln oder Wahrscheinlichkeiten und nicht mit Ratio agiert, könnte<br />

die Präpositionalphrase sich aber genauso gut auf die Sternschuppe beziehen, die mit<br />

ihrem Fernglas am Himmel entlangschwebt.<br />

Insgesamt gilt das Problem der Mehrdeutigkeit als überaus komplex und bislang noch<br />

nicht hinreichend gelöst. Dementsprechend bleibt es auch in Zukunft vielleicht die wichtigste<br />

Fehlerquelle für maschinelle Übersetzungen. In letzter Zeit haben sich wegen seiner<br />

Bedeutung viele Projekte auf dieses Problem fixiert und Lösungsansätze wie etwa die<br />

Linguistic Annotation Language, die in 3.2.1 vorgestellt wird, entworfen.<br />

2.4.2. Komposita<br />

Ebenfalls ein für MÜ-<strong>Systeme</strong> wichtiges Problem in vielen Sprachen sind Komposita,<br />

insbesondere ihre Zerlegung, wenn es in der Zielsprache kein passendes Wort oder kei-<br />

18


2.4. Offene Probleme<br />

nen vergleichbaren Mechanismus gibt. Deutsch ist ein sehr gutes Beispiel für eine Sprache,<br />

in denen Nominalkomposita gebildet werden. Ein weithin bekanntes Kompositum<br />

ist Donaudampfschifffahrtsgesellschaftskapitän, das sich durch Anfügen weiterer Substantive<br />

beliebig verlängern lässt. Ein noch skurrileres, aber real existierendes Beispiel ist<br />

das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz aus Mecklenburg-<br />

Vorpommern.<br />

Bei der Übersetzung in Sprachen, die keine Nominalkomposita kennen, wie etwa die romanischen<br />

Sprachen müssen die einzelnen Bestandteile erkannt und als jeweils eigenständige<br />

Wörter in eine korrekte Verbindung miteinander gebracht werden. Immerhin ist die Abgrenzung<br />

deutscher Komposita durch ihre Zusammenschreibung gegeben, was im Englischen<br />

nicht der Fall ist. Hier birgt ein Satz wie The killer games rage campaign intensified.<br />

das Problem, dass nicht klar ist, welche Bestandteile zusammengehören. Die Wörter rage<br />

und campaign könnten theoretisch auch das Hauptverb sein.<br />

Wieder andere Sprachen können ganze Satzteile zu einem einzigen Wort agglutinieren, so<br />

dass dann aus diesem Wort heraus bei der Übersetzung in andere Sprachen ein kompletter<br />

Satz unter Wahrung der Bedeutung extrahiert werden muss. Ein berühmtes Beispiel<br />

hierfür ist der Name des walisischen Ortes Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch,<br />

dessen offizielle englische Übersetzung3 Saint Mary’s Church in the hollow<br />

of the white hazel near a rapid whirlpool and the Church of Saint Tysilio of the red cave<br />

lautet.<br />

2.4.3. Satzkomplexität<br />

Je länger ein Satz wird, desto komplexer wird auch seine syntaktische Struktur. Zum einen<br />

erhöht sich die bloße Anzahl der Wörter, die korrekt miteinander in Beziehung gesetzt<br />

werden müssen, zum anderen bekommt der Satz durch Unterordnungen zusätzliche Ebenen.<br />

Es steht zu erwarten, dass mit zunehmender Satzlänge auch ohne Mehrdeutigkeiten<br />

ein Übersetzungsprogramm zunehmend die Übersicht verliert und nicht mehr in der Lage<br />

ist, die Wörter korrekt zu ordnen und die Satzebenen mit all ihren Abhängigkeiten richtig<br />

zu verwalten. Aus diesem Grund wird für maschinengerechtes Schreiben <strong>von</strong> Texten oft<br />

empfohlen, allzu lange Sätze zu vermeiden, etwa in [Kor06] oder [BG00].<br />

Ein weiterer Punkt sind satzübergreifende Referenzen. Viele Programme haben Probleme<br />

damit, Referenzen über mehrere Sätze hinweg zu analysieren oder tun dies erst gar nicht.<br />

Dies führt gerade bei Pronomen dazu, dass in vielen Fällen geraten werden muss, worauf<br />

sie sich beziehen, so dass falsche Beziehungen zwischen Satzteilen entstehen. Ein Beispiel<br />

hierfür ist das Satzgefüge:<br />

Nach dem Vietnam-Krieg zeigte sich eine Desorientierung und Ratlosigkeit der US-Außenpolitik.<br />

Sie fand ihren Ausdruck im Schwanken zwischen einer Abkehr <strong>von</strong> Interventionismus<br />

und Demonstration militärischer Stärke und dessen Gegenteil.<br />

Die Übersetzung mit Babel Fish liefert:<br />

To the Viet Nam war a disorientation and an embarrassment of the US foreign policy<br />

pointed themselves. She found her expression in varying between a break of interventionism<br />

and demonstration of military strength and its opposite.<br />

3 Entnommen der offiziellen Homepage der Gemeinde unter http://www.<br />

llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch.co.uk/, letzter Besuch<br />

am 16. November 2006<br />

19


2. Stand der Technik<br />

Abgesehen <strong>von</strong> den übrigen Fehlern wurde hier offenbar nicht erkannt, dass der zweite<br />

Satz sich auf Desorientierung und/oder Ratlosigkeit bezieht, die im Englischen als Neutrum<br />

behandelt werden, so dass die ursprünglich vorhandene Verbindung zerstört wird<br />

durch die Benutzung der femininen Pronomina she und her. Um derartige Probleme zu<br />

umgehen, verlangen zahlreiche kontrollierte Sprachen wie ACE und KCE (siehe Abschnitt<br />

3.1) explizite Wiederholungen <strong>von</strong> Bezugswörtern.<br />

2.4.4. Eigennamen<br />

Auch bei Eigennamen stellen sich nach wie vor zwei zentrale Probleme:<br />

• Der Eigenname muss korrekt herausgefiltert werden.<br />

• Der Eigenname muss entweder korrekt übersetzt werden oder unverändert bleiben.<br />

Beide Probleme scheinen auf den ersten Blick recht einfach zu lösen, sind aber mit zahlreichen<br />

Schwierigkeiten behaftet. Insbesondere Firmennamen, die oftmals aus verschiedenen<br />

Bestandteilen und Phantasiewörtern bestehen, sind problematisch, nicht nur weil oftmals<br />

unklar ist, wo sie beginnen und enden. So muss das Wort Wohnungsbaugesellschaft<br />

normalerweise übersetzt werden, aber nicht, wenn es Bestandteil eines (hier erdachten)<br />

Firmennamens wie Zentralbau Wohnungsbaugesellschaft mbH ist. Und bei Phantasienamen<br />

wie Infineon steht das MÜ-System vor der Frage, ob es nur eine unbekannte Vokabel<br />

oder ein Eigenname ist.<br />

Personen- und Ortsnamen sind ebenfalls problembehaftet, etwa wenn es um hintereinander<br />

stehende oder historische Namen geht. Verkaufte Klaus Peter eine Eintrittskarte? ist<br />

ein Satz, in dem es entweder um einen Mann namens Klaus Peter oder um zwei Männer<br />

namens Klaus und Peter gehen kann. Ebenso muss ein MÜ-System entscheiden, wann<br />

ein zu übersetzender Name vorliegt, was meistens bei größeren Orten und historischen<br />

Persönlichkeiten der Fall ist. Karl der Große heißt auf Englisch nun einmal Charlemagne<br />

und nicht Karl the great oder Charles the great, und aus Nürnberg muss in der Übersetzung<br />

Nuremberg werden.<br />

2.4.5. Tempus-, Modus- und Aspektsystem<br />

Während die deklinierbaren Wortarten sich zwischen den verschiedenen Sprachen meist<br />

nur geringfügig unterscheiden, nämlich in der Stärke und den Kategorien ihrer Beugung,<br />

und ansonsten strukturell fast gleichen <strong>Systeme</strong>n folgen, ist die korrekte Abbildung zweier<br />

Verbsysteme aufeinander selbst bei eng verwandten Sprachen ein wesentlich komplizierteres<br />

Unterfangen.<br />

Um etwa zu wissen, in welchem Kasus oder mit welcher Präposition ein Nomen in der<br />

Übersetzung steht, reicht es in den indogermanischen Sprachen aus, das zugehörige Verb<br />

und die Funktion des Nomens im Satz zu kennen. Um sich für die richtige Verbform zu<br />

entscheiden, bedarf es tiefgründigerer Analysen, weil das Zusammenspiel aus Tempus,<br />

Modus und Aspekt <strong>von</strong> nicht explizit angegebenen Faktoren abhängt.<br />

Die deutsche Sprache kennt zum Beispiel keinen Verbalsapekt, im Gegensatz etwa zu Englisch<br />

oder Spanisch, die eine Zustands- und eine Verlaufsform bei Verben aufweisen. Ich<br />

esse kann daher prinzipiell als I eat oder I am eating respektive als como oder estoy comiendo<br />

übersetzt werden. Erst zusätzliche Informationen zu den Umständen der Aussage<br />

20


2.4. Offene Probleme<br />

ermöglichen die sinnvolle Wahl einer der beiden Formen. Fügte man gerade hinzu, wäre<br />

eindeutig, dass die Verlaufsform zu wählen ist. Nähme man fast alles als Ergänzung, müsste<br />

die Zustandsform gewählt werden. Diese Erkennungsleistung muss vom MÜ-System erst<br />

einmal vollbracht werden. Ein weiteres Beispiel ist die Consecutio temporum (Zeitenfolge),<br />

die im Englischen eher lax und im Deutschen der strengen lateinischen sehr ähnlich ist.<br />

Ein im Englischen üblicher Satz wie zum Beispiel After I woke up, I took a shower. sollte<br />

nie mit Nachdem ich aufwachte, duschte ich mich. übersetzt werden, weil die Vorzeitigkeit<br />

zum Präterium im Deutschen mittels Plusquamperfekt ausgedrückt wird.<br />

Noch komplizierter wird es bei indirekter Rede (oder allgemeiner: bei <strong>von</strong>einander abweichendem<br />

Modusgebrauch). Fast jede Sprache hat hier eigene <strong>Systeme</strong>. Im Englischen<br />

spielt der Konjunktiv dabei anders als im Deutschen keine Rolle, dafür muss die Zeitform<br />

des Indikativs der indirekten Rede an die des Hauptsatzes angepasst werden. Zusätzlich<br />

wird normalerweise nirgendwo im Text explizit angegeben, wann die indirekte Rede beginnt<br />

oder endet, so dass es Aufgabe des MÜ-Programms ist, dies herauszufinden, sofern<br />

die indirekte Rede überhaupt bemerkt wird.<br />

Dies sind nur einige Probleme, die zwischen eng verwandten indogermanischen Sprachen<br />

bestehen. Es ließen sich an dieser Stelle noch viele weitere, wesentlich schwieriger zu lösende<br />

oder ungelöste Probleme insbesondere zwischen Sprachen unterschiedlicher Sprachfamilien<br />

nennen, etwa das völlige Fehlen <strong>von</strong> Tempora im Chinesischen oder die Wahl der<br />

korrekten Anredeform.<br />

2.4.6. Fehlerhafte und umgangssprachliche Texte<br />

Ein weiteres Problem ist die Übersetzung <strong>von</strong> Texten, die zahlreiche Fehler hinsichtlich<br />

Rechtschreibung und Grammatik enthalten. Hier kann kein noch so gutes MÜ-System<br />

eine akzeptable Übersetzung liefern, da bereits der Ausgangstext unbrauchbar ist. So ist<br />

es nicht verwunderlich, dass der falsche, aber so durchaus zu hörende Satz Ich hab kein<br />

Hunger, weil ich hatte gerade schon gegessen gehabt. <strong>von</strong> Personal Translator 2006 mit<br />

I have none hunger because I had just already had eaten. übersetzt wird. Ähnlich sieht<br />

es mit Texten aus, in denen Slangwörter, die in keinem Wörterbuch verzeichnet sind und<br />

sich bewusst <strong>von</strong> der Umwelt abheben wollen, auftreten. Weil in diesen Fällen die Texte<br />

und nicht unzureichende Programme die Fehlerursache sind, werden sie in der weiteren<br />

Analyse nicht beachtet.<br />

21


3. Ansätze zur Lösung der<br />

Übersetzungsprobleme<br />

Es gibt inzwischen zahlreiche Strategien, um die bestehenden Probleme der MÜ zu lösen<br />

oder zu umgehen. Die wesentlichen lassen sich in drei Gruppen zusammenfassen. Dies sind<br />

kontrollierte Sprachen, die gerade in größeren Unternehmen und internationalen Behörden<br />

zum Einsatz kommen (vgl. [CMU + 95]), Vorbearbeitung der zu übersetzenden Texte, die<br />

eingesetzt wird, um das Programm mit zusätzlichen Informationen über Textinhalt und<br />

-struktur zu versorgen, sowie Übersetzbarkeitsmaße, die meist im Vorfeld der Übersetzung<br />

berechnet werden und angeben, wie gut sich ein Text zur MÜ eignet.<br />

3.1. Kontrollierte Sprachen<br />

Kontrollierte Sprachen sind natürliche Sprachen, die hinsichtlich ihres Umfangs eingeschränkt<br />

sind, um MÜ-gerechtes Schreiben zu erleichtern oder zu erzwingen. Eine kontrollierte<br />

Sprache kann auf einer sehr einfachen Ebene lediglich eine informelle Regelsammlung<br />

sein mit Vorgaben wie Kein Satz darf länger als 25 Wörter sein. Es kann aber<br />

auch eine ausgefeilte formale Grammatik sein, deren Ausdrucksmächtigkeit einem Teil<br />

der Mächtigkeit der zugrundeliegenden Sprache entspricht. So könnte beispielsweise die<br />

Wortstellung durch ihre Produktionsregeln auf Subjekt - Prädikat - Objekt beschränkt<br />

sein. Möglich sind auch Einschränkungen im Wortschatz oder die Beschränkung auf genau<br />

eine Bedeutung pro Wort, um der Mehrdeutigkeit zu begegnen. Im folgenden werden<br />

drei unterschiedliche Beispiele für kontrollierte natürliche Sprachen kurz vorgestellt.<br />

Allen kontrollierten Sprachen gemein ist jedoch, dass sie nur eine zeitlich begrenzte Umschiffung<br />

der bestehenden Probleme bis zu ihrer Lösung sein können; denn das eigentliche<br />

Ziel heißt nach wie vor, Sprache – wenn auch nicht gerade anspruchsvolle Literatur – ohne<br />

Einschränkungen übersetzen zu können.<br />

3.1.1. Attempto Controlled English<br />

Attempto Controlled English (ACE) wurde und wird im Institut für Informatik der Universität<br />

Zürich in der Schweiz entwickelt und unter anderem bei dem mit EU-Mitteln<br />

geförderten Forschungsprojekt REWERSE 1 als kontrollierte Sprache eingesetzt. Es handelt<br />

sich bei ACE um eine reduzierte Grammatik der englischen Sprache mit einem zugehörigen,<br />

vom Benutzer erweiterbaren Lexikon, das in Prolog geschrieben wurde. Hinzu<br />

kommen Programme zur Analyse, ob der Ausgangstext den Regeln entspricht, und zur<br />

Überführung des Ausgangstextes in eine Darstellung in Diskursrepräsentationsstruktur<br />

(DRS) (siehe [FSS99], [FHK + 06]). Durch diese Erweiterung der Prädikatenlogik ist es<br />

1 Reasoning on the Web with Rules and Semantics, im Internet erreichbar unter http://rewerse.net,<br />

zuletzt besucht am 6. April 2007<br />

22


3.1. Kontrollierte Sprachen<br />

möglich, dass auch Zusammenhänge über Satzgrenzen hinweg in einem gewissen Rahmen<br />

beachtet werden können. Man betrachte die beiden Sätze: The user enters a code. The<br />

code is valid. ACE ist in der Lage, The code im zweiten Satz aufgrund der Kongruenz mit<br />

a code im ersten Satz in Beziehung zu setzen.<br />

Ein Schwerpunkt bei der Entwicklung <strong>von</strong> ACE liegt auf der Reduzierung <strong>von</strong> Mehrdeutigkeit.<br />

Sätze, die aufgrund ihrer Struktur mehrdeutig sind, werden immer deterministisch<br />

interpretiert. Der Satz The user enters a code that is correct and opens a connection ist<br />

in einem normalen englischen Text zweideutig, weil and opens a connection sowohl eine<br />

Fortführung des Relativsatzes als auch eine Wiederaufnahme des Hauptsatzes sein kann.<br />

ACE dagegen fasst den zweideutigen Satzteil immer als Wiederaufnahme des Hauptsatzes<br />

auf, sofern der Relativsatz nicht durch explizite Wiederholung des Relativpronomens that<br />

fortgesetzt wird. Des Weiteren wurden einige Möglichkeiten der englischen Sprache, die<br />

Mehrdeutigkeiten provozieren können, ganz ausgelassen.<br />

Zur Zeit liegt ACE in Version 5.0 vor und beherrscht unter anderem (vgl. [Hoe04],<br />

[FHK + 06]) auch Fragesätze, Negationen, Quantifizierungen, Modalverben, bei- und untergeordnete<br />

Sätze, Präpositionalphrasen, Genitive und mit Adverbien erweiterte Verben.<br />

Allerdings können noch nicht alle Arten <strong>von</strong> Nebensätzen verarbeitet werden und es stellt<br />

sich die Frage, inwieweit ACE gegen lexikalische Mehrdeutigkeiten geschützt ist.<br />

3.1.2. Das KANT-Projekt<br />

Seit 1989 wird an der US-amerikanischen Carnegie Mellon University an KANT, einem<br />

Interlingua-Übersetzungssystem gearbeitet, das für den Einsatz in der hochtechnisierten<br />

Industrie spezialisiert ist und englische Texte in verschiedene andere Sprachen übersetzen<br />

kann. Der Name KANT steht dabei für Knowledge-based, Accurate Natural-language<br />

Translation (dt.: wissensbasierte, präzise Übersetzung natürlicher Sprache).<br />

Ein Kernelement <strong>von</strong> KANT ist KANT Controlled English (KCE), das wie ACE eine<br />

eingeschränkte Variante der englischen Sprache ist [MNrC91]. Dabei umfasst KCE lexikalische<br />

sowie Einschränkungen hinsichtlich der Satzkomplexität und bietet die Möglichkeit,<br />

innerhalb des Quelltextes SGML-Mark-Ups einzufügen [MN95], um schwierige Passagen<br />

wie etwa Maßangaben zu kapseln und die Übersetzung durch Hinweise für den Parser zu<br />

erleichtern.<br />

Die Einschränkungen der Grammatik sind insgesamt denen <strong>von</strong> ACE recht ähnlich und<br />

zielen vorrangig auf die Vermeidung <strong>von</strong> Mehrdeutigkeiten. Beliebige Zusammensetzungen<br />

<strong>von</strong> Substantiven sind beispielsweise nicht gestattet. [MBNS03]. Das Partizip Präsens<br />

auf -ing darf nicht direkt nach einem Substantiv stehen. Bei Relativsätzen wird die Nutzung<br />

des Relativpronomens sehr empfohlen, und es können nicht alle Varianten <strong>von</strong> Relativsätzen<br />

übersetzt werden. In Subjekt- bzw. Objektsätzen darf das unterordnende that<br />

nicht weggelassen werden, und die implizite Übertragung <strong>von</strong> Adjektiven ist nicht möglich,<br />

wie das folgende, aus [MBNS03] übernommene Beispiel zeigt: Die Phrase top left and right<br />

sides ist nicht gültig und muss zu the top left sides and the top right sides umgeschrieben<br />

werden.<br />

Das Lexikon umfasste anfänglich ca. 14.000 allgemeine Wörter sowie weitere Fachbegriffe<br />

in beschränktem, vordefiniertem Umfang [MNrC91] und ist inzwischen bei 70.000<br />

Einträgen [MBNS03] angekommen. Jedem Eintrag ist dabei nach Möglichkeit nur eine<br />

Bedeutung zugeordnet, um auch hier Mehrdeutigkeiten zu vermeiden.<br />

23


3. Ansätze zur Lösung der Übersetzungsprobleme<br />

3.1.3. Basic English<br />

Im Gegensatz zu den beiden zuvor dargestellten kontrollierten Sprachen ist Basic English<br />

wesentlich älter und wurde nicht auf eine möglichst einfache und eindeutige automatische<br />

Übersetzung ausgerichtet. Basic English wurde 1930 <strong>von</strong> dem britischen Linguisten<br />

Charles Kay Ogden [Ogd30] entwickelt und war als einfache Lingua franca zur globalen<br />

Kommunikation gedacht. Dennoch ist Basic English nicht bloß eine Plansprache wie Esperanto,<br />

sondern auch eine kontrollierte Sprache, weil sie eine stark eingeschränkte Variante<br />

des Standardenglischen ist; nur dass anders als bei neueren kontrollierten Sprachen das<br />

alleinige Ziel die einfache Erlernbarkeit durch den Menschen ist.<br />

Die bemerkenswerteste Abweichung gegenüber der englischen Sprache ist die Beschränkung<br />

auf lediglich 850 Wörter. Dieser Wortschatz setzt sich aus 600 Substantiven, 150 Adjektiven<br />

und einer Sammlung <strong>von</strong> 100 weiteren häufigen Wörtern zusammen, zu der etwa die<br />

englischen Artikel a und the gehören. Ogden behauptete, diese Wörter seien ebenso effizient<br />

wie 5.000 Wörter des Standardenglischen und könnten insgesamt sogar 20.000 Wörter<br />

abdecken [Ogd30]. Alle fehlenden Wörter werden durch zweiteilige Komposita, die aus den<br />

vorhandenen Wörtern gebildet werden, oder durch Umschreibungen ersetzt. Auffallend ist<br />

ebenso das weitgehende Fehlen <strong>von</strong> Verben. Lediglich eine Handvoll unverzichtbarer Verben<br />

wie etwa to do oder to be befindet sich unter den 100 weiteren häufigen Wörtern.<br />

Alle Tätigkeiten müssen unter Zuhilfenahme dieser Verben und passender Substantive<br />

und/oder Adjektive umschrieben werden. Diese Komposita und Umschreibungen sind in<br />

verschiedenen Wörterbüchern festgehalten, etwa in [Ogd60]. Vereinfacht wurden auch die<br />

Grammatikregeln. Verneinungen <strong>von</strong> Adjektiven werden prinzipiell durch das Präfix unausgedrückt<br />

[Ogd30]. Für Ableitungen werden die Suffixe -ed, -er, -ing benutzt. Bei den<br />

verbliebenen 16 Verben kommt -ed nur in einer Ausnahme als Vergangenheitsformen vor;<br />

die anderen sind ungerelmäßige Verben. Allerdings gab es auch Vereinfachungen, zu denen<br />

Ogden sich nicht durchringen konnte, wie etwa die Abschaffung der Ausnahmen bei<br />

der Pluralbildung (tooth → teeth) oder des s der dritten Person bei Verben im Singular,<br />

wenngleich er damit haderte [Ogd37].<br />

Basic English besitzt, wie man der vorangegangenen Beschreibung entnehmen kann, obwohl<br />

es nicht zur maschinellen Verarbeitung entworfen wurde, einige Merkmale, die seine<br />

automatische Übersetzung erleichtern. So löst der stark reduzierte Wortschatz das<br />

Problem ausufernder und unvollständiger Lexika. Der Verzicht auf die Vergangenheitsendung<br />

-ed beseitigt viele Mehrdeutigkeiten. Die hohe Regelmäßigkeit verlangt weniger<br />

Übersetzungsregeln. Es stellt sich andererseits aber wieder die Frage, ob durch die vielen<br />

erzwungenen Umschreibungen nicht neue Übersetzungsprobleme entstehen.<br />

3.2. Vorbearbeitung<br />

Eine weitere Möglichkeit, die Qualität der Übersetzungen zu erhöhen, ist die Vorbearbeitung<br />

eines Textes. Dabei werden dem Text über den eigentlichen Inhalt hinaus Metainformationen<br />

hinzugefügt, die vom MÜ-System ausgewertet und bei der Übersetzung<br />

berücksichtigt werden. Zahlreiche <strong>Systeme</strong> unterstützen zumindest einfache Direktiven,<br />

um beispielsweise Eigennamen zu kennzeichnen, so etwa das soeben vorgestellte KANT.<br />

Im folgenden wird ein komplexes System vorgestellt, das versucht, die Zusammenhänge<br />

innerhalb <strong>von</strong> Texten hervorzuheben und Mehrdeutigkeiten abzubauen. Festzuhalten ist<br />

dabei allerdings, dass nicht-marginale Vorbearbeitungen, die etwa über das Setzen <strong>von</strong><br />

24


3.3. Übersetzbarkeitsmaße<br />

Steuerzeichen für das Programm innerhalb des Textes hinausgehen, nur für das professionelle<br />

Verfassen <strong>von</strong> Texten geeignet sind.<br />

3.2.1. Linguistic Annotation Language<br />

Für IBM wurde in den letzten Jahren ein multilinguales Übersetzungssystem entwickelt,<br />

das English als Zwischensprache einsetzt. Der Vorteil ist, dass keine künstliche Interlingua<br />

entwickelt werden muss, der Nachteil, dass Englisch viele Merkmale anderer Sprachen<br />

nicht oder nur unzureichend nutzt. So kennt das Englische beispielsweise nicht den deutschen<br />

und französischen Unterschied zwischen Duzen und Siezen. Bei der Übersetzung<br />

eines deutschen Textes über Englisch nach Französisch würden also Informationen verloren<br />

gehen. Um dies zu verhindern, wurde zusätzlich die so genannte Linguistic Annotation<br />

Language entwickelt (LAL) [WNMB02].<br />

Dabei handelt es sich um eine XML-basierte Mark-Up-Sprache, die den XML-Namensraum<br />

lal benutzt und den Text mit zahlreichen zusätzlichen Informationen versieht. Im wesentlichen<br />

besteht sie aus drei Tags, die Sätze (s), Teilsätze (seg) und Wörter (w) abgrenzen<br />

[Wat03]. Zusätzlich existieren Attribute, die diesen Tags zugewiesen werden können. Dazu<br />

zählen unter anderem orig_lex, das den Lexikoneintrag der Ausgangssprache enthält,<br />

orig_lang, das die Ausgangssprache des Eintrags angibt, oder lex, in dem die Grundform<br />

des zugehörigen Wortes steht. Auf diese Weise werden Mehrdeutigkeiten eliminiert.<br />

Das aus [Wat03] entnommene Beispiel<br />

How are you?<br />

gibt für den eingeschlossenen Satz an, dass er ursprünglich auf Deutsch verfasst wurde<br />

und dass gesiezt wird (wegen polite="yes"). Zusammenhänge zwischen Wörtern werden<br />

dargestellt, indem den einzelnen Wörtern eindeutige IDs (Attribut id) zugewiesen werden.<br />

Über das Attribut mod, kann angegeben werden, auf welches Wort sich ein anderes Wort<br />

bezieht.<br />

Vorteilhaft an dieser Methode ist sicherlich, dass alle relevanten Informationen bei der<br />

Übersetzung erhalten bleiben und XML einfach zu verarbeiten ist. Andererseits ist der<br />

Arbeitsaufwand zur Vorbereitung des Textes erheblich; eigens für die LAL wurde ein<br />

Editor geschrieben. Ob die in [WNMB02] festgestellte Verbesserung der Übersetzungen<br />

den Mehraufwand der Annotation rechtfertigt, ist noch zu ermitteln.<br />

3.3. Übersetzbarkeitsmaße<br />

3.3.1. Logos Translatability Index<br />

Der sogenannte Logos Translatability Index (LTI) wurde Anfang der 90er Jahre <strong>von</strong> Mitarbeitern<br />

der Firma Logos für ihr MÜ-System entwickelt, um bereits vor der Übersetzung<br />

für deutsche und englische Dokumente eine Beurteilung der Übersetzbarkeit abzugeben<br />

[Gda94]. Der LTI liefert anhand <strong>von</strong> Textmerkmalen, mit denen das Logos-System<br />

Probleme hat, einen Indexwert und Hinweise zur Verbesserung der Übersetzbarkeit für<br />

vollständige Texte, allerdings nicht für einzelne Sätze oder konkrete Probleme wie etwa<br />

ein bestimmtes nicht gefundenes Wort.<br />

Faktoren, die die Übersetzbarkeit negativ beeinflussen, sind im LTI unter anderem (vergleiche<br />

[BG00], [Gda94]):<br />

25


3. Ansätze zur Lösung der Übersetzungsprobleme<br />

• zu lange Sätze,<br />

• Homographen,<br />

• Fragen,<br />

• kurze Parenthesen,<br />

• nicht gefundene/vorhandene Wörter und<br />

• Mehrdeutigkeiten.<br />

Einem Text wird zu Beginn des Bewertungsprozesses zunächst willkürlich ein Wert <strong>von</strong><br />

7 als Ausgangswert für seine Übersetzbarkeit zugewiesen. Je stärker die eben genannten<br />

Faktoren im Text zu Tage treten, desto mehr wird dieser Ausgangswert vermindert. Ein<br />

Text gilt als geeignet für eine automatische Übersetzung, wenn sein LTI einen Mindestwert<br />

übertrifft. Am Ende der Bewertung wird dem Autor die Übersetzbarkeit seines Textes<br />

zusammen mit relativ allgemein gehaltenen Verbesserungsvorschlägen präsentiert.<br />

3.3.2. Translation Confidence Index<br />

1999, fünf Jahre nach dem LTI, wurde bei IBM der Translation Confidence Index (TCI)<br />

fertiggestellt [Ber99]. Er wird während der Übersetzung eines Textes ermittelt und danach<br />

für jeden einzelnen Satz angezeigt. Dazu wird das Vertrauen in die bereits erstellte Übersetzung<br />

mit Werten zwischen 0 (sehr gering) und 100 (sehr hoch) angegeben. Dies ist somit<br />

auch ein nachträglich erstelltes Maß für die Übersetzbarkeit. Fällt nun ein Satz unter eine<br />

bestimmte Schwelle, bietet es sich an, ihn in der Ausgangssprache zu überarbeiten und<br />

dann erneut übersetzen zu lassen, um den Nachbearbeitungsaufwand zu minimieren. Die<br />

Genauigkeit bei einer Aufteilung in akzeptable und unbrauchbare Übersetzungen (Grenze<br />

bei 70 Punkten) beträgt über 70 Prozent [Ber99]. Der TCI kann auf beliebige englische<br />

Texte angewandt werden, die ins Deutsche übersetzt werden sollen.<br />

Im Gegensatz zum LTI betrachtet der TCI nicht nur bestimmte Textmerkmale wie zum<br />

Beispiel Präpositionalphrasen oder unbekannte Wörter, sondern auch, wie oft das jeweilige<br />

Übsersetzungsprogramm, in das die TCI-Bewertung integriert wurde, aus verschiedenen<br />

Möglichkeiten auswählen musste. Aus dem Zusammenspiel beider Faktoren werden dann<br />

die <strong>von</strong> 100 abzuziehenden Strafpunkte errechnet.<br />

3.3.3. Translatability Checker<br />

Einen dritten Ansatz, der im Jahre 2001 entwickelt wurde, stellt der sogenannte Translatability<br />

Checker (TC) dar [JU01]. Hierbei handelt es sich um ein Programm, das sowohl<br />

einzelne Sätze wie auch den gesamten Text beurteilt und anschließend satzweise eine<br />

Analyse mit detaillierten Hinweisen auf mögliche Probleme liefert. Allerdings konzentriert<br />

der TC sich ausschließlich auf englische Texte. Bei der Bewertung wird zwischen<br />

allgemeingültigen und für das jeweilige MÜ-System spezifischen Kritierien unterschieden.<br />

Als allgemeine Kriterien, die die Übersetzbarkeit negativ beeinträchtigen, gelten:<br />

• Abwesenheit eines Verbs,<br />

• Abwesenheit eines finiten Verbs,<br />

26


3.3. Übersetzbarkeitsmaße<br />

• mehrfache Beiordnungen,<br />

• ungünstige Satzlänge (< 3 oder > 25 Wörter),<br />

• Auftreten <strong>von</strong> Nominalkomposita (> 2 Substantive),<br />

• Substantiv-Verb-Homographen,<br />

• Verb-Adjektiv-Homographen,<br />

• Substantiv-Verb-Adjektiv-Homographen,<br />

• Präpositionalphrasen und<br />

• Nebensätze.<br />

Darüber hinaus existieren die folgenden systemspezifischen Kriterien:<br />

• ungünstige Satzlänge > 25 Wörter mit Adverbien,<br />

• Adverbien oder Nebensätze am Satzanfang,<br />

• Nebensätze und/oder Präpositionalphrasen am Satzanfang,<br />

• sonstiges Auftreten <strong>von</strong> Präpositionalphrasen oder Nebensätzen und<br />

• mit ”<br />

of“ beginnende Präpositionalphrasen.<br />

Je nach zur späteren Übersetzung eingesetzter MÜ-Software können Kriterien an- und<br />

abgewählt werden. Die verschiedenen Faktoren werden zur Erstellung des Indexes außerdem<br />

gewichtet. Der Index selbst ist dabei ein Wert zwischen 0 und 100 – je höher der<br />

Wert, desto höher die prognostizierte Übersetzbarkeit eines Textes.<br />

3.3.4. Bewertung der vorgestellten Ansätze<br />

Die in den vorigen Abschnitten vorgestellten Ansätze liefern einige interessante Anknüpfungspunkte<br />

für die Erstellung eines neuen Übersetzbarkeitsindexes. Ein Teil der Bewertungskriterien<br />

aus den drei Ansätzen kann so oder in ähnlicher Form übernommen werden<br />

(vgl. Abschnitt 5). Darüber hinaus haben alle Ansätze Vor- und Nachteile. Der LTI verfügt<br />

nur über eine äußerst subjektive Bewertungsskala, ist nur auf ein bestimmtes System zugeschnitten<br />

und liefert keine detaillierte Satzanalyse. Der TCI ist zwar das umfassendste<br />

Bewertungssystem, da er alle Stufen des Übersetzungsprozesses beachtet, bringt aber auch<br />

Probleme mit sich. So kann der Wert für den Index erst nach einem Durchlauf des MÜ-<br />

Programms angegeben werden, nicht davor. Außerdem muss die TCI-Bewertung in ein<br />

Übersetzungssystem integriert werden und kann nicht unabhängig da<strong>von</strong> betrieben werden,<br />

was durchaus wünschenswert sein kann. Der TC schließlich verfügt zwar über die<br />

komplexeste Berichterstattung, ist aber auf die englische Sprache spezialisiert und benutzt<br />

ein Wörterbuch <strong>von</strong> 1961 [JU01], was gerade bei neuen wissenschaftlichen Texten<br />

für Probleme sorgen könnte.<br />

27


Teil II.<br />

Ein Modell zur Einschätzung der<br />

Übersetzbarkeit eines Textes<br />

28


4. Vorbereitende Maßnahmen<br />

Bevor mit der Erstellung eines Modells, das die Übersetzbarkeit eines Textes über einen<br />

Index zuverlässig bewertet, begonnen werden kann, müssen einige vorbereitende Maßnahmen<br />

durchgeführt werden. Es geht dabei vor allem darum, diejenigen Textmerkmale,<br />

die auf ihre Auswirkungen auf die Übersetzungsqualität hin zu überprüfen sind,<br />

begründet auszuwählen (Abschnitt 4.1) und die Vorgehensweise bei ihrer Überprüfung<br />

festzulegen. Dazu gehört insbesondere die Erstellung geeigneter Textkorpora (Abschnitt<br />

4.2), die Auswahl <strong>von</strong> MÜ-<strong>Systeme</strong>n, die diese Korpora übersetzen, und der Ablauf <strong>von</strong><br />

Fehlersuche und -bewertung (Abschnitt 4.4). Schließlich gilt es, die Signifikanz der Untersuchungsergebnisse<br />

sicherzustellen (Abschnitt 4.5), so dass in den Übersetzbarkeitsindex<br />

nur tatsächlich relevante Textmerkmale einfließen.<br />

Das Modell bleibt dabei stets ausschließlich auf die Bewertung der Übersetzbarkeit deutscher<br />

Texte in die englische Sprache ausgerichtet, wenngleich der Index auch für die Übersetzung<br />

<strong>von</strong> Deutsch in andere germanische Sprachen eine gewisse Aussagekraft besitzen<br />

sollte. Diese Sprachen stehen dem Englischen in aller Regel hinsichtlich ihrer Struktur<br />

und Grammatik recht nahe, so dass sich bei Übersetzungen ähnliche Probleme ergeben<br />

dürften.<br />

4.1. Auswahl <strong>von</strong> Textmerkmalen<br />

Um Textmerkmale für eine nähere Untersuchung als geeignet betrachtet zu können,<br />

müssen sie drei wesentliche Bedingungen erfüllen:<br />

• Häufigkeit: Nur Merkmale, die vergleichsweise häufig zu beobachten sind, sollten<br />

ausgewählt und beobachtet werden, da nur sie in der Praxis <strong>von</strong> Bedeutung sind.<br />

• Allgemeinheit: Sicherlich könnte man zahlreiche sehr spezielle Merkmale wie etwa<br />

einzelne Phrasen mit außergewöhnlicher Wortstellung wie um des lieben Friedens<br />

willen, wo das Genitivobjekt <strong>von</strong> einer Zirkumposition eingeschlossen ist, benennnen.<br />

Jedoch ergäbe sich dann das Problem, dass es Hunderte ähnlicher Merkmale<br />

gibt, die jedes für sich nur ein kleines Detail sind und allesamt gleichberechtigt untersucht<br />

werden müssten, so dass man das große Ganze vor lauter Details aus den<br />

Augen verlöre.<br />

• Entfernbarkeit: Um einen sinnvollen Vergleich zu ermöglichen, muss sich jedes beobachtete<br />

Merkmal aus einem Satz auch entfernen und durch adäquate Umformulierungen<br />

ersetzen lassen, ohne dabei den Sinn des Satzes zu verändern oder einen<br />

allzu ungebräuchlichen Schreibstil zu erzwingen.<br />

Bei der Auswahl der Textmerkmale wird darüber hinaus auf die in Abschnitt 2.4 genannten<br />

offenen Probleme und auf die in den in Abschnitt 3.3 vorgestellten Übersetzbarkeitsindizes<br />

genutzten Textmerkmale Rücksicht genommen. Die Entscheidung fällt daher<br />

29


4. Vorbereitende Maßnahmen<br />

auf folgende Textmerkmale (in alphabetischer Reihenfolge und mit kurzer Begründung),<br />

weil zu erwarten steht, dass sie die Fehlerhäufigkeit bei der maschinellen Übersetzung<br />

erkennbar erhöhen 1 :<br />

• Elliptischer Schreibstil (Seite 46): Ellipsen zwingen ein MÜ-Programm entweder zu<br />

einer schwierigen Analyse der Zusammenhänge und Beziehungen innerhalb eines<br />

Satzes oder sogar zum Raten und erhöhen so die Komplexität deutlich.<br />

• Inversion der Wortstellung (Seite 58): Eine Abweichung <strong>von</strong> der Standardwortstellung<br />

erhöht die Schwierigkeit, die Satzteile zu identifizieren, und impliziert eine<br />

Abweichung vom Standardübersetzungsschema.<br />

• Mehrdeutigkeiten (Seite 43): Das MÜ-System ist gezwungen, anhand einer Analyse<br />

des Satzkontextes eine passende Übersetzungsmöglichkeit auszuwählen.<br />

• Nebensätze (Seite 39): Nebensätze sorgen für zusätzliche syntaktische Ebenen und<br />

erhöhen die Komplexität des Satzes.<br />

• Nominalklammern (Seite 52): Nominalklammern erfordern eine ausgefeilte Analyse<br />

der Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes.<br />

• Nominalkomposita (Seite 55): Nominalkomposita müssen erkannt und korrekt zerlegt<br />

werden und stellen für die MÜ-Programme oftmals Neologismen dar.<br />

• Satzlänge (Seite 37): Je länger ein Satz ist, desto mehr Möglichkeiten gibt es, ihn zu<br />

übersetzen und dabei Fehler zu machen. Zwar lässt sich die Satzlänge anders als die<br />

anderen ausgewählten Merkmale nicht entfernen, doch kann man überlange Sätze<br />

in aller Regel leicht in mehrere Sätze zerlegen.<br />

• Seltenheit <strong>von</strong> Wörtern (Seite 45): Seltene Wörter fehlen oftmals in den Lexika der<br />

MÜ-<strong>Systeme</strong> und können daher nur auf Umwegen übersetzt werden oder bleiben<br />

unübersetzt.<br />

• Verbklammern (Seite 49): Verbklammern erfordern eine ausgefeilte Analyse der<br />

Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes.<br />

Die Untersuchung dieser Merkmale wird in Abschnitt 5 durchgeführt. Dort erfolgt auch<br />

– sofern nötig – eine genauere Vorstellung und Begründung.<br />

Die folgenden Textmerkmale werden zwar als bedeutsam angesehen oder <strong>von</strong> anderen Indizes<br />

zur Berechnung der Übersetzbarkeit verwendet, finden jedoch hier keine Beachtung:<br />

• Präpositionalphrasen: Deutsche Präpositionen sind zwar oftmals anfällig für im Kontext<br />

falsche Übersetzungen, da es zu vielen Präpositionen mehrere Entsprechungen<br />

im Englischen gibt, sie sind jedoch nur in den seltensten Fällen verzichtbar.<br />

• Eigennamen: MÜ-Programme werden durch Eigennamen zwar vor enorme Schwierigkeiten<br />

gestellt; jedoch können Eigennamen in aller Regel nicht weggelassen werden,<br />

ohne einen Satz zu entstellen.<br />

1 Zum Nachschlagen grammatikalischer Fachbegriffe sei auf die diesbezügliche Fachliteratur, zum Beispiel<br />

[BEFH + 05], oder auf entsprechende Internetseiten verwiesen.<br />

30


4.2. Textuelle Grundlagen<br />

• Aufzählungen/Beiordnungen: Aufzählungen und Beiordnungen erhöhen einerseits<br />

die Satzkomplexität, andererseits ist es unrealistisch, für jedes Element einer Aufzählung<br />

oder Beiordnung einen eigenen Satz zu formulieren. Dieses Textmerkmal<br />

wird durch die Beachtung der Satzlänge ausreichend abgedeckt, weil Aufzählungen<br />

und Beiordnungen auch immer mit erhöhter Satzlänge einhergehen.<br />

• Abwesenheit <strong>von</strong> (finiten) Verben: Weil im folgenden Auszüge aus ausformulierten<br />

Texten überprüft werden, tritt dieses Merkmal nur sehr selten auf. Außerdem ist<br />

auch ohne Verb anders als im Englischen aufgrund des im Deutschen ausgeprägteren<br />

Systems <strong>von</strong> Wortformen (kaum Homographen) eine bessere Unterscheidung<br />

möglich, so dass dieses Textmerkmal nicht als relevant erscheint.<br />

• Unbekannte Wörter: Wörter, die einem MÜ-Programm unbekannt sind, werden stets<br />

als Übersetzungsschwierigkeit angenommen; weil aber dieser Übersetzbarkeitsindex<br />

nicht für ein bestimmtes MÜ-Programm gemacht wird, kann somit nicht beurteilt<br />

werden, ob ein Wort in dessen Lexikon vorhanden ist oder nicht. Statt dessen werden<br />

Wörter betrachtet, <strong>von</strong> denen bekannt ist, dass sie allgemein sehr selten sind.<br />

4.2. Textuelle Grundlagen<br />

Damit für ein Textmerkmal ein aussagekräftiges Ergebnis hinsichtlich seiner Beeinflussung<br />

der Übersetzungsqualität erzielt werden kann, ist je Merkmal ein hinreichend großes<br />

Textkorpus <strong>von</strong>nöten, das zufällige Ergebnisse weitgehend ausschließt. Gleichzeitig muss<br />

der Arbeitsaufwand unter Berücksichtigung der Anzahl der ausgewählten Merkmale in<br />

angemessener Zeit zu bewältigen sein. Zudem sollen die Inhalte der Texte nicht auf ein<br />

bestimmtes Themengebiet beschränkt sein, sondern aus verschiedenen Bereichen stammen,<br />

um eine möglichst große Textvielfalt sicherzustellen und dadurch ein realitätsnahes<br />

Untersuchungsergebnis zu begünstigen.<br />

Die Entscheidung fällt daher auf 100 Sätze pro Textmerkmal, das heißt, der Autor erstellt<br />

in der Regel für jedes Textmerkmal ein Textkorpus, das 100 Sätze mit jeweils mindestens<br />

einer Instanz dieses Merkmals enthält. Ein zweites Textkorpus, das im Prinzip dieselben<br />

100 Sätze enthält, jedoch so weit wie möglich <strong>von</strong> dem zu beobachtenden Merkmal befreit,<br />

ist anschließend zwecks Kontrolle der Veränderung der Fehlerzahl zu bilden. Die<br />

Festlegung auf jeweils 100 Sätze erfolgt, weil die damit verbundene Übersetzungs- und<br />

Korrekturarbeit noch zu bewältigen erscheint und die Ergebnisse nicht zu sehr durch einzelne<br />

Ausreißer beeinträchtigt werden können. Dies versetzt den Autor in die Lage, die<br />

Qualität der Übersetzungen der Sätze aus zusammengehörigen Textkorpora insbesondere<br />

in der Aggregation über diese Textkorpora zu vergleichen, nachdem er sie mit den dazu<br />

ausgewählten Übersetzungsprogrammen satzweise ins Englische übersetzt hat (siehe<br />

Abschnitt 4.4). Die Länge der Sätze soll dabei sehr variabel sein, wie es auch in Wirklichkeit<br />

der Fall ist, das heißt, sämtliche Satzlängen <strong>von</strong> wenigen bis zu mehreren Dutzend<br />

Wörtern sollen in jedem Korpus vertreten sein. Allerdings wird darauf geachtet, dass die<br />

Länge der einzelnen Korpora in Wörtern halbwegs gleich ist, damit der Schwierigkeitsgrad<br />

der Übersetzung der einzelnen Korpora annähernd gleich bleibt. Vor allem ist auch das<br />

Auftreten anderer wichtiger Textmerkmale zusätzlich zu dem beobachteten erwünscht,<br />

weil dies in realen Texten auch oft der Fall ist. Insgesamt erstellte der Autor im Laufe<br />

31


4. Vorbereitende Maßnahmen<br />

der Untersuchungen 19 Textkorpora mit über 1750 deutschen Sätzen und analysierte über<br />

3500 englische Übersetzungen.<br />

Als Quelle der Sätze wird die deutsprachige Version <strong>von</strong> Wikipedia 2 gewählt. Es wäre<br />

ein nicht zu rechtfertigender Aufwand und darüber hinaus wahrscheinlich tendenziös, die<br />

Sätze selbst zu verfassen. Außerdem stellen die mittlerweile über 500.000 verfügbaren<br />

Artikel ein umfassendes Textreservoir aus sehr vielen Themenbereichen dar, wobei die<br />

Auswahl der Sätze willkürlich erfolgt und nur auf das Auftreten des jeweils gesuchten<br />

Merkmals geachtet wird. Die oftmals geführte Diskussion über Qualität und Zitierbarkeit<br />

der Online-Encyklopädie erübrigt sich hier, weil die inhaltliche Güte der Sätze für derartige<br />

Untersuchungen belanglos ist. Vor dem Einfügen in ein Textkorpus wird jeder Satz auf<br />

Rechtschreibfehler überprüft und gegebenenfalls korrigiert. Kein Satz wird in mehreren<br />

Textkorpora verwendet.<br />

Sofern <strong>von</strong> den Regeln bezüglich Textauswahl und Korpusgröße abgewichen wird, wird<br />

dies in den Abschnitten zu den Untersuchungen der einzelnen Kriterien gesondert vermerkt.<br />

4.3. Eingesetzte Übersetzungsprogramme<br />

Eine weitere wichtige Frage ist, mit welchen Programmen die Textkorpora übersetzt werden<br />

sollen. Es ist allgemein <strong>von</strong> großer Bedeutung, sicherzustellen, dass die Beobachtungen<br />

nicht <strong>von</strong> einem Programm allein abhängen. Daher werden im Vorfeld der Untersuchung<br />

zwei aktuelle und populäre (im Internet kostenlos benutzbare) MÜ-Programme<br />

ausgewählt, deren Übersetzungstechnologien <strong>von</strong> verschiedenen Firmen entwickelt worden<br />

sind:<br />

• Personal Translator 2006 3 <strong>von</strong> Linguatec<br />

• Babel Fish 4 , basierend auf Systran-Technologie<br />

So ist gewährleistet, dass individuelle Schwächen oder Stärken eines Programms nicht<br />

zu sehr ins Gewicht fallen. Zeigen beide Programme dieselben Schwächen, ist darauf zu<br />

schließen, dass das verursachende Übersetzbarkeitskriterium an sich noch nicht hinreichend<br />

behandelt wird. Sämtliche Sätze werden mit beiden Programmen in die englische<br />

Sprache übersetzt. Noch besser wäre es natürlich, drei oder vier Programme einzusetzen,<br />

jedoch ließe sich dies angesichts des zusätzlichen Arbeitsaufwands nicht bewältigen.<br />

4.4. Bewertung der Übersetzungsqualität<br />

Um beurteilen zu können, ob die Übersetzung des originalen oder des bearbeiteten Textes<br />

besser ist, bedarf es eines Maßstabes zur Bewertung der Qualität. Die Frage ist dabei<br />

stets, wie exakt die Bewertung sein muss. So wurde etwa in der ALPAC-Studie [Pa66]<br />

eine Skala angewendet, die einen übersetzten Text in neun Stufen <strong>von</strong> perfekt verständlich<br />

bis hoffnungslos unverständlich einordnet.<br />

2 Erreichbar unter: http://de.wikipedia.org, zuletzt besucht am 1. April 2007<br />

3 Erreichbar unter: http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse:<br />

Personal Translator 2008, zuletzt besucht am 18. März 2007<br />

4 Erreichbar u. a. unter: http://babelfish.altavista.com, zuletzt besucht am 18. März 2007<br />

32


4.4. Bewertung der Übersetzungsqualität<br />

Eine derartige Einordnung mag zwar zur Einschätzung der Qualität <strong>von</strong> MÜ-Programmen<br />

hilfreich sein, ist jedoch nicht genau genug, um die Veränderungen der Fehlerzahl, die<br />

durch Hinzufügen oder Weglassen <strong>von</strong> Textmerkmalen entstehen, angemessen abzubilden,<br />

denn die Fehlerzahl ist maßgeblich für den Nachbearbeitungsaufwand. So ist es denkbar,<br />

dass ein Satz, der im Originalzustand und nach seiner Bearbeitung als gut verständlich<br />

eingeschätzt wird, dennoch in beiden Versionen eine stark abweichende Fehlerzahl aufweist,<br />

falls es sich um geringfügige“ Fehler – wie etwa falsch gewählte Präpositionen –<br />

”<br />

handelt, die den Satz nicht entstellen. Außerdem ist diese Bewertung sehr subjektiv und<br />

würde <strong>von</strong> Mensch zu Mensch unterschiedlich ausfallen.<br />

Es erscheint daher sinnvoller, wenngleich wesentlich arbeitsaufwändiger, die einzelnen<br />

Fehler der Übersetzungen satzweise und für das gesamte Textkorpus aggregiert zu zählen<br />

und die absoluten bzw. prozentualen Veränderungen bei Ausschaltung eines Textmerkmals<br />

zu berücksichtigen. Neben der absoluten Fehlerzahl pro Satz oder Textkorpus ergibt<br />

sich als relative Kenngröße auf Satz- und Korpusebene die Fehlerzahl pro Wort. Auf diese<br />

Weise erhält man eine sehr exakte quantitative Einschätzung der Übersetzungsqualität.<br />

Nachteilig ist, dass es trotz sehr guter Englischkenntnisse des Autors unvermeidbar ist,<br />

gelegentlich Fehler zu übersehen oder richtige Übersetzungen als falsch zu markieren,<br />

zumal Englisch nicht die Muttersprache des Autors ist. Es wird jedoch im Rahmen der<br />

Untersuchung stets nach Kräften versucht, die Anzahl solcher Fehler in Grenzen zu halten.<br />

Insbesondere werden Art und Anzahl <strong>von</strong> Bewertungsfehlern des Autors über die verschiedenen<br />

Textproben hinweg gleich bleiben, weil sämtliche Bewertungen <strong>von</strong> ihm selbst bei<br />

nahezu konstanten Sprachkenntnissen vorgenommen werden, so dass sich hieraus keine<br />

bedeutende Verfälschung des Ergebnisses ergibt. Daher wird diese quantitative Form der<br />

Bewertung gewählt.<br />

Darüber hinaus stellt sich die Frage, wann sich sagen lässt, dass eines der ausgewählten<br />

Textmerkmale maßgeblichen Einfluss auf die Übersetzungsqualität hat. Wesentlicher Anhaltspunkt<br />

hierfür ist die absolute Veränderung der Fehlerzahl, weil jeder Fehler weniger<br />

auch für weniger Nachbearbeitungsaufwand sorgt. Wann diese Änderung bedeutsam wird,<br />

lässt sich durch einen Signifikanztest (siehe Abschnitt 4.5) ermitteln. Dies sollte jedoch<br />

nicht das alleinige Kriterium für die Aufnahme eines Merkmals in den Index sein.<br />

4.4.1. Fehlersuche und Berechnung der Fehlerzahlen<br />

Bei der Kontrolle der übersetzten Sätze wird auf falsche Vokabeln, inkorrekte Wortstellung,<br />

falsche Formenbildung, fehlerhafte Erkennung <strong>von</strong> Eigennamen und verkehrte Zusammenhänge<br />

zwischen Satzteilen, kurz sämtliche Verstöße gegen Grammatik und Semantik<br />

geachtet. Jeder Fehler wird einfach gezählt, wobei es durchaus möglich ist, dass ein<br />

einzelnes Wort mehrere Fehler verursacht, etwa wenn es falsch übersetzt und zudem einem<br />

falschen Bezugswort zugeordnet wurde. Innerhalb der Übersetzung zusammenhängende<br />

Wortgruppen mit Fehlstellungen werden in der Regel als ein einziger Fehler gewertet. Vokabelübersetzungen<br />

werden als falsch gewertet, wenn die gewählte Übersetzung prinzipiell<br />

nicht möglich oder im vorliegenden Zusammenhang inkorrekt ist.<br />

Personennamen, zu denen es im historischen Kontext eine spezielle englische Übersetzung<br />

gibt, wie etwa Wilhelm I. → William I werden immer als Fehler gewertet, wenn sie<br />

nicht dementsprechend übersetzt wurden. Übersetzungen anderer Eigennamen werden als<br />

Fehler gewertet, wenn sie allgemein bekannt sind – Namen bedeutender Städte (Köln →<br />

Cologne) oder Organisationen (UNO → UN ) etwa – und nicht in ihr korrektes Pendant<br />

33


4. Vorbereitende Maßnahmen<br />

übersetzt wurden. Ebenso werden unbekannte, aber trotzdem (falsch) übersetzte Eigennamen<br />

als Fehler gewertet (zum Beispiel Münster → cathedral, wenn es um die westfälische<br />

Stadt geht). Dabei gilt, dass pro Übersetzung eines Eigennamens nur ein Fehler angerechnet<br />

wird. Seine Einordnung als Satzteil oder seine Stellung im übersetzten Satz kann aber<br />

weitere Fehler hervorrufen. Nicht übersetzt werden sollen alle anderen Personennamen<br />

sowie nicht allgemein bekannte Eigennamen.<br />

Kommasetzungen und Interpunktionen, die im Englischen wesentlich freier sind als im<br />

Deutschen, werden nur dann als Fehler gewertet, wenn sie das Verständnis des Satzes<br />

massiv behindern oder unmöglich machen, indem sie etwa falsche Bezüge erzeugen. Großund<br />

Kleinschreibung wird ebenfalls berücksichtigt, wobei großgeschriebene Wörter im<br />

Satz Fehler verursachen, solange es sich nicht um Eigennamen handelt, und ebenso kleingeschriebene,<br />

international bekannte Eigennamen. So ist etwa in der Deutschen Sprache<br />

Zweiter Weltkrieg ein Eigenname und ebenso im Englischen die Bezeichnungen World<br />

War II und Second World War; beide sind auf Englisch großzuschreiben.<br />

Zur Berechnung der Fehlerzahl pro Wort werden die absoluten Fehlerzahlen der beiden<br />

ausgesuchten MÜ-Programme mit dem Faktor 0, 5 gewichtet und addiert, so dass man den<br />

Durchschnittswert erhält, und dann durch die Anzahl aller Wörter im Korpus geteilt. Ein<br />

Beispiel: Bei insgesamt 1000 Wörtern und 100 Fehlern <strong>von</strong> Babel Fish und 150 Fehlern <strong>von</strong><br />

Personal Translator 2006 ergäbe sich beispielsweise eine Fehlerzahl pro Wort <strong>von</strong> 0, 125.<br />

Die absoluten Fehlerzahlen, die in den Tabellen für die einzelnen Textkorpora angegeben<br />

sind, enthalten jeweils die Summe aller Fehler der beiden Übersetzungsprogramme.<br />

4.4.2. Beispiele zur Fehleranalyse<br />

Die Fehleranalyse soll an zwei Beispielen verdeutlicht werden:<br />

• Textkorpus Verbklammern, erste Messreihe, Satz 3:<br />

– Deutsches Original:<br />

Am 5. Mai 1985 legte Kohl gemeinsam mit US-Präsident Ronald Reagan in<br />

Bitburg einen Kranz auf dem dortigen Soldatenfriedhof nieder.<br />

– Englische Übersetzung (Personal Translator 2006):<br />

Cabbage laid together with U.S. president Ronald Reagan into bit castle a<br />

wreath down on the military cemetery there on May 5th, 1985.<br />

– Fehleranalyse:<br />

∗ Kohl, obwohl eindeutig auf den ehemaligen deutschen Bundeskanzler bezogen,<br />

wird mit cabbage übersetzt.<br />

∗ U.S. president ist in dem hier vorliegenden Kontext großzuschreiben, weil<br />

eine konkrete Person damit bezeichnet ist.<br />

∗ Die Wortstellung laid ... down im Beispiel ist ungültig, weil derartige<br />

Klammerungen im Englischen nicht existieren.<br />

∗ Bitburg wird nicht als Eigenname erkannt, sondern wörtlich übersetzt nach<br />

bit castle.<br />

∗ Die Präposition into ist falsch, da hier eine Orts- und keine Richtungsangabe<br />

<strong>von</strong>nöten ist.<br />

34


4.5. Signifikanz der Untersuchungsergebnisse<br />

∗ Für den vorliegenden Satz werden also fünf Fehler notiert.<br />

• Textkorpus Satzlänge, erste Messreihe, Satz 1:<br />

– Deutsches Original:<br />

Das nordkoreanische Kernwaffenprogramm wird <strong>von</strong> der Regierung Nordkoreas<br />

energisch vorangetrieben.<br />

– Englische Übersetzung (Babel Fish):<br />

North Korea niche the nuclear weapon program is energetically advanced by<br />

the government of North Korea.<br />

∗ Das Adjektiv nordkoreanisch wurde fehlerhaft mit North Korea niche wiedergegeben.<br />

∗ Die Wortstellung North Korea niche the nuclear weapon program ist falsch,<br />

da der Artikel zwischen Adjektiv und Substantiv steht.<br />

∗ Eine korrekte Übersetzung <strong>von</strong> energisch wäre in diesem Kontext forcefully,<br />

aber nicht energetically gewesen.<br />

∗ Für den vorliegenden Satz werden also drei Fehler notiert.<br />

4.5. Signifikanz der Untersuchungsergebnisse<br />

Um zu gewährleisten, dass die Ergebnisse nicht zufällig zustande kommen, muss ihre<br />

statistische Signifikanz auf geeignete Weise sichergestellt werden (vgl. [Bor05]). Für jedes<br />

Textmerkmal wird dazu als Nullhypothese H 0 angenommen, dass es die Übersetzungsqualität<br />

verschlechtere oder wenigstens nicht verändere, wenn man es weglässt, also den Satz<br />

sinnwahrend umschreibt, so dass das betreffende Textmerkmal nicht mehr vorkommt.<br />

Die Gegenhypothese H 1 ist dementsprechend, dass die Übersetzungsqualität durch ein<br />

Weglassen dieses Textmerkmals verbessert wird.<br />

Für die Signifikanztests wird die Veränderung der Fehlerzahl vom originalen zum bearbeiteten<br />

Textkorpus betrachtet. Dazu werden die Beträge der Fehlerzahländerungen der<br />

einzelnen Sätze aufsummiert und diese Summe als Stichprobenumfang n genommen. Die<br />

Summe aller Fehlerzahlabnahmen ergibt die Anzahl k der Erfolge“ bei n Ziehungen“.<br />

” ”<br />

Dazu ein Beispiel: Angenommen, aus einer Stichprobe <strong>von</strong> fünf Sätzen weisen zwei keine<br />

Änderungen der Fehlerzahl auf. In einem Fall steigt die Fehlerzahl um zwei, bei einem<br />

sinkt sie um drei und bei einem um vier Fehler. Somit gilt n = 9 und k = 7.<br />

Ein Textmerkmal, dessen Entfernung die Übersetzungsqualität überhaupt nicht beeinflusst,<br />

wird ein Verhältnis <strong>von</strong> k = 0, 5 aufweisen.<br />

n<br />

Nota bene: Man könnte auch ein einfacheres Modell aufbauen, in dem n die Gesamtheit<br />

der Stichprobe (die Anzahl aller Sätze) ist und k die Anzahl der Sätze, deren Übersetzung<br />

sich verbessert. Dies würde aber bei gleichen Veränderungen der absoluten oder relativen<br />

Fehlerzahlen bei Entfernung eines Textmerkmals zu unterschiedlichen Ergebnissen des<br />

Tests führen. Angenommen, in einem Textkorpus verlieren alle 100 Sätze durch das Entfernen<br />

<strong>von</strong> Verbklammern einen Fehler, so würde das Ergebnis mit n = 100 und k = 100<br />

eine höchstsignifikante Verbesserung der Übersetzbarkeit ergeben. Verändern sich aber 75<br />

Sätze gar nicht, während die restlichen je vier Fehler verlieren, so wäre mit k = 25 keine<br />

signifikante Fehlerzahlabnahme zu konstatieren, obwohl die Fehlerabnahme dieselbe ist<br />

und sich die 25 Sätze kaum als Ausreißer einordnen lassen.<br />

35


4. Vorbereitende Maßnahmen<br />

Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der<br />

Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines<br />

einzelnen Textmerkmals <strong>von</strong>nöten, die den Stichprobenumfang weit übertrifft, um daraus<br />

eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht<br />

bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der<br />

Fehlerzahländerungen angenommen.<br />

Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge <strong>von</strong> Fehlerzahlabnahmen,<br />

weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität<br />

nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit <strong>von</strong> H 0 initial für<br />

jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung<br />

H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen <strong>von</strong> H 0 mindestens<br />

die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau,<br />

”<br />

so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall.<br />

Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des<br />

Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen<br />

befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen<br />

interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch<br />

( M<br />

)( N−M<br />

)<br />

k n−k<br />

P (X = k) = ( N<br />

n)<br />

(hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen<br />

und entsprechend<br />

∑k−1<br />

P (X < k) = P (X = i)<br />

i=0<br />

P (X ≥ k) = 1 − P (X < k)<br />

für minimal k Fehlerzahlabnahmen.<br />

Liegt dieser Wert unter dem Signifikanzniveau 5 <strong>von</strong> α = 0, 05, ist der Anteil der Fehlerzahlabnahmen<br />

an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6<br />

erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des<br />

betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen.<br />

Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das<br />

zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex.<br />

5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen,<br />

weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel<br />

genug ist.<br />

6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant.<br />

36


5. Untersuchung der Textmerkmale auf<br />

Fehlerrelevanz<br />

In diesem Kapitel des zweiten Teils der Arbeit werden die in Abschnitt 4 ausgewählten<br />

Textmerkmale daraufhin untersucht, ob sie tatsächlich die Übersetzung deutscher Texte<br />

ins Englische signifikant erschweren. Sie lassen sich in zwei Klassen einteilen:<br />

• Allgemeine Textmerkmale: Dies sind Merkmale, die sich auch für beliebige andere<br />

Sprachen untersuchen lassen, weil sie – eventuell mit wenigen Ausnahmen – in<br />

jeder bekannten Sprache der Welt auftreten. Hierzu zählen Satzlänge, Nebensätze,<br />

Mehrdeutigkeit, Seltenheit <strong>von</strong> Wörtern und elliptischer Schreibstil.<br />

• Sprachspezifische Textmerkmale: Als sprachspezifisch lassen sich Merkmale bezeichnen,<br />

die (fast) ausschließlich in der deutschen Sprache oder der germanischen Sprachfamilie<br />

auftreten oder für sie prägend sind. Dazu gehören Verb- und Nominalklammern,<br />

Nominalkomposita sowie Inversion der Wortstellung.<br />

Anmerkung zum Umgang mit den Textkorpora: Nachdem alle Textkorpora erstellt<br />

und bewertet worden waren, erfolgte mit einigem zeitlichen Abstand eine zweite Kontrolle<br />

aller Übersetzungen. Dadurch sollten Fehler des Autors, die im ersten Durchlauf<br />

unbemerkt geblieben waren, entdeckt werden. Die Änderungen der Fehlerzahlen, die sich<br />

daraus ergaben und in den folgenden Untersuchungsberichten berücksichtigt sind, waren<br />

eher gering und lagen bei etwa 20 bis 30 Fehlern pro Korpus bei zumeist insgesamt rund<br />

750 bis 950 Fehlern, wobei jedoch nie eine bedeutende Änderung der Ergebnisse eintrat.<br />

Es stellte sich dabei auch heraus, dass sich der Bewertungsstil im Laufe der einzelnen<br />

Textkorpora leicht verändert hatte, weil etwa bestimmte Übersetzungsfehler anfangs anders<br />

bestraft wurden als später. Die Nachkontrolle der Textkorpora erwies sich also auch<br />

als nützlich, um solche Inkonsistenzen auszuräumen.<br />

5.1. Allgemeine Textmerkmale<br />

In den nächsten fünf Abschnitten werden Merkmale auf ihre Auswirkungen auf die Übersetzungsqualität<br />

hin untersucht, die in (fast) allen Sprachen auftreten. Dies sind Satzlänge,<br />

Nebensätze, Mehrdeutigkeit, Seltenheit <strong>von</strong> Wörtern und elliptischer Schreibstil.<br />

5.1.1. Satzlänge<br />

Die Länge eines Satzes wird oftmals als ein zentrales Kriterium für seine Übersetzbarkeit<br />

bezeichnet und auch im Logos Translatability Index [Gda94] und im Translatability Checker<br />

[JU01], die in Abschnitt 3.3.1 vorgestellt werden, benutzt. Auch wenn diese Indizes<br />

schon einige Jahre alt sind, steht nach wie vor zu vermuten, dass zunehmende Satzlänge<br />

mit mehr Fehlern einhergeht, weil sie die Komplexität des Satzes erhöht.<br />

37


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Vorgehensweise<br />

Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen<br />

der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt:<br />

• einer mit recht kurzen Sätzen (maximal 15 Wörter),<br />

• ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und<br />

• ein letzter mit sehr langen Sätzen (minimal 31 Wörter).<br />

Textquelle war wie üblich die deutsprachige Version <strong>von</strong> Wikipedia.<br />

Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht<br />

wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus<br />

bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung<br />

der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun<br />

hatten und die Fehlerzahlen daher nicht vergleichbar waren.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für<br />

die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche<br />

Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit<br />

den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden<br />

insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer<br />

Quote <strong>von</strong> 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30<br />

Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208<br />

Wörtern. Dies kommt einer Steigerung <strong>von</strong> 36, 6% gegenüber der Fehlerrate im ersten<br />

Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier<br />

entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt<br />

<strong>von</strong> 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung <strong>von</strong> 13, 6 Prozent<br />

gegenüber den mittellangen und <strong>von</strong> 55, 2 Prozent gegenüber den kurzen Sätzen.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 1<br />

Kurz (≤ 15 Wörter) 1002 251 0,1252<br />

Mittel (16 - 30 Wörter) 2208 755 0,1710<br />

Lang(> 30 Wörter) 3865 1502 0,1943<br />

Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit<br />

Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen,<br />

wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge<br />

keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen<br />

pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten<br />

Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild:<br />

• Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während<br />

die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt.<br />

1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

38


5.1. Allgemeine Textmerkmale<br />

• Vom ersten zum dritten Textkorpus nimmt die Wortanzahl um 286% zu, während<br />

die absolute Fehlerzahl infolge der Übersetzungen um 498% steigt.<br />

• Vom zweiten zum dritten Textkorpus nimmt die Wortanzahl um 75% zu, während<br />

die absolute Fehlerzahl infolge der Übersetzungen um 99% steigt.<br />

Der Schluss liegt also nahe, dass eine steigende Satzlänge die Fehlerhäufigkeit der Übersetzung<br />

stark erhöht und somit die Übersetzbarkeit verringert.<br />

5.1.2. Nebensätze (Relativsätze)<br />

Nebensätze sind ein wichtiger Bestandteil jedes längeren Textes und tragen erheblich zu<br />

dessen semantischer Gliederung bei. Durch ihr Auftreten erhöht sich die Komplexität<br />

der Satzstruktur. Es liegt daher nahe, dass Nebensätze zu einer Erhöhung der Fehlerrate<br />

beitragen. Auch der Translatability Checker [JU01] verwendet sie als Indiz für schlechtere<br />

Übersetzbarkeit<br />

Vorgehensweise<br />

Um zu überprüfen, wie es sich mit Nebensätzen tatsächlich verhält, wurde zunächst ein<br />

Textkorpus mit 100 Sätzen aus der deutschsprachigen Wikipedia erstellt, die allesamt<br />

mindestens einen Relativsatz aufwiesen, und ein zweiter, in dem die Relativsätze aus<br />

diesen Sätzen entfernt wurden. Dass Relativsätze als Repräsentanten für Nebensätze im<br />

Allgemeinen ausgewählt wurden, hat im wesentlichen einen Grund:<br />

Relativsätze sind die wohl am schwersten zu übersetzende Art <strong>von</strong> Nebensätzen in der<br />

deutschen Sprache. Sie haben durch das einleitende Relativpronomen mindestens einen<br />

Bezug zu einem Satzteil des übergeordneten Satzes, der bei der Übersetzung beachtet werden<br />

muss. Bei einem Temporalsatz reicht es beispielsweise, die einleitende Konjunktion,<br />

etwa nachdem, zu erkennen und dann mit einem der englischen Äquivalente, etwa after,<br />

wiederzugeben. Bei einem Relativsatz dagegen muss, auch wenn das englische System <strong>von</strong><br />

Relativpronomen gegenüber dem deutschen stark vereinfacht ist, beachtet werden, in welchem<br />

Kasus das deutsche Relativpronomen steht (der Abgleich <strong>von</strong> Genus und Numerus<br />

entfällt im Englischen) und ob es belebt oder unbelebt ist. So können nur Relativsätze im<br />

Englischen mit who beginnen, wenn das Bezugswort belebt ist, ansonsten muss entweder<br />

which oder that eingesetzt werden. Und nur, falls das deutsche Relativpronomen im Dativ<br />

oder Akkusativ steht, kann bei einem belebten Bezugswort whom verwendet werden. Nur<br />

bei Genitiven darf hingegen – ob belebt oder unbelebt – whose benutzt werden.<br />

Wenn also Nebensätze tatsächlich einen negativen Effekt auf die Übersetzungsqualität<br />

haben, wird dieser bei Relativsätzen voraussichtlich am stärksten ausfallen. Umgekehrt<br />

ist bei einer deutlichen Beeinflussung der Fehlerzahl durch Relativsätze auch damit zu<br />

rechnen, dass andere Nebensätze Einfluss haben, weil auch sie über einige, die Übersetzung<br />

erschwerende Merkmale <strong>von</strong> Relativsätzen verfügen, wie etwa die veränderte Wortstellung<br />

im Deutschen mit dem Prädikat am Ende.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Das Resultat der Fehleranalyse (siehe Tabelle 5.2) zeigt deutlich, dass<br />

Relativsätze geringe, aber spürbare Auswirkungen auf die Fehlerhäufigkeit bei der Über-<br />

39


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

setzung eines Textes haben. So entstanden bei der Übersetzung der Sätze aus der Messreihe<br />

mit Relativsätzen insgesamt 815 Fehler, während es bei dem Korpus ohne Relativsätze<br />

794 waren. Bei 2212 bzw. 2184 Wörtern entspricht das einer Fehlerhäufigkeit <strong>von</strong> 0, 1786<br />

Fehlern pro Wort mit Relativsätzen bzw. 0, 1818 Fehlern pro Wort ohne Relativsätze.<br />

Die durch das Ersetzen der Relativsätze entstandene Abnahme der absoluten Fehlerzahl<br />

beträgt also nur etwa 2, 58 Prozent; das ist wesentlich weniger als erwartet, aber dennoch<br />

deutlich. Die Relativsätze spielen demnach nur eine vergleichsweise geringe Rolle für die<br />

Übersetzbarkeit eines deutschen Textes in die englische Sprache. Sie können also nur mit<br />

einem entsprechend kleinen Gewicht in den Index einfließen.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 2<br />

Mit Relativsätzen 2212 815 0,1786<br />

Ohne Relativsätze 2184 794 0,1818<br />

Tabelle 5.2.: Relativsätze und Fehlerhäufigkeit<br />

Aus dieser erstaunlich geringen Verbesserung der Übersetzbarkeit durch das Weglassen<br />

<strong>von</strong> Relativsätzen darf allerdings nicht automatisch geschlossen werden, dass Relativsätze<br />

oder Nebensätze im Allgemeinen generell eher unbedeutende Textmerkmale seien. Hierfür<br />

sind für jede Sprache eigene Untersuchungen nötig, zumal es in anderen Sprachen andere<br />

Rahmenbedingungen für die Behandlung solcher Sätze gibt. Und vieles spricht dafür, dass<br />

ihr Einfluss auf die Übersetzbarkeit in anderen Sprachen wesentlich größer ist.<br />

Abbildung 5.1.: Absolute Veränderungen der Fehleranzahl ohne Relativsätze für die einzelnen<br />

Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />

2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

So sind Nebensätze etwa im Englischen und Spanischen vielfach nicht nötigerweise durch<br />

Kommata eingegrenzt. In einigen Sprachen, so im Englischen und auch im Dänischen,<br />

dürfen unter bestimmten Bedingungen sogar Relativpronomen weggelassen werden, was<br />

2 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

40


5.1. Allgemeine Textmerkmale<br />

die Erkennung eines Relativsatzes zweifelsohne erschwert. Als Beispiel für beides diene<br />

der Satz Das Buch, das Peter kaufen möchte, kostet 10 Euro. mit seiner spanischen Übersetzung<br />

El libro que Peter quiere comprar cuesta 10 euros. und dem englischen Äquivalent<br />

The book Peter wants to buy costs 10 euros. Im Deutschen ist der Relativsatz durch Kommata<br />

und Pronomen abgegrenzt. Im Spanischen fehlen bereits die Kommata, und im<br />

Englischen fehlt auch noch das Pronomen.<br />

Veränderungen der Fehlerzahl Abbildung 5.1 zeigt, wie die Veränderungen der Fehlerzahlen<br />

bei der Gegenüberstellung der Übersetzungen der Originalsätze und der <strong>von</strong><br />

Relativsätzen befreiten Sätze für die beiden MÜ-Programme und insgesamt verteilt sind.<br />

Die durchschnittliche Veränderung während der Untersuchung betrug −0, 11 Fehler, das<br />

heißt, etwa jeder zehnte Satz wird im Durchschnitt durch eine Bearbeitung besser übersetzbar.<br />

Im Vergleich zeigten 87 Übersetzungen überhaupt keine Veränderungen, 57-mal verschlechterten<br />

sich die Übersetzungen, da<strong>von</strong> 41-mal um einen Fehler, 13-mal um zwei,<br />

zweimal um drei und sogar einmal um gleich vier Fehler. Nur 56-mal verbesserte sich<br />

das Ergebnis, 31-mal gab es einen Fehler weniger, 15-mal zwei, sechsmal drei, immerhin<br />

zweimal vier, einmal fünf und sogar einmal sechs Fehler weniger.<br />

Untersuchung anderer Arten <strong>von</strong> Nebensätzen Um zu überprüfen, ob es sich mit<br />

anderen Nebensätzen auch anders als ursprünglich erwartet verhält, wurden die anderen<br />

Arten <strong>von</strong> Nebensätzen zusätzlich auf ihre Auswirkungen auf die Fehlerzahl untersucht.<br />

Der eher geringe Einfluss der Relativsätze auf die Übersetzbarkeit war so überraschend,<br />

dass Klarheit <strong>von</strong>nöten war, ob dies nur eine Ausnahme darstellt oder ob andere Arten<br />

<strong>von</strong> Nebensätzen vielleicht sogar noch weniger Einfluss auf die Übersetzbarkeit haben.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 3<br />

Mit Nebensätzen 859 320 0,1863<br />

Mit weniger Nebensätzen 839 320 0,1907<br />

Tabelle 5.3.: Andere Nebensätze und Fehlerhäufigkeit<br />

Dazu wurden wieder zwei Textkorpora gebildet, die allerdings diesmal kleiner ausfielen<br />

und jeweils 40 Sätze enthielten, weil aufgrund der zuvor begründeten Hypothese, dass<br />

Nebensätze im Allgemeinen sich ähnlich verhalten wie Relativsätze im Speziellen, trotz<br />

des unerwarteten Ergebnisses für Relativsätze kein in großem Maßstab anderes Resultat<br />

für andere Arten <strong>von</strong> Nebensätzen zu erwarten war. Im ersten Korpus besaßen alle Sätze<br />

mindestens einen Nebensatz, während sie im zweiten Korpus <strong>von</strong> mindestens einem Nebensatz<br />

befreit wurden. In vielen Fällen konnten auch sämtliche Nebensätze vermieden<br />

werden, ohne den Sinn des Satzes zu enstellen. Bei dieser Analyse der Übersetzungen<br />

fiel das Ergebnis allerdings genauso unerwartet wie bei den Relativsätzen aus. Die zentrale<br />

Kennziffer, die absolute Fehlerzahl, änderte sich nämlich überhaupt nicht; vielmehr<br />

wiesen beide Textkorpora 320 Fehler auf, die Veränderung ist somit 0, wie man Tabelle<br />

5.3 entnehmen kann. Lediglich die Fehlerzahl pro Wort nahm marginal zu, weil sich die<br />

Wortanzahl im bearbeiteten Textkorpus leicht verringert hatte.<br />

3 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

41


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Die Verteilung der Änderung der Fehlerzahl bei Entfernen <strong>von</strong> Nebensätzen sieht im Vergleich<br />

der Übersetzungen <strong>von</strong> Original und Bearbeitung sehr symmetrisch aus. Insgesamt<br />

wiesen 35 Übersetzungen nach der Bearbeitung der Originale keine Änderung der Fehlerzahl<br />

auf. Weitere 21 zeigten eine Zunahme, die restlichen 24 eine Abnahme der Fehlerzahl.<br />

Es scheint also tatsächlich so zu sein, dass Relativsätze schwieriger zu übersetzen sind als<br />

andere Nebensätze und dass diese anderen Nebensätze für die Qualität der Übersetzung<br />

eines deutschen Textes ins Englische keine Bedeutung haben.<br />

Abbildung 5.2.: Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen für<br />

die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />

2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

Erklärungsversuche Um die Relativsätze zu eliminieren, wurden in etlichen Fällen aus<br />

dem ursprünglichen Satz zwei Sätze gemacht, wobei einer dieser Sätze dem vormaligen<br />

Relativsatz entsprach. Dies erwies sich häufig als die sinnvollste Art der Umgestaltung, um<br />

die Aussage der Texte nicht zu verändern. Auffällig bei beiden zur Übersetzung benutzten<br />

Programmen war die oftmals unzureichende Erkennung <strong>von</strong> Referenzen zwischen Sätzen.<br />

Die folgenden Beispiele aus dem zweiten Textkorpus sollen dies demonstrieren. Die falsch<br />

übersetzten Referenzen sind fett markiert.<br />

• Satz 34:<br />

– Regentin wurde jedoch zunächst Iwans Schwester Sophia. Sie stützte ihre<br />

Macht wesentlich auf die Strelitzen.<br />

–<br />

• Satz 13:<br />

Übersetzung mit Babel Fish: Regentin became however first Iwans sister Sophia.<br />

It supported its power substantially by the Strelitzen.<br />

– Eine Sonderstellung nehmen die gelben Post-TGV ein. Sie sind ansonsten<br />

technisch mit den TGV PSE identisch.<br />

42


–<br />

5.1. Allgemeine Textmerkmale<br />

Übersetzung mit Personal Translator 2006: The yellow post TGV take a<br />

special position. You otherwise are technically identical with the TGV PSEs.<br />

Diese des öfteren wiederkehrenden Übersetzungsfehler lassen darauf schließen, dass beide<br />

Programme in aller Regel nur satzweise übersetzen und das passende Relativpronomen<br />

mehr oder weniger zufällig zuordnen, zumal es in beiden Beispielsätzen keine Möglichkeit<br />

gibt, die Referenz auf eine Sache (it) bzw. auf eine direkt angesprochene Person (you) zu<br />

beziehen.<br />

Für die anderen Arten <strong>von</strong> Nebensätzen lässt sich nur vermuten, dass die sehr strikte<br />

Kommasetzung im Deutschen, die dafür sorgt, dass Haupt- und Nebensätze explizit<br />

<strong>von</strong>einander abgetrennt werden, ausreicht, um durch die Satzstruktur verursachte Fehler<br />

weitgehend auszuschließen.<br />

5.1.3. Mehrdeutigkeit<br />

Wie bereits in Abschnitt 2.4.1 dargelegt, ist Mehrdeutigkeit eines der Hauptprobleme der<br />

derzeitigen Forschung auf dem Gebiet der MÜ-<strong>Systeme</strong>. Dementsprechend ist anzunehmen,<br />

dass Mehrdeutigkeiten sich deutlich negativ in der Übersetzungsqualität bemerkbar<br />

machen.<br />

Vorgehensweise<br />

Die Untersuchung konzentrierte sich auf lexikalische Mehrdeutigkeit, weil diese bei der<br />

Übersetzung <strong>von</strong> der deutschen in die englische Sprache wesentlich stärker zum Tragen<br />

kommt als strukturelle Mehrdeutigkeit, die bei der Übersetzung <strong>von</strong> Deutsch ins Englische<br />

in vielen Fällen kein Problem darstellt, weil die Satzstrukturen sehr ähnlich sind. Darüber<br />

hinaus ist es vielfach nur sehr aufwändig möglich, strukturelle Ambiguitäten zu entfernen,<br />

ohne den Satz allzu sehr zu verändern. So ließe sich in dem aus Abschnitt 2.4.1 bekannten<br />

strukturell mehrdeutigen Satz Die Spaziergänger beobachteten die Sternschnuppe mit<br />

ihrem Fernglas. die strukturell mehrdeutige Fügung mit ihrem Fernglas an eine andere<br />

Stelle des Satzes verschieben. Worauf sich das Possessivpronomen ihrem bezieht – auf die<br />

Spaziergänger oder die Sternschnuppe –, kann aber nicht eindeutig geklärt werden. Der<br />

lexikalisch mehrdeutige Satz 75 des unbearbeiteten Textkorpus (Dadurch gibt es mittlerweile<br />

eine große Auswahl an Sekten aller Qualitäten und Preisklassen.) hingegen kann<br />

eindeutig gemacht werden, indem man das mehrdeutige Verb geben durch existieren und<br />

das im Dativ Plural mehrdeutige Substantiv Sekt durch Schaumwein ersetzt.<br />

Insgesamt wurden aus Wikipedia 100 Sätze ausgewählt, die jeder mindestens ein Wort<br />

enthielten, das mehrere englische Übersetzungen mit unterschiedlichen Bedeutungen besitzt.<br />

Im zweiten Textkorpus wurden diese Wörter dann soweit möglich durch eindeutig<br />

übersetzbare Begriffe ersetzt. Nicht behandelt wurden dabei Präpositionen mit zum Teil<br />

sehr vielen Bedeutungen wie bei oder über, weil es kaum eine Möglichkeit gibt, sie durch<br />

synonyme, eindeutige Wörter oder Formulierungen zu ersetzen.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Wie Tabelle 5.4 zeigt, nahm bei etwa gleicher Wortzahl beider Korpora<br />

(2089 und 2099 Wörter) die Fehleranzahl in den Übersetzungen sowohl absolut als auch<br />

43


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

relativ zur Länge des Gesamttextes deutlich ab. Statt 879 Fehler wie im ersten übersetzen<br />

Textkorpus traten im <strong>von</strong> Mehrdeutigkeiten weitgehend befreiten zweiten Textkorpus nur<br />

noch 776 Fehler auf, also 103 weniger. Die Fehlerzahl pro Wort sank <strong>von</strong> 0, 2104 auf 0, 1848.<br />

Insgesamt scheint es sich also durchaus zu lohnen, beim Verfassen eines zu übersetzenden<br />

Textes auf mehrdeutige Worte soweit möglich zu verzichten.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 4<br />

Mit vielen Mehrdeutigkeiten 2089 879 0,2104<br />

Mit weniger Mehrdeutigkeiten 2099 776 0,1848<br />

Tabelle 5.4.: Mehrdeutigkeiten und Fehlerhäufigkeit<br />

Veränderungen der Fehlerzahl Abbildung 5.3 stellt die Verteilung der Veränderung<br />

der Fehlerzahlen bei der Gegenüberstellung der Übersetzungen der Originalsätze und<br />

der wesentlich weniger Mehrdeutigkeiten enthaltenden bearbeiteten Sätze für die beiden<br />

MÜ-Programme sowie im Gesamten dar. Durchschnittlich verlor ein Satz durch seine<br />

Bearbeitung 0, 52 Fehler.<br />

Ein Großteil der 200 Übersetzungen der bearbeiteten Sätze, insgesamt 92, zeigte keinerlei<br />

Verbesserung oder Verschlechterung. Nur 23 Übersetzungen wiesen mehr Fehler auf als<br />

vorher, nämlich 16-mal einen Fehler mehr, sechsmal zwei Fehler mehr und einmal sogar<br />

vier. Demgegenüber standen 85 Übersetzungen, die weniger Fehler lieferten, wo<strong>von</strong> 52<br />

einen und 25 zwei Fehler weniger aufwiesen. Eine starke Abnahme der Fehlerzahl zeigte<br />

sich bei je drei Übersetzungen mit drei und vier Fehlern weniger und bei zweien mit sogar<br />

sechs Fehlern weniger.<br />

Abbildung 5.3.: Absolute Veränderungen der Fehleranzahl bei Reduktion <strong>von</strong> Mehrdeutigkeiten<br />

für die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal<br />

Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

4 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

44


5.1. Allgemeine Textmerkmale<br />

5.1.4. Seltenheit <strong>von</strong> Wörtern<br />

Weil aufgrund der prinzipiell unbeschränkten Wortanzahl der deutschen Sprache nicht<br />

alle Wörter in den Lexika der Übersetzungsprogramme vorhanden sein können und eine<br />

Beschränkung auf die wichtigsten notwendig ist, ist zu vermuten, dass sehr seltene und<br />

somit wahrscheinlich in den Lexika der MÜ-<strong>Systeme</strong> fehlende Wörter die Übersetzungsqualität<br />

mindern, weil sie nicht übersetzt werden können oder Übersetzungen zufällig<br />

gewählt werden müssen.<br />

Es bot sich an, die Untersuchung der Seltenheit <strong>von</strong> Wörtern mit der Untersuchung der<br />

Auswirkungen <strong>von</strong> Komposita zu verbinden, weil komplexe Komposita in der Regel auch<br />

sehr selten sind. Überprüft man also die Auswirkungen sehr langer Komposita, ist dies<br />

zugleich auch eine Überprüfung seltener Wörter. Diese zusammengelegte Untersuchung<br />

wird in Abschnitt 5.2.3 dargelegt.<br />

Abbildung 5.4.: Zusammenhang zwischen Wortlänge und Worthäufigkeit<br />

Der Zusammenhang zwischen Wortlänge und Seltenheit wird in den Abbildungen 5.4 und<br />

5.5 dargestellt. Grundlage für diese Grafiken ist ein Textkorpus der Universität Leipzig<br />

mit insgesamt drei Millionen deutschen Sätzen 5 . Der verwendete und die anderen Korpora<br />

der Leipziger Universität im so genannten Projekt Deutscher Wortschatz führen für jedes<br />

Wort über seine Häufigkeit Buch, so dass über einfache Datenbankabfragen Statistiken<br />

zum Zusammenhang <strong>von</strong> Worthäufigkeit und Wortlänge erstellt werden können. Die rote<br />

Linie in der ersten Grafik zeigt, wie oft ein Wort einer bestimmten Länge durchschnittlich<br />

im gesamten Korpus mit drei Millionen Sätzen vorkommt. Die zweite Abbildung zeigt<br />

vergrößert dieselbe Linie, allerdings nur für Wortlängen <strong>von</strong> 30 bis 50 Zeichen. Da ausschließlich<br />

Komposita mit einer Mindestlänge <strong>von</strong> 30 Zeichen betrachtet wurden und diese<br />

nie häufiger als durchschnittlich zweimal in sämtlichen Sätzen auftreten, kann hier wohl<br />

<strong>von</strong> Seltenheit gesprochen werden.<br />

5 Projekt Deutscher Wortschatz, online erreichbar unter http://corpora.informatik.uni-leipzig.<br />

de, zuletzt besucht am 5. April 2007<br />

45


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

5.1.5. Elliptischer Schreibstil<br />

Was sind Ellipsen?<br />

Abbildung 5.5.: Häufigkeit sehr langer Wörter<br />

Als Ellipsen bezeichnet man in der Sprachwissenschaft Auslassungen <strong>von</strong> Worten oder<br />

ganzen Satzteilen in Sätzen. Sie können in verschiedensten Formen auftreten, wie die<br />

folgenden Beispiele zeigen:<br />

• Und dann? statt Und was geschah dann? → fehlendes Prädikat<br />

• Ich hätte gerne eine Krakauer! statt Ich hätte gerne eine Krakauer Bratwurst! →<br />

verkürzter Begriff<br />

• Flussarme fließen in südliche und westliche Richtung. statt Flussarme fließen in<br />

südliche Richtung und in westliche Richtung. → ausgelassene Wörter<br />

• Gas- und Ölförderung sind wichtige Industrien. statt Gasförderung und Ölförderung<br />

sind wichtige Industrien. → abgetrenntes Kompositionsglied, Bindestrich-Ellipse“<br />

”<br />

• Wenn München gewinnt oder Bremen verliert, ist Schalke Meister. statt Wenn<br />

München gewinnt oder wenn Bremen verliert, dann ist Schalke Meister. → nicht<br />

wiederholte Konjunktionen oder Präpositionen<br />

• In dieser Stadt gibt es u. a. eine Universität. statt In dieser Statt gibt es unter<br />

anderem eine Universität. → Abkürzung<br />

Bis auf die erste Variante kommen solche Ellipsen alle auch in geschriebenen Texten<br />

sehr häufig vor. Übersetzungsprogramme werden also vor die Schwierigkeit gestellt, die<br />

Auslassungen korrekt zu erkennen und in der englischen Übersetzung angemessen wiederzugeben.<br />

Da Ellipsen die Komplexität der Satzstruktur erhöhen, ist mit einem negativen<br />

Einfluss auf die Übersetzungsleistungen zu rechnen, wenn sie in einem Satz auftreten;<br />

nicht zuletzt deshalb grenzen Sprachen wie ACE und KCE derartigen Schreibstil strikt<br />

ein oder untersagen ihn (siehe Abschnitt 3.1).<br />

46


Vorgehensweise<br />

5.1. Allgemeine Textmerkmale<br />

Wieder wurden insgesamt 100 beliebige Sätze aus Wikipedia herangezogen, die eine oder<br />

mehrere Ellipsen aufwiesen, und mit Babel Fish und Personal Translator 2006 einzeln<br />

ins Englische übersetzt. Anschließend wurden die elliptischen Formulierungen so weit<br />

wie möglich entfernt, indem die fehlenden Wörter ergänzt wurden, und die neuen Sätze<br />

ebenfalls übersetzt.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Bei der Untersuchung stellte sich heraus, dass Ellipsen keinen oder nur<br />

sehr geringen Einfluss auf die Übersetzungsqualität haben (siehe Tabelle 5.5). Zwar ergibt<br />

sich eine Abnahme der durchschnittlichen Fehlerzahl pro Wort <strong>von</strong> 0, 2145 mit Ellipsen<br />

auf 0, 2001 ohne bzw. mit wesentlich weniger Ellipsen, jedoch muss die Veränderung dieser<br />

zentralen Kennzahl vor dem Hintergrund der durch die Ergänzungen <strong>von</strong> 2086 auf<br />

2224 gestiegenen Wortanzahl betrachtet werden. So sank die absolute Fehlerzahl nur um<br />

insgesamt 5, was bei 895 Fehlern im Korpus mit Ellipsen und 890 im bearbeiteten Korpus<br />

lediglich einer Abnahme <strong>von</strong> nur 0, 56 Prozent entspricht.<br />

Insgesamt spricht das Ergebnis also nicht dafür, sondern klar dagegen, dass sich durch<br />

den Verzicht auf Ellipsen im Allgemeinen bessere Resultate erzielen lassen, denn die beobachtete<br />

Größenordnung der Fehlerabnahme ist nichts, worauf man aufbauen sollte.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 6<br />

Mit Ellipsen 2086 895 0,2145<br />

Ohne Ellipsen 2224 890 0,2001<br />

Tabelle 5.5.: Ellipsen und Fehlerhäufigkeit<br />

Veränderungen der Fehlerzahl In Abbildung 5.6 ist die Veränderung der Fehlerzahl<br />

bei der Befreiung des Textkorpus <strong>von</strong> Ellipsen sowohl für Babel Fish als auch Personal<br />

Translator und insgesamt dargestellt. Pro Satz erbrachte die Bereinigung <strong>von</strong> Ellipsen also<br />

durchschnittlich 0, 03 Fehler weniger, was praktisch gesehen mit 0 gleichgesetzt werden<br />

kann.<br />

Bei insgesamt 75 der 200 Übersetzungen des bearbeiteten Textkorpus zeigte sich keinerlei<br />

Veränderung der Fehlerzahl, 48-mal nahm die Fehlerzahl um einen Fehler ab, elfmal um<br />

gleich zwei Fehler. Die stärksten Abnahmen sind sechsmal drei Fehler und zweimal vier<br />

Fehler. In Gegenrichtung zeigten 40 Sätze eine Zunahme um einen Fehler und neun eine<br />

Zunahme um zwei Fehler. Drei Sätze enthielten drei Fehler mehr, sechs Sätze sogar vier.<br />

Wie man aber sieht, waren die Veränderungen in der Regel eher gering.<br />

Sonderfall abgetrennte Kompositionsglieder Eine für die deutsche Sprache typische<br />

Form der Ellipse ist der Einsatz eines Bindestrichs, um Kompositionsglieder einzusparen,<br />

so etwa gleich doppelt in Zubehöran- und -verkauf (statt Zubehörankauf und Zubehörverkauf<br />

). Nach der allgemeinen Untersuchung auf Veränderungen der Fehlerzahl wurden die<br />

Textkorpora speziell auf die Veränderungen durch das Weglassen derartiger Ellipsen hin<br />

6 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

47


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Abbildung 5.6.: Absolute Veränderungen der Fehleranzahl beim Ausfüllen <strong>von</strong> Ellipsen für<br />

die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />

2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

überprüft, weil sie als besonders schwierig zu handhaben einzuschätzen war. Dabei wurde<br />

gezählt, wie viele Fehler direkt auf diese Form <strong>von</strong> Auslassungen zurückzuführen waren,<br />

wobei vorwiegend falsch gewählte Wörter berücksichtigt wurden, weil andere Fehler wie<br />

beispielsweise eine Verfälschung der Wortstellung im übersetzen Satz auch auf andere<br />

Änderungen am Ausgangssatz zurückzuführen sein könnten.<br />

(Fehler verteilt auf 61 Sätze) Fehler vorher Fehler nachher Veränderung<br />

Babel Fish 46 34 −12 ≡ −26, 09%<br />

Personal Translator 2006 39 28 −11 ≡ −28, 21%<br />

Gesamt 85 62 −23 ≡ −27, 06%<br />

Tabelle 5.6.: Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder<br />

Insgesamt traten in 61 der 100 Ausgangssätze derartige Ellipsen auf, die insgesamt 85<br />

Übersetzungsfehler verursachten (siehe Tabelle 5.6). Nach der Bearbeitung wurden nur<br />

noch 62 Fehler beobachtet, was einer Abnahme um 23 Fehler oder um 27, 06 Prozent<br />

entspricht.<br />

Allerdings ist die Auswirkung des Weglassens <strong>von</strong> abgetrennten Kompositionsgliedern<br />

wesentlich geringer, wenn man berücksichtigt, dass die 61 Sätze, in denen diese Ellipsen<br />

vorkamen, im ersten, unbearbeiteten Korpus insgesamt 532 Fehler aufwiesen. Dennoch<br />

verbleibt eine spürbare Reduktion der Gesamtfehlerzahl um 23 · 100 = 4, 32%. Es scheint<br />

532<br />

also sehr sinnvoll zu sein, auf diese spezielle Form der Ellipsen zu verzichten, um Fehler<br />

zu vermeiden.<br />

Erklärungsversuche Insgesamt sind die Fehlerzahlen pro Wort in beiden übersetzten<br />

Textkorpora relativ hoch. Und in der Tat werden durch Ellipsen erwartungsgemäß zahlreiche<br />

Fehler verursacht (allein 85 durch abgetrennte Kompositionsglieder, wie bereits<br />

48


5.2. Sprachspezifische Textmerkmale<br />

erläutert). Satz 20 des des ersten Korpus lautet beispielsweise:<br />

• Dies kann über Fest-, Mindest- oder Höchsttarife (price caps) erreicht werden, die<br />

absolute Grenzen setzen.<br />

Personal Translator 2006 übersetzt ihn folgendermaßen:<br />

• This can be reached about celebration, least or maximum rates (Price Cap) which<br />

put absolute limits.<br />

Man sieht, dass hier die Ellipsen bei Fest- und Mindest- fälschlicherweise mit celebration<br />

und least wiedergegeben werden. Aber auch über ist falsch, weil es in diesem Kontext auf<br />

die Frage nach dem Mittel antwortet und mit by oder through zu übersetzen wäre. Der<br />

bearbeitete Satz lautet nun:<br />

• Dies kann über Festtarife, über Mindesttarife oder über Höchsttarife (price caps)<br />

erreicht werden, die absolute Grenzen setzen.<br />

Er wird <strong>von</strong> Personal Translator 2006 wie folgt übersetzt:<br />

• This which absolute limits put can be reached about flat rates, about minimum rates<br />

or about maximum rates (Price Cap).<br />

Abgesehen <strong>von</strong> der nun völlig konfusen Wortstellung der Übersetzung, fällt auf, dass jetzt<br />

zwar die zuvor abgekürzten Begriffe richtig übersetzt wurden, aber nun insgesamt dreimal<br />

über falsch übersetzt wurde, so dass dafür drei Fehler angerechnet werden. Derartiges<br />

Verhalten kommt auch in zahlreichen anderen Sätzen des zweiten Korpus vor und sorgt<br />

dafür, dass auf solche und ähnliche Weise die Vorteile, die durch Auffüllen <strong>von</strong> Ellipsen<br />

gewonnen werden, gleich wieder verlorengehen.<br />

5.2. Sprachspezifische Textmerkmale<br />

In den folgenden vier Abschnitten werden die Auswirkungen des Auftretens einiger Merkmale,<br />

die typisch für die deutsche Sprache sind und häufig auftreten, mit Hinblick auf die<br />

Fehlerhäufigkeit untersucht. Dies sind im Einzelnen Verbklammern, Nominalklammern,<br />

Nominalkomposita und Inversionen der Wortstellung.<br />

5.2.1. Verbklammern<br />

Was sind Verbklammern?<br />

Für die deutsche Sprache typisch sind so genannte Verbklammern 7 , zweiteilige Prädikate<br />

aus einem finiten Verb und einer infiniten Ergänzung, die über große Teile eines Satzes<br />

verteilt sind. Sie treten im wesentlichen in drei Varianten auf:<br />

1. Finites Hilfsverb + Partizip Perfekt oder Infinitiv<br />

2. Finites Modalverb + Infitiv<br />

7 Auch als Verbalklammern oder Satzklammern bezeichnet; der Begriff Satzklammer erscheint allerdings<br />

zu ungenau, weil eine lange Nominalklammer ebenfalls einen Großteil des Satzes einklammern kann.<br />

49


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

3. Finites Verb + Präfix<br />

Als Beispiel wird im folgenden das Verb kaufen betrachtet. Die erste Variante tritt im<br />

Passiv oder bei Benutzung der Tempora Futur I und II, Perfekt und Plusquamperfekt ein,<br />

in denen die Hilfsverben sein, haben und/oder werden zusammen mit dem ursprünglichen<br />

Verb benutzt werden, um das Prädikat darzustellen. Dabei steht das finite Verb dieser<br />

Konstruktion im Deutschen normalerweise an zweiter Stelle und die anderen Bestandteile<br />

am Ende des Satzes. So etwa in Peter hatte gestern vormittag auf dem Markt Butter<br />

gekauft. Das Plusquamperfekt wird hier durch die finite Präteritumsform hatte an zweiter<br />

Stelle und das Partizip Perfekt gekauft ausgedrückt. Anders in Bis morgen abend wird<br />

Peter auch noch Nudeln gekauft haben., wo das Futur II durch das finite Präsens <strong>von</strong><br />

werden und den Infinitv Perfekt <strong>von</strong> kaufen bezeichnet wird.<br />

Die zweite Variante tritt oftmals bei der Beschreibung <strong>von</strong> Möglichkeiten, Notwendigkeiten,<br />

Hoffnungen oder Wünschen ein. Ein Beispiel hierfür ist der Satz Außerdem muss<br />

Peter noch viele andere Dinge kaufen. Die Notwendigkeit wird hier über die finite Form<br />

des Modalverbs müssen mit dem ans Ende gestellten Infinitiv <strong>von</strong> kaufen dargestellt.<br />

Hierbei handelt es sich nicht um einen erweiterten Infinitiv, der <strong>von</strong> Übersetzungsprogrammen<br />

in den meisten Fällen über ein abgrenzendes Komma erkannt werden kann und<br />

keine Verbklammer ist (vgl. den Satz Um Geld zu sparen, stahl er die Nudeln.).<br />

Die dritte Variante schließlich tritt immer dann auf, wenn das Verb an sich bereits ein<br />

Kompositum aus einem Präfix und einem anderen Verb ist und im Satz eine Verbform ohne<br />

Hilfsverben und Partizipien verwendet wird, was in den Tempora Präsens und Präteritum<br />

der Fall ist. Das Verb einkaufen ist beispielsweise ein Kompositum aus dem Verb kaufen<br />

und dem Präfix ein. Ein Beispiel für eine derartige Verbklammer liefert der Satz Mit dem<br />

gesparten Geld kaufte Peter Kartoffeln ein.<br />

Die Verbklammer kann als sprachspezifisches Textmerkmal betrachtet werden, weil sie<br />

in vielen anderen Sprachen unbekannt ist oder nur in geringerem Umfang zum Tragen<br />

kommt. Als Beispiele dienen hierzu die Wortstellungen im Englischen und Spanischen.<br />

Der Satz Peter hat ein Buch gekauft. lautet dort Peter has bought a book. 8 bzw. Peter ha<br />

comprado un libro., wobei die Prädikate has bought und ha comprado eine untrennbare<br />

Einheit darstellen.<br />

Die besondere Schwierigkeit für ein Übersetzungsprogramm besteht nun darin, nach dem<br />

finiten Verb den zweiten Teil der Verbklammer korrekt zu erkennen und richtig zuzuordnen,<br />

da das Programm bei deutschen Texten wegen des langen Mittelfeldes dazwischen<br />

nicht wissen kann, wann dieser Teil beginnt. Aufgrund dieser Ungewissheit ist zu erwarten,<br />

dass ein Satz mit einer oder mehreren Verbklammern tendenziell auch mehr Fehler<br />

bei der automatischen Übersetzung hervorrufen wird.<br />

Vorgehensweise<br />

Die obige Vermutung wurde wieder an einem Textkorpus <strong>von</strong> 100 aus Wikipedia entnommenen<br />

Sätzen, die jeder mindestens eine Verbklammer mit fünf oder mehr Worten<br />

zwischen ihren beiden Bestandteilen enthielten, überprüft. Als zweites Korpus wurden<br />

dieselben Sätze verwendet, die jedoch zuvor <strong>von</strong> der Verbklammer befreit worden waren.<br />

Sofern dies nicht gänzlich möglich war, wurde wenigstens die Länge der Klammer<br />

8 Der Satz Peter has a book bought. ist zwar auch korrekt, bedeutet aber, dass Peter ein Buch kaufen<br />

lässt.<br />

50


5.2. Sprachspezifische Textmerkmale<br />

deutlich verringert. Dabei wurde stets versucht, den Satz insgesamt so wenig wie möglich<br />

zu verändern, um nur die Auswirkungen der Verbklammern auf die Fehlerhäufigkeit zu<br />

eliminieren.<br />

In der Regel wurden die Sätze geändert, indem der Autor ein bedeutungsgleiches Verb,<br />

das kein Kompositum ist, oder eine andere, nicht zusammengesetzte Verbform anstelle<br />

des ursprünglichen Verbs einsetzte, indem er die Wortstellung veränderte oder indem<br />

die Tempora sinnerhaltend geändert wurden. Die folgenden Beispiele aus dem Korpus<br />

illustrieren dies:<br />

• Satz 8<br />

• Satz 62<br />

– Mit Verbklammer: Bei seinen Auftritten außerhalb der Kaserne wurde Leutnant<br />

Forstner vor allem <strong>von</strong> jugendlichen Demonstranten wiederholt verhöhnt<br />

und beschimpft.<br />

– Ohne Verbklammer: Bei seinen Auftritten außerhalb der Kaserne verhöhnten<br />

und beschimpften vor allem jugendliche Demonstranten Leutnant Forstner wiederholt.<br />

– Mit Verbklammer: Heute setzen sich die Kirchen gemeinsam mit Menschenrechtsgruppen<br />

für ihre weltweite Abschaffung ein.<br />

– Ohne Verbklammer: Heute bemühen sich die Kirchen gemeinsam mit Menschenrechtsgruppen<br />

um ihre weltweite Abschaffung.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Das Ergebnis der Fehleranalyse beider übersetzter Textkorpora ist in<br />

Tabelle 5.7 zu sehen.<br />

Das Textkorpus mit Verbklammern wies bei 2264 Wörtern insgesamt 939 Fehler aus, was<br />

einer durchschnittlichen Rate <strong>von</strong> 0, 2074 Fehlern pro Wort entspricht. Nach der Entfernung<br />

der Verbklammern sank die Wortanzahl auf 2237, die Fehleranzahl auf 849 und<br />

somit die Fehlerzahl pro Wort auf 0, 1898. Es stellte sich also wie erwartet insbesondere<br />

eine Abnahme der absoluten Fehlerzahl um 9, 58 Prozent ein, aber auch eine Abnahme<br />

der relativen Fehlerzahl um 8, 49 Prozent. Somit kann festgehalten werden, dass die Anwesenheit<br />

einer Verbklammer sich merklich negativ auf die Übersetzbarkeit eines Satzes<br />

durch Programme auswirkt.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 9<br />

Mit Verbklammer 2264 939 0,2074<br />

Ohne/Stark verkürzte Verbklammer 2237 849 0,1898<br />

Tabelle 5.7.: Verbklammern und Fehlerhäufigkeit<br />

Veränderungen der Fehlerzahl In Abbildung 5.7 ist an den drei Kurven zu sehen, wie<br />

die absoluten Veränderungen der Fehlerzahl über die 200 Vergleiche zwischen Übersetzung<br />

9 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

51


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

<strong>von</strong> Original und Bearbeitung verteilt sind. Durchschnittlich verlor ein Satz nach dem<br />

Umschreiben 0, 45 Fehler. Der Bereich, in den die Ergebnisse fielen, ist mit +5 bis −8<br />

Fehlern recht breit.<br />

Dabei wiesen <strong>von</strong> den insgesamt 200 Übersetzungen des bearbeiteten Korpus ohne Verbklammern<br />

im Vergleich zu denen mit Verbklammern insgesamt 85 eine Abnahme der<br />

Fehlerzahl <strong>von</strong> bis zu acht Fehlern auf. Allein 42-mal gab es einen Fehler weniger, 24-<br />

mal gleich zwei Fehler und zehnmal drei Fehler weniger. Drei-, fünf- und einmal ergaben<br />

sich sogar vier, fünf und acht Fehler weniger. In weiteren 69 Übersetzungen blieb die<br />

Fehleranzahl gleich. Die restlichen 46 Übersetzungen zeigten eine Zunahme um bis zu<br />

fünf Fehler, wobei 26-mal ein Fehler hinzukam, 14-mal zwei, dreimal drei und zweimal<br />

gleich fünf sowie einmal gleich sechs Fehler.<br />

Abbildung 5.7.: Absolute Veränderungen der Fehleranzahl ohne Verbklammern für die<br />

einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />

2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

5.2.2. Nominalklammern<br />

Was sind Nominalklammern?<br />

Ein weiteres häufig in der deutschen Sprache (und auch in anderen germanischen Sprachen,<br />

etwa dem Niederländischen) anzutreffendes Phänomen ist die Nominalklammer 10 .<br />

Sie ist eine spezielle Form der Nominalphrase und tritt immer dann auf, wenn innerhalb<br />

einer Nominalphrase weitere Nominalphrasen vor ihrem Nomen stehen und eine<br />

verschachtelte Struktur entsteht wie in der für das im Sommer geöffnete Bad zuständige<br />

Bademeister. Die Nominalklammer ist dadurch bedingt, dass oftmals alle Attribute<br />

10 Der Begriff Nominalklammer wird gelegentlich auch für Nominalphrasen verwendet oder teilweise,<br />

sobald überhaupt ein Attribut zwischen Artikel und Nomen steht. In dieser Arbeit jedoch beschränkt<br />

sich der Begriff ausschließlich auf den Fall, dass innerhalb einer Nominalphrase mindestens eine weitere<br />

Nominalphrase als Attribut vor dem Nomen (Kopf) der erstgenannten Nominalphrase steht. Somit<br />

wird dann die innere <strong>von</strong> der umgebenden Nominalphrase geklammert.<br />

52


5.2. Sprachspezifische Textmerkmale<br />

vor das zugehörige Nomen gestellt werden, sogar wenn es sich dabei um sehr komplexe<br />

Ausdrücke handelt. Keine Nominalklammer liegt dagegen vor, wenn nur ein oder mehrere<br />

Adjektive zur näheren Beschreibung des Substantivs eingesetzt werden. Im Englischen<br />

dagegen pflegt man komplexere Attribute hinter das zugehörige Subjekt zu stellen oder<br />

in Nebensätze auszulagern. In romanischen Sprachen stehen meist alle Attribute hinter<br />

dem Bezugswort.<br />

Ein weiteres Beispiel für eine Nominalklammer ist der deutsche Satz Magrit gefiel das<br />

ihr <strong>von</strong> Peter geschenkte Buch nicht. Zwischen Artikel und Substantiv steht zur näheren<br />

Bestimmung des adjektivisch gebrauchten Partizips geschenkt noch das feminine Personalpronomen<br />

sie im Dativ und eine Präpositionalphrase. Im Englischen oder auch in<br />

romanischen Sprachen ist diese Wortstellung nicht möglich. Korrekt übersetzt lautet der<br />

Satz auf Englisch Magrit didn’t like the book given to her by Peter. Auf Spanisch könnte<br />

man sagen A Magrit no le gustó el libro regalado a ella de Peter. In beiden Fällen rückt<br />

das Partizip mitsamt näherer Bestimmung hinter das Substantiv und belässt es damit bei<br />

einer einfacheren, weniger komplexen syntaktischen Struktur.<br />

Die Schwierigkeit bei der maschinellen Übersetzung besteht nun darin, alle im deutschen<br />

Ausgangstext zusammengehörigen Artikel, Adjektive und Substantive, die über große Teile<br />

eines Satze verstreut sein können, und ebenso die weiteren Angaben zur näheren Bestimmung<br />

korrekt zu identifizieren und sie in eine in der Zielsprache akzeptable Wortstellung<br />

unter Wahrung der Bedeutung zu transferieren. Dies ist insofern schwieriger als der Umgang<br />

mit einer Verbklammer (siehe Abschnitt 5.2.1), als es dort nur zwei Teile eines Verbs<br />

gibt, nämlich die finite Verbform und die restlichen, aufeinanderfolgenden Bestandteile des<br />

Prädikats. In jedem Fall ist also mit einer Verschlechterung der Übersetzungsqualität zu<br />

rechnen, wenn eine oder mehrere Nominalklammern auftreten.<br />

Vorgehensweise<br />

Für die Untersuchung dieses Zusammenhangs wurden 100 Sätze aus der deutschsprachigen<br />

Wikipedia herausgesucht, die entweder eine Nominalklammer aufwiesen oder so<br />

konstruiert waren, dass man leicht eine Nominalklammer im Satz bilden konnte, ohne die<br />

Bedeutung des Satzes zu verändern. So wurden jeweils 100 Sätze mit und ohne Nominalklammern<br />

in zwei Korpora erstellt und deren Übersetzungen auf Fehler untersucht. Dabei<br />

wurde in vielen Sätzen ein Abstand <strong>von</strong> zehn oder mehr Wörtern zwischen erstem und<br />

letztem Element der Nominalklammer eingehalten.<br />

Die Entfernung <strong>von</strong> Nominalklammern erfolgte in der Regel, indem die bisher vorangestellten<br />

Attribute in einen Nebensatz oder in einen eigenständigen zweiten Satz ausgelagert<br />

wurden. Sofern ein Satz im Original keine Nominalklammer aufwies, wurde umgekehrt<br />

verfahren. Zur Verdeutlichung des Entfernens <strong>von</strong> Nominalklammern ein Beispiel:<br />

• Satz 89<br />

– Mit Nominalklammer: 1998 waren die zuvor schon aus den anderen ostdeutschen<br />

Landesparlamenten gefallenen Grünen auch in Sachsen-Anhalt<br />

an der Fünf-Prozent-Hürde gescheitert.<br />

– Ohne Nominalklammer: 1998 waren die Grünen auch in Sachsen-Anhalt an<br />

der Fünf-Prozent-Hürde gescheitert, nachdem sie schon vorher aus den<br />

anderen ostdeutschen Landesparlamenten gefallen waren.<br />

53


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Die Auswertung der Übersetzungen zeigte eine deutliche Fehlerabnahme<br />

beim Verzicht auf Nominalklammern. Zwar waren die Sätze mit Nominalklammern<br />

in der Regel geringfügig kürzer (insgesamt 2155 statt 2294 Wörter), wiesen aber insgesamt<br />

eine deutlich höhere Fehlerzahl pro Wort auf, nämlich 0, 2183, was 941 Fehlern im<br />

Textkorpus entspricht. Demgegenüber wurden im Textkorpus ohne Nominalklammern nur<br />

815 Fehler entdeckt, was gleichbedeutend ist mit 0, 1776 Fehlern pro Wort. Es wurde also<br />

eine Abnahme der absoluten Fehlerzahl um 13, 39 Prozent festgestellt und die eingangs<br />

gestellte Hypothese damit bestätigt: Nominalklammern wirken sich deutlich negativ auf<br />

die maschinelle Übersetzbarkeit eines Satzes aus (vgl. dazu auch Tabelle 5.8).<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 11<br />

Mit Nominalklammer 2155 941 0,2183<br />

Ohne Nominalklammer 2294 815 0,1776<br />

Tabelle 5.8.: Nominalklammern und Fehlerhäufigkeit<br />

Abbildung 5.8.: Absolute Veränderungen der Fehleranzahl ohne Nominalklammern für die<br />

einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />

2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

Veränderungen der Fehlerzahl Abbildung 5.8 zeigt die drei Kurven, die angeben, wie<br />

sich die Fehlerzahl nach Bearbeitung der Originalsätze verändert hat, für Babel Fish<br />

und Personal Translator sowie aggregiert. Durchschnittlich verlor ein Satz nach dem<br />

Umschreiben 0, 63 Fehler.<br />

Von den insgesamt 200 Übersetzungen der bearbeiteten Sätze wiesen nur 64 dieselbe<br />

Anzahl Fehler auf wie die Originale. 97 Übersetzungen erzielten weniger Fehler, da<strong>von</strong><br />

11 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

54


5.2. Sprachspezifische Textmerkmale<br />

45 einen, 26 zwei und 15 drei Fehler weniger als die Version mit Nominalklammer. Elf<br />

Übersetzungen wiesen extreme Abnahmen der Fehlerzahl auf, nämlich achtmal vier Fehler<br />

und dreimal sogar fünf Fehler weniger. Im Gegenzug gab es noch 39 Übersetzungen mit<br />

teilweise deutlich mehr Fehlern. Um einen Fehler legten 21 Übersetzungen im Vergleich zu<br />

den entsprechenden Versionen mit Nominalklammern zu, 14-mal um zwei Fehler. Dreimal<br />

traten drei Fehler mehr auf und einmal sogar fünf Fehler.<br />

5.2.3. Nominalkomposita<br />

Typisch für die deutsche Sprache sind Nominalkomposita, wie bereits in Abschnitt 2.4.2<br />

vorgestellt. Sie treten auch in einigen weiteren germanischen Sprachen auf, sind aber<br />

in slawischen oder romanischen Sprachen unbekannt. Wegen der unbegrenzten Wortbildungsmöglichkeiten<br />

können viele Zusammensetzungen nicht im Lexikon eines MÜ-<br />

Programms stehen. Die Wörter müssen als Komposita erkannt, korrekt zerlegt und richtig<br />

auf Wörter oder ganze Satzteile der Zielsprache übersetzt werden. Daraus lässt sich<br />

folgern, dass gerade längere Komposita die Fehlerhäufigkeit bei Übersetzungen deutlich<br />

erhöhen.<br />

Vorgehensweise<br />

Es galt sicherzustellen, dass die ausgewählten Wörter aller Voraussicht nach eine Hürde für<br />

die MÜ-Programme darstellen. Dazu wurde das bereits in 5.1.4 erwähnte Textkorpus der<br />

Universität Leipzig mit drei Millionen deutschsprachigen Sätzen benutzt. Aus dem Korpus<br />

wurden insgesamt 100 äußerst seltene Wörter mit mindestens 30 Zeichen ausgewählt, die<br />

bis auf wenige Ausnahmen allesamt im gesamten Korpus nur einmal vorkamen. Zu jedem<br />

Wort wurde über Internetsuchmaschinen ein Satz herausgesucht, in dem es vorkam. Die<br />

Seltenheit der gewählten Nominalkomposita zeigte sich beim Aussuchen der 100 Wörter<br />

darin, dass selbst Google zu etlichen Begriffen keine Einträge finden konnte. Texte aus<br />

Wikipedia konnten nicht genommen werden, weil die entsprechenden Begriffe hier fast gar<br />

nicht zu finden waren.<br />

Zur Überprüfung der Auswirkungen <strong>von</strong> Nominalkomposita wurden wie üblich zwei Textkorpora<br />

benutzt. Im ersten befanden sich 100 Sätze mit mindestens einem solchen Kompositum,<br />

im zweiten Korpus wurden alle größeren Komposita durch andere, sinnwahrende<br />

Konstruktionen ersetzt, sofern sie nicht ausschließlich oder überwiegend in dieser Form in<br />

der Alltags- und Schriftsprache verwendet werden. Ein Beispiel (Satz 73 der Korpora):<br />

• Original: Die Stabhochsprungvizeweltmeisterin oder das Fußballweltmeisterschaftsachtelfinalspiel<br />

kommen sehr gut ohne Bindestriche aus.<br />

• Bearbeitet: Die Vizeweltmeisterin im Stabhochsprung oder das Achtelfinalspiel der<br />

Weltmeisterschaft im Fußball kommen sehr gut ohne Bindestriche aus.<br />

Wie man sieht, sind auch im bearbeiteten Satz noch Komposita vorhanden, die jedoch<br />

im Gegensatz zu den beiden Wörtern Stabhochsprungvizeweltmeisterin und Fußballweltmeisterschaftsachtelfinalspiel<br />

alltäglich sind und in gängigen Wörterbüchern stehen, so<br />

dass <strong>von</strong> ihnen keine Auswirkungen auf die Übersetzungsqualität zu erwarten ist. Niemand<br />

würde außerdem statt Bindestriche die Form Striche der Bindung oder statt Stabhochsprung<br />

Hoher Sprung mit einem Stab benutzen – eine derart feingranulare Zerlegung<br />

dürfte sogar tendenziell für mehr Fehler sorgen.<br />

55


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Das Ergebnis war überaus unerwartet, wie Tabelle 5.9 zeigt: Zwar sank<br />

die Fehlerhäufigkeit <strong>von</strong> der Übersetzung des originalen zu der des bearbeiteten Textkorpus<br />

<strong>von</strong> 0, 2180 Fehlern pro Wort auf nur noch 0, 1913, allerdings bei stark erhöhter<br />

Wortzahl (statt 1908 nun 2404). Absolut gesehen nahm die Fehlerzahl aber <strong>von</strong> 832 auf<br />

920 zu, das heißt, durch das Umformulieren komplizierter Komposita sind 88 Fehler hinzugekommen.<br />

Dies entspricht einer Zunahme <strong>von</strong> 10, 58 Prozent.<br />

Trotz der Seltenheit und Komplexität (minimal 30 Zeichen) der ausgewählten Komposita<br />

nützt es also nichts, auf sie zu verzichten. Eine derartige Überarbeitung eines Textes<br />

erhöht den Nachbearbeitungsaufwand sogar noch und ist daher kontraproduktiv.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 12<br />

Original 1908 832 0,2180<br />

Bearbeitet 2404 920 0,1913<br />

Tabelle 5.9.: Nominalkomposita und Fehlerhäufigkeit<br />

Veränderungen der Fehlerzahl Wie sich die Fehlerzahl verändert, wenn man Zahl und<br />

Komplexität der Nominalkomposita reduziert, zeigt Abbildung 5.9. Die grüne Linie steht<br />

dabei für die Ergebnisse mit Babel Fish, die blaue für Personal Translator 2006 und die<br />

rote für das aggregierte Gesamtergebnis. Die durchschnittliche Änderung der Fehlerzahl<br />

beträgt 0, 44 Fehler pro Satz, jeder bearbeitete Satz weist also im Durchschnitt 0, 44 Fehler<br />

mehr auf als das Original.<br />

Von den insgesamt 200 Übersetzungen des zweiten Korpus zeigten 71 keine Veränderung<br />

der Fehlerzahl gegenüber dem Original. Bei 39 Übersetzungen kam es zu einer Abnahme<br />

der Fehlerzahl, da<strong>von</strong> 27-mal um einen Fehler, fünfmal zum zwei Fehler, sechsmal um drei<br />

Fehler und einmal um fünf Fehler. Die restlichen 90 Übersetzungen der bearbeiteten Sätze<br />

lieferten schlechtere Ergebnisse als die Originale, wo<strong>von</strong> 55 um einen Fehler zulegten, 19<br />

um zwei Fehler, elf um drei Fehler. Immerhin drei Sätze enthielten nach der Bearbeitung<br />

sogar vier Fehler mehr und zwei sogar fünf Fehler.<br />

Erklärungsversuche Die Zunahme der Fehlerzahl bei den Übersetzungen des bearbeiteten<br />

Textkorpus war das überraschendste Ergebnis der gesamten Testreihen. Es scheint<br />

in der Tat, als hätten beide Programme gelernt, mit derartigen Wörtern umzugehen.<br />

Verweigerte Übersetzungen <strong>von</strong> Komposita kamen nur in den seltensten Fällen vor.<br />

Vielfach war statt dessen zu beobachten, dass beide Programme unbekannte Wörter korrekt<br />

in ihre Bestandteile zerlegten und diese dann einfach übersetzten, manchmal mit<br />

weniger Erfolg, manchmal mit mehr Erfolg, wobei Personal Translator 2006 alles in allem<br />

weniger Probleme zu haben schien als Babel Fish. Personal Translator 2006 etwa<br />

übersetzte Stabhochsprungvizeweltmeisterin korrekt mit pole vault vice-world champion,<br />

während Babel Fish mit staff high jump vice-world champion zwar eine äußerst wörtliche,<br />

jedoch auch äußerst falsche Übersetzung präsentierte. Und ein Steuerberater bleibt auf<br />

Englisch immer noch ein tax advisor, auch wenn beide MÜ-<strong>Systeme</strong> tax counsel oder tax<br />

consultant vorschlugen.<br />

12 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

56


5.2. Sprachspezifische Textmerkmale<br />

Abbildung 5.9.: Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl <strong>von</strong> Nominalkomposita<br />

für die einzelnen Übersetzungsprogramme (Babel Fish<br />

grün, Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

Die zerlegten Komposita hätten zwar theoretisch einfacher zu übersetzen sein müssen,<br />

warfen jedoch neue Probleme auf, insbesondere durch den nun zunehmenden Einsatz <strong>von</strong><br />

Präpositionen, die sich an vielen Stellen im Deutschen nicht vermeiden lassen. Aber gerade<br />

sie wurden <strong>von</strong> beiden Programmen oftmals falsch übersetzt. Ein Beispiel: Statt<br />

Behindertengleichstellungsgesetz kann man ebenfalls Gesetz zur Gleichstellung Behinderter<br />

formulieren. Die Präposition zu kann im Deutschen lokalen Sinn haben (Ich gehe zur<br />

Schule.), aber auch finalen Sinn wie bei dem Gesetzesnamen. Im Englischen muss nun in<br />

aller Regel differenziert übersetzt werden, nämlich im ersten Fall mit to, im zweiten mit<br />

for. Personal Translator 2006 übersetzte aber nahezu jedesmal, wenn zu einen finalen<br />

Sinn hatte, mit to und verursachte dadurch regelmäßig neue Fehler.<br />

Dies erwies sich aber nicht als einzige neue Fehlerquelle. Oft kam es vor, dass die verschiedenen<br />

Teile der zerlegten Komposita nicht mehr wie im deutschen Satz in korrekter<br />

Reihenfolge zusammenstanden, sondern kreuz und quer über den übersetzten Satz verstreut<br />

waren. Auf derartigen Wegen kamen letztlich mehr Fehler zustande als bei der<br />

schlichten wörtlichen Übersetzung der den Programmen unbekannten Komposita.<br />

Das überraschende Ergebnis soll allerdings keinen Freibrief darstellen, jetzt massenhaft<br />

Komposita in allen möglichen Texten unterzubringen, zumal dies der Verständlichkeit für<br />

die Leserschaft abträglich wäre. Es darf lediglich dahingehend verstanden werden, dass<br />

es kontraproduktiv ist, selbst längere Komposita systematisch zu entfernen, noch dazu<br />

solche, die ohnehin gebräuchlich sind.<br />

Da<strong>von</strong> abgesehen gilt aber: Wenn man Übersetzungsprogramme mit allzu wüsten Wortschöpfungen<br />

konfrontiert, wird die Arbeit schlichtweg verweigert. Das Wort Donaudampfschifffahrtsgesellschaftskapitänsmützenherstellungsstandortverlagerungsbeschluss<br />

konnte keines der Programme mehr übersetzen.<br />

57


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

5.2.4. Inversion der Wortstellung<br />

Was ist eine Inversion der Wortstellung?<br />

Die deutsche Sprache verfügt nicht zuletzt dank ihrer noch recht ausgeprägten Flexion<br />

über eine recht variable Wortstellung. Dennoch gibt es im normalen Sprachgebrauch<br />

für Haupt-, Neben- und Fragesätze/Anweisungen sowie Infinitivkonstruktionen eine Art<br />

Standardwortstellung, nämlich<br />

• Subjekt - Prädikat - Objekt bei Hauptsätzen,<br />

• Subjekt - Objekt - Prädikat bei Nebensätzen und<br />

• Prädikat - Subjekt - Objekt bei Fragen und Anweisungen und<br />

• Objekt - Infinitiv bei erweiterten Infinitiven<br />

Es gibt aber viele Fälle – gerade in Haupt- und Fragesätzen –, in denen <strong>von</strong> dieser Konvention<br />

abgewichen wird, um einen bestimmten Sachverhalt oder Zustand zu betonen.<br />

Beispiele hierfür sind:<br />

• Die Hausaufgaben hat er schon gemacht? statt Hat er die Hausaufgaben schon gemacht?<br />

• Den Hund verjagte die Katze. statt Die Katze verjagte den Hund.<br />

• Pünktlich kam der Zug an. statt Der Zug kam pünktlich an.<br />

Diese Veränderung der Wortstellung, oft als Inversion bezeichnet, weil z. B. Subjekt und<br />

Objekt die Positionen tauschen oder weil das Subjekt im Hauptsatz hinter das finite<br />

Verb rückt, erfordert <strong>von</strong> den Übersetzungsprogrammen, dass sie in der Lage sind, sie<br />

zu erkennen und dementsprechend <strong>von</strong> ihrem Standardübersetzungsschema abzuweichen,<br />

zumal sich derartige Wortstellungen nicht originalgetreu im Englischen nachbilden lassen.<br />

Dies wird insbesondere dann problematisch, wenn, anders als in den obigen Beispielen,<br />

nicht eindeutig erkennbar ist, was Subjekt und Objekt ist. Im ersten Satz etwa könnte<br />

Die Hausaufgaben zwar auch im Nominativ stehen und damit das Subjekt sein, jedoch<br />

passte dann das finite Verb hat, das eindeutig in der 3. Person Singular steht, nicht dazu.<br />

Im zweiten Satz ist Den Hund wegen des Artikels klar als Akkusativ Singular und somit<br />

als direktes Objekt zu identifizieren, so dass nur die Katze als Subjekt verbleibt. Dagegen<br />

ist in den Sätzen<br />

• Gute Leistungen haben die Oldenburger Schützenvereine gezeigt.<br />

• Ihre neuen Autos verkauften sie schon bald wieder.<br />

allein auf Grundlage der Grammatikregeln der deutschen Sprache keine eindeutige Identifizierung<br />

<strong>von</strong> Subjekt und Objekt möglich. Es muss im Kontext etwa bekannt sein, dass<br />

Autos nichts verkaufen können. Aufgrund solcher Schwierigkeiten ist bei einer Inversion<br />

der Wortstellung mit einer signifikanten Zunahme der absoluten Fehlerzahl bei der Übersetzung<br />

zu rechnen.<br />

58


5.2. Sprachspezifische Textmerkmale<br />

Vorgehensweise<br />

Dem in Abschnitt 4.2 definierten Standard entsprechend, wurden 100 Sätze aus der<br />

deutschsprachigen Wikipedia zufällig ausgesucht, die mindestens eine Abweichung <strong>von</strong><br />

der Standardwortstellung enthielten, und übersetzt. Im zweiten Textkorpus wurden die<br />

abweichenden Wortstellungen dann dem Standard angeglichen und die so entstandenen<br />

100 neuen Sätze ebenfalls übersetzt. Zwar änderte sich dadurch die Betonung der einzelnen<br />

Satzelemente, der Inhalt blieb jedoch stets derselbe.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Die Untersuchung lieferte das erwartete Ergebnis (siehe Tabelle 5.10):<br />

Das Textkorpus mit den Inversionen wies bei 2147 Wörtern insgesamt 802 Übersetzungsfehler<br />

auf, was einer Fehlerzahl pro Wort <strong>von</strong> 0, 1868 entspricht. Demgegenüber sank die<br />

absolute Fehlerzahl der Übersetzungen im bearbeiteten, <strong>von</strong> Inversionen befreiten Textkorpus<br />

auf nur noch 724 Fehler bei 2152 Wörtern. Dies entspricht 0, 1682 Fehlern pro<br />

Wort.<br />

Die Abnahme der absoluten Fehlerzahl beträgt also beim Verzicht auf Inversionen der<br />

Worstellung 78 Fehler oder 9, 73 Prozent. Die Abnahme der Fehlerzahl pro Wort ist mit<br />

9, 96 Prozent noch etwas größer. Es lässt sich also festhalten, dass man die Übersetzungsqualität<br />

deutlich verbessern kann, indem man die Standardwortstellung verwendet.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 13<br />

Mit Inversionen 2147 802 0,1868<br />

Ohne Inversionen 2152 724 0,1682<br />

Tabelle 5.10.: Inversionen und Fehlerhäufigkeit<br />

Veränderungen der Fehlerzahl In Abbildung 5.10 ist die Veränderung der Fehlerzahl<br />

bei der Befreiung des Textkorpus <strong>von</strong> Inversionen der Wortstellung sowohl für Babel Fish<br />

als auch Personal Translator und insgesamt dargestellt. Die durchschnittliche Änderung<br />

der Fehlerzahl beträgt −0, 39 Fehler pro Satz, auf jeweils 2, 5 Sätze entfällt also im Schnitt<br />

ein Fehler.<br />

In insgesamt 116 <strong>von</strong> 200 Übersetzungen der bearbeiteten Sätze änderte sich die Fehlerzahl<br />

nicht. 22-mal ergibt sich eine Erhöhung der Fehlerzahl um einen Fehler, lediglich zweimal<br />

kam es zu zwei zusätzlichen Fehlern. Demgegenüber gab es wesentlich mehr Sätze, die eine<br />

verminderte Fehlerzahl aufwiesen, nämlich insgesamt 60, da<strong>von</strong> allein 36 Sätze mit einem<br />

Fehler weniger und 13 mit zwei Fehlern weniger. Sieben Sätze lieferten eine Abnahme um<br />

drei Fehler, ein Satz wies vier, zwei Sätze fünf und einer sogar sieben Fehler weniger auf.<br />

Insgesamt waren die Veränderungen in der Regel also nicht dramatisch, aber mit klarer<br />

Tendenz zu einer Abnahme der Fehlerzahl.<br />

13 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

59


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Abbildung 5.10.: Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung<br />

für die einzelnen Übersetzungsprogramme (Babel Fish grün,<br />

Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />

5.3. Signifikanz der Ergebnisse<br />

Die ausgewählten Textmerkmale wurden gemäß den Ausführungen in Abschnitt 4.5 überprüft,<br />

das heißt, es wurden die Sätze der zugehörigen Textkorpora auf eine signifikante<br />

Verbesserung der Übersetzungsqualität beim Verzicht auf das jeweilige Textmerkmal hin<br />

untersucht. Als Grundlage diente die dort angegebene Wahrscheinlichkeitsfunktion auf<br />

Basis der hypergeometrischen Verteilung mit N = 100.000 und M = 50.000. Die Bedeutung<br />

der Variablen N und M sowie der im weiteren Verlauf verwendeten Variablen k und<br />

n wird ebenfalls in Abschnitt 4.5 erläutert.<br />

Satzlänge<br />

Für die Satzlänge war als einziges Textmerkmal ein Signifikanztest nicht möglich, weil<br />

Satzlänge nichts ist, was sich wie etwa Nominalkomposita beseitigen ließe, ohne den Sinn<br />

des Satzes gravierend zu verändern. Selbst wenn man die Korpora für mittellange und<br />

kurze Sätze auf Basis des Korpus mit den sehr langen Sätzen erstellt und die Sätze jeweils<br />

passend gekürzt hätte, wären die Veränderungen der Fehlerzahlen nicht vergleichbar, weil<br />

es sich bei den drastisch unterschiedlichen Satzlängen in den drei Korpora um inhaltlich<br />

stark verschiedene Sätze handeln würde.<br />

Gleichwohl wird die Satzlänge auch ohne Signifikanztest in den Übersetzbarkeitsindex<br />

aufgenommen, weil sie erstens <strong>von</strong> anderen Bewertungsprogrammen als Kriterium benutzt<br />

wird (vgl. Abschnitt 3.3) und zweitens der empirische Befund zu den drei übersetzten<br />

Textkorpora eine deutlich überproportionale Zunahme der durchschnittlichen Fehlerzahl<br />

bei Erhöhung der Satzlänge ausweist (vgl. Abschnitt 5.1.1).<br />

60


5.3. Signifikanz der Ergebnisse<br />

Nebensätze (Relativsätze)<br />

In den übersetzten Textkorpora zu Nebensätzen im Allgemeinen und Relativsätzen im<br />

Speziellen waren keine bzw. recht geringe Veränderungen der Fehlerzahl zu beobachten.<br />

Die Beseitigung <strong>von</strong> Nebensätzen brachte bei einer Summe der Fehlerzahländerungen <strong>von</strong><br />

n = 82 keine Veränderung der Gesamtfehlerzahl oder k = 41 Fehlerzahlzunahmen bei<br />

41 -abnahmen in den Übersetzungen, deren Fehlerzahl sich veränderte. Die Beseitigung<br />

<strong>von</strong> Relativsätzen brachte dagegen 21 Fehler weniger, wobei es in der Summe insgesamt<br />

n = 175 Fehlerzahländerungen gab, <strong>von</strong> denen k = 98 auf die Sätze mit verringerter<br />

Fehlerzahl entfielen.<br />

Für die Nebensätze ergibt sich daraus eine Wahrscheinlichkeit <strong>von</strong> P (X ≥ 41) ≈ 0, 54394,<br />

dass in den Sätzen mit Fehlerabnahme mindestens k Fehler entfallen, wenn H 0 gilt. Die<br />

Gefahr einer fälschlichen Zurückweisung <strong>von</strong> H 0 ist daher viel zu groß, so dass sie beibehalten<br />

wird und Nebensätze aller Art nicht in den Übersetzbarkeitsindex aufgenommen<br />

werden. Bei Relativsätzen im Speziellen ergibt sich diesbezüglich mit k = 98 ein Wert <strong>von</strong><br />

P (X ≥ 98) ≈ 0, 06500. Obwohl diese Wahrscheinlichkeit größer ist als das Signifikanzniveau<br />

α = 0, 05 und Relativsätze die Übersetzbarkeit somit nicht signifikant verschlechtern,<br />

werden sie in den Index aufgenommen. Der Grund ist, dass der Wert der Verteilungsfunktion<br />

nur sehr knapp über dem Signifikanzniveau liegt (bereits bei k = 99 wäre das Ergebnis<br />

signifikant) und gleichzeitig Relativsätze in anderen Übersetzbarkeitsmaßen berücksichtigt<br />

werden (vgl. Abschnitt 3.3). Berücksichtigt man dies, so ist die Wahrscheinlichkeit,<br />

die Gegenhypothese H 1 zu Unrecht nicht anzunehmen, trotz des nicht-signifikanten Testergebnisses<br />

viel zu groß. Allerdings ist der Einfluss <strong>von</strong> Relativsätzen im Vergleich zu<br />

anderen in den Index aufgenommenen Textmerkmalen eher gering, was sich auch bei der<br />

Konstruktion des Indexes niederschlagen wird (vgl. Kapitel 6). Dementsprechend wird<br />

selbst eine möglicherweise doch fälschliche Aufnahme in den Index nicht zu großen Verzerrungen<br />

führen.<br />

Mehrdeutigkeit<br />

Insgesamt nahm die Fehlerzahl der Übersetzungen nach dem Entfernen <strong>von</strong> Mehrdeutigkeiten<br />

um 103 Fehler ab. Dabei gab es 92 Sätze ohne Veränderung der Fehlerzahl, 23 mit<br />

einer Erhöhung der Fehlerzahl und 85 mit einer Verringerung der Fehlerzahl. In diesen<br />

108 Sätzen mit veränderter Fehlerzahl kamen in den verschlechterten Sätzen 32 Fehler<br />

hinzu, k = 135 fielen in den verbesserten Sätzen weg, so dass sich als Stichprobenumfang<br />

der Fehlerzahlveränderungen n = 167 ergibt.<br />

Daraus folgt (auf fünf Stellen gerundet): P (X ≥ 135) ≈ 0, 00000. Die Fehlerzahlabnahme<br />

ist also sogar höchst signifikant, die Wahrscheinlichkeit, dass die Nullhypothese zu Unrecht<br />

verworfen wird, dementsprechend verschwindend gering. Daher werden Mehrdeutigkeiten<br />

in den Übersetzbarkeitsindex aufgenommen.<br />

Elliptischer Schreibstil<br />

Auf beide Textkorpora bezogen, ergab sich beim Entfernen <strong>von</strong> Ellipsen eine Abnahme<br />

um insgesamt fünf Fehler in den Übersetzungen. Insgesamt summierten sich die Fehlerzahlveränderungen<br />

auf n = 187, wo<strong>von</strong> k = 96 Fehlerzahlverringerungen waren.<br />

Somit ergab sich für das Komplement der Verteilungsfunktion ein Funktionswert <strong>von</strong><br />

P (X ≥ 96) ≈ 0, 38489. Die (sehr geringe) Fehlerzahlabnahme ist also bei weitem nicht<br />

61


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

signifikant, so dass Ellipsen nicht als Textmerkmal in den Übersetzbarkeitsindex aufgenommen<br />

werden können.<br />

Für abgetrennte Kompositionsglieder ergab sich jedoch ein anderes Bild: Hier traten in<br />

den Sätzen, die nach dem Weglassen solcher Ellipsen ihre Fehlerzahl veränderten, insgesamt<br />

n = 61 Veränderungen auf, wo<strong>von</strong> k = 42 Abnahmen waren. Daraus folgte eine<br />

Wahrscheinlichkeit <strong>von</strong> P (X ≥ 42) ≈ 0, 00222, so dass diese Fehlerabnahme ebenfalls<br />

höchstsignifikant ist. Abgetrennte Kompositionsglieder werden also in den Übersetzbarkeitsindex<br />

aufgenommen.<br />

Verbklammern<br />

Die Sätze, aus denen die Nominalklammern entfernt wurden und deren Übersetzung sich<br />

verbesserte, wiesen eine um k = 165 verringerte Fehlerzahl auf, während in den sich<br />

verschlechternden Sätzen 76 Fehler hinzukamen, so dass der Stichprobenumfang n = 241<br />

betrug.<br />

Mit k = 165 ergab die Verteilungsfunktion dann (auf fünf Stellen gerundet) P (X ≥ 165) ≈<br />

0, 00000, was ein höchstsignifikantes Ergebnis darstellt, so dass Verbklammern ebenfalls<br />

in den Index einfließen werden.<br />

Nominalklammern<br />

Die Entfernung <strong>von</strong> Nominalklammern verursachte Veränderungen der Fehlerzahl bei 136<br />

der 200 Übersetzungen des zweiten Textkorpus. Die Anzahl der Fehler in den Sätzen, in<br />

denen insgesamt weniger Fehler festgestellt wurden, verringerte sich um k = 189, in den<br />

Sätzen, in denen insgesamt mehr Fehler gemessen wurden, erhöhte sie sich um 63 Fehler,<br />

so dass sich ein Stichprobenumfang <strong>von</strong> n = 252 ergab.<br />

Die Verteilungsfunktion liefert P (X ≥ 189) ≈ 0, 00000, also ein höchstsignifikantes Ergebnis,<br />

so dass Nominalklammern ohne Zweifel in den Übersetzbarkeitsindex gehören.<br />

Nominalkomposita<br />

Mit Nominalkomposita verhält es sich anders als mit allen anderen Merkmalen, weil ihre<br />

Beseitigung eine deutliche Fehlerzahlzunahme in den Übersetzungen hervorrief. Die Sätze,<br />

deren Übersetzung sich ohne Komposita verbesserte, zeigten k = 60 Fehler weniger, die<br />

Sätze, deren Übersetzung sich ohne Komposita verschlechterte, legten um 148 Fehler zu,<br />

was einen Stichprobenumfang <strong>von</strong> n = 208 ergibt.<br />

Mit diesen Parametern liefert die Verteilungsfunktion P (X ≥ 60) ≈ 1, 00000. Das Ergebnis<br />

ist also insofern bedeutsam, als man deutlich erkennen kann, dass Nominalkomposita<br />

die Übersetzbarkeit entgegen allen anderen Behauptungen positiv beeinflussen. Es wäre<br />

daher angebracht, sie mit umgekehrtem Vorzeichen ebenfalls in den Übersetzbarkeitxsindex<br />

hineinzunehmen.<br />

Allerdings ergäben sich daraus auch Probleme: Zum ersten wäre ein Algorithmus nötig, der<br />

Nominalkomposita aus beliebigen Wörtern zuverlässig erkennt. Ein derartiges Programm<br />

ist aber anscheinend nicht frei verfügbar, und bloßes Raten anhand der Wortlänge wäre zu<br />

fehleranfällig. Zum zweiten stellt sich die Frage, ab wann ein Kompositum überhaupt positiv<br />

bewertet werden soll. Das Wort Eieruhr ist beispielsweise ein Nominalkompositum,<br />

das aber sehr kurz ist und zu dem es keine sinngleiche Bezeichnung ohne Kompositum gibt.<br />

62


5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />

Es wäre also falsch, pauschal Bonuspunkte zu verteilen, sobald irgendein Nominalkompositum<br />

auftaucht, zumal sich der Textkorpus auf überdurchschnittlich lange Komposita<br />

konzentrierte. Und drittens muss der geschriebene Text immer noch für die Menschen<br />

verständlich sein, die ihn lesen sollen. Selbst wenn es Übersetzungsprogrammen leichter<br />

fällt, Wörter mit 30 Zeichen und mehr ins Englische zu übersetzen, fällt es sowohl Autoren<br />

als auch Lesern mit Sicherheit bei steigender Wortlänge schwerer, Wörtern Sinn und<br />

Bedeutung zuzuordnen.<br />

Aus diesen Erwägungen heraus wird auf die Übernahme dieses Textmerkmals in den<br />

Übersetzbarkeitsindex in dieser Arbeit verzichtet.<br />

Inversion der Wortstellung<br />

Das Ergebnis der Untersuchung <strong>von</strong> Inversionen der deutschen Standardwortstellungen<br />

zeigte eine deutliche Abnahme der Fehlerzahl, wenn man auf Inversionen verzichtet. Insgesamt<br />

84 der 200 Übersetzungen ohne Inversionen wiesen Veränderungen der Fehlerzahlen<br />

auf, wobei die Summe insgesamt n = 130 Fehler betrug. Auf die Sätze, deren Fehlerzahl<br />

in der Übersetzung sich verringerte, entfielen da<strong>von</strong> k = 104 Fehler, die nun weniger<br />

gemessen wurden.<br />

Somit lieferte die Verteilungsfunktion das höchstsignifikante Ergebnis P (X ≥ 104) ≈<br />

0, 00000. Die Wahrscheinlichkeit, bei n = 130 Fehlerzahländerungen mindestens k = 104<br />

Fehlerzahlzunahmen zu finden, ist praktisch null. Zweifelsohne verringert der Verzicht auf<br />

Inversionen also die Übersetzungsschwierigkeiten, so dass dieses Textmerkmal ebenfalls<br />

in den Index aufzunehmen ist.<br />

5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />

Während der Korrektur der jeweils mit Babel Fish und Personal Translator 2006 vorgenommenen<br />

Übersetzungen fielen im direkten Vergleich beider Programme im wesentlichen<br />

zwei Punkte auf, die hier erwähnt werden sollen.<br />

1. Beide Programme verhielten sich bei den untersuchten Textmerkmalen weitgehend<br />

gleich, das heißt, die Zahl der <strong>von</strong> ihnen in der Übersetzung verursachten Fehler<br />

veränderte sich zwischen den Textkorpora mit einer Ausnahme in dieselbe Richtung<br />

(Zunahme oder Abnahme) und auch in etwa in derselben Stärke (hierbei gab es<br />

allerdings zwei Ausnahmen).<br />

2. In allen Testreihen und Textkorpora verursachte Babel Fish zum Teil deutlich mehr<br />

Fehler als Personal Translator 2006 .<br />

Um eine Übersicht zu ermöglichen, stellt das Diagramm in Abbildung 5.11 die Fehlerzahlen<br />

für alle übersetzten Textkopora im Vergleich dar.<br />

Der Fall, dass die Fehlerzahlen beider Programme sich gegenläufig entwickeln, trat bei<br />

Ellipsen auf. Hier wiesen die mit Babel Fish übersetzten Sätze nach der Bearbeitung insgesamt<br />

acht Fehler weniger auf, während es bei Personal Translator 2006 drei Fehler mehr<br />

waren. Wegen der geringen Abweichung ist dem allerdings keine Bedeutung zuzumessen.<br />

Die beiden anderen Ausnahmen traten auf beim Ersetzen <strong>von</strong> Nominalklammern durch<br />

andere Konstruktionen und bei Steigerung der Satzlänge <strong>von</strong> mittellangen (16 - 30 Wörter)<br />

zu sehr langen (ab 31 Wörtern) Sätzen. Im ersten Fall zeigte Babel Fish eine wesentlich<br />

63


5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Abbildung 5.11.: Vergleich der Fehlerzahlen <strong>von</strong> Babel Fish (BF, blau) und Personal<br />

Translator 2006 (PT 2006, rot) für die einzelnen Textkorpora<br />

64


5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />

stärkere Abnahme der Fehlerzahl als Personal Translator 2006 . Im zweiten Fall war die<br />

Fehlerzunahme relativ gesehen bei Personal Translator 2006 wesentlich höher als bei<br />

Babel Fish.<br />

Der erste Punkt lässt also darauf schließen, dass die ausgewählten Merkmale nicht bloß für<br />

ein Programm, sondern ganz allgemein eine Schwierigkeit darstellen bzw. ganz allgemein<br />

keine Schwierigkeit bedeuten, weil andernfalls ein deutlich entgegengesetztes Verhalten<br />

beider Programme zu erwarten gewesen wäre.<br />

Abbildung 5.12.: Gesamtfehlerzahl <strong>von</strong> Babel Fish und Personal Translator 2006<br />

Zum zweiten Punkt ist zu sagen, dass die Unterschiede in den Fehlerzahlen zwischen den<br />

MÜ-Programmen bei demselben Korpus bisweilen nur wenige Prozent betragen, so dass<br />

sie durchaus auch zufällig zustande gekommen sein könnten. Der geringste Unterschied in<br />

den Fehlerzahlen kam bei beiden Textkorpora zu Nebensätzen zustande, wo Babel Fish<br />

gerundet nur 2, 5 Prozent mehr Fehler verursachte als Personal Translator 2006.<br />

Allerdings stehen dem die sehr großen Abweichungen in der Mehrzahl der übersetzten<br />

Korpora gegenüber, die eine Differenz <strong>von</strong> bis zu 149 Fehlern zugunsten <strong>von</strong> Personal<br />

Translator 2006 ergeben, sowie die Tatsache, dass Babel Fish in keinem der insgesamt 19<br />

Korpora das bessere Ergebnis liefert.<br />

Der größte prozentuale und absolute Unterschied entstand bei dem bearbeiteten Textkorpus<br />

zu Verbklammern. Hier wiesen die Babel-Fish-Übersetzungen insgesamt knapp<br />

43 Prozent Fehler mehr auf als die Personal-Translator-2006 -Übersetzungen. Betrachtet<br />

man die Summe aller Fehler, aggregiert über alle Korpora und gegliedert nach Programm,<br />

so ergibt sich folgendes Bild (vgl. Abbildung 5.12):<br />

Personal Translator 2006 verursachte insgesamt in allen Sätzen 6865 Fehler, Babel Fish<br />

dagegen bei gleicher Satz- und Wortanzahl 8154. Das sind immerhin knapp 19 Prozent<br />

mehr als Personal Translator 2006 . Diese Differenz, die hohe Anzahl der übersetzten Sätze<br />

und die durch die zahlreichen getesteten Merkmale hohe Varietät der Sätze erfordern<br />

zwingend den Schluss, dass Personal Translator 2006 zum jetzigen Zeitpunkt (Anfang<br />

2007) das bessere MÜ-Programm ist. 65


6. Zusammenführung der Kriterien in<br />

einem Index<br />

In den folgenden Abschnitten wird auf Grundlage der vorangegangenen Analyse ein Index<br />

erstellt, der die Übersetzbarkeit eines Textes anzeigt. Zudem wird der Index anhand <strong>von</strong><br />

Beispielen aus den für die Analysen aufgestellten Textkopora überprüft.<br />

6.1. Erstellung des Übersetzbarkeitsindexes<br />

Nach der Untersuchung der Fehlerrelevanz der einzelnen Textmerkmale im vorigen Abschnitt<br />

bleiben <strong>von</strong> den neun ursprünglich ausgewählten noch insgesamt sieben Textmerkmale<br />

übrig, deren Auftreten die Übersetzungsqualität mindert. Aufsteigend aufgezählt<br />

<strong>von</strong> dem Merkmal mit der geringsten Verschlechterung aus sind dies (ohne Satzlänge):<br />

Relativsätze (statt Nebensätzen im Allgemeinen), abgetrennte Kompositionsglieder (statt<br />

Ellipsen im Allgemeinen), Verbklammern, Inversionen der Wortstellung, Mehrdeutigkeiten<br />

und Nominalklammern. Die Satzlänge ist zwar auch maßgeblich für die Fehlerzahl<br />

verantwortlich, lässt sich allerdings nicht in den Kanon der anderen Merkmale einreihen,<br />

weil dieses Merkmal jeden Satz zwingend begleitet und nicht entfernbar ist.<br />

Um die Zielsetzungen der Arbeit zu erfüllen, müssen zwei Maßzahlen angegeben werden:<br />

• die Übersetzbarkeit eines einzelnen Satzes und<br />

• die aggregierte Übersetzbarkeit eines ganzen Textes mit beliebig vielen Sätzen.<br />

Eine zentrale Frage dabei ist, wie der Index aussehen soll. Der Logos Translatability Index<br />

etwa setzt für die Übersetzbarkeit einen Maximalwert <strong>von</strong> sieben Punkten an und zieht<br />

dann je nach Textbeschaffenheit Punkte ab [Gda94]. Neben der Willkür dieser Festsetzung<br />

ist auch der gewählte Ausgangswert des Indexes <strong>von</strong> sieben Punkten nicht ohne Hintergrundwissen<br />

nachzuvollziehen. Hingegen ist der <strong>von</strong> Translatability Checker [JU01] und<br />

Translation Confidence Index [Ber99] benutzte Ausgangswert <strong>von</strong> 100 Punkten immer<br />

noch willkürlich, aber wesentlich einprägsamer, weil er einfach als Prozentwert gedeutet<br />

werden kann. Und je mehr negative Faktoren zusammenkommen, desto geringer wird der<br />

Wert.<br />

Ein Problem bei einer derartigen Vorgehensweise, die <strong>von</strong> einem Ausgangswert aus abnehmende<br />

Werte vergibt, ist aber, dass irgendwann 0 erreicht werden kann und negative<br />

Übersetzbarkeitsindizes wenig Sinn ergeben. Und kann man überhaupt sagen, dass ein<br />

Satz eine Übersetzbarkeit <strong>von</strong> 0 hat? Wie vergleicht man einen solchen Satz sinnvoll mit<br />

einem, der noch viel mehr abträgliche Merkmale aufweist, dem man aber dennoch keine<br />

geringere Übersetzbarkeit zuschreiben kann?<br />

Es scheint daher wesentlich hilfreicher, einen Index zu benutzen, der bei 0 beginnt und<br />

dann unbeschränkt Strafpunkte hinzufügen kann. Je höher dann der Wert dieses Indexes,<br />

66


6.1. Erstellung des Übersetzbarkeitsindexes<br />

desto geringer ist die Übersetzbarkeit bzw. desto höher das Fehlerrisiko, und sowohl Aussagekraft<br />

als auch Vergleichbarkeit <strong>von</strong> Sätzen sind jederzeit gegeben. Dieser Ansatz wird<br />

also nunmehr weiter verfolgt.<br />

6.1.1. Übersetzbarkeit <strong>von</strong> Texten<br />

Die Übersetzbarkeit eines ganzen Textes lässt sich beschreiben als der Mittelwert der<br />

Übersetzbarkeitswerte seiner einzelnen Sätze. Seien t der zu bewertende Text, n die Anzahl<br />

der Sätze, aus denen der Text besteht, und s i der i-te Satz im Text. Sei außerdem T S die<br />

Übersetzbarkeit eines einzelnen Satzes (T für engl. translatability). Dann gilt für die<br />

Übersetzbarkeit T T dieses Textes:<br />

T T (t) = 1 n ·<br />

n∑<br />

T S (s i )<br />

i=1<br />

6.1.2. Übersetzbarkeit <strong>von</strong> Sätzen<br />

In den Index für die Übersetzbarkeit eines einzelnen Satzes muss das Vorkommen der<br />

verschiedenen relevanten Textmerkmale einfließen. Außerdem ist zu berücksichtigen, wie<br />

häufig ein Merkmal im Satz auftritt, da etwa drei Mehrdeutigkeiten in einem Satz mehr<br />

Fehler bei der Übersetzung nach sich ziehen als eine. Darüber hinaus stellt sich die Frage<br />

nach der Gewichtung der einzelnen Merkmale, da ihre Beseitigung in den Textkorpora teils<br />

erheblich unterschiedliche Auswirkungen hatte. Die Spanne der Abnahme der absoluten<br />

Fehlerzahl reicht <strong>von</strong> rund zwei bis gut 13 Prozent. Es wäre daher falsch, für alle Textmerkmale<br />

dieselbe Punktzahl anzurechnen. Die Gewichtung muss also die quantitativen<br />

Abstände zwischen den Merkmalen wiedergeben.<br />

Die folgende Tabelle zeigt im Überblick die verschiedenen Textmerkmale, die die Übersetzungsqualität<br />

beeinflussen, mit den Veränderungen der Fehlerzahlen, wenn das Vorkommen<br />

dieser Merkmale reduziert oder ganz entfernt wird, und den Abständen dazwischen.<br />

Als Punktwert bzw. Indexgewicht wird dabei jeweils der auf 0, 5 gerundete und halbier-<br />

Merkmal ∆ Fehler bei Entfernen Differenz zum Vorigen Gewicht<br />

Relativsätze -2,58% — 1,25<br />

abgetr. Kompositionsgl. -4,32% -1,74% 2,25<br />

Verbklammern -9,58% -5,26% 4,75<br />

Inversionen -9,73% -0,15% 4,75<br />

Mehrdeutigkeiten -11,72% -1,99% 5,75<br />

Nominalklammern -13,39% -1,67% 6,75<br />

Tabelle 6.1.: Auswirkungen der Textmerkmale im Vergleich<br />

te Betrag der Fehlerzahlveränderung aus Tabelle 6.1 benutzt. Die Halbierung erfolgt,<br />

damit die Werte nicht zu schnell zu groß werden. Damit ergeben sich für Relativsätze<br />

1, 25 und für abgetrennte Kompositionsglieder 2, 25, für Mehrdeutigkeit 5, 75 und für<br />

Nominalklammern 6, 75 Punkte als Gewichtung. Inversionen und Verbklammern werden<br />

zusammengefasst bei einem Wert <strong>von</strong> 4, 75 Punkten.<br />

67


6. Zusammenführung der Kriterien in einem Index<br />

Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt<br />

statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert<br />

zuordnet, wobei der Wert zu den anderen hinzugefügt wird.<br />

Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die<br />

Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit<br />

des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die<br />

Länge des Satzes s seien, gilt dann:<br />

T S (s) = f L (L(s)) +<br />

n∑<br />

g i · m i<br />

i=1<br />

Oder mit den explizit eingesetzten Gewichten für die Merkmale:<br />

T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk<br />

Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv<br />

die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der<br />

Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten<br />

Kompositionsglieder.<br />

6.1.3. Bewertung der Satzlänge<br />

Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung<br />

in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro<br />

Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als<br />

bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro<br />

Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische<br />

Darstellung des Zusammenhangs <strong>von</strong> durchschnittlicher Satzlänge (horizontale Achse)<br />

und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung<br />

des Einflusses der Satzlänge gemessen worden waren.<br />

Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um<br />

eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete<br />

der Autor verschiedene dekadisch logarithmische Funktionen der Form<br />

f L (L(s)) = a · lg(b · L(s) c + d),<br />

wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b,<br />

c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate,<br />

also die Quadrate der Abweichungen der Funktionswerte <strong>von</strong> den empirisch gemessenen<br />

Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag <strong>von</strong> lediglich<br />

2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei<br />

großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den<br />

Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen<br />

Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet<br />

also bei gegebener Länge:<br />

∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1)<br />

68


6.2. Überprüfung des Übersetzbarkeitsindexes<br />

Abbildung 6.1.: Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort (mit eingefügter<br />

gestrichelter Trendlinie zwischen den empirisch gemessenen Werten)<br />

6.2. Überprüfung des Übersetzbarkeitsindexes<br />

Von zentraler Bedeutung für die Güte des Indexes ist, dass seine Werte die Fehleranfälligkeit<br />

eines gegebenen Satzes passend widerspiegeln. Um sicherzustellen, dass der Index<br />

sinnvolle Bewertungen vornimmt, an denen man die Richtung, in die die Übersetzungsqualität<br />

eines gegebenen Satzes gehen wird, korrekt voraussehen kann, ist also ein Test<br />

der Übersetzbarkeitsfunktion auf Satzebene erforderlich1 . Gleichzeitig diente dieser Test<br />

auch dazu zu erkennen, wie hoch die vom Index errechneten Werte bei welchen erwarteten<br />

Fehlerzahlen ausfallen; dies lässt sich allein aus der Definition der Gleichungen nicht<br />

ablesen.<br />

Für die Überprüfung wurden aus dem Korpus mit kurzen Sätzen und bei allen anderen<br />

Textmerkmalen aus den Korpora mit Originalsätzen die ersten 15 Sätze herausgenommen<br />

und vom Übersetzbarkeitsindex bewertet. Insgesamt wurde die Funktion also an 135<br />

verschiedenen Sätzen getestet. Damit konkrete Werte für die einzelnen Sätze berechnet<br />

werden konnten, wurde für jeden einzelnen Buch geführt, wie oft die relevanten Textmerkmale<br />

darin auftraten. Am häufigsten kamen Mehrdeutigkeiten vor (168), am seltensten<br />

abgetrennte Kompositionsglieder (16). Zu den Mehrdeutigkeiten ist außerdem zu sagen,<br />

dass wie im zugehörigen Textkorpus nur lexikalische Mehrdeutigkeiten, also Wörter mit<br />

verschiedenen Bedeutungen in der Zielsprache, gezählt wurden. Es zeigte sich eine große<br />

Bandbreite <strong>von</strong> Indexwerten für die Übersetzbarkeit, die <strong>von</strong> etwa zwölf bis hin zu gut 70<br />

Punkten reichte.<br />

Die Qualität des Indexes kann durch einen linear-proportionalen Zusammenhang zwischen<br />

der absoluten Fehlerzahl pro Satz und der Höhe des Indexwertes gezeigt werden, indem<br />

die Indexwerte sich – abzüglich einer Konstante – prozentual ähnlich stark verändern wie<br />

1 Werden die einzelnen Sätze überwiegend richtig bewertet, so gilt dies aufgrund der Beschaffenheit der<br />

Übersetzbarkeitsfunktion für Texte aus beliebig vielen Sätzen dann auch für den ganzen Text.<br />

69


6. Zusammenführung der Kriterien in einem Index<br />

die Fehlerzahlen pro Satz. Die Fehlerzahl pro Wort ist hier als Variable nicht relevant, weil<br />

ein kurzer Satz, dem genau dieselbe Übersetzbarkeit zugeordnet wird wie einem längeren,<br />

bei gleicher Anzahl tatsächlicher Fehler eine viel höhere Fehlerzahl pro Wort aufweist. Die<br />

Vergleichbarkeit ist somit nicht gegeben.<br />

Die 135 Sätze wurden also auf eine Korrelation zwischen Fehlerzahl und Indexwert hin<br />

untersucht. Zu diesem Zweck wurden die Indexwerte der Sätze in sieben Intervalle eingeteilt.<br />

Fünf dieser Intervalle umfassten fünf Punkte, nämlich 20 bis 25, weiter bis 30, bis<br />

35, bis 40 und bis 45 Punkte. Die Werte kleiner als 20 und größer gleich 45 bildeten jeweils<br />

eigene Intervalle. Den Intervallen wurden nun die zugehörigen aggregierten Fehlerzahlen<br />

zugeordnet und durch die Anzahl der Sätze im jeweiligen Bereich geteilt, so dass sich<br />

durchschnittliche Fehlerzahlen pro Satz ergaben, die <strong>von</strong> 2, 35 Fehlern bei Indexwerten<br />

unter 20 Punkten bis zu 6, 63 Fehlern pro Satz bei 45 und mehr Indexpunkten reichen.<br />

Die exakten Ergebnisse sind in Tabelle 6.2 aufgeführt.<br />

Wertebereich Indexwerte Anzahl Sätze Anzahl Fehler ∅ Fehler pro Satz<br />

1 0-20 17 40,0 2,35<br />

2 20-25 33 101,5 3,08<br />

3 25-30 26 77,0 2,96<br />

4 30-35 22 86,5 3,93<br />

5 35-40 14 71,0 5,07<br />

6 40-45 11 65,0 5,91<br />

7 ≥45 12 79,5 6,63<br />

Tabelle 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz<br />

Die Werteintervalle des Indexes in der zweiten Spalte inkludieren dabei jeweils den unteren<br />

Grenzwert und schließen den oberen aus. Die Fehlerzahl in der vierten Spalte ist der<br />

Mittelwert der Summe der Fehler, die Personal Translator 2006 und Babel Fish bei der<br />

Übersetzung der Sätze, die in den jeweiligen Indexbereich fallen, verursacht haben.<br />

Abbildung 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz<br />

70


6.2. Überprüfung des Übersetzbarkeitsindexes<br />

Wie man erkennt, nimmt die Fehlerhäufigkeit bei steigenden Indexwerten zu. Es gibt zwar<br />

im dritten Intervall den Fall, dass die Fehlerzahl leicht geringer ist als im vorherigen Intervall,<br />

jedoch ist dieser Ausreißer nach unten nur sehr klein. Grafisch dargestellt ist das Ergebnis<br />

in Abbildung 6.2. Eine lineare Abhängigkeit lässt sich anhand des Verlaufs der Fehlerzahl<br />

bereits erahnen. Dementsprechend wurde zusätzlich eine lineare Regression auf den<br />

vorhandenen Werten durchgeführt, deren Gerade ebenfalls in der Abbildung eingezeichnet<br />

ist. Ihre Gleichung lautet auf drei Nachkommastellen gerundet y = 0, 736 · x + 1, 334. Die<br />

Variable x bezeichnet darin die <strong>von</strong> eins bis sieben durchnummerierten Wertebereiche,<br />

y die Fehlerzahl pro Satz. So ergibt sich etwa auf der Regressionsgeraden für das dritte<br />

Intervall ein Wert <strong>von</strong> 0, 736 · 3 + 1, 334 = 3, 542 Fehlern pro Satz.<br />

Das Bestimmtheitsmaß der Geraden beträgt R 2 ≈ 0, 96, was einen unerwartet hohen<br />

Wert und einen nahezu perfekten linearen Zusammenhang zwischen Indexintervallen und<br />

absoluter Fehlerzahl darstellt. Es besteht demnach kein Anlass, die Gewichte der in den<br />

Index einfließenden Textmerkmale oder die Satzlängenbewertung anzupassen. Die Übersetzbarkeitsfunktion<br />

wird daher unverändert in das zu erstellende Bewertungsprogramm<br />

übernommen.<br />

71


Teil III.<br />

MT Analyser: Automatische <strong>Messung</strong><br />

der maschinellen Übersetzbarkeit<br />

72


7. Modellierung <strong>von</strong> MT Analyser<br />

Nachdem die theoretische Vorarbeit abgeschlossen ist, kann mit der Erstellung des Programms<br />

zur automatischen Bewertung der Übersetzbarkeit eines deutschsprachigen Textes<br />

ins Englische begonnen werden. Das Programm wird MT Analyser heißen (Logo siehe<br />

Abbildung 7.1), wobei MT für machine translatability steht und der Name wohl keiner<br />

weiteren Erklärung bedarf.<br />

Die folgenden Abschnitte erklären detailliert die Anforderungen an das Programm, seinen<br />

Entwurf sowie die zur Verfügung stehenden Hilfsmittel und Werkzeuge.<br />

Abbildung 7.1.: Logo <strong>von</strong> MT Analyser (Startbildschirm des Programms)<br />

7.1. Systemabgrenzung<br />

Was soll MT Analyser sein und was nicht?<br />

MT Analyser ist gedacht als Hilfsprogramm für Menschen, die - aus welchen Gründen<br />

auch immer - kürzere oder längere Texte aus dem Deutschen ins Englische übersetzen<br />

wollen oder müssen und sich dabei maschineller Übersetzungsprogramme bedienen, um<br />

ihre Arbeit effizienter zu gestalten. Durch MT Analyser sollen sie Hinweise erhalten, wie<br />

sie ihre Texte in der Ausgangssprache überarbeiten können, damit die Fehlerrate und<br />

somit der Aufwand für die Nachbearbeitung der maschinellen Übersetzungen möglichst<br />

gering bleibt.<br />

Das Programm richtet sich vorwiegend an einzelne Personen mit normalen Kenntnissen<br />

im Umgang mit Computern und Software. Ausreichendes Vorwissen über die deutsche<br />

Grammatik wird vorausgesetzt, das heißt, es wird erwartet, dass Benutzer mit den entsprechenden<br />

Fachbegriffen vertraut sind oder diese in einem Fachbuch nachschlagen, z. B.<br />

[BEFH + 05].<br />

73


7. Modellierung <strong>von</strong> MT Analyser<br />

Insbesondere ist MT Analyser kein Programm, das bewertet, wie gut ein Mensch einen<br />

Text übersetzen kann! Hierfür hätten im Vorfeld andere Untersuchungen durchgeführt<br />

und andere Kriterien zugrundegelegt werden müssen.<br />

Außerdem soll MT Analyser kein Aufsatz für ein bereits existierendes Übersetzungsprogramm<br />

sein, sondern als unabhängiges und alleinstehendes Programm Texte hinsichtlich<br />

ihrer Übersetzbarkeit allgemeingültig analysieren, ohne auf die Stärken oder Schwächen<br />

eines bestimmten MÜ-Programms ausgerichtet zu sein. Dabei ist natürlich nicht auszuschließen,<br />

dass es eines Tages für ein Programm optimiert wird.<br />

Schließlich soll MT Analyser auch keine kontrollierte Sprache sein (vgl. Abschnitt 3.1). Es<br />

werden keine Regeln für den Sprachgebrauch vorgeschrieben, sondern lediglich Hinweise<br />

erteilt, an die die Verfasser zu übersetzender Texte sich halten können, aber nicht müssen.<br />

7.2. Anforderungen an MT Analyser<br />

Das Hauptziel der Entwicklung <strong>von</strong> MT Analyser lässt sich mit einem Satz so formulieren:<br />

Das Programm muss in der Lage sein, den in dieser Arbeit erstellten Übersetzbarkeitsindex<br />

mit seinen gewichteten Textmerkmalen auf einen deutschsprachigen<br />

Text beliebiger Länge anzuwenden und ein ausführliches Ergebnis<br />

der Bewertung der Übersetzbarkeit dieses Textes zu erzeugen.<br />

Um dies zu erreichen, muss eine Reihe <strong>von</strong> funktionalen Anforderungen erfüllt werden. Sie<br />

ergeben sich vor allem aus Abschnitt 7.1 und aus der Tatsache, dass der Wortlaut eines<br />

Textes allein nicht ausreicht, um seine Eigenschaften zu erkennen. Im einzelnen sind dies:<br />

• Die einzelnen Sätze innerhalb eines Textes müssen möglichst präzise erkannt werden.<br />

• Zu den einzelnen Sätzen müssen weitere Informationen beschafft werden. Es ist<br />

unverzichtbar zu wissen, welche Grundform zu einem Wort eines Satzes gehört und<br />

zu welcher Wortart es zählt. Die Grundform wird beispielsweise zum Auffinden<br />

<strong>von</strong> Mehrdeutigkeiten benötigt, die Wortart zum Erkennen <strong>von</strong> Verben, die für eine<br />

Verbklammer infrage kommen. Weil diese Informationen nicht ohne weiteres erlangt<br />

werden können, liegt der Einsatz eines bereits vorhandenen Programms nahe, das<br />

diese Aufgabe übernimmt und in MT Analyser eingebunden wird.<br />

• Jeder Satz muss korrekt in seine Teilsätze zerlegt werden, um sinnvoll nach Textmerkmalen<br />

suchen zu können. Nominal- und Verbklammern beispielsweise können<br />

nur zuverlässig erkannt werden, wenn klar ist, welche Wörter des Satzes zu einem<br />

Teilsatz (z. B. Hauptsatz, Konzessivsatz, Finalsatz etc.) zusammengehören und somit<br />

die Teile der Klammer bilden können.<br />

• Die verschiedenen Textmerkmale müssen unter Ausnutzung der vorhandenen Informationen<br />

mit möglichst hoher Genauigkeit erkannt werden. Hierfür sind geeignete<br />

Algorithmen zu schreiben, die jeden Satz/Teilsatz durchsuchen.<br />

• Der Wert des Übersetzbarkeitsindexes muss sowohl auf Text- als auch auf Satzebene<br />

berechnet werden, nachdem alle Textmerkmale gefunden worden sind.<br />

74


7.3. Zur Verfügung stehende Hilfsmittel<br />

• Um Mehrdeutigkeiten sinnvoll behandeln zu können, muss ein editierbares Wörterbuch<br />

implementiert werden, das eine beliebige Anzahl mehrdeutiger Begriffe sowie<br />

deren verschiedene Bedeutungen persistent speichert.<br />

• Das Ergebnis der Bewertung muss in schriftlicher digitaler Form persistent gespeichert<br />

werden, um eine Nachbearbeiteung des zugrundeliegenden Textes zu ermöglichen.<br />

Dazu zählt auch, dass alle Übersetzungsschwierigkeiten sowie weitere wichtige<br />

textbezogene Parameter angezeigt werden.<br />

• MT Analyser muss sowohl mit einer grafischen Oberfläche als auch in einer textbasierten<br />

Kommandozeile ausgeführt werden können, um den verschiedenen Benutzungsvorlieben<br />

gerecht zu werden, wobei sämtliche Funktionen in beiden Oberflächen<br />

verfügbar sein müssen.<br />

• MT Analyser muss außerdem sowohl auf Windows- als auch auf Linux- und Solaris-<br />

<strong>Systeme</strong>n lauffähig sein.<br />

• Sämtliche für die Übersetzbarkeit relevanten Parameter müssen konfigurierbar sein,<br />

um bei Bedarf Anpassungsmöglichkeiten zu bieten. Das betrifft insbesondere die zu<br />

bewertenden Textmerkmale sowie deren Gewichtung im Index.<br />

• Fehler sind mittels einer geeigneten Fehlerbehandlung abzufangen und ausführlich<br />

zu berichten, wobei die Ausführung <strong>von</strong> MT Analyser nach Möglichkeit nicht abgebrochen<br />

werden soll.<br />

• Zusätzlich soll eine Demoversion in Form einer Webanwendung erstellt werden, die<br />

allen Internetnutzern die Möglichkeit gibt, die wesentlichen Funktionen <strong>von</strong> MT<br />

Analyser auszuprobrieren und sich über das Programm und die dahinterstehende<br />

Arbeit zu informieren.<br />

Darüber hinaus sind noch einige nicht-funktionale Anforderungen zu erfüllen. Sie ergeben<br />

sich unter anderem aus Abschnitt 7.1.<br />

• Das Programm muss prinzipiell einfach zu bedienen sein und bei Bedarf Hilfestellung<br />

anbieten.<br />

• Die Ergebnisse der Übersetzbarkeitsbewertung müssen bei Vorkenntnissen der deutschen<br />

Grammatik verständlich und nachvollziehbar sein.<br />

• MT Analyser muss auf PCs und Workstations mit gängiger Hardwareausstattung<br />

funktionieren.<br />

• Die Laufzeit für die Analyse der Übersetzbarkeit muss sich in einem angemessenen<br />

Rahmen (einige Sekunden für ein Textkorpus mit 100 Sätzen) halten.<br />

7.3. Zur Verfügung stehende Hilfsmittel<br />

7.3.1. Java und Swing<br />

Als Programmiersprache wird Java <strong>von</strong> Sun Microsystems gewählt. Der Hauptgrund<br />

hierfür ist die Plattformunabhängigkeit, weil MT Analyser sowohl auf Windows- als auch<br />

75


7. Modellierung <strong>von</strong> MT Analyser<br />

auf Solaris- und Linux-basierten Rechnern arbeiten soll. Mit anderen, plattformgebundenen<br />

Programmiersprachen wie C# wäre dies nicht oder nur mit aufwändigen Anpassungen,<br />

die verschiedene Versionen erfordern, möglich.<br />

Für die grafische Oberfläche wird das in Java enthaltene Grafikpaket Swing benutzt.<br />

Die ebenfalls frei verfügbaren Oberflächen AWT (Abstract Window Toolkit) <strong>von</strong> Sun und<br />

SWT (Standard Widget Toolkit) <strong>von</strong> IBM werden nicht eingesetzt. AWT bietet keine<br />

einheitliche Darstellung grafischer Elemente auf verschiedenen Betriebssystemen, während<br />

SWT nicht plattformunabhängig ist.<br />

7.3.2. Tagging-Richtlinien<br />

Um einen Text mit Informationen über die Wortarten der einzelnen Wörter anzureichern,<br />

werden so genannte Tags benutzt. An den Universitäten Tübingen und Stuttgart wurde<br />

zwecks Vereinheitlichung des Taggings deutschsprachiger Textkorpora das Stuttgart-<br />

Tübingen-Tagset (STTS) definiert [SSTT99], das festlegt, unter welchen Bedingungen<br />

einem Wort ein bestimmtes Tag zugewiesen wird.<br />

Das STTS geht dabei <strong>von</strong> insgesamt elf Hauptwortarten aus, die wiederum feiner unterteilt<br />

werden. Zum Beispiel gibt es nicht nur einen Tag für die Wortart Verb, sondern<br />

unterschiedliche Tags für Modal-, Hilfs- und Vollverben. Die Anzahl aller verschiedenen<br />

Tags beträgt 54, wobei 48 auf die verschiedenen Wortarten entfallen, während die restlichen<br />

sechs für Fälle benutzt werden, in denen eine Zuordnung nach herkömmlichem<br />

Muster nicht möglich ist, etwa bei abgetrennten Kompositionsgliedern.<br />

Allerdings enthält das STTS keine detaillierteren grammatikalischen Informationen zur<br />

Flexion <strong>von</strong> Worten, so dass man zwar etwa erkennen kann, dass an einer bestimmten<br />

Stelle ein finites Hilfsverb vorliegt, aber eben nicht, in welcher Person, welchem Modus,<br />

welchem Genus verbi, welchem Tempus und welchem Numerus es steht. Entsprechendes<br />

gilt für die Deklination <strong>von</strong> Nomen und die Komparation <strong>von</strong> Adjektiven und Adverbien.<br />

Die Möglichkeiten zur syntaktischen Analyse sind somit also eingeschränkt.<br />

Wenn im weiteren Verlauf <strong>von</strong> bestimmten Tags gesprochen wird, mit denen Wörter eines<br />

zu bewertenden Textes versehen werden oder wurden, so bezieht sich die Angabe der Tags<br />

immer auf das STTS.<br />

7.3.3. TreeTagger<br />

Weil die Identifizierung der Grundformen, der Wortarten sowie der Satzfunktion der einzelnen<br />

Wörter des Textes unerlässlich, aber nicht im Rahmen dieser Arbeit mit eigenen<br />

Programmen zu bewältigen ist, wird ein so genannter Part-of-Speech-Tagger benötigt, der<br />

diese Aufgabe übernimmt. Um eine gründliche Analyse der Satzstruktur durchzuführen,<br />

die den Anforderungen an die Suche nach den verschiedenen Textmerkmalen gerecht wird,<br />

kommt TreeTagger 1 zum Einsatz (siehe [Sch94]), der <strong>von</strong> Helmut Schmid an der Universität<br />

Stuttgart entwickelt wurde.<br />

Dieser Tagger ist in der Lage, gemäß STTS (siehe Abschnitt 7.3.2), den einzelnen Wörtern<br />

Tags zuzuweisen, die deren Funktion im Satz auf einer sehr detaillierten Wortartebene<br />

beschreiben. Darüber hinaus ermittelt TreeTagger auch die Grundform, sofern das Wort<br />

bekannt ist.<br />

1 Im Internet verfügbar unter: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/<br />

DecisionTreeTagger.html, zuletzt besucht am 3. April 2007<br />

76


7.4. Modellierung wesentlicher Programmteile<br />

TreeTagger zeichnet sich dadurch aus, dass er auf allen Betriebssystemen, für die auch<br />

MT Analyser vorgesehen ist, arbeiten kann. Ihm zugrunde liegt ein wahrscheinlichkeitstheoretisches,<br />

auf Entscheidungsbäumen basierendes Modell, dessen Parameter sich über<br />

manuell getaggte Textkorpora trainieren lassen [Sch94].<br />

TreeTagger arbeitet insgesamt sehr zuverlässig mit einer durchschnittlichen Fehlerquote<br />

<strong>von</strong> 2, 5 bis 5 Prozent je nach Version und zum Testen benutztem Textkorpus (vgl. [Sch95]<br />

und [SV98]). In einem Vergleich mit dem <strong>von</strong> Jongejan und Underwood [JU01] im Translatability<br />

Checker bei der Bewertung der Übersetzbarkeit verwendeten (regelbasierten)<br />

Brill-Tagger schneidet TreeTagger leicht besser ab (vgl. [SV98]).<br />

Trotz der relativ geringen Fehlerzahlen bleibt festzuhalten, dass immerhin jedes 20. bis 40.<br />

<strong>von</strong> TreeTagger zugewiesene Tag falsch und in Konsequenz die Erkennung <strong>von</strong> Textmerkmalen<br />

im betroffenen Satz bei Zugriff auf diese Tags beeinträchtigt ist. Ferner beschränken<br />

die vergebenen Tags wegen der Benutzung des STTS die Analysemöglichkeiten <strong>von</strong> MT<br />

Analyser im Nachfeld der Ausführung <strong>von</strong> TreeTagger (siehe Abschnitt 7.3.2).<br />

7.4. Modellierung wesentlicher Programmteile<br />

7.4.1. Komponenten <strong>von</strong> MT Analyser<br />

Es bietet sich an, das Programm MT Analyser zwecks besserer Strukturierung auf verschiedene<br />

kleinere Komponenten (in Java: Pakete) zu verteilen, die jeweils eine zusammengehörende<br />

Sammlung <strong>von</strong> Funktionen kapseln. Bedenkt man, dass als zentrale Funktionen<br />

die Einbindung <strong>von</strong> TreeTagger, die Bewertung der Übersetzbarkeit des ausgewählten<br />

Textes, die grafische sowie die textuelle Oberfläche, der Übersetzbarkeitsreport und die<br />

Verwaltung des Mehrdeutigkeitslexikons zu implementierten sind, erweist sich der folgende<br />

Programmaufbau in Paketen als sinnvoll:<br />

• Paket mtanalyser: Klassen zum Programmstart und zur übergeordneten Ablaufsteuerung<br />

• Paket mtanalyser.core: Klassen zur Speicherung der textbezogenen Daten und zur<br />

Bewertung der Übersetzbarkeit (vgl. 7.4.2)<br />

• Paket mtanalyser.reporting: Klassen zur Erstellung des Übersetzbarkeitsreports<br />

• Paket mtanalyser.lexicon: Klassen für das Mehrdeutigkeitslexikon<br />

• Paket mtanalyser.tagger: Klassen zur Datenaufbereitung für TreeTagger<br />

• Paket mtanalyser.gui: Klassen für die grafische Oberfläche<br />

• Paket mtanalyser.console: Klassen für die textuelle Oberfläche<br />

• Paket mtanalyser.exceptions: Klassen zur Ausnahmebehandlung<br />

7.4.2. Datenhaltung und Datenbearbeitung im Programmkern<br />

Die datentechnische Grundlage des Programms lässt sich wie folgt modellieren: Ein Text<br />

soll bewertet werden. Dieser Text besteht aus vielen verschiedenen, aber mindestens einem<br />

77


7. Modellierung <strong>von</strong> MT Analyser<br />

Satz, für den ebenfalls eine Wertung zu erstellen ist. Darüber hinaus besteht jeder Satz<br />

aus einem oder mehreren Teilsätzen, die benötigt werden, um die Textmerkmale darin<br />

zu suchen. Gleichzeitig ist einem Satz eine unbestimmte Anzahl größer oder gleich null<br />

<strong>von</strong> Übersetzungsschwierigkeiten zugeordnet, die sich aus den gefundenen Textmerkmalen<br />

ergeben.<br />

Daraus lassen sich vier Klassen ableiten: Text für den kompletten Text, Sentence für einen<br />

einzelnen Satz aus dem Text, PartialSentence für einen Teilsatz eines Satzes und TranslationDifficulty<br />

für eine Übersetzungsschwierigkeit. Hinzu kommt noch eine fünfte Klasse<br />

namens TextStatistics, die <strong>von</strong> der Klasse Text benutzt wird, um wichtige statistische<br />

Kennzahlen zu speichern.<br />

Zusätzlich müssen auf Basis dieser Datenhaltungsklassen alle wichtigen Berechnungen<br />

zur Bewertung der Übersetzbarkeit durchgeführt werden, wofür sich zwei weitere Klassen<br />

anbieten - je eine zur Berechnung auf Satz- und Textebene. Dies sind SentenceAnalyser zur<br />

Analyse eines einzelnen Satzes und TextAnalyser zur Analyse des gesamten Textes. Das<br />

Zusammenspiel zwischen den Klassen lässt sich dem UML-Klassendiagramm in Abbildung<br />

7.2 entnehmen.<br />

Klasse Text<br />

Die Klasse Text ist die oberste Klasse und kapselt einen kompletten Text. Sie besteht im<br />

wesentlichen aus einem Array mit mindestens einem Satz, gespeichert als Objekte vom<br />

Typ Sentence. Hinzu kommt eine Instanz vom Typ TextStatistics, in der die zum Text<br />

gehörenden Kennzahlen wie die Anzahl der gefundenen Schwierigkeiten hinterlegt sind.<br />

Drei Attribute sind auch direkt in der Klasse zugänglich, unter anderem die wichtigste<br />

Kennzahl, der Übersetzbarkeitsindex des gesamten Textes.<br />

Klasse Sentence<br />

Eine Instanz der Klasse Sentence repräsentiert einen Satz aus einem größeren Text und<br />

speichert über den eigentlichen Text hinaus weitere wichtige Parameter. Insbesondere<br />

gehören zu einem Satz auch die <strong>von</strong> TreeTagger vergebenen Tags und die jeweiligen<br />

Grundformen der Wörter. Sie werden wie auch die einzelnen Wörter in Arrays <strong>von</strong> jeweils<br />

identischer Größe gespeichert. Eine Darstellung des ursprünglichen Satzes als ein String<br />

ist ebenfalls verfügbar. Darüber hinaus sind in jedem Satz auch die einzelnen Teilsätze<br />

sowie die gefundenen Übersetzungsschwierigkeiten gespeichert. Jeder Satz hat mindestens<br />

einen Teilsatz, aber nicht unbedingt eine Übersetzungsschwierigkeit. Der Übersetzbarkeitsindex<br />

des Satzes sowie die Länge in Wörtern mit und ohne Satzzeichen können ebenfalls<br />

abgerufen werden.<br />

Klasse PartialSentence<br />

Die Klasse PartialSentence kapselt einen Teilsatz, der aus einem ganzen Satz extrahiert<br />

wurde. Die zugehörigen Wörter, Tags und Grundformen werden wie in der Klasse Sentence<br />

in gleichgroßen Arrays abgelegt. Ein Objekt der Klasse PartialSentence kann sowohl ein<br />

atomarer Teilsatz als auch ein aus mehreren Teilsätzen zusammengesetztes Aggregat sein.<br />

Der Parameter attached gibt dabei an, ob ein Teilsatz bereits einem anderen angegliedert<br />

wurde. Ist er auf falsch gesetzt, so steht der aktuelle Teilsatz für die Angliederung anderer<br />

Teilsätze bereit. Das Zusammenfügen zweier Teilsätze übernimmt die Methode attach.<br />

78


7.4. Modellierung wesentlicher Programmteile<br />

Abbildung 7.2.: Modellierung der zentralen Klassen zur Textbewertung<br />

79


7. Modellierung <strong>von</strong> MT Analyser<br />

Darüber hinaus wird gespeichert, wo der Teilsatz im gesamten Satz sich erstreckt (Attribute<br />

startPos und endPos) und an welchen Stellen er <strong>von</strong> einem anderen Teilsatz<br />

unterbrochen bzw. wieder aufgenommen wurde (Vektoren discontinuations und continuations).<br />

Außerdem wird im Attribut order eine Ordnungszahl gespeichert, die die Ebene<br />

in der Satzhierarchie angibt, auf der sich der Satz befindet (mehr dazu siehe Abschnitt<br />

8.2.3). Die übrigen Attribute beinhalten weitere Informationen zu der Art des Teilsatzes<br />

und werden in Abschnitt 8.2.2 erläutert.<br />

Klasse TranslationDifficulty<br />

Die Klasse TranslationDifficulty repräsentiert alle Arten <strong>von</strong> Übersetzungsschwierigkeiten,<br />

die entstehen, wenn ein bestimmtes Textmerkmal auftritt. Es wäre natürlich auch möglich<br />

gewesen, für jedes relevante Textmerkmal eine eigene Klasse zu entwerfen, jedoch ähneln<br />

sich alle Textmerkmale in ihren Attributen (alle haben Indexwerte, eine Nachricht für<br />

die Autoren etc.) sehr stark. Der einzige wesentliche Unterschied liegt in ihrer Länge: So<br />

bezieht sich eine Mehrdeutigkeit immer nur auf genau ein Wort, während ein Relativsatz<br />

einen ganzen Nebensatz umfasst. Gerade auch im Hinblick auf die Implementierung und<br />

eine mögliche Erweiterung der Analyse um neue Textmerkmale ist diese Vereinheitlichung<br />

sehr komfortabel.<br />

In einer Instanz des Typs TranslationDifficulty werden sämtliche Attribute mit den zugehörigen<br />

Werten gespeichert, die eine Übersetzungsschwierigkeit ausmachen. Dies sind<br />

im einzelnen:<br />

• Start- und Endposition der Übersetzungsschwierigkeit innerhalb des gesamten Satzes<br />

(Attribute startPos und endPos),<br />

• die aus Start- und Endposition abgeleitete Länge der Übersetzungsschwierigkeit<br />

(Attribut length),<br />

• der Typ der Übersetzungsschwierigkeit als Code (Attribut type) und als ausgeschriebener<br />

Name (Attribut name),<br />

• der Textausschnitt, der die Übersetzungsschwierigkeit widerspiegelt (Attribut words)<br />

sowie<br />

• eine Nachricht an die Autoren des bewerteten Textes (Attribut message).<br />

Klasse TextStatistics<br />

Um die Kennzahlen zu kapseln, die bei der Analyse eines Textes ermittelt werden, steht<br />

die Klasse TextStatistics zur Verfügung. Sie ermöglicht den Zugriff auf folgende Parameter,<br />

die den Text einstufen und hinter den entsprechenden englischnamigen Attributen<br />

verborgen sind: Übersetzbarkeitsindex des Textes, Satzanzahl, Wortanzahl, Zeichenanzahl<br />

(ohne Leerzeichen), Anzahl der Übersetzungsschwierigkeiten insgesamt, Anzahl der<br />

Inversionen, Anzahl der Mehrdeutigkeiten, Anzahl der abgetrennten Kompositionsglieder,<br />

Anzahl der Nominalklammern, Anzahl der Verbklammern, Anzahl der Relativsätze, minimaler<br />

und maximaler Übersetzbarkeitsindex eines Satzes sowie die Länge des kürzesten<br />

und längsten Satzes.<br />

80


7.4. Modellierung wesentlicher Programmteile<br />

Klasse TextAnalyser<br />

Eine Instanz der Klasse TextAnalyser dient dazu, den gesamten übergebenen Text zu<br />

bewerten und speichert dazu den errechneten Indexwert. Die Bewertung geschieht über<br />

die beiden Methoden analyseText() und calculateIndex(). Erstgenannte ruft für jeden<br />

einzelnen Satz alle Methoden auf, die nötig sind, um die Textmerkmale darin zu finden,<br />

zu bewerten und den Indexwert des Satzes zu berechnen. Dies erfolgt über die mit dem<br />

jeweiligen Satz verbundene Klasse SentenceAnalyser.<br />

Die Ergebnisse der Bewertung auf Satzebene werden dann in der Methode calculateIndex()<br />

aggregiert und der Gesamtindex des Textes berechnet. Über die Methode createStatistics()<br />

wird nach der Bewertung die dem gespeicherten Text-Objekt anhaftende TextStatistics-<br />

Instanz mit den Rahmeninformationen über den Text gefüllt.<br />

Den Ablauf der Textbewertung und das Zusammenspiel zwischen den Klassen TextAnalyser<br />

und SentenceAnalyser verdeutlicht das Sequenzdiagramm in Abbildung 7.3.<br />

Abbildung 7.3.: Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für<br />

beliebig viele Sätze<br />

Klasse SentenceAnalyser<br />

Die Klasse SentenceAnalyser stellt die Analysemechanismen auf Satzebene bereit. Sie<br />

speichert einen einzelnen Satz und zerlegt ihn als erstes in seine Haupt- und Nebensätze,<br />

wozu die Methoden findPartialSentences(), categorizePartialSentences(), orderPartialSentences()<br />

und rejoinPartialSentences() dienen. Diese werden in Abschnitt 8.2 näher vorgestellt.<br />

Für die Suche nach den verschiedenen Arten <strong>von</strong> Textmerkmalen werden die übrigen<br />

Methoden der Form find〈X〉(), die in Abschnitt 8.3 detailliert beschrieben werden, <strong>von</strong><br />

81


7. Modellierung <strong>von</strong> MT Analyser<br />

findTranslationDifficulties() aufgerufen. Dabei können die Gewichte der einzelnen Textmerkmale<br />

satzweise über die verschiedenen 〈X〉W eight-Attribute gesteuert werden. Ebenso<br />

kann durch Setzen der booleschen Attribute der Gestalt check〈X〉 bestimmt werden,<br />

welche Textmerkmale gesucht und bewertet werden sollen.<br />

Ein Aufruf der Methode findTranslationDifficulties() beginnt mit dem Ausführen der Methoden<br />

zur Satzzerlegung und durchsucht anschließend die so erhaltenen Teilsätze nach<br />

den ausgewählten Übersetzungsschwierigkeiten, die als Vektor im zugrundeliegenden Sentence-Objekt<br />

gespeichert werden. Im Anschluss an die Suche wird über die Methode calculateIndex()<br />

der Übersetzbarkeitsindex des aktuellen Satzes berechnet.<br />

7.4.3. Modellierung des Mehrdeutigkeitslexikons<br />

Ein Mehrdeutigkeitslexikon ist unverzichtbar, um eine Datenbasis zu haben, anhand derer<br />

Mehrdeutigkeiten im zu bewertenden Text gefunden werden können. Hier gibt es im<br />

wesentlichen zwei Möglichkeiten zur Datenspeicherung: in einer Datenbank oder in einer<br />

Datei. Weil eine Datenbank erst aufwändig <strong>von</strong> den Benutzern eingerichtet werden<br />

müsste und für ein Lexikon, das im Höchstfall einige tausend Einträge enthalten dürfte,<br />

überdimensioniert erscheint, fällt die Entscheidung auf eine Lexikondatei. Als Dateiformat<br />

wird XML gewählt, weil Java für die Bearbeitung <strong>von</strong> XML-Dateien im Paket javax.xml<br />

und den untergeordneten Paketen zahlreiche Hilfen bereitstellt. Zur Implementierung des<br />

Mehrdeutigkeitslexikons sind außer einer Lexikondatei nur noch drei weitere Klassen erforderlich,<br />

die in Abbildung 7.4 zu sehen sind.<br />

Klasse LexiconEntry<br />

Die Klasse LexiconEntry kapselt einen Lexikoneintrag und enthält dazu zwei Attribute:<br />

• basicForm: Die Grundform des mehrdeutigen Wortes.<br />

• pairsOfMeanings: Enthält Paare zueinandergehörender Bedeutungen in Deutsch und<br />

Englisch. Es müssen mindestens zwei Paare vorhanden sein, weil der Begriff sonst<br />

nicht mehrdeutig ist.<br />

Klasse PairOfMeanings<br />

Die Klasse PairOfMeanings kapselt ein Paar sich entsprechender Bedeutungen in Deutsch<br />

und Englisch. Als Attribute sind jeweils der deutsche und der englische Teil des Bedeutungspaares<br />

zu setzen.<br />

Lexikondatei lexicon.xml<br />

Zur Speicherung der Lexikoneinträge wird ein einfaches XML-Format definiert, das die<br />

LexiconEntry-Objekte abbildet und nach Buchstaben geordnet speichert. Die Ordnung<br />

nach Buchstaben (A - Z, Ä, Ö, Ü) erfolgt, damit die Suche nach einzelnen Einträgen<br />

effizienter gestaltet werden kann und ohne zusätzlichen Aufwand eine sortierte Anzeige in<br />

der Benutzungsoberfläche möglich ist.<br />

Das Lexikon besteht aus den verschiedenen Buchstaben des Alphabets. Jedem Buchstaben<br />

können beliebig viele Einträge zugeordnet werden, deren Grundform im XML-Attribut<br />

82


7.4. Modellierung wesentlicher Programmteile<br />

Abbildung 7.4.: Modellierung des Mehrdeutigkeitslexikons<br />

name gespeichert wird. Jeder Eintrag wiederum muss Bedeutungspaare mit deutscher und<br />

englischer Bedeutung aufweisen.<br />

Die zugehörige DTD sieht wie folgt aus:<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

83


7. Modellierung <strong>von</strong> MT Analyser<br />

Klasse LexiconHandler<br />

Über die Klasse LexiconHandler wird der Zugriff auf das Mehrdeutigkeitslexikon realisiert.<br />

Der gesamte Inhalt des Lexikons ist über das Attribut lexicon als XML-Dokument<br />

gespeichert. Mehrere synchronisierte und statische Methoden sorgen für das Hinzufügen,<br />

Auslesen und Entfernen <strong>von</strong> Einträgen.<br />

• initialiseLexicon(): Liest das Lexikon neu aus der zugehörigen Datei lexicon.xml aus.<br />

• getAllLexiconEntries(): Liefert sämtliche Lexikoneinträge als Objekte vom Typ LexiconEntry<br />

zurück.<br />

• findLexiconEntry(): Sucht anhand einer Grundform einen bestimmten Begriff und<br />

liefert ihn als LexiconEntry-Instanz zurück, sofern er existiert.<br />

• addLexiconEntry(): Fügt einen neuen Lexikoneintrag hinzu und speichert ihn in der<br />

Lexikondatei.<br />

• removeLexiconEntry(): Entfernt einen Lexikoneintrag mit einer bestimmten Grundform,<br />

sofern die Grundform vorhanden ist, und aktualisiert die Lexikondatei.<br />

84


8. Implementierung <strong>von</strong> MT Analyser<br />

8.1. Einbindung <strong>von</strong> TreeTagger<br />

8.1.1. Satzerkennung und Reformatierung des Textes<br />

TreeTagger verlangt, dass die zu taggenden Texte so formatiert sind, dass je ein Wort in<br />

einer Zeile steht. Zu diesem Zweck werden alle an MT Analyser übergebenen Textdateien<br />

zunächst mit Hilfe der Klasse Reformatter reformatiert und im neuen Format gespeichert.<br />

Zwar umfasst TreeTagger auch einen Algorithmus, der einen Text in die einzelnen Wörter<br />

und Satzzeichen zerlegt, jedoch zeigten sich hier bei der Erkennung gerade <strong>von</strong> Zahlen<br />

und Abkürzungen einige leicht zu behebende Fehleinteilungen. Weil zudem einige Zeichen<br />

in den Eingabedateien zwecks Vereinheitlichung der Zeichencodierung (es gibt u. a. verschiedene<br />

Versionen <strong>von</strong> Gedankenstrichen) durch andere ersetzt werden müssen, wurde<br />

ein eigener Algorithmus zur Reformatierung geschrieben, der jedes Wort bzw. Satzzeichen<br />

in eine eigene Zeile schreibt.<br />

Problematisch ist dabei vor allem der Umgang mit Punkten. Das Auftreten eines Punktes<br />

alleine ist für ein Satzende kein hinreichendes Kriterium, weil ein Punkt auch zu einer<br />

Abkürzung oder einer Ordinalzahl gehören kann. Über eine Liste mit über 300 gängigen<br />

Abkürzungen werden Punkte herausgefiltert, die kein Satzende markieren. Wörter aus<br />

nur einem Buchstaben, gefolgt <strong>von</strong> einem Punkt, werden ebenfalls als Abkürzungen betrachtet.<br />

Überdies werden Zahlen kleiner als 100 sowie kleine lateinische Zahlen, denen<br />

ein Punkt folgt, als Ordinalzahlen angesehen. Hier wäre sicherlich ein statistischer Ansatz<br />

exakter als eine starre Grenzziehung, allerdings steht kein Material zur Verfügung, anhand<br />

dessen sich ein Algorithmus mit höherer Genauigkeit schreiben ließe. In Tests traten<br />

durch diese willkürliche Einteilung jedoch nur sehr selten Fehler auf.<br />

8.1.2. Aufruf <strong>von</strong> TreeTagger<br />

Die reformatierte Datei wird gespeichert und als Parameter zusammen mit der Zieldatei an<br />

TreeTagger übergeben. TreeTagger verarbeitet dann die reformatierte Datei und speichert<br />

den getaggten Text in der Zieldatei. Dazu musste unter Windows die auszuführende Batch-<br />

Datei und in der Linux-/Solaris-Version <strong>von</strong> TreeTagger das auszuführende Shell-Skript<br />

leicht abgeändert werden.<br />

Der Aufruf aus MT Analyser erfolgt in der Methode execTreeTagger() in einem externen<br />

Prozess über die in Java enthaltene Klasse ProcessBuilder. Zu unterscheiden ist an<br />

dieser Stelle nach dem Betriebssystem, weil der Aufruf unter Windows anders funktioniert<br />

als unter Linux-/Solaris-<strong>Systeme</strong>n. Der folgende Codeausschnitt zeigt den Aufruf<br />

<strong>von</strong> TreeTagger.<br />

if(os.equals(OS_WINDOWS)) {<br />

pb = new ProcessBuilder("cmd", "/c", path + "tag-german.bat",<br />

85


8. Implementierung <strong>von</strong> MT Analyser<br />

inputFile, outputFile);<br />

} else {<br />

pb = new ProcessBuilder(path + "tree-tagger-german",<br />

inputFile, outputFile);<br />

}<br />

Process p = null;<br />

try {<br />

p = pb.start();<br />

} catch (IOException ex) {<br />

throw new TreeTaggerException("TreeTagger konnte " +<br />

"nicht gestartet werden:" + newline + ex.getMessage());<br />

}<br />

8.1.3. Verarbeitung der Ausgabe <strong>von</strong> TreeTagger<br />

Im Anschluss an die Ausführung wird die getaggte Textdatei eingelesen und daraus ein<br />

Text-Objekt erzeugt, das mit den in der Datei gefundenen Sätzen, die jeweils ein Sentence-<br />

Objekt ergeben, befüllt wird. Das Einlesen erfolgt jeweils zeilenweise, so dass bei der i-ten<br />

Zeile der Datei die i-ten Elemente der Arrays words, tags und basicForms des jeweiligen<br />

Sentence-Objekts mit den in der Textdatei vorgefundenen Werten beschrieben werden.<br />

Sind alle Sätze ausgelesen, steht der Text zur weiteren Analyse bereit.<br />

8.2. Algorithmen zur Satzanalyse<br />

Die Satzanalyse, das heißt die korrekte Zerlegung eines kompletten Satzes in die einzelnen<br />

Haupt- und Nebensätze, ist die Grundlage zur Erkennung mehrerer Textmerkmale: der<br />

Verbklammern, der Relativsätze, der Nominalklammern und der Inversion der Wortstellung.<br />

Sie alle können nur zuverlässig ausgemacht werden, wenn bekannt ist, was der sie<br />

umgebende Teilsatz ist bzw. um was für einen Teilsatz es sich handelt. So gelten etwa für<br />

die Wortstellung in Nebensätzen andere Regeln als in Hauptsätzen.<br />

Die Satzanalyse erfolgt in insgesamt vier Schritten und wird wie auch die Suche nach<br />

Textmerkmalen <strong>von</strong> der Klasse SentenceAnalyser übernommen. Im ersten Schritt wird<br />

ein Satz in sämtliche vorhandenen atomaren Teilsätze (s. u.) zerlegt, anschließend werden<br />

diese atomaren Teilsätze mit Attributen versehen, die ihre Rolle im Satz näher beschreiben.<br />

Drittens wird eine hierarchische Ordnung über die atomaren Teilsätze gelegt, bevor<br />

versucht wird, atomare Teilsätze anhand der zuvor vorgenommenen Kategorisierung und<br />

Hierarchisierung wieder zu größeren, zusammengehörigen Einheiten, die komplette Nebenoder<br />

Hauptsätze darstellen, zusammenzufügen.<br />

8.2.1. Zerlegung in atomare Teilsätze<br />

Die Zerlegung ganzer Sätze in atomare Teilsätze erfolgt ausschließlich anhand der Interpunktion.<br />

Dazu dient die Methode findPartialSentences(). Als atomarer Teilsatz gilt jeder<br />

Teilsatz, der keine weiteren der folgenden Satzzeichen mehr enthält: runde, geschweifte<br />

und eckige Klammern, Gedankenstriche, Semikola, Kommata und Doppelpunkte. Die<br />

dabei gefundenen atomaren Teilsätze müssen nicht unbedingt vollständige Neben- oder<br />

Hauptsätze sein.<br />

86


8.2. Algorithmen zur Satzanalyse<br />

Zunächst wird im gesamten Satz nach eingeklammerten Teilsätzen gesucht und anschließend<br />

nach Teilsätzen, die in Gedankenstrichen stehen. Beide stehen in der Hierarchie höher<br />

als Kommata, Semikola oder Doppelpunkte, die erst danach gesucht werden. Werden<br />

durch Klammern oder Gedankenstriche abgetrennte Teilsätze gefunden, wird innerhalb<br />

dieser Teilsätze rekursiv weitergesucht, und zwar wieder erst nach Teilsätzen in Klammern<br />

oder Gedankenstrichen und anschließend nach solchen, die durch die anderen Satzzeichen<br />

abgegrenzt werden, bis keine mehr gefunden werden.<br />

Insbesondere achtet der Algorithmus bei Teilsätzen in Klammern oder Gedankenstrichen<br />

darauf, dass diese in den weiteren Analyseschritten nicht mit Teilsätzen außerhalb derselben<br />

Klammern oder Gedankenstriche vermischt werden, weil dies falsche Hierarchisierungen<br />

oder Verknüpfungen <strong>von</strong> Teilsätzen nach sich ziehen könnte. So kann ein Teilsatz in<br />

einer Klammer niemals zu einem Teilsatz außerhalb dieser Klammer gehören. Abbildung<br />

8.1 zeigt für einen komplex strukturierten Satz schematisch, wie die rekursive Analyse<br />

abläuft.<br />

Abbildung 8.1.: Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden,<br />

mit Klammern und Gedankenstrichen versehenen Satzes<br />

Bei Klammern wird nicht überprüft, ob eine geöffnete Klammer jeweils <strong>von</strong> einer gleichartigen<br />

Klammer geschlossen wird, sondern nur, dass sie geschlossen wird.<br />

Folgende zwei Beispiele illustrieren die Zerlegung in atomare Teilsätze. Der Originalsatz<br />

Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung zusammen<br />

( ”<br />

tätliche Beleidigung“), so liegt häufig – aber nicht notwendig – eine Körperverletzung<br />

vor, die in Tateinheit zur Beleidigung steht. wird zerlegt in die Bestandteile:<br />

87


8. Implementierung <strong>von</strong> MT Analyser<br />

• Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung<br />

zusammen<br />

• so liegt häufig eine Körperverletzung vor<br />

• die in Tateinheit zur Beleidigung steht<br />

• ”<br />

tätliche Beleidigung“<br />

• aber nicht notwendig<br />

Der Satz Allgemein ordnet man dem Nordsommer die Monate Juni, Juli und August zu,<br />

dem Südsommer Dezember, Januar und Februar. gliedert sich nach der Zerlegung in die<br />

atomaren Teilsätze:<br />

• Allgemein ordnet man dem Nordsommer die Monate Juni<br />

• Juli und August zu<br />

• dem Südsommer Dezember<br />

• Januar und Februar<br />

8.2.2. Kategorisierung der atomaren Teilsätze<br />

Wenn alle atomaren Teilsätze gefunden sind, werden die Teilsätze in der Methode categorizePartialSentences()<br />

kategorisiert. Hierfür steht eine Reihe <strong>von</strong> booleschen Attributen<br />

zur Verfügung, im einzelnen:<br />

• finiteVerb: Zeigt an, ob der aktuelle Teilsatz mindestens ein finites Verb enthält oder<br />

nicht.<br />

• extendedInfiniteVerb: Zeigt an, ob der aktuelle Teilstz mindestens einen Infinitiv mit<br />

zu, der für jeden erweiterten Infinitiv benötigt wird, enthält oder nicht.<br />

• dependentClause: Zeigt an, ob der aktuelle Teilsatz der Anfang eines Nebensatzes<br />

ist oder nicht.<br />

• complementingDC: Zeigt an, ob der aktuelle Teilsatz das Komplement 1 eines Nebensatzes<br />

ist oder nicht.<br />

• needsComplementDC: Zeigt an, ob der aktuelle Teilsatz ein Nebensatzkomplement<br />

benötigt oder nicht.<br />

• infinitivePhrase: Zeigt an, ob der aktuelle Teilsatz der Anfang eines erweiterten<br />

Infinitivs ist oder nicht.<br />

• complementingIP: Zeigt an, ob der aktuelle Teilsatz das Komplement eines erweiterten<br />

Infinitivs ist oder nicht.<br />

1 Als Komplement eines Teilsatzes gilt jeder Teilsatz, der einen anderen Teilsatz ohne finites oder infinites<br />

Verb vervollständigt, indem er das benötigte Verb in sich trägt.<br />

88


8.2. Algorithmen zur Satzanalyse<br />

• needsComplementIP: Zeigt an, ob der aktuelle Teilsatz ein Komplement eines erweiterten<br />

Infinitivs benötigt oder nicht.<br />

• complementingMC: Zeigt an, ob der aktuelle Teilsatz das Komplement eines Hauptsatzes<br />

sein kann oder nicht.<br />

• unbound: Zeigt an, ob der aktuelle Teilsatz keiner Kategorie zugeordnet werden kann<br />

und damit quasi als ungebunden gelten kann oder nicht.<br />

Um die Attribute setzen zu können, wird eine Reihe <strong>von</strong> Regeln angewandt, während die<br />

verschiedenen Teilsätze jeweils wortweise durchlaufen werden, wobei sich einige Attribute<br />

gegenseitig ausschließen.<br />

Das Attribut finiteVerb wird auf wahr gesetzt, sobald im vorliegenden Teilsatz ein finites<br />

Verb gefunden wurde, wozu auch Imperative zählen. Dies ist bei allen Tags, die auf<br />

FIN oder IMP enden, der Fall. Ganz entsprechend wird das Attribut extendedInfinite-<br />

Verb gesetzt, wenn VVIZU als Auszeichnung für Infinitive mit eingebettetem zu als Tag<br />

auftaucht oder alternativ ein Tag mit dem Ende INF für einfache Infinitive mit einem<br />

vorangehenden zu.<br />

Ein Teilsatz, der eventuell ein Komplement benötigt, ist der Anfang eines erweiterten Infinitivs.<br />

Das Attribut infinitivePhrase wird auf wahr gesetzt, wenn entweder ein erweiterter<br />

Infinitiv vorliegt oder aber zu Beginn des Teilsatzes <strong>von</strong> TreeTagger eine unterordnende<br />

Konjunktion gefunden wurde (zugehöriges Tag: KOUI ), die erweiterte Infinitive einleitet<br />

wie etwa statt oder ohne. Als Beispiel diene hierfür der Satz Statt ein Fußballfest zu<br />

veranstalten, gingen die Münchner Bayern in Nürnberg blamabelst unter. Ist nach einer<br />

derartigen Konjunktion im selben Teilsatz kein Infinitiv mit zu zu finden, benötigt der<br />

Anfang des erweiterten Infinitivs noch ein passendes Komplement, um vollständig zu sein,<br />

so dass needsComplementIP wahr ist.<br />

Als Komplement des Anfangs eines erweiterten Infinitivs (complementingIP = wahr) wird<br />

ein Teilsatz genau dann behandelt, wenn er keine Objekte besitzt und er nur aus einem<br />

einzigen Infinitiv mit zu besteht. In einem solchen Fall kann der Infinitiv mit zu nicht<br />

als Teilsatz alleinstehen (er lässt sich nicht als eigener Teilsatz durch Kommata abtrennen)<br />

und sollte statt dessen mit einem anderen vorausgehenden Anfang des erweiterten<br />

Infinitivs verbunden werden. Im Satz Er ging, ohne das Licht, wie es Vorschrift war,<br />

auszuschalten. kann der Teilsatz auszuschalten nicht als durch Komma abgetrennter erweiterter<br />

Infinitiv allein stehen, weil ihm ein Objekt fehlt. Er muss daher mit dem vorhergehenden<br />

Anfang (ohne das Licht) des erweiterten Infinitivs zusammengefügt werden und<br />

bildet zu diesem das Komplement. Außerdem sind auch Zusammenfügungen mit bereits<br />

vollständigen erweiterten Infinitiven, etwa bei Aufzählungen, denkbar.<br />

Bei Nebensätzen wird ähnlich verfahren: Steht zu Anfang eines Teilsatzes eine unterordnende<br />

Konjunktion (Tag KOUS) wie dass oder wenn, setzt das Programm das Attribut<br />

dependentClause auf wahr. Gleiches gilt, wenn Relativpronomen zu Satzbeginn gefunden<br />

werden (Tags PRELS oder PRELAT ), aber auch bei zahlreichen Interrogativpronomen<br />

(Tags PWS, PWAT und PWAV ), sofern es sich nicht um eine Frage handelt. Der Fragesatz<br />

Wann willst du nach Hause gehen? wird somit nicht als Nebensatz markiert, der<br />

erste Teilsatz in Warum du das getan hast, verstehe ich nicht. schon.<br />

Um auch die im Deutschen häufigen konjunktionslosen Nebensätze zu erkennen, die insbesondere<br />

bei Konditional- und Kausalsätzen auftreten und sich durch invertierte Wortstellung<br />

auszeichnen, wird im ersten Teilsatz, sofern es sich nicht um eine Frage handelt,<br />

89


8. Implementierung <strong>von</strong> MT Analyser<br />

nach zu Anfang stehenden finiten Verben (ausgenommen Imperative) gesucht. Ein Beispiel<br />

hierfür ist der Satz Hättest du geschwiegen, wärst du Philosoph geblieben. Hier wird<br />

der erste Teilsatz korrekt als Nebensatz erkannt, der zweite gilt weiterhin als Hauptsatz.<br />

Erweiterte man den Satz um einen zweiten Konditionalsatz ohne Konjunktion zu Beginn<br />

oder am Ende des Satzes, so könnte dieser allerdings nicht erkannt werden, weil sich die<br />

Wortstellung nicht mehr <strong>von</strong> der eines Hauptsatzes an derselben Stelle unterschiede.<br />

Ebenso wenig kann erkannt werden, wann konjunktionslose Objektsätze wie Ich sage<br />

mal, wir machen das. vorliegen, die normalerweise mit dass oder ob eingeleitet werden<br />

müssten und nicht mit dem übergeordneten Hauptsatz verbunden werden dürfen, weil es<br />

wegen der fehlenden Konjunktion und der mit Hauptsätzen identischen Wortstellung keine<br />

Möglichkeit gibt, sie mit hoher Genauigkeit zu identifizieren. Bei indirekter Rede wäre eine<br />

Identifizierung noch am ehesten wegen des vom Indikativ in den Konjunktiv wechselnden<br />

Modus möglich, jedoch liefert TreeTagger keine Modusangaben, und die Implementierung<br />

einer Moduserkennung würde über den Rahmen dieser Arbeit hinausgehen.<br />

Dieses Manko ist insofern aber nicht schlimm, als derartige Konstruktionen in Dokumenten,<br />

in denen auf eine gehobene, formalere Ausdrucksweise Wert gelegt wird, relativ selten<br />

vorkommen und kein Textmerkmal deswegen unentdeckt bleibt.<br />

Wenn ein Nebensatzanfang anhand der zuvor beschriebenen Kriterien entdeckt wurde,<br />

aber kein finites Verb hat (finiteVerb = false) und somit unvollständig ist, benötigt er ein<br />

Komplement, um vollständig zu werden, so dass needsComplementDC auf wahr gesetzt<br />

wird.<br />

Etwas schwieriger ist es wiederum festzustellen, wann ein Satz ein Komplement für einen<br />

angefangenen Nebensatz darstellt. Ein absolut sicheres Kriterium hierfür gibt es nicht,<br />

allerdings einen guten Anhaltspunkt, den MT Analyser nutzt: Weil in Nebensätzen das<br />

Prädikat am Ende steht, wird bei einem finiten Verb in Endposition angenommen, dass es<br />

sich um ein Nebensatzkomplement handelt (complementingDC = wahr), sofern dem aktuellen<br />

Teilsatz bereits ein Nebensatzanfang vorausgegangen ist. Dabei kann es allerdings<br />

bei kurzen Sätzen zu Überschneidungen mit Hauptsatzkomplementen kommen. Weil bei<br />

Fortsetzungen <strong>von</strong> Hauptsätzen das finite Verb oftmals an erster Stelle steht oder abgetrennt<br />

vom finiten Verb am Ende der Verbklammer Partizipien (Tags VAPP, VMPP,<br />

VVPP) oder Infinitive stehen, wird in allen Teilsätzen danach gesucht und im Falle eines<br />

Auftretens das zugehörige Attribut complementingMC auf wahr gesetzt.<br />

Eine gezielte Suche nach Anfängen <strong>von</strong> Hauptsätzen oder danach, ob ein Hauptsatz eines<br />

Komplements bedarf, findet allerdings nicht statt, weil sich anhand der verfügbaren<br />

Informationen nicht exakt bestimmen lässt, was ein Hauptsatz ist und was nicht. Als<br />

möglicher Bestandteil des Hauptsatzes wird alles behandelt, was als Hauptsatzkomplement<br />

markiert ist oder ein finites Verb hat und nicht zu einem Nebensatz oder einem<br />

erweiterten Infintiv zählt. (Überschneidungen <strong>von</strong> Nebensatz- und Hauptsatzkomplementen<br />

sind allerdings wie erwähnt erlaubt.) Dieses Vorgehen erwies sich beim Testen des<br />

Algorithmus als sinnvoll, weil es gute Resultate bei der Analyse lieferte.<br />

Wenn ein Teilsatz weder Komplement noch Nebensatz noch erweiterter Infinitiv ist und<br />

auch kein finites Verb hat und überhaupt keine begründete Einordnung möglich ist, wird er<br />

als ungebunden betrachtet (unbound = wahr) und ist somit später sehr frei im Eingehen<br />

<strong>von</strong> Verbindungen mit anderen Sätzen. Hierzu zählen insbesondere Appositionen oder<br />

kurze Anfänge oder Enden <strong>von</strong> Haupt- oder Nebensätzen, die dann durch einen anderen<br />

Teilsatz unterbrochen werden.<br />

90


8.2. Algorithmen zur Satzanalyse<br />

Beispielsatz<br />

An dieser Stelle soll die Kategorisierung der atomaren Teilsätze anhand eines komplexen<br />

Beispielsatzes vorgeführt werden. Der Satz Dass ich meinen Koffer vergessen hatte, bemerkte<br />

ich, nachdem ich das Hotel, in dem ich gewohnt hatte, verlassen hatte, und machte<br />

kehrt. liefert insgesamt sechs atomare Teilsätze, jeweils durch ein Komma getrennt. Beim<br />

sequenziellen Durchlaufen der Teilsätze wird nun der erste Teilsatz als Nebensatz erkannt,<br />

weil er durch die unterordnende Konjunktion dass eingeleitet wird. Er hat darüber hinaus<br />

ein finites Verb (hatte), so dass er kein Komplement benötigt und das entsprechende<br />

Attribut nicht gesetzt wird. Der zweite Teilsatz bemerkte ich wird dagegen als Hauptsatzkomplement<br />

eingestuft, weil das finite Verb bemerkte am Anfang steht. Der dritte<br />

Teilsatz wird wiederum wegen der einleitenden unterordnenden Konjunktion nachdem als<br />

Nebensatz eingestuft, hat diesmal allerdings kein finites Verb, so dass er eines Komplements<br />

bedarf (needsComplementDC = wahr). Der nun folgende Relativsatz wird wegen<br />

des Relativpronomens zu Beginn ebenfalls als Nebensatz eingestuft, benötigt aber wegen<br />

des finiten Verbs am Ende kein Komplement. Den nun folgenden Teilsatz verlassen hatte<br />

sieht der Algorithmus dagegen als Nebensatzkomplement an, weil ein finites Verb am Ende<br />

vorliegt, was bei Hauptsätzen eine unübliche Wortstellung wäre. Der letzte Teilsatz und<br />

machte kehrt ist für das Programm ein potenzieller Hauptsatz wegen des finiten Verbs,<br />

aber kein Hauptsatzkomplement, weil das finite Verb machte nicht am Anfang steht. Tabelle<br />

8.2.2 zeigt die Kategorisierung dieses Satzes mit den benötigten Attributen in einer<br />

Übersicht.<br />

Teilsatz finite- dependent- needsComple- complemen- complemen-<br />

Verb Clause mentDC tingDC tingMC<br />

Dass ... hatte × ×<br />

bemerkte ich × ×<br />

nachdem ... Hotel × ×<br />

in dem ... hatte × ×<br />

verlassen hatte × ×<br />

und machte kehrt ×<br />

Tabelle 8.1.: Beispielsatz mit Kategorisierung der einzelnen Teilsätze<br />

8.2.3. Hierarchisierung der atomaren Teilsätze<br />

Im zweiten Schritt werden die soeben kategorisierten Teilsätze innerhalb des gesamten<br />

Satzes mit einer Ordnung versehen, die über Zahlenwerte ausgedrückt wird. Der Wert<br />

der Ordnung gibt die Ebene an, auf der sich ein Teilsatz, ausgehend vom Hauptsatz,<br />

der auf Ebene 0 eingeordnet wird, befindet. Abbildung 8.2 verdeutlicht die Vergabe der<br />

Ordnungszahlen anhand des bereits bekannten Beispielsatzes.<br />

Der einleitende Nebensatz Dass ich meinen Koffer vergessen hatte erhält die Ordnungszahl<br />

1, weil er direkt über dem darauffolgenden Hauptsatz (Ordnungszahl 0) in der Hierarchie<br />

angeordnet ist. Der an den Hauptsatz anschließende Temporalsatz erhält wieder die<br />

Ordnungszahl 1, weil er eine Ebene über dem Hauptsatz steht. Der Relativsatz an vierter<br />

Stelle ist in den Temporalsatz eingebettet und damit noch eine Ebene darüber, weshalb er<br />

die Ordnungszahl 2 erhält. Danach folgt noch das Komplement des Temporalsatzes, das<br />

91


8. Implementierung <strong>von</strong> MT Analyser<br />

Abbildung 8.2.: Beispielsatz mit Hierarchisierung der einzelnen Teilsätze<br />

zwar theoretisch auf Ebene des Relativsatzes sein könnte. Weil dieser aber ein finites Verb<br />

am Ende hat und somit vom Algorithmus als abgeschlossen betrachtet wird, erniedrigt<br />

sich die Ordnungszahl auf den Wert 1. Am Ende steht der zweite Teil des Hauptsatzes,<br />

dessen Ordnungszahl auf 0 gesetzt wird, weil das vorausgehende Nebensatzkomplement<br />

mit einem finiten Verb endet und ebenfalls als abgeschlossen angesehen wird.<br />

Die Vorgehensweise des Algorithmus ist dabei allgemein folgende: Alle Teilsätze werden<br />

in der ursprünglichen Reihenfolge durchlaufen. Beginnt ein neuer Nebensatz, so wird<br />

die Ebene und damit die Ordnungszahl jeweils um 1 erhöht. Findet sich am Ende des<br />

Nebensatzes ein finites Verb, wie es die Wortstellung im Deutschen vorsieht, so wird, weil<br />

zur Vollständigkeit des Nebensatzes kein Komplement mehr benötigt wird, angenommen,<br />

dass der Nebensatz beendet ist und die Ordnungszahl wieder um 1 herabgesetzt. Dies<br />

ist nötig, weil sich sonst aufeinanderfolgende, aber nicht verschachtelte Nebensätze in<br />

verschiedenen Ebenen befinden würden, obwohl sie auf derselben Ebene der Satzhierarchie<br />

liegen. Komplemente zu Nebensätzen behalten die aktuell gültige Ebene bei.<br />

Erweiterte Infinitive erhöhen die Ordnungszahl der Satzebene nur dann, wenn sie ein<br />

Komplement benötigen, also ein Infinitiv mit zu noch fehlt. Die Anzahl dieser geöffneten<br />

erweiterten Infinitive wird gespeichert und jedesmal, wenn ein Komplement, zu dem es<br />

auch einen geöffneten erweiterten Infinitiv gibt, vorkommt, um 1 erniedrigt. Erst wenn<br />

ihr Wert auf 0 gesunken ist, wird bei einem neuen erweiterten Infinitiv die Ordnungszahl<br />

wieder erhöht.<br />

Andere Komplemente hingegen verändern die aktuelle Ordnungszahl nicht. Gleiches gilt<br />

auch für ungebundene Teilsätze.<br />

8.2.4. Zusammenfügen der atomaren Teilsätze<br />

Im letzten Schritt wird unter Zuhilfenahme <strong>von</strong> Kategorisierung und Hierarchisierung der<br />

atomaren Teilsätze in den beiden vorangegangenen Abschnitten der Analyse versucht,<br />

Teilsätze zu größeren Einheiten zusammenzufügen, so dass jeder verbliebene Teilsatz am<br />

Ende des Vorgangs einen kompletten Hauptsatz, Nebensatz oder erweiterten Infinitiv darstellt<br />

und sich für die Suche nach Textmerkmalen eignet. Für das Zusammenfügen sind die<br />

Methoden rejoinPartialSentences() in der Klasse SentenceAnalyser und attach() in der<br />

Klasse PartialSentence zuständig. Atomare Teilsätze, die bereits einem anderen Teilsatz<br />

angegliedert wurden (attached = true), werden nicht mehr untersucht, um Doppelverbindungen<br />

zu vermeiden, wohl aber die Teilsätze, denen sie angegliedert wurden.<br />

In erstgenannter Methode wird in dieser Reihenfolge für alle erweiterten Infinitve, Nebensätze,<br />

Hauptsätze und ungebundenen Teilsätze überprüft, ob es in der Gesamtheit der<br />

Teilsätze einen oder mehrere andere gibt, die <strong>von</strong> ihren Attributen her passend sind und<br />

mit dem aktuellen Satz verbunden werden können. Die Reihenfolge begründet sich damit,<br />

dass zunächst die klar markierten Anfänge <strong>von</strong> erweiterten Infinitven und Nebensätzen<br />

versuchen sollen, alle passenden Teilsätze an sich zu binden, bevor die darunterliegenden<br />

92


8.2. Algorithmen zur Satzanalyse<br />

und nicht so klar markierten Hauptsätze die übrigen Teilsätze aufnehmen sollen. In den<br />

Tests erwies sich diese Abfolge der verschiedenen Satzarten als sehr nützlich, weil ohne sie<br />

oftmals Nebensätze oder erweiterte Infinitive nur unvollständig zusammengefügt wurden.<br />

Die ungebundenen Sätze suchen erst zum Schluss nach anderen passenden Sätzen, weil<br />

sie in der Regel zu recht vielen Teilsätzen gehören könnten und es sich als günstiger herausgestellt<br />

hat, erst andere Teilsätze versuchen zu lassen, sich mit ihnen anhand besserer<br />

Kriterien zu verbinden. Im Zweifel, wenn eine eindeutige Zuordnung nicht möglich ist,<br />

bleiben sie unverbunden.<br />

Es werden im Laufe des Algorithmus nur Teilsätze miteinander verbunden, die sowohl<br />

<strong>von</strong> ihren Attributen als auch <strong>von</strong> ihrer Ordnungszahl her zueinander passen. So werden<br />

mit einer einzigen Ausnahme in einem Sonderfall bei ungebundenen Teilsätzen nur solche<br />

Teilsätze verbunden, deren Ordnungszahlen gleich sind; dies aber auch nur dann, wenn<br />

dazwischen kein anderer Teilsatz eine niedrigere Ordnungszahl oder, falls der andere Teilsatz<br />

ein neuer Nebensatz oder ein neuer erweiterter Infinitiv ist, dieselbe Ordnungszahl<br />

aufweist.<br />

Bei den Attributen gilt für Anfänge <strong>von</strong> Nebensätzen und erweiterten Infinitiven, dass sie<br />

nur mit den jeweiligen Komplementen oder ungebundenen Teilsätzen verbunden werden<br />

können. Komplemente wiederum können nur dann mit zugehörigen Anfängen verbunden<br />

werden, wenn diese vor dem Komplement liegen. Mutmaßliche Hauptsätze oder deren<br />

Komplemente können dagegen mit ungebundenen Sätzen, anderen Hauptsätzen und<br />

Hauptsatzkomplementen unabhängig <strong>von</strong> deren Position zusammengehen.<br />

Die an dieser Stelle noch übrig gebliebenen ungebundenen Teilsätze suchen nun nach<br />

anderen Teilsätzen mit gleicher Ordnungszahl. Wenn eine Zuordnung nicht möglich ist,<br />

weil etwa der infrage kommende Teilsatz auf gleicher Ebene ein Nebensatzanfang ist und<br />

hinter dem ungebundenen Satz steht, versucht der Algorithmus eine Zuordnung des ungebundenen<br />

Teilsatzes zu einem der maximal zwei direkt umgebenden Teilsätze, auch wenn<br />

leichte Abweichungen in den Ordnungszahlen vorliegen.<br />

Beispielsatz<br />

Die genaue Funktionsweise dieses Algorithmus wird anhand des bekannten Beispielsatzes<br />

(Dass ich meinen Koffer vergessen hatte, bemerkte ich, nachdem ich das Hotel, in dem<br />

ich gewohnt hatte, verlassen hatte, und machte kehrt.) wiedergegeben. Die kategorisierten<br />

und hierarchisierten Teilsätze werden nun in der oben genannten Reihenfolge durchlaufen.<br />

Weil es im Beispiel keine erweiterten Infinitive gibt, wird mit dem Zusammenfügen <strong>von</strong><br />

Nebensätzen fortgefahren.<br />

Für den einleitenden Nebensatz beginnt die Suche nach passenden Ergänzungen mit dem<br />

Teilsatz bemerkte ich. Weil dieser jedoch eine niedrigere Ordnungszahl hat als der Nebensatz,<br />

kommt er nicht infrage und ebenso wenig alle weiteren Nebensätze. Für den ersten<br />

Teilsatz gibt es also keine Ergänzungen. Als nächstes wird der dritte Teilsatz (nachdem<br />

ich das Hotel) betrachtet. Der folgende Relativsatz passt unter anderem wegen der höheren<br />

Ordnungszahl nicht, jedoch der fünfte Teilsatz vergessen hatte, weil es sich dabei um<br />

ein Nebensatzkomplement handelt und der aktuelle Nebensatz ein Komplement benötigt<br />

und dieselbe Ordnungszahl aufweist. Dementsprechend werden beide Sätze miteinander<br />

verbunden. Der letzte Teilsatz kommt wiederum nicht infrage, unter anderem weil er eine<br />

niedrigere Ordnungszahl aufweist. Der als nächstes untersuchte Relativsatz kann nicht<br />

mit anderen Sätzen verbunden werden, weil kein anderer dieselbe Ordnungszahl besitzt.<br />

93


8. Implementierung <strong>von</strong> MT Analyser<br />

Nun werden noch die beiden Teile des Hauptsatzes überprüft. Für den Teilsatz bemerkte<br />

ich kommt der vorausgehende Teilsatz nicht infrage, weil das ein Nebensatz ist, mit<br />

derselben Begründung ebenso wenig die beiden Nachfolger. Der fünfte Teilsatz vergessen<br />

hatte wurde bereits an einen anderen angehängt und wird deshalb nicht mehr berücksichtigt.<br />

Der letzte Teilsatz und machte kehrt ist hingegen auf derselben Ebene und kein<br />

Nebensatz oder erweiterter Infinitiv. Er wird daher mit dem zweiten Teilsatz verbunden,<br />

womit das Zusammenfügen abgeschlossen ist.<br />

8.2.5. Überprüfung der Satzanalyse<br />

Um die Genauigkeit der Satzanalyse zu testen, wurden einerseits die unbearbeiteten Textkorpora<br />

zu Nebensätzen und Relativsätzen ausgewählt und <strong>von</strong> MT Analyser in ihre<br />

Teilsätze zerlegt, weil sie am ehesten komplexe Satzkonstruktionen garantieren und damit<br />

hohe Anforderungen an die Algorithmen stellen, und des weiteren noch zwei andere,<br />

willkürlich ausgewählte unbearbeitete Textkorpora hinzugenommen. Insgesamt wurde die<br />

Arbeit der Algorithmen zur Satzanalyse an 340 Sätzen überprüft.<br />

Von diesen 340 Sätzen wurden 322 vollkommen richtig in Haupt- und Nebensätze aufgeteilt,<br />

wobei in neun Fällen die Algorithmen <strong>von</strong> MT Analyser eine falsche Einteilung<br />

verursachten, während in den neun anderen Fällen die Fehler auf falsche Klassifikationen<br />

durch TreeTagger zurückzuführen waren, so dass MT Analyser keine Chance hatte,<br />

richtig zu arbeiten. Geht man <strong>von</strong> den 331 Sätzen aus, in denen eine korrekte Analyse<br />

möglich war, ergibt sich bei 322 korrekten Analysen eine Genauigkeit <strong>von</strong> 97, 3 Prozent.<br />

Das Ergebnis zeigt also, dass die Algorithmen sehr zuverlässig arbeiten.<br />

8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />

Textmerkmale werden ausschließlich auf Satzebene gesucht, weil kein Textmerkmal satzübergreifend<br />

auftreten kann. Um sie zu finden, greift MT Analyser auf die einzelnen<br />

Wörter sowie deren <strong>von</strong> TreeTagger zugeordneten Grundformen und Tags zu. Für abgetrennte<br />

Kompositionsglieder, Mehrdeutigkeiten und Relativsätze reicht das bloße Antreffen<br />

jeweils eines Tags, einer Grundform oder eines Wortes an bestimmten Stellen des<br />

Satzes. Um das Vorkommen eines anderen Textmerkmals sicher bestimmen zu können,<br />

müssen, sobald Anzeichen für das Auftreten dieses Merkmals vorliegen, weitere Analysen<br />

der Satzstruktur unternommen werden. Diese können sich allerdings auf den jeweiligen<br />

Teilsatz beschränken, weil Textmerkmale sich nur innerhalb eines einzigen Teilsatzes befinden<br />

können. So kann etwa eine Verbklammer nicht im Hauptsatz beginnen und dann<br />

in einem Nebensatz enden. Im folgenden werden die Algorithmen für die einzelnen Textmerkmale<br />

näher beschrieben.<br />

8.3.1. Abgetrennte Kompositionsglieder<br />

Die Erkennung abgetrennter Kompositionsglieder ist <strong>von</strong> allen die einfachste. Weil jedesmal,<br />

wenn ein Wort in einem deutsprachigen Text mit einem Bindestrich anfängt<br />

oder aufhört, ein abgetrenntes Kompositionsglied vorliegt, reicht es aus, nach diesen Bindestrichen<br />

Ausschau zu halten. Genauso verfährt der Algorithmus, der Wort für Wort<br />

den aktuell vorliegenden Satz durchsucht und das erste bzw. letzte Zeichen jedes Wortes<br />

94


8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />

daraufhin überprüft, ob es ein Bindestrich ist. Satzzeichen werden <strong>von</strong> der Betrachtung<br />

ausgeschlossen. Der folgende Codeausschnitt zeigt die Erkennung <strong>von</strong> abgetrennten Kompositionsgliedern.<br />

String[] words = sentence.getWords();<br />

for(int i = 0; i < words.length; ++i) {<br />

if(words[i] != null && !isPunctuation(words[i]) &&<br />

(words[i].endsWith("-") || words[i].startsWith("-"))) {<br />

TranslationDifficulty td = createHyphenatedCompound(sentence,i);<br />

difficulties.add(td);<br />

}<br />

}<br />

Aufgrund der Einfachheit des Algorithmus erbrachte auch der Test mit dem unbearbeiteten<br />

Korpus für Ellipsen aller Art eine Erkennungsquote <strong>von</strong> 100 Prozent für abgetrennte<br />

Kompositionsglieder.<br />

8.3.2. Inversionen der Wortstellung<br />

Bei der Inversion sind in Übereinstimmung mit der Klassifikation der Teilsätze durch<br />

MT Analyser in Hauptsätze, Nebensätze und erweiterte Infinitive verschiedene Muster<br />

anzuwenden, die sich hinsichtlich der erwarteten Wortstellung an die in Abschnitt 5.2.4<br />

dargestellten Standardwortstellungen halten. Die Suche nach invertierter, aber grammatikalisch<br />

korrekter Wortstellung ist dabei nicht zu verwechseln mit der Suche nach falscher<br />

Wortstellung. Sie muss also erkennen, dass ein Satz wie Gesehen habe ich dich noch nie.<br />

<strong>von</strong> der normalen Wortstellung in einem Hauptsatz mit Subjekt an erster und finitem<br />

Verb an zweiter Position abweicht, jedoch nicht, dass etwa Ich habe gesehen noch nie<br />

dich. schlichtweg falsch ist.<br />

Nebensätze<br />

Die normale Wortstellung in Hauptsätzen verlangt insbesondere, dass das finite Verb<br />

in Endstellung steht. Dementsprechend untersucht MT Analyser alle Nebensätze vom<br />

Anfang ausgehend nach finiten Verben. Wird ein finites Verb gefunden, das nicht am<br />

Ende steht, ohne dass direkt darauf ein weiteres Verb oder eine Konjunktion, die einen<br />

neuen Teil des Nebensatzes einleitet, folgt, wird die Wortstellung als invertiert betrachtet.<br />

Auf diese Weise werden auch die insbesondere in der Umgangssprache häufigen Umstellungen<br />

der Art weil er wollte nicht mehr vorbeikommen abgedeckt und erkannt. Der zweite<br />

Teilsatz in Sie ging einkaufen, weil sie noch Geld übrig hatte und dringend ein neues<br />

Parfüm suchte. wird hingegen nicht als invertiert betrachtet, weil nach dem ersten finiten<br />

Verb eine Konjunktion steht.<br />

Darüber hinaus wird der veränderten Wortstellung bei doppelten Infinitiven Rechnung<br />

getragen, wie etwa in dem Satz weil er nicht hatte vorbeikommen wollen. Infinitivgruppen<br />

am Ende werden nicht als invertiert angesehen, sofern direkt vor ihnen ein finites Verb<br />

steht. Tritt eine Verneinung auf, muss sie vor dem Verb stehen. Der Kausalsatz weil er<br />

hatte nicht vorbeikommen wollen würde also korrekt als invertiert erkannt.<br />

95


8. Implementierung <strong>von</strong> MT Analyser<br />

Erweiterte Infintive<br />

Im Gegensatz zu Nebensätzen beginnt die Analyse erweiterter Infinitiven am Satzende,<br />

wo entweder ein Infintiv mit davorstehendem Partikel zu (Tagkombination PTKZU +<br />

VVINF, VAINF oder VMINF ) erwartet wird, oder ein Infinitiv, der den Partikel zu<br />

bereits in sich trägt (Tag VVIZU ). Gruppen solcher Infinitive werden auch akzeptiert,<br />

sobald aber mehr als nur eine Konjunktion oder ein den Infinitiv näher bestimmendes<br />

Adverb zwischen ihnen stehen, gilt der Teilsatz als invertiert.<br />

Hauptsätze<br />

Am schwierigsten erwies sich die Analyse der Wortstellung im Hauptsatz, weil hier viele<br />

verschiedene Fälle zu beachten sind, in denen die Wortstellung invertiert ist, und die<br />

<strong>von</strong> TreeTagger vergebenen Tags nicht immer genügend grammatikalische Information<br />

enthalten, um allein mit ihrer Hilfe eine Inversion zu bestimmen (vgl. hierzu die Beispiele<br />

in Abschnitt 5.2.4). Dabei werden nur in den Fällen Übersetzungsschwierigkeiten erzeugt,<br />

die wirklich eindeutig eine Inversion darstellen, um Falschmeldungen zu vermeiden.<br />

Als erstes wird überprüft, ob es sich um eine Frage oder einen Befehl handelt. In diesem<br />

Fall werden an der Spitze bzw. vor dem Personalpronomen stehende finite Verben nicht<br />

beanstandet. Ansonsten wird dies als Inversion markiert, etwa in dem Satz Bevor der Zoo<br />

eröffnet wurde, musste er renoviert werden. Dabei wird insbesondere überprüft, ob eine<br />

Form eines Pronomens, die eindeutig als Nominativ identifizierbar ist, direkt hinter dem<br />

finiten Verb steht. Dies ist nur für die Personal- und Indefinitpronomen ich, du, er, wir,<br />

man, jemand und niemand möglich.<br />

Analog zur Suche nach Nominativen hinter dem finiten Verb wird vor dem finiten Verb<br />

nach Formen <strong>von</strong> Pronomen gesucht, die nie im Nominativ auftreten. Bei Adjektiven<br />

an der Spitze eines Teilsatzes, die auf -en und -em enden, wird ebenfalls eine Inversion<br />

erkannt. Stehen andere Indikatoren am Satzanfang vor dem finiten Verb, die eindeutig eine<br />

Abweichung <strong>von</strong> der Standardwortfolge nach sich ziehen, wie beispielsweise Präpositionen<br />

oder ein Adverb, so wird ebenfalls eine Übersetzungsschwierigkeit erzeugt.<br />

Testergebnisse<br />

Der Algorithmus wurde mit Hilfe des unbearbeiteten Textkorpus zu Inversionen der Wortstellung<br />

getestet. Dabei wurden im gesamten Text 96 Inversionen entdeckt bei 108 vorhandenen.<br />

Dies entspricht einer Erkennungsquote <strong>von</strong> 88, 9 Prozent. Dabei kam es allerdings<br />

öfter vor, dass wegen falscher Tags und daraus resultierender falscher Zusammensetzung<br />

der Teilsätze der als invertiert angezeigte Satzausschnitt zu lang war. Ebenfalls entstanden<br />

durch falsche Tags zwei Fehlerkennungen.<br />

Beschränkt man die Betrachtung auf die 87 Sätze, in denen weder fehlerhafte Tags noch<br />

inkorrekt zusammengefügte Teilsätze die Erkennung behinderten, so ergibt sich folgendes<br />

Bild: Von 88 vorhandenen Inversionen wurden 81 erkannt, was einer Quote <strong>von</strong> 92, 0<br />

Prozent entspricht. Fehlerkennungen traten dabei nicht mehr auf.<br />

8.3.3. Mehrdeutigkeiten<br />

Der Algorithmus für die Suche nach Mehrdeutigkeiten gestaltet sich mit dem Mehrdeutigkeitslexikon<br />

im Hintergrund relativ einfach. Es bedarf lediglich eines Abgleichs zwischen<br />

96


8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />

den in der Lexikondatei eingetragenen Grundformen der mehrdeutigen Begriffe und den<br />

<strong>von</strong> TreeTagger ermittelten Grundformen der Wörter innerhalb eines Satzes. Dazu wird<br />

das in der Klasse LexiconHandler hinterlegte Lexikon ausgelesen und für jedes Wort an<br />

x-ter Stelle eines Satzes überprüft, ob sich in dem XML-Dokument ein Knoten vom Typ<br />

entry mit passendem Wert des Attributs name findet, der der in basicForms[x] gespeicherten<br />

Grundform entspricht. Ist dem so, wird eine Übersetzungsschwierigkeit vom Typ<br />

Mehrdeutigkeit erzeugt, in der auch die verschiedenen zugehörigen Bedeutungen zwecks<br />

Anzeige im Übersetzbarkeitsreport abgelegt werden.<br />

8.3.4. Nominalklammern<br />

Mit Abstand am schwierigsten gestaltete sich die Erkennung <strong>von</strong> Nominalklammern. Hier<br />

gibt es viele Fälle, in denen anhand der durch TreeTagger verfügbaren grammatikalischen<br />

Informationen nicht entschieden werden kann, ob es sich um eine Nominalklammer gemäß<br />

der Definition aus Abschnitt 5.2.2 handelt oder nicht. Ein Beispiel hierfür ist die Tag-<br />

Abfolge ART ADJA NN ADJA NN. Diese kann sowohl für einen uninteressanten Satzausschnitt<br />

wie < np >die schnelle Entwicklung< /np > < np >neuer Technologien< /np >,<br />

in dem zwei Nominalphrasen, abgegrenzt durch < np > bzw. < /np >, aufeinander folgen,<br />

als auch für einen Satzausschnitt wie < np >der < np >kürzere Fahrzeiten< /np ><br />

ermöglichende Streckenausbau< /np >, in dem sich innerhalb der umgebenden Nominalphrase<br />

eine weitere als vorangestelltes Attribut befindet, stehen.<br />

Verworfene Algorithmen<br />

Als erstes wurde versucht, TreeTagger, der auch als Chunker benutzt werden kann, einzusetzen,<br />

um die Phrasenstruktur des Satzes zu ermitteln. Sollte eine Nominalphrase in<br />

einer anderen erkannt werden, wäre dies die hinreichende Bedingung für eine Nominalklammer.<br />

Jedoch lieferte ein Test mit zehn Sätzen aus dem Korpus für Nominalklammern<br />

kein überzeugendes Ergebnis: Von 64 Nominalphrasen und 25 Präpositionalphrasen, die<br />

sich in den zehn Sätzen befinden, wurden nur 24 bzw. fünf korrekt erkannt. Dies entspricht<br />

einer Vollständigkeit der Erkennung <strong>von</strong> 37, 5 Prozent bei Nominalphrasen und <strong>von</strong> 20, 0<br />

Prozent bei Präpositionalphrasen und ist somit unzureichend für eine weitere Analyse der<br />

Ergebnisse, die auf der Arbeit <strong>von</strong> TreeTagger aufbaut.<br />

Der zweite Ansatz bestand darin, den Satz rückwärts nach Nomina zu durchsuchen und,<br />

sobald ein Nomen gefunden wurde, die Abfolge der vorausgehenden Tags daraufhin zu<br />

analysieren, ob sie zu einer Nominalklammer passen oder nicht. Der Gedanke dahinter<br />

war, dass man zwar den Anfang einer Nominalklammer nicht immer genau bestimmen<br />

kann, weil die umgebende Nominalphrase nicht zwangsläufig <strong>von</strong> einem Artikel oder der<br />

eingeschlossenen Nominalphrase vorausgehenden Adjektiven eingeleitet wird, jedoch das<br />

Ende immer ein Nomen ist. Der so entstandene Algorithmus erreichte in Testläufen mit<br />

dem Textkorpus zu Nominalklammern eine Erkennungsrate <strong>von</strong> rund 90 Prozent, jedoch<br />

fiel bei seiner Anwendung auf andere Textkorpora eine große Anzahl an Fehlerkennungen<br />

auf, die die Anzahl der Erfolge weit überschritt. So lag das Verhältnis <strong>von</strong> Fehlerkennungen<br />

und korrekt erkannten Nominalklammern bei etwa sieben zu drei. Daher wurde dieser<br />

Ansatz ebenso verworfen.<br />

97


8. Implementierung <strong>von</strong> MT Analyser<br />

Grammatik zur Erkennung <strong>von</strong> Nominalklammern<br />

Der letztendlich genutzte Algorithmus besteht im wesentlichen aus einer Grammatik, die<br />

eine Nominalklammer nachbildet und in Form eines regulären Ausdrucks die Tagfolge eines<br />

Teilsatzes nach Übereinstimmungen durchsucht. Zwar lassen sich durch einen regulären<br />

Ausdruck Nominalklammern als Spezialform <strong>von</strong> Nominalphrasen nicht vollständig beschreiben,<br />

weil sie durch ihre beliebig tiefe Verschachtelung eine rekursive Klammerstruktur<br />

darstellen, doch wird in der Praxis selten eine Nominalklammer benutzt, deren Schachtelungstiefe<br />

größer als zwei ist.<br />

Die folgende Grammatik G 1 = (N, T, P, NK) ist eine aus Gründen der Übersichtlichkeit<br />

leicht vereinfachte Form der im Programm verwendeten Grammatik G, in der zumeist<br />

nur die jeweils verpflichtend vorkommenden Worttypen aufgeführt werden; insbesondere<br />

zahlreiche Füllwörter wie Adverbien oder Negationen sind oft weggelassen. Nichtterminalsymbole<br />

sind in voller Schriftgröße dargestellt. Aus dem STTS stammende Tags sind<br />

Terminalsymbole und verkleinert dargestellt. Die Konjunktionen und und oder sind ebenfalls<br />

Terminalsymbole. Die Produktionsregeln lauten folgendermaßen:<br />

P = {<br />

NK → NK 1 | NK 2<br />

NK 1 → D 2 ((NP 11 | prf | AP 1 ) KON?) ∗ NP 11 AP 2<br />

+ N<br />

NK 2 → D 1 ((NP 12 | AP 1 ) KON?) ∗ NP 12 AP 2<br />

+ N<br />

NP 11 → (D 1 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo?<br />

NP 12 → (D 3 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo?<br />

NP 11 , NP 12 → ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo<br />

NP 2 → D 1 (AP1 ∗ N appo? KON? ) ∗ AP1 ∗ N<br />

D 1 , D 2 → art | pposat | piat | pidat | pdat<br />

D 1 , D 3 → kokom | appr<br />

D 1 , D 2 , D 3 → apprart | appr (art | pposat | piat | pdat | pidat)<br />

AP 1 → (adja | card D 1 ?) +<br />

AP 2 → adja +<br />

N → nn | ne | pper | pposs | pds | pis | prf | trunc<br />

KON → und | oder }<br />

Erläuterung der Grammatik Die genaue Bedeutung der einzelnen Tags ist dem STTS<br />

gemäß [SSTT99] zu entnehmen.<br />

• NK: Die gesamte Nominalklammer. Zum Ende jeder Nominalklammer wird ein<br />

Nomen mit mindestens einer vorausgehenden Adjektivphrase AP 2 erwartet. Es werden<br />

zwei Arten <strong>von</strong> Nominalklammern unterschieden, wobei Nominalklammern, die<br />

nicht mit einem Artikel oder einer Präposition eingeleitet werden, nicht erkannt werden<br />

können, weil sie <strong>von</strong> zahlreichen anderen Konstruktionen nicht zu unterscheiden<br />

sind.<br />

– NK 1 : Nominalklammern, die mit einem Artikel, einem Pronomen oder einer<br />

Kombination <strong>von</strong> Präposition und Artikel oder Pronomen eingeleitet werden<br />

wie etwa durch die das englische Ritual befolgende Krönung. Eine Präposition<br />

ohne Artikel/Pronomen oder ein Vergleichspartikel reicht als Einleitung<br />

nicht. Hier genügt es, um sicherzugehen, dass es sich um eine Nominalklammer<br />

98


8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />

handelt, wenn die eingeschlossene Nominalphrase mit einem einfachen Artikel<br />

oder Pronomen beginnt.<br />

– NK 2 : Nominalklammern, die anders als in NK 1 auch durch Präposition ohne<br />

Artikel/Pronomen oder Vergleichspartikel eingeleitet werden dürfen wie mit<br />

fast kochendem, über 90 Grad heißem Wasser. Um zu garantieren, dass es sich<br />

um eine Nominalklammer handelt, muss die eingeschlossene Nominalphrase<br />

<strong>von</strong> einer Präposition mit oder ohne Artikel/Pronomen oder <strong>von</strong> einem Vergleichspartikel<br />

eingeleitet oder <strong>von</strong> einer Postposition geschlossen werden; verlangte<br />

man nur einen einfachen Artikel, ergäben sich viele Fehlklassifikationen<br />

wie etwa für mit dem fast kochenden Wasser der heißen Quelle.<br />

• NP : Innerhalb der umgebenden Nominalphrase befinden sich als deren Attribute<br />

weitere Nominalphrasen, die teilweise auch selbst Nominalklammern sein können.<br />

Es werden drei Typen unterschieden, wobei einfache Nomina nur mit N bezeichnet<br />

werden (siehe unten).<br />

– NP 11 : Eingeschlossene Nominalphrase direkt unterhalb einer umgebenden Nominalklammer<br />

vom Typ NK 1 . Als Einleitung wird mindestens ein Artikel oder<br />

Pronomen erwartet (siehe D 1 ). In der Phrase kann sich ein komplexer Ausdruck<br />

mit Adjektiven, Adverbien sowie weiteren Attributen auf gleicher Ebene<br />

und neuen Nominalklammern ergeben.<br />

– NP 12 : Fast wie NP 11 , allerdings wird als Einleitung in Entsprechung zu NK 2<br />

als umgebender Nominalphrase kein bloßer Artikel bzw. kein bloßes Pronomen<br />

als Einleitung akzeptiert (siehe D 3 ).<br />

– NP 2 : Eingeschlossene Nominalphrase auf zweiter Verschachtelungsebene. Sie<br />

kann sehr komplex werden, aber keine weiteren Nominalklammern beinhalten,<br />

die dann auf der dritten Verschachtelungsebene lägen.<br />

• D: Als Determinative werden über bloße Artikel hinaus alle weiteren Pronomen bezeichnet,<br />

die eine Nominalphrase anstelle eines Artikels einleiten können, sowie Vergleichspartikel<br />

und Präpositionen. Die Bezeichnung wird gewählt, weil diese Wörter<br />

zur Bestimmung bzw. Determination des Anfangs der Nominalphrasen benutzt werden,<br />

und ist nicht deckungsgleich mit Determinativen im üblichen Sinn. Es gibt drei<br />

verschiedene, auf die verschiedenen Arten <strong>von</strong> Nominalklammern und -phrasen zugeschnittene<br />

Versionen:<br />

– D 1 : Enthält Artikel, Präpositionen, attributierende Demonstrativ-, Possessivund<br />

Indefinitpronomen, Kombinationen aus Präposition und einem der Artikel/Pronomen<br />

sowie Vergleichspartikel.<br />

– D 2 : Wie D 1 , aber keine Vergleichspartikel und keine alleinstehende Präposition.<br />

– D 3 : Wie D 1 , aber keine alleinstehenden Artikel oder Pronomen.<br />

• KON: Innerhalb einer Nominalklammer können auch Konjunktionen auftreten. Als<br />

zulässige Konjunktionen akzeptiert der Algorithmus allerdings nur und sowie oder.<br />

Konjunktionen wie sondern oder aber werden nicht akzeptiert, weil sie eher adversativen,<br />

trennenden Charakter haben. Sie sind zwar durchaus in Nominalklammern<br />

möglich, sie zu erlauben, führte aber zu vermehrten Fehlerkennungen.<br />

99


8. Implementierung <strong>von</strong> MT Analyser<br />

• N: Als Nomen werden alle Arten <strong>von</strong> Substantiven und substituierenden Pronomen<br />

gewertet. Dazu gehören normale Substantive, Eigennamen, Personalpronomen, Reflexivpronomen,<br />

substituierende Possessiv-, Demonstrativ- und Indefinitpronomen<br />

und auch Erstglieder <strong>von</strong> Kompositionen wie in Ein- und Ausstieg.<br />

• AP : Als Adjektivphrase AP 1 werden beliebige, nicht-leere Folgen <strong>von</strong> Adjektiven<br />

und Zahlwörtern, ggf. mit folgendem Determinativ, behandelt (das STTS ist bei<br />

Zahlwörtern sehr unspezifisch, auch wenn sie unterschiedliche Funktionen haben),<br />

als AP 2 nur Folgen <strong>von</strong> Adjektiven.<br />

Beispiele Um die Mechanismen besser verstehen zu können, sollen zwei Beispiele aus<br />

dem zugehörigen Textkorpus sie näher verdeutlichen, je eines für beide Typen <strong>von</strong> Nominalklammern.<br />

Zunächst geht es um die Nominalklammer durch die das englische Ritual<br />

befolgende Krönung. Sie liefert als Tagfolge appr art art adja nn adja nn. Daraus<br />

ergibt sich bei einer ersten Reduktion durch Anwendung der Produktionsregeln in umgekehrter<br />

Richtung D 2 D 1 AP 1 N AP 2 N. Als nächstes lassen sich die Nichtterminalsymbole<br />

D 1 AP 1 N zusammenfassen, so dass D 2 NP 11 AP 2 N übrigbleibt. Das wird im nächsten<br />

Schritt zu NK 1 und dann zu NK, so dass die Nominalklammer erfolgreich erkannt wurde.<br />

Dieser Vorgang ist in dem Reduktionsbaum in Abbildung 8.3 festgehalten.<br />

Abbildung 8.3.: Reduktionsbaum für eine Nominalklammer (erstes Beispiel)<br />

Als zweites Beispiel dient die Nominalklammer die US-amerikanischen Studien zufolge<br />

über 87% aller privaten Konsumentscheidungen entscheidenden Frauen. Sie liefert zu Beginn<br />

die Tagfolge art adja nn appo appr card piat adja nn adja nn. Im ersten<br />

Schritt wird daraus durch die rückwärts benutzten Produktionsregeln D 1 AP 1 N appo<br />

D 3 card D 1 AP 1 N AP 2 N. Der zweite Reduktionsschritt ergibt D 1 NP 12 D 3 AP 1 AP 1<br />

N AP 2 N. Wieder lassen sich mehrere Nichtterminalsymbole zu einer Nominalphrase zusammenfassen,<br />

so dass daraus D 1 NP 12 NP 12 AP 2 N folgt. Dies lässt sich zu NK 2 und<br />

somit zu NK, dem Startsymbol, reduzieren. Abbildung 8.4 verdeutlicht den Vorgang.<br />

100


8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />

Abbildung 8.4.: Reduktionsbaum für eine Nominalklammer (zweites Beispiel)<br />

Testergebnisse<br />

Die Grammatik wurde am Textkorpus mit Nominalklammern getestet. Insgesamt waren<br />

88 Nominalklammern erkennbar, die restlichen vorhandenen erhielten <strong>von</strong> TreeTagger ein<br />

oder mehrere falsche Tags zugewiesen, die eine Erkennung als Nominalklammer nicht<br />

zuließen. Insbesondere wurden Artikel als substituierende Pronomen und Partizipien als<br />

finite Verben eingestuft. Von den 88 erkennbaren Nominalklammern wurden 63 korrekt<br />

identifiziert, wobei in wenigen Fällen die Länge des ausgewählten Textausschnitts zu groß<br />

war. Somit war die Erkennung zu 71, 6 Prozent vollständig. Eine weitere deutliche Steigerung<br />

der Erkennungsrate dürfte mit den vorhadenen grammatischen Informationen, die<br />

beispielsweise Kongruenzüberprüfungen nahezu ausschließen, nicht möglich sein.<br />

Das Ergebnis ist zwar deutlich schlechter als die 90-prozentige Erkennung des zweiten Ansatzes,<br />

dafür tendiert aber die zuvor überbordende Zahl an Fehlidentifikationen gen null.<br />

In den Textkorpora zu den anderen Textmerkmalen wurden insgesamt 26 Nominalklammern<br />

identifiziert, <strong>von</strong> denen auch 23 tatsächlich Nominalklammern waren. Zwei wurden<br />

durch TreeTagger falsch getaggt, eine durch den Algorithmus falsch erkannt. Bei einer<br />

Quote <strong>von</strong> 23 aus 24 erkennbaren bedeutet das eine Präzision <strong>von</strong> 95, 8 Prozent.<br />

8.3.5. Relativsätze<br />

MT Analyser durchsucht alle als Nebensätze markierten Teilsätze nach Relativpronomen<br />

(Tags PRELS, PRELAT und teilweise auch PWAV ) an erster oder zweiter Stelle des<br />

jeweiligen Teilsatzes, um auch Relativsätze in präpositionalen Konstruktionen wie Das<br />

Haus, in dem ich wohne, ist schön. zu erkennen. Darüber hinaus wird auch nach Interrogativpronomen<br />

(Tags PWAT und PWS) gesucht, die zur Einleitung <strong>von</strong> Nebensätzen<br />

genutzt werden. Ein Beispiel hierfür ist etwa: Weißt du, welches Fußballspiel übertragen<br />

101


8. Implementierung <strong>von</strong> MT Analyser<br />

wird? Bedingung dafür, dass ein Relativsatz erkannt wird, ist außerdem, dass es sich um<br />

Formen der Pronomen der, wer, was und welcher handelt oder dass es eine Verbindung<br />

mit wo- wie womit oder worüber ist, die anstelle eines herkömmlichen Relativpronomens<br />

eingesetzt werden kann. Das Wort wo selbst wird hingegen nicht beachtet, da es vor allem<br />

für Lokalsätze benötigt wird, wenngleich es einige präpositionale Konstruktionen in<br />

Relativsätzen ersetzen kann.<br />

Beim Testen des Algorithmus mit dem unbearbeiteten Textkorpus für Relativsätze ergab<br />

sich folgendes Bild: Von den insgesamt 104 darin enthaltenen Relativsätzen wurden 97<br />

erkannt und als Übersetzungsschwierigkeit gewertet. Sechsmal hatte TreeTagger ein Relativpronomen<br />

fälschlicherweise als Artikel gekennzeichnet, so dass eine Erkennung des<br />

Relativsatzes durch MT Analyser nicht möglich war. Einmal scheiterte die Erkennung<br />

an besagtem wo. Von 98 erkennbaren Relativsätzen wurden also 97 entdeckt, was einer<br />

Quote <strong>von</strong> 99, 0 Prozent entspricht.<br />

8.3.6. Verbklammern<br />

Die Erkennung <strong>von</strong> Verbklammern grenzt einen Mindestabstand <strong>von</strong> drei Wörtern zwischen<br />

der finiten Verbform und dem zugehörigen Rest des Verbs aus, weil sich eine hundertprozentige<br />

Schließung der Lücke zwischen beiden Teilen aufgrund der häufigen Nachstellung<br />

des Personalpronomens in der deutschen Sprache nicht verwirklichen lässt und<br />

kleine Lücken den Übersetzungsprogrammen kaum Schwierigkeiten bereiten dürften. Aus<br />

diesem Grund beinhaltet auch der Textkorpus mit Verbklammern nur längere Klammern.<br />

Insgesamt werden drei verschiedene Suchmuster angewandt, wobei sich die Suche stets auf<br />

einen vollständigen Teilsatz beschränkt, weil Verbklammern nicht teilsatzübergreifend sein<br />

können. In jedem der drei Fälle wird der Satz vom Ende bis zum Anfang durchlaufen,<br />

so dass stets zu einem möglichen Ende einer Verbklammer ein passender Anfang gesucht<br />

wird. Die Suchmuster lehnen sich dabei stark an die in Abschnitt 5.2.1 beschriebenen<br />

möglichen Arten <strong>von</strong> Verbklammern an und decken sie ab, wobei sie folgendermaßen<br />

aussehen:<br />

• Finites Verb → Zwischenraum → Präfix: Zunächst wird nach einem mit PTKVZ<br />

getaggten Wort gesucht, das ein Präfix eines zusammengesetzten Verbs darstellt,<br />

etwa ab in abfahren: Ohne auf Anschlussreisende zu warten, fuhr der Zug ab. Anschließend<br />

wird der Text weiter nach vorne durchlaufen, bis das erste finite Verb<br />

gefunden ist, markiert durch die Tags VVFIN für Vollverben, VAFIN für Hilfsverben<br />

und VMFIN für Modalverben. Überschreitet die dazwischen befindliche Lücke<br />

das Mindestmaß, wird eine Übersetzungsschwierigkeit erzeugt.<br />

• Finites Verb → Zwischenraum → Infinitiv(e): Sobald der erste Infinitiv gefunden<br />

ist, markiert durch die Tags VVINF, VAINF und VMINF, wird nach finiten Formen<br />

<strong>von</strong> Modal- oder Hilfsverben gesucht, wie sie in Sätzen wie Das kann ich niemals<br />

schaffen. oder Eines Tages wirst du ganz vorne sein. vorkommen. Auch finite Formen<br />

des Vollverbs lassen werden berücksichtigt, da es in gleicher Weise wie Modalverben<br />

eingesetzt wird. Wenn ein derartiges finites Verb gefunden wurde, ist die<br />

Verbklammer vollständig und wird als Übersetzungsschwierigkeit gewertet.<br />

• Finites Hilfsverb → Zwischenraum → Partizip Perfekt: Dieses Muster deckt sämtliche<br />

zusammengesetzten Verbformen ab, in denen am Ende ein Partizip steht. Wurde<br />

102


8.4. Weitere Programmmerkmale<br />

ein Partizip, markiert durch die Tags VAPP, VMPP und VVPP, gefunden, wird der<br />

Satz in Richtung Anfang durchsucht, bis das erste finite Hilfsverb (konjugierte Form<br />

<strong>von</strong> sein oder haben) auftaucht und dann unter Beachtung des Mindestabstands eine<br />

Übersetzungsschwierigkeit erstellt.<br />

Der Test mit dem unbearbeiteten Textkorpus zu Verbklammern lieferte ein eindeutiges Ergebnis:<br />

In den insgesamt 100 Sätzen mit 104 Verbklammern wurden <strong>von</strong> MT Analyser 98<br />

Verbklammern erkannt. Die sechs nicht erkannten Verbklammern resultierten aus falschen<br />

Tagzuweisungen durch TreeTagger. Dabei wurde einmal ein Verbpräfix nicht erkannt, in<br />

den anderen Fällen wurde bei zweideutigen Verbformen, also solchen, die sowohl finites<br />

Verb als auch Partizip oder Infinitiv sein können, die falsche Möglichkeit gewählt, so dass<br />

es nicht möglich war, diese Verbklammern zu finden. Alle erkennbaren Verbklammern<br />

wurden also auch entdeckt, die Erfolgsquote beträgt somit 100 Prozent.<br />

8.4. Weitere Programmmerkmale<br />

Neben der bloßen Bewertung <strong>von</strong> Texten hinsichtlich ihrer Übersetzbarkeit sind noch einige<br />

weitere Funktionen in MT Analyser implementiert, die im diesem Abschnitt vorgestellt<br />

werden.<br />

8.4.1. Benutzungsmodi<br />

MT Analyser wurde so implementiert, dass es auf drei verschiedene Weisen eingesetzt<br />

werden kann: zur Schnellbewertung eines Textes, mit textueller Oberfläche in der Kommandozeile<br />

und mit grafischer Oberfläche.<br />

Schnellbewertung<br />

Der Schnellmodus <strong>von</strong> MT Analyser kann aus der Kommandozeile heraus aufgerufen<br />

werden und verlangt als Parameter die Datei mit dem zu bewertenden Text und die Datei<br />

für den Übersetzbarkeitsreport. Konfigurationsmöglichkeiten bestehen nicht, so dass stets<br />

alle Textmerkmale gesucht und mit den gespeicherten Indexgewichten bewertet werden.<br />

Aufrufsyntax: java -jar MTAnalyser.jar Eingabedatei Ausgabedatei<br />

Textuelle Oberfläche<br />

Abbildung 8.5.: Hauptmenü im Textmodus<br />

103


8. Implementierung <strong>von</strong> MT Analyser<br />

Für den Aufruf des Programms in der Kommandozeile steht eine eigene textuelle Oberfläche<br />

zur Verfügung, über die auf sämtliche Programmfunktionen inklusive der Hilfe<br />

zugegriffen werden kann. Aufgrund der Vielzahl an Möglichkeiten (Bearbeitung des Lexikons,<br />

Auswahl <strong>von</strong> Textmerkmalen etc.) wurde darauf verzichtet, die Steuerung, wie dies<br />

bei vielen Hilfsprogrammen üblich ist, über Eingabeparameter zu organisieren. Dies hätte<br />

zu einer bei der Benutzung nur schwer zu überschauenden Menge an Parametern und<br />

Parameterkombinationen geführt. Statt dessen wurden auf Höhe und Breite einer typischen<br />

Kommandozeile (25 x 80) abgestimmte textuelle Menüs geschrieben, aus denen die<br />

einzelnen Funktionen sich über Zahlencodes aufrufen lassen. Bei sämtlichen Vorgängen,<br />

die nicht bloß eine Anzeige <strong>von</strong> Daten beinhalten, wird mit Statusmeldungen über Erfolg<br />

und Misserfolg unterrichtet. Die Ausgabe der Menüs wird dabei über einen eigenen Ausgabestream<br />

mit betriebssytemabhängiger Codierung gesteuert, weil der Standardstream<br />

System.out aufgrund der verschiedenen Codierungen Probleme im Umgang mit Sonderzeichen<br />

hat.<br />

Abbildung 8.6.: Auswahl <strong>von</strong> Textmerkmalen im Bewertungsprozess<br />

Die Ausnahmebehandlung des Programms funktioniert so, dass normalerweise, wenn zum<br />

Beispiel die Indexgewichte nicht aus der Konfigurationsdatei gelesen werden konnten, das<br />

Programm Standardwerte verwendet und nur in kritischen Fällen beendet wird, wenn etwa<br />

keine Eingaben <strong>von</strong> der Standardeingabe gelesen werden können. Nach der erfolgreichen<br />

Bewertung eines Textes wird die allgemeine Textstatistik in der Kommandozeile angezeigt.<br />

Der ausführliche Übersetzbarkeitsreport wird aus Gründen der Übersichtlichkeit lediglich<br />

in der benutzerdefnierten Datei gespeichert.<br />

Die Abbildungen 8.5 und 8.6 zeigen das Hauptmenü und die Auswahl <strong>von</strong> zu bewertenden<br />

Textmerkmalen im Textmodus. Verantwortlich für die Ausgabe der passenden Textmenüs<br />

ist die Klasse UserInterface im Paket mtanalyser.console.<br />

Aufrufsyntax: java -jar MTAnalyser.jar -c<br />

104


8.4. Weitere Programmmerkmale<br />

Abbildung 8.7.: Hauptfenster mit Übersetzbarkeitsreport<br />

Abbildung 8.8.: Baumdarstellung des Mehrdeutigkeitslexikons<br />

105


8. Implementierung <strong>von</strong> MT Analyser<br />

Grafische Oberfläche<br />

Die Benutzung der grafischen Oberfläche ist der Standardmodus. Die Oberfläche wurde<br />

komplett in Swing geschrieben, und ihre Darstellung wird <strong>von</strong> den verschiedenen Klassen<br />

im Paket mtanalyser.gui übernommen. Das Hauptfenster ist mit einer Menüleiste ausgestattet,<br />

über die auf sämtliche Funktionen zugegriffen werden kann. Dazu existieren die<br />

Menüs Programm, Lexikon, Bewertung und Hilfe, die mit Maus oder Tastatur bedient<br />

werden können. Die Funktionsaustattung der Menüs ist dabei weitestgehend dieselbe wie<br />

in der textuellen Oberfläche, um keine Umgewöhnung zu erfordern.<br />

Das Hauptfenster der Anwendung setzt sich darüber hinaus aus drei Komponenten zusammen:<br />

einer Anzeige des Namens der für die Bewertung ausgewählten Datei, einer JEditorPane<br />

zur Anzeige des Übersetzbarkeitsreports (ohne Statistik) und einem normalen<br />

Textbereich zur Anzeige der allgemeinen Textstatistik. Weil die JEditorPane leider nur<br />

in der Lage ist, HTML in Version 3.2 darzustellen, muss eine zusätzliche, leicht <strong>von</strong> der<br />

Reportdatei abweichende Version des Übersetzbarkeitsreports erstellt werden. Ein diesbezüglich<br />

geeigneteres GUI-Element, das einen Browser einbindet, wie es etwa bei C#<br />

existiert, gibt es in Swing nicht.<br />

Die Bewertung <strong>von</strong> Texten läuft in eigenen Threads ab. Dies hat den Vorteil, dass die<br />

Oberfläche unabhängig vom Bewertungsvogang weiterhin gezeichnet wird und nicht einfriert“.<br />

Gleichwohl sind sämtliche Funktionen währenddessen deaktiviert, und eine War-<br />

”<br />

tegrafik wird eingeblendet.<br />

Die Abbildungen 8.7 und 8.8 zeigen das Programm nach der Bewertung einer Datei mit<br />

dem eingeblendeten Übersetzbarkeitsreport und dem als Baum dargestellten Mehrdeutigkeitslexikon<br />

in einem eigenen Fenster.<br />

Aufrufsyntax: java -jar MTAnalyser.jar (-g)?<br />

8.4.2. Übersetzbarkeitsreport<br />

Die Ergebnisse der Bewertung werden gespeichert, damit sie anschließend zur Verbesserung<br />

des zugrundeliegenden Textes herangezogen werden können. Die Speicherung geschieht<br />

in Form eines temporären Reports zur Anzeige im Hauptfenster des Programms<br />

und eines persistenten HTML-Dokuments an benutzerdefinierter Position im Dateisystem.<br />

In jedem Report sind alle Sätze, deren Übersetzungsschwierigkeiten mit Indexpunkten<br />

sowie der gesamte Indexwert und eine Gesamtstatistik enthalten (vgl. hierzu Abschnitt<br />

8.4.1). Auch die zugrundeliegende Textdatei und das Erstellungsdatum werden genannt.<br />

Die Darstellung wird vom Inhalt über eine CSS-Datei getrennt, in der alle wichtigen<br />

Designvorgaben enthalten sind. Die Datei befindet sich im Installationverzeichnis <strong>von</strong><br />

MT Analyser und wird <strong>von</strong> allen erzeugten HTML-Dokumenten fest referenziert.<br />

Abbildung 8.9 zeigt den Anfang einer HTML-Reportdatei.<br />

Druckfunktion<br />

Zusätzlich zu dem HTML-Report wurde eine Druckfunktion eingebaut, die es erlaubt,<br />

einen gerade erstellten Report aus dem Programm heraus auszudrucken. Hierzu wurde die<br />

Klasse ReportPrinter entworfen, die das Interface java.awt.print.Printable implementiert.<br />

Die da<strong>von</strong> bereitgestellte Methode print wird allerdings einmal pro Seite aufgerufen, weshalb<br />

es unmöglich war, alle Strings für die Druckausgabe auf einmal zu erzeugen und zu<br />

106


8.4. Weitere Programmmerkmale<br />

Abbildung 8.9.: Ausschnitt aus HTML-Übersetzbarkeitsreport<br />

schreiben. Statt dessen muss nach der Erzeugung der zu druckenden Strings zuerst berechnet<br />

werden, wieviele Seiten zu drucken sind und wieviele Strings auf eine Seite passen.<br />

Zeilenumbrüche sind ebenfalls zu berücksichtigen.<br />

Abbildung 8.10.: Klasse AnnotatedString<br />

Um die einzelnen Strings mit zusätzlichen Angaben zur Ermittlung des Platzbedarfs ausstatten<br />

zu können, wurde die Klasse AnnotatedString implementiert (siehe Abbildung<br />

8.10) erzeugt. Im Attribut string wird der ursprüngliche String gehalten, font beinhaltet<br />

Angaben zur Schriftart, aus denen sich auch die Länge des Strings berechnen lässt. Überschreitet<br />

ein String die verfügbare Breite, wird er nach dem letzten auf das Blatt passenden<br />

Zeichen umgebrochen. Das Attribut indentation speichert eine mögliche Einrückung des<br />

Strings auf dem Blatt, während lineSpacing den Zeilenabstand angibt.<br />

Nach dem Erstellen der Strings als Vektor und der Berechnung der Größenangaben vor<br />

dem Ausdruck der ersten Seite wird dann über einen Index geregelt, welche Strings auf<br />

die aktuelle Seite gehören.<br />

107


8. Implementierung <strong>von</strong> MT Analyser<br />

8.4.3. Editierbares Mehrdeutigkeitslexikon<br />

Ein editierbares Lexikon für mehrdeutige Begriffe ist sinnvoll, weil jedes Fachgebiet, dessen<br />

Texte übersetzt werden sollen, seine eigene Terminologie mit den ihr eigenen Mehrdeutigkeiten<br />

besitzt, die im Rahmen dieser Arbeit niemals auch nur annähernd vollständig<br />

erfasst werden könnten. Vielmehr umfasst das im Programm enthaltene Lexikon nur eine<br />

recht kleine Anzahl <strong>von</strong> häufigen mehrdeutigen Begriffen und erwartet <strong>von</strong> den Benutzern,<br />

dass sie es ergänzen. Zudem verändert sich der deutsche Wortschatz laufend und mit ihm<br />

die Mehrdeutigkeiten, so dass ständige Aktualisierungen notwendig sind.<br />

Abbildung 8.11.: Bearbeiten eines mehrdeutigen Begriffs<br />

Wie bereits in Abschnitt 7.4.3 beschrieben, stellt die Klasse LexiconHandler Methoden<br />

zum Einfügen, Löschen und Auslesen bereit, auf die neben dem Algorithmus zum Auffinden<br />

<strong>von</strong> Mehrdeutigkeiten auch die Benutzungsoberfläche zugreift. Die GUI bietet hierzu<br />

ein eigenes Lexikon-Menü an. Bei der Anzeige aller Einträge erscheint zwecks guter Übersichtlichkeit<br />

ein als JTree implementierter Baum (vgl. Abbildung 8.8), der die Hierarchie<br />

vom übergeordneten Buchstaben bis zu den verschiedenen englischen Bedeutungen darstellt<br />

und aus- bzw. zusammenklappbar ist. Die Auswahl eines Eintrags gestattet über eine<br />

Schaltfläche auch dessen Bearbeitung (zu sehen in Abbildung 8.11). Einträge können direkt<br />

aus dem Baum gelöscht werden. Neue Einträge werden über einen eigenen Menüpunkt<br />

hinzugefügt und erfordern mindestens zwei englische Bedeutungen.<br />

Weil eine derartige Baumdarstellung in einer Kommandozeile leicht sehr unübersichtlich<br />

wird, werden die verschiedenen Einträge dort seitenweise und ohne ihre Bedeutungen<br />

aufgelistet. Will man sich einen bestimmten Eintrag anzeigen lassen, so muss man seine<br />

Grundform eingeben. Gleiches gilt für das Löschen eines Eintrages. Beim Hinzufügen wird<br />

solange nach neuen Bedeutungen gefragt, bis keine Eingabe mehr erfolgt, wobei auch hier<br />

mindestens zwei Eingaben erwartet werden (vgl. Abbildung 8.12).<br />

108


8.4. Weitere Programmmerkmale<br />

Abbildung 8.12.: Eintrag zum Lexikon hinzufügen<br />

Direkt nach einer Änderung wird in beiden Benutzungsmodi die Lexikondatei lexicon.xml<br />

aktualisiert und gegebenenfalls neu geladen, damit die Datensätze, mit denen gearbeitet<br />

wird, stets aktuell sind.<br />

8.4.4. Konfigurationsmöglichkeiten<br />

Die Gewichte der einzelnen Textmerkmale sind zwar empirisch ermittelt worden und beschreiben<br />

den Einfluss eines Textmerkmals auf die Übersetzbarkeit eines Textes sehr gut,<br />

wie in Abschnitt 6.2 dargestellt. Andererseits kann es durchaus sinnvoll sein, die Werte zu<br />

ändern und auf ein bestimmtes Übersetzungsprogramm abzustimmen, das mit dem einen<br />

oder anderen Textmerkmal besser oder schlechter zurechtkommt als der Durchschnitt.<br />

Indexgewichte setzen<br />

Daher wurde eine Funktion zum Setzen der Indexgewichte implementiert. Sie lässt sich<br />

in der textuellen Oberfläche direkt aus dem Hauptmenü aufrufen und fragt nacheinander<br />

alle Indexgewichte ab. In der grafischen Oberfläche steht dazu das Menü Bewertung zur<br />

Verfügung. Im Untermenü Gewichte der Textmerkmale lassen sich neue Gewichte direkt<br />

eingeben und speichern. Geänderte Gewichte werden in der Datei weights.txt gespeichert<br />

und bei Bedarf ausgelesen. Die Standardgewichte der Gewichte sind fest in der Klasse<br />

SentenceAnalyser hinterlegt, so dass die aktuellen Gewichte jederzeit wieder zurückgesetzt<br />

werden können. In Abbildung 8.13 ist das GUI-Menü für die Indexgewichte zu sehen.<br />

Textmerkmale an- und abwählen<br />

Die einzelnen Textmerkmale können aus denselben Gründen, aus denen ihre Gewichte<br />

manuell eingestellt werden können, auch an- und abgewählt werden. In der grafischen<br />

Oberfläche geschieht dies über das Menü Bewertung, das in Abbildung 8.14 zu sehen ist.<br />

In der textuellen Oberfläche ist dies etwas anders geregelt: Hier wird vor jeder Bewertung<br />

gefragt, ob alle Merkmale bewertet werden sollen. Wird dies verneint, kann aus einer<br />

109


8. Implementierung <strong>von</strong> MT Analyser<br />

Abbildung 8.13.: Angabe neuer Gewichte für die Textmerkmale<br />

Liste der Textmerkmale über Zahlencodes solange an- und abgewählt werden, bis die<br />

gewünschte Konfiguration erreicht ist (vgl. Abbildung 8.6).<br />

Abbildung 8.14.: An- und Abwahl <strong>von</strong> Textmerkmalen<br />

TreeTagger konfigurieren<br />

Weil TreeTagger <strong>von</strong> MT Analyser benötigt wird, aber nicht im Programm selbst enthalten<br />

ist, muss dem Programm ein Pfad angegeben werden, unter dem es TreeTagger<br />

ausführen kann (Aufruf siehe Abschnitt 8.1.2). Aus den Benutzungsoberflächen heraus<br />

kann dieser Pfad gesetzt werden, der stets absolut sein und zum Verzeichnis der auszuführenden<br />

Datei führen muss. Dabei unterscheidet MT Analyser mit Hilfe der entsprechenden<br />

Umgebungsvariablen zwischen den verschiedenen Betriebssystemen, in denen jeweils<br />

unterschiedliche Dateien auszuführen sind. Die Pfadangaben werden bei Bedarf aus<br />

der Datei treetagger.txt ausgelesen.<br />

Nach Neuangabe eines Pfades wird im Textmodus automatisch ein Test vorgenommen, ob<br />

TreeTagger mit den neuen Angaben erfolgreich ausgeführt werden kann. Dazu wird eine<br />

110


8.4. Weitere Programmmerkmale<br />

Abbildung 8.15.: Angabe und Test eines Pfades zu TreeTagger<br />

Testdatei mit zufälligem Namen erzeugt, getaggt und wieder gelöscht. Bei Benutzung der<br />

grafischen Oberfläche muss der Test aus dem Programm-Menü heraus manuell gestartet<br />

werden. Fehlschlag und Erfolg werden stets bekanntgegeben. Abbildung 8.15 zeigt die<br />

Angabe eines neuen Pfades im Textmodus.<br />

8.4.5. Hilfe<br />

MT Analyser enthält zu jeder seiner Funktionen ausführliche Hilfestellungen und Erklärungen.<br />

Die zugehörigen Texte wurden ins Programm integriert und können aus dem<br />

Hauptfenster in der grafischen bzw. aus dem Hauptmenü in der Textversion über das<br />

Hilfe-Menü aufgerufen werden.<br />

Abbildung 8.16.: Hilfemenü in der grafischen Oberfläche<br />

Implementiert ist die Hilfe in der grafischen Oberfläche als zweigeteiltes Fenster, in dem<br />

links die verschiedenen Hilfepunkte, nach Themen geordnet, aufgelistet sind und rechts<br />

die jeweiligen Texte eingeblendet werden. Die Texte selbst sind wiederum kleine HTML-<br />

Fragmente, die in der Klasse HelpTextsGui gespeichert und bei Auswahl des entsprechenden<br />

Punktes geladen werden. Ein Index oder eine Suchmaske, wie bei zahlreichen<br />

111


8. Implementierung <strong>von</strong> MT Analyser<br />

Anwendungen vorhanden, existiert nicht, weil die Anzahl der Stichpunkte vergleichsweise<br />

gering und recht übersichtlich ist. Abbildung 8.16 zeigt das Fenster des Hilfemenüs.<br />

Abbildung 8.17.: Hilfemenü in der textuellen Oberfläche<br />

In der Textversion gibt es hingegen ein Menü mit allen Hilfeeinträgen, die dann über<br />

Zahlencodes angezeigt werden können. Die Texte sind gegenüber der GUI-Version leicht<br />

angepasst, weil sich der Aufruf einiger Funktionen unterscheidet. Außerdem handelt es<br />

sich diesmal um normale Texte ohne HTML-Markup. Gespeichert sind sie in der Klasse<br />

HelpTextsConsole. Abbildung 8.17 zeigt das Hilfemenü.<br />

8.4.6. Systemanforderungen und Laufzeit<br />

MT Analyser wurde auf drei Rechnerkonfigurationen getestet, wobei, um die Laufzeit der<br />

Bewertung zu ermitteln, Texte mit 100 Sätzen analysiert wurden (soweit möglich ohne<br />

weitere, gleichzeitig im Hintergrund laufende Programme, um MT Analyser vollen Zugriff<br />

auf die Systemressourcen zu ermöglichen).<br />

Zunächst fiel allerdings der hohe Speicherbedarf des Programms auf: Nach Abschluss<br />

der Bewertung eines Textes nahm es rund 90 MB Arbeitsspeicher ein. Allerdings ließ<br />

sich dieser enorme Bedarf durch gezieltes Aufrufen des Garbage Collectors <strong>von</strong> Java auf<br />

maximal rund 30 MB reduzieren, was für die Komplexität der Algorithmen und die Anzahl<br />

der zu analysierenden Daten angemessen erscheint. (Dabei stellt sich konsequenterweise<br />

die Frage, warum die automatische Freigabe nicht mehr gebrauchter Ressourcen in Java<br />

offenbar so schlecht funktioniert.) TreeTagger nahm zusätzlich während der Ausführung<br />

über 100 MB ein.<br />

Getestet wurde auf folgenden <strong>Systeme</strong>n:<br />

• mobile AMD Athlon XP-M 2500+; 1,86 GHz; 512 MB RAM; Windows XP Home<br />

Edition, Service Pack 2<br />

• AMD Athlon 64 X2 Dual Core 3800+; 2,01 GHz; 1 GB RAM; Fedora Core 6, Linux-<br />

Version 2.6.19<br />

• Sun SPARC Fire V880 mit 8 CPUs (je 1200 MHz); insges. 32 GB RAM; Solaris 9<br />

112


8.5. MT Analyser Web<br />

Auf allen Rechnern betrug die Ausführungszeit einer Textbewertung für 100 Sätze zwischen<br />

maximal 15 Sekunden auf dem Windows-Rechner und minimal fünf Sekunden auf<br />

den anderen Rechnern, die mehr RAM hatten. Bei der Bewertung der Textmerkmale<br />

benötigte der Algorithmus für Nominalklammern mit etwa fünf Sekunden auf dem Windows-Rechner<br />

die meiste Zeit, weil hier zahllose Abgleiche mit einem sehr großen regulären<br />

Ausdruck erfolgen. Insgesamt hält sich die Berechnungszeit einer Textanalyse also in akzeptablem<br />

Rahmen.<br />

8.5. MT Analyser Web<br />

Neben MT Analyser wurde noch eine leicht modifizierte Version des Programms als Webanwendung<br />

implementiert, daher die Bezeichnung MT Analyser Web. Im Gegensatz zu<br />

MT Analyser dient die Webanwendung weniger für den Produktiveinsatz als vielmehr als<br />

Vorführung für Menschen, die sich für maschinelle Übersetzung interessieren.<br />

8.5.1. Zusätzliche Hilfsmittel<br />

Weil das gesamte Programm bereits in Java geschrieben war, wurden Java Server Pages<br />

(JSP) benutzt, um die Weboberfläche zu erstellen. Als Server wurde Apache Tomcat<br />

5.5.x eingesetzt. Darüber hinaus wurden zwei weitere Hilfspakete der Apache-Jakarta-<br />

Projekts verwendet 2 : commons.fileupload und commons.io. Sie werden benötigt, um das<br />

Heraufladen <strong>von</strong> Dateien zur Bewertung zu ermöglichen, das standardmäßig nicht in der<br />

JSP-Spezifikation vorgesehen ist.<br />

8.5.2. Unterschiede zu MT Analyser<br />

Im wesentlichen benutzt MT Analyser Web dieselben Klassen, Attribute und Methoden<br />

wie auch MT Analyser, jedoch wurden einige Funktionen leicht verändert oder gestrichen.<br />

Entfallen sind insbesondere die Funktionen zum Bearbeiten des Mehrdeutigkeitslexikons.<br />

Diese werden für eine Demonstration der Bewertungsfunktion nicht unbedingt benötigt,<br />

und darüber hinaus beugt es Missbrauch vor, wenn Außenstehende keinen Zugriff auf<br />

die Lexikondatei haben und nicht nach Belieben falsche Einträge hinzufügen oder bereits<br />

bestehende löschen können. Dies würde zu einer Verfälschung der Analyse führen.<br />

Aus demselben Grund nicht vorhanden sind auch die Funktionen zum persistenten Setzen<br />

der Indexgewichte und zum Ändern der TreeTagger-Anbindung. Die zugehörigen Angaben<br />

sind in der Klasse SentenceAnalyser und in der Datei web.xml gespeichert und werden<br />

bei Bedarf <strong>von</strong> dort ausgelesen. Letztere können gegebenenfalls Systemadministratoren<br />

mit Zugriff auf den Server ändern.<br />

Hinzugefügt wurde ein Servlet, das die Interaktion zwischen den ausschließlich für die<br />

Datenaus- und -eingabe genutzten JSP-Seiten und dem Programmkern ermöglicht, indem<br />

es die Eingaben formatiert und an die Bewertungsfunktionen weiterleitet und die<br />

Ergebnisse angemessen formatiert zurückgibt, sowie ein Listener, der einen Upload abbricht,<br />

wenn die maximale Dateigröße (100 KB) überschritten wird.<br />

2 Im Internet erreichbar unter: http://jakarta.apache.org/commons/index.html, zuletzt besucht am<br />

8. April 2007<br />

113


8. Implementierung <strong>von</strong> MT Analyser<br />

8.5.3. Benutzungsoberfläche<br />

Die Weboberfläche bietet zwei Modi zur Benutzung des Programms: einen einfachen, bei<br />

dem nur eine Textdatei zur Bewertung hochgeladen muss und anschließend alles mit den<br />

Standardgewichten bewertet wird, und einen erweiterten, bei dem neben der Textdatei<br />

auch noch ausgewählt werden kann, welche Textmerkmale mit welchen Gewichten bewertet<br />

werden sollen. Beide Einstellungen werden nicht gespeichert und daher bei jedem<br />

neuen Aufruf der Seite auf ihre Standardwerte zurückgesetzt.<br />

Abbildung 8.18.: MT Analyser Web: Erweiterter Übersetzungsmodus<br />

Als Übersetzbarkeitsreport wird ausschließlich eine HTML-Datei mit zufälligem Dateinamen<br />

generiert, auf die nach dem Bewerten verwiesen wird. Diese bleibt allerdings aus<br />

Platzgründen nur eine Stunde lang gespeichert (ebenso die hochgeladenen Textdateien<br />

und die reformatierten bzw. getaggten Versionen da<strong>von</strong>) und wird nach Ablauf dieser<br />

Zeitspanne bei Erstellung des nächsten Übersetzbarkeitsreports gelöscht, um nicht unnötig<br />

Festplattenspeicher zu belegen.<br />

Weil im Gegensatz zu MT Analyser bei diesem Demonstrationsprogramm nicht vorausgesetzt<br />

werden kann, dass die Nutzer nennenswertes Vorwissen über die deutsche Grammatik<br />

mitbringen, werden bei der Benutzung stets umfangreiche Zusatzinformationen zum<br />

Index und zu den Textmerkmalen angeboten.<br />

Abbildung 8.18 zeigt den Anfang der Seite zur Textbewertung im erweiterten Modus.<br />

114


Teil IV.<br />

Fazit und Ausblick<br />

115


9. Zusammenfassung der Ergebnisse<br />

Der erste Teil dieser Arbeit bot eine kurze Einführung in den Stand der Technik der<br />

maschinellen Übersetzung, erläuterte zentrale, noch bestehende Probleme und zeigte die<br />

gängigsten Lösungsansätze auf, unter anderem Übersetzbarkeitsmaße.<br />

Aufbauend auf den diesbezüglichen Vorarbeiten und einer ausführlichen Analyse <strong>von</strong> Textmerkmalen<br />

der deutschen Sprache, die für automatische Übersetzungen als hinderlich<br />

gelten oder angesehen werden können, wurde im zweiten Teil ein Übersetzbarkeitsindex<br />

erstellt, der einen numerischen Wert für die maschinelle Übersetzbarkeit eines einzelnen<br />

Satzes oder eines ganzen Textes vom Deutschen ins Englische angibt. Es wurde zudem<br />

gezeigt, dass die Höhe der Indexwerte in linearer Abhängigkeit zur (durchschnittlichen)<br />

Fehlerzahl eines Satzes steht.<br />

Im dritten Teil wurde schließlich vorgeführt, wie sich der Übersetzbarkeitsindex mit Hilfe<br />

des Programms MT Analyser für gegebene Texte automatisch errechnen lässt, wofür<br />

unter anderem Algorithmen zur detaillierten Analyse der jeweiligen Sätze und zum Auffinden<br />

der relevanten Textmerkmale implementiert und vorgestellt wurden. Tests zeigten,<br />

dass diese Algorithmen sowohl mit hoher Vollständigkeit als auch mit hoher Genauigkeit<br />

arbeiten.<br />

116


10. Ansätze zur Weiterentwicklung<br />

Erweiterung des Indexes<br />

Im Rahmen dieser Arbeit konnten sicherlich nicht alle Textmerkmale der deutschen Sprache<br />

überprüft werden, die für die Qualität maschineller Übersetzungen tatsächlich relevant<br />

sind. Es böte sich also an, weitere Textmerkmale, für die die Annahme besteht, sie könnten<br />

sich negativ auf das Ergebnis maschineller Übersetzungen auswirken, empirisch zu untersuchen<br />

und sie gegebenenfalls mit passender Gewichtung in den Übersetzbarkeitsindex<br />

und – mit geeigneten Suchalgorithmen – auch in MT Analyser aufzunehmen.<br />

Verbesserung der Algorithmen<br />

Wie bereits öfter im Verlauf der Arbeit erwähnt, ist die grammatikalische Information, auf<br />

die bei der Verarbeitung eines Satzes zugegriffen werden kann, nicht immer ausreichend.<br />

So fehlen etwa Angaben zu Kasus, Numerus und Genus <strong>von</strong> Nomina, die verwendet werden<br />

könnten, um beispielsweise die Erkennung <strong>von</strong> Inversionen und Nominalklammern zu<br />

verbessern; bei den Algorithmen <strong>von</strong> MT Analyser gibt es trotz hoher Erfolgsquote noch<br />

Fälle, in denen eine sichere, eindeutige Erkennung nicht möglich ist, durch zusätzliche<br />

grammatikalische Angaben aber ermöglicht würde. Auch lassen sich mit großer Wahrscheinlichkeit<br />

noch Sonderfälle der deutschen Sprache finden, in denen die jetzigen Algorithmen<br />

versagen, obwohl eine Erkennung möglich wäre. Und die Arbeit der Algorithmen<br />

zur Teilsatzanalyse liefert zwar sehr gute, aber eben nicht perfekte Ergebnisse, so dass<br />

hier auch noch Raum für Optimierungen besteht.<br />

Anpassung für andere Sprachen<br />

Probleme mit maschinellen Übersetzungen sind nicht nur auf die deutsche Sprache beschränkt.<br />

Daher erscheint es sinnvoll, Versionen <strong>von</strong> MT Analyser auch für die Bewertung<br />

<strong>von</strong> Texten anderer Sprachen zu erstellen. Natürlich müsste dem die empirische Ermittlung<br />

eines neuen Übersetzbarkeitsindexes vorausgehen. Denkbar ist auch die Ermittlung<br />

weiterer Indizes für die deutsche Sprache, etwa zur Bewertung eines deutschen Textes,<br />

der ins Französische übersetzt werden soll. Ansatzpunkte für die Auswahl möglicherweise<br />

relevanter Textmerkmale bietet diese Arbeit genug.<br />

Einbindung in ein Übersetzungsprogramm<br />

Ein weiterer Ansatz ist, die Algorithmen <strong>von</strong> MT Analyser ganz oder teilweise in ein Übersetzungsprogramm<br />

zu integrieren, um vor der Übersetzung bereits zu wissen, dass etwa<br />

bestimmte Sätze mit hohen Indexwerten viele Fehler hervorrufen könnte. Das Programm<br />

117


10. Ansätze zur Weiterentwicklung<br />

könnte dann eine Nachricht mit den gefundenen Problemen erzeugen und darum bitten,<br />

den vorliegenden Text entsprechend zu überarbeiten, um die Fehlerzahl zu minimieren.<br />

Entwurf einer kontrollierten Sprache<br />

Zwar wurde in dieser Arbeit keine kontrollierte Sprache erstellt, wie es sie gerade für das<br />

Englische zuhauf gibt, doch lassen sich aus den hier gefundenen relevanten Textmerkmalen<br />

Regeln ableiten, die für eine kontrollierte Version der deutschen Sprache als Grundlage<br />

dienen könnten. So wäre es beispielsweise denkbar, im Rahmen einer solchen Sprache<br />

Verbklammern großer Länge zu verbieten.<br />

118


Glossar<br />

A<br />

Abgetrenntes Kompositionsglied Für sich allein stehender Teil eines Kompositums,<br />

dessen zugehörige Ergänzung durch einen Bindestrich an Wortanfang oder<br />

Wortende angedeutet wird.<br />

ALPAC-Report 1966 erschienene, vielbeachtete US-amerikanische Studie zu den Fortschritten<br />

der maschinellen Übersetzung mit vernichtendem Gesamturteil. Brachte<br />

die Forschung auf diesem Gebiet insbesondere in den USA fast zum Erliegen.<br />

Atomarer Teilsatz Teilsatz, der sich nicht anhand <strong>von</strong> Interpunktion in kleinere Teilsätze<br />

zerlegen lässt, also keine Satzzeichen mehr aufweist.<br />

B<br />

Babel Fish Für die Analyse der verschiedenen Textmerkmale eingesetzte, kostenlos nutzbare<br />

Online-Übersetzungssoftware, die <strong>von</strong> der Firma Systran bereitgestellt<br />

wird.<br />

C<br />

Chunker<br />

Programm, das Sätze in ihre Phrasenstruktur aufteilt, die vor allem aus Verbalphrasen<br />

und Nominalphrasen besteht.<br />

Computerunterstützte Übersetzung (CÜ) Von Menschen vorgenommene Übersetzung<br />

eines Textes <strong>von</strong> einer beliebigen natürlichen Ausgangssprache in eine oder<br />

mehrere natürliche Zielsprachen, wobei unterstützende Programme Übersetzungshilfen<br />

bereitstellen.<br />

D<br />

Diskursrepräsentationsstruktur (DRS) Erweiterung der Prädikatenlogik erster Ordnung,<br />

um Bezüge und kontextabhängige Bedeutungen in geschriebenen Texten<br />

satzübergreifend erfassen und darstellen zu können.<br />

Dokumenttypdefinition (DTD) Regelsatz, der festlegt, wie Dokumente bzw. Datensätze<br />

eines bestimmten Typs aufgebaut sein müssen, um gültig zu sein.<br />

119


GLOSSAR<br />

E<br />

EG-Kommission Vorläufer der heutigen EU-Kommission, die seit November 1993 die<br />

Exekutive der Europäischen Union darstellt.<br />

Ellipse<br />

Auslassung eines oder mehrerer Worte innerhalb eines Satzes.<br />

Europäische Gemeinschaft(en) (EG) Vor allem wirtschaftlicher Bund verschiedener<br />

europäischer Staaten, gegründet 1957 (zunächst nur Europäische Wirtschaftsgemeinschaft<br />

[EWG]). Vorläufer der Europäischen Union und heute eine ihrer<br />

drei tragenden Säulen.<br />

G<br />

Garbage Collector (GC) Java-interne Routine, die nicht mehr benötigte Systemressourcen<br />

automatisch wieder freigibt.<br />

Gegenhypothese Oft mit H 1 und als Alternativhypothese bezeichnet; Annahme, dass<br />

ein bestimmter Zusammenhang besteht.<br />

Genus verbi Von lat. genus verbi = (wörtl.) Geschlecht des Verbs; drückt im Deutschen<br />

durch Flexion des Verbs die Rolle des Subjekts im Satz aus und kann entweder<br />

aktiv (das Subjekt nimmt eine Handlung vor) oder passiv (an dem Subjekt<br />

wird eine Handlung vorgenommen) sein.<br />

Georgetown-Experiment Erste öffentlichkeitswirksame Vorführung eines Computers zur<br />

maschinellen Übersetzung einfacher russischer Texte ins Englische an der Universität<br />

<strong>von</strong> Georgetown nahe Washington in den USA am 7. Januar 1954.<br />

H<br />

Homograph<br />

Wort aus einer Gruppe verschiedener Wörter gleicher Schreibung.<br />

I<br />

Interlingua Abgeleitet <strong>von</strong> lat. interlingua = Zwischensprache. Sprachunabhängige Darstellung<br />

eines Textes nach seiner grammatikalischen und semantischen Analyse,<br />

die als Grundlage der Übersetzung in die Zielsprache dient.<br />

Inversion der Wortstellung Im Kontext dieser Arbeit: grammatikalisch korrekte Abweichung<br />

<strong>von</strong> der je nach Satztyp üblichen Wortstellung im Deutschen.<br />

K<br />

Kompositum Aus zwei oder mehreren Wörtern oder Wortstämmen zusammengesetzter<br />

Begriff.<br />

Kongruenz Übereinstimmung grammatikalischer Eigenschaften verschiedener Wörter;<br />

besonders bekannt: KNG-Kongruenz als Gleichheit <strong>von</strong> Kasus (Fall), Numerus<br />

(Zahl) und Genus (grammatisches Geschlecht) bei zusammengehörigen<br />

Wörtern.<br />

120


GLOSSAR<br />

M<br />

Maschinelle oder automatische Übersetzung (MÜ) Von Computerprogrammen vorgenommene<br />

Übersetzung eines Textes <strong>von</strong> einer beliebigen natürlichen Ausgangssprache<br />

in eine oder mehrere natürliche Zielsprachen.<br />

Mehrdeutigkeit Im Kontext dieser Arbeit: deutscher Begriff mit mehreren sinnverschiedenen<br />

Bedeutungen, der im Englischen in Abhängigkeit vom jeweiligen Sinn<br />

auf unterschiedliche Weise übersetzt werden muss.<br />

MT Analyser Programm zur automatischen <strong>Messung</strong> der Übersetzbarkeit deutscher<br />

Texte ins Englische; kann über grafische Oberfläche und Kommandozeile benutzt<br />

werden.<br />

MT Analyser Web<br />

Online-Version <strong>von</strong> MT Analyser.<br />

Neologismus<br />

Neues, meist überaus ungewöhnliches oder unerwartetes Wort.<br />

N<br />

Nominalklammer Besondere Form einer Nominalphrase, bei der mindestens eine Nominalphrase<br />

<strong>von</strong> einer anderen Nominalphrase eingeschlossen wird und vor deren<br />

Nomen (Kopf) als Attribut steht.<br />

Nominalphrase Phrase aus einem Substantiv oder Pronomen, die um Attribute wie<br />

Adjektive, Artikel oder weitere Nominalphrasen erweiterbar ist.<br />

Nullhypothese Oft mit H 0 bezeichnet; Annahme, dass ein bestimmter Zusammenhang<br />

nicht besteht.<br />

P<br />

P(A)<br />

P(A|B)<br />

Wahrscheinlichkeit P , dass Ereignis A eintritt.<br />

Bedingte Wahrscheinlichkeit P dass Ereignis A eintritt, wenn bereits Ereignis<br />

B vorliegt.<br />

Part-of-Speech-Tagging (PoS-Tagging)<br />

Wörter eines Textes.<br />

Auszeichnung der Wortarten der einzelnen<br />

Personal Translator 2006 Für die Analyse der verschiedenen Textmerkmale genutzte,<br />

kommerzielle Übersetzungssoftware, die <strong>von</strong> der Firma Linguatec produziert<br />

wird.<br />

Präpositionalphrase Phrase, die aus einer Präposition mit darauffolgender Nominalphrase<br />

besteht.<br />

121


GLOSSAR<br />

S<br />

Signifikanzniveau Grenzwert für die Wahrscheinlichkeit eines Ereignisses bei vorausgesetzter<br />

Nullhypothese, bei dessen Unterschreiten ein Ergebnis als signifikant<br />

gilt und die Nullhypothese verworfen wird. Wird meist mit α bezeichnet und<br />

auf α = 0, 05 gesetzt.<br />

Standard Generalized Markup Language (SGML) Metasprache, die die Definition <strong>von</strong><br />

Auszeichnungssprachen wie HTML und XML erlaubt.<br />

Statistische Signifikanz Bedeutsamkeit eines durch statistische Auswertungen erhaltenen<br />

Ergebnisses. Als signifikant gelten nur Ergebnisse mit geringer Irrtumswahrscheinlichkeit.<br />

Stuttgart-Tübingen-Tagset (STTS)<br />

Textkorpora.<br />

Richtlinien zum Part-of-Speech-Tagging deutscher<br />

T<br />

Textkorpus Allgemein Sammlung <strong>von</strong> Texten; in dieser Arbeit normalerweise Sammlung<br />

zahlreicher deutscher Sätze, die ein bestimmtes Textmerkmal gemeinsam<br />

haben oder <strong>von</strong> diesem Textmerkmal befreit wurden.<br />

Translation Memory (TM) Übersetzungsspeicher, in dem zu bereits übersetzten Textfragmenten<br />

der Ausgangssprache die in der Zielsprache gewählten Übersetzungen<br />

gespeichert werden.<br />

TreeTagger PoS-Tagger für deutsche Texte, der an der Universität Stuttgart entwickelt<br />

wurde und <strong>von</strong> MT Analyser benutzt wird.<br />

Ü<br />

Übersetzbarkeit Ordinales oder intervallskaliertes Maß, das beschreibt, wie gut ein Text<br />

mittels maschineller Übersetzung <strong>von</strong> einer natürlichen Ausgangssprache in<br />

eine oder mehrere natürliche Zielsprache übersetzt werden kann.<br />

V<br />

Verbklammer Auch Verbal- oder Satzklammer; Form des Satzbaus, bei dem ein zweiteiliges<br />

Prädikat Teile des Satzes zwischen seinen Bestandteilen einschließt.<br />

122


Stichwortverzeichnis<br />

Abstract Window Toolkit, 76<br />

Adjektiv, 18, 23, 24, 53, 76, 96, 100<br />

Adjektivphrase, 98, 100<br />

Adverb, 18, 23, 27, 76, 96, 98<br />

ALPAC-Report, 14, 32<br />

Analyse<br />

morphologische, 15<br />

semantische, 15<br />

Anforderungen<br />

funktionale, 74<br />

nicht-funktionale, 75<br />

Annotationssprache, 15<br />

Apache Tomcat, 113<br />

Artikel, 24, 52, 53, 98, 99, 101, 102<br />

Attempto Controlled English, 22, 23<br />

Ausdruck<br />

regulärer, 98<br />

Ausgangssprache, 12–17, 25, 73<br />

Babel Fish, 11, 19, 32, 34, 47, 54, 56, 59,<br />

63, 65, 70<br />

Basic English, 24<br />

Beiordnung, 27, 31<br />

Bindestrich-Ellipse, 46<br />

Brill-Tagger, 77<br />

CÜ-Software, 13<br />

C#, 106<br />

Chunker, 97<br />

CSS, 106<br />

Diskursrepräsentationsstruktur, 22<br />

EG-Kommission, 14<br />

Ellipse, 30, 46–49, 61, 62, 95<br />

Entscheidungsbaum, 77<br />

Europäische Gemeinschaft, 14<br />

Fehlerzahl, 31, 33, 38, 39, 54, 56, 66, 77,<br />

116<br />

absolute, 33–35, 38, 39, 43, 47, 51, 54,<br />

56, 59, 69, 71<br />

pro Wort, 33, 34, 38, 44, 47, 48, 51,<br />

54, 56, 59, 68, 70<br />

relative, 35, 44, 51<br />

Veränderung, 33, 35, 38, 41, 42, 44,<br />

47, 51, 56, 59–63, 67<br />

Fragesatz, 23, 58, 89<br />

Garbage Collector, 112<br />

Gegenhypothese, 35, 61<br />

Georgetown-Experiment, 13<br />

Google, 55<br />

Hauptsatz, 21, 23, 43, 58, 74, 81, 86, 89–<br />

96<br />

Homograph, 18, 27, 31<br />

HTML, 106, 111, 112, 114<br />

IBM, 25, 26, 76<br />

Interlingua, 16, 23, 25<br />

Internet, 14<br />

Interpunktion, 34, 86<br />

Java, 75, 112, 113<br />

Java Server Pages, 113<br />

Jongejan, Bart, 77<br />

KANT Controlled English, 23, 24<br />

Kommandozeile, 12, 75, 103, 104, 108<br />

Kompositionsglied, 47<br />

abgetrenntes, 46, 48, 62, 66, 67, 69,<br />

76, 80, 94, 95<br />

Kompositum, 18, 19, 24, 45, 50, 55–57<br />

Nominalkompositum, 19, 27, 37, 49,<br />

55, 56, 60, 62, 63<br />

Kongruenz, 23<br />

Konjunktion, 39, 46, 89, 90, 95, 96, 98, 99<br />

unterordnende, 89, 91<br />

Korpus, 14, 31, 34, 38, 40, 41, 45, 47–53,<br />

55, 56, 60, 65, 69, 95, 97<br />

123


Stichwortverzeichnis<br />

Lexikon, 13, 23, 24, 30, 45, 82, 84, 97, 104,<br />

108<br />

Mehrdeutigkeitslexikon, 77, 82, 84, 96,<br />

106, 108, 113<br />

Linguatec, 32<br />

Linguistic Annotation Language, 18, 25<br />

Linux, 75, 76, 85, 112<br />

Logos, 13, 25<br />

Logos Translatability Index, 25, 27, 37,<br />

66<br />

Mehrdeutigkeit, 18, 22–25, 30, 37, 43, 44,<br />

61, 66, 67, 69, 74, 75, 80, 82, 94,<br />

96, 97, 108<br />

lexikalische, 18, 23, 43<br />

strukturelle, 18, 43<br />

MetaTexis, 13<br />

MT Analyser, 73–75, 77, 85, 90, 94, 95,<br />

101–103, 106, 110–114, 117<br />

MT Analyser Web, 113<br />

MÜ-Programm, 27, 30–32, 34, 38, 41, 44,<br />

55, 65, 74<br />

MÜ-System, 13, 14, 18, 20, 21, 24–26, 29,<br />

30, 45, 56<br />

multilinguales, 16<br />

Nachbearbeitung, 14, 73<br />

Nachbearbeitungsaufwand, 33, 56<br />

Nebensatz, 23, 27, 30, 37, 39–43, 53, 58,<br />

61, 65, 80, 81, 86, 88–96, 101<br />

Finalsatz, 74<br />

Kausalsatz, 89<br />

Konditionalsatz, 89, 90<br />

konjunktionsloser, 89<br />

Konzessivsatz, 74<br />

Lokalsatz, 102<br />

Objektsatz, 90<br />

Relativsatz, 23, 39–42, 61, 66, 67, 80,<br />

86, 91–94, 102<br />

Temporalsatz, 39, 91<br />

Negation, 23, 98<br />

Neologismus, 30<br />

Nomen, 20, 52, 53, 76, 100<br />

Eigenname, 20, 24, 30, 33, 34, 100<br />

Genus, 39<br />

Kasus, 39<br />

Numerus, 39<br />

Personenname, 20, 33, 34<br />

Pronomen, 96, 98–102<br />

Demonstrativpronomen, 99, 100<br />

Indefinitpronomen, 99, 100<br />

Interrogativpronomen, 89, 101<br />

Personalpronomen, 53, 96, 100<br />

Possessivpronomen, 43, 99, 100<br />

Reflexivpronomen, 100<br />

Relativpronomen, 23, 39, 40, 43, 89,<br />

91, 101, 102<br />

Substantiv, 18, 19, 23, 24, 43, 53, 100<br />

Nominalklammer, 30, 37, 49, 52–55, 62,<br />

63, 66–68, 74, 80, 86, 97–101, 113<br />

Nominalphrase, 52, 97–100<br />

Nullhypothese, 35, 36, 61<br />

Oberfläche<br />

grafische, 12, 75, 77, 103, 106, 109,<br />

111<br />

textuelle, 77, 103, 104, 106, 109<br />

Weboberfläche, 114<br />

Ogden, Charles Kay, 24<br />

opentrad, 11<br />

Part-of-Speech-Tagger, 76<br />

Partikel, 96<br />

Vergleichspartikel, 99<br />

Personal Translator 2006, 11, 21, 32, 34,<br />

47, 49, 56, 57, 63, 65, 70<br />

Plattformunabhängigkeit, 75<br />

Präfix, 24, 50, 102<br />

Präposition, 20, 30, 33, 43, 46, 57, 96, 98,<br />

99<br />

Präpositionalphrase, 23, 27, 53<br />

Projekt Deutscher Wortschatz, 45<br />

Reduktionsbaum, 100, 101<br />

Reformatierung, 85<br />

Regression<br />

lineare, 71<br />

REWERSE, 22<br />

Satzanalyse, 86, 94<br />

Hierarchisierung atomarer Teilsätze,<br />

91, 92<br />

Kategorisierung atomarer Teilsätze, 88,<br />

91, 92<br />

Zerlegung in atomare Teilsätze, 86, 88<br />

Zusammenfügen atomarer Teilsätze,<br />

92<br />

124


Stichwortverzeichnis<br />

Satzklammer, 49<br />

Satzlänge, 27, 30, 31, 37–39, 60, 63, 66,<br />

68, 69<br />

Satzteil, 33, 39<br />

Schmid, Helmut, 76<br />

Schnellbewertung, 103<br />

Schreibstil<br />

elliptischer, 37, 61<br />

Seltenheit <strong>von</strong> Wörtern, 30, 37, 45<br />

SGML, 23<br />

Signifikanz, 29, 35, 36, 60<br />

Signifikanzniveau, 36, 61<br />

Signifikanztest, 33, 35, 60<br />

Solaris, 75, 76, 85, 112<br />

Sprache<br />

Chinesisch, 21<br />

Dänisch, 40<br />

Deutsch, 18, 25, 31, 34, 41, 50, 57, 73,<br />

89, 92, 116<br />

deutsche, 12, 18, 20, 45, 47, 52, 58,<br />

118<br />

Englisch, 18, 20, 25, 30, 31, 33, 34, 39,<br />

40, 53, 57, 73, 116, 118<br />

englische, 13, 23, 24, 27, 29, 32, 40<br />

Esperanto, 24<br />

Französisch, 25, 117<br />

germanische, 29, 55<br />

indogermanische, 21<br />

kontrollierte, 15, 20, 22, 24, 46, 74,<br />

118<br />

Lingua franca, 24<br />

natürliche, 18, 22<br />

Niederländisch, 52<br />

romanische, 19, 53, 55<br />

russische, 13<br />

Spanisch, 18, 40, 53<br />

Standard Widget Toolkit, 76<br />

Stuttgart-Tübingen-Tagset, 76, 77, 98<br />

Suffix, 24<br />

Sun Microsystems, 75<br />

Swing, 76, 106<br />

Systran, 11, 13, 14, 32<br />

Teilsatz, 74, 78, 80, 82, 86–96, 98, 101,<br />

102<br />

atomarer, 78, 86, 87, 91<br />

ungebundener, 90, 92, 93<br />

Textkorpus, 17, 29, 31–35, 38, 39, 41–45,<br />

47, 48, 50, 51, 54–56, 59–61, 63,<br />

65, 67, 69, 77, 94, 96, 97, 100–103<br />

Textmerkmal, 26, 29–31, 33, 35–37, 60–<br />

63, 66–69, 71, 74–78, 80–82, 86,<br />

90, 92, 94, 101, 103, 104, 109, 110,<br />

113, 114, 116, 117<br />

allgemeines, 12, 37<br />

Gewichtung, 68, 75<br />

sprachspezifisches, 12, 37, 50<br />

Transfer, 15, 16<br />

Translatability Checker, 26, 27, 37, 39,<br />

66, 77<br />

Translation Confidence Index, 26, 27, 66<br />

Translation Memory, 13<br />

TreeTagger, 76–78, 85, 89, 90, 94, 96, 97,<br />

101–103, 110, 112, 113<br />

Twain, Mark, 11, 15<br />

Übersetzungstechnik, 14<br />

Übersetzbarkeit, 12, 15, 25, 28–30, 35, 37,<br />

39–41, 51, 54, 61, 62, 66–70, 74,<br />

75, 77, 78, 103, 109<br />

eines Textes, 73<br />

Übersetzbarkeitsfunktion, 69, 71<br />

Übersetzbarkeitsindex, 12, 27, 29, 31, 36,<br />

60–63, 66, 69, 74, 78, 80, 82, 116,<br />

117<br />

Bewertung der Satzlänge, 68, 71<br />

eines Satzes, 68<br />

eines Textes, 67<br />

Indexgewichte, 104, 109, 113<br />

Übersetzbarkeitsmaß, 22, 25, 61, 116<br />

Übersetzbarkeitsreport, 77, 97, 103, 104,<br />

106, 114<br />

Übersetzer, 12<br />

Übersetzung, 12–15, 17, 21, 22, 25, 26,<br />

29–33, 37–45, 47, 49, 52–59, 61–<br />

63, 65, 67, 70, 116, 117<br />

automatische, 12–14, 24, 50<br />

computerunterstützte, 13<br />

maschinelle, 11, 13, 14, 18, 30, 53, 73,<br />

116, 117<br />

beispielbasierte, 17<br />

direkte, 15<br />

statistische, 16, 17<br />

Übersetzungscomputer, 13<br />

125


Stichwortverzeichnis<br />

Übersetzungsprogramm, 11, 12, 14, 26,<br />

31, 34, 40, 42, 44–46, 48, 50, 52,<br />

54, 57, 60, 63, 73, 74, 109, 117<br />

Übersetzungsqualität, 12, 17, 29, 31–33,<br />

35–37, 39, 43, 45, 47, 53, 55, 59,<br />

60, 66, 67, 69<br />

Übersetzungsschwierigkeit, 12, 31, 63, 75,<br />

78, 80, 82, 96, 102, 103, 106<br />

Übersetzungstechnik, 15, 17<br />

UML<br />

Klassendiagramm, 78<br />

Sequenzdiagramm, 81<br />

Underwood, Nancy, 77<br />

Universität<br />

Carnegie Mellon, 23<br />

Leipzig, 14, 45, 55<br />

Stuttgart, 76<br />

Tübingen, 76<br />

Zürich, 22<br />

Verb, 18, 20, 23, 24, 26, 50, 74, 76, 95, 102<br />

Aspekt, 20<br />

finites, 26, 50, 58, 76, 88–92, 95, 96,<br />

101–103<br />

Abwesenheit, 31<br />

Genus verbi, 76<br />

Hilfsverb, 49, 50, 76, 102, 103<br />

Infinitiv, 49, 50, 89, 90, 96, 102, 103<br />

erweiterter, 50, 58, 88–90, 92–96<br />

mit zu, 88, 89<br />

Modalverb, 23, 49, 50, 76, 102<br />

Modus, 20, 76<br />

Imperativ, 89, 90<br />

Indikativ, 21, 90<br />

Konjunktiv, 21, 90<br />

Numerus, 76<br />

Partizip, 53, 90, 101–103<br />

Perfekt, 49, 102<br />

Präsens, 23<br />

Person, 76<br />

Tempus, 20, 21, 50, 51, 76<br />

Consecutio temporum, 21<br />

unregelmäßiges, 24<br />

Vollverb, 102<br />

Verbklammer, 30, 35, 37, 49–53, 62, 65–<br />

68, 74, 80, 86, 90, 102, 103, 118<br />

Verteilung<br />

hypergeometrische, 36, 60<br />

Vorbearbeitung, 22, 24<br />

Wörterbuch, 14, 21, 27, 75<br />

webtranslate, 11<br />

Wikipedia, 32, 38, 39, 43, 47, 50, 53, 55,<br />

59<br />

Windows, 75, 85, 113<br />

Wordfast, 13<br />

Wortstellung, 22, 29, 33, 39, 49, 53, 58,<br />

59, 86, 89, 91, 92, 95, 96<br />

Fehlstellung, 33<br />

Inversion, 30, 37, 49, 58, 59, 63, 66,<br />

80, 86, 95, 96<br />

Standardwortstellung, 30, 58, 59, 95<br />

XML, 25, 82, 84, 97<br />

DTD, 83<br />

Zahlwort, 100<br />

Zielsprache, 13–16, 53, 55<br />

Zirkumposition, 29<br />

Zwischendarstellung, 15, 16<br />

Zwischensprache, 16, 25<br />

126


Literaturverzeichnis<br />

[ABM + 94] Arnold, Douglas ; Balkan, Lorna ; Meijer, Siety ; Sandler, Louisa ;<br />

Humphreys, R. L.: Machine Translation: an Introductory Guide. London<br />

(GB) : Blackwells-NCC, 1994<br />

[BDPDPM94] Brown, Peter E. ; Della Pietra, Vincent J. ; Della Pietra, Stephen<br />

A. ; Mercer, Robert L.: The Mathematics of Statistical Machine<br />

Translation: Parameter Estimation. In: Computational Linguistics 19<br />

(1994), Nr. 2, S. 263–311<br />

[BEFH + 05] Barz, Irmhild ; Eisenberg, Peter ; Fabricius-Hansen, Catherine ;<br />

Fiehler, Reinhard ; Fritz, Thomas ; Gallmann, Peter ; Nübling,<br />

Damaris ; Peters, Jörg ; Dudenredaktion (Hrsg.): Duden. Die Grammatik.<br />

7. Mannheim (D) : Bibliographisches Institut, 2005<br />

[Ber99]<br />

Bernth, Arendse: A Confidence Index for Machine Translation. In: Proceedings<br />

of Theoretical and Methodological Issues in Machine Translation<br />

(1999), S. 120–127<br />

[BG00] Bernth, Arendse ; Gdaniec, Claudia. MTranslatability. AMTA-<br />

2000 Tutorial. Internet: http://www.isi.edu/natural-language/<br />

organizations/amta/sig-mtranslatability-tutorial.htm. 2000<br />

[Bor05]<br />

Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler. Berlin<br />

(D), Heidelberg (D) : Springer, 2005<br />

[CMU + 95] Cole, Ronald ; Mariani, Joseph ; Uszkoreit, Hans ; Zue, Victor ;<br />

Zaenen, Annie ; Cole, Ronald (Hrsg.): Survey of the State of the Art<br />

in Human Language Technology. Pittsburgh (USA) : Center for Spoken<br />

Language Understanding CSLU, Carnegie Mellon University, 1995<br />

[Dos55] Dostert, Leon E.: The Georgetown - I.B.M. experiment. Cambrigde<br />

(USA) : MIT Press, 1955, S. 124–135<br />

[FHK + 06]<br />

Fuchs, Norbert E. ; Hoefler, Stefan ; Kaljurand, Kaarel ; Kuhn,<br />

Tobias ; Schneider, Gerold ; Schwertel, Uta S.: Discourse Representation<br />

Structures for ACE 5 / Institut für Informatik der Universität<br />

Zürich. Zürich (CH), 2006. – Forschungsbericht<br />

[FSS99] Fuchs, Norbert E. ; Schwertel, Uta ; Schwitter, Rolf: Attempto<br />

Controlled English – Not Just Another Logic Specification Language. In:<br />

Lecture Notes in Computer Science 1559 (1999), S. 1–20<br />

127


Literaturverzeichnis<br />

[Gda94]<br />

[Hoe04]<br />

[HS92]<br />

[Hut86]<br />

[Hut92]<br />

[Hut02]<br />

[Hut03]<br />

[JU01]<br />

Gdaniec, Claudia: The LOGOS Translatability Index. In: Proceedings<br />

of the First Conference of the Association for Machine Translation in the<br />

Americas (1994), S. 97–105<br />

Hoefler, Stefan: The Syntax of Attempto Controlled English: An Abstract<br />

Grammar for ACE 4.0 / Institut für Informatik der Universität<br />

Zürich. Zürich (CH), 2004. – Forschungsbericht<br />

Hutchins, John ; Somers, Harold: An introduction to machine translation.<br />

London (GB) : Academic Press, 1992<br />

Hutchins, John: Machine Translation: past, present, future. New York<br />

(USA) : Halsted Press, 1986<br />

Hutchins, John: Why computers do not translate better. In: Translating<br />

and the Computer 13: the theory and the practice of machine translation -<br />

a marriage of convenience? London (GB), 1992, S. 3–16<br />

Hutchins, John: Machine translation today and tomorrow. In: Gerd,<br />

Willée (Hrsg.) ; Schröder, Bernhard (Hrsg.) ; Schmitz, Hans-Christian<br />

(Hrsg.): Computerlinguistik: was geht, was kommt? Sankt Augustin (D) :<br />

Gardez! Verlag, 2002, S. 159–162<br />

Hutchins, John: The Oxford Handbook of Computational Linguistics.<br />

Oxford (GB) : University Press, 2003, Kapitel Machine translation: general<br />

overview, S. 501–511<br />

Jongejan, Bart ; Underwood, Nancy: Translatability Checker: A Tool<br />

to Help Decide Whether to Use MT. In: Proceedings of MT Summit VIII<br />

(2001), S. 363–368<br />

[Kni99] Knight, Kevin. A Statistical MT Tutorial Workbook. Internet: http:<br />

//www.isi.edu/natural-language/mt/wkbk.rtf. 1999<br />

[Kor06] Korpela, Jukka. Translation-friendly authoring, especially in HTML<br />

for the WWW. Internet: http://www.cs.tut.fi/~jkorpela/transl/<br />

master.html. 2006<br />

[Lau84]<br />

[MBNS03]<br />

Laurian, J. M.: Systran et Eurotra: la traduction automatique a la Commission<br />

des Communautés Européennes. Contrastes, Hors serie A4, 11-42.<br />

In: Contrastes Hors serie A4 (1984), S. 11–42<br />

Mitamura, Tekuro ; Baker, Kathryn ; Nyberg, Eric ; Svoboda, David:<br />

Diagnostics for Interactive Controlled Language Checking. Pittsburgh<br />

(USA) : Carnegie Mellon University, 2003<br />

[MN95] Mitamura, T. ; Nyberg, E.: Controlled English for KnowledgeBased<br />

MT: Experience with the KANT System. Pittsburgh (USA) : Center for<br />

Machine Translation, Carnegie Mellon University, 1995<br />

128


Literaturverzeichnis<br />

[MNrC91]<br />

Mitamura, Teruko ; Nyberg 3rd, Eric H. ; Carbonell, Jaime G.:<br />

An Efficient Interlingua Translation System for Multi-lingual Document<br />

Production. In: Proceedings of the Third Machine Translation Summit.<br />

Washington (USA), 1991<br />

[Ogd30] Ogden, Charles K.: Basic English: A General Introduction with Rules<br />

and Grammar. London (GB) : Paul Treber & Co., Ltd., 1930<br />

[Ogd37]<br />

[Ogd60]<br />

[Pa66]<br />

[Reh92]<br />

Ogden, Charles K.: Basic English and Grammatical Reform. Cambridge<br />

(GB), London (GB) : Eldritch, 1937<br />

Ogden, Charles K.: The General Basic English Dictionary. London (GB)<br />

: Evans Bros., 1960<br />

Pierce, John ; andere: Languages and machines: computers in translation<br />

and linguistics / Automatic Language Processing Advisory Committee<br />

(ALPAC), National Academy of Sciences, National Research Council. Washington<br />

(USA), 1966. – Forschungsbericht<br />

Rehbein, Jochen: Zur Wortstellung im komplexen deutschen Satz. In:<br />

Hofmann, L. (Hrsg.): Deutsche Syntax: Ansichten und Aussichten. Berlin<br />

(D), New York (USA) : De Gruyter, 1992, S. 523–574<br />

[Sch94] Schmid, Helmut: Probabilistic Part-of-Speech-Tagging Using Decision<br />

Trees. In: International Conference on New Methods in Language Processing.<br />

Manchester (GB) : Centre for Computational Linguistics, UMIST,<br />

1994, S. 44–49<br />

[Sch95]<br />

[Sch06]<br />

[SSTT99]<br />

[SV98]<br />

[Tra06]<br />

[Twa94]<br />

Schmid, Helmut: Improvements in Part-of-Speech Tagging With an Application<br />

To German. In: Feldweg (Hrsg.) ; Hinrichs (Hrsg.): Lexikon<br />

und Text. 1995, S. 47–50<br />

Schwitter, Rolf. Controlled Natural Languages. Internet: http://www.<br />

ics.mq.edu.au/~rolfs/controlled-natural-languages/. 2006<br />

Schiller, Anne ; Stöckert, Christine ; Teufel, Simone ; Thielen,<br />

Christiane: Guidelines für das Tagging deutscher Textcorpora mit STTS<br />

(Kleines und großes Tagset). Stuttgart (D) : Institut für maschinelle<br />

Sprachverarbeitung der Universtität Stuttgart, 1999. – Forschungsbericht<br />

Schneider, Gerold ; Volk, Martin: Comparing a statistical and a rulebased<br />

tagger for German. In: Proceedings of KONVENS-98. Bonn (D),<br />

1998<br />

Translatio. Translatio - Das Leipziger Tor zum Übersetzen und Dolmetschen.<br />

Internet: http://www.uni-leipzig.de/~xlatio/frs-allg.htm.<br />

2006<br />

Twain, Mark: Die schreckliche deutsche Sprache. In: Bummel durch Europa.<br />

Frankfurt (D) : Insel (7. Auflage), 1994<br />

129


Literaturverzeichnis<br />

[Wag03]<br />

[Wat03]<br />

[WNMB02]<br />

Wagner, Joachim: Datengesteuerte maschinelle Übersetzung mit flachen<br />

Analysestrukturen. Osnabrück (D), Universität Osnabrück, Diplomarbeit,<br />

2003<br />

Watanabe, Kanayama H.: Multilingual Translation via Annotated Hub<br />

Language. Kanagawa (J) : Tokyo Research Laboratory, IBM Japan, 2003<br />

Watanabe, H. ; Nagao, K. ; McCord, M. ; Bernth, A.: An Annotation<br />

System for Enhancing Quality of Natural Language Processing. In:<br />

Proceedings of the 19th COLING. Taipeh (RC), 2002, S. 1303–1307<br />

130

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!