Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Messung</strong> maschineller Übersetzbarkeit<br />
<strong>von</strong> Texten<br />
Diplomarbeit <strong>von</strong> Malte Diehl<br />
Matrikelnummer: 8133810<br />
Studiengang:<br />
Informatik (Diplom)<br />
Erstprüferin:<br />
Dr. Elke Wilkeit<br />
Zweitprüfer:<br />
Dr. Hans Fleischhack<br />
Abgabedatum:<br />
16.04.2007
Zusammenfassung<br />
Seit über 50 Jahren beschäftigt sich die Forschung intensiv mit maschineller Übersetzung<br />
<strong>von</strong> Texten. Allen Erfolgen zum Trotz sind die gegenwärtigen Programme aber noch<br />
nicht perfekt, sondern produzieren nach wie vor zahlreiche Fehler. Diese Fehler wiederum<br />
erzwingen eine zeitintensive und aufwändige Nachbearbeitung der übersetzten Texte. Um<br />
diesen unvermeidlichen Aufwand wenigstens zu minimieren, erscheint es sinnvoll, einen<br />
Text bereits vor seiner Übersetzung so zu formulieren, dass die bei der Übersetzung durch<br />
ein Programm auftretenden Fehler möglichst stark reduziert werden.<br />
Vor diesem Hintergrund zeigt diese Arbeit einen Weg auf, die maschinelle Übersetzbarkeit<br />
eines deutschen Textes in die englische Sprache vor der Übersetzung durch einen Index<br />
zu bestimmen. Dazu werden nach einer kurzen Einführung in den Stand der Technik<br />
zunächst verschiedene Merkmale, die häufig in deutschen Texten auftreten, auf eine Beeinträchtigung<br />
der Leistung <strong>von</strong> Übersetzungsprogrammen untersucht. Auf der Grundlage<br />
der Merkmale, die empirisch untermauert die Fehleranzahl im übersetzten Text erhöhen,<br />
wird danach der Index für die maschinelle Übersetzbarkeit vom Deutschen ins Englische<br />
erstellt. Im dritten Schritt demonstriert diese Arbeit schließlich die Implementierung eines<br />
Programms, das diesen Index mit Hilfe <strong>von</strong> Algorithmen zur detaillierten Satzanalyse<br />
automatisch und zuverlässig berechnet.
Inhaltsverzeichnis<br />
Tabellenverzeichnis 7<br />
Abbildungsverzeichnis 8<br />
I. Einführung 10<br />
1. Grundlagen der Arbeit 11<br />
2. Stand der Technik 13<br />
2.1. Maschinelle und computerunterstützte Übersetzung . . . . . . . . . . . . . 13<br />
2.2. Historischer Abriss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
2.3. Ansätze der maschinellen Übersetzung . . . . . . . . . . . . . . . . . . . . 15<br />
2.3.1. Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2.3.2. Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2.3.3. Zwischensprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
2.3.4. Statistische MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
2.3.5. Beispielbasierte MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.4. Offene Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.4.1. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.4.2. Komposita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.4.3. Satzkomplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.4.4. Eigennamen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.4.5. Tempus-, Modus- und Aspektsystem . . . . . . . . . . . . . . . . . 20<br />
2.4.6. Fehlerhafte und umgangssprachliche Texte . . . . . . . . . . . . . . 21<br />
3. Ansätze zur Lösung der Übersetzungsprobleme 22<br />
3.1. Kontrollierte Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
3.1.1. Attempto Controlled English . . . . . . . . . . . . . . . . . . . . . 22<br />
3.1.2. Das KANT-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
3.1.3. Basic English . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.2. Vorbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.2.1. Linguistic Annotation Language . . . . . . . . . . . . . . . . . . . . 25<br />
3.3. Übersetzbarkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
3.3.1. Logos Translatability Index . . . . . . . . . . . . . . . . . . . . . . 25<br />
3.3.2. Translation Confidence Index . . . . . . . . . . . . . . . . . . . . . 26<br />
3.3.3. Translatability Checker . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
3.3.4. Bewertung der vorgestellten Ansätze . . . . . . . . . . . . . . . . . 27<br />
4
Inhaltsverzeichnis<br />
II. Ein Modell zur Einschätzung der Übersetzbarkeit eines Textes 28<br />
4. Vorbereitende Maßnahmen 29<br />
4.1. Auswahl <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
4.2. Textuelle Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
4.3. Eingesetzte Übersetzungsprogramme . . . . . . . . . . . . . . . . . . . . . 32<br />
4.4. Bewertung der Übersetzungsqualität . . . . . . . . . . . . . . . . . . . . . 32<br />
4.4.1. Fehlersuche und Berechnung der Fehlerzahlen . . . . . . . . . . . . 33<br />
4.4.2. Beispiele zur Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . 34<br />
4.5. Signifikanz der Untersuchungsergebnisse . . . . . . . . . . . . . . . . . . . 35<br />
5. Untersuchung der Textmerkmale auf Fehlerrelevanz 37<br />
5.1. Allgemeine Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
5.1.1. Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
5.1.2. Nebensätze (Relativsätze) . . . . . . . . . . . . . . . . . . . . . . . 39<br />
5.1.3. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
5.1.4. Seltenheit <strong>von</strong> Wörtern . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />
5.1.5. Elliptischer Schreibstil . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
5.2. Sprachspezifische Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . 49<br />
5.2.1. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />
5.2.2. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />
5.2.3. Nominalkomposita . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
5.2.4. Inversion der Wortstellung . . . . . . . . . . . . . . . . . . . . . . . 58<br />
5.3. Signifikanz der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
5.4. Vergleich der eingesetzten Übersetzungsprogramme . . . . . . . . . . . . . 63<br />
6. Zusammenführung der Kriterien in einem Index 66<br />
6.1. Erstellung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . . 66<br />
6.1.1. Übersetzbarkeit <strong>von</strong> Texten . . . . . . . . . . . . . . . . . . . . . . 67<br />
6.1.2. Übersetzbarkeit <strong>von</strong> Sätzen . . . . . . . . . . . . . . . . . . . . . . 67<br />
6.1.3. Bewertung der Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . 68<br />
6.2. Überprüfung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . 69<br />
III. MT Analyser: Automatische <strong>Messung</strong> der maschinellen Übersetzbarkeit<br />
72<br />
7. Modellierung <strong>von</strong> MT Analyser 73<br />
7.1. Systemabgrenzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
7.2. Anforderungen an MT Analyser . . . . . . . . . . . . . . . . . . . . . . . . 74<br />
7.3. Zur Verfügung stehende Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . 75<br />
7.3.1. Java und Swing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
7.3.2. Tagging-Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />
7.3.3. TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />
7.4. Modellierung wesentlicher Programmteile . . . . . . . . . . . . . . . . . . . 77<br />
7.4.1. Komponenten <strong>von</strong> MT Analyser . . . . . . . . . . . . . . . . . . . . 77<br />
7.4.2. Datenhaltung und Datenbearbeitung im Programmkern . . . . . . . 77<br />
5
Inhaltsverzeichnis<br />
7.4.3. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . 82<br />
8. Implementierung <strong>von</strong> MT Analyser 85<br />
8.1. Einbindung <strong>von</strong> TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />
8.1.1. Satzerkennung und Reformatierung des Textes . . . . . . . . . . . . 85<br />
8.1.2. Aufruf <strong>von</strong> TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />
8.1.3. Verarbeitung der Ausgabe <strong>von</strong> TreeTagger . . . . . . . . . . . . . . 86<br />
8.2. Algorithmen zur Satzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />
8.2.1. Zerlegung in atomare Teilsätze . . . . . . . . . . . . . . . . . . . . . 86<br />
8.2.2. Kategorisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 88<br />
8.2.3. Hierarchisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 91<br />
8.2.4. Zusammenfügen der atomaren Teilsätze . . . . . . . . . . . . . . . . 92<br />
8.2.5. Überprüfung der Satzanalyse . . . . . . . . . . . . . . . . . . . . . 94<br />
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . 94<br />
8.3.1. Abgetrennte Kompositionsglieder . . . . . . . . . . . . . . . . . . . 94<br />
8.3.2. Inversionen der Wortstellung . . . . . . . . . . . . . . . . . . . . . . 95<br />
8.3.3. Mehrdeutigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
8.3.4. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />
8.3.5. Relativsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />
8.3.6. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />
8.4. Weitere Programmmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />
8.4.1. Benutzungsmodi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />
8.4.2. Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
8.4.3. Editierbares Mehrdeutigkeitslexikon . . . . . . . . . . . . . . . . . . 108<br />
8.4.4. Konfigurationsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 109<br />
8.4.5. Hilfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />
8.4.6. Systemanforderungen und Laufzeit . . . . . . . . . . . . . . . . . . 112<br />
8.5. MT Analyser Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
8.5.1. Zusätzliche Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
8.5.2. Unterschiede zu MT Analyser . . . . . . . . . . . . . . . . . . . . . 113<br />
8.5.3. Benutzungsoberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
IV. Fazit und Ausblick 115<br />
9. Zusammenfassung der Ergebnisse 116<br />
10.Ansätze zur Weiterentwicklung 117<br />
Glossar 119<br />
Stichwortverzeichnis 123<br />
Literaturverzeichnis 127<br />
6
Tabellenverzeichnis<br />
5.1. Satzlänge und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
5.2. Relativsätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . 40<br />
5.3. Andere Nebensätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . 41<br />
5.4. Mehrdeutigkeiten und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 44<br />
5.5. Ellipsen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />
5.6. Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder . . 48<br />
5.7. Verbklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . 51<br />
5.8. Nominalklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 54<br />
5.9. Nominalkomposita und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 56<br />
5.10. Inversionen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
6.1. Auswirkungen der Textmerkmale im Vergleich . . . . . . . . . . . . . . . . 67<br />
6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70<br />
8.1. Beispielsatz mit Kategorisierung der einzelnen Teilsätze . . . . . . . . . . . 91<br />
7
Abbildungsverzeichnis<br />
2.1. Schema für direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2.2. Schema für Transferübersetzung . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
2.3. Schema für Interlingua-Übersetzung . . . . . . . . . . . . . . . . . . . . . . 16<br />
2.4. Schema für statistische Übersetzung . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.5. Schema für beispielbasierte Übersetzung . . . . . . . . . . . . . . . . . . . 17<br />
5.1. Absolute Veränderungen der Fehleranzahl ohne Relativsätze . . . . . . . . 40<br />
5.2. Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen . . . . 42<br />
5.3. Absolute Veränderungen der Fehleranzahl bei Reduktion <strong>von</strong> Mehrdeutigkeiten<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
5.4. Zusammenhang zwischen Wortlänge und Worthäufigkeit . . . . . . . . . . 45<br />
5.5. Häufigkeit sehr langer Wörter . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
5.6. Absolute Veränderungen der Fehleranzahl beim Ausfüllen <strong>von</strong> Ellipsen . . 48<br />
5.7. Absolute Veränderungen der Fehleranzahl ohne Verbklammern . . . . . . . 52<br />
5.8. Absolute Veränderungen der Fehleranzahl ohne Nominalklammern . . . . . 54<br />
5.9. Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl <strong>von</strong> Nominalkomposita<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />
5.10. Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung 60<br />
5.11. Fehlerzahlen <strong>von</strong> Babel Fish und Personal Translator 2006 für die einzelnen<br />
Textkorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
5.12. Gesamtfehlerzahl <strong>von</strong> Babel Fish und Personal Translator 2006 . . . . . . 65<br />
6.1. Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort . . . . . . . . 69<br />
6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70<br />
7.1. Logo <strong>von</strong> MT Analyser (Startbildschirm des Programms) . . . . . . . . . . 73<br />
7.2. Modellierung der zentralen Klassen zur Textbewertung . . . . . . . . . . . 79<br />
7.3. Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für beliebig<br />
viele Sätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />
7.4. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . . . 83<br />
8.1. Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden,<br />
mit Klammern und Gedankenstrichen versehenen Satzes . . . . . . 87<br />
8.2. Beispielsatz mit Hierarchisierung der einzelnen Teilsätze . . . . . . . . . . 92<br />
8.3. Reduktionsbaum für Nominalklammer (erstes Beispiel) . . . . . . . . . . . 100<br />
8.4. Reduktionsbaum für Nominalklammer (zweites Beispiel) . . . . . . . . . . 101<br />
8.5. Hauptmenü im Textmodus . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />
8.6. Auswahl <strong>von</strong> Textmerkmalen im Bewertungsprozess . . . . . . . . . . . . . 104<br />
8.7. Hauptfenster mit Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . 105<br />
8.8. Baumdarstellung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . 105<br />
8
Abbildungsverzeichnis<br />
8.9. Ausschnitt aus HTML-Übersetzbarkeitsreport . . . . . . . . . . . . . . . . 107<br />
8.10. Klasse AnnotatedString . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />
8.11. Bearbeiten eines mehrdeutigen Begriffs . . . . . . . . . . . . . . . . . . . . 108<br />
8.12. Eintrag zum Lexikon hinzufügen . . . . . . . . . . . . . . . . . . . . . . . . 109<br />
8.13. Angabe neuer Gewichte für die Textmerkmale . . . . . . . . . . . . . . . . 110<br />
8.14. An- und Abwahl <strong>von</strong> Textmerkmalen . . . . . . . . . . . . . . . . . . . . . 110<br />
8.15. Angabe und Test eines Pfades zu TreeTagger . . . . . . . . . . . . . . . . . 111<br />
8.16. Hilfemenü in der grafischen Oberfläche . . . . . . . . . . . . . . . . . . . . 111<br />
8.17. Hilfemenü in der textuellen Oberfläche . . . . . . . . . . . . . . . . . . . . 112<br />
8.18. MT Analyser Web: Erweiterter Übersetzungsmodus . . . . . . . . . . . . . 114 9
Teil I.<br />
Einführung<br />
10
1. Grundlagen der Arbeit<br />
Ausgangslage<br />
Ganz bestimmt gibt es keine andere Sprache, die so ungeordnet und unsystematisch,<br />
so schlüpfrig und unfaßbar ist; man treibt völlig hilflos in ihr umher,<br />
hierhin und dahin; und wenn man schließlich glaubt, man hätte eine Regel erwischt,<br />
die festen Boden böte, auf dem man inmitten der allgemeinen Unruhe<br />
und Raserei der zehn Wortarten ausruhen könne, blättert man um und liest:<br />
Der Schüler beachte sorgfältig folgende Ausnahmen.“ – Mark Twain [Twa94]<br />
”<br />
Dieses harte Urteil über die deutsche Sprache mag man teilen oder nicht, ganz gleich,<br />
ob sie die eigene Muttersprache ist oder man sie sich erst mühsam in Schule oder Studium<br />
aneignen musste. Niemand wird jedoch die Tatsache bestreiten, dass schon viele, die<br />
versucht haben, sie zu lernen, ebenso hilflos in ihr umhergetrieben wurden wie seinerzeit<br />
Mark Twain. Und obwohl seit den ersten Gehversuchen auf dem Gebiet der maschinellen<br />
Übersetzung (MÜ) bereits über fünfzig Jahre vergangen sind, macht man selbst mit<br />
hochspezialisierten Programmen trotz ausgefeilter Regelwerke auch heute noch diese Erfahrung,<br />
wenn man versucht, einen Text <strong>von</strong> einer anderen in die deutsche Sprache zu<br />
bringen oder umgekehrt: Diese Programme treiben in einem Gewirr aus Regeln und Ausnahmen<br />
hin und her und spätestens, wenn sie die dritte Ausnahme <strong>von</strong> der zweiten Regel<br />
entdeckt haben, kapitulieren sie bedingungslos.<br />
Setzt man eines der vielen im Internet verfügbaren Übersetzungsprogramme1 auf obiges<br />
Zitat an, das zwar <strong>von</strong> komplexer Struktur, aber ansonsten frei <strong>von</strong> Fachbegriffen oder<br />
ungewöhnlichen Formulierungen ist, erhält man mitunter belustigende Ergebnisse. Babel<br />
Fish, das die Technologie <strong>von</strong> Systran 2 benutzt, liefert, wenn man das Zitat erst ins<br />
Englische und dann wieder zurück ins Deutsche übersetzen lässt, folgendes:<br />
Es gibt vollständig zweifellos keine andere Sprache, die und unsystematically<br />
so unordered ist, so glatt und unverständlich; ein schwimmt vollständig hilflos<br />
in es herum, in auf diese Weise und dort; und wenn man schließlich glaubt,<br />
würde man eine Richtlinie erhalten haben, die festen Boden anbieten würde,<br />
auf dem man in der Mitte der allgemeinen Ruhelosigkeit und in der Raserei<br />
der 10 Arten des Wortes stillstehen kann, eins wieder Blätter treibt und liest:<br />
Die Schüler betrachtet die sorgfältig folgenden Ausnahmen.“<br />
”<br />
Ohne Schwierigkeiten ließen sich weitere Beispieltexte finden, die ein ähnlich fehlerdurchsetztes,<br />
aber immerhin noch verständliches Ergebnis produzieren.<br />
1 Als Beispiele seien an dieser Stelle Babel Fish (de.babelfish.yahoo.com), Personal Translator 2006<br />
(http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse: Personal Translator<br />
2008 ), webtranslate (http://www.webtranslate.de/) oder opentrad (http://www.opentrad.<br />
org/demo/) genannt, jeweils zuletzt besucht am 28. Februar 2007<br />
2 Die Firma Systran wurde 1968 gegründet und stellt Übsersetzungsprogramme her. 11
1. Grundlagen der Arbeit<br />
Motivation<br />
Inzwischen sind automatische Übersetzungen trotz ihrer offensichtlichen Mängel unverzichtbar<br />
geworden: Weltweit fallen jedes Jahr viele Millionen beschriebener Seiten an, die<br />
– aus welchen Gründen auch immer – vollständig und korrekt in andere Sprachen übertragen<br />
werden müssen. Da diese Arbeit nicht allein <strong>von</strong> ausgebildeten Übersetzern bewältigt<br />
werden kann, müssen Computer einen Teil da<strong>von</strong> übernehmen. Und weil diese nach wie<br />
vor viele Fehler machen, müssen nach erfolgter Übersetzung wieder Menschen die Fehler<br />
finden und beheben. Dies erfordert einen nicht zu unterschätzenden Aufwand an Zeit und<br />
Personal und verursacht damit hohe Kosten.<br />
Solange Übersetzungsprogramme nicht annähernd fehlerfrei arbeiten, wird man um diesen<br />
Sachverhalt auch nicht herumkommen; aber man kann versuchen, so wenig wie möglich<br />
in die Beseitigung <strong>von</strong> Fehlern investieren zu müssen. Dazu bietet es sich an, einen zu<br />
übersetzenden Text bereits in der Ausgangssprache so zu verfassen, dass er dem Übersetzungsprogramm<br />
aller Voraussicht nach nur wenige Probleme bereitet. Es gibt hierzu<br />
bereits mehrere Ansätze (siehe Abschnitt 3), unter anderem Maße für Übersetzbarkeit.<br />
Allerdings fehlt es bislang an einem Maß, das die allgemeine, <strong>von</strong> konkreten Übersetzungsprogrammen<br />
unabhängige Übersetzbarkeit eines deutschen Textes in die englische<br />
Sprache für die aktuelle Generation <strong>von</strong> Übersetzungsprogrammen ermitteln kann.<br />
Ziel der Arbeit<br />
Die Frage, wie sich die Übersetzbarkeit eines Textes messen lässt, war bislang Gegenstand<br />
vergleichsweise weniger Forschungsarbeiten und ist bisher für die deutsche Sprache nur<br />
unzureichend beantwortet, weil sich die meisten Autoren vor allem mit der Übersetzbarkeit<br />
englischer Texte in andere Sprachen befasst haben.<br />
Ziel dieser Arbeit ist daher, auf Basis gegenwärtig verfügbarer Technologie einen Index für<br />
die Übersetzbarkeit eines deutschsprachigen Textes zu erstellen. Als Grundlage für den<br />
Index sollen allgemeine und sprachspezifische Textmerkmale identifiziert und die Auswirkungen<br />
ihres Auftretens auf die Übersetzungsqualität anhand vorhandener Übersetzungsprogramme<br />
empirisch gemessen und gewichtet werden. Der so erstellte Übersetzbarkeitsindex<br />
soll dann automatisch durch ein Programm für gegebene Texte berechnet werden,<br />
wobei eine Analyse sowohl für einzelne Sätze als auch für den gesamten Text erfolgen und<br />
Verbesserungsvorschläge beinhalten soll. Die Benutzung des Programms soll sowohl über<br />
eine Kommandozeile, in Form einer alleinstehenden grafischen Oberfläche (GUI) als auch<br />
über eine Internetseite möglich sein, wobei die Benutzer ihre Texte übergeben und einen<br />
ausführlichen Bericht über mögliche Übersetzungsschwierigkeiten sowie den erzielten Indexwert<br />
zurückerhalten.<br />
12
2. Stand der Technik<br />
In diesem Abschnitt wird dargelegt, wie sich die automatische Übersetzung bis heute<br />
entwickelt hat, welche Ansätze genutzt werden und welche Probleme es gibt. Außerdem<br />
werden die zentralen Probleme der heutigen MÜ-<strong>Systeme</strong> erläutert und dargestellt, welche<br />
Maßnahmen üblicherweise getroffen werden, um Übersetzungsfehler zu vermeiden.<br />
2.1. Maschinelle und computerunterstützte Übersetzung<br />
Um Verwechslungen im weiteren Verlauf zu vermeiden, wird an dieser Stelle zunächst der<br />
Unterschied zwischen maschineller und computerunterstützter Übersetzung (CÜ) geklärt.<br />
MÜ-<strong>Systeme</strong> umfassen neben umfangreichen Lexika der jeweiligen Sprachen auch Regeln<br />
zur Syntax, Morphologie und Semantik in Ausgangs- und Zielsprache und führen auf<br />
dieser Grundlage die Übersetzung auch selbstständig durch. Das Ergebnis wird hinterher<br />
gegebenenfalls korrigiert und in eine korrekte, vollständige und stilistisch angemessene<br />
Form gebracht. Bekannte MÜ-<strong>Systeme</strong> sind zum Beispiel Systran oder Logos.<br />
CÜ-Software hingegen überlässt die Übersetzungsarbeit den Benutzern. Sie ist nicht in<br />
der Lage, Übersetzungen selbst zu erzeugen: Zwar verfügt sie über Lexika, jedoch nicht<br />
über Regeln zur Übersetzung. Vielmehr macht sie dem Benutzer auf Basis ihrer Lexika<br />
Vorschläge und speichert, wie der Benutzer bestimmte Textabschnitte übersetzt hat<br />
(Translation Memory), oder enthält bereits typische vorgefertigte Textabschnitte mit ihren<br />
Übersetzungen. Erkennt sie das Auftreten eines derartigen Textstücks, schlägt sie aus<br />
ihrem Datenbestand verschiedene Möglichkeiten zur Übersetzung vor, aus denen der Nutzer<br />
dann eine auswählen oder auch eine völlig neue Übersetzung angeben kann. Beispiele<br />
für CÜ-Software sind unter anderem MetaTexis1 und Wordfast 2 .<br />
In jedem Fall besteht also bei CÜ-Software zwangsläufig eine ständige Interaktion zwischen<br />
Nutzer und Programm, während MÜ-<strong>Systeme</strong> normalerweise autonom arbeiten,<br />
wobei natürlich nicht ausgeschlossen ist, dass ein solches Programm beim Nutzer nachfragt,<br />
wenn es sich nicht in der Lage sieht, einen bestimmten Textabschnitt selbstständig<br />
korrekt zu übersetzen. CÜ-Programme werden im weiteren Verlauf der Arbeit nicht weiter<br />
betrachtet, weil sie nicht zum Bereich der maschinellen Übersetzung gehören.<br />
2.2. Historischer Abriss<br />
Das Bestreben, sich <strong>von</strong> Computern Texte übersetzen zu lassen, ist fast so alt wie Computer<br />
selbst. Erste Forschungen begannen bereits Ende der 1940er Jahre, und 1954 wurde<br />
in dem vielbeachteten Georgetown-Experiment der erste, wenngleich noch rudimentäre<br />
Übersetzungscomputer vorgestellt, der einfache Sätze mit sehr begrenztem Wortschatz<br />
<strong>von</strong> der russischen in die englische Sprache transferieren konnte [Dos55].<br />
1 Im Internet erreichbar unter: http://www.metatexis.com, zuletzt besucht am 5. April 2007<br />
2 Im Internet erreichbar unter: http://www.wordfast.net, zuletzt besucht am 6. April 2007<br />
13
2. Stand der Technik<br />
In den folgenden Jahren wurde die Entwicklung weiter vorangetrieben, denn insbesondere<br />
die Militärs hatten während des Kalten Krieges ein starkes Interesse daran, ihren jeweiligen<br />
Feind möglichst schnell und unabhängig <strong>von</strong> menschlichen Übersetzern zu verstehen.<br />
Insofern war für sie auch ein System <strong>von</strong> Nutzen, das zwar meilenweit <strong>von</strong> fehlerfreien<br />
Übersetzungen entfernt war, den Inhalt des zugrunde liegenden Textes aber einigermaßen<br />
wiedergeben konnte. Allerdings blieben große Durchbrüche in der maschinellen Übersetzung<br />
aus. Vielmehr traten mehr und mehr vor allem semantische, teilweise bis heute<br />
ungelöste Probleme zutage, so dass der ursprüngliche Optimismus sich langsam in Skepsis<br />
wandelte ([Hut86], Kap. 8).<br />
1966 kam die Forschung dann in den USA und Großbritannien für etliche Jahre fast<br />
komplett zum Erliegen. Grund dafür war eine US-amerikanische Studie, der sogenannte<br />
ALPAC-Report [Pa66], die ein vernichtendes Urteil über den Stand, den Nutzen und die<br />
Perspektiven maschineller Übersetzungen fällte. Als Folge wurden zahlreiche Forschungsprojekte<br />
aufgegeben und die Fördergelder zusammengestrichen ([Hut86], Kap. 8). Auch<br />
auf die Sowjetunion und Westeuropa hatte dieser Bericht Auswirkungen.<br />
Allerdings wurde gerade in der Europäischen Gemeinschaft (EG) die Entwicklung <strong>von</strong><br />
MÜ-<strong>Systeme</strong>n vor allem für die Verwaltungen fortgesetzt, weil man eine Vielzahl <strong>von</strong><br />
Dokumenten in die verschiedenen Sprachen der Mitgliedsländer übersetzen musste und<br />
muss. Ein bekanntes System aus dieser Zeit, das unter anderem <strong>von</strong> der EG-Kommission<br />
eingesetzt wurde, ist das bis heute weiterentwickelte Systran [Lau84].<br />
Als in den 1980er Jahren PCs und Workstations mit Textverarbeitungsprogrammen große<br />
Verbreitung erlangten, nahm die Entwicklungsaktivität auch in den USA wieder zu, da inzwischen<br />
ein Bedarf für konstengünstige Massenprodukte zur automatischen Übersetzung<br />
entstanden war. Zudem bedurften gerade auch internationale Konzerne zuverlässiger Software,<br />
um der großen Anzahl an zu übersetzenden Texten (Verträge, Dokumentationen,<br />
Anleitungen etc.) Herr zu werden. Anstelle des ursprünglichen Ansatzes, die Ausgangssprache<br />
mittels eines spezialisierten Regelsystems direkt in die Zielsprache zu überführen,<br />
wurden nun verstärkt indirekte Interlinguasysteme implementiert. (Eine Beschreibung der<br />
vorherrschenden Übersetzungstechniken findet sich in Abschnitt 2.3.)<br />
In den 90er Jahren entstanden erste <strong>Systeme</strong>, die nicht mehr rein regelbasiert waren, sondern<br />
statistische Methoden oder Korpora <strong>von</strong> Beispielübersetzungen benutzten, um passende<br />
Übersetzungen zu generieren. Zudem stieg durch die rasante Ausbreitung <strong>von</strong> PCs<br />
auf der ganzen Welt der Bedarf für erschwingliche Übersetzungsprogramme seitens der<br />
Privatanwender weiter an, so dass inzwischen eine Vielzahl <strong>von</strong> Firmen solche Produkte<br />
kommerziell vertreibt. Mit dem Aufkommen des Internets wurden auch Online-Übersetzungstools<br />
populär.<br />
Auch die Ausrichtung der Übersetzungsprogramme wandelte sich: Standen in der Anfangszeit<br />
vor allem Übersetzungen wissenschaftlicher und technischer Texte im Vordergrund, so<br />
werden heute alle Arten <strong>von</strong> Texten übersetzt. Dementsprechend sind die Wörterbücher,<br />
die <strong>von</strong> den heutigen Programmen benutzt werden, in aller Regel weniger spezialisiert<br />
und liefern eine gute Abdeckung aller Themengebiete.<br />
Der Markt für Übersetzungen ist nach wie vor <strong>von</strong> starkem Wachstum geprägt. Laut<br />
Angaben der Universität Leipzig (Translatio) steigt die Nachfrage um rund 14 Prozent<br />
jährlich [Tra06] – und damit auch der Bedarf an maschinellen Übersetzungen. Die Qualität<br />
der Übersetzungen ist dabei bis heute, gleich welcher Ansatz einem System zugrundeliegt,<br />
insofern unbefriedigend, als praktisch sämtliche übersetzten Texte umfassende Nachbearbeitung<br />
benötigen, um veröffentlicht werden zu können. Allerdings liefern sie trotz vieler<br />
14
2.3. Ansätze der maschinellen Übersetzung<br />
ungelöster Probleme (siehe Abschnitt 2.4) in den meisten Fällen zwar keine fehlerfreien,<br />
aber immerhin verständliche Übersetzungen. Ein Beispiel hierfür ist etwa das einleitende<br />
Zitat <strong>von</strong> Mark Twain. Manchmal jedoch kommt es auch zu groben Verfälschungen, so<br />
dass der Inhalt des Ausgangstextes nicht einmal erahnt werden kann.<br />
Weil eine umfassende Lösung für die meisten Probleme nicht in Sicht war und/oder ist,<br />
wurden in den vergangenen Jahren parallel zur Weiterentwicklung der Übersetzungstechniken<br />
mehrere Ansätze entwickelt, um zu erreichen, dass die Übersetzung eines Textes<br />
möglichst wenige Fehler und damit nur geringen Nachbearbeitungsaufwand nach sich<br />
zieht. Einige da<strong>von</strong> werden im Rahmen dieser Einführung kurz vorgestellt. Es handelt<br />
sich dabei um kontrollierte Sprachen (Abschnitt 3.1), Annotationssprachen (Abschnitt<br />
3.2) und eben Methoden zur <strong>Messung</strong> der Übersetzbarkeit (Abschnitt 3.3).<br />
2.3. Ansätze der maschinellen Übersetzung<br />
Seit Beginn der Forschung auf diesem Gebiet ist eine Vielzahl an Übersetzungssystemen<br />
entstanden, die verschiedenen Paradigmen folgen. Diese lassen sich in die folgenden<br />
Klassen einordnen, wobei in der Praxis häufig auch Mischformen zum Einsatz kommen<br />
(vergleiche [Hut92], [ABM + 94] und [HS92]).<br />
2.3.1. Direkte Übersetzung<br />
Eine direkte Übersetzung wird vorgenommen, indem ein Text aus einer Ausgangssprache<br />
mit Hilfe eines Regelwerkes in eine Zielsprache überführt wird. Dazu werden nach einer<br />
morphologischen Analyse die Wörter einzeln in die Zielsprache übertragen und Wortstellung<br />
sowie Flexionsformen angepasst. Eine semantische Analyse findet dabei nicht statt,<br />
so dass die Ergebnisse dieser Methode etwa bei Zweideutigkeiten sehr unbefriedigend sind.<br />
Nachteilig ist zudem, dass bei n Sprachen, zwischen denen jeweils direkt übersetzt werden<br />
soll, insgesamt (n 2 − n) Regelsätze angefertigt werden müssen. Abbildung 2.1 zeigt die<br />
Funktionsweise dieses ältesten und einfachsten Ansatzes.<br />
Abbildung 2.1.: Schema für direkte Übersetzung<br />
2.3.2. Transfer<br />
Der Transferansatz analysiert den Ausgangstext grammatikalisch und überführt ihn in eine<br />
spezielle sprachabhängige Zwischendarstellung, die seine Eigenschaften wiedergibt und<br />
auch semantische Informationen enthält. Meist wird dazu eine Baumstruktur benutzt. Anschließend<br />
wird in einem zweiten Schritt mittels eines (namengebenden) Transfermoduls<br />
die Zwischendarstellung der Ausgangssprache in eine gleichwertige Zwischendarstellung<br />
der Zielsprache überführt. Erst dann wird aus der Zwischendarstellung der endgültige<br />
Text in der Zielsprache generiert. Ein wichtiger Vorteil gegenüber dem direkten Ansatz ist<br />
die Beachtung semantischer Strukturen. Auch können die Zwischendarstellungen für jede<br />
15
2. Stand der Technik<br />
Sprache optimiert werden. Allerdings müssen bei n Sprachen insgesamt (n 2 − n) Transfermodule<br />
erstellt werden, um <strong>von</strong> jeder Sprache in jede andere übersetzen zu können.<br />
Außerdem werden noch jeweils n Module zur Erzeugung der Zwischendarstellung und des<br />
Zieltextes benötigt. Abbildung 2.2 zeigt den Ablauf dieses Schemas.<br />
Abbildung 2.2.: Schema für Transferübersetzung<br />
2.3.3. Zwischensprache<br />
So genannte Interlingua-<strong>Systeme</strong> (lat. interlingua: Zwischensprache) erzeugen ebenfalls<br />
aus einem Ausgangstext eine Zwischendarstellung. Diese ist allerdings sprachunabhängig.<br />
So wird bei n Sprachen immer nur eine Zwischendarstellung benötigt, was den Programmieraufwand<br />
im Vergleich zu einem Transfersystem drastisch senkt. Hinzu kommen noch<br />
je n Module zur Erzeugung der Zwischendarstellung aus der Ausgangssprache und der<br />
Zielsprache aus der Zwischendarstellung. Abbildung 2.3 beschreibt den Ansatz grafisch.<br />
Das Problem bei diesem Ansatz ist die sprachunabhängige Zwischendarstellung. Bisher<br />
ist es noch nicht gelungen, eine wirklich allgemeingültige Interlingua zu erstellen. Deshalb<br />
wird trotz des höheren Aufwands der Transferansatz auch bei multilingualen MÜ-<br />
<strong>Systeme</strong>n vorgezogen.<br />
Abbildung 2.3.: Schema für Interlingua-Übersetzung<br />
2.3.4. Statistische MÜ<br />
Statistische MÜ kommt im Gegensatz zu den obigen Ansätzen ohne vorgefertigte Grammatik<br />
aus. Vielmehr werden alle benötigten Informationen wie Worthäufigkeiten, Grammatikregeln<br />
usw. mit Methoden zur Informationsgewinnung aus großen bi- und multilingualen<br />
Textkorpora für die beteiligten Sprachen extrahiert.<br />
Im Zentrum bei der Übersetzung eines Textes steht dann die Berechnung der Wahrscheinlichkeit,<br />
dass ein bestimmter Satz in der Ausgangssprache auf einen bestimmten Satz in<br />
der Zielsprache abgebildet werden kann. Zunächst wird dazu die Wahrscheinlichkeit P (A)<br />
des Auftretens des Ausgangssatzes A berechnet und anschließend die bedingte Wahrscheinlichkeit<br />
P (Z|A), dass Zielsatz Z auftritt, wenn A vorliegt. Beide Wahrscheinlichkeiten<br />
werden miteinander zu P (A) · P (Z|A) verknüpft. Diese Prozedur wird für zahlreiche<br />
mögliche Zielsätze durchgeführt, wobei am Ende derjenige gewählt wird, der die größte<br />
16
2.4. Offene Probleme<br />
Wahrscheinlichkeit liefert. In der Praxis werden meist noch weitere Parameter hinzugefügt,<br />
um die Ergebnisse zu verbessern.<br />
Das Hauptproblem hierbei ist, dass große und vor allem in geeigneter Weise (z. B. durch<br />
Zuordnung <strong>von</strong> Sätzen in Ausgangs- und Zielsprache) aufbereitete Textkorpora relativ selten<br />
sind. Dafür erspart man sich die manuelle Erstellung komplizierter Grammatikregeln.<br />
Abbildung 2.4.: Schema für statistische Übersetzung<br />
2.3.5. Beispielbasierte MÜ<br />
Im Gegensatz zur statistischen Übersetzungsmethode ist die beispielbasierte MÜ wieder<br />
ein regelbasiertes Verfahren, das jedoch nicht wie die ersten drei Verfahren versucht,<br />
möglichst allgemeine Grammatikregeln abzubilden. Vielmehr ist der Hauptbestandteil des<br />
Systems wie bei statistischer MÜ ein bi- oder multilinguales Textkorpus, aus dem mittels<br />
einander zugeordneter Sätze oder Phrasen zahlreiche Übersetzungsvorlagen für die<br />
jeweiligen Sprachen gewonnen werden. Diese lassen sich über mit Bedingungen versehene<br />
Regeln repräsentieren. Eine solche Bedingung könnte etwa sein, dass Zug mit train ins<br />
Englische übersetzt wird, wenn im Beispiel auch das Wort Schiene vorkommt, aber mit<br />
drag, wenn <strong>von</strong> einer Zigarette die Rede ist.<br />
Da es allerdings unmöglich ist, auf diese Weise die gesamte Sprache abzudecken, müssen<br />
Sätze in der Ausgangssprache daraufhin analysiert werden, welchem Übersetzungsbeispiel<br />
sie am ehesten ähneln. Bei fehlenden Vokabeln ist es auch möglich, ähnliche Beispiele wie<br />
Schablonen zu benutzen und Wörter einzusetzen.<br />
Abbildung 2.5.: Schema für beispielbasierte Übersetzung<br />
2.4. Offene Probleme<br />
Wie das einführende Beispiel zeigte, bestehen trotz ausgefeilter Übersetzungstechniken<br />
immer noch starke Defizite, die komplett fehlerfreie und in vielen Fällen selbst annehmbare<br />
Übersetzungen verhindern. Im folgenden werden einige wichtige ungelöste Probleme<br />
vorgestellt, die im weiteren Verlauf dieser Arbeit in ihrer Auswirkung auf die Übersetzungsqualität<br />
betrachtet werden. Dabei gibt es sowohl allgemeingültige Probleme als auch<br />
sprachspezifische.<br />
17
2. Stand der Technik<br />
2.4.1. Mehrdeutigkeit<br />
Ein zentrales Problem beim Übersetzen zwischen zwei Sprachen ist, dass es in praktisch jeder<br />
natürlichen Sprache Wörter gibt, die in einer anderen Sprache zwei oder mehr mögliche<br />
Übersetzungen mit unterschiedlichen Bedeutungen haben. Dieses Phänomen bezeichnet<br />
man als lexikalische Mehrdeutigkeit (vgl. [ABM + 94]). Es ist auch in der deutschen Sprache<br />
häufig anzutreffen.<br />
Als Beispiel sei hier das deutsche Substantiv Verdienst genannt. Es kann sich dabei um<br />
ein Gehalt als auch um eine besondere Leistung handeln. Im Englischen muss je nach<br />
Bedeutung entweder income oder merit als Übersetzung gewählt werden. Für Verdienst<br />
ist diese Unterscheidung noch einfach, weil man nur auf darauf achten muss, ob es der<br />
oder das Verdienst ist. Bei Wörtern wie Zug, das noch wesentlich mehr Bedeutungen hat<br />
– Eisenbahn, Luftzug, Zug an einer Zigarette und andere –, ist es wesentlich schwerer,<br />
die korrekte Übersetzung zu ermitteln. Hier muss ein wie auch immer gearteter anderer<br />
Kontext herangezogen werden. Ein weiteres Beispiel für ein hochfrequentes mehrdeutiges<br />
Wort ist etwa das Verb fahren. Im Englischen kann es je nach Situation unter anderem<br />
go, drive, ride oder cycle heißen, im Spanischen conducir oder ir.<br />
Von lexikalischer Mehrdeutigkeit spricht man auch, wenn ein und dasselbe geschriebene<br />
Wort mehreren Wortarten angehört. Besonders im Englischen, das kaum wortartspezifische<br />
Endungen aufweist, ist dieses Phänomen weit verbreitet. So kann lunch sowohl ein<br />
Substantiv (the lunch) als auch ein Verb (to lunch) sein. Im Deutschen könnte man, wenn<br />
man statt Mittagessen unbedingt den Anglizismus benutzen möchte, immer noch zwischen<br />
dem Substantiv Lunch und dem Verb lunchen unterscheiden. Zwischen Adjektiven und<br />
Verben existieren im Englischen ebenfalls zahlreiche Homographen, etwa cool (kühl bzw.<br />
kühlen). Auch in der deutschen Sprache trifft man auf dieses Problem: Deutsch verfügt<br />
über solche Homographen im wesentlichen nur bei Adjektiven und Adverbien, so etwa bei<br />
schön: Man vergleiche beispielsweise die Sätze Margarete hat ihr Bild schön gemalt., wo<br />
schön als Adverb gebraucht wird, und Margaretes Bild ist schön., wo schön ein Adjektiv<br />
ist.<br />
Darüber hinaus gibt es noch die strukturelle Mehrdeutigkeit, die auftritt, wenn ein Satz<br />
oder ein Satzteil mehrere mögliche Strukturen hat. Ein Beispiel für dieses Problem ist<br />
der Satz Die Spaziergänger beobachteten die Sternschnuppe mit ihrem Fernglas. Für einen<br />
Menschen ist sofort klar, dass mit ihrem Fernglas sich nur sinnvoll auf die Spaziergänger<br />
beziehen kann, die es einsetzen, um den Himmelskörper zu betrachten. Für eine Maschine,<br />
die zuvorderst mit Regeln oder Wahrscheinlichkeiten und nicht mit Ratio agiert, könnte<br />
die Präpositionalphrase sich aber genauso gut auf die Sternschuppe beziehen, die mit<br />
ihrem Fernglas am Himmel entlangschwebt.<br />
Insgesamt gilt das Problem der Mehrdeutigkeit als überaus komplex und bislang noch<br />
nicht hinreichend gelöst. Dementsprechend bleibt es auch in Zukunft vielleicht die wichtigste<br />
Fehlerquelle für maschinelle Übersetzungen. In letzter Zeit haben sich wegen seiner<br />
Bedeutung viele Projekte auf dieses Problem fixiert und Lösungsansätze wie etwa die<br />
Linguistic Annotation Language, die in 3.2.1 vorgestellt wird, entworfen.<br />
2.4.2. Komposita<br />
Ebenfalls ein für MÜ-<strong>Systeme</strong> wichtiges Problem in vielen Sprachen sind Komposita,<br />
insbesondere ihre Zerlegung, wenn es in der Zielsprache kein passendes Wort oder kei-<br />
18
2.4. Offene Probleme<br />
nen vergleichbaren Mechanismus gibt. Deutsch ist ein sehr gutes Beispiel für eine Sprache,<br />
in denen Nominalkomposita gebildet werden. Ein weithin bekanntes Kompositum<br />
ist Donaudampfschifffahrtsgesellschaftskapitän, das sich durch Anfügen weiterer Substantive<br />
beliebig verlängern lässt. Ein noch skurrileres, aber real existierendes Beispiel ist<br />
das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz aus Mecklenburg-<br />
Vorpommern.<br />
Bei der Übersetzung in Sprachen, die keine Nominalkomposita kennen, wie etwa die romanischen<br />
Sprachen müssen die einzelnen Bestandteile erkannt und als jeweils eigenständige<br />
Wörter in eine korrekte Verbindung miteinander gebracht werden. Immerhin ist die Abgrenzung<br />
deutscher Komposita durch ihre Zusammenschreibung gegeben, was im Englischen<br />
nicht der Fall ist. Hier birgt ein Satz wie The killer games rage campaign intensified.<br />
das Problem, dass nicht klar ist, welche Bestandteile zusammengehören. Die Wörter rage<br />
und campaign könnten theoretisch auch das Hauptverb sein.<br />
Wieder andere Sprachen können ganze Satzteile zu einem einzigen Wort agglutinieren, so<br />
dass dann aus diesem Wort heraus bei der Übersetzung in andere Sprachen ein kompletter<br />
Satz unter Wahrung der Bedeutung extrahiert werden muss. Ein berühmtes Beispiel<br />
hierfür ist der Name des walisischen Ortes Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch,<br />
dessen offizielle englische Übersetzung3 Saint Mary’s Church in the hollow<br />
of the white hazel near a rapid whirlpool and the Church of Saint Tysilio of the red cave<br />
lautet.<br />
2.4.3. Satzkomplexität<br />
Je länger ein Satz wird, desto komplexer wird auch seine syntaktische Struktur. Zum einen<br />
erhöht sich die bloße Anzahl der Wörter, die korrekt miteinander in Beziehung gesetzt<br />
werden müssen, zum anderen bekommt der Satz durch Unterordnungen zusätzliche Ebenen.<br />
Es steht zu erwarten, dass mit zunehmender Satzlänge auch ohne Mehrdeutigkeiten<br />
ein Übersetzungsprogramm zunehmend die Übersicht verliert und nicht mehr in der Lage<br />
ist, die Wörter korrekt zu ordnen und die Satzebenen mit all ihren Abhängigkeiten richtig<br />
zu verwalten. Aus diesem Grund wird für maschinengerechtes Schreiben <strong>von</strong> Texten oft<br />
empfohlen, allzu lange Sätze zu vermeiden, etwa in [Kor06] oder [BG00].<br />
Ein weiterer Punkt sind satzübergreifende Referenzen. Viele Programme haben Probleme<br />
damit, Referenzen über mehrere Sätze hinweg zu analysieren oder tun dies erst gar nicht.<br />
Dies führt gerade bei Pronomen dazu, dass in vielen Fällen geraten werden muss, worauf<br />
sie sich beziehen, so dass falsche Beziehungen zwischen Satzteilen entstehen. Ein Beispiel<br />
hierfür ist das Satzgefüge:<br />
Nach dem Vietnam-Krieg zeigte sich eine Desorientierung und Ratlosigkeit der US-Außenpolitik.<br />
Sie fand ihren Ausdruck im Schwanken zwischen einer Abkehr <strong>von</strong> Interventionismus<br />
und Demonstration militärischer Stärke und dessen Gegenteil.<br />
Die Übersetzung mit Babel Fish liefert:<br />
To the Viet Nam war a disorientation and an embarrassment of the US foreign policy<br />
pointed themselves. She found her expression in varying between a break of interventionism<br />
and demonstration of military strength and its opposite.<br />
3 Entnommen der offiziellen Homepage der Gemeinde unter http://www.<br />
llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch.co.uk/, letzter Besuch<br />
am 16. November 2006<br />
19
2. Stand der Technik<br />
Abgesehen <strong>von</strong> den übrigen Fehlern wurde hier offenbar nicht erkannt, dass der zweite<br />
Satz sich auf Desorientierung und/oder Ratlosigkeit bezieht, die im Englischen als Neutrum<br />
behandelt werden, so dass die ursprünglich vorhandene Verbindung zerstört wird<br />
durch die Benutzung der femininen Pronomina she und her. Um derartige Probleme zu<br />
umgehen, verlangen zahlreiche kontrollierte Sprachen wie ACE und KCE (siehe Abschnitt<br />
3.1) explizite Wiederholungen <strong>von</strong> Bezugswörtern.<br />
2.4.4. Eigennamen<br />
Auch bei Eigennamen stellen sich nach wie vor zwei zentrale Probleme:<br />
• Der Eigenname muss korrekt herausgefiltert werden.<br />
• Der Eigenname muss entweder korrekt übersetzt werden oder unverändert bleiben.<br />
Beide Probleme scheinen auf den ersten Blick recht einfach zu lösen, sind aber mit zahlreichen<br />
Schwierigkeiten behaftet. Insbesondere Firmennamen, die oftmals aus verschiedenen<br />
Bestandteilen und Phantasiewörtern bestehen, sind problematisch, nicht nur weil oftmals<br />
unklar ist, wo sie beginnen und enden. So muss das Wort Wohnungsbaugesellschaft<br />
normalerweise übersetzt werden, aber nicht, wenn es Bestandteil eines (hier erdachten)<br />
Firmennamens wie Zentralbau Wohnungsbaugesellschaft mbH ist. Und bei Phantasienamen<br />
wie Infineon steht das MÜ-System vor der Frage, ob es nur eine unbekannte Vokabel<br />
oder ein Eigenname ist.<br />
Personen- und Ortsnamen sind ebenfalls problembehaftet, etwa wenn es um hintereinander<br />
stehende oder historische Namen geht. Verkaufte Klaus Peter eine Eintrittskarte? ist<br />
ein Satz, in dem es entweder um einen Mann namens Klaus Peter oder um zwei Männer<br />
namens Klaus und Peter gehen kann. Ebenso muss ein MÜ-System entscheiden, wann<br />
ein zu übersetzender Name vorliegt, was meistens bei größeren Orten und historischen<br />
Persönlichkeiten der Fall ist. Karl der Große heißt auf Englisch nun einmal Charlemagne<br />
und nicht Karl the great oder Charles the great, und aus Nürnberg muss in der Übersetzung<br />
Nuremberg werden.<br />
2.4.5. Tempus-, Modus- und Aspektsystem<br />
Während die deklinierbaren Wortarten sich zwischen den verschiedenen Sprachen meist<br />
nur geringfügig unterscheiden, nämlich in der Stärke und den Kategorien ihrer Beugung,<br />
und ansonsten strukturell fast gleichen <strong>Systeme</strong>n folgen, ist die korrekte Abbildung zweier<br />
Verbsysteme aufeinander selbst bei eng verwandten Sprachen ein wesentlich komplizierteres<br />
Unterfangen.<br />
Um etwa zu wissen, in welchem Kasus oder mit welcher Präposition ein Nomen in der<br />
Übersetzung steht, reicht es in den indogermanischen Sprachen aus, das zugehörige Verb<br />
und die Funktion des Nomens im Satz zu kennen. Um sich für die richtige Verbform zu<br />
entscheiden, bedarf es tiefgründigerer Analysen, weil das Zusammenspiel aus Tempus,<br />
Modus und Aspekt <strong>von</strong> nicht explizit angegebenen Faktoren abhängt.<br />
Die deutsche Sprache kennt zum Beispiel keinen Verbalsapekt, im Gegensatz etwa zu Englisch<br />
oder Spanisch, die eine Zustands- und eine Verlaufsform bei Verben aufweisen. Ich<br />
esse kann daher prinzipiell als I eat oder I am eating respektive als como oder estoy comiendo<br />
übersetzt werden. Erst zusätzliche Informationen zu den Umständen der Aussage<br />
20
2.4. Offene Probleme<br />
ermöglichen die sinnvolle Wahl einer der beiden Formen. Fügte man gerade hinzu, wäre<br />
eindeutig, dass die Verlaufsform zu wählen ist. Nähme man fast alles als Ergänzung, müsste<br />
die Zustandsform gewählt werden. Diese Erkennungsleistung muss vom MÜ-System erst<br />
einmal vollbracht werden. Ein weiteres Beispiel ist die Consecutio temporum (Zeitenfolge),<br />
die im Englischen eher lax und im Deutschen der strengen lateinischen sehr ähnlich ist.<br />
Ein im Englischen üblicher Satz wie zum Beispiel After I woke up, I took a shower. sollte<br />
nie mit Nachdem ich aufwachte, duschte ich mich. übersetzt werden, weil die Vorzeitigkeit<br />
zum Präterium im Deutschen mittels Plusquamperfekt ausgedrückt wird.<br />
Noch komplizierter wird es bei indirekter Rede (oder allgemeiner: bei <strong>von</strong>einander abweichendem<br />
Modusgebrauch). Fast jede Sprache hat hier eigene <strong>Systeme</strong>. Im Englischen<br />
spielt der Konjunktiv dabei anders als im Deutschen keine Rolle, dafür muss die Zeitform<br />
des Indikativs der indirekten Rede an die des Hauptsatzes angepasst werden. Zusätzlich<br />
wird normalerweise nirgendwo im Text explizit angegeben, wann die indirekte Rede beginnt<br />
oder endet, so dass es Aufgabe des MÜ-Programms ist, dies herauszufinden, sofern<br />
die indirekte Rede überhaupt bemerkt wird.<br />
Dies sind nur einige Probleme, die zwischen eng verwandten indogermanischen Sprachen<br />
bestehen. Es ließen sich an dieser Stelle noch viele weitere, wesentlich schwieriger zu lösende<br />
oder ungelöste Probleme insbesondere zwischen Sprachen unterschiedlicher Sprachfamilien<br />
nennen, etwa das völlige Fehlen <strong>von</strong> Tempora im Chinesischen oder die Wahl der<br />
korrekten Anredeform.<br />
2.4.6. Fehlerhafte und umgangssprachliche Texte<br />
Ein weiteres Problem ist die Übersetzung <strong>von</strong> Texten, die zahlreiche Fehler hinsichtlich<br />
Rechtschreibung und Grammatik enthalten. Hier kann kein noch so gutes MÜ-System<br />
eine akzeptable Übersetzung liefern, da bereits der Ausgangstext unbrauchbar ist. So ist<br />
es nicht verwunderlich, dass der falsche, aber so durchaus zu hörende Satz Ich hab kein<br />
Hunger, weil ich hatte gerade schon gegessen gehabt. <strong>von</strong> Personal Translator 2006 mit<br />
I have none hunger because I had just already had eaten. übersetzt wird. Ähnlich sieht<br />
es mit Texten aus, in denen Slangwörter, die in keinem Wörterbuch verzeichnet sind und<br />
sich bewusst <strong>von</strong> der Umwelt abheben wollen, auftreten. Weil in diesen Fällen die Texte<br />
und nicht unzureichende Programme die Fehlerursache sind, werden sie in der weiteren<br />
Analyse nicht beachtet.<br />
21
3. Ansätze zur Lösung der<br />
Übersetzungsprobleme<br />
Es gibt inzwischen zahlreiche Strategien, um die bestehenden Probleme der MÜ zu lösen<br />
oder zu umgehen. Die wesentlichen lassen sich in drei Gruppen zusammenfassen. Dies sind<br />
kontrollierte Sprachen, die gerade in größeren Unternehmen und internationalen Behörden<br />
zum Einsatz kommen (vgl. [CMU + 95]), Vorbearbeitung der zu übersetzenden Texte, die<br />
eingesetzt wird, um das Programm mit zusätzlichen Informationen über Textinhalt und<br />
-struktur zu versorgen, sowie Übersetzbarkeitsmaße, die meist im Vorfeld der Übersetzung<br />
berechnet werden und angeben, wie gut sich ein Text zur MÜ eignet.<br />
3.1. Kontrollierte Sprachen<br />
Kontrollierte Sprachen sind natürliche Sprachen, die hinsichtlich ihres Umfangs eingeschränkt<br />
sind, um MÜ-gerechtes Schreiben zu erleichtern oder zu erzwingen. Eine kontrollierte<br />
Sprache kann auf einer sehr einfachen Ebene lediglich eine informelle Regelsammlung<br />
sein mit Vorgaben wie Kein Satz darf länger als 25 Wörter sein. Es kann aber<br />
auch eine ausgefeilte formale Grammatik sein, deren Ausdrucksmächtigkeit einem Teil<br />
der Mächtigkeit der zugrundeliegenden Sprache entspricht. So könnte beispielsweise die<br />
Wortstellung durch ihre Produktionsregeln auf Subjekt - Prädikat - Objekt beschränkt<br />
sein. Möglich sind auch Einschränkungen im Wortschatz oder die Beschränkung auf genau<br />
eine Bedeutung pro Wort, um der Mehrdeutigkeit zu begegnen. Im folgenden werden<br />
drei unterschiedliche Beispiele für kontrollierte natürliche Sprachen kurz vorgestellt.<br />
Allen kontrollierten Sprachen gemein ist jedoch, dass sie nur eine zeitlich begrenzte Umschiffung<br />
der bestehenden Probleme bis zu ihrer Lösung sein können; denn das eigentliche<br />
Ziel heißt nach wie vor, Sprache – wenn auch nicht gerade anspruchsvolle Literatur – ohne<br />
Einschränkungen übersetzen zu können.<br />
3.1.1. Attempto Controlled English<br />
Attempto Controlled English (ACE) wurde und wird im Institut für Informatik der Universität<br />
Zürich in der Schweiz entwickelt und unter anderem bei dem mit EU-Mitteln<br />
geförderten Forschungsprojekt REWERSE 1 als kontrollierte Sprache eingesetzt. Es handelt<br />
sich bei ACE um eine reduzierte Grammatik der englischen Sprache mit einem zugehörigen,<br />
vom Benutzer erweiterbaren Lexikon, das in Prolog geschrieben wurde. Hinzu<br />
kommen Programme zur Analyse, ob der Ausgangstext den Regeln entspricht, und zur<br />
Überführung des Ausgangstextes in eine Darstellung in Diskursrepräsentationsstruktur<br />
(DRS) (siehe [FSS99], [FHK + 06]). Durch diese Erweiterung der Prädikatenlogik ist es<br />
1 Reasoning on the Web with Rules and Semantics, im Internet erreichbar unter http://rewerse.net,<br />
zuletzt besucht am 6. April 2007<br />
22
3.1. Kontrollierte Sprachen<br />
möglich, dass auch Zusammenhänge über Satzgrenzen hinweg in einem gewissen Rahmen<br />
beachtet werden können. Man betrachte die beiden Sätze: The user enters a code. The<br />
code is valid. ACE ist in der Lage, The code im zweiten Satz aufgrund der Kongruenz mit<br />
a code im ersten Satz in Beziehung zu setzen.<br />
Ein Schwerpunkt bei der Entwicklung <strong>von</strong> ACE liegt auf der Reduzierung <strong>von</strong> Mehrdeutigkeit.<br />
Sätze, die aufgrund ihrer Struktur mehrdeutig sind, werden immer deterministisch<br />
interpretiert. Der Satz The user enters a code that is correct and opens a connection ist<br />
in einem normalen englischen Text zweideutig, weil and opens a connection sowohl eine<br />
Fortführung des Relativsatzes als auch eine Wiederaufnahme des Hauptsatzes sein kann.<br />
ACE dagegen fasst den zweideutigen Satzteil immer als Wiederaufnahme des Hauptsatzes<br />
auf, sofern der Relativsatz nicht durch explizite Wiederholung des Relativpronomens that<br />
fortgesetzt wird. Des Weiteren wurden einige Möglichkeiten der englischen Sprache, die<br />
Mehrdeutigkeiten provozieren können, ganz ausgelassen.<br />
Zur Zeit liegt ACE in Version 5.0 vor und beherrscht unter anderem (vgl. [Hoe04],<br />
[FHK + 06]) auch Fragesätze, Negationen, Quantifizierungen, Modalverben, bei- und untergeordnete<br />
Sätze, Präpositionalphrasen, Genitive und mit Adverbien erweiterte Verben.<br />
Allerdings können noch nicht alle Arten <strong>von</strong> Nebensätzen verarbeitet werden und es stellt<br />
sich die Frage, inwieweit ACE gegen lexikalische Mehrdeutigkeiten geschützt ist.<br />
3.1.2. Das KANT-Projekt<br />
Seit 1989 wird an der US-amerikanischen Carnegie Mellon University an KANT, einem<br />
Interlingua-Übersetzungssystem gearbeitet, das für den Einsatz in der hochtechnisierten<br />
Industrie spezialisiert ist und englische Texte in verschiedene andere Sprachen übersetzen<br />
kann. Der Name KANT steht dabei für Knowledge-based, Accurate Natural-language<br />
Translation (dt.: wissensbasierte, präzise Übersetzung natürlicher Sprache).<br />
Ein Kernelement <strong>von</strong> KANT ist KANT Controlled English (KCE), das wie ACE eine<br />
eingeschränkte Variante der englischen Sprache ist [MNrC91]. Dabei umfasst KCE lexikalische<br />
sowie Einschränkungen hinsichtlich der Satzkomplexität und bietet die Möglichkeit,<br />
innerhalb des Quelltextes SGML-Mark-Ups einzufügen [MN95], um schwierige Passagen<br />
wie etwa Maßangaben zu kapseln und die Übersetzung durch Hinweise für den Parser zu<br />
erleichtern.<br />
Die Einschränkungen der Grammatik sind insgesamt denen <strong>von</strong> ACE recht ähnlich und<br />
zielen vorrangig auf die Vermeidung <strong>von</strong> Mehrdeutigkeiten. Beliebige Zusammensetzungen<br />
<strong>von</strong> Substantiven sind beispielsweise nicht gestattet. [MBNS03]. Das Partizip Präsens<br />
auf -ing darf nicht direkt nach einem Substantiv stehen. Bei Relativsätzen wird die Nutzung<br />
des Relativpronomens sehr empfohlen, und es können nicht alle Varianten <strong>von</strong> Relativsätzen<br />
übersetzt werden. In Subjekt- bzw. Objektsätzen darf das unterordnende that<br />
nicht weggelassen werden, und die implizite Übertragung <strong>von</strong> Adjektiven ist nicht möglich,<br />
wie das folgende, aus [MBNS03] übernommene Beispiel zeigt: Die Phrase top left and right<br />
sides ist nicht gültig und muss zu the top left sides and the top right sides umgeschrieben<br />
werden.<br />
Das Lexikon umfasste anfänglich ca. 14.000 allgemeine Wörter sowie weitere Fachbegriffe<br />
in beschränktem, vordefiniertem Umfang [MNrC91] und ist inzwischen bei 70.000<br />
Einträgen [MBNS03] angekommen. Jedem Eintrag ist dabei nach Möglichkeit nur eine<br />
Bedeutung zugeordnet, um auch hier Mehrdeutigkeiten zu vermeiden.<br />
23
3. Ansätze zur Lösung der Übersetzungsprobleme<br />
3.1.3. Basic English<br />
Im Gegensatz zu den beiden zuvor dargestellten kontrollierten Sprachen ist Basic English<br />
wesentlich älter und wurde nicht auf eine möglichst einfache und eindeutige automatische<br />
Übersetzung ausgerichtet. Basic English wurde 1930 <strong>von</strong> dem britischen Linguisten<br />
Charles Kay Ogden [Ogd30] entwickelt und war als einfache Lingua franca zur globalen<br />
Kommunikation gedacht. Dennoch ist Basic English nicht bloß eine Plansprache wie Esperanto,<br />
sondern auch eine kontrollierte Sprache, weil sie eine stark eingeschränkte Variante<br />
des Standardenglischen ist; nur dass anders als bei neueren kontrollierten Sprachen das<br />
alleinige Ziel die einfache Erlernbarkeit durch den Menschen ist.<br />
Die bemerkenswerteste Abweichung gegenüber der englischen Sprache ist die Beschränkung<br />
auf lediglich 850 Wörter. Dieser Wortschatz setzt sich aus 600 Substantiven, 150 Adjektiven<br />
und einer Sammlung <strong>von</strong> 100 weiteren häufigen Wörtern zusammen, zu der etwa die<br />
englischen Artikel a und the gehören. Ogden behauptete, diese Wörter seien ebenso effizient<br />
wie 5.000 Wörter des Standardenglischen und könnten insgesamt sogar 20.000 Wörter<br />
abdecken [Ogd30]. Alle fehlenden Wörter werden durch zweiteilige Komposita, die aus den<br />
vorhandenen Wörtern gebildet werden, oder durch Umschreibungen ersetzt. Auffallend ist<br />
ebenso das weitgehende Fehlen <strong>von</strong> Verben. Lediglich eine Handvoll unverzichtbarer Verben<br />
wie etwa to do oder to be befindet sich unter den 100 weiteren häufigen Wörtern.<br />
Alle Tätigkeiten müssen unter Zuhilfenahme dieser Verben und passender Substantive<br />
und/oder Adjektive umschrieben werden. Diese Komposita und Umschreibungen sind in<br />
verschiedenen Wörterbüchern festgehalten, etwa in [Ogd60]. Vereinfacht wurden auch die<br />
Grammatikregeln. Verneinungen <strong>von</strong> Adjektiven werden prinzipiell durch das Präfix unausgedrückt<br />
[Ogd30]. Für Ableitungen werden die Suffixe -ed, -er, -ing benutzt. Bei den<br />
verbliebenen 16 Verben kommt -ed nur in einer Ausnahme als Vergangenheitsformen vor;<br />
die anderen sind ungerelmäßige Verben. Allerdings gab es auch Vereinfachungen, zu denen<br />
Ogden sich nicht durchringen konnte, wie etwa die Abschaffung der Ausnahmen bei<br />
der Pluralbildung (tooth → teeth) oder des s der dritten Person bei Verben im Singular,<br />
wenngleich er damit haderte [Ogd37].<br />
Basic English besitzt, wie man der vorangegangenen Beschreibung entnehmen kann, obwohl<br />
es nicht zur maschinellen Verarbeitung entworfen wurde, einige Merkmale, die seine<br />
automatische Übersetzung erleichtern. So löst der stark reduzierte Wortschatz das<br />
Problem ausufernder und unvollständiger Lexika. Der Verzicht auf die Vergangenheitsendung<br />
-ed beseitigt viele Mehrdeutigkeiten. Die hohe Regelmäßigkeit verlangt weniger<br />
Übersetzungsregeln. Es stellt sich andererseits aber wieder die Frage, ob durch die vielen<br />
erzwungenen Umschreibungen nicht neue Übersetzungsprobleme entstehen.<br />
3.2. Vorbearbeitung<br />
Eine weitere Möglichkeit, die Qualität der Übersetzungen zu erhöhen, ist die Vorbearbeitung<br />
eines Textes. Dabei werden dem Text über den eigentlichen Inhalt hinaus Metainformationen<br />
hinzugefügt, die vom MÜ-System ausgewertet und bei der Übersetzung<br />
berücksichtigt werden. Zahlreiche <strong>Systeme</strong> unterstützen zumindest einfache Direktiven,<br />
um beispielsweise Eigennamen zu kennzeichnen, so etwa das soeben vorgestellte KANT.<br />
Im folgenden wird ein komplexes System vorgestellt, das versucht, die Zusammenhänge<br />
innerhalb <strong>von</strong> Texten hervorzuheben und Mehrdeutigkeiten abzubauen. Festzuhalten ist<br />
dabei allerdings, dass nicht-marginale Vorbearbeitungen, die etwa über das Setzen <strong>von</strong><br />
24
3.3. Übersetzbarkeitsmaße<br />
Steuerzeichen für das Programm innerhalb des Textes hinausgehen, nur für das professionelle<br />
Verfassen <strong>von</strong> Texten geeignet sind.<br />
3.2.1. Linguistic Annotation Language<br />
Für IBM wurde in den letzten Jahren ein multilinguales Übersetzungssystem entwickelt,<br />
das English als Zwischensprache einsetzt. Der Vorteil ist, dass keine künstliche Interlingua<br />
entwickelt werden muss, der Nachteil, dass Englisch viele Merkmale anderer Sprachen<br />
nicht oder nur unzureichend nutzt. So kennt das Englische beispielsweise nicht den deutschen<br />
und französischen Unterschied zwischen Duzen und Siezen. Bei der Übersetzung<br />
eines deutschen Textes über Englisch nach Französisch würden also Informationen verloren<br />
gehen. Um dies zu verhindern, wurde zusätzlich die so genannte Linguistic Annotation<br />
Language entwickelt (LAL) [WNMB02].<br />
Dabei handelt es sich um eine XML-basierte Mark-Up-Sprache, die den XML-Namensraum<br />
lal benutzt und den Text mit zahlreichen zusätzlichen Informationen versieht. Im wesentlichen<br />
besteht sie aus drei Tags, die Sätze (s), Teilsätze (seg) und Wörter (w) abgrenzen<br />
[Wat03]. Zusätzlich existieren Attribute, die diesen Tags zugewiesen werden können. Dazu<br />
zählen unter anderem orig_lex, das den Lexikoneintrag der Ausgangssprache enthält,<br />
orig_lang, das die Ausgangssprache des Eintrags angibt, oder lex, in dem die Grundform<br />
des zugehörigen Wortes steht. Auf diese Weise werden Mehrdeutigkeiten eliminiert.<br />
Das aus [Wat03] entnommene Beispiel<br />
How are you?<br />
gibt für den eingeschlossenen Satz an, dass er ursprünglich auf Deutsch verfasst wurde<br />
und dass gesiezt wird (wegen polite="yes"). Zusammenhänge zwischen Wörtern werden<br />
dargestellt, indem den einzelnen Wörtern eindeutige IDs (Attribut id) zugewiesen werden.<br />
Über das Attribut mod, kann angegeben werden, auf welches Wort sich ein anderes Wort<br />
bezieht.<br />
Vorteilhaft an dieser Methode ist sicherlich, dass alle relevanten Informationen bei der<br />
Übersetzung erhalten bleiben und XML einfach zu verarbeiten ist. Andererseits ist der<br />
Arbeitsaufwand zur Vorbereitung des Textes erheblich; eigens für die LAL wurde ein<br />
Editor geschrieben. Ob die in [WNMB02] festgestellte Verbesserung der Übersetzungen<br />
den Mehraufwand der Annotation rechtfertigt, ist noch zu ermitteln.<br />
3.3. Übersetzbarkeitsmaße<br />
3.3.1. Logos Translatability Index<br />
Der sogenannte Logos Translatability Index (LTI) wurde Anfang der 90er Jahre <strong>von</strong> Mitarbeitern<br />
der Firma Logos für ihr MÜ-System entwickelt, um bereits vor der Übersetzung<br />
für deutsche und englische Dokumente eine Beurteilung der Übersetzbarkeit abzugeben<br />
[Gda94]. Der LTI liefert anhand <strong>von</strong> Textmerkmalen, mit denen das Logos-System<br />
Probleme hat, einen Indexwert und Hinweise zur Verbesserung der Übersetzbarkeit für<br />
vollständige Texte, allerdings nicht für einzelne Sätze oder konkrete Probleme wie etwa<br />
ein bestimmtes nicht gefundenes Wort.<br />
Faktoren, die die Übersetzbarkeit negativ beeinflussen, sind im LTI unter anderem (vergleiche<br />
[BG00], [Gda94]):<br />
25
3. Ansätze zur Lösung der Übersetzungsprobleme<br />
• zu lange Sätze,<br />
• Homographen,<br />
• Fragen,<br />
• kurze Parenthesen,<br />
• nicht gefundene/vorhandene Wörter und<br />
• Mehrdeutigkeiten.<br />
Einem Text wird zu Beginn des Bewertungsprozesses zunächst willkürlich ein Wert <strong>von</strong><br />
7 als Ausgangswert für seine Übersetzbarkeit zugewiesen. Je stärker die eben genannten<br />
Faktoren im Text zu Tage treten, desto mehr wird dieser Ausgangswert vermindert. Ein<br />
Text gilt als geeignet für eine automatische Übersetzung, wenn sein LTI einen Mindestwert<br />
übertrifft. Am Ende der Bewertung wird dem Autor die Übersetzbarkeit seines Textes<br />
zusammen mit relativ allgemein gehaltenen Verbesserungsvorschlägen präsentiert.<br />
3.3.2. Translation Confidence Index<br />
1999, fünf Jahre nach dem LTI, wurde bei IBM der Translation Confidence Index (TCI)<br />
fertiggestellt [Ber99]. Er wird während der Übersetzung eines Textes ermittelt und danach<br />
für jeden einzelnen Satz angezeigt. Dazu wird das Vertrauen in die bereits erstellte Übersetzung<br />
mit Werten zwischen 0 (sehr gering) und 100 (sehr hoch) angegeben. Dies ist somit<br />
auch ein nachträglich erstelltes Maß für die Übersetzbarkeit. Fällt nun ein Satz unter eine<br />
bestimmte Schwelle, bietet es sich an, ihn in der Ausgangssprache zu überarbeiten und<br />
dann erneut übersetzen zu lassen, um den Nachbearbeitungsaufwand zu minimieren. Die<br />
Genauigkeit bei einer Aufteilung in akzeptable und unbrauchbare Übersetzungen (Grenze<br />
bei 70 Punkten) beträgt über 70 Prozent [Ber99]. Der TCI kann auf beliebige englische<br />
Texte angewandt werden, die ins Deutsche übersetzt werden sollen.<br />
Im Gegensatz zum LTI betrachtet der TCI nicht nur bestimmte Textmerkmale wie zum<br />
Beispiel Präpositionalphrasen oder unbekannte Wörter, sondern auch, wie oft das jeweilige<br />
Übsersetzungsprogramm, in das die TCI-Bewertung integriert wurde, aus verschiedenen<br />
Möglichkeiten auswählen musste. Aus dem Zusammenspiel beider Faktoren werden dann<br />
die <strong>von</strong> 100 abzuziehenden Strafpunkte errechnet.<br />
3.3.3. Translatability Checker<br />
Einen dritten Ansatz, der im Jahre 2001 entwickelt wurde, stellt der sogenannte Translatability<br />
Checker (TC) dar [JU01]. Hierbei handelt es sich um ein Programm, das sowohl<br />
einzelne Sätze wie auch den gesamten Text beurteilt und anschließend satzweise eine<br />
Analyse mit detaillierten Hinweisen auf mögliche Probleme liefert. Allerdings konzentriert<br />
der TC sich ausschließlich auf englische Texte. Bei der Bewertung wird zwischen<br />
allgemeingültigen und für das jeweilige MÜ-System spezifischen Kritierien unterschieden.<br />
Als allgemeine Kriterien, die die Übersetzbarkeit negativ beeinträchtigen, gelten:<br />
• Abwesenheit eines Verbs,<br />
• Abwesenheit eines finiten Verbs,<br />
26
3.3. Übersetzbarkeitsmaße<br />
• mehrfache Beiordnungen,<br />
• ungünstige Satzlänge (< 3 oder > 25 Wörter),<br />
• Auftreten <strong>von</strong> Nominalkomposita (> 2 Substantive),<br />
• Substantiv-Verb-Homographen,<br />
• Verb-Adjektiv-Homographen,<br />
• Substantiv-Verb-Adjektiv-Homographen,<br />
• Präpositionalphrasen und<br />
• Nebensätze.<br />
Darüber hinaus existieren die folgenden systemspezifischen Kriterien:<br />
• ungünstige Satzlänge > 25 Wörter mit Adverbien,<br />
• Adverbien oder Nebensätze am Satzanfang,<br />
• Nebensätze und/oder Präpositionalphrasen am Satzanfang,<br />
• sonstiges Auftreten <strong>von</strong> Präpositionalphrasen oder Nebensätzen und<br />
• mit ”<br />
of“ beginnende Präpositionalphrasen.<br />
Je nach zur späteren Übersetzung eingesetzter MÜ-Software können Kriterien an- und<br />
abgewählt werden. Die verschiedenen Faktoren werden zur Erstellung des Indexes außerdem<br />
gewichtet. Der Index selbst ist dabei ein Wert zwischen 0 und 100 – je höher der<br />
Wert, desto höher die prognostizierte Übersetzbarkeit eines Textes.<br />
3.3.4. Bewertung der vorgestellten Ansätze<br />
Die in den vorigen Abschnitten vorgestellten Ansätze liefern einige interessante Anknüpfungspunkte<br />
für die Erstellung eines neuen Übersetzbarkeitsindexes. Ein Teil der Bewertungskriterien<br />
aus den drei Ansätzen kann so oder in ähnlicher Form übernommen werden<br />
(vgl. Abschnitt 5). Darüber hinaus haben alle Ansätze Vor- und Nachteile. Der LTI verfügt<br />
nur über eine äußerst subjektive Bewertungsskala, ist nur auf ein bestimmtes System zugeschnitten<br />
und liefert keine detaillierte Satzanalyse. Der TCI ist zwar das umfassendste<br />
Bewertungssystem, da er alle Stufen des Übersetzungsprozesses beachtet, bringt aber auch<br />
Probleme mit sich. So kann der Wert für den Index erst nach einem Durchlauf des MÜ-<br />
Programms angegeben werden, nicht davor. Außerdem muss die TCI-Bewertung in ein<br />
Übersetzungssystem integriert werden und kann nicht unabhängig da<strong>von</strong> betrieben werden,<br />
was durchaus wünschenswert sein kann. Der TC schließlich verfügt zwar über die<br />
komplexeste Berichterstattung, ist aber auf die englische Sprache spezialisiert und benutzt<br />
ein Wörterbuch <strong>von</strong> 1961 [JU01], was gerade bei neuen wissenschaftlichen Texten<br />
für Probleme sorgen könnte.<br />
27
Teil II.<br />
Ein Modell zur Einschätzung der<br />
Übersetzbarkeit eines Textes<br />
28
4. Vorbereitende Maßnahmen<br />
Bevor mit der Erstellung eines Modells, das die Übersetzbarkeit eines Textes über einen<br />
Index zuverlässig bewertet, begonnen werden kann, müssen einige vorbereitende Maßnahmen<br />
durchgeführt werden. Es geht dabei vor allem darum, diejenigen Textmerkmale,<br />
die auf ihre Auswirkungen auf die Übersetzungsqualität hin zu überprüfen sind,<br />
begründet auszuwählen (Abschnitt 4.1) und die Vorgehensweise bei ihrer Überprüfung<br />
festzulegen. Dazu gehört insbesondere die Erstellung geeigneter Textkorpora (Abschnitt<br />
4.2), die Auswahl <strong>von</strong> MÜ-<strong>Systeme</strong>n, die diese Korpora übersetzen, und der Ablauf <strong>von</strong><br />
Fehlersuche und -bewertung (Abschnitt 4.4). Schließlich gilt es, die Signifikanz der Untersuchungsergebnisse<br />
sicherzustellen (Abschnitt 4.5), so dass in den Übersetzbarkeitsindex<br />
nur tatsächlich relevante Textmerkmale einfließen.<br />
Das Modell bleibt dabei stets ausschließlich auf die Bewertung der Übersetzbarkeit deutscher<br />
Texte in die englische Sprache ausgerichtet, wenngleich der Index auch für die Übersetzung<br />
<strong>von</strong> Deutsch in andere germanische Sprachen eine gewisse Aussagekraft besitzen<br />
sollte. Diese Sprachen stehen dem Englischen in aller Regel hinsichtlich ihrer Struktur<br />
und Grammatik recht nahe, so dass sich bei Übersetzungen ähnliche Probleme ergeben<br />
dürften.<br />
4.1. Auswahl <strong>von</strong> Textmerkmalen<br />
Um Textmerkmale für eine nähere Untersuchung als geeignet betrachtet zu können,<br />
müssen sie drei wesentliche Bedingungen erfüllen:<br />
• Häufigkeit: Nur Merkmale, die vergleichsweise häufig zu beobachten sind, sollten<br />
ausgewählt und beobachtet werden, da nur sie in der Praxis <strong>von</strong> Bedeutung sind.<br />
• Allgemeinheit: Sicherlich könnte man zahlreiche sehr spezielle Merkmale wie etwa<br />
einzelne Phrasen mit außergewöhnlicher Wortstellung wie um des lieben Friedens<br />
willen, wo das Genitivobjekt <strong>von</strong> einer Zirkumposition eingeschlossen ist, benennnen.<br />
Jedoch ergäbe sich dann das Problem, dass es Hunderte ähnlicher Merkmale<br />
gibt, die jedes für sich nur ein kleines Detail sind und allesamt gleichberechtigt untersucht<br />
werden müssten, so dass man das große Ganze vor lauter Details aus den<br />
Augen verlöre.<br />
• Entfernbarkeit: Um einen sinnvollen Vergleich zu ermöglichen, muss sich jedes beobachtete<br />
Merkmal aus einem Satz auch entfernen und durch adäquate Umformulierungen<br />
ersetzen lassen, ohne dabei den Sinn des Satzes zu verändern oder einen<br />
allzu ungebräuchlichen Schreibstil zu erzwingen.<br />
Bei der Auswahl der Textmerkmale wird darüber hinaus auf die in Abschnitt 2.4 genannten<br />
offenen Probleme und auf die in den in Abschnitt 3.3 vorgestellten Übersetzbarkeitsindizes<br />
genutzten Textmerkmale Rücksicht genommen. Die Entscheidung fällt daher<br />
29
4. Vorbereitende Maßnahmen<br />
auf folgende Textmerkmale (in alphabetischer Reihenfolge und mit kurzer Begründung),<br />
weil zu erwarten steht, dass sie die Fehlerhäufigkeit bei der maschinellen Übersetzung<br />
erkennbar erhöhen 1 :<br />
• Elliptischer Schreibstil (Seite 46): Ellipsen zwingen ein MÜ-Programm entweder zu<br />
einer schwierigen Analyse der Zusammenhänge und Beziehungen innerhalb eines<br />
Satzes oder sogar zum Raten und erhöhen so die Komplexität deutlich.<br />
• Inversion der Wortstellung (Seite 58): Eine Abweichung <strong>von</strong> der Standardwortstellung<br />
erhöht die Schwierigkeit, die Satzteile zu identifizieren, und impliziert eine<br />
Abweichung vom Standardübersetzungsschema.<br />
• Mehrdeutigkeiten (Seite 43): Das MÜ-System ist gezwungen, anhand einer Analyse<br />
des Satzkontextes eine passende Übersetzungsmöglichkeit auszuwählen.<br />
• Nebensätze (Seite 39): Nebensätze sorgen für zusätzliche syntaktische Ebenen und<br />
erhöhen die Komplexität des Satzes.<br />
• Nominalklammern (Seite 52): Nominalklammern erfordern eine ausgefeilte Analyse<br />
der Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes.<br />
• Nominalkomposita (Seite 55): Nominalkomposita müssen erkannt und korrekt zerlegt<br />
werden und stellen für die MÜ-Programme oftmals Neologismen dar.<br />
• Satzlänge (Seite 37): Je länger ein Satz ist, desto mehr Möglichkeiten gibt es, ihn zu<br />
übersetzen und dabei Fehler zu machen. Zwar lässt sich die Satzlänge anders als die<br />
anderen ausgewählten Merkmale nicht entfernen, doch kann man überlange Sätze<br />
in aller Regel leicht in mehrere Sätze zerlegen.<br />
• Seltenheit <strong>von</strong> Wörtern (Seite 45): Seltene Wörter fehlen oftmals in den Lexika der<br />
MÜ-<strong>Systeme</strong> und können daher nur auf Umwegen übersetzt werden oder bleiben<br />
unübersetzt.<br />
• Verbklammern (Seite 49): Verbklammern erfordern eine ausgefeilte Analyse der<br />
Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes.<br />
Die Untersuchung dieser Merkmale wird in Abschnitt 5 durchgeführt. Dort erfolgt auch<br />
– sofern nötig – eine genauere Vorstellung und Begründung.<br />
Die folgenden Textmerkmale werden zwar als bedeutsam angesehen oder <strong>von</strong> anderen Indizes<br />
zur Berechnung der Übersetzbarkeit verwendet, finden jedoch hier keine Beachtung:<br />
• Präpositionalphrasen: Deutsche Präpositionen sind zwar oftmals anfällig für im Kontext<br />
falsche Übersetzungen, da es zu vielen Präpositionen mehrere Entsprechungen<br />
im Englischen gibt, sie sind jedoch nur in den seltensten Fällen verzichtbar.<br />
• Eigennamen: MÜ-Programme werden durch Eigennamen zwar vor enorme Schwierigkeiten<br />
gestellt; jedoch können Eigennamen in aller Regel nicht weggelassen werden,<br />
ohne einen Satz zu entstellen.<br />
1 Zum Nachschlagen grammatikalischer Fachbegriffe sei auf die diesbezügliche Fachliteratur, zum Beispiel<br />
[BEFH + 05], oder auf entsprechende Internetseiten verwiesen.<br />
30
4.2. Textuelle Grundlagen<br />
• Aufzählungen/Beiordnungen: Aufzählungen und Beiordnungen erhöhen einerseits<br />
die Satzkomplexität, andererseits ist es unrealistisch, für jedes Element einer Aufzählung<br />
oder Beiordnung einen eigenen Satz zu formulieren. Dieses Textmerkmal<br />
wird durch die Beachtung der Satzlänge ausreichend abgedeckt, weil Aufzählungen<br />
und Beiordnungen auch immer mit erhöhter Satzlänge einhergehen.<br />
• Abwesenheit <strong>von</strong> (finiten) Verben: Weil im folgenden Auszüge aus ausformulierten<br />
Texten überprüft werden, tritt dieses Merkmal nur sehr selten auf. Außerdem ist<br />
auch ohne Verb anders als im Englischen aufgrund des im Deutschen ausgeprägteren<br />
Systems <strong>von</strong> Wortformen (kaum Homographen) eine bessere Unterscheidung<br />
möglich, so dass dieses Textmerkmal nicht als relevant erscheint.<br />
• Unbekannte Wörter: Wörter, die einem MÜ-Programm unbekannt sind, werden stets<br />
als Übersetzungsschwierigkeit angenommen; weil aber dieser Übersetzbarkeitsindex<br />
nicht für ein bestimmtes MÜ-Programm gemacht wird, kann somit nicht beurteilt<br />
werden, ob ein Wort in dessen Lexikon vorhanden ist oder nicht. Statt dessen werden<br />
Wörter betrachtet, <strong>von</strong> denen bekannt ist, dass sie allgemein sehr selten sind.<br />
4.2. Textuelle Grundlagen<br />
Damit für ein Textmerkmal ein aussagekräftiges Ergebnis hinsichtlich seiner Beeinflussung<br />
der Übersetzungsqualität erzielt werden kann, ist je Merkmal ein hinreichend großes<br />
Textkorpus <strong>von</strong>nöten, das zufällige Ergebnisse weitgehend ausschließt. Gleichzeitig muss<br />
der Arbeitsaufwand unter Berücksichtigung der Anzahl der ausgewählten Merkmale in<br />
angemessener Zeit zu bewältigen sein. Zudem sollen die Inhalte der Texte nicht auf ein<br />
bestimmtes Themengebiet beschränkt sein, sondern aus verschiedenen Bereichen stammen,<br />
um eine möglichst große Textvielfalt sicherzustellen und dadurch ein realitätsnahes<br />
Untersuchungsergebnis zu begünstigen.<br />
Die Entscheidung fällt daher auf 100 Sätze pro Textmerkmal, das heißt, der Autor erstellt<br />
in der Regel für jedes Textmerkmal ein Textkorpus, das 100 Sätze mit jeweils mindestens<br />
einer Instanz dieses Merkmals enthält. Ein zweites Textkorpus, das im Prinzip dieselben<br />
100 Sätze enthält, jedoch so weit wie möglich <strong>von</strong> dem zu beobachtenden Merkmal befreit,<br />
ist anschließend zwecks Kontrolle der Veränderung der Fehlerzahl zu bilden. Die<br />
Festlegung auf jeweils 100 Sätze erfolgt, weil die damit verbundene Übersetzungs- und<br />
Korrekturarbeit noch zu bewältigen erscheint und die Ergebnisse nicht zu sehr durch einzelne<br />
Ausreißer beeinträchtigt werden können. Dies versetzt den Autor in die Lage, die<br />
Qualität der Übersetzungen der Sätze aus zusammengehörigen Textkorpora insbesondere<br />
in der Aggregation über diese Textkorpora zu vergleichen, nachdem er sie mit den dazu<br />
ausgewählten Übersetzungsprogrammen satzweise ins Englische übersetzt hat (siehe<br />
Abschnitt 4.4). Die Länge der Sätze soll dabei sehr variabel sein, wie es auch in Wirklichkeit<br />
der Fall ist, das heißt, sämtliche Satzlängen <strong>von</strong> wenigen bis zu mehreren Dutzend<br />
Wörtern sollen in jedem Korpus vertreten sein. Allerdings wird darauf geachtet, dass die<br />
Länge der einzelnen Korpora in Wörtern halbwegs gleich ist, damit der Schwierigkeitsgrad<br />
der Übersetzung der einzelnen Korpora annähernd gleich bleibt. Vor allem ist auch das<br />
Auftreten anderer wichtiger Textmerkmale zusätzlich zu dem beobachteten erwünscht,<br />
weil dies in realen Texten auch oft der Fall ist. Insgesamt erstellte der Autor im Laufe<br />
31
4. Vorbereitende Maßnahmen<br />
der Untersuchungen 19 Textkorpora mit über 1750 deutschen Sätzen und analysierte über<br />
3500 englische Übersetzungen.<br />
Als Quelle der Sätze wird die deutsprachige Version <strong>von</strong> Wikipedia 2 gewählt. Es wäre<br />
ein nicht zu rechtfertigender Aufwand und darüber hinaus wahrscheinlich tendenziös, die<br />
Sätze selbst zu verfassen. Außerdem stellen die mittlerweile über 500.000 verfügbaren<br />
Artikel ein umfassendes Textreservoir aus sehr vielen Themenbereichen dar, wobei die<br />
Auswahl der Sätze willkürlich erfolgt und nur auf das Auftreten des jeweils gesuchten<br />
Merkmals geachtet wird. Die oftmals geführte Diskussion über Qualität und Zitierbarkeit<br />
der Online-Encyklopädie erübrigt sich hier, weil die inhaltliche Güte der Sätze für derartige<br />
Untersuchungen belanglos ist. Vor dem Einfügen in ein Textkorpus wird jeder Satz auf<br />
Rechtschreibfehler überprüft und gegebenenfalls korrigiert. Kein Satz wird in mehreren<br />
Textkorpora verwendet.<br />
Sofern <strong>von</strong> den Regeln bezüglich Textauswahl und Korpusgröße abgewichen wird, wird<br />
dies in den Abschnitten zu den Untersuchungen der einzelnen Kriterien gesondert vermerkt.<br />
4.3. Eingesetzte Übersetzungsprogramme<br />
Eine weitere wichtige Frage ist, mit welchen Programmen die Textkorpora übersetzt werden<br />
sollen. Es ist allgemein <strong>von</strong> großer Bedeutung, sicherzustellen, dass die Beobachtungen<br />
nicht <strong>von</strong> einem Programm allein abhängen. Daher werden im Vorfeld der Untersuchung<br />
zwei aktuelle und populäre (im Internet kostenlos benutzbare) MÜ-Programme<br />
ausgewählt, deren Übersetzungstechnologien <strong>von</strong> verschiedenen Firmen entwickelt worden<br />
sind:<br />
• Personal Translator 2006 3 <strong>von</strong> Linguatec<br />
• Babel Fish 4 , basierend auf Systran-Technologie<br />
So ist gewährleistet, dass individuelle Schwächen oder Stärken eines Programms nicht<br />
zu sehr ins Gewicht fallen. Zeigen beide Programme dieselben Schwächen, ist darauf zu<br />
schließen, dass das verursachende Übersetzbarkeitskriterium an sich noch nicht hinreichend<br />
behandelt wird. Sämtliche Sätze werden mit beiden Programmen in die englische<br />
Sprache übersetzt. Noch besser wäre es natürlich, drei oder vier Programme einzusetzen,<br />
jedoch ließe sich dies angesichts des zusätzlichen Arbeitsaufwands nicht bewältigen.<br />
4.4. Bewertung der Übersetzungsqualität<br />
Um beurteilen zu können, ob die Übersetzung des originalen oder des bearbeiteten Textes<br />
besser ist, bedarf es eines Maßstabes zur Bewertung der Qualität. Die Frage ist dabei<br />
stets, wie exakt die Bewertung sein muss. So wurde etwa in der ALPAC-Studie [Pa66]<br />
eine Skala angewendet, die einen übersetzten Text in neun Stufen <strong>von</strong> perfekt verständlich<br />
bis hoffnungslos unverständlich einordnet.<br />
2 Erreichbar unter: http://de.wikipedia.org, zuletzt besucht am 1. April 2007<br />
3 Erreichbar unter: http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse:<br />
Personal Translator 2008, zuletzt besucht am 18. März 2007<br />
4 Erreichbar u. a. unter: http://babelfish.altavista.com, zuletzt besucht am 18. März 2007<br />
32
4.4. Bewertung der Übersetzungsqualität<br />
Eine derartige Einordnung mag zwar zur Einschätzung der Qualität <strong>von</strong> MÜ-Programmen<br />
hilfreich sein, ist jedoch nicht genau genug, um die Veränderungen der Fehlerzahl, die<br />
durch Hinzufügen oder Weglassen <strong>von</strong> Textmerkmalen entstehen, angemessen abzubilden,<br />
denn die Fehlerzahl ist maßgeblich für den Nachbearbeitungsaufwand. So ist es denkbar,<br />
dass ein Satz, der im Originalzustand und nach seiner Bearbeitung als gut verständlich<br />
eingeschätzt wird, dennoch in beiden Versionen eine stark abweichende Fehlerzahl aufweist,<br />
falls es sich um geringfügige“ Fehler – wie etwa falsch gewählte Präpositionen –<br />
”<br />
handelt, die den Satz nicht entstellen. Außerdem ist diese Bewertung sehr subjektiv und<br />
würde <strong>von</strong> Mensch zu Mensch unterschiedlich ausfallen.<br />
Es erscheint daher sinnvoller, wenngleich wesentlich arbeitsaufwändiger, die einzelnen<br />
Fehler der Übersetzungen satzweise und für das gesamte Textkorpus aggregiert zu zählen<br />
und die absoluten bzw. prozentualen Veränderungen bei Ausschaltung eines Textmerkmals<br />
zu berücksichtigen. Neben der absoluten Fehlerzahl pro Satz oder Textkorpus ergibt<br />
sich als relative Kenngröße auf Satz- und Korpusebene die Fehlerzahl pro Wort. Auf diese<br />
Weise erhält man eine sehr exakte quantitative Einschätzung der Übersetzungsqualität.<br />
Nachteilig ist, dass es trotz sehr guter Englischkenntnisse des Autors unvermeidbar ist,<br />
gelegentlich Fehler zu übersehen oder richtige Übersetzungen als falsch zu markieren,<br />
zumal Englisch nicht die Muttersprache des Autors ist. Es wird jedoch im Rahmen der<br />
Untersuchung stets nach Kräften versucht, die Anzahl solcher Fehler in Grenzen zu halten.<br />
Insbesondere werden Art und Anzahl <strong>von</strong> Bewertungsfehlern des Autors über die verschiedenen<br />
Textproben hinweg gleich bleiben, weil sämtliche Bewertungen <strong>von</strong> ihm selbst bei<br />
nahezu konstanten Sprachkenntnissen vorgenommen werden, so dass sich hieraus keine<br />
bedeutende Verfälschung des Ergebnisses ergibt. Daher wird diese quantitative Form der<br />
Bewertung gewählt.<br />
Darüber hinaus stellt sich die Frage, wann sich sagen lässt, dass eines der ausgewählten<br />
Textmerkmale maßgeblichen Einfluss auf die Übersetzungsqualität hat. Wesentlicher Anhaltspunkt<br />
hierfür ist die absolute Veränderung der Fehlerzahl, weil jeder Fehler weniger<br />
auch für weniger Nachbearbeitungsaufwand sorgt. Wann diese Änderung bedeutsam wird,<br />
lässt sich durch einen Signifikanztest (siehe Abschnitt 4.5) ermitteln. Dies sollte jedoch<br />
nicht das alleinige Kriterium für die Aufnahme eines Merkmals in den Index sein.<br />
4.4.1. Fehlersuche und Berechnung der Fehlerzahlen<br />
Bei der Kontrolle der übersetzten Sätze wird auf falsche Vokabeln, inkorrekte Wortstellung,<br />
falsche Formenbildung, fehlerhafte Erkennung <strong>von</strong> Eigennamen und verkehrte Zusammenhänge<br />
zwischen Satzteilen, kurz sämtliche Verstöße gegen Grammatik und Semantik<br />
geachtet. Jeder Fehler wird einfach gezählt, wobei es durchaus möglich ist, dass ein<br />
einzelnes Wort mehrere Fehler verursacht, etwa wenn es falsch übersetzt und zudem einem<br />
falschen Bezugswort zugeordnet wurde. Innerhalb der Übersetzung zusammenhängende<br />
Wortgruppen mit Fehlstellungen werden in der Regel als ein einziger Fehler gewertet. Vokabelübersetzungen<br />
werden als falsch gewertet, wenn die gewählte Übersetzung prinzipiell<br />
nicht möglich oder im vorliegenden Zusammenhang inkorrekt ist.<br />
Personennamen, zu denen es im historischen Kontext eine spezielle englische Übersetzung<br />
gibt, wie etwa Wilhelm I. → William I werden immer als Fehler gewertet, wenn sie<br />
nicht dementsprechend übersetzt wurden. Übersetzungen anderer Eigennamen werden als<br />
Fehler gewertet, wenn sie allgemein bekannt sind – Namen bedeutender Städte (Köln →<br />
Cologne) oder Organisationen (UNO → UN ) etwa – und nicht in ihr korrektes Pendant<br />
33
4. Vorbereitende Maßnahmen<br />
übersetzt wurden. Ebenso werden unbekannte, aber trotzdem (falsch) übersetzte Eigennamen<br />
als Fehler gewertet (zum Beispiel Münster → cathedral, wenn es um die westfälische<br />
Stadt geht). Dabei gilt, dass pro Übersetzung eines Eigennamens nur ein Fehler angerechnet<br />
wird. Seine Einordnung als Satzteil oder seine Stellung im übersetzten Satz kann aber<br />
weitere Fehler hervorrufen. Nicht übersetzt werden sollen alle anderen Personennamen<br />
sowie nicht allgemein bekannte Eigennamen.<br />
Kommasetzungen und Interpunktionen, die im Englischen wesentlich freier sind als im<br />
Deutschen, werden nur dann als Fehler gewertet, wenn sie das Verständnis des Satzes<br />
massiv behindern oder unmöglich machen, indem sie etwa falsche Bezüge erzeugen. Großund<br />
Kleinschreibung wird ebenfalls berücksichtigt, wobei großgeschriebene Wörter im<br />
Satz Fehler verursachen, solange es sich nicht um Eigennamen handelt, und ebenso kleingeschriebene,<br />
international bekannte Eigennamen. So ist etwa in der Deutschen Sprache<br />
Zweiter Weltkrieg ein Eigenname und ebenso im Englischen die Bezeichnungen World<br />
War II und Second World War; beide sind auf Englisch großzuschreiben.<br />
Zur Berechnung der Fehlerzahl pro Wort werden die absoluten Fehlerzahlen der beiden<br />
ausgesuchten MÜ-Programme mit dem Faktor 0, 5 gewichtet und addiert, so dass man den<br />
Durchschnittswert erhält, und dann durch die Anzahl aller Wörter im Korpus geteilt. Ein<br />
Beispiel: Bei insgesamt 1000 Wörtern und 100 Fehlern <strong>von</strong> Babel Fish und 150 Fehlern <strong>von</strong><br />
Personal Translator 2006 ergäbe sich beispielsweise eine Fehlerzahl pro Wort <strong>von</strong> 0, 125.<br />
Die absoluten Fehlerzahlen, die in den Tabellen für die einzelnen Textkorpora angegeben<br />
sind, enthalten jeweils die Summe aller Fehler der beiden Übersetzungsprogramme.<br />
4.4.2. Beispiele zur Fehleranalyse<br />
Die Fehleranalyse soll an zwei Beispielen verdeutlicht werden:<br />
• Textkorpus Verbklammern, erste Messreihe, Satz 3:<br />
– Deutsches Original:<br />
Am 5. Mai 1985 legte Kohl gemeinsam mit US-Präsident Ronald Reagan in<br />
Bitburg einen Kranz auf dem dortigen Soldatenfriedhof nieder.<br />
– Englische Übersetzung (Personal Translator 2006):<br />
Cabbage laid together with U.S. president Ronald Reagan into bit castle a<br />
wreath down on the military cemetery there on May 5th, 1985.<br />
– Fehleranalyse:<br />
∗ Kohl, obwohl eindeutig auf den ehemaligen deutschen Bundeskanzler bezogen,<br />
wird mit cabbage übersetzt.<br />
∗ U.S. president ist in dem hier vorliegenden Kontext großzuschreiben, weil<br />
eine konkrete Person damit bezeichnet ist.<br />
∗ Die Wortstellung laid ... down im Beispiel ist ungültig, weil derartige<br />
Klammerungen im Englischen nicht existieren.<br />
∗ Bitburg wird nicht als Eigenname erkannt, sondern wörtlich übersetzt nach<br />
bit castle.<br />
∗ Die Präposition into ist falsch, da hier eine Orts- und keine Richtungsangabe<br />
<strong>von</strong>nöten ist.<br />
34
4.5. Signifikanz der Untersuchungsergebnisse<br />
∗ Für den vorliegenden Satz werden also fünf Fehler notiert.<br />
• Textkorpus Satzlänge, erste Messreihe, Satz 1:<br />
– Deutsches Original:<br />
Das nordkoreanische Kernwaffenprogramm wird <strong>von</strong> der Regierung Nordkoreas<br />
energisch vorangetrieben.<br />
– Englische Übersetzung (Babel Fish):<br />
North Korea niche the nuclear weapon program is energetically advanced by<br />
the government of North Korea.<br />
∗ Das Adjektiv nordkoreanisch wurde fehlerhaft mit North Korea niche wiedergegeben.<br />
∗ Die Wortstellung North Korea niche the nuclear weapon program ist falsch,<br />
da der Artikel zwischen Adjektiv und Substantiv steht.<br />
∗ Eine korrekte Übersetzung <strong>von</strong> energisch wäre in diesem Kontext forcefully,<br />
aber nicht energetically gewesen.<br />
∗ Für den vorliegenden Satz werden also drei Fehler notiert.<br />
4.5. Signifikanz der Untersuchungsergebnisse<br />
Um zu gewährleisten, dass die Ergebnisse nicht zufällig zustande kommen, muss ihre<br />
statistische Signifikanz auf geeignete Weise sichergestellt werden (vgl. [Bor05]). Für jedes<br />
Textmerkmal wird dazu als Nullhypothese H 0 angenommen, dass es die Übersetzungsqualität<br />
verschlechtere oder wenigstens nicht verändere, wenn man es weglässt, also den Satz<br />
sinnwahrend umschreibt, so dass das betreffende Textmerkmal nicht mehr vorkommt.<br />
Die Gegenhypothese H 1 ist dementsprechend, dass die Übersetzungsqualität durch ein<br />
Weglassen dieses Textmerkmals verbessert wird.<br />
Für die Signifikanztests wird die Veränderung der Fehlerzahl vom originalen zum bearbeiteten<br />
Textkorpus betrachtet. Dazu werden die Beträge der Fehlerzahländerungen der<br />
einzelnen Sätze aufsummiert und diese Summe als Stichprobenumfang n genommen. Die<br />
Summe aller Fehlerzahlabnahmen ergibt die Anzahl k der Erfolge“ bei n Ziehungen“.<br />
” ”<br />
Dazu ein Beispiel: Angenommen, aus einer Stichprobe <strong>von</strong> fünf Sätzen weisen zwei keine<br />
Änderungen der Fehlerzahl auf. In einem Fall steigt die Fehlerzahl um zwei, bei einem<br />
sinkt sie um drei und bei einem um vier Fehler. Somit gilt n = 9 und k = 7.<br />
Ein Textmerkmal, dessen Entfernung die Übersetzungsqualität überhaupt nicht beeinflusst,<br />
wird ein Verhältnis <strong>von</strong> k = 0, 5 aufweisen.<br />
n<br />
Nota bene: Man könnte auch ein einfacheres Modell aufbauen, in dem n die Gesamtheit<br />
der Stichprobe (die Anzahl aller Sätze) ist und k die Anzahl der Sätze, deren Übersetzung<br />
sich verbessert. Dies würde aber bei gleichen Veränderungen der absoluten oder relativen<br />
Fehlerzahlen bei Entfernung eines Textmerkmals zu unterschiedlichen Ergebnissen des<br />
Tests führen. Angenommen, in einem Textkorpus verlieren alle 100 Sätze durch das Entfernen<br />
<strong>von</strong> Verbklammern einen Fehler, so würde das Ergebnis mit n = 100 und k = 100<br />
eine höchstsignifikante Verbesserung der Übersetzbarkeit ergeben. Verändern sich aber 75<br />
Sätze gar nicht, während die restlichen je vier Fehler verlieren, so wäre mit k = 25 keine<br />
signifikante Fehlerzahlabnahme zu konstatieren, obwohl die Fehlerabnahme dieselbe ist<br />
und sich die 25 Sätze kaum als Ausreißer einordnen lassen.<br />
35
4. Vorbereitende Maßnahmen<br />
Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der<br />
Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines<br />
einzelnen Textmerkmals <strong>von</strong>nöten, die den Stichprobenumfang weit übertrifft, um daraus<br />
eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht<br />
bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der<br />
Fehlerzahländerungen angenommen.<br />
Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge <strong>von</strong> Fehlerzahlabnahmen,<br />
weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität<br />
nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit <strong>von</strong> H 0 initial für<br />
jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung<br />
H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen <strong>von</strong> H 0 mindestens<br />
die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau,<br />
”<br />
so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall.<br />
Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des<br />
Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen<br />
befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen<br />
interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch<br />
( M<br />
)( N−M<br />
)<br />
k n−k<br />
P (X = k) = ( N<br />
n)<br />
(hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen<br />
und entsprechend<br />
∑k−1<br />
P (X < k) = P (X = i)<br />
i=0<br />
P (X ≥ k) = 1 − P (X < k)<br />
für minimal k Fehlerzahlabnahmen.<br />
Liegt dieser Wert unter dem Signifikanzniveau 5 <strong>von</strong> α = 0, 05, ist der Anteil der Fehlerzahlabnahmen<br />
an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6<br />
erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des<br />
betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen.<br />
Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das<br />
zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex.<br />
5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen,<br />
weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel<br />
genug ist.<br />
6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant.<br />
36
5. Untersuchung der Textmerkmale auf<br />
Fehlerrelevanz<br />
In diesem Kapitel des zweiten Teils der Arbeit werden die in Abschnitt 4 ausgewählten<br />
Textmerkmale daraufhin untersucht, ob sie tatsächlich die Übersetzung deutscher Texte<br />
ins Englische signifikant erschweren. Sie lassen sich in zwei Klassen einteilen:<br />
• Allgemeine Textmerkmale: Dies sind Merkmale, die sich auch für beliebige andere<br />
Sprachen untersuchen lassen, weil sie – eventuell mit wenigen Ausnahmen – in<br />
jeder bekannten Sprache der Welt auftreten. Hierzu zählen Satzlänge, Nebensätze,<br />
Mehrdeutigkeit, Seltenheit <strong>von</strong> Wörtern und elliptischer Schreibstil.<br />
• Sprachspezifische Textmerkmale: Als sprachspezifisch lassen sich Merkmale bezeichnen,<br />
die (fast) ausschließlich in der deutschen Sprache oder der germanischen Sprachfamilie<br />
auftreten oder für sie prägend sind. Dazu gehören Verb- und Nominalklammern,<br />
Nominalkomposita sowie Inversion der Wortstellung.<br />
Anmerkung zum Umgang mit den Textkorpora: Nachdem alle Textkorpora erstellt<br />
und bewertet worden waren, erfolgte mit einigem zeitlichen Abstand eine zweite Kontrolle<br />
aller Übersetzungen. Dadurch sollten Fehler des Autors, die im ersten Durchlauf<br />
unbemerkt geblieben waren, entdeckt werden. Die Änderungen der Fehlerzahlen, die sich<br />
daraus ergaben und in den folgenden Untersuchungsberichten berücksichtigt sind, waren<br />
eher gering und lagen bei etwa 20 bis 30 Fehlern pro Korpus bei zumeist insgesamt rund<br />
750 bis 950 Fehlern, wobei jedoch nie eine bedeutende Änderung der Ergebnisse eintrat.<br />
Es stellte sich dabei auch heraus, dass sich der Bewertungsstil im Laufe der einzelnen<br />
Textkorpora leicht verändert hatte, weil etwa bestimmte Übersetzungsfehler anfangs anders<br />
bestraft wurden als später. Die Nachkontrolle der Textkorpora erwies sich also auch<br />
als nützlich, um solche Inkonsistenzen auszuräumen.<br />
5.1. Allgemeine Textmerkmale<br />
In den nächsten fünf Abschnitten werden Merkmale auf ihre Auswirkungen auf die Übersetzungsqualität<br />
hin untersucht, die in (fast) allen Sprachen auftreten. Dies sind Satzlänge,<br />
Nebensätze, Mehrdeutigkeit, Seltenheit <strong>von</strong> Wörtern und elliptischer Schreibstil.<br />
5.1.1. Satzlänge<br />
Die Länge eines Satzes wird oftmals als ein zentrales Kriterium für seine Übersetzbarkeit<br />
bezeichnet und auch im Logos Translatability Index [Gda94] und im Translatability Checker<br />
[JU01], die in Abschnitt 3.3.1 vorgestellt werden, benutzt. Auch wenn diese Indizes<br />
schon einige Jahre alt sind, steht nach wie vor zu vermuten, dass zunehmende Satzlänge<br />
mit mehr Fehlern einhergeht, weil sie die Komplexität des Satzes erhöht.<br />
37
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Vorgehensweise<br />
Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen<br />
der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt:<br />
• einer mit recht kurzen Sätzen (maximal 15 Wörter),<br />
• ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und<br />
• ein letzter mit sehr langen Sätzen (minimal 31 Wörter).<br />
Textquelle war wie üblich die deutsprachige Version <strong>von</strong> Wikipedia.<br />
Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht<br />
wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus<br />
bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung<br />
der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun<br />
hatten und die Fehlerzahlen daher nicht vergleichbar waren.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für<br />
die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche<br />
Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit<br />
den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden<br />
insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer<br />
Quote <strong>von</strong> 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30<br />
Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208<br />
Wörtern. Dies kommt einer Steigerung <strong>von</strong> 36, 6% gegenüber der Fehlerrate im ersten<br />
Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier<br />
entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt<br />
<strong>von</strong> 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung <strong>von</strong> 13, 6 Prozent<br />
gegenüber den mittellangen und <strong>von</strong> 55, 2 Prozent gegenüber den kurzen Sätzen.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 1<br />
Kurz (≤ 15 Wörter) 1002 251 0,1252<br />
Mittel (16 - 30 Wörter) 2208 755 0,1710<br />
Lang(> 30 Wörter) 3865 1502 0,1943<br />
Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit<br />
Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen,<br />
wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge<br />
keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen<br />
pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten<br />
Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild:<br />
• Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während<br />
die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt.<br />
1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
38
5.1. Allgemeine Textmerkmale<br />
• Vom ersten zum dritten Textkorpus nimmt die Wortanzahl um 286% zu, während<br />
die absolute Fehlerzahl infolge der Übersetzungen um 498% steigt.<br />
• Vom zweiten zum dritten Textkorpus nimmt die Wortanzahl um 75% zu, während<br />
die absolute Fehlerzahl infolge der Übersetzungen um 99% steigt.<br />
Der Schluss liegt also nahe, dass eine steigende Satzlänge die Fehlerhäufigkeit der Übersetzung<br />
stark erhöht und somit die Übersetzbarkeit verringert.<br />
5.1.2. Nebensätze (Relativsätze)<br />
Nebensätze sind ein wichtiger Bestandteil jedes längeren Textes und tragen erheblich zu<br />
dessen semantischer Gliederung bei. Durch ihr Auftreten erhöht sich die Komplexität<br />
der Satzstruktur. Es liegt daher nahe, dass Nebensätze zu einer Erhöhung der Fehlerrate<br />
beitragen. Auch der Translatability Checker [JU01] verwendet sie als Indiz für schlechtere<br />
Übersetzbarkeit<br />
Vorgehensweise<br />
Um zu überprüfen, wie es sich mit Nebensätzen tatsächlich verhält, wurde zunächst ein<br />
Textkorpus mit 100 Sätzen aus der deutschsprachigen Wikipedia erstellt, die allesamt<br />
mindestens einen Relativsatz aufwiesen, und ein zweiter, in dem die Relativsätze aus<br />
diesen Sätzen entfernt wurden. Dass Relativsätze als Repräsentanten für Nebensätze im<br />
Allgemeinen ausgewählt wurden, hat im wesentlichen einen Grund:<br />
Relativsätze sind die wohl am schwersten zu übersetzende Art <strong>von</strong> Nebensätzen in der<br />
deutschen Sprache. Sie haben durch das einleitende Relativpronomen mindestens einen<br />
Bezug zu einem Satzteil des übergeordneten Satzes, der bei der Übersetzung beachtet werden<br />
muss. Bei einem Temporalsatz reicht es beispielsweise, die einleitende Konjunktion,<br />
etwa nachdem, zu erkennen und dann mit einem der englischen Äquivalente, etwa after,<br />
wiederzugeben. Bei einem Relativsatz dagegen muss, auch wenn das englische System <strong>von</strong><br />
Relativpronomen gegenüber dem deutschen stark vereinfacht ist, beachtet werden, in welchem<br />
Kasus das deutsche Relativpronomen steht (der Abgleich <strong>von</strong> Genus und Numerus<br />
entfällt im Englischen) und ob es belebt oder unbelebt ist. So können nur Relativsätze im<br />
Englischen mit who beginnen, wenn das Bezugswort belebt ist, ansonsten muss entweder<br />
which oder that eingesetzt werden. Und nur, falls das deutsche Relativpronomen im Dativ<br />
oder Akkusativ steht, kann bei einem belebten Bezugswort whom verwendet werden. Nur<br />
bei Genitiven darf hingegen – ob belebt oder unbelebt – whose benutzt werden.<br />
Wenn also Nebensätze tatsächlich einen negativen Effekt auf die Übersetzungsqualität<br />
haben, wird dieser bei Relativsätzen voraussichtlich am stärksten ausfallen. Umgekehrt<br />
ist bei einer deutlichen Beeinflussung der Fehlerzahl durch Relativsätze auch damit zu<br />
rechnen, dass andere Nebensätze Einfluss haben, weil auch sie über einige, die Übersetzung<br />
erschwerende Merkmale <strong>von</strong> Relativsätzen verfügen, wie etwa die veränderte Wortstellung<br />
im Deutschen mit dem Prädikat am Ende.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Das Resultat der Fehleranalyse (siehe Tabelle 5.2) zeigt deutlich, dass<br />
Relativsätze geringe, aber spürbare Auswirkungen auf die Fehlerhäufigkeit bei der Über-<br />
39
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
setzung eines Textes haben. So entstanden bei der Übersetzung der Sätze aus der Messreihe<br />
mit Relativsätzen insgesamt 815 Fehler, während es bei dem Korpus ohne Relativsätze<br />
794 waren. Bei 2212 bzw. 2184 Wörtern entspricht das einer Fehlerhäufigkeit <strong>von</strong> 0, 1786<br />
Fehlern pro Wort mit Relativsätzen bzw. 0, 1818 Fehlern pro Wort ohne Relativsätze.<br />
Die durch das Ersetzen der Relativsätze entstandene Abnahme der absoluten Fehlerzahl<br />
beträgt also nur etwa 2, 58 Prozent; das ist wesentlich weniger als erwartet, aber dennoch<br />
deutlich. Die Relativsätze spielen demnach nur eine vergleichsweise geringe Rolle für die<br />
Übersetzbarkeit eines deutschen Textes in die englische Sprache. Sie können also nur mit<br />
einem entsprechend kleinen Gewicht in den Index einfließen.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 2<br />
Mit Relativsätzen 2212 815 0,1786<br />
Ohne Relativsätze 2184 794 0,1818<br />
Tabelle 5.2.: Relativsätze und Fehlerhäufigkeit<br />
Aus dieser erstaunlich geringen Verbesserung der Übersetzbarkeit durch das Weglassen<br />
<strong>von</strong> Relativsätzen darf allerdings nicht automatisch geschlossen werden, dass Relativsätze<br />
oder Nebensätze im Allgemeinen generell eher unbedeutende Textmerkmale seien. Hierfür<br />
sind für jede Sprache eigene Untersuchungen nötig, zumal es in anderen Sprachen andere<br />
Rahmenbedingungen für die Behandlung solcher Sätze gibt. Und vieles spricht dafür, dass<br />
ihr Einfluss auf die Übersetzbarkeit in anderen Sprachen wesentlich größer ist.<br />
Abbildung 5.1.: Absolute Veränderungen der Fehleranzahl ohne Relativsätze für die einzelnen<br />
Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />
2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
So sind Nebensätze etwa im Englischen und Spanischen vielfach nicht nötigerweise durch<br />
Kommata eingegrenzt. In einigen Sprachen, so im Englischen und auch im Dänischen,<br />
dürfen unter bestimmten Bedingungen sogar Relativpronomen weggelassen werden, was<br />
2 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
40
5.1. Allgemeine Textmerkmale<br />
die Erkennung eines Relativsatzes zweifelsohne erschwert. Als Beispiel für beides diene<br />
der Satz Das Buch, das Peter kaufen möchte, kostet 10 Euro. mit seiner spanischen Übersetzung<br />
El libro que Peter quiere comprar cuesta 10 euros. und dem englischen Äquivalent<br />
The book Peter wants to buy costs 10 euros. Im Deutschen ist der Relativsatz durch Kommata<br />
und Pronomen abgegrenzt. Im Spanischen fehlen bereits die Kommata, und im<br />
Englischen fehlt auch noch das Pronomen.<br />
Veränderungen der Fehlerzahl Abbildung 5.1 zeigt, wie die Veränderungen der Fehlerzahlen<br />
bei der Gegenüberstellung der Übersetzungen der Originalsätze und der <strong>von</strong><br />
Relativsätzen befreiten Sätze für die beiden MÜ-Programme und insgesamt verteilt sind.<br />
Die durchschnittliche Veränderung während der Untersuchung betrug −0, 11 Fehler, das<br />
heißt, etwa jeder zehnte Satz wird im Durchschnitt durch eine Bearbeitung besser übersetzbar.<br />
Im Vergleich zeigten 87 Übersetzungen überhaupt keine Veränderungen, 57-mal verschlechterten<br />
sich die Übersetzungen, da<strong>von</strong> 41-mal um einen Fehler, 13-mal um zwei,<br />
zweimal um drei und sogar einmal um gleich vier Fehler. Nur 56-mal verbesserte sich<br />
das Ergebnis, 31-mal gab es einen Fehler weniger, 15-mal zwei, sechsmal drei, immerhin<br />
zweimal vier, einmal fünf und sogar einmal sechs Fehler weniger.<br />
Untersuchung anderer Arten <strong>von</strong> Nebensätzen Um zu überprüfen, ob es sich mit<br />
anderen Nebensätzen auch anders als ursprünglich erwartet verhält, wurden die anderen<br />
Arten <strong>von</strong> Nebensätzen zusätzlich auf ihre Auswirkungen auf die Fehlerzahl untersucht.<br />
Der eher geringe Einfluss der Relativsätze auf die Übersetzbarkeit war so überraschend,<br />
dass Klarheit <strong>von</strong>nöten war, ob dies nur eine Ausnahme darstellt oder ob andere Arten<br />
<strong>von</strong> Nebensätzen vielleicht sogar noch weniger Einfluss auf die Übersetzbarkeit haben.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 3<br />
Mit Nebensätzen 859 320 0,1863<br />
Mit weniger Nebensätzen 839 320 0,1907<br />
Tabelle 5.3.: Andere Nebensätze und Fehlerhäufigkeit<br />
Dazu wurden wieder zwei Textkorpora gebildet, die allerdings diesmal kleiner ausfielen<br />
und jeweils 40 Sätze enthielten, weil aufgrund der zuvor begründeten Hypothese, dass<br />
Nebensätze im Allgemeinen sich ähnlich verhalten wie Relativsätze im Speziellen, trotz<br />
des unerwarteten Ergebnisses für Relativsätze kein in großem Maßstab anderes Resultat<br />
für andere Arten <strong>von</strong> Nebensätzen zu erwarten war. Im ersten Korpus besaßen alle Sätze<br />
mindestens einen Nebensatz, während sie im zweiten Korpus <strong>von</strong> mindestens einem Nebensatz<br />
befreit wurden. In vielen Fällen konnten auch sämtliche Nebensätze vermieden<br />
werden, ohne den Sinn des Satzes zu enstellen. Bei dieser Analyse der Übersetzungen<br />
fiel das Ergebnis allerdings genauso unerwartet wie bei den Relativsätzen aus. Die zentrale<br />
Kennziffer, die absolute Fehlerzahl, änderte sich nämlich überhaupt nicht; vielmehr<br />
wiesen beide Textkorpora 320 Fehler auf, die Veränderung ist somit 0, wie man Tabelle<br />
5.3 entnehmen kann. Lediglich die Fehlerzahl pro Wort nahm marginal zu, weil sich die<br />
Wortanzahl im bearbeiteten Textkorpus leicht verringert hatte.<br />
3 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
41
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Die Verteilung der Änderung der Fehlerzahl bei Entfernen <strong>von</strong> Nebensätzen sieht im Vergleich<br />
der Übersetzungen <strong>von</strong> Original und Bearbeitung sehr symmetrisch aus. Insgesamt<br />
wiesen 35 Übersetzungen nach der Bearbeitung der Originale keine Änderung der Fehlerzahl<br />
auf. Weitere 21 zeigten eine Zunahme, die restlichen 24 eine Abnahme der Fehlerzahl.<br />
Es scheint also tatsächlich so zu sein, dass Relativsätze schwieriger zu übersetzen sind als<br />
andere Nebensätze und dass diese anderen Nebensätze für die Qualität der Übersetzung<br />
eines deutschen Textes ins Englische keine Bedeutung haben.<br />
Abbildung 5.2.: Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen für<br />
die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />
2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
Erklärungsversuche Um die Relativsätze zu eliminieren, wurden in etlichen Fällen aus<br />
dem ursprünglichen Satz zwei Sätze gemacht, wobei einer dieser Sätze dem vormaligen<br />
Relativsatz entsprach. Dies erwies sich häufig als die sinnvollste Art der Umgestaltung, um<br />
die Aussage der Texte nicht zu verändern. Auffällig bei beiden zur Übersetzung benutzten<br />
Programmen war die oftmals unzureichende Erkennung <strong>von</strong> Referenzen zwischen Sätzen.<br />
Die folgenden Beispiele aus dem zweiten Textkorpus sollen dies demonstrieren. Die falsch<br />
übersetzten Referenzen sind fett markiert.<br />
• Satz 34:<br />
– Regentin wurde jedoch zunächst Iwans Schwester Sophia. Sie stützte ihre<br />
Macht wesentlich auf die Strelitzen.<br />
–<br />
• Satz 13:<br />
Übersetzung mit Babel Fish: Regentin became however first Iwans sister Sophia.<br />
It supported its power substantially by the Strelitzen.<br />
– Eine Sonderstellung nehmen die gelben Post-TGV ein. Sie sind ansonsten<br />
technisch mit den TGV PSE identisch.<br />
42
–<br />
5.1. Allgemeine Textmerkmale<br />
Übersetzung mit Personal Translator 2006: The yellow post TGV take a<br />
special position. You otherwise are technically identical with the TGV PSEs.<br />
Diese des öfteren wiederkehrenden Übersetzungsfehler lassen darauf schließen, dass beide<br />
Programme in aller Regel nur satzweise übersetzen und das passende Relativpronomen<br />
mehr oder weniger zufällig zuordnen, zumal es in beiden Beispielsätzen keine Möglichkeit<br />
gibt, die Referenz auf eine Sache (it) bzw. auf eine direkt angesprochene Person (you) zu<br />
beziehen.<br />
Für die anderen Arten <strong>von</strong> Nebensätzen lässt sich nur vermuten, dass die sehr strikte<br />
Kommasetzung im Deutschen, die dafür sorgt, dass Haupt- und Nebensätze explizit<br />
<strong>von</strong>einander abgetrennt werden, ausreicht, um durch die Satzstruktur verursachte Fehler<br />
weitgehend auszuschließen.<br />
5.1.3. Mehrdeutigkeit<br />
Wie bereits in Abschnitt 2.4.1 dargelegt, ist Mehrdeutigkeit eines der Hauptprobleme der<br />
derzeitigen Forschung auf dem Gebiet der MÜ-<strong>Systeme</strong>. Dementsprechend ist anzunehmen,<br />
dass Mehrdeutigkeiten sich deutlich negativ in der Übersetzungsqualität bemerkbar<br />
machen.<br />
Vorgehensweise<br />
Die Untersuchung konzentrierte sich auf lexikalische Mehrdeutigkeit, weil diese bei der<br />
Übersetzung <strong>von</strong> der deutschen in die englische Sprache wesentlich stärker zum Tragen<br />
kommt als strukturelle Mehrdeutigkeit, die bei der Übersetzung <strong>von</strong> Deutsch ins Englische<br />
in vielen Fällen kein Problem darstellt, weil die Satzstrukturen sehr ähnlich sind. Darüber<br />
hinaus ist es vielfach nur sehr aufwändig möglich, strukturelle Ambiguitäten zu entfernen,<br />
ohne den Satz allzu sehr zu verändern. So ließe sich in dem aus Abschnitt 2.4.1 bekannten<br />
strukturell mehrdeutigen Satz Die Spaziergänger beobachteten die Sternschnuppe mit<br />
ihrem Fernglas. die strukturell mehrdeutige Fügung mit ihrem Fernglas an eine andere<br />
Stelle des Satzes verschieben. Worauf sich das Possessivpronomen ihrem bezieht – auf die<br />
Spaziergänger oder die Sternschnuppe –, kann aber nicht eindeutig geklärt werden. Der<br />
lexikalisch mehrdeutige Satz 75 des unbearbeiteten Textkorpus (Dadurch gibt es mittlerweile<br />
eine große Auswahl an Sekten aller Qualitäten und Preisklassen.) hingegen kann<br />
eindeutig gemacht werden, indem man das mehrdeutige Verb geben durch existieren und<br />
das im Dativ Plural mehrdeutige Substantiv Sekt durch Schaumwein ersetzt.<br />
Insgesamt wurden aus Wikipedia 100 Sätze ausgewählt, die jeder mindestens ein Wort<br />
enthielten, das mehrere englische Übersetzungen mit unterschiedlichen Bedeutungen besitzt.<br />
Im zweiten Textkorpus wurden diese Wörter dann soweit möglich durch eindeutig<br />
übersetzbare Begriffe ersetzt. Nicht behandelt wurden dabei Präpositionen mit zum Teil<br />
sehr vielen Bedeutungen wie bei oder über, weil es kaum eine Möglichkeit gibt, sie durch<br />
synonyme, eindeutige Wörter oder Formulierungen zu ersetzen.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Wie Tabelle 5.4 zeigt, nahm bei etwa gleicher Wortzahl beider Korpora<br />
(2089 und 2099 Wörter) die Fehleranzahl in den Übersetzungen sowohl absolut als auch<br />
43
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
relativ zur Länge des Gesamttextes deutlich ab. Statt 879 Fehler wie im ersten übersetzen<br />
Textkorpus traten im <strong>von</strong> Mehrdeutigkeiten weitgehend befreiten zweiten Textkorpus nur<br />
noch 776 Fehler auf, also 103 weniger. Die Fehlerzahl pro Wort sank <strong>von</strong> 0, 2104 auf 0, 1848.<br />
Insgesamt scheint es sich also durchaus zu lohnen, beim Verfassen eines zu übersetzenden<br />
Textes auf mehrdeutige Worte soweit möglich zu verzichten.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 4<br />
Mit vielen Mehrdeutigkeiten 2089 879 0,2104<br />
Mit weniger Mehrdeutigkeiten 2099 776 0,1848<br />
Tabelle 5.4.: Mehrdeutigkeiten und Fehlerhäufigkeit<br />
Veränderungen der Fehlerzahl Abbildung 5.3 stellt die Verteilung der Veränderung<br />
der Fehlerzahlen bei der Gegenüberstellung der Übersetzungen der Originalsätze und<br />
der wesentlich weniger Mehrdeutigkeiten enthaltenden bearbeiteten Sätze für die beiden<br />
MÜ-Programme sowie im Gesamten dar. Durchschnittlich verlor ein Satz durch seine<br />
Bearbeitung 0, 52 Fehler.<br />
Ein Großteil der 200 Übersetzungen der bearbeiteten Sätze, insgesamt 92, zeigte keinerlei<br />
Verbesserung oder Verschlechterung. Nur 23 Übersetzungen wiesen mehr Fehler auf als<br />
vorher, nämlich 16-mal einen Fehler mehr, sechsmal zwei Fehler mehr und einmal sogar<br />
vier. Demgegenüber standen 85 Übersetzungen, die weniger Fehler lieferten, wo<strong>von</strong> 52<br />
einen und 25 zwei Fehler weniger aufwiesen. Eine starke Abnahme der Fehlerzahl zeigte<br />
sich bei je drei Übersetzungen mit drei und vier Fehlern weniger und bei zweien mit sogar<br />
sechs Fehlern weniger.<br />
Abbildung 5.3.: Absolute Veränderungen der Fehleranzahl bei Reduktion <strong>von</strong> Mehrdeutigkeiten<br />
für die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal<br />
Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
4 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
44
5.1. Allgemeine Textmerkmale<br />
5.1.4. Seltenheit <strong>von</strong> Wörtern<br />
Weil aufgrund der prinzipiell unbeschränkten Wortanzahl der deutschen Sprache nicht<br />
alle Wörter in den Lexika der Übersetzungsprogramme vorhanden sein können und eine<br />
Beschränkung auf die wichtigsten notwendig ist, ist zu vermuten, dass sehr seltene und<br />
somit wahrscheinlich in den Lexika der MÜ-<strong>Systeme</strong> fehlende Wörter die Übersetzungsqualität<br />
mindern, weil sie nicht übersetzt werden können oder Übersetzungen zufällig<br />
gewählt werden müssen.<br />
Es bot sich an, die Untersuchung der Seltenheit <strong>von</strong> Wörtern mit der Untersuchung der<br />
Auswirkungen <strong>von</strong> Komposita zu verbinden, weil komplexe Komposita in der Regel auch<br />
sehr selten sind. Überprüft man also die Auswirkungen sehr langer Komposita, ist dies<br />
zugleich auch eine Überprüfung seltener Wörter. Diese zusammengelegte Untersuchung<br />
wird in Abschnitt 5.2.3 dargelegt.<br />
Abbildung 5.4.: Zusammenhang zwischen Wortlänge und Worthäufigkeit<br />
Der Zusammenhang zwischen Wortlänge und Seltenheit wird in den Abbildungen 5.4 und<br />
5.5 dargestellt. Grundlage für diese Grafiken ist ein Textkorpus der Universität Leipzig<br />
mit insgesamt drei Millionen deutschen Sätzen 5 . Der verwendete und die anderen Korpora<br />
der Leipziger Universität im so genannten Projekt Deutscher Wortschatz führen für jedes<br />
Wort über seine Häufigkeit Buch, so dass über einfache Datenbankabfragen Statistiken<br />
zum Zusammenhang <strong>von</strong> Worthäufigkeit und Wortlänge erstellt werden können. Die rote<br />
Linie in der ersten Grafik zeigt, wie oft ein Wort einer bestimmten Länge durchschnittlich<br />
im gesamten Korpus mit drei Millionen Sätzen vorkommt. Die zweite Abbildung zeigt<br />
vergrößert dieselbe Linie, allerdings nur für Wortlängen <strong>von</strong> 30 bis 50 Zeichen. Da ausschließlich<br />
Komposita mit einer Mindestlänge <strong>von</strong> 30 Zeichen betrachtet wurden und diese<br />
nie häufiger als durchschnittlich zweimal in sämtlichen Sätzen auftreten, kann hier wohl<br />
<strong>von</strong> Seltenheit gesprochen werden.<br />
5 Projekt Deutscher Wortschatz, online erreichbar unter http://corpora.informatik.uni-leipzig.<br />
de, zuletzt besucht am 5. April 2007<br />
45
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
5.1.5. Elliptischer Schreibstil<br />
Was sind Ellipsen?<br />
Abbildung 5.5.: Häufigkeit sehr langer Wörter<br />
Als Ellipsen bezeichnet man in der Sprachwissenschaft Auslassungen <strong>von</strong> Worten oder<br />
ganzen Satzteilen in Sätzen. Sie können in verschiedensten Formen auftreten, wie die<br />
folgenden Beispiele zeigen:<br />
• Und dann? statt Und was geschah dann? → fehlendes Prädikat<br />
• Ich hätte gerne eine Krakauer! statt Ich hätte gerne eine Krakauer Bratwurst! →<br />
verkürzter Begriff<br />
• Flussarme fließen in südliche und westliche Richtung. statt Flussarme fließen in<br />
südliche Richtung und in westliche Richtung. → ausgelassene Wörter<br />
• Gas- und Ölförderung sind wichtige Industrien. statt Gasförderung und Ölförderung<br />
sind wichtige Industrien. → abgetrenntes Kompositionsglied, Bindestrich-Ellipse“<br />
”<br />
• Wenn München gewinnt oder Bremen verliert, ist Schalke Meister. statt Wenn<br />
München gewinnt oder wenn Bremen verliert, dann ist Schalke Meister. → nicht<br />
wiederholte Konjunktionen oder Präpositionen<br />
• In dieser Stadt gibt es u. a. eine Universität. statt In dieser Statt gibt es unter<br />
anderem eine Universität. → Abkürzung<br />
Bis auf die erste Variante kommen solche Ellipsen alle auch in geschriebenen Texten<br />
sehr häufig vor. Übersetzungsprogramme werden also vor die Schwierigkeit gestellt, die<br />
Auslassungen korrekt zu erkennen und in der englischen Übersetzung angemessen wiederzugeben.<br />
Da Ellipsen die Komplexität der Satzstruktur erhöhen, ist mit einem negativen<br />
Einfluss auf die Übersetzungsleistungen zu rechnen, wenn sie in einem Satz auftreten;<br />
nicht zuletzt deshalb grenzen Sprachen wie ACE und KCE derartigen Schreibstil strikt<br />
ein oder untersagen ihn (siehe Abschnitt 3.1).<br />
46
Vorgehensweise<br />
5.1. Allgemeine Textmerkmale<br />
Wieder wurden insgesamt 100 beliebige Sätze aus Wikipedia herangezogen, die eine oder<br />
mehrere Ellipsen aufwiesen, und mit Babel Fish und Personal Translator 2006 einzeln<br />
ins Englische übersetzt. Anschließend wurden die elliptischen Formulierungen so weit<br />
wie möglich entfernt, indem die fehlenden Wörter ergänzt wurden, und die neuen Sätze<br />
ebenfalls übersetzt.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Bei der Untersuchung stellte sich heraus, dass Ellipsen keinen oder nur<br />
sehr geringen Einfluss auf die Übersetzungsqualität haben (siehe Tabelle 5.5). Zwar ergibt<br />
sich eine Abnahme der durchschnittlichen Fehlerzahl pro Wort <strong>von</strong> 0, 2145 mit Ellipsen<br />
auf 0, 2001 ohne bzw. mit wesentlich weniger Ellipsen, jedoch muss die Veränderung dieser<br />
zentralen Kennzahl vor dem Hintergrund der durch die Ergänzungen <strong>von</strong> 2086 auf<br />
2224 gestiegenen Wortanzahl betrachtet werden. So sank die absolute Fehlerzahl nur um<br />
insgesamt 5, was bei 895 Fehlern im Korpus mit Ellipsen und 890 im bearbeiteten Korpus<br />
lediglich einer Abnahme <strong>von</strong> nur 0, 56 Prozent entspricht.<br />
Insgesamt spricht das Ergebnis also nicht dafür, sondern klar dagegen, dass sich durch<br />
den Verzicht auf Ellipsen im Allgemeinen bessere Resultate erzielen lassen, denn die beobachtete<br />
Größenordnung der Fehlerabnahme ist nichts, worauf man aufbauen sollte.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 6<br />
Mit Ellipsen 2086 895 0,2145<br />
Ohne Ellipsen 2224 890 0,2001<br />
Tabelle 5.5.: Ellipsen und Fehlerhäufigkeit<br />
Veränderungen der Fehlerzahl In Abbildung 5.6 ist die Veränderung der Fehlerzahl<br />
bei der Befreiung des Textkorpus <strong>von</strong> Ellipsen sowohl für Babel Fish als auch Personal<br />
Translator und insgesamt dargestellt. Pro Satz erbrachte die Bereinigung <strong>von</strong> Ellipsen also<br />
durchschnittlich 0, 03 Fehler weniger, was praktisch gesehen mit 0 gleichgesetzt werden<br />
kann.<br />
Bei insgesamt 75 der 200 Übersetzungen des bearbeiteten Textkorpus zeigte sich keinerlei<br />
Veränderung der Fehlerzahl, 48-mal nahm die Fehlerzahl um einen Fehler ab, elfmal um<br />
gleich zwei Fehler. Die stärksten Abnahmen sind sechsmal drei Fehler und zweimal vier<br />
Fehler. In Gegenrichtung zeigten 40 Sätze eine Zunahme um einen Fehler und neun eine<br />
Zunahme um zwei Fehler. Drei Sätze enthielten drei Fehler mehr, sechs Sätze sogar vier.<br />
Wie man aber sieht, waren die Veränderungen in der Regel eher gering.<br />
Sonderfall abgetrennte Kompositionsglieder Eine für die deutsche Sprache typische<br />
Form der Ellipse ist der Einsatz eines Bindestrichs, um Kompositionsglieder einzusparen,<br />
so etwa gleich doppelt in Zubehöran- und -verkauf (statt Zubehörankauf und Zubehörverkauf<br />
). Nach der allgemeinen Untersuchung auf Veränderungen der Fehlerzahl wurden die<br />
Textkorpora speziell auf die Veränderungen durch das Weglassen derartiger Ellipsen hin<br />
6 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
47
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Abbildung 5.6.: Absolute Veränderungen der Fehleranzahl beim Ausfüllen <strong>von</strong> Ellipsen für<br />
die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />
2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
überprüft, weil sie als besonders schwierig zu handhaben einzuschätzen war. Dabei wurde<br />
gezählt, wie viele Fehler direkt auf diese Form <strong>von</strong> Auslassungen zurückzuführen waren,<br />
wobei vorwiegend falsch gewählte Wörter berücksichtigt wurden, weil andere Fehler wie<br />
beispielsweise eine Verfälschung der Wortstellung im übersetzen Satz auch auf andere<br />
Änderungen am Ausgangssatz zurückzuführen sein könnten.<br />
(Fehler verteilt auf 61 Sätze) Fehler vorher Fehler nachher Veränderung<br />
Babel Fish 46 34 −12 ≡ −26, 09%<br />
Personal Translator 2006 39 28 −11 ≡ −28, 21%<br />
Gesamt 85 62 −23 ≡ −27, 06%<br />
Tabelle 5.6.: Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder<br />
Insgesamt traten in 61 der 100 Ausgangssätze derartige Ellipsen auf, die insgesamt 85<br />
Übersetzungsfehler verursachten (siehe Tabelle 5.6). Nach der Bearbeitung wurden nur<br />
noch 62 Fehler beobachtet, was einer Abnahme um 23 Fehler oder um 27, 06 Prozent<br />
entspricht.<br />
Allerdings ist die Auswirkung des Weglassens <strong>von</strong> abgetrennten Kompositionsgliedern<br />
wesentlich geringer, wenn man berücksichtigt, dass die 61 Sätze, in denen diese Ellipsen<br />
vorkamen, im ersten, unbearbeiteten Korpus insgesamt 532 Fehler aufwiesen. Dennoch<br />
verbleibt eine spürbare Reduktion der Gesamtfehlerzahl um 23 · 100 = 4, 32%. Es scheint<br />
532<br />
also sehr sinnvoll zu sein, auf diese spezielle Form der Ellipsen zu verzichten, um Fehler<br />
zu vermeiden.<br />
Erklärungsversuche Insgesamt sind die Fehlerzahlen pro Wort in beiden übersetzten<br />
Textkorpora relativ hoch. Und in der Tat werden durch Ellipsen erwartungsgemäß zahlreiche<br />
Fehler verursacht (allein 85 durch abgetrennte Kompositionsglieder, wie bereits<br />
48
5.2. Sprachspezifische Textmerkmale<br />
erläutert). Satz 20 des des ersten Korpus lautet beispielsweise:<br />
• Dies kann über Fest-, Mindest- oder Höchsttarife (price caps) erreicht werden, die<br />
absolute Grenzen setzen.<br />
Personal Translator 2006 übersetzt ihn folgendermaßen:<br />
• This can be reached about celebration, least or maximum rates (Price Cap) which<br />
put absolute limits.<br />
Man sieht, dass hier die Ellipsen bei Fest- und Mindest- fälschlicherweise mit celebration<br />
und least wiedergegeben werden. Aber auch über ist falsch, weil es in diesem Kontext auf<br />
die Frage nach dem Mittel antwortet und mit by oder through zu übersetzen wäre. Der<br />
bearbeitete Satz lautet nun:<br />
• Dies kann über Festtarife, über Mindesttarife oder über Höchsttarife (price caps)<br />
erreicht werden, die absolute Grenzen setzen.<br />
Er wird <strong>von</strong> Personal Translator 2006 wie folgt übersetzt:<br />
• This which absolute limits put can be reached about flat rates, about minimum rates<br />
or about maximum rates (Price Cap).<br />
Abgesehen <strong>von</strong> der nun völlig konfusen Wortstellung der Übersetzung, fällt auf, dass jetzt<br />
zwar die zuvor abgekürzten Begriffe richtig übersetzt wurden, aber nun insgesamt dreimal<br />
über falsch übersetzt wurde, so dass dafür drei Fehler angerechnet werden. Derartiges<br />
Verhalten kommt auch in zahlreichen anderen Sätzen des zweiten Korpus vor und sorgt<br />
dafür, dass auf solche und ähnliche Weise die Vorteile, die durch Auffüllen <strong>von</strong> Ellipsen<br />
gewonnen werden, gleich wieder verlorengehen.<br />
5.2. Sprachspezifische Textmerkmale<br />
In den folgenden vier Abschnitten werden die Auswirkungen des Auftretens einiger Merkmale,<br />
die typisch für die deutsche Sprache sind und häufig auftreten, mit Hinblick auf die<br />
Fehlerhäufigkeit untersucht. Dies sind im Einzelnen Verbklammern, Nominalklammern,<br />
Nominalkomposita und Inversionen der Wortstellung.<br />
5.2.1. Verbklammern<br />
Was sind Verbklammern?<br />
Für die deutsche Sprache typisch sind so genannte Verbklammern 7 , zweiteilige Prädikate<br />
aus einem finiten Verb und einer infiniten Ergänzung, die über große Teile eines Satzes<br />
verteilt sind. Sie treten im wesentlichen in drei Varianten auf:<br />
1. Finites Hilfsverb + Partizip Perfekt oder Infinitiv<br />
2. Finites Modalverb + Infitiv<br />
7 Auch als Verbalklammern oder Satzklammern bezeichnet; der Begriff Satzklammer erscheint allerdings<br />
zu ungenau, weil eine lange Nominalklammer ebenfalls einen Großteil des Satzes einklammern kann.<br />
49
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
3. Finites Verb + Präfix<br />
Als Beispiel wird im folgenden das Verb kaufen betrachtet. Die erste Variante tritt im<br />
Passiv oder bei Benutzung der Tempora Futur I und II, Perfekt und Plusquamperfekt ein,<br />
in denen die Hilfsverben sein, haben und/oder werden zusammen mit dem ursprünglichen<br />
Verb benutzt werden, um das Prädikat darzustellen. Dabei steht das finite Verb dieser<br />
Konstruktion im Deutschen normalerweise an zweiter Stelle und die anderen Bestandteile<br />
am Ende des Satzes. So etwa in Peter hatte gestern vormittag auf dem Markt Butter<br />
gekauft. Das Plusquamperfekt wird hier durch die finite Präteritumsform hatte an zweiter<br />
Stelle und das Partizip Perfekt gekauft ausgedrückt. Anders in Bis morgen abend wird<br />
Peter auch noch Nudeln gekauft haben., wo das Futur II durch das finite Präsens <strong>von</strong><br />
werden und den Infinitv Perfekt <strong>von</strong> kaufen bezeichnet wird.<br />
Die zweite Variante tritt oftmals bei der Beschreibung <strong>von</strong> Möglichkeiten, Notwendigkeiten,<br />
Hoffnungen oder Wünschen ein. Ein Beispiel hierfür ist der Satz Außerdem muss<br />
Peter noch viele andere Dinge kaufen. Die Notwendigkeit wird hier über die finite Form<br />
des Modalverbs müssen mit dem ans Ende gestellten Infinitiv <strong>von</strong> kaufen dargestellt.<br />
Hierbei handelt es sich nicht um einen erweiterten Infinitiv, der <strong>von</strong> Übersetzungsprogrammen<br />
in den meisten Fällen über ein abgrenzendes Komma erkannt werden kann und<br />
keine Verbklammer ist (vgl. den Satz Um Geld zu sparen, stahl er die Nudeln.).<br />
Die dritte Variante schließlich tritt immer dann auf, wenn das Verb an sich bereits ein<br />
Kompositum aus einem Präfix und einem anderen Verb ist und im Satz eine Verbform ohne<br />
Hilfsverben und Partizipien verwendet wird, was in den Tempora Präsens und Präteritum<br />
der Fall ist. Das Verb einkaufen ist beispielsweise ein Kompositum aus dem Verb kaufen<br />
und dem Präfix ein. Ein Beispiel für eine derartige Verbklammer liefert der Satz Mit dem<br />
gesparten Geld kaufte Peter Kartoffeln ein.<br />
Die Verbklammer kann als sprachspezifisches Textmerkmal betrachtet werden, weil sie<br />
in vielen anderen Sprachen unbekannt ist oder nur in geringerem Umfang zum Tragen<br />
kommt. Als Beispiele dienen hierzu die Wortstellungen im Englischen und Spanischen.<br />
Der Satz Peter hat ein Buch gekauft. lautet dort Peter has bought a book. 8 bzw. Peter ha<br />
comprado un libro., wobei die Prädikate has bought und ha comprado eine untrennbare<br />
Einheit darstellen.<br />
Die besondere Schwierigkeit für ein Übersetzungsprogramm besteht nun darin, nach dem<br />
finiten Verb den zweiten Teil der Verbklammer korrekt zu erkennen und richtig zuzuordnen,<br />
da das Programm bei deutschen Texten wegen des langen Mittelfeldes dazwischen<br />
nicht wissen kann, wann dieser Teil beginnt. Aufgrund dieser Ungewissheit ist zu erwarten,<br />
dass ein Satz mit einer oder mehreren Verbklammern tendenziell auch mehr Fehler<br />
bei der automatischen Übersetzung hervorrufen wird.<br />
Vorgehensweise<br />
Die obige Vermutung wurde wieder an einem Textkorpus <strong>von</strong> 100 aus Wikipedia entnommenen<br />
Sätzen, die jeder mindestens eine Verbklammer mit fünf oder mehr Worten<br />
zwischen ihren beiden Bestandteilen enthielten, überprüft. Als zweites Korpus wurden<br />
dieselben Sätze verwendet, die jedoch zuvor <strong>von</strong> der Verbklammer befreit worden waren.<br />
Sofern dies nicht gänzlich möglich war, wurde wenigstens die Länge der Klammer<br />
8 Der Satz Peter has a book bought. ist zwar auch korrekt, bedeutet aber, dass Peter ein Buch kaufen<br />
lässt.<br />
50
5.2. Sprachspezifische Textmerkmale<br />
deutlich verringert. Dabei wurde stets versucht, den Satz insgesamt so wenig wie möglich<br />
zu verändern, um nur die Auswirkungen der Verbklammern auf die Fehlerhäufigkeit zu<br />
eliminieren.<br />
In der Regel wurden die Sätze geändert, indem der Autor ein bedeutungsgleiches Verb,<br />
das kein Kompositum ist, oder eine andere, nicht zusammengesetzte Verbform anstelle<br />
des ursprünglichen Verbs einsetzte, indem er die Wortstellung veränderte oder indem<br />
die Tempora sinnerhaltend geändert wurden. Die folgenden Beispiele aus dem Korpus<br />
illustrieren dies:<br />
• Satz 8<br />
• Satz 62<br />
– Mit Verbklammer: Bei seinen Auftritten außerhalb der Kaserne wurde Leutnant<br />
Forstner vor allem <strong>von</strong> jugendlichen Demonstranten wiederholt verhöhnt<br />
und beschimpft.<br />
– Ohne Verbklammer: Bei seinen Auftritten außerhalb der Kaserne verhöhnten<br />
und beschimpften vor allem jugendliche Demonstranten Leutnant Forstner wiederholt.<br />
– Mit Verbklammer: Heute setzen sich die Kirchen gemeinsam mit Menschenrechtsgruppen<br />
für ihre weltweite Abschaffung ein.<br />
– Ohne Verbklammer: Heute bemühen sich die Kirchen gemeinsam mit Menschenrechtsgruppen<br />
um ihre weltweite Abschaffung.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Das Ergebnis der Fehleranalyse beider übersetzter Textkorpora ist in<br />
Tabelle 5.7 zu sehen.<br />
Das Textkorpus mit Verbklammern wies bei 2264 Wörtern insgesamt 939 Fehler aus, was<br />
einer durchschnittlichen Rate <strong>von</strong> 0, 2074 Fehlern pro Wort entspricht. Nach der Entfernung<br />
der Verbklammern sank die Wortanzahl auf 2237, die Fehleranzahl auf 849 und<br />
somit die Fehlerzahl pro Wort auf 0, 1898. Es stellte sich also wie erwartet insbesondere<br />
eine Abnahme der absoluten Fehlerzahl um 9, 58 Prozent ein, aber auch eine Abnahme<br />
der relativen Fehlerzahl um 8, 49 Prozent. Somit kann festgehalten werden, dass die Anwesenheit<br />
einer Verbklammer sich merklich negativ auf die Übersetzbarkeit eines Satzes<br />
durch Programme auswirkt.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 9<br />
Mit Verbklammer 2264 939 0,2074<br />
Ohne/Stark verkürzte Verbklammer 2237 849 0,1898<br />
Tabelle 5.7.: Verbklammern und Fehlerhäufigkeit<br />
Veränderungen der Fehlerzahl In Abbildung 5.7 ist an den drei Kurven zu sehen, wie<br />
die absoluten Veränderungen der Fehlerzahl über die 200 Vergleiche zwischen Übersetzung<br />
9 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
51
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
<strong>von</strong> Original und Bearbeitung verteilt sind. Durchschnittlich verlor ein Satz nach dem<br />
Umschreiben 0, 45 Fehler. Der Bereich, in den die Ergebnisse fielen, ist mit +5 bis −8<br />
Fehlern recht breit.<br />
Dabei wiesen <strong>von</strong> den insgesamt 200 Übersetzungen des bearbeiteten Korpus ohne Verbklammern<br />
im Vergleich zu denen mit Verbklammern insgesamt 85 eine Abnahme der<br />
Fehlerzahl <strong>von</strong> bis zu acht Fehlern auf. Allein 42-mal gab es einen Fehler weniger, 24-<br />
mal gleich zwei Fehler und zehnmal drei Fehler weniger. Drei-, fünf- und einmal ergaben<br />
sich sogar vier, fünf und acht Fehler weniger. In weiteren 69 Übersetzungen blieb die<br />
Fehleranzahl gleich. Die restlichen 46 Übersetzungen zeigten eine Zunahme um bis zu<br />
fünf Fehler, wobei 26-mal ein Fehler hinzukam, 14-mal zwei, dreimal drei und zweimal<br />
gleich fünf sowie einmal gleich sechs Fehler.<br />
Abbildung 5.7.: Absolute Veränderungen der Fehleranzahl ohne Verbklammern für die<br />
einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />
2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
5.2.2. Nominalklammern<br />
Was sind Nominalklammern?<br />
Ein weiteres häufig in der deutschen Sprache (und auch in anderen germanischen Sprachen,<br />
etwa dem Niederländischen) anzutreffendes Phänomen ist die Nominalklammer 10 .<br />
Sie ist eine spezielle Form der Nominalphrase und tritt immer dann auf, wenn innerhalb<br />
einer Nominalphrase weitere Nominalphrasen vor ihrem Nomen stehen und eine<br />
verschachtelte Struktur entsteht wie in der für das im Sommer geöffnete Bad zuständige<br />
Bademeister. Die Nominalklammer ist dadurch bedingt, dass oftmals alle Attribute<br />
10 Der Begriff Nominalklammer wird gelegentlich auch für Nominalphrasen verwendet oder teilweise,<br />
sobald überhaupt ein Attribut zwischen Artikel und Nomen steht. In dieser Arbeit jedoch beschränkt<br />
sich der Begriff ausschließlich auf den Fall, dass innerhalb einer Nominalphrase mindestens eine weitere<br />
Nominalphrase als Attribut vor dem Nomen (Kopf) der erstgenannten Nominalphrase steht. Somit<br />
wird dann die innere <strong>von</strong> der umgebenden Nominalphrase geklammert.<br />
52
5.2. Sprachspezifische Textmerkmale<br />
vor das zugehörige Nomen gestellt werden, sogar wenn es sich dabei um sehr komplexe<br />
Ausdrücke handelt. Keine Nominalklammer liegt dagegen vor, wenn nur ein oder mehrere<br />
Adjektive zur näheren Beschreibung des Substantivs eingesetzt werden. Im Englischen<br />
dagegen pflegt man komplexere Attribute hinter das zugehörige Subjekt zu stellen oder<br />
in Nebensätze auszulagern. In romanischen Sprachen stehen meist alle Attribute hinter<br />
dem Bezugswort.<br />
Ein weiteres Beispiel für eine Nominalklammer ist der deutsche Satz Magrit gefiel das<br />
ihr <strong>von</strong> Peter geschenkte Buch nicht. Zwischen Artikel und Substantiv steht zur näheren<br />
Bestimmung des adjektivisch gebrauchten Partizips geschenkt noch das feminine Personalpronomen<br />
sie im Dativ und eine Präpositionalphrase. Im Englischen oder auch in<br />
romanischen Sprachen ist diese Wortstellung nicht möglich. Korrekt übersetzt lautet der<br />
Satz auf Englisch Magrit didn’t like the book given to her by Peter. Auf Spanisch könnte<br />
man sagen A Magrit no le gustó el libro regalado a ella de Peter. In beiden Fällen rückt<br />
das Partizip mitsamt näherer Bestimmung hinter das Substantiv und belässt es damit bei<br />
einer einfacheren, weniger komplexen syntaktischen Struktur.<br />
Die Schwierigkeit bei der maschinellen Übersetzung besteht nun darin, alle im deutschen<br />
Ausgangstext zusammengehörigen Artikel, Adjektive und Substantive, die über große Teile<br />
eines Satze verstreut sein können, und ebenso die weiteren Angaben zur näheren Bestimmung<br />
korrekt zu identifizieren und sie in eine in der Zielsprache akzeptable Wortstellung<br />
unter Wahrung der Bedeutung zu transferieren. Dies ist insofern schwieriger als der Umgang<br />
mit einer Verbklammer (siehe Abschnitt 5.2.1), als es dort nur zwei Teile eines Verbs<br />
gibt, nämlich die finite Verbform und die restlichen, aufeinanderfolgenden Bestandteile des<br />
Prädikats. In jedem Fall ist also mit einer Verschlechterung der Übersetzungsqualität zu<br />
rechnen, wenn eine oder mehrere Nominalklammern auftreten.<br />
Vorgehensweise<br />
Für die Untersuchung dieses Zusammenhangs wurden 100 Sätze aus der deutschsprachigen<br />
Wikipedia herausgesucht, die entweder eine Nominalklammer aufwiesen oder so<br />
konstruiert waren, dass man leicht eine Nominalklammer im Satz bilden konnte, ohne die<br />
Bedeutung des Satzes zu verändern. So wurden jeweils 100 Sätze mit und ohne Nominalklammern<br />
in zwei Korpora erstellt und deren Übersetzungen auf Fehler untersucht. Dabei<br />
wurde in vielen Sätzen ein Abstand <strong>von</strong> zehn oder mehr Wörtern zwischen erstem und<br />
letztem Element der Nominalklammer eingehalten.<br />
Die Entfernung <strong>von</strong> Nominalklammern erfolgte in der Regel, indem die bisher vorangestellten<br />
Attribute in einen Nebensatz oder in einen eigenständigen zweiten Satz ausgelagert<br />
wurden. Sofern ein Satz im Original keine Nominalklammer aufwies, wurde umgekehrt<br />
verfahren. Zur Verdeutlichung des Entfernens <strong>von</strong> Nominalklammern ein Beispiel:<br />
• Satz 89<br />
– Mit Nominalklammer: 1998 waren die zuvor schon aus den anderen ostdeutschen<br />
Landesparlamenten gefallenen Grünen auch in Sachsen-Anhalt<br />
an der Fünf-Prozent-Hürde gescheitert.<br />
– Ohne Nominalklammer: 1998 waren die Grünen auch in Sachsen-Anhalt an<br />
der Fünf-Prozent-Hürde gescheitert, nachdem sie schon vorher aus den<br />
anderen ostdeutschen Landesparlamenten gefallen waren.<br />
53
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Die Auswertung der Übersetzungen zeigte eine deutliche Fehlerabnahme<br />
beim Verzicht auf Nominalklammern. Zwar waren die Sätze mit Nominalklammern<br />
in der Regel geringfügig kürzer (insgesamt 2155 statt 2294 Wörter), wiesen aber insgesamt<br />
eine deutlich höhere Fehlerzahl pro Wort auf, nämlich 0, 2183, was 941 Fehlern im<br />
Textkorpus entspricht. Demgegenüber wurden im Textkorpus ohne Nominalklammern nur<br />
815 Fehler entdeckt, was gleichbedeutend ist mit 0, 1776 Fehlern pro Wort. Es wurde also<br />
eine Abnahme der absoluten Fehlerzahl um 13, 39 Prozent festgestellt und die eingangs<br />
gestellte Hypothese damit bestätigt: Nominalklammern wirken sich deutlich negativ auf<br />
die maschinelle Übersetzbarkeit eines Satzes aus (vgl. dazu auch Tabelle 5.8).<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 11<br />
Mit Nominalklammer 2155 941 0,2183<br />
Ohne Nominalklammer 2294 815 0,1776<br />
Tabelle 5.8.: Nominalklammern und Fehlerhäufigkeit<br />
Abbildung 5.8.: Absolute Veränderungen der Fehleranzahl ohne Nominalklammern für die<br />
einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator<br />
2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
Veränderungen der Fehlerzahl Abbildung 5.8 zeigt die drei Kurven, die angeben, wie<br />
sich die Fehlerzahl nach Bearbeitung der Originalsätze verändert hat, für Babel Fish<br />
und Personal Translator sowie aggregiert. Durchschnittlich verlor ein Satz nach dem<br />
Umschreiben 0, 63 Fehler.<br />
Von den insgesamt 200 Übersetzungen der bearbeiteten Sätze wiesen nur 64 dieselbe<br />
Anzahl Fehler auf wie die Originale. 97 Übersetzungen erzielten weniger Fehler, da<strong>von</strong><br />
11 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
54
5.2. Sprachspezifische Textmerkmale<br />
45 einen, 26 zwei und 15 drei Fehler weniger als die Version mit Nominalklammer. Elf<br />
Übersetzungen wiesen extreme Abnahmen der Fehlerzahl auf, nämlich achtmal vier Fehler<br />
und dreimal sogar fünf Fehler weniger. Im Gegenzug gab es noch 39 Übersetzungen mit<br />
teilweise deutlich mehr Fehlern. Um einen Fehler legten 21 Übersetzungen im Vergleich zu<br />
den entsprechenden Versionen mit Nominalklammern zu, 14-mal um zwei Fehler. Dreimal<br />
traten drei Fehler mehr auf und einmal sogar fünf Fehler.<br />
5.2.3. Nominalkomposita<br />
Typisch für die deutsche Sprache sind Nominalkomposita, wie bereits in Abschnitt 2.4.2<br />
vorgestellt. Sie treten auch in einigen weiteren germanischen Sprachen auf, sind aber<br />
in slawischen oder romanischen Sprachen unbekannt. Wegen der unbegrenzten Wortbildungsmöglichkeiten<br />
können viele Zusammensetzungen nicht im Lexikon eines MÜ-<br />
Programms stehen. Die Wörter müssen als Komposita erkannt, korrekt zerlegt und richtig<br />
auf Wörter oder ganze Satzteile der Zielsprache übersetzt werden. Daraus lässt sich<br />
folgern, dass gerade längere Komposita die Fehlerhäufigkeit bei Übersetzungen deutlich<br />
erhöhen.<br />
Vorgehensweise<br />
Es galt sicherzustellen, dass die ausgewählten Wörter aller Voraussicht nach eine Hürde für<br />
die MÜ-Programme darstellen. Dazu wurde das bereits in 5.1.4 erwähnte Textkorpus der<br />
Universität Leipzig mit drei Millionen deutschsprachigen Sätzen benutzt. Aus dem Korpus<br />
wurden insgesamt 100 äußerst seltene Wörter mit mindestens 30 Zeichen ausgewählt, die<br />
bis auf wenige Ausnahmen allesamt im gesamten Korpus nur einmal vorkamen. Zu jedem<br />
Wort wurde über Internetsuchmaschinen ein Satz herausgesucht, in dem es vorkam. Die<br />
Seltenheit der gewählten Nominalkomposita zeigte sich beim Aussuchen der 100 Wörter<br />
darin, dass selbst Google zu etlichen Begriffen keine Einträge finden konnte. Texte aus<br />
Wikipedia konnten nicht genommen werden, weil die entsprechenden Begriffe hier fast gar<br />
nicht zu finden waren.<br />
Zur Überprüfung der Auswirkungen <strong>von</strong> Nominalkomposita wurden wie üblich zwei Textkorpora<br />
benutzt. Im ersten befanden sich 100 Sätze mit mindestens einem solchen Kompositum,<br />
im zweiten Korpus wurden alle größeren Komposita durch andere, sinnwahrende<br />
Konstruktionen ersetzt, sofern sie nicht ausschließlich oder überwiegend in dieser Form in<br />
der Alltags- und Schriftsprache verwendet werden. Ein Beispiel (Satz 73 der Korpora):<br />
• Original: Die Stabhochsprungvizeweltmeisterin oder das Fußballweltmeisterschaftsachtelfinalspiel<br />
kommen sehr gut ohne Bindestriche aus.<br />
• Bearbeitet: Die Vizeweltmeisterin im Stabhochsprung oder das Achtelfinalspiel der<br />
Weltmeisterschaft im Fußball kommen sehr gut ohne Bindestriche aus.<br />
Wie man sieht, sind auch im bearbeiteten Satz noch Komposita vorhanden, die jedoch<br />
im Gegensatz zu den beiden Wörtern Stabhochsprungvizeweltmeisterin und Fußballweltmeisterschaftsachtelfinalspiel<br />
alltäglich sind und in gängigen Wörterbüchern stehen, so<br />
dass <strong>von</strong> ihnen keine Auswirkungen auf die Übersetzungsqualität zu erwarten ist. Niemand<br />
würde außerdem statt Bindestriche die Form Striche der Bindung oder statt Stabhochsprung<br />
Hoher Sprung mit einem Stab benutzen – eine derart feingranulare Zerlegung<br />
dürfte sogar tendenziell für mehr Fehler sorgen.<br />
55
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Das Ergebnis war überaus unerwartet, wie Tabelle 5.9 zeigt: Zwar sank<br />
die Fehlerhäufigkeit <strong>von</strong> der Übersetzung des originalen zu der des bearbeiteten Textkorpus<br />
<strong>von</strong> 0, 2180 Fehlern pro Wort auf nur noch 0, 1913, allerdings bei stark erhöhter<br />
Wortzahl (statt 1908 nun 2404). Absolut gesehen nahm die Fehlerzahl aber <strong>von</strong> 832 auf<br />
920 zu, das heißt, durch das Umformulieren komplizierter Komposita sind 88 Fehler hinzugekommen.<br />
Dies entspricht einer Zunahme <strong>von</strong> 10, 58 Prozent.<br />
Trotz der Seltenheit und Komplexität (minimal 30 Zeichen) der ausgewählten Komposita<br />
nützt es also nichts, auf sie zu verzichten. Eine derartige Überarbeitung eines Textes<br />
erhöht den Nachbearbeitungsaufwand sogar noch und ist daher kontraproduktiv.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 12<br />
Original 1908 832 0,2180<br />
Bearbeitet 2404 920 0,1913<br />
Tabelle 5.9.: Nominalkomposita und Fehlerhäufigkeit<br />
Veränderungen der Fehlerzahl Wie sich die Fehlerzahl verändert, wenn man Zahl und<br />
Komplexität der Nominalkomposita reduziert, zeigt Abbildung 5.9. Die grüne Linie steht<br />
dabei für die Ergebnisse mit Babel Fish, die blaue für Personal Translator 2006 und die<br />
rote für das aggregierte Gesamtergebnis. Die durchschnittliche Änderung der Fehlerzahl<br />
beträgt 0, 44 Fehler pro Satz, jeder bearbeitete Satz weist also im Durchschnitt 0, 44 Fehler<br />
mehr auf als das Original.<br />
Von den insgesamt 200 Übersetzungen des zweiten Korpus zeigten 71 keine Veränderung<br />
der Fehlerzahl gegenüber dem Original. Bei 39 Übersetzungen kam es zu einer Abnahme<br />
der Fehlerzahl, da<strong>von</strong> 27-mal um einen Fehler, fünfmal zum zwei Fehler, sechsmal um drei<br />
Fehler und einmal um fünf Fehler. Die restlichen 90 Übersetzungen der bearbeiteten Sätze<br />
lieferten schlechtere Ergebnisse als die Originale, wo<strong>von</strong> 55 um einen Fehler zulegten, 19<br />
um zwei Fehler, elf um drei Fehler. Immerhin drei Sätze enthielten nach der Bearbeitung<br />
sogar vier Fehler mehr und zwei sogar fünf Fehler.<br />
Erklärungsversuche Die Zunahme der Fehlerzahl bei den Übersetzungen des bearbeiteten<br />
Textkorpus war das überraschendste Ergebnis der gesamten Testreihen. Es scheint<br />
in der Tat, als hätten beide Programme gelernt, mit derartigen Wörtern umzugehen.<br />
Verweigerte Übersetzungen <strong>von</strong> Komposita kamen nur in den seltensten Fällen vor.<br />
Vielfach war statt dessen zu beobachten, dass beide Programme unbekannte Wörter korrekt<br />
in ihre Bestandteile zerlegten und diese dann einfach übersetzten, manchmal mit<br />
weniger Erfolg, manchmal mit mehr Erfolg, wobei Personal Translator 2006 alles in allem<br />
weniger Probleme zu haben schien als Babel Fish. Personal Translator 2006 etwa<br />
übersetzte Stabhochsprungvizeweltmeisterin korrekt mit pole vault vice-world champion,<br />
während Babel Fish mit staff high jump vice-world champion zwar eine äußerst wörtliche,<br />
jedoch auch äußerst falsche Übersetzung präsentierte. Und ein Steuerberater bleibt auf<br />
Englisch immer noch ein tax advisor, auch wenn beide MÜ-<strong>Systeme</strong> tax counsel oder tax<br />
consultant vorschlugen.<br />
12 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
56
5.2. Sprachspezifische Textmerkmale<br />
Abbildung 5.9.: Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl <strong>von</strong> Nominalkomposita<br />
für die einzelnen Übersetzungsprogramme (Babel Fish<br />
grün, Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
Die zerlegten Komposita hätten zwar theoretisch einfacher zu übersetzen sein müssen,<br />
warfen jedoch neue Probleme auf, insbesondere durch den nun zunehmenden Einsatz <strong>von</strong><br />
Präpositionen, die sich an vielen Stellen im Deutschen nicht vermeiden lassen. Aber gerade<br />
sie wurden <strong>von</strong> beiden Programmen oftmals falsch übersetzt. Ein Beispiel: Statt<br />
Behindertengleichstellungsgesetz kann man ebenfalls Gesetz zur Gleichstellung Behinderter<br />
formulieren. Die Präposition zu kann im Deutschen lokalen Sinn haben (Ich gehe zur<br />
Schule.), aber auch finalen Sinn wie bei dem Gesetzesnamen. Im Englischen muss nun in<br />
aller Regel differenziert übersetzt werden, nämlich im ersten Fall mit to, im zweiten mit<br />
for. Personal Translator 2006 übersetzte aber nahezu jedesmal, wenn zu einen finalen<br />
Sinn hatte, mit to und verursachte dadurch regelmäßig neue Fehler.<br />
Dies erwies sich aber nicht als einzige neue Fehlerquelle. Oft kam es vor, dass die verschiedenen<br />
Teile der zerlegten Komposita nicht mehr wie im deutschen Satz in korrekter<br />
Reihenfolge zusammenstanden, sondern kreuz und quer über den übersetzten Satz verstreut<br />
waren. Auf derartigen Wegen kamen letztlich mehr Fehler zustande als bei der<br />
schlichten wörtlichen Übersetzung der den Programmen unbekannten Komposita.<br />
Das überraschende Ergebnis soll allerdings keinen Freibrief darstellen, jetzt massenhaft<br />
Komposita in allen möglichen Texten unterzubringen, zumal dies der Verständlichkeit für<br />
die Leserschaft abträglich wäre. Es darf lediglich dahingehend verstanden werden, dass<br />
es kontraproduktiv ist, selbst längere Komposita systematisch zu entfernen, noch dazu<br />
solche, die ohnehin gebräuchlich sind.<br />
Da<strong>von</strong> abgesehen gilt aber: Wenn man Übersetzungsprogramme mit allzu wüsten Wortschöpfungen<br />
konfrontiert, wird die Arbeit schlichtweg verweigert. Das Wort Donaudampfschifffahrtsgesellschaftskapitänsmützenherstellungsstandortverlagerungsbeschluss<br />
konnte keines der Programme mehr übersetzen.<br />
57
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
5.2.4. Inversion der Wortstellung<br />
Was ist eine Inversion der Wortstellung?<br />
Die deutsche Sprache verfügt nicht zuletzt dank ihrer noch recht ausgeprägten Flexion<br />
über eine recht variable Wortstellung. Dennoch gibt es im normalen Sprachgebrauch<br />
für Haupt-, Neben- und Fragesätze/Anweisungen sowie Infinitivkonstruktionen eine Art<br />
Standardwortstellung, nämlich<br />
• Subjekt - Prädikat - Objekt bei Hauptsätzen,<br />
• Subjekt - Objekt - Prädikat bei Nebensätzen und<br />
• Prädikat - Subjekt - Objekt bei Fragen und Anweisungen und<br />
• Objekt - Infinitiv bei erweiterten Infinitiven<br />
Es gibt aber viele Fälle – gerade in Haupt- und Fragesätzen –, in denen <strong>von</strong> dieser Konvention<br />
abgewichen wird, um einen bestimmten Sachverhalt oder Zustand zu betonen.<br />
Beispiele hierfür sind:<br />
• Die Hausaufgaben hat er schon gemacht? statt Hat er die Hausaufgaben schon gemacht?<br />
• Den Hund verjagte die Katze. statt Die Katze verjagte den Hund.<br />
• Pünktlich kam der Zug an. statt Der Zug kam pünktlich an.<br />
Diese Veränderung der Wortstellung, oft als Inversion bezeichnet, weil z. B. Subjekt und<br />
Objekt die Positionen tauschen oder weil das Subjekt im Hauptsatz hinter das finite<br />
Verb rückt, erfordert <strong>von</strong> den Übersetzungsprogrammen, dass sie in der Lage sind, sie<br />
zu erkennen und dementsprechend <strong>von</strong> ihrem Standardübersetzungsschema abzuweichen,<br />
zumal sich derartige Wortstellungen nicht originalgetreu im Englischen nachbilden lassen.<br />
Dies wird insbesondere dann problematisch, wenn, anders als in den obigen Beispielen,<br />
nicht eindeutig erkennbar ist, was Subjekt und Objekt ist. Im ersten Satz etwa könnte<br />
Die Hausaufgaben zwar auch im Nominativ stehen und damit das Subjekt sein, jedoch<br />
passte dann das finite Verb hat, das eindeutig in der 3. Person Singular steht, nicht dazu.<br />
Im zweiten Satz ist Den Hund wegen des Artikels klar als Akkusativ Singular und somit<br />
als direktes Objekt zu identifizieren, so dass nur die Katze als Subjekt verbleibt. Dagegen<br />
ist in den Sätzen<br />
• Gute Leistungen haben die Oldenburger Schützenvereine gezeigt.<br />
• Ihre neuen Autos verkauften sie schon bald wieder.<br />
allein auf Grundlage der Grammatikregeln der deutschen Sprache keine eindeutige Identifizierung<br />
<strong>von</strong> Subjekt und Objekt möglich. Es muss im Kontext etwa bekannt sein, dass<br />
Autos nichts verkaufen können. Aufgrund solcher Schwierigkeiten ist bei einer Inversion<br />
der Wortstellung mit einer signifikanten Zunahme der absoluten Fehlerzahl bei der Übersetzung<br />
zu rechnen.<br />
58
5.2. Sprachspezifische Textmerkmale<br />
Vorgehensweise<br />
Dem in Abschnitt 4.2 definierten Standard entsprechend, wurden 100 Sätze aus der<br />
deutschsprachigen Wikipedia zufällig ausgesucht, die mindestens eine Abweichung <strong>von</strong><br />
der Standardwortstellung enthielten, und übersetzt. Im zweiten Textkorpus wurden die<br />
abweichenden Wortstellungen dann dem Standard angeglichen und die so entstandenen<br />
100 neuen Sätze ebenfalls übersetzt. Zwar änderte sich dadurch die Betonung der einzelnen<br />
Satzelemente, der Inhalt blieb jedoch stets derselbe.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Die Untersuchung lieferte das erwartete Ergebnis (siehe Tabelle 5.10):<br />
Das Textkorpus mit den Inversionen wies bei 2147 Wörtern insgesamt 802 Übersetzungsfehler<br />
auf, was einer Fehlerzahl pro Wort <strong>von</strong> 0, 1868 entspricht. Demgegenüber sank die<br />
absolute Fehlerzahl der Übersetzungen im bearbeiteten, <strong>von</strong> Inversionen befreiten Textkorpus<br />
auf nur noch 724 Fehler bei 2152 Wörtern. Dies entspricht 0, 1682 Fehlern pro<br />
Wort.<br />
Die Abnahme der absoluten Fehlerzahl beträgt also beim Verzicht auf Inversionen der<br />
Worstellung 78 Fehler oder 9, 73 Prozent. Die Abnahme der Fehlerzahl pro Wort ist mit<br />
9, 96 Prozent noch etwas größer. Es lässt sich also festhalten, dass man die Übersetzungsqualität<br />
deutlich verbessern kann, indem man die Standardwortstellung verwendet.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 13<br />
Mit Inversionen 2147 802 0,1868<br />
Ohne Inversionen 2152 724 0,1682<br />
Tabelle 5.10.: Inversionen und Fehlerhäufigkeit<br />
Veränderungen der Fehlerzahl In Abbildung 5.10 ist die Veränderung der Fehlerzahl<br />
bei der Befreiung des Textkorpus <strong>von</strong> Inversionen der Wortstellung sowohl für Babel Fish<br />
als auch Personal Translator und insgesamt dargestellt. Die durchschnittliche Änderung<br />
der Fehlerzahl beträgt −0, 39 Fehler pro Satz, auf jeweils 2, 5 Sätze entfällt also im Schnitt<br />
ein Fehler.<br />
In insgesamt 116 <strong>von</strong> 200 Übersetzungen der bearbeiteten Sätze änderte sich die Fehlerzahl<br />
nicht. 22-mal ergibt sich eine Erhöhung der Fehlerzahl um einen Fehler, lediglich zweimal<br />
kam es zu zwei zusätzlichen Fehlern. Demgegenüber gab es wesentlich mehr Sätze, die eine<br />
verminderte Fehlerzahl aufwiesen, nämlich insgesamt 60, da<strong>von</strong> allein 36 Sätze mit einem<br />
Fehler weniger und 13 mit zwei Fehlern weniger. Sieben Sätze lieferten eine Abnahme um<br />
drei Fehler, ein Satz wies vier, zwei Sätze fünf und einer sogar sieben Fehler weniger auf.<br />
Insgesamt waren die Veränderungen in der Regel also nicht dramatisch, aber mit klarer<br />
Tendenz zu einer Abnahme der Fehlerzahl.<br />
13 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
59
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Abbildung 5.10.: Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung<br />
für die einzelnen Übersetzungsprogramme (Babel Fish grün,<br />
Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben)<br />
5.3. Signifikanz der Ergebnisse<br />
Die ausgewählten Textmerkmale wurden gemäß den Ausführungen in Abschnitt 4.5 überprüft,<br />
das heißt, es wurden die Sätze der zugehörigen Textkorpora auf eine signifikante<br />
Verbesserung der Übersetzungsqualität beim Verzicht auf das jeweilige Textmerkmal hin<br />
untersucht. Als Grundlage diente die dort angegebene Wahrscheinlichkeitsfunktion auf<br />
Basis der hypergeometrischen Verteilung mit N = 100.000 und M = 50.000. Die Bedeutung<br />
der Variablen N und M sowie der im weiteren Verlauf verwendeten Variablen k und<br />
n wird ebenfalls in Abschnitt 4.5 erläutert.<br />
Satzlänge<br />
Für die Satzlänge war als einziges Textmerkmal ein Signifikanztest nicht möglich, weil<br />
Satzlänge nichts ist, was sich wie etwa Nominalkomposita beseitigen ließe, ohne den Sinn<br />
des Satzes gravierend zu verändern. Selbst wenn man die Korpora für mittellange und<br />
kurze Sätze auf Basis des Korpus mit den sehr langen Sätzen erstellt und die Sätze jeweils<br />
passend gekürzt hätte, wären die Veränderungen der Fehlerzahlen nicht vergleichbar, weil<br />
es sich bei den drastisch unterschiedlichen Satzlängen in den drei Korpora um inhaltlich<br />
stark verschiedene Sätze handeln würde.<br />
Gleichwohl wird die Satzlänge auch ohne Signifikanztest in den Übersetzbarkeitsindex<br />
aufgenommen, weil sie erstens <strong>von</strong> anderen Bewertungsprogrammen als Kriterium benutzt<br />
wird (vgl. Abschnitt 3.3) und zweitens der empirische Befund zu den drei übersetzten<br />
Textkorpora eine deutlich überproportionale Zunahme der durchschnittlichen Fehlerzahl<br />
bei Erhöhung der Satzlänge ausweist (vgl. Abschnitt 5.1.1).<br />
60
5.3. Signifikanz der Ergebnisse<br />
Nebensätze (Relativsätze)<br />
In den übersetzten Textkorpora zu Nebensätzen im Allgemeinen und Relativsätzen im<br />
Speziellen waren keine bzw. recht geringe Veränderungen der Fehlerzahl zu beobachten.<br />
Die Beseitigung <strong>von</strong> Nebensätzen brachte bei einer Summe der Fehlerzahländerungen <strong>von</strong><br />
n = 82 keine Veränderung der Gesamtfehlerzahl oder k = 41 Fehlerzahlzunahmen bei<br />
41 -abnahmen in den Übersetzungen, deren Fehlerzahl sich veränderte. Die Beseitigung<br />
<strong>von</strong> Relativsätzen brachte dagegen 21 Fehler weniger, wobei es in der Summe insgesamt<br />
n = 175 Fehlerzahländerungen gab, <strong>von</strong> denen k = 98 auf die Sätze mit verringerter<br />
Fehlerzahl entfielen.<br />
Für die Nebensätze ergibt sich daraus eine Wahrscheinlichkeit <strong>von</strong> P (X ≥ 41) ≈ 0, 54394,<br />
dass in den Sätzen mit Fehlerabnahme mindestens k Fehler entfallen, wenn H 0 gilt. Die<br />
Gefahr einer fälschlichen Zurückweisung <strong>von</strong> H 0 ist daher viel zu groß, so dass sie beibehalten<br />
wird und Nebensätze aller Art nicht in den Übersetzbarkeitsindex aufgenommen<br />
werden. Bei Relativsätzen im Speziellen ergibt sich diesbezüglich mit k = 98 ein Wert <strong>von</strong><br />
P (X ≥ 98) ≈ 0, 06500. Obwohl diese Wahrscheinlichkeit größer ist als das Signifikanzniveau<br />
α = 0, 05 und Relativsätze die Übersetzbarkeit somit nicht signifikant verschlechtern,<br />
werden sie in den Index aufgenommen. Der Grund ist, dass der Wert der Verteilungsfunktion<br />
nur sehr knapp über dem Signifikanzniveau liegt (bereits bei k = 99 wäre das Ergebnis<br />
signifikant) und gleichzeitig Relativsätze in anderen Übersetzbarkeitsmaßen berücksichtigt<br />
werden (vgl. Abschnitt 3.3). Berücksichtigt man dies, so ist die Wahrscheinlichkeit,<br />
die Gegenhypothese H 1 zu Unrecht nicht anzunehmen, trotz des nicht-signifikanten Testergebnisses<br />
viel zu groß. Allerdings ist der Einfluss <strong>von</strong> Relativsätzen im Vergleich zu<br />
anderen in den Index aufgenommenen Textmerkmalen eher gering, was sich auch bei der<br />
Konstruktion des Indexes niederschlagen wird (vgl. Kapitel 6). Dementsprechend wird<br />
selbst eine möglicherweise doch fälschliche Aufnahme in den Index nicht zu großen Verzerrungen<br />
führen.<br />
Mehrdeutigkeit<br />
Insgesamt nahm die Fehlerzahl der Übersetzungen nach dem Entfernen <strong>von</strong> Mehrdeutigkeiten<br />
um 103 Fehler ab. Dabei gab es 92 Sätze ohne Veränderung der Fehlerzahl, 23 mit<br />
einer Erhöhung der Fehlerzahl und 85 mit einer Verringerung der Fehlerzahl. In diesen<br />
108 Sätzen mit veränderter Fehlerzahl kamen in den verschlechterten Sätzen 32 Fehler<br />
hinzu, k = 135 fielen in den verbesserten Sätzen weg, so dass sich als Stichprobenumfang<br />
der Fehlerzahlveränderungen n = 167 ergibt.<br />
Daraus folgt (auf fünf Stellen gerundet): P (X ≥ 135) ≈ 0, 00000. Die Fehlerzahlabnahme<br />
ist also sogar höchst signifikant, die Wahrscheinlichkeit, dass die Nullhypothese zu Unrecht<br />
verworfen wird, dementsprechend verschwindend gering. Daher werden Mehrdeutigkeiten<br />
in den Übersetzbarkeitsindex aufgenommen.<br />
Elliptischer Schreibstil<br />
Auf beide Textkorpora bezogen, ergab sich beim Entfernen <strong>von</strong> Ellipsen eine Abnahme<br />
um insgesamt fünf Fehler in den Übersetzungen. Insgesamt summierten sich die Fehlerzahlveränderungen<br />
auf n = 187, wo<strong>von</strong> k = 96 Fehlerzahlverringerungen waren.<br />
Somit ergab sich für das Komplement der Verteilungsfunktion ein Funktionswert <strong>von</strong><br />
P (X ≥ 96) ≈ 0, 38489. Die (sehr geringe) Fehlerzahlabnahme ist also bei weitem nicht<br />
61
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
signifikant, so dass Ellipsen nicht als Textmerkmal in den Übersetzbarkeitsindex aufgenommen<br />
werden können.<br />
Für abgetrennte Kompositionsglieder ergab sich jedoch ein anderes Bild: Hier traten in<br />
den Sätzen, die nach dem Weglassen solcher Ellipsen ihre Fehlerzahl veränderten, insgesamt<br />
n = 61 Veränderungen auf, wo<strong>von</strong> k = 42 Abnahmen waren. Daraus folgte eine<br />
Wahrscheinlichkeit <strong>von</strong> P (X ≥ 42) ≈ 0, 00222, so dass diese Fehlerabnahme ebenfalls<br />
höchstsignifikant ist. Abgetrennte Kompositionsglieder werden also in den Übersetzbarkeitsindex<br />
aufgenommen.<br />
Verbklammern<br />
Die Sätze, aus denen die Nominalklammern entfernt wurden und deren Übersetzung sich<br />
verbesserte, wiesen eine um k = 165 verringerte Fehlerzahl auf, während in den sich<br />
verschlechternden Sätzen 76 Fehler hinzukamen, so dass der Stichprobenumfang n = 241<br />
betrug.<br />
Mit k = 165 ergab die Verteilungsfunktion dann (auf fünf Stellen gerundet) P (X ≥ 165) ≈<br />
0, 00000, was ein höchstsignifikantes Ergebnis darstellt, so dass Verbklammern ebenfalls<br />
in den Index einfließen werden.<br />
Nominalklammern<br />
Die Entfernung <strong>von</strong> Nominalklammern verursachte Veränderungen der Fehlerzahl bei 136<br />
der 200 Übersetzungen des zweiten Textkorpus. Die Anzahl der Fehler in den Sätzen, in<br />
denen insgesamt weniger Fehler festgestellt wurden, verringerte sich um k = 189, in den<br />
Sätzen, in denen insgesamt mehr Fehler gemessen wurden, erhöhte sie sich um 63 Fehler,<br />
so dass sich ein Stichprobenumfang <strong>von</strong> n = 252 ergab.<br />
Die Verteilungsfunktion liefert P (X ≥ 189) ≈ 0, 00000, also ein höchstsignifikantes Ergebnis,<br />
so dass Nominalklammern ohne Zweifel in den Übersetzbarkeitsindex gehören.<br />
Nominalkomposita<br />
Mit Nominalkomposita verhält es sich anders als mit allen anderen Merkmalen, weil ihre<br />
Beseitigung eine deutliche Fehlerzahlzunahme in den Übersetzungen hervorrief. Die Sätze,<br />
deren Übersetzung sich ohne Komposita verbesserte, zeigten k = 60 Fehler weniger, die<br />
Sätze, deren Übersetzung sich ohne Komposita verschlechterte, legten um 148 Fehler zu,<br />
was einen Stichprobenumfang <strong>von</strong> n = 208 ergibt.<br />
Mit diesen Parametern liefert die Verteilungsfunktion P (X ≥ 60) ≈ 1, 00000. Das Ergebnis<br />
ist also insofern bedeutsam, als man deutlich erkennen kann, dass Nominalkomposita<br />
die Übersetzbarkeit entgegen allen anderen Behauptungen positiv beeinflussen. Es wäre<br />
daher angebracht, sie mit umgekehrtem Vorzeichen ebenfalls in den Übersetzbarkeitxsindex<br />
hineinzunehmen.<br />
Allerdings ergäben sich daraus auch Probleme: Zum ersten wäre ein Algorithmus nötig, der<br />
Nominalkomposita aus beliebigen Wörtern zuverlässig erkennt. Ein derartiges Programm<br />
ist aber anscheinend nicht frei verfügbar, und bloßes Raten anhand der Wortlänge wäre zu<br />
fehleranfällig. Zum zweiten stellt sich die Frage, ab wann ein Kompositum überhaupt positiv<br />
bewertet werden soll. Das Wort Eieruhr ist beispielsweise ein Nominalkompositum,<br />
das aber sehr kurz ist und zu dem es keine sinngleiche Bezeichnung ohne Kompositum gibt.<br />
62
5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />
Es wäre also falsch, pauschal Bonuspunkte zu verteilen, sobald irgendein Nominalkompositum<br />
auftaucht, zumal sich der Textkorpus auf überdurchschnittlich lange Komposita<br />
konzentrierte. Und drittens muss der geschriebene Text immer noch für die Menschen<br />
verständlich sein, die ihn lesen sollen. Selbst wenn es Übersetzungsprogrammen leichter<br />
fällt, Wörter mit 30 Zeichen und mehr ins Englische zu übersetzen, fällt es sowohl Autoren<br />
als auch Lesern mit Sicherheit bei steigender Wortlänge schwerer, Wörtern Sinn und<br />
Bedeutung zuzuordnen.<br />
Aus diesen Erwägungen heraus wird auf die Übernahme dieses Textmerkmals in den<br />
Übersetzbarkeitsindex in dieser Arbeit verzichtet.<br />
Inversion der Wortstellung<br />
Das Ergebnis der Untersuchung <strong>von</strong> Inversionen der deutschen Standardwortstellungen<br />
zeigte eine deutliche Abnahme der Fehlerzahl, wenn man auf Inversionen verzichtet. Insgesamt<br />
84 der 200 Übersetzungen ohne Inversionen wiesen Veränderungen der Fehlerzahlen<br />
auf, wobei die Summe insgesamt n = 130 Fehler betrug. Auf die Sätze, deren Fehlerzahl<br />
in der Übersetzung sich verringerte, entfielen da<strong>von</strong> k = 104 Fehler, die nun weniger<br />
gemessen wurden.<br />
Somit lieferte die Verteilungsfunktion das höchstsignifikante Ergebnis P (X ≥ 104) ≈<br />
0, 00000. Die Wahrscheinlichkeit, bei n = 130 Fehlerzahländerungen mindestens k = 104<br />
Fehlerzahlzunahmen zu finden, ist praktisch null. Zweifelsohne verringert der Verzicht auf<br />
Inversionen also die Übersetzungsschwierigkeiten, so dass dieses Textmerkmal ebenfalls<br />
in den Index aufzunehmen ist.<br />
5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />
Während der Korrektur der jeweils mit Babel Fish und Personal Translator 2006 vorgenommenen<br />
Übersetzungen fielen im direkten Vergleich beider Programme im wesentlichen<br />
zwei Punkte auf, die hier erwähnt werden sollen.<br />
1. Beide Programme verhielten sich bei den untersuchten Textmerkmalen weitgehend<br />
gleich, das heißt, die Zahl der <strong>von</strong> ihnen in der Übersetzung verursachten Fehler<br />
veränderte sich zwischen den Textkorpora mit einer Ausnahme in dieselbe Richtung<br />
(Zunahme oder Abnahme) und auch in etwa in derselben Stärke (hierbei gab es<br />
allerdings zwei Ausnahmen).<br />
2. In allen Testreihen und Textkorpora verursachte Babel Fish zum Teil deutlich mehr<br />
Fehler als Personal Translator 2006 .<br />
Um eine Übersicht zu ermöglichen, stellt das Diagramm in Abbildung 5.11 die Fehlerzahlen<br />
für alle übersetzten Textkopora im Vergleich dar.<br />
Der Fall, dass die Fehlerzahlen beider Programme sich gegenläufig entwickeln, trat bei<br />
Ellipsen auf. Hier wiesen die mit Babel Fish übersetzten Sätze nach der Bearbeitung insgesamt<br />
acht Fehler weniger auf, während es bei Personal Translator 2006 drei Fehler mehr<br />
waren. Wegen der geringen Abweichung ist dem allerdings keine Bedeutung zuzumessen.<br />
Die beiden anderen Ausnahmen traten auf beim Ersetzen <strong>von</strong> Nominalklammern durch<br />
andere Konstruktionen und bei Steigerung der Satzlänge <strong>von</strong> mittellangen (16 - 30 Wörter)<br />
zu sehr langen (ab 31 Wörtern) Sätzen. Im ersten Fall zeigte Babel Fish eine wesentlich<br />
63
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Abbildung 5.11.: Vergleich der Fehlerzahlen <strong>von</strong> Babel Fish (BF, blau) und Personal<br />
Translator 2006 (PT 2006, rot) für die einzelnen Textkorpora<br />
64
5.4. Vergleich der eingesetzten Übersetzungsprogramme<br />
stärkere Abnahme der Fehlerzahl als Personal Translator 2006 . Im zweiten Fall war die<br />
Fehlerzunahme relativ gesehen bei Personal Translator 2006 wesentlich höher als bei<br />
Babel Fish.<br />
Der erste Punkt lässt also darauf schließen, dass die ausgewählten Merkmale nicht bloß für<br />
ein Programm, sondern ganz allgemein eine Schwierigkeit darstellen bzw. ganz allgemein<br />
keine Schwierigkeit bedeuten, weil andernfalls ein deutlich entgegengesetztes Verhalten<br />
beider Programme zu erwarten gewesen wäre.<br />
Abbildung 5.12.: Gesamtfehlerzahl <strong>von</strong> Babel Fish und Personal Translator 2006<br />
Zum zweiten Punkt ist zu sagen, dass die Unterschiede in den Fehlerzahlen zwischen den<br />
MÜ-Programmen bei demselben Korpus bisweilen nur wenige Prozent betragen, so dass<br />
sie durchaus auch zufällig zustande gekommen sein könnten. Der geringste Unterschied in<br />
den Fehlerzahlen kam bei beiden Textkorpora zu Nebensätzen zustande, wo Babel Fish<br />
gerundet nur 2, 5 Prozent mehr Fehler verursachte als Personal Translator 2006.<br />
Allerdings stehen dem die sehr großen Abweichungen in der Mehrzahl der übersetzten<br />
Korpora gegenüber, die eine Differenz <strong>von</strong> bis zu 149 Fehlern zugunsten <strong>von</strong> Personal<br />
Translator 2006 ergeben, sowie die Tatsache, dass Babel Fish in keinem der insgesamt 19<br />
Korpora das bessere Ergebnis liefert.<br />
Der größte prozentuale und absolute Unterschied entstand bei dem bearbeiteten Textkorpus<br />
zu Verbklammern. Hier wiesen die Babel-Fish-Übersetzungen insgesamt knapp<br />
43 Prozent Fehler mehr auf als die Personal-Translator-2006 -Übersetzungen. Betrachtet<br />
man die Summe aller Fehler, aggregiert über alle Korpora und gegliedert nach Programm,<br />
so ergibt sich folgendes Bild (vgl. Abbildung 5.12):<br />
Personal Translator 2006 verursachte insgesamt in allen Sätzen 6865 Fehler, Babel Fish<br />
dagegen bei gleicher Satz- und Wortanzahl 8154. Das sind immerhin knapp 19 Prozent<br />
mehr als Personal Translator 2006 . Diese Differenz, die hohe Anzahl der übersetzten Sätze<br />
und die durch die zahlreichen getesteten Merkmale hohe Varietät der Sätze erfordern<br />
zwingend den Schluss, dass Personal Translator 2006 zum jetzigen Zeitpunkt (Anfang<br />
2007) das bessere MÜ-Programm ist. 65
6. Zusammenführung der Kriterien in<br />
einem Index<br />
In den folgenden Abschnitten wird auf Grundlage der vorangegangenen Analyse ein Index<br />
erstellt, der die Übersetzbarkeit eines Textes anzeigt. Zudem wird der Index anhand <strong>von</strong><br />
Beispielen aus den für die Analysen aufgestellten Textkopora überprüft.<br />
6.1. Erstellung des Übersetzbarkeitsindexes<br />
Nach der Untersuchung der Fehlerrelevanz der einzelnen Textmerkmale im vorigen Abschnitt<br />
bleiben <strong>von</strong> den neun ursprünglich ausgewählten noch insgesamt sieben Textmerkmale<br />
übrig, deren Auftreten die Übersetzungsqualität mindert. Aufsteigend aufgezählt<br />
<strong>von</strong> dem Merkmal mit der geringsten Verschlechterung aus sind dies (ohne Satzlänge):<br />
Relativsätze (statt Nebensätzen im Allgemeinen), abgetrennte Kompositionsglieder (statt<br />
Ellipsen im Allgemeinen), Verbklammern, Inversionen der Wortstellung, Mehrdeutigkeiten<br />
und Nominalklammern. Die Satzlänge ist zwar auch maßgeblich für die Fehlerzahl<br />
verantwortlich, lässt sich allerdings nicht in den Kanon der anderen Merkmale einreihen,<br />
weil dieses Merkmal jeden Satz zwingend begleitet und nicht entfernbar ist.<br />
Um die Zielsetzungen der Arbeit zu erfüllen, müssen zwei Maßzahlen angegeben werden:<br />
• die Übersetzbarkeit eines einzelnen Satzes und<br />
• die aggregierte Übersetzbarkeit eines ganzen Textes mit beliebig vielen Sätzen.<br />
Eine zentrale Frage dabei ist, wie der Index aussehen soll. Der Logos Translatability Index<br />
etwa setzt für die Übersetzbarkeit einen Maximalwert <strong>von</strong> sieben Punkten an und zieht<br />
dann je nach Textbeschaffenheit Punkte ab [Gda94]. Neben der Willkür dieser Festsetzung<br />
ist auch der gewählte Ausgangswert des Indexes <strong>von</strong> sieben Punkten nicht ohne Hintergrundwissen<br />
nachzuvollziehen. Hingegen ist der <strong>von</strong> Translatability Checker [JU01] und<br />
Translation Confidence Index [Ber99] benutzte Ausgangswert <strong>von</strong> 100 Punkten immer<br />
noch willkürlich, aber wesentlich einprägsamer, weil er einfach als Prozentwert gedeutet<br />
werden kann. Und je mehr negative Faktoren zusammenkommen, desto geringer wird der<br />
Wert.<br />
Ein Problem bei einer derartigen Vorgehensweise, die <strong>von</strong> einem Ausgangswert aus abnehmende<br />
Werte vergibt, ist aber, dass irgendwann 0 erreicht werden kann und negative<br />
Übersetzbarkeitsindizes wenig Sinn ergeben. Und kann man überhaupt sagen, dass ein<br />
Satz eine Übersetzbarkeit <strong>von</strong> 0 hat? Wie vergleicht man einen solchen Satz sinnvoll mit<br />
einem, der noch viel mehr abträgliche Merkmale aufweist, dem man aber dennoch keine<br />
geringere Übersetzbarkeit zuschreiben kann?<br />
Es scheint daher wesentlich hilfreicher, einen Index zu benutzen, der bei 0 beginnt und<br />
dann unbeschränkt Strafpunkte hinzufügen kann. Je höher dann der Wert dieses Indexes,<br />
66
6.1. Erstellung des Übersetzbarkeitsindexes<br />
desto geringer ist die Übersetzbarkeit bzw. desto höher das Fehlerrisiko, und sowohl Aussagekraft<br />
als auch Vergleichbarkeit <strong>von</strong> Sätzen sind jederzeit gegeben. Dieser Ansatz wird<br />
also nunmehr weiter verfolgt.<br />
6.1.1. Übersetzbarkeit <strong>von</strong> Texten<br />
Die Übersetzbarkeit eines ganzen Textes lässt sich beschreiben als der Mittelwert der<br />
Übersetzbarkeitswerte seiner einzelnen Sätze. Seien t der zu bewertende Text, n die Anzahl<br />
der Sätze, aus denen der Text besteht, und s i der i-te Satz im Text. Sei außerdem T S die<br />
Übersetzbarkeit eines einzelnen Satzes (T für engl. translatability). Dann gilt für die<br />
Übersetzbarkeit T T dieses Textes:<br />
T T (t) = 1 n ·<br />
n∑<br />
T S (s i )<br />
i=1<br />
6.1.2. Übersetzbarkeit <strong>von</strong> Sätzen<br />
In den Index für die Übersetzbarkeit eines einzelnen Satzes muss das Vorkommen der<br />
verschiedenen relevanten Textmerkmale einfließen. Außerdem ist zu berücksichtigen, wie<br />
häufig ein Merkmal im Satz auftritt, da etwa drei Mehrdeutigkeiten in einem Satz mehr<br />
Fehler bei der Übersetzung nach sich ziehen als eine. Darüber hinaus stellt sich die Frage<br />
nach der Gewichtung der einzelnen Merkmale, da ihre Beseitigung in den Textkorpora teils<br />
erheblich unterschiedliche Auswirkungen hatte. Die Spanne der Abnahme der absoluten<br />
Fehlerzahl reicht <strong>von</strong> rund zwei bis gut 13 Prozent. Es wäre daher falsch, für alle Textmerkmale<br />
dieselbe Punktzahl anzurechnen. Die Gewichtung muss also die quantitativen<br />
Abstände zwischen den Merkmalen wiedergeben.<br />
Die folgende Tabelle zeigt im Überblick die verschiedenen Textmerkmale, die die Übersetzungsqualität<br />
beeinflussen, mit den Veränderungen der Fehlerzahlen, wenn das Vorkommen<br />
dieser Merkmale reduziert oder ganz entfernt wird, und den Abständen dazwischen.<br />
Als Punktwert bzw. Indexgewicht wird dabei jeweils der auf 0, 5 gerundete und halbier-<br />
Merkmal ∆ Fehler bei Entfernen Differenz zum Vorigen Gewicht<br />
Relativsätze -2,58% — 1,25<br />
abgetr. Kompositionsgl. -4,32% -1,74% 2,25<br />
Verbklammern -9,58% -5,26% 4,75<br />
Inversionen -9,73% -0,15% 4,75<br />
Mehrdeutigkeiten -11,72% -1,99% 5,75<br />
Nominalklammern -13,39% -1,67% 6,75<br />
Tabelle 6.1.: Auswirkungen der Textmerkmale im Vergleich<br />
te Betrag der Fehlerzahlveränderung aus Tabelle 6.1 benutzt. Die Halbierung erfolgt,<br />
damit die Werte nicht zu schnell zu groß werden. Damit ergeben sich für Relativsätze<br />
1, 25 und für abgetrennte Kompositionsglieder 2, 25, für Mehrdeutigkeit 5, 75 und für<br />
Nominalklammern 6, 75 Punkte als Gewichtung. Inversionen und Verbklammern werden<br />
zusammengefasst bei einem Wert <strong>von</strong> 4, 75 Punkten.<br />
67
6. Zusammenführung der Kriterien in einem Index<br />
Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt<br />
statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert<br />
zuordnet, wobei der Wert zu den anderen hinzugefügt wird.<br />
Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die<br />
Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit<br />
des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die<br />
Länge des Satzes s seien, gilt dann:<br />
T S (s) = f L (L(s)) +<br />
n∑<br />
g i · m i<br />
i=1<br />
Oder mit den explizit eingesetzten Gewichten für die Merkmale:<br />
T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk<br />
Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv<br />
die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der<br />
Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten<br />
Kompositionsglieder.<br />
6.1.3. Bewertung der Satzlänge<br />
Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung<br />
in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro<br />
Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als<br />
bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro<br />
Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische<br />
Darstellung des Zusammenhangs <strong>von</strong> durchschnittlicher Satzlänge (horizontale Achse)<br />
und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung<br />
des Einflusses der Satzlänge gemessen worden waren.<br />
Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um<br />
eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete<br />
der Autor verschiedene dekadisch logarithmische Funktionen der Form<br />
f L (L(s)) = a · lg(b · L(s) c + d),<br />
wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b,<br />
c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate,<br />
also die Quadrate der Abweichungen der Funktionswerte <strong>von</strong> den empirisch gemessenen<br />
Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag <strong>von</strong> lediglich<br />
2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei<br />
großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den<br />
Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen<br />
Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet<br />
also bei gegebener Länge:<br />
∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1)<br />
68
6.2. Überprüfung des Übersetzbarkeitsindexes<br />
Abbildung 6.1.: Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort (mit eingefügter<br />
gestrichelter Trendlinie zwischen den empirisch gemessenen Werten)<br />
6.2. Überprüfung des Übersetzbarkeitsindexes<br />
Von zentraler Bedeutung für die Güte des Indexes ist, dass seine Werte die Fehleranfälligkeit<br />
eines gegebenen Satzes passend widerspiegeln. Um sicherzustellen, dass der Index<br />
sinnvolle Bewertungen vornimmt, an denen man die Richtung, in die die Übersetzungsqualität<br />
eines gegebenen Satzes gehen wird, korrekt voraussehen kann, ist also ein Test<br />
der Übersetzbarkeitsfunktion auf Satzebene erforderlich1 . Gleichzeitig diente dieser Test<br />
auch dazu zu erkennen, wie hoch die vom Index errechneten Werte bei welchen erwarteten<br />
Fehlerzahlen ausfallen; dies lässt sich allein aus der Definition der Gleichungen nicht<br />
ablesen.<br />
Für die Überprüfung wurden aus dem Korpus mit kurzen Sätzen und bei allen anderen<br />
Textmerkmalen aus den Korpora mit Originalsätzen die ersten 15 Sätze herausgenommen<br />
und vom Übersetzbarkeitsindex bewertet. Insgesamt wurde die Funktion also an 135<br />
verschiedenen Sätzen getestet. Damit konkrete Werte für die einzelnen Sätze berechnet<br />
werden konnten, wurde für jeden einzelnen Buch geführt, wie oft die relevanten Textmerkmale<br />
darin auftraten. Am häufigsten kamen Mehrdeutigkeiten vor (168), am seltensten<br />
abgetrennte Kompositionsglieder (16). Zu den Mehrdeutigkeiten ist außerdem zu sagen,<br />
dass wie im zugehörigen Textkorpus nur lexikalische Mehrdeutigkeiten, also Wörter mit<br />
verschiedenen Bedeutungen in der Zielsprache, gezählt wurden. Es zeigte sich eine große<br />
Bandbreite <strong>von</strong> Indexwerten für die Übersetzbarkeit, die <strong>von</strong> etwa zwölf bis hin zu gut 70<br />
Punkten reichte.<br />
Die Qualität des Indexes kann durch einen linear-proportionalen Zusammenhang zwischen<br />
der absoluten Fehlerzahl pro Satz und der Höhe des Indexwertes gezeigt werden, indem<br />
die Indexwerte sich – abzüglich einer Konstante – prozentual ähnlich stark verändern wie<br />
1 Werden die einzelnen Sätze überwiegend richtig bewertet, so gilt dies aufgrund der Beschaffenheit der<br />
Übersetzbarkeitsfunktion für Texte aus beliebig vielen Sätzen dann auch für den ganzen Text.<br />
69
6. Zusammenführung der Kriterien in einem Index<br />
die Fehlerzahlen pro Satz. Die Fehlerzahl pro Wort ist hier als Variable nicht relevant, weil<br />
ein kurzer Satz, dem genau dieselbe Übersetzbarkeit zugeordnet wird wie einem längeren,<br />
bei gleicher Anzahl tatsächlicher Fehler eine viel höhere Fehlerzahl pro Wort aufweist. Die<br />
Vergleichbarkeit ist somit nicht gegeben.<br />
Die 135 Sätze wurden also auf eine Korrelation zwischen Fehlerzahl und Indexwert hin<br />
untersucht. Zu diesem Zweck wurden die Indexwerte der Sätze in sieben Intervalle eingeteilt.<br />
Fünf dieser Intervalle umfassten fünf Punkte, nämlich 20 bis 25, weiter bis 30, bis<br />
35, bis 40 und bis 45 Punkte. Die Werte kleiner als 20 und größer gleich 45 bildeten jeweils<br />
eigene Intervalle. Den Intervallen wurden nun die zugehörigen aggregierten Fehlerzahlen<br />
zugeordnet und durch die Anzahl der Sätze im jeweiligen Bereich geteilt, so dass sich<br />
durchschnittliche Fehlerzahlen pro Satz ergaben, die <strong>von</strong> 2, 35 Fehlern bei Indexwerten<br />
unter 20 Punkten bis zu 6, 63 Fehlern pro Satz bei 45 und mehr Indexpunkten reichen.<br />
Die exakten Ergebnisse sind in Tabelle 6.2 aufgeführt.<br />
Wertebereich Indexwerte Anzahl Sätze Anzahl Fehler ∅ Fehler pro Satz<br />
1 0-20 17 40,0 2,35<br />
2 20-25 33 101,5 3,08<br />
3 25-30 26 77,0 2,96<br />
4 30-35 22 86,5 3,93<br />
5 35-40 14 71,0 5,07<br />
6 40-45 11 65,0 5,91<br />
7 ≥45 12 79,5 6,63<br />
Tabelle 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz<br />
Die Werteintervalle des Indexes in der zweiten Spalte inkludieren dabei jeweils den unteren<br />
Grenzwert und schließen den oberen aus. Die Fehlerzahl in der vierten Spalte ist der<br />
Mittelwert der Summe der Fehler, die Personal Translator 2006 und Babel Fish bei der<br />
Übersetzung der Sätze, die in den jeweiligen Indexbereich fallen, verursacht haben.<br />
Abbildung 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz<br />
70
6.2. Überprüfung des Übersetzbarkeitsindexes<br />
Wie man erkennt, nimmt die Fehlerhäufigkeit bei steigenden Indexwerten zu. Es gibt zwar<br />
im dritten Intervall den Fall, dass die Fehlerzahl leicht geringer ist als im vorherigen Intervall,<br />
jedoch ist dieser Ausreißer nach unten nur sehr klein. Grafisch dargestellt ist das Ergebnis<br />
in Abbildung 6.2. Eine lineare Abhängigkeit lässt sich anhand des Verlaufs der Fehlerzahl<br />
bereits erahnen. Dementsprechend wurde zusätzlich eine lineare Regression auf den<br />
vorhandenen Werten durchgeführt, deren Gerade ebenfalls in der Abbildung eingezeichnet<br />
ist. Ihre Gleichung lautet auf drei Nachkommastellen gerundet y = 0, 736 · x + 1, 334. Die<br />
Variable x bezeichnet darin die <strong>von</strong> eins bis sieben durchnummerierten Wertebereiche,<br />
y die Fehlerzahl pro Satz. So ergibt sich etwa auf der Regressionsgeraden für das dritte<br />
Intervall ein Wert <strong>von</strong> 0, 736 · 3 + 1, 334 = 3, 542 Fehlern pro Satz.<br />
Das Bestimmtheitsmaß der Geraden beträgt R 2 ≈ 0, 96, was einen unerwartet hohen<br />
Wert und einen nahezu perfekten linearen Zusammenhang zwischen Indexintervallen und<br />
absoluter Fehlerzahl darstellt. Es besteht demnach kein Anlass, die Gewichte der in den<br />
Index einfließenden Textmerkmale oder die Satzlängenbewertung anzupassen. Die Übersetzbarkeitsfunktion<br />
wird daher unverändert in das zu erstellende Bewertungsprogramm<br />
übernommen.<br />
71
Teil III.<br />
MT Analyser: Automatische <strong>Messung</strong><br />
der maschinellen Übersetzbarkeit<br />
72
7. Modellierung <strong>von</strong> MT Analyser<br />
Nachdem die theoretische Vorarbeit abgeschlossen ist, kann mit der Erstellung des Programms<br />
zur automatischen Bewertung der Übersetzbarkeit eines deutschsprachigen Textes<br />
ins Englische begonnen werden. Das Programm wird MT Analyser heißen (Logo siehe<br />
Abbildung 7.1), wobei MT für machine translatability steht und der Name wohl keiner<br />
weiteren Erklärung bedarf.<br />
Die folgenden Abschnitte erklären detailliert die Anforderungen an das Programm, seinen<br />
Entwurf sowie die zur Verfügung stehenden Hilfsmittel und Werkzeuge.<br />
Abbildung 7.1.: Logo <strong>von</strong> MT Analyser (Startbildschirm des Programms)<br />
7.1. Systemabgrenzung<br />
Was soll MT Analyser sein und was nicht?<br />
MT Analyser ist gedacht als Hilfsprogramm für Menschen, die - aus welchen Gründen<br />
auch immer - kürzere oder längere Texte aus dem Deutschen ins Englische übersetzen<br />
wollen oder müssen und sich dabei maschineller Übersetzungsprogramme bedienen, um<br />
ihre Arbeit effizienter zu gestalten. Durch MT Analyser sollen sie Hinweise erhalten, wie<br />
sie ihre Texte in der Ausgangssprache überarbeiten können, damit die Fehlerrate und<br />
somit der Aufwand für die Nachbearbeitung der maschinellen Übersetzungen möglichst<br />
gering bleibt.<br />
Das Programm richtet sich vorwiegend an einzelne Personen mit normalen Kenntnissen<br />
im Umgang mit Computern und Software. Ausreichendes Vorwissen über die deutsche<br />
Grammatik wird vorausgesetzt, das heißt, es wird erwartet, dass Benutzer mit den entsprechenden<br />
Fachbegriffen vertraut sind oder diese in einem Fachbuch nachschlagen, z. B.<br />
[BEFH + 05].<br />
73
7. Modellierung <strong>von</strong> MT Analyser<br />
Insbesondere ist MT Analyser kein Programm, das bewertet, wie gut ein Mensch einen<br />
Text übersetzen kann! Hierfür hätten im Vorfeld andere Untersuchungen durchgeführt<br />
und andere Kriterien zugrundegelegt werden müssen.<br />
Außerdem soll MT Analyser kein Aufsatz für ein bereits existierendes Übersetzungsprogramm<br />
sein, sondern als unabhängiges und alleinstehendes Programm Texte hinsichtlich<br />
ihrer Übersetzbarkeit allgemeingültig analysieren, ohne auf die Stärken oder Schwächen<br />
eines bestimmten MÜ-Programms ausgerichtet zu sein. Dabei ist natürlich nicht auszuschließen,<br />
dass es eines Tages für ein Programm optimiert wird.<br />
Schließlich soll MT Analyser auch keine kontrollierte Sprache sein (vgl. Abschnitt 3.1). Es<br />
werden keine Regeln für den Sprachgebrauch vorgeschrieben, sondern lediglich Hinweise<br />
erteilt, an die die Verfasser zu übersetzender Texte sich halten können, aber nicht müssen.<br />
7.2. Anforderungen an MT Analyser<br />
Das Hauptziel der Entwicklung <strong>von</strong> MT Analyser lässt sich mit einem Satz so formulieren:<br />
Das Programm muss in der Lage sein, den in dieser Arbeit erstellten Übersetzbarkeitsindex<br />
mit seinen gewichteten Textmerkmalen auf einen deutschsprachigen<br />
Text beliebiger Länge anzuwenden und ein ausführliches Ergebnis<br />
der Bewertung der Übersetzbarkeit dieses Textes zu erzeugen.<br />
Um dies zu erreichen, muss eine Reihe <strong>von</strong> funktionalen Anforderungen erfüllt werden. Sie<br />
ergeben sich vor allem aus Abschnitt 7.1 und aus der Tatsache, dass der Wortlaut eines<br />
Textes allein nicht ausreicht, um seine Eigenschaften zu erkennen. Im einzelnen sind dies:<br />
• Die einzelnen Sätze innerhalb eines Textes müssen möglichst präzise erkannt werden.<br />
• Zu den einzelnen Sätzen müssen weitere Informationen beschafft werden. Es ist<br />
unverzichtbar zu wissen, welche Grundform zu einem Wort eines Satzes gehört und<br />
zu welcher Wortart es zählt. Die Grundform wird beispielsweise zum Auffinden<br />
<strong>von</strong> Mehrdeutigkeiten benötigt, die Wortart zum Erkennen <strong>von</strong> Verben, die für eine<br />
Verbklammer infrage kommen. Weil diese Informationen nicht ohne weiteres erlangt<br />
werden können, liegt der Einsatz eines bereits vorhandenen Programms nahe, das<br />
diese Aufgabe übernimmt und in MT Analyser eingebunden wird.<br />
• Jeder Satz muss korrekt in seine Teilsätze zerlegt werden, um sinnvoll nach Textmerkmalen<br />
suchen zu können. Nominal- und Verbklammern beispielsweise können<br />
nur zuverlässig erkannt werden, wenn klar ist, welche Wörter des Satzes zu einem<br />
Teilsatz (z. B. Hauptsatz, Konzessivsatz, Finalsatz etc.) zusammengehören und somit<br />
die Teile der Klammer bilden können.<br />
• Die verschiedenen Textmerkmale müssen unter Ausnutzung der vorhandenen Informationen<br />
mit möglichst hoher Genauigkeit erkannt werden. Hierfür sind geeignete<br />
Algorithmen zu schreiben, die jeden Satz/Teilsatz durchsuchen.<br />
• Der Wert des Übersetzbarkeitsindexes muss sowohl auf Text- als auch auf Satzebene<br />
berechnet werden, nachdem alle Textmerkmale gefunden worden sind.<br />
74
7.3. Zur Verfügung stehende Hilfsmittel<br />
• Um Mehrdeutigkeiten sinnvoll behandeln zu können, muss ein editierbares Wörterbuch<br />
implementiert werden, das eine beliebige Anzahl mehrdeutiger Begriffe sowie<br />
deren verschiedene Bedeutungen persistent speichert.<br />
• Das Ergebnis der Bewertung muss in schriftlicher digitaler Form persistent gespeichert<br />
werden, um eine Nachbearbeiteung des zugrundeliegenden Textes zu ermöglichen.<br />
Dazu zählt auch, dass alle Übersetzungsschwierigkeiten sowie weitere wichtige<br />
textbezogene Parameter angezeigt werden.<br />
• MT Analyser muss sowohl mit einer grafischen Oberfläche als auch in einer textbasierten<br />
Kommandozeile ausgeführt werden können, um den verschiedenen Benutzungsvorlieben<br />
gerecht zu werden, wobei sämtliche Funktionen in beiden Oberflächen<br />
verfügbar sein müssen.<br />
• MT Analyser muss außerdem sowohl auf Windows- als auch auf Linux- und Solaris-<br />
<strong>Systeme</strong>n lauffähig sein.<br />
• Sämtliche für die Übersetzbarkeit relevanten Parameter müssen konfigurierbar sein,<br />
um bei Bedarf Anpassungsmöglichkeiten zu bieten. Das betrifft insbesondere die zu<br />
bewertenden Textmerkmale sowie deren Gewichtung im Index.<br />
• Fehler sind mittels einer geeigneten Fehlerbehandlung abzufangen und ausführlich<br />
zu berichten, wobei die Ausführung <strong>von</strong> MT Analyser nach Möglichkeit nicht abgebrochen<br />
werden soll.<br />
• Zusätzlich soll eine Demoversion in Form einer Webanwendung erstellt werden, die<br />
allen Internetnutzern die Möglichkeit gibt, die wesentlichen Funktionen <strong>von</strong> MT<br />
Analyser auszuprobrieren und sich über das Programm und die dahinterstehende<br />
Arbeit zu informieren.<br />
Darüber hinaus sind noch einige nicht-funktionale Anforderungen zu erfüllen. Sie ergeben<br />
sich unter anderem aus Abschnitt 7.1.<br />
• Das Programm muss prinzipiell einfach zu bedienen sein und bei Bedarf Hilfestellung<br />
anbieten.<br />
• Die Ergebnisse der Übersetzbarkeitsbewertung müssen bei Vorkenntnissen der deutschen<br />
Grammatik verständlich und nachvollziehbar sein.<br />
• MT Analyser muss auf PCs und Workstations mit gängiger Hardwareausstattung<br />
funktionieren.<br />
• Die Laufzeit für die Analyse der Übersetzbarkeit muss sich in einem angemessenen<br />
Rahmen (einige Sekunden für ein Textkorpus mit 100 Sätzen) halten.<br />
7.3. Zur Verfügung stehende Hilfsmittel<br />
7.3.1. Java und Swing<br />
Als Programmiersprache wird Java <strong>von</strong> Sun Microsystems gewählt. Der Hauptgrund<br />
hierfür ist die Plattformunabhängigkeit, weil MT Analyser sowohl auf Windows- als auch<br />
75
7. Modellierung <strong>von</strong> MT Analyser<br />
auf Solaris- und Linux-basierten Rechnern arbeiten soll. Mit anderen, plattformgebundenen<br />
Programmiersprachen wie C# wäre dies nicht oder nur mit aufwändigen Anpassungen,<br />
die verschiedene Versionen erfordern, möglich.<br />
Für die grafische Oberfläche wird das in Java enthaltene Grafikpaket Swing benutzt.<br />
Die ebenfalls frei verfügbaren Oberflächen AWT (Abstract Window Toolkit) <strong>von</strong> Sun und<br />
SWT (Standard Widget Toolkit) <strong>von</strong> IBM werden nicht eingesetzt. AWT bietet keine<br />
einheitliche Darstellung grafischer Elemente auf verschiedenen Betriebssystemen, während<br />
SWT nicht plattformunabhängig ist.<br />
7.3.2. Tagging-Richtlinien<br />
Um einen Text mit Informationen über die Wortarten der einzelnen Wörter anzureichern,<br />
werden so genannte Tags benutzt. An den Universitäten Tübingen und Stuttgart wurde<br />
zwecks Vereinheitlichung des Taggings deutschsprachiger Textkorpora das Stuttgart-<br />
Tübingen-Tagset (STTS) definiert [SSTT99], das festlegt, unter welchen Bedingungen<br />
einem Wort ein bestimmtes Tag zugewiesen wird.<br />
Das STTS geht dabei <strong>von</strong> insgesamt elf Hauptwortarten aus, die wiederum feiner unterteilt<br />
werden. Zum Beispiel gibt es nicht nur einen Tag für die Wortart Verb, sondern<br />
unterschiedliche Tags für Modal-, Hilfs- und Vollverben. Die Anzahl aller verschiedenen<br />
Tags beträgt 54, wobei 48 auf die verschiedenen Wortarten entfallen, während die restlichen<br />
sechs für Fälle benutzt werden, in denen eine Zuordnung nach herkömmlichem<br />
Muster nicht möglich ist, etwa bei abgetrennten Kompositionsgliedern.<br />
Allerdings enthält das STTS keine detaillierteren grammatikalischen Informationen zur<br />
Flexion <strong>von</strong> Worten, so dass man zwar etwa erkennen kann, dass an einer bestimmten<br />
Stelle ein finites Hilfsverb vorliegt, aber eben nicht, in welcher Person, welchem Modus,<br />
welchem Genus verbi, welchem Tempus und welchem Numerus es steht. Entsprechendes<br />
gilt für die Deklination <strong>von</strong> Nomen und die Komparation <strong>von</strong> Adjektiven und Adverbien.<br />
Die Möglichkeiten zur syntaktischen Analyse sind somit also eingeschränkt.<br />
Wenn im weiteren Verlauf <strong>von</strong> bestimmten Tags gesprochen wird, mit denen Wörter eines<br />
zu bewertenden Textes versehen werden oder wurden, so bezieht sich die Angabe der Tags<br />
immer auf das STTS.<br />
7.3.3. TreeTagger<br />
Weil die Identifizierung der Grundformen, der Wortarten sowie der Satzfunktion der einzelnen<br />
Wörter des Textes unerlässlich, aber nicht im Rahmen dieser Arbeit mit eigenen<br />
Programmen zu bewältigen ist, wird ein so genannter Part-of-Speech-Tagger benötigt, der<br />
diese Aufgabe übernimmt. Um eine gründliche Analyse der Satzstruktur durchzuführen,<br />
die den Anforderungen an die Suche nach den verschiedenen Textmerkmalen gerecht wird,<br />
kommt TreeTagger 1 zum Einsatz (siehe [Sch94]), der <strong>von</strong> Helmut Schmid an der Universität<br />
Stuttgart entwickelt wurde.<br />
Dieser Tagger ist in der Lage, gemäß STTS (siehe Abschnitt 7.3.2), den einzelnen Wörtern<br />
Tags zuzuweisen, die deren Funktion im Satz auf einer sehr detaillierten Wortartebene<br />
beschreiben. Darüber hinaus ermittelt TreeTagger auch die Grundform, sofern das Wort<br />
bekannt ist.<br />
1 Im Internet verfügbar unter: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/<br />
DecisionTreeTagger.html, zuletzt besucht am 3. April 2007<br />
76
7.4. Modellierung wesentlicher Programmteile<br />
TreeTagger zeichnet sich dadurch aus, dass er auf allen Betriebssystemen, für die auch<br />
MT Analyser vorgesehen ist, arbeiten kann. Ihm zugrunde liegt ein wahrscheinlichkeitstheoretisches,<br />
auf Entscheidungsbäumen basierendes Modell, dessen Parameter sich über<br />
manuell getaggte Textkorpora trainieren lassen [Sch94].<br />
TreeTagger arbeitet insgesamt sehr zuverlässig mit einer durchschnittlichen Fehlerquote<br />
<strong>von</strong> 2, 5 bis 5 Prozent je nach Version und zum Testen benutztem Textkorpus (vgl. [Sch95]<br />
und [SV98]). In einem Vergleich mit dem <strong>von</strong> Jongejan und Underwood [JU01] im Translatability<br />
Checker bei der Bewertung der Übersetzbarkeit verwendeten (regelbasierten)<br />
Brill-Tagger schneidet TreeTagger leicht besser ab (vgl. [SV98]).<br />
Trotz der relativ geringen Fehlerzahlen bleibt festzuhalten, dass immerhin jedes 20. bis 40.<br />
<strong>von</strong> TreeTagger zugewiesene Tag falsch und in Konsequenz die Erkennung <strong>von</strong> Textmerkmalen<br />
im betroffenen Satz bei Zugriff auf diese Tags beeinträchtigt ist. Ferner beschränken<br />
die vergebenen Tags wegen der Benutzung des STTS die Analysemöglichkeiten <strong>von</strong> MT<br />
Analyser im Nachfeld der Ausführung <strong>von</strong> TreeTagger (siehe Abschnitt 7.3.2).<br />
7.4. Modellierung wesentlicher Programmteile<br />
7.4.1. Komponenten <strong>von</strong> MT Analyser<br />
Es bietet sich an, das Programm MT Analyser zwecks besserer Strukturierung auf verschiedene<br />
kleinere Komponenten (in Java: Pakete) zu verteilen, die jeweils eine zusammengehörende<br />
Sammlung <strong>von</strong> Funktionen kapseln. Bedenkt man, dass als zentrale Funktionen<br />
die Einbindung <strong>von</strong> TreeTagger, die Bewertung der Übersetzbarkeit des ausgewählten<br />
Textes, die grafische sowie die textuelle Oberfläche, der Übersetzbarkeitsreport und die<br />
Verwaltung des Mehrdeutigkeitslexikons zu implementierten sind, erweist sich der folgende<br />
Programmaufbau in Paketen als sinnvoll:<br />
• Paket mtanalyser: Klassen zum Programmstart und zur übergeordneten Ablaufsteuerung<br />
• Paket mtanalyser.core: Klassen zur Speicherung der textbezogenen Daten und zur<br />
Bewertung der Übersetzbarkeit (vgl. 7.4.2)<br />
• Paket mtanalyser.reporting: Klassen zur Erstellung des Übersetzbarkeitsreports<br />
• Paket mtanalyser.lexicon: Klassen für das Mehrdeutigkeitslexikon<br />
• Paket mtanalyser.tagger: Klassen zur Datenaufbereitung für TreeTagger<br />
• Paket mtanalyser.gui: Klassen für die grafische Oberfläche<br />
• Paket mtanalyser.console: Klassen für die textuelle Oberfläche<br />
• Paket mtanalyser.exceptions: Klassen zur Ausnahmebehandlung<br />
7.4.2. Datenhaltung und Datenbearbeitung im Programmkern<br />
Die datentechnische Grundlage des Programms lässt sich wie folgt modellieren: Ein Text<br />
soll bewertet werden. Dieser Text besteht aus vielen verschiedenen, aber mindestens einem<br />
77
7. Modellierung <strong>von</strong> MT Analyser<br />
Satz, für den ebenfalls eine Wertung zu erstellen ist. Darüber hinaus besteht jeder Satz<br />
aus einem oder mehreren Teilsätzen, die benötigt werden, um die Textmerkmale darin<br />
zu suchen. Gleichzeitig ist einem Satz eine unbestimmte Anzahl größer oder gleich null<br />
<strong>von</strong> Übersetzungsschwierigkeiten zugeordnet, die sich aus den gefundenen Textmerkmalen<br />
ergeben.<br />
Daraus lassen sich vier Klassen ableiten: Text für den kompletten Text, Sentence für einen<br />
einzelnen Satz aus dem Text, PartialSentence für einen Teilsatz eines Satzes und TranslationDifficulty<br />
für eine Übersetzungsschwierigkeit. Hinzu kommt noch eine fünfte Klasse<br />
namens TextStatistics, die <strong>von</strong> der Klasse Text benutzt wird, um wichtige statistische<br />
Kennzahlen zu speichern.<br />
Zusätzlich müssen auf Basis dieser Datenhaltungsklassen alle wichtigen Berechnungen<br />
zur Bewertung der Übersetzbarkeit durchgeführt werden, wofür sich zwei weitere Klassen<br />
anbieten - je eine zur Berechnung auf Satz- und Textebene. Dies sind SentenceAnalyser zur<br />
Analyse eines einzelnen Satzes und TextAnalyser zur Analyse des gesamten Textes. Das<br />
Zusammenspiel zwischen den Klassen lässt sich dem UML-Klassendiagramm in Abbildung<br />
7.2 entnehmen.<br />
Klasse Text<br />
Die Klasse Text ist die oberste Klasse und kapselt einen kompletten Text. Sie besteht im<br />
wesentlichen aus einem Array mit mindestens einem Satz, gespeichert als Objekte vom<br />
Typ Sentence. Hinzu kommt eine Instanz vom Typ TextStatistics, in der die zum Text<br />
gehörenden Kennzahlen wie die Anzahl der gefundenen Schwierigkeiten hinterlegt sind.<br />
Drei Attribute sind auch direkt in der Klasse zugänglich, unter anderem die wichtigste<br />
Kennzahl, der Übersetzbarkeitsindex des gesamten Textes.<br />
Klasse Sentence<br />
Eine Instanz der Klasse Sentence repräsentiert einen Satz aus einem größeren Text und<br />
speichert über den eigentlichen Text hinaus weitere wichtige Parameter. Insbesondere<br />
gehören zu einem Satz auch die <strong>von</strong> TreeTagger vergebenen Tags und die jeweiligen<br />
Grundformen der Wörter. Sie werden wie auch die einzelnen Wörter in Arrays <strong>von</strong> jeweils<br />
identischer Größe gespeichert. Eine Darstellung des ursprünglichen Satzes als ein String<br />
ist ebenfalls verfügbar. Darüber hinaus sind in jedem Satz auch die einzelnen Teilsätze<br />
sowie die gefundenen Übersetzungsschwierigkeiten gespeichert. Jeder Satz hat mindestens<br />
einen Teilsatz, aber nicht unbedingt eine Übersetzungsschwierigkeit. Der Übersetzbarkeitsindex<br />
des Satzes sowie die Länge in Wörtern mit und ohne Satzzeichen können ebenfalls<br />
abgerufen werden.<br />
Klasse PartialSentence<br />
Die Klasse PartialSentence kapselt einen Teilsatz, der aus einem ganzen Satz extrahiert<br />
wurde. Die zugehörigen Wörter, Tags und Grundformen werden wie in der Klasse Sentence<br />
in gleichgroßen Arrays abgelegt. Ein Objekt der Klasse PartialSentence kann sowohl ein<br />
atomarer Teilsatz als auch ein aus mehreren Teilsätzen zusammengesetztes Aggregat sein.<br />
Der Parameter attached gibt dabei an, ob ein Teilsatz bereits einem anderen angegliedert<br />
wurde. Ist er auf falsch gesetzt, so steht der aktuelle Teilsatz für die Angliederung anderer<br />
Teilsätze bereit. Das Zusammenfügen zweier Teilsätze übernimmt die Methode attach.<br />
78
7.4. Modellierung wesentlicher Programmteile<br />
Abbildung 7.2.: Modellierung der zentralen Klassen zur Textbewertung<br />
79
7. Modellierung <strong>von</strong> MT Analyser<br />
Darüber hinaus wird gespeichert, wo der Teilsatz im gesamten Satz sich erstreckt (Attribute<br />
startPos und endPos) und an welchen Stellen er <strong>von</strong> einem anderen Teilsatz<br />
unterbrochen bzw. wieder aufgenommen wurde (Vektoren discontinuations und continuations).<br />
Außerdem wird im Attribut order eine Ordnungszahl gespeichert, die die Ebene<br />
in der Satzhierarchie angibt, auf der sich der Satz befindet (mehr dazu siehe Abschnitt<br />
8.2.3). Die übrigen Attribute beinhalten weitere Informationen zu der Art des Teilsatzes<br />
und werden in Abschnitt 8.2.2 erläutert.<br />
Klasse TranslationDifficulty<br />
Die Klasse TranslationDifficulty repräsentiert alle Arten <strong>von</strong> Übersetzungsschwierigkeiten,<br />
die entstehen, wenn ein bestimmtes Textmerkmal auftritt. Es wäre natürlich auch möglich<br />
gewesen, für jedes relevante Textmerkmal eine eigene Klasse zu entwerfen, jedoch ähneln<br />
sich alle Textmerkmale in ihren Attributen (alle haben Indexwerte, eine Nachricht für<br />
die Autoren etc.) sehr stark. Der einzige wesentliche Unterschied liegt in ihrer Länge: So<br />
bezieht sich eine Mehrdeutigkeit immer nur auf genau ein Wort, während ein Relativsatz<br />
einen ganzen Nebensatz umfasst. Gerade auch im Hinblick auf die Implementierung und<br />
eine mögliche Erweiterung der Analyse um neue Textmerkmale ist diese Vereinheitlichung<br />
sehr komfortabel.<br />
In einer Instanz des Typs TranslationDifficulty werden sämtliche Attribute mit den zugehörigen<br />
Werten gespeichert, die eine Übersetzungsschwierigkeit ausmachen. Dies sind<br />
im einzelnen:<br />
• Start- und Endposition der Übersetzungsschwierigkeit innerhalb des gesamten Satzes<br />
(Attribute startPos und endPos),<br />
• die aus Start- und Endposition abgeleitete Länge der Übersetzungsschwierigkeit<br />
(Attribut length),<br />
• der Typ der Übersetzungsschwierigkeit als Code (Attribut type) und als ausgeschriebener<br />
Name (Attribut name),<br />
• der Textausschnitt, der die Übersetzungsschwierigkeit widerspiegelt (Attribut words)<br />
sowie<br />
• eine Nachricht an die Autoren des bewerteten Textes (Attribut message).<br />
Klasse TextStatistics<br />
Um die Kennzahlen zu kapseln, die bei der Analyse eines Textes ermittelt werden, steht<br />
die Klasse TextStatistics zur Verfügung. Sie ermöglicht den Zugriff auf folgende Parameter,<br />
die den Text einstufen und hinter den entsprechenden englischnamigen Attributen<br />
verborgen sind: Übersetzbarkeitsindex des Textes, Satzanzahl, Wortanzahl, Zeichenanzahl<br />
(ohne Leerzeichen), Anzahl der Übersetzungsschwierigkeiten insgesamt, Anzahl der<br />
Inversionen, Anzahl der Mehrdeutigkeiten, Anzahl der abgetrennten Kompositionsglieder,<br />
Anzahl der Nominalklammern, Anzahl der Verbklammern, Anzahl der Relativsätze, minimaler<br />
und maximaler Übersetzbarkeitsindex eines Satzes sowie die Länge des kürzesten<br />
und längsten Satzes.<br />
80
7.4. Modellierung wesentlicher Programmteile<br />
Klasse TextAnalyser<br />
Eine Instanz der Klasse TextAnalyser dient dazu, den gesamten übergebenen Text zu<br />
bewerten und speichert dazu den errechneten Indexwert. Die Bewertung geschieht über<br />
die beiden Methoden analyseText() und calculateIndex(). Erstgenannte ruft für jeden<br />
einzelnen Satz alle Methoden auf, die nötig sind, um die Textmerkmale darin zu finden,<br />
zu bewerten und den Indexwert des Satzes zu berechnen. Dies erfolgt über die mit dem<br />
jeweiligen Satz verbundene Klasse SentenceAnalyser.<br />
Die Ergebnisse der Bewertung auf Satzebene werden dann in der Methode calculateIndex()<br />
aggregiert und der Gesamtindex des Textes berechnet. Über die Methode createStatistics()<br />
wird nach der Bewertung die dem gespeicherten Text-Objekt anhaftende TextStatistics-<br />
Instanz mit den Rahmeninformationen über den Text gefüllt.<br />
Den Ablauf der Textbewertung und das Zusammenspiel zwischen den Klassen TextAnalyser<br />
und SentenceAnalyser verdeutlicht das Sequenzdiagramm in Abbildung 7.3.<br />
Abbildung 7.3.: Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für<br />
beliebig viele Sätze<br />
Klasse SentenceAnalyser<br />
Die Klasse SentenceAnalyser stellt die Analysemechanismen auf Satzebene bereit. Sie<br />
speichert einen einzelnen Satz und zerlegt ihn als erstes in seine Haupt- und Nebensätze,<br />
wozu die Methoden findPartialSentences(), categorizePartialSentences(), orderPartialSentences()<br />
und rejoinPartialSentences() dienen. Diese werden in Abschnitt 8.2 näher vorgestellt.<br />
Für die Suche nach den verschiedenen Arten <strong>von</strong> Textmerkmalen werden die übrigen<br />
Methoden der Form find〈X〉(), die in Abschnitt 8.3 detailliert beschrieben werden, <strong>von</strong><br />
81
7. Modellierung <strong>von</strong> MT Analyser<br />
findTranslationDifficulties() aufgerufen. Dabei können die Gewichte der einzelnen Textmerkmale<br />
satzweise über die verschiedenen 〈X〉W eight-Attribute gesteuert werden. Ebenso<br />
kann durch Setzen der booleschen Attribute der Gestalt check〈X〉 bestimmt werden,<br />
welche Textmerkmale gesucht und bewertet werden sollen.<br />
Ein Aufruf der Methode findTranslationDifficulties() beginnt mit dem Ausführen der Methoden<br />
zur Satzzerlegung und durchsucht anschließend die so erhaltenen Teilsätze nach<br />
den ausgewählten Übersetzungsschwierigkeiten, die als Vektor im zugrundeliegenden Sentence-Objekt<br />
gespeichert werden. Im Anschluss an die Suche wird über die Methode calculateIndex()<br />
der Übersetzbarkeitsindex des aktuellen Satzes berechnet.<br />
7.4.3. Modellierung des Mehrdeutigkeitslexikons<br />
Ein Mehrdeutigkeitslexikon ist unverzichtbar, um eine Datenbasis zu haben, anhand derer<br />
Mehrdeutigkeiten im zu bewertenden Text gefunden werden können. Hier gibt es im<br />
wesentlichen zwei Möglichkeiten zur Datenspeicherung: in einer Datenbank oder in einer<br />
Datei. Weil eine Datenbank erst aufwändig <strong>von</strong> den Benutzern eingerichtet werden<br />
müsste und für ein Lexikon, das im Höchstfall einige tausend Einträge enthalten dürfte,<br />
überdimensioniert erscheint, fällt die Entscheidung auf eine Lexikondatei. Als Dateiformat<br />
wird XML gewählt, weil Java für die Bearbeitung <strong>von</strong> XML-Dateien im Paket javax.xml<br />
und den untergeordneten Paketen zahlreiche Hilfen bereitstellt. Zur Implementierung des<br />
Mehrdeutigkeitslexikons sind außer einer Lexikondatei nur noch drei weitere Klassen erforderlich,<br />
die in Abbildung 7.4 zu sehen sind.<br />
Klasse LexiconEntry<br />
Die Klasse LexiconEntry kapselt einen Lexikoneintrag und enthält dazu zwei Attribute:<br />
• basicForm: Die Grundform des mehrdeutigen Wortes.<br />
• pairsOfMeanings: Enthält Paare zueinandergehörender Bedeutungen in Deutsch und<br />
Englisch. Es müssen mindestens zwei Paare vorhanden sein, weil der Begriff sonst<br />
nicht mehrdeutig ist.<br />
Klasse PairOfMeanings<br />
Die Klasse PairOfMeanings kapselt ein Paar sich entsprechender Bedeutungen in Deutsch<br />
und Englisch. Als Attribute sind jeweils der deutsche und der englische Teil des Bedeutungspaares<br />
zu setzen.<br />
Lexikondatei lexicon.xml<br />
Zur Speicherung der Lexikoneinträge wird ein einfaches XML-Format definiert, das die<br />
LexiconEntry-Objekte abbildet und nach Buchstaben geordnet speichert. Die Ordnung<br />
nach Buchstaben (A - Z, Ä, Ö, Ü) erfolgt, damit die Suche nach einzelnen Einträgen<br />
effizienter gestaltet werden kann und ohne zusätzlichen Aufwand eine sortierte Anzeige in<br />
der Benutzungsoberfläche möglich ist.<br />
Das Lexikon besteht aus den verschiedenen Buchstaben des Alphabets. Jedem Buchstaben<br />
können beliebig viele Einträge zugeordnet werden, deren Grundform im XML-Attribut<br />
82
7.4. Modellierung wesentlicher Programmteile<br />
Abbildung 7.4.: Modellierung des Mehrdeutigkeitslexikons<br />
name gespeichert wird. Jeder Eintrag wiederum muss Bedeutungspaare mit deutscher und<br />
englischer Bedeutung aufweisen.<br />
Die zugehörige DTD sieht wie folgt aus:<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
83
7. Modellierung <strong>von</strong> MT Analyser<br />
Klasse LexiconHandler<br />
Über die Klasse LexiconHandler wird der Zugriff auf das Mehrdeutigkeitslexikon realisiert.<br />
Der gesamte Inhalt des Lexikons ist über das Attribut lexicon als XML-Dokument<br />
gespeichert. Mehrere synchronisierte und statische Methoden sorgen für das Hinzufügen,<br />
Auslesen und Entfernen <strong>von</strong> Einträgen.<br />
• initialiseLexicon(): Liest das Lexikon neu aus der zugehörigen Datei lexicon.xml aus.<br />
• getAllLexiconEntries(): Liefert sämtliche Lexikoneinträge als Objekte vom Typ LexiconEntry<br />
zurück.<br />
• findLexiconEntry(): Sucht anhand einer Grundform einen bestimmten Begriff und<br />
liefert ihn als LexiconEntry-Instanz zurück, sofern er existiert.<br />
• addLexiconEntry(): Fügt einen neuen Lexikoneintrag hinzu und speichert ihn in der<br />
Lexikondatei.<br />
• removeLexiconEntry(): Entfernt einen Lexikoneintrag mit einer bestimmten Grundform,<br />
sofern die Grundform vorhanden ist, und aktualisiert die Lexikondatei.<br />
84
8. Implementierung <strong>von</strong> MT Analyser<br />
8.1. Einbindung <strong>von</strong> TreeTagger<br />
8.1.1. Satzerkennung und Reformatierung des Textes<br />
TreeTagger verlangt, dass die zu taggenden Texte so formatiert sind, dass je ein Wort in<br />
einer Zeile steht. Zu diesem Zweck werden alle an MT Analyser übergebenen Textdateien<br />
zunächst mit Hilfe der Klasse Reformatter reformatiert und im neuen Format gespeichert.<br />
Zwar umfasst TreeTagger auch einen Algorithmus, der einen Text in die einzelnen Wörter<br />
und Satzzeichen zerlegt, jedoch zeigten sich hier bei der Erkennung gerade <strong>von</strong> Zahlen<br />
und Abkürzungen einige leicht zu behebende Fehleinteilungen. Weil zudem einige Zeichen<br />
in den Eingabedateien zwecks Vereinheitlichung der Zeichencodierung (es gibt u. a. verschiedene<br />
Versionen <strong>von</strong> Gedankenstrichen) durch andere ersetzt werden müssen, wurde<br />
ein eigener Algorithmus zur Reformatierung geschrieben, der jedes Wort bzw. Satzzeichen<br />
in eine eigene Zeile schreibt.<br />
Problematisch ist dabei vor allem der Umgang mit Punkten. Das Auftreten eines Punktes<br />
alleine ist für ein Satzende kein hinreichendes Kriterium, weil ein Punkt auch zu einer<br />
Abkürzung oder einer Ordinalzahl gehören kann. Über eine Liste mit über 300 gängigen<br />
Abkürzungen werden Punkte herausgefiltert, die kein Satzende markieren. Wörter aus<br />
nur einem Buchstaben, gefolgt <strong>von</strong> einem Punkt, werden ebenfalls als Abkürzungen betrachtet.<br />
Überdies werden Zahlen kleiner als 100 sowie kleine lateinische Zahlen, denen<br />
ein Punkt folgt, als Ordinalzahlen angesehen. Hier wäre sicherlich ein statistischer Ansatz<br />
exakter als eine starre Grenzziehung, allerdings steht kein Material zur Verfügung, anhand<br />
dessen sich ein Algorithmus mit höherer Genauigkeit schreiben ließe. In Tests traten<br />
durch diese willkürliche Einteilung jedoch nur sehr selten Fehler auf.<br />
8.1.2. Aufruf <strong>von</strong> TreeTagger<br />
Die reformatierte Datei wird gespeichert und als Parameter zusammen mit der Zieldatei an<br />
TreeTagger übergeben. TreeTagger verarbeitet dann die reformatierte Datei und speichert<br />
den getaggten Text in der Zieldatei. Dazu musste unter Windows die auszuführende Batch-<br />
Datei und in der Linux-/Solaris-Version <strong>von</strong> TreeTagger das auszuführende Shell-Skript<br />
leicht abgeändert werden.<br />
Der Aufruf aus MT Analyser erfolgt in der Methode execTreeTagger() in einem externen<br />
Prozess über die in Java enthaltene Klasse ProcessBuilder. Zu unterscheiden ist an<br />
dieser Stelle nach dem Betriebssystem, weil der Aufruf unter Windows anders funktioniert<br />
als unter Linux-/Solaris-<strong>Systeme</strong>n. Der folgende Codeausschnitt zeigt den Aufruf<br />
<strong>von</strong> TreeTagger.<br />
if(os.equals(OS_WINDOWS)) {<br />
pb = new ProcessBuilder("cmd", "/c", path + "tag-german.bat",<br />
85
8. Implementierung <strong>von</strong> MT Analyser<br />
inputFile, outputFile);<br />
} else {<br />
pb = new ProcessBuilder(path + "tree-tagger-german",<br />
inputFile, outputFile);<br />
}<br />
Process p = null;<br />
try {<br />
p = pb.start();<br />
} catch (IOException ex) {<br />
throw new TreeTaggerException("TreeTagger konnte " +<br />
"nicht gestartet werden:" + newline + ex.getMessage());<br />
}<br />
8.1.3. Verarbeitung der Ausgabe <strong>von</strong> TreeTagger<br />
Im Anschluss an die Ausführung wird die getaggte Textdatei eingelesen und daraus ein<br />
Text-Objekt erzeugt, das mit den in der Datei gefundenen Sätzen, die jeweils ein Sentence-<br />
Objekt ergeben, befüllt wird. Das Einlesen erfolgt jeweils zeilenweise, so dass bei der i-ten<br />
Zeile der Datei die i-ten Elemente der Arrays words, tags und basicForms des jeweiligen<br />
Sentence-Objekts mit den in der Textdatei vorgefundenen Werten beschrieben werden.<br />
Sind alle Sätze ausgelesen, steht der Text zur weiteren Analyse bereit.<br />
8.2. Algorithmen zur Satzanalyse<br />
Die Satzanalyse, das heißt die korrekte Zerlegung eines kompletten Satzes in die einzelnen<br />
Haupt- und Nebensätze, ist die Grundlage zur Erkennung mehrerer Textmerkmale: der<br />
Verbklammern, der Relativsätze, der Nominalklammern und der Inversion der Wortstellung.<br />
Sie alle können nur zuverlässig ausgemacht werden, wenn bekannt ist, was der sie<br />
umgebende Teilsatz ist bzw. um was für einen Teilsatz es sich handelt. So gelten etwa für<br />
die Wortstellung in Nebensätzen andere Regeln als in Hauptsätzen.<br />
Die Satzanalyse erfolgt in insgesamt vier Schritten und wird wie auch die Suche nach<br />
Textmerkmalen <strong>von</strong> der Klasse SentenceAnalyser übernommen. Im ersten Schritt wird<br />
ein Satz in sämtliche vorhandenen atomaren Teilsätze (s. u.) zerlegt, anschließend werden<br />
diese atomaren Teilsätze mit Attributen versehen, die ihre Rolle im Satz näher beschreiben.<br />
Drittens wird eine hierarchische Ordnung über die atomaren Teilsätze gelegt, bevor<br />
versucht wird, atomare Teilsätze anhand der zuvor vorgenommenen Kategorisierung und<br />
Hierarchisierung wieder zu größeren, zusammengehörigen Einheiten, die komplette Nebenoder<br />
Hauptsätze darstellen, zusammenzufügen.<br />
8.2.1. Zerlegung in atomare Teilsätze<br />
Die Zerlegung ganzer Sätze in atomare Teilsätze erfolgt ausschließlich anhand der Interpunktion.<br />
Dazu dient die Methode findPartialSentences(). Als atomarer Teilsatz gilt jeder<br />
Teilsatz, der keine weiteren der folgenden Satzzeichen mehr enthält: runde, geschweifte<br />
und eckige Klammern, Gedankenstriche, Semikola, Kommata und Doppelpunkte. Die<br />
dabei gefundenen atomaren Teilsätze müssen nicht unbedingt vollständige Neben- oder<br />
Hauptsätze sein.<br />
86
8.2. Algorithmen zur Satzanalyse<br />
Zunächst wird im gesamten Satz nach eingeklammerten Teilsätzen gesucht und anschließend<br />
nach Teilsätzen, die in Gedankenstrichen stehen. Beide stehen in der Hierarchie höher<br />
als Kommata, Semikola oder Doppelpunkte, die erst danach gesucht werden. Werden<br />
durch Klammern oder Gedankenstriche abgetrennte Teilsätze gefunden, wird innerhalb<br />
dieser Teilsätze rekursiv weitergesucht, und zwar wieder erst nach Teilsätzen in Klammern<br />
oder Gedankenstrichen und anschließend nach solchen, die durch die anderen Satzzeichen<br />
abgegrenzt werden, bis keine mehr gefunden werden.<br />
Insbesondere achtet der Algorithmus bei Teilsätzen in Klammern oder Gedankenstrichen<br />
darauf, dass diese in den weiteren Analyseschritten nicht mit Teilsätzen außerhalb derselben<br />
Klammern oder Gedankenstriche vermischt werden, weil dies falsche Hierarchisierungen<br />
oder Verknüpfungen <strong>von</strong> Teilsätzen nach sich ziehen könnte. So kann ein Teilsatz in<br />
einer Klammer niemals zu einem Teilsatz außerhalb dieser Klammer gehören. Abbildung<br />
8.1 zeigt für einen komplex strukturierten Satz schematisch, wie die rekursive Analyse<br />
abläuft.<br />
Abbildung 8.1.: Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden,<br />
mit Klammern und Gedankenstrichen versehenen Satzes<br />
Bei Klammern wird nicht überprüft, ob eine geöffnete Klammer jeweils <strong>von</strong> einer gleichartigen<br />
Klammer geschlossen wird, sondern nur, dass sie geschlossen wird.<br />
Folgende zwei Beispiele illustrieren die Zerlegung in atomare Teilsätze. Der Originalsatz<br />
Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung zusammen<br />
( ”<br />
tätliche Beleidigung“), so liegt häufig – aber nicht notwendig – eine Körperverletzung<br />
vor, die in Tateinheit zur Beleidigung steht. wird zerlegt in die Bestandteile:<br />
87
8. Implementierung <strong>von</strong> MT Analyser<br />
• Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung<br />
zusammen<br />
• so liegt häufig eine Körperverletzung vor<br />
• die in Tateinheit zur Beleidigung steht<br />
• ”<br />
tätliche Beleidigung“<br />
• aber nicht notwendig<br />
Der Satz Allgemein ordnet man dem Nordsommer die Monate Juni, Juli und August zu,<br />
dem Südsommer Dezember, Januar und Februar. gliedert sich nach der Zerlegung in die<br />
atomaren Teilsätze:<br />
• Allgemein ordnet man dem Nordsommer die Monate Juni<br />
• Juli und August zu<br />
• dem Südsommer Dezember<br />
• Januar und Februar<br />
8.2.2. Kategorisierung der atomaren Teilsätze<br />
Wenn alle atomaren Teilsätze gefunden sind, werden die Teilsätze in der Methode categorizePartialSentences()<br />
kategorisiert. Hierfür steht eine Reihe <strong>von</strong> booleschen Attributen<br />
zur Verfügung, im einzelnen:<br />
• finiteVerb: Zeigt an, ob der aktuelle Teilsatz mindestens ein finites Verb enthält oder<br />
nicht.<br />
• extendedInfiniteVerb: Zeigt an, ob der aktuelle Teilstz mindestens einen Infinitiv mit<br />
zu, der für jeden erweiterten Infinitiv benötigt wird, enthält oder nicht.<br />
• dependentClause: Zeigt an, ob der aktuelle Teilsatz der Anfang eines Nebensatzes<br />
ist oder nicht.<br />
• complementingDC: Zeigt an, ob der aktuelle Teilsatz das Komplement 1 eines Nebensatzes<br />
ist oder nicht.<br />
• needsComplementDC: Zeigt an, ob der aktuelle Teilsatz ein Nebensatzkomplement<br />
benötigt oder nicht.<br />
• infinitivePhrase: Zeigt an, ob der aktuelle Teilsatz der Anfang eines erweiterten<br />
Infinitivs ist oder nicht.<br />
• complementingIP: Zeigt an, ob der aktuelle Teilsatz das Komplement eines erweiterten<br />
Infinitivs ist oder nicht.<br />
1 Als Komplement eines Teilsatzes gilt jeder Teilsatz, der einen anderen Teilsatz ohne finites oder infinites<br />
Verb vervollständigt, indem er das benötigte Verb in sich trägt.<br />
88
8.2. Algorithmen zur Satzanalyse<br />
• needsComplementIP: Zeigt an, ob der aktuelle Teilsatz ein Komplement eines erweiterten<br />
Infinitivs benötigt oder nicht.<br />
• complementingMC: Zeigt an, ob der aktuelle Teilsatz das Komplement eines Hauptsatzes<br />
sein kann oder nicht.<br />
• unbound: Zeigt an, ob der aktuelle Teilsatz keiner Kategorie zugeordnet werden kann<br />
und damit quasi als ungebunden gelten kann oder nicht.<br />
Um die Attribute setzen zu können, wird eine Reihe <strong>von</strong> Regeln angewandt, während die<br />
verschiedenen Teilsätze jeweils wortweise durchlaufen werden, wobei sich einige Attribute<br />
gegenseitig ausschließen.<br />
Das Attribut finiteVerb wird auf wahr gesetzt, sobald im vorliegenden Teilsatz ein finites<br />
Verb gefunden wurde, wozu auch Imperative zählen. Dies ist bei allen Tags, die auf<br />
FIN oder IMP enden, der Fall. Ganz entsprechend wird das Attribut extendedInfinite-<br />
Verb gesetzt, wenn VVIZU als Auszeichnung für Infinitive mit eingebettetem zu als Tag<br />
auftaucht oder alternativ ein Tag mit dem Ende INF für einfache Infinitive mit einem<br />
vorangehenden zu.<br />
Ein Teilsatz, der eventuell ein Komplement benötigt, ist der Anfang eines erweiterten Infinitivs.<br />
Das Attribut infinitivePhrase wird auf wahr gesetzt, wenn entweder ein erweiterter<br />
Infinitiv vorliegt oder aber zu Beginn des Teilsatzes <strong>von</strong> TreeTagger eine unterordnende<br />
Konjunktion gefunden wurde (zugehöriges Tag: KOUI ), die erweiterte Infinitive einleitet<br />
wie etwa statt oder ohne. Als Beispiel diene hierfür der Satz Statt ein Fußballfest zu<br />
veranstalten, gingen die Münchner Bayern in Nürnberg blamabelst unter. Ist nach einer<br />
derartigen Konjunktion im selben Teilsatz kein Infinitiv mit zu zu finden, benötigt der<br />
Anfang des erweiterten Infinitivs noch ein passendes Komplement, um vollständig zu sein,<br />
so dass needsComplementIP wahr ist.<br />
Als Komplement des Anfangs eines erweiterten Infinitivs (complementingIP = wahr) wird<br />
ein Teilsatz genau dann behandelt, wenn er keine Objekte besitzt und er nur aus einem<br />
einzigen Infinitiv mit zu besteht. In einem solchen Fall kann der Infinitiv mit zu nicht<br />
als Teilsatz alleinstehen (er lässt sich nicht als eigener Teilsatz durch Kommata abtrennen)<br />
und sollte statt dessen mit einem anderen vorausgehenden Anfang des erweiterten<br />
Infinitivs verbunden werden. Im Satz Er ging, ohne das Licht, wie es Vorschrift war,<br />
auszuschalten. kann der Teilsatz auszuschalten nicht als durch Komma abgetrennter erweiterter<br />
Infinitiv allein stehen, weil ihm ein Objekt fehlt. Er muss daher mit dem vorhergehenden<br />
Anfang (ohne das Licht) des erweiterten Infinitivs zusammengefügt werden und<br />
bildet zu diesem das Komplement. Außerdem sind auch Zusammenfügungen mit bereits<br />
vollständigen erweiterten Infinitiven, etwa bei Aufzählungen, denkbar.<br />
Bei Nebensätzen wird ähnlich verfahren: Steht zu Anfang eines Teilsatzes eine unterordnende<br />
Konjunktion (Tag KOUS) wie dass oder wenn, setzt das Programm das Attribut<br />
dependentClause auf wahr. Gleiches gilt, wenn Relativpronomen zu Satzbeginn gefunden<br />
werden (Tags PRELS oder PRELAT ), aber auch bei zahlreichen Interrogativpronomen<br />
(Tags PWS, PWAT und PWAV ), sofern es sich nicht um eine Frage handelt. Der Fragesatz<br />
Wann willst du nach Hause gehen? wird somit nicht als Nebensatz markiert, der<br />
erste Teilsatz in Warum du das getan hast, verstehe ich nicht. schon.<br />
Um auch die im Deutschen häufigen konjunktionslosen Nebensätze zu erkennen, die insbesondere<br />
bei Konditional- und Kausalsätzen auftreten und sich durch invertierte Wortstellung<br />
auszeichnen, wird im ersten Teilsatz, sofern es sich nicht um eine Frage handelt,<br />
89
8. Implementierung <strong>von</strong> MT Analyser<br />
nach zu Anfang stehenden finiten Verben (ausgenommen Imperative) gesucht. Ein Beispiel<br />
hierfür ist der Satz Hättest du geschwiegen, wärst du Philosoph geblieben. Hier wird<br />
der erste Teilsatz korrekt als Nebensatz erkannt, der zweite gilt weiterhin als Hauptsatz.<br />
Erweiterte man den Satz um einen zweiten Konditionalsatz ohne Konjunktion zu Beginn<br />
oder am Ende des Satzes, so könnte dieser allerdings nicht erkannt werden, weil sich die<br />
Wortstellung nicht mehr <strong>von</strong> der eines Hauptsatzes an derselben Stelle unterschiede.<br />
Ebenso wenig kann erkannt werden, wann konjunktionslose Objektsätze wie Ich sage<br />
mal, wir machen das. vorliegen, die normalerweise mit dass oder ob eingeleitet werden<br />
müssten und nicht mit dem übergeordneten Hauptsatz verbunden werden dürfen, weil es<br />
wegen der fehlenden Konjunktion und der mit Hauptsätzen identischen Wortstellung keine<br />
Möglichkeit gibt, sie mit hoher Genauigkeit zu identifizieren. Bei indirekter Rede wäre eine<br />
Identifizierung noch am ehesten wegen des vom Indikativ in den Konjunktiv wechselnden<br />
Modus möglich, jedoch liefert TreeTagger keine Modusangaben, und die Implementierung<br />
einer Moduserkennung würde über den Rahmen dieser Arbeit hinausgehen.<br />
Dieses Manko ist insofern aber nicht schlimm, als derartige Konstruktionen in Dokumenten,<br />
in denen auf eine gehobene, formalere Ausdrucksweise Wert gelegt wird, relativ selten<br />
vorkommen und kein Textmerkmal deswegen unentdeckt bleibt.<br />
Wenn ein Nebensatzanfang anhand der zuvor beschriebenen Kriterien entdeckt wurde,<br />
aber kein finites Verb hat (finiteVerb = false) und somit unvollständig ist, benötigt er ein<br />
Komplement, um vollständig zu werden, so dass needsComplementDC auf wahr gesetzt<br />
wird.<br />
Etwas schwieriger ist es wiederum festzustellen, wann ein Satz ein Komplement für einen<br />
angefangenen Nebensatz darstellt. Ein absolut sicheres Kriterium hierfür gibt es nicht,<br />
allerdings einen guten Anhaltspunkt, den MT Analyser nutzt: Weil in Nebensätzen das<br />
Prädikat am Ende steht, wird bei einem finiten Verb in Endposition angenommen, dass es<br />
sich um ein Nebensatzkomplement handelt (complementingDC = wahr), sofern dem aktuellen<br />
Teilsatz bereits ein Nebensatzanfang vorausgegangen ist. Dabei kann es allerdings<br />
bei kurzen Sätzen zu Überschneidungen mit Hauptsatzkomplementen kommen. Weil bei<br />
Fortsetzungen <strong>von</strong> Hauptsätzen das finite Verb oftmals an erster Stelle steht oder abgetrennt<br />
vom finiten Verb am Ende der Verbklammer Partizipien (Tags VAPP, VMPP,<br />
VVPP) oder Infinitive stehen, wird in allen Teilsätzen danach gesucht und im Falle eines<br />
Auftretens das zugehörige Attribut complementingMC auf wahr gesetzt.<br />
Eine gezielte Suche nach Anfängen <strong>von</strong> Hauptsätzen oder danach, ob ein Hauptsatz eines<br />
Komplements bedarf, findet allerdings nicht statt, weil sich anhand der verfügbaren<br />
Informationen nicht exakt bestimmen lässt, was ein Hauptsatz ist und was nicht. Als<br />
möglicher Bestandteil des Hauptsatzes wird alles behandelt, was als Hauptsatzkomplement<br />
markiert ist oder ein finites Verb hat und nicht zu einem Nebensatz oder einem<br />
erweiterten Infintiv zählt. (Überschneidungen <strong>von</strong> Nebensatz- und Hauptsatzkomplementen<br />
sind allerdings wie erwähnt erlaubt.) Dieses Vorgehen erwies sich beim Testen des<br />
Algorithmus als sinnvoll, weil es gute Resultate bei der Analyse lieferte.<br />
Wenn ein Teilsatz weder Komplement noch Nebensatz noch erweiterter Infinitiv ist und<br />
auch kein finites Verb hat und überhaupt keine begründete Einordnung möglich ist, wird er<br />
als ungebunden betrachtet (unbound = wahr) und ist somit später sehr frei im Eingehen<br />
<strong>von</strong> Verbindungen mit anderen Sätzen. Hierzu zählen insbesondere Appositionen oder<br />
kurze Anfänge oder Enden <strong>von</strong> Haupt- oder Nebensätzen, die dann durch einen anderen<br />
Teilsatz unterbrochen werden.<br />
90
8.2. Algorithmen zur Satzanalyse<br />
Beispielsatz<br />
An dieser Stelle soll die Kategorisierung der atomaren Teilsätze anhand eines komplexen<br />
Beispielsatzes vorgeführt werden. Der Satz Dass ich meinen Koffer vergessen hatte, bemerkte<br />
ich, nachdem ich das Hotel, in dem ich gewohnt hatte, verlassen hatte, und machte<br />
kehrt. liefert insgesamt sechs atomare Teilsätze, jeweils durch ein Komma getrennt. Beim<br />
sequenziellen Durchlaufen der Teilsätze wird nun der erste Teilsatz als Nebensatz erkannt,<br />
weil er durch die unterordnende Konjunktion dass eingeleitet wird. Er hat darüber hinaus<br />
ein finites Verb (hatte), so dass er kein Komplement benötigt und das entsprechende<br />
Attribut nicht gesetzt wird. Der zweite Teilsatz bemerkte ich wird dagegen als Hauptsatzkomplement<br />
eingestuft, weil das finite Verb bemerkte am Anfang steht. Der dritte<br />
Teilsatz wird wiederum wegen der einleitenden unterordnenden Konjunktion nachdem als<br />
Nebensatz eingestuft, hat diesmal allerdings kein finites Verb, so dass er eines Komplements<br />
bedarf (needsComplementDC = wahr). Der nun folgende Relativsatz wird wegen<br />
des Relativpronomens zu Beginn ebenfalls als Nebensatz eingestuft, benötigt aber wegen<br />
des finiten Verbs am Ende kein Komplement. Den nun folgenden Teilsatz verlassen hatte<br />
sieht der Algorithmus dagegen als Nebensatzkomplement an, weil ein finites Verb am Ende<br />
vorliegt, was bei Hauptsätzen eine unübliche Wortstellung wäre. Der letzte Teilsatz und<br />
machte kehrt ist für das Programm ein potenzieller Hauptsatz wegen des finiten Verbs,<br />
aber kein Hauptsatzkomplement, weil das finite Verb machte nicht am Anfang steht. Tabelle<br />
8.2.2 zeigt die Kategorisierung dieses Satzes mit den benötigten Attributen in einer<br />
Übersicht.<br />
Teilsatz finite- dependent- needsComple- complemen- complemen-<br />
Verb Clause mentDC tingDC tingMC<br />
Dass ... hatte × ×<br />
bemerkte ich × ×<br />
nachdem ... Hotel × ×<br />
in dem ... hatte × ×<br />
verlassen hatte × ×<br />
und machte kehrt ×<br />
Tabelle 8.1.: Beispielsatz mit Kategorisierung der einzelnen Teilsätze<br />
8.2.3. Hierarchisierung der atomaren Teilsätze<br />
Im zweiten Schritt werden die soeben kategorisierten Teilsätze innerhalb des gesamten<br />
Satzes mit einer Ordnung versehen, die über Zahlenwerte ausgedrückt wird. Der Wert<br />
der Ordnung gibt die Ebene an, auf der sich ein Teilsatz, ausgehend vom Hauptsatz,<br />
der auf Ebene 0 eingeordnet wird, befindet. Abbildung 8.2 verdeutlicht die Vergabe der<br />
Ordnungszahlen anhand des bereits bekannten Beispielsatzes.<br />
Der einleitende Nebensatz Dass ich meinen Koffer vergessen hatte erhält die Ordnungszahl<br />
1, weil er direkt über dem darauffolgenden Hauptsatz (Ordnungszahl 0) in der Hierarchie<br />
angeordnet ist. Der an den Hauptsatz anschließende Temporalsatz erhält wieder die<br />
Ordnungszahl 1, weil er eine Ebene über dem Hauptsatz steht. Der Relativsatz an vierter<br />
Stelle ist in den Temporalsatz eingebettet und damit noch eine Ebene darüber, weshalb er<br />
die Ordnungszahl 2 erhält. Danach folgt noch das Komplement des Temporalsatzes, das<br />
91
8. Implementierung <strong>von</strong> MT Analyser<br />
Abbildung 8.2.: Beispielsatz mit Hierarchisierung der einzelnen Teilsätze<br />
zwar theoretisch auf Ebene des Relativsatzes sein könnte. Weil dieser aber ein finites Verb<br />
am Ende hat und somit vom Algorithmus als abgeschlossen betrachtet wird, erniedrigt<br />
sich die Ordnungszahl auf den Wert 1. Am Ende steht der zweite Teil des Hauptsatzes,<br />
dessen Ordnungszahl auf 0 gesetzt wird, weil das vorausgehende Nebensatzkomplement<br />
mit einem finiten Verb endet und ebenfalls als abgeschlossen angesehen wird.<br />
Die Vorgehensweise des Algorithmus ist dabei allgemein folgende: Alle Teilsätze werden<br />
in der ursprünglichen Reihenfolge durchlaufen. Beginnt ein neuer Nebensatz, so wird<br />
die Ebene und damit die Ordnungszahl jeweils um 1 erhöht. Findet sich am Ende des<br />
Nebensatzes ein finites Verb, wie es die Wortstellung im Deutschen vorsieht, so wird, weil<br />
zur Vollständigkeit des Nebensatzes kein Komplement mehr benötigt wird, angenommen,<br />
dass der Nebensatz beendet ist und die Ordnungszahl wieder um 1 herabgesetzt. Dies<br />
ist nötig, weil sich sonst aufeinanderfolgende, aber nicht verschachtelte Nebensätze in<br />
verschiedenen Ebenen befinden würden, obwohl sie auf derselben Ebene der Satzhierarchie<br />
liegen. Komplemente zu Nebensätzen behalten die aktuell gültige Ebene bei.<br />
Erweiterte Infinitive erhöhen die Ordnungszahl der Satzebene nur dann, wenn sie ein<br />
Komplement benötigen, also ein Infinitiv mit zu noch fehlt. Die Anzahl dieser geöffneten<br />
erweiterten Infinitive wird gespeichert und jedesmal, wenn ein Komplement, zu dem es<br />
auch einen geöffneten erweiterten Infinitiv gibt, vorkommt, um 1 erniedrigt. Erst wenn<br />
ihr Wert auf 0 gesunken ist, wird bei einem neuen erweiterten Infinitiv die Ordnungszahl<br />
wieder erhöht.<br />
Andere Komplemente hingegen verändern die aktuelle Ordnungszahl nicht. Gleiches gilt<br />
auch für ungebundene Teilsätze.<br />
8.2.4. Zusammenfügen der atomaren Teilsätze<br />
Im letzten Schritt wird unter Zuhilfenahme <strong>von</strong> Kategorisierung und Hierarchisierung der<br />
atomaren Teilsätze in den beiden vorangegangenen Abschnitten der Analyse versucht,<br />
Teilsätze zu größeren Einheiten zusammenzufügen, so dass jeder verbliebene Teilsatz am<br />
Ende des Vorgangs einen kompletten Hauptsatz, Nebensatz oder erweiterten Infinitiv darstellt<br />
und sich für die Suche nach Textmerkmalen eignet. Für das Zusammenfügen sind die<br />
Methoden rejoinPartialSentences() in der Klasse SentenceAnalyser und attach() in der<br />
Klasse PartialSentence zuständig. Atomare Teilsätze, die bereits einem anderen Teilsatz<br />
angegliedert wurden (attached = true), werden nicht mehr untersucht, um Doppelverbindungen<br />
zu vermeiden, wohl aber die Teilsätze, denen sie angegliedert wurden.<br />
In erstgenannter Methode wird in dieser Reihenfolge für alle erweiterten Infinitve, Nebensätze,<br />
Hauptsätze und ungebundenen Teilsätze überprüft, ob es in der Gesamtheit der<br />
Teilsätze einen oder mehrere andere gibt, die <strong>von</strong> ihren Attributen her passend sind und<br />
mit dem aktuellen Satz verbunden werden können. Die Reihenfolge begründet sich damit,<br />
dass zunächst die klar markierten Anfänge <strong>von</strong> erweiterten Infinitven und Nebensätzen<br />
versuchen sollen, alle passenden Teilsätze an sich zu binden, bevor die darunterliegenden<br />
92
8.2. Algorithmen zur Satzanalyse<br />
und nicht so klar markierten Hauptsätze die übrigen Teilsätze aufnehmen sollen. In den<br />
Tests erwies sich diese Abfolge der verschiedenen Satzarten als sehr nützlich, weil ohne sie<br />
oftmals Nebensätze oder erweiterte Infinitive nur unvollständig zusammengefügt wurden.<br />
Die ungebundenen Sätze suchen erst zum Schluss nach anderen passenden Sätzen, weil<br />
sie in der Regel zu recht vielen Teilsätzen gehören könnten und es sich als günstiger herausgestellt<br />
hat, erst andere Teilsätze versuchen zu lassen, sich mit ihnen anhand besserer<br />
Kriterien zu verbinden. Im Zweifel, wenn eine eindeutige Zuordnung nicht möglich ist,<br />
bleiben sie unverbunden.<br />
Es werden im Laufe des Algorithmus nur Teilsätze miteinander verbunden, die sowohl<br />
<strong>von</strong> ihren Attributen als auch <strong>von</strong> ihrer Ordnungszahl her zueinander passen. So werden<br />
mit einer einzigen Ausnahme in einem Sonderfall bei ungebundenen Teilsätzen nur solche<br />
Teilsätze verbunden, deren Ordnungszahlen gleich sind; dies aber auch nur dann, wenn<br />
dazwischen kein anderer Teilsatz eine niedrigere Ordnungszahl oder, falls der andere Teilsatz<br />
ein neuer Nebensatz oder ein neuer erweiterter Infinitiv ist, dieselbe Ordnungszahl<br />
aufweist.<br />
Bei den Attributen gilt für Anfänge <strong>von</strong> Nebensätzen und erweiterten Infinitiven, dass sie<br />
nur mit den jeweiligen Komplementen oder ungebundenen Teilsätzen verbunden werden<br />
können. Komplemente wiederum können nur dann mit zugehörigen Anfängen verbunden<br />
werden, wenn diese vor dem Komplement liegen. Mutmaßliche Hauptsätze oder deren<br />
Komplemente können dagegen mit ungebundenen Sätzen, anderen Hauptsätzen und<br />
Hauptsatzkomplementen unabhängig <strong>von</strong> deren Position zusammengehen.<br />
Die an dieser Stelle noch übrig gebliebenen ungebundenen Teilsätze suchen nun nach<br />
anderen Teilsätzen mit gleicher Ordnungszahl. Wenn eine Zuordnung nicht möglich ist,<br />
weil etwa der infrage kommende Teilsatz auf gleicher Ebene ein Nebensatzanfang ist und<br />
hinter dem ungebundenen Satz steht, versucht der Algorithmus eine Zuordnung des ungebundenen<br />
Teilsatzes zu einem der maximal zwei direkt umgebenden Teilsätze, auch wenn<br />
leichte Abweichungen in den Ordnungszahlen vorliegen.<br />
Beispielsatz<br />
Die genaue Funktionsweise dieses Algorithmus wird anhand des bekannten Beispielsatzes<br />
(Dass ich meinen Koffer vergessen hatte, bemerkte ich, nachdem ich das Hotel, in dem<br />
ich gewohnt hatte, verlassen hatte, und machte kehrt.) wiedergegeben. Die kategorisierten<br />
und hierarchisierten Teilsätze werden nun in der oben genannten Reihenfolge durchlaufen.<br />
Weil es im Beispiel keine erweiterten Infinitive gibt, wird mit dem Zusammenfügen <strong>von</strong><br />
Nebensätzen fortgefahren.<br />
Für den einleitenden Nebensatz beginnt die Suche nach passenden Ergänzungen mit dem<br />
Teilsatz bemerkte ich. Weil dieser jedoch eine niedrigere Ordnungszahl hat als der Nebensatz,<br />
kommt er nicht infrage und ebenso wenig alle weiteren Nebensätze. Für den ersten<br />
Teilsatz gibt es also keine Ergänzungen. Als nächstes wird der dritte Teilsatz (nachdem<br />
ich das Hotel) betrachtet. Der folgende Relativsatz passt unter anderem wegen der höheren<br />
Ordnungszahl nicht, jedoch der fünfte Teilsatz vergessen hatte, weil es sich dabei um<br />
ein Nebensatzkomplement handelt und der aktuelle Nebensatz ein Komplement benötigt<br />
und dieselbe Ordnungszahl aufweist. Dementsprechend werden beide Sätze miteinander<br />
verbunden. Der letzte Teilsatz kommt wiederum nicht infrage, unter anderem weil er eine<br />
niedrigere Ordnungszahl aufweist. Der als nächstes untersuchte Relativsatz kann nicht<br />
mit anderen Sätzen verbunden werden, weil kein anderer dieselbe Ordnungszahl besitzt.<br />
93
8. Implementierung <strong>von</strong> MT Analyser<br />
Nun werden noch die beiden Teile des Hauptsatzes überprüft. Für den Teilsatz bemerkte<br />
ich kommt der vorausgehende Teilsatz nicht infrage, weil das ein Nebensatz ist, mit<br />
derselben Begründung ebenso wenig die beiden Nachfolger. Der fünfte Teilsatz vergessen<br />
hatte wurde bereits an einen anderen angehängt und wird deshalb nicht mehr berücksichtigt.<br />
Der letzte Teilsatz und machte kehrt ist hingegen auf derselben Ebene und kein<br />
Nebensatz oder erweiterter Infinitiv. Er wird daher mit dem zweiten Teilsatz verbunden,<br />
womit das Zusammenfügen abgeschlossen ist.<br />
8.2.5. Überprüfung der Satzanalyse<br />
Um die Genauigkeit der Satzanalyse zu testen, wurden einerseits die unbearbeiteten Textkorpora<br />
zu Nebensätzen und Relativsätzen ausgewählt und <strong>von</strong> MT Analyser in ihre<br />
Teilsätze zerlegt, weil sie am ehesten komplexe Satzkonstruktionen garantieren und damit<br />
hohe Anforderungen an die Algorithmen stellen, und des weiteren noch zwei andere,<br />
willkürlich ausgewählte unbearbeitete Textkorpora hinzugenommen. Insgesamt wurde die<br />
Arbeit der Algorithmen zur Satzanalyse an 340 Sätzen überprüft.<br />
Von diesen 340 Sätzen wurden 322 vollkommen richtig in Haupt- und Nebensätze aufgeteilt,<br />
wobei in neun Fällen die Algorithmen <strong>von</strong> MT Analyser eine falsche Einteilung<br />
verursachten, während in den neun anderen Fällen die Fehler auf falsche Klassifikationen<br />
durch TreeTagger zurückzuführen waren, so dass MT Analyser keine Chance hatte,<br />
richtig zu arbeiten. Geht man <strong>von</strong> den 331 Sätzen aus, in denen eine korrekte Analyse<br />
möglich war, ergibt sich bei 322 korrekten Analysen eine Genauigkeit <strong>von</strong> 97, 3 Prozent.<br />
Das Ergebnis zeigt also, dass die Algorithmen sehr zuverlässig arbeiten.<br />
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />
Textmerkmale werden ausschließlich auf Satzebene gesucht, weil kein Textmerkmal satzübergreifend<br />
auftreten kann. Um sie zu finden, greift MT Analyser auf die einzelnen<br />
Wörter sowie deren <strong>von</strong> TreeTagger zugeordneten Grundformen und Tags zu. Für abgetrennte<br />
Kompositionsglieder, Mehrdeutigkeiten und Relativsätze reicht das bloße Antreffen<br />
jeweils eines Tags, einer Grundform oder eines Wortes an bestimmten Stellen des<br />
Satzes. Um das Vorkommen eines anderen Textmerkmals sicher bestimmen zu können,<br />
müssen, sobald Anzeichen für das Auftreten dieses Merkmals vorliegen, weitere Analysen<br />
der Satzstruktur unternommen werden. Diese können sich allerdings auf den jeweiligen<br />
Teilsatz beschränken, weil Textmerkmale sich nur innerhalb eines einzigen Teilsatzes befinden<br />
können. So kann etwa eine Verbklammer nicht im Hauptsatz beginnen und dann<br />
in einem Nebensatz enden. Im folgenden werden die Algorithmen für die einzelnen Textmerkmale<br />
näher beschrieben.<br />
8.3.1. Abgetrennte Kompositionsglieder<br />
Die Erkennung abgetrennter Kompositionsglieder ist <strong>von</strong> allen die einfachste. Weil jedesmal,<br />
wenn ein Wort in einem deutsprachigen Text mit einem Bindestrich anfängt<br />
oder aufhört, ein abgetrenntes Kompositionsglied vorliegt, reicht es aus, nach diesen Bindestrichen<br />
Ausschau zu halten. Genauso verfährt der Algorithmus, der Wort für Wort<br />
den aktuell vorliegenden Satz durchsucht und das erste bzw. letzte Zeichen jedes Wortes<br />
94
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />
daraufhin überprüft, ob es ein Bindestrich ist. Satzzeichen werden <strong>von</strong> der Betrachtung<br />
ausgeschlossen. Der folgende Codeausschnitt zeigt die Erkennung <strong>von</strong> abgetrennten Kompositionsgliedern.<br />
String[] words = sentence.getWords();<br />
for(int i = 0; i < words.length; ++i) {<br />
if(words[i] != null && !isPunctuation(words[i]) &&<br />
(words[i].endsWith("-") || words[i].startsWith("-"))) {<br />
TranslationDifficulty td = createHyphenatedCompound(sentence,i);<br />
difficulties.add(td);<br />
}<br />
}<br />
Aufgrund der Einfachheit des Algorithmus erbrachte auch der Test mit dem unbearbeiteten<br />
Korpus für Ellipsen aller Art eine Erkennungsquote <strong>von</strong> 100 Prozent für abgetrennte<br />
Kompositionsglieder.<br />
8.3.2. Inversionen der Wortstellung<br />
Bei der Inversion sind in Übereinstimmung mit der Klassifikation der Teilsätze durch<br />
MT Analyser in Hauptsätze, Nebensätze und erweiterte Infinitive verschiedene Muster<br />
anzuwenden, die sich hinsichtlich der erwarteten Wortstellung an die in Abschnitt 5.2.4<br />
dargestellten Standardwortstellungen halten. Die Suche nach invertierter, aber grammatikalisch<br />
korrekter Wortstellung ist dabei nicht zu verwechseln mit der Suche nach falscher<br />
Wortstellung. Sie muss also erkennen, dass ein Satz wie Gesehen habe ich dich noch nie.<br />
<strong>von</strong> der normalen Wortstellung in einem Hauptsatz mit Subjekt an erster und finitem<br />
Verb an zweiter Position abweicht, jedoch nicht, dass etwa Ich habe gesehen noch nie<br />
dich. schlichtweg falsch ist.<br />
Nebensätze<br />
Die normale Wortstellung in Hauptsätzen verlangt insbesondere, dass das finite Verb<br />
in Endstellung steht. Dementsprechend untersucht MT Analyser alle Nebensätze vom<br />
Anfang ausgehend nach finiten Verben. Wird ein finites Verb gefunden, das nicht am<br />
Ende steht, ohne dass direkt darauf ein weiteres Verb oder eine Konjunktion, die einen<br />
neuen Teil des Nebensatzes einleitet, folgt, wird die Wortstellung als invertiert betrachtet.<br />
Auf diese Weise werden auch die insbesondere in der Umgangssprache häufigen Umstellungen<br />
der Art weil er wollte nicht mehr vorbeikommen abgedeckt und erkannt. Der zweite<br />
Teilsatz in Sie ging einkaufen, weil sie noch Geld übrig hatte und dringend ein neues<br />
Parfüm suchte. wird hingegen nicht als invertiert betrachtet, weil nach dem ersten finiten<br />
Verb eine Konjunktion steht.<br />
Darüber hinaus wird der veränderten Wortstellung bei doppelten Infinitiven Rechnung<br />
getragen, wie etwa in dem Satz weil er nicht hatte vorbeikommen wollen. Infinitivgruppen<br />
am Ende werden nicht als invertiert angesehen, sofern direkt vor ihnen ein finites Verb<br />
steht. Tritt eine Verneinung auf, muss sie vor dem Verb stehen. Der Kausalsatz weil er<br />
hatte nicht vorbeikommen wollen würde also korrekt als invertiert erkannt.<br />
95
8. Implementierung <strong>von</strong> MT Analyser<br />
Erweiterte Infintive<br />
Im Gegensatz zu Nebensätzen beginnt die Analyse erweiterter Infinitiven am Satzende,<br />
wo entweder ein Infintiv mit davorstehendem Partikel zu (Tagkombination PTKZU +<br />
VVINF, VAINF oder VMINF ) erwartet wird, oder ein Infinitiv, der den Partikel zu<br />
bereits in sich trägt (Tag VVIZU ). Gruppen solcher Infinitive werden auch akzeptiert,<br />
sobald aber mehr als nur eine Konjunktion oder ein den Infinitiv näher bestimmendes<br />
Adverb zwischen ihnen stehen, gilt der Teilsatz als invertiert.<br />
Hauptsätze<br />
Am schwierigsten erwies sich die Analyse der Wortstellung im Hauptsatz, weil hier viele<br />
verschiedene Fälle zu beachten sind, in denen die Wortstellung invertiert ist, und die<br />
<strong>von</strong> TreeTagger vergebenen Tags nicht immer genügend grammatikalische Information<br />
enthalten, um allein mit ihrer Hilfe eine Inversion zu bestimmen (vgl. hierzu die Beispiele<br />
in Abschnitt 5.2.4). Dabei werden nur in den Fällen Übersetzungsschwierigkeiten erzeugt,<br />
die wirklich eindeutig eine Inversion darstellen, um Falschmeldungen zu vermeiden.<br />
Als erstes wird überprüft, ob es sich um eine Frage oder einen Befehl handelt. In diesem<br />
Fall werden an der Spitze bzw. vor dem Personalpronomen stehende finite Verben nicht<br />
beanstandet. Ansonsten wird dies als Inversion markiert, etwa in dem Satz Bevor der Zoo<br />
eröffnet wurde, musste er renoviert werden. Dabei wird insbesondere überprüft, ob eine<br />
Form eines Pronomens, die eindeutig als Nominativ identifizierbar ist, direkt hinter dem<br />
finiten Verb steht. Dies ist nur für die Personal- und Indefinitpronomen ich, du, er, wir,<br />
man, jemand und niemand möglich.<br />
Analog zur Suche nach Nominativen hinter dem finiten Verb wird vor dem finiten Verb<br />
nach Formen <strong>von</strong> Pronomen gesucht, die nie im Nominativ auftreten. Bei Adjektiven<br />
an der Spitze eines Teilsatzes, die auf -en und -em enden, wird ebenfalls eine Inversion<br />
erkannt. Stehen andere Indikatoren am Satzanfang vor dem finiten Verb, die eindeutig eine<br />
Abweichung <strong>von</strong> der Standardwortfolge nach sich ziehen, wie beispielsweise Präpositionen<br />
oder ein Adverb, so wird ebenfalls eine Übersetzungsschwierigkeit erzeugt.<br />
Testergebnisse<br />
Der Algorithmus wurde mit Hilfe des unbearbeiteten Textkorpus zu Inversionen der Wortstellung<br />
getestet. Dabei wurden im gesamten Text 96 Inversionen entdeckt bei 108 vorhandenen.<br />
Dies entspricht einer Erkennungsquote <strong>von</strong> 88, 9 Prozent. Dabei kam es allerdings<br />
öfter vor, dass wegen falscher Tags und daraus resultierender falscher Zusammensetzung<br />
der Teilsätze der als invertiert angezeigte Satzausschnitt zu lang war. Ebenfalls entstanden<br />
durch falsche Tags zwei Fehlerkennungen.<br />
Beschränkt man die Betrachtung auf die 87 Sätze, in denen weder fehlerhafte Tags noch<br />
inkorrekt zusammengefügte Teilsätze die Erkennung behinderten, so ergibt sich folgendes<br />
Bild: Von 88 vorhandenen Inversionen wurden 81 erkannt, was einer Quote <strong>von</strong> 92, 0<br />
Prozent entspricht. Fehlerkennungen traten dabei nicht mehr auf.<br />
8.3.3. Mehrdeutigkeiten<br />
Der Algorithmus für die Suche nach Mehrdeutigkeiten gestaltet sich mit dem Mehrdeutigkeitslexikon<br />
im Hintergrund relativ einfach. Es bedarf lediglich eines Abgleichs zwischen<br />
96
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />
den in der Lexikondatei eingetragenen Grundformen der mehrdeutigen Begriffe und den<br />
<strong>von</strong> TreeTagger ermittelten Grundformen der Wörter innerhalb eines Satzes. Dazu wird<br />
das in der Klasse LexiconHandler hinterlegte Lexikon ausgelesen und für jedes Wort an<br />
x-ter Stelle eines Satzes überprüft, ob sich in dem XML-Dokument ein Knoten vom Typ<br />
entry mit passendem Wert des Attributs name findet, der der in basicForms[x] gespeicherten<br />
Grundform entspricht. Ist dem so, wird eine Übersetzungsschwierigkeit vom Typ<br />
Mehrdeutigkeit erzeugt, in der auch die verschiedenen zugehörigen Bedeutungen zwecks<br />
Anzeige im Übersetzbarkeitsreport abgelegt werden.<br />
8.3.4. Nominalklammern<br />
Mit Abstand am schwierigsten gestaltete sich die Erkennung <strong>von</strong> Nominalklammern. Hier<br />
gibt es viele Fälle, in denen anhand der durch TreeTagger verfügbaren grammatikalischen<br />
Informationen nicht entschieden werden kann, ob es sich um eine Nominalklammer gemäß<br />
der Definition aus Abschnitt 5.2.2 handelt oder nicht. Ein Beispiel hierfür ist die Tag-<br />
Abfolge ART ADJA NN ADJA NN. Diese kann sowohl für einen uninteressanten Satzausschnitt<br />
wie < np >die schnelle Entwicklung< /np > < np >neuer Technologien< /np >,<br />
in dem zwei Nominalphrasen, abgegrenzt durch < np > bzw. < /np >, aufeinander folgen,<br />
als auch für einen Satzausschnitt wie < np >der < np >kürzere Fahrzeiten< /np ><br />
ermöglichende Streckenausbau< /np >, in dem sich innerhalb der umgebenden Nominalphrase<br />
eine weitere als vorangestelltes Attribut befindet, stehen.<br />
Verworfene Algorithmen<br />
Als erstes wurde versucht, TreeTagger, der auch als Chunker benutzt werden kann, einzusetzen,<br />
um die Phrasenstruktur des Satzes zu ermitteln. Sollte eine Nominalphrase in<br />
einer anderen erkannt werden, wäre dies die hinreichende Bedingung für eine Nominalklammer.<br />
Jedoch lieferte ein Test mit zehn Sätzen aus dem Korpus für Nominalklammern<br />
kein überzeugendes Ergebnis: Von 64 Nominalphrasen und 25 Präpositionalphrasen, die<br />
sich in den zehn Sätzen befinden, wurden nur 24 bzw. fünf korrekt erkannt. Dies entspricht<br />
einer Vollständigkeit der Erkennung <strong>von</strong> 37, 5 Prozent bei Nominalphrasen und <strong>von</strong> 20, 0<br />
Prozent bei Präpositionalphrasen und ist somit unzureichend für eine weitere Analyse der<br />
Ergebnisse, die auf der Arbeit <strong>von</strong> TreeTagger aufbaut.<br />
Der zweite Ansatz bestand darin, den Satz rückwärts nach Nomina zu durchsuchen und,<br />
sobald ein Nomen gefunden wurde, die Abfolge der vorausgehenden Tags daraufhin zu<br />
analysieren, ob sie zu einer Nominalklammer passen oder nicht. Der Gedanke dahinter<br />
war, dass man zwar den Anfang einer Nominalklammer nicht immer genau bestimmen<br />
kann, weil die umgebende Nominalphrase nicht zwangsläufig <strong>von</strong> einem Artikel oder der<br />
eingeschlossenen Nominalphrase vorausgehenden Adjektiven eingeleitet wird, jedoch das<br />
Ende immer ein Nomen ist. Der so entstandene Algorithmus erreichte in Testläufen mit<br />
dem Textkorpus zu Nominalklammern eine Erkennungsrate <strong>von</strong> rund 90 Prozent, jedoch<br />
fiel bei seiner Anwendung auf andere Textkorpora eine große Anzahl an Fehlerkennungen<br />
auf, die die Anzahl der Erfolge weit überschritt. So lag das Verhältnis <strong>von</strong> Fehlerkennungen<br />
und korrekt erkannten Nominalklammern bei etwa sieben zu drei. Daher wurde dieser<br />
Ansatz ebenso verworfen.<br />
97
8. Implementierung <strong>von</strong> MT Analyser<br />
Grammatik zur Erkennung <strong>von</strong> Nominalklammern<br />
Der letztendlich genutzte Algorithmus besteht im wesentlichen aus einer Grammatik, die<br />
eine Nominalklammer nachbildet und in Form eines regulären Ausdrucks die Tagfolge eines<br />
Teilsatzes nach Übereinstimmungen durchsucht. Zwar lassen sich durch einen regulären<br />
Ausdruck Nominalklammern als Spezialform <strong>von</strong> Nominalphrasen nicht vollständig beschreiben,<br />
weil sie durch ihre beliebig tiefe Verschachtelung eine rekursive Klammerstruktur<br />
darstellen, doch wird in der Praxis selten eine Nominalklammer benutzt, deren Schachtelungstiefe<br />
größer als zwei ist.<br />
Die folgende Grammatik G 1 = (N, T, P, NK) ist eine aus Gründen der Übersichtlichkeit<br />
leicht vereinfachte Form der im Programm verwendeten Grammatik G, in der zumeist<br />
nur die jeweils verpflichtend vorkommenden Worttypen aufgeführt werden; insbesondere<br />
zahlreiche Füllwörter wie Adverbien oder Negationen sind oft weggelassen. Nichtterminalsymbole<br />
sind in voller Schriftgröße dargestellt. Aus dem STTS stammende Tags sind<br />
Terminalsymbole und verkleinert dargestellt. Die Konjunktionen und und oder sind ebenfalls<br />
Terminalsymbole. Die Produktionsregeln lauten folgendermaßen:<br />
P = {<br />
NK → NK 1 | NK 2<br />
NK 1 → D 2 ((NP 11 | prf | AP 1 ) KON?) ∗ NP 11 AP 2<br />
+ N<br />
NK 2 → D 1 ((NP 12 | AP 1 ) KON?) ∗ NP 12 AP 2<br />
+ N<br />
NP 11 → (D 1 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo?<br />
NP 12 → (D 3 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo?<br />
NP 11 , NP 12 → ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo<br />
NP 2 → D 1 (AP1 ∗ N appo? KON? ) ∗ AP1 ∗ N<br />
D 1 , D 2 → art | pposat | piat | pidat | pdat<br />
D 1 , D 3 → kokom | appr<br />
D 1 , D 2 , D 3 → apprart | appr (art | pposat | piat | pdat | pidat)<br />
AP 1 → (adja | card D 1 ?) +<br />
AP 2 → adja +<br />
N → nn | ne | pper | pposs | pds | pis | prf | trunc<br />
KON → und | oder }<br />
Erläuterung der Grammatik Die genaue Bedeutung der einzelnen Tags ist dem STTS<br />
gemäß [SSTT99] zu entnehmen.<br />
• NK: Die gesamte Nominalklammer. Zum Ende jeder Nominalklammer wird ein<br />
Nomen mit mindestens einer vorausgehenden Adjektivphrase AP 2 erwartet. Es werden<br />
zwei Arten <strong>von</strong> Nominalklammern unterschieden, wobei Nominalklammern, die<br />
nicht mit einem Artikel oder einer Präposition eingeleitet werden, nicht erkannt werden<br />
können, weil sie <strong>von</strong> zahlreichen anderen Konstruktionen nicht zu unterscheiden<br />
sind.<br />
– NK 1 : Nominalklammern, die mit einem Artikel, einem Pronomen oder einer<br />
Kombination <strong>von</strong> Präposition und Artikel oder Pronomen eingeleitet werden<br />
wie etwa durch die das englische Ritual befolgende Krönung. Eine Präposition<br />
ohne Artikel/Pronomen oder ein Vergleichspartikel reicht als Einleitung<br />
nicht. Hier genügt es, um sicherzugehen, dass es sich um eine Nominalklammer<br />
98
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />
handelt, wenn die eingeschlossene Nominalphrase mit einem einfachen Artikel<br />
oder Pronomen beginnt.<br />
– NK 2 : Nominalklammern, die anders als in NK 1 auch durch Präposition ohne<br />
Artikel/Pronomen oder Vergleichspartikel eingeleitet werden dürfen wie mit<br />
fast kochendem, über 90 Grad heißem Wasser. Um zu garantieren, dass es sich<br />
um eine Nominalklammer handelt, muss die eingeschlossene Nominalphrase<br />
<strong>von</strong> einer Präposition mit oder ohne Artikel/Pronomen oder <strong>von</strong> einem Vergleichspartikel<br />
eingeleitet oder <strong>von</strong> einer Postposition geschlossen werden; verlangte<br />
man nur einen einfachen Artikel, ergäben sich viele Fehlklassifikationen<br />
wie etwa für mit dem fast kochenden Wasser der heißen Quelle.<br />
• NP : Innerhalb der umgebenden Nominalphrase befinden sich als deren Attribute<br />
weitere Nominalphrasen, die teilweise auch selbst Nominalklammern sein können.<br />
Es werden drei Typen unterschieden, wobei einfache Nomina nur mit N bezeichnet<br />
werden (siehe unten).<br />
– NP 11 : Eingeschlossene Nominalphrase direkt unterhalb einer umgebenden Nominalklammer<br />
vom Typ NK 1 . Als Einleitung wird mindestens ein Artikel oder<br />
Pronomen erwartet (siehe D 1 ). In der Phrase kann sich ein komplexer Ausdruck<br />
mit Adjektiven, Adverbien sowie weiteren Attributen auf gleicher Ebene<br />
und neuen Nominalklammern ergeben.<br />
– NP 12 : Fast wie NP 11 , allerdings wird als Einleitung in Entsprechung zu NK 2<br />
als umgebender Nominalphrase kein bloßer Artikel bzw. kein bloßes Pronomen<br />
als Einleitung akzeptiert (siehe D 3 ).<br />
– NP 2 : Eingeschlossene Nominalphrase auf zweiter Verschachtelungsebene. Sie<br />
kann sehr komplex werden, aber keine weiteren Nominalklammern beinhalten,<br />
die dann auf der dritten Verschachtelungsebene lägen.<br />
• D: Als Determinative werden über bloße Artikel hinaus alle weiteren Pronomen bezeichnet,<br />
die eine Nominalphrase anstelle eines Artikels einleiten können, sowie Vergleichspartikel<br />
und Präpositionen. Die Bezeichnung wird gewählt, weil diese Wörter<br />
zur Bestimmung bzw. Determination des Anfangs der Nominalphrasen benutzt werden,<br />
und ist nicht deckungsgleich mit Determinativen im üblichen Sinn. Es gibt drei<br />
verschiedene, auf die verschiedenen Arten <strong>von</strong> Nominalklammern und -phrasen zugeschnittene<br />
Versionen:<br />
– D 1 : Enthält Artikel, Präpositionen, attributierende Demonstrativ-, Possessivund<br />
Indefinitpronomen, Kombinationen aus Präposition und einem der Artikel/Pronomen<br />
sowie Vergleichspartikel.<br />
– D 2 : Wie D 1 , aber keine Vergleichspartikel und keine alleinstehende Präposition.<br />
– D 3 : Wie D 1 , aber keine alleinstehenden Artikel oder Pronomen.<br />
• KON: Innerhalb einer Nominalklammer können auch Konjunktionen auftreten. Als<br />
zulässige Konjunktionen akzeptiert der Algorithmus allerdings nur und sowie oder.<br />
Konjunktionen wie sondern oder aber werden nicht akzeptiert, weil sie eher adversativen,<br />
trennenden Charakter haben. Sie sind zwar durchaus in Nominalklammern<br />
möglich, sie zu erlauben, führte aber zu vermehrten Fehlerkennungen.<br />
99
8. Implementierung <strong>von</strong> MT Analyser<br />
• N: Als Nomen werden alle Arten <strong>von</strong> Substantiven und substituierenden Pronomen<br />
gewertet. Dazu gehören normale Substantive, Eigennamen, Personalpronomen, Reflexivpronomen,<br />
substituierende Possessiv-, Demonstrativ- und Indefinitpronomen<br />
und auch Erstglieder <strong>von</strong> Kompositionen wie in Ein- und Ausstieg.<br />
• AP : Als Adjektivphrase AP 1 werden beliebige, nicht-leere Folgen <strong>von</strong> Adjektiven<br />
und Zahlwörtern, ggf. mit folgendem Determinativ, behandelt (das STTS ist bei<br />
Zahlwörtern sehr unspezifisch, auch wenn sie unterschiedliche Funktionen haben),<br />
als AP 2 nur Folgen <strong>von</strong> Adjektiven.<br />
Beispiele Um die Mechanismen besser verstehen zu können, sollen zwei Beispiele aus<br />
dem zugehörigen Textkorpus sie näher verdeutlichen, je eines für beide Typen <strong>von</strong> Nominalklammern.<br />
Zunächst geht es um die Nominalklammer durch die das englische Ritual<br />
befolgende Krönung. Sie liefert als Tagfolge appr art art adja nn adja nn. Daraus<br />
ergibt sich bei einer ersten Reduktion durch Anwendung der Produktionsregeln in umgekehrter<br />
Richtung D 2 D 1 AP 1 N AP 2 N. Als nächstes lassen sich die Nichtterminalsymbole<br />
D 1 AP 1 N zusammenfassen, so dass D 2 NP 11 AP 2 N übrigbleibt. Das wird im nächsten<br />
Schritt zu NK 1 und dann zu NK, so dass die Nominalklammer erfolgreich erkannt wurde.<br />
Dieser Vorgang ist in dem Reduktionsbaum in Abbildung 8.3 festgehalten.<br />
Abbildung 8.3.: Reduktionsbaum für eine Nominalklammer (erstes Beispiel)<br />
Als zweites Beispiel dient die Nominalklammer die US-amerikanischen Studien zufolge<br />
über 87% aller privaten Konsumentscheidungen entscheidenden Frauen. Sie liefert zu Beginn<br />
die Tagfolge art adja nn appo appr card piat adja nn adja nn. Im ersten<br />
Schritt wird daraus durch die rückwärts benutzten Produktionsregeln D 1 AP 1 N appo<br />
D 3 card D 1 AP 1 N AP 2 N. Der zweite Reduktionsschritt ergibt D 1 NP 12 D 3 AP 1 AP 1<br />
N AP 2 N. Wieder lassen sich mehrere Nichtterminalsymbole zu einer Nominalphrase zusammenfassen,<br />
so dass daraus D 1 NP 12 NP 12 AP 2 N folgt. Dies lässt sich zu NK 2 und<br />
somit zu NK, dem Startsymbol, reduzieren. Abbildung 8.4 verdeutlicht den Vorgang.<br />
100
8.3. Algorithmen zur Erkennung <strong>von</strong> Textmerkmalen<br />
Abbildung 8.4.: Reduktionsbaum für eine Nominalklammer (zweites Beispiel)<br />
Testergebnisse<br />
Die Grammatik wurde am Textkorpus mit Nominalklammern getestet. Insgesamt waren<br />
88 Nominalklammern erkennbar, die restlichen vorhandenen erhielten <strong>von</strong> TreeTagger ein<br />
oder mehrere falsche Tags zugewiesen, die eine Erkennung als Nominalklammer nicht<br />
zuließen. Insbesondere wurden Artikel als substituierende Pronomen und Partizipien als<br />
finite Verben eingestuft. Von den 88 erkennbaren Nominalklammern wurden 63 korrekt<br />
identifiziert, wobei in wenigen Fällen die Länge des ausgewählten Textausschnitts zu groß<br />
war. Somit war die Erkennung zu 71, 6 Prozent vollständig. Eine weitere deutliche Steigerung<br />
der Erkennungsrate dürfte mit den vorhadenen grammatischen Informationen, die<br />
beispielsweise Kongruenzüberprüfungen nahezu ausschließen, nicht möglich sein.<br />
Das Ergebnis ist zwar deutlich schlechter als die 90-prozentige Erkennung des zweiten Ansatzes,<br />
dafür tendiert aber die zuvor überbordende Zahl an Fehlidentifikationen gen null.<br />
In den Textkorpora zu den anderen Textmerkmalen wurden insgesamt 26 Nominalklammern<br />
identifiziert, <strong>von</strong> denen auch 23 tatsächlich Nominalklammern waren. Zwei wurden<br />
durch TreeTagger falsch getaggt, eine durch den Algorithmus falsch erkannt. Bei einer<br />
Quote <strong>von</strong> 23 aus 24 erkennbaren bedeutet das eine Präzision <strong>von</strong> 95, 8 Prozent.<br />
8.3.5. Relativsätze<br />
MT Analyser durchsucht alle als Nebensätze markierten Teilsätze nach Relativpronomen<br />
(Tags PRELS, PRELAT und teilweise auch PWAV ) an erster oder zweiter Stelle des<br />
jeweiligen Teilsatzes, um auch Relativsätze in präpositionalen Konstruktionen wie Das<br />
Haus, in dem ich wohne, ist schön. zu erkennen. Darüber hinaus wird auch nach Interrogativpronomen<br />
(Tags PWAT und PWS) gesucht, die zur Einleitung <strong>von</strong> Nebensätzen<br />
genutzt werden. Ein Beispiel hierfür ist etwa: Weißt du, welches Fußballspiel übertragen<br />
101
8. Implementierung <strong>von</strong> MT Analyser<br />
wird? Bedingung dafür, dass ein Relativsatz erkannt wird, ist außerdem, dass es sich um<br />
Formen der Pronomen der, wer, was und welcher handelt oder dass es eine Verbindung<br />
mit wo- wie womit oder worüber ist, die anstelle eines herkömmlichen Relativpronomens<br />
eingesetzt werden kann. Das Wort wo selbst wird hingegen nicht beachtet, da es vor allem<br />
für Lokalsätze benötigt wird, wenngleich es einige präpositionale Konstruktionen in<br />
Relativsätzen ersetzen kann.<br />
Beim Testen des Algorithmus mit dem unbearbeiteten Textkorpus für Relativsätze ergab<br />
sich folgendes Bild: Von den insgesamt 104 darin enthaltenen Relativsätzen wurden 97<br />
erkannt und als Übersetzungsschwierigkeit gewertet. Sechsmal hatte TreeTagger ein Relativpronomen<br />
fälschlicherweise als Artikel gekennzeichnet, so dass eine Erkennung des<br />
Relativsatzes durch MT Analyser nicht möglich war. Einmal scheiterte die Erkennung<br />
an besagtem wo. Von 98 erkennbaren Relativsätzen wurden also 97 entdeckt, was einer<br />
Quote <strong>von</strong> 99, 0 Prozent entspricht.<br />
8.3.6. Verbklammern<br />
Die Erkennung <strong>von</strong> Verbklammern grenzt einen Mindestabstand <strong>von</strong> drei Wörtern zwischen<br />
der finiten Verbform und dem zugehörigen Rest des Verbs aus, weil sich eine hundertprozentige<br />
Schließung der Lücke zwischen beiden Teilen aufgrund der häufigen Nachstellung<br />
des Personalpronomens in der deutschen Sprache nicht verwirklichen lässt und<br />
kleine Lücken den Übersetzungsprogrammen kaum Schwierigkeiten bereiten dürften. Aus<br />
diesem Grund beinhaltet auch der Textkorpus mit Verbklammern nur längere Klammern.<br />
Insgesamt werden drei verschiedene Suchmuster angewandt, wobei sich die Suche stets auf<br />
einen vollständigen Teilsatz beschränkt, weil Verbklammern nicht teilsatzübergreifend sein<br />
können. In jedem der drei Fälle wird der Satz vom Ende bis zum Anfang durchlaufen,<br />
so dass stets zu einem möglichen Ende einer Verbklammer ein passender Anfang gesucht<br />
wird. Die Suchmuster lehnen sich dabei stark an die in Abschnitt 5.2.1 beschriebenen<br />
möglichen Arten <strong>von</strong> Verbklammern an und decken sie ab, wobei sie folgendermaßen<br />
aussehen:<br />
• Finites Verb → Zwischenraum → Präfix: Zunächst wird nach einem mit PTKVZ<br />
getaggten Wort gesucht, das ein Präfix eines zusammengesetzten Verbs darstellt,<br />
etwa ab in abfahren: Ohne auf Anschlussreisende zu warten, fuhr der Zug ab. Anschließend<br />
wird der Text weiter nach vorne durchlaufen, bis das erste finite Verb<br />
gefunden ist, markiert durch die Tags VVFIN für Vollverben, VAFIN für Hilfsverben<br />
und VMFIN für Modalverben. Überschreitet die dazwischen befindliche Lücke<br />
das Mindestmaß, wird eine Übersetzungsschwierigkeit erzeugt.<br />
• Finites Verb → Zwischenraum → Infinitiv(e): Sobald der erste Infinitiv gefunden<br />
ist, markiert durch die Tags VVINF, VAINF und VMINF, wird nach finiten Formen<br />
<strong>von</strong> Modal- oder Hilfsverben gesucht, wie sie in Sätzen wie Das kann ich niemals<br />
schaffen. oder Eines Tages wirst du ganz vorne sein. vorkommen. Auch finite Formen<br />
des Vollverbs lassen werden berücksichtigt, da es in gleicher Weise wie Modalverben<br />
eingesetzt wird. Wenn ein derartiges finites Verb gefunden wurde, ist die<br />
Verbklammer vollständig und wird als Übersetzungsschwierigkeit gewertet.<br />
• Finites Hilfsverb → Zwischenraum → Partizip Perfekt: Dieses Muster deckt sämtliche<br />
zusammengesetzten Verbformen ab, in denen am Ende ein Partizip steht. Wurde<br />
102
8.4. Weitere Programmmerkmale<br />
ein Partizip, markiert durch die Tags VAPP, VMPP und VVPP, gefunden, wird der<br />
Satz in Richtung Anfang durchsucht, bis das erste finite Hilfsverb (konjugierte Form<br />
<strong>von</strong> sein oder haben) auftaucht und dann unter Beachtung des Mindestabstands eine<br />
Übersetzungsschwierigkeit erstellt.<br />
Der Test mit dem unbearbeiteten Textkorpus zu Verbklammern lieferte ein eindeutiges Ergebnis:<br />
In den insgesamt 100 Sätzen mit 104 Verbklammern wurden <strong>von</strong> MT Analyser 98<br />
Verbklammern erkannt. Die sechs nicht erkannten Verbklammern resultierten aus falschen<br />
Tagzuweisungen durch TreeTagger. Dabei wurde einmal ein Verbpräfix nicht erkannt, in<br />
den anderen Fällen wurde bei zweideutigen Verbformen, also solchen, die sowohl finites<br />
Verb als auch Partizip oder Infinitiv sein können, die falsche Möglichkeit gewählt, so dass<br />
es nicht möglich war, diese Verbklammern zu finden. Alle erkennbaren Verbklammern<br />
wurden also auch entdeckt, die Erfolgsquote beträgt somit 100 Prozent.<br />
8.4. Weitere Programmmerkmale<br />
Neben der bloßen Bewertung <strong>von</strong> Texten hinsichtlich ihrer Übersetzbarkeit sind noch einige<br />
weitere Funktionen in MT Analyser implementiert, die im diesem Abschnitt vorgestellt<br />
werden.<br />
8.4.1. Benutzungsmodi<br />
MT Analyser wurde so implementiert, dass es auf drei verschiedene Weisen eingesetzt<br />
werden kann: zur Schnellbewertung eines Textes, mit textueller Oberfläche in der Kommandozeile<br />
und mit grafischer Oberfläche.<br />
Schnellbewertung<br />
Der Schnellmodus <strong>von</strong> MT Analyser kann aus der Kommandozeile heraus aufgerufen<br />
werden und verlangt als Parameter die Datei mit dem zu bewertenden Text und die Datei<br />
für den Übersetzbarkeitsreport. Konfigurationsmöglichkeiten bestehen nicht, so dass stets<br />
alle Textmerkmale gesucht und mit den gespeicherten Indexgewichten bewertet werden.<br />
Aufrufsyntax: java -jar MTAnalyser.jar Eingabedatei Ausgabedatei<br />
Textuelle Oberfläche<br />
Abbildung 8.5.: Hauptmenü im Textmodus<br />
103
8. Implementierung <strong>von</strong> MT Analyser<br />
Für den Aufruf des Programms in der Kommandozeile steht eine eigene textuelle Oberfläche<br />
zur Verfügung, über die auf sämtliche Programmfunktionen inklusive der Hilfe<br />
zugegriffen werden kann. Aufgrund der Vielzahl an Möglichkeiten (Bearbeitung des Lexikons,<br />
Auswahl <strong>von</strong> Textmerkmalen etc.) wurde darauf verzichtet, die Steuerung, wie dies<br />
bei vielen Hilfsprogrammen üblich ist, über Eingabeparameter zu organisieren. Dies hätte<br />
zu einer bei der Benutzung nur schwer zu überschauenden Menge an Parametern und<br />
Parameterkombinationen geführt. Statt dessen wurden auf Höhe und Breite einer typischen<br />
Kommandozeile (25 x 80) abgestimmte textuelle Menüs geschrieben, aus denen die<br />
einzelnen Funktionen sich über Zahlencodes aufrufen lassen. Bei sämtlichen Vorgängen,<br />
die nicht bloß eine Anzeige <strong>von</strong> Daten beinhalten, wird mit Statusmeldungen über Erfolg<br />
und Misserfolg unterrichtet. Die Ausgabe der Menüs wird dabei über einen eigenen Ausgabestream<br />
mit betriebssytemabhängiger Codierung gesteuert, weil der Standardstream<br />
System.out aufgrund der verschiedenen Codierungen Probleme im Umgang mit Sonderzeichen<br />
hat.<br />
Abbildung 8.6.: Auswahl <strong>von</strong> Textmerkmalen im Bewertungsprozess<br />
Die Ausnahmebehandlung des Programms funktioniert so, dass normalerweise, wenn zum<br />
Beispiel die Indexgewichte nicht aus der Konfigurationsdatei gelesen werden konnten, das<br />
Programm Standardwerte verwendet und nur in kritischen Fällen beendet wird, wenn etwa<br />
keine Eingaben <strong>von</strong> der Standardeingabe gelesen werden können. Nach der erfolgreichen<br />
Bewertung eines Textes wird die allgemeine Textstatistik in der Kommandozeile angezeigt.<br />
Der ausführliche Übersetzbarkeitsreport wird aus Gründen der Übersichtlichkeit lediglich<br />
in der benutzerdefnierten Datei gespeichert.<br />
Die Abbildungen 8.5 und 8.6 zeigen das Hauptmenü und die Auswahl <strong>von</strong> zu bewertenden<br />
Textmerkmalen im Textmodus. Verantwortlich für die Ausgabe der passenden Textmenüs<br />
ist die Klasse UserInterface im Paket mtanalyser.console.<br />
Aufrufsyntax: java -jar MTAnalyser.jar -c<br />
104
8.4. Weitere Programmmerkmale<br />
Abbildung 8.7.: Hauptfenster mit Übersetzbarkeitsreport<br />
Abbildung 8.8.: Baumdarstellung des Mehrdeutigkeitslexikons<br />
105
8. Implementierung <strong>von</strong> MT Analyser<br />
Grafische Oberfläche<br />
Die Benutzung der grafischen Oberfläche ist der Standardmodus. Die Oberfläche wurde<br />
komplett in Swing geschrieben, und ihre Darstellung wird <strong>von</strong> den verschiedenen Klassen<br />
im Paket mtanalyser.gui übernommen. Das Hauptfenster ist mit einer Menüleiste ausgestattet,<br />
über die auf sämtliche Funktionen zugegriffen werden kann. Dazu existieren die<br />
Menüs Programm, Lexikon, Bewertung und Hilfe, die mit Maus oder Tastatur bedient<br />
werden können. Die Funktionsaustattung der Menüs ist dabei weitestgehend dieselbe wie<br />
in der textuellen Oberfläche, um keine Umgewöhnung zu erfordern.<br />
Das Hauptfenster der Anwendung setzt sich darüber hinaus aus drei Komponenten zusammen:<br />
einer Anzeige des Namens der für die Bewertung ausgewählten Datei, einer JEditorPane<br />
zur Anzeige des Übersetzbarkeitsreports (ohne Statistik) und einem normalen<br />
Textbereich zur Anzeige der allgemeinen Textstatistik. Weil die JEditorPane leider nur<br />
in der Lage ist, HTML in Version 3.2 darzustellen, muss eine zusätzliche, leicht <strong>von</strong> der<br />
Reportdatei abweichende Version des Übersetzbarkeitsreports erstellt werden. Ein diesbezüglich<br />
geeigneteres GUI-Element, das einen Browser einbindet, wie es etwa bei C#<br />
existiert, gibt es in Swing nicht.<br />
Die Bewertung <strong>von</strong> Texten läuft in eigenen Threads ab. Dies hat den Vorteil, dass die<br />
Oberfläche unabhängig vom Bewertungsvogang weiterhin gezeichnet wird und nicht einfriert“.<br />
Gleichwohl sind sämtliche Funktionen währenddessen deaktiviert, und eine War-<br />
”<br />
tegrafik wird eingeblendet.<br />
Die Abbildungen 8.7 und 8.8 zeigen das Programm nach der Bewertung einer Datei mit<br />
dem eingeblendeten Übersetzbarkeitsreport und dem als Baum dargestellten Mehrdeutigkeitslexikon<br />
in einem eigenen Fenster.<br />
Aufrufsyntax: java -jar MTAnalyser.jar (-g)?<br />
8.4.2. Übersetzbarkeitsreport<br />
Die Ergebnisse der Bewertung werden gespeichert, damit sie anschließend zur Verbesserung<br />
des zugrundeliegenden Textes herangezogen werden können. Die Speicherung geschieht<br />
in Form eines temporären Reports zur Anzeige im Hauptfenster des Programms<br />
und eines persistenten HTML-Dokuments an benutzerdefinierter Position im Dateisystem.<br />
In jedem Report sind alle Sätze, deren Übersetzungsschwierigkeiten mit Indexpunkten<br />
sowie der gesamte Indexwert und eine Gesamtstatistik enthalten (vgl. hierzu Abschnitt<br />
8.4.1). Auch die zugrundeliegende Textdatei und das Erstellungsdatum werden genannt.<br />
Die Darstellung wird vom Inhalt über eine CSS-Datei getrennt, in der alle wichtigen<br />
Designvorgaben enthalten sind. Die Datei befindet sich im Installationverzeichnis <strong>von</strong><br />
MT Analyser und wird <strong>von</strong> allen erzeugten HTML-Dokumenten fest referenziert.<br />
Abbildung 8.9 zeigt den Anfang einer HTML-Reportdatei.<br />
Druckfunktion<br />
Zusätzlich zu dem HTML-Report wurde eine Druckfunktion eingebaut, die es erlaubt,<br />
einen gerade erstellten Report aus dem Programm heraus auszudrucken. Hierzu wurde die<br />
Klasse ReportPrinter entworfen, die das Interface java.awt.print.Printable implementiert.<br />
Die da<strong>von</strong> bereitgestellte Methode print wird allerdings einmal pro Seite aufgerufen, weshalb<br />
es unmöglich war, alle Strings für die Druckausgabe auf einmal zu erzeugen und zu<br />
106
8.4. Weitere Programmmerkmale<br />
Abbildung 8.9.: Ausschnitt aus HTML-Übersetzbarkeitsreport<br />
schreiben. Statt dessen muss nach der Erzeugung der zu druckenden Strings zuerst berechnet<br />
werden, wieviele Seiten zu drucken sind und wieviele Strings auf eine Seite passen.<br />
Zeilenumbrüche sind ebenfalls zu berücksichtigen.<br />
Abbildung 8.10.: Klasse AnnotatedString<br />
Um die einzelnen Strings mit zusätzlichen Angaben zur Ermittlung des Platzbedarfs ausstatten<br />
zu können, wurde die Klasse AnnotatedString implementiert (siehe Abbildung<br />
8.10) erzeugt. Im Attribut string wird der ursprüngliche String gehalten, font beinhaltet<br />
Angaben zur Schriftart, aus denen sich auch die Länge des Strings berechnen lässt. Überschreitet<br />
ein String die verfügbare Breite, wird er nach dem letzten auf das Blatt passenden<br />
Zeichen umgebrochen. Das Attribut indentation speichert eine mögliche Einrückung des<br />
Strings auf dem Blatt, während lineSpacing den Zeilenabstand angibt.<br />
Nach dem Erstellen der Strings als Vektor und der Berechnung der Größenangaben vor<br />
dem Ausdruck der ersten Seite wird dann über einen Index geregelt, welche Strings auf<br />
die aktuelle Seite gehören.<br />
107
8. Implementierung <strong>von</strong> MT Analyser<br />
8.4.3. Editierbares Mehrdeutigkeitslexikon<br />
Ein editierbares Lexikon für mehrdeutige Begriffe ist sinnvoll, weil jedes Fachgebiet, dessen<br />
Texte übersetzt werden sollen, seine eigene Terminologie mit den ihr eigenen Mehrdeutigkeiten<br />
besitzt, die im Rahmen dieser Arbeit niemals auch nur annähernd vollständig<br />
erfasst werden könnten. Vielmehr umfasst das im Programm enthaltene Lexikon nur eine<br />
recht kleine Anzahl <strong>von</strong> häufigen mehrdeutigen Begriffen und erwartet <strong>von</strong> den Benutzern,<br />
dass sie es ergänzen. Zudem verändert sich der deutsche Wortschatz laufend und mit ihm<br />
die Mehrdeutigkeiten, so dass ständige Aktualisierungen notwendig sind.<br />
Abbildung 8.11.: Bearbeiten eines mehrdeutigen Begriffs<br />
Wie bereits in Abschnitt 7.4.3 beschrieben, stellt die Klasse LexiconHandler Methoden<br />
zum Einfügen, Löschen und Auslesen bereit, auf die neben dem Algorithmus zum Auffinden<br />
<strong>von</strong> Mehrdeutigkeiten auch die Benutzungsoberfläche zugreift. Die GUI bietet hierzu<br />
ein eigenes Lexikon-Menü an. Bei der Anzeige aller Einträge erscheint zwecks guter Übersichtlichkeit<br />
ein als JTree implementierter Baum (vgl. Abbildung 8.8), der die Hierarchie<br />
vom übergeordneten Buchstaben bis zu den verschiedenen englischen Bedeutungen darstellt<br />
und aus- bzw. zusammenklappbar ist. Die Auswahl eines Eintrags gestattet über eine<br />
Schaltfläche auch dessen Bearbeitung (zu sehen in Abbildung 8.11). Einträge können direkt<br />
aus dem Baum gelöscht werden. Neue Einträge werden über einen eigenen Menüpunkt<br />
hinzugefügt und erfordern mindestens zwei englische Bedeutungen.<br />
Weil eine derartige Baumdarstellung in einer Kommandozeile leicht sehr unübersichtlich<br />
wird, werden die verschiedenen Einträge dort seitenweise und ohne ihre Bedeutungen<br />
aufgelistet. Will man sich einen bestimmten Eintrag anzeigen lassen, so muss man seine<br />
Grundform eingeben. Gleiches gilt für das Löschen eines Eintrages. Beim Hinzufügen wird<br />
solange nach neuen Bedeutungen gefragt, bis keine Eingabe mehr erfolgt, wobei auch hier<br />
mindestens zwei Eingaben erwartet werden (vgl. Abbildung 8.12).<br />
108
8.4. Weitere Programmmerkmale<br />
Abbildung 8.12.: Eintrag zum Lexikon hinzufügen<br />
Direkt nach einer Änderung wird in beiden Benutzungsmodi die Lexikondatei lexicon.xml<br />
aktualisiert und gegebenenfalls neu geladen, damit die Datensätze, mit denen gearbeitet<br />
wird, stets aktuell sind.<br />
8.4.4. Konfigurationsmöglichkeiten<br />
Die Gewichte der einzelnen Textmerkmale sind zwar empirisch ermittelt worden und beschreiben<br />
den Einfluss eines Textmerkmals auf die Übersetzbarkeit eines Textes sehr gut,<br />
wie in Abschnitt 6.2 dargestellt. Andererseits kann es durchaus sinnvoll sein, die Werte zu<br />
ändern und auf ein bestimmtes Übersetzungsprogramm abzustimmen, das mit dem einen<br />
oder anderen Textmerkmal besser oder schlechter zurechtkommt als der Durchschnitt.<br />
Indexgewichte setzen<br />
Daher wurde eine Funktion zum Setzen der Indexgewichte implementiert. Sie lässt sich<br />
in der textuellen Oberfläche direkt aus dem Hauptmenü aufrufen und fragt nacheinander<br />
alle Indexgewichte ab. In der grafischen Oberfläche steht dazu das Menü Bewertung zur<br />
Verfügung. Im Untermenü Gewichte der Textmerkmale lassen sich neue Gewichte direkt<br />
eingeben und speichern. Geänderte Gewichte werden in der Datei weights.txt gespeichert<br />
und bei Bedarf ausgelesen. Die Standardgewichte der Gewichte sind fest in der Klasse<br />
SentenceAnalyser hinterlegt, so dass die aktuellen Gewichte jederzeit wieder zurückgesetzt<br />
werden können. In Abbildung 8.13 ist das GUI-Menü für die Indexgewichte zu sehen.<br />
Textmerkmale an- und abwählen<br />
Die einzelnen Textmerkmale können aus denselben Gründen, aus denen ihre Gewichte<br />
manuell eingestellt werden können, auch an- und abgewählt werden. In der grafischen<br />
Oberfläche geschieht dies über das Menü Bewertung, das in Abbildung 8.14 zu sehen ist.<br />
In der textuellen Oberfläche ist dies etwas anders geregelt: Hier wird vor jeder Bewertung<br />
gefragt, ob alle Merkmale bewertet werden sollen. Wird dies verneint, kann aus einer<br />
109
8. Implementierung <strong>von</strong> MT Analyser<br />
Abbildung 8.13.: Angabe neuer Gewichte für die Textmerkmale<br />
Liste der Textmerkmale über Zahlencodes solange an- und abgewählt werden, bis die<br />
gewünschte Konfiguration erreicht ist (vgl. Abbildung 8.6).<br />
Abbildung 8.14.: An- und Abwahl <strong>von</strong> Textmerkmalen<br />
TreeTagger konfigurieren<br />
Weil TreeTagger <strong>von</strong> MT Analyser benötigt wird, aber nicht im Programm selbst enthalten<br />
ist, muss dem Programm ein Pfad angegeben werden, unter dem es TreeTagger<br />
ausführen kann (Aufruf siehe Abschnitt 8.1.2). Aus den Benutzungsoberflächen heraus<br />
kann dieser Pfad gesetzt werden, der stets absolut sein und zum Verzeichnis der auszuführenden<br />
Datei führen muss. Dabei unterscheidet MT Analyser mit Hilfe der entsprechenden<br />
Umgebungsvariablen zwischen den verschiedenen Betriebssystemen, in denen jeweils<br />
unterschiedliche Dateien auszuführen sind. Die Pfadangaben werden bei Bedarf aus<br />
der Datei treetagger.txt ausgelesen.<br />
Nach Neuangabe eines Pfades wird im Textmodus automatisch ein Test vorgenommen, ob<br />
TreeTagger mit den neuen Angaben erfolgreich ausgeführt werden kann. Dazu wird eine<br />
110
8.4. Weitere Programmmerkmale<br />
Abbildung 8.15.: Angabe und Test eines Pfades zu TreeTagger<br />
Testdatei mit zufälligem Namen erzeugt, getaggt und wieder gelöscht. Bei Benutzung der<br />
grafischen Oberfläche muss der Test aus dem Programm-Menü heraus manuell gestartet<br />
werden. Fehlschlag und Erfolg werden stets bekanntgegeben. Abbildung 8.15 zeigt die<br />
Angabe eines neuen Pfades im Textmodus.<br />
8.4.5. Hilfe<br />
MT Analyser enthält zu jeder seiner Funktionen ausführliche Hilfestellungen und Erklärungen.<br />
Die zugehörigen Texte wurden ins Programm integriert und können aus dem<br />
Hauptfenster in der grafischen bzw. aus dem Hauptmenü in der Textversion über das<br />
Hilfe-Menü aufgerufen werden.<br />
Abbildung 8.16.: Hilfemenü in der grafischen Oberfläche<br />
Implementiert ist die Hilfe in der grafischen Oberfläche als zweigeteiltes Fenster, in dem<br />
links die verschiedenen Hilfepunkte, nach Themen geordnet, aufgelistet sind und rechts<br />
die jeweiligen Texte eingeblendet werden. Die Texte selbst sind wiederum kleine HTML-<br />
Fragmente, die in der Klasse HelpTextsGui gespeichert und bei Auswahl des entsprechenden<br />
Punktes geladen werden. Ein Index oder eine Suchmaske, wie bei zahlreichen<br />
111
8. Implementierung <strong>von</strong> MT Analyser<br />
Anwendungen vorhanden, existiert nicht, weil die Anzahl der Stichpunkte vergleichsweise<br />
gering und recht übersichtlich ist. Abbildung 8.16 zeigt das Fenster des Hilfemenüs.<br />
Abbildung 8.17.: Hilfemenü in der textuellen Oberfläche<br />
In der Textversion gibt es hingegen ein Menü mit allen Hilfeeinträgen, die dann über<br />
Zahlencodes angezeigt werden können. Die Texte sind gegenüber der GUI-Version leicht<br />
angepasst, weil sich der Aufruf einiger Funktionen unterscheidet. Außerdem handelt es<br />
sich diesmal um normale Texte ohne HTML-Markup. Gespeichert sind sie in der Klasse<br />
HelpTextsConsole. Abbildung 8.17 zeigt das Hilfemenü.<br />
8.4.6. Systemanforderungen und Laufzeit<br />
MT Analyser wurde auf drei Rechnerkonfigurationen getestet, wobei, um die Laufzeit der<br />
Bewertung zu ermitteln, Texte mit 100 Sätzen analysiert wurden (soweit möglich ohne<br />
weitere, gleichzeitig im Hintergrund laufende Programme, um MT Analyser vollen Zugriff<br />
auf die Systemressourcen zu ermöglichen).<br />
Zunächst fiel allerdings der hohe Speicherbedarf des Programms auf: Nach Abschluss<br />
der Bewertung eines Textes nahm es rund 90 MB Arbeitsspeicher ein. Allerdings ließ<br />
sich dieser enorme Bedarf durch gezieltes Aufrufen des Garbage Collectors <strong>von</strong> Java auf<br />
maximal rund 30 MB reduzieren, was für die Komplexität der Algorithmen und die Anzahl<br />
der zu analysierenden Daten angemessen erscheint. (Dabei stellt sich konsequenterweise<br />
die Frage, warum die automatische Freigabe nicht mehr gebrauchter Ressourcen in Java<br />
offenbar so schlecht funktioniert.) TreeTagger nahm zusätzlich während der Ausführung<br />
über 100 MB ein.<br />
Getestet wurde auf folgenden <strong>Systeme</strong>n:<br />
• mobile AMD Athlon XP-M 2500+; 1,86 GHz; 512 MB RAM; Windows XP Home<br />
Edition, Service Pack 2<br />
• AMD Athlon 64 X2 Dual Core 3800+; 2,01 GHz; 1 GB RAM; Fedora Core 6, Linux-<br />
Version 2.6.19<br />
• Sun SPARC Fire V880 mit 8 CPUs (je 1200 MHz); insges. 32 GB RAM; Solaris 9<br />
112
8.5. MT Analyser Web<br />
Auf allen Rechnern betrug die Ausführungszeit einer Textbewertung für 100 Sätze zwischen<br />
maximal 15 Sekunden auf dem Windows-Rechner und minimal fünf Sekunden auf<br />
den anderen Rechnern, die mehr RAM hatten. Bei der Bewertung der Textmerkmale<br />
benötigte der Algorithmus für Nominalklammern mit etwa fünf Sekunden auf dem Windows-Rechner<br />
die meiste Zeit, weil hier zahllose Abgleiche mit einem sehr großen regulären<br />
Ausdruck erfolgen. Insgesamt hält sich die Berechnungszeit einer Textanalyse also in akzeptablem<br />
Rahmen.<br />
8.5. MT Analyser Web<br />
Neben MT Analyser wurde noch eine leicht modifizierte Version des Programms als Webanwendung<br />
implementiert, daher die Bezeichnung MT Analyser Web. Im Gegensatz zu<br />
MT Analyser dient die Webanwendung weniger für den Produktiveinsatz als vielmehr als<br />
Vorführung für Menschen, die sich für maschinelle Übersetzung interessieren.<br />
8.5.1. Zusätzliche Hilfsmittel<br />
Weil das gesamte Programm bereits in Java geschrieben war, wurden Java Server Pages<br />
(JSP) benutzt, um die Weboberfläche zu erstellen. Als Server wurde Apache Tomcat<br />
5.5.x eingesetzt. Darüber hinaus wurden zwei weitere Hilfspakete der Apache-Jakarta-<br />
Projekts verwendet 2 : commons.fileupload und commons.io. Sie werden benötigt, um das<br />
Heraufladen <strong>von</strong> Dateien zur Bewertung zu ermöglichen, das standardmäßig nicht in der<br />
JSP-Spezifikation vorgesehen ist.<br />
8.5.2. Unterschiede zu MT Analyser<br />
Im wesentlichen benutzt MT Analyser Web dieselben Klassen, Attribute und Methoden<br />
wie auch MT Analyser, jedoch wurden einige Funktionen leicht verändert oder gestrichen.<br />
Entfallen sind insbesondere die Funktionen zum Bearbeiten des Mehrdeutigkeitslexikons.<br />
Diese werden für eine Demonstration der Bewertungsfunktion nicht unbedingt benötigt,<br />
und darüber hinaus beugt es Missbrauch vor, wenn Außenstehende keinen Zugriff auf<br />
die Lexikondatei haben und nicht nach Belieben falsche Einträge hinzufügen oder bereits<br />
bestehende löschen können. Dies würde zu einer Verfälschung der Analyse führen.<br />
Aus demselben Grund nicht vorhanden sind auch die Funktionen zum persistenten Setzen<br />
der Indexgewichte und zum Ändern der TreeTagger-Anbindung. Die zugehörigen Angaben<br />
sind in der Klasse SentenceAnalyser und in der Datei web.xml gespeichert und werden<br />
bei Bedarf <strong>von</strong> dort ausgelesen. Letztere können gegebenenfalls Systemadministratoren<br />
mit Zugriff auf den Server ändern.<br />
Hinzugefügt wurde ein Servlet, das die Interaktion zwischen den ausschließlich für die<br />
Datenaus- und -eingabe genutzten JSP-Seiten und dem Programmkern ermöglicht, indem<br />
es die Eingaben formatiert und an die Bewertungsfunktionen weiterleitet und die<br />
Ergebnisse angemessen formatiert zurückgibt, sowie ein Listener, der einen Upload abbricht,<br />
wenn die maximale Dateigröße (100 KB) überschritten wird.<br />
2 Im Internet erreichbar unter: http://jakarta.apache.org/commons/index.html, zuletzt besucht am<br />
8. April 2007<br />
113
8. Implementierung <strong>von</strong> MT Analyser<br />
8.5.3. Benutzungsoberfläche<br />
Die Weboberfläche bietet zwei Modi zur Benutzung des Programms: einen einfachen, bei<br />
dem nur eine Textdatei zur Bewertung hochgeladen muss und anschließend alles mit den<br />
Standardgewichten bewertet wird, und einen erweiterten, bei dem neben der Textdatei<br />
auch noch ausgewählt werden kann, welche Textmerkmale mit welchen Gewichten bewertet<br />
werden sollen. Beide Einstellungen werden nicht gespeichert und daher bei jedem<br />
neuen Aufruf der Seite auf ihre Standardwerte zurückgesetzt.<br />
Abbildung 8.18.: MT Analyser Web: Erweiterter Übersetzungsmodus<br />
Als Übersetzbarkeitsreport wird ausschließlich eine HTML-Datei mit zufälligem Dateinamen<br />
generiert, auf die nach dem Bewerten verwiesen wird. Diese bleibt allerdings aus<br />
Platzgründen nur eine Stunde lang gespeichert (ebenso die hochgeladenen Textdateien<br />
und die reformatierten bzw. getaggten Versionen da<strong>von</strong>) und wird nach Ablauf dieser<br />
Zeitspanne bei Erstellung des nächsten Übersetzbarkeitsreports gelöscht, um nicht unnötig<br />
Festplattenspeicher zu belegen.<br />
Weil im Gegensatz zu MT Analyser bei diesem Demonstrationsprogramm nicht vorausgesetzt<br />
werden kann, dass die Nutzer nennenswertes Vorwissen über die deutsche Grammatik<br />
mitbringen, werden bei der Benutzung stets umfangreiche Zusatzinformationen zum<br />
Index und zu den Textmerkmalen angeboten.<br />
Abbildung 8.18 zeigt den Anfang der Seite zur Textbewertung im erweiterten Modus.<br />
114
Teil IV.<br />
Fazit und Ausblick<br />
115
9. Zusammenfassung der Ergebnisse<br />
Der erste Teil dieser Arbeit bot eine kurze Einführung in den Stand der Technik der<br />
maschinellen Übersetzung, erläuterte zentrale, noch bestehende Probleme und zeigte die<br />
gängigsten Lösungsansätze auf, unter anderem Übersetzbarkeitsmaße.<br />
Aufbauend auf den diesbezüglichen Vorarbeiten und einer ausführlichen Analyse <strong>von</strong> Textmerkmalen<br />
der deutschen Sprache, die für automatische Übersetzungen als hinderlich<br />
gelten oder angesehen werden können, wurde im zweiten Teil ein Übersetzbarkeitsindex<br />
erstellt, der einen numerischen Wert für die maschinelle Übersetzbarkeit eines einzelnen<br />
Satzes oder eines ganzen Textes vom Deutschen ins Englische angibt. Es wurde zudem<br />
gezeigt, dass die Höhe der Indexwerte in linearer Abhängigkeit zur (durchschnittlichen)<br />
Fehlerzahl eines Satzes steht.<br />
Im dritten Teil wurde schließlich vorgeführt, wie sich der Übersetzbarkeitsindex mit Hilfe<br />
des Programms MT Analyser für gegebene Texte automatisch errechnen lässt, wofür<br />
unter anderem Algorithmen zur detaillierten Analyse der jeweiligen Sätze und zum Auffinden<br />
der relevanten Textmerkmale implementiert und vorgestellt wurden. Tests zeigten,<br />
dass diese Algorithmen sowohl mit hoher Vollständigkeit als auch mit hoher Genauigkeit<br />
arbeiten.<br />
116
10. Ansätze zur Weiterentwicklung<br />
Erweiterung des Indexes<br />
Im Rahmen dieser Arbeit konnten sicherlich nicht alle Textmerkmale der deutschen Sprache<br />
überprüft werden, die für die Qualität maschineller Übersetzungen tatsächlich relevant<br />
sind. Es böte sich also an, weitere Textmerkmale, für die die Annahme besteht, sie könnten<br />
sich negativ auf das Ergebnis maschineller Übersetzungen auswirken, empirisch zu untersuchen<br />
und sie gegebenenfalls mit passender Gewichtung in den Übersetzbarkeitsindex<br />
und – mit geeigneten Suchalgorithmen – auch in MT Analyser aufzunehmen.<br />
Verbesserung der Algorithmen<br />
Wie bereits öfter im Verlauf der Arbeit erwähnt, ist die grammatikalische Information, auf<br />
die bei der Verarbeitung eines Satzes zugegriffen werden kann, nicht immer ausreichend.<br />
So fehlen etwa Angaben zu Kasus, Numerus und Genus <strong>von</strong> Nomina, die verwendet werden<br />
könnten, um beispielsweise die Erkennung <strong>von</strong> Inversionen und Nominalklammern zu<br />
verbessern; bei den Algorithmen <strong>von</strong> MT Analyser gibt es trotz hoher Erfolgsquote noch<br />
Fälle, in denen eine sichere, eindeutige Erkennung nicht möglich ist, durch zusätzliche<br />
grammatikalische Angaben aber ermöglicht würde. Auch lassen sich mit großer Wahrscheinlichkeit<br />
noch Sonderfälle der deutschen Sprache finden, in denen die jetzigen Algorithmen<br />
versagen, obwohl eine Erkennung möglich wäre. Und die Arbeit der Algorithmen<br />
zur Teilsatzanalyse liefert zwar sehr gute, aber eben nicht perfekte Ergebnisse, so dass<br />
hier auch noch Raum für Optimierungen besteht.<br />
Anpassung für andere Sprachen<br />
Probleme mit maschinellen Übersetzungen sind nicht nur auf die deutsche Sprache beschränkt.<br />
Daher erscheint es sinnvoll, Versionen <strong>von</strong> MT Analyser auch für die Bewertung<br />
<strong>von</strong> Texten anderer Sprachen zu erstellen. Natürlich müsste dem die empirische Ermittlung<br />
eines neuen Übersetzbarkeitsindexes vorausgehen. Denkbar ist auch die Ermittlung<br />
weiterer Indizes für die deutsche Sprache, etwa zur Bewertung eines deutschen Textes,<br />
der ins Französische übersetzt werden soll. Ansatzpunkte für die Auswahl möglicherweise<br />
relevanter Textmerkmale bietet diese Arbeit genug.<br />
Einbindung in ein Übersetzungsprogramm<br />
Ein weiterer Ansatz ist, die Algorithmen <strong>von</strong> MT Analyser ganz oder teilweise in ein Übersetzungsprogramm<br />
zu integrieren, um vor der Übersetzung bereits zu wissen, dass etwa<br />
bestimmte Sätze mit hohen Indexwerten viele Fehler hervorrufen könnte. Das Programm<br />
117
10. Ansätze zur Weiterentwicklung<br />
könnte dann eine Nachricht mit den gefundenen Problemen erzeugen und darum bitten,<br />
den vorliegenden Text entsprechend zu überarbeiten, um die Fehlerzahl zu minimieren.<br />
Entwurf einer kontrollierten Sprache<br />
Zwar wurde in dieser Arbeit keine kontrollierte Sprache erstellt, wie es sie gerade für das<br />
Englische zuhauf gibt, doch lassen sich aus den hier gefundenen relevanten Textmerkmalen<br />
Regeln ableiten, die für eine kontrollierte Version der deutschen Sprache als Grundlage<br />
dienen könnten. So wäre es beispielsweise denkbar, im Rahmen einer solchen Sprache<br />
Verbklammern großer Länge zu verbieten.<br />
118
Glossar<br />
A<br />
Abgetrenntes Kompositionsglied Für sich allein stehender Teil eines Kompositums,<br />
dessen zugehörige Ergänzung durch einen Bindestrich an Wortanfang oder<br />
Wortende angedeutet wird.<br />
ALPAC-Report 1966 erschienene, vielbeachtete US-amerikanische Studie zu den Fortschritten<br />
der maschinellen Übersetzung mit vernichtendem Gesamturteil. Brachte<br />
die Forschung auf diesem Gebiet insbesondere in den USA fast zum Erliegen.<br />
Atomarer Teilsatz Teilsatz, der sich nicht anhand <strong>von</strong> Interpunktion in kleinere Teilsätze<br />
zerlegen lässt, also keine Satzzeichen mehr aufweist.<br />
B<br />
Babel Fish Für die Analyse der verschiedenen Textmerkmale eingesetzte, kostenlos nutzbare<br />
Online-Übersetzungssoftware, die <strong>von</strong> der Firma Systran bereitgestellt<br />
wird.<br />
C<br />
Chunker<br />
Programm, das Sätze in ihre Phrasenstruktur aufteilt, die vor allem aus Verbalphrasen<br />
und Nominalphrasen besteht.<br />
Computerunterstützte Übersetzung (CÜ) Von Menschen vorgenommene Übersetzung<br />
eines Textes <strong>von</strong> einer beliebigen natürlichen Ausgangssprache in eine oder<br />
mehrere natürliche Zielsprachen, wobei unterstützende Programme Übersetzungshilfen<br />
bereitstellen.<br />
D<br />
Diskursrepräsentationsstruktur (DRS) Erweiterung der Prädikatenlogik erster Ordnung,<br />
um Bezüge und kontextabhängige Bedeutungen in geschriebenen Texten<br />
satzübergreifend erfassen und darstellen zu können.<br />
Dokumenttypdefinition (DTD) Regelsatz, der festlegt, wie Dokumente bzw. Datensätze<br />
eines bestimmten Typs aufgebaut sein müssen, um gültig zu sein.<br />
119
GLOSSAR<br />
E<br />
EG-Kommission Vorläufer der heutigen EU-Kommission, die seit November 1993 die<br />
Exekutive der Europäischen Union darstellt.<br />
Ellipse<br />
Auslassung eines oder mehrerer Worte innerhalb eines Satzes.<br />
Europäische Gemeinschaft(en) (EG) Vor allem wirtschaftlicher Bund verschiedener<br />
europäischer Staaten, gegründet 1957 (zunächst nur Europäische Wirtschaftsgemeinschaft<br />
[EWG]). Vorläufer der Europäischen Union und heute eine ihrer<br />
drei tragenden Säulen.<br />
G<br />
Garbage Collector (GC) Java-interne Routine, die nicht mehr benötigte Systemressourcen<br />
automatisch wieder freigibt.<br />
Gegenhypothese Oft mit H 1 und als Alternativhypothese bezeichnet; Annahme, dass<br />
ein bestimmter Zusammenhang besteht.<br />
Genus verbi Von lat. genus verbi = (wörtl.) Geschlecht des Verbs; drückt im Deutschen<br />
durch Flexion des Verbs die Rolle des Subjekts im Satz aus und kann entweder<br />
aktiv (das Subjekt nimmt eine Handlung vor) oder passiv (an dem Subjekt<br />
wird eine Handlung vorgenommen) sein.<br />
Georgetown-Experiment Erste öffentlichkeitswirksame Vorführung eines Computers zur<br />
maschinellen Übersetzung einfacher russischer Texte ins Englische an der Universität<br />
<strong>von</strong> Georgetown nahe Washington in den USA am 7. Januar 1954.<br />
H<br />
Homograph<br />
Wort aus einer Gruppe verschiedener Wörter gleicher Schreibung.<br />
I<br />
Interlingua Abgeleitet <strong>von</strong> lat. interlingua = Zwischensprache. Sprachunabhängige Darstellung<br />
eines Textes nach seiner grammatikalischen und semantischen Analyse,<br />
die als Grundlage der Übersetzung in die Zielsprache dient.<br />
Inversion der Wortstellung Im Kontext dieser Arbeit: grammatikalisch korrekte Abweichung<br />
<strong>von</strong> der je nach Satztyp üblichen Wortstellung im Deutschen.<br />
K<br />
Kompositum Aus zwei oder mehreren Wörtern oder Wortstämmen zusammengesetzter<br />
Begriff.<br />
Kongruenz Übereinstimmung grammatikalischer Eigenschaften verschiedener Wörter;<br />
besonders bekannt: KNG-Kongruenz als Gleichheit <strong>von</strong> Kasus (Fall), Numerus<br />
(Zahl) und Genus (grammatisches Geschlecht) bei zusammengehörigen<br />
Wörtern.<br />
120
GLOSSAR<br />
M<br />
Maschinelle oder automatische Übersetzung (MÜ) Von Computerprogrammen vorgenommene<br />
Übersetzung eines Textes <strong>von</strong> einer beliebigen natürlichen Ausgangssprache<br />
in eine oder mehrere natürliche Zielsprachen.<br />
Mehrdeutigkeit Im Kontext dieser Arbeit: deutscher Begriff mit mehreren sinnverschiedenen<br />
Bedeutungen, der im Englischen in Abhängigkeit vom jeweiligen Sinn<br />
auf unterschiedliche Weise übersetzt werden muss.<br />
MT Analyser Programm zur automatischen <strong>Messung</strong> der Übersetzbarkeit deutscher<br />
Texte ins Englische; kann über grafische Oberfläche und Kommandozeile benutzt<br />
werden.<br />
MT Analyser Web<br />
Online-Version <strong>von</strong> MT Analyser.<br />
Neologismus<br />
Neues, meist überaus ungewöhnliches oder unerwartetes Wort.<br />
N<br />
Nominalklammer Besondere Form einer Nominalphrase, bei der mindestens eine Nominalphrase<br />
<strong>von</strong> einer anderen Nominalphrase eingeschlossen wird und vor deren<br />
Nomen (Kopf) als Attribut steht.<br />
Nominalphrase Phrase aus einem Substantiv oder Pronomen, die um Attribute wie<br />
Adjektive, Artikel oder weitere Nominalphrasen erweiterbar ist.<br />
Nullhypothese Oft mit H 0 bezeichnet; Annahme, dass ein bestimmter Zusammenhang<br />
nicht besteht.<br />
P<br />
P(A)<br />
P(A|B)<br />
Wahrscheinlichkeit P , dass Ereignis A eintritt.<br />
Bedingte Wahrscheinlichkeit P dass Ereignis A eintritt, wenn bereits Ereignis<br />
B vorliegt.<br />
Part-of-Speech-Tagging (PoS-Tagging)<br />
Wörter eines Textes.<br />
Auszeichnung der Wortarten der einzelnen<br />
Personal Translator 2006 Für die Analyse der verschiedenen Textmerkmale genutzte,<br />
kommerzielle Übersetzungssoftware, die <strong>von</strong> der Firma Linguatec produziert<br />
wird.<br />
Präpositionalphrase Phrase, die aus einer Präposition mit darauffolgender Nominalphrase<br />
besteht.<br />
121
GLOSSAR<br />
S<br />
Signifikanzniveau Grenzwert für die Wahrscheinlichkeit eines Ereignisses bei vorausgesetzter<br />
Nullhypothese, bei dessen Unterschreiten ein Ergebnis als signifikant<br />
gilt und die Nullhypothese verworfen wird. Wird meist mit α bezeichnet und<br />
auf α = 0, 05 gesetzt.<br />
Standard Generalized Markup Language (SGML) Metasprache, die die Definition <strong>von</strong><br />
Auszeichnungssprachen wie HTML und XML erlaubt.<br />
Statistische Signifikanz Bedeutsamkeit eines durch statistische Auswertungen erhaltenen<br />
Ergebnisses. Als signifikant gelten nur Ergebnisse mit geringer Irrtumswahrscheinlichkeit.<br />
Stuttgart-Tübingen-Tagset (STTS)<br />
Textkorpora.<br />
Richtlinien zum Part-of-Speech-Tagging deutscher<br />
T<br />
Textkorpus Allgemein Sammlung <strong>von</strong> Texten; in dieser Arbeit normalerweise Sammlung<br />
zahlreicher deutscher Sätze, die ein bestimmtes Textmerkmal gemeinsam<br />
haben oder <strong>von</strong> diesem Textmerkmal befreit wurden.<br />
Translation Memory (TM) Übersetzungsspeicher, in dem zu bereits übersetzten Textfragmenten<br />
der Ausgangssprache die in der Zielsprache gewählten Übersetzungen<br />
gespeichert werden.<br />
TreeTagger PoS-Tagger für deutsche Texte, der an der Universität Stuttgart entwickelt<br />
wurde und <strong>von</strong> MT Analyser benutzt wird.<br />
Ü<br />
Übersetzbarkeit Ordinales oder intervallskaliertes Maß, das beschreibt, wie gut ein Text<br />
mittels maschineller Übersetzung <strong>von</strong> einer natürlichen Ausgangssprache in<br />
eine oder mehrere natürliche Zielsprache übersetzt werden kann.<br />
V<br />
Verbklammer Auch Verbal- oder Satzklammer; Form des Satzbaus, bei dem ein zweiteiliges<br />
Prädikat Teile des Satzes zwischen seinen Bestandteilen einschließt.<br />
122
Stichwortverzeichnis<br />
Abstract Window Toolkit, 76<br />
Adjektiv, 18, 23, 24, 53, 76, 96, 100<br />
Adjektivphrase, 98, 100<br />
Adverb, 18, 23, 27, 76, 96, 98<br />
ALPAC-Report, 14, 32<br />
Analyse<br />
morphologische, 15<br />
semantische, 15<br />
Anforderungen<br />
funktionale, 74<br />
nicht-funktionale, 75<br />
Annotationssprache, 15<br />
Apache Tomcat, 113<br />
Artikel, 24, 52, 53, 98, 99, 101, 102<br />
Attempto Controlled English, 22, 23<br />
Ausdruck<br />
regulärer, 98<br />
Ausgangssprache, 12–17, 25, 73<br />
Babel Fish, 11, 19, 32, 34, 47, 54, 56, 59,<br />
63, 65, 70<br />
Basic English, 24<br />
Beiordnung, 27, 31<br />
Bindestrich-Ellipse, 46<br />
Brill-Tagger, 77<br />
CÜ-Software, 13<br />
C#, 106<br />
Chunker, 97<br />
CSS, 106<br />
Diskursrepräsentationsstruktur, 22<br />
EG-Kommission, 14<br />
Ellipse, 30, 46–49, 61, 62, 95<br />
Entscheidungsbaum, 77<br />
Europäische Gemeinschaft, 14<br />
Fehlerzahl, 31, 33, 38, 39, 54, 56, 66, 77,<br />
116<br />
absolute, 33–35, 38, 39, 43, 47, 51, 54,<br />
56, 59, 69, 71<br />
pro Wort, 33, 34, 38, 44, 47, 48, 51,<br />
54, 56, 59, 68, 70<br />
relative, 35, 44, 51<br />
Veränderung, 33, 35, 38, 41, 42, 44,<br />
47, 51, 56, 59–63, 67<br />
Fragesatz, 23, 58, 89<br />
Garbage Collector, 112<br />
Gegenhypothese, 35, 61<br />
Georgetown-Experiment, 13<br />
Google, 55<br />
Hauptsatz, 21, 23, 43, 58, 74, 81, 86, 89–<br />
96<br />
Homograph, 18, 27, 31<br />
HTML, 106, 111, 112, 114<br />
IBM, 25, 26, 76<br />
Interlingua, 16, 23, 25<br />
Internet, 14<br />
Interpunktion, 34, 86<br />
Java, 75, 112, 113<br />
Java Server Pages, 113<br />
Jongejan, Bart, 77<br />
KANT Controlled English, 23, 24<br />
Kommandozeile, 12, 75, 103, 104, 108<br />
Kompositionsglied, 47<br />
abgetrenntes, 46, 48, 62, 66, 67, 69,<br />
76, 80, 94, 95<br />
Kompositum, 18, 19, 24, 45, 50, 55–57<br />
Nominalkompositum, 19, 27, 37, 49,<br />
55, 56, 60, 62, 63<br />
Kongruenz, 23<br />
Konjunktion, 39, 46, 89, 90, 95, 96, 98, 99<br />
unterordnende, 89, 91<br />
Korpus, 14, 31, 34, 38, 40, 41, 45, 47–53,<br />
55, 56, 60, 65, 69, 95, 97<br />
123
Stichwortverzeichnis<br />
Lexikon, 13, 23, 24, 30, 45, 82, 84, 97, 104,<br />
108<br />
Mehrdeutigkeitslexikon, 77, 82, 84, 96,<br />
106, 108, 113<br />
Linguatec, 32<br />
Linguistic Annotation Language, 18, 25<br />
Linux, 75, 76, 85, 112<br />
Logos, 13, 25<br />
Logos Translatability Index, 25, 27, 37,<br />
66<br />
Mehrdeutigkeit, 18, 22–25, 30, 37, 43, 44,<br />
61, 66, 67, 69, 74, 75, 80, 82, 94,<br />
96, 97, 108<br />
lexikalische, 18, 23, 43<br />
strukturelle, 18, 43<br />
MetaTexis, 13<br />
MT Analyser, 73–75, 77, 85, 90, 94, 95,<br />
101–103, 106, 110–114, 117<br />
MT Analyser Web, 113<br />
MÜ-Programm, 27, 30–32, 34, 38, 41, 44,<br />
55, 65, 74<br />
MÜ-System, 13, 14, 18, 20, 21, 24–26, 29,<br />
30, 45, 56<br />
multilinguales, 16<br />
Nachbearbeitung, 14, 73<br />
Nachbearbeitungsaufwand, 33, 56<br />
Nebensatz, 23, 27, 30, 37, 39–43, 53, 58,<br />
61, 65, 80, 81, 86, 88–96, 101<br />
Finalsatz, 74<br />
Kausalsatz, 89<br />
Konditionalsatz, 89, 90<br />
konjunktionsloser, 89<br />
Konzessivsatz, 74<br />
Lokalsatz, 102<br />
Objektsatz, 90<br />
Relativsatz, 23, 39–42, 61, 66, 67, 80,<br />
86, 91–94, 102<br />
Temporalsatz, 39, 91<br />
Negation, 23, 98<br />
Neologismus, 30<br />
Nomen, 20, 52, 53, 76, 100<br />
Eigenname, 20, 24, 30, 33, 34, 100<br />
Genus, 39<br />
Kasus, 39<br />
Numerus, 39<br />
Personenname, 20, 33, 34<br />
Pronomen, 96, 98–102<br />
Demonstrativpronomen, 99, 100<br />
Indefinitpronomen, 99, 100<br />
Interrogativpronomen, 89, 101<br />
Personalpronomen, 53, 96, 100<br />
Possessivpronomen, 43, 99, 100<br />
Reflexivpronomen, 100<br />
Relativpronomen, 23, 39, 40, 43, 89,<br />
91, 101, 102<br />
Substantiv, 18, 19, 23, 24, 43, 53, 100<br />
Nominalklammer, 30, 37, 49, 52–55, 62,<br />
63, 66–68, 74, 80, 86, 97–101, 113<br />
Nominalphrase, 52, 97–100<br />
Nullhypothese, 35, 36, 61<br />
Oberfläche<br />
grafische, 12, 75, 77, 103, 106, 109,<br />
111<br />
textuelle, 77, 103, 104, 106, 109<br />
Weboberfläche, 114<br />
Ogden, Charles Kay, 24<br />
opentrad, 11<br />
Part-of-Speech-Tagger, 76<br />
Partikel, 96<br />
Vergleichspartikel, 99<br />
Personal Translator 2006, 11, 21, 32, 34,<br />
47, 49, 56, 57, 63, 65, 70<br />
Plattformunabhängigkeit, 75<br />
Präfix, 24, 50, 102<br />
Präposition, 20, 30, 33, 43, 46, 57, 96, 98,<br />
99<br />
Präpositionalphrase, 23, 27, 53<br />
Projekt Deutscher Wortschatz, 45<br />
Reduktionsbaum, 100, 101<br />
Reformatierung, 85<br />
Regression<br />
lineare, 71<br />
REWERSE, 22<br />
Satzanalyse, 86, 94<br />
Hierarchisierung atomarer Teilsätze,<br />
91, 92<br />
Kategorisierung atomarer Teilsätze, 88,<br />
91, 92<br />
Zerlegung in atomare Teilsätze, 86, 88<br />
Zusammenfügen atomarer Teilsätze,<br />
92<br />
124
Stichwortverzeichnis<br />
Satzklammer, 49<br />
Satzlänge, 27, 30, 31, 37–39, 60, 63, 66,<br />
68, 69<br />
Satzteil, 33, 39<br />
Schmid, Helmut, 76<br />
Schnellbewertung, 103<br />
Schreibstil<br />
elliptischer, 37, 61<br />
Seltenheit <strong>von</strong> Wörtern, 30, 37, 45<br />
SGML, 23<br />
Signifikanz, 29, 35, 36, 60<br />
Signifikanzniveau, 36, 61<br />
Signifikanztest, 33, 35, 60<br />
Solaris, 75, 76, 85, 112<br />
Sprache<br />
Chinesisch, 21<br />
Dänisch, 40<br />
Deutsch, 18, 25, 31, 34, 41, 50, 57, 73,<br />
89, 92, 116<br />
deutsche, 12, 18, 20, 45, 47, 52, 58,<br />
118<br />
Englisch, 18, 20, 25, 30, 31, 33, 34, 39,<br />
40, 53, 57, 73, 116, 118<br />
englische, 13, 23, 24, 27, 29, 32, 40<br />
Esperanto, 24<br />
Französisch, 25, 117<br />
germanische, 29, 55<br />
indogermanische, 21<br />
kontrollierte, 15, 20, 22, 24, 46, 74,<br />
118<br />
Lingua franca, 24<br />
natürliche, 18, 22<br />
Niederländisch, 52<br />
romanische, 19, 53, 55<br />
russische, 13<br />
Spanisch, 18, 40, 53<br />
Standard Widget Toolkit, 76<br />
Stuttgart-Tübingen-Tagset, 76, 77, 98<br />
Suffix, 24<br />
Sun Microsystems, 75<br />
Swing, 76, 106<br />
Systran, 11, 13, 14, 32<br />
Teilsatz, 74, 78, 80, 82, 86–96, 98, 101,<br />
102<br />
atomarer, 78, 86, 87, 91<br />
ungebundener, 90, 92, 93<br />
Textkorpus, 17, 29, 31–35, 38, 39, 41–45,<br />
47, 48, 50, 51, 54–56, 59–61, 63,<br />
65, 67, 69, 77, 94, 96, 97, 100–103<br />
Textmerkmal, 26, 29–31, 33, 35–37, 60–<br />
63, 66–69, 71, 74–78, 80–82, 86,<br />
90, 92, 94, 101, 103, 104, 109, 110,<br />
113, 114, 116, 117<br />
allgemeines, 12, 37<br />
Gewichtung, 68, 75<br />
sprachspezifisches, 12, 37, 50<br />
Transfer, 15, 16<br />
Translatability Checker, 26, 27, 37, 39,<br />
66, 77<br />
Translation Confidence Index, 26, 27, 66<br />
Translation Memory, 13<br />
TreeTagger, 76–78, 85, 89, 90, 94, 96, 97,<br />
101–103, 110, 112, 113<br />
Twain, Mark, 11, 15<br />
Übersetzungstechnik, 14<br />
Übersetzbarkeit, 12, 15, 25, 28–30, 35, 37,<br />
39–41, 51, 54, 61, 62, 66–70, 74,<br />
75, 77, 78, 103, 109<br />
eines Textes, 73<br />
Übersetzbarkeitsfunktion, 69, 71<br />
Übersetzbarkeitsindex, 12, 27, 29, 31, 36,<br />
60–63, 66, 69, 74, 78, 80, 82, 116,<br />
117<br />
Bewertung der Satzlänge, 68, 71<br />
eines Satzes, 68<br />
eines Textes, 67<br />
Indexgewichte, 104, 109, 113<br />
Übersetzbarkeitsmaß, 22, 25, 61, 116<br />
Übersetzbarkeitsreport, 77, 97, 103, 104,<br />
106, 114<br />
Übersetzer, 12<br />
Übersetzung, 12–15, 17, 21, 22, 25, 26,<br />
29–33, 37–45, 47, 49, 52–59, 61–<br />
63, 65, 67, 70, 116, 117<br />
automatische, 12–14, 24, 50<br />
computerunterstützte, 13<br />
maschinelle, 11, 13, 14, 18, 30, 53, 73,<br />
116, 117<br />
beispielbasierte, 17<br />
direkte, 15<br />
statistische, 16, 17<br />
Übersetzungscomputer, 13<br />
125
Stichwortverzeichnis<br />
Übersetzungsprogramm, 11, 12, 14, 26,<br />
31, 34, 40, 42, 44–46, 48, 50, 52,<br />
54, 57, 60, 63, 73, 74, 109, 117<br />
Übersetzungsqualität, 12, 17, 29, 31–33,<br />
35–37, 39, 43, 45, 47, 53, 55, 59,<br />
60, 66, 67, 69<br />
Übersetzungsschwierigkeit, 12, 31, 63, 75,<br />
78, 80, 82, 96, 102, 103, 106<br />
Übersetzungstechnik, 15, 17<br />
UML<br />
Klassendiagramm, 78<br />
Sequenzdiagramm, 81<br />
Underwood, Nancy, 77<br />
Universität<br />
Carnegie Mellon, 23<br />
Leipzig, 14, 45, 55<br />
Stuttgart, 76<br />
Tübingen, 76<br />
Zürich, 22<br />
Verb, 18, 20, 23, 24, 26, 50, 74, 76, 95, 102<br />
Aspekt, 20<br />
finites, 26, 50, 58, 76, 88–92, 95, 96,<br />
101–103<br />
Abwesenheit, 31<br />
Genus verbi, 76<br />
Hilfsverb, 49, 50, 76, 102, 103<br />
Infinitiv, 49, 50, 89, 90, 96, 102, 103<br />
erweiterter, 50, 58, 88–90, 92–96<br />
mit zu, 88, 89<br />
Modalverb, 23, 49, 50, 76, 102<br />
Modus, 20, 76<br />
Imperativ, 89, 90<br />
Indikativ, 21, 90<br />
Konjunktiv, 21, 90<br />
Numerus, 76<br />
Partizip, 53, 90, 101–103<br />
Perfekt, 49, 102<br />
Präsens, 23<br />
Person, 76<br />
Tempus, 20, 21, 50, 51, 76<br />
Consecutio temporum, 21<br />
unregelmäßiges, 24<br />
Vollverb, 102<br />
Verbklammer, 30, 35, 37, 49–53, 62, 65–<br />
68, 74, 80, 86, 90, 102, 103, 118<br />
Verteilung<br />
hypergeometrische, 36, 60<br />
Vorbearbeitung, 22, 24<br />
Wörterbuch, 14, 21, 27, 75<br />
webtranslate, 11<br />
Wikipedia, 32, 38, 39, 43, 47, 50, 53, 55,<br />
59<br />
Windows, 75, 85, 113<br />
Wordfast, 13<br />
Wortstellung, 22, 29, 33, 39, 49, 53, 58,<br />
59, 86, 89, 91, 92, 95, 96<br />
Fehlstellung, 33<br />
Inversion, 30, 37, 49, 58, 59, 63, 66,<br />
80, 86, 95, 96<br />
Standardwortstellung, 30, 58, 59, 95<br />
XML, 25, 82, 84, 97<br />
DTD, 83<br />
Zahlwort, 100<br />
Zielsprache, 13–16, 53, 55<br />
Zirkumposition, 29<br />
Zwischendarstellung, 15, 16<br />
Zwischensprache, 16, 25<br />
126
Literaturverzeichnis<br />
[ABM + 94] Arnold, Douglas ; Balkan, Lorna ; Meijer, Siety ; Sandler, Louisa ;<br />
Humphreys, R. L.: Machine Translation: an Introductory Guide. London<br />
(GB) : Blackwells-NCC, 1994<br />
[BDPDPM94] Brown, Peter E. ; Della Pietra, Vincent J. ; Della Pietra, Stephen<br />
A. ; Mercer, Robert L.: The Mathematics of Statistical Machine<br />
Translation: Parameter Estimation. In: Computational Linguistics 19<br />
(1994), Nr. 2, S. 263–311<br />
[BEFH + 05] Barz, Irmhild ; Eisenberg, Peter ; Fabricius-Hansen, Catherine ;<br />
Fiehler, Reinhard ; Fritz, Thomas ; Gallmann, Peter ; Nübling,<br />
Damaris ; Peters, Jörg ; Dudenredaktion (Hrsg.): Duden. Die Grammatik.<br />
7. Mannheim (D) : Bibliographisches Institut, 2005<br />
[Ber99]<br />
Bernth, Arendse: A Confidence Index for Machine Translation. In: Proceedings<br />
of Theoretical and Methodological Issues in Machine Translation<br />
(1999), S. 120–127<br />
[BG00] Bernth, Arendse ; Gdaniec, Claudia. MTranslatability. AMTA-<br />
2000 Tutorial. Internet: http://www.isi.edu/natural-language/<br />
organizations/amta/sig-mtranslatability-tutorial.htm. 2000<br />
[Bor05]<br />
Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler. Berlin<br />
(D), Heidelberg (D) : Springer, 2005<br />
[CMU + 95] Cole, Ronald ; Mariani, Joseph ; Uszkoreit, Hans ; Zue, Victor ;<br />
Zaenen, Annie ; Cole, Ronald (Hrsg.): Survey of the State of the Art<br />
in Human Language Technology. Pittsburgh (USA) : Center for Spoken<br />
Language Understanding CSLU, Carnegie Mellon University, 1995<br />
[Dos55] Dostert, Leon E.: The Georgetown - I.B.M. experiment. Cambrigde<br />
(USA) : MIT Press, 1955, S. 124–135<br />
[FHK + 06]<br />
Fuchs, Norbert E. ; Hoefler, Stefan ; Kaljurand, Kaarel ; Kuhn,<br />
Tobias ; Schneider, Gerold ; Schwertel, Uta S.: Discourse Representation<br />
Structures for ACE 5 / Institut für Informatik der Universität<br />
Zürich. Zürich (CH), 2006. – Forschungsbericht<br />
[FSS99] Fuchs, Norbert E. ; Schwertel, Uta ; Schwitter, Rolf: Attempto<br />
Controlled English – Not Just Another Logic Specification Language. In:<br />
Lecture Notes in Computer Science 1559 (1999), S. 1–20<br />
127
Literaturverzeichnis<br />
[Gda94]<br />
[Hoe04]<br />
[HS92]<br />
[Hut86]<br />
[Hut92]<br />
[Hut02]<br />
[Hut03]<br />
[JU01]<br />
Gdaniec, Claudia: The LOGOS Translatability Index. In: Proceedings<br />
of the First Conference of the Association for Machine Translation in the<br />
Americas (1994), S. 97–105<br />
Hoefler, Stefan: The Syntax of Attempto Controlled English: An Abstract<br />
Grammar for ACE 4.0 / Institut für Informatik der Universität<br />
Zürich. Zürich (CH), 2004. – Forschungsbericht<br />
Hutchins, John ; Somers, Harold: An introduction to machine translation.<br />
London (GB) : Academic Press, 1992<br />
Hutchins, John: Machine Translation: past, present, future. New York<br />
(USA) : Halsted Press, 1986<br />
Hutchins, John: Why computers do not translate better. In: Translating<br />
and the Computer 13: the theory and the practice of machine translation -<br />
a marriage of convenience? London (GB), 1992, S. 3–16<br />
Hutchins, John: Machine translation today and tomorrow. In: Gerd,<br />
Willée (Hrsg.) ; Schröder, Bernhard (Hrsg.) ; Schmitz, Hans-Christian<br />
(Hrsg.): Computerlinguistik: was geht, was kommt? Sankt Augustin (D) :<br />
Gardez! Verlag, 2002, S. 159–162<br />
Hutchins, John: The Oxford Handbook of Computational Linguistics.<br />
Oxford (GB) : University Press, 2003, Kapitel Machine translation: general<br />
overview, S. 501–511<br />
Jongejan, Bart ; Underwood, Nancy: Translatability Checker: A Tool<br />
to Help Decide Whether to Use MT. In: Proceedings of MT Summit VIII<br />
(2001), S. 363–368<br />
[Kni99] Knight, Kevin. A Statistical MT Tutorial Workbook. Internet: http:<br />
//www.isi.edu/natural-language/mt/wkbk.rtf. 1999<br />
[Kor06] Korpela, Jukka. Translation-friendly authoring, especially in HTML<br />
for the WWW. Internet: http://www.cs.tut.fi/~jkorpela/transl/<br />
master.html. 2006<br />
[Lau84]<br />
[MBNS03]<br />
Laurian, J. M.: Systran et Eurotra: la traduction automatique a la Commission<br />
des Communautés Européennes. Contrastes, Hors serie A4, 11-42.<br />
In: Contrastes Hors serie A4 (1984), S. 11–42<br />
Mitamura, Tekuro ; Baker, Kathryn ; Nyberg, Eric ; Svoboda, David:<br />
Diagnostics for Interactive Controlled Language Checking. Pittsburgh<br />
(USA) : Carnegie Mellon University, 2003<br />
[MN95] Mitamura, T. ; Nyberg, E.: Controlled English for KnowledgeBased<br />
MT: Experience with the KANT System. Pittsburgh (USA) : Center for<br />
Machine Translation, Carnegie Mellon University, 1995<br />
128
Literaturverzeichnis<br />
[MNrC91]<br />
Mitamura, Teruko ; Nyberg 3rd, Eric H. ; Carbonell, Jaime G.:<br />
An Efficient Interlingua Translation System for Multi-lingual Document<br />
Production. In: Proceedings of the Third Machine Translation Summit.<br />
Washington (USA), 1991<br />
[Ogd30] Ogden, Charles K.: Basic English: A General Introduction with Rules<br />
and Grammar. London (GB) : Paul Treber & Co., Ltd., 1930<br />
[Ogd37]<br />
[Ogd60]<br />
[Pa66]<br />
[Reh92]<br />
Ogden, Charles K.: Basic English and Grammatical Reform. Cambridge<br />
(GB), London (GB) : Eldritch, 1937<br />
Ogden, Charles K.: The General Basic English Dictionary. London (GB)<br />
: Evans Bros., 1960<br />
Pierce, John ; andere: Languages and machines: computers in translation<br />
and linguistics / Automatic Language Processing Advisory Committee<br />
(ALPAC), National Academy of Sciences, National Research Council. Washington<br />
(USA), 1966. – Forschungsbericht<br />
Rehbein, Jochen: Zur Wortstellung im komplexen deutschen Satz. In:<br />
Hofmann, L. (Hrsg.): Deutsche Syntax: Ansichten und Aussichten. Berlin<br />
(D), New York (USA) : De Gruyter, 1992, S. 523–574<br />
[Sch94] Schmid, Helmut: Probabilistic Part-of-Speech-Tagging Using Decision<br />
Trees. In: International Conference on New Methods in Language Processing.<br />
Manchester (GB) : Centre for Computational Linguistics, UMIST,<br />
1994, S. 44–49<br />
[Sch95]<br />
[Sch06]<br />
[SSTT99]<br />
[SV98]<br />
[Tra06]<br />
[Twa94]<br />
Schmid, Helmut: Improvements in Part-of-Speech Tagging With an Application<br />
To German. In: Feldweg (Hrsg.) ; Hinrichs (Hrsg.): Lexikon<br />
und Text. 1995, S. 47–50<br />
Schwitter, Rolf. Controlled Natural Languages. Internet: http://www.<br />
ics.mq.edu.au/~rolfs/controlled-natural-languages/. 2006<br />
Schiller, Anne ; Stöckert, Christine ; Teufel, Simone ; Thielen,<br />
Christiane: Guidelines für das Tagging deutscher Textcorpora mit STTS<br />
(Kleines und großes Tagset). Stuttgart (D) : Institut für maschinelle<br />
Sprachverarbeitung der Universtität Stuttgart, 1999. – Forschungsbericht<br />
Schneider, Gerold ; Volk, Martin: Comparing a statistical and a rulebased<br />
tagger for German. In: Proceedings of KONVENS-98. Bonn (D),<br />
1998<br />
Translatio. Translatio - Das Leipziger Tor zum Übersetzen und Dolmetschen.<br />
Internet: http://www.uni-leipzig.de/~xlatio/frs-allg.htm.<br />
2006<br />
Twain, Mark: Die schreckliche deutsche Sprache. In: Bummel durch Europa.<br />
Frankfurt (D) : Insel (7. Auflage), 1994<br />
129
Literaturverzeichnis<br />
[Wag03]<br />
[Wat03]<br />
[WNMB02]<br />
Wagner, Joachim: Datengesteuerte maschinelle Übersetzung mit flachen<br />
Analysestrukturen. Osnabrück (D), Universität Osnabrück, Diplomarbeit,<br />
2003<br />
Watanabe, Kanayama H.: Multilingual Translation via Annotated Hub<br />
Language. Kanagawa (J) : Tokyo Research Laboratory, IBM Japan, 2003<br />
Watanabe, H. ; Nagao, K. ; McCord, M. ; Bernth, A.: An Annotation<br />
System for Enhancing Quality of Natural Language Processing. In:<br />
Proceedings of the 19th COLING. Taipeh (RC), 2002, S. 1303–1307<br />
130