Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller Übersetzbarkeit 

von Texten 

Diplomarbeit von Malte Diehl 

Matrikelnummer: 8133810 

Studiengang: 

Informatik (Diplom) 

Erstprüferin: 

Dr. Elke Wilkeit 

Zweitprüfer: 

Dr. Hans Fleischhack 

Abgabedatum: 

16.04.2007

Zusammenfassung 

Seit über 50 Jahren beschäftigt sich die Forschung intensiv mit maschineller Übersetzung 

von Texten. Allen Erfolgen zum Trotz sind die gegenwärtigen Programme aber noch 

nicht perfekt, sondern produzieren nach wie vor zahlreiche Fehler. Diese Fehler wiederum 

erzwingen eine zeitintensive und aufwändige Nachbearbeitung der übersetzten Texte. Um 

diesen unvermeidlichen Aufwand wenigstens zu minimieren, erscheint es sinnvoll, einen 

Text bereits vor seiner Übersetzung so zu formulieren, dass die bei der Übersetzung durch 

ein Programm auftretenden Fehler möglichst stark reduziert werden. 

Vor diesem Hintergrund zeigt diese Arbeit einen Weg auf, die maschinelle Übersetzbarkeit 

eines deutschen Textes in die englische Sprache vor der Übersetzung durch einen Index 

zu bestimmen. Dazu werden nach einer kurzen Einführung in den Stand der Technik 

zunächst verschiedene Merkmale, die häufig in deutschen Texten auftreten, auf eine Beeinträchtigung 

der Leistung von Übersetzungsprogrammen untersucht. Auf der Grundlage 

der Merkmale, die empirisch untermauert die Fehleranzahl im übersetzten Text erhöhen, 

wird danach der Index für die maschinelle Übersetzbarkeit vom Deutschen ins Englische 

erstellt. Im dritten Schritt demonstriert diese Arbeit schließlich die Implementierung eines 

Programms, das diesen Index mit Hilfe von Algorithmen zur detaillierten Satzanalyse 

automatisch und zuverlässig berechnet.

Inhaltsverzeichnis 

Tabellenverzeichnis 7 

Abbildungsverzeichnis 8 

I. Einführung 10 

1. Grundlagen der Arbeit 11 

2. Stand der Technik 13 

2.1. Maschinelle und computerunterstützte Übersetzung . . . . . . . . . . . . . 13 

2.2. Historischer Abriss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.3. Ansätze der maschinellen Übersetzung . . . . . . . . . . . . . . . . . . . . 15 

2.3.1. Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.3.2. Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.3.3. Zwischensprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.3.4. Statistische MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.3.5. Beispielbasierte MÜ . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.4. Offene Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.4.1. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.4.2. Komposita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.4.3. Satzkomplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.4.4. Eigennamen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

2.4.5. Tempus-, Modus- und Aspektsystem . . . . . . . . . . . . . . . . . 20 

2.4.6. Fehlerhafte und umgangssprachliche Texte . . . . . . . . . . . . . . 21 

3. Ansätze zur Lösung der Übersetzungsprobleme 22 

3.1. Kontrollierte Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.1.1. Attempto Controlled English . . . . . . . . . . . . . . . . . . . . . 22 

3.1.2. Das KANT-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

3.1.3. Basic English . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

3.2. Vorbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

3.2.1. Linguistic Annotation Language . . . . . . . . . . . . . . . . . . . . 25 

3.3. Übersetzbarkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.3.1. Logos Translatability Index . . . . . . . . . . . . . . . . . . . . . . 25 

3.3.2. Translation Confidence Index . . . . . . . . . . . . . . . . . . . . . 26 

3.3.3. Translatability Checker . . . . . . . . . . . . . . . . . . . . . . . . . 26 

3.3.4. Bewertung der vorgestellten Ansätze . . . . . . . . . . . . . . . . . 27 

4


II. Ein Modell zur Einschätzung der Übersetzbarkeit eines Textes 28 

4. Vorbereitende Maßnahmen 29 

4.1. Auswahl von Textmerkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

4.2. Textuelle Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

4.3. Eingesetzte Übersetzungsprogramme . . . . . . . . . . . . . . . . . . . . . 32 

4.4. Bewertung der Übersetzungsqualität . . . . . . . . . . . . . . . . . . . . . 32 

4.4.1. Fehlersuche und Berechnung der Fehlerzahlen . . . . . . . . . . . . 33 

4.4.2. Beispiele zur Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . 34 

4.5. Signifikanz der Untersuchungsergebnisse . . . . . . . . . . . . . . . . . . . 35 

5. Untersuchung der Textmerkmale auf Fehlerrelevanz 37 

5.1. Allgemeine Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

5.1.1. Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

5.1.2. Nebensätze (Relativsätze) . . . . . . . . . . . . . . . . . . . . . . . 39 

5.1.3. Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

5.1.4. Seltenheit von Wörtern . . . . . . . . . . . . . . . . . . . . . . . . . 45 

5.1.5. Elliptischer Schreibstil . . . . . . . . . . . . . . . . . . . . . . . . . 46 

5.2. Sprachspezifische Textmerkmale . . . . . . . . . . . . . . . . . . . . . . . . 49 

5.2.1. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 

5.2.2. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 

5.2.3. Nominalkomposita . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

5.2.4. Inversion der Wortstellung . . . . . . . . . . . . . . . . . . . . . . . 58 

5.3. Signifikanz der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

5.4. Vergleich der eingesetzten Übersetzungsprogramme . . . . . . . . . . . . . 63 

6. Zusammenführung der Kriterien in einem Index 66 

6.1. Erstellung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . . 66 

6.1.1. Übersetzbarkeit von Texten . . . . . . . . . . . . . . . . . . . . . . 67 

6.1.2. Übersetzbarkeit von Sätzen . . . . . . . . . . . . . . . . . . . . . . 67 

6.1.3. Bewertung der Satzlänge . . . . . . . . . . . . . . . . . . . . . . . . 68 

6.2. Überprüfung des Übersetzbarkeitsindexes . . . . . . . . . . . . . . . . . . . 69 

III. MT Analyser: Automatische Messung der maschinellen Übersetzbarkeit 

72 

7. Modellierung von MT Analyser 73 

7.1. Systemabgrenzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

7.2. Anforderungen an MT Analyser . . . . . . . . . . . . . . . . . . . . . . . . 74 

7.3. Zur Verfügung stehende Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . 75 

7.3.1. Java und Swing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

7.3.2. Tagging-Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

7.3.3. TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

7.4. Modellierung wesentlicher Programmteile . . . . . . . . . . . . . . . . . . . 77 

7.4.1. Komponenten von MT Analyser . . . . . . . . . . . . . . . . . . . . 77 

7.4.2. Datenhaltung und Datenbearbeitung im Programmkern . . . . . . . 77 

5


7.4.3. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . 82 

8. Implementierung von MT Analyser 85 

8.1. Einbindung von TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . . 85 

8.1.1. Satzerkennung und Reformatierung des Textes . . . . . . . . . . . . 85 

8.1.2. Aufruf von TreeTagger . . . . . . . . . . . . . . . . . . . . . . . . . 85 

8.1.3. Verarbeitung der Ausgabe von TreeTagger . . . . . . . . . . . . . . 86 

8.2. Algorithmen zur Satzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 86 

8.2.1. Zerlegung in atomare Teilsätze . . . . . . . . . . . . . . . . . . . . . 86 

8.2.2. Kategorisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 88 

8.2.3. Hierarchisierung der atomaren Teilsätze . . . . . . . . . . . . . . . . 91 

8.2.4. Zusammenfügen der atomaren Teilsätze . . . . . . . . . . . . . . . . 92 

8.2.5. Überprüfung der Satzanalyse . . . . . . . . . . . . . . . . . . . . . 94 

8.3. Algorithmen zur Erkennung von Textmerkmalen . . . . . . . . . . . . . . . 94 

8.3.1. Abgetrennte Kompositionsglieder . . . . . . . . . . . . . . . . . . . 94 

8.3.2. Inversionen der Wortstellung . . . . . . . . . . . . . . . . . . . . . . 95 

8.3.3. Mehrdeutigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 

8.3.4. Nominalklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

8.3.5. Relativsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

8.3.6. Verbklammern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

8.4. Weitere Programmmerkmale . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

8.4.1. Benutzungsmodi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

8.4.2. Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . . . . . . . 106 

8.4.3. Editierbares Mehrdeutigkeitslexikon . . . . . . . . . . . . . . . . . . 108 

8.4.4. Konfigurationsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 109 

8.4.5. Hilfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 

8.4.6. Systemanforderungen und Laufzeit . . . . . . . . . . . . . . . . . . 112 

8.5. MT Analyser Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

8.5.1. Zusätzliche Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . 113 

8.5.2. Unterschiede zu MT Analyser . . . . . . . . . . . . . . . . . . . . . 113 

8.5.3. Benutzungsoberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

IV. Fazit und Ausblick 115 

9. Zusammenfassung der Ergebnisse 116 

10.Ansätze zur Weiterentwicklung 117 

Glossar 119 

Stichwortverzeichnis 123 

Literaturverzeichnis 127 

6

Tabellenverzeichnis 

5.1. Satzlänge und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 38 

5.2. Relativsätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . 40 

5.3. Andere Nebensätze und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . 41 

5.4. Mehrdeutigkeiten und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 44 

5.5. Ellipsen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

5.6. Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder . . 48 

5.7. Verbklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . 51 

5.8. Nominalklammern und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 54 

5.9. Nominalkomposita und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . 56 

5.10. Inversionen und Fehlerhäufigkeit . . . . . . . . . . . . . . . . . . . . . . . . 59 

6.1. Auswirkungen der Textmerkmale im Vergleich . . . . . . . . . . . . . . . . 67 

6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70 

8.1. Beispielsatz mit Kategorisierung der einzelnen Teilsätze . . . . . . . . . . . 91 

7

Abbildungsverzeichnis 

2.1. Schema für direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.2. Schema für Transferübersetzung . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.3. Schema für Interlingua-Übersetzung . . . . . . . . . . . . . . . . . . . . . . 16 

2.4. Schema für statistische Übersetzung . . . . . . . . . . . . . . . . . . . . . . 17 

2.5. Schema für beispielbasierte Übersetzung . . . . . . . . . . . . . . . . . . . 17 

5.1. Absolute Veränderungen der Fehleranzahl ohne Relativsätze . . . . . . . . 40 

5.2. Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen . . . . 42 

5.3. Absolute Veränderungen der Fehleranzahl bei Reduktion von Mehrdeutigkeiten 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

5.4. Zusammenhang zwischen Wortlänge und Worthäufigkeit . . . . . . . . . . 45 

5.5. Häufigkeit sehr langer Wörter . . . . . . . . . . . . . . . . . . . . . . . . . 46 

5.6. Absolute Veränderungen der Fehleranzahl beim Ausfüllen von Ellipsen . . 48 

5.7. Absolute Veränderungen der Fehleranzahl ohne Verbklammern . . . . . . . 52 

5.8. Absolute Veränderungen der Fehleranzahl ohne Nominalklammern . . . . . 54 

5.9. Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl von Nominalkomposita 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

5.10. Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung 60 

5.11. Fehlerzahlen von Babel Fish und Personal Translator 2006 für die einzelnen 

Textkorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

5.12. Gesamtfehlerzahl von Babel Fish und Personal Translator 2006 . . . . . . 65 

6.1. Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort . . . . . . . . 69 

6.2. Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz . . . . . . . . 70 

7.1. Logo von MT Analyser (Startbildschirm des Programms) . . . . . . . . . . 73 

7.2. Modellierung der zentralen Klassen zur Textbewertung . . . . . . . . . . . 79 

7.3. Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für beliebig 

viele Sätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

7.4. Modellierung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . . . 83 

8.1. Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden, 

mit Klammern und Gedankenstrichen versehenen Satzes . . . . . . 87 

8.2. Beispielsatz mit Hierarchisierung der einzelnen Teilsätze . . . . . . . . . . 92 

8.3. Reduktionsbaum für Nominalklammer (erstes Beispiel) . . . . . . . . . . . 100 

8.4. Reduktionsbaum für Nominalklammer (zweites Beispiel) . . . . . . . . . . 101 

8.5. Hauptmenü im Textmodus . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

8.6. Auswahl von Textmerkmalen im Bewertungsprozess . . . . . . . . . . . . . 104 

8.7. Hauptfenster mit Übersetzbarkeitsreport . . . . . . . . . . . . . . . . . . . 105 

8.8. Baumdarstellung des Mehrdeutigkeitslexikons . . . . . . . . . . . . . . . . 105 

8

Abbildungsverzeichnis 

8.9. Ausschnitt aus HTML-Übersetzbarkeitsreport . . . . . . . . . . . . . . . . 107 

8.10. Klasse AnnotatedString . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

8.11. Bearbeiten eines mehrdeutigen Begriffs . . . . . . . . . . . . . . . . . . . . 108 

8.12. Eintrag zum Lexikon hinzufügen . . . . . . . . . . . . . . . . . . . . . . . . 109 

8.13. Angabe neuer Gewichte für die Textmerkmale . . . . . . . . . . . . . . . . 110 

8.14. An- und Abwahl von Textmerkmalen . . . . . . . . . . . . . . . . . . . . . 110 

8.15. Angabe und Test eines Pfades zu TreeTagger . . . . . . . . . . . . . . . . . 111 

8.16. Hilfemenü in der grafischen Oberfläche . . . . . . . . . . . . . . . . . . . . 111 

8.17. Hilfemenü in der textuellen Oberfläche . . . . . . . . . . . . . . . . . . . . 112 

8.18. MT Analyser Web: Erweiterter Übersetzungsmodus . . . . . . . . . . . . . 114 9

Teil I. 

Einführung 

10

1. Grundlagen der Arbeit 

Ausgangslage 

Ganz bestimmt gibt es keine andere Sprache, die so ungeordnet und unsystematisch, 

so schlüpfrig und unfaßbar ist; man treibt völlig hilflos in ihr umher, 

hierhin und dahin; und wenn man schließlich glaubt, man hätte eine Regel erwischt, 

die festen Boden böte, auf dem man inmitten der allgemeinen Unruhe 

und Raserei der zehn Wortarten ausruhen könne, blättert man um und liest: 

Der Schüler beachte sorgfältig folgende Ausnahmen.“ – Mark Twain [Twa94] 

” 

Dieses harte Urteil über die deutsche Sprache mag man teilen oder nicht, ganz gleich, 

ob sie die eigene Muttersprache ist oder man sie sich erst mühsam in Schule oder Studium 

aneignen musste. Niemand wird jedoch die Tatsache bestreiten, dass schon viele, die 

versucht haben, sie zu lernen, ebenso hilflos in ihr umhergetrieben wurden wie seinerzeit 

Mark Twain. Und obwohl seit den ersten Gehversuchen auf dem Gebiet der maschinellen 

Übersetzung (MÜ) bereits über fünfzig Jahre vergangen sind, macht man selbst mit 

hochspezialisierten Programmen trotz ausgefeilter Regelwerke auch heute noch diese Erfahrung, 

wenn man versucht, einen Text von einer anderen in die deutsche Sprache zu 

bringen oder umgekehrt: Diese Programme treiben in einem Gewirr aus Regeln und Ausnahmen 

hin und her und spätestens, wenn sie die dritte Ausnahme von der zweiten Regel 

entdeckt haben, kapitulieren sie bedingungslos. 

Setzt man eines der vielen im Internet verfügbaren Übersetzungsprogramme1 auf obiges 

Zitat an, das zwar von komplexer Struktur, aber ansonsten frei von Fachbegriffen oder 

ungewöhnlichen Formulierungen ist, erhält man mitunter belustigende Ergebnisse. Babel 

Fish, das die Technologie von Systran 2 benutzt, liefert, wenn man das Zitat erst ins 

Englische und dann wieder zurück ins Deutsche übersetzen lässt, folgendes: 

Es gibt vollständig zweifellos keine andere Sprache, die und unsystematically 

so unordered ist, so glatt und unverständlich; ein schwimmt vollständig hilflos 

in es herum, in auf diese Weise und dort; und wenn man schließlich glaubt, 

würde man eine Richtlinie erhalten haben, die festen Boden anbieten würde, 

auf dem man in der Mitte der allgemeinen Ruhelosigkeit und in der Raserei 

der 10 Arten des Wortes stillstehen kann, eins wieder Blätter treibt und liest: 

Die Schüler betrachtet die sorgfältig folgenden Ausnahmen.“ 

” 

Ohne Schwierigkeiten ließen sich weitere Beispieltexte finden, die ein ähnlich fehlerdurchsetztes, 

aber immerhin noch verständliches Ergebnis produzieren. 

1 Als Beispiele seien an dieser Stelle Babel Fish (de.babelfish.yahoo.com), Personal Translator 2006 

(http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse: Personal Translator 

2008 ), webtranslate (http://www.webtranslate.de/) oder opentrad (http://www.opentrad. 

org/demo/) genannt, jeweils zuletzt besucht am 28. Februar 2007 

2 Die Firma Systran wurde 1968 gegründet und stellt Übsersetzungsprogramme her. 11

1. Grundlagen der Arbeit 

Motivation 

Inzwischen sind automatische Übersetzungen trotz ihrer offensichtlichen Mängel unverzichtbar 

geworden: Weltweit fallen jedes Jahr viele Millionen beschriebener Seiten an, die 

– aus welchen Gründen auch immer – vollständig und korrekt in andere Sprachen übertragen 

werden müssen. Da diese Arbeit nicht allein von ausgebildeten Übersetzern bewältigt 

werden kann, müssen Computer einen Teil davon übernehmen. Und weil diese nach wie 

vor viele Fehler machen, müssen nach erfolgter Übersetzung wieder Menschen die Fehler 

finden und beheben. Dies erfordert einen nicht zu unterschätzenden Aufwand an Zeit und 

Personal und verursacht damit hohe Kosten. 

Solange Übersetzungsprogramme nicht annähernd fehlerfrei arbeiten, wird man um diesen 

Sachverhalt auch nicht herumkommen; aber man kann versuchen, so wenig wie möglich 

in die Beseitigung von Fehlern investieren zu müssen. Dazu bietet es sich an, einen zu 

übersetzenden Text bereits in der Ausgangssprache so zu verfassen, dass er dem Übersetzungsprogramm 

aller Voraussicht nach nur wenige Probleme bereitet. Es gibt hierzu 

bereits mehrere Ansätze (siehe Abschnitt 3), unter anderem Maße für Übersetzbarkeit. 

Allerdings fehlt es bislang an einem Maß, das die allgemeine, von konkreten Übersetzungsprogrammen 

unabhängige Übersetzbarkeit eines deutschen Textes in die englische 

Sprache für die aktuelle Generation von Übersetzungsprogrammen ermitteln kann. 

Ziel der Arbeit 

Die Frage, wie sich die Übersetzbarkeit eines Textes messen lässt, war bislang Gegenstand 

vergleichsweise weniger Forschungsarbeiten und ist bisher für die deutsche Sprache nur 

unzureichend beantwortet, weil sich die meisten Autoren vor allem mit der Übersetzbarkeit 

englischer Texte in andere Sprachen befasst haben. 

Ziel dieser Arbeit ist daher, auf Basis gegenwärtig verfügbarer Technologie einen Index für 

die Übersetzbarkeit eines deutschsprachigen Textes zu erstellen. Als Grundlage für den 

Index sollen allgemeine und sprachspezifische Textmerkmale identifiziert und die Auswirkungen 

ihres Auftretens auf die Übersetzungsqualität anhand vorhandener Übersetzungsprogramme 

empirisch gemessen und gewichtet werden. Der so erstellte Übersetzbarkeitsindex 

soll dann automatisch durch ein Programm für gegebene Texte berechnet werden, 

wobei eine Analyse sowohl für einzelne Sätze als auch für den gesamten Text erfolgen und 

Verbesserungsvorschläge beinhalten soll. Die Benutzung des Programms soll sowohl über 

eine Kommandozeile, in Form einer alleinstehenden grafischen Oberfläche (GUI) als auch 

über eine Internetseite möglich sein, wobei die Benutzer ihre Texte übergeben und einen 

ausführlichen Bericht über mögliche Übersetzungsschwierigkeiten sowie den erzielten Indexwert 

zurückerhalten. 

12

2. Stand der Technik 

In diesem Abschnitt wird dargelegt, wie sich die automatische Übersetzung bis heute 

entwickelt hat, welche Ansätze genutzt werden und welche Probleme es gibt. Außerdem 

werden die zentralen Probleme der heutigen MÜ-Systeme erläutert und dargestellt, welche 

Maßnahmen üblicherweise getroffen werden, um Übersetzungsfehler zu vermeiden. 

2.1. Maschinelle und computerunterstützte Übersetzung 

Um Verwechslungen im weiteren Verlauf zu vermeiden, wird an dieser Stelle zunächst der 

Unterschied zwischen maschineller und computerunterstützter Übersetzung (CÜ) geklärt. 

MÜ-Systeme umfassen neben umfangreichen Lexika der jeweiligen Sprachen auch Regeln 

zur Syntax, Morphologie und Semantik in Ausgangs- und Zielsprache und führen auf 

dieser Grundlage die Übersetzung auch selbstständig durch. Das Ergebnis wird hinterher 

gegebenenfalls korrigiert und in eine korrekte, vollständige und stilistisch angemessene 

Form gebracht. Bekannte MÜ-Systeme sind zum Beispiel Systran oder Logos. 

CÜ-Software hingegen überlässt die Übersetzungsarbeit den Benutzern. Sie ist nicht in 

der Lage, Übersetzungen selbst zu erzeugen: Zwar verfügt sie über Lexika, jedoch nicht 

über Regeln zur Übersetzung. Vielmehr macht sie dem Benutzer auf Basis ihrer Lexika 

Vorschläge und speichert, wie der Benutzer bestimmte Textabschnitte übersetzt hat 

(Translation Memory), oder enthält bereits typische vorgefertigte Textabschnitte mit ihren 

Übersetzungen. Erkennt sie das Auftreten eines derartigen Textstücks, schlägt sie aus 

ihrem Datenbestand verschiedene Möglichkeiten zur Übersetzung vor, aus denen der Nutzer 

dann eine auswählen oder auch eine völlig neue Übersetzung angeben kann. Beispiele 

für CÜ-Software sind unter anderem MetaTexis1 und Wordfast 2 . 

In jedem Fall besteht also bei CÜ-Software zwangsläufig eine ständige Interaktion zwischen 

Nutzer und Programm, während MÜ-Systeme normalerweise autonom arbeiten, 

wobei natürlich nicht ausgeschlossen ist, dass ein solches Programm beim Nutzer nachfragt, 

wenn es sich nicht in der Lage sieht, einen bestimmten Textabschnitt selbstständig 

korrekt zu übersetzen. CÜ-Programme werden im weiteren Verlauf der Arbeit nicht weiter 

betrachtet, weil sie nicht zum Bereich der maschinellen Übersetzung gehören. 

2.2. Historischer Abriss 

Das Bestreben, sich von Computern Texte übersetzen zu lassen, ist fast so alt wie Computer 

selbst. Erste Forschungen begannen bereits Ende der 1940er Jahre, und 1954 wurde 

in dem vielbeachteten Georgetown-Experiment der erste, wenngleich noch rudimentäre 

Übersetzungscomputer vorgestellt, der einfache Sätze mit sehr begrenztem Wortschatz 

von der russischen in die englische Sprache transferieren konnte [Dos55]. 

1 Im Internet erreichbar unter: http://www.metatexis.com, zuletzt besucht am 5. April 2007 

2 Im Internet erreichbar unter: http://www.wordfast.net, zuletzt besucht am 6. April 2007 

13


In den folgenden Jahren wurde die Entwicklung weiter vorangetrieben, denn insbesondere 

die Militärs hatten während des Kalten Krieges ein starkes Interesse daran, ihren jeweiligen 

Feind möglichst schnell und unabhängig von menschlichen Übersetzern zu verstehen. 

Insofern war für sie auch ein System von Nutzen, das zwar meilenweit von fehlerfreien 

Übersetzungen entfernt war, den Inhalt des zugrunde liegenden Textes aber einigermaßen 

wiedergeben konnte. Allerdings blieben große Durchbrüche in der maschinellen Übersetzung 

aus. Vielmehr traten mehr und mehr vor allem semantische, teilweise bis heute 

ungelöste Probleme zutage, so dass der ursprüngliche Optimismus sich langsam in Skepsis 

wandelte ([Hut86], Kap. 8). 

1966 kam die Forschung dann in den USA und Großbritannien für etliche Jahre fast 

komplett zum Erliegen. Grund dafür war eine US-amerikanische Studie, der sogenannte 

ALPAC-Report [Pa66], die ein vernichtendes Urteil über den Stand, den Nutzen und die 

Perspektiven maschineller Übersetzungen fällte. Als Folge wurden zahlreiche Forschungsprojekte 

aufgegeben und die Fördergelder zusammengestrichen ([Hut86], Kap. 8). Auch 

auf die Sowjetunion und Westeuropa hatte dieser Bericht Auswirkungen. 

Allerdings wurde gerade in der Europäischen Gemeinschaft (EG) die Entwicklung von 

MÜ-Systemen vor allem für die Verwaltungen fortgesetzt, weil man eine Vielzahl von 

Dokumenten in die verschiedenen Sprachen der Mitgliedsländer übersetzen musste und 

muss. Ein bekanntes System aus dieser Zeit, das unter anderem von der EG-Kommission 

eingesetzt wurde, ist das bis heute weiterentwickelte Systran [Lau84]. 

Als in den 1980er Jahren PCs und Workstations mit Textverarbeitungsprogrammen große 

Verbreitung erlangten, nahm die Entwicklungsaktivität auch in den USA wieder zu, da inzwischen 

ein Bedarf für konstengünstige Massenprodukte zur automatischen Übersetzung 

entstanden war. Zudem bedurften gerade auch internationale Konzerne zuverlässiger Software, 

um der großen Anzahl an zu übersetzenden Texten (Verträge, Dokumentationen, 

Anleitungen etc.) Herr zu werden. Anstelle des ursprünglichen Ansatzes, die Ausgangssprache 

mittels eines spezialisierten Regelsystems direkt in die Zielsprache zu überführen, 

wurden nun verstärkt indirekte Interlinguasysteme implementiert. (Eine Beschreibung der 

vorherrschenden Übersetzungstechniken findet sich in Abschnitt 2.3.) 

In den 90er Jahren entstanden erste Systeme, die nicht mehr rein regelbasiert waren, sondern 

statistische Methoden oder Korpora von Beispielübersetzungen benutzten, um passende 

Übersetzungen zu generieren. Zudem stieg durch die rasante Ausbreitung von PCs 

auf der ganzen Welt der Bedarf für erschwingliche Übersetzungsprogramme seitens der 

Privatanwender weiter an, so dass inzwischen eine Vielzahl von Firmen solche Produkte 

kommerziell vertreibt. Mit dem Aufkommen des Internets wurden auch Online-Übersetzungstools 

populär. 

Auch die Ausrichtung der Übersetzungsprogramme wandelte sich: Standen in der Anfangszeit 

vor allem Übersetzungen wissenschaftlicher und technischer Texte im Vordergrund, so 

werden heute alle Arten von Texten übersetzt. Dementsprechend sind die Wörterbücher, 

die von den heutigen Programmen benutzt werden, in aller Regel weniger spezialisiert 

und liefern eine gute Abdeckung aller Themengebiete. 

Der Markt für Übersetzungen ist nach wie vor von starkem Wachstum geprägt. Laut 

Angaben der Universität Leipzig (Translatio) steigt die Nachfrage um rund 14 Prozent 

jährlich [Tra06] – und damit auch der Bedarf an maschinellen Übersetzungen. Die Qualität 

der Übersetzungen ist dabei bis heute, gleich welcher Ansatz einem System zugrundeliegt, 

insofern unbefriedigend, als praktisch sämtliche übersetzten Texte umfassende Nachbearbeitung 

benötigen, um veröffentlicht werden zu können. Allerdings liefern sie trotz vieler 

14

2.3. Ansätze der maschinellen Übersetzung 

ungelöster Probleme (siehe Abschnitt 2.4) in den meisten Fällen zwar keine fehlerfreien, 

aber immerhin verständliche Übersetzungen. Ein Beispiel hierfür ist etwa das einleitende 

Zitat von Mark Twain. Manchmal jedoch kommt es auch zu groben Verfälschungen, so 

dass der Inhalt des Ausgangstextes nicht einmal erahnt werden kann. 

Weil eine umfassende Lösung für die meisten Probleme nicht in Sicht war und/oder ist, 

wurden in den vergangenen Jahren parallel zur Weiterentwicklung der Übersetzungstechniken 

mehrere Ansätze entwickelt, um zu erreichen, dass die Übersetzung eines Textes 

möglichst wenige Fehler und damit nur geringen Nachbearbeitungsaufwand nach sich 

zieht. Einige davon werden im Rahmen dieser Einführung kurz vorgestellt. Es handelt 

sich dabei um kontrollierte Sprachen (Abschnitt 3.1), Annotationssprachen (Abschnitt 

3.2) und eben Methoden zur Messung der Übersetzbarkeit (Abschnitt 3.3). 

2.3. Ansätze der maschinellen Übersetzung 

Seit Beginn der Forschung auf diesem Gebiet ist eine Vielzahl an Übersetzungssystemen 

entstanden, die verschiedenen Paradigmen folgen. Diese lassen sich in die folgenden 

Klassen einordnen, wobei in der Praxis häufig auch Mischformen zum Einsatz kommen 

(vergleiche [Hut92], [ABM + 94] und [HS92]). 

2.3.1. Direkte Übersetzung 

Eine direkte Übersetzung wird vorgenommen, indem ein Text aus einer Ausgangssprache 

mit Hilfe eines Regelwerkes in eine Zielsprache überführt wird. Dazu werden nach einer 

morphologischen Analyse die Wörter einzeln in die Zielsprache übertragen und Wortstellung 

sowie Flexionsformen angepasst. Eine semantische Analyse findet dabei nicht statt, 

so dass die Ergebnisse dieser Methode etwa bei Zweideutigkeiten sehr unbefriedigend sind. 

Nachteilig ist zudem, dass bei n Sprachen, zwischen denen jeweils direkt übersetzt werden 

soll, insgesamt (n 2 − n) Regelsätze angefertigt werden müssen. Abbildung 2.1 zeigt die 

Funktionsweise dieses ältesten und einfachsten Ansatzes. 

Abbildung 2.1.: Schema für direkte Übersetzung 

2.3.2. Transfer 

Der Transferansatz analysiert den Ausgangstext grammatikalisch und überführt ihn in eine 

spezielle sprachabhängige Zwischendarstellung, die seine Eigenschaften wiedergibt und 

auch semantische Informationen enthält. Meist wird dazu eine Baumstruktur benutzt. Anschließend 

wird in einem zweiten Schritt mittels eines (namengebenden) Transfermoduls 

die Zwischendarstellung der Ausgangssprache in eine gleichwertige Zwischendarstellung 

der Zielsprache überführt. Erst dann wird aus der Zwischendarstellung der endgültige 

Text in der Zielsprache generiert. Ein wichtiger Vorteil gegenüber dem direkten Ansatz ist 

die Beachtung semantischer Strukturen. Auch können die Zwischendarstellungen für jede 

15


Sprache optimiert werden. Allerdings müssen bei n Sprachen insgesamt (n 2 − n) Transfermodule 

erstellt werden, um von jeder Sprache in jede andere übersetzen zu können. 

Außerdem werden noch jeweils n Module zur Erzeugung der Zwischendarstellung und des 

Zieltextes benötigt. Abbildung 2.2 zeigt den Ablauf dieses Schemas. 

Abbildung 2.2.: Schema für Transferübersetzung 

2.3.3. Zwischensprache 

So genannte Interlingua-Systeme (lat. interlingua: Zwischensprache) erzeugen ebenfalls 

aus einem Ausgangstext eine Zwischendarstellung. Diese ist allerdings sprachunabhängig. 

So wird bei n Sprachen immer nur eine Zwischendarstellung benötigt, was den Programmieraufwand 

im Vergleich zu einem Transfersystem drastisch senkt. Hinzu kommen noch 

je n Module zur Erzeugung der Zwischendarstellung aus der Ausgangssprache und der 

Zielsprache aus der Zwischendarstellung. Abbildung 2.3 beschreibt den Ansatz grafisch. 

Das Problem bei diesem Ansatz ist die sprachunabhängige Zwischendarstellung. Bisher 

ist es noch nicht gelungen, eine wirklich allgemeingültige Interlingua zu erstellen. Deshalb 

wird trotz des höheren Aufwands der Transferansatz auch bei multilingualen MÜ- 

Systemen vorgezogen. 

Abbildung 2.3.: Schema für Interlingua-Übersetzung 

2.3.4. Statistische MÜ 

Statistische MÜ kommt im Gegensatz zu den obigen Ansätzen ohne vorgefertigte Grammatik 

aus. Vielmehr werden alle benötigten Informationen wie Worthäufigkeiten, Grammatikregeln 

usw. mit Methoden zur Informationsgewinnung aus großen bi- und multilingualen 

Textkorpora für die beteiligten Sprachen extrahiert. 

Im Zentrum bei der Übersetzung eines Textes steht dann die Berechnung der Wahrscheinlichkeit, 

dass ein bestimmter Satz in der Ausgangssprache auf einen bestimmten Satz in 

der Zielsprache abgebildet werden kann. Zunächst wird dazu die Wahrscheinlichkeit P (A) 

des Auftretens des Ausgangssatzes A berechnet und anschließend die bedingte Wahrscheinlichkeit 

P (Z|A), dass Zielsatz Z auftritt, wenn A vorliegt. Beide Wahrscheinlichkeiten 

werden miteinander zu P (A) · P (Z|A) verknüpft. Diese Prozedur wird für zahlreiche 

mögliche Zielsätze durchgeführt, wobei am Ende derjenige gewählt wird, der die größte 

16

2.4. Offene Probleme 

Wahrscheinlichkeit liefert. In der Praxis werden meist noch weitere Parameter hinzugefügt, 

um die Ergebnisse zu verbessern. 

Das Hauptproblem hierbei ist, dass große und vor allem in geeigneter Weise (z. B. durch 

Zuordnung von Sätzen in Ausgangs- und Zielsprache) aufbereitete Textkorpora relativ selten 

sind. Dafür erspart man sich die manuelle Erstellung komplizierter Grammatikregeln. 

Abbildung 2.4.: Schema für statistische Übersetzung 

2.3.5. Beispielbasierte MÜ 

Im Gegensatz zur statistischen Übersetzungsmethode ist die beispielbasierte MÜ wieder 

ein regelbasiertes Verfahren, das jedoch nicht wie die ersten drei Verfahren versucht, 

möglichst allgemeine Grammatikregeln abzubilden. Vielmehr ist der Hauptbestandteil des 

Systems wie bei statistischer MÜ ein bi- oder multilinguales Textkorpus, aus dem mittels 

einander zugeordneter Sätze oder Phrasen zahlreiche Übersetzungsvorlagen für die 

jeweiligen Sprachen gewonnen werden. Diese lassen sich über mit Bedingungen versehene 

Regeln repräsentieren. Eine solche Bedingung könnte etwa sein, dass Zug mit train ins 

Englische übersetzt wird, wenn im Beispiel auch das Wort Schiene vorkommt, aber mit 

drag, wenn von einer Zigarette die Rede ist. 

Da es allerdings unmöglich ist, auf diese Weise die gesamte Sprache abzudecken, müssen 

Sätze in der Ausgangssprache daraufhin analysiert werden, welchem Übersetzungsbeispiel 

sie am ehesten ähneln. Bei fehlenden Vokabeln ist es auch möglich, ähnliche Beispiele wie 

Schablonen zu benutzen und Wörter einzusetzen. 

Abbildung 2.5.: Schema für beispielbasierte Übersetzung 


Wie das einführende Beispiel zeigte, bestehen trotz ausgefeilter Übersetzungstechniken 

immer noch starke Defizite, die komplett fehlerfreie und in vielen Fällen selbst annehmbare 

Übersetzungen verhindern. Im folgenden werden einige wichtige ungelöste Probleme 

vorgestellt, die im weiteren Verlauf dieser Arbeit in ihrer Auswirkung auf die Übersetzungsqualität 

betrachtet werden. Dabei gibt es sowohl allgemeingültige Probleme als auch 

sprachspezifische. 

17


2.4.1. Mehrdeutigkeit 

Ein zentrales Problem beim Übersetzen zwischen zwei Sprachen ist, dass es in praktisch jeder 

natürlichen Sprache Wörter gibt, die in einer anderen Sprache zwei oder mehr mögliche 

Übersetzungen mit unterschiedlichen Bedeutungen haben. Dieses Phänomen bezeichnet 

man als lexikalische Mehrdeutigkeit (vgl. [ABM + 94]). Es ist auch in der deutschen Sprache 

häufig anzutreffen. 

Als Beispiel sei hier das deutsche Substantiv Verdienst genannt. Es kann sich dabei um 

ein Gehalt als auch um eine besondere Leistung handeln. Im Englischen muss je nach 

Bedeutung entweder income oder merit als Übersetzung gewählt werden. Für Verdienst 

ist diese Unterscheidung noch einfach, weil man nur auf darauf achten muss, ob es der 

oder das Verdienst ist. Bei Wörtern wie Zug, das noch wesentlich mehr Bedeutungen hat 

– Eisenbahn, Luftzug, Zug an einer Zigarette und andere –, ist es wesentlich schwerer, 

die korrekte Übersetzung zu ermitteln. Hier muss ein wie auch immer gearteter anderer 

Kontext herangezogen werden. Ein weiteres Beispiel für ein hochfrequentes mehrdeutiges 

Wort ist etwa das Verb fahren. Im Englischen kann es je nach Situation unter anderem 

go, drive, ride oder cycle heißen, im Spanischen conducir oder ir. 

Von lexikalischer Mehrdeutigkeit spricht man auch, wenn ein und dasselbe geschriebene 

Wort mehreren Wortarten angehört. Besonders im Englischen, das kaum wortartspezifische 

Endungen aufweist, ist dieses Phänomen weit verbreitet. So kann lunch sowohl ein 

Substantiv (the lunch) als auch ein Verb (to lunch) sein. Im Deutschen könnte man, wenn 

man statt Mittagessen unbedingt den Anglizismus benutzen möchte, immer noch zwischen 

dem Substantiv Lunch und dem Verb lunchen unterscheiden. Zwischen Adjektiven und 

Verben existieren im Englischen ebenfalls zahlreiche Homographen, etwa cool (kühl bzw. 

kühlen). Auch in der deutschen Sprache trifft man auf dieses Problem: Deutsch verfügt 

über solche Homographen im wesentlichen nur bei Adjektiven und Adverbien, so etwa bei 

schön: Man vergleiche beispielsweise die Sätze Margarete hat ihr Bild schön gemalt., wo 

schön als Adverb gebraucht wird, und Margaretes Bild ist schön., wo schön ein Adjektiv 

ist. 

Darüber hinaus gibt es noch die strukturelle Mehrdeutigkeit, die auftritt, wenn ein Satz 

oder ein Satzteil mehrere mögliche Strukturen hat. Ein Beispiel für dieses Problem ist 

der Satz Die Spaziergänger beobachteten die Sternschnuppe mit ihrem Fernglas. Für einen 

Menschen ist sofort klar, dass mit ihrem Fernglas sich nur sinnvoll auf die Spaziergänger 

beziehen kann, die es einsetzen, um den Himmelskörper zu betrachten. Für eine Maschine, 

die zuvorderst mit Regeln oder Wahrscheinlichkeiten und nicht mit Ratio agiert, könnte 

die Präpositionalphrase sich aber genauso gut auf die Sternschuppe beziehen, die mit 

ihrem Fernglas am Himmel entlangschwebt. 

Insgesamt gilt das Problem der Mehrdeutigkeit als überaus komplex und bislang noch 

nicht hinreichend gelöst. Dementsprechend bleibt es auch in Zukunft vielleicht die wichtigste 

Fehlerquelle für maschinelle Übersetzungen. In letzter Zeit haben sich wegen seiner 

Bedeutung viele Projekte auf dieses Problem fixiert und Lösungsansätze wie etwa die 

Linguistic Annotation Language, die in 3.2.1 vorgestellt wird, entworfen. 

2.4.2. Komposita 

Ebenfalls ein für MÜ-Systeme wichtiges Problem in vielen Sprachen sind Komposita, 

insbesondere ihre Zerlegung, wenn es in der Zielsprache kein passendes Wort oder kei- 

18


nen vergleichbaren Mechanismus gibt. Deutsch ist ein sehr gutes Beispiel für eine Sprache, 

in denen Nominalkomposita gebildet werden. Ein weithin bekanntes Kompositum 

ist Donaudampfschifffahrtsgesellschaftskapitän, das sich durch Anfügen weiterer Substantive 

beliebig verlängern lässt. Ein noch skurrileres, aber real existierendes Beispiel ist 

das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz aus Mecklenburg- 

Vorpommern. 

Bei der Übersetzung in Sprachen, die keine Nominalkomposita kennen, wie etwa die romanischen 

Sprachen müssen die einzelnen Bestandteile erkannt und als jeweils eigenständige 

Wörter in eine korrekte Verbindung miteinander gebracht werden. Immerhin ist die Abgrenzung 

deutscher Komposita durch ihre Zusammenschreibung gegeben, was im Englischen 

nicht der Fall ist. Hier birgt ein Satz wie The killer games rage campaign intensified. 

das Problem, dass nicht klar ist, welche Bestandteile zusammengehören. Die Wörter rage 

und campaign könnten theoretisch auch das Hauptverb sein. 

Wieder andere Sprachen können ganze Satzteile zu einem einzigen Wort agglutinieren, so 

dass dann aus diesem Wort heraus bei der Übersetzung in andere Sprachen ein kompletter 

Satz unter Wahrung der Bedeutung extrahiert werden muss. Ein berühmtes Beispiel 

hierfür ist der Name des walisischen Ortes Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch, 

dessen offizielle englische Übersetzung3 Saint Mary’s Church in the hollow 

of the white hazel near a rapid whirlpool and the Church of Saint Tysilio of the red cave 

lautet. 

2.4.3. Satzkomplexität 

Je länger ein Satz wird, desto komplexer wird auch seine syntaktische Struktur. Zum einen 

erhöht sich die bloße Anzahl der Wörter, die korrekt miteinander in Beziehung gesetzt 

werden müssen, zum anderen bekommt der Satz durch Unterordnungen zusätzliche Ebenen. 

Es steht zu erwarten, dass mit zunehmender Satzlänge auch ohne Mehrdeutigkeiten 

ein Übersetzungsprogramm zunehmend die Übersicht verliert und nicht mehr in der Lage 

ist, die Wörter korrekt zu ordnen und die Satzebenen mit all ihren Abhängigkeiten richtig 

zu verwalten. Aus diesem Grund wird für maschinengerechtes Schreiben von Texten oft 

empfohlen, allzu lange Sätze zu vermeiden, etwa in [Kor06] oder [BG00]. 

Ein weiterer Punkt sind satzübergreifende Referenzen. Viele Programme haben Probleme 

damit, Referenzen über mehrere Sätze hinweg zu analysieren oder tun dies erst gar nicht. 

Dies führt gerade bei Pronomen dazu, dass in vielen Fällen geraten werden muss, worauf 

sie sich beziehen, so dass falsche Beziehungen zwischen Satzteilen entstehen. Ein Beispiel 

hierfür ist das Satzgefüge: 

Nach dem Vietnam-Krieg zeigte sich eine Desorientierung und Ratlosigkeit der US-Außenpolitik. 

Sie fand ihren Ausdruck im Schwanken zwischen einer Abkehr von Interventionismus 

und Demonstration militärischer Stärke und dessen Gegenteil. 

Die Übersetzung mit Babel Fish liefert: 

To the Viet Nam war a disorientation and an embarrassment of the US foreign policy 

pointed themselves. She found her expression in varying between a break of interventionism 

and demonstration of military strength and its opposite. 

3 Entnommen der offiziellen Homepage der Gemeinde unter http://www. 

llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch.co.uk/, letzter Besuch 

am 16. November 2006 

19


Abgesehen von den übrigen Fehlern wurde hier offenbar nicht erkannt, dass der zweite 

Satz sich auf Desorientierung und/oder Ratlosigkeit bezieht, die im Englischen als Neutrum 

behandelt werden, so dass die ursprünglich vorhandene Verbindung zerstört wird 

durch die Benutzung der femininen Pronomina she und her. Um derartige Probleme zu 

umgehen, verlangen zahlreiche kontrollierte Sprachen wie ACE und KCE (siehe Abschnitt 

3.1) explizite Wiederholungen von Bezugswörtern. 

2.4.4. Eigennamen 

Auch bei Eigennamen stellen sich nach wie vor zwei zentrale Probleme: 

• Der Eigenname muss korrekt herausgefiltert werden. 

• Der Eigenname muss entweder korrekt übersetzt werden oder unverändert bleiben. 

Beide Probleme scheinen auf den ersten Blick recht einfach zu lösen, sind aber mit zahlreichen 

Schwierigkeiten behaftet. Insbesondere Firmennamen, die oftmals aus verschiedenen 

Bestandteilen und Phantasiewörtern bestehen, sind problematisch, nicht nur weil oftmals 

unklar ist, wo sie beginnen und enden. So muss das Wort Wohnungsbaugesellschaft 

normalerweise übersetzt werden, aber nicht, wenn es Bestandteil eines (hier erdachten) 

Firmennamens wie Zentralbau Wohnungsbaugesellschaft mbH ist. Und bei Phantasienamen 

wie Infineon steht das MÜ-System vor der Frage, ob es nur eine unbekannte Vokabel 

oder ein Eigenname ist. 

Personen- und Ortsnamen sind ebenfalls problembehaftet, etwa wenn es um hintereinander 

stehende oder historische Namen geht. Verkaufte Klaus Peter eine Eintrittskarte? ist 

ein Satz, in dem es entweder um einen Mann namens Klaus Peter oder um zwei Männer 

namens Klaus und Peter gehen kann. Ebenso muss ein MÜ-System entscheiden, wann 

ein zu übersetzender Name vorliegt, was meistens bei größeren Orten und historischen 

Persönlichkeiten der Fall ist. Karl der Große heißt auf Englisch nun einmal Charlemagne 

und nicht Karl the great oder Charles the great, und aus Nürnberg muss in der Übersetzung 

Nuremberg werden. 

2.4.5. Tempus-, Modus- und Aspektsystem 

Während die deklinierbaren Wortarten sich zwischen den verschiedenen Sprachen meist 

nur geringfügig unterscheiden, nämlich in der Stärke und den Kategorien ihrer Beugung, 

und ansonsten strukturell fast gleichen Systemen folgen, ist die korrekte Abbildung zweier 

Verbsysteme aufeinander selbst bei eng verwandten Sprachen ein wesentlich komplizierteres 

Unterfangen. 

Um etwa zu wissen, in welchem Kasus oder mit welcher Präposition ein Nomen in der 

Übersetzung steht, reicht es in den indogermanischen Sprachen aus, das zugehörige Verb 

und die Funktion des Nomens im Satz zu kennen. Um sich für die richtige Verbform zu 

entscheiden, bedarf es tiefgründigerer Analysen, weil das Zusammenspiel aus Tempus, 

Modus und Aspekt von nicht explizit angegebenen Faktoren abhängt. 

Die deutsche Sprache kennt zum Beispiel keinen Verbalsapekt, im Gegensatz etwa zu Englisch 

oder Spanisch, die eine Zustands- und eine Verlaufsform bei Verben aufweisen. Ich 

esse kann daher prinzipiell als I eat oder I am eating respektive als como oder estoy comiendo 

übersetzt werden. Erst zusätzliche Informationen zu den Umständen der Aussage 

20


ermöglichen die sinnvolle Wahl einer der beiden Formen. Fügte man gerade hinzu, wäre 

eindeutig, dass die Verlaufsform zu wählen ist. Nähme man fast alles als Ergänzung, müsste 

die Zustandsform gewählt werden. Diese Erkennungsleistung muss vom MÜ-System erst 

einmal vollbracht werden. Ein weiteres Beispiel ist die Consecutio temporum (Zeitenfolge), 

die im Englischen eher lax und im Deutschen der strengen lateinischen sehr ähnlich ist. 

Ein im Englischen üblicher Satz wie zum Beispiel After I woke up, I took a shower. sollte 

nie mit Nachdem ich aufwachte, duschte ich mich. übersetzt werden, weil die Vorzeitigkeit 

zum Präterium im Deutschen mittels Plusquamperfekt ausgedrückt wird. 

Noch komplizierter wird es bei indirekter Rede (oder allgemeiner: bei voneinander abweichendem 

Modusgebrauch). Fast jede Sprache hat hier eigene Systeme. Im Englischen 

spielt der Konjunktiv dabei anders als im Deutschen keine Rolle, dafür muss die Zeitform 

des Indikativs der indirekten Rede an die des Hauptsatzes angepasst werden. Zusätzlich 

wird normalerweise nirgendwo im Text explizit angegeben, wann die indirekte Rede beginnt 

oder endet, so dass es Aufgabe des MÜ-Programms ist, dies herauszufinden, sofern 

die indirekte Rede überhaupt bemerkt wird. 

Dies sind nur einige Probleme, die zwischen eng verwandten indogermanischen Sprachen 

bestehen. Es ließen sich an dieser Stelle noch viele weitere, wesentlich schwieriger zu lösende 

oder ungelöste Probleme insbesondere zwischen Sprachen unterschiedlicher Sprachfamilien 

nennen, etwa das völlige Fehlen von Tempora im Chinesischen oder die Wahl der 

korrekten Anredeform. 

2.4.6. Fehlerhafte und umgangssprachliche Texte 

Ein weiteres Problem ist die Übersetzung von Texten, die zahlreiche Fehler hinsichtlich 

Rechtschreibung und Grammatik enthalten. Hier kann kein noch so gutes MÜ-System 

eine akzeptable Übersetzung liefern, da bereits der Ausgangstext unbrauchbar ist. So ist 

es nicht verwunderlich, dass der falsche, aber so durchaus zu hörende Satz Ich hab kein 

Hunger, weil ich hatte gerade schon gegessen gehabt. von Personal Translator 2006 mit 

I have none hunger because I had just already had eaten. übersetzt wird. Ähnlich sieht 

es mit Texten aus, in denen Slangwörter, die in keinem Wörterbuch verzeichnet sind und 

sich bewusst von der Umwelt abheben wollen, auftreten. Weil in diesen Fällen die Texte 

und nicht unzureichende Programme die Fehlerursache sind, werden sie in der weiteren 

Analyse nicht beachtet. 

21

3. Ansätze zur Lösung der 

Übersetzungsprobleme 

Es gibt inzwischen zahlreiche Strategien, um die bestehenden Probleme der MÜ zu lösen 

oder zu umgehen. Die wesentlichen lassen sich in drei Gruppen zusammenfassen. Dies sind 

kontrollierte Sprachen, die gerade in größeren Unternehmen und internationalen Behörden 

zum Einsatz kommen (vgl. [CMU + 95]), Vorbearbeitung der zu übersetzenden Texte, die 

eingesetzt wird, um das Programm mit zusätzlichen Informationen über Textinhalt und 

-struktur zu versorgen, sowie Übersetzbarkeitsmaße, die meist im Vorfeld der Übersetzung 

berechnet werden und angeben, wie gut sich ein Text zur MÜ eignet. 

3.1. Kontrollierte Sprachen 

Kontrollierte Sprachen sind natürliche Sprachen, die hinsichtlich ihres Umfangs eingeschränkt 

sind, um MÜ-gerechtes Schreiben zu erleichtern oder zu erzwingen. Eine kontrollierte 

Sprache kann auf einer sehr einfachen Ebene lediglich eine informelle Regelsammlung 

sein mit Vorgaben wie Kein Satz darf länger als 25 Wörter sein. Es kann aber 

auch eine ausgefeilte formale Grammatik sein, deren Ausdrucksmächtigkeit einem Teil 

der Mächtigkeit der zugrundeliegenden Sprache entspricht. So könnte beispielsweise die 

Wortstellung durch ihre Produktionsregeln auf Subjekt - Prädikat - Objekt beschränkt 

sein. Möglich sind auch Einschränkungen im Wortschatz oder die Beschränkung auf genau 

eine Bedeutung pro Wort, um der Mehrdeutigkeit zu begegnen. Im folgenden werden 

drei unterschiedliche Beispiele für kontrollierte natürliche Sprachen kurz vorgestellt. 

Allen kontrollierten Sprachen gemein ist jedoch, dass sie nur eine zeitlich begrenzte Umschiffung 

der bestehenden Probleme bis zu ihrer Lösung sein können; denn das eigentliche 

Ziel heißt nach wie vor, Sprache – wenn auch nicht gerade anspruchsvolle Literatur – ohne 

Einschränkungen übersetzen zu können. 

3.1.1. Attempto Controlled English 

Attempto Controlled English (ACE) wurde und wird im Institut für Informatik der Universität 

Zürich in der Schweiz entwickelt und unter anderem bei dem mit EU-Mitteln 

geförderten Forschungsprojekt REWERSE 1 als kontrollierte Sprache eingesetzt. Es handelt 

sich bei ACE um eine reduzierte Grammatik der englischen Sprache mit einem zugehörigen, 

vom Benutzer erweiterbaren Lexikon, das in Prolog geschrieben wurde. Hinzu 

kommen Programme zur Analyse, ob der Ausgangstext den Regeln entspricht, und zur 

Überführung des Ausgangstextes in eine Darstellung in Diskursrepräsentationsstruktur 

(DRS) (siehe [FSS99], [FHK + 06]). Durch diese Erweiterung der Prädikatenlogik ist es 

1 Reasoning on the Web with Rules and Semantics, im Internet erreichbar unter http://rewerse.net, 

zuletzt besucht am 6. April 2007 

22

3.1. Kontrollierte Sprachen 

möglich, dass auch Zusammenhänge über Satzgrenzen hinweg in einem gewissen Rahmen 

beachtet werden können. Man betrachte die beiden Sätze: The user enters a code. The 

code is valid. ACE ist in der Lage, The code im zweiten Satz aufgrund der Kongruenz mit 

a code im ersten Satz in Beziehung zu setzen. 

Ein Schwerpunkt bei der Entwicklung von ACE liegt auf der Reduzierung von Mehrdeutigkeit. 

Sätze, die aufgrund ihrer Struktur mehrdeutig sind, werden immer deterministisch 

interpretiert. Der Satz The user enters a code that is correct and opens a connection ist 

in einem normalen englischen Text zweideutig, weil and opens a connection sowohl eine 

Fortführung des Relativsatzes als auch eine Wiederaufnahme des Hauptsatzes sein kann. 

ACE dagegen fasst den zweideutigen Satzteil immer als Wiederaufnahme des Hauptsatzes 

auf, sofern der Relativsatz nicht durch explizite Wiederholung des Relativpronomens that 

fortgesetzt wird. Des Weiteren wurden einige Möglichkeiten der englischen Sprache, die 

Mehrdeutigkeiten provozieren können, ganz ausgelassen. 

Zur Zeit liegt ACE in Version 5.0 vor und beherrscht unter anderem (vgl. [Hoe04], 

[FHK + 06]) auch Fragesätze, Negationen, Quantifizierungen, Modalverben, bei- und untergeordnete 

Sätze, Präpositionalphrasen, Genitive und mit Adverbien erweiterte Verben. 

Allerdings können noch nicht alle Arten von Nebensätzen verarbeitet werden und es stellt 

sich die Frage, inwieweit ACE gegen lexikalische Mehrdeutigkeiten geschützt ist. 

3.1.2. Das KANT-Projekt 

Seit 1989 wird an der US-amerikanischen Carnegie Mellon University an KANT, einem 

Interlingua-Übersetzungssystem gearbeitet, das für den Einsatz in der hochtechnisierten 

Industrie spezialisiert ist und englische Texte in verschiedene andere Sprachen übersetzen 

kann. Der Name KANT steht dabei für Knowledge-based, Accurate Natural-language 

Translation (dt.: wissensbasierte, präzise Übersetzung natürlicher Sprache). 

Ein Kernelement von KANT ist KANT Controlled English (KCE), das wie ACE eine 

eingeschränkte Variante der englischen Sprache ist [MNrC91]. Dabei umfasst KCE lexikalische 

sowie Einschränkungen hinsichtlich der Satzkomplexität und bietet die Möglichkeit, 

innerhalb des Quelltextes SGML-Mark-Ups einzufügen [MN95], um schwierige Passagen 

wie etwa Maßangaben zu kapseln und die Übersetzung durch Hinweise für den Parser zu 

erleichtern. 

Die Einschränkungen der Grammatik sind insgesamt denen von ACE recht ähnlich und 

zielen vorrangig auf die Vermeidung von Mehrdeutigkeiten. Beliebige Zusammensetzungen 

von Substantiven sind beispielsweise nicht gestattet. [MBNS03]. Das Partizip Präsens 

auf -ing darf nicht direkt nach einem Substantiv stehen. Bei Relativsätzen wird die Nutzung 

des Relativpronomens sehr empfohlen, und es können nicht alle Varianten von Relativsätzen 

übersetzt werden. In Subjekt- bzw. Objektsätzen darf das unterordnende that 

nicht weggelassen werden, und die implizite Übertragung von Adjektiven ist nicht möglich, 

wie das folgende, aus [MBNS03] übernommene Beispiel zeigt: Die Phrase top left and right 

sides ist nicht gültig und muss zu the top left sides and the top right sides umgeschrieben 

werden. 

Das Lexikon umfasste anfänglich ca. 14.000 allgemeine Wörter sowie weitere Fachbegriffe 

in beschränktem, vordefiniertem Umfang [MNrC91] und ist inzwischen bei 70.000 

Einträgen [MBNS03] angekommen. Jedem Eintrag ist dabei nach Möglichkeit nur eine 

Bedeutung zugeordnet, um auch hier Mehrdeutigkeiten zu vermeiden. 

23

3. Ansätze zur Lösung der Übersetzungsprobleme 

3.1.3. Basic English 

Im Gegensatz zu den beiden zuvor dargestellten kontrollierten Sprachen ist Basic English 

wesentlich älter und wurde nicht auf eine möglichst einfache und eindeutige automatische 

Übersetzung ausgerichtet. Basic English wurde 1930 von dem britischen Linguisten 

Charles Kay Ogden [Ogd30] entwickelt und war als einfache Lingua franca zur globalen 

Kommunikation gedacht. Dennoch ist Basic English nicht bloß eine Plansprache wie Esperanto, 

sondern auch eine kontrollierte Sprache, weil sie eine stark eingeschränkte Variante 

des Standardenglischen ist; nur dass anders als bei neueren kontrollierten Sprachen das 

alleinige Ziel die einfache Erlernbarkeit durch den Menschen ist. 

Die bemerkenswerteste Abweichung gegenüber der englischen Sprache ist die Beschränkung 

auf lediglich 850 Wörter. Dieser Wortschatz setzt sich aus 600 Substantiven, 150 Adjektiven 

und einer Sammlung von 100 weiteren häufigen Wörtern zusammen, zu der etwa die 

englischen Artikel a und the gehören. Ogden behauptete, diese Wörter seien ebenso effizient 

wie 5.000 Wörter des Standardenglischen und könnten insgesamt sogar 20.000 Wörter 

abdecken [Ogd30]. Alle fehlenden Wörter werden durch zweiteilige Komposita, die aus den 

vorhandenen Wörtern gebildet werden, oder durch Umschreibungen ersetzt. Auffallend ist 

ebenso das weitgehende Fehlen von Verben. Lediglich eine Handvoll unverzichtbarer Verben 

wie etwa to do oder to be befindet sich unter den 100 weiteren häufigen Wörtern. 

Alle Tätigkeiten müssen unter Zuhilfenahme dieser Verben und passender Substantive 

und/oder Adjektive umschrieben werden. Diese Komposita und Umschreibungen sind in 

verschiedenen Wörterbüchern festgehalten, etwa in [Ogd60]. Vereinfacht wurden auch die 

Grammatikregeln. Verneinungen von Adjektiven werden prinzipiell durch das Präfix unausgedrückt 

[Ogd30]. Für Ableitungen werden die Suffixe -ed, -er, -ing benutzt. Bei den 

verbliebenen 16 Verben kommt -ed nur in einer Ausnahme als Vergangenheitsformen vor; 

die anderen sind ungerelmäßige Verben. Allerdings gab es auch Vereinfachungen, zu denen 

Ogden sich nicht durchringen konnte, wie etwa die Abschaffung der Ausnahmen bei 

der Pluralbildung (tooth → teeth) oder des s der dritten Person bei Verben im Singular, 

wenngleich er damit haderte [Ogd37]. 

Basic English besitzt, wie man der vorangegangenen Beschreibung entnehmen kann, obwohl 

es nicht zur maschinellen Verarbeitung entworfen wurde, einige Merkmale, die seine 

automatische Übersetzung erleichtern. So löst der stark reduzierte Wortschatz das 

Problem ausufernder und unvollständiger Lexika. Der Verzicht auf die Vergangenheitsendung 

-ed beseitigt viele Mehrdeutigkeiten. Die hohe Regelmäßigkeit verlangt weniger 

Übersetzungsregeln. Es stellt sich andererseits aber wieder die Frage, ob durch die vielen 

erzwungenen Umschreibungen nicht neue Übersetzungsprobleme entstehen. 

3.2. Vorbearbeitung 

Eine weitere Möglichkeit, die Qualität der Übersetzungen zu erhöhen, ist die Vorbearbeitung 

eines Textes. Dabei werden dem Text über den eigentlichen Inhalt hinaus Metainformationen 

hinzugefügt, die vom MÜ-System ausgewertet und bei der Übersetzung 

berücksichtigt werden. Zahlreiche Systeme unterstützen zumindest einfache Direktiven, 

um beispielsweise Eigennamen zu kennzeichnen, so etwa das soeben vorgestellte KANT. 

Im folgenden wird ein komplexes System vorgestellt, das versucht, die Zusammenhänge 

innerhalb von Texten hervorzuheben und Mehrdeutigkeiten abzubauen. Festzuhalten ist 

dabei allerdings, dass nicht-marginale Vorbearbeitungen, die etwa über das Setzen von 

24

3.3. Übersetzbarkeitsmaße 

Steuerzeichen für das Programm innerhalb des Textes hinausgehen, nur für das professionelle 

Verfassen von Texten geeignet sind. 

3.2.1. Linguistic Annotation Language 

Für IBM wurde in den letzten Jahren ein multilinguales Übersetzungssystem entwickelt, 

das English als Zwischensprache einsetzt. Der Vorteil ist, dass keine künstliche Interlingua 

entwickelt werden muss, der Nachteil, dass Englisch viele Merkmale anderer Sprachen 

nicht oder nur unzureichend nutzt. So kennt das Englische beispielsweise nicht den deutschen 

und französischen Unterschied zwischen Duzen und Siezen. Bei der Übersetzung 

eines deutschen Textes über Englisch nach Französisch würden also Informationen verloren 

gehen. Um dies zu verhindern, wurde zusätzlich die so genannte Linguistic Annotation 

Language entwickelt (LAL) [WNMB02]. 

Dabei handelt es sich um eine XML-basierte Mark-Up-Sprache, die den XML-Namensraum 

lal benutzt und den Text mit zahlreichen zusätzlichen Informationen versieht. Im wesentlichen 

besteht sie aus drei Tags, die Sätze (s), Teilsätze (seg) und Wörter (w) abgrenzen 

[Wat03]. Zusätzlich existieren Attribute, die diesen Tags zugewiesen werden können. Dazu 

zählen unter anderem orig_lex, das den Lexikoneintrag der Ausgangssprache enthält, 

orig_lang, das die Ausgangssprache des Eintrags angibt, oder lex, in dem die Grundform 

des zugehörigen Wortes steht. Auf diese Weise werden Mehrdeutigkeiten eliminiert. 

Das aus [Wat03] entnommene Beispiel 

How are you? 

gibt für den eingeschlossenen Satz an, dass er ursprünglich auf Deutsch verfasst wurde 

und dass gesiezt wird (wegen polite="yes"). Zusammenhänge zwischen Wörtern werden 

dargestellt, indem den einzelnen Wörtern eindeutige IDs (Attribut id) zugewiesen werden. 

Über das Attribut mod, kann angegeben werden, auf welches Wort sich ein anderes Wort 

bezieht. 

Vorteilhaft an dieser Methode ist sicherlich, dass alle relevanten Informationen bei der 

Übersetzung erhalten bleiben und XML einfach zu verarbeiten ist. Andererseits ist der 

Arbeitsaufwand zur Vorbereitung des Textes erheblich; eigens für die LAL wurde ein 

Editor geschrieben. Ob die in [WNMB02] festgestellte Verbesserung der Übersetzungen 

den Mehraufwand der Annotation rechtfertigt, ist noch zu ermitteln. 


3.3.1. Logos Translatability Index 

Der sogenannte Logos Translatability Index (LTI) wurde Anfang der 90er Jahre von Mitarbeitern 

der Firma Logos für ihr MÜ-System entwickelt, um bereits vor der Übersetzung 

für deutsche und englische Dokumente eine Beurteilung der Übersetzbarkeit abzugeben 

[Gda94]. Der LTI liefert anhand von Textmerkmalen, mit denen das Logos-System 

Probleme hat, einen Indexwert und Hinweise zur Verbesserung der Übersetzbarkeit für 

vollständige Texte, allerdings nicht für einzelne Sätze oder konkrete Probleme wie etwa 

ein bestimmtes nicht gefundenes Wort. 

Faktoren, die die Übersetzbarkeit negativ beeinflussen, sind im LTI unter anderem (vergleiche 

[BG00], [Gda94]): 

25

3. Ansätze zur Lösung der Übersetzungsprobleme 

• zu lange Sätze, 

• Homographen, 

• Fragen, 

• kurze Parenthesen, 

• nicht gefundene/vorhandene Wörter und 

• Mehrdeutigkeiten. 

Einem Text wird zu Beginn des Bewertungsprozesses zunächst willkürlich ein Wert von 

7 als Ausgangswert für seine Übersetzbarkeit zugewiesen. Je stärker die eben genannten 

Faktoren im Text zu Tage treten, desto mehr wird dieser Ausgangswert vermindert. Ein 

Text gilt als geeignet für eine automatische Übersetzung, wenn sein LTI einen Mindestwert 

übertrifft. Am Ende der Bewertung wird dem Autor die Übersetzbarkeit seines Textes 

zusammen mit relativ allgemein gehaltenen Verbesserungsvorschlägen präsentiert. 

3.3.2. Translation Confidence Index 

1999, fünf Jahre nach dem LTI, wurde bei IBM der Translation Confidence Index (TCI) 

fertiggestellt [Ber99]. Er wird während der Übersetzung eines Textes ermittelt und danach 

für jeden einzelnen Satz angezeigt. Dazu wird das Vertrauen in die bereits erstellte Übersetzung 

mit Werten zwischen 0 (sehr gering) und 100 (sehr hoch) angegeben. Dies ist somit 

auch ein nachträglich erstelltes Maß für die Übersetzbarkeit. Fällt nun ein Satz unter eine 

bestimmte Schwelle, bietet es sich an, ihn in der Ausgangssprache zu überarbeiten und 

dann erneut übersetzen zu lassen, um den Nachbearbeitungsaufwand zu minimieren. Die 

Genauigkeit bei einer Aufteilung in akzeptable und unbrauchbare Übersetzungen (Grenze 

bei 70 Punkten) beträgt über 70 Prozent [Ber99]. Der TCI kann auf beliebige englische 

Texte angewandt werden, die ins Deutsche übersetzt werden sollen. 

Im Gegensatz zum LTI betrachtet der TCI nicht nur bestimmte Textmerkmale wie zum 

Beispiel Präpositionalphrasen oder unbekannte Wörter, sondern auch, wie oft das jeweilige 

Übsersetzungsprogramm, in das die TCI-Bewertung integriert wurde, aus verschiedenen 

Möglichkeiten auswählen musste. Aus dem Zusammenspiel beider Faktoren werden dann 

die von 100 abzuziehenden Strafpunkte errechnet. 

3.3.3. Translatability Checker 

Einen dritten Ansatz, der im Jahre 2001 entwickelt wurde, stellt der sogenannte Translatability 

Checker (TC) dar [JU01]. Hierbei handelt es sich um ein Programm, das sowohl 

einzelne Sätze wie auch den gesamten Text beurteilt und anschließend satzweise eine 

Analyse mit detaillierten Hinweisen auf mögliche Probleme liefert. Allerdings konzentriert 

der TC sich ausschließlich auf englische Texte. Bei der Bewertung wird zwischen 

allgemeingültigen und für das jeweilige MÜ-System spezifischen Kritierien unterschieden. 

Als allgemeine Kriterien, die die Übersetzbarkeit negativ beeinträchtigen, gelten: 

• Abwesenheit eines Verbs, 

• Abwesenheit eines finiten Verbs, 

26


• mehrfache Beiordnungen, 

• ungünstige Satzlänge (< 3 oder > 25 Wörter), 

• Auftreten von Nominalkomposita (> 2 Substantive), 

• Substantiv-Verb-Homographen, 

• Verb-Adjektiv-Homographen, 

• Substantiv-Verb-Adjektiv-Homographen, 

• Präpositionalphrasen und 

• Nebensätze. 

Darüber hinaus existieren die folgenden systemspezifischen Kriterien: 

• ungünstige Satzlänge > 25 Wörter mit Adverbien, 

• Adverbien oder Nebensätze am Satzanfang, 

• Nebensätze und/oder Präpositionalphrasen am Satzanfang, 

• sonstiges Auftreten von Präpositionalphrasen oder Nebensätzen und 

• mit ” 

of“ beginnende Präpositionalphrasen. 

Je nach zur späteren Übersetzung eingesetzter MÜ-Software können Kriterien an- und 

abgewählt werden. Die verschiedenen Faktoren werden zur Erstellung des Indexes außerdem 

gewichtet. Der Index selbst ist dabei ein Wert zwischen 0 und 100 – je höher der 

Wert, desto höher die prognostizierte Übersetzbarkeit eines Textes. 

3.3.4. Bewertung der vorgestellten Ansätze 

Die in den vorigen Abschnitten vorgestellten Ansätze liefern einige interessante Anknüpfungspunkte 

für die Erstellung eines neuen Übersetzbarkeitsindexes. Ein Teil der Bewertungskriterien 

aus den drei Ansätzen kann so oder in ähnlicher Form übernommen werden 

(vgl. Abschnitt 5). Darüber hinaus haben alle Ansätze Vor- und Nachteile. Der LTI verfügt 

nur über eine äußerst subjektive Bewertungsskala, ist nur auf ein bestimmtes System zugeschnitten 

und liefert keine detaillierte Satzanalyse. Der TCI ist zwar das umfassendste 

Bewertungssystem, da er alle Stufen des Übersetzungsprozesses beachtet, bringt aber auch 

Probleme mit sich. So kann der Wert für den Index erst nach einem Durchlauf des MÜ- 

Programms angegeben werden, nicht davor. Außerdem muss die TCI-Bewertung in ein 

Übersetzungssystem integriert werden und kann nicht unabhängig davon betrieben werden, 

was durchaus wünschenswert sein kann. Der TC schließlich verfügt zwar über die 

komplexeste Berichterstattung, ist aber auf die englische Sprache spezialisiert und benutzt 

ein Wörterbuch von 1961 [JU01], was gerade bei neuen wissenschaftlichen Texten 

für Probleme sorgen könnte. 

27

Teil II. 

Ein Modell zur Einschätzung der 

Übersetzbarkeit eines Textes 

28

4. Vorbereitende Maßnahmen 

Bevor mit der Erstellung eines Modells, das die Übersetzbarkeit eines Textes über einen 

Index zuverlässig bewertet, begonnen werden kann, müssen einige vorbereitende Maßnahmen 

durchgeführt werden. Es geht dabei vor allem darum, diejenigen Textmerkmale, 

die auf ihre Auswirkungen auf die Übersetzungsqualität hin zu überprüfen sind, 

begründet auszuwählen (Abschnitt 4.1) und die Vorgehensweise bei ihrer Überprüfung 

festzulegen. Dazu gehört insbesondere die Erstellung geeigneter Textkorpora (Abschnitt 

4.2), die Auswahl von MÜ-Systemen, die diese Korpora übersetzen, und der Ablauf von 

Fehlersuche und -bewertung (Abschnitt 4.4). Schließlich gilt es, die Signifikanz der Untersuchungsergebnisse 

sicherzustellen (Abschnitt 4.5), so dass in den Übersetzbarkeitsindex 

nur tatsächlich relevante Textmerkmale einfließen. 

Das Modell bleibt dabei stets ausschließlich auf die Bewertung der Übersetzbarkeit deutscher 

Texte in die englische Sprache ausgerichtet, wenngleich der Index auch für die Übersetzung 

von Deutsch in andere germanische Sprachen eine gewisse Aussagekraft besitzen 

sollte. Diese Sprachen stehen dem Englischen in aller Regel hinsichtlich ihrer Struktur 

und Grammatik recht nahe, so dass sich bei Übersetzungen ähnliche Probleme ergeben 

dürften. 

4.1. Auswahl von Textmerkmalen 

Um Textmerkmale für eine nähere Untersuchung als geeignet betrachtet zu können, 

müssen sie drei wesentliche Bedingungen erfüllen: 

• Häufigkeit: Nur Merkmale, die vergleichsweise häufig zu beobachten sind, sollten 

ausgewählt und beobachtet werden, da nur sie in der Praxis von Bedeutung sind. 

• Allgemeinheit: Sicherlich könnte man zahlreiche sehr spezielle Merkmale wie etwa 

einzelne Phrasen mit außergewöhnlicher Wortstellung wie um des lieben Friedens 

willen, wo das Genitivobjekt von einer Zirkumposition eingeschlossen ist, benennnen. 

Jedoch ergäbe sich dann das Problem, dass es Hunderte ähnlicher Merkmale 

gibt, die jedes für sich nur ein kleines Detail sind und allesamt gleichberechtigt untersucht 

werden müssten, so dass man das große Ganze vor lauter Details aus den 

Augen verlöre. 

• Entfernbarkeit: Um einen sinnvollen Vergleich zu ermöglichen, muss sich jedes beobachtete 

Merkmal aus einem Satz auch entfernen und durch adäquate Umformulierungen 

ersetzen lassen, ohne dabei den Sinn des Satzes zu verändern oder einen 

allzu ungebräuchlichen Schreibstil zu erzwingen. 

Bei der Auswahl der Textmerkmale wird darüber hinaus auf die in Abschnitt 2.4 genannten 

offenen Probleme und auf die in den in Abschnitt 3.3 vorgestellten Übersetzbarkeitsindizes 

genutzten Textmerkmale Rücksicht genommen. Die Entscheidung fällt daher 

29


auf folgende Textmerkmale (in alphabetischer Reihenfolge und mit kurzer Begründung), 

weil zu erwarten steht, dass sie die Fehlerhäufigkeit bei der maschinellen Übersetzung 

erkennbar erhöhen 1 : 

• Elliptischer Schreibstil (Seite 46): Ellipsen zwingen ein MÜ-Programm entweder zu 

einer schwierigen Analyse der Zusammenhänge und Beziehungen innerhalb eines 

Satzes oder sogar zum Raten und erhöhen so die Komplexität deutlich. 

• Inversion der Wortstellung (Seite 58): Eine Abweichung von der Standardwortstellung 

erhöht die Schwierigkeit, die Satzteile zu identifizieren, und impliziert eine 

Abweichung vom Standardübersetzungsschema. 

• Mehrdeutigkeiten (Seite 43): Das MÜ-System ist gezwungen, anhand einer Analyse 

des Satzkontextes eine passende Übersetzungsmöglichkeit auszuwählen. 

• Nebensätze (Seite 39): Nebensätze sorgen für zusätzliche syntaktische Ebenen und 

erhöhen die Komplexität des Satzes. 

• Nominalklammern (Seite 52): Nominalklammern erfordern eine ausgefeilte Analyse 

der Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes. 

• Nominalkomposita (Seite 55): Nominalkomposita müssen erkannt und korrekt zerlegt 

werden und stellen für die MÜ-Programme oftmals Neologismen dar. 

• Satzlänge (Seite 37): Je länger ein Satz ist, desto mehr Möglichkeiten gibt es, ihn zu 

übersetzen und dabei Fehler zu machen. Zwar lässt sich die Satzlänge anders als die 

anderen ausgewählten Merkmale nicht entfernen, doch kann man überlange Sätze 

in aller Regel leicht in mehrere Sätze zerlegen. 

• Seltenheit von Wörtern (Seite 45): Seltene Wörter fehlen oftmals in den Lexika der 

MÜ-Systeme und können daher nur auf Umwegen übersetzt werden oder bleiben 

unübersetzt. 

• Verbklammern (Seite 49): Verbklammern erfordern eine ausgefeilte Analyse der 

Wortbeziehungen und -zusammengehörigkeit innerhalb eines Satzes. 

Die Untersuchung dieser Merkmale wird in Abschnitt 5 durchgeführt. Dort erfolgt auch 

– sofern nötig – eine genauere Vorstellung und Begründung. 

Die folgenden Textmerkmale werden zwar als bedeutsam angesehen oder von anderen Indizes 

zur Berechnung der Übersetzbarkeit verwendet, finden jedoch hier keine Beachtung: 

• Präpositionalphrasen: Deutsche Präpositionen sind zwar oftmals anfällig für im Kontext 

falsche Übersetzungen, da es zu vielen Präpositionen mehrere Entsprechungen 

im Englischen gibt, sie sind jedoch nur in den seltensten Fällen verzichtbar. 

• Eigennamen: MÜ-Programme werden durch Eigennamen zwar vor enorme Schwierigkeiten 

gestellt; jedoch können Eigennamen in aller Regel nicht weggelassen werden, 

ohne einen Satz zu entstellen. 

1 Zum Nachschlagen grammatikalischer Fachbegriffe sei auf die diesbezügliche Fachliteratur, zum Beispiel 

[BEFH + 05], oder auf entsprechende Internetseiten verwiesen. 

30

4.2. Textuelle Grundlagen 

• Aufzählungen/Beiordnungen: Aufzählungen und Beiordnungen erhöhen einerseits 

die Satzkomplexität, andererseits ist es unrealistisch, für jedes Element einer Aufzählung 

oder Beiordnung einen eigenen Satz zu formulieren. Dieses Textmerkmal 

wird durch die Beachtung der Satzlänge ausreichend abgedeckt, weil Aufzählungen 

und Beiordnungen auch immer mit erhöhter Satzlänge einhergehen. 

• Abwesenheit von (finiten) Verben: Weil im folgenden Auszüge aus ausformulierten 

Texten überprüft werden, tritt dieses Merkmal nur sehr selten auf. Außerdem ist 

auch ohne Verb anders als im Englischen aufgrund des im Deutschen ausgeprägteren 

Systems von Wortformen (kaum Homographen) eine bessere Unterscheidung 

möglich, so dass dieses Textmerkmal nicht als relevant erscheint. 

• Unbekannte Wörter: Wörter, die einem MÜ-Programm unbekannt sind, werden stets 

als Übersetzungsschwierigkeit angenommen; weil aber dieser Übersetzbarkeitsindex 

nicht für ein bestimmtes MÜ-Programm gemacht wird, kann somit nicht beurteilt 

werden, ob ein Wort in dessen Lexikon vorhanden ist oder nicht. Statt dessen werden 

Wörter betrachtet, von denen bekannt ist, dass sie allgemein sehr selten sind. 

4.2. Textuelle Grundlagen 

Damit für ein Textmerkmal ein aussagekräftiges Ergebnis hinsichtlich seiner Beeinflussung 

der Übersetzungsqualität erzielt werden kann, ist je Merkmal ein hinreichend großes 

Textkorpus vonnöten, das zufällige Ergebnisse weitgehend ausschließt. Gleichzeitig muss 

der Arbeitsaufwand unter Berücksichtigung der Anzahl der ausgewählten Merkmale in 

angemessener Zeit zu bewältigen sein. Zudem sollen die Inhalte der Texte nicht auf ein 

bestimmtes Themengebiet beschränkt sein, sondern aus verschiedenen Bereichen stammen, 

um eine möglichst große Textvielfalt sicherzustellen und dadurch ein realitätsnahes 

Untersuchungsergebnis zu begünstigen. 

Die Entscheidung fällt daher auf 100 Sätze pro Textmerkmal, das heißt, der Autor erstellt 

in der Regel für jedes Textmerkmal ein Textkorpus, das 100 Sätze mit jeweils mindestens 

einer Instanz dieses Merkmals enthält. Ein zweites Textkorpus, das im Prinzip dieselben 

100 Sätze enthält, jedoch so weit wie möglich von dem zu beobachtenden Merkmal befreit, 

ist anschließend zwecks Kontrolle der Veränderung der Fehlerzahl zu bilden. Die 

Festlegung auf jeweils 100 Sätze erfolgt, weil die damit verbundene Übersetzungs- und 

Korrekturarbeit noch zu bewältigen erscheint und die Ergebnisse nicht zu sehr durch einzelne 

Ausreißer beeinträchtigt werden können. Dies versetzt den Autor in die Lage, die 

Qualität der Übersetzungen der Sätze aus zusammengehörigen Textkorpora insbesondere 

in der Aggregation über diese Textkorpora zu vergleichen, nachdem er sie mit den dazu 

ausgewählten Übersetzungsprogrammen satzweise ins Englische übersetzt hat (siehe 

Abschnitt 4.4). Die Länge der Sätze soll dabei sehr variabel sein, wie es auch in Wirklichkeit 

der Fall ist, das heißt, sämtliche Satzlängen von wenigen bis zu mehreren Dutzend 

Wörtern sollen in jedem Korpus vertreten sein. Allerdings wird darauf geachtet, dass die 

Länge der einzelnen Korpora in Wörtern halbwegs gleich ist, damit der Schwierigkeitsgrad 

der Übersetzung der einzelnen Korpora annähernd gleich bleibt. Vor allem ist auch das 

Auftreten anderer wichtiger Textmerkmale zusätzlich zu dem beobachteten erwünscht, 

weil dies in realen Texten auch oft der Fall ist. Insgesamt erstellte der Autor im Laufe 

31


der Untersuchungen 19 Textkorpora mit über 1750 deutschen Sätzen und analysierte über 

3500 englische Übersetzungen. 

Als Quelle der Sätze wird die deutsprachige Version von Wikipedia 2 gewählt. Es wäre 

ein nicht zu rechtfertigender Aufwand und darüber hinaus wahrscheinlich tendenziös, die 

Sätze selbst zu verfassen. Außerdem stellen die mittlerweile über 500.000 verfügbaren 

Artikel ein umfassendes Textreservoir aus sehr vielen Themenbereichen dar, wobei die 

Auswahl der Sätze willkürlich erfolgt und nur auf das Auftreten des jeweils gesuchten 

Merkmals geachtet wird. Die oftmals geführte Diskussion über Qualität und Zitierbarkeit 

der Online-Encyklopädie erübrigt sich hier, weil die inhaltliche Güte der Sätze für derartige 

Untersuchungen belanglos ist. Vor dem Einfügen in ein Textkorpus wird jeder Satz auf 

Rechtschreibfehler überprüft und gegebenenfalls korrigiert. Kein Satz wird in mehreren 

Textkorpora verwendet. 

Sofern von den Regeln bezüglich Textauswahl und Korpusgröße abgewichen wird, wird 

dies in den Abschnitten zu den Untersuchungen der einzelnen Kriterien gesondert vermerkt. 

4.3. Eingesetzte Übersetzungsprogramme 

Eine weitere wichtige Frage ist, mit welchen Programmen die Textkorpora übersetzt werden 

sollen. Es ist allgemein von großer Bedeutung, sicherzustellen, dass die Beobachtungen 

nicht von einem Programm allein abhängen. Daher werden im Vorfeld der Untersuchung 

zwei aktuelle und populäre (im Internet kostenlos benutzbare) MÜ-Programme 

ausgewählt, deren Übersetzungstechnologien von verschiedenen Firmen entwickelt worden 

sind: 

• Personal Translator 2006 3 von Linguatec 

• Babel Fish 4 , basierend auf Systran-Technologie 

So ist gewährleistet, dass individuelle Schwächen oder Stärken eines Programms nicht 

zu sehr ins Gewicht fallen. Zeigen beide Programme dieselben Schwächen, ist darauf zu 

schließen, dass das verursachende Übersetzbarkeitskriterium an sich noch nicht hinreichend 

behandelt wird. Sämtliche Sätze werden mit beiden Programmen in die englische 

Sprache übersetzt. Noch besser wäre es natürlich, drei oder vier Programme einzusetzen, 

jedoch ließe sich dies angesichts des zusätzlichen Arbeitsaufwands nicht bewältigen. 

4.4. Bewertung der Übersetzungsqualität 

Um beurteilen zu können, ob die Übersetzung des originalen oder des bearbeiteten Textes 

besser ist, bedarf es eines Maßstabes zur Bewertung der Qualität. Die Frage ist dabei 

stets, wie exakt die Bewertung sein muss. So wurde etwa in der ALPAC-Studie [Pa66] 

eine Skala angewendet, die einen übersetzten Text in neun Stufen von perfekt verständlich 

bis hoffnungslos unverständlich einordnet. 

2 Erreichbar unter: http://de.wikipedia.org, zuletzt besucht am 1. April 2007 

3 Erreichbar unter: http://www.linguatec.de/onlineservices/pt, inzwischen unter dieser Adresse: 

Personal Translator 2008, zuletzt besucht am 18. März 2007 

4 Erreichbar u. a. unter: http://babelfish.altavista.com, zuletzt besucht am 18. März 2007 

32

4.4. Bewertung der Übersetzungsqualität 

Eine derartige Einordnung mag zwar zur Einschätzung der Qualität von MÜ-Programmen 

hilfreich sein, ist jedoch nicht genau genug, um die Veränderungen der Fehlerzahl, die 

durch Hinzufügen oder Weglassen von Textmerkmalen entstehen, angemessen abzubilden, 

denn die Fehlerzahl ist maßgeblich für den Nachbearbeitungsaufwand. So ist es denkbar, 

dass ein Satz, der im Originalzustand und nach seiner Bearbeitung als gut verständlich 

eingeschätzt wird, dennoch in beiden Versionen eine stark abweichende Fehlerzahl aufweist, 

falls es sich um geringfügige“ Fehler – wie etwa falsch gewählte Präpositionen – 

” 

handelt, die den Satz nicht entstellen. Außerdem ist diese Bewertung sehr subjektiv und 

würde von Mensch zu Mensch unterschiedlich ausfallen. 

Es erscheint daher sinnvoller, wenngleich wesentlich arbeitsaufwändiger, die einzelnen 

Fehler der Übersetzungen satzweise und für das gesamte Textkorpus aggregiert zu zählen 

und die absoluten bzw. prozentualen Veränderungen bei Ausschaltung eines Textmerkmals 

zu berücksichtigen. Neben der absoluten Fehlerzahl pro Satz oder Textkorpus ergibt 

sich als relative Kenngröße auf Satz- und Korpusebene die Fehlerzahl pro Wort. Auf diese 

Weise erhält man eine sehr exakte quantitative Einschätzung der Übersetzungsqualität. 

Nachteilig ist, dass es trotz sehr guter Englischkenntnisse des Autors unvermeidbar ist, 

gelegentlich Fehler zu übersehen oder richtige Übersetzungen als falsch zu markieren, 

zumal Englisch nicht die Muttersprache des Autors ist. Es wird jedoch im Rahmen der 

Untersuchung stets nach Kräften versucht, die Anzahl solcher Fehler in Grenzen zu halten. 

Insbesondere werden Art und Anzahl von Bewertungsfehlern des Autors über die verschiedenen 

Textproben hinweg gleich bleiben, weil sämtliche Bewertungen von ihm selbst bei 

nahezu konstanten Sprachkenntnissen vorgenommen werden, so dass sich hieraus keine 

bedeutende Verfälschung des Ergebnisses ergibt. Daher wird diese quantitative Form der 

Bewertung gewählt. 

Darüber hinaus stellt sich die Frage, wann sich sagen lässt, dass eines der ausgewählten 

Textmerkmale maßgeblichen Einfluss auf die Übersetzungsqualität hat. Wesentlicher Anhaltspunkt 

hierfür ist die absolute Veränderung der Fehlerzahl, weil jeder Fehler weniger 

auch für weniger Nachbearbeitungsaufwand sorgt. Wann diese Änderung bedeutsam wird, 

lässt sich durch einen Signifikanztest (siehe Abschnitt 4.5) ermitteln. Dies sollte jedoch 

nicht das alleinige Kriterium für die Aufnahme eines Merkmals in den Index sein. 

4.4.1. Fehlersuche und Berechnung der Fehlerzahlen 

Bei der Kontrolle der übersetzten Sätze wird auf falsche Vokabeln, inkorrekte Wortstellung, 

falsche Formenbildung, fehlerhafte Erkennung von Eigennamen und verkehrte Zusammenhänge 

zwischen Satzteilen, kurz sämtliche Verstöße gegen Grammatik und Semantik 

geachtet. Jeder Fehler wird einfach gezählt, wobei es durchaus möglich ist, dass ein 

einzelnes Wort mehrere Fehler verursacht, etwa wenn es falsch übersetzt und zudem einem 

falschen Bezugswort zugeordnet wurde. Innerhalb der Übersetzung zusammenhängende 

Wortgruppen mit Fehlstellungen werden in der Regel als ein einziger Fehler gewertet. Vokabelübersetzungen 

werden als falsch gewertet, wenn die gewählte Übersetzung prinzipiell 

nicht möglich oder im vorliegenden Zusammenhang inkorrekt ist. 

Personennamen, zu denen es im historischen Kontext eine spezielle englische Übersetzung 

gibt, wie etwa Wilhelm I. → William I werden immer als Fehler gewertet, wenn sie 

nicht dementsprechend übersetzt wurden. Übersetzungen anderer Eigennamen werden als 

Fehler gewertet, wenn sie allgemein bekannt sind – Namen bedeutender Städte (Köln → 

Cologne) oder Organisationen (UNO → UN ) etwa – und nicht in ihr korrektes Pendant 

33


übersetzt wurden. Ebenso werden unbekannte, aber trotzdem (falsch) übersetzte Eigennamen 

als Fehler gewertet (zum Beispiel Münster → cathedral, wenn es um die westfälische 

Stadt geht). Dabei gilt, dass pro Übersetzung eines Eigennamens nur ein Fehler angerechnet 

wird. Seine Einordnung als Satzteil oder seine Stellung im übersetzten Satz kann aber 

weitere Fehler hervorrufen. Nicht übersetzt werden sollen alle anderen Personennamen 

sowie nicht allgemein bekannte Eigennamen. 

Kommasetzungen und Interpunktionen, die im Englischen wesentlich freier sind als im 

Deutschen, werden nur dann als Fehler gewertet, wenn sie das Verständnis des Satzes 

massiv behindern oder unmöglich machen, indem sie etwa falsche Bezüge erzeugen. Großund 

Kleinschreibung wird ebenfalls berücksichtigt, wobei großgeschriebene Wörter im 

Satz Fehler verursachen, solange es sich nicht um Eigennamen handelt, und ebenso kleingeschriebene, 

international bekannte Eigennamen. So ist etwa in der Deutschen Sprache 

Zweiter Weltkrieg ein Eigenname und ebenso im Englischen die Bezeichnungen World 

War II und Second World War; beide sind auf Englisch großzuschreiben. 

Zur Berechnung der Fehlerzahl pro Wort werden die absoluten Fehlerzahlen der beiden 

ausgesuchten MÜ-Programme mit dem Faktor 0, 5 gewichtet und addiert, so dass man den 

Durchschnittswert erhält, und dann durch die Anzahl aller Wörter im Korpus geteilt. Ein 

Beispiel: Bei insgesamt 1000 Wörtern und 100 Fehlern von Babel Fish und 150 Fehlern von 

Personal Translator 2006 ergäbe sich beispielsweise eine Fehlerzahl pro Wort von 0, 125. 

Die absoluten Fehlerzahlen, die in den Tabellen für die einzelnen Textkorpora angegeben 

sind, enthalten jeweils die Summe aller Fehler der beiden Übersetzungsprogramme. 

4.4.2. Beispiele zur Fehleranalyse 

Die Fehleranalyse soll an zwei Beispielen verdeutlicht werden: 

• Textkorpus Verbklammern, erste Messreihe, Satz 3: 

– Deutsches Original: 

Am 5. Mai 1985 legte Kohl gemeinsam mit US-Präsident Ronald Reagan in 

Bitburg einen Kranz auf dem dortigen Soldatenfriedhof nieder. 

– Englische Übersetzung (Personal Translator 2006): 

Cabbage laid together with U.S. president Ronald Reagan into bit castle a 

wreath down on the military cemetery there on May 5th, 1985. 

– Fehleranalyse: 

∗ Kohl, obwohl eindeutig auf den ehemaligen deutschen Bundeskanzler bezogen, 

wird mit cabbage übersetzt. 

∗ U.S. president ist in dem hier vorliegenden Kontext großzuschreiben, weil 

eine konkrete Person damit bezeichnet ist. 

∗ Die Wortstellung laid ... down im Beispiel ist ungültig, weil derartige 

Klammerungen im Englischen nicht existieren. 

∗ Bitburg wird nicht als Eigenname erkannt, sondern wörtlich übersetzt nach 

bit castle. 

∗ Die Präposition into ist falsch, da hier eine Orts- und keine Richtungsangabe 

vonnöten ist. 

34

4.5. Signifikanz der Untersuchungsergebnisse 

∗ Für den vorliegenden Satz werden also fünf Fehler notiert. 

• Textkorpus Satzlänge, erste Messreihe, Satz 1: 

– Deutsches Original: 

Das nordkoreanische Kernwaffenprogramm wird von der Regierung Nordkoreas 

energisch vorangetrieben. 

– Englische Übersetzung (Babel Fish): 

North Korea niche the nuclear weapon program is energetically advanced by 

the government of North Korea. 

∗ Das Adjektiv nordkoreanisch wurde fehlerhaft mit North Korea niche wiedergegeben. 

∗ Die Wortstellung North Korea niche the nuclear weapon program ist falsch, 

da der Artikel zwischen Adjektiv und Substantiv steht. 

∗ Eine korrekte Übersetzung von energisch wäre in diesem Kontext forcefully, 

aber nicht energetically gewesen. 

∗ Für den vorliegenden Satz werden also drei Fehler notiert. 

4.5. Signifikanz der Untersuchungsergebnisse 

Um zu gewährleisten, dass die Ergebnisse nicht zufällig zustande kommen, muss ihre 

statistische Signifikanz auf geeignete Weise sichergestellt werden (vgl. [Bor05]). Für jedes 

Textmerkmal wird dazu als Nullhypothese H 0 angenommen, dass es die Übersetzungsqualität 

verschlechtere oder wenigstens nicht verändere, wenn man es weglässt, also den Satz 

sinnwahrend umschreibt, so dass das betreffende Textmerkmal nicht mehr vorkommt. 

Die Gegenhypothese H 1 ist dementsprechend, dass die Übersetzungsqualität durch ein 

Weglassen dieses Textmerkmals verbessert wird. 

Für die Signifikanztests wird die Veränderung der Fehlerzahl vom originalen zum bearbeiteten 

Textkorpus betrachtet. Dazu werden die Beträge der Fehlerzahländerungen der 

einzelnen Sätze aufsummiert und diese Summe als Stichprobenumfang n genommen. Die 

Summe aller Fehlerzahlabnahmen ergibt die Anzahl k der Erfolge“ bei n Ziehungen“. 

” ” 

Dazu ein Beispiel: Angenommen, aus einer Stichprobe von fünf Sätzen weisen zwei keine 

Änderungen der Fehlerzahl auf. In einem Fall steigt die Fehlerzahl um zwei, bei einem 

sinkt sie um drei und bei einem um vier Fehler. Somit gilt n = 9 und k = 7. 

Ein Textmerkmal, dessen Entfernung die Übersetzungsqualität überhaupt nicht beeinflusst, 

wird ein Verhältnis von k = 0, 5 aufweisen. 

n 

Nota bene: Man könnte auch ein einfacheres Modell aufbauen, in dem n die Gesamtheit 

der Stichprobe (die Anzahl aller Sätze) ist und k die Anzahl der Sätze, deren Übersetzung 

sich verbessert. Dies würde aber bei gleichen Veränderungen der absoluten oder relativen 

Fehlerzahlen bei Entfernung eines Textmerkmals zu unterschiedlichen Ergebnissen des 

Tests führen. Angenommen, in einem Textkorpus verlieren alle 100 Sätze durch das Entfernen 

von Verbklammern einen Fehler, so würde das Ergebnis mit n = 100 und k = 100 

eine höchstsignifikante Verbesserung der Übersetzbarkeit ergeben. Verändern sich aber 75 

Sätze gar nicht, während die restlichen je vier Fehler verlieren, so wäre mit k = 25 keine 

signifikante Fehlerzahlabnahme zu konstatieren, obwohl die Fehlerabnahme dieselbe ist 

und sich die 25 Sätze kaum als Ausreißer einordnen lassen. 

35


Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der 

Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines 

einzelnen Textmerkmals vonnöten, die den Stichprobenumfang weit übertrifft, um daraus 

eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht 

bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der 

Fehlerzahländerungen angenommen. 

Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge von Fehlerzahlabnahmen, 

weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität 

nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit von H 0 initial für 

jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung 

H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen von H 0 mindestens 

die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau, 

” 

so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall. 

Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des 

Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen 

befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen 

interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch 

( M 

)( N−M 

) 

k n−k 

P (X = k) = ( N 

n) 

(hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen 

und entsprechend 

∑k−1 

P (X < k) = P (X = i) 

i=0 

P (X ≥ k) = 1 − P (X < k) 

für minimal k Fehlerzahlabnahmen. 

Liegt dieser Wert unter dem Signifikanzniveau 5 von α = 0, 05, ist der Anteil der Fehlerzahlabnahmen 

an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6 

erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des 

betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen. 

Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das 

zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex. 

5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen, 

weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel 

genug ist. 

6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant. 

36

5. Untersuchung der Textmerkmale auf 

Fehlerrelevanz 

In diesem Kapitel des zweiten Teils der Arbeit werden die in Abschnitt 4 ausgewählten 

Textmerkmale daraufhin untersucht, ob sie tatsächlich die Übersetzung deutscher Texte 

ins Englische signifikant erschweren. Sie lassen sich in zwei Klassen einteilen: 

• Allgemeine Textmerkmale: Dies sind Merkmale, die sich auch für beliebige andere 

Sprachen untersuchen lassen, weil sie – eventuell mit wenigen Ausnahmen – in 

jeder bekannten Sprache der Welt auftreten. Hierzu zählen Satzlänge, Nebensätze, 

Mehrdeutigkeit, Seltenheit von Wörtern und elliptischer Schreibstil. 

• Sprachspezifische Textmerkmale: Als sprachspezifisch lassen sich Merkmale bezeichnen, 

die (fast) ausschließlich in der deutschen Sprache oder der germanischen Sprachfamilie 

auftreten oder für sie prägend sind. Dazu gehören Verb- und Nominalklammern, 

Nominalkomposita sowie Inversion der Wortstellung. 

Anmerkung zum Umgang mit den Textkorpora: Nachdem alle Textkorpora erstellt 

und bewertet worden waren, erfolgte mit einigem zeitlichen Abstand eine zweite Kontrolle 

aller Übersetzungen. Dadurch sollten Fehler des Autors, die im ersten Durchlauf 

unbemerkt geblieben waren, entdeckt werden. Die Änderungen der Fehlerzahlen, die sich 

daraus ergaben und in den folgenden Untersuchungsberichten berücksichtigt sind, waren 

eher gering und lagen bei etwa 20 bis 30 Fehlern pro Korpus bei zumeist insgesamt rund 

750 bis 950 Fehlern, wobei jedoch nie eine bedeutende Änderung der Ergebnisse eintrat. 

Es stellte sich dabei auch heraus, dass sich der Bewertungsstil im Laufe der einzelnen 

Textkorpora leicht verändert hatte, weil etwa bestimmte Übersetzungsfehler anfangs anders 

bestraft wurden als später. Die Nachkontrolle der Textkorpora erwies sich also auch 

als nützlich, um solche Inkonsistenzen auszuräumen. 

5.1. Allgemeine Textmerkmale 

In den nächsten fünf Abschnitten werden Merkmale auf ihre Auswirkungen auf die Übersetzungsqualität 

hin untersucht, die in (fast) allen Sprachen auftreten. Dies sind Satzlänge, 

Nebensätze, Mehrdeutigkeit, Seltenheit von Wörtern und elliptischer Schreibstil. 

5.1.1. Satzlänge 

Die Länge eines Satzes wird oftmals als ein zentrales Kriterium für seine Übersetzbarkeit 

bezeichnet und auch im Logos Translatability Index [Gda94] und im Translatability Checker 

[JU01], die in Abschnitt 3.3.1 vorgestellt werden, benutzt. Auch wenn diese Indizes 

schon einige Jahre alt sind, steht nach wie vor zu vermuten, dass zunehmende Satzlänge 

mit mehr Fehlern einhergeht, weil sie die Komplexität des Satzes erhöht. 

37

5. Untersuchung der Textmerkmale auf Fehlerrelevanz 

Vorgehensweise 

Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen 

der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt: 

• einer mit recht kurzen Sätzen (maximal 15 Wörter), 

• ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und 

• ein letzter mit sehr langen Sätzen (minimal 31 Wörter). 

Textquelle war wie üblich die deutsprachige Version von Wikipedia. 

Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht 

wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus 

bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung 

der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun 

hatten und die Fehlerzahlen daher nicht vergleichbar waren. 

Untersuchungsergebnisse 

Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für 

die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche 

Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit 

den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden 

insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer 

Quote von 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30 

Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208 

Wörtern. Dies kommt einer Steigerung von 36, 6% gegenüber der Fehlerrate im ersten 

Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier 

entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt 

von 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung von 13, 6 Prozent 

gegenüber den mittellangen und von 55, 2 Prozent gegenüber den kurzen Sätzen. 

Satzart Wörter Fehler ∅ Fehler pro Wort 1 

Kurz (≤ 15 Wörter) 1002 251 0,1252 

Mittel (16 - 30 Wörter) 2208 755 0,1710 

Lang(> 30 Wörter) 3865 1502 0,1943 

Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit 

Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen, 

wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge 

keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen 

pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten 

Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild: 

• Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während 

die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt. 

1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz. 

38


• Vom ersten zum dritten Textkorpus nimmt die Wortanzahl um 286% zu, während 


• Vom zweiten zum dritten Textkorpus nimmt die Wortanzahl um 75% zu, während 


Der Schluss liegt also nahe, dass eine steigende Satzlänge die Fehlerhäufigkeit der Übersetzung 

stark erhöht und somit die Übersetzbarkeit verringert. 

5.1.2. Nebensätze (Relativsätze) 

Nebensätze sind ein wichtiger Bestandteil jedes längeren Textes und tragen erheblich zu 

dessen semantischer Gliederung bei. Durch ihr Auftreten erhöht sich die Komplexität 

der Satzstruktur. Es liegt daher nahe, dass Nebensätze zu einer Erhöhung der Fehlerrate 

beitragen. Auch der Translatability Checker [JU01] verwendet sie als Indiz für schlechtere 

Übersetzbarkeit 


Um zu überprüfen, wie es sich mit Nebensätzen tatsächlich verhält, wurde zunächst ein 

Textkorpus mit 100 Sätzen aus der deutschsprachigen Wikipedia erstellt, die allesamt 

mindestens einen Relativsatz aufwiesen, und ein zweiter, in dem die Relativsätze aus 

diesen Sätzen entfernt wurden. Dass Relativsätze als Repräsentanten für Nebensätze im 

Allgemeinen ausgewählt wurden, hat im wesentlichen einen Grund: 

Relativsätze sind die wohl am schwersten zu übersetzende Art von Nebensätzen in der 

deutschen Sprache. Sie haben durch das einleitende Relativpronomen mindestens einen 

Bezug zu einem Satzteil des übergeordneten Satzes, der bei der Übersetzung beachtet werden 

muss. Bei einem Temporalsatz reicht es beispielsweise, die einleitende Konjunktion, 

etwa nachdem, zu erkennen und dann mit einem der englischen Äquivalente, etwa after, 

wiederzugeben. Bei einem Relativsatz dagegen muss, auch wenn das englische System von 

Relativpronomen gegenüber dem deutschen stark vereinfacht ist, beachtet werden, in welchem 

Kasus das deutsche Relativpronomen steht (der Abgleich von Genus und Numerus 

entfällt im Englischen) und ob es belebt oder unbelebt ist. So können nur Relativsätze im 

Englischen mit who beginnen, wenn das Bezugswort belebt ist, ansonsten muss entweder 

which oder that eingesetzt werden. Und nur, falls das deutsche Relativpronomen im Dativ 

oder Akkusativ steht, kann bei einem belebten Bezugswort whom verwendet werden. Nur 

bei Genitiven darf hingegen – ob belebt oder unbelebt – whose benutzt werden. 

Wenn also Nebensätze tatsächlich einen negativen Effekt auf die Übersetzungsqualität 

haben, wird dieser bei Relativsätzen voraussichtlich am stärksten ausfallen. Umgekehrt 

ist bei einer deutlichen Beeinflussung der Fehlerzahl durch Relativsätze auch damit zu 

rechnen, dass andere Nebensätze Einfluss haben, weil auch sie über einige, die Übersetzung 

erschwerende Merkmale von Relativsätzen verfügen, wie etwa die veränderte Wortstellung 

im Deutschen mit dem Prädikat am Ende. 


Fehlerhäufigkeit Das Resultat der Fehleranalyse (siehe Tabelle 5.2) zeigt deutlich, dass 

Relativsätze geringe, aber spürbare Auswirkungen auf die Fehlerhäufigkeit bei der Über- 

39


setzung eines Textes haben. So entstanden bei der Übersetzung der Sätze aus der Messreihe 

mit Relativsätzen insgesamt 815 Fehler, während es bei dem Korpus ohne Relativsätze 

794 waren. Bei 2212 bzw. 2184 Wörtern entspricht das einer Fehlerhäufigkeit von 0, 1786 

Fehlern pro Wort mit Relativsätzen bzw. 0, 1818 Fehlern pro Wort ohne Relativsätze. 

Die durch das Ersetzen der Relativsätze entstandene Abnahme der absoluten Fehlerzahl 

beträgt also nur etwa 2, 58 Prozent; das ist wesentlich weniger als erwartet, aber dennoch 

deutlich. Die Relativsätze spielen demnach nur eine vergleichsweise geringe Rolle für die 

Übersetzbarkeit eines deutschen Textes in die englische Sprache. Sie können also nur mit 

einem entsprechend kleinen Gewicht in den Index einfließen. 


Mit Relativsätzen 2212 815 0,1786 

Ohne Relativsätze 2184 794 0,1818 

Tabelle 5.2.: Relativsätze und Fehlerhäufigkeit 

Aus dieser erstaunlich geringen Verbesserung der Übersetzbarkeit durch das Weglassen 

von Relativsätzen darf allerdings nicht automatisch geschlossen werden, dass Relativsätze 

oder Nebensätze im Allgemeinen generell eher unbedeutende Textmerkmale seien. Hierfür 

sind für jede Sprache eigene Untersuchungen nötig, zumal es in anderen Sprachen andere 

Rahmenbedingungen für die Behandlung solcher Sätze gibt. Und vieles spricht dafür, dass 

ihr Einfluss auf die Übersetzbarkeit in anderen Sprachen wesentlich größer ist. 

Abbildung 5.1.: Absolute Veränderungen der Fehleranzahl ohne Relativsätze für die einzelnen 

Übersetzungsprogramme (Babel Fish grün, Personal Translator 

2006 blau) und aufsummiert (rot, mit Werteangaben) 

So sind Nebensätze etwa im Englischen und Spanischen vielfach nicht nötigerweise durch 

Kommata eingegrenzt. In einigen Sprachen, so im Englischen und auch im Dänischen, 

dürfen unter bestimmten Bedingungen sogar Relativpronomen weggelassen werden, was 


40


die Erkennung eines Relativsatzes zweifelsohne erschwert. Als Beispiel für beides diene 

der Satz Das Buch, das Peter kaufen möchte, kostet 10 Euro. mit seiner spanischen Übersetzung 

El libro que Peter quiere comprar cuesta 10 euros. und dem englischen Äquivalent 

The book Peter wants to buy costs 10 euros. Im Deutschen ist der Relativsatz durch Kommata 

und Pronomen abgegrenzt. Im Spanischen fehlen bereits die Kommata, und im 

Englischen fehlt auch noch das Pronomen. 

Veränderungen der Fehlerzahl Abbildung 5.1 zeigt, wie die Veränderungen der Fehlerzahlen 

bei der Gegenüberstellung der Übersetzungen der Originalsätze und der von 

Relativsätzen befreiten Sätze für die beiden MÜ-Programme und insgesamt verteilt sind. 

Die durchschnittliche Veränderung während der Untersuchung betrug −0, 11 Fehler, das 

heißt, etwa jeder zehnte Satz wird im Durchschnitt durch eine Bearbeitung besser übersetzbar. 

Im Vergleich zeigten 87 Übersetzungen überhaupt keine Veränderungen, 57-mal verschlechterten 

sich die Übersetzungen, davon 41-mal um einen Fehler, 13-mal um zwei, 

zweimal um drei und sogar einmal um gleich vier Fehler. Nur 56-mal verbesserte sich 

das Ergebnis, 31-mal gab es einen Fehler weniger, 15-mal zwei, sechsmal drei, immerhin 

zweimal vier, einmal fünf und sogar einmal sechs Fehler weniger. 

Untersuchung anderer Arten von Nebensätzen Um zu überprüfen, ob es sich mit 

anderen Nebensätzen auch anders als ursprünglich erwartet verhält, wurden die anderen 

Arten von Nebensätzen zusätzlich auf ihre Auswirkungen auf die Fehlerzahl untersucht. 

Der eher geringe Einfluss der Relativsätze auf die Übersetzbarkeit war so überraschend, 

dass Klarheit vonnöten war, ob dies nur eine Ausnahme darstellt oder ob andere Arten 

von Nebensätzen vielleicht sogar noch weniger Einfluss auf die Übersetzbarkeit haben. 


Mit Nebensätzen 859 320 0,1863 

Mit weniger Nebensätzen 839 320 0,1907 

Tabelle 5.3.: Andere Nebensätze und Fehlerhäufigkeit 

Dazu wurden wieder zwei Textkorpora gebildet, die allerdings diesmal kleiner ausfielen 

und jeweils 40 Sätze enthielten, weil aufgrund der zuvor begründeten Hypothese, dass 

Nebensätze im Allgemeinen sich ähnlich verhalten wie Relativsätze im Speziellen, trotz 

des unerwarteten Ergebnisses für Relativsätze kein in großem Maßstab anderes Resultat 

für andere Arten von Nebensätzen zu erwarten war. Im ersten Korpus besaßen alle Sätze 

mindestens einen Nebensatz, während sie im zweiten Korpus von mindestens einem Nebensatz 

befreit wurden. In vielen Fällen konnten auch sämtliche Nebensätze vermieden 

werden, ohne den Sinn des Satzes zu enstellen. Bei dieser Analyse der Übersetzungen 

fiel das Ergebnis allerdings genauso unerwartet wie bei den Relativsätzen aus. Die zentrale 

Kennziffer, die absolute Fehlerzahl, änderte sich nämlich überhaupt nicht; vielmehr 

wiesen beide Textkorpora 320 Fehler auf, die Veränderung ist somit 0, wie man Tabelle 

5.3 entnehmen kann. Lediglich die Fehlerzahl pro Wort nahm marginal zu, weil sich die 

Wortanzahl im bearbeiteten Textkorpus leicht verringert hatte. 


41


Die Verteilung der Änderung der Fehlerzahl bei Entfernen von Nebensätzen sieht im Vergleich 

der Übersetzungen von Original und Bearbeitung sehr symmetrisch aus. Insgesamt 

wiesen 35 Übersetzungen nach der Bearbeitung der Originale keine Änderung der Fehlerzahl 

auf. Weitere 21 zeigten eine Zunahme, die restlichen 24 eine Abnahme der Fehlerzahl. 

Es scheint also tatsächlich so zu sein, dass Relativsätze schwieriger zu übersetzen sind als 

andere Nebensätze und dass diese anderen Nebensätze für die Qualität der Übersetzung 

eines deutschen Textes ins Englische keine Bedeutung haben. 

Abbildung 5.2.: Absolute Veränderungen der Fehleranzahl bei weniger Nebensätzen für 

die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator 


Erklärungsversuche Um die Relativsätze zu eliminieren, wurden in etlichen Fällen aus 

dem ursprünglichen Satz zwei Sätze gemacht, wobei einer dieser Sätze dem vormaligen 

Relativsatz entsprach. Dies erwies sich häufig als die sinnvollste Art der Umgestaltung, um 

die Aussage der Texte nicht zu verändern. Auffällig bei beiden zur Übersetzung benutzten 

Programmen war die oftmals unzureichende Erkennung von Referenzen zwischen Sätzen. 

Die folgenden Beispiele aus dem zweiten Textkorpus sollen dies demonstrieren. Die falsch 

übersetzten Referenzen sind fett markiert. 

• Satz 34: 

– Regentin wurde jedoch zunächst Iwans Schwester Sophia. Sie stützte ihre 

Macht wesentlich auf die Strelitzen. 

– 

• Satz 13: 

Übersetzung mit Babel Fish: Regentin became however first Iwans sister Sophia. 

It supported its power substantially by the Strelitzen. 

– Eine Sonderstellung nehmen die gelben Post-TGV ein. Sie sind ansonsten 

technisch mit den TGV PSE identisch. 

42

– 


Übersetzung mit Personal Translator 2006: The yellow post TGV take a 

special position. You otherwise are technically identical with the TGV PSEs. 

Diese des öfteren wiederkehrenden Übersetzungsfehler lassen darauf schließen, dass beide 

Programme in aller Regel nur satzweise übersetzen und das passende Relativpronomen 

mehr oder weniger zufällig zuordnen, zumal es in beiden Beispielsätzen keine Möglichkeit 

gibt, die Referenz auf eine Sache (it) bzw. auf eine direkt angesprochene Person (you) zu 

beziehen. 

Für die anderen Arten von Nebensätzen lässt sich nur vermuten, dass die sehr strikte 

Kommasetzung im Deutschen, die dafür sorgt, dass Haupt- und Nebensätze explizit 

voneinander abgetrennt werden, ausreicht, um durch die Satzstruktur verursachte Fehler 

weitgehend auszuschließen. 

5.1.3. Mehrdeutigkeit 

Wie bereits in Abschnitt 2.4.1 dargelegt, ist Mehrdeutigkeit eines der Hauptprobleme der 

derzeitigen Forschung auf dem Gebiet der MÜ-Systeme. Dementsprechend ist anzunehmen, 

dass Mehrdeutigkeiten sich deutlich negativ in der Übersetzungsqualität bemerkbar 

machen. 


Die Untersuchung konzentrierte sich auf lexikalische Mehrdeutigkeit, weil diese bei der 

Übersetzung von der deutschen in die englische Sprache wesentlich stärker zum Tragen 

kommt als strukturelle Mehrdeutigkeit, die bei der Übersetzung von Deutsch ins Englische 

in vielen Fällen kein Problem darstellt, weil die Satzstrukturen sehr ähnlich sind. Darüber 

hinaus ist es vielfach nur sehr aufwändig möglich, strukturelle Ambiguitäten zu entfernen, 

ohne den Satz allzu sehr zu verändern. So ließe sich in dem aus Abschnitt 2.4.1 bekannten 

strukturell mehrdeutigen Satz Die Spaziergänger beobachteten die Sternschnuppe mit 

ihrem Fernglas. die strukturell mehrdeutige Fügung mit ihrem Fernglas an eine andere 

Stelle des Satzes verschieben. Worauf sich das Possessivpronomen ihrem bezieht – auf die 

Spaziergänger oder die Sternschnuppe –, kann aber nicht eindeutig geklärt werden. Der 

lexikalisch mehrdeutige Satz 75 des unbearbeiteten Textkorpus (Dadurch gibt es mittlerweile 

eine große Auswahl an Sekten aller Qualitäten und Preisklassen.) hingegen kann 

eindeutig gemacht werden, indem man das mehrdeutige Verb geben durch existieren und 

das im Dativ Plural mehrdeutige Substantiv Sekt durch Schaumwein ersetzt. 

Insgesamt wurden aus Wikipedia 100 Sätze ausgewählt, die jeder mindestens ein Wort 

enthielten, das mehrere englische Übersetzungen mit unterschiedlichen Bedeutungen besitzt. 

Im zweiten Textkorpus wurden diese Wörter dann soweit möglich durch eindeutig 

übersetzbare Begriffe ersetzt. Nicht behandelt wurden dabei Präpositionen mit zum Teil 

sehr vielen Bedeutungen wie bei oder über, weil es kaum eine Möglichkeit gibt, sie durch 

synonyme, eindeutige Wörter oder Formulierungen zu ersetzen. 


Fehlerhäufigkeit Wie Tabelle 5.4 zeigt, nahm bei etwa gleicher Wortzahl beider Korpora 

(2089 und 2099 Wörter) die Fehleranzahl in den Übersetzungen sowohl absolut als auch 

43


relativ zur Länge des Gesamttextes deutlich ab. Statt 879 Fehler wie im ersten übersetzen 

Textkorpus traten im von Mehrdeutigkeiten weitgehend befreiten zweiten Textkorpus nur 

noch 776 Fehler auf, also 103 weniger. Die Fehlerzahl pro Wort sank von 0, 2104 auf 0, 1848. 

Insgesamt scheint es sich also durchaus zu lohnen, beim Verfassen eines zu übersetzenden 

Textes auf mehrdeutige Worte soweit möglich zu verzichten. 


Mit vielen Mehrdeutigkeiten 2089 879 0,2104 

Mit weniger Mehrdeutigkeiten 2099 776 0,1848 

Tabelle 5.4.: Mehrdeutigkeiten und Fehlerhäufigkeit 

Veränderungen der Fehlerzahl Abbildung 5.3 stellt die Verteilung der Veränderung 

der Fehlerzahlen bei der Gegenüberstellung der Übersetzungen der Originalsätze und 

der wesentlich weniger Mehrdeutigkeiten enthaltenden bearbeiteten Sätze für die beiden 

MÜ-Programme sowie im Gesamten dar. Durchschnittlich verlor ein Satz durch seine 

Bearbeitung 0, 52 Fehler. 

Ein Großteil der 200 Übersetzungen der bearbeiteten Sätze, insgesamt 92, zeigte keinerlei 

Verbesserung oder Verschlechterung. Nur 23 Übersetzungen wiesen mehr Fehler auf als 

vorher, nämlich 16-mal einen Fehler mehr, sechsmal zwei Fehler mehr und einmal sogar 

vier. Demgegenüber standen 85 Übersetzungen, die weniger Fehler lieferten, wovon 52 

einen und 25 zwei Fehler weniger aufwiesen. Eine starke Abnahme der Fehlerzahl zeigte 

sich bei je drei Übersetzungen mit drei und vier Fehlern weniger und bei zweien mit sogar 

sechs Fehlern weniger. 

Abbildung 5.3.: Absolute Veränderungen der Fehleranzahl bei Reduktion von Mehrdeutigkeiten 

für die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal 

Translator 2006 blau) und aufsummiert (rot, mit Werteangaben) 


44


5.1.4. Seltenheit von Wörtern 

Weil aufgrund der prinzipiell unbeschränkten Wortanzahl der deutschen Sprache nicht 

alle Wörter in den Lexika der Übersetzungsprogramme vorhanden sein können und eine 

Beschränkung auf die wichtigsten notwendig ist, ist zu vermuten, dass sehr seltene und 

somit wahrscheinlich in den Lexika der MÜ-Systeme fehlende Wörter die Übersetzungsqualität 

mindern, weil sie nicht übersetzt werden können oder Übersetzungen zufällig 

gewählt werden müssen. 

Es bot sich an, die Untersuchung der Seltenheit von Wörtern mit der Untersuchung der 

Auswirkungen von Komposita zu verbinden, weil komplexe Komposita in der Regel auch 

sehr selten sind. Überprüft man also die Auswirkungen sehr langer Komposita, ist dies 

zugleich auch eine Überprüfung seltener Wörter. Diese zusammengelegte Untersuchung 

wird in Abschnitt 5.2.3 dargelegt. 

Abbildung 5.4.: Zusammenhang zwischen Wortlänge und Worthäufigkeit 

Der Zusammenhang zwischen Wortlänge und Seltenheit wird in den Abbildungen 5.4 und 

5.5 dargestellt. Grundlage für diese Grafiken ist ein Textkorpus der Universität Leipzig 

mit insgesamt drei Millionen deutschen Sätzen 5 . Der verwendete und die anderen Korpora 

der Leipziger Universität im so genannten Projekt Deutscher Wortschatz führen für jedes 

Wort über seine Häufigkeit Buch, so dass über einfache Datenbankabfragen Statistiken 

zum Zusammenhang von Worthäufigkeit und Wortlänge erstellt werden können. Die rote 

Linie in der ersten Grafik zeigt, wie oft ein Wort einer bestimmten Länge durchschnittlich 

im gesamten Korpus mit drei Millionen Sätzen vorkommt. Die zweite Abbildung zeigt 

vergrößert dieselbe Linie, allerdings nur für Wortlängen von 30 bis 50 Zeichen. Da ausschließlich 

Komposita mit einer Mindestlänge von 30 Zeichen betrachtet wurden und diese 

nie häufiger als durchschnittlich zweimal in sämtlichen Sätzen auftreten, kann hier wohl 

von Seltenheit gesprochen werden. 

5 Projekt Deutscher Wortschatz, online erreichbar unter http://corpora.informatik.uni-leipzig. 

de, zuletzt besucht am 5. April 2007 

45


5.1.5. Elliptischer Schreibstil 

Was sind Ellipsen? 

Abbildung 5.5.: Häufigkeit sehr langer Wörter 

Als Ellipsen bezeichnet man in der Sprachwissenschaft Auslassungen von Worten oder 

ganzen Satzteilen in Sätzen. Sie können in verschiedensten Formen auftreten, wie die 

folgenden Beispiele zeigen: 

• Und dann? statt Und was geschah dann? → fehlendes Prädikat 

• Ich hätte gerne eine Krakauer! statt Ich hätte gerne eine Krakauer Bratwurst! → 

verkürzter Begriff 

• Flussarme fließen in südliche und westliche Richtung. statt Flussarme fließen in 

südliche Richtung und in westliche Richtung. → ausgelassene Wörter 

• Gas- und Ölförderung sind wichtige Industrien. statt Gasförderung und Ölförderung 

sind wichtige Industrien. → abgetrenntes Kompositionsglied, Bindestrich-Ellipse“ 

” 

• Wenn München gewinnt oder Bremen verliert, ist Schalke Meister. statt Wenn 

München gewinnt oder wenn Bremen verliert, dann ist Schalke Meister. → nicht 

wiederholte Konjunktionen oder Präpositionen 

• In dieser Stadt gibt es u. a. eine Universität. statt In dieser Statt gibt es unter 

anderem eine Universität. → Abkürzung 

Bis auf die erste Variante kommen solche Ellipsen alle auch in geschriebenen Texten 

sehr häufig vor. Übersetzungsprogramme werden also vor die Schwierigkeit gestellt, die 

Auslassungen korrekt zu erkennen und in der englischen Übersetzung angemessen wiederzugeben. 

Da Ellipsen die Komplexität der Satzstruktur erhöhen, ist mit einem negativen 

Einfluss auf die Übersetzungsleistungen zu rechnen, wenn sie in einem Satz auftreten; 

nicht zuletzt deshalb grenzen Sprachen wie ACE und KCE derartigen Schreibstil strikt 

ein oder untersagen ihn (siehe Abschnitt 3.1). 

46



Wieder wurden insgesamt 100 beliebige Sätze aus Wikipedia herangezogen, die eine oder 

mehrere Ellipsen aufwiesen, und mit Babel Fish und Personal Translator 2006 einzeln 

ins Englische übersetzt. Anschließend wurden die elliptischen Formulierungen so weit 

wie möglich entfernt, indem die fehlenden Wörter ergänzt wurden, und die neuen Sätze 

ebenfalls übersetzt. 


Fehlerhäufigkeit Bei der Untersuchung stellte sich heraus, dass Ellipsen keinen oder nur 

sehr geringen Einfluss auf die Übersetzungsqualität haben (siehe Tabelle 5.5). Zwar ergibt 

sich eine Abnahme der durchschnittlichen Fehlerzahl pro Wort von 0, 2145 mit Ellipsen 

auf 0, 2001 ohne bzw. mit wesentlich weniger Ellipsen, jedoch muss die Veränderung dieser 

zentralen Kennzahl vor dem Hintergrund der durch die Ergänzungen von 2086 auf 

2224 gestiegenen Wortanzahl betrachtet werden. So sank die absolute Fehlerzahl nur um 

insgesamt 5, was bei 895 Fehlern im Korpus mit Ellipsen und 890 im bearbeiteten Korpus 

lediglich einer Abnahme von nur 0, 56 Prozent entspricht. 

Insgesamt spricht das Ergebnis also nicht dafür, sondern klar dagegen, dass sich durch 

den Verzicht auf Ellipsen im Allgemeinen bessere Resultate erzielen lassen, denn die beobachtete 

Größenordnung der Fehlerabnahme ist nichts, worauf man aufbauen sollte. 


Mit Ellipsen 2086 895 0,2145 

Ohne Ellipsen 2224 890 0,2001 

Tabelle 5.5.: Ellipsen und Fehlerhäufigkeit 

Veränderungen der Fehlerzahl In Abbildung 5.6 ist die Veränderung der Fehlerzahl 

bei der Befreiung des Textkorpus von Ellipsen sowohl für Babel Fish als auch Personal 

Translator und insgesamt dargestellt. Pro Satz erbrachte die Bereinigung von Ellipsen also 

durchschnittlich 0, 03 Fehler weniger, was praktisch gesehen mit 0 gleichgesetzt werden 

kann. 

Bei insgesamt 75 der 200 Übersetzungen des bearbeiteten Textkorpus zeigte sich keinerlei 

Veränderung der Fehlerzahl, 48-mal nahm die Fehlerzahl um einen Fehler ab, elfmal um 

gleich zwei Fehler. Die stärksten Abnahmen sind sechsmal drei Fehler und zweimal vier 

Fehler. In Gegenrichtung zeigten 40 Sätze eine Zunahme um einen Fehler und neun eine 

Zunahme um zwei Fehler. Drei Sätze enthielten drei Fehler mehr, sechs Sätze sogar vier. 

Wie man aber sieht, waren die Veränderungen in der Regel eher gering. 

Sonderfall abgetrennte Kompositionsglieder Eine für die deutsche Sprache typische 

Form der Ellipse ist der Einsatz eines Bindestrichs, um Kompositionsglieder einzusparen, 

so etwa gleich doppelt in Zubehöran- und -verkauf (statt Zubehörankauf und Zubehörverkauf 

). Nach der allgemeinen Untersuchung auf Veränderungen der Fehlerzahl wurden die 

Textkorpora speziell auf die Veränderungen durch das Weglassen derartiger Ellipsen hin 


47


Abbildung 5.6.: Absolute Veränderungen der Fehleranzahl beim Ausfüllen von Ellipsen für 

die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator 


überprüft, weil sie als besonders schwierig zu handhaben einzuschätzen war. Dabei wurde 

gezählt, wie viele Fehler direkt auf diese Form von Auslassungen zurückzuführen waren, 

wobei vorwiegend falsch gewählte Wörter berücksichtigt wurden, weil andere Fehler wie 

beispielsweise eine Verfälschung der Wortstellung im übersetzen Satz auch auf andere 

Änderungen am Ausgangssatz zurückzuführen sein könnten. 

(Fehler verteilt auf 61 Sätze) Fehler vorher Fehler nachher Veränderung 

Babel Fish 46 34 −12 ≡ −26, 09% 

Personal Translator 2006 39 28 −11 ≡ −28, 21% 

Gesamt 85 62 −23 ≡ −27, 06% 

Tabelle 5.6.: Fehler vor und nach der Beseitigung abgetrennter Kompositionsglieder 

Insgesamt traten in 61 der 100 Ausgangssätze derartige Ellipsen auf, die insgesamt 85 

Übersetzungsfehler verursachten (siehe Tabelle 5.6). Nach der Bearbeitung wurden nur 

noch 62 Fehler beobachtet, was einer Abnahme um 23 Fehler oder um 27, 06 Prozent 

entspricht. 

Allerdings ist die Auswirkung des Weglassens von abgetrennten Kompositionsgliedern 

wesentlich geringer, wenn man berücksichtigt, dass die 61 Sätze, in denen diese Ellipsen 

vorkamen, im ersten, unbearbeiteten Korpus insgesamt 532 Fehler aufwiesen. Dennoch 

verbleibt eine spürbare Reduktion der Gesamtfehlerzahl um 23 · 100 = 4, 32%. Es scheint 

532 

also sehr sinnvoll zu sein, auf diese spezielle Form der Ellipsen zu verzichten, um Fehler 

zu vermeiden. 

Erklärungsversuche Insgesamt sind die Fehlerzahlen pro Wort in beiden übersetzten 

Textkorpora relativ hoch. Und in der Tat werden durch Ellipsen erwartungsgemäß zahlreiche 

Fehler verursacht (allein 85 durch abgetrennte Kompositionsglieder, wie bereits 

48

5.2. Sprachspezifische Textmerkmale 

erläutert). Satz 20 des des ersten Korpus lautet beispielsweise: 

• Dies kann über Fest-, Mindest- oder Höchsttarife (price caps) erreicht werden, die 

absolute Grenzen setzen. 

Personal Translator 2006 übersetzt ihn folgendermaßen: 

• This can be reached about celebration, least or maximum rates (Price Cap) which 

put absolute limits. 

Man sieht, dass hier die Ellipsen bei Fest- und Mindest- fälschlicherweise mit celebration 

und least wiedergegeben werden. Aber auch über ist falsch, weil es in diesem Kontext auf 

die Frage nach dem Mittel antwortet und mit by oder through zu übersetzen wäre. Der 

bearbeitete Satz lautet nun: 

• Dies kann über Festtarife, über Mindesttarife oder über Höchsttarife (price caps) 

erreicht werden, die absolute Grenzen setzen. 

Er wird von Personal Translator 2006 wie folgt übersetzt: 

• This which absolute limits put can be reached about flat rates, about minimum rates 

or about maximum rates (Price Cap). 

Abgesehen von der nun völlig konfusen Wortstellung der Übersetzung, fällt auf, dass jetzt 

zwar die zuvor abgekürzten Begriffe richtig übersetzt wurden, aber nun insgesamt dreimal 

über falsch übersetzt wurde, so dass dafür drei Fehler angerechnet werden. Derartiges 

Verhalten kommt auch in zahlreichen anderen Sätzen des zweiten Korpus vor und sorgt 

dafür, dass auf solche und ähnliche Weise die Vorteile, die durch Auffüllen von Ellipsen 

gewonnen werden, gleich wieder verlorengehen. 


In den folgenden vier Abschnitten werden die Auswirkungen des Auftretens einiger Merkmale, 

die typisch für die deutsche Sprache sind und häufig auftreten, mit Hinblick auf die 

Fehlerhäufigkeit untersucht. Dies sind im Einzelnen Verbklammern, Nominalklammern, 

Nominalkomposita und Inversionen der Wortstellung. 

5.2.1. Verbklammern 

Was sind Verbklammern? 

Für die deutsche Sprache typisch sind so genannte Verbklammern 7 , zweiteilige Prädikate 

aus einem finiten Verb und einer infiniten Ergänzung, die über große Teile eines Satzes 

verteilt sind. Sie treten im wesentlichen in drei Varianten auf: 

1. Finites Hilfsverb + Partizip Perfekt oder Infinitiv 

2. Finites Modalverb + Infitiv 

7 Auch als Verbalklammern oder Satzklammern bezeichnet; der Begriff Satzklammer erscheint allerdings 

zu ungenau, weil eine lange Nominalklammer ebenfalls einen Großteil des Satzes einklammern kann. 

49


3. Finites Verb + Präfix 

Als Beispiel wird im folgenden das Verb kaufen betrachtet. Die erste Variante tritt im 

Passiv oder bei Benutzung der Tempora Futur I und II, Perfekt und Plusquamperfekt ein, 

in denen die Hilfsverben sein, haben und/oder werden zusammen mit dem ursprünglichen 

Verb benutzt werden, um das Prädikat darzustellen. Dabei steht das finite Verb dieser 

Konstruktion im Deutschen normalerweise an zweiter Stelle und die anderen Bestandteile 

am Ende des Satzes. So etwa in Peter hatte gestern vormittag auf dem Markt Butter 

gekauft. Das Plusquamperfekt wird hier durch die finite Präteritumsform hatte an zweiter 

Stelle und das Partizip Perfekt gekauft ausgedrückt. Anders in Bis morgen abend wird 

Peter auch noch Nudeln gekauft haben., wo das Futur II durch das finite Präsens von 

werden und den Infinitv Perfekt von kaufen bezeichnet wird. 

Die zweite Variante tritt oftmals bei der Beschreibung von Möglichkeiten, Notwendigkeiten, 

Hoffnungen oder Wünschen ein. Ein Beispiel hierfür ist der Satz Außerdem muss 

Peter noch viele andere Dinge kaufen. Die Notwendigkeit wird hier über die finite Form 

des Modalverbs müssen mit dem ans Ende gestellten Infinitiv von kaufen dargestellt. 

Hierbei handelt es sich nicht um einen erweiterten Infinitiv, der von Übersetzungsprogrammen 

in den meisten Fällen über ein abgrenzendes Komma erkannt werden kann und 

keine Verbklammer ist (vgl. den Satz Um Geld zu sparen, stahl er die Nudeln.). 

Die dritte Variante schließlich tritt immer dann auf, wenn das Verb an sich bereits ein 

Kompositum aus einem Präfix und einem anderen Verb ist und im Satz eine Verbform ohne 

Hilfsverben und Partizipien verwendet wird, was in den Tempora Präsens und Präteritum 

der Fall ist. Das Verb einkaufen ist beispielsweise ein Kompositum aus dem Verb kaufen 

und dem Präfix ein. Ein Beispiel für eine derartige Verbklammer liefert der Satz Mit dem 

gesparten Geld kaufte Peter Kartoffeln ein. 

Die Verbklammer kann als sprachspezifisches Textmerkmal betrachtet werden, weil sie 

in vielen anderen Sprachen unbekannt ist oder nur in geringerem Umfang zum Tragen 

kommt. Als Beispiele dienen hierzu die Wortstellungen im Englischen und Spanischen. 

Der Satz Peter hat ein Buch gekauft. lautet dort Peter has bought a book. 8 bzw. Peter ha 

comprado un libro., wobei die Prädikate has bought und ha comprado eine untrennbare 

Einheit darstellen. 

Die besondere Schwierigkeit für ein Übersetzungsprogramm besteht nun darin, nach dem 

finiten Verb den zweiten Teil der Verbklammer korrekt zu erkennen und richtig zuzuordnen, 

da das Programm bei deutschen Texten wegen des langen Mittelfeldes dazwischen 

nicht wissen kann, wann dieser Teil beginnt. Aufgrund dieser Ungewissheit ist zu erwarten, 

dass ein Satz mit einer oder mehreren Verbklammern tendenziell auch mehr Fehler 

bei der automatischen Übersetzung hervorrufen wird. 


Die obige Vermutung wurde wieder an einem Textkorpus von 100 aus Wikipedia entnommenen 

Sätzen, die jeder mindestens eine Verbklammer mit fünf oder mehr Worten 

zwischen ihren beiden Bestandteilen enthielten, überprüft. Als zweites Korpus wurden 

dieselben Sätze verwendet, die jedoch zuvor von der Verbklammer befreit worden waren. 

Sofern dies nicht gänzlich möglich war, wurde wenigstens die Länge der Klammer 

8 Der Satz Peter has a book bought. ist zwar auch korrekt, bedeutet aber, dass Peter ein Buch kaufen 

lässt. 

50


deutlich verringert. Dabei wurde stets versucht, den Satz insgesamt so wenig wie möglich 

zu verändern, um nur die Auswirkungen der Verbklammern auf die Fehlerhäufigkeit zu 

eliminieren. 

In der Regel wurden die Sätze geändert, indem der Autor ein bedeutungsgleiches Verb, 

das kein Kompositum ist, oder eine andere, nicht zusammengesetzte Verbform anstelle 

des ursprünglichen Verbs einsetzte, indem er die Wortstellung veränderte oder indem 

die Tempora sinnerhaltend geändert wurden. Die folgenden Beispiele aus dem Korpus 

illustrieren dies: 

• Satz 8 

• Satz 62 

– Mit Verbklammer: Bei seinen Auftritten außerhalb der Kaserne wurde Leutnant 

Forstner vor allem von jugendlichen Demonstranten wiederholt verhöhnt 

und beschimpft. 

– Ohne Verbklammer: Bei seinen Auftritten außerhalb der Kaserne verhöhnten 

und beschimpften vor allem jugendliche Demonstranten Leutnant Forstner wiederholt. 

– Mit Verbklammer: Heute setzen sich die Kirchen gemeinsam mit Menschenrechtsgruppen 

für ihre weltweite Abschaffung ein. 

– Ohne Verbklammer: Heute bemühen sich die Kirchen gemeinsam mit Menschenrechtsgruppen 

um ihre weltweite Abschaffung. 


Fehlerhäufigkeit Das Ergebnis der Fehleranalyse beider übersetzter Textkorpora ist in 

Tabelle 5.7 zu sehen. 

Das Textkorpus mit Verbklammern wies bei 2264 Wörtern insgesamt 939 Fehler aus, was 

einer durchschnittlichen Rate von 0, 2074 Fehlern pro Wort entspricht. Nach der Entfernung 

der Verbklammern sank die Wortanzahl auf 2237, die Fehleranzahl auf 849 und 

somit die Fehlerzahl pro Wort auf 0, 1898. Es stellte sich also wie erwartet insbesondere 

eine Abnahme der absoluten Fehlerzahl um 9, 58 Prozent ein, aber auch eine Abnahme 

der relativen Fehlerzahl um 8, 49 Prozent. Somit kann festgehalten werden, dass die Anwesenheit 

einer Verbklammer sich merklich negativ auf die Übersetzbarkeit eines Satzes 

durch Programme auswirkt. 


Mit Verbklammer 2264 939 0,2074 

Ohne/Stark verkürzte Verbklammer 2237 849 0,1898 

Tabelle 5.7.: Verbklammern und Fehlerhäufigkeit 

Veränderungen der Fehlerzahl In Abbildung 5.7 ist an den drei Kurven zu sehen, wie 

die absoluten Veränderungen der Fehlerzahl über die 200 Vergleiche zwischen Übersetzung 


51


von Original und Bearbeitung verteilt sind. Durchschnittlich verlor ein Satz nach dem 

Umschreiben 0, 45 Fehler. Der Bereich, in den die Ergebnisse fielen, ist mit +5 bis −8 

Fehlern recht breit. 

Dabei wiesen von den insgesamt 200 Übersetzungen des bearbeiteten Korpus ohne Verbklammern 

im Vergleich zu denen mit Verbklammern insgesamt 85 eine Abnahme der 

Fehlerzahl von bis zu acht Fehlern auf. Allein 42-mal gab es einen Fehler weniger, 24- 

mal gleich zwei Fehler und zehnmal drei Fehler weniger. Drei-, fünf- und einmal ergaben 

sich sogar vier, fünf und acht Fehler weniger. In weiteren 69 Übersetzungen blieb die 

Fehleranzahl gleich. Die restlichen 46 Übersetzungen zeigten eine Zunahme um bis zu 

fünf Fehler, wobei 26-mal ein Fehler hinzukam, 14-mal zwei, dreimal drei und zweimal 

gleich fünf sowie einmal gleich sechs Fehler. 

Abbildung 5.7.: Absolute Veränderungen der Fehleranzahl ohne Verbklammern für die 

einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator 


5.2.2. Nominalklammern 

Was sind Nominalklammern? 

Ein weiteres häufig in der deutschen Sprache (und auch in anderen germanischen Sprachen, 

etwa dem Niederländischen) anzutreffendes Phänomen ist die Nominalklammer 10 . 

Sie ist eine spezielle Form der Nominalphrase und tritt immer dann auf, wenn innerhalb 

einer Nominalphrase weitere Nominalphrasen vor ihrem Nomen stehen und eine 

verschachtelte Struktur entsteht wie in der für das im Sommer geöffnete Bad zuständige 

Bademeister. Die Nominalklammer ist dadurch bedingt, dass oftmals alle Attribute 

10 Der Begriff Nominalklammer wird gelegentlich auch für Nominalphrasen verwendet oder teilweise, 

sobald überhaupt ein Attribut zwischen Artikel und Nomen steht. In dieser Arbeit jedoch beschränkt 

sich der Begriff ausschließlich auf den Fall, dass innerhalb einer Nominalphrase mindestens eine weitere 

Nominalphrase als Attribut vor dem Nomen (Kopf) der erstgenannten Nominalphrase steht. Somit 

wird dann die innere von der umgebenden Nominalphrase geklammert. 

52


vor das zugehörige Nomen gestellt werden, sogar wenn es sich dabei um sehr komplexe 

Ausdrücke handelt. Keine Nominalklammer liegt dagegen vor, wenn nur ein oder mehrere 

Adjektive zur näheren Beschreibung des Substantivs eingesetzt werden. Im Englischen 

dagegen pflegt man komplexere Attribute hinter das zugehörige Subjekt zu stellen oder 

in Nebensätze auszulagern. In romanischen Sprachen stehen meist alle Attribute hinter 

dem Bezugswort. 

Ein weiteres Beispiel für eine Nominalklammer ist der deutsche Satz Magrit gefiel das 

ihr von Peter geschenkte Buch nicht. Zwischen Artikel und Substantiv steht zur näheren 

Bestimmung des adjektivisch gebrauchten Partizips geschenkt noch das feminine Personalpronomen 

sie im Dativ und eine Präpositionalphrase. Im Englischen oder auch in 

romanischen Sprachen ist diese Wortstellung nicht möglich. Korrekt übersetzt lautet der 

Satz auf Englisch Magrit didn’t like the book given to her by Peter. Auf Spanisch könnte 

man sagen A Magrit no le gustó el libro regalado a ella de Peter. In beiden Fällen rückt 

das Partizip mitsamt näherer Bestimmung hinter das Substantiv und belässt es damit bei 

einer einfacheren, weniger komplexen syntaktischen Struktur. 

Die Schwierigkeit bei der maschinellen Übersetzung besteht nun darin, alle im deutschen 

Ausgangstext zusammengehörigen Artikel, Adjektive und Substantive, die über große Teile 

eines Satze verstreut sein können, und ebenso die weiteren Angaben zur näheren Bestimmung 

korrekt zu identifizieren und sie in eine in der Zielsprache akzeptable Wortstellung 

unter Wahrung der Bedeutung zu transferieren. Dies ist insofern schwieriger als der Umgang 

mit einer Verbklammer (siehe Abschnitt 5.2.1), als es dort nur zwei Teile eines Verbs 

gibt, nämlich die finite Verbform und die restlichen, aufeinanderfolgenden Bestandteile des 

Prädikats. In jedem Fall ist also mit einer Verschlechterung der Übersetzungsqualität zu 

rechnen, wenn eine oder mehrere Nominalklammern auftreten. 


Für die Untersuchung dieses Zusammenhangs wurden 100 Sätze aus der deutschsprachigen 

Wikipedia herausgesucht, die entweder eine Nominalklammer aufwiesen oder so 

konstruiert waren, dass man leicht eine Nominalklammer im Satz bilden konnte, ohne die 

Bedeutung des Satzes zu verändern. So wurden jeweils 100 Sätze mit und ohne Nominalklammern 

in zwei Korpora erstellt und deren Übersetzungen auf Fehler untersucht. Dabei 

wurde in vielen Sätzen ein Abstand von zehn oder mehr Wörtern zwischen erstem und 

letztem Element der Nominalklammer eingehalten. 

Die Entfernung von Nominalklammern erfolgte in der Regel, indem die bisher vorangestellten 

Attribute in einen Nebensatz oder in einen eigenständigen zweiten Satz ausgelagert 

wurden. Sofern ein Satz im Original keine Nominalklammer aufwies, wurde umgekehrt 

verfahren. Zur Verdeutlichung des Entfernens von Nominalklammern ein Beispiel: 

• Satz 89 

– Mit Nominalklammer: 1998 waren die zuvor schon aus den anderen ostdeutschen 

Landesparlamenten gefallenen Grünen auch in Sachsen-Anhalt 

an der Fünf-Prozent-Hürde gescheitert. 

– Ohne Nominalklammer: 1998 waren die Grünen auch in Sachsen-Anhalt an 

der Fünf-Prozent-Hürde gescheitert, nachdem sie schon vorher aus den 

anderen ostdeutschen Landesparlamenten gefallen waren. 

53



Fehlerhäufigkeit Die Auswertung der Übersetzungen zeigte eine deutliche Fehlerabnahme 

beim Verzicht auf Nominalklammern. Zwar waren die Sätze mit Nominalklammern 

in der Regel geringfügig kürzer (insgesamt 2155 statt 2294 Wörter), wiesen aber insgesamt 

eine deutlich höhere Fehlerzahl pro Wort auf, nämlich 0, 2183, was 941 Fehlern im 

Textkorpus entspricht. Demgegenüber wurden im Textkorpus ohne Nominalklammern nur 

815 Fehler entdeckt, was gleichbedeutend ist mit 0, 1776 Fehlern pro Wort. Es wurde also 

eine Abnahme der absoluten Fehlerzahl um 13, 39 Prozent festgestellt und die eingangs 

gestellte Hypothese damit bestätigt: Nominalklammern wirken sich deutlich negativ auf 

die maschinelle Übersetzbarkeit eines Satzes aus (vgl. dazu auch Tabelle 5.8). 


Mit Nominalklammer 2155 941 0,2183 

Ohne Nominalklammer 2294 815 0,1776 

Tabelle 5.8.: Nominalklammern und Fehlerhäufigkeit 

Abbildung 5.8.: Absolute Veränderungen der Fehleranzahl ohne Nominalklammern für die 

einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator 


Veränderungen der Fehlerzahl Abbildung 5.8 zeigt die drei Kurven, die angeben, wie 

sich die Fehlerzahl nach Bearbeitung der Originalsätze verändert hat, für Babel Fish 

und Personal Translator sowie aggregiert. Durchschnittlich verlor ein Satz nach dem 

Umschreiben 0, 63 Fehler. 

Von den insgesamt 200 Übersetzungen der bearbeiteten Sätze wiesen nur 64 dieselbe 

Anzahl Fehler auf wie die Originale. 97 Übersetzungen erzielten weniger Fehler, davon 


54


45 einen, 26 zwei und 15 drei Fehler weniger als die Version mit Nominalklammer. Elf 

Übersetzungen wiesen extreme Abnahmen der Fehlerzahl auf, nämlich achtmal vier Fehler 

und dreimal sogar fünf Fehler weniger. Im Gegenzug gab es noch 39 Übersetzungen mit 

teilweise deutlich mehr Fehlern. Um einen Fehler legten 21 Übersetzungen im Vergleich zu 

den entsprechenden Versionen mit Nominalklammern zu, 14-mal um zwei Fehler. Dreimal 

traten drei Fehler mehr auf und einmal sogar fünf Fehler. 

5.2.3. Nominalkomposita 

Typisch für die deutsche Sprache sind Nominalkomposita, wie bereits in Abschnitt 2.4.2 

vorgestellt. Sie treten auch in einigen weiteren germanischen Sprachen auf, sind aber 

in slawischen oder romanischen Sprachen unbekannt. Wegen der unbegrenzten Wortbildungsmöglichkeiten 

können viele Zusammensetzungen nicht im Lexikon eines MÜ- 

Programms stehen. Die Wörter müssen als Komposita erkannt, korrekt zerlegt und richtig 

auf Wörter oder ganze Satzteile der Zielsprache übersetzt werden. Daraus lässt sich 

folgern, dass gerade längere Komposita die Fehlerhäufigkeit bei Übersetzungen deutlich 

erhöhen. 


Es galt sicherzustellen, dass die ausgewählten Wörter aller Voraussicht nach eine Hürde für 

die MÜ-Programme darstellen. Dazu wurde das bereits in 5.1.4 erwähnte Textkorpus der 

Universität Leipzig mit drei Millionen deutschsprachigen Sätzen benutzt. Aus dem Korpus 

wurden insgesamt 100 äußerst seltene Wörter mit mindestens 30 Zeichen ausgewählt, die 

bis auf wenige Ausnahmen allesamt im gesamten Korpus nur einmal vorkamen. Zu jedem 

Wort wurde über Internetsuchmaschinen ein Satz herausgesucht, in dem es vorkam. Die 

Seltenheit der gewählten Nominalkomposita zeigte sich beim Aussuchen der 100 Wörter 

darin, dass selbst Google zu etlichen Begriffen keine Einträge finden konnte. Texte aus 

Wikipedia konnten nicht genommen werden, weil die entsprechenden Begriffe hier fast gar 

nicht zu finden waren. 

Zur Überprüfung der Auswirkungen von Nominalkomposita wurden wie üblich zwei Textkorpora 

benutzt. Im ersten befanden sich 100 Sätze mit mindestens einem solchen Kompositum, 

im zweiten Korpus wurden alle größeren Komposita durch andere, sinnwahrende 

Konstruktionen ersetzt, sofern sie nicht ausschließlich oder überwiegend in dieser Form in 

der Alltags- und Schriftsprache verwendet werden. Ein Beispiel (Satz 73 der Korpora): 

• Original: Die Stabhochsprungvizeweltmeisterin oder das Fußballweltmeisterschaftsachtelfinalspiel 

kommen sehr gut ohne Bindestriche aus. 

• Bearbeitet: Die Vizeweltmeisterin im Stabhochsprung oder das Achtelfinalspiel der 

Weltmeisterschaft im Fußball kommen sehr gut ohne Bindestriche aus. 

Wie man sieht, sind auch im bearbeiteten Satz noch Komposita vorhanden, die jedoch 

im Gegensatz zu den beiden Wörtern Stabhochsprungvizeweltmeisterin und Fußballweltmeisterschaftsachtelfinalspiel 

alltäglich sind und in gängigen Wörterbüchern stehen, so 

dass von ihnen keine Auswirkungen auf die Übersetzungsqualität zu erwarten ist. Niemand 

würde außerdem statt Bindestriche die Form Striche der Bindung oder statt Stabhochsprung 

Hoher Sprung mit einem Stab benutzen – eine derart feingranulare Zerlegung 

dürfte sogar tendenziell für mehr Fehler sorgen. 

55



Fehlerhäufigkeit Das Ergebnis war überaus unerwartet, wie Tabelle 5.9 zeigt: Zwar sank 

die Fehlerhäufigkeit von der Übersetzung des originalen zu der des bearbeiteten Textkorpus 

von 0, 2180 Fehlern pro Wort auf nur noch 0, 1913, allerdings bei stark erhöhter 

Wortzahl (statt 1908 nun 2404). Absolut gesehen nahm die Fehlerzahl aber von 832 auf 

920 zu, das heißt, durch das Umformulieren komplizierter Komposita sind 88 Fehler hinzugekommen. 

Dies entspricht einer Zunahme von 10, 58 Prozent. 

Trotz der Seltenheit und Komplexität (minimal 30 Zeichen) der ausgewählten Komposita 

nützt es also nichts, auf sie zu verzichten. Eine derartige Überarbeitung eines Textes 

erhöht den Nachbearbeitungsaufwand sogar noch und ist daher kontraproduktiv. 


Original 1908 832 0,2180 

Bearbeitet 2404 920 0,1913 

Tabelle 5.9.: Nominalkomposita und Fehlerhäufigkeit 

Veränderungen der Fehlerzahl Wie sich die Fehlerzahl verändert, wenn man Zahl und 

Komplexität der Nominalkomposita reduziert, zeigt Abbildung 5.9. Die grüne Linie steht 

dabei für die Ergebnisse mit Babel Fish, die blaue für Personal Translator 2006 und die 

rote für das aggregierte Gesamtergebnis. Die durchschnittliche Änderung der Fehlerzahl 

beträgt 0, 44 Fehler pro Satz, jeder bearbeitete Satz weist also im Durchschnitt 0, 44 Fehler 

mehr auf als das Original. 

Von den insgesamt 200 Übersetzungen des zweiten Korpus zeigten 71 keine Veränderung 

der Fehlerzahl gegenüber dem Original. Bei 39 Übersetzungen kam es zu einer Abnahme 

der Fehlerzahl, davon 27-mal um einen Fehler, fünfmal zum zwei Fehler, sechsmal um drei 

Fehler und einmal um fünf Fehler. Die restlichen 90 Übersetzungen der bearbeiteten Sätze 

lieferten schlechtere Ergebnisse als die Originale, wovon 55 um einen Fehler zulegten, 19 

um zwei Fehler, elf um drei Fehler. Immerhin drei Sätze enthielten nach der Bearbeitung 

sogar vier Fehler mehr und zwei sogar fünf Fehler. 

Erklärungsversuche Die Zunahme der Fehlerzahl bei den Übersetzungen des bearbeiteten 

Textkorpus war das überraschendste Ergebnis der gesamten Testreihen. Es scheint 

in der Tat, als hätten beide Programme gelernt, mit derartigen Wörtern umzugehen. 

Verweigerte Übersetzungen von Komposita kamen nur in den seltensten Fällen vor. 

Vielfach war statt dessen zu beobachten, dass beide Programme unbekannte Wörter korrekt 

in ihre Bestandteile zerlegten und diese dann einfach übersetzten, manchmal mit 

weniger Erfolg, manchmal mit mehr Erfolg, wobei Personal Translator 2006 alles in allem 

weniger Probleme zu haben schien als Babel Fish. Personal Translator 2006 etwa 

übersetzte Stabhochsprungvizeweltmeisterin korrekt mit pole vault vice-world champion, 

während Babel Fish mit staff high jump vice-world champion zwar eine äußerst wörtliche, 

jedoch auch äußerst falsche Übersetzung präsentierte. Und ein Steuerberater bleibt auf 

Englisch immer noch ein tax advisor, auch wenn beide MÜ-Systeme tax counsel oder tax 

consultant vorschlugen. 


56


Abbildung 5.9.: Absolute Veränderungen der Fehleranzahl bei reduzierter Anzahl von Nominalkomposita 

für die einzelnen Übersetzungsprogramme (Babel Fish 

grün, Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben) 

Die zerlegten Komposita hätten zwar theoretisch einfacher zu übersetzen sein müssen, 

warfen jedoch neue Probleme auf, insbesondere durch den nun zunehmenden Einsatz von 

Präpositionen, die sich an vielen Stellen im Deutschen nicht vermeiden lassen. Aber gerade 

sie wurden von beiden Programmen oftmals falsch übersetzt. Ein Beispiel: Statt 

Behindertengleichstellungsgesetz kann man ebenfalls Gesetz zur Gleichstellung Behinderter 

formulieren. Die Präposition zu kann im Deutschen lokalen Sinn haben (Ich gehe zur 

Schule.), aber auch finalen Sinn wie bei dem Gesetzesnamen. Im Englischen muss nun in 

aller Regel differenziert übersetzt werden, nämlich im ersten Fall mit to, im zweiten mit 

for. Personal Translator 2006 übersetzte aber nahezu jedesmal, wenn zu einen finalen 

Sinn hatte, mit to und verursachte dadurch regelmäßig neue Fehler. 

Dies erwies sich aber nicht als einzige neue Fehlerquelle. Oft kam es vor, dass die verschiedenen 

Teile der zerlegten Komposita nicht mehr wie im deutschen Satz in korrekter 

Reihenfolge zusammenstanden, sondern kreuz und quer über den übersetzten Satz verstreut 

waren. Auf derartigen Wegen kamen letztlich mehr Fehler zustande als bei der 

schlichten wörtlichen Übersetzung der den Programmen unbekannten Komposita. 

Das überraschende Ergebnis soll allerdings keinen Freibrief darstellen, jetzt massenhaft 

Komposita in allen möglichen Texten unterzubringen, zumal dies der Verständlichkeit für 

die Leserschaft abträglich wäre. Es darf lediglich dahingehend verstanden werden, dass 

es kontraproduktiv ist, selbst längere Komposita systematisch zu entfernen, noch dazu 

solche, die ohnehin gebräuchlich sind. 

Davon abgesehen gilt aber: Wenn man Übersetzungsprogramme mit allzu wüsten Wortschöpfungen 

konfrontiert, wird die Arbeit schlichtweg verweigert. Das Wort Donaudampfschifffahrtsgesellschaftskapitänsmützenherstellungsstandortverlagerungsbeschluss 

konnte keines der Programme mehr übersetzen. 

57


5.2.4. Inversion der Wortstellung 

Was ist eine Inversion der Wortstellung? 

Die deutsche Sprache verfügt nicht zuletzt dank ihrer noch recht ausgeprägten Flexion 

über eine recht variable Wortstellung. Dennoch gibt es im normalen Sprachgebrauch 

für Haupt-, Neben- und Fragesätze/Anweisungen sowie Infinitivkonstruktionen eine Art 

Standardwortstellung, nämlich 

• Subjekt - Prädikat - Objekt bei Hauptsätzen, 

• Subjekt - Objekt - Prädikat bei Nebensätzen und 

• Prädikat - Subjekt - Objekt bei Fragen und Anweisungen und 

• Objekt - Infinitiv bei erweiterten Infinitiven 

Es gibt aber viele Fälle – gerade in Haupt- und Fragesätzen –, in denen von dieser Konvention 

abgewichen wird, um einen bestimmten Sachverhalt oder Zustand zu betonen. 

Beispiele hierfür sind: 

• Die Hausaufgaben hat er schon gemacht? statt Hat er die Hausaufgaben schon gemacht? 

• Den Hund verjagte die Katze. statt Die Katze verjagte den Hund. 

• Pünktlich kam der Zug an. statt Der Zug kam pünktlich an. 

Diese Veränderung der Wortstellung, oft als Inversion bezeichnet, weil z. B. Subjekt und 

Objekt die Positionen tauschen oder weil das Subjekt im Hauptsatz hinter das finite 

Verb rückt, erfordert von den Übersetzungsprogrammen, dass sie in der Lage sind, sie 

zu erkennen und dementsprechend von ihrem Standardübersetzungsschema abzuweichen, 

zumal sich derartige Wortstellungen nicht originalgetreu im Englischen nachbilden lassen. 

Dies wird insbesondere dann problematisch, wenn, anders als in den obigen Beispielen, 

nicht eindeutig erkennbar ist, was Subjekt und Objekt ist. Im ersten Satz etwa könnte 

Die Hausaufgaben zwar auch im Nominativ stehen und damit das Subjekt sein, jedoch 

passte dann das finite Verb hat, das eindeutig in der 3. Person Singular steht, nicht dazu. 

Im zweiten Satz ist Den Hund wegen des Artikels klar als Akkusativ Singular und somit 

als direktes Objekt zu identifizieren, so dass nur die Katze als Subjekt verbleibt. Dagegen 

ist in den Sätzen 

• Gute Leistungen haben die Oldenburger Schützenvereine gezeigt. 

• Ihre neuen Autos verkauften sie schon bald wieder. 

allein auf Grundlage der Grammatikregeln der deutschen Sprache keine eindeutige Identifizierung 

von Subjekt und Objekt möglich. Es muss im Kontext etwa bekannt sein, dass 

Autos nichts verkaufen können. Aufgrund solcher Schwierigkeiten ist bei einer Inversion 

der Wortstellung mit einer signifikanten Zunahme der absoluten Fehlerzahl bei der Übersetzung 

zu rechnen. 

58



Dem in Abschnitt 4.2 definierten Standard entsprechend, wurden 100 Sätze aus der 

deutschsprachigen Wikipedia zufällig ausgesucht, die mindestens eine Abweichung von 

der Standardwortstellung enthielten, und übersetzt. Im zweiten Textkorpus wurden die 

abweichenden Wortstellungen dann dem Standard angeglichen und die so entstandenen 

100 neuen Sätze ebenfalls übersetzt. Zwar änderte sich dadurch die Betonung der einzelnen 

Satzelemente, der Inhalt blieb jedoch stets derselbe. 


Fehlerhäufigkeit Die Untersuchung lieferte das erwartete Ergebnis (siehe Tabelle 5.10): 

Das Textkorpus mit den Inversionen wies bei 2147 Wörtern insgesamt 802 Übersetzungsfehler 

auf, was einer Fehlerzahl pro Wort von 0, 1868 entspricht. Demgegenüber sank die 

absolute Fehlerzahl der Übersetzungen im bearbeiteten, von Inversionen befreiten Textkorpus 

auf nur noch 724 Fehler bei 2152 Wörtern. Dies entspricht 0, 1682 Fehlern pro 

Wort. 

Die Abnahme der absoluten Fehlerzahl beträgt also beim Verzicht auf Inversionen der 

Worstellung 78 Fehler oder 9, 73 Prozent. Die Abnahme der Fehlerzahl pro Wort ist mit 

9, 96 Prozent noch etwas größer. Es lässt sich also festhalten, dass man die Übersetzungsqualität 

deutlich verbessern kann, indem man die Standardwortstellung verwendet. 


Mit Inversionen 2147 802 0,1868 

Ohne Inversionen 2152 724 0,1682 

Tabelle 5.10.: Inversionen und Fehlerhäufigkeit 

Veränderungen der Fehlerzahl In Abbildung 5.10 ist die Veränderung der Fehlerzahl 

bei der Befreiung des Textkorpus von Inversionen der Wortstellung sowohl für Babel Fish 

als auch Personal Translator und insgesamt dargestellt. Die durchschnittliche Änderung 

der Fehlerzahl beträgt −0, 39 Fehler pro Satz, auf jeweils 2, 5 Sätze entfällt also im Schnitt 

ein Fehler. 

In insgesamt 116 von 200 Übersetzungen der bearbeiteten Sätze änderte sich die Fehlerzahl 

nicht. 22-mal ergibt sich eine Erhöhung der Fehlerzahl um einen Fehler, lediglich zweimal 

kam es zu zwei zusätzlichen Fehlern. Demgegenüber gab es wesentlich mehr Sätze, die eine 

verminderte Fehlerzahl aufwiesen, nämlich insgesamt 60, davon allein 36 Sätze mit einem 

Fehler weniger und 13 mit zwei Fehlern weniger. Sieben Sätze lieferten eine Abnahme um 

drei Fehler, ein Satz wies vier, zwei Sätze fünf und einer sogar sieben Fehler weniger auf. 

Insgesamt waren die Veränderungen in der Regel also nicht dramatisch, aber mit klarer 

Tendenz zu einer Abnahme der Fehlerzahl. 


59


Abbildung 5.10.: Absolute Veränderungen der Fehleranzahl ohne Inversionen der Wortstellung 

für die einzelnen Übersetzungsprogramme (Babel Fish grün, 

Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben) 

5.3. Signifikanz der Ergebnisse 

Die ausgewählten Textmerkmale wurden gemäß den Ausführungen in Abschnitt 4.5 überprüft, 

das heißt, es wurden die Sätze der zugehörigen Textkorpora auf eine signifikante 

Verbesserung der Übersetzungsqualität beim Verzicht auf das jeweilige Textmerkmal hin 

untersucht. Als Grundlage diente die dort angegebene Wahrscheinlichkeitsfunktion auf 

Basis der hypergeometrischen Verteilung mit N = 100.000 und M = 50.000. Die Bedeutung 

der Variablen N und M sowie der im weiteren Verlauf verwendeten Variablen k und 

n wird ebenfalls in Abschnitt 4.5 erläutert. 

Satzlänge 

Für die Satzlänge war als einziges Textmerkmal ein Signifikanztest nicht möglich, weil 

Satzlänge nichts ist, was sich wie etwa Nominalkomposita beseitigen ließe, ohne den Sinn 

des Satzes gravierend zu verändern. Selbst wenn man die Korpora für mittellange und 

kurze Sätze auf Basis des Korpus mit den sehr langen Sätzen erstellt und die Sätze jeweils 

passend gekürzt hätte, wären die Veränderungen der Fehlerzahlen nicht vergleichbar, weil 

es sich bei den drastisch unterschiedlichen Satzlängen in den drei Korpora um inhaltlich 

stark verschiedene Sätze handeln würde. 

Gleichwohl wird die Satzlänge auch ohne Signifikanztest in den Übersetzbarkeitsindex 

aufgenommen, weil sie erstens von anderen Bewertungsprogrammen als Kriterium benutzt 

wird (vgl. Abschnitt 3.3) und zweitens der empirische Befund zu den drei übersetzten 

Textkorpora eine deutlich überproportionale Zunahme der durchschnittlichen Fehlerzahl 

bei Erhöhung der Satzlänge ausweist (vgl. Abschnitt 5.1.1). 

60

5.3. Signifikanz der Ergebnisse 

Nebensätze (Relativsätze) 

In den übersetzten Textkorpora zu Nebensätzen im Allgemeinen und Relativsätzen im 

Speziellen waren keine bzw. recht geringe Veränderungen der Fehlerzahl zu beobachten. 

Die Beseitigung von Nebensätzen brachte bei einer Summe der Fehlerzahländerungen von 

n = 82 keine Veränderung der Gesamtfehlerzahl oder k = 41 Fehlerzahlzunahmen bei 

41 -abnahmen in den Übersetzungen, deren Fehlerzahl sich veränderte. Die Beseitigung 

von Relativsätzen brachte dagegen 21 Fehler weniger, wobei es in der Summe insgesamt 

n = 175 Fehlerzahländerungen gab, von denen k = 98 auf die Sätze mit verringerter 

Fehlerzahl entfielen. 

Für die Nebensätze ergibt sich daraus eine Wahrscheinlichkeit von P (X ≥ 41) ≈ 0, 54394, 

dass in den Sätzen mit Fehlerabnahme mindestens k Fehler entfallen, wenn H 0 gilt. Die 

Gefahr einer fälschlichen Zurückweisung von H 0 ist daher viel zu groß, so dass sie beibehalten 

wird und Nebensätze aller Art nicht in den Übersetzbarkeitsindex aufgenommen 

werden. Bei Relativsätzen im Speziellen ergibt sich diesbezüglich mit k = 98 ein Wert von 

P (X ≥ 98) ≈ 0, 06500. Obwohl diese Wahrscheinlichkeit größer ist als das Signifikanzniveau 

α = 0, 05 und Relativsätze die Übersetzbarkeit somit nicht signifikant verschlechtern, 

werden sie in den Index aufgenommen. Der Grund ist, dass der Wert der Verteilungsfunktion 

nur sehr knapp über dem Signifikanzniveau liegt (bereits bei k = 99 wäre das Ergebnis 

signifikant) und gleichzeitig Relativsätze in anderen Übersetzbarkeitsmaßen berücksichtigt 

werden (vgl. Abschnitt 3.3). Berücksichtigt man dies, so ist die Wahrscheinlichkeit, 

die Gegenhypothese H 1 zu Unrecht nicht anzunehmen, trotz des nicht-signifikanten Testergebnisses 

viel zu groß. Allerdings ist der Einfluss von Relativsätzen im Vergleich zu 

anderen in den Index aufgenommenen Textmerkmalen eher gering, was sich auch bei der 

Konstruktion des Indexes niederschlagen wird (vgl. Kapitel 6). Dementsprechend wird 

selbst eine möglicherweise doch fälschliche Aufnahme in den Index nicht zu großen Verzerrungen 

führen. 

Mehrdeutigkeit 

Insgesamt nahm die Fehlerzahl der Übersetzungen nach dem Entfernen von Mehrdeutigkeiten 

um 103 Fehler ab. Dabei gab es 92 Sätze ohne Veränderung der Fehlerzahl, 23 mit 

einer Erhöhung der Fehlerzahl und 85 mit einer Verringerung der Fehlerzahl. In diesen 

108 Sätzen mit veränderter Fehlerzahl kamen in den verschlechterten Sätzen 32 Fehler 

hinzu, k = 135 fielen in den verbesserten Sätzen weg, so dass sich als Stichprobenumfang 

der Fehlerzahlveränderungen n = 167 ergibt. 

Daraus folgt (auf fünf Stellen gerundet): P (X ≥ 135) ≈ 0, 00000. Die Fehlerzahlabnahme 

ist also sogar höchst signifikant, die Wahrscheinlichkeit, dass die Nullhypothese zu Unrecht 

verworfen wird, dementsprechend verschwindend gering. Daher werden Mehrdeutigkeiten 

in den Übersetzbarkeitsindex aufgenommen. 

Elliptischer Schreibstil 

Auf beide Textkorpora bezogen, ergab sich beim Entfernen von Ellipsen eine Abnahme 

um insgesamt fünf Fehler in den Übersetzungen. Insgesamt summierten sich die Fehlerzahlveränderungen 

auf n = 187, wovon k = 96 Fehlerzahlverringerungen waren. 

Somit ergab sich für das Komplement der Verteilungsfunktion ein Funktionswert von 

P (X ≥ 96) ≈ 0, 38489. Die (sehr geringe) Fehlerzahlabnahme ist also bei weitem nicht 

61


signifikant, so dass Ellipsen nicht als Textmerkmal in den Übersetzbarkeitsindex aufgenommen 

werden können. 

Für abgetrennte Kompositionsglieder ergab sich jedoch ein anderes Bild: Hier traten in 

den Sätzen, die nach dem Weglassen solcher Ellipsen ihre Fehlerzahl veränderten, insgesamt 

n = 61 Veränderungen auf, wovon k = 42 Abnahmen waren. Daraus folgte eine 

Wahrscheinlichkeit von P (X ≥ 42) ≈ 0, 00222, so dass diese Fehlerabnahme ebenfalls 

höchstsignifikant ist. Abgetrennte Kompositionsglieder werden also in den Übersetzbarkeitsindex 

aufgenommen. 

Verbklammern 

Die Sätze, aus denen die Nominalklammern entfernt wurden und deren Übersetzung sich 

verbesserte, wiesen eine um k = 165 verringerte Fehlerzahl auf, während in den sich 

verschlechternden Sätzen 76 Fehler hinzukamen, so dass der Stichprobenumfang n = 241 

betrug. 

Mit k = 165 ergab die Verteilungsfunktion dann (auf fünf Stellen gerundet) P (X ≥ 165) ≈ 

0, 00000, was ein höchstsignifikantes Ergebnis darstellt, so dass Verbklammern ebenfalls 

in den Index einfließen werden. 

Nominalklammern 

Die Entfernung von Nominalklammern verursachte Veränderungen der Fehlerzahl bei 136 

der 200 Übersetzungen des zweiten Textkorpus. Die Anzahl der Fehler in den Sätzen, in 

denen insgesamt weniger Fehler festgestellt wurden, verringerte sich um k = 189, in den 

Sätzen, in denen insgesamt mehr Fehler gemessen wurden, erhöhte sie sich um 63 Fehler, 

so dass sich ein Stichprobenumfang von n = 252 ergab. 

Die Verteilungsfunktion liefert P (X ≥ 189) ≈ 0, 00000, also ein höchstsignifikantes Ergebnis, 

so dass Nominalklammern ohne Zweifel in den Übersetzbarkeitsindex gehören. 

Nominalkomposita 

Mit Nominalkomposita verhält es sich anders als mit allen anderen Merkmalen, weil ihre 

Beseitigung eine deutliche Fehlerzahlzunahme in den Übersetzungen hervorrief. Die Sätze, 

deren Übersetzung sich ohne Komposita verbesserte, zeigten k = 60 Fehler weniger, die 

Sätze, deren Übersetzung sich ohne Komposita verschlechterte, legten um 148 Fehler zu, 

was einen Stichprobenumfang von n = 208 ergibt. 

Mit diesen Parametern liefert die Verteilungsfunktion P (X ≥ 60) ≈ 1, 00000. Das Ergebnis 

ist also insofern bedeutsam, als man deutlich erkennen kann, dass Nominalkomposita 

die Übersetzbarkeit entgegen allen anderen Behauptungen positiv beeinflussen. Es wäre 

daher angebracht, sie mit umgekehrtem Vorzeichen ebenfalls in den Übersetzbarkeitxsindex 

hineinzunehmen. 

Allerdings ergäben sich daraus auch Probleme: Zum ersten wäre ein Algorithmus nötig, der 

Nominalkomposita aus beliebigen Wörtern zuverlässig erkennt. Ein derartiges Programm 

ist aber anscheinend nicht frei verfügbar, und bloßes Raten anhand der Wortlänge wäre zu 

fehleranfällig. Zum zweiten stellt sich die Frage, ab wann ein Kompositum überhaupt positiv 

bewertet werden soll. Das Wort Eieruhr ist beispielsweise ein Nominalkompositum, 

das aber sehr kurz ist und zu dem es keine sinngleiche Bezeichnung ohne Kompositum gibt. 

62

5.4. Vergleich der eingesetzten Übersetzungsprogramme 

Es wäre also falsch, pauschal Bonuspunkte zu verteilen, sobald irgendein Nominalkompositum 

auftaucht, zumal sich der Textkorpus auf überdurchschnittlich lange Komposita 

konzentrierte. Und drittens muss der geschriebene Text immer noch für die Menschen 

verständlich sein, die ihn lesen sollen. Selbst wenn es Übersetzungsprogrammen leichter 

fällt, Wörter mit 30 Zeichen und mehr ins Englische zu übersetzen, fällt es sowohl Autoren 

als auch Lesern mit Sicherheit bei steigender Wortlänge schwerer, Wörtern Sinn und 

Bedeutung zuzuordnen. 

Aus diesen Erwägungen heraus wird auf die Übernahme dieses Textmerkmals in den 

Übersetzbarkeitsindex in dieser Arbeit verzichtet. 

Inversion der Wortstellung 

Das Ergebnis der Untersuchung von Inversionen der deutschen Standardwortstellungen 

zeigte eine deutliche Abnahme der Fehlerzahl, wenn man auf Inversionen verzichtet. Insgesamt 

84 der 200 Übersetzungen ohne Inversionen wiesen Veränderungen der Fehlerzahlen 

auf, wobei die Summe insgesamt n = 130 Fehler betrug. Auf die Sätze, deren Fehlerzahl 

in der Übersetzung sich verringerte, entfielen davon k = 104 Fehler, die nun weniger 

gemessen wurden. 

Somit lieferte die Verteilungsfunktion das höchstsignifikante Ergebnis P (X ≥ 104) ≈ 

0, 00000. Die Wahrscheinlichkeit, bei n = 130 Fehlerzahländerungen mindestens k = 104 

Fehlerzahlzunahmen zu finden, ist praktisch null. Zweifelsohne verringert der Verzicht auf 

Inversionen also die Übersetzungsschwierigkeiten, so dass dieses Textmerkmal ebenfalls 

in den Index aufzunehmen ist. 


Während der Korrektur der jeweils mit Babel Fish und Personal Translator 2006 vorgenommenen 

Übersetzungen fielen im direkten Vergleich beider Programme im wesentlichen 

zwei Punkte auf, die hier erwähnt werden sollen. 

1. Beide Programme verhielten sich bei den untersuchten Textmerkmalen weitgehend 

gleich, das heißt, die Zahl der von ihnen in der Übersetzung verursachten Fehler 

veränderte sich zwischen den Textkorpora mit einer Ausnahme in dieselbe Richtung 

(Zunahme oder Abnahme) und auch in etwa in derselben Stärke (hierbei gab es 

allerdings zwei Ausnahmen). 

2. In allen Testreihen und Textkorpora verursachte Babel Fish zum Teil deutlich mehr 

Fehler als Personal Translator 2006 . 

Um eine Übersicht zu ermöglichen, stellt das Diagramm in Abbildung 5.11 die Fehlerzahlen 

für alle übersetzten Textkopora im Vergleich dar. 

Der Fall, dass die Fehlerzahlen beider Programme sich gegenläufig entwickeln, trat bei 

Ellipsen auf. Hier wiesen die mit Babel Fish übersetzten Sätze nach der Bearbeitung insgesamt 

acht Fehler weniger auf, während es bei Personal Translator 2006 drei Fehler mehr 

waren. Wegen der geringen Abweichung ist dem allerdings keine Bedeutung zuzumessen. 

Die beiden anderen Ausnahmen traten auf beim Ersetzen von Nominalklammern durch 

andere Konstruktionen und bei Steigerung der Satzlänge von mittellangen (16 - 30 Wörter) 

zu sehr langen (ab 31 Wörtern) Sätzen. Im ersten Fall zeigte Babel Fish eine wesentlich 

63


Abbildung 5.11.: Vergleich der Fehlerzahlen von Babel Fish (BF, blau) und Personal 

Translator 2006 (PT 2006, rot) für die einzelnen Textkorpora 

64


stärkere Abnahme der Fehlerzahl als Personal Translator 2006 . Im zweiten Fall war die 

Fehlerzunahme relativ gesehen bei Personal Translator 2006 wesentlich höher als bei 

Babel Fish. 

Der erste Punkt lässt also darauf schließen, dass die ausgewählten Merkmale nicht bloß für 

ein Programm, sondern ganz allgemein eine Schwierigkeit darstellen bzw. ganz allgemein 

keine Schwierigkeit bedeuten, weil andernfalls ein deutlich entgegengesetztes Verhalten 

beider Programme zu erwarten gewesen wäre. 

Abbildung 5.12.: Gesamtfehlerzahl von Babel Fish und Personal Translator 2006 

Zum zweiten Punkt ist zu sagen, dass die Unterschiede in den Fehlerzahlen zwischen den 

MÜ-Programmen bei demselben Korpus bisweilen nur wenige Prozent betragen, so dass 

sie durchaus auch zufällig zustande gekommen sein könnten. Der geringste Unterschied in 

den Fehlerzahlen kam bei beiden Textkorpora zu Nebensätzen zustande, wo Babel Fish 

gerundet nur 2, 5 Prozent mehr Fehler verursachte als Personal Translator 2006. 

Allerdings stehen dem die sehr großen Abweichungen in der Mehrzahl der übersetzten 

Korpora gegenüber, die eine Differenz von bis zu 149 Fehlern zugunsten von Personal 

Translator 2006 ergeben, sowie die Tatsache, dass Babel Fish in keinem der insgesamt 19 

Korpora das bessere Ergebnis liefert. 

Der größte prozentuale und absolute Unterschied entstand bei dem bearbeiteten Textkorpus 

zu Verbklammern. Hier wiesen die Babel-Fish-Übersetzungen insgesamt knapp 

43 Prozent Fehler mehr auf als die Personal-Translator-2006 -Übersetzungen. Betrachtet 

man die Summe aller Fehler, aggregiert über alle Korpora und gegliedert nach Programm, 

so ergibt sich folgendes Bild (vgl. Abbildung 5.12): 

Personal Translator 2006 verursachte insgesamt in allen Sätzen 6865 Fehler, Babel Fish 

dagegen bei gleicher Satz- und Wortanzahl 8154. Das sind immerhin knapp 19 Prozent 

mehr als Personal Translator 2006 . Diese Differenz, die hohe Anzahl der übersetzten Sätze 

und die durch die zahlreichen getesteten Merkmale hohe Varietät der Sätze erfordern 

zwingend den Schluss, dass Personal Translator 2006 zum jetzigen Zeitpunkt (Anfang 

2007) das bessere MÜ-Programm ist. 65

6. Zusammenführung der Kriterien in 

einem Index 

In den folgenden Abschnitten wird auf Grundlage der vorangegangenen Analyse ein Index 

erstellt, der die Übersetzbarkeit eines Textes anzeigt. Zudem wird der Index anhand von 

Beispielen aus den für die Analysen aufgestellten Textkopora überprüft. 

6.1. Erstellung des Übersetzbarkeitsindexes 

Nach der Untersuchung der Fehlerrelevanz der einzelnen Textmerkmale im vorigen Abschnitt 

bleiben von den neun ursprünglich ausgewählten noch insgesamt sieben Textmerkmale 

übrig, deren Auftreten die Übersetzungsqualität mindert. Aufsteigend aufgezählt 

von dem Merkmal mit der geringsten Verschlechterung aus sind dies (ohne Satzlänge): 

Relativsätze (statt Nebensätzen im Allgemeinen), abgetrennte Kompositionsglieder (statt 

Ellipsen im Allgemeinen), Verbklammern, Inversionen der Wortstellung, Mehrdeutigkeiten 

und Nominalklammern. Die Satzlänge ist zwar auch maßgeblich für die Fehlerzahl 

verantwortlich, lässt sich allerdings nicht in den Kanon der anderen Merkmale einreihen, 

weil dieses Merkmal jeden Satz zwingend begleitet und nicht entfernbar ist. 

Um die Zielsetzungen der Arbeit zu erfüllen, müssen zwei Maßzahlen angegeben werden: 

• die Übersetzbarkeit eines einzelnen Satzes und 

• die aggregierte Übersetzbarkeit eines ganzen Textes mit beliebig vielen Sätzen. 

Eine zentrale Frage dabei ist, wie der Index aussehen soll. Der Logos Translatability Index 

etwa setzt für die Übersetzbarkeit einen Maximalwert von sieben Punkten an und zieht 

dann je nach Textbeschaffenheit Punkte ab [Gda94]. Neben der Willkür dieser Festsetzung 

ist auch der gewählte Ausgangswert des Indexes von sieben Punkten nicht ohne Hintergrundwissen 

nachzuvollziehen. Hingegen ist der von Translatability Checker [JU01] und 

Translation Confidence Index [Ber99] benutzte Ausgangswert von 100 Punkten immer 

noch willkürlich, aber wesentlich einprägsamer, weil er einfach als Prozentwert gedeutet 

werden kann. Und je mehr negative Faktoren zusammenkommen, desto geringer wird der 

Wert. 

Ein Problem bei einer derartigen Vorgehensweise, die von einem Ausgangswert aus abnehmende 

Werte vergibt, ist aber, dass irgendwann 0 erreicht werden kann und negative 

Übersetzbarkeitsindizes wenig Sinn ergeben. Und kann man überhaupt sagen, dass ein 

Satz eine Übersetzbarkeit von 0 hat? Wie vergleicht man einen solchen Satz sinnvoll mit 

einem, der noch viel mehr abträgliche Merkmale aufweist, dem man aber dennoch keine 

geringere Übersetzbarkeit zuschreiben kann? 

Es scheint daher wesentlich hilfreicher, einen Index zu benutzen, der bei 0 beginnt und 

dann unbeschränkt Strafpunkte hinzufügen kann. Je höher dann der Wert dieses Indexes, 

66

6.1. Erstellung des Übersetzbarkeitsindexes 

desto geringer ist die Übersetzbarkeit bzw. desto höher das Fehlerrisiko, und sowohl Aussagekraft 

als auch Vergleichbarkeit von Sätzen sind jederzeit gegeben. Dieser Ansatz wird 

also nunmehr weiter verfolgt. 

6.1.1. Übersetzbarkeit von Texten 

Die Übersetzbarkeit eines ganzen Textes lässt sich beschreiben als der Mittelwert der 

Übersetzbarkeitswerte seiner einzelnen Sätze. Seien t der zu bewertende Text, n die Anzahl 

der Sätze, aus denen der Text besteht, und s i der i-te Satz im Text. Sei außerdem T S die 

Übersetzbarkeit eines einzelnen Satzes (T für engl. translatability). Dann gilt für die 

Übersetzbarkeit T T dieses Textes: 

T T (t) = 1 n · 

n∑ 

T S (s i ) 

i=1 

6.1.2. Übersetzbarkeit von Sätzen 

In den Index für die Übersetzbarkeit eines einzelnen Satzes muss das Vorkommen der 

verschiedenen relevanten Textmerkmale einfließen. Außerdem ist zu berücksichtigen, wie 

häufig ein Merkmal im Satz auftritt, da etwa drei Mehrdeutigkeiten in einem Satz mehr 

Fehler bei der Übersetzung nach sich ziehen als eine. Darüber hinaus stellt sich die Frage 

nach der Gewichtung der einzelnen Merkmale, da ihre Beseitigung in den Textkorpora teils 

erheblich unterschiedliche Auswirkungen hatte. Die Spanne der Abnahme der absoluten 

Fehlerzahl reicht von rund zwei bis gut 13 Prozent. Es wäre daher falsch, für alle Textmerkmale 

dieselbe Punktzahl anzurechnen. Die Gewichtung muss also die quantitativen 

Abstände zwischen den Merkmalen wiedergeben. 

Die folgende Tabelle zeigt im Überblick die verschiedenen Textmerkmale, die die Übersetzungsqualität 

beeinflussen, mit den Veränderungen der Fehlerzahlen, wenn das Vorkommen 

dieser Merkmale reduziert oder ganz entfernt wird, und den Abständen dazwischen. 

Als Punktwert bzw. Indexgewicht wird dabei jeweils der auf 0, 5 gerundete und halbier- 

Merkmal ∆ Fehler bei Entfernen Differenz zum Vorigen Gewicht 

Relativsätze -2,58% — 1,25 

abgetr. Kompositionsgl. -4,32% -1,74% 2,25 

Verbklammern -9,58% -5,26% 4,75 

Inversionen -9,73% -0,15% 4,75 

Mehrdeutigkeiten -11,72% -1,99% 5,75 

Nominalklammern -13,39% -1,67% 6,75 

Tabelle 6.1.: Auswirkungen der Textmerkmale im Vergleich 

te Betrag der Fehlerzahlveränderung aus Tabelle 6.1 benutzt. Die Halbierung erfolgt, 

damit die Werte nicht zu schnell zu groß werden. Damit ergeben sich für Relativsätze 

1, 25 und für abgetrennte Kompositionsglieder 2, 25, für Mehrdeutigkeit 5, 75 und für 

Nominalklammern 6, 75 Punkte als Gewichtung. Inversionen und Verbklammern werden 

zusammengefasst bei einem Wert von 4, 75 Punkten. 

67

6. Zusammenführung der Kriterien in einem Index 

Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt 

statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert 

zuordnet, wobei der Wert zu den anderen hinzugefügt wird. 

Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die 

Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit 

des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die 

Länge des Satzes s seien, gilt dann: 

T S (s) = f L (L(s)) + 

n∑ 

g i · m i 

i=1 

Oder mit den explizit eingesetzten Gewichten für die Merkmale: 

T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk 

Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv 

die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der 

Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten 

Kompositionsglieder. 

6.1.3. Bewertung der Satzlänge 

Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung 

in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro 

Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als 

bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro 

Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische 

Darstellung des Zusammenhangs von durchschnittlicher Satzlänge (horizontale Achse) 

und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung 

des Einflusses der Satzlänge gemessen worden waren. 

Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um 

eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete 

der Autor verschiedene dekadisch logarithmische Funktionen der Form 

f L (L(s)) = a · lg(b · L(s) c + d), 

wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b, 

c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate, 

also die Quadrate der Abweichungen der Funktionswerte von den empirisch gemessenen 

Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag von lediglich 

2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei 

großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den 

Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen 

Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet 

also bei gegebener Länge: 

∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1) 

68

6.2. Überprüfung des Übersetzbarkeitsindexes 

Abbildung 6.1.: Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort (mit eingefügter 

gestrichelter Trendlinie zwischen den empirisch gemessenen Werten) 


Von zentraler Bedeutung für die Güte des Indexes ist, dass seine Werte die Fehleranfälligkeit 

eines gegebenen Satzes passend widerspiegeln. Um sicherzustellen, dass der Index 

sinnvolle Bewertungen vornimmt, an denen man die Richtung, in die die Übersetzungsqualität 

eines gegebenen Satzes gehen wird, korrekt voraussehen kann, ist also ein Test 

der Übersetzbarkeitsfunktion auf Satzebene erforderlich1 . Gleichzeitig diente dieser Test 

auch dazu zu erkennen, wie hoch die vom Index errechneten Werte bei welchen erwarteten 

Fehlerzahlen ausfallen; dies lässt sich allein aus der Definition der Gleichungen nicht 

ablesen. 

Für die Überprüfung wurden aus dem Korpus mit kurzen Sätzen und bei allen anderen 

Textmerkmalen aus den Korpora mit Originalsätzen die ersten 15 Sätze herausgenommen 

und vom Übersetzbarkeitsindex bewertet. Insgesamt wurde die Funktion also an 135 

verschiedenen Sätzen getestet. Damit konkrete Werte für die einzelnen Sätze berechnet 

werden konnten, wurde für jeden einzelnen Buch geführt, wie oft die relevanten Textmerkmale 

darin auftraten. Am häufigsten kamen Mehrdeutigkeiten vor (168), am seltensten 

abgetrennte Kompositionsglieder (16). Zu den Mehrdeutigkeiten ist außerdem zu sagen, 

dass wie im zugehörigen Textkorpus nur lexikalische Mehrdeutigkeiten, also Wörter mit 

verschiedenen Bedeutungen in der Zielsprache, gezählt wurden. Es zeigte sich eine große 

Bandbreite von Indexwerten für die Übersetzbarkeit, die von etwa zwölf bis hin zu gut 70 

Punkten reichte. 

Die Qualität des Indexes kann durch einen linear-proportionalen Zusammenhang zwischen 

der absoluten Fehlerzahl pro Satz und der Höhe des Indexwertes gezeigt werden, indem 

die Indexwerte sich – abzüglich einer Konstante – prozentual ähnlich stark verändern wie 

1 Werden die einzelnen Sätze überwiegend richtig bewertet, so gilt dies aufgrund der Beschaffenheit der 

Übersetzbarkeitsfunktion für Texte aus beliebig vielen Sätzen dann auch für den ganzen Text. 

69

6. Zusammenführung der Kriterien in einem Index 

die Fehlerzahlen pro Satz. Die Fehlerzahl pro Wort ist hier als Variable nicht relevant, weil 

ein kurzer Satz, dem genau dieselbe Übersetzbarkeit zugeordnet wird wie einem längeren, 

bei gleicher Anzahl tatsächlicher Fehler eine viel höhere Fehlerzahl pro Wort aufweist. Die 

Vergleichbarkeit ist somit nicht gegeben. 

Die 135 Sätze wurden also auf eine Korrelation zwischen Fehlerzahl und Indexwert hin 

untersucht. Zu diesem Zweck wurden die Indexwerte der Sätze in sieben Intervalle eingeteilt. 

Fünf dieser Intervalle umfassten fünf Punkte, nämlich 20 bis 25, weiter bis 30, bis 

35, bis 40 und bis 45 Punkte. Die Werte kleiner als 20 und größer gleich 45 bildeten jeweils 

eigene Intervalle. Den Intervallen wurden nun die zugehörigen aggregierten Fehlerzahlen 

zugeordnet und durch die Anzahl der Sätze im jeweiligen Bereich geteilt, so dass sich 

durchschnittliche Fehlerzahlen pro Satz ergaben, die von 2, 35 Fehlern bei Indexwerten 

unter 20 Punkten bis zu 6, 63 Fehlern pro Satz bei 45 und mehr Indexpunkten reichen. 

Die exakten Ergebnisse sind in Tabelle 6.2 aufgeführt. 

Wertebereich Indexwerte Anzahl Sätze Anzahl Fehler ∅ Fehler pro Satz 

1 0-20 17 40,0 2,35 

2 20-25 33 101,5 3,08 

3 25-30 26 77,0 2,96 

4 30-35 22 86,5 3,93 

5 35-40 14 71,0 5,07 

6 40-45 11 65,0 5,91 

7 ≥45 12 79,5 6,63 

Tabelle 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz 

Die Werteintervalle des Indexes in der zweiten Spalte inkludieren dabei jeweils den unteren 

Grenzwert und schließen den oberen aus. Die Fehlerzahl in der vierten Spalte ist der 

Mittelwert der Summe der Fehler, die Personal Translator 2006 und Babel Fish bei der 

Übersetzung der Sätze, die in den jeweiligen Indexbereich fallen, verursacht haben. 

Abbildung 6.2.: Zusammenhang zwischen Indexwert und Fehlerzahl pro Satz 

70


Wie man erkennt, nimmt die Fehlerhäufigkeit bei steigenden Indexwerten zu. Es gibt zwar 

im dritten Intervall den Fall, dass die Fehlerzahl leicht geringer ist als im vorherigen Intervall, 

jedoch ist dieser Ausreißer nach unten nur sehr klein. Grafisch dargestellt ist das Ergebnis 

in Abbildung 6.2. Eine lineare Abhängigkeit lässt sich anhand des Verlaufs der Fehlerzahl 

bereits erahnen. Dementsprechend wurde zusätzlich eine lineare Regression auf den 

vorhandenen Werten durchgeführt, deren Gerade ebenfalls in der Abbildung eingezeichnet 

ist. Ihre Gleichung lautet auf drei Nachkommastellen gerundet y = 0, 736 · x + 1, 334. Die 

Variable x bezeichnet darin die von eins bis sieben durchnummerierten Wertebereiche, 

y die Fehlerzahl pro Satz. So ergibt sich etwa auf der Regressionsgeraden für das dritte 

Intervall ein Wert von 0, 736 · 3 + 1, 334 = 3, 542 Fehlern pro Satz. 

Das Bestimmtheitsmaß der Geraden beträgt R 2 ≈ 0, 96, was einen unerwartet hohen 

Wert und einen nahezu perfekten linearen Zusammenhang zwischen Indexintervallen und 

absoluter Fehlerzahl darstellt. Es besteht demnach kein Anlass, die Gewichte der in den 

Index einfließenden Textmerkmale oder die Satzlängenbewertung anzupassen. Die Übersetzbarkeitsfunktion 

wird daher unverändert in das zu erstellende Bewertungsprogramm 

übernommen. 

71

Teil III. 

MT Analyser: Automatische Messung 

der maschinellen Übersetzbarkeit 

72

7. Modellierung von MT Analyser 

Nachdem die theoretische Vorarbeit abgeschlossen ist, kann mit der Erstellung des Programms 

zur automatischen Bewertung der Übersetzbarkeit eines deutschsprachigen Textes 

ins Englische begonnen werden. Das Programm wird MT Analyser heißen (Logo siehe 

Abbildung 7.1), wobei MT für machine translatability steht und der Name wohl keiner 

weiteren Erklärung bedarf. 

Die folgenden Abschnitte erklären detailliert die Anforderungen an das Programm, seinen 

Entwurf sowie die zur Verfügung stehenden Hilfsmittel und Werkzeuge. 

Abbildung 7.1.: Logo von MT Analyser (Startbildschirm des Programms) 

7.1. Systemabgrenzung 

Was soll MT Analyser sein und was nicht? 

MT Analyser ist gedacht als Hilfsprogramm für Menschen, die - aus welchen Gründen 

auch immer - kürzere oder längere Texte aus dem Deutschen ins Englische übersetzen 

wollen oder müssen und sich dabei maschineller Übersetzungsprogramme bedienen, um 

ihre Arbeit effizienter zu gestalten. Durch MT Analyser sollen sie Hinweise erhalten, wie 

sie ihre Texte in der Ausgangssprache überarbeiten können, damit die Fehlerrate und 

somit der Aufwand für die Nachbearbeitung der maschinellen Übersetzungen möglichst 

gering bleibt. 

Das Programm richtet sich vorwiegend an einzelne Personen mit normalen Kenntnissen 

im Umgang mit Computern und Software. Ausreichendes Vorwissen über die deutsche 

Grammatik wird vorausgesetzt, das heißt, es wird erwartet, dass Benutzer mit den entsprechenden 

Fachbegriffen vertraut sind oder diese in einem Fachbuch nachschlagen, z. B. 

[BEFH + 05]. 

73


Insbesondere ist MT Analyser kein Programm, das bewertet, wie gut ein Mensch einen 

Text übersetzen kann! Hierfür hätten im Vorfeld andere Untersuchungen durchgeführt 

und andere Kriterien zugrundegelegt werden müssen. 

Außerdem soll MT Analyser kein Aufsatz für ein bereits existierendes Übersetzungsprogramm 

sein, sondern als unabhängiges und alleinstehendes Programm Texte hinsichtlich 

ihrer Übersetzbarkeit allgemeingültig analysieren, ohne auf die Stärken oder Schwächen 

eines bestimmten MÜ-Programms ausgerichtet zu sein. Dabei ist natürlich nicht auszuschließen, 

dass es eines Tages für ein Programm optimiert wird. 

Schließlich soll MT Analyser auch keine kontrollierte Sprache sein (vgl. Abschnitt 3.1). Es 

werden keine Regeln für den Sprachgebrauch vorgeschrieben, sondern lediglich Hinweise 

erteilt, an die die Verfasser zu übersetzender Texte sich halten können, aber nicht müssen. 

7.2. Anforderungen an MT Analyser 

Das Hauptziel der Entwicklung von MT Analyser lässt sich mit einem Satz so formulieren: 

Das Programm muss in der Lage sein, den in dieser Arbeit erstellten Übersetzbarkeitsindex 

mit seinen gewichteten Textmerkmalen auf einen deutschsprachigen 

Text beliebiger Länge anzuwenden und ein ausführliches Ergebnis 

der Bewertung der Übersetzbarkeit dieses Textes zu erzeugen. 

Um dies zu erreichen, muss eine Reihe von funktionalen Anforderungen erfüllt werden. Sie 

ergeben sich vor allem aus Abschnitt 7.1 und aus der Tatsache, dass der Wortlaut eines 

Textes allein nicht ausreicht, um seine Eigenschaften zu erkennen. Im einzelnen sind dies: 

• Die einzelnen Sätze innerhalb eines Textes müssen möglichst präzise erkannt werden. 

• Zu den einzelnen Sätzen müssen weitere Informationen beschafft werden. Es ist 

unverzichtbar zu wissen, welche Grundform zu einem Wort eines Satzes gehört und 

zu welcher Wortart es zählt. Die Grundform wird beispielsweise zum Auffinden 

von Mehrdeutigkeiten benötigt, die Wortart zum Erkennen von Verben, die für eine 

Verbklammer infrage kommen. Weil diese Informationen nicht ohne weiteres erlangt 

werden können, liegt der Einsatz eines bereits vorhandenen Programms nahe, das 

diese Aufgabe übernimmt und in MT Analyser eingebunden wird. 

• Jeder Satz muss korrekt in seine Teilsätze zerlegt werden, um sinnvoll nach Textmerkmalen 

suchen zu können. Nominal- und Verbklammern beispielsweise können 

nur zuverlässig erkannt werden, wenn klar ist, welche Wörter des Satzes zu einem 

Teilsatz (z. B. Hauptsatz, Konzessivsatz, Finalsatz etc.) zusammengehören und somit 

die Teile der Klammer bilden können. 

• Die verschiedenen Textmerkmale müssen unter Ausnutzung der vorhandenen Informationen 

mit möglichst hoher Genauigkeit erkannt werden. Hierfür sind geeignete 

Algorithmen zu schreiben, die jeden Satz/Teilsatz durchsuchen. 

• Der Wert des Übersetzbarkeitsindexes muss sowohl auf Text- als auch auf Satzebene 

berechnet werden, nachdem alle Textmerkmale gefunden worden sind. 

74

7.3. Zur Verfügung stehende Hilfsmittel 

• Um Mehrdeutigkeiten sinnvoll behandeln zu können, muss ein editierbares Wörterbuch 

implementiert werden, das eine beliebige Anzahl mehrdeutiger Begriffe sowie 

deren verschiedene Bedeutungen persistent speichert. 

• Das Ergebnis der Bewertung muss in schriftlicher digitaler Form persistent gespeichert 

werden, um eine Nachbearbeiteung des zugrundeliegenden Textes zu ermöglichen. 

Dazu zählt auch, dass alle Übersetzungsschwierigkeiten sowie weitere wichtige 

textbezogene Parameter angezeigt werden. 

• MT Analyser muss sowohl mit einer grafischen Oberfläche als auch in einer textbasierten 

Kommandozeile ausgeführt werden können, um den verschiedenen Benutzungsvorlieben 

gerecht zu werden, wobei sämtliche Funktionen in beiden Oberflächen 

verfügbar sein müssen. 

• MT Analyser muss außerdem sowohl auf Windows- als auch auf Linux- und Solaris- 

Systemen lauffähig sein. 

• Sämtliche für die Übersetzbarkeit relevanten Parameter müssen konfigurierbar sein, 

um bei Bedarf Anpassungsmöglichkeiten zu bieten. Das betrifft insbesondere die zu 

bewertenden Textmerkmale sowie deren Gewichtung im Index. 

• Fehler sind mittels einer geeigneten Fehlerbehandlung abzufangen und ausführlich 

zu berichten, wobei die Ausführung von MT Analyser nach Möglichkeit nicht abgebrochen 

werden soll. 

• Zusätzlich soll eine Demoversion in Form einer Webanwendung erstellt werden, die 

allen Internetnutzern die Möglichkeit gibt, die wesentlichen Funktionen von MT 

Analyser auszuprobrieren und sich über das Programm und die dahinterstehende 

Arbeit zu informieren. 

Darüber hinaus sind noch einige nicht-funktionale Anforderungen zu erfüllen. Sie ergeben 

sich unter anderem aus Abschnitt 7.1. 

• Das Programm muss prinzipiell einfach zu bedienen sein und bei Bedarf Hilfestellung 

anbieten. 

• Die Ergebnisse der Übersetzbarkeitsbewertung müssen bei Vorkenntnissen der deutschen 

Grammatik verständlich und nachvollziehbar sein. 

• MT Analyser muss auf PCs und Workstations mit gängiger Hardwareausstattung 

funktionieren. 

• Die Laufzeit für die Analyse der Übersetzbarkeit muss sich in einem angemessenen 

Rahmen (einige Sekunden für ein Textkorpus mit 100 Sätzen) halten. 

7.3. Zur Verfügung stehende Hilfsmittel 

7.3.1. Java und Swing 

Als Programmiersprache wird Java von Sun Microsystems gewählt. Der Hauptgrund 

hierfür ist die Plattformunabhängigkeit, weil MT Analyser sowohl auf Windows- als auch 

75


auf Solaris- und Linux-basierten Rechnern arbeiten soll. Mit anderen, plattformgebundenen 

Programmiersprachen wie C# wäre dies nicht oder nur mit aufwändigen Anpassungen, 

die verschiedene Versionen erfordern, möglich. 

Für die grafische Oberfläche wird das in Java enthaltene Grafikpaket Swing benutzt. 

Die ebenfalls frei verfügbaren Oberflächen AWT (Abstract Window Toolkit) von Sun und 

SWT (Standard Widget Toolkit) von IBM werden nicht eingesetzt. AWT bietet keine 

einheitliche Darstellung grafischer Elemente auf verschiedenen Betriebssystemen, während 

SWT nicht plattformunabhängig ist. 

7.3.2. Tagging-Richtlinien 

Um einen Text mit Informationen über die Wortarten der einzelnen Wörter anzureichern, 

werden so genannte Tags benutzt. An den Universitäten Tübingen und Stuttgart wurde 

zwecks Vereinheitlichung des Taggings deutschsprachiger Textkorpora das Stuttgart- 

Tübingen-Tagset (STTS) definiert [SSTT99], das festlegt, unter welchen Bedingungen 

einem Wort ein bestimmtes Tag zugewiesen wird. 

Das STTS geht dabei von insgesamt elf Hauptwortarten aus, die wiederum feiner unterteilt 

werden. Zum Beispiel gibt es nicht nur einen Tag für die Wortart Verb, sondern 

unterschiedliche Tags für Modal-, Hilfs- und Vollverben. Die Anzahl aller verschiedenen 

Tags beträgt 54, wobei 48 auf die verschiedenen Wortarten entfallen, während die restlichen 

sechs für Fälle benutzt werden, in denen eine Zuordnung nach herkömmlichem 

Muster nicht möglich ist, etwa bei abgetrennten Kompositionsgliedern. 

Allerdings enthält das STTS keine detaillierteren grammatikalischen Informationen zur 

Flexion von Worten, so dass man zwar etwa erkennen kann, dass an einer bestimmten 

Stelle ein finites Hilfsverb vorliegt, aber eben nicht, in welcher Person, welchem Modus, 

welchem Genus verbi, welchem Tempus und welchem Numerus es steht. Entsprechendes 

gilt für die Deklination von Nomen und die Komparation von Adjektiven und Adverbien. 

Die Möglichkeiten zur syntaktischen Analyse sind somit also eingeschränkt. 

Wenn im weiteren Verlauf von bestimmten Tags gesprochen wird, mit denen Wörter eines 

zu bewertenden Textes versehen werden oder wurden, so bezieht sich die Angabe der Tags 

immer auf das STTS. 

7.3.3. TreeTagger 

Weil die Identifizierung der Grundformen, der Wortarten sowie der Satzfunktion der einzelnen 

Wörter des Textes unerlässlich, aber nicht im Rahmen dieser Arbeit mit eigenen 

Programmen zu bewältigen ist, wird ein so genannter Part-of-Speech-Tagger benötigt, der 

diese Aufgabe übernimmt. Um eine gründliche Analyse der Satzstruktur durchzuführen, 

die den Anforderungen an die Suche nach den verschiedenen Textmerkmalen gerecht wird, 

kommt TreeTagger 1 zum Einsatz (siehe [Sch94]), der von Helmut Schmid an der Universität 

Stuttgart entwickelt wurde. 

Dieser Tagger ist in der Lage, gemäß STTS (siehe Abschnitt 7.3.2), den einzelnen Wörtern 

Tags zuzuweisen, die deren Funktion im Satz auf einer sehr detaillierten Wortartebene 

beschreiben. Darüber hinaus ermittelt TreeTagger auch die Grundform, sofern das Wort 

bekannt ist. 

1 Im Internet verfügbar unter: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ 

DecisionTreeTagger.html, zuletzt besucht am 3. April 2007 

76

7.4. Modellierung wesentlicher Programmteile 

TreeTagger zeichnet sich dadurch aus, dass er auf allen Betriebssystemen, für die auch 

MT Analyser vorgesehen ist, arbeiten kann. Ihm zugrunde liegt ein wahrscheinlichkeitstheoretisches, 

auf Entscheidungsbäumen basierendes Modell, dessen Parameter sich über 

manuell getaggte Textkorpora trainieren lassen [Sch94]. 

TreeTagger arbeitet insgesamt sehr zuverlässig mit einer durchschnittlichen Fehlerquote 

von 2, 5 bis 5 Prozent je nach Version und zum Testen benutztem Textkorpus (vgl. [Sch95] 

und [SV98]). In einem Vergleich mit dem von Jongejan und Underwood [JU01] im Translatability 

Checker bei der Bewertung der Übersetzbarkeit verwendeten (regelbasierten) 

Brill-Tagger schneidet TreeTagger leicht besser ab (vgl. [SV98]). 

Trotz der relativ geringen Fehlerzahlen bleibt festzuhalten, dass immerhin jedes 20. bis 40. 

von TreeTagger zugewiesene Tag falsch und in Konsequenz die Erkennung von Textmerkmalen 

im betroffenen Satz bei Zugriff auf diese Tags beeinträchtigt ist. Ferner beschränken 

die vergebenen Tags wegen der Benutzung des STTS die Analysemöglichkeiten von MT 

Analyser im Nachfeld der Ausführung von TreeTagger (siehe Abschnitt 7.3.2). 


7.4.1. Komponenten von MT Analyser 

Es bietet sich an, das Programm MT Analyser zwecks besserer Strukturierung auf verschiedene 

kleinere Komponenten (in Java: Pakete) zu verteilen, die jeweils eine zusammengehörende 

Sammlung von Funktionen kapseln. Bedenkt man, dass als zentrale Funktionen 

die Einbindung von TreeTagger, die Bewertung der Übersetzbarkeit des ausgewählten 

Textes, die grafische sowie die textuelle Oberfläche, der Übersetzbarkeitsreport und die 

Verwaltung des Mehrdeutigkeitslexikons zu implementierten sind, erweist sich der folgende 

Programmaufbau in Paketen als sinnvoll: 

• Paket mtanalyser: Klassen zum Programmstart und zur übergeordneten Ablaufsteuerung 

• Paket mtanalyser.core: Klassen zur Speicherung der textbezogenen Daten und zur 

Bewertung der Übersetzbarkeit (vgl. 7.4.2) 

• Paket mtanalyser.reporting: Klassen zur Erstellung des Übersetzbarkeitsreports 

• Paket mtanalyser.lexicon: Klassen für das Mehrdeutigkeitslexikon 

• Paket mtanalyser.tagger: Klassen zur Datenaufbereitung für TreeTagger 

• Paket mtanalyser.gui: Klassen für die grafische Oberfläche 

• Paket mtanalyser.console: Klassen für die textuelle Oberfläche 

• Paket mtanalyser.exceptions: Klassen zur Ausnahmebehandlung 

7.4.2. Datenhaltung und Datenbearbeitung im Programmkern 

Die datentechnische Grundlage des Programms lässt sich wie folgt modellieren: Ein Text 

soll bewertet werden. Dieser Text besteht aus vielen verschiedenen, aber mindestens einem 

77


Satz, für den ebenfalls eine Wertung zu erstellen ist. Darüber hinaus besteht jeder Satz 

aus einem oder mehreren Teilsätzen, die benötigt werden, um die Textmerkmale darin 

zu suchen. Gleichzeitig ist einem Satz eine unbestimmte Anzahl größer oder gleich null 

von Übersetzungsschwierigkeiten zugeordnet, die sich aus den gefundenen Textmerkmalen 

ergeben. 

Daraus lassen sich vier Klassen ableiten: Text für den kompletten Text, Sentence für einen 

einzelnen Satz aus dem Text, PartialSentence für einen Teilsatz eines Satzes und TranslationDifficulty 

für eine Übersetzungsschwierigkeit. Hinzu kommt noch eine fünfte Klasse 

namens TextStatistics, die von der Klasse Text benutzt wird, um wichtige statistische 

Kennzahlen zu speichern. 

Zusätzlich müssen auf Basis dieser Datenhaltungsklassen alle wichtigen Berechnungen 

zur Bewertung der Übersetzbarkeit durchgeführt werden, wofür sich zwei weitere Klassen 

anbieten - je eine zur Berechnung auf Satz- und Textebene. Dies sind SentenceAnalyser zur 

Analyse eines einzelnen Satzes und TextAnalyser zur Analyse des gesamten Textes. Das 

Zusammenspiel zwischen den Klassen lässt sich dem UML-Klassendiagramm in Abbildung 

7.2 entnehmen. 

Klasse Text 

Die Klasse Text ist die oberste Klasse und kapselt einen kompletten Text. Sie besteht im 

wesentlichen aus einem Array mit mindestens einem Satz, gespeichert als Objekte vom 

Typ Sentence. Hinzu kommt eine Instanz vom Typ TextStatistics, in der die zum Text 

gehörenden Kennzahlen wie die Anzahl der gefundenen Schwierigkeiten hinterlegt sind. 

Drei Attribute sind auch direkt in der Klasse zugänglich, unter anderem die wichtigste 

Kennzahl, der Übersetzbarkeitsindex des gesamten Textes. 

Klasse Sentence 

Eine Instanz der Klasse Sentence repräsentiert einen Satz aus einem größeren Text und 

speichert über den eigentlichen Text hinaus weitere wichtige Parameter. Insbesondere 

gehören zu einem Satz auch die von TreeTagger vergebenen Tags und die jeweiligen 

Grundformen der Wörter. Sie werden wie auch die einzelnen Wörter in Arrays von jeweils 

identischer Größe gespeichert. Eine Darstellung des ursprünglichen Satzes als ein String 

ist ebenfalls verfügbar. Darüber hinaus sind in jedem Satz auch die einzelnen Teilsätze 

sowie die gefundenen Übersetzungsschwierigkeiten gespeichert. Jeder Satz hat mindestens 

einen Teilsatz, aber nicht unbedingt eine Übersetzungsschwierigkeit. Der Übersetzbarkeitsindex 

des Satzes sowie die Länge in Wörtern mit und ohne Satzzeichen können ebenfalls 

abgerufen werden. 

Klasse PartialSentence 

Die Klasse PartialSentence kapselt einen Teilsatz, der aus einem ganzen Satz extrahiert 

wurde. Die zugehörigen Wörter, Tags und Grundformen werden wie in der Klasse Sentence 

in gleichgroßen Arrays abgelegt. Ein Objekt der Klasse PartialSentence kann sowohl ein 

atomarer Teilsatz als auch ein aus mehreren Teilsätzen zusammengesetztes Aggregat sein. 

Der Parameter attached gibt dabei an, ob ein Teilsatz bereits einem anderen angegliedert 

wurde. Ist er auf falsch gesetzt, so steht der aktuelle Teilsatz für die Angliederung anderer 

Teilsätze bereit. Das Zusammenfügen zweier Teilsätze übernimmt die Methode attach. 

78


Abbildung 7.2.: Modellierung der zentralen Klassen zur Textbewertung 

79


Darüber hinaus wird gespeichert, wo der Teilsatz im gesamten Satz sich erstreckt (Attribute 

startPos und endPos) und an welchen Stellen er von einem anderen Teilsatz 

unterbrochen bzw. wieder aufgenommen wurde (Vektoren discontinuations und continuations). 

Außerdem wird im Attribut order eine Ordnungszahl gespeichert, die die Ebene 

in der Satzhierarchie angibt, auf der sich der Satz befindet (mehr dazu siehe Abschnitt 

8.2.3). Die übrigen Attribute beinhalten weitere Informationen zu der Art des Teilsatzes 

und werden in Abschnitt 8.2.2 erläutert. 

Klasse TranslationDifficulty 

Die Klasse TranslationDifficulty repräsentiert alle Arten von Übersetzungsschwierigkeiten, 

die entstehen, wenn ein bestimmtes Textmerkmal auftritt. Es wäre natürlich auch möglich 

gewesen, für jedes relevante Textmerkmal eine eigene Klasse zu entwerfen, jedoch ähneln 

sich alle Textmerkmale in ihren Attributen (alle haben Indexwerte, eine Nachricht für 

die Autoren etc.) sehr stark. Der einzige wesentliche Unterschied liegt in ihrer Länge: So 

bezieht sich eine Mehrdeutigkeit immer nur auf genau ein Wort, während ein Relativsatz 

einen ganzen Nebensatz umfasst. Gerade auch im Hinblick auf die Implementierung und 

eine mögliche Erweiterung der Analyse um neue Textmerkmale ist diese Vereinheitlichung 

sehr komfortabel. 

In einer Instanz des Typs TranslationDifficulty werden sämtliche Attribute mit den zugehörigen 

Werten gespeichert, die eine Übersetzungsschwierigkeit ausmachen. Dies sind 

im einzelnen: 

• Start- und Endposition der Übersetzungsschwierigkeit innerhalb des gesamten Satzes 

(Attribute startPos und endPos), 

• die aus Start- und Endposition abgeleitete Länge der Übersetzungsschwierigkeit 

(Attribut length), 

• der Typ der Übersetzungsschwierigkeit als Code (Attribut type) und als ausgeschriebener 

Name (Attribut name), 

• der Textausschnitt, der die Übersetzungsschwierigkeit widerspiegelt (Attribut words) 

sowie 

• eine Nachricht an die Autoren des bewerteten Textes (Attribut message). 

Klasse TextStatistics 

Um die Kennzahlen zu kapseln, die bei der Analyse eines Textes ermittelt werden, steht 

die Klasse TextStatistics zur Verfügung. Sie ermöglicht den Zugriff auf folgende Parameter, 

die den Text einstufen und hinter den entsprechenden englischnamigen Attributen 

verborgen sind: Übersetzbarkeitsindex des Textes, Satzanzahl, Wortanzahl, Zeichenanzahl 

(ohne Leerzeichen), Anzahl der Übersetzungsschwierigkeiten insgesamt, Anzahl der 

Inversionen, Anzahl der Mehrdeutigkeiten, Anzahl der abgetrennten Kompositionsglieder, 

Anzahl der Nominalklammern, Anzahl der Verbklammern, Anzahl der Relativsätze, minimaler 

und maximaler Übersetzbarkeitsindex eines Satzes sowie die Länge des kürzesten 

und längsten Satzes. 

80


Klasse TextAnalyser 

Eine Instanz der Klasse TextAnalyser dient dazu, den gesamten übergebenen Text zu 

bewerten und speichert dazu den errechneten Indexwert. Die Bewertung geschieht über 

die beiden Methoden analyseText() und calculateIndex(). Erstgenannte ruft für jeden 

einzelnen Satz alle Methoden auf, die nötig sind, um die Textmerkmale darin zu finden, 

zu bewerten und den Indexwert des Satzes zu berechnen. Dies erfolgt über die mit dem 

jeweiligen Satz verbundene Klasse SentenceAnalyser. 

Die Ergebnisse der Bewertung auf Satzebene werden dann in der Methode calculateIndex() 

aggregiert und der Gesamtindex des Textes berechnet. Über die Methode createStatistics() 

wird nach der Bewertung die dem gespeicherten Text-Objekt anhaftende TextStatistics- 

Instanz mit den Rahmeninformationen über den Text gefüllt. 

Den Ablauf der Textbewertung und das Zusammenspiel zwischen den Klassen TextAnalyser 

und SentenceAnalyser verdeutlicht das Sequenzdiagramm in Abbildung 7.3. 

Abbildung 7.3.: Sequenzdiagramm zur Darstellung des Ablaufs der Textbewertung für 

beliebig viele Sätze 

Klasse SentenceAnalyser 

Die Klasse SentenceAnalyser stellt die Analysemechanismen auf Satzebene bereit. Sie 

speichert einen einzelnen Satz und zerlegt ihn als erstes in seine Haupt- und Nebensätze, 

wozu die Methoden findPartialSentences(), categorizePartialSentences(), orderPartialSentences() 

und rejoinPartialSentences() dienen. Diese werden in Abschnitt 8.2 näher vorgestellt. 

Für die Suche nach den verschiedenen Arten von Textmerkmalen werden die übrigen 

Methoden der Form find〈X〉(), die in Abschnitt 8.3 detailliert beschrieben werden, von 

81


findTranslationDifficulties() aufgerufen. Dabei können die Gewichte der einzelnen Textmerkmale 

satzweise über die verschiedenen 〈X〉W eight-Attribute gesteuert werden. Ebenso 

kann durch Setzen der booleschen Attribute der Gestalt check〈X〉 bestimmt werden, 

welche Textmerkmale gesucht und bewertet werden sollen. 

Ein Aufruf der Methode findTranslationDifficulties() beginnt mit dem Ausführen der Methoden 

zur Satzzerlegung und durchsucht anschließend die so erhaltenen Teilsätze nach 

den ausgewählten Übersetzungsschwierigkeiten, die als Vektor im zugrundeliegenden Sentence-Objekt 

gespeichert werden. Im Anschluss an die Suche wird über die Methode calculateIndex() 

der Übersetzbarkeitsindex des aktuellen Satzes berechnet. 

7.4.3. Modellierung des Mehrdeutigkeitslexikons 

Ein Mehrdeutigkeitslexikon ist unverzichtbar, um eine Datenbasis zu haben, anhand derer 

Mehrdeutigkeiten im zu bewertenden Text gefunden werden können. Hier gibt es im 

wesentlichen zwei Möglichkeiten zur Datenspeicherung: in einer Datenbank oder in einer 

Datei. Weil eine Datenbank erst aufwändig von den Benutzern eingerichtet werden 

müsste und für ein Lexikon, das im Höchstfall einige tausend Einträge enthalten dürfte, 

überdimensioniert erscheint, fällt die Entscheidung auf eine Lexikondatei. Als Dateiformat 

wird XML gewählt, weil Java für die Bearbeitung von XML-Dateien im Paket javax.xml 

und den untergeordneten Paketen zahlreiche Hilfen bereitstellt. Zur Implementierung des 

Mehrdeutigkeitslexikons sind außer einer Lexikondatei nur noch drei weitere Klassen erforderlich, 

die in Abbildung 7.4 zu sehen sind. 

Klasse LexiconEntry 

Die Klasse LexiconEntry kapselt einen Lexikoneintrag und enthält dazu zwei Attribute: 

• basicForm: Die Grundform des mehrdeutigen Wortes. 

• pairsOfMeanings: Enthält Paare zueinandergehörender Bedeutungen in Deutsch und 

Englisch. Es müssen mindestens zwei Paare vorhanden sein, weil der Begriff sonst 

nicht mehrdeutig ist. 

Klasse PairOfMeanings 

Die Klasse PairOfMeanings kapselt ein Paar sich entsprechender Bedeutungen in Deutsch 

und Englisch. Als Attribute sind jeweils der deutsche und der englische Teil des Bedeutungspaares 

zu setzen. 

Lexikondatei lexicon.xml 

Zur Speicherung der Lexikoneinträge wird ein einfaches XML-Format definiert, das die 

LexiconEntry-Objekte abbildet und nach Buchstaben geordnet speichert. Die Ordnung 

nach Buchstaben (A - Z, Ä, Ö, Ü) erfolgt, damit die Suche nach einzelnen Einträgen 

effizienter gestaltet werden kann und ohne zusätzlichen Aufwand eine sortierte Anzeige in 

der Benutzungsoberfläche möglich ist. 

Das Lexikon besteht aus den verschiedenen Buchstaben des Alphabets. Jedem Buchstaben 

können beliebig viele Einträge zugeordnet werden, deren Grundform im XML-Attribut 

82


Abbildung 7.4.: Modellierung des Mehrdeutigkeitslexikons 

name gespeichert wird. Jeder Eintrag wiederum muss Bedeutungspaare mit deutscher und 

englischer Bedeutung aufweisen. 

Die zugehörige DTD sieht wie folgt aus: 

 

 

 

 

 

 

 

83


Klasse LexiconHandler 

Über die Klasse LexiconHandler wird der Zugriff auf das Mehrdeutigkeitslexikon realisiert. 

Der gesamte Inhalt des Lexikons ist über das Attribut lexicon als XML-Dokument 

gespeichert. Mehrere synchronisierte und statische Methoden sorgen für das Hinzufügen, 

Auslesen und Entfernen von Einträgen. 

• initialiseLexicon(): Liest das Lexikon neu aus der zugehörigen Datei lexicon.xml aus. 

• getAllLexiconEntries(): Liefert sämtliche Lexikoneinträge als Objekte vom Typ LexiconEntry 

zurück. 

• findLexiconEntry(): Sucht anhand einer Grundform einen bestimmten Begriff und 

liefert ihn als LexiconEntry-Instanz zurück, sofern er existiert. 

• addLexiconEntry(): Fügt einen neuen Lexikoneintrag hinzu und speichert ihn in der 

Lexikondatei. 

• removeLexiconEntry(): Entfernt einen Lexikoneintrag mit einer bestimmten Grundform, 

sofern die Grundform vorhanden ist, und aktualisiert die Lexikondatei. 

84

8. Implementierung von MT Analyser 

8.1. Einbindung von TreeTagger 

8.1.1. Satzerkennung und Reformatierung des Textes 

TreeTagger verlangt, dass die zu taggenden Texte so formatiert sind, dass je ein Wort in 

einer Zeile steht. Zu diesem Zweck werden alle an MT Analyser übergebenen Textdateien 

zunächst mit Hilfe der Klasse Reformatter reformatiert und im neuen Format gespeichert. 

Zwar umfasst TreeTagger auch einen Algorithmus, der einen Text in die einzelnen Wörter 

und Satzzeichen zerlegt, jedoch zeigten sich hier bei der Erkennung gerade von Zahlen 

und Abkürzungen einige leicht zu behebende Fehleinteilungen. Weil zudem einige Zeichen 

in den Eingabedateien zwecks Vereinheitlichung der Zeichencodierung (es gibt u. a. verschiedene 

Versionen von Gedankenstrichen) durch andere ersetzt werden müssen, wurde 

ein eigener Algorithmus zur Reformatierung geschrieben, der jedes Wort bzw. Satzzeichen 

in eine eigene Zeile schreibt. 

Problematisch ist dabei vor allem der Umgang mit Punkten. Das Auftreten eines Punktes 

alleine ist für ein Satzende kein hinreichendes Kriterium, weil ein Punkt auch zu einer 

Abkürzung oder einer Ordinalzahl gehören kann. Über eine Liste mit über 300 gängigen 

Abkürzungen werden Punkte herausgefiltert, die kein Satzende markieren. Wörter aus 

nur einem Buchstaben, gefolgt von einem Punkt, werden ebenfalls als Abkürzungen betrachtet. 

Überdies werden Zahlen kleiner als 100 sowie kleine lateinische Zahlen, denen 

ein Punkt folgt, als Ordinalzahlen angesehen. Hier wäre sicherlich ein statistischer Ansatz 

exakter als eine starre Grenzziehung, allerdings steht kein Material zur Verfügung, anhand 

dessen sich ein Algorithmus mit höherer Genauigkeit schreiben ließe. In Tests traten 

durch diese willkürliche Einteilung jedoch nur sehr selten Fehler auf. 

8.1.2. Aufruf von TreeTagger 

Die reformatierte Datei wird gespeichert und als Parameter zusammen mit der Zieldatei an 

TreeTagger übergeben. TreeTagger verarbeitet dann die reformatierte Datei und speichert 

den getaggten Text in der Zieldatei. Dazu musste unter Windows die auszuführende Batch- 

Datei und in der Linux-/Solaris-Version von TreeTagger das auszuführende Shell-Skript 

leicht abgeändert werden. 

Der Aufruf aus MT Analyser erfolgt in der Methode execTreeTagger() in einem externen 

Prozess über die in Java enthaltene Klasse ProcessBuilder. Zu unterscheiden ist an 

dieser Stelle nach dem Betriebssystem, weil der Aufruf unter Windows anders funktioniert 

als unter Linux-/Solaris-Systemen. Der folgende Codeausschnitt zeigt den Aufruf 

von TreeTagger. 

if(os.equals(OS_WINDOWS)) { 

pb = new ProcessBuilder("cmd", "/c", path + "tag-german.bat", 

85


inputFile, outputFile); 

} else { 

pb = new ProcessBuilder(path + "tree-tagger-german", 

inputFile, outputFile); 

} 

Process p = null; 

try { 

p = pb.start(); 

} catch (IOException ex) { 

throw new TreeTaggerException("TreeTagger konnte " + 

"nicht gestartet werden:" + newline + ex.getMessage()); 

} 

8.1.3. Verarbeitung der Ausgabe von TreeTagger 

Im Anschluss an die Ausführung wird die getaggte Textdatei eingelesen und daraus ein 

Text-Objekt erzeugt, das mit den in der Datei gefundenen Sätzen, die jeweils ein Sentence- 

Objekt ergeben, befüllt wird. Das Einlesen erfolgt jeweils zeilenweise, so dass bei der i-ten 

Zeile der Datei die i-ten Elemente der Arrays words, tags und basicForms des jeweiligen 

Sentence-Objekts mit den in der Textdatei vorgefundenen Werten beschrieben werden. 

Sind alle Sätze ausgelesen, steht der Text zur weiteren Analyse bereit. 

8.2. Algorithmen zur Satzanalyse 

Die Satzanalyse, das heißt die korrekte Zerlegung eines kompletten Satzes in die einzelnen 

Haupt- und Nebensätze, ist die Grundlage zur Erkennung mehrerer Textmerkmale: der 

Verbklammern, der Relativsätze, der Nominalklammern und der Inversion der Wortstellung. 

Sie alle können nur zuverlässig ausgemacht werden, wenn bekannt ist, was der sie 

umgebende Teilsatz ist bzw. um was für einen Teilsatz es sich handelt. So gelten etwa für 

die Wortstellung in Nebensätzen andere Regeln als in Hauptsätzen. 

Die Satzanalyse erfolgt in insgesamt vier Schritten und wird wie auch die Suche nach 

Textmerkmalen von der Klasse SentenceAnalyser übernommen. Im ersten Schritt wird 

ein Satz in sämtliche vorhandenen atomaren Teilsätze (s. u.) zerlegt, anschließend werden 

diese atomaren Teilsätze mit Attributen versehen, die ihre Rolle im Satz näher beschreiben. 

Drittens wird eine hierarchische Ordnung über die atomaren Teilsätze gelegt, bevor 

versucht wird, atomare Teilsätze anhand der zuvor vorgenommenen Kategorisierung und 

Hierarchisierung wieder zu größeren, zusammengehörigen Einheiten, die komplette Nebenoder 

Hauptsätze darstellen, zusammenzufügen. 

8.2.1. Zerlegung in atomare Teilsätze 

Die Zerlegung ganzer Sätze in atomare Teilsätze erfolgt ausschließlich anhand der Interpunktion. 

Dazu dient die Methode findPartialSentences(). Als atomarer Teilsatz gilt jeder 

Teilsatz, der keine weiteren der folgenden Satzzeichen mehr enthält: runde, geschweifte 

und eckige Klammern, Gedankenstriche, Semikola, Kommata und Doppelpunkte. Die 

dabei gefundenen atomaren Teilsätze müssen nicht unbedingt vollständige Neben- oder 

Hauptsätze sein. 

86


Zunächst wird im gesamten Satz nach eingeklammerten Teilsätzen gesucht und anschließend 

nach Teilsätzen, die in Gedankenstrichen stehen. Beide stehen in der Hierarchie höher 

als Kommata, Semikola oder Doppelpunkte, die erst danach gesucht werden. Werden 

durch Klammern oder Gedankenstriche abgetrennte Teilsätze gefunden, wird innerhalb 

dieser Teilsätze rekursiv weitergesucht, und zwar wieder erst nach Teilsätzen in Klammern 

oder Gedankenstrichen und anschließend nach solchen, die durch die anderen Satzzeichen 

abgegrenzt werden, bis keine mehr gefunden werden. 

Insbesondere achtet der Algorithmus bei Teilsätzen in Klammern oder Gedankenstrichen 

darauf, dass diese in den weiteren Analyseschritten nicht mit Teilsätzen außerhalb derselben 

Klammern oder Gedankenstriche vermischt werden, weil dies falsche Hierarchisierungen 

oder Verknüpfungen von Teilsätzen nach sich ziehen könnte. So kann ein Teilsatz in 

einer Klammer niemals zu einem Teilsatz außerhalb dieser Klammer gehören. Abbildung 

8.1 zeigt für einen komplex strukturierten Satz schematisch, wie die rekursive Analyse 

abläuft. 

Abbildung 8.1.: Teilsatzzerlegung am Beispiel eines aus zwölf atomaren Teilsätzen bestehenden, 

mit Klammern und Gedankenstrichen versehenen Satzes 

Bei Klammern wird nicht überprüft, ob eine geöffnete Klammer jeweils von einer gleichartigen 

Klammer geschlossen wird, sondern nur, dass sie geschlossen wird. 

Folgende zwei Beispiele illustrieren die Zerlegung in atomare Teilsätze. Der Originalsatz 

Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung zusammen 

( ” 

tätliche Beleidigung“), so liegt häufig – aber nicht notwendig – eine Körperverletzung 

vor, die in Tateinheit zur Beleidigung steht. wird zerlegt in die Bestandteile: 

87


• Tritt die Beleidigung mit einer unmittelbar auf den Körper gerichteten Einwirkung 

zusammen 

• so liegt häufig eine Körperverletzung vor 

• die in Tateinheit zur Beleidigung steht 

• ” 

tätliche Beleidigung“ 

• aber nicht notwendig 

Der Satz Allgemein ordnet man dem Nordsommer die Monate Juni, Juli und August zu, 

dem Südsommer Dezember, Januar und Februar. gliedert sich nach der Zerlegung in die 

atomaren Teilsätze: 

• Allgemein ordnet man dem Nordsommer die Monate Juni 

• Juli und August zu 

• dem Südsommer Dezember 

• Januar und Februar 

8.2.2. Kategorisierung der atomaren Teilsätze 

Wenn alle atomaren Teilsätze gefunden sind, werden die Teilsätze in der Methode categorizePartialSentences() 

kategorisiert. Hierfür steht eine Reihe von booleschen Attributen 

zur Verfügung, im einzelnen: 

• finiteVerb: Zeigt an, ob der aktuelle Teilsatz mindestens ein finites Verb enthält oder 

nicht. 

• extendedInfiniteVerb: Zeigt an, ob der aktuelle Teilstz mindestens einen Infinitiv mit 

zu, der für jeden erweiterten Infinitiv benötigt wird, enthält oder nicht. 

• dependentClause: Zeigt an, ob der aktuelle Teilsatz der Anfang eines Nebensatzes 

ist oder nicht. 

• complementingDC: Zeigt an, ob der aktuelle Teilsatz das Komplement 1 eines Nebensatzes 

ist oder nicht. 

• needsComplementDC: Zeigt an, ob der aktuelle Teilsatz ein Nebensatzkomplement 

benötigt oder nicht. 

• infinitivePhrase: Zeigt an, ob der aktuelle Teilsatz der Anfang eines erweiterten 

Infinitivs ist oder nicht. 

• complementingIP: Zeigt an, ob der aktuelle Teilsatz das Komplement eines erweiterten 

Infinitivs ist oder nicht. 

1 Als Komplement eines Teilsatzes gilt jeder Teilsatz, der einen anderen Teilsatz ohne finites oder infinites 

Verb vervollständigt, indem er das benötigte Verb in sich trägt. 

88


• needsComplementIP: Zeigt an, ob der aktuelle Teilsatz ein Komplement eines erweiterten 

Infinitivs benötigt oder nicht. 

• complementingMC: Zeigt an, ob der aktuelle Teilsatz das Komplement eines Hauptsatzes 

sein kann oder nicht. 

• unbound: Zeigt an, ob der aktuelle Teilsatz keiner Kategorie zugeordnet werden kann 

und damit quasi als ungebunden gelten kann oder nicht. 

Um die Attribute setzen zu können, wird eine Reihe von Regeln angewandt, während die 

verschiedenen Teilsätze jeweils wortweise durchlaufen werden, wobei sich einige Attribute 

gegenseitig ausschließen. 

Das Attribut finiteVerb wird auf wahr gesetzt, sobald im vorliegenden Teilsatz ein finites 

Verb gefunden wurde, wozu auch Imperative zählen. Dies ist bei allen Tags, die auf 

FIN oder IMP enden, der Fall. Ganz entsprechend wird das Attribut extendedInfinite- 

Verb gesetzt, wenn VVIZU als Auszeichnung für Infinitive mit eingebettetem zu als Tag 

auftaucht oder alternativ ein Tag mit dem Ende INF für einfache Infinitive mit einem 

vorangehenden zu. 

Ein Teilsatz, der eventuell ein Komplement benötigt, ist der Anfang eines erweiterten Infinitivs. 

Das Attribut infinitivePhrase wird auf wahr gesetzt, wenn entweder ein erweiterter 

Infinitiv vorliegt oder aber zu Beginn des Teilsatzes von TreeTagger eine unterordnende 

Konjunktion gefunden wurde (zugehöriges Tag: KOUI ), die erweiterte Infinitive einleitet 

wie etwa statt oder ohne. Als Beispiel diene hierfür der Satz Statt ein Fußballfest zu 

veranstalten, gingen die Münchner Bayern in Nürnberg blamabelst unter. Ist nach einer 

derartigen Konjunktion im selben Teilsatz kein Infinitiv mit zu zu finden, benötigt der 

Anfang des erweiterten Infinitivs noch ein passendes Komplement, um vollständig zu sein, 

so dass needsComplementIP wahr ist. 

Als Komplement des Anfangs eines erweiterten Infinitivs (complementingIP = wahr) wird 

ein Teilsatz genau dann behandelt, wenn er keine Objekte besitzt und er nur aus einem 

einzigen Infinitiv mit zu besteht. In einem solchen Fall kann der Infinitiv mit zu nicht 

als Teilsatz alleinstehen (er lässt sich nicht als eigener Teilsatz durch Kommata abtrennen) 

und sollte statt dessen mit einem anderen vorausgehenden Anfang des erweiterten 

Infinitivs verbunden werden. Im Satz Er ging, ohne das Licht, wie es Vorschrift war, 

auszuschalten. kann der Teilsatz auszuschalten nicht als durch Komma abgetrennter erweiterter 

Infinitiv allein stehen, weil ihm ein Objekt fehlt. Er muss daher mit dem vorhergehenden 

Anfang (ohne das Licht) des erweiterten Infinitivs zusammengefügt werden und 

bildet zu diesem das Komplement. Außerdem sind auch Zusammenfügungen mit bereits 

vollständigen erweiterten Infinitiven, etwa bei Aufzählungen, denkbar. 

Bei Nebensätzen wird ähnlich verfahren: Steht zu Anfang eines Teilsatzes eine unterordnende 

Konjunktion (Tag KOUS) wie dass oder wenn, setzt das Programm das Attribut 

dependentClause auf wahr. Gleiches gilt, wenn Relativpronomen zu Satzbeginn gefunden 

werden (Tags PRELS oder PRELAT ), aber auch bei zahlreichen Interrogativpronomen 

(Tags PWS, PWAT und PWAV ), sofern es sich nicht um eine Frage handelt. Der Fragesatz 

Wann willst du nach Hause gehen? wird somit nicht als Nebensatz markiert, der 

erste Teilsatz in Warum du das getan hast, verstehe ich nicht. schon. 

Um auch die im Deutschen häufigen konjunktionslosen Nebensätze zu erkennen, die insbesondere 

bei Konditional- und Kausalsätzen auftreten und sich durch invertierte Wortstellung 

auszeichnen, wird im ersten Teilsatz, sofern es sich nicht um eine Frage handelt, 

89


nach zu Anfang stehenden finiten Verben (ausgenommen Imperative) gesucht. Ein Beispiel 

hierfür ist der Satz Hättest du geschwiegen, wärst du Philosoph geblieben. Hier wird 

der erste Teilsatz korrekt als Nebensatz erkannt, der zweite gilt weiterhin als Hauptsatz. 

Erweiterte man den Satz um einen zweiten Konditionalsatz ohne Konjunktion zu Beginn 

oder am Ende des Satzes, so könnte dieser allerdings nicht erkannt werden, weil sich die 

Wortstellung nicht mehr von der eines Hauptsatzes an derselben Stelle unterschiede. 

Ebenso wenig kann erkannt werden, wann konjunktionslose Objektsätze wie Ich sage 

mal, wir machen das. vorliegen, die normalerweise mit dass oder ob eingeleitet werden 

müssten und nicht mit dem übergeordneten Hauptsatz verbunden werden dürfen, weil es 

wegen der fehlenden Konjunktion und der mit Hauptsätzen identischen Wortstellung keine 

Möglichkeit gibt, sie mit hoher Genauigkeit zu identifizieren. Bei indirekter Rede wäre eine 

Identifizierung noch am ehesten wegen des vom Indikativ in den Konjunktiv wechselnden 

Modus möglich, jedoch liefert TreeTagger keine Modusangaben, und die Implementierung 

einer Moduserkennung würde über den Rahmen dieser Arbeit hinausgehen. 

Dieses Manko ist insofern aber nicht schlimm, als derartige Konstruktionen in Dokumenten, 

in denen auf eine gehobene, formalere Ausdrucksweise Wert gelegt wird, relativ selten 

vorkommen und kein Textmerkmal deswegen unentdeckt bleibt. 

Wenn ein Nebensatzanfang anhand der zuvor beschriebenen Kriterien entdeckt wurde, 

aber kein finites Verb hat (finiteVerb = false) und somit unvollständig ist, benötigt er ein 

Komplement, um vollständig zu werden, so dass needsComplementDC auf wahr gesetzt 

wird. 

Etwas schwieriger ist es wiederum festzustellen, wann ein Satz ein Komplement für einen 

angefangenen Nebensatz darstellt. Ein absolut sicheres Kriterium hierfür gibt es nicht, 

allerdings einen guten Anhaltspunkt, den MT Analyser nutzt: Weil in Nebensätzen das 

Prädikat am Ende steht, wird bei einem finiten Verb in Endposition angenommen, dass es 

sich um ein Nebensatzkomplement handelt (complementingDC = wahr), sofern dem aktuellen 

Teilsatz bereits ein Nebensatzanfang vorausgegangen ist. Dabei kann es allerdings 

bei kurzen Sätzen zu Überschneidungen mit Hauptsatzkomplementen kommen. Weil bei 

Fortsetzungen von Hauptsätzen das finite Verb oftmals an erster Stelle steht oder abgetrennt 

vom finiten Verb am Ende der Verbklammer Partizipien (Tags VAPP, VMPP, 

VVPP) oder Infinitive stehen, wird in allen Teilsätzen danach gesucht und im Falle eines 

Auftretens das zugehörige Attribut complementingMC auf wahr gesetzt. 

Eine gezielte Suche nach Anfängen von Hauptsätzen oder danach, ob ein Hauptsatz eines 

Komplements bedarf, findet allerdings nicht statt, weil sich anhand der verfügbaren 

Informationen nicht exakt bestimmen lässt, was ein Hauptsatz ist und was nicht. Als 

möglicher Bestandteil des Hauptsatzes wird alles behandelt, was als Hauptsatzkomplement 

markiert ist oder ein finites Verb hat und nicht zu einem Nebensatz oder einem 

erweiterten Infintiv zählt. (Überschneidungen von Nebensatz- und Hauptsatzkomplementen 

sind allerdings wie erwähnt erlaubt.) Dieses Vorgehen erwies sich beim Testen des 

Algorithmus als sinnvoll, weil es gute Resultate bei der Analyse lieferte. 

Wenn ein Teilsatz weder Komplement noch Nebensatz noch erweiterter Infinitiv ist und 

auch kein finites Verb hat und überhaupt keine begründete Einordnung möglich ist, wird er 

als ungebunden betrachtet (unbound = wahr) und ist somit später sehr frei im Eingehen 

von Verbindungen mit anderen Sätzen. Hierzu zählen insbesondere Appositionen oder 

kurze Anfänge oder Enden von Haupt- oder Nebensätzen, die dann durch einen anderen 

Teilsatz unterbrochen werden. 

90


Beispielsatz 

An dieser Stelle soll die Kategorisierung der atomaren Teilsätze anhand eines komplexen 

Beispielsatzes vorgeführt werden. Der Satz Dass ich meinen Koffer vergessen hatte, bemerkte 

ich, nachdem ich das Hotel, in dem ich gewohnt hatte, verlassen hatte, und machte 

kehrt. liefert insgesamt sechs atomare Teilsätze, jeweils durch ein Komma getrennt. Beim 

sequenziellen Durchlaufen der Teilsätze wird nun der erste Teilsatz als Nebensatz erkannt, 

weil er durch die unterordnende Konjunktion dass eingeleitet wird. Er hat darüber hinaus 

ein finites Verb (hatte), so dass er kein Komplement benötigt und das entsprechende 

Attribut nicht gesetzt wird. Der zweite Teilsatz bemerkte ich wird dagegen als Hauptsatzkomplement 

eingestuft, weil das finite Verb bemerkte am Anfang steht. Der dritte 

Teilsatz wird wiederum wegen der einleitenden unterordnenden Konjunktion nachdem als 

Nebensatz eingestuft, hat diesmal allerdings kein finites Verb, so dass er eines Komplements 

bedarf (needsComplementDC = wahr). Der nun folgende Relativsatz wird wegen 

des Relativpronomens zu Beginn ebenfalls als Nebensatz eingestuft, benötigt aber wegen 

des finiten Verbs am Ende kein Komplement. Den nun folgenden Teilsatz verlassen hatte 

sieht der Algorithmus dagegen als Nebensatzkomplement an, weil ein finites Verb am Ende 

vorliegt, was bei Hauptsätzen eine unübliche Wortstellung wäre. Der letzte Teilsatz und 

machte kehrt ist für das Programm ein potenzieller Hauptsatz wegen des finiten Verbs, 

aber kein Hauptsatzkomplement, weil das finite Verb machte nicht am Anfang steht. Tabelle 

8.2.2 zeigt die Kategorisierung dieses Satzes mit den benötigten Attributen in einer 

Übersicht. 

Teilsatz finite- dependent- needsComple- complemen- complemen- 

Verb Clause mentDC tingDC tingMC 

Dass ... hatte × × 

bemerkte ich × × 

nachdem ... Hotel × × 

in dem ... hatte × × 

verlassen hatte × × 

und machte kehrt × 

Tabelle 8.1.: Beispielsatz mit Kategorisierung der einzelnen Teilsätze 

8.2.3. Hierarchisierung der atomaren Teilsätze 

Im zweiten Schritt werden die soeben kategorisierten Teilsätze innerhalb des gesamten 

Satzes mit einer Ordnung versehen, die über Zahlenwerte ausgedrückt wird. Der Wert 

der Ordnung gibt die Ebene an, auf der sich ein Teilsatz, ausgehend vom Hauptsatz, 

der auf Ebene 0 eingeordnet wird, befindet. Abbildung 8.2 verdeutlicht die Vergabe der 

Ordnungszahlen anhand des bereits bekannten Beispielsatzes. 

Der einleitende Nebensatz Dass ich meinen Koffer vergessen hatte erhält die Ordnungszahl 

1, weil er direkt über dem darauffolgenden Hauptsatz (Ordnungszahl 0) in der Hierarchie 

angeordnet ist. Der an den Hauptsatz anschließende Temporalsatz erhält wieder die 

Ordnungszahl 1, weil er eine Ebene über dem Hauptsatz steht. Der Relativsatz an vierter 

Stelle ist in den Temporalsatz eingebettet und damit noch eine Ebene darüber, weshalb er 

die Ordnungszahl 2 erhält. Danach folgt noch das Komplement des Temporalsatzes, das 

91


Abbildung 8.2.: Beispielsatz mit Hierarchisierung der einzelnen Teilsätze 

zwar theoretisch auf Ebene des Relativsatzes sein könnte. Weil dieser aber ein finites Verb 

am Ende hat und somit vom Algorithmus als abgeschlossen betrachtet wird, erniedrigt 

sich die Ordnungszahl auf den Wert 1. Am Ende steht der zweite Teil des Hauptsatzes, 

dessen Ordnungszahl auf 0 gesetzt wird, weil das vorausgehende Nebensatzkomplement 

mit einem finiten Verb endet und ebenfalls als abgeschlossen angesehen wird. 

Die Vorgehensweise des Algorithmus ist dabei allgemein folgende: Alle Teilsätze werden 

in der ursprünglichen Reihenfolge durchlaufen. Beginnt ein neuer Nebensatz, so wird 

die Ebene und damit die Ordnungszahl jeweils um 1 erhöht. Findet sich am Ende des 

Nebensatzes ein finites Verb, wie es die Wortstellung im Deutschen vorsieht, so wird, weil 

zur Vollständigkeit des Nebensatzes kein Komplement mehr benötigt wird, angenommen, 

dass der Nebensatz beendet ist und die Ordnungszahl wieder um 1 herabgesetzt. Dies 

ist nötig, weil sich sonst aufeinanderfolgende, aber nicht verschachtelte Nebensätze in 

verschiedenen Ebenen befinden würden, obwohl sie auf derselben Ebene der Satzhierarchie 

liegen. Komplemente zu Nebensätzen behalten die aktuell gültige Ebene bei. 

Erweiterte Infinitive erhöhen die Ordnungszahl der Satzebene nur dann, wenn sie ein 

Komplement benötigen, also ein Infinitiv mit zu noch fehlt. Die Anzahl dieser geöffneten 

erweiterten Infinitive wird gespeichert und jedesmal, wenn ein Komplement, zu dem es 

auch einen geöffneten erweiterten Infinitiv gibt, vorkommt, um 1 erniedrigt. Erst wenn 

ihr Wert auf 0 gesunken ist, wird bei einem neuen erweiterten Infinitiv die Ordnungszahl 

wieder erhöht. 

Andere Komplemente hingegen verändern die aktuelle Ordnungszahl nicht. Gleiches gilt 

auch für ungebundene Teilsätze. 

8.2.4. Zusammenfügen der atomaren Teilsätze 

Im letzten Schritt wird unter Zuhilfenahme von Kategorisierung und Hierarchisierung der 

atomaren Teilsätze in den beiden vorangegangenen Abschnitten der Analyse versucht, 

Teilsätze zu größeren Einheiten zusammenzufügen, so dass jeder verbliebene Teilsatz am 

Ende des Vorgangs einen kompletten Hauptsatz, Nebensatz oder erweiterten Infinitiv darstellt 

und sich für die Suche nach Textmerkmalen eignet. Für das Zusammenfügen sind die 

Methoden rejoinPartialSentences() in der Klasse SentenceAnalyser und attach() in der 

Klasse PartialSentence zuständig. Atomare Teilsätze, die bereits einem anderen Teilsatz 

angegliedert wurden (attached = true), werden nicht mehr untersucht, um Doppelverbindungen 

zu vermeiden, wohl aber die Teilsätze, denen sie angegliedert wurden. 

In erstgenannter Methode wird in dieser Reihenfolge für alle erweiterten Infinitve, Nebensätze, 

Hauptsätze und ungebundenen Teilsätze überprüft, ob es in der Gesamtheit der 

Teilsätze einen oder mehrere andere gibt, die von ihren Attributen her passend sind und 

mit dem aktuellen Satz verbunden werden können. Die Reihenfolge begründet sich damit, 

dass zunächst die klar markierten Anfänge von erweiterten Infinitven und Nebensätzen 

versuchen sollen, alle passenden Teilsätze an sich zu binden, bevor die darunterliegenden 

92


und nicht so klar markierten Hauptsätze die übrigen Teilsätze aufnehmen sollen. In den 

Tests erwies sich diese Abfolge der verschiedenen Satzarten als sehr nützlich, weil ohne sie 

oftmals Nebensätze oder erweiterte Infinitive nur unvollständig zusammengefügt wurden. 

Die ungebundenen Sätze suchen erst zum Schluss nach anderen passenden Sätzen, weil 

sie in der Regel zu recht vielen Teilsätzen gehören könnten und es sich als günstiger herausgestellt 

hat, erst andere Teilsätze versuchen zu lassen, sich mit ihnen anhand besserer 

Kriterien zu verbinden. Im Zweifel, wenn eine eindeutige Zuordnung nicht möglich ist, 

bleiben sie unverbunden. 

Es werden im Laufe des Algorithmus nur Teilsätze miteinander verbunden, die sowohl 

von ihren Attributen als auch von ihrer Ordnungszahl her zueinander passen. So werden 

mit einer einzigen Ausnahme in einem Sonderfall bei ungebundenen Teilsätzen nur solche 

Teilsätze verbunden, deren Ordnungszahlen gleich sind; dies aber auch nur dann, wenn 

dazwischen kein anderer Teilsatz eine niedrigere Ordnungszahl oder, falls der andere Teilsatz 

ein neuer Nebensatz oder ein neuer erweiterter Infinitiv ist, dieselbe Ordnungszahl 

aufweist. 

Bei den Attributen gilt für Anfänge von Nebensätzen und erweiterten Infinitiven, dass sie 

nur mit den jeweiligen Komplementen oder ungebundenen Teilsätzen verbunden werden 

können. Komplemente wiederum können nur dann mit zugehörigen Anfängen verbunden 

werden, wenn diese vor dem Komplement liegen. Mutmaßliche Hauptsätze oder deren 

Komplemente können dagegen mit ungebundenen Sätzen, anderen Hauptsätzen und 

Hauptsatzkomplementen unabhängig von deren Position zusammengehen. 

Die an dieser Stelle noch übrig gebliebenen ungebundenen Teilsätze suchen nun nach 

anderen Teilsätzen mit gleicher Ordnungszahl. Wenn eine Zuordnung nicht möglich ist, 

weil etwa der infrage kommende Teilsatz auf gleicher Ebene ein Nebensatzanfang ist und 

hinter dem ungebundenen Satz steht, versucht der Algorithmus eine Zuordnung des ungebundenen 

Teilsatzes zu einem der maximal zwei direkt umgebenden Teilsätze, auch wenn 

leichte Abweichungen in den Ordnungszahlen vorliegen. 

Beispielsatz 

Die genaue Funktionsweise dieses Algorithmus wird anhand des bekannten Beispielsatzes 

(Dass ich meinen Koffer vergessen hatte, bemerkte ich, nachdem ich das Hotel, in dem 

ich gewohnt hatte, verlassen hatte, und machte kehrt.) wiedergegeben. Die kategorisierten 

und hierarchisierten Teilsätze werden nun in der oben genannten Reihenfolge durchlaufen. 

Weil es im Beispiel keine erweiterten Infinitive gibt, wird mit dem Zusammenfügen von 

Nebensätzen fortgefahren. 

Für den einleitenden Nebensatz beginnt die Suche nach passenden Ergänzungen mit dem 

Teilsatz bemerkte ich. Weil dieser jedoch eine niedrigere Ordnungszahl hat als der Nebensatz, 

kommt er nicht infrage und ebenso wenig alle weiteren Nebensätze. Für den ersten 

Teilsatz gibt es also keine Ergänzungen. Als nächstes wird der dritte Teilsatz (nachdem 

ich das Hotel) betrachtet. Der folgende Relativsatz passt unter anderem wegen der höheren 

Ordnungszahl nicht, jedoch der fünfte Teilsatz vergessen hatte, weil es sich dabei um 

ein Nebensatzkomplement handelt und der aktuelle Nebensatz ein Komplement benötigt 

und dieselbe Ordnungszahl aufweist. Dementsprechend werden beide Sätze miteinander 

verbunden. Der letzte Teilsatz kommt wiederum nicht infrage, unter anderem weil er eine 

niedrigere Ordnungszahl aufweist. Der als nächstes untersuchte Relativsatz kann nicht 

mit anderen Sätzen verbunden werden, weil kein anderer dieselbe Ordnungszahl besitzt. 

93


Nun werden noch die beiden Teile des Hauptsatzes überprüft. Für den Teilsatz bemerkte 

ich kommt der vorausgehende Teilsatz nicht infrage, weil das ein Nebensatz ist, mit 

derselben Begründung ebenso wenig die beiden Nachfolger. Der fünfte Teilsatz vergessen 

hatte wurde bereits an einen anderen angehängt und wird deshalb nicht mehr berücksichtigt. 

Der letzte Teilsatz und machte kehrt ist hingegen auf derselben Ebene und kein 

Nebensatz oder erweiterter Infinitiv. Er wird daher mit dem zweiten Teilsatz verbunden, 

womit das Zusammenfügen abgeschlossen ist. 

8.2.5. Überprüfung der Satzanalyse 

Um die Genauigkeit der Satzanalyse zu testen, wurden einerseits die unbearbeiteten Textkorpora 

zu Nebensätzen und Relativsätzen ausgewählt und von MT Analyser in ihre 

Teilsätze zerlegt, weil sie am ehesten komplexe Satzkonstruktionen garantieren und damit 

hohe Anforderungen an die Algorithmen stellen, und des weiteren noch zwei andere, 

willkürlich ausgewählte unbearbeitete Textkorpora hinzugenommen. Insgesamt wurde die 

Arbeit der Algorithmen zur Satzanalyse an 340 Sätzen überprüft. 

Von diesen 340 Sätzen wurden 322 vollkommen richtig in Haupt- und Nebensätze aufgeteilt, 

wobei in neun Fällen die Algorithmen von MT Analyser eine falsche Einteilung 

verursachten, während in den neun anderen Fällen die Fehler auf falsche Klassifikationen 

durch TreeTagger zurückzuführen waren, so dass MT Analyser keine Chance hatte, 

richtig zu arbeiten. Geht man von den 331 Sätzen aus, in denen eine korrekte Analyse 

möglich war, ergibt sich bei 322 korrekten Analysen eine Genauigkeit von 97, 3 Prozent. 

Das Ergebnis zeigt also, dass die Algorithmen sehr zuverlässig arbeiten. 

8.3. Algorithmen zur Erkennung von Textmerkmalen 

Textmerkmale werden ausschließlich auf Satzebene gesucht, weil kein Textmerkmal satzübergreifend 

auftreten kann. Um sie zu finden, greift MT Analyser auf die einzelnen 

Wörter sowie deren von TreeTagger zugeordneten Grundformen und Tags zu. Für abgetrennte 

Kompositionsglieder, Mehrdeutigkeiten und Relativsätze reicht das bloße Antreffen 

jeweils eines Tags, einer Grundform oder eines Wortes an bestimmten Stellen des 

Satzes. Um das Vorkommen eines anderen Textmerkmals sicher bestimmen zu können, 

müssen, sobald Anzeichen für das Auftreten dieses Merkmals vorliegen, weitere Analysen 

der Satzstruktur unternommen werden. Diese können sich allerdings auf den jeweiligen 

Teilsatz beschränken, weil Textmerkmale sich nur innerhalb eines einzigen Teilsatzes befinden 

können. So kann etwa eine Verbklammer nicht im Hauptsatz beginnen und dann 

in einem Nebensatz enden. Im folgenden werden die Algorithmen für die einzelnen Textmerkmale 

näher beschrieben. 

8.3.1. Abgetrennte Kompositionsglieder 

Die Erkennung abgetrennter Kompositionsglieder ist von allen die einfachste. Weil jedesmal, 

wenn ein Wort in einem deutsprachigen Text mit einem Bindestrich anfängt 

oder aufhört, ein abgetrenntes Kompositionsglied vorliegt, reicht es aus, nach diesen Bindestrichen 

Ausschau zu halten. Genauso verfährt der Algorithmus, der Wort für Wort 

den aktuell vorliegenden Satz durchsucht und das erste bzw. letzte Zeichen jedes Wortes 

94


daraufhin überprüft, ob es ein Bindestrich ist. Satzzeichen werden von der Betrachtung 

ausgeschlossen. Der folgende Codeausschnitt zeigt die Erkennung von abgetrennten Kompositionsgliedern. 

String[] words = sentence.getWords(); 

for(int i = 0; i < words.length; ++i) { 

if(words[i] != null && !isPunctuation(words[i]) && 

(words[i].endsWith("-") || words[i].startsWith("-"))) { 

TranslationDifficulty td = createHyphenatedCompound(sentence,i); 

difficulties.add(td); 

} 

} 

Aufgrund der Einfachheit des Algorithmus erbrachte auch der Test mit dem unbearbeiteten 

Korpus für Ellipsen aller Art eine Erkennungsquote von 100 Prozent für abgetrennte 

Kompositionsglieder. 

8.3.2. Inversionen der Wortstellung 

Bei der Inversion sind in Übereinstimmung mit der Klassifikation der Teilsätze durch 

MT Analyser in Hauptsätze, Nebensätze und erweiterte Infinitive verschiedene Muster 

anzuwenden, die sich hinsichtlich der erwarteten Wortstellung an die in Abschnitt 5.2.4 

dargestellten Standardwortstellungen halten. Die Suche nach invertierter, aber grammatikalisch 

korrekter Wortstellung ist dabei nicht zu verwechseln mit der Suche nach falscher 

Wortstellung. Sie muss also erkennen, dass ein Satz wie Gesehen habe ich dich noch nie. 

von der normalen Wortstellung in einem Hauptsatz mit Subjekt an erster und finitem 

Verb an zweiter Position abweicht, jedoch nicht, dass etwa Ich habe gesehen noch nie 

dich. schlichtweg falsch ist. 

Nebensätze 

Die normale Wortstellung in Hauptsätzen verlangt insbesondere, dass das finite Verb 

in Endstellung steht. Dementsprechend untersucht MT Analyser alle Nebensätze vom 

Anfang ausgehend nach finiten Verben. Wird ein finites Verb gefunden, das nicht am 

Ende steht, ohne dass direkt darauf ein weiteres Verb oder eine Konjunktion, die einen 

neuen Teil des Nebensatzes einleitet, folgt, wird die Wortstellung als invertiert betrachtet. 

Auf diese Weise werden auch die insbesondere in der Umgangssprache häufigen Umstellungen 

der Art weil er wollte nicht mehr vorbeikommen abgedeckt und erkannt. Der zweite 

Teilsatz in Sie ging einkaufen, weil sie noch Geld übrig hatte und dringend ein neues 

Parfüm suchte. wird hingegen nicht als invertiert betrachtet, weil nach dem ersten finiten 

Verb eine Konjunktion steht. 

Darüber hinaus wird der veränderten Wortstellung bei doppelten Infinitiven Rechnung 

getragen, wie etwa in dem Satz weil er nicht hatte vorbeikommen wollen. Infinitivgruppen 

am Ende werden nicht als invertiert angesehen, sofern direkt vor ihnen ein finites Verb 

steht. Tritt eine Verneinung auf, muss sie vor dem Verb stehen. Der Kausalsatz weil er 

hatte nicht vorbeikommen wollen würde also korrekt als invertiert erkannt. 

95


Erweiterte Infintive 

Im Gegensatz zu Nebensätzen beginnt die Analyse erweiterter Infinitiven am Satzende, 

wo entweder ein Infintiv mit davorstehendem Partikel zu (Tagkombination PTKZU + 

VVINF, VAINF oder VMINF ) erwartet wird, oder ein Infinitiv, der den Partikel zu 

bereits in sich trägt (Tag VVIZU ). Gruppen solcher Infinitive werden auch akzeptiert, 

sobald aber mehr als nur eine Konjunktion oder ein den Infinitiv näher bestimmendes 

Adverb zwischen ihnen stehen, gilt der Teilsatz als invertiert. 

Hauptsätze 

Am schwierigsten erwies sich die Analyse der Wortstellung im Hauptsatz, weil hier viele 

verschiedene Fälle zu beachten sind, in denen die Wortstellung invertiert ist, und die 

von TreeTagger vergebenen Tags nicht immer genügend grammatikalische Information 

enthalten, um allein mit ihrer Hilfe eine Inversion zu bestimmen (vgl. hierzu die Beispiele 

in Abschnitt 5.2.4). Dabei werden nur in den Fällen Übersetzungsschwierigkeiten erzeugt, 

die wirklich eindeutig eine Inversion darstellen, um Falschmeldungen zu vermeiden. 

Als erstes wird überprüft, ob es sich um eine Frage oder einen Befehl handelt. In diesem 

Fall werden an der Spitze bzw. vor dem Personalpronomen stehende finite Verben nicht 

beanstandet. Ansonsten wird dies als Inversion markiert, etwa in dem Satz Bevor der Zoo 

eröffnet wurde, musste er renoviert werden. Dabei wird insbesondere überprüft, ob eine 

Form eines Pronomens, die eindeutig als Nominativ identifizierbar ist, direkt hinter dem 

finiten Verb steht. Dies ist nur für die Personal- und Indefinitpronomen ich, du, er, wir, 

man, jemand und niemand möglich. 

Analog zur Suche nach Nominativen hinter dem finiten Verb wird vor dem finiten Verb 

nach Formen von Pronomen gesucht, die nie im Nominativ auftreten. Bei Adjektiven 

an der Spitze eines Teilsatzes, die auf -en und -em enden, wird ebenfalls eine Inversion 

erkannt. Stehen andere Indikatoren am Satzanfang vor dem finiten Verb, die eindeutig eine 

Abweichung von der Standardwortfolge nach sich ziehen, wie beispielsweise Präpositionen 

oder ein Adverb, so wird ebenfalls eine Übersetzungsschwierigkeit erzeugt. 

Testergebnisse 

Der Algorithmus wurde mit Hilfe des unbearbeiteten Textkorpus zu Inversionen der Wortstellung 

getestet. Dabei wurden im gesamten Text 96 Inversionen entdeckt bei 108 vorhandenen. 

Dies entspricht einer Erkennungsquote von 88, 9 Prozent. Dabei kam es allerdings 

öfter vor, dass wegen falscher Tags und daraus resultierender falscher Zusammensetzung 

der Teilsätze der als invertiert angezeigte Satzausschnitt zu lang war. Ebenfalls entstanden 

durch falsche Tags zwei Fehlerkennungen. 

Beschränkt man die Betrachtung auf die 87 Sätze, in denen weder fehlerhafte Tags noch 

inkorrekt zusammengefügte Teilsätze die Erkennung behinderten, so ergibt sich folgendes 

Bild: Von 88 vorhandenen Inversionen wurden 81 erkannt, was einer Quote von 92, 0 

Prozent entspricht. Fehlerkennungen traten dabei nicht mehr auf. 

8.3.3. Mehrdeutigkeiten 

Der Algorithmus für die Suche nach Mehrdeutigkeiten gestaltet sich mit dem Mehrdeutigkeitslexikon 

im Hintergrund relativ einfach. Es bedarf lediglich eines Abgleichs zwischen 

96


den in der Lexikondatei eingetragenen Grundformen der mehrdeutigen Begriffe und den 

von TreeTagger ermittelten Grundformen der Wörter innerhalb eines Satzes. Dazu wird 

das in der Klasse LexiconHandler hinterlegte Lexikon ausgelesen und für jedes Wort an 

x-ter Stelle eines Satzes überprüft, ob sich in dem XML-Dokument ein Knoten vom Typ 

entry mit passendem Wert des Attributs name findet, der der in basicForms[x] gespeicherten 

Grundform entspricht. Ist dem so, wird eine Übersetzungsschwierigkeit vom Typ 

Mehrdeutigkeit erzeugt, in der auch die verschiedenen zugehörigen Bedeutungen zwecks 

Anzeige im Übersetzbarkeitsreport abgelegt werden. 

8.3.4. Nominalklammern 

Mit Abstand am schwierigsten gestaltete sich die Erkennung von Nominalklammern. Hier 

gibt es viele Fälle, in denen anhand der durch TreeTagger verfügbaren grammatikalischen 

Informationen nicht entschieden werden kann, ob es sich um eine Nominalklammer gemäß 

der Definition aus Abschnitt 5.2.2 handelt oder nicht. Ein Beispiel hierfür ist die Tag- 

Abfolge ART ADJA NN ADJA NN. Diese kann sowohl für einen uninteressanten Satzausschnitt 

wie < np >die schnelle Entwicklung< /np > < np >neuer Technologien< /np >, 

in dem zwei Nominalphrasen, abgegrenzt durch < np > bzw. < /np >, aufeinander folgen, 

als auch für einen Satzausschnitt wie < np >der < np >kürzere Fahrzeiten< /np > 

ermöglichende Streckenausbau< /np >, in dem sich innerhalb der umgebenden Nominalphrase 

eine weitere als vorangestelltes Attribut befindet, stehen. 

Verworfene Algorithmen 

Als erstes wurde versucht, TreeTagger, der auch als Chunker benutzt werden kann, einzusetzen, 

um die Phrasenstruktur des Satzes zu ermitteln. Sollte eine Nominalphrase in 

einer anderen erkannt werden, wäre dies die hinreichende Bedingung für eine Nominalklammer. 

Jedoch lieferte ein Test mit zehn Sätzen aus dem Korpus für Nominalklammern 

kein überzeugendes Ergebnis: Von 64 Nominalphrasen und 25 Präpositionalphrasen, die 

sich in den zehn Sätzen befinden, wurden nur 24 bzw. fünf korrekt erkannt. Dies entspricht 

einer Vollständigkeit der Erkennung von 37, 5 Prozent bei Nominalphrasen und von 20, 0 

Prozent bei Präpositionalphrasen und ist somit unzureichend für eine weitere Analyse der 

Ergebnisse, die auf der Arbeit von TreeTagger aufbaut. 

Der zweite Ansatz bestand darin, den Satz rückwärts nach Nomina zu durchsuchen und, 

sobald ein Nomen gefunden wurde, die Abfolge der vorausgehenden Tags daraufhin zu 

analysieren, ob sie zu einer Nominalklammer passen oder nicht. Der Gedanke dahinter 

war, dass man zwar den Anfang einer Nominalklammer nicht immer genau bestimmen 

kann, weil die umgebende Nominalphrase nicht zwangsläufig von einem Artikel oder der 

eingeschlossenen Nominalphrase vorausgehenden Adjektiven eingeleitet wird, jedoch das 

Ende immer ein Nomen ist. Der so entstandene Algorithmus erreichte in Testläufen mit 

dem Textkorpus zu Nominalklammern eine Erkennungsrate von rund 90 Prozent, jedoch 

fiel bei seiner Anwendung auf andere Textkorpora eine große Anzahl an Fehlerkennungen 

auf, die die Anzahl der Erfolge weit überschritt. So lag das Verhältnis von Fehlerkennungen 

und korrekt erkannten Nominalklammern bei etwa sieben zu drei. Daher wurde dieser 

Ansatz ebenso verworfen. 

97


Grammatik zur Erkennung von Nominalklammern 

Der letztendlich genutzte Algorithmus besteht im wesentlichen aus einer Grammatik, die 

eine Nominalklammer nachbildet und in Form eines regulären Ausdrucks die Tagfolge eines 

Teilsatzes nach Übereinstimmungen durchsucht. Zwar lassen sich durch einen regulären 

Ausdruck Nominalklammern als Spezialform von Nominalphrasen nicht vollständig beschreiben, 

weil sie durch ihre beliebig tiefe Verschachtelung eine rekursive Klammerstruktur 

darstellen, doch wird in der Praxis selten eine Nominalklammer benutzt, deren Schachtelungstiefe 

größer als zwei ist. 

Die folgende Grammatik G 1 = (N, T, P, NK) ist eine aus Gründen der Übersichtlichkeit 

leicht vereinfachte Form der im Programm verwendeten Grammatik G, in der zumeist 

nur die jeweils verpflichtend vorkommenden Worttypen aufgeführt werden; insbesondere 

zahlreiche Füllwörter wie Adverbien oder Negationen sind oft weggelassen. Nichtterminalsymbole 

sind in voller Schriftgröße dargestellt. Aus dem STTS stammende Tags sind 

Terminalsymbole und verkleinert dargestellt. Die Konjunktionen und und oder sind ebenfalls 

Terminalsymbole. Die Produktionsregeln lauten folgendermaßen: 

P = { 

NK → NK 1 | NK 2 

NK 1 → D 2 ((NP 11 | prf | AP 1 ) KON?) ∗ NP 11 AP 2 

+ N 

NK 2 → D 1 ((NP 12 | AP 1 ) KON?) ∗ NP 12 AP 2 

+ N 

NP 11 → (D 1 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo? 

NP 12 → (D 3 | ptkneg) ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo? 

NP 11 , NP 12 → ((AP1 ∗ N appo? KON?) | AP 1 | NP 2 + AP 2 + ) ∗ N appo 

NP 2 → D 1 (AP1 ∗ N appo? KON? ) ∗ AP1 ∗ N 

D 1 , D 2 → art | pposat | piat | pidat | pdat 

D 1 , D 3 → kokom | appr 

D 1 , D 2 , D 3 → apprart | appr (art | pposat | piat | pdat | pidat) 

AP 1 → (adja | card D 1 ?) + 

AP 2 → adja + 

N → nn | ne | pper | pposs | pds | pis | prf | trunc 

KON → und | oder } 

Erläuterung der Grammatik Die genaue Bedeutung der einzelnen Tags ist dem STTS 

gemäß [SSTT99] zu entnehmen. 

• NK: Die gesamte Nominalklammer. Zum Ende jeder Nominalklammer wird ein 

Nomen mit mindestens einer vorausgehenden Adjektivphrase AP 2 erwartet. Es werden 

zwei Arten von Nominalklammern unterschieden, wobei Nominalklammern, die 

nicht mit einem Artikel oder einer Präposition eingeleitet werden, nicht erkannt werden 

können, weil sie von zahlreichen anderen Konstruktionen nicht zu unterscheiden 

sind. 

– NK 1 : Nominalklammern, die mit einem Artikel, einem Pronomen oder einer 

Kombination von Präposition und Artikel oder Pronomen eingeleitet werden 

wie etwa durch die das englische Ritual befolgende Krönung. Eine Präposition 

ohne Artikel/Pronomen oder ein Vergleichspartikel reicht als Einleitung 

nicht. Hier genügt es, um sicherzugehen, dass es sich um eine Nominalklammer 

98


handelt, wenn die eingeschlossene Nominalphrase mit einem einfachen Artikel 

oder Pronomen beginnt. 

– NK 2 : Nominalklammern, die anders als in NK 1 auch durch Präposition ohne 

Artikel/Pronomen oder Vergleichspartikel eingeleitet werden dürfen wie mit 

fast kochendem, über 90 Grad heißem Wasser. Um zu garantieren, dass es sich 

um eine Nominalklammer handelt, muss die eingeschlossene Nominalphrase 

von einer Präposition mit oder ohne Artikel/Pronomen oder von einem Vergleichspartikel 

eingeleitet oder von einer Postposition geschlossen werden; verlangte 

man nur einen einfachen Artikel, ergäben sich viele Fehlklassifikationen 

wie etwa für mit dem fast kochenden Wasser der heißen Quelle. 

• NP : Innerhalb der umgebenden Nominalphrase befinden sich als deren Attribute 

weitere Nominalphrasen, die teilweise auch selbst Nominalklammern sein können. 

Es werden drei Typen unterschieden, wobei einfache Nomina nur mit N bezeichnet 

werden (siehe unten). 

– NP 11 : Eingeschlossene Nominalphrase direkt unterhalb einer umgebenden Nominalklammer 

vom Typ NK 1 . Als Einleitung wird mindestens ein Artikel oder 

Pronomen erwartet (siehe D 1 ). In der Phrase kann sich ein komplexer Ausdruck 

mit Adjektiven, Adverbien sowie weiteren Attributen auf gleicher Ebene 

und neuen Nominalklammern ergeben. 

– NP 12 : Fast wie NP 11 , allerdings wird als Einleitung in Entsprechung zu NK 2 

als umgebender Nominalphrase kein bloßer Artikel bzw. kein bloßes Pronomen 

als Einleitung akzeptiert (siehe D 3 ). 

– NP 2 : Eingeschlossene Nominalphrase auf zweiter Verschachtelungsebene. Sie 

kann sehr komplex werden, aber keine weiteren Nominalklammern beinhalten, 

die dann auf der dritten Verschachtelungsebene lägen. 

• D: Als Determinative werden über bloße Artikel hinaus alle weiteren Pronomen bezeichnet, 

die eine Nominalphrase anstelle eines Artikels einleiten können, sowie Vergleichspartikel 

und Präpositionen. Die Bezeichnung wird gewählt, weil diese Wörter 

zur Bestimmung bzw. Determination des Anfangs der Nominalphrasen benutzt werden, 

und ist nicht deckungsgleich mit Determinativen im üblichen Sinn. Es gibt drei 

verschiedene, auf die verschiedenen Arten von Nominalklammern und -phrasen zugeschnittene 

Versionen: 

– D 1 : Enthält Artikel, Präpositionen, attributierende Demonstrativ-, Possessivund 

Indefinitpronomen, Kombinationen aus Präposition und einem der Artikel/Pronomen 

sowie Vergleichspartikel. 

– D 2 : Wie D 1 , aber keine Vergleichspartikel und keine alleinstehende Präposition. 

– D 3 : Wie D 1 , aber keine alleinstehenden Artikel oder Pronomen. 

• KON: Innerhalb einer Nominalklammer können auch Konjunktionen auftreten. Als 

zulässige Konjunktionen akzeptiert der Algorithmus allerdings nur und sowie oder. 

Konjunktionen wie sondern oder aber werden nicht akzeptiert, weil sie eher adversativen, 

trennenden Charakter haben. Sie sind zwar durchaus in Nominalklammern 

möglich, sie zu erlauben, führte aber zu vermehrten Fehlerkennungen. 

99


• N: Als Nomen werden alle Arten von Substantiven und substituierenden Pronomen 

gewertet. Dazu gehören normale Substantive, Eigennamen, Personalpronomen, Reflexivpronomen, 

substituierende Possessiv-, Demonstrativ- und Indefinitpronomen 

und auch Erstglieder von Kompositionen wie in Ein- und Ausstieg. 

• AP : Als Adjektivphrase AP 1 werden beliebige, nicht-leere Folgen von Adjektiven 

und Zahlwörtern, ggf. mit folgendem Determinativ, behandelt (das STTS ist bei 

Zahlwörtern sehr unspezifisch, auch wenn sie unterschiedliche Funktionen haben), 

als AP 2 nur Folgen von Adjektiven. 

Beispiele Um die Mechanismen besser verstehen zu können, sollen zwei Beispiele aus 

dem zugehörigen Textkorpus sie näher verdeutlichen, je eines für beide Typen von Nominalklammern. 

Zunächst geht es um die Nominalklammer durch die das englische Ritual 

befolgende Krönung. Sie liefert als Tagfolge appr art art adja nn adja nn. Daraus 

ergibt sich bei einer ersten Reduktion durch Anwendung der Produktionsregeln in umgekehrter 

Richtung D 2 D 1 AP 1 N AP 2 N. Als nächstes lassen sich die Nichtterminalsymbole 

D 1 AP 1 N zusammenfassen, so dass D 2 NP 11 AP 2 N übrigbleibt. Das wird im nächsten 

Schritt zu NK 1 und dann zu NK, so dass die Nominalklammer erfolgreich erkannt wurde. 

Dieser Vorgang ist in dem Reduktionsbaum in Abbildung 8.3 festgehalten. 

Abbildung 8.3.: Reduktionsbaum für eine Nominalklammer (erstes Beispiel) 

Als zweites Beispiel dient die Nominalklammer die US-amerikanischen Studien zufolge 

über 87% aller privaten Konsumentscheidungen entscheidenden Frauen. Sie liefert zu Beginn 

die Tagfolge art adja nn appo appr card piat adja nn adja nn. Im ersten 

Schritt wird daraus durch die rückwärts benutzten Produktionsregeln D 1 AP 1 N appo 

D 3 card D 1 AP 1 N AP 2 N. Der zweite Reduktionsschritt ergibt D 1 NP 12 D 3 AP 1 AP 1 

N AP 2 N. Wieder lassen sich mehrere Nichtterminalsymbole zu einer Nominalphrase zusammenfassen, 

so dass daraus D 1 NP 12 NP 12 AP 2 N folgt. Dies lässt sich zu NK 2 und 

somit zu NK, dem Startsymbol, reduzieren. Abbildung 8.4 verdeutlicht den Vorgang. 

100


Abbildung 8.4.: Reduktionsbaum für eine Nominalklammer (zweites Beispiel) 

Testergebnisse 

Die Grammatik wurde am Textkorpus mit Nominalklammern getestet. Insgesamt waren 

88 Nominalklammern erkennbar, die restlichen vorhandenen erhielten von TreeTagger ein 

oder mehrere falsche Tags zugewiesen, die eine Erkennung als Nominalklammer nicht 

zuließen. Insbesondere wurden Artikel als substituierende Pronomen und Partizipien als 

finite Verben eingestuft. Von den 88 erkennbaren Nominalklammern wurden 63 korrekt 

identifiziert, wobei in wenigen Fällen die Länge des ausgewählten Textausschnitts zu groß 

war. Somit war die Erkennung zu 71, 6 Prozent vollständig. Eine weitere deutliche Steigerung 

der Erkennungsrate dürfte mit den vorhadenen grammatischen Informationen, die 

beispielsweise Kongruenzüberprüfungen nahezu ausschließen, nicht möglich sein. 

Das Ergebnis ist zwar deutlich schlechter als die 90-prozentige Erkennung des zweiten Ansatzes, 

dafür tendiert aber die zuvor überbordende Zahl an Fehlidentifikationen gen null. 

In den Textkorpora zu den anderen Textmerkmalen wurden insgesamt 26 Nominalklammern 

identifiziert, von denen auch 23 tatsächlich Nominalklammern waren. Zwei wurden 

durch TreeTagger falsch getaggt, eine durch den Algorithmus falsch erkannt. Bei einer 

Quote von 23 aus 24 erkennbaren bedeutet das eine Präzision von 95, 8 Prozent. 

8.3.5. Relativsätze 

MT Analyser durchsucht alle als Nebensätze markierten Teilsätze nach Relativpronomen 

(Tags PRELS, PRELAT und teilweise auch PWAV ) an erster oder zweiter Stelle des 

jeweiligen Teilsatzes, um auch Relativsätze in präpositionalen Konstruktionen wie Das 

Haus, in dem ich wohne, ist schön. zu erkennen. Darüber hinaus wird auch nach Interrogativpronomen 

(Tags PWAT und PWS) gesucht, die zur Einleitung von Nebensätzen 

genutzt werden. Ein Beispiel hierfür ist etwa: Weißt du, welches Fußballspiel übertragen 

101


wird? Bedingung dafür, dass ein Relativsatz erkannt wird, ist außerdem, dass es sich um 

Formen der Pronomen der, wer, was und welcher handelt oder dass es eine Verbindung 

mit wo- wie womit oder worüber ist, die anstelle eines herkömmlichen Relativpronomens 

eingesetzt werden kann. Das Wort wo selbst wird hingegen nicht beachtet, da es vor allem 

für Lokalsätze benötigt wird, wenngleich es einige präpositionale Konstruktionen in 

Relativsätzen ersetzen kann. 

Beim Testen des Algorithmus mit dem unbearbeiteten Textkorpus für Relativsätze ergab 

sich folgendes Bild: Von den insgesamt 104 darin enthaltenen Relativsätzen wurden 97 

erkannt und als Übersetzungsschwierigkeit gewertet. Sechsmal hatte TreeTagger ein Relativpronomen 

fälschlicherweise als Artikel gekennzeichnet, so dass eine Erkennung des 

Relativsatzes durch MT Analyser nicht möglich war. Einmal scheiterte die Erkennung 

an besagtem wo. Von 98 erkennbaren Relativsätzen wurden also 97 entdeckt, was einer 

Quote von 99, 0 Prozent entspricht. 

8.3.6. Verbklammern 

Die Erkennung von Verbklammern grenzt einen Mindestabstand von drei Wörtern zwischen 

der finiten Verbform und dem zugehörigen Rest des Verbs aus, weil sich eine hundertprozentige 

Schließung der Lücke zwischen beiden Teilen aufgrund der häufigen Nachstellung 

des Personalpronomens in der deutschen Sprache nicht verwirklichen lässt und 

kleine Lücken den Übersetzungsprogrammen kaum Schwierigkeiten bereiten dürften. Aus 

diesem Grund beinhaltet auch der Textkorpus mit Verbklammern nur längere Klammern. 

Insgesamt werden drei verschiedene Suchmuster angewandt, wobei sich die Suche stets auf 

einen vollständigen Teilsatz beschränkt, weil Verbklammern nicht teilsatzübergreifend sein 

können. In jedem der drei Fälle wird der Satz vom Ende bis zum Anfang durchlaufen, 

so dass stets zu einem möglichen Ende einer Verbklammer ein passender Anfang gesucht 

wird. Die Suchmuster lehnen sich dabei stark an die in Abschnitt 5.2.1 beschriebenen 

möglichen Arten von Verbklammern an und decken sie ab, wobei sie folgendermaßen 

aussehen: 

• Finites Verb → Zwischenraum → Präfix: Zunächst wird nach einem mit PTKVZ 

getaggten Wort gesucht, das ein Präfix eines zusammengesetzten Verbs darstellt, 

etwa ab in abfahren: Ohne auf Anschlussreisende zu warten, fuhr der Zug ab. Anschließend 

wird der Text weiter nach vorne durchlaufen, bis das erste finite Verb 

gefunden ist, markiert durch die Tags VVFIN für Vollverben, VAFIN für Hilfsverben 

und VMFIN für Modalverben. Überschreitet die dazwischen befindliche Lücke 

das Mindestmaß, wird eine Übersetzungsschwierigkeit erzeugt. 

• Finites Verb → Zwischenraum → Infinitiv(e): Sobald der erste Infinitiv gefunden 

ist, markiert durch die Tags VVINF, VAINF und VMINF, wird nach finiten Formen 

von Modal- oder Hilfsverben gesucht, wie sie in Sätzen wie Das kann ich niemals 

schaffen. oder Eines Tages wirst du ganz vorne sein. vorkommen. Auch finite Formen 

des Vollverbs lassen werden berücksichtigt, da es in gleicher Weise wie Modalverben 

eingesetzt wird. Wenn ein derartiges finites Verb gefunden wurde, ist die 

Verbklammer vollständig und wird als Übersetzungsschwierigkeit gewertet. 

• Finites Hilfsverb → Zwischenraum → Partizip Perfekt: Dieses Muster deckt sämtliche 

zusammengesetzten Verbformen ab, in denen am Ende ein Partizip steht. Wurde 

102

8.4. Weitere Programmmerkmale 

ein Partizip, markiert durch die Tags VAPP, VMPP und VVPP, gefunden, wird der 

Satz in Richtung Anfang durchsucht, bis das erste finite Hilfsverb (konjugierte Form 

von sein oder haben) auftaucht und dann unter Beachtung des Mindestabstands eine 

Übersetzungsschwierigkeit erstellt. 

Der Test mit dem unbearbeiteten Textkorpus zu Verbklammern lieferte ein eindeutiges Ergebnis: 

In den insgesamt 100 Sätzen mit 104 Verbklammern wurden von MT Analyser 98 

Verbklammern erkannt. Die sechs nicht erkannten Verbklammern resultierten aus falschen 

Tagzuweisungen durch TreeTagger. Dabei wurde einmal ein Verbpräfix nicht erkannt, in 

den anderen Fällen wurde bei zweideutigen Verbformen, also solchen, die sowohl finites 

Verb als auch Partizip oder Infinitiv sein können, die falsche Möglichkeit gewählt, so dass 

es nicht möglich war, diese Verbklammern zu finden. Alle erkennbaren Verbklammern 

wurden also auch entdeckt, die Erfolgsquote beträgt somit 100 Prozent. 


Neben der bloßen Bewertung von Texten hinsichtlich ihrer Übersetzbarkeit sind noch einige 

weitere Funktionen in MT Analyser implementiert, die im diesem Abschnitt vorgestellt 

werden. 

8.4.1. Benutzungsmodi 

MT Analyser wurde so implementiert, dass es auf drei verschiedene Weisen eingesetzt 

werden kann: zur Schnellbewertung eines Textes, mit textueller Oberfläche in der Kommandozeile 

und mit grafischer Oberfläche. 

Schnellbewertung 

Der Schnellmodus von MT Analyser kann aus der Kommandozeile heraus aufgerufen 

werden und verlangt als Parameter die Datei mit dem zu bewertenden Text und die Datei 

für den Übersetzbarkeitsreport. Konfigurationsmöglichkeiten bestehen nicht, so dass stets 

alle Textmerkmale gesucht und mit den gespeicherten Indexgewichten bewertet werden. 

Aufrufsyntax: java -jar MTAnalyser.jar Eingabedatei Ausgabedatei 

Textuelle Oberfläche 

Abbildung 8.5.: Hauptmenü im Textmodus 

103


Für den Aufruf des Programms in der Kommandozeile steht eine eigene textuelle Oberfläche 

zur Verfügung, über die auf sämtliche Programmfunktionen inklusive der Hilfe 

zugegriffen werden kann. Aufgrund der Vielzahl an Möglichkeiten (Bearbeitung des Lexikons, 

Auswahl von Textmerkmalen etc.) wurde darauf verzichtet, die Steuerung, wie dies 

bei vielen Hilfsprogrammen üblich ist, über Eingabeparameter zu organisieren. Dies hätte 

zu einer bei der Benutzung nur schwer zu überschauenden Menge an Parametern und 

Parameterkombinationen geführt. Statt dessen wurden auf Höhe und Breite einer typischen 

Kommandozeile (25 x 80) abgestimmte textuelle Menüs geschrieben, aus denen die 

einzelnen Funktionen sich über Zahlencodes aufrufen lassen. Bei sämtlichen Vorgängen, 

die nicht bloß eine Anzeige von Daten beinhalten, wird mit Statusmeldungen über Erfolg 

und Misserfolg unterrichtet. Die Ausgabe der Menüs wird dabei über einen eigenen Ausgabestream 

mit betriebssytemabhängiger Codierung gesteuert, weil der Standardstream 

System.out aufgrund der verschiedenen Codierungen Probleme im Umgang mit Sonderzeichen 

hat. 

Abbildung 8.6.: Auswahl von Textmerkmalen im Bewertungsprozess 

Die Ausnahmebehandlung des Programms funktioniert so, dass normalerweise, wenn zum 

Beispiel die Indexgewichte nicht aus der Konfigurationsdatei gelesen werden konnten, das 

Programm Standardwerte verwendet und nur in kritischen Fällen beendet wird, wenn etwa 

keine Eingaben von der Standardeingabe gelesen werden können. Nach der erfolgreichen 

Bewertung eines Textes wird die allgemeine Textstatistik in der Kommandozeile angezeigt. 

Der ausführliche Übersetzbarkeitsreport wird aus Gründen der Übersichtlichkeit lediglich 

in der benutzerdefnierten Datei gespeichert. 

Die Abbildungen 8.5 und 8.6 zeigen das Hauptmenü und die Auswahl von zu bewertenden 

Textmerkmalen im Textmodus. Verantwortlich für die Ausgabe der passenden Textmenüs 

ist die Klasse UserInterface im Paket mtanalyser.console. 

Aufrufsyntax: java -jar MTAnalyser.jar -c 

104


Abbildung 8.7.: Hauptfenster mit Übersetzbarkeitsreport 

Abbildung 8.8.: Baumdarstellung des Mehrdeutigkeitslexikons 

105


Grafische Oberfläche 

Die Benutzung der grafischen Oberfläche ist der Standardmodus. Die Oberfläche wurde 

komplett in Swing geschrieben, und ihre Darstellung wird von den verschiedenen Klassen 

im Paket mtanalyser.gui übernommen. Das Hauptfenster ist mit einer Menüleiste ausgestattet, 

über die auf sämtliche Funktionen zugegriffen werden kann. Dazu existieren die 

Menüs Programm, Lexikon, Bewertung und Hilfe, die mit Maus oder Tastatur bedient 

werden können. Die Funktionsaustattung der Menüs ist dabei weitestgehend dieselbe wie 

in der textuellen Oberfläche, um keine Umgewöhnung zu erfordern. 

Das Hauptfenster der Anwendung setzt sich darüber hinaus aus drei Komponenten zusammen: 

einer Anzeige des Namens der für die Bewertung ausgewählten Datei, einer JEditorPane 

zur Anzeige des Übersetzbarkeitsreports (ohne Statistik) und einem normalen 

Textbereich zur Anzeige der allgemeinen Textstatistik. Weil die JEditorPane leider nur 

in der Lage ist, HTML in Version 3.2 darzustellen, muss eine zusätzliche, leicht von der 

Reportdatei abweichende Version des Übersetzbarkeitsreports erstellt werden. Ein diesbezüglich 

geeigneteres GUI-Element, das einen Browser einbindet, wie es etwa bei C# 

existiert, gibt es in Swing nicht. 

Die Bewertung von Texten läuft in eigenen Threads ab. Dies hat den Vorteil, dass die 

Oberfläche unabhängig vom Bewertungsvogang weiterhin gezeichnet wird und nicht einfriert“. 

Gleichwohl sind sämtliche Funktionen währenddessen deaktiviert, und eine War- 

” 

tegrafik wird eingeblendet. 

Die Abbildungen 8.7 und 8.8 zeigen das Programm nach der Bewertung einer Datei mit 

dem eingeblendeten Übersetzbarkeitsreport und dem als Baum dargestellten Mehrdeutigkeitslexikon 

in einem eigenen Fenster. 

Aufrufsyntax: java -jar MTAnalyser.jar (-g)? 

8.4.2. Übersetzbarkeitsreport 

Die Ergebnisse der Bewertung werden gespeichert, damit sie anschließend zur Verbesserung 

des zugrundeliegenden Textes herangezogen werden können. Die Speicherung geschieht 

in Form eines temporären Reports zur Anzeige im Hauptfenster des Programms 

und eines persistenten HTML-Dokuments an benutzerdefinierter Position im Dateisystem. 

In jedem Report sind alle Sätze, deren Übersetzungsschwierigkeiten mit Indexpunkten 

sowie der gesamte Indexwert und eine Gesamtstatistik enthalten (vgl. hierzu Abschnitt 

8.4.1). Auch die zugrundeliegende Textdatei und das Erstellungsdatum werden genannt. 

Die Darstellung wird vom Inhalt über eine CSS-Datei getrennt, in der alle wichtigen 

Designvorgaben enthalten sind. Die Datei befindet sich im Installationverzeichnis von 

MT Analyser und wird von allen erzeugten HTML-Dokumenten fest referenziert. 

Abbildung 8.9 zeigt den Anfang einer HTML-Reportdatei. 

Druckfunktion 

Zusätzlich zu dem HTML-Report wurde eine Druckfunktion eingebaut, die es erlaubt, 

einen gerade erstellten Report aus dem Programm heraus auszudrucken. Hierzu wurde die 

Klasse ReportPrinter entworfen, die das Interface java.awt.print.Printable implementiert. 

Die davon bereitgestellte Methode print wird allerdings einmal pro Seite aufgerufen, weshalb 

es unmöglich war, alle Strings für die Druckausgabe auf einmal zu erzeugen und zu 

106


Abbildung 8.9.: Ausschnitt aus HTML-Übersetzbarkeitsreport 

schreiben. Statt dessen muss nach der Erzeugung der zu druckenden Strings zuerst berechnet 

werden, wieviele Seiten zu drucken sind und wieviele Strings auf eine Seite passen. 

Zeilenumbrüche sind ebenfalls zu berücksichtigen. 

Abbildung 8.10.: Klasse AnnotatedString 

Um die einzelnen Strings mit zusätzlichen Angaben zur Ermittlung des Platzbedarfs ausstatten 

zu können, wurde die Klasse AnnotatedString implementiert (siehe Abbildung 

8.10) erzeugt. Im Attribut string wird der ursprüngliche String gehalten, font beinhaltet 

Angaben zur Schriftart, aus denen sich auch die Länge des Strings berechnen lässt. Überschreitet 

ein String die verfügbare Breite, wird er nach dem letzten auf das Blatt passenden 

Zeichen umgebrochen. Das Attribut indentation speichert eine mögliche Einrückung des 

Strings auf dem Blatt, während lineSpacing den Zeilenabstand angibt. 

Nach dem Erstellen der Strings als Vektor und der Berechnung der Größenangaben vor 

dem Ausdruck der ersten Seite wird dann über einen Index geregelt, welche Strings auf 

die aktuelle Seite gehören. 

107


8.4.3. Editierbares Mehrdeutigkeitslexikon 

Ein editierbares Lexikon für mehrdeutige Begriffe ist sinnvoll, weil jedes Fachgebiet, dessen 

Texte übersetzt werden sollen, seine eigene Terminologie mit den ihr eigenen Mehrdeutigkeiten 

besitzt, die im Rahmen dieser Arbeit niemals auch nur annähernd vollständig 

erfasst werden könnten. Vielmehr umfasst das im Programm enthaltene Lexikon nur eine 

recht kleine Anzahl von häufigen mehrdeutigen Begriffen und erwartet von den Benutzern, 

dass sie es ergänzen. Zudem verändert sich der deutsche Wortschatz laufend und mit ihm 

die Mehrdeutigkeiten, so dass ständige Aktualisierungen notwendig sind. 

Abbildung 8.11.: Bearbeiten eines mehrdeutigen Begriffs 

Wie bereits in Abschnitt 7.4.3 beschrieben, stellt die Klasse LexiconHandler Methoden 

zum Einfügen, Löschen und Auslesen bereit, auf die neben dem Algorithmus zum Auffinden 

von Mehrdeutigkeiten auch die Benutzungsoberfläche zugreift. Die GUI bietet hierzu 

ein eigenes Lexikon-Menü an. Bei der Anzeige aller Einträge erscheint zwecks guter Übersichtlichkeit 

ein als JTree implementierter Baum (vgl. Abbildung 8.8), der die Hierarchie 

vom übergeordneten Buchstaben bis zu den verschiedenen englischen Bedeutungen darstellt 

und aus- bzw. zusammenklappbar ist. Die Auswahl eines Eintrags gestattet über eine 

Schaltfläche auch dessen Bearbeitung (zu sehen in Abbildung 8.11). Einträge können direkt 

aus dem Baum gelöscht werden. Neue Einträge werden über einen eigenen Menüpunkt 

hinzugefügt und erfordern mindestens zwei englische Bedeutungen. 

Weil eine derartige Baumdarstellung in einer Kommandozeile leicht sehr unübersichtlich 

wird, werden die verschiedenen Einträge dort seitenweise und ohne ihre Bedeutungen 

aufgelistet. Will man sich einen bestimmten Eintrag anzeigen lassen, so muss man seine 

Grundform eingeben. Gleiches gilt für das Löschen eines Eintrages. Beim Hinzufügen wird 

solange nach neuen Bedeutungen gefragt, bis keine Eingabe mehr erfolgt, wobei auch hier 

mindestens zwei Eingaben erwartet werden (vgl. Abbildung 8.12). 

108


Abbildung 8.12.: Eintrag zum Lexikon hinzufügen 

Direkt nach einer Änderung wird in beiden Benutzungsmodi die Lexikondatei lexicon.xml 

aktualisiert und gegebenenfalls neu geladen, damit die Datensätze, mit denen gearbeitet 

wird, stets aktuell sind. 

8.4.4. Konfigurationsmöglichkeiten 

Die Gewichte der einzelnen Textmerkmale sind zwar empirisch ermittelt worden und beschreiben 

den Einfluss eines Textmerkmals auf die Übersetzbarkeit eines Textes sehr gut, 

wie in Abschnitt 6.2 dargestellt. Andererseits kann es durchaus sinnvoll sein, die Werte zu 

ändern und auf ein bestimmtes Übersetzungsprogramm abzustimmen, das mit dem einen 

oder anderen Textmerkmal besser oder schlechter zurechtkommt als der Durchschnitt. 

Indexgewichte setzen 

Daher wurde eine Funktion zum Setzen der Indexgewichte implementiert. Sie lässt sich 

in der textuellen Oberfläche direkt aus dem Hauptmenü aufrufen und fragt nacheinander 

alle Indexgewichte ab. In der grafischen Oberfläche steht dazu das Menü Bewertung zur 

Verfügung. Im Untermenü Gewichte der Textmerkmale lassen sich neue Gewichte direkt 

eingeben und speichern. Geänderte Gewichte werden in der Datei weights.txt gespeichert 

und bei Bedarf ausgelesen. Die Standardgewichte der Gewichte sind fest in der Klasse 

SentenceAnalyser hinterlegt, so dass die aktuellen Gewichte jederzeit wieder zurückgesetzt 

werden können. In Abbildung 8.13 ist das GUI-Menü für die Indexgewichte zu sehen. 

Textmerkmale an- und abwählen 

Die einzelnen Textmerkmale können aus denselben Gründen, aus denen ihre Gewichte 

manuell eingestellt werden können, auch an- und abgewählt werden. In der grafischen 

Oberfläche geschieht dies über das Menü Bewertung, das in Abbildung 8.14 zu sehen ist. 

In der textuellen Oberfläche ist dies etwas anders geregelt: Hier wird vor jeder Bewertung 

gefragt, ob alle Merkmale bewertet werden sollen. Wird dies verneint, kann aus einer 

109


Abbildung 8.13.: Angabe neuer Gewichte für die Textmerkmale 

Liste der Textmerkmale über Zahlencodes solange an- und abgewählt werden, bis die 

gewünschte Konfiguration erreicht ist (vgl. Abbildung 8.6). 

Abbildung 8.14.: An- und Abwahl von Textmerkmalen 

TreeTagger konfigurieren 

Weil TreeTagger von MT Analyser benötigt wird, aber nicht im Programm selbst enthalten 

ist, muss dem Programm ein Pfad angegeben werden, unter dem es TreeTagger 

ausführen kann (Aufruf siehe Abschnitt 8.1.2). Aus den Benutzungsoberflächen heraus 

kann dieser Pfad gesetzt werden, der stets absolut sein und zum Verzeichnis der auszuführenden 

Datei führen muss. Dabei unterscheidet MT Analyser mit Hilfe der entsprechenden 

Umgebungsvariablen zwischen den verschiedenen Betriebssystemen, in denen jeweils 

unterschiedliche Dateien auszuführen sind. Die Pfadangaben werden bei Bedarf aus 

der Datei treetagger.txt ausgelesen. 

Nach Neuangabe eines Pfades wird im Textmodus automatisch ein Test vorgenommen, ob 

TreeTagger mit den neuen Angaben erfolgreich ausgeführt werden kann. Dazu wird eine 

110


Abbildung 8.15.: Angabe und Test eines Pfades zu TreeTagger 

Testdatei mit zufälligem Namen erzeugt, getaggt und wieder gelöscht. Bei Benutzung der 

grafischen Oberfläche muss der Test aus dem Programm-Menü heraus manuell gestartet 

werden. Fehlschlag und Erfolg werden stets bekanntgegeben. Abbildung 8.15 zeigt die 

Angabe eines neuen Pfades im Textmodus. 

8.4.5. Hilfe 

MT Analyser enthält zu jeder seiner Funktionen ausführliche Hilfestellungen und Erklärungen. 

Die zugehörigen Texte wurden ins Programm integriert und können aus dem 

Hauptfenster in der grafischen bzw. aus dem Hauptmenü in der Textversion über das 

Hilfe-Menü aufgerufen werden. 

Abbildung 8.16.: Hilfemenü in der grafischen Oberfläche 

Implementiert ist die Hilfe in der grafischen Oberfläche als zweigeteiltes Fenster, in dem 

links die verschiedenen Hilfepunkte, nach Themen geordnet, aufgelistet sind und rechts 

die jeweiligen Texte eingeblendet werden. Die Texte selbst sind wiederum kleine HTML- 

Fragmente, die in der Klasse HelpTextsGui gespeichert und bei Auswahl des entsprechenden 

Punktes geladen werden. Ein Index oder eine Suchmaske, wie bei zahlreichen 

111


Anwendungen vorhanden, existiert nicht, weil die Anzahl der Stichpunkte vergleichsweise 

gering und recht übersichtlich ist. Abbildung 8.16 zeigt das Fenster des Hilfemenüs. 

Abbildung 8.17.: Hilfemenü in der textuellen Oberfläche 

In der Textversion gibt es hingegen ein Menü mit allen Hilfeeinträgen, die dann über 

Zahlencodes angezeigt werden können. Die Texte sind gegenüber der GUI-Version leicht 

angepasst, weil sich der Aufruf einiger Funktionen unterscheidet. Außerdem handelt es 

sich diesmal um normale Texte ohne HTML-Markup. Gespeichert sind sie in der Klasse 

HelpTextsConsole. Abbildung 8.17 zeigt das Hilfemenü. 

8.4.6. Systemanforderungen und Laufzeit 

MT Analyser wurde auf drei Rechnerkonfigurationen getestet, wobei, um die Laufzeit der 

Bewertung zu ermitteln, Texte mit 100 Sätzen analysiert wurden (soweit möglich ohne 

weitere, gleichzeitig im Hintergrund laufende Programme, um MT Analyser vollen Zugriff 

auf die Systemressourcen zu ermöglichen). 

Zunächst fiel allerdings der hohe Speicherbedarf des Programms auf: Nach Abschluss 

der Bewertung eines Textes nahm es rund 90 MB Arbeitsspeicher ein. Allerdings ließ 

sich dieser enorme Bedarf durch gezieltes Aufrufen des Garbage Collectors von Java auf 

maximal rund 30 MB reduzieren, was für die Komplexität der Algorithmen und die Anzahl 

der zu analysierenden Daten angemessen erscheint. (Dabei stellt sich konsequenterweise 

die Frage, warum die automatische Freigabe nicht mehr gebrauchter Ressourcen in Java 

offenbar so schlecht funktioniert.) TreeTagger nahm zusätzlich während der Ausführung 

über 100 MB ein. 

Getestet wurde auf folgenden Systemen: 

• mobile AMD Athlon XP-M 2500+; 1,86 GHz; 512 MB RAM; Windows XP Home 

Edition, Service Pack 2 

• AMD Athlon 64 X2 Dual Core 3800+; 2,01 GHz; 1 GB RAM; Fedora Core 6, Linux- 

Version 2.6.19 

• Sun SPARC Fire V880 mit 8 CPUs (je 1200 MHz); insges. 32 GB RAM; Solaris 9 

112

8.5. MT Analyser Web 

Auf allen Rechnern betrug die Ausführungszeit einer Textbewertung für 100 Sätze zwischen 

maximal 15 Sekunden auf dem Windows-Rechner und minimal fünf Sekunden auf 

den anderen Rechnern, die mehr RAM hatten. Bei der Bewertung der Textmerkmale 

benötigte der Algorithmus für Nominalklammern mit etwa fünf Sekunden auf dem Windows-Rechner 

die meiste Zeit, weil hier zahllose Abgleiche mit einem sehr großen regulären 

Ausdruck erfolgen. Insgesamt hält sich die Berechnungszeit einer Textanalyse also in akzeptablem 

Rahmen. 

8.5. MT Analyser Web 

Neben MT Analyser wurde noch eine leicht modifizierte Version des Programms als Webanwendung 

implementiert, daher die Bezeichnung MT Analyser Web. Im Gegensatz zu 

MT Analyser dient die Webanwendung weniger für den Produktiveinsatz als vielmehr als 

Vorführung für Menschen, die sich für maschinelle Übersetzung interessieren. 

8.5.1. Zusätzliche Hilfsmittel 

Weil das gesamte Programm bereits in Java geschrieben war, wurden Java Server Pages 

(JSP) benutzt, um die Weboberfläche zu erstellen. Als Server wurde Apache Tomcat 

5.5.x eingesetzt. Darüber hinaus wurden zwei weitere Hilfspakete der Apache-Jakarta- 

Projekts verwendet 2 : commons.fileupload und commons.io. Sie werden benötigt, um das 

Heraufladen von Dateien zur Bewertung zu ermöglichen, das standardmäßig nicht in der 

JSP-Spezifikation vorgesehen ist. 

8.5.2. Unterschiede zu MT Analyser 

Im wesentlichen benutzt MT Analyser Web dieselben Klassen, Attribute und Methoden 

wie auch MT Analyser, jedoch wurden einige Funktionen leicht verändert oder gestrichen. 

Entfallen sind insbesondere die Funktionen zum Bearbeiten des Mehrdeutigkeitslexikons. 

Diese werden für eine Demonstration der Bewertungsfunktion nicht unbedingt benötigt, 

und darüber hinaus beugt es Missbrauch vor, wenn Außenstehende keinen Zugriff auf 

die Lexikondatei haben und nicht nach Belieben falsche Einträge hinzufügen oder bereits 

bestehende löschen können. Dies würde zu einer Verfälschung der Analyse führen. 

Aus demselben Grund nicht vorhanden sind auch die Funktionen zum persistenten Setzen 

der Indexgewichte und zum Ändern der TreeTagger-Anbindung. Die zugehörigen Angaben 

sind in der Klasse SentenceAnalyser und in der Datei web.xml gespeichert und werden 

bei Bedarf von dort ausgelesen. Letztere können gegebenenfalls Systemadministratoren 

mit Zugriff auf den Server ändern. 

Hinzugefügt wurde ein Servlet, das die Interaktion zwischen den ausschließlich für die 

Datenaus- und -eingabe genutzten JSP-Seiten und dem Programmkern ermöglicht, indem 

es die Eingaben formatiert und an die Bewertungsfunktionen weiterleitet und die 

Ergebnisse angemessen formatiert zurückgibt, sowie ein Listener, der einen Upload abbricht, 

wenn die maximale Dateigröße (100 KB) überschritten wird. 

2 Im Internet erreichbar unter: http://jakarta.apache.org/commons/index.html, zuletzt besucht am 

8. April 2007 

113


8.5.3. Benutzungsoberfläche 

Die Weboberfläche bietet zwei Modi zur Benutzung des Programms: einen einfachen, bei 

dem nur eine Textdatei zur Bewertung hochgeladen muss und anschließend alles mit den 

Standardgewichten bewertet wird, und einen erweiterten, bei dem neben der Textdatei 

auch noch ausgewählt werden kann, welche Textmerkmale mit welchen Gewichten bewertet 

werden sollen. Beide Einstellungen werden nicht gespeichert und daher bei jedem 

neuen Aufruf der Seite auf ihre Standardwerte zurückgesetzt. 

Abbildung 8.18.: MT Analyser Web: Erweiterter Übersetzungsmodus 

Als Übersetzbarkeitsreport wird ausschließlich eine HTML-Datei mit zufälligem Dateinamen 

generiert, auf die nach dem Bewerten verwiesen wird. Diese bleibt allerdings aus 

Platzgründen nur eine Stunde lang gespeichert (ebenso die hochgeladenen Textdateien 

und die reformatierten bzw. getaggten Versionen davon) und wird nach Ablauf dieser 

Zeitspanne bei Erstellung des nächsten Übersetzbarkeitsreports gelöscht, um nicht unnötig 

Festplattenspeicher zu belegen. 

Weil im Gegensatz zu MT Analyser bei diesem Demonstrationsprogramm nicht vorausgesetzt 

werden kann, dass die Nutzer nennenswertes Vorwissen über die deutsche Grammatik 

mitbringen, werden bei der Benutzung stets umfangreiche Zusatzinformationen zum 

Index und zu den Textmerkmalen angeboten. 

Abbildung 8.18 zeigt den Anfang der Seite zur Textbewertung im erweiterten Modus. 

114

Teil IV. 

Fazit und Ausblick 

115

9. Zusammenfassung der Ergebnisse 

Der erste Teil dieser Arbeit bot eine kurze Einführung in den Stand der Technik der 

maschinellen Übersetzung, erläuterte zentrale, noch bestehende Probleme und zeigte die 

gängigsten Lösungsansätze auf, unter anderem Übersetzbarkeitsmaße. 

Aufbauend auf den diesbezüglichen Vorarbeiten und einer ausführlichen Analyse von Textmerkmalen 

der deutschen Sprache, die für automatische Übersetzungen als hinderlich 

gelten oder angesehen werden können, wurde im zweiten Teil ein Übersetzbarkeitsindex 

erstellt, der einen numerischen Wert für die maschinelle Übersetzbarkeit eines einzelnen 

Satzes oder eines ganzen Textes vom Deutschen ins Englische angibt. Es wurde zudem 

gezeigt, dass die Höhe der Indexwerte in linearer Abhängigkeit zur (durchschnittlichen) 

Fehlerzahl eines Satzes steht. 

Im dritten Teil wurde schließlich vorgeführt, wie sich der Übersetzbarkeitsindex mit Hilfe 

des Programms MT Analyser für gegebene Texte automatisch errechnen lässt, wofür 

unter anderem Algorithmen zur detaillierten Analyse der jeweiligen Sätze und zum Auffinden 

der relevanten Textmerkmale implementiert und vorgestellt wurden. Tests zeigten, 

dass diese Algorithmen sowohl mit hoher Vollständigkeit als auch mit hoher Genauigkeit 

arbeiten. 

116

10. Ansätze zur Weiterentwicklung 

Erweiterung des Indexes 

Im Rahmen dieser Arbeit konnten sicherlich nicht alle Textmerkmale der deutschen Sprache 

überprüft werden, die für die Qualität maschineller Übersetzungen tatsächlich relevant 

sind. Es böte sich also an, weitere Textmerkmale, für die die Annahme besteht, sie könnten 

sich negativ auf das Ergebnis maschineller Übersetzungen auswirken, empirisch zu untersuchen 

und sie gegebenenfalls mit passender Gewichtung in den Übersetzbarkeitsindex 

und – mit geeigneten Suchalgorithmen – auch in MT Analyser aufzunehmen. 

Verbesserung der Algorithmen 

Wie bereits öfter im Verlauf der Arbeit erwähnt, ist die grammatikalische Information, auf 

die bei der Verarbeitung eines Satzes zugegriffen werden kann, nicht immer ausreichend. 

So fehlen etwa Angaben zu Kasus, Numerus und Genus von Nomina, die verwendet werden 

könnten, um beispielsweise die Erkennung von Inversionen und Nominalklammern zu 

verbessern; bei den Algorithmen von MT Analyser gibt es trotz hoher Erfolgsquote noch 

Fälle, in denen eine sichere, eindeutige Erkennung nicht möglich ist, durch zusätzliche 

grammatikalische Angaben aber ermöglicht würde. Auch lassen sich mit großer Wahrscheinlichkeit 

noch Sonderfälle der deutschen Sprache finden, in denen die jetzigen Algorithmen 

versagen, obwohl eine Erkennung möglich wäre. Und die Arbeit der Algorithmen 

zur Teilsatzanalyse liefert zwar sehr gute, aber eben nicht perfekte Ergebnisse, so dass 

hier auch noch Raum für Optimierungen besteht. 

Anpassung für andere Sprachen 

Probleme mit maschinellen Übersetzungen sind nicht nur auf die deutsche Sprache beschränkt. 

Daher erscheint es sinnvoll, Versionen von MT Analyser auch für die Bewertung 

von Texten anderer Sprachen zu erstellen. Natürlich müsste dem die empirische Ermittlung 

eines neuen Übersetzbarkeitsindexes vorausgehen. Denkbar ist auch die Ermittlung 

weiterer Indizes für die deutsche Sprache, etwa zur Bewertung eines deutschen Textes, 

der ins Französische übersetzt werden soll. Ansatzpunkte für die Auswahl möglicherweise 

relevanter Textmerkmale bietet diese Arbeit genug. 

Einbindung in ein Übersetzungsprogramm 

Ein weiterer Ansatz ist, die Algorithmen von MT Analyser ganz oder teilweise in ein Übersetzungsprogramm 

zu integrieren, um vor der Übersetzung bereits zu wissen, dass etwa 

bestimmte Sätze mit hohen Indexwerten viele Fehler hervorrufen könnte. Das Programm 

117

10. Ansätze zur Weiterentwicklung 

könnte dann eine Nachricht mit den gefundenen Problemen erzeugen und darum bitten, 

den vorliegenden Text entsprechend zu überarbeiten, um die Fehlerzahl zu minimieren. 

Entwurf einer kontrollierten Sprache 

Zwar wurde in dieser Arbeit keine kontrollierte Sprache erstellt, wie es sie gerade für das 

Englische zuhauf gibt, doch lassen sich aus den hier gefundenen relevanten Textmerkmalen 

Regeln ableiten, die für eine kontrollierte Version der deutschen Sprache als Grundlage 

dienen könnten. So wäre es beispielsweise denkbar, im Rahmen einer solchen Sprache 

Verbklammern großer Länge zu verbieten. 

118

Glossar 

A 

Abgetrenntes Kompositionsglied Für sich allein stehender Teil eines Kompositums, 

dessen zugehörige Ergänzung durch einen Bindestrich an Wortanfang oder 

Wortende angedeutet wird. 

ALPAC-Report 1966 erschienene, vielbeachtete US-amerikanische Studie zu den Fortschritten 

der maschinellen Übersetzung mit vernichtendem Gesamturteil. Brachte 

die Forschung auf diesem Gebiet insbesondere in den USA fast zum Erliegen. 

Atomarer Teilsatz Teilsatz, der sich nicht anhand von Interpunktion in kleinere Teilsätze 

zerlegen lässt, also keine Satzzeichen mehr aufweist. 

B 

Babel Fish Für die Analyse der verschiedenen Textmerkmale eingesetzte, kostenlos nutzbare 

Online-Übersetzungssoftware, die von der Firma Systran bereitgestellt 

wird. 

C 

Chunker 

Programm, das Sätze in ihre Phrasenstruktur aufteilt, die vor allem aus Verbalphrasen 

und Nominalphrasen besteht. 

Computerunterstützte Übersetzung (CÜ) Von Menschen vorgenommene Übersetzung 

eines Textes von einer beliebigen natürlichen Ausgangssprache in eine oder 

mehrere natürliche Zielsprachen, wobei unterstützende Programme Übersetzungshilfen 

bereitstellen. 

D 

Diskursrepräsentationsstruktur (DRS) Erweiterung der Prädikatenlogik erster Ordnung, 

um Bezüge und kontextabhängige Bedeutungen in geschriebenen Texten 

satzübergreifend erfassen und darstellen zu können. 

Dokumenttypdefinition (DTD) Regelsatz, der festlegt, wie Dokumente bzw. Datensätze 

eines bestimmten Typs aufgebaut sein müssen, um gültig zu sein. 

119

GLOSSAR 

E 

EG-Kommission Vorläufer der heutigen EU-Kommission, die seit November 1993 die 

Exekutive der Europäischen Union darstellt. 

Ellipse 

Auslassung eines oder mehrerer Worte innerhalb eines Satzes. 

Europäische Gemeinschaft(en) (EG) Vor allem wirtschaftlicher Bund verschiedener 

europäischer Staaten, gegründet 1957 (zunächst nur Europäische Wirtschaftsgemeinschaft 

[EWG]). Vorläufer der Europäischen Union und heute eine ihrer 

drei tragenden Säulen. 

G 

Garbage Collector (GC) Java-interne Routine, die nicht mehr benötigte Systemressourcen 

automatisch wieder freigibt. 

Gegenhypothese Oft mit H 1 und als Alternativhypothese bezeichnet; Annahme, dass 

ein bestimmter Zusammenhang besteht. 

Genus verbi Von lat. genus verbi = (wörtl.) Geschlecht des Verbs; drückt im Deutschen 

durch Flexion des Verbs die Rolle des Subjekts im Satz aus und kann entweder 

aktiv (das Subjekt nimmt eine Handlung vor) oder passiv (an dem Subjekt 

wird eine Handlung vorgenommen) sein. 

Georgetown-Experiment Erste öffentlichkeitswirksame Vorführung eines Computers zur 

maschinellen Übersetzung einfacher russischer Texte ins Englische an der Universität 

von Georgetown nahe Washington in den USA am 7. Januar 1954. 

H 

Homograph 

Wort aus einer Gruppe verschiedener Wörter gleicher Schreibung. 

I 

Interlingua Abgeleitet von lat. interlingua = Zwischensprache. Sprachunabhängige Darstellung 

eines Textes nach seiner grammatikalischen und semantischen Analyse, 

die als Grundlage der Übersetzung in die Zielsprache dient. 

Inversion der Wortstellung Im Kontext dieser Arbeit: grammatikalisch korrekte Abweichung 

von der je nach Satztyp üblichen Wortstellung im Deutschen. 

K 

Kompositum Aus zwei oder mehreren Wörtern oder Wortstämmen zusammengesetzter 

Begriff. 

Kongruenz Übereinstimmung grammatikalischer Eigenschaften verschiedener Wörter; 

besonders bekannt: KNG-Kongruenz als Gleichheit von Kasus (Fall), Numerus 

(Zahl) und Genus (grammatisches Geschlecht) bei zusammengehörigen 

Wörtern. 

120

GLOSSAR 

M 

Maschinelle oder automatische Übersetzung (MÜ) Von Computerprogrammen vorgenommene 

Übersetzung eines Textes von einer beliebigen natürlichen Ausgangssprache 

in eine oder mehrere natürliche Zielsprachen. 

Mehrdeutigkeit Im Kontext dieser Arbeit: deutscher Begriff mit mehreren sinnverschiedenen 

Bedeutungen, der im Englischen in Abhängigkeit vom jeweiligen Sinn 

auf unterschiedliche Weise übersetzt werden muss. 

MT Analyser Programm zur automatischen Messung der Übersetzbarkeit deutscher 

Texte ins Englische; kann über grafische Oberfläche und Kommandozeile benutzt 

werden. 

MT Analyser Web 

Online-Version von MT Analyser. 

Neologismus 

Neues, meist überaus ungewöhnliches oder unerwartetes Wort. 

N 

Nominalklammer Besondere Form einer Nominalphrase, bei der mindestens eine Nominalphrase 

von einer anderen Nominalphrase eingeschlossen wird und vor deren 

Nomen (Kopf) als Attribut steht. 

Nominalphrase Phrase aus einem Substantiv oder Pronomen, die um Attribute wie 

Adjektive, Artikel oder weitere Nominalphrasen erweiterbar ist. 

Nullhypothese Oft mit H 0 bezeichnet; Annahme, dass ein bestimmter Zusammenhang 

nicht besteht. 

P 

P(A) 

P(A|B) 

Wahrscheinlichkeit P , dass Ereignis A eintritt. 

Bedingte Wahrscheinlichkeit P dass Ereignis A eintritt, wenn bereits Ereignis 

B vorliegt. 

Part-of-Speech-Tagging (PoS-Tagging) 

Wörter eines Textes. 

Auszeichnung der Wortarten der einzelnen 

Personal Translator 2006 Für die Analyse der verschiedenen Textmerkmale genutzte, 

kommerzielle Übersetzungssoftware, die von der Firma Linguatec produziert 

wird. 

Präpositionalphrase Phrase, die aus einer Präposition mit darauffolgender Nominalphrase 

besteht. 

121

GLOSSAR 

S 

Signifikanzniveau Grenzwert für die Wahrscheinlichkeit eines Ereignisses bei vorausgesetzter 

Nullhypothese, bei dessen Unterschreiten ein Ergebnis als signifikant 

gilt und die Nullhypothese verworfen wird. Wird meist mit α bezeichnet und 

auf α = 0, 05 gesetzt. 

Standard Generalized Markup Language (SGML) Metasprache, die die Definition von 

Auszeichnungssprachen wie HTML und XML erlaubt. 

Statistische Signifikanz Bedeutsamkeit eines durch statistische Auswertungen erhaltenen 

Ergebnisses. Als signifikant gelten nur Ergebnisse mit geringer Irrtumswahrscheinlichkeit. 

Stuttgart-Tübingen-Tagset (STTS) 

Textkorpora. 

Richtlinien zum Part-of-Speech-Tagging deutscher 

T 

Textkorpus Allgemein Sammlung von Texten; in dieser Arbeit normalerweise Sammlung 

zahlreicher deutscher Sätze, die ein bestimmtes Textmerkmal gemeinsam 

haben oder von diesem Textmerkmal befreit wurden. 

Translation Memory (TM) Übersetzungsspeicher, in dem zu bereits übersetzten Textfragmenten 

der Ausgangssprache die in der Zielsprache gewählten Übersetzungen 

gespeichert werden. 

TreeTagger PoS-Tagger für deutsche Texte, der an der Universität Stuttgart entwickelt 

wurde und von MT Analyser benutzt wird. 

Ü 

Übersetzbarkeit Ordinales oder intervallskaliertes Maß, das beschreibt, wie gut ein Text 

mittels maschineller Übersetzung von einer natürlichen Ausgangssprache in 

eine oder mehrere natürliche Zielsprache übersetzt werden kann. 

V 

Verbklammer Auch Verbal- oder Satzklammer; Form des Satzbaus, bei dem ein zweiteiliges 

Prädikat Teile des Satzes zwischen seinen Bestandteilen einschließt. 

122

Stichwortverzeichnis 

Abstract Window Toolkit, 76 

Adjektiv, 18, 23, 24, 53, 76, 96, 100 

Adjektivphrase, 98, 100 

Adverb, 18, 23, 27, 76, 96, 98 

ALPAC-Report, 14, 32 

Analyse 

morphologische, 15 

semantische, 15 

Anforderungen 

funktionale, 74 

nicht-funktionale, 75 

Annotationssprache, 15 

Apache Tomcat, 113 

Artikel, 24, 52, 53, 98, 99, 101, 102 

Attempto Controlled English, 22, 23 

Ausdruck 

regulärer, 98 

Ausgangssprache, 12–17, 25, 73 

Babel Fish, 11, 19, 32, 34, 47, 54, 56, 59, 

63, 65, 70 

Basic English, 24 

Beiordnung, 27, 31 

Bindestrich-Ellipse, 46 

Brill-Tagger, 77 

CÜ-Software, 13 

C#, 106 

Chunker, 97 

CSS, 106 

Diskursrepräsentationsstruktur, 22 

EG-Kommission, 14 

Ellipse, 30, 46–49, 61, 62, 95 

Entscheidungsbaum, 77 

Europäische Gemeinschaft, 14 

Fehlerzahl, 31, 33, 38, 39, 54, 56, 66, 77, 

116 

absolute, 33–35, 38, 39, 43, 47, 51, 54, 

56, 59, 69, 71 

pro Wort, 33, 34, 38, 44, 47, 48, 51, 

54, 56, 59, 68, 70 

relative, 35, 44, 51 

Veränderung, 33, 35, 38, 41, 42, 44, 

47, 51, 56, 59–63, 67 

Fragesatz, 23, 58, 89 

Garbage Collector, 112 

Gegenhypothese, 35, 61 

Georgetown-Experiment, 13 

Google, 55 

Hauptsatz, 21, 23, 43, 58, 74, 81, 86, 89– 

96 

Homograph, 18, 27, 31 

HTML, 106, 111, 112, 114 

IBM, 25, 26, 76 

Interlingua, 16, 23, 25 

Internet, 14 

Interpunktion, 34, 86 

Java, 75, 112, 113 

Java Server Pages, 113 

Jongejan, Bart, 77 

KANT Controlled English, 23, 24 

Kommandozeile, 12, 75, 103, 104, 108 

Kompositionsglied, 47 

abgetrenntes, 46, 48, 62, 66, 67, 69, 

76, 80, 94, 95 

Kompositum, 18, 19, 24, 45, 50, 55–57 

Nominalkompositum, 19, 27, 37, 49, 

55, 56, 60, 62, 63 

Kongruenz, 23 

Konjunktion, 39, 46, 89, 90, 95, 96, 98, 99 

unterordnende, 89, 91 

Korpus, 14, 31, 34, 38, 40, 41, 45, 47–53, 

55, 56, 60, 65, 69, 95, 97 

123


Lexikon, 13, 23, 24, 30, 45, 82, 84, 97, 104, 

108 

Mehrdeutigkeitslexikon, 77, 82, 84, 96, 

106, 108, 113 

Linguatec, 32 

Linguistic Annotation Language, 18, 25 

Linux, 75, 76, 85, 112 

Logos, 13, 25 

Logos Translatability Index, 25, 27, 37, 

66 

Mehrdeutigkeit, 18, 22–25, 30, 37, 43, 44, 

61, 66, 67, 69, 74, 75, 80, 82, 94, 

96, 97, 108 

lexikalische, 18, 23, 43 

strukturelle, 18, 43 

MetaTexis, 13 

MT Analyser, 73–75, 77, 85, 90, 94, 95, 

101–103, 106, 110–114, 117 

MT Analyser Web, 113 

MÜ-Programm, 27, 30–32, 34, 38, 41, 44, 

55, 65, 74 

MÜ-System, 13, 14, 18, 20, 21, 24–26, 29, 

30, 45, 56 

multilinguales, 16 

Nachbearbeitung, 14, 73 

Nachbearbeitungsaufwand, 33, 56 

Nebensatz, 23, 27, 30, 37, 39–43, 53, 58, 

61, 65, 80, 81, 86, 88–96, 101 

Finalsatz, 74 

Kausalsatz, 89 

Konditionalsatz, 89, 90 

konjunktionsloser, 89 

Konzessivsatz, 74 

Lokalsatz, 102 

Objektsatz, 90 

Relativsatz, 23, 39–42, 61, 66, 67, 80, 

86, 91–94, 102 

Temporalsatz, 39, 91 

Negation, 23, 98 

Neologismus, 30 

Nomen, 20, 52, 53, 76, 100 

Eigenname, 20, 24, 30, 33, 34, 100 

Genus, 39 

Kasus, 39 

Numerus, 39 

Personenname, 20, 33, 34 

Pronomen, 96, 98–102 

Demonstrativpronomen, 99, 100 

Indefinitpronomen, 99, 100 

Interrogativpronomen, 89, 101 

Personalpronomen, 53, 96, 100 

Possessivpronomen, 43, 99, 100 

Reflexivpronomen, 100 

Relativpronomen, 23, 39, 40, 43, 89, 

91, 101, 102 

Substantiv, 18, 19, 23, 24, 43, 53, 100 

Nominalklammer, 30, 37, 49, 52–55, 62, 

63, 66–68, 74, 80, 86, 97–101, 113 

Nominalphrase, 52, 97–100 

Nullhypothese, 35, 36, 61 

Oberfläche 

grafische, 12, 75, 77, 103, 106, 109, 

111 

textuelle, 77, 103, 104, 106, 109 

Weboberfläche, 114 

Ogden, Charles Kay, 24 

opentrad, 11 

Part-of-Speech-Tagger, 76 

Partikel, 96 

Vergleichspartikel, 99 

Personal Translator 2006, 11, 21, 32, 34, 

47, 49, 56, 57, 63, 65, 70 

Plattformunabhängigkeit, 75 

Präfix, 24, 50, 102 

Präposition, 20, 30, 33, 43, 46, 57, 96, 98, 

99 

Präpositionalphrase, 23, 27, 53 

Projekt Deutscher Wortschatz, 45 

Reduktionsbaum, 100, 101 

Reformatierung, 85 

Regression 

lineare, 71 

REWERSE, 22 

Satzanalyse, 86, 94 

Hierarchisierung atomarer Teilsätze, 

91, 92 

Kategorisierung atomarer Teilsätze, 88, 

91, 92 

Zerlegung in atomare Teilsätze, 86, 88 

Zusammenfügen atomarer Teilsätze, 

92 

124


Satzklammer, 49 

Satzlänge, 27, 30, 31, 37–39, 60, 63, 66, 

68, 69 

Satzteil, 33, 39 

Schmid, Helmut, 76 

Schnellbewertung, 103 

Schreibstil 

elliptischer, 37, 61 

Seltenheit von Wörtern, 30, 37, 45 

SGML, 23 

Signifikanz, 29, 35, 36, 60 

Signifikanzniveau, 36, 61 

Signifikanztest, 33, 35, 60 

Solaris, 75, 76, 85, 112 

Sprache 

Chinesisch, 21 

Dänisch, 40 

Deutsch, 18, 25, 31, 34, 41, 50, 57, 73, 

89, 92, 116 

deutsche, 12, 18, 20, 45, 47, 52, 58, 

118 

Englisch, 18, 20, 25, 30, 31, 33, 34, 39, 

40, 53, 57, 73, 116, 118 

englische, 13, 23, 24, 27, 29, 32, 40 

Esperanto, 24 

Französisch, 25, 117 

germanische, 29, 55 

indogermanische, 21 

kontrollierte, 15, 20, 22, 24, 46, 74, 

118 

Lingua franca, 24 

natürliche, 18, 22 

Niederländisch, 52 

romanische, 19, 53, 55 

russische, 13 

Spanisch, 18, 40, 53 

Standard Widget Toolkit, 76 

Stuttgart-Tübingen-Tagset, 76, 77, 98 

Suffix, 24 

Sun Microsystems, 75 

Swing, 76, 106 

Systran, 11, 13, 14, 32 

Teilsatz, 74, 78, 80, 82, 86–96, 98, 101, 

102 

atomarer, 78, 86, 87, 91 

ungebundener, 90, 92, 93 

Textkorpus, 17, 29, 31–35, 38, 39, 41–45, 

47, 48, 50, 51, 54–56, 59–61, 63, 

65, 67, 69, 77, 94, 96, 97, 100–103 

Textmerkmal, 26, 29–31, 33, 35–37, 60– 

63, 66–69, 71, 74–78, 80–82, 86, 

90, 92, 94, 101, 103, 104, 109, 110, 

113, 114, 116, 117 

allgemeines, 12, 37 

Gewichtung, 68, 75 

sprachspezifisches, 12, 37, 50 

Transfer, 15, 16 

Translatability Checker, 26, 27, 37, 39, 

66, 77 

Translation Confidence Index, 26, 27, 66 

Translation Memory, 13 

TreeTagger, 76–78, 85, 89, 90, 94, 96, 97, 

101–103, 110, 112, 113 

Twain, Mark, 11, 15 

Übersetzungstechnik, 14 

Übersetzbarkeit, 12, 15, 25, 28–30, 35, 37, 

39–41, 51, 54, 61, 62, 66–70, 74, 

75, 77, 78, 103, 109 

eines Textes, 73 

Übersetzbarkeitsfunktion, 69, 71 

Übersetzbarkeitsindex, 12, 27, 29, 31, 36, 

60–63, 66, 69, 74, 78, 80, 82, 116, 

117 

Bewertung der Satzlänge, 68, 71 

eines Satzes, 68 

eines Textes, 67 

Indexgewichte, 104, 109, 113 

Übersetzbarkeitsmaß, 22, 25, 61, 116 

Übersetzbarkeitsreport, 77, 97, 103, 104, 

106, 114 

Übersetzer, 12 

Übersetzung, 12–15, 17, 21, 22, 25, 26, 

29–33, 37–45, 47, 49, 52–59, 61– 

63, 65, 67, 70, 116, 117 

automatische, 12–14, 24, 50 

computerunterstützte, 13 

maschinelle, 11, 13, 14, 18, 30, 53, 73, 

116, 117 

beispielbasierte, 17 

direkte, 15 

statistische, 16, 17 

Übersetzungscomputer, 13 

125


Übersetzungsprogramm, 11, 12, 14, 26, 

31, 34, 40, 42, 44–46, 48, 50, 52, 

54, 57, 60, 63, 73, 74, 109, 117 

Übersetzungsqualität, 12, 17, 29, 31–33, 

35–37, 39, 43, 45, 47, 53, 55, 59, 

60, 66, 67, 69 

Übersetzungsschwierigkeit, 12, 31, 63, 75, 

78, 80, 82, 96, 102, 103, 106 

Übersetzungstechnik, 15, 17 

UML 

Klassendiagramm, 78 

Sequenzdiagramm, 81 

Underwood, Nancy, 77 

Universität 

Carnegie Mellon, 23 

Leipzig, 14, 45, 55 

Stuttgart, 76 

Tübingen, 76 

Zürich, 22 

Verb, 18, 20, 23, 24, 26, 50, 74, 76, 95, 102 

Aspekt, 20 

finites, 26, 50, 58, 76, 88–92, 95, 96, 

101–103 

Abwesenheit, 31 

Genus verbi, 76 

Hilfsverb, 49, 50, 76, 102, 103 

Infinitiv, 49, 50, 89, 90, 96, 102, 103 

erweiterter, 50, 58, 88–90, 92–96 

mit zu, 88, 89 

Modalverb, 23, 49, 50, 76, 102 

Modus, 20, 76 

Imperativ, 89, 90 

Indikativ, 21, 90 

Konjunktiv, 21, 90 

Numerus, 76 

Partizip, 53, 90, 101–103 

Perfekt, 49, 102 

Präsens, 23 

Person, 76 

Tempus, 20, 21, 50, 51, 76 

Consecutio temporum, 21 

unregelmäßiges, 24 

Vollverb, 102 

Verbklammer, 30, 35, 37, 49–53, 62, 65– 

68, 74, 80, 86, 90, 102, 103, 118 

Verteilung 

hypergeometrische, 36, 60 

Vorbearbeitung, 22, 24 

Wörterbuch, 14, 21, 27, 75 

webtranslate, 11 

Wikipedia, 32, 38, 39, 43, 47, 50, 53, 55, 

59 

Windows, 75, 85, 113 

Wordfast, 13 

Wortstellung, 22, 29, 33, 39, 49, 53, 58, 

59, 86, 89, 91, 92, 95, 96 

Fehlstellung, 33 

Inversion, 30, 37, 49, 58, 59, 63, 66, 

80, 86, 95, 96 

Standardwortstellung, 30, 58, 59, 95 

XML, 25, 82, 84, 97 

DTD, 83 

Zahlwort, 100 

Zielsprache, 13–16, 53, 55 

Zirkumposition, 29 

Zwischendarstellung, 15, 16 

Zwischensprache, 16, 25 

126

Literaturverzeichnis 

[ABM + 94] Arnold, Douglas ; Balkan, Lorna ; Meijer, Siety ; Sandler, Louisa ; 

Humphreys, R. L.: Machine Translation: an Introductory Guide. London 

(GB) : Blackwells-NCC, 1994 

[BDPDPM94] Brown, Peter E. ; Della Pietra, Vincent J. ; Della Pietra, Stephen 

A. ; Mercer, Robert L.: The Mathematics of Statistical Machine 

Translation: Parameter Estimation. In: Computational Linguistics 19 

(1994), Nr. 2, S. 263–311 

[BEFH + 05] Barz, Irmhild ; Eisenberg, Peter ; Fabricius-Hansen, Catherine ; 

Fiehler, Reinhard ; Fritz, Thomas ; Gallmann, Peter ; Nübling, 

Damaris ; Peters, Jörg ; Dudenredaktion (Hrsg.): Duden. Die Grammatik. 

7. Mannheim (D) : Bibliographisches Institut, 2005 

[Ber99] 

Bernth, Arendse: A Confidence Index for Machine Translation. In: Proceedings 

of Theoretical and Methodological Issues in Machine Translation 

(1999), S. 120–127 

[BG00] Bernth, Arendse ; Gdaniec, Claudia. MTranslatability. AMTA- 

2000 Tutorial. Internet: http://www.isi.edu/natural-language/ 

organizations/amta/sig-mtranslatability-tutorial.htm. 2000 

[Bor05] 

Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler. Berlin 

(D), Heidelberg (D) : Springer, 2005 

[CMU + 95] Cole, Ronald ; Mariani, Joseph ; Uszkoreit, Hans ; Zue, Victor ; 

Zaenen, Annie ; Cole, Ronald (Hrsg.): Survey of the State of the Art 

in Human Language Technology. Pittsburgh (USA) : Center for Spoken 

Language Understanding CSLU, Carnegie Mellon University, 1995 

[Dos55] Dostert, Leon E.: The Georgetown - I.B.M. experiment. Cambrigde 

(USA) : MIT Press, 1955, S. 124–135 

[FHK + 06] 

Fuchs, Norbert E. ; Hoefler, Stefan ; Kaljurand, Kaarel ; Kuhn, 

Tobias ; Schneider, Gerold ; Schwertel, Uta S.: Discourse Representation 

Structures for ACE 5 / Institut für Informatik der Universität 

Zürich. Zürich (CH), 2006. – Forschungsbericht 

[FSS99] Fuchs, Norbert E. ; Schwertel, Uta ; Schwitter, Rolf: Attempto 

Controlled English – Not Just Another Logic Specification Language. In: 

Lecture Notes in Computer Science 1559 (1999), S. 1–20 

127


[Gda94] 

[Hoe04] 

[HS92] 

[Hut86] 

[Hut92] 

[Hut02] 

[Hut03] 

[JU01] 

Gdaniec, Claudia: The LOGOS Translatability Index. In: Proceedings 

of the First Conference of the Association for Machine Translation in the 

Americas (1994), S. 97–105 

Hoefler, Stefan: The Syntax of Attempto Controlled English: An Abstract 

Grammar for ACE 4.0 / Institut für Informatik der Universität 

Zürich. Zürich (CH), 2004. – Forschungsbericht 

Hutchins, John ; Somers, Harold: An introduction to machine translation. 

London (GB) : Academic Press, 1992 

Hutchins, John: Machine Translation: past, present, future. New York 

(USA) : Halsted Press, 1986 

Hutchins, John: Why computers do not translate better. In: Translating 

and the Computer 13: the theory and the practice of machine translation - 

a marriage of convenience? London (GB), 1992, S. 3–16 

Hutchins, John: Machine translation today and tomorrow. In: Gerd, 

Willée (Hrsg.) ; Schröder, Bernhard (Hrsg.) ; Schmitz, Hans-Christian 

(Hrsg.): Computerlinguistik: was geht, was kommt? Sankt Augustin (D) : 

Gardez! Verlag, 2002, S. 159–162 

Hutchins, John: The Oxford Handbook of Computational Linguistics. 

Oxford (GB) : University Press, 2003, Kapitel Machine translation: general 

overview, S. 501–511 

Jongejan, Bart ; Underwood, Nancy: Translatability Checker: A Tool 

to Help Decide Whether to Use MT. In: Proceedings of MT Summit VIII 

(2001), S. 363–368 

[Kni99] Knight, Kevin. A Statistical MT Tutorial Workbook. Internet: http: 

//www.isi.edu/natural-language/mt/wkbk.rtf. 1999 

[Kor06] Korpela, Jukka. Translation-friendly authoring, especially in HTML 

for the WWW. Internet: http://www.cs.tut.fi/~jkorpela/transl/ 

master.html. 2006 

[Lau84] 

[MBNS03] 

Laurian, J. M.: Systran et Eurotra: la traduction automatique a la Commission 

des Communautés Européennes. Contrastes, Hors serie A4, 11-42. 

In: Contrastes Hors serie A4 (1984), S. 11–42 

Mitamura, Tekuro ; Baker, Kathryn ; Nyberg, Eric ; Svoboda, David: 

Diagnostics for Interactive Controlled Language Checking. Pittsburgh 

(USA) : Carnegie Mellon University, 2003 

[MN95] Mitamura, T. ; Nyberg, E.: Controlled English for KnowledgeBased 

MT: Experience with the KANT System. Pittsburgh (USA) : Center for 

Machine Translation, Carnegie Mellon University, 1995 

128


[MNrC91] 

Mitamura, Teruko ; Nyberg 3rd, Eric H. ; Carbonell, Jaime G.: 

An Efficient Interlingua Translation System for Multi-lingual Document 

Production. In: Proceedings of the Third Machine Translation Summit. 

Washington (USA), 1991 

[Ogd30] Ogden, Charles K.: Basic English: A General Introduction with Rules 

and Grammar. London (GB) : Paul Treber & Co., Ltd., 1930 

[Ogd37] 

[Ogd60] 

[Pa66] 

[Reh92] 

Ogden, Charles K.: Basic English and Grammatical Reform. Cambridge 

(GB), London (GB) : Eldritch, 1937 

Ogden, Charles K.: The General Basic English Dictionary. London (GB) 

: Evans Bros., 1960 

Pierce, John ; andere: Languages and machines: computers in translation 

and linguistics / Automatic Language Processing Advisory Committee 

(ALPAC), National Academy of Sciences, National Research Council. Washington 

(USA), 1966. – Forschungsbericht 

Rehbein, Jochen: Zur Wortstellung im komplexen deutschen Satz. In: 

Hofmann, L. (Hrsg.): Deutsche Syntax: Ansichten und Aussichten. Berlin 

(D), New York (USA) : De Gruyter, 1992, S. 523–574 

[Sch94] Schmid, Helmut: Probabilistic Part-of-Speech-Tagging Using Decision 

Trees. In: International Conference on New Methods in Language Processing. 

Manchester (GB) : Centre for Computational Linguistics, UMIST, 

1994, S. 44–49 

[Sch95] 

[Sch06] 

[SSTT99] 

[SV98] 

[Tra06] 

[Twa94] 

Schmid, Helmut: Improvements in Part-of-Speech Tagging With an Application 

To German. In: Feldweg (Hrsg.) ; Hinrichs (Hrsg.): Lexikon 

und Text. 1995, S. 47–50 

Schwitter, Rolf. Controlled Natural Languages. Internet: http://www. 

ics.mq.edu.au/~rolfs/controlled-natural-languages/. 2006 

Schiller, Anne ; Stöckert, Christine ; Teufel, Simone ; Thielen, 

Christiane: Guidelines für das Tagging deutscher Textcorpora mit STTS 

(Kleines und großes Tagset). Stuttgart (D) : Institut für maschinelle 

Sprachverarbeitung der Universtität Stuttgart, 1999. – Forschungsbericht 

Schneider, Gerold ; Volk, Martin: Comparing a statistical and a rulebased 

tagger for German. In: Proceedings of KONVENS-98. Bonn (D), 

1998 

Translatio. Translatio - Das Leipziger Tor zum Übersetzen und Dolmetschen. 

Internet: http://www.uni-leipzig.de/~xlatio/frs-allg.htm. 

2006 

Twain, Mark: Die schreckliche deutsche Sprache. In: Bummel durch Europa. 

Frankfurt (D) : Insel (7. Auflage), 1994 

129


[Wag03] 

[Wat03] 

[WNMB02] 

Wagner, Joachim: Datengesteuerte maschinelle Übersetzung mit flachen 

Analysestrukturen. Osnabrück (D), Universität Osnabrück, Diplomarbeit, 

2003 

Watanabe, Kanayama H.: Multilingual Translation via Annotated Hub 

Language. Kanagawa (J) : Tokyo Research Laboratory, IBM Japan, 2003 

Watanabe, H. ; Nagao, K. ; McCord, M. ; Bernth, A.: An Annotation 

System for Enhancing Quality of Natural Language Processing. In: 

Proceedings of the 19th COLING. Taipeh (RC), 2002, S. 1303–1307 

130

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?