Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Weitere Magazine

Empfehlungen

Info

5. Untersuchung der Textmerkmale auf Fehlerrelevanz Vorgehensweise Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt: • einer mit recht kurzen Sätzen (maximal 15 Wörter), • ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und • ein letzter mit sehr langen Sätzen (minimal 31 Wörter). Textquelle war wie üblich die deutsprachige Version von Wikipedia. Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun hatten und die Fehlerzahlen daher nicht vergleichbar waren. Untersuchungsergebnisse Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer Quote von 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30 Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208 Wörtern. Dies kommt einer Steigerung von 36, 6% gegenüber der Fehlerrate im ersten Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt von 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung von 13, 6 Prozent gegenüber den mittellangen und von 55, 2 Prozent gegenüber den kurzen Sätzen. Satzart Wörter Fehler ∅ Fehler pro Wort 1 Kurz (≤ 15 Wörter) 1002 251 0,1252 Mittel (16 - 30 Wörter) 2208 755 0,1710 Lang(> 30 Wörter) 3865 1502 0,1943 Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen, wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild: • Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt. 1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz. 38
5.1. Allgemeine Textmerkmale • Vom ersten zum dritten Textkorpus nimmt die Wortanzahl um 286% zu, während die absolute Fehlerzahl infolge der Übersetzungen um 498% steigt. • Vom zweiten zum dritten Textkorpus nimmt die Wortanzahl um 75% zu, während die absolute Fehlerzahl infolge der Übersetzungen um 99% steigt. Der Schluss liegt also nahe, dass eine steigende Satzlänge die Fehlerhäufigkeit der Übersetzung stark erhöht und somit die Übersetzbarkeit verringert. 5.1.2. Nebensätze (Relativsätze) Nebensätze sind ein wichtiger Bestandteil jedes längeren Textes und tragen erheblich zu dessen semantischer Gliederung bei. Durch ihr Auftreten erhöht sich die Komplexität der Satzstruktur. Es liegt daher nahe, dass Nebensätze zu einer Erhöhung der Fehlerrate beitragen. Auch der Translatability Checker [JU01] verwendet sie als Indiz für schlechtere Übersetzbarkeit Vorgehensweise Um zu überprüfen, wie es sich mit Nebensätzen tatsächlich verhält, wurde zunächst ein Textkorpus mit 100 Sätzen aus der deutschsprachigen Wikipedia erstellt, die allesamt mindestens einen Relativsatz aufwiesen, und ein zweiter, in dem die Relativsätze aus diesen Sätzen entfernt wurden. Dass Relativsätze als Repräsentanten für Nebensätze im Allgemeinen ausgewählt wurden, hat im wesentlichen einen Grund: Relativsätze sind die wohl am schwersten zu übersetzende Art von Nebensätzen in der deutschen Sprache. Sie haben durch das einleitende Relativpronomen mindestens einen Bezug zu einem Satzteil des übergeordneten Satzes, der bei der Übersetzung beachtet werden muss. Bei einem Temporalsatz reicht es beispielsweise, die einleitende Konjunktion, etwa nachdem, zu erkennen und dann mit einem der englischen Äquivalente, etwa after, wiederzugeben. Bei einem Relativsatz dagegen muss, auch wenn das englische System von Relativpronomen gegenüber dem deutschen stark vereinfacht ist, beachtet werden, in welchem Kasus das deutsche Relativpronomen steht (der Abgleich von Genus und Numerus entfällt im Englischen) und ob es belebt oder unbelebt ist. So können nur Relativsätze im Englischen mit who beginnen, wenn das Bezugswort belebt ist, ansonsten muss entweder which oder that eingesetzt werden. Und nur, falls das deutsche Relativpronomen im Dativ oder Akkusativ steht, kann bei einem belebten Bezugswort whom verwendet werden. Nur bei Genitiven darf hingegen – ob belebt oder unbelebt – whose benutzt werden. Wenn also Nebensätze tatsächlich einen negativen Effekt auf die Übersetzungsqualität haben, wird dieser bei Relativsätzen voraussichtlich am stärksten ausfallen. Umgekehrt ist bei einer deutlichen Beeinflussung der Fehlerzahl durch Relativsätze auch damit zu rechnen, dass andere Nebensätze Einfluss haben, weil auch sie über einige, die Übersetzung erschwerende Merkmale von Relativsätzen verfügen, wie etwa die veränderte Wortstellung im Deutschen mit dem Prädikat am Ende. Untersuchungsergebnisse Fehlerhäufigkeit Das Resultat der Fehleranalyse (siehe Tabelle 5.2) zeigt deutlich, dass Relativsätze geringe, aber spürbare Auswirkungen auf die Fehlerhäufigkeit bei der Über- 39
Seite 1: Messung maschineller Übersetzbarke
Seite 4 und 5: Inhaltsverzeichnis Tabellenverzeich
Seite 6 und 7: Inhaltsverzeichnis 7.4.3. Modellier
Seite 8 und 9: Abbildungsverzeichnis 2.1. Schema f
Seite 10 und 11: Teil I. Einführung 10
Seite 12 und 13: 1. Grundlagen der Arbeit Motivation
Seite 14 und 15: 2. Stand der Technik In den folgend
Seite 16 und 17: 2. Stand der Technik Sprache optimi
Seite 18 und 19: 2. Stand der Technik 2.4.1. Mehrdeu
Seite 20 und 21: 2. Stand der Technik Abgesehen von
Seite 22 und 23: 3. Ansätze zur Lösung der Überse
Seite 28 und 29: Teil II. Ein Modell zur Einschätzu
Seite 30 und 31: 4. Vorbereitende Maßnahmen auf fol
Seite 32 und 33: 4. Vorbereitende Maßnahmen der Unt
Seite 34 und 35: 4. Vorbereitende Maßnahmen überse
Seite 36 und 37: 4. Vorbereitende Maßnahmen Zusätz
Seite 40 und 41: 5. Untersuchung der Textmerkmale au
Seite 66 und 67: 6. Zusammenführung der Kriterien i
Seite 72 und 73: Teil III. MT Analyser: Automatische
Seite 74 und 75: 7. Modellierung von MT Analyser Ins
Seite 76 und 77: 7. Modellierung von MT Analyser auf
Seite 78 und 79: 7. Modellierung von MT Analyser Sat
Seite 80 und 81: 7. Modellierung von MT Analyser Dar
Seite 82 und 83: 7. Modellierung von MT Analyser fin
Seite 84 und 85: 7. Modellierung von MT Analyser Kla
Seite 86 und 87: 8. Implementierung von MT Analyser
Seite 88 und 89:
8. Implementierung von MT Analyser
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
9. Zusammenfassung der Ergebnisse D
Seite 118 und 119:
10. Ansätze zur Weiterentwicklung
Seite 120 und 121:
GLOSSAR E EG-Kommission Vorläufer
Seite 122 und 123:
GLOSSAR S Signifikanzniveau Grenzwe
Seite 124 und 125:
Stichwortverzeichnis Lexikon, 13, 2
Seite 126 und 127:
Stichwortverzeichnis Übersetzungsp
Seite 128 und 129:
Literaturverzeichnis [Gda94] [Hoe04
Seite 130:
Literaturverzeichnis [Wag03] [Wat03
Alle anzeigen

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?