Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Weitere Magazine

Empfehlungen

Info

4. Vorbereitende Maßnahmen Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines einzelnen Textmerkmals vonnöten, die den Stichprobenumfang weit übertrifft, um daraus eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der Fehlerzahländerungen angenommen. Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge von Fehlerzahlabnahmen, weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit von H 0 initial für jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen von H 0 mindestens die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau, ” so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall. Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch ( M )( N−M ) k n−k P (X = k) = ( N n) (hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen und entsprechend ∑k−1 P (X < k) = P (X = i) i=0 P (X ≥ k) = 1 − P (X < k) für minimal k Fehlerzahlabnahmen. Liegt dieser Wert unter dem Signifikanzniveau 5 von α = 0, 05, ist der Anteil der Fehlerzahlabnahmen an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6 erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen. Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex. 5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen, weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel genug ist. 6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant. 36
5. Untersuchung der Textmerkmale auf Fehlerrelevanz In diesem Kapitel des zweiten Teils der Arbeit werden die in Abschnitt 4 ausgewählten Textmerkmale daraufhin untersucht, ob sie tatsächlich die Übersetzung deutscher Texte ins Englische signifikant erschweren. Sie lassen sich in zwei Klassen einteilen: • Allgemeine Textmerkmale: Dies sind Merkmale, die sich auch für beliebige andere Sprachen untersuchen lassen, weil sie – eventuell mit wenigen Ausnahmen – in jeder bekannten Sprache der Welt auftreten. Hierzu zählen Satzlänge, Nebensätze, Mehrdeutigkeit, Seltenheit von Wörtern und elliptischer Schreibstil. • Sprachspezifische Textmerkmale: Als sprachspezifisch lassen sich Merkmale bezeichnen, die (fast) ausschließlich in der deutschen Sprache oder der germanischen Sprachfamilie auftreten oder für sie prägend sind. Dazu gehören Verb- und Nominalklammern, Nominalkomposita sowie Inversion der Wortstellung. Anmerkung zum Umgang mit den Textkorpora: Nachdem alle Textkorpora erstellt und bewertet worden waren, erfolgte mit einigem zeitlichen Abstand eine zweite Kontrolle aller Übersetzungen. Dadurch sollten Fehler des Autors, die im ersten Durchlauf unbemerkt geblieben waren, entdeckt werden. Die Änderungen der Fehlerzahlen, die sich daraus ergaben und in den folgenden Untersuchungsberichten berücksichtigt sind, waren eher gering und lagen bei etwa 20 bis 30 Fehlern pro Korpus bei zumeist insgesamt rund 750 bis 950 Fehlern, wobei jedoch nie eine bedeutende Änderung der Ergebnisse eintrat. Es stellte sich dabei auch heraus, dass sich der Bewertungsstil im Laufe der einzelnen Textkorpora leicht verändert hatte, weil etwa bestimmte Übersetzungsfehler anfangs anders bestraft wurden als später. Die Nachkontrolle der Textkorpora erwies sich also auch als nützlich, um solche Inkonsistenzen auszuräumen. 5.1. Allgemeine Textmerkmale In den nächsten fünf Abschnitten werden Merkmale auf ihre Auswirkungen auf die Übersetzungsqualität hin untersucht, die in (fast) allen Sprachen auftreten. Dies sind Satzlänge, Nebensätze, Mehrdeutigkeit, Seltenheit von Wörtern und elliptischer Schreibstil. 5.1.1. Satzlänge Die Länge eines Satzes wird oftmals als ein zentrales Kriterium für seine Übersetzbarkeit bezeichnet und auch im Logos Translatability Index [Gda94] und im Translatability Checker [JU01], die in Abschnitt 3.3.1 vorgestellt werden, benutzt. Auch wenn diese Indizes schon einige Jahre alt sind, steht nach wie vor zu vermuten, dass zunehmende Satzlänge mit mehr Fehlern einhergeht, weil sie die Komplexität des Satzes erhöht. 37
Seite 1: Messung maschineller Übersetzbarke
Seite 4 und 5: Inhaltsverzeichnis Tabellenverzeich
Seite 6 und 7: Inhaltsverzeichnis 7.4.3. Modellier
Seite 8 und 9: Abbildungsverzeichnis 2.1. Schema f
Seite 10 und 11: Teil I. Einführung 10
Seite 12 und 13: 1. Grundlagen der Arbeit Motivation
Seite 14 und 15: 2. Stand der Technik In den folgend
Seite 16 und 17: 2. Stand der Technik Sprache optimi
Seite 18 und 19: 2. Stand der Technik 2.4.1. Mehrdeu
Seite 20 und 21: 2. Stand der Technik Abgesehen von
Seite 22 und 23: 3. Ansätze zur Lösung der Überse
Seite 28 und 29: Teil II. Ein Modell zur Einschätzu
Seite 30 und 31: 4. Vorbereitende Maßnahmen auf fol
Seite 32 und 33: 4. Vorbereitende Maßnahmen der Unt
Seite 34 und 35: 4. Vorbereitende Maßnahmen überse
Seite 38 und 39: 5. Untersuchung der Textmerkmale au
Seite 66 und 67: 6. Zusammenführung der Kriterien i
Seite 72 und 73: Teil III. MT Analyser: Automatische
Seite 74 und 75: 7. Modellierung von MT Analyser Ins
Seite 76 und 77: 7. Modellierung von MT Analyser auf
Seite 78 und 79: 7. Modellierung von MT Analyser Sat
Seite 80 und 81: 7. Modellierung von MT Analyser Dar
Seite 82 und 83: 7. Modellierung von MT Analyser fin
Seite 84 und 85: 7. Modellierung von MT Analyser Kla
Seite 86 und 87:
8. Implementierung von MT Analyser
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
9. Zusammenfassung der Ergebnisse D
Seite 118 und 119:
10. Ansätze zur Weiterentwicklung
Seite 120 und 121:
GLOSSAR E EG-Kommission Vorläufer
Seite 122 und 123:
GLOSSAR S Signifikanzniveau Grenzwe
Seite 124 und 125:
Stichwortverzeichnis Lexikon, 13, 2
Seite 126 und 127:
Stichwortverzeichnis Übersetzungsp
Seite 128 und 129:
Literaturverzeichnis [Gda94] [Hoe04
Seite 130:
Literaturverzeichnis [Wag03] [Wat03
Alle anzeigen

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?