Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Weitere Magazine

Empfehlungen

Info

5. Untersuchung der Textmerkmale auf Fehlerrelevanz relativ zur Länge des Gesamttextes deutlich ab. Statt 879 Fehler wie im ersten übersetzen Textkorpus traten im von Mehrdeutigkeiten weitgehend befreiten zweiten Textkorpus nur noch 776 Fehler auf, also 103 weniger. Die Fehlerzahl pro Wort sank von 0, 2104 auf 0, 1848. Insgesamt scheint es sich also durchaus zu lohnen, beim Verfassen eines zu übersetzenden Textes auf mehrdeutige Worte soweit möglich zu verzichten. Satzart Wörter Fehler ∅ Fehler pro Wort 4 Mit vielen Mehrdeutigkeiten 2089 879 0,2104 Mit weniger Mehrdeutigkeiten 2099 776 0,1848 Tabelle 5.4.: Mehrdeutigkeiten und Fehlerhäufigkeit Veränderungen der Fehlerzahl Abbildung 5.3 stellt die Verteilung der Veränderung der Fehlerzahlen bei der Gegenüberstellung der Übersetzungen der Originalsätze und der wesentlich weniger Mehrdeutigkeiten enthaltenden bearbeiteten Sätze für die beiden MÜ-Programme sowie im Gesamten dar. Durchschnittlich verlor ein Satz durch seine Bearbeitung 0, 52 Fehler. Ein Großteil der 200 Übersetzungen der bearbeiteten Sätze, insgesamt 92, zeigte keinerlei Verbesserung oder Verschlechterung. Nur 23 Übersetzungen wiesen mehr Fehler auf als vorher, nämlich 16-mal einen Fehler mehr, sechsmal zwei Fehler mehr und einmal sogar vier. Demgegenüber standen 85 Übersetzungen, die weniger Fehler lieferten, wovon 52 einen und 25 zwei Fehler weniger aufwiesen. Eine starke Abnahme der Fehlerzahl zeigte sich bei je drei Übersetzungen mit drei und vier Fehlern weniger und bei zweien mit sogar sechs Fehlern weniger. Abbildung 5.3.: Absolute Veränderungen der Fehleranzahl bei Reduktion von Mehrdeutigkeiten für die einzelnen Übersetzungsprogramme (Babel Fish grün, Personal Translator 2006 blau) und aufsummiert (rot, mit Werteangaben) 4 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz. 44
5.1. Allgemeine Textmerkmale 5.1.4. Seltenheit von Wörtern Weil aufgrund der prinzipiell unbeschränkten Wortanzahl der deutschen Sprache nicht alle Wörter in den Lexika der Übersetzungsprogramme vorhanden sein können und eine Beschränkung auf die wichtigsten notwendig ist, ist zu vermuten, dass sehr seltene und somit wahrscheinlich in den Lexika der MÜ-Systeme fehlende Wörter die Übersetzungsqualität mindern, weil sie nicht übersetzt werden können oder Übersetzungen zufällig gewählt werden müssen. Es bot sich an, die Untersuchung der Seltenheit von Wörtern mit der Untersuchung der Auswirkungen von Komposita zu verbinden, weil komplexe Komposita in der Regel auch sehr selten sind. Überprüft man also die Auswirkungen sehr langer Komposita, ist dies zugleich auch eine Überprüfung seltener Wörter. Diese zusammengelegte Untersuchung wird in Abschnitt 5.2.3 dargelegt. Abbildung 5.4.: Zusammenhang zwischen Wortlänge und Worthäufigkeit Der Zusammenhang zwischen Wortlänge und Seltenheit wird in den Abbildungen 5.4 und 5.5 dargestellt. Grundlage für diese Grafiken ist ein Textkorpus der Universität Leipzig mit insgesamt drei Millionen deutschen Sätzen 5 . Der verwendete und die anderen Korpora der Leipziger Universität im so genannten Projekt Deutscher Wortschatz führen für jedes Wort über seine Häufigkeit Buch, so dass über einfache Datenbankabfragen Statistiken zum Zusammenhang von Worthäufigkeit und Wortlänge erstellt werden können. Die rote Linie in der ersten Grafik zeigt, wie oft ein Wort einer bestimmten Länge durchschnittlich im gesamten Korpus mit drei Millionen Sätzen vorkommt. Die zweite Abbildung zeigt vergrößert dieselbe Linie, allerdings nur für Wortlängen von 30 bis 50 Zeichen. Da ausschließlich Komposita mit einer Mindestlänge von 30 Zeichen betrachtet wurden und diese nie häufiger als durchschnittlich zweimal in sämtlichen Sätzen auftreten, kann hier wohl von Seltenheit gesprochen werden. 5 Projekt Deutscher Wortschatz, online erreichbar unter http://corpora.informatik.uni-leipzig. de, zuletzt besucht am 5. April 2007 45
Seite 1: Messung maschineller Übersetzbarke
Seite 4 und 5: Inhaltsverzeichnis Tabellenverzeich
Seite 6 und 7: Inhaltsverzeichnis 7.4.3. Modellier
Seite 8 und 9: Abbildungsverzeichnis 2.1. Schema f
Seite 10 und 11: Teil I. Einführung 10
Seite 12 und 13: 1. Grundlagen der Arbeit Motivation
Seite 14 und 15: 2. Stand der Technik In den folgend
Seite 16 und 17: 2. Stand der Technik Sprache optimi
Seite 18 und 19: 2. Stand der Technik 2.4.1. Mehrdeu
Seite 20 und 21: 2. Stand der Technik Abgesehen von
Seite 22 und 23: 3. Ansätze zur Lösung der Überse
Seite 28 und 29: Teil II. Ein Modell zur Einschätzu
Seite 30 und 31: 4. Vorbereitende Maßnahmen auf fol
Seite 32 und 33: 4. Vorbereitende Maßnahmen der Unt
Seite 34 und 35: 4. Vorbereitende Maßnahmen überse
Seite 36 und 37: 4. Vorbereitende Maßnahmen Zusätz
Seite 38 und 39: 5. Untersuchung der Textmerkmale au
Seite 66 und 67: 6. Zusammenführung der Kriterien i
Seite 72 und 73: Teil III. MT Analyser: Automatische
Seite 74 und 75: 7. Modellierung von MT Analyser Ins
Seite 76 und 77: 7. Modellierung von MT Analyser auf
Seite 78 und 79: 7. Modellierung von MT Analyser Sat
Seite 80 und 81: 7. Modellierung von MT Analyser Dar
Seite 82 und 83: 7. Modellierung von MT Analyser fin
Seite 84 und 85: 7. Modellierung von MT Analyser Kla
Seite 86 und 87: 8. Implementierung von MT Analyser
Seite 94 und 95:
8. Implementierung von MT Analyser
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
9. Zusammenfassung der Ergebnisse D
Seite 118 und 119:
10. Ansätze zur Weiterentwicklung
Seite 120 und 121:
GLOSSAR E EG-Kommission Vorläufer
Seite 122 und 123:
GLOSSAR S Signifikanzniveau Grenzwe
Seite 124 und 125:
Stichwortverzeichnis Lexikon, 13, 2
Seite 126 und 127:
Stichwortverzeichnis Übersetzungsp
Seite 128 und 129:
Literaturverzeichnis [Gda94] [Hoe04
Seite 130:
Literaturverzeichnis [Wag03] [Wat03
Alle anzeigen

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?