27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5.1. Allgemeine Textmerkmale<br />

5.1.4. Seltenheit <strong>von</strong> Wörtern<br />

Weil aufgrund der prinzipiell unbeschränkten Wortanzahl der deutschen Sprache nicht<br />

alle Wörter in den Lexika der Übersetzungsprogramme vorhanden sein können und eine<br />

Beschränkung auf die wichtigsten notwendig ist, ist zu vermuten, dass sehr seltene und<br />

somit wahrscheinlich in den Lexika der MÜ-<strong>Systeme</strong> fehlende Wörter die Übersetzungsqualität<br />

mindern, weil sie nicht übersetzt werden können oder Übersetzungen zufällig<br />

gewählt werden müssen.<br />

Es bot sich an, die Untersuchung der Seltenheit <strong>von</strong> Wörtern mit der Untersuchung der<br />

Auswirkungen <strong>von</strong> Komposita zu verbinden, weil komplexe Komposita in der Regel auch<br />

sehr selten sind. Überprüft man also die Auswirkungen sehr langer Komposita, ist dies<br />

zugleich auch eine Überprüfung seltener Wörter. Diese zusammengelegte Untersuchung<br />

wird in Abschnitt 5.2.3 dargelegt.<br />

Abbildung 5.4.: Zusammenhang zwischen Wortlänge und Worthäufigkeit<br />

Der Zusammenhang zwischen Wortlänge und Seltenheit wird in den Abbildungen 5.4 und<br />

5.5 dargestellt. Grundlage für diese Grafiken ist ein Textkorpus der Universität Leipzig<br />

mit insgesamt drei Millionen deutschen Sätzen 5 . Der verwendete und die anderen Korpora<br />

der Leipziger Universität im so genannten Projekt Deutscher Wortschatz führen für jedes<br />

Wort über seine Häufigkeit Buch, so dass über einfache Datenbankabfragen Statistiken<br />

zum Zusammenhang <strong>von</strong> Worthäufigkeit und Wortlänge erstellt werden können. Die rote<br />

Linie in der ersten Grafik zeigt, wie oft ein Wort einer bestimmten Länge durchschnittlich<br />

im gesamten Korpus mit drei Millionen Sätzen vorkommt. Die zweite Abbildung zeigt<br />

vergrößert dieselbe Linie, allerdings nur für Wortlängen <strong>von</strong> 30 bis 50 Zeichen. Da ausschließlich<br />

Komposita mit einer Mindestlänge <strong>von</strong> 30 Zeichen betrachtet wurden und diese<br />

nie häufiger als durchschnittlich zweimal in sämtlichen Sätzen auftreten, kann hier wohl<br />

<strong>von</strong> Seltenheit gesprochen werden.<br />

5 Projekt Deutscher Wortschatz, online erreichbar unter http://corpora.informatik.uni-leipzig.<br />

de, zuletzt besucht am 5. April 2007<br />

45

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!