27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />

Vorgehensweise<br />

Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen<br />

der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt:<br />

• einer mit recht kurzen Sätzen (maximal 15 Wörter),<br />

• ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und<br />

• ein letzter mit sehr langen Sätzen (minimal 31 Wörter).<br />

Textquelle war wie üblich die deutsprachige Version <strong>von</strong> Wikipedia.<br />

Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht<br />

wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus<br />

bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung<br />

der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun<br />

hatten und die Fehlerzahlen daher nicht vergleichbar waren.<br />

Untersuchungsergebnisse<br />

Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für<br />

die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche<br />

Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit<br />

den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden<br />

insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer<br />

Quote <strong>von</strong> 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30<br />

Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208<br />

Wörtern. Dies kommt einer Steigerung <strong>von</strong> 36, 6% gegenüber der Fehlerrate im ersten<br />

Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier<br />

entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt<br />

<strong>von</strong> 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung <strong>von</strong> 13, 6 Prozent<br />

gegenüber den mittellangen und <strong>von</strong> 55, 2 Prozent gegenüber den kurzen Sätzen.<br />

Satzart Wörter Fehler ∅ Fehler pro Wort 1<br />

Kurz (≤ 15 Wörter) 1002 251 0,1252<br />

Mittel (16 - 30 Wörter) 2208 755 0,1710<br />

Lang(> 30 Wörter) 3865 1502 0,1943<br />

Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit<br />

Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen,<br />

wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge<br />

keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen<br />

pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten<br />

Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild:<br />

• Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während<br />

die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt.<br />

1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />

38

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!