Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5. Untersuchung der Textmerkmale auf Fehlerrelevanz<br />
Vorgehensweise<br />
Anders als bei den anderen Merkmalen wurden für die Untersuchung der Auswirkungen<br />
der Satzlänge insgesamt drei Textkorpora mit jeweils 100 Sätzen erstellt:<br />
• einer mit recht kurzen Sätzen (maximal 15 Wörter),<br />
• ein zweiter mit mittellangen Sätzen (minimal 16, maximal 30 Wörter) und<br />
• ein letzter mit sehr langen Sätzen (minimal 31 Wörter).<br />
Textquelle war wie üblich die deutsprachige Version <strong>von</strong> Wikipedia.<br />
Weil es sich um insgesamt 300 verschiedene Sätze in drei Korpora handelte und nicht<br />
wie in den meisten anderen Fällen um 100 Originalsätze, die für das zweite Textkorpus<br />
bearbeitet wurden, entfiel nach der Übersetzung der Vergleich bezüglich der Veränderung<br />
der Fehlerzahl, weil die Sätze der verschiedenen Sammlungen nichts miteinander zu tun<br />
hatten und die Fehlerzahlen daher nicht vergleichbar waren.<br />
Untersuchungsergebnisse<br />
Fehlerhäufigkeit Die Ergebnisse, die sich beim Ermitteln der Fehlerzahl pro Wort für<br />
die einzelnen Korpora ergaben, entsprachen den Erwartungen und zeigten eine deutliche<br />
Zunahme der Fehlerzahl bei steigender Satzlänge, wie Tabelle 5.1 verdeutlicht. Mit<br />
den kurzen Sätzen kamen beide MÜ-Programme vergleichsweise gut zurecht. Hier wurden<br />
insgesamt 251 Fehler in den übersetzten Texten ermittelt, was bei 1002 Worten einer<br />
Quote <strong>von</strong> 0, 1252 Fehlern pro Wort entspricht. Die mittellangen Sätze mit maximal 30<br />
Wörtern verursachten 755 Fehler in allen Sätzen, also 0, 1710 Fehler pro Wort bei 2208<br />
Wörtern. Dies kommt einer Steigerung <strong>von</strong> 36, 6% gegenüber der Fehlerrate im ersten<br />
Korpus gleich. Das dritte Korpus bereitete erwartungsgemäß die meisten Probleme. Hier<br />
entstanden bei den Übersetzungen 1502 Fehler und somit bei 3865 Worten ein Durchschnitt<br />
<strong>von</strong> 0, 1943 Fehlern pro Wort. Dies entspricht einer Steigerung <strong>von</strong> 13, 6 Prozent<br />
gegenüber den mittellangen und <strong>von</strong> 55, 2 Prozent gegenüber den kurzen Sätzen.<br />
Satzart Wörter Fehler ∅ Fehler pro Wort 1<br />
Kurz (≤ 15 Wörter) 1002 251 0,1252<br />
Mittel (16 - 30 Wörter) 2208 755 0,1710<br />
Lang(> 30 Wörter) 3865 1502 0,1943<br />
Tabelle 5.1.: Satzlänge und Fehlerhäufigkeit<br />
Insbesondere zeigen diese Zahlen, dass sich die Fehlerquoten überproportional erhöhen,<br />
wenn die Satzlänge steigt, wenngleich mit abnehmender Tendenz. Hätte die Satzlänge<br />
keinerlei oder nur geringen Einfluss auf die Fehlerhäufigkeit, so müssten die Fehlerzahlen<br />
pro Wort in allen drei Vergleichen annähernd identisch sein. Betrachtet man die absoluten<br />
Fehlerzahlen, so ergibt sich folgendes, sehr ähnliches Bild:<br />
• Vom ersten zum zweiten Textkorpus nimmt die Wortanzahl um 120% zu, während<br />
die absolute Fehlerzahl infolge der Übersetzungen um 201% steigt.<br />
1 Zur Berechnung der Fehlerzahlen siehe Abschnitt 4.4.1, letzten Absatz.<br />
38