Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
4. Vorbereitende Maßnahmen<br />
Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der<br />
Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines<br />
einzelnen Textmerkmals <strong>von</strong>nöten, die den Stichprobenumfang weit übertrifft, um daraus<br />
eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht<br />
bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der<br />
Fehlerzahländerungen angenommen.<br />
Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge <strong>von</strong> Fehlerzahlabnahmen,<br />
weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität<br />
nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit <strong>von</strong> H 0 initial für<br />
jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung<br />
H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen <strong>von</strong> H 0 mindestens<br />
die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau,<br />
”<br />
so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall.<br />
Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des<br />
Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen<br />
befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen<br />
interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch<br />
( M<br />
)( N−M<br />
)<br />
k n−k<br />
P (X = k) = ( N<br />
n)<br />
(hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen<br />
und entsprechend<br />
∑k−1<br />
P (X < k) = P (X = i)<br />
i=0<br />
P (X ≥ k) = 1 − P (X < k)<br />
für minimal k Fehlerzahlabnahmen.<br />
Liegt dieser Wert unter dem Signifikanzniveau 5 <strong>von</strong> α = 0, 05, ist der Anteil der Fehlerzahlabnahmen<br />
an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6<br />
erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des<br />
betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen.<br />
Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das<br />
zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex.<br />
5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen,<br />
weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel<br />
genug ist.<br />
6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant.<br />
36