27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4. Vorbereitende Maßnahmen<br />

Zusätzlich zum jeweiligen Stichprobenumfang ist eine Grundgesamtheit der Summen der<br />

Beträge der Fehlerzahländerungen in den zugrundeliegenden Sätzen beim Entfernen eines<br />

einzelnen Textmerkmals <strong>von</strong>nöten, die den Stichprobenumfang weit übertrifft, um daraus<br />

eine Verteilungsdichtefunktion zu konstruieren. Da eine derartige Grundgesamtheit nicht<br />

bekannt ist, wird sie jeweils willkürlich mit N = 100.000 ≫ n als Summe der Beträge der<br />

Fehlerzahländerungen angenommen.<br />

Zusätzlich gelte M = 50.000 als Summe aller in N enthaltenen Beträge <strong>von</strong> Fehlerzahlabnahmen,<br />

weil dies der Grenzfall ist, in dem H 0 gerade noch gilt, weil sich die Übersetzungsqualität<br />

nicht verändert. Diese Setzung erfolgt, weil die Gültigkeit <strong>von</strong> H 0 initial für<br />

jedes Textmerkmal angenommen wird. Zeigt der Test, dass selbst mit dieser Aufteilung<br />

H 0 verworfen werden sollte, weil die Wahrscheinlichkeit, bei Vorliegen <strong>von</strong> H 0 mindestens<br />

die vorgefundene Anzahl an Erfolgen“ zu erzielen, geringer ist als das Signifikanzniveau,<br />

”<br />

so ist dies zwangsläufig auch für jede Verteilung mit M alt < M der Fall.<br />

Auf Basis dieser Gesamtheit wird nun für jedes Textmerkmal mit einer Stichprobe des<br />

Umfangs n untersucht, wie wahrscheinlich es ist, dass sich darin minimal X = k Fehlerzahlabnahmen<br />

befinden, wenn H 0 zutrifft. Man kann dies als Ziehung ohne Zurücklegen<br />

interpretieren, erhält also die Werte der Wahrscheinlichkeitsfunktion durch<br />

( M<br />

)( N−M<br />

)<br />

k n−k<br />

P (X = k) = ( N<br />

n)<br />

(hypergeometrische Verteilung). Somit gilt für maximal k − 1 Fehlerzahlabnahmen<br />

und entsprechend<br />

∑k−1<br />

P (X < k) = P (X = i)<br />

i=0<br />

P (X ≥ k) = 1 − P (X < k)<br />

für minimal k Fehlerzahlabnahmen.<br />

Liegt dieser Wert unter dem Signifikanzniveau 5 <strong>von</strong> α = 0, 05, ist der Anteil der Fehlerzahlabnahmen<br />

an der Gesamtzahl der Fehlerzahländerungen in der Stichprobe signifikant 6<br />

erhöht. Dann wird H 0 zurückgewiesen und statt dessen H 1 , dass also ein Entfernen des<br />

betrachteten Textmerkmals aus dem Satz die Übersetzungsqualität verbessert, übernommen.<br />

Die statistische Signifikanz der Stichproben zu den jeweiligen Textmerkmalen ist das<br />

zentrale, aber nicht das alleinige Kriterium für die Aufnahme in den Übersetzbarkeitsindex.<br />

5 Die Setzung des Signifikanzniveaus auf α = 0, 05 ist weit verbreitet und wird daher auch hier übernommen,<br />

weil somit die Wahrscheinlichkeit, die Nullhypothese irrtümlich zurückzuweisen, akzeptabel<br />

genug ist.<br />

6 Entsprechend ab α = 0, 01 hochsignifikant und ab α = 0, 001 höchstsignifikant.<br />

36

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!