27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

6. Zusammenführung der Kriterien in einem Index<br />

Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt<br />

statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert<br />

zuordnet, wobei der Wert zu den anderen hinzugefügt wird.<br />

Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die<br />

Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit<br />

des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die<br />

Länge des Satzes s seien, gilt dann:<br />

T S (s) = f L (L(s)) +<br />

n∑<br />

g i · m i<br />

i=1<br />

Oder mit den explizit eingesetzten Gewichten für die Merkmale:<br />

T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk<br />

Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv<br />

die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der<br />

Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten<br />

Kompositionsglieder.<br />

6.1.3. Bewertung der Satzlänge<br />

Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung<br />

in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro<br />

Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als<br />

bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro<br />

Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische<br />

Darstellung des Zusammenhangs <strong>von</strong> durchschnittlicher Satzlänge (horizontale Achse)<br />

und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung<br />

des Einflusses der Satzlänge gemessen worden waren.<br />

Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um<br />

eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete<br />

der Autor verschiedene dekadisch logarithmische Funktionen der Form<br />

f L (L(s)) = a · lg(b · L(s) c + d),<br />

wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b,<br />

c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate,<br />

also die Quadrate der Abweichungen der Funktionswerte <strong>von</strong> den empirisch gemessenen<br />

Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag <strong>von</strong> lediglich<br />

2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei<br />

großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den<br />

Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen<br />

Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet<br />

also bei gegebener Länge:<br />

∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1)<br />

68

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!