Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
6. Zusammenführung der Kriterien in einem Index<br />
Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt<br />
statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert<br />
zuordnet, wobei der Wert zu den anderen hinzugefügt wird.<br />
Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die<br />
Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit<br />
des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die<br />
Länge des Satzes s seien, gilt dann:<br />
T S (s) = f L (L(s)) +<br />
n∑<br />
g i · m i<br />
i=1<br />
Oder mit den explizit eingesetzten Gewichten für die Merkmale:<br />
T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk<br />
Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv<br />
die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der<br />
Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten<br />
Kompositionsglieder.<br />
6.1.3. Bewertung der Satzlänge<br />
Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung<br />
in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro<br />
Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als<br />
bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro<br />
Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische<br />
Darstellung des Zusammenhangs <strong>von</strong> durchschnittlicher Satzlänge (horizontale Achse)<br />
und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung<br />
des Einflusses der Satzlänge gemessen worden waren.<br />
Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um<br />
eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete<br />
der Autor verschiedene dekadisch logarithmische Funktionen der Form<br />
f L (L(s)) = a · lg(b · L(s) c + d),<br />
wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b,<br />
c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate,<br />
also die Quadrate der Abweichungen der Funktionswerte <strong>von</strong> den empirisch gemessenen<br />
Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag <strong>von</strong> lediglich<br />
2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei<br />
großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den<br />
Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen<br />
Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet<br />
also bei gegebener Länge:<br />
∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1)<br />
68