Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Weitere Magazine

Empfehlungen

Info

6. Zusammenführung der Kriterien in einem Index Die Satzlänge lässt sich wie schon gesagt nicht in dieses Schema einordnen, sondern verlangt statt dessen nach einer eigenen Funktion f L , die jeder Satzlänge einen Punktwert zuordnet, wobei der Wert zu den anderen hinzugefügt wird. Unter den Vorgaben, dass T S die Übersetzbarkeit eines Satzes, s ein gegebener Satz, f L die Funktion zur Bewertung der Satzlänge, n die Anzahl der Textmerkmale, m i die Häufigkeit des i-ten Merkmals, g i die Punktzahl zur Gewichtung des i-ten Merkmals und L(s) die Länge des Satzes s seien, gilt dann: T S (s) = f L (L(s)) + n∑ g i · m i i=1 Oder mit den explizit eingesetzten Gewichten für die Merkmale: T S (s) = f L (L(s)) + 1, 25 · m rs + 2, 25 · m ak + 4, 75 · (m vk + m inv ) + 5, 75 · m md + 6, 75 · m nk Dabei bezeichnet m vk die Anzahl der Verbklammern in diesem Satz, und analog m inv die Anzahl der Inversionen, m md die Anzahl der Mehrdeutigkeiten, m nk die Anzahl der Nominalklammern, m rs die Anzahl der Relativsätze und m ak die Anzahl der abgetrennten Kompositionsglieder. 6.1.3. Bewertung der Satzlänge Noch offen ist bislang die Bewertung der Satzlänge. Aus der zugehörigen Untersuchung in Abschnitt 5.1.1 ging hervor, dass bei zunehmender Satzlänge auch die Fehlerzahl pro Wort zunimmt, wenngleich der Anstieg bei großen Satzlängen weniger stark ausfällt als bei kleinen. Weil als Fehlerhäufigkeit für Sätze der Länge 0 naturgemäß auch 0 Fehler pro Wort angenommen werden können, ergibt sich die in Abbildung 6.1 dargestellte grafische Darstellung des Zusammenhangs von durchschnittlicher Satzlänge (horizontale Achse) und Fehlern pro Wort (vertikale Achse), die bereits in der vorangegangenen Untersuchung des Einflusses der Satzlänge gemessen worden waren. Die Vermutung liegt nahe, dass es sich um eine logarithmische Abhängigkeit handelt. Um eine passende Funktion für die Beschreibung des Zusammenhangs zu finden, betrachtete der Autor verschiedene dekadisch logarithmische Funktionen der Form f L (L(s)) = a · lg(b · L(s) c + d), wobei L(s) die Länge des Satzes s bezeichnet, und suchte nach geeigneten Konstanten a, b, c, d ∈ R. Als beste Funktion erwies sich dabei 0, 1 · lg(L(s) 1,24 +1) , deren Fehlerquadrate, also die Quadrate der Abweichungen der Funktionswerte von den empirisch gemessenen Fehlerzahlen pro Wort in Abbildung 6.1, in der Summe mit einem Betrag von lediglich 2, 23 · 10 −5 mit Abstand am geringsten ausfielen. Weil die Werte dieser Funktion auch bei großen Satzlängen sehr klein sind, so etwa 0, 1991 bei 40 Wörtern, wählte der Autor den Faktor 100, um die Werte in ein angemessenes Verhältnis zu den Bewertungen der übrigen Merkmale zu bringen. Die endgültige Funktion zur Bewertung der Satzlänge L(s) lautet also bei gegebener Länge: ∀L(s) > 0 : f L (L(s)) = 10 · lg(L(s) 1,24 + 1) 68
6.2. Überprüfung des Übersetzbarkeitsindexes Abbildung 6.1.: Zusammenhang zwischen Satzlänge und Fehlerzahl pro Wort (mit eingefügter gestrichelter Trendlinie zwischen den empirisch gemessenen Werten) 6.2. Überprüfung des Übersetzbarkeitsindexes Von zentraler Bedeutung für die Güte des Indexes ist, dass seine Werte die Fehleranfälligkeit eines gegebenen Satzes passend widerspiegeln. Um sicherzustellen, dass der Index sinnvolle Bewertungen vornimmt, an denen man die Richtung, in die die Übersetzungsqualität eines gegebenen Satzes gehen wird, korrekt voraussehen kann, ist also ein Test der Übersetzbarkeitsfunktion auf Satzebene erforderlich1 . Gleichzeitig diente dieser Test auch dazu zu erkennen, wie hoch die vom Index errechneten Werte bei welchen erwarteten Fehlerzahlen ausfallen; dies lässt sich allein aus der Definition der Gleichungen nicht ablesen. Für die Überprüfung wurden aus dem Korpus mit kurzen Sätzen und bei allen anderen Textmerkmalen aus den Korpora mit Originalsätzen die ersten 15 Sätze herausgenommen und vom Übersetzbarkeitsindex bewertet. Insgesamt wurde die Funktion also an 135 verschiedenen Sätzen getestet. Damit konkrete Werte für die einzelnen Sätze berechnet werden konnten, wurde für jeden einzelnen Buch geführt, wie oft die relevanten Textmerkmale darin auftraten. Am häufigsten kamen Mehrdeutigkeiten vor (168), am seltensten abgetrennte Kompositionsglieder (16). Zu den Mehrdeutigkeiten ist außerdem zu sagen, dass wie im zugehörigen Textkorpus nur lexikalische Mehrdeutigkeiten, also Wörter mit verschiedenen Bedeutungen in der Zielsprache, gezählt wurden. Es zeigte sich eine große Bandbreite von Indexwerten für die Übersetzbarkeit, die von etwa zwölf bis hin zu gut 70 Punkten reichte. Die Qualität des Indexes kann durch einen linear-proportionalen Zusammenhang zwischen der absoluten Fehlerzahl pro Satz und der Höhe des Indexwertes gezeigt werden, indem die Indexwerte sich – abzüglich einer Konstante – prozentual ähnlich stark verändern wie 1 Werden die einzelnen Sätze überwiegend richtig bewertet, so gilt dies aufgrund der Beschaffenheit der Übersetzbarkeitsfunktion für Texte aus beliebig vielen Sätzen dann auch für den ganzen Text. 69
Seite 1:
Messung maschineller Übersetzbarke
Seite 4 und 5:
Inhaltsverzeichnis Tabellenverzeich
Seite 6 und 7:
Inhaltsverzeichnis 7.4.3. Modellier
Seite 8 und 9:
Abbildungsverzeichnis 2.1. Schema f
Seite 10 und 11:
Teil I. Einführung 10
Seite 12 und 13:
1. Grundlagen der Arbeit Motivation
Seite 14 und 15:
2. Stand der Technik In den folgend
Seite 16 und 17:
2. Stand der Technik Sprache optimi
Seite 18 und 19: 2. Stand der Technik 2.4.1. Mehrdeu
Seite 20 und 21: 2. Stand der Technik Abgesehen von
Seite 22 und 23: 3. Ansätze zur Lösung der Überse
Seite 28 und 29: Teil II. Ein Modell zur Einschätzu
Seite 30 und 31: 4. Vorbereitende Maßnahmen auf fol
Seite 32 und 33: 4. Vorbereitende Maßnahmen der Unt
Seite 34 und 35: 4. Vorbereitende Maßnahmen überse
Seite 36 und 37: 4. Vorbereitende Maßnahmen Zusätz
Seite 38 und 39: 5. Untersuchung der Textmerkmale au
Seite 66 und 67: 6. Zusammenführung der Kriterien i
Seite 70 und 71: 6. Zusammenführung der Kriterien i
Seite 72 und 73: Teil III. MT Analyser: Automatische
Seite 74 und 75: 7. Modellierung von MT Analyser Ins
Seite 76 und 77: 7. Modellierung von MT Analyser auf
Seite 78 und 79: 7. Modellierung von MT Analyser Sat
Seite 80 und 81: 7. Modellierung von MT Analyser Dar
Seite 82 und 83: 7. Modellierung von MT Analyser fin
Seite 84 und 85: 7. Modellierung von MT Analyser Kla
Seite 86 und 87: 8. Implementierung von MT Analyser
Seite 116 und 117: 9. Zusammenfassung der Ergebnisse D
Seite 118 und 119:
10. Ansätze zur Weiterentwicklung
Seite 120 und 121:
GLOSSAR E EG-Kommission Vorläufer
Seite 122 und 123:
GLOSSAR S Signifikanzniveau Grenzwe
Seite 124 und 125:
Stichwortverzeichnis Lexikon, 13, 2
Seite 126 und 127:
Stichwortverzeichnis Übersetzungsp
Seite 128 und 129:
Literaturverzeichnis [Gda94] [Hoe04
Seite 130:
Literaturverzeichnis [Wag03] [Wat03
Alle anzeigen

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?