Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
7.4. Modellierung wesentlicher Programmteile<br />
TreeTagger zeichnet sich dadurch aus, dass er auf allen Betriebssystemen, für die auch<br />
MT Analyser vorgesehen ist, arbeiten kann. Ihm zugrunde liegt ein wahrscheinlichkeitstheoretisches,<br />
auf Entscheidungsbäumen basierendes Modell, dessen Parameter sich über<br />
manuell getaggte Textkorpora trainieren lassen [Sch94].<br />
TreeTagger arbeitet insgesamt sehr zuverlässig mit einer durchschnittlichen Fehlerquote<br />
<strong>von</strong> 2, 5 bis 5 Prozent je nach Version und zum Testen benutztem Textkorpus (vgl. [Sch95]<br />
und [SV98]). In einem Vergleich mit dem <strong>von</strong> Jongejan und Underwood [JU01] im Translatability<br />
Checker bei der Bewertung der Übersetzbarkeit verwendeten (regelbasierten)<br />
Brill-Tagger schneidet TreeTagger leicht besser ab (vgl. [SV98]).<br />
Trotz der relativ geringen Fehlerzahlen bleibt festzuhalten, dass immerhin jedes 20. bis 40.<br />
<strong>von</strong> TreeTagger zugewiesene Tag falsch und in Konsequenz die Erkennung <strong>von</strong> Textmerkmalen<br />
im betroffenen Satz bei Zugriff auf diese Tags beeinträchtigt ist. Ferner beschränken<br />
die vergebenen Tags wegen der Benutzung des STTS die Analysemöglichkeiten <strong>von</strong> MT<br />
Analyser im Nachfeld der Ausführung <strong>von</strong> TreeTagger (siehe Abschnitt 7.3.2).<br />
7.4. Modellierung wesentlicher Programmteile<br />
7.4.1. Komponenten <strong>von</strong> MT Analyser<br />
Es bietet sich an, das Programm MT Analyser zwecks besserer Strukturierung auf verschiedene<br />
kleinere Komponenten (in Java: Pakete) zu verteilen, die jeweils eine zusammengehörende<br />
Sammlung <strong>von</strong> Funktionen kapseln. Bedenkt man, dass als zentrale Funktionen<br />
die Einbindung <strong>von</strong> TreeTagger, die Bewertung der Übersetzbarkeit des ausgewählten<br />
Textes, die grafische sowie die textuelle Oberfläche, der Übersetzbarkeitsreport und die<br />
Verwaltung des Mehrdeutigkeitslexikons zu implementierten sind, erweist sich der folgende<br />
Programmaufbau in Paketen als sinnvoll:<br />
• Paket mtanalyser: Klassen zum Programmstart und zur übergeordneten Ablaufsteuerung<br />
• Paket mtanalyser.core: Klassen zur Speicherung der textbezogenen Daten und zur<br />
Bewertung der Übersetzbarkeit (vgl. 7.4.2)<br />
• Paket mtanalyser.reporting: Klassen zur Erstellung des Übersetzbarkeitsreports<br />
• Paket mtanalyser.lexicon: Klassen für das Mehrdeutigkeitslexikon<br />
• Paket mtanalyser.tagger: Klassen zur Datenaufbereitung für TreeTagger<br />
• Paket mtanalyser.gui: Klassen für die grafische Oberfläche<br />
• Paket mtanalyser.console: Klassen für die textuelle Oberfläche<br />
• Paket mtanalyser.exceptions: Klassen zur Ausnahmebehandlung<br />
7.4.2. Datenhaltung und Datenbearbeitung im Programmkern<br />
Die datentechnische Grundlage des Programms lässt sich wie folgt modellieren: Ein Text<br />
soll bewertet werden. Dieser Text besteht aus vielen verschiedenen, aber mindestens einem<br />
77