27.10.2014 Aufrufe

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

Messung maschineller¨Ubersetzbarkeit von ... - Parallele Systeme

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

7.4. Modellierung wesentlicher Programmteile<br />

TreeTagger zeichnet sich dadurch aus, dass er auf allen Betriebssystemen, für die auch<br />

MT Analyser vorgesehen ist, arbeiten kann. Ihm zugrunde liegt ein wahrscheinlichkeitstheoretisches,<br />

auf Entscheidungsbäumen basierendes Modell, dessen Parameter sich über<br />

manuell getaggte Textkorpora trainieren lassen [Sch94].<br />

TreeTagger arbeitet insgesamt sehr zuverlässig mit einer durchschnittlichen Fehlerquote<br />

<strong>von</strong> 2, 5 bis 5 Prozent je nach Version und zum Testen benutztem Textkorpus (vgl. [Sch95]<br />

und [SV98]). In einem Vergleich mit dem <strong>von</strong> Jongejan und Underwood [JU01] im Translatability<br />

Checker bei der Bewertung der Übersetzbarkeit verwendeten (regelbasierten)<br />

Brill-Tagger schneidet TreeTagger leicht besser ab (vgl. [SV98]).<br />

Trotz der relativ geringen Fehlerzahlen bleibt festzuhalten, dass immerhin jedes 20. bis 40.<br />

<strong>von</strong> TreeTagger zugewiesene Tag falsch und in Konsequenz die Erkennung <strong>von</strong> Textmerkmalen<br />

im betroffenen Satz bei Zugriff auf diese Tags beeinträchtigt ist. Ferner beschränken<br />

die vergebenen Tags wegen der Benutzung des STTS die Analysemöglichkeiten <strong>von</strong> MT<br />

Analyser im Nachfeld der Ausführung <strong>von</strong> TreeTagger (siehe Abschnitt 7.3.2).<br />

7.4. Modellierung wesentlicher Programmteile<br />

7.4.1. Komponenten <strong>von</strong> MT Analyser<br />

Es bietet sich an, das Programm MT Analyser zwecks besserer Strukturierung auf verschiedene<br />

kleinere Komponenten (in Java: Pakete) zu verteilen, die jeweils eine zusammengehörende<br />

Sammlung <strong>von</strong> Funktionen kapseln. Bedenkt man, dass als zentrale Funktionen<br />

die Einbindung <strong>von</strong> TreeTagger, die Bewertung der Übersetzbarkeit des ausgewählten<br />

Textes, die grafische sowie die textuelle Oberfläche, der Übersetzbarkeitsreport und die<br />

Verwaltung des Mehrdeutigkeitslexikons zu implementierten sind, erweist sich der folgende<br />

Programmaufbau in Paketen als sinnvoll:<br />

• Paket mtanalyser: Klassen zum Programmstart und zur übergeordneten Ablaufsteuerung<br />

• Paket mtanalyser.core: Klassen zur Speicherung der textbezogenen Daten und zur<br />

Bewertung der Übersetzbarkeit (vgl. 7.4.2)<br />

• Paket mtanalyser.reporting: Klassen zur Erstellung des Übersetzbarkeitsreports<br />

• Paket mtanalyser.lexicon: Klassen für das Mehrdeutigkeitslexikon<br />

• Paket mtanalyser.tagger: Klassen zur Datenaufbereitung für TreeTagger<br />

• Paket mtanalyser.gui: Klassen für die grafische Oberfläche<br />

• Paket mtanalyser.console: Klassen für die textuelle Oberfläche<br />

• Paket mtanalyser.exceptions: Klassen zur Ausnahmebehandlung<br />

7.4.2. Datenhaltung und Datenbearbeitung im Programmkern<br />

Die datentechnische Grundlage des Programms lässt sich wie folgt modellieren: Ein Text<br />

soll bewertet werden. Dieser Text besteht aus vielen verschiedenen, aber mindestens einem<br />

77

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!