Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Weitere Magazine

Empfehlungen

Info

7. Modellierung von MT Analyser Satz, für den ebenfalls eine Wertung zu erstellen ist. Darüber hinaus besteht jeder Satz aus einem oder mehreren Teilsätzen, die benötigt werden, um die Textmerkmale darin zu suchen. Gleichzeitig ist einem Satz eine unbestimmte Anzahl größer oder gleich null von Übersetzungsschwierigkeiten zugeordnet, die sich aus den gefundenen Textmerkmalen ergeben. Daraus lassen sich vier Klassen ableiten: Text für den kompletten Text, Sentence für einen einzelnen Satz aus dem Text, PartialSentence für einen Teilsatz eines Satzes und TranslationDifficulty für eine Übersetzungsschwierigkeit. Hinzu kommt noch eine fünfte Klasse namens TextStatistics, die von der Klasse Text benutzt wird, um wichtige statistische Kennzahlen zu speichern. Zusätzlich müssen auf Basis dieser Datenhaltungsklassen alle wichtigen Berechnungen zur Bewertung der Übersetzbarkeit durchgeführt werden, wofür sich zwei weitere Klassen anbieten - je eine zur Berechnung auf Satz- und Textebene. Dies sind SentenceAnalyser zur Analyse eines einzelnen Satzes und TextAnalyser zur Analyse des gesamten Textes. Das Zusammenspiel zwischen den Klassen lässt sich dem UML-Klassendiagramm in Abbildung 7.2 entnehmen. Klasse Text Die Klasse Text ist die oberste Klasse und kapselt einen kompletten Text. Sie besteht im wesentlichen aus einem Array mit mindestens einem Satz, gespeichert als Objekte vom Typ Sentence. Hinzu kommt eine Instanz vom Typ TextStatistics, in der die zum Text gehörenden Kennzahlen wie die Anzahl der gefundenen Schwierigkeiten hinterlegt sind. Drei Attribute sind auch direkt in der Klasse zugänglich, unter anderem die wichtigste Kennzahl, der Übersetzbarkeitsindex des gesamten Textes. Klasse Sentence Eine Instanz der Klasse Sentence repräsentiert einen Satz aus einem größeren Text und speichert über den eigentlichen Text hinaus weitere wichtige Parameter. Insbesondere gehören zu einem Satz auch die von TreeTagger vergebenen Tags und die jeweiligen Grundformen der Wörter. Sie werden wie auch die einzelnen Wörter in Arrays von jeweils identischer Größe gespeichert. Eine Darstellung des ursprünglichen Satzes als ein String ist ebenfalls verfügbar. Darüber hinaus sind in jedem Satz auch die einzelnen Teilsätze sowie die gefundenen Übersetzungsschwierigkeiten gespeichert. Jeder Satz hat mindestens einen Teilsatz, aber nicht unbedingt eine Übersetzungsschwierigkeit. Der Übersetzbarkeitsindex des Satzes sowie die Länge in Wörtern mit und ohne Satzzeichen können ebenfalls abgerufen werden. Klasse PartialSentence Die Klasse PartialSentence kapselt einen Teilsatz, der aus einem ganzen Satz extrahiert wurde. Die zugehörigen Wörter, Tags und Grundformen werden wie in der Klasse Sentence in gleichgroßen Arrays abgelegt. Ein Objekt der Klasse PartialSentence kann sowohl ein atomarer Teilsatz als auch ein aus mehreren Teilsätzen zusammengesetztes Aggregat sein. Der Parameter attached gibt dabei an, ob ein Teilsatz bereits einem anderen angegliedert wurde. Ist er auf falsch gesetzt, so steht der aktuelle Teilsatz für die Angliederung anderer Teilsätze bereit. Das Zusammenfügen zweier Teilsätze übernimmt die Methode attach. 78
7.4. Modellierung wesentlicher Programmteile Abbildung 7.2.: Modellierung der zentralen Klassen zur Textbewertung 79
Seite 1:
Messung maschineller Übersetzbarke
Seite 4 und 5:
Inhaltsverzeichnis Tabellenverzeich
Seite 6 und 7:
Inhaltsverzeichnis 7.4.3. Modellier
Seite 8 und 9:
Abbildungsverzeichnis 2.1. Schema f
Seite 10 und 11:
Teil I. Einführung 10
Seite 12 und 13:
1. Grundlagen der Arbeit Motivation
Seite 14 und 15:
2. Stand der Technik In den folgend
Seite 16 und 17:
2. Stand der Technik Sprache optimi
Seite 18 und 19:
2. Stand der Technik 2.4.1. Mehrdeu
Seite 20 und 21:
2. Stand der Technik Abgesehen von
Seite 22 und 23:
3. Ansätze zur Lösung der Überse
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29: Teil II. Ein Modell zur Einschätzu
Seite 30 und 31: 4. Vorbereitende Maßnahmen auf fol
Seite 32 und 33: 4. Vorbereitende Maßnahmen der Unt
Seite 34 und 35: 4. Vorbereitende Maßnahmen überse
Seite 36 und 37: 4. Vorbereitende Maßnahmen Zusätz
Seite 38 und 39: 5. Untersuchung der Textmerkmale au
Seite 66 und 67: 6. Zusammenführung der Kriterien i
Seite 72 und 73: Teil III. MT Analyser: Automatische
Seite 74 und 75: 7. Modellierung von MT Analyser Ins
Seite 76 und 77: 7. Modellierung von MT Analyser auf
Seite 80 und 81: 7. Modellierung von MT Analyser Dar
Seite 82 und 83: 7. Modellierung von MT Analyser fin
Seite 84 und 85: 7. Modellierung von MT Analyser Kla
Seite 86 und 87: 8. Implementierung von MT Analyser
Seite 116 und 117: 9. Zusammenfassung der Ergebnisse D
Seite 118 und 119: 10. Ansätze zur Weiterentwicklung
Seite 120 und 121: GLOSSAR E EG-Kommission Vorläufer
Seite 122 und 123: GLOSSAR S Signifikanzniveau Grenzwe
Seite 124 und 125: Stichwortverzeichnis Lexikon, 13, 2
Seite 126 und 127: Stichwortverzeichnis Übersetzungsp
Seite 128 und 129:
Literaturverzeichnis [Gda94] [Hoe04
Seite 130:
Literaturverzeichnis [Wag03] [Wat03
Alle anzeigen

Messung maschinellerÂ¨Ubersetzbarkeit von ... - Parallele Systeme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?