23.11.2013 Aufrufe

tekom-Jahrestagung 2012 - ActiveDoc

tekom-Jahrestagung 2012 - ActiveDoc

tekom-Jahrestagung 2012 - ActiveDoc

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Lokalisierung und Übersetzung / Localization<br />

Bei der TM-Optimierung geht es nun darum, TMs zunächst auf mögliche<br />

Probleme zu untersuchen und diese dann, soweit möglich automatisiert,<br />

zu beseitigen. Das Ziel ist also ein TM, aus dem Übersetzern<br />

höherwertige Matches in besserer Qualität angeboten werden können.<br />

Für die Analyse und Korrektur von Fehlern in TMs bieten die Bordmittel<br />

der TMs aber nur sehr eingeschränkte Möglichkeiten, die bei TMs<br />

mit Tausenden ÜE kaum praktikabel verwendbar sind. Daneben gibt es<br />

am Markt zwar verschiedene kommerzielle und Open-Source-Werkzeuge.<br />

Diese bringen allerdings eine Reihe von Nachteilen mit sich, darunter<br />

eingeschränkten Funktionsumfang, reduzierte Kontrolle über die<br />

Definition von Fehlern sowie mangelnde Integrierbarkeit in bestehende<br />

Prozesse.<br />

Vor diesem Hintergrund wurde bei beo Gesellschaft für Sprachen und<br />

Technologie mbH eine eigene Lösung für die TM-Optimierung entwickelt.<br />

Diese Lösung basiert auf Skripten (also logischen Befehlsabfolgen)<br />

in der freien Skriptsprache PHP, anhand denen komplette Exportdateien<br />

aus dem TMS in unterschiedlichster Weise verarbeitet werden<br />

können.<br />

Beispiel Übersetzungsvarianten<br />

Ein Beispiel für typische Mängel in einem TM ist das Auftreten von<br />

ungewünschten Übersetzungsvarianten, also mehreren, inkonsistenten<br />

Übersetzungen für einen Ausgangssatz. Anhand eines entsprechenden<br />

Skripts kann zunächst untersucht werden, ob Übersetzungsvarianten<br />

im TM vorkommen. Dabei ist eine Unterscheidung nach identischen<br />

oder abweichenden Attributfeldern möglich. Vom Skript gefundene<br />

Varianten der beiden Typen werden dann mit den relevanten Metadaten<br />

der betroffenen ÜE in einer Liste ausgegeben, die bequem in einem<br />

Portal dargestellt und bearbeitet werden kann. Anhand dieser Listen<br />

können die ungewünschten Varianten manuell ausgewählt werden und<br />

die entsprechenden ÜE anhand einer zuvor vergebenen ID automatisch<br />

aus dem TM entfernt werden.<br />

Mit einem weiteren Skript ist eine automatische Bereinigung der Varianten<br />

auf Basis der Metadaten der ÜE möglich: So kann beispielsweise<br />

angenommen werden, dass es sich bei der zuletzt angelegten oder geänderten<br />

Übersetzungsvariante um die aktuellste und damit bevorzugte<br />

Variante handelt; alle anderen Varianten mit demselben Ausgangssatz<br />

werden automatisch entfernt. Die Berücksichtigung weiterer Metadaten,<br />

wie Attribut- oder Textfelder, ist ebenfalls möglich.<br />

Als Ergebnis der teil- oder vollautomatischen Bereinigung entsteht ein<br />

TM, in dem ausschließlich gewünschte Übersetzungsvarianten enthalten<br />

sind. Dadurch verbessert sich nicht nur die inhaltliche Konsistenz<br />

von Übersetzungen, auch die Matchwerte werden erhöht und der Aufwand<br />

sinkt.<br />

Beispiel Satzfragmente<br />

Ein weiteres Beispiel ist das Auftreten von Sätzen, die fragmentiert in<br />

den Segmenten mehrerer ÜE gespeichert sind – ein Phänomen, das<br />

entsteht, wenn Absatzmarken im Ausgangsdokument als Mittel zum<br />

Zeilenumbruch verwendet werden. Bei der Segmentierung des Textes<br />

durch das TMS führen diese Absatzmarken dazu, dass ganze Sätze in<br />

180<br />

<strong>tekom</strong>-<strong>Jahrestagung</strong> <strong>2012</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!