26.11.2012 Aufrufe

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

Jahresbericht informatik 2009 - KIT – Fakultät für Informatik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Institut <strong>für</strong> Anthropomatik<br />

Während der Optimierungsphase haben wir verschiedene besondere Eigenschaften wie<br />

Tonalität, einsilbige Wörter und Variation der Dialekte betrachtet. Durch dieses Vorgehen<br />

wurde ein besseres Merkmal und akustisches Modell <strong>für</strong> die Tonalität entwickelt. Daneben<br />

wurde das Sprachmodell <strong>für</strong> das Problem einsilbiger Wörter optimiert. Unser bester vietnamesischer<br />

Spracherkenner erreicht eine Wortfehlerrate von 11.7%, was einer relativen<br />

Verbesserung von ~ 50% entspricht.<br />

Das Rapid Language Adaptation Toolkit, das eine Sammlung von Sprachmaterial über<br />

das Internet ermöglicht, sowie Interfaces <strong>für</strong> die Erzeugung der <strong>für</strong> die Sprachverarbeitung<br />

benötigten Module bereitstellt, wurde ebenfalls dieses Jahr weiterentwickelt. Neben Text-<br />

Normalisierungen <strong>für</strong> verschiedene Sprachen und Sprachidentifikationen bei der<br />

Textdatensammlung wurde beispielsweise eine Funktionalität implementiert (Snapshot-<br />

Funktion), die beim Sammeln von Webseiten in Zeitabschnitten Informationen über die<br />

Qualität der gesammelten Texte im Bezug auf ein daraus gewonnenes Sprachmodel berechnet<br />

und anzeigt (z. B. Perplexität, Out-of-vocabulary Rate, N-Gramm Abdeckung, Anzahl<br />

gesammelter Wörter, Vokabulargröße). Aus diesen Informationen werden dann <strong>für</strong><br />

Analysezwecke automatisch Schaubilder generiert, die den Verlauf der Sprachmodell-<br />

Merkmale zeigen.<br />

259<br />

3

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!