28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

ist es nun auch vertretbar, komplexere Vergleichsoperationen durch<strong>zu</strong>führen, um falsche<br />

Suchergebnisse <strong>zu</strong> filtern oder um eine Reihenfolge <strong>zu</strong> generieren. Bei Kukich (1992) wird<br />

diese Vorgehensweise auch als Partitionierung der Datenbank bezeichnet. Partitionierungsmerkmal<br />

ist somit der Schlüssel der jeweiligen Verfahren für die Phonetische Suche.<br />

Als Optimum hierfür dürfte ein gewichtetes Edit-Distance-Verfahren gelten, wie es<br />

unter anderem in Kapitel 4.4 vorgeschlagen wurde. Jedoch ist der dafür auf<strong>zu</strong>wendende<br />

Forschungsaufwand für deutschen Namen recht groß, da Probleme mit dem Graphem-<br />

Phonem-Alignment gehandhabt werden müssen. Bei genauer Betrachtung wäre eine Art<br />

automatische Transkription notwendig, wie sie ein Graphem-nach-Phonem-Konverter erledigt.<br />

Aufgrund der Fehlertoleranz von Algorithmen wie z. B. Levenshtein-Damerau wäre<br />

hier ein gewisser Fehlergrad durchaus <strong>zu</strong> vertreten, so dass die Anforderungen an die<br />

Genauigkeit der Transkription nicht so hoch wären, wie z. B. in TTS 66 -Systemen. Auch<br />

müsste die Berücksichtigung von Akzent und Intonation gar nicht oder nur mit sehr einfachen<br />

Modellen erfolgen. Dennoch wurde im Rahmen dieser Arbeit darauf verzichtet, ein<br />

entsprechendes Modell <strong>zu</strong> entwickeln.<br />

Anstatt dessen sollen drei unaufwendig <strong>zu</strong> errechnende Merkmale vorgestellt werden,<br />

die eine Filterung der Suchergebnisse erlauben. Ziel ist es dabei, möglichst viele falsche<br />

und möglichst wenige richtige Treffer <strong>zu</strong> eliminieren. Untersucht werden Silbenanzahl,<br />

wortinitiale Grapheme und besondere vokalische Information.<br />

Um das dafür verwendete Hilfsmittel vor<strong>zu</strong>stellen, soll eine kurze Einführung in die<br />

regulären Ausdrücke gegeben werden. Diese werden ebenfalls in mehreren der selbst erstellten<br />

Implementationen von Algorithmen verwendet. Sie stellen eine Möglichkeit für die<br />

Beschreibung von Zeichenketten dar.<br />

8.1 Reguläre Ausdrücke<br />

Reguläre Ausdrücke 67 stellen ein System für das Beschreiben von Zeichenketten dar. Sie<br />

können für die Erkennung von Mustern und Kontexten verwendet werden. Weitergehende<br />

Beschreibungen der verschiedenen Formen finden sich in Friedl (2002). Eine formale<br />

Beschreibung und die Anwendbarkeit auf ausgewählte Aspekte der Sprachverarbeitung<br />

findet sich in Karttunen u. a. (1996).<br />

Um einen Eindruck für die Syntax <strong>zu</strong> vermitteln, sollen hier ein paar Beispiele für<br />

reguläre Ausdrücke gegeben werden. So beschreibt Ausdruck /[aeoiu]{2}/ eine Abfolge<br />

von zwei Zeichen der in den eckigen Klammern angegebenen Vokalen. Der Ausdruck<br />

/k[ae][ijy]h?s+(ar?|er)/<br />

66 Text-to-Speech<br />

67 englisch: Regular Expressions<br />

54

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!