pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
ist es nun auch vertretbar, komplexere Vergleichsoperationen durch<strong>zu</strong>führen, um falsche<br />
Suchergebnisse <strong>zu</strong> filtern oder um eine Reihenfolge <strong>zu</strong> generieren. Bei Kukich (1992) wird<br />
diese Vorgehensweise auch als Partitionierung der Datenbank bezeichnet. Partitionierungsmerkmal<br />
ist somit der Schlüssel der jeweiligen Verfahren für die Phonetische Suche.<br />
Als Optimum hierfür dürfte ein gewichtetes Edit-Distance-Verfahren gelten, wie es<br />
unter anderem in Kapitel 4.4 vorgeschlagen wurde. Jedoch ist der dafür auf<strong>zu</strong>wendende<br />
Forschungsaufwand für deutschen Namen recht groß, da Probleme mit dem Graphem-<br />
Phonem-Alignment gehandhabt werden müssen. Bei genauer Betrachtung wäre eine Art<br />
automatische Transkription notwendig, wie sie ein Graphem-nach-Phonem-Konverter erledigt.<br />
Aufgrund der Fehlertoleranz von Algorithmen wie z. B. Levenshtein-Damerau wäre<br />
hier ein gewisser Fehlergrad durchaus <strong>zu</strong> vertreten, so dass die Anforderungen an die<br />
Genauigkeit der Transkription nicht so hoch wären, wie z. B. in TTS 66 -Systemen. Auch<br />
müsste die Berücksichtigung von Akzent und Intonation gar nicht oder nur mit sehr einfachen<br />
Modellen erfolgen. Dennoch wurde im Rahmen dieser Arbeit darauf verzichtet, ein<br />
entsprechendes Modell <strong>zu</strong> entwickeln.<br />
Anstatt dessen sollen drei unaufwendig <strong>zu</strong> errechnende Merkmale vorgestellt werden,<br />
die eine Filterung der Suchergebnisse erlauben. Ziel ist es dabei, möglichst viele falsche<br />
und möglichst wenige richtige Treffer <strong>zu</strong> eliminieren. Untersucht werden Silbenanzahl,<br />
wortinitiale Grapheme und besondere vokalische Information.<br />
Um das dafür verwendete Hilfsmittel vor<strong>zu</strong>stellen, soll eine kurze Einführung in die<br />
regulären Ausdrücke gegeben werden. Diese werden ebenfalls in mehreren der selbst erstellten<br />
Implementationen von Algorithmen verwendet. Sie stellen eine Möglichkeit für die<br />
Beschreibung von Zeichenketten dar.<br />
8.1 Reguläre Ausdrücke<br />
Reguläre Ausdrücke 67 stellen ein System für das Beschreiben von Zeichenketten dar. Sie<br />
können für die Erkennung von Mustern und Kontexten verwendet werden. Weitergehende<br />
Beschreibungen der verschiedenen Formen finden sich in Friedl (2002). Eine formale<br />
Beschreibung und die Anwendbarkeit auf ausgewählte Aspekte der Sprachverarbeitung<br />
findet sich in Karttunen u. a. (1996).<br />
Um einen Eindruck für die Syntax <strong>zu</strong> vermitteln, sollen hier ein paar Beispiele für<br />
reguläre Ausdrücke gegeben werden. So beschreibt Ausdruck /[aeoiu]{2}/ eine Abfolge<br />
von zwei Zeichen der in den eckigen Klammern angegebenen Vokalen. Der Ausdruck<br />
/k[ae][ijy]h?s+(ar?|er)/<br />
66 Text-to-Speech<br />
67 englisch: Regular Expressions<br />
54