28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Zeichen in der Zeichenkette Kodierung Zeichen in der Zeichenkette Kodierung<br />

Z,K,G,Q C KS X<br />

A,AE E QU KW<br />

U,I,J Y OE Ö<br />

F,W,PF V EI,EY AY<br />

P B EU OY<br />

T D OU U<br />

SC,SZ,CZ,TZ,TS C<br />

Abbildung 7: Erset<strong>zu</strong>ngen im PHONEM-Algorithmus. Regeln für Vokale mit Akzenten<br />

wurden ausgelassen.<br />

und sind ebenfalls keine Regeln vorhanden. Somit ist der erste Zwischenschlüssel<br />

. Das Ersetzen der einzelnen Buchstaben bringt auch keine Veränderungen.<br />

Nun werden doppelte Zeichen entfernt. Da das nicht Bestandteil der erlaubten<br />

Buchstaben ist, wird dieses entfernt. Damit ist der Schlüssel .<br />

Die Verbreitung des Verfahrens PHONEM dürfte an der engen Koppelung an dBase 30<br />

gescheitert sein. Portierungen 31 sind nicht bekannt.<br />

3.6.8 Phonet<br />

Phonet ist der derzeit neueste, bekannte Ansatz für eine Phonetische Suche im Deutschen.<br />

Zwei Varianten 32 werden in Michael (1988) beschrieben, die sich durch die Größe der<br />

Zielalphabete unterscheiden. Phonet zeichnet sich gegenüber den bisherigen deutschsprachigen<br />

Ansätzen durch seine relativ hohe Komplexität 33 und die Verwendung einer großen<br />

Anzahl von Regeln aus. Phonet versucht dabei, der Bedeutung der Vokale im Deutschen<br />

Rechnung <strong>zu</strong> tragen. Allerdings wird wie bei PHONEM in der ersten Variante eine relativ<br />

große Anzahl an Vokalklassen verwendet. Die zweite Variante ist im Bereich der Vokale<br />

deutlich variabler.<br />

Die Eingabezeichenkette wird bei Phonet mittels zweiteiliger Regeln verändert. Durch<br />

eine Erkennungszeichenkette wird der Kontext beschrieben in dem eine Regel verwendet<br />

wird. Diese Zeichenkette hat eine ähnliche Syntax wie die in Kapitel 8.1 beschriebenen regulären<br />

Ausdrücke. Durch <strong>zu</strong>sätzliche Steuerzeichen ist es möglich nur Teile der Eingabezeichenkette<br />

<strong>zu</strong> verändern. Die zweite Zeichenkette enthält die Zeichen, welche in der<br />

30 Bei dBase handelt es sich um eine einfache Datenbank, die vor 15 Jahren zwar weit verbreitet, heute<br />

jedoch fast bedeutungslos geworden ist.<br />

31 Unter einer Portierung versteht man das Anpassen einer Software an andere Umgebungen, wie z. B.<br />

Programmiersprache oder Betriebsystem.<br />

32 Die zweite Variante von Phonet wird im Folgenden Phonet2 genannt.<br />

33 Der Ansatz von Phonem ähnelt einem cluster-basierten Graphem-nach-Phonem-Konverter. Da keine<br />

konkrete Implementation bekannt ist, kann lediglich abgeschätzt werden, dass die Komplexität ähnlich<br />

ist.<br />

19

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!