pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Zeichen in der Zeichenkette Kodierung Zeichen in der Zeichenkette Kodierung<br />
Z,K,G,Q C KS X<br />
A,AE E QU KW<br />
U,I,J Y OE Ö<br />
F,W,PF V EI,EY AY<br />
P B EU OY<br />
T D OU U<br />
SC,SZ,CZ,TZ,TS C<br />
Abbildung 7: Erset<strong>zu</strong>ngen im PHONEM-Algorithmus. Regeln für Vokale mit Akzenten<br />
wurden ausgelassen.<br />
und sind ebenfalls keine Regeln vorhanden. Somit ist der erste Zwischenschlüssel<br />
. Das Ersetzen der einzelnen Buchstaben bringt auch keine Veränderungen.<br />
Nun werden doppelte Zeichen entfernt. Da das nicht Bestandteil der erlaubten<br />
Buchstaben ist, wird dieses entfernt. Damit ist der Schlüssel .<br />
Die Verbreitung des Verfahrens PHONEM dürfte an der engen Koppelung an dBase 30<br />
gescheitert sein. Portierungen 31 sind nicht bekannt.<br />
3.6.8 Phonet<br />
Phonet ist der derzeit neueste, bekannte Ansatz für eine Phonetische Suche im Deutschen.<br />
Zwei Varianten 32 werden in Michael (1988) beschrieben, die sich durch die Größe der<br />
Zielalphabete unterscheiden. Phonet zeichnet sich gegenüber den bisherigen deutschsprachigen<br />
Ansätzen durch seine relativ hohe Komplexität 33 und die Verwendung einer großen<br />
Anzahl von Regeln aus. Phonet versucht dabei, der Bedeutung der Vokale im Deutschen<br />
Rechnung <strong>zu</strong> tragen. Allerdings wird wie bei PHONEM in der ersten Variante eine relativ<br />
große Anzahl an Vokalklassen verwendet. Die zweite Variante ist im Bereich der Vokale<br />
deutlich variabler.<br />
Die Eingabezeichenkette wird bei Phonet mittels zweiteiliger Regeln verändert. Durch<br />
eine Erkennungszeichenkette wird der Kontext beschrieben in dem eine Regel verwendet<br />
wird. Diese Zeichenkette hat eine ähnliche Syntax wie die in Kapitel 8.1 beschriebenen regulären<br />
Ausdrücke. Durch <strong>zu</strong>sätzliche Steuerzeichen ist es möglich nur Teile der Eingabezeichenkette<br />
<strong>zu</strong> verändern. Die zweite Zeichenkette enthält die Zeichen, welche in der<br />
30 Bei dBase handelt es sich um eine einfache Datenbank, die vor 15 Jahren zwar weit verbreitet, heute<br />
jedoch fast bedeutungslos geworden ist.<br />
31 Unter einer Portierung versteht man das Anpassen einer Software an andere Umgebungen, wie z. B.<br />
Programmiersprache oder Betriebsystem.<br />
32 Die zweite Variante von Phonet wird im Folgenden Phonet2 genannt.<br />
33 Der Ansatz von Phonem ähnelt einem cluster-basierten Graphem-nach-Phonem-Konverter. Da keine<br />
konkrete Implementation bekannt ist, kann lediglich abgeschätzt werden, dass die Komplexität ähnlich<br />
ist.<br />
19