pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
die Phonotaktik des Englischen stark berücksichtigt.<br />
Damit ergeben sich Konflikte bei der Kodierung deutschsprachiger Zeichenketten.<br />
Während dies bei => noch recht unproblematisch sein sollte, entspricht das<br />
26 im Deutschen dem [t] und nicht dem [T]. Weiterhin kategorisiert Metaphone das<br />
, wenn es vor Vokalen auftritt, nicht als Vokal, sondern als Konsonant. Dies ist im<br />
Deutschen in vielen Namen nicht der Fall.<br />
Gegenüber dem ursprünglichen Metaphone ist Double Metaphone um die Fähigkeit<br />
erweitert worden, mehrere Schlüssel <strong>zu</strong> erzeugen. Die Regelbasis wurde an einzelnen Stellen<br />
erweitert und es wurden Kodierungsfehler getilgt.<br />
3.6.4 Phonix<br />
Bei Phonix, beschrieben in Gadd (1988) und Gadd (1990), handelt es sich um ein Soundex-<br />
Derivat für die englische Sprache. So ist der Schlüssel, wie bei Soundex, eigentlich numerisch.<br />
Ist der erste Buchstabe ein Vokal wird dies jedoch durch ein markiert.<br />
Ähnlich wie bei Metaphone, wird versucht, anhand von Regeln einen optimaleren Umgang<br />
mit Graphemen <strong>zu</strong> erlauben, die aus mehreren Zeichen bestehen. Da<strong>zu</strong> wird eine<br />
Erset<strong>zu</strong>ngsfunktion verwendet, wenn eine da<strong>zu</strong>gehörige Regel den Kontext korrekt beschreibt.<br />
Die erwähnte Regel besteht aus einer Position, einem gruppierten Kontext und<br />
zwei Zeichenketten. Die Position ist entweder beliebig oder der Anfang bzw. das Ende der<br />
Zeichenkette. Der Kontext gibt an, ob als benachbarte Zeichen Vokale, Konsonanten oder<br />
beides erlaubt sind. Die beiden Zeichenketten geben an, welche Zeichenkette durch eine<br />
andere ersetzt werden soll.<br />
Es werden in dem Artikel von Gadd (1988) zwei Varianten von Phonix beschrieben.<br />
Die zweite Variante hebt sich von der schon beschriebenen Variante vor allem durch eine<br />
gesonderte Behandlung der Endgrapheme ab. Diese werden im zweiten Ansatz eliminiert<br />
und erhöhen somit die Trefferquote für den im Artikel vorgesehen Anwendungszweck der<br />
Literaturrecherche vor<strong>zu</strong>gsweise von englischsprachigen Titeln.<br />
Phonix gelang eine größere Verbreitung durch die Integration in WAIS. 27<br />
26 Dies ist kein kleines Problem für die Anwendung im Deutschen. So enthalten ca. 3,1 Prozent der<br />
Familiennamen im Korpus ein .<br />
27 Bei WAIS handelt es sich um eine spezielle Datenbank für die Informationssuche in unterschiedlichen<br />
Dokumententypen. Sie wird vor allem im universitären Kontext und in Bibliotheken benutzt.<br />
15