28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

die Phonotaktik des Englischen stark berücksichtigt.<br />

Damit ergeben sich Konflikte bei der Kodierung deutschsprachiger Zeichenketten.<br />

Während dies bei => noch recht unproblematisch sein sollte, entspricht das<br />

26 im Deutschen dem [t] und nicht dem [T]. Weiterhin kategorisiert Metaphone das<br />

, wenn es vor Vokalen auftritt, nicht als Vokal, sondern als Konsonant. Dies ist im<br />

Deutschen in vielen Namen nicht der Fall.<br />

Gegenüber dem ursprünglichen Metaphone ist Double Metaphone um die Fähigkeit<br />

erweitert worden, mehrere Schlüssel <strong>zu</strong> erzeugen. Die Regelbasis wurde an einzelnen Stellen<br />

erweitert und es wurden Kodierungsfehler getilgt.<br />

3.6.4 Phonix<br />

Bei Phonix, beschrieben in Gadd (1988) und Gadd (1990), handelt es sich um ein Soundex-<br />

Derivat für die englische Sprache. So ist der Schlüssel, wie bei Soundex, eigentlich numerisch.<br />

Ist der erste Buchstabe ein Vokal wird dies jedoch durch ein markiert.<br />

Ähnlich wie bei Metaphone, wird versucht, anhand von Regeln einen optimaleren Umgang<br />

mit Graphemen <strong>zu</strong> erlauben, die aus mehreren Zeichen bestehen. Da<strong>zu</strong> wird eine<br />

Erset<strong>zu</strong>ngsfunktion verwendet, wenn eine da<strong>zu</strong>gehörige Regel den Kontext korrekt beschreibt.<br />

Die erwähnte Regel besteht aus einer Position, einem gruppierten Kontext und<br />

zwei Zeichenketten. Die Position ist entweder beliebig oder der Anfang bzw. das Ende der<br />

Zeichenkette. Der Kontext gibt an, ob als benachbarte Zeichen Vokale, Konsonanten oder<br />

beides erlaubt sind. Die beiden Zeichenketten geben an, welche Zeichenkette durch eine<br />

andere ersetzt werden soll.<br />

Es werden in dem Artikel von Gadd (1988) zwei Varianten von Phonix beschrieben.<br />

Die zweite Variante hebt sich von der schon beschriebenen Variante vor allem durch eine<br />

gesonderte Behandlung der Endgrapheme ab. Diese werden im zweiten Ansatz eliminiert<br />

und erhöhen somit die Trefferquote für den im Artikel vorgesehen Anwendungszweck der<br />

Literaturrecherche vor<strong>zu</strong>gsweise von englischsprachigen Titeln.<br />

Phonix gelang eine größere Verbreitung durch die Integration in WAIS. 27<br />

26 Dies ist kein kleines Problem für die Anwendung im Deutschen. So enthalten ca. 3,1 Prozent der<br />

Familiennamen im Korpus ein .<br />

27 Bei WAIS handelt es sich um eine spezielle Datenbank für die Informationssuche in unterschiedlichen<br />

Dokumententypen. Sie wird vor allem im universitären Kontext und in Bibliotheken benutzt.<br />

15

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!