28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

1 Einleitung<br />

In dieser Arbeit soll versucht werden, einen Überblick über Möglichkeiten der Kodierung<br />

von Ähnlichkeiten in deutschen Familiennamen <strong>zu</strong> geben. Ausschlaggebend hierfür soll<br />

die Aussprache der Namen sein. So ist eine Kodierung von Ähnlichkeiten sinnvoll, wenn<br />

für einen Begriff oder Namen die Aussprache, nicht aber die genaue Schreibweise bekannt<br />

ist. Dies stellt bei Familiennamen ein besonderes Problem dar, da aufgrund der Entstehungsgeschichte<br />

für fast jeden Namen eine Vielzahl von Schreibvarianten mit ähnlicher<br />

Aussprache existieren. Andererseits gibt es für viele Schreibweisen die Möglichkeit von<br />

mehreren Aussprachevarianten. Die Aufgabe ist dementsprechend für eine Schreibweise<br />

eines Familiennamens alle anderen äquivalenten <strong>zu</strong> finden.<br />

Ein Schwerpunkt dieser Arbeit wird bei den Verfahren für die Phonetische Suche liegen.<br />

Diese versuchen mit recht ähnlichen Strategien die genannten Ambiguitäten auf<strong>zu</strong>lösen.<br />

Universellere Ansätze aus der klassischen Informatik, wie Edit-Distance- und N-Grambasierte<br />

Verfahren werden ebenfalls vorgestellt und auf ihre Anwendbarkeit für die gegebene<br />

Problemstellung untersucht.<br />

Zu diesem Zweck wird aus einer Telefonbuch-CD ein Korpus von ca. 1,2 Millionen<br />

Familiennamen extrahiert und für die häufigsten Namen eine Bewertung der Verfahren<br />

vorgenommen. Nach einer Auswertung werden ausgewählte Besonderheiten der deutschen<br />

Orthographie und deren Aussprachevarianten vorgestellt. Da viele der beschriebenen Verfahren<br />

für die Phonetische Suche keine optimalen Suchergebnisse liefern, werden abschliessend<br />

Vorschläge gemacht, wie mit wenig Aufwand fehlerfreiere Suchergebnisse <strong>zu</strong> erreichen<br />

sind.<br />

2 Allgemeines über Namen<br />

Als Erstes soll eine kleine Einführung in die verschiedenen Namenstypen gegeben werden.<br />

Da sich diese Arbeit im Folgenden auf die Behandlung von Familiennamen 1 beschränkt,<br />

wird anschliessend deren Entstehungshistorie skizziert. Diese erklärt die Ursache für die<br />

große Varianz an Schreibweisen.<br />

2.1 Namenstypen<br />

Verschiedene Typen von Namen sind bekannt. So werden im Alltag z. B. Vornamen, Familiennamen,<br />

Eigennamen, Firmennamen, Ortsnamen und Tiernamen verwendet. Viele<br />

dieser Typen sind voneinander abgeleitet oder haben eine ähnliche Struktur. So ist es eine<br />

1 Die verwendete Datenquelle für den Korpus hätte auch Material für die Untersuchung von weiteren<br />

Namenstypen, wie Vor- und Ortsnamen liefern können. Da die Auswahl an Familiennamen ein sehr<br />

vielfältiges Spektrum bietet, wurden weitere Namenstypen nicht näher untersucht.<br />

1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!