pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
1 Einleitung<br />
In dieser Arbeit soll versucht werden, einen Überblick über Möglichkeiten der Kodierung<br />
von Ähnlichkeiten in deutschen Familiennamen <strong>zu</strong> geben. Ausschlaggebend hierfür soll<br />
die Aussprache der Namen sein. So ist eine Kodierung von Ähnlichkeiten sinnvoll, wenn<br />
für einen Begriff oder Namen die Aussprache, nicht aber die genaue Schreibweise bekannt<br />
ist. Dies stellt bei Familiennamen ein besonderes Problem dar, da aufgrund der Entstehungsgeschichte<br />
für fast jeden Namen eine Vielzahl von Schreibvarianten mit ähnlicher<br />
Aussprache existieren. Andererseits gibt es für viele Schreibweisen die Möglichkeit von<br />
mehreren Aussprachevarianten. Die Aufgabe ist dementsprechend für eine Schreibweise<br />
eines Familiennamens alle anderen äquivalenten <strong>zu</strong> finden.<br />
Ein Schwerpunkt dieser Arbeit wird bei den Verfahren für die Phonetische Suche liegen.<br />
Diese versuchen mit recht ähnlichen Strategien die genannten Ambiguitäten auf<strong>zu</strong>lösen.<br />
Universellere Ansätze aus der klassischen Informatik, wie Edit-Distance- und N-Grambasierte<br />
Verfahren werden ebenfalls vorgestellt und auf ihre Anwendbarkeit für die gegebene<br />
Problemstellung untersucht.<br />
Zu diesem Zweck wird aus einer Telefonbuch-CD ein Korpus von ca. 1,2 Millionen<br />
Familiennamen extrahiert und für die häufigsten Namen eine Bewertung der Verfahren<br />
vorgenommen. Nach einer Auswertung werden ausgewählte Besonderheiten der deutschen<br />
Orthographie und deren Aussprachevarianten vorgestellt. Da viele der beschriebenen Verfahren<br />
für die Phonetische Suche keine optimalen Suchergebnisse liefern, werden abschliessend<br />
Vorschläge gemacht, wie mit wenig Aufwand fehlerfreiere Suchergebnisse <strong>zu</strong> erreichen<br />
sind.<br />
2 Allgemeines über Namen<br />
Als Erstes soll eine kleine Einführung in die verschiedenen Namenstypen gegeben werden.<br />
Da sich diese Arbeit im Folgenden auf die Behandlung von Familiennamen 1 beschränkt,<br />
wird anschliessend deren Entstehungshistorie skizziert. Diese erklärt die Ursache für die<br />
große Varianz an Schreibweisen.<br />
2.1 Namenstypen<br />
Verschiedene Typen von Namen sind bekannt. So werden im Alltag z. B. Vornamen, Familiennamen,<br />
Eigennamen, Firmennamen, Ortsnamen und Tiernamen verwendet. Viele<br />
dieser Typen sind voneinander abgeleitet oder haben eine ähnliche Struktur. So ist es eine<br />
1 Die verwendete Datenquelle für den Korpus hätte auch Material für die Untersuchung von weiteren<br />
Namenstypen, wie Vor- und Ortsnamen liefern können. Da die Auswahl an Familiennamen ein sehr<br />
vielfältiges Spektrum bietet, wurden weitere Namenstypen nicht näher untersucht.<br />
1