13.08.2013 Aufrufe

Deutsche Familiennamen und ihre phonetischen Codes

Deutsche Familiennamen und ihre phonetischen Codes

Deutsche Familiennamen und ihre phonetischen Codes

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Franz Mühlbauer README 1<br />

<strong>Deutsche</strong> <strong>Familiennamen</strong><br />

<strong>und</strong> <strong>ihre</strong> <strong>phonetischen</strong> <strong>Codes</strong><br />

Autor: Franz Mühlbauer, München, Deutschland<br />

Datum: 23. 01. 2011<br />

Version: 0.11<br />

Lizenzen<br />

<strong>Deutsche</strong> <strong>Familiennamen</strong> <strong>und</strong> <strong>ihre</strong> <strong>phonetischen</strong> <strong>Codes</strong> unterliegt der Lizenz von Open Database<br />

License: http://opendatacommons.org/licenses/odbl/1.0/. Alle Rechte am individuellen Inhalt der<br />

Datenbasis sind unter der Database Contents License lizensiert:<br />

http://opendatacommons.org/licenses/dbcl/1.0/<br />

Status <strong>und</strong> Änderungen gegenüber Vorgängerversionen<br />

Bevor ich eine finale Version 1.0 herausgebe, gehe ich in einem letzten Aufbearbeitungsschritt alle<br />

Einträge noch einmal manuell durch <strong>und</strong> filtere nicht-relevante Einträge aus. Mit der Version 0.11<br />

fehlt noch die Durchsicht von etwa 40% der Einträge.<br />

Version 0.11<br />

Im Vergleich zur Version 0.10 habe ich 1.731 Einträge entfernt. Damit verbleiben noch 837.054<br />

Einträge.<br />

Version 0.10<br />

Im Vergleich zur Version 0.9 habe ich 3.070 Einträge entfernt. Damit verbleiben noch 838.785<br />

Einträge.<br />

Zu einer relativ kleinen Anzahl von <strong>Familiennamen</strong> unterscheiden sich die Metaphone-<strong>Codes</strong><br />

geringfügig. Meine Skripten zur Erzeugung der <strong>Codes</strong> haben sich nicht geändert. Allerdings bin ich<br />

im Zuge eines Betriebssystem-Upgrades auf eine neuere Version der Programmiersprache PHP<br />

umgestiegen. Offenbar hat sich die Implementierung der PHP-Funktion metaphone() geringfügig<br />

geändert.<br />

Version 0.9<br />

die erste veröffentlichte Version, bestehend aus einer Liste von 841.855 Einträgen<br />

Projektinhalt<br />

Der Inhalt des Projektes befindet sich in der komprimierten Datei namen.zip. Nach dem Entpacken<br />

erhalten Sie eine Datei namen.txt mit den eigentlichen Projektdaten sowie die vorliegende Datei<br />

README.pdf.<br />

In der Datei namen.txt finden Sie eine alphabetisch sortierte Liste von etwa 837.000 <strong>Familiennamen</strong><br />

aus Deutschland. Zu jedem <strong>Familiennamen</strong> sind dabei die <strong>phonetischen</strong> <strong>Codes</strong> der Verfahren<br />

Chamer Phonetik, Kölner Phonetik, Metaphone sowie So<strong>und</strong>ex angegeben.


Franz Mühlbauer README 2<br />

Die einzelnen Spalten der Datei sind mit einem Tab-Zeichen getrennt. Von links nach rechts<br />

gelesen sind pro Zeile die folgenden Informationen in den Spalten enthalten:<br />

1. laufende Nummer, beginnend bei 1<br />

2. Familienname<br />

3. Code nach der Chamer Phonetik<br />

4. Code nach einer erweiterten Chamer Phonetik<br />

5. Code nach der Kölner Phonetik<br />

6. Code nach dem Metaphone-Verfahren<br />

7. Code nach dem So<strong>und</strong>ex-Verfahren<br />

Die <strong>Familiennamen</strong> sind ein Extrakt von Telefonbuchdaten aus dem Jahren 1997 (siehe<br />

/Dinfo1997/). Genauer, ging es mir darum, nur die privaten Telefonanschlüsse herauszusuchen, <strong>und</strong><br />

dabei Mehrfacheinträge zu vermeiden. Bei Doppelnamen wird nur einer der beiden Namen<br />

verwendet. Namenszusätze wurden entfernt.<br />

Verweise zu den Verfahren der Generierung der <strong>phonetischen</strong> <strong>Codes</strong> finden nachfolgend im<br />

Abschnitt Weitere Informationen. Bei der Spalte Nummer 4 (erweiterte Chamer Phonetik) verwende<br />

ich den erweiterten Regelsatz der Aufruf-Beispiele unter http://www.genealogiekonzepte.net/chamer-phonetik/implementierung.<br />

Bitte betrachten Sie die Liste der <strong>Familiennamen</strong> als den Versuch, aus gegebenen<br />

Rahmenbedingungen bestmögliche Ergebnisse zu erzielen: Die Ausgangstelefonbuchdaten wurden<br />

für einen anderen Zweck erstellt; sie weisen Besonderheiten auf, die für die vorliegende<br />

Aufgabenstellung eine vollautomatische Weiterverarbeitung unmöglich machen. Andererseits kann<br />

ich als Einzelperson in ein Projekt, mit dem ich keine Einnahmen erziele, nur einen beschränkten<br />

Zeitaufwand investieren. Die Namensliste weist meiner Meinung nach eine gute Qualität auf.<br />

Perfektion ist für mich jedoch aufgr<strong>und</strong> der Rahmenbedingungen unmöglich zu erreichen.<br />

Hintergr<strong>und</strong><br />

Die Projektdaten sind ein Nebenprodukt meiner Arbeiten an meinem Web-Portal www.meinewurzeln.de<br />

(ich werde den Betrieb des Portals voraussichtlich Anfang 2011 wieder einstellen). Das<br />

Portal hat zum Ziel, Ahnenforscher(inn)en bei der Vorfahrensuche zu unterstützen; es erlaubt bei<br />

Eingabe von ein oder zwei <strong>Familiennamen</strong> die Ermittlung der deutschen Herkunftsorte mit den<br />

häufigsten Namensvorkommen. Auf der Ergebnisseite werden zusätzlich ähnliche <strong>Familiennamen</strong><br />

angeboten. Des weiteren zeigt das Portal insbesondere zu einem gewählten Ort die am engsten<br />

„verwandten“ Orte an.<br />

Anwendung<br />

Ich stelle meine Sammlung von <strong>Familiennamen</strong> zur Verfügung, da ich davon ausgehe, dass sie nicht<br />

nur für mich von Nutzen sein kann. Mir kommen spontan einige mögliche Anwendungsfälle in den<br />

Sinn:<br />

Zum Beispiel könnte die <strong>Familiennamen</strong>-Datei bei der Suche nach ähnlichen <strong>Familiennamen</strong> in<br />

deutschen Texten für Suchmaschinen interessant sein.<br />

Auf der Gr<strong>und</strong>lage der Namen mit deren <strong>phonetischen</strong> <strong>Codes</strong> könnten Listen ähnlicher Namen<br />

zusammengestellt werden. Wenn solche Listen von sachk<strong>und</strong>igen Namensforschern geprüft würden,<br />

wäre die Basis gegeben, vorhandene Verfahren zur Ähnlichkeitssuche zu bewerten sowie bessere


Franz Mühlbauer README 3<br />

Verfahren zu entwickeln (eventuell als Kombination von <strong>phonetischen</strong> Verfahren mit neueren<br />

Verfahren auf Basis von Abstandsmaßen). Neben Texten der Gegenwart könnten historische Texte<br />

mit nicht-standardisierten Schreibweisen untersucht werden. Ebenso wäre die Ausweitung auf<br />

weitere Sprachen denkbar. Zum Beispiel haben sich die Schreibweisen früherer Auswanderer-<br />

Namen in den USA oder anderen Zielländern geändert. Wenn eine Ähnlichkeitssuche gleich<br />

mehrere Schreibweisen in mehreren Sprachen berücksichtigen würde, könnten heutige Nachfahren<br />

früherer Auswanderer davon profitieren.<br />

Weitere Informationen<br />

/Chamer2010/<br />

Franz Mühlbauer; Chamer Phonetik; URL: http://www.genealogie-konzepte.net/chamerphonetik<br />

(Stand: Dezember 2010)<br />

/DInfo1997/<br />

TopWare CD-Service Ges.m.b.H.; D-Info 97; Riezlern 1997<br />

/Kölner2008/<br />

Nicolas Zimmer; PHP-Implementierung der Kölner Phonetik, Ergänzende Anmerkung zum<br />

So<strong>und</strong>ex-Verfahren; URL: http://de2.php.net/manual/de/function.so<strong>und</strong>ex.php#84881<br />

(Stand: Dezember 2010)<br />

/Metaphone2010/<br />

metaphone, PHP-Funktionsreferenz; URL:<br />

http://de.php.net/manual/de/function.metaphone.php (Stand: Dezember 2010)<br />

/So<strong>und</strong>ex2010/<br />

so<strong>und</strong>ex, PHP-Funktionsreferenz; URL: http://de.php.net/manual/de/function.so<strong>und</strong>ex.php<br />

(Stand: Dezember 2010)<br />

Kontakt<br />

Kontaktieren Sie mich bitte bei Fragen, Anmerkungen oder Korrekturen unter der E-Mail-Adresse<br />

webmaster@genealogie-konzepte.net

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!