pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
identifizieren. So sind vermutlich ein geringer Anteil der Namen im Korpus Ortsnamen,<br />
jedoch sind diese nicht mit vertretbarem Aufwand <strong>zu</strong> entfernen. Da Ortsnamen viele Ähnlichkeiten<br />
mit Familiennamen haben, ist nicht davon aus<strong>zu</strong>gehen, dass das Ergebnis dadurch<br />
signifikant beeinflusst wird.<br />
müller 291322 krüger 48086 kaiser 35511 baumann 25794 heinrich 20882<br />
schmidt 214647 braun 47346 fuchs 35006 franke 24914 haas 20621<br />
schneider 128798 hofmann 46656 peters 34529 albrecht 24777 schreiber 20476<br />
fischer 110357 lange 45739 scholz 33728 ludwig 24257 graf 20081<br />
weber 96048 hartmann 45657 möller 33563 simon 24217 schulte 19619<br />
meyer 94783 schmitz 44416 lang 33248 schuster 24192 dietrich 19588<br />
wagner 88823 krause 44372 weiß 33106 böhm 24155 kühn 19391<br />
schulz 84422 schmitt 44301 jung 31331 winter 23657 kuhn 19278<br />
becker 83302 werner 44149 hahn 30504 kraus 23462 ziegler 19267<br />
hoffmann 80521 meier 42050 schubert 29995 schumacher 23412 pohl 19124<br />
schäfer 68235 lehmann 41721 vogel 29819 martin 23180 engel 19008<br />
koch 67626 schmid 40509 friedrich 29620 krämer 22962 horn 18759<br />
richter 67204 schulze 39647 günther 29540 vogt 22707 busch 18555<br />
bauer 66568 köhler 38607 keller 29131 otto 22643 voigt 18328<br />
klein 60758 maier 38450 winkler 28662 stein 22617 sauer 18319<br />
wolf 57540 herrmann 38307 berger 28617 jäger 22441 bergmann 18306<br />
schröder 57463 könig 37399 frank 28593 groß 21606 thomas 18216<br />
neumann 53988 walter 37312 roth 28307 sommer 21446 wolff 18059<br />
schwarz 49770 mayer 36442 beck 27669 seidel 21215 arnold 17845<br />
zimmermann 48800 huber 35759 lorenz 26798 brandt 20958 beyer 17843<br />
Abbildung 14: Die 100 häufigsten Familiennamen im Korpus. Die Zahlen geben die Anzahl<br />
der Einträge mit gleicher Schreibweise auf der Telefonbuch-CD an.<br />
Nach Filterung der Einträge repräsentiert der Korpus noch 31.63 45 Millionen Telefonanschlüsse.<br />
Die entnommen Teilkorpora der hundert häufigsten Namen (siehe Abbildung<br />
14) entsprechen 4.17 Millionen Telefonanschlüssen. Die tausend häufigsten würden bereits<br />
9.96 Millionen Anschlüssen repräsentieren. Bei der Annahme eines konstanten Verhältnisses<br />
von veröffentlichten Telefonanschlussdaten <strong>zu</strong>r Bevölkerung besitzen 13,18 % der<br />
deutschen Bevölkerung einen der hundert häufigsten Familiennamen. Für die tausend<br />
häufigsten Namen ergibt sich bereits eine Bevölkerungsquote von 31,48 %.<br />
5.3 Validierung der Qualität<br />
Wie sich bereits in den vorherigen Kapiteln gezeigt hatte, war einiges an Aufwand nötig,<br />
um den Korpus von Einträgen mit Firmennamen und/oder Institutionen <strong>zu</strong> bereinigen.<br />
Um die Qualität der Filterung <strong>zu</strong> überprüfen wurden dem Korpus <strong>zu</strong>fällig 1.000 Stichproben<br />
entnommen und von deutschsprachigen Sprechern anonym per WWW bewertet 46 . Den<br />
Befragten wurde jeweils eine Liste von 25 Einträgen vorgegeben. Sie mussten einschätzen,<br />
ob es sich um einen Familiennamen oder Firmennamen bzw. sonstige öffentliche Institutionen<br />
handeln könnte. Für schwer entscheidbare Fälle war es <strong>zu</strong>sätzlich <strong>zu</strong>lässig ,,Beides”<br />
45 Dieser Wert wurde durch Aufaddieren der Häufigkeiten der nicht gefilterten Anschlüsse errechnet.<br />
46 Eine genaue Anzahl an Versuchspersonen kann nicht angegeben werden, da die Umfrage anonym war<br />
und eine Mehrfachbewertung möglich war. Es wird vermutet, dass insgesamt ca. 15 Personen teilgenommen<br />
haben.<br />
29