pdf - Universität zu Köln

Weitere Magazine

Empfehlungen

Info

auszuwählen. 1000 900 800 700 600 500 400 300 200 100 0 785 Name 9 Firma 206 Beides Abbildung 15: Anzahl der Zuordnungen in in die Kategorien Familienname, Firma und Beides In Abbildung 15 sind die Ergebnisse der Umfrage zusammengefasst. Sie lassen vermuten, dass es sich bei einer Obergrenze von ca. einem Prozent der Korpusdaten eindeutig nicht um Familiennamen handelt. Die tatsächliche Quote von eindeutig falschen Namenstypen dürfte jedoch niedriger sein, da auch nach der Umfrage im Rahmen der folgenden Untersuchungen mehrere Datensätze als Name einer Institution, Abkürzung oder Ortsname identifiziert und entfernt wurden. Zusätzlich zu dieser Kategorisierung wurde innerhalb der Umfrage nach dem vermuteten Sprachursprung des Namens gefragt. Zur Auswahl der vermuteten Sprachherkunft standen: Arabisch, Asiatisch, Afrikanisch, Deutsch, Englisch, Französisch, Griechisch, Italienisch, Osteuropäisch/Russisch, Skandinavisch, Spanisch, Türkisch und ,,nicht zuzuordnen”. 500 408 400 300 200 100 0 deutsch 161 russ. 150 keine 46 skand. 45 ital. 37 griech. 34 engl. 31 arab. 23 türk. 21 franz. 17 afrik. 14 asiat. 13 span. Abbildung 16: Umfrageergebnis zu vermuteten Quellsprachen der Familiennamen Die Zuordnung in Abbildung 16 zeigt, dass osteuropäische und russische Familiennamen eine relativ hohe Verbreitung im deutschsprachigen Raum haben. Bei diesen Zahlen sollte jedoch bedacht werden, dass die tatsächliche Häufigkeit der Namen in der Bevölkerung um ein Vielfaches kleiner ist, da jede Schreibweise der Familiennamen nur einmal im Korpus enthalten ist. 30
Die relativ hohe Quote von nicht einem Sprachkontext zuordbaren Familiennamen liegt zum einen an der Ähnlichkeit einiger Sprachen, so dass eine eindeutige Zuordnung nicht möglich ist. Zum anderen war vermutlich keiner der Probanden mit allen zur Auswahl stehenden Sprachen vertraut. Des Weiteren sind im Korpus einige Doppelnamen enthalten, bei denen jeder Name jeweils einem anderem Sprachkontext zuzuordnen wären. Andere Untersuchungen wie Vitale (1991) oder Black u. Llitjos (2001) zeigen, dass eine Berücksichtigung der Ursprungssprache von Eigennamen zu einer Verbesserung der Aussprache führt. Aus dieser Motivation heraus, wurde ein Versuch unternommen, eine Sprachkategorisierung mit der Hilfe von bestehender Software durchzuführen. Mittels Lingua::Identify, einem Perl-Modul für die Sprachidentifikation 47 von Texten wurden die Namen der Umfrage ebenfalls bewertet. Jedoch zeigte sich nach Sichtung der Ergebnisse und einem Abgleich mit den von den Probanden vorgenommenen Bewertungen, dass Lingua::Identify für die Bewertung von Familiennamen nicht geeignet ist. Es wird davon ausgegangen, dass Lingua::Identify eher für die Klassifikation von längeren Texten geeignet ist. Eine Trigramstatistik, welche aus eindeutig einer Sprache zugeordneten Namen generiert wurde, dürfte bessere Ergebnisse bringen. In Vitale (1991) werden zusätzlich zu einer solchen Statistik Regeln für eine Eliminierung oder eindeutige Bestimmung von Sprachen verwendet. Da das aus der Umfrage gewonnene Material vom Umfang her statistisch nicht relevant sein dürfte, wurde kein Versuch unternommen, mit Hilfe von diesem eine Trigrammstatistik zu erstellen. Einen ausschliesslich regelbasierten Ansatz für die Kategorisierung der Ursprungssprache schlägt Belhoula (1993) vor. Dort soll die Suche nach Zeichenketten mit variabler Länge eine Zuordnung der Sprache erlauben. Besonderheit ist hier ein Positionskontext, wie er auch in einigen der Regelsysteme für die Phonetische Suche verwendet wird. So sind z. B. Namen, die mit anfangen, dem Italienischen zuzuordnen. Die Erstellung solcher Regeln in einem automatisierten Verfahren dürfte jedoch die Komplexität einer N-Gram-Statistik bei weitem übertreffen. Auch sind derzeit keine Forschungen darüber bekannt, ob zusätzliche Positionsangaben zu einer genaueren Kategorisierung verhelfen könnten. 47 Dieses Modul benutzt, wie es auch im Artikel von Black u. Llitjos (2001) vorgeschlagen wurde, vorgefertigte Trigramstatistiken für die Klassifikation von Zeichenketten. Diese sind für die Sprachen und Dialekte Afrikaans, Bulgarisch, Bretonisch, Bosnisch, Welsh, Dänisch, Deutsch, Englisch, Esperanto, Spanisch, Finnisch, Fränzösisch, Friesisch, Irisch, Kroatisch, Ungarisch, Isländisch, Italienisch, Latein, Holländisch, Norwegisch, Polnisch, Portugiesisch, Albanisch, Schwedisch und Türkisch verfügbar. Leider ist über den Ursprung dieser Statistiken nichts bekannt. Insbesondere fehlen in der Dokumentation der Module Angaben über das Material, aus dem diese Statistiken erstellt wurden. 31
Seite 1 und 2: Universität zu Köln Philosophisch
Seite 3 und 4: Inhaltsverzeichnis 1 Einleitung 1 2
Seite 5 und 6: 1 Einleitung In dieser Arbeit soll
Seite 7 und 8: 2.2 Ursprung von Familiennamen Fami
Seite 9 und 10: Im Folgenden soll noch einmal genau
Seite 11 und 12: das Deutsche beschränkt, gibt es v
Seite 13 und 14: Probleme bei der Berücksichtigung
Seite 15 und 16: So ist die Verbreitung von Doppelna
Seite 17 und 18: Code Soundex Extended Soundex 1 BFP
Seite 19 und 20: die Phonotaktik des Englischen star
Seite 21 und 22: Zeichenkette, vor einem Vokal und d
Seite 23 und 24: Zeichen in der Zeichenkette Kodieru
Seite 25 und 26: grund der Komplexität dieser Imple
Seite 27 und 28: und Schrifterkennung. Die vorgestel
Seite 29 und 30: Eigenschaften der im ursprüngliche
Seite 31 und 32: tistische Untersuchung von Zeichenk
Seite 33: identifizieren. So sind vermutlich
Seite 37 und 38: • Die Datenmenge sollte nicht zu
Seite 39 und 40: Als Datenbank wurde MySQL ausgewäh
Seite 41 und 42: 1000 900 800 700 600 500 400 300 20
Seite 43 und 44: pus wie z. B. mit großer Wahrsche
Seite 45 und 46: 100 95.98 90 80 70 60 50 40 30 20 1
Seite 47 und 48: Anzahl sndex exsndex meta dmeta pho
Seite 49 und 50: 7 Orthographie und Aussprache im De
Seite 51 und 52: wird. In Bezug auf das Schwa sind g
Seite 53 und 54: • Bei Namen wie Michael werden di
Seite 55 und 56: unterscheiden, wie die Aussprache z
Seite 57 und 58: soll, ist dies in der Umgangssprach
Seite 59 und 60: eschreibt mögliche Schreibvariante
Seite 61 und 62: 50 45 40 35 30 25 20 15 10 5 0 49.7
Seite 63 und 64: Wenn z. B. nach gesucht wird, ist
Seite 65 und 66: Phonem-Umsetzer sowie eine Überpr
Seite 67 und 68: { $key="4"; } else { my $advance=0;
Seite 69 und 70: # http://www.avotaynu.com/soundex.h
Seite 71 und 72: and ($beforevowel{$match})) { push
Seite 73 und 74: my @codes2 = @codes; for ($i = 0;$i
Seite 75 und 76: package Text::German::Syllable; #ha
Seite 77 und 78: push @units,$match; $pos += length
Seite 79 und 80: 6 Breuer u. Abresch 2003 Breuer, St
Seite 81 und 82: 27 Mangold 2000 Mangold, Max (Hrsg.
Seite 83: 47 Thielen 1995 Thielen, Christine:

pdf - Universität zu Köln

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?