pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Die relativ hohe Quote von nicht einem Sprachkontext <strong>zu</strong>ordbaren Familiennamen liegt<br />
<strong>zu</strong>m einen an der Ähnlichkeit einiger Sprachen, so dass eine eindeutige Zuordnung nicht<br />
möglich ist. Zum anderen war vermutlich keiner der Probanden mit allen <strong>zu</strong>r Auswahl stehenden<br />
Sprachen vertraut. Des Weiteren sind im Korpus einige Doppelnamen enthalten,<br />
bei denen jeder Name jeweils einem anderem Sprachkontext <strong>zu</strong><strong>zu</strong>ordnen wären.<br />
Andere Untersuchungen wie Vitale (1991) oder Black u. Llitjos (2001) zeigen, dass<br />
eine Berücksichtigung der Ursprungssprache von Eigennamen <strong>zu</strong> einer Verbesserung der<br />
Aussprache führt. Aus dieser Motivation heraus, wurde ein Versuch unternommen, eine<br />
Sprachkategorisierung mit der Hilfe von bestehender Software durch<strong>zu</strong>führen. Mittels<br />
Lingua::Identify, einem Perl-Modul für die Sprachidentifikation 47 von Texten wurden die<br />
Namen der Umfrage ebenfalls bewertet. Jedoch zeigte sich nach Sichtung der Ergebnisse<br />
und einem Abgleich mit den von den Probanden vorgenommenen Bewertungen, dass Lingua::Identify<br />
für die Bewertung von Familiennamen nicht geeignet ist.<br />
Es wird davon ausgegangen, dass Lingua::Identify eher für die Klassifikation von längeren<br />
Texten geeignet ist. Eine Trigramstatistik, welche aus eindeutig einer Sprache <strong>zu</strong>geordneten<br />
Namen generiert wurde, dürfte bessere Ergebnisse bringen. In Vitale (1991) werden<br />
<strong>zu</strong>sätzlich <strong>zu</strong> einer solchen Statistik Regeln für eine Eliminierung oder eindeutige Bestimmung<br />
von Sprachen verwendet. Da das aus der Umfrage gewonnene Material vom Umfang<br />
her statistisch nicht relevant sein dürfte, wurde kein Versuch unternommen, mit Hilfe von<br />
diesem eine Trigrammstatistik <strong>zu</strong> erstellen.<br />
Einen ausschliesslich regelbasierten Ansatz für die Kategorisierung der Ursprungssprache<br />
schlägt Belhoula (1993) vor. Dort soll die Suche nach Zeichenketten mit variabler<br />
Länge eine Zuordnung der Sprache erlauben. Besonderheit ist hier ein Positionskontext,<br />
wie er auch in einigen der Regelsysteme für die Phonetische Suche verwendet wird. So<br />
sind z. B. Namen, die mit anfangen, dem Italienischen <strong>zu</strong><strong>zu</strong>ordnen. Die Erstellung<br />
solcher Regeln in einem automatisierten Verfahren dürfte jedoch die Komplexität einer<br />
N-Gram-Statistik bei weitem übertreffen. Auch sind derzeit keine Forschungen darüber<br />
bekannt, ob <strong>zu</strong>sätzliche Positionsangaben <strong>zu</strong> einer genaueren Kategorisierung verhelfen<br />
könnten.<br />
47 Dieses Modul benutzt, wie es auch im Artikel von Black u. Llitjos (2001) vorgeschlagen wurde, vorgefertigte<br />
Trigramstatistiken für die Klassifikation von Zeichenketten. Diese sind für die Sprachen und Dialekte<br />
Afrikaans, Bulgarisch, Bretonisch, Bosnisch, Welsh, Dänisch, Deutsch, Englisch, Esperanto, Spanisch,<br />
Finnisch, Fränzösisch, Friesisch, Irisch, Kroatisch, Ungarisch, Isländisch, Italienisch, Latein, Holländisch,<br />
Norwegisch, Polnisch, Portugiesisch, Albanisch, Schwedisch und Türkisch verfügbar. Leider ist über den<br />
Ursprung dieser Statistiken nichts bekannt. Insbesondere fehlen in der Dokumentation der Module Angaben<br />
über das Material, aus dem diese Statistiken erstellt wurden.<br />
31