28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Die relativ hohe Quote von nicht einem Sprachkontext <strong>zu</strong>ordbaren Familiennamen liegt<br />

<strong>zu</strong>m einen an der Ähnlichkeit einiger Sprachen, so dass eine eindeutige Zuordnung nicht<br />

möglich ist. Zum anderen war vermutlich keiner der Probanden mit allen <strong>zu</strong>r Auswahl stehenden<br />

Sprachen vertraut. Des Weiteren sind im Korpus einige Doppelnamen enthalten,<br />

bei denen jeder Name jeweils einem anderem Sprachkontext <strong>zu</strong><strong>zu</strong>ordnen wären.<br />

Andere Untersuchungen wie Vitale (1991) oder Black u. Llitjos (2001) zeigen, dass<br />

eine Berücksichtigung der Ursprungssprache von Eigennamen <strong>zu</strong> einer Verbesserung der<br />

Aussprache führt. Aus dieser Motivation heraus, wurde ein Versuch unternommen, eine<br />

Sprachkategorisierung mit der Hilfe von bestehender Software durch<strong>zu</strong>führen. Mittels<br />

Lingua::Identify, einem Perl-Modul für die Sprachidentifikation 47 von Texten wurden die<br />

Namen der Umfrage ebenfalls bewertet. Jedoch zeigte sich nach Sichtung der Ergebnisse<br />

und einem Abgleich mit den von den Probanden vorgenommenen Bewertungen, dass Lingua::Identify<br />

für die Bewertung von Familiennamen nicht geeignet ist.<br />

Es wird davon ausgegangen, dass Lingua::Identify eher für die Klassifikation von längeren<br />

Texten geeignet ist. Eine Trigramstatistik, welche aus eindeutig einer Sprache <strong>zu</strong>geordneten<br />

Namen generiert wurde, dürfte bessere Ergebnisse bringen. In Vitale (1991) werden<br />

<strong>zu</strong>sätzlich <strong>zu</strong> einer solchen Statistik Regeln für eine Eliminierung oder eindeutige Bestimmung<br />

von Sprachen verwendet. Da das aus der Umfrage gewonnene Material vom Umfang<br />

her statistisch nicht relevant sein dürfte, wurde kein Versuch unternommen, mit Hilfe von<br />

diesem eine Trigrammstatistik <strong>zu</strong> erstellen.<br />

Einen ausschliesslich regelbasierten Ansatz für die Kategorisierung der Ursprungssprache<br />

schlägt Belhoula (1993) vor. Dort soll die Suche nach Zeichenketten mit variabler<br />

Länge eine Zuordnung der Sprache erlauben. Besonderheit ist hier ein Positionskontext,<br />

wie er auch in einigen der Regelsysteme für die Phonetische Suche verwendet wird. So<br />

sind z. B. Namen, die mit anfangen, dem Italienischen <strong>zu</strong><strong>zu</strong>ordnen. Die Erstellung<br />

solcher Regeln in einem automatisierten Verfahren dürfte jedoch die Komplexität einer<br />

N-Gram-Statistik bei weitem übertreffen. Auch sind derzeit keine Forschungen darüber<br />

bekannt, ob <strong>zu</strong>sätzliche Positionsangaben <strong>zu</strong> einer genaueren Kategorisierung verhelfen<br />

könnten.<br />

47 Dieses Modul benutzt, wie es auch im Artikel von Black u. Llitjos (2001) vorgeschlagen wurde, vorgefertigte<br />

Trigramstatistiken für die Klassifikation von Zeichenketten. Diese sind für die Sprachen und Dialekte<br />

Afrikaans, Bulgarisch, Bretonisch, Bosnisch, Welsh, Dänisch, Deutsch, Englisch, Esperanto, Spanisch,<br />

Finnisch, Fränzösisch, Friesisch, Irisch, Kroatisch, Ungarisch, Isländisch, Italienisch, Latein, Holländisch,<br />

Norwegisch, Polnisch, Portugiesisch, Albanisch, Schwedisch und Türkisch verfügbar. Leider ist über den<br />

Ursprung dieser Statistiken nichts bekannt. Insbesondere fehlen in der Dokumentation der Module Angaben<br />

über das Material, aus dem diese Statistiken erstellt wurden.<br />

31

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!