04.06.2013 Aufrufe

Theoretische und praktische Aspekte automatischer ...

Theoretische und praktische Aspekte automatischer ...

Theoretische und praktische Aspekte automatischer ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Johann-Mattis List Sequenzanalysen historische Linguistik 15. April 2010<br />

θ i ɣ a t ɛ r a<br />

d ɔː ˗ ˗ t ɚ - ˗<br />

tʰ ɔ x ˗ t ɐ - ˗<br />

D I G A T E R A<br />

T O - - T E - -<br />

T O G - T A - -<br />

(-, D, I) (D, I, G) (I, G, A) (G, A, T) (A, T, E) (T, E, R) (E, R, A) (R, A, -)<br />

(-, T, O) (T, O, T) - - (O, T, E) (T, E, -) - -<br />

(-, T, O) (T, O, G) (O, G, T) - (G, T, A) (T, A, -) - -<br />

Tabelle 5: Trigrambasierte multiple Alinierung<br />

kann). Als Scoring-Funktion wurde eine einfache Funktion angesetzt, welche die Bewertungen für die<br />

drei Elemente der jeweiligen Tuples aufsummiert, die Bewertung für Vorgänger- <strong>und</strong> Nachfolgersegment<br />

jedoch lediglich mit zehn Prozent gewichtet.<br />

4 Bisherige Vorarbeiten<br />

Um die oben genannten Vorüberlegungen umzusetzen <strong>und</strong> zu testen, wurde ein Software-Paket mit speziellen<br />

Bibliotheken in der Skriptsprache Python erstellt, das verschiedene bereits postulierte <strong>und</strong> neue<br />

Methoden zur Sequenzanalyse zur Verfügung stellt. Gr<strong>und</strong>legendes Eingabeformat für die alle Methoden<br />

in den Bibliotheken sind IPA-kodierte Strings. IPA wurde gewählt, um ein möglichst einheitliches Format<br />

der phonetischen Kodierung zu ermöglichen. Um die Vergleichbarkeit zu den von anderen Autoren<br />

postulierten Algorithmen, die im Programm implementiert sind, zu gewährleisten, wurden Ersetzungsfunktionen<br />

geschrieben, die das IPA-Format in das von den jeweiligen Autoren verwendete Format überführen.<br />

Das Programm erlaubt gegenwärtig die Durchführung paarweiser <strong>und</strong> multipler Alinierungen.<br />

Multiple Alinierungen können ferner auf Basis des traditionellen Feng-Doolittle-Algorithmus durchgeführt<br />

werden, wie auch auf Profilbasis. Ferner sind trigrambasierte paarweise <strong>und</strong> multiple Alinierungen<br />

möglich.<br />

4.1 Scoring-Funktionen für Lautklassen, Sequenzprofile <strong>und</strong> Trigramme<br />

In der Biologie basieren die Scoring-Funktionen für Sequenzalinierungen meist auf Substitutionsmatrizzen,<br />

die auf empirischer Basis erstellt wurden <strong>und</strong> Aussagen über die gr<strong>und</strong>legende Wahrscheinlichkeit<br />

enthalten, dass zwei Segmente (Proteine, Aminosäuren) in einer (korrekten) Alinierung einander gegenübergestellt<br />

werden (Rauhut 2001, 42-49). Da die traditionelle historische Linguistik bis heute weitgehend<br />

ein qualitatives Vorgehen beim Auffinden von Lautkorrespondenzen aufrechterhält, in dem Lautkorrespondenzen<br />

eher absolut postuliert denn tatsächlich ausgezählt werden <strong>und</strong> das Auffinden neuer Lautkorrespondenzen<br />

weitestgehend der Intuition des jeweiligen Forschers überlassen wird (Schwink 1994, 29),<br />

ist es zum jetzigen Zeitpunkt nicht möglich, ein rein empirisch basiertes stochastisches Modell von Lautübergängen<br />

aufzustellen. Für die ersten Untersuchungen muss daher ein weitgehend auf eigener Kenntnis<br />

von Lautwandelprozessen beruhendes vorläufiges Modell entwickelt werden, das in einem weiteren<br />

11

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!