12.07.2015 Aufrufe

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3. Grundlagen des Sequenzalignments 22Funktion W H (a i , b i , i) ermittelt dabei jeweils das Gewicht der jeweiligen Sequenzzeichenin Abhängigkeit ihrer Position und Symbolpaarung innerhalb der Sequenzen [23].A HW (A, B) := 1 −D H (A, B)∑ ni=1 W H(a i , b i , i)(3.3)Trotz dieser Verbesserung in Bezug auf Sequenzen erweist sich die Hamming-Ähnlichkeitbeim Sequenzvergleich als nur beschränkt einsetzbar, denn sie kann nur dann berechnetwerden, wenn die beiden Zeichenketten gleich lang sind. Eine Einschränkung, die siegerade bei Proteinsequenzen und deren Alignment nahezu unbrauchbar macht. EineKennzahl, bei deren Berechnung die Zeichenketten unterschiedlich lang sein können,ist die sogenannte Levenshtein-Distanz.3.2.2 Levenshtein-DistanzDie Levenshtein-Distanz oder der Editierabstand, wie die Levenshtein-Distanz auch genanntwird, gibt die minimale Anzahl der Editierschritte oder der Kosten an, mit dereine Zeichenkette in eine andere Zeichenkette überführt werden kann [30]. Die zu vergleichendenZeichenketten müssen nicht die gleiche Länge aufweisen. Dies bedingt aberauch, dass Editieroperationen erlaubt sind, welche eine der beiden Zeichenketten beiBedarf verlängert, um die Sequenzen auf die passende Länge und auf Übereinstimmungzu bringen.Das folgende aus [17] entlehnte und leicht abgewandelte Beispiel zeigt die beiden ZeichenkettenVINTNER und WRITERS und gibt mögliche Operationen an, welche die ZeichenketteA zur Zeichenkette B wandeln.A : V - I N T N E R -| | | |Op : r i m d m d m m i| | | |B : W R I - T - E R SDie Kleinbuchstaben in der Zeile Op symbolisieren dabei die Editieroperationen, welchedas Zeichen an der jeweiligen Position der Zeichenkette A in ein Zeichen der ZeichenketteB überführen. Das Zeichen r steht dabei für die Ersetze- (replace), i für die Einfüge-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!