12.07.2015 Aufrufe

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3. Grundlagen des Sequenzalignments 27Wie aus den Levenshtein-Formeln hervorgeht, wird jedes Zeichen einer Sequenz mitjedem Zeichen der anderen Sequenz verglichen. In den Matrixzellen der Tabelle 3.1werden jeweils 2 × 2 Ergebnisse der jeweiligen Symbolvergleiche dargestellt. Das Zwischenergebnisoben links in der Zelle errechnet sich aus der Formel für D i−1,j−1 , jenesrechts oben aus D i−1,j und jenes im linken unteren Bereich der Zelle aus D i,j−1 . Zuletztwird das Vergleichsergebnis einer Einzelposition rechts unten aus dem Minimum derdrei Zwischenergebnisse ermittelt. Der Levenshtein-Abstand der beiden Zeichenkettenist das Minimum der summierten Symboldistanzen der letzten beiden Zeichen a m undb n . VINTNER und WRITERS haben demnach, wie aus der Zelle D m,n abzulesen ist, denLevenshtein-Abstand 5.Die Komplexität zum Befüllen der Matrix verglichen mit der Komplexität eines primitivenBrute-Force-Verfahrens (siehe Gleichung 3.5) zeigt eine deutliche Verbesserung.Lässt man die Randelemente der Matrix außer acht, so müssen insgesamt m × n Zellenberechnet werden, wobei pro Zelle drei Zwischenergebnisse (siehe Gleichungen 3.4)gerechnet werden, von denen jeweils das Minimum den Zellenwert bestimmt. Demnachkann die Komplexität mit O(3mn) beschrieben werden.Nun dient die gezeigte Matrix nicht nur zur Berechnung der Distanz, sondern auch derErmittlung des optimalen Editieraufwands, also jenen mit den minimalen Kosten unddamit üblicherweise der Bestimmung eines optimalen Alignments [32]. Dazu bedientman sich des sogenannten Rückwärtspfads (traceback path). Verfolgt man beginnendab Zelle D m,n jeweils jenen Weg, durch den das Minimum der einzelnen Zellen bestimmtwurde, so lässt sich durch Zurückverfolgen (backtracking) der Zellen der Pfadzur Startzelle D 0,0 ermitteln. Bestimmen in einer Zelle mehrere Zwischenergebnisse dasMinimum, so entspricht dies einer Verzweigung an dieser Position.Wendet man dieses Verfahren in der Matrix der Tabelle 3.1 an, so ergeben sich darauszwei mögliche Pfade bzw. Alignments:A : V - I N T N E R - A : V I N T N E R -| | | | | | |Op : r i m d m d m m i Op : r r r m d m m i| | | | | | |B : W R I - T - E R S B : W R I T - E R S

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!