Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
9<br />
Kapitel 2<br />
Vergleich zweier <strong>Zeichenketten</strong><br />
Gegenstand dieses Kapitels ist der Vergleich zweier <strong>Zeichenketten</strong>, im Folgenden<br />
Sequence Match<strong>in</strong>g“ genannt. Elementar für die Bewertung der Ähnlichkeit ist<br />
”<br />
der Algorithmus, der die Zeichen der beiden <strong>Zeichenketten</strong> e<strong>in</strong>ander zuordnet. Die<br />
Zuordnung wird geme<strong>in</strong>h<strong>in</strong> als Alignment“ bezeichnet. An dieser Stelle wird das<br />
”<br />
Sequence Match<strong>in</strong>g mit Scor<strong>in</strong>g-Funktion behandelt. Diese ist <strong>in</strong> der Regel durch<br />
die Anwendung gegeben <strong>und</strong> bewertet die Ähnlichkeit zweier Zeichen. Der Score<br />
e<strong>in</strong>es <strong>Alignments</strong> ist die Summe über den Score der Zeichenpaare, die e<strong>in</strong>ander<br />
durch das Alignment zugeordnet werden.<br />
Um die Ähnlichkeit zweier Zeichenfolgen zu messen, wird im hier betrachteten<br />
lokalen Sequence Match<strong>in</strong>g ohne Gaps das Maximum des Scores über alle lokalen<br />
<strong>Alignments</strong> ohne Gaps gebildet. Das heißt, dass aus jeder Zeichenkette e<strong>in</strong>e<br />
beliebige zusammenhängende Folge von Zeichen betrachtet wird. Hierfür müssen<br />
die beiden Segmente gleiche Länge haben. Das Alignment ergibt sich, <strong>in</strong>dem der<br />
Reihe nach aus jedem Segment zwei Zeichen e<strong>in</strong>ander zugeordnet werden.<br />
Alternativen s<strong>in</strong>d das globale Sequence Match<strong>in</strong>g, wo jeweils die gesamte Zeichenfolge<br />
betrachtet wird, <strong>und</strong> Sequence Match<strong>in</strong>g mit Gaps, wo die Segmente<br />
Lücken haben dürfen, sowie Komb<strong>in</strong>ationen aus den vorgestellten Verfahren.<br />
Der Ursprung des Sequence Match<strong>in</strong>g wird <strong>in</strong> der Literatur oft im 1970 erschienenen<br />
Artikel von Erdös <strong>und</strong> Rényi [41] gesehen, wo das Auftreten von außergewöhnlich<br />
vielen aufe<strong>in</strong>ander folgenden Erfolgen <strong>in</strong> e<strong>in</strong>er zufälligen Erfolgs-/<br />
Misserfolgs-Folge untersucht wurde, was e<strong>in</strong>en Spezialfall des globalen Sequence<br />
Match<strong>in</strong>g ohne Gaps darstellt. Daher werden Verallgeme<strong>in</strong>erungen <strong>in</strong> Arratia <strong>und</strong><br />
Waterman [7], Borovkov [19], Arratia, Gordon <strong>und</strong> Waterman [5], Sanchis [80]<br />
<strong>und</strong> vielen anderen Artikeln als Erdös–Rényi’s Law“ bezeichnet.<br />
”<br />
Dagegen werden <strong>in</strong> Steele [87], Arratia <strong>und</strong> Waterman [8, Gleichung (6)], Waterman<br />
[94, Abschnitt 11.6.1] <strong>und</strong> anderen Veröffentlichungen die sogenannten<br />
Chvátal–Sankoff-Konstanten“ e<strong>in</strong>geführt. Diese Bezeichnung liegt nahe, weil<br />
”<br />
Chvátal <strong>und</strong> Sankoff [27] im Jahr 1975 erstmals mit wahrsche<strong>in</strong>lichkeitstheoretischen<br />
Methoden die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier zufälliger