27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

9<br />

Kapitel 2<br />

Vergleich zweier <strong>Zeichenketten</strong><br />

Gegenstand dieses Kapitels ist der Vergleich zweier <strong>Zeichenketten</strong>, im Folgenden<br />

Sequence Match<strong>in</strong>g“ genannt. Elementar für die Bewertung der Ähnlichkeit ist<br />

”<br />

der Algorithmus, der die Zeichen der beiden <strong>Zeichenketten</strong> e<strong>in</strong>ander zuordnet. Die<br />

Zuordnung wird geme<strong>in</strong>h<strong>in</strong> als Alignment“ bezeichnet. An dieser Stelle wird das<br />

”<br />

Sequence Match<strong>in</strong>g mit Scor<strong>in</strong>g-Funktion behandelt. Diese ist <strong>in</strong> der Regel durch<br />

die Anwendung gegeben <strong>und</strong> bewertet die Ähnlichkeit zweier Zeichen. Der Score<br />

e<strong>in</strong>es <strong>Alignments</strong> ist die Summe über den Score der Zeichenpaare, die e<strong>in</strong>ander<br />

durch das Alignment zugeordnet werden.<br />

Um die Ähnlichkeit zweier Zeichenfolgen zu messen, wird im hier betrachteten<br />

lokalen Sequence Match<strong>in</strong>g ohne Gaps das Maximum des Scores über alle lokalen<br />

<strong>Alignments</strong> ohne Gaps gebildet. Das heißt, dass aus jeder Zeichenkette e<strong>in</strong>e<br />

beliebige zusammenhängende Folge von Zeichen betrachtet wird. Hierfür müssen<br />

die beiden Segmente gleiche Länge haben. Das Alignment ergibt sich, <strong>in</strong>dem der<br />

Reihe nach aus jedem Segment zwei Zeichen e<strong>in</strong>ander zugeordnet werden.<br />

Alternativen s<strong>in</strong>d das globale Sequence Match<strong>in</strong>g, wo jeweils die gesamte Zeichenfolge<br />

betrachtet wird, <strong>und</strong> Sequence Match<strong>in</strong>g mit Gaps, wo die Segmente<br />

Lücken haben dürfen, sowie Komb<strong>in</strong>ationen aus den vorgestellten Verfahren.<br />

Der Ursprung des Sequence Match<strong>in</strong>g wird <strong>in</strong> der Literatur oft im 1970 erschienenen<br />

Artikel von Erdös <strong>und</strong> Rényi [41] gesehen, wo das Auftreten von außergewöhnlich<br />

vielen aufe<strong>in</strong>ander folgenden Erfolgen <strong>in</strong> e<strong>in</strong>er zufälligen Erfolgs-/<br />

Misserfolgs-Folge untersucht wurde, was e<strong>in</strong>en Spezialfall des globalen Sequence<br />

Match<strong>in</strong>g ohne Gaps darstellt. Daher werden Verallgeme<strong>in</strong>erungen <strong>in</strong> Arratia <strong>und</strong><br />

Waterman [7], Borovkov [19], Arratia, Gordon <strong>und</strong> Waterman [5], Sanchis [80]<br />

<strong>und</strong> vielen anderen Artikeln als Erdös–Rényi’s Law“ bezeichnet.<br />

”<br />

Dagegen werden <strong>in</strong> Steele [87], Arratia <strong>und</strong> Waterman [8, Gleichung (6)], Waterman<br />

[94, Abschnitt 11.6.1] <strong>und</strong> anderen Veröffentlichungen die sogenannten<br />

Chvátal–Sankoff-Konstanten“ e<strong>in</strong>geführt. Diese Bezeichnung liegt nahe, weil<br />

”<br />

Chvátal <strong>und</strong> Sankoff [27] im Jahr 1975 erstmals mit wahrsche<strong>in</strong>lichkeitstheoretischen<br />

Methoden die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier zufälliger

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!