27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

12 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das<br />

lokale Sequence Match<strong>in</strong>g also nur vernachlässigbar viele Zeichen am Anfang <strong>und</strong><br />

am Ende weggelassen. Weil es <strong>in</strong> der biologischen Anwendung <strong>in</strong> der Regel um das<br />

Auff<strong>in</strong>den von Ähnlichkeiten durch die Identifikation von Segmenten mit großem<br />

Score geht, wird zumeist e<strong>in</strong>e Scor<strong>in</strong>g-Funktion mit negativer Erwartung gewählt.<br />

Daher wird <strong>in</strong> diesem Kapitel Sequence Match<strong>in</strong>g unter dieser Voraussetzung<br />

untersucht.<br />

E<strong>in</strong>e Zusammenstellung e<strong>in</strong>iger Ergebnisse, die den Phasenübergang zwischen<br />

logarithmischem <strong>und</strong> l<strong>in</strong>earem Wachstum zum Thema haben <strong>und</strong> die dieselbe<br />

Notation wie hier verwenden, f<strong>in</strong>det man beispielsweise <strong>in</strong> Lauer [57, Kapitel 5].<br />

Aus den Forderungen an s ergibt sich mit e<strong>in</strong>fachen analytischen Methoden, dass<br />

genau e<strong>in</strong> Θ ∗ > 0 existiert, so dass:<br />

E ( e Θ∗ s(X,Y ) ) = 1.<br />

Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für<br />

alle b, c ɛ A ist:<br />

α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) .<br />

Es gelte weiterh<strong>in</strong><br />

H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } ,<br />

wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente<br />

<strong>und</strong> αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne.<br />

Betrachtet man, wie <strong>in</strong> der Literatur üblich, den maximalen Score beim Vergleich<br />

von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n :<br />

M (1)<br />

n = M n := max<br />

l ɛ {0,...,n}<br />

i,j ɛ {0,...,n−l}<br />

{ l∑<br />

k=1<br />

}<br />

s(X i+k , Y j+k ) ,<br />

so ergibt sich aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3] e<strong>in</strong> starkes<br />

Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt<br />

M n<br />

−→ 2<br />

.<br />

log n n→∞ Θ ∗<br />

Für die Def<strong>in</strong>ition des zweitgrößten Scores M n<br />

(2) sollen nun die Zeichenpaare<br />

(X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen<br />

werden. Hierfür wird e<strong>in</strong>e Methode verwendet, die sich sowohl <strong>in</strong><br />

der wahrsche<strong>in</strong>lichkeitstheoretischen Analyse der Maxima als auch <strong>in</strong> der Implementierung<br />

von Algorithmen zur Bestimmung des maximalen Scores bei der<br />

sogenannten Dynamischen Programmierung“ bewährt hat. E<strong>in</strong>ige der folgenden<br />

Def<strong>in</strong>itionen sowie weitere <strong>in</strong>teressante Aussagen f<strong>in</strong>det man beispielsweise<br />

”<br />

<strong>in</strong> Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 <strong>und</strong> Abschnitt 5.2].

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!