Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.3. Poisson Approximation 27<br />
2.3.2 Beweis von Satz 2.5<br />
Analog zu Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> Hansen [50, Kapitel 5] wird<br />
die Ste<strong>in</strong>–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit<br />
der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion,<br />
wie sie <strong>in</strong> Abschnitt 2.3.1 vorgestellt wurde, benutzt.<br />
Dafür wird zunächst der Punktprozess J ∗ def<strong>in</strong>iert, der die Überschreitungen der<br />
Schwellen (t (k)<br />
n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei:<br />
J ∗ (a,k) := 1 .<br />
{t (k)<br />
n t (k)<br />
n = J ∗ (a,k) ≥ k ,<br />
a ɛ E n i=1 a ɛ E n<br />
so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird.<br />
Wie <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente<br />
e<strong>in</strong>en vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert<br />
e<strong>in</strong>e Konstante c 0 > 0, so dass für alle n ɛ N gilt:<br />
(<br />
)<br />
l∑<br />
P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2<br />
l≥c 0 log n<br />
i,j ɛ {0,...,n−l}<br />
k=1<br />
Aufgr<strong>und</strong> dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung<br />
der zu untersuchenden <strong>Alignments</strong> geht <strong>in</strong> die folgenden Def<strong>in</strong>itionen<br />
e<strong>in</strong> <strong>und</strong> wird verwendet, um die Abhängigkeiten kontrollieren zu können.<br />
Wie bisher werden die <strong>Zeichenketten</strong> wieder <strong>in</strong> unabhängige Blöcke aufgeteilt.<br />
Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n<br />
.<br />
Ohne E<strong>in</strong>schränkung sei n ɛ N h<strong>in</strong>reichend groß, so dass c 0 log n ≤ l n .<br />
Um lokales Sequence Match<strong>in</strong>g zu untersuchen, müssen Verschiebungen der <strong>Zeichenketten</strong><br />
gegene<strong>in</strong>ander betrachtet werden. Analog Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />
[34] werden hier die Zeichen <strong>in</strong> den Blöcken der Folge Y zyklisch verschoben,<br />
um e<strong>in</strong>e gesonderte Untersuchung von sogenannten Randeffekten zu umgehen.<br />
Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“<br />
”<br />
X i := (Xh i ) h=1,...,m n<br />
<strong>und</strong> Y j,ζ := (Y j,ζ<br />
h ) h=1,...,m n<br />
def<strong>in</strong>iert durch:<br />
Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1},<br />
Y j,ζ<br />
h<br />
:= Y jln+(ζ+h) mod l n<br />
, für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}.<br />
Hansen [50, Abschnitt 5.4] nimmt statt dessen e<strong>in</strong>e Unterteilung <strong>in</strong> Streifen vor<br />
<strong>und</strong> betrachtet dann ”<br />
diagonals-with<strong>in</strong>-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen<br />
Blöcke verwendet werden, um die Resultate aus Dembo, Karl<strong>in</strong> <strong>und</strong><br />
Zeitouni [34] direkt anwenden zu können.