27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.3. Poisson Approximation 27<br />

2.3.2 Beweis von Satz 2.5<br />

Analog zu Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> Hansen [50, Kapitel 5] wird<br />

die Ste<strong>in</strong>–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit<br />

der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion,<br />

wie sie <strong>in</strong> Abschnitt 2.3.1 vorgestellt wurde, benutzt.<br />

Dafür wird zunächst der Punktprozess J ∗ def<strong>in</strong>iert, der die Überschreitungen der<br />

Schwellen (t (k)<br />

n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei:<br />

J ∗ (a,k) := 1 .<br />

{t (k)<br />

n t (k)<br />

n = J ∗ (a,k) ≥ k ,<br />

a ɛ E n i=1 a ɛ E n<br />

so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird.<br />

Wie <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente<br />

e<strong>in</strong>en vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert<br />

e<strong>in</strong>e Konstante c 0 > 0, so dass für alle n ɛ N gilt:<br />

(<br />

)<br />

l∑<br />

P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2<br />

l≥c 0 log n<br />

i,j ɛ {0,...,n−l}<br />

k=1<br />

Aufgr<strong>und</strong> dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung<br />

der zu untersuchenden <strong>Alignments</strong> geht <strong>in</strong> die folgenden Def<strong>in</strong>itionen<br />

e<strong>in</strong> <strong>und</strong> wird verwendet, um die Abhängigkeiten kontrollieren zu können.<br />

Wie bisher werden die <strong>Zeichenketten</strong> wieder <strong>in</strong> unabhängige Blöcke aufgeteilt.<br />

Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n<br />

.<br />

Ohne E<strong>in</strong>schränkung sei n ɛ N h<strong>in</strong>reichend groß, so dass c 0 log n ≤ l n .<br />

Um lokales Sequence Match<strong>in</strong>g zu untersuchen, müssen Verschiebungen der <strong>Zeichenketten</strong><br />

gegene<strong>in</strong>ander betrachtet werden. Analog Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />

[34] werden hier die Zeichen <strong>in</strong> den Blöcken der Folge Y zyklisch verschoben,<br />

um e<strong>in</strong>e gesonderte Untersuchung von sogenannten Randeffekten zu umgehen.<br />

Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“<br />

”<br />

X i := (Xh i ) h=1,...,m n<br />

<strong>und</strong> Y j,ζ := (Y j,ζ<br />

h ) h=1,...,m n<br />

def<strong>in</strong>iert durch:<br />

Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1},<br />

Y j,ζ<br />

h<br />

:= Y jln+(ζ+h) mod l n<br />

, für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}.<br />

Hansen [50, Abschnitt 5.4] nimmt statt dessen e<strong>in</strong>e Unterteilung <strong>in</strong> Streifen vor<br />

<strong>und</strong> betrachtet dann ”<br />

diagonals-with<strong>in</strong>-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen<br />

Blöcke verwendet werden, um die Resultate aus Dembo, Karl<strong>in</strong> <strong>und</strong><br />

Zeitouni [34] direkt anwenden zu können.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!