Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
16 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
<strong>in</strong> X bezie-<br />
Die Anzahl der Blöcke der Länge l mit empirischer Verteilung γ X<br />
hungsweise γ Y <strong>in</strong> Y ist gegeben durch:<br />
n<br />
l −1<br />
∑<br />
M := M(γ X ) := 1 {L l (X il+1···X (i+1)l )=γ X } beziehungsweise<br />
i=0<br />
n<br />
l −1<br />
∑<br />
N := M(γ Y ) := 1 {L l (Y jl+1···Y (j+1)l )=γ Y }.<br />
j=0<br />
Für den Fall M ≥ 1 <strong>und</strong> N ≥ 1 seien dies die Blöcke πX 1 , . . . , πM X<br />
πY 1 , . . . , πN Y , das heißt, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} ist:<br />
beziehungsweise<br />
L l( X π i<br />
X l+1 · · · X (π i<br />
X +1)l)<br />
= γX <strong>und</strong> L l( Y π<br />
j<br />
Y l+1 · · · Y (π j Y +1)l )<br />
= γY .<br />
Das Ereignis, dass der i-te Block <strong>in</strong> X <strong>und</strong> der j-te Block <strong>in</strong> Y geme<strong>in</strong>same empirische<br />
Verteilung γ aufweisen, bezeichnet man für i ɛ {1, . . . , M}, j ɛ {1, . . . , N}<br />
mit:<br />
B i,j := B i,j (γ) := { L l( (X π i<br />
X l+1, Y π<br />
j<br />
Y l+1), . . . , (X (π i X +1)l , Y (π<br />
j<br />
Y +1)l)) = γ } .<br />
Für jeden Block X π i<br />
X l+1 · · · X (π i<br />
X +1)l beziehungsweise Y π<br />
j<br />
Y l+1 · · · Y (π j Y +1)l<br />
stimmt die<br />
empirische Verteilung mit γ X beziehungsweise γ Y übere<strong>in</strong>. Somit hängt es nur von<br />
der Reihenfolge der e<strong>in</strong>zelnen Buchstaben <strong>in</strong>nerhalb e<strong>in</strong>es solchen Blockpaares ab,<br />
ob (X π i<br />
X l+1, Y π<br />
j<br />
l+1), . . . , (X (π i Y X +1)l , Y (π<br />
j<br />
Y +1)l)<br />
geme<strong>in</strong>same empirische Verteilung γ<br />
hat. Dies bedeutet, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} gilt:<br />
P (B i,j ) = P (B 1,1 ) =: p<br />
unabhängig von i, j. Def<strong>in</strong>iert man die Anzahl von Block-Paaren mit empirischer<br />
Verteilung γ als:<br />
M∑ N∑<br />
W := W (γ) := 1 Bi,j ,<br />
so erhält man für den bed<strong>in</strong>gten Erwartungswert von W bei gegebenem M <strong>und</strong><br />
N: E[W | M, N] = MNp <strong>und</strong> für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N}:<br />
E ( exp(p − 1 Bi,j ) ) = e p( 1 − p + p e<br />
i=1<br />
j=1<br />
)<br />
= e p (1 − cp), mit c = e − 1<br />
e<br />
ɛ (0, 1).<br />
Aufgr<strong>und</strong> der Unabhängigkeit der <strong>Zeichenketten</strong> s<strong>in</strong>d B i,j <strong>und</strong> B i ′ ,j ′ für alle<br />
i, i ′ ɛ {1, . . . , M}, j, j ′ ɛ {1, . . . , N} mit (i, j) ≠ (i ′ , j ′ ) unabhängig. Mit e<strong>in</strong>fachen<br />
analytischen Mitteln lässt sich zeigen, dass für alle a ɛ (0, 1), v > 0 gilt: