Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 11<br />
2.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Betrachtet werden unabhängig identisch verteilte <strong>Zeichenketten</strong> X = (X i ) i ɛN <strong>und</strong><br />
Y = (Y j ) j ɛN über dem endlichen Alphabet A = {1, . . . , ξ}. Zur Abkürzung sei<br />
X identisch X i <strong>und</strong> Y identisch Y i verteilt, i ɛ N.<br />
E<strong>in</strong>e der fruchtbarsten Methoden beim Sequence Match<strong>in</strong>g ist die Large-<br />
Deviation-Theorie, <strong>in</strong> der das Grenzwertverhalten von Wahrsche<strong>in</strong>lichkeiten<br />
seltener Ereignisse durch exponentielle Schranken abgeschätzt wird. Für e<strong>in</strong>e<br />
E<strong>in</strong>führung sowie e<strong>in</strong>e Def<strong>in</strong>ition des sogenannten ”<br />
Large-Deviation-Pr<strong>in</strong>zips“<br />
<strong>und</strong> weitere Resultate gibt es umfangreiche Literatur, wie etwa Dembo <strong>und</strong> Zeitouni<br />
[35], Deuschel <strong>und</strong> Stroock [36], Bucklew [22] oder Varadhan [93], so dass<br />
im Folgenden nur die benötigten Ergebnisse zitiert werden.<br />
E<strong>in</strong> <strong>in</strong> der Large-Deviation-Theorie wichtiger Begriff ist die Entropie, wie sie<br />
auch <strong>in</strong> der Informationstheorie verwendet wird. Weitere mathematische Gr<strong>und</strong>lagen<br />
sowie <strong>in</strong>formationstheoretische Anwendungen f<strong>in</strong>den sich zum Beispiel <strong>in</strong><br />
Roman [78], Shannon <strong>und</strong> Weaver [83], Csiszár <strong>und</strong> Körner [29] <strong>und</strong> Kullback [56].<br />
Da die Def<strong>in</strong>ition <strong>und</strong> Verwendung <strong>in</strong>sbesondere der relativen Entropie <strong>in</strong> der Literatur<br />
nicht konsistent ist, werden die verwendeten Begriffe hier folgendermaßen<br />
def<strong>in</strong>iert:<br />
Def<strong>in</strong>ition 2.1 (Entropie)<br />
Sei A = {1, . . . , a} e<strong>in</strong> beliebiges endliches Alphabet. Für die Wahrsche<strong>in</strong>lichkeitsmaße<br />
π = (π 1 , . . . , π a ) <strong>und</strong> β = (β 1 , . . . , β a ) auf A ist die Entropie von π<br />
durch<br />
a∑<br />
( ) 1<br />
H(π) := π k log<br />
π k<br />
k=1<br />
<strong>und</strong> die relative Entropie von π bezüglich β durch<br />
def<strong>in</strong>iert.<br />
H(π|β) :=<br />
a∑<br />
k=1<br />
( )<br />
πk<br />
π k log<br />
β k<br />
Die Scor<strong>in</strong>g Funktion s : A×A → R sei symmetrisch, nehme mit positiver Wahrsche<strong>in</strong>lichkeit<br />
positive Werte an <strong>und</strong> habe negativen Erwartungswert bezüglich<br />
P (X,Y ) , das heißt es gelte:<br />
s(b, c) = s(c, b), P ( s(X, Y ) > 0 ) > 0 <strong>und</strong> E ( s(X, Y ) ) < 0<br />
für alle b, c ɛ A. Dem Vorzeichen von E ( s(X, Y ) ) kommt besondere Bedeutung<br />
zu: Wie <strong>in</strong> Arratia <strong>und</strong> Waterman [8] gezeigt wird, verhält sich der maximale<br />
Score für E ( s(X, Y ) ) < 0 asymptotisch logarithmisch <strong>und</strong> für E ( s(X, Y ) ) > 0<br />
wächst der maximale Score l<strong>in</strong>ear. Dieses Verhalten wird <strong>in</strong> der Literatur als