Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Weitere Magazine

Empfehlungen

Info

10 Kapitel 2. Vergleich zweier Zeichenketten Zeichenketten untersucht haben. Der Artikel von Siegmund und Yakir [84], sowie dessen Korrektur [85], dürfte zu den wichtigsten Verallgemeinerungen auf diesem Gebiet zählen. Dort wird die Verteilung des maximalen Scores bei lokalem Sequence Matching mit Gaps approximiert. Weitere Veröffentlichungen sind etwa Goldstein [48], Arratia, Gordon und Waterman [5], Neuhauser [61] und Novak [64] um nur einige zu nennen. Da sich die genannten Veröffentlichungen mit unabhängigen Zeichenfolgen beschäftigen, besteht eine weitere Verallgemeinerung darin, abhängige Zeichenketten zu betrachten. So werden zum Beispiel in Hansen [50] Markov-Ketten und in Liu [59] ϕ-mischende Folgen untersucht. Die wohl wichtigste Anwendung des Sequence Matching liegt in der Genetik. Hier werden DNS- oder Proteinsequenzen verglichen, um entweder die Verwandschaft von verschiedenen Spezies auf evolutionärer Ebene zu untersuchen, oder funktionelle beziehungsweise strukturelle Ähnlichkeiten verschiedener Sequenzen feststellen zu können. Die Sequenzen werden für diesen Zweck in Datenbanken, wie beispielsweise Swiss-Prot, einer Datenbank für Proteinsequenzen, gespeichert. Für Details zu diesem Projekt, dessen zwanzigjähriges Bestehen im August 2006 gefeiert wird, siehe http://www.expasy.org/sprot/. Zu untersuchende Proteinsequenzen werden mit den bestehenden Einträgen verglichen, um Ähnlichkeiten anhand eines außergewöhnlich großen Scores zu finden. Spang und Vingron haben 2001 in [86] den Einfluss der ständig wachsenden Zahl von Datenbankeinträgen auf die Wahrscheinlichkeit, zufällig einen großen Score zu erhalten, untersucht. Auf der Grundlage der Zahl von Einträgen in Swiss-Prot wurde festgestellt, dass schon 2001 die Ähnlichkeit vieler entfernt verwandter Proteine in diesem zufälligen Rauschen“ übersehen wird. In dieser Veröffentlichung wurde auch festgestellt, dass das ” annähernd exponentielle Wachstum der Datenbankgröße im Verlauf der Zeit (siehe http://www.expasy.org/sprot/relnotes/relstat.html) eine näherungsweise lineare Zunahme des Rauschens bewirkt, vergleiche Spang und Vingron [86, Abbildung 1]. Als Lösung für die dargestellte Problematik wird hier ein neuer Ansatz vorgestellt, der mehr Informationen über die Zeichenketten verwendet: Durch das Betrachten weiterer Maxima soll im Folgenden die Selektivität erhöht werden. Das bedeutet, dass nicht nur der maximale Score gesucht wird, sondern danach die in diesem Alignment verwendeten Zeichenpaare nicht mehr verwendet werden und das Alignment mit maximalem Score in den verbleibenden Zeichenpaaren gesucht wird. Mit dieser Methode erhält man eine absteigende Folge von größten Scores“, wobei im nächsten Abschnitt mathematisch definiert wird, welche Zeichenpaare für ” das Alignment des k-größten Scores noch berücksicht werden.
2.1. Voraussetzungen und Definitionen 11 2.1 Voraussetzungen und Definitionen Betrachtet werden unabhängig identisch verteilte Zeichenketten X = (X i ) i ɛN und Y = (Y j ) j ɛN über dem endlichen Alphabet A = {1, . . . , ξ}. Zur Abkürzung sei X identisch X i und Y identisch Y i verteilt, i ɛ N. Eine der fruchtbarsten Methoden beim Sequence Matching ist die Large- Deviation-Theorie, in der das Grenzwertverhalten von Wahrscheinlichkeiten seltener Ereignisse durch exponentielle Schranken abgeschätzt wird. Für eine Einführung sowie eine Definition des sogenannten ” Large-Deviation-Prinzips“ und weitere Resultate gibt es umfangreiche Literatur, wie etwa Dembo und Zeitouni [35], Deuschel und Stroock [36], Bucklew [22] oder Varadhan [93], so dass im Folgenden nur die benötigten Ergebnisse zitiert werden. Ein in der Large-Deviation-Theorie wichtiger Begriff ist die Entropie, wie sie auch in der Informationstheorie verwendet wird. Weitere mathematische Grundlagen sowie informationstheoretische Anwendungen finden sich zum Beispiel in Roman [78], Shannon und Weaver [83], Csiszár und Körner [29] und Kullback [56]. Da die Definition und Verwendung insbesondere der relativen Entropie in der Literatur nicht konsistent ist, werden die verwendeten Begriffe hier folgendermaßen definiert: Definition 2.1 (Entropie) Sei A = {1, . . . , a} ein beliebiges endliches Alphabet. Für die Wahrscheinlichkeitsmaße π = (π 1 , . . . , π a ) und β = (β 1 , . . . , β a ) auf A ist die Entropie von π durch a∑ ( ) 1 H(π) := π k log π k k=1 und die relative Entropie von π bezüglich β durch definiert. H(π|β) := a∑ k=1 ( ) πk π k log β k Die Scoring Funktion s : A×A → R sei symmetrisch, nehme mit positiver Wahrscheinlichkeit positive Werte an und habe negativen Erwartungswert bezüglich P (X,Y ) , das heißt es gelte: s(b, c) = s(c, b), P ( s(X, Y ) > 0 ) > 0 und E ( s(X, Y ) ) < 0 für alle b, c ɛ A. Dem Vorzeichen von E ( s(X, Y ) ) kommt besondere Bedeutung zu: Wie in Arratia und Waterman [8] gezeigt wird, verhält sich der maximale Score für E ( s(X, Y ) ) < 0 asymptotisch logarithmisch und für E ( s(X, Y ) ) > 0 wächst der maximale Score linear. Dieses Verhalten wird in der Literatur als
Seite 1 und 2: Muster und Alignments in zufällige
Seite 3 und 4: i Einleitung Die Fortschritte der M
Seite 5 und 6: iii Mithilfe der Stein-Chen-Methode
Seite 7: v in ein neues allgemeineres Modell
Seite 10 und 11: viii Inhaltsverzeichnis 5 Das Hidde
Seite 12 und 13: 2 Kapitel 1. Bezeichnungen und Grun
Seite 22 und 23: 12 Kapitel 2. Vergleich zweier Zeic
Seite 44 und 45: 34 Kapitel 3. Scan-Statistiken mit
Seite 62 und 63: 52 Kapitel 4. Der empirische Muster
Seite 70 und 71:
60 Kapitel 4. Der empirische Muster
Seite 72 und 73:
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
70 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
86 Literaturverzeichnis [10] Balakr
Seite 98 und 99:
88 Literaturverzeichnis [35] Dembo,
Seite 100 und 101:
90 Literaturverzeichnis [60] Maxwel
Seite 102:
92 Literaturverzeichnis [85] Siegmu
Alle anzeigen

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?