05.06.2013 Aufrufe

Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation

Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation

Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Regulationsvorgänge in biologischen Systemen / Systembiologie I<br />

Ergänzungsmaterialien ’<strong>Kreuzkorrelation</strong> und Kombinatorik’<br />

von Daniel Samaga<br />

<strong>Ein</strong> <strong>Abstandsmaß</strong> <strong>für</strong> <strong>dynamische</strong> <strong>Daten</strong>:<br />

<strong>Die</strong> <strong>Kreuzkorrelation</strong><br />

Keines der bisher betrachteten <strong>Abstandsmaß</strong>e berücksichtigt die Reihenfolge<br />

der gemessenen Komponenten. Bei <strong>dynamische</strong>n <strong>Daten</strong> ist aber genau das neben<br />

der Frage, wann etwas passiert, interessant. Daher können die behandelten <strong>Abstandsmaß</strong>e<br />

leicht sinnlos große Abstände ergeben, wenn in einer <strong>Daten</strong>menge eine<br />

Verzögerung (ein Delay) enthalten ist.<br />

<strong>Die</strong> naheliegende Lösung des Problems ist, die <strong>Daten</strong>sätze vor der Bestimmung<br />

der Ähnlichkeit (des Abstands) gegeneinander etwas zu verschieben. Das wäre zwar<br />

mit allen <strong>Abstandsmaß</strong>en möglich, durchgesetzt hat sich da<strong>für</strong> jedoch die Korrelation.<br />

1. Wiederholung Korrelation<br />

Y<br />

<strong>Die</strong> Korrelation rXY zweier Zufallsgrößen X, Y ist ein Maß <strong>für</strong> ihre<br />

lineare stochastische Abhängigkeit.<br />

Definition:<br />

Bezeichne<br />

so ist<br />

sXY = Cov(X, Y ) = E[(X − ¯x)(Y − ¯y)]<br />

s 2 X = V ar(X) = E[(X − ¯x) 2 ]<br />

s 2 Y = V ar(Y ) = E[(Y − ¯y) 2 ]<br />

rXY = sXY<br />

sX · sY<br />

der Korrelationskoeffizient von X und Y.<br />

Erinnerung: ¯x = E[X] = pixi bzw. x f(x) dx und bei der Auswer-<br />

tung von <strong>Daten</strong> xi, i = 1, .., n : E[g(x)] = 1<br />

n<br />

Beispiele:<br />

r XY = 1<br />

X<br />

Y<br />

X<br />

r XY = 0 r XY = 0<br />

Y<br />

X<br />

Y<br />

n<br />

i=1 g(xi)<br />

X<br />

r XY = −1<br />

Y<br />

X<br />

r XY = −1<br />

– Sei X ′ = f(X) = aX + b mit a, b ∈ R, a = 0 eine lineare Transformation<br />

von X<br />

a) graphisch ist das eine<br />

· Dehnung/Stauchung um den Faktor |a|<br />

· Verschiebung um b<br />

· Spiegelung (an y-Achse), wenn a < 0<br />

1


) Was ergibt sich <strong>für</strong> rX ′ Y ? (“ Übung” rY X ′, rX ′ X)<br />

rX ′ Y = Cov(X′ , Y )<br />

<br />

V ar(X ′ ) · sY<br />

= Cov(aX + b, Y )<br />

<br />

V ar(aX + b) · sY<br />

1<br />

= a · Cov(X, Y )<br />

<br />

a2 · s2 X · sY<br />

= a<br />

√<br />

a2 ·<br />

sXY<br />

sX · sY<br />

= sign(a) · rXY<br />

→ <strong>Die</strong>se Invarianz gegenüber linearen Transformationen macht<br />

die Korrelation als <strong>Abstandsmaß</strong> so attraktiv.<br />

zu 1:<br />

zu 2:<br />

Cov(aX + b, Y ) = Cov(X ′ , Y )<br />

= E[(X ′ − ¯x ′ )(Y − ¯y)]<br />

2<br />

= E[(aX + b − (a¯x + b))(Y − ¯y)]<br />

= E[a · (X − ¯x)(y − ¯y)]<br />

2<br />

= a · E[(X − ¯x)(Y − ¯y)]<br />

= a · Cov(X, Y )<br />

¯x ′ = E[aX + b]<br />

= <br />

pi(axi + b)<br />

i<br />

= <br />

piaxi + <br />

pib<br />

i<br />

= a <br />

pixi + b <br />

2<br />

i<br />

= a¯x + b<br />

i<br />

i<br />

pi


2. Illustration des Sinns der Verschiebung<br />

Bei Zeitreihen X = (X(ti))i=1,..,T (blau) und Y = (Y (yi))i=1,..,T (grün) ist der<br />

Zusammenhang häufig verzögert und wird von der Korrelation nicht erfasst.<br />

Werte von X und Y<br />

Y um k = 1 verschoben<br />

Y um k = 6 verschoben<br />

Y um k = −7 verschoben<br />

10<br />

8<br />

6<br />

4<br />

2<br />

Zeitlicher Verlauf der Messreihen<br />

0<br />

0 10 20 30 40 50<br />

Zeitpunkte t(i)<br />

60 70 80 90 100<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 10 20 30 40 50 60 70 80 90 100<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 10 20 30 40 50 60 70 80 90 100<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 10 20 30 40 50 60 70 80 90 100<br />

Y<br />

Y(t t+1 )<br />

Y(t t+6 )<br />

Y(t t−7 )<br />

10<br />

8<br />

6<br />

4<br />

2<br />

gemeinsame Verteilung<br />

r XY = 0.03<br />

0<br />

0 2 4 6 8 10<br />

X<br />

10<br />

8<br />

6<br />

4<br />

2<br />

r XY ( 1 ) = 0.26<br />

0<br />

0 2 4 6 8 10<br />

X(t )<br />

i<br />

10<br />

8<br />

6<br />

4<br />

2<br />

r XY ( 6 ) = 0.99<br />

0<br />

0 2 4 6 8 10<br />

X(t )<br />

i<br />

10<br />

8<br />

6<br />

4<br />

2<br />

r XY ( −7 ) = −0.88<br />

0<br />

0 2 4 6 8 10<br />

X(t )<br />

i<br />

Verschieben heißt hier nicht die Werte an gleichen sondern zu versetzten<br />

Zeitpunkten miteinander zu verrechnen. Mathematisch bedeutet das die<br />

Addittion einer Konstanten k auf den Summationsindex. (Und natürlich<br />

das Ignorieren der <strong>Daten</strong>punkte am Rand, die keinen Vergleichspartner<br />

mehr haben):<br />

sXY (k) =<br />

1<br />

N − 2k ·<br />

N−k <br />

i=k+1<br />

[(X (ti) − ¯x) (Y (ti+k) − ¯y)]<br />

und rXY (k) = sXY (k)<br />

3<br />

sX · sY


Es ergibt sich in diesem Beispiel <strong>für</strong> die Korrelation in Abhängigkeit von<br />

der Schrittweite (dem delay) k folgender Zusammenhang:<br />

r XY ( k )<br />

1<br />

0.5<br />

0<br />

−0.5<br />

<strong>Kreuzkorrelation</strong> abhaengig von der Schrittweite<br />

−1<br />

−15 −10 −5 0<br />

Schrittweite (Delay) k<br />

5 10 15<br />

rXY (k) ist nun ein von einer Schrittweite (delay) k abhänigies Ähnlichkeitsmaß<br />

3. Interpretation und Konvention<br />

Auf einer Skala von 0 bis 1 sind sich X und Y<br />

ähnlich<br />

max |rXY (k)|<br />

k<br />

Zur Nutzung als <strong>Abstandsmaß</strong> wird skaliert:<br />

dXY = √ 2 · 1 − max |rXY (k)|<br />

k<br />

√ <br />

= min 2 · 1 − |rXY (k)|<br />

k<br />

Achtung: <strong>Die</strong> Reihenfolge spielt hier eine Rolle!<br />

es ist<br />

rXY (k) = rY X(−k)<br />

und daher meist<br />

im Gegensatz zu rXY = rY X<br />

rXY (k) = rY X(k)<br />

4


Kombinatorik<br />

<strong>Ein</strong> typisches Beispiel <strong>für</strong> die Notwendigkeit kombinatorischer Zählmethoden<br />

ist das Geburtstagsparadoxon.<br />

’Wie groß ist die Wahrscheinlichkeit, dass von 23 Menschen zwei am gleichen Tag<br />

Geburtstag haben?’ (ohne Berücksichtigung des Jahrgangs)<br />

<strong>Die</strong> Antwort ist am Ende zu finden.<br />

Begriffsklärung <strong>Die</strong> Kombinatorik beschäftigt sich mit der Bestimmung der<br />

Mächtigkeit von Mengen, deren Elemente beispielsweise spezielle Anordnungen, Ziehungen,<br />

Bäume, Graphen, etc. sind.<br />

<strong>Die</strong> Zahl wird über die Kombination elementarer Abzählmethoden, die als/über Urnenmodell(e)<br />

oder ähnliches aufgefasst/veranschaulicht werden können, errechnet.<br />

Motivation: Besitzt ein Enzym mehrere Bindestellen <strong>für</strong> Liganden, so sind beim<br />

Modellieren alle möglichen Konformationen zu berücksichtigen. <strong>Die</strong> notwendigen<br />

Formeln stammen aus der Kombinatorik.<br />

Um zu entscheiden, welche Formel anzuwenden oder wie eine neue Formel zu gewinnen<br />

ist, muss verstanden werden, wie die grundlegenden Handgriffe beim methodischen<br />

Abzählen funktionieren.<br />

Elementare Zählmethoden<br />

1. Variation mit Zurücklegen<br />

Vorstellung:<br />

In einer Urne befinden sich n nummerierte Kugeln. Es wird k-mal eine<br />

Kugel gezogen und das Ergebnis notiert. Dann wird die gezogene Kugel<br />

zurückgelegt und eine weitere gezogen, so dass am Ende eine Abfolge von<br />

k gezogenen Nummern auf dem Papier steht.<br />

(↩→ jeder Ziehung mit n = 4 und k = 1000 entspricht genau eine DNA-<br />

Sequenz der Länge 1000 Nukleotide (Basen).)<br />

Idee:<br />

Pro gezogener Kugel gibt es n (unabh.) Möglichkeiten<br />

↩→ Formel: n k Möglichkeiten<br />

n<br />

<br />

· n · n<br />

<br />

· n · . . . · n<br />

<br />

= n<br />

k<br />

k<br />

Veranschaulichung<br />

n = 3 Kugeln in der Urne, k = 2 mal Ziehen<br />

Mögliche Resultate (1. Ziehung, 2. Ziehung):<br />

(1,1) (2,1)<br />

⎫<br />

(3,1) ⎬<br />

(1,2)<br />

(1,3)<br />

<br />

(2,2)<br />

(2,3)<br />

<br />

n=3<br />

(3,2) n = 3<br />

⎭<br />

(3,3)<br />

<br />

↩→ # versch. Ziehungen = 32 = 9<br />

5


2. Anordnung von Objekten<br />

(a) Permutation<br />

Vorstellung:<br />

Es werden alle nummerierten Kugeln (n Stück) nacheinander gezogen<br />

(und zwischendurch nicht zurückgelegt). Das entspricht den<br />

verschiedenen Abfolgen der Zahlen 1 bis n (Anordnungen von n Elementen).<br />

Idee:<br />

n Möglichkeiten bei erster Ziehung<br />

· (bzw. freie Plätze <strong>für</strong> erste Zahl)<br />

(n − 1) Möglichkeiten bei zweiter Ziehung<br />

· (bzw. freie Plätze <strong>für</strong> zweite Zahl)<br />

(n − 2)<br />

·<br />

.<br />

·<br />

.<br />

2 Möglichkeiten <strong>für</strong> die vorletzte Ziehung<br />

· (bzw. noch zwei freie Plätze <strong>für</strong> vorletzte Zahl)<br />

1 Zum Schluss nur noch eine Möglichkeit<br />

↩→ Formel: n! Möglichkeiten/Anordnungen<br />

(b) Variation ohne Zurücklegen<br />

Vorstellung:<br />

Es werden nur die ersten k Kugeln gezogen. (Siehe Permutation, die<br />

Urne wird lediglich nicht leer gemacht)<br />

↩→ Formel:<br />

n · (n − 1) · (n − 2) · . . . · (n − k + 1) =<br />

n!<br />

(n − k)!<br />

Möglichkeiten/Anordnungen<br />

neue Interpretation:<br />

– es werden zunächst alle Kugeln permutiert und der Rest (die in<br />

der Urne verbliebenen (n − k) Kugeln) wird wieder durchmischt,<br />

weil deren Reihenfolge nicht interessiert<br />

– mit der Fakultät dividieren entspricht dem Durchmischen vom<br />

Rest (richtige Korrektur der Zählung), da jede interessierende<br />

Abfolge genau (n − k)!-fach gezählt wurde<br />

– Veranschaulichung:<br />

sortieren der n! (hier n = 7 und k = 4) gezählten Permutationen<br />

ergibt, dass jede interessierende (vorderer Teil) Variation/Ziehung<br />

genau gleich oft ((n−k)!-fach) zuviel gezählt wurde:<br />

6


3. Kombinieren ohne Zurücklegen<br />

3124|567 4672|135<br />

3124|576 4672|153<br />

. . . 3124|657 . . . 4672|315 . . .<br />

3124|675 4672|351<br />

3124|756 4672|513<br />

3124|765 4672|531<br />

<br />

n! : (n−k)!<br />

⎫<br />

⎪⎬<br />

(n − k)!<br />

Vorstellung:<br />

Reihenfolge der gezogenen Kugeln wird nicht beachtet (z.B. Lotto), entspricht<br />

also dem Auswählen von k aus n Elementen.<br />

Doppelzählungen nach obigem Argument entfernen, d.h. die k gezogenen<br />

Kugeln werden untereinander durchmischt.<br />

n!<br />

n!<br />

↩→ Formel: (n−k)! : k! =<br />

(Auswahl-)Möglichkeiten<br />

Veranschaulichung:<br />

(n−l)!·k! =<br />

<br />

n<br />

k<br />

123|45 145|23<br />

123|54 145|32<br />

132|45 154|23<br />

132|54 154|32<br />

213|45 415|23<br />

213|54 415|32<br />

231|45 . . . 451|23 . . .<br />

231|54 451|32<br />

312|45 514|23<br />

312|54 514|32<br />

321|45 541|23<br />

321|54 541|32<br />

<br />

( n<br />

k)<br />

⎫<br />

⎪⎭<br />

⎪⎬<br />

(n − k)! · k!<br />

Mit Hilfe der Kombination ohne Zurücklegen kann die Variation ohne<br />

Zurücklegen auch als permutieren von k ausgewählten Objekten ( n<br />

k ·k!)<br />

aufgefasst werden.<br />

4. Kombination mit Zurücklegen<br />

Vorstellung:<br />

Nur die Nummer der gezogenen Kugel wird notiert bevor sie zurückgelegt<br />

wird. (das entspricht dem Aufstellen einer Strichliste, denn die<br />

Reihenfolge spielt keine Rolle)<br />

Idee:<br />

Jede Strichliste kann als eine Verteilung aufgefasst werden.<br />

<strong>Die</strong> Frage, wie viele verschiedene Verteilungen auftreten können, lässt<br />

7<br />

⎪⎭


sich wie folgt beantworten:<br />

jede Verteilung sieht eineindeutig (Bijektion!) so aus:<br />

1<br />

2<br />

3<br />

4<br />

5<br />

n<br />

k−mal " "<br />

(jede Schale (n Stück) entspricht einer Kugelnummer, jede Kugel dem<br />

Ergebnis eines Ziehens (k Wiederholungen))<br />

Das lässt sich wiederum eineindeutig (Bijektion) als Folge von Kugeln<br />

und Wänden darstellen:<br />

k−mal " " und (n−1)−mal " "<br />

Und das wiederum entspricht eineindeutig dem Ziehen von (n − 1) bzw.<br />

k aus (n − 1) + k Objekten.<br />

(In diesem Beispiel wurden die Kugeln<br />

4, 6, 9, 10, 12 , ... , (k + n − 1 − 2) bzw.<br />

1, 2, 3, 5, 7, 8, 11, ... , (k + n − 1 − 1), (k + n − 1) gezogen).<br />

↩→ Formel:<br />

Verteilungen<br />

Bemerkung zur Kombinatorik<br />

<br />

n + k − 1<br />

(a) Wie bei der ’Variation ohne Zurücklegen’ gesehen, muss auf Doppelzählungen<br />

geachten werden. Beim Korrigieren dieser (ich weiss, wie oft ich etwas<br />

zu viel gezählt habe) entstehen aber meist die kürzesten Lösungswege.<br />

(b) Alles ist eine Frage des Blickwinkels<br />

meistens gibt es viele Möglichkeiten etwas abzuzählen (siehe Bemerkung<br />

zum Kombinieren ohne Zurücklegen). Welcher Weg gewählt wird, ist Geschmackssache.<br />

Wichtig ist nur den Überblick zu behalten und Punkt (a)<br />

zu berücksichtigen.<br />

Übungsaufgabe<br />

(Wer den Trick versteht, hat die Kombinatorik verstanden)<br />

<strong>Ein</strong> Lottozwilling sind zwei Kugeln einer Lottoziehung, deren Nummern direkt aufeinanderfolgend<br />

sind. (Reihenfolge beim Ziehen egal, wird als erste Kugel die 13<br />

und als vorletzte die 14 gezogen, enthält die Lottoziehung einen Zwilling.)<br />

Gesucht ist die Wahrscheinlichkeit, dass bei einer Ziehung ein Zwilling auftritt.<br />

Tipp: Bijektion <strong>für</strong> zwillingsfreie Lottoziehungen suchen.<br />

8<br />

k


Geburtstagsparadoxon<br />

Tabelle der Wahrscheinlichkeiten <strong>für</strong> N Menschen.<br />

Schon bei zwei Fußballmannschaften und einem Schiri ist die wahrscheinlicher, dass<br />

zwei von ihnen am gleichen Tag Geburtstag haben größer als 23 verschiedene Kalendertage.<br />

N P(einer hat heute Geb.) P(zwei am gleichen Tag )<br />

N N·(N−1)<br />

2 = 2<br />

1 0.3% 0% 0<br />

2 0.6% 0.3% 1<br />

3 0.8% 0.8% 3<br />

4 1.1% 1.6% 6<br />

5 1.4% 2.7% 10<br />

...<br />

10 2.7% 11.7% 45<br />

...<br />

15 4.0% 25.3% 105<br />

...<br />

20 5.3% 41.1% 190<br />

21 5.6% 44.4% 210<br />

22 5.9% 47.6% 231<br />

23 6.1% 50.7% 253<br />

24 6.4% 53.8% 276<br />

25 6.6% 56.9% 300<br />

26 6.9% 59.8% 325<br />

27 7.1% 62.7% 351<br />

28 7.4% 65.5% 378<br />

29 7.7% 68.1% 406<br />

30 7.9% 70.1% 435<br />

31 8.2% 73.1% 465<br />

32 8.4% 75.3% 491<br />

33 8.7% 77.5% 523<br />

34 8.9% 79.5% 556<br />

35 9.2% 81.4% 590<br />

36 9.4% 83.2% 625<br />

37 9.7% 84.9% 661<br />

38 9.9% 86.4% 698<br />

39 10.2% 87.8% 636<br />

40 10.4% 89.1% 675<br />

...<br />

50 12.8% 97.0 % 1225<br />

...<br />

75 18.6% 100.0 % 2775<br />

...<br />

100 24.0% 4950<br />

...<br />

500 74.6% 124750<br />

9

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!