Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation
Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation
Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Regulationsvorgänge in biologischen Systemen / Systembiologie I<br />
Ergänzungsmaterialien ’<strong>Kreuzkorrelation</strong> und Kombinatorik’<br />
von Daniel Samaga<br />
<strong>Ein</strong> <strong>Abstandsmaß</strong> <strong>für</strong> <strong>dynamische</strong> <strong>Daten</strong>:<br />
<strong>Die</strong> <strong>Kreuzkorrelation</strong><br />
Keines der bisher betrachteten <strong>Abstandsmaß</strong>e berücksichtigt die Reihenfolge<br />
der gemessenen Komponenten. Bei <strong>dynamische</strong>n <strong>Daten</strong> ist aber genau das neben<br />
der Frage, wann etwas passiert, interessant. Daher können die behandelten <strong>Abstandsmaß</strong>e<br />
leicht sinnlos große Abstände ergeben, wenn in einer <strong>Daten</strong>menge eine<br />
Verzögerung (ein Delay) enthalten ist.<br />
<strong>Die</strong> naheliegende Lösung des Problems ist, die <strong>Daten</strong>sätze vor der Bestimmung<br />
der Ähnlichkeit (des Abstands) gegeneinander etwas zu verschieben. Das wäre zwar<br />
mit allen <strong>Abstandsmaß</strong>en möglich, durchgesetzt hat sich da<strong>für</strong> jedoch die Korrelation.<br />
1. Wiederholung Korrelation<br />
Y<br />
<strong>Die</strong> Korrelation rXY zweier Zufallsgrößen X, Y ist ein Maß <strong>für</strong> ihre<br />
lineare stochastische Abhängigkeit.<br />
Definition:<br />
Bezeichne<br />
so ist<br />
sXY = Cov(X, Y ) = E[(X − ¯x)(Y − ¯y)]<br />
s 2 X = V ar(X) = E[(X − ¯x) 2 ]<br />
s 2 Y = V ar(Y ) = E[(Y − ¯y) 2 ]<br />
rXY = sXY<br />
sX · sY<br />
der Korrelationskoeffizient von X und Y.<br />
Erinnerung: ¯x = E[X] = pixi bzw. x f(x) dx und bei der Auswer-<br />
tung von <strong>Daten</strong> xi, i = 1, .., n : E[g(x)] = 1<br />
n<br />
Beispiele:<br />
r XY = 1<br />
X<br />
Y<br />
X<br />
r XY = 0 r XY = 0<br />
Y<br />
X<br />
Y<br />
n<br />
i=1 g(xi)<br />
X<br />
r XY = −1<br />
Y<br />
X<br />
r XY = −1<br />
– Sei X ′ = f(X) = aX + b mit a, b ∈ R, a = 0 eine lineare Transformation<br />
von X<br />
a) graphisch ist das eine<br />
· Dehnung/Stauchung um den Faktor |a|<br />
· Verschiebung um b<br />
· Spiegelung (an y-Achse), wenn a < 0<br />
1
) Was ergibt sich <strong>für</strong> rX ′ Y ? (“ Übung” rY X ′, rX ′ X)<br />
rX ′ Y = Cov(X′ , Y )<br />
<br />
V ar(X ′ ) · sY<br />
= Cov(aX + b, Y )<br />
<br />
V ar(aX + b) · sY<br />
1<br />
= a · Cov(X, Y )<br />
<br />
a2 · s2 X · sY<br />
= a<br />
√<br />
a2 ·<br />
sXY<br />
sX · sY<br />
= sign(a) · rXY<br />
→ <strong>Die</strong>se Invarianz gegenüber linearen Transformationen macht<br />
die Korrelation als <strong>Abstandsmaß</strong> so attraktiv.<br />
zu 1:<br />
zu 2:<br />
Cov(aX + b, Y ) = Cov(X ′ , Y )<br />
= E[(X ′ − ¯x ′ )(Y − ¯y)]<br />
2<br />
= E[(aX + b − (a¯x + b))(Y − ¯y)]<br />
= E[a · (X − ¯x)(y − ¯y)]<br />
2<br />
= a · E[(X − ¯x)(Y − ¯y)]<br />
= a · Cov(X, Y )<br />
¯x ′ = E[aX + b]<br />
= <br />
pi(axi + b)<br />
i<br />
= <br />
piaxi + <br />
pib<br />
i<br />
= a <br />
pixi + b <br />
2<br />
i<br />
= a¯x + b<br />
i<br />
i<br />
pi
2. Illustration des Sinns der Verschiebung<br />
Bei Zeitreihen X = (X(ti))i=1,..,T (blau) und Y = (Y (yi))i=1,..,T (grün) ist der<br />
Zusammenhang häufig verzögert und wird von der Korrelation nicht erfasst.<br />
Werte von X und Y<br />
Y um k = 1 verschoben<br />
Y um k = 6 verschoben<br />
Y um k = −7 verschoben<br />
10<br />
8<br />
6<br />
4<br />
2<br />
Zeitlicher Verlauf der Messreihen<br />
0<br />
0 10 20 30 40 50<br />
Zeitpunkte t(i)<br />
60 70 80 90 100<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
0 10 20 30 40 50 60 70 80 90 100<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
0 10 20 30 40 50 60 70 80 90 100<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
0 10 20 30 40 50 60 70 80 90 100<br />
Y<br />
Y(t t+1 )<br />
Y(t t+6 )<br />
Y(t t−7 )<br />
10<br />
8<br />
6<br />
4<br />
2<br />
gemeinsame Verteilung<br />
r XY = 0.03<br />
0<br />
0 2 4 6 8 10<br />
X<br />
10<br />
8<br />
6<br />
4<br />
2<br />
r XY ( 1 ) = 0.26<br />
0<br />
0 2 4 6 8 10<br />
X(t )<br />
i<br />
10<br />
8<br />
6<br />
4<br />
2<br />
r XY ( 6 ) = 0.99<br />
0<br />
0 2 4 6 8 10<br />
X(t )<br />
i<br />
10<br />
8<br />
6<br />
4<br />
2<br />
r XY ( −7 ) = −0.88<br />
0<br />
0 2 4 6 8 10<br />
X(t )<br />
i<br />
Verschieben heißt hier nicht die Werte an gleichen sondern zu versetzten<br />
Zeitpunkten miteinander zu verrechnen. Mathematisch bedeutet das die<br />
Addittion einer Konstanten k auf den Summationsindex. (Und natürlich<br />
das Ignorieren der <strong>Daten</strong>punkte am Rand, die keinen Vergleichspartner<br />
mehr haben):<br />
sXY (k) =<br />
1<br />
N − 2k ·<br />
N−k <br />
i=k+1<br />
[(X (ti) − ¯x) (Y (ti+k) − ¯y)]<br />
und rXY (k) = sXY (k)<br />
3<br />
sX · sY
Es ergibt sich in diesem Beispiel <strong>für</strong> die Korrelation in Abhängigkeit von<br />
der Schrittweite (dem delay) k folgender Zusammenhang:<br />
r XY ( k )<br />
1<br />
0.5<br />
0<br />
−0.5<br />
<strong>Kreuzkorrelation</strong> abhaengig von der Schrittweite<br />
−1<br />
−15 −10 −5 0<br />
Schrittweite (Delay) k<br />
5 10 15<br />
rXY (k) ist nun ein von einer Schrittweite (delay) k abhänigies Ähnlichkeitsmaß<br />
3. Interpretation und Konvention<br />
Auf einer Skala von 0 bis 1 sind sich X und Y<br />
ähnlich<br />
max |rXY (k)|<br />
k<br />
Zur Nutzung als <strong>Abstandsmaß</strong> wird skaliert:<br />
dXY = √ 2 · 1 − max |rXY (k)|<br />
k<br />
√ <br />
= min 2 · 1 − |rXY (k)|<br />
k<br />
Achtung: <strong>Die</strong> Reihenfolge spielt hier eine Rolle!<br />
es ist<br />
rXY (k) = rY X(−k)<br />
und daher meist<br />
im Gegensatz zu rXY = rY X<br />
rXY (k) = rY X(k)<br />
4
Kombinatorik<br />
<strong>Ein</strong> typisches Beispiel <strong>für</strong> die Notwendigkeit kombinatorischer Zählmethoden<br />
ist das Geburtstagsparadoxon.<br />
’Wie groß ist die Wahrscheinlichkeit, dass von 23 Menschen zwei am gleichen Tag<br />
Geburtstag haben?’ (ohne Berücksichtigung des Jahrgangs)<br />
<strong>Die</strong> Antwort ist am Ende zu finden.<br />
Begriffsklärung <strong>Die</strong> Kombinatorik beschäftigt sich mit der Bestimmung der<br />
Mächtigkeit von Mengen, deren Elemente beispielsweise spezielle Anordnungen, Ziehungen,<br />
Bäume, Graphen, etc. sind.<br />
<strong>Die</strong> Zahl wird über die Kombination elementarer Abzählmethoden, die als/über Urnenmodell(e)<br />
oder ähnliches aufgefasst/veranschaulicht werden können, errechnet.<br />
Motivation: Besitzt ein Enzym mehrere Bindestellen <strong>für</strong> Liganden, so sind beim<br />
Modellieren alle möglichen Konformationen zu berücksichtigen. <strong>Die</strong> notwendigen<br />
Formeln stammen aus der Kombinatorik.<br />
Um zu entscheiden, welche Formel anzuwenden oder wie eine neue Formel zu gewinnen<br />
ist, muss verstanden werden, wie die grundlegenden Handgriffe beim methodischen<br />
Abzählen funktionieren.<br />
Elementare Zählmethoden<br />
1. Variation mit Zurücklegen<br />
Vorstellung:<br />
In einer Urne befinden sich n nummerierte Kugeln. Es wird k-mal eine<br />
Kugel gezogen und das Ergebnis notiert. Dann wird die gezogene Kugel<br />
zurückgelegt und eine weitere gezogen, so dass am Ende eine Abfolge von<br />
k gezogenen Nummern auf dem Papier steht.<br />
(↩→ jeder Ziehung mit n = 4 und k = 1000 entspricht genau eine DNA-<br />
Sequenz der Länge 1000 Nukleotide (Basen).)<br />
Idee:<br />
Pro gezogener Kugel gibt es n (unabh.) Möglichkeiten<br />
↩→ Formel: n k Möglichkeiten<br />
n<br />
<br />
· n · n<br />
<br />
· n · . . . · n<br />
<br />
= n<br />
k<br />
k<br />
Veranschaulichung<br />
n = 3 Kugeln in der Urne, k = 2 mal Ziehen<br />
Mögliche Resultate (1. Ziehung, 2. Ziehung):<br />
(1,1) (2,1)<br />
⎫<br />
(3,1) ⎬<br />
(1,2)<br />
(1,3)<br />
<br />
(2,2)<br />
(2,3)<br />
<br />
n=3<br />
(3,2) n = 3<br />
⎭<br />
(3,3)<br />
<br />
↩→ # versch. Ziehungen = 32 = 9<br />
5
2. Anordnung von Objekten<br />
(a) Permutation<br />
Vorstellung:<br />
Es werden alle nummerierten Kugeln (n Stück) nacheinander gezogen<br />
(und zwischendurch nicht zurückgelegt). Das entspricht den<br />
verschiedenen Abfolgen der Zahlen 1 bis n (Anordnungen von n Elementen).<br />
Idee:<br />
n Möglichkeiten bei erster Ziehung<br />
· (bzw. freie Plätze <strong>für</strong> erste Zahl)<br />
(n − 1) Möglichkeiten bei zweiter Ziehung<br />
· (bzw. freie Plätze <strong>für</strong> zweite Zahl)<br />
(n − 2)<br />
·<br />
.<br />
·<br />
.<br />
2 Möglichkeiten <strong>für</strong> die vorletzte Ziehung<br />
· (bzw. noch zwei freie Plätze <strong>für</strong> vorletzte Zahl)<br />
1 Zum Schluss nur noch eine Möglichkeit<br />
↩→ Formel: n! Möglichkeiten/Anordnungen<br />
(b) Variation ohne Zurücklegen<br />
Vorstellung:<br />
Es werden nur die ersten k Kugeln gezogen. (Siehe Permutation, die<br />
Urne wird lediglich nicht leer gemacht)<br />
↩→ Formel:<br />
n · (n − 1) · (n − 2) · . . . · (n − k + 1) =<br />
n!<br />
(n − k)!<br />
Möglichkeiten/Anordnungen<br />
neue Interpretation:<br />
– es werden zunächst alle Kugeln permutiert und der Rest (die in<br />
der Urne verbliebenen (n − k) Kugeln) wird wieder durchmischt,<br />
weil deren Reihenfolge nicht interessiert<br />
– mit der Fakultät dividieren entspricht dem Durchmischen vom<br />
Rest (richtige Korrektur der Zählung), da jede interessierende<br />
Abfolge genau (n − k)!-fach gezählt wurde<br />
– Veranschaulichung:<br />
sortieren der n! (hier n = 7 und k = 4) gezählten Permutationen<br />
ergibt, dass jede interessierende (vorderer Teil) Variation/Ziehung<br />
genau gleich oft ((n−k)!-fach) zuviel gezählt wurde:<br />
6
3. Kombinieren ohne Zurücklegen<br />
3124|567 4672|135<br />
3124|576 4672|153<br />
. . . 3124|657 . . . 4672|315 . . .<br />
3124|675 4672|351<br />
3124|756 4672|513<br />
3124|765 4672|531<br />
<br />
n! : (n−k)!<br />
⎫<br />
⎪⎬<br />
(n − k)!<br />
Vorstellung:<br />
Reihenfolge der gezogenen Kugeln wird nicht beachtet (z.B. Lotto), entspricht<br />
also dem Auswählen von k aus n Elementen.<br />
Doppelzählungen nach obigem Argument entfernen, d.h. die k gezogenen<br />
Kugeln werden untereinander durchmischt.<br />
n!<br />
n!<br />
↩→ Formel: (n−k)! : k! =<br />
(Auswahl-)Möglichkeiten<br />
Veranschaulichung:<br />
(n−l)!·k! =<br />
<br />
n<br />
k<br />
123|45 145|23<br />
123|54 145|32<br />
132|45 154|23<br />
132|54 154|32<br />
213|45 415|23<br />
213|54 415|32<br />
231|45 . . . 451|23 . . .<br />
231|54 451|32<br />
312|45 514|23<br />
312|54 514|32<br />
321|45 541|23<br />
321|54 541|32<br />
<br />
( n<br />
k)<br />
⎫<br />
⎪⎭<br />
⎪⎬<br />
(n − k)! · k!<br />
Mit Hilfe der Kombination ohne Zurücklegen kann die Variation ohne<br />
Zurücklegen auch als permutieren von k ausgewählten Objekten ( n<br />
k ·k!)<br />
aufgefasst werden.<br />
4. Kombination mit Zurücklegen<br />
Vorstellung:<br />
Nur die Nummer der gezogenen Kugel wird notiert bevor sie zurückgelegt<br />
wird. (das entspricht dem Aufstellen einer Strichliste, denn die<br />
Reihenfolge spielt keine Rolle)<br />
Idee:<br />
Jede Strichliste kann als eine Verteilung aufgefasst werden.<br />
<strong>Die</strong> Frage, wie viele verschiedene Verteilungen auftreten können, lässt<br />
7<br />
⎪⎭
sich wie folgt beantworten:<br />
jede Verteilung sieht eineindeutig (Bijektion!) so aus:<br />
1<br />
2<br />
3<br />
4<br />
5<br />
n<br />
k−mal " "<br />
(jede Schale (n Stück) entspricht einer Kugelnummer, jede Kugel dem<br />
Ergebnis eines Ziehens (k Wiederholungen))<br />
Das lässt sich wiederum eineindeutig (Bijektion) als Folge von Kugeln<br />
und Wänden darstellen:<br />
k−mal " " und (n−1)−mal " "<br />
Und das wiederum entspricht eineindeutig dem Ziehen von (n − 1) bzw.<br />
k aus (n − 1) + k Objekten.<br />
(In diesem Beispiel wurden die Kugeln<br />
4, 6, 9, 10, 12 , ... , (k + n − 1 − 2) bzw.<br />
1, 2, 3, 5, 7, 8, 11, ... , (k + n − 1 − 1), (k + n − 1) gezogen).<br />
↩→ Formel:<br />
Verteilungen<br />
Bemerkung zur Kombinatorik<br />
<br />
n + k − 1<br />
(a) Wie bei der ’Variation ohne Zurücklegen’ gesehen, muss auf Doppelzählungen<br />
geachten werden. Beim Korrigieren dieser (ich weiss, wie oft ich etwas<br />
zu viel gezählt habe) entstehen aber meist die kürzesten Lösungswege.<br />
(b) Alles ist eine Frage des Blickwinkels<br />
meistens gibt es viele Möglichkeiten etwas abzuzählen (siehe Bemerkung<br />
zum Kombinieren ohne Zurücklegen). Welcher Weg gewählt wird, ist Geschmackssache.<br />
Wichtig ist nur den Überblick zu behalten und Punkt (a)<br />
zu berücksichtigen.<br />
Übungsaufgabe<br />
(Wer den Trick versteht, hat die Kombinatorik verstanden)<br />
<strong>Ein</strong> Lottozwilling sind zwei Kugeln einer Lottoziehung, deren Nummern direkt aufeinanderfolgend<br />
sind. (Reihenfolge beim Ziehen egal, wird als erste Kugel die 13<br />
und als vorletzte die 14 gezogen, enthält die Lottoziehung einen Zwilling.)<br />
Gesucht ist die Wahrscheinlichkeit, dass bei einer Ziehung ein Zwilling auftritt.<br />
Tipp: Bijektion <strong>für</strong> zwillingsfreie Lottoziehungen suchen.<br />
8<br />
k
Geburtstagsparadoxon<br />
Tabelle der Wahrscheinlichkeiten <strong>für</strong> N Menschen.<br />
Schon bei zwei Fußballmannschaften und einem Schiri ist die wahrscheinlicher, dass<br />
zwei von ihnen am gleichen Tag Geburtstag haben größer als 23 verschiedene Kalendertage.<br />
N P(einer hat heute Geb.) P(zwei am gleichen Tag )<br />
N N·(N−1)<br />
2 = 2<br />
1 0.3% 0% 0<br />
2 0.6% 0.3% 1<br />
3 0.8% 0.8% 3<br />
4 1.1% 1.6% 6<br />
5 1.4% 2.7% 10<br />
...<br />
10 2.7% 11.7% 45<br />
...<br />
15 4.0% 25.3% 105<br />
...<br />
20 5.3% 41.1% 190<br />
21 5.6% 44.4% 210<br />
22 5.9% 47.6% 231<br />
23 6.1% 50.7% 253<br />
24 6.4% 53.8% 276<br />
25 6.6% 56.9% 300<br />
26 6.9% 59.8% 325<br />
27 7.1% 62.7% 351<br />
28 7.4% 65.5% 378<br />
29 7.7% 68.1% 406<br />
30 7.9% 70.1% 435<br />
31 8.2% 73.1% 465<br />
32 8.4% 75.3% 491<br />
33 8.7% 77.5% 523<br />
34 8.9% 79.5% 556<br />
35 9.2% 81.4% 590<br />
36 9.4% 83.2% 625<br />
37 9.7% 84.9% 661<br />
38 9.9% 86.4% 698<br />
39 10.2% 87.8% 636<br />
40 10.4% 89.1% 675<br />
...<br />
50 12.8% 97.0 % 1225<br />
...<br />
75 18.6% 100.0 % 2775<br />
...<br />
100 24.0% 4950<br />
...<br />
500 74.6% 124750<br />
9