Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation

Regulationsvorgänge in biologischen Systemen / Systembiologie I 

Ergänzungsmaterialien ’Kreuzkorrelation und Kombinatorik’ 

von Daniel Samaga 

Ein Abstandsmaß für dynamische Daten: 

Die Kreuzkorrelation 

Keines der bisher betrachteten Abstandsmaße berücksichtigt die Reihenfolge 

der gemessenen Komponenten. Bei dynamischen Daten ist aber genau das neben 

der Frage, wann etwas passiert, interessant. Daher können die behandelten Abstandsmaße 

leicht sinnlos große Abstände ergeben, wenn in einer Datenmenge eine 

Verzögerung (ein Delay) enthalten ist. 

Die naheliegende Lösung des Problems ist, die Datensätze vor der Bestimmung 

der Ähnlichkeit (des Abstands) gegeneinander etwas zu verschieben. Das wäre zwar 

mit allen Abstandsmaßen möglich, durchgesetzt hat sich dafür jedoch die Korrelation. 

1. Wiederholung Korrelation 

Y 

Die Korrelation rXY zweier Zufallsgrößen X, Y ist ein Maß für ihre 

lineare stochastische Abhängigkeit. 

Definition: 

Bezeichne 

so ist 

sXY = Cov(X, Y ) = E[(X − ¯x)(Y − ¯y)] 

s 2 X = V ar(X) = E[(X − ¯x) 2 ] 

s 2 Y = V ar(Y ) = E[(Y − ¯y) 2 ] 

rXY = sXY 

sX · sY 

der Korrelationskoeffizient von X und Y. 

Erinnerung: ¯x = E[X] = pixi bzw. x f(x) dx und bei der Auswer- 

tung von Daten xi, i = 1, .., n : E[g(x)] = 1 

n 

Beispiele: 

r XY = 1 

X 

Y 

X 

r XY = 0 r XY = 0 

Y 

X 

Y 

n 

i=1 g(xi) 

X 

r XY = −1 

Y 

X 

r XY = −1 

– Sei X ′ = f(X) = aX + b mit a, b ∈ R, a = 0 eine lineare Transformation 

von X 

a) graphisch ist das eine 

· Dehnung/Stauchung um den Faktor |a| 

· Verschiebung um b 

· Spiegelung (an y-Achse), wenn a < 0 

1

) Was ergibt sich für rX ′ Y ? (“ Übung” rY X ′, rX ′ X) 

rX ′ Y = Cov(X′ , Y ) 

 

V ar(X ′ ) · sY 

= Cov(aX + b, Y ) 

 

V ar(aX + b) · sY 

1 

= a · Cov(X, Y ) 

 

a2 · s2 X · sY 

= a 

√ 

a2 · 

sXY 

sX · sY 

= sign(a) · rXY 

→ Diese Invarianz gegenüber linearen Transformationen macht 

die Korrelation als Abstandsmaß so attraktiv. 

zu 1: 

zu 2: 

Cov(aX + b, Y ) = Cov(X ′ , Y ) 

= E[(X ′ − ¯x ′ )(Y − ¯y)] 

2 

= E[(aX + b − (a¯x + b))(Y − ¯y)] 

= E[a · (X − ¯x)(y − ¯y)] 

2 

= a · E[(X − ¯x)(Y − ¯y)] 

= a · Cov(X, Y ) 

¯x ′ = E[aX + b] 

= 

pi(axi + b) 

i 

= 

piaxi + 

pib 

i 

= a 

pixi + b 

2 

i 

= a¯x + b 

i 

i 

pi

2. Illustration des Sinns der Verschiebung 

Bei Zeitreihen X = (X(ti))i=1,..,T (blau) und Y = (Y (yi))i=1,..,T (grün) ist der 

Zusammenhang häufig verzögert und wird von der Korrelation nicht erfasst. 

Werte von X und Y 

Y um k = 1 verschoben 

Y um k = 6 verschoben 

Y um k = −7 verschoben 

10 

8 

6 

4 

2 

Zeitlicher Verlauf der Messreihen 

0 

0 10 20 30 40 50 

Zeitpunkte t(i) 

60 70 80 90 100 

10 

8 

6 

4 

2 

0 

0 10 20 30 40 50 60 70 80 90 100 

10 

8 

6 

4 

2 

0 

0 10 20 30 40 50 60 70 80 90 100 

10 

8 

6 

4 

2 

0 

0 10 20 30 40 50 60 70 80 90 100 

Y 

Y(t t+1 ) 

Y(t t+6 ) 

Y(t t−7 ) 

10 

8 

6 

4 

2 

gemeinsame Verteilung 

r XY = 0.03 

0 

0 2 4 6 8 10 

X 

10 

8 

6 

4 

2 

r XY ( 1 ) = 0.26 

0 

0 2 4 6 8 10 

X(t ) 

i 

10 

8 

6 

4 

2 

r XY ( 6 ) = 0.99 

0 

0 2 4 6 8 10 

X(t ) 

i 

10 

8 

6 

4 

2 

r XY ( −7 ) = −0.88 

0 

0 2 4 6 8 10 

X(t ) 

i 

Verschieben heißt hier nicht die Werte an gleichen sondern zu versetzten 

Zeitpunkten miteinander zu verrechnen. Mathematisch bedeutet das die 

Addittion einer Konstanten k auf den Summationsindex. (Und natürlich 

das Ignorieren der Datenpunkte am Rand, die keinen Vergleichspartner 

mehr haben): 

sXY (k) = 

1 

N − 2k · 

N−k 

i=k+1 

[(X (ti) − ¯x) (Y (ti+k) − ¯y)] 

und rXY (k) = sXY (k) 

3 

sX · sY

Es ergibt sich in diesem Beispiel für die Korrelation in Abhängigkeit von 

der Schrittweite (dem delay) k folgender Zusammenhang: 

r XY ( k ) 

1 

0.5 

0 

−0.5 

Kreuzkorrelation abhaengig von der Schrittweite 

−1 

−15 −10 −5 0 

Schrittweite (Delay) k 

5 10 15 

rXY (k) ist nun ein von einer Schrittweite (delay) k abhänigies Ähnlichkeitsmaß 

3. Interpretation und Konvention 

Auf einer Skala von 0 bis 1 sind sich X und Y 

ähnlich 

max |rXY (k)| 

k 

Zur Nutzung als Abstandsmaß wird skaliert: 

dXY = √ 2 · 1 − max |rXY (k)| 

k 

√ 

= min 2 · 1 − |rXY (k)| 

k 

Achtung: Die Reihenfolge spielt hier eine Rolle! 

es ist 

rXY (k) = rY X(−k) 

und daher meist 

im Gegensatz zu rXY = rY X 

rXY (k) = rY X(k) 

4

Kombinatorik 

Ein typisches Beispiel für die Notwendigkeit kombinatorischer Zählmethoden 

ist das Geburtstagsparadoxon. 

’Wie groß ist die Wahrscheinlichkeit, dass von 23 Menschen zwei am gleichen Tag 

Geburtstag haben?’ (ohne Berücksichtigung des Jahrgangs) 

Die Antwort ist am Ende zu finden. 

Begriffsklärung Die Kombinatorik beschäftigt sich mit der Bestimmung der 

Mächtigkeit von Mengen, deren Elemente beispielsweise spezielle Anordnungen, Ziehungen, 

Bäume, Graphen, etc. sind. 

Die Zahl wird über die Kombination elementarer Abzählmethoden, die als/über Urnenmodell(e) 

oder ähnliches aufgefasst/veranschaulicht werden können, errechnet. 

Motivation: Besitzt ein Enzym mehrere Bindestellen für Liganden, so sind beim 

Modellieren alle möglichen Konformationen zu berücksichtigen. Die notwendigen 

Formeln stammen aus der Kombinatorik. 

Um zu entscheiden, welche Formel anzuwenden oder wie eine neue Formel zu gewinnen 

ist, muss verstanden werden, wie die grundlegenden Handgriffe beim methodischen 

Abzählen funktionieren. 

Elementare Zählmethoden 

1. Variation mit Zurücklegen 

Vorstellung: 

In einer Urne befinden sich n nummerierte Kugeln. Es wird k-mal eine 

Kugel gezogen und das Ergebnis notiert. Dann wird die gezogene Kugel 

zurückgelegt und eine weitere gezogen, so dass am Ende eine Abfolge von 

k gezogenen Nummern auf dem Papier steht. 

(↩→ jeder Ziehung mit n = 4 und k = 1000 entspricht genau eine DNA- 

Sequenz der Länge 1000 Nukleotide (Basen).) 

Idee: 

Pro gezogener Kugel gibt es n (unabh.) Möglichkeiten 

↩→ Formel: n k Möglichkeiten 

n 

 

· n · n 

 

· n · . . . · n 

 

= n 

k 

k 

Veranschaulichung 

n = 3 Kugeln in der Urne, k = 2 mal Ziehen 

Mögliche Resultate (1. Ziehung, 2. Ziehung): 

(1,1) (2,1) 

⎫ 

(3,1) ⎬ 

(1,2) 

(1,3) 

 

(2,2) 

(2,3) 

 

n=3 

(3,2) n = 3 

⎭ 

(3,3) 

 

↩→ # versch. Ziehungen = 32 = 9 

5

2. Anordnung von Objekten 

(a) Permutation 

Vorstellung: 

Es werden alle nummerierten Kugeln (n Stück) nacheinander gezogen 

(und zwischendurch nicht zurückgelegt). Das entspricht den 

verschiedenen Abfolgen der Zahlen 1 bis n (Anordnungen von n Elementen). 

Idee: 

n Möglichkeiten bei erster Ziehung 

· (bzw. freie Plätze für erste Zahl) 

(n − 1) Möglichkeiten bei zweiter Ziehung 

· (bzw. freie Plätze für zweite Zahl) 

(n − 2) 

· 

. 

· 

. 

2 Möglichkeiten für die vorletzte Ziehung 

· (bzw. noch zwei freie Plätze für vorletzte Zahl) 

1 Zum Schluss nur noch eine Möglichkeit 

↩→ Formel: n! Möglichkeiten/Anordnungen 

(b) Variation ohne Zurücklegen 

Vorstellung: 

Es werden nur die ersten k Kugeln gezogen. (Siehe Permutation, die 

Urne wird lediglich nicht leer gemacht) 

↩→ Formel: 

n · (n − 1) · (n − 2) · . . . · (n − k + 1) = 

n! 

(n − k)! 

Möglichkeiten/Anordnungen 

neue Interpretation: 

– es werden zunächst alle Kugeln permutiert und der Rest (die in 

der Urne verbliebenen (n − k) Kugeln) wird wieder durchmischt, 

weil deren Reihenfolge nicht interessiert 

– mit der Fakultät dividieren entspricht dem Durchmischen vom 

Rest (richtige Korrektur der Zählung), da jede interessierende 

Abfolge genau (n − k)!-fach gezählt wurde 

– Veranschaulichung: 

sortieren der n! (hier n = 7 und k = 4) gezählten Permutationen 

ergibt, dass jede interessierende (vorderer Teil) Variation/Ziehung 

genau gleich oft ((n−k)!-fach) zuviel gezählt wurde: 

6

3. Kombinieren ohne Zurücklegen 

3124|567 4672|135 

3124|576 4672|153 

. . . 3124|657 . . . 4672|315 . . . 

3124|675 4672|351 

3124|756 4672|513 

3124|765 4672|531 

 

n! : (n−k)! 

⎫ 

⎪⎬ 

(n − k)! 

Vorstellung: 

Reihenfolge der gezogenen Kugeln wird nicht beachtet (z.B. Lotto), entspricht 

also dem Auswählen von k aus n Elementen. 

Doppelzählungen nach obigem Argument entfernen, d.h. die k gezogenen 

Kugeln werden untereinander durchmischt. 

n! 

n! 

↩→ Formel: (n−k)! : k! = 

(Auswahl-)Möglichkeiten 

Veranschaulichung: 

(n−l)!·k! = 

 

n 

k 

123|45 145|23 

123|54 145|32 

132|45 154|23 

132|54 154|32 

213|45 415|23 

213|54 415|32 

231|45 . . . 451|23 . . . 

231|54 451|32 

312|45 514|23 

312|54 514|32 

321|45 541|23 

321|54 541|32 

 

( n 

k) 

⎫ 

⎪⎭ 

⎪⎬ 

(n − k)! · k! 

Mit Hilfe der Kombination ohne Zurücklegen kann die Variation ohne 

Zurücklegen auch als permutieren von k ausgewählten Objekten ( n 

k ·k!) 

aufgefasst werden. 

4. Kombination mit Zurücklegen 

Vorstellung: 

Nur die Nummer der gezogenen Kugel wird notiert bevor sie zurückgelegt 

wird. (das entspricht dem Aufstellen einer Strichliste, denn die 

Reihenfolge spielt keine Rolle) 

Idee: 

Jede Strichliste kann als eine Verteilung aufgefasst werden. 

Die Frage, wie viele verschiedene Verteilungen auftreten können, lässt 

7 

⎪⎭

sich wie folgt beantworten: 

jede Verteilung sieht eineindeutig (Bijektion!) so aus: 

1 

2 

3 

4 

5 

n 

k−mal " " 

(jede Schale (n Stück) entspricht einer Kugelnummer, jede Kugel dem 

Ergebnis eines Ziehens (k Wiederholungen)) 

Das lässt sich wiederum eineindeutig (Bijektion) als Folge von Kugeln 

und Wänden darstellen: 

k−mal " " und (n−1)−mal " " 

Und das wiederum entspricht eineindeutig dem Ziehen von (n − 1) bzw. 

k aus (n − 1) + k Objekten. 

(In diesem Beispiel wurden die Kugeln 

4, 6, 9, 10, 12 , ... , (k + n − 1 − 2) bzw. 

1, 2, 3, 5, 7, 8, 11, ... , (k + n − 1 − 1), (k + n − 1) gezogen). 

↩→ Formel: 

Verteilungen 

Bemerkung zur Kombinatorik 

 

n + k − 1 

(a) Wie bei der ’Variation ohne Zurücklegen’ gesehen, muss auf Doppelzählungen 

geachten werden. Beim Korrigieren dieser (ich weiss, wie oft ich etwas 

zu viel gezählt habe) entstehen aber meist die kürzesten Lösungswege. 

(b) Alles ist eine Frage des Blickwinkels 

meistens gibt es viele Möglichkeiten etwas abzuzählen (siehe Bemerkung 

zum Kombinieren ohne Zurücklegen). Welcher Weg gewählt wird, ist Geschmackssache. 

Wichtig ist nur den Überblick zu behalten und Punkt (a) 

zu berücksichtigen. 

Übungsaufgabe 

(Wer den Trick versteht, hat die Kombinatorik verstanden) 

Ein Lottozwilling sind zwei Kugeln einer Lottoziehung, deren Nummern direkt aufeinanderfolgend 

sind. (Reihenfolge beim Ziehen egal, wird als erste Kugel die 13 

und als vorletzte die 14 gezogen, enthält die Lottoziehung einen Zwilling.) 

Gesucht ist die Wahrscheinlichkeit, dass bei einer Ziehung ein Zwilling auftritt. 

Tipp: Bijektion für zwillingsfreie Lottoziehungen suchen. 

8 

k

Geburtstagsparadoxon 

Tabelle der Wahrscheinlichkeiten für N Menschen. 

Schon bei zwei Fußballmannschaften und einem Schiri ist die wahrscheinlicher, dass 

zwei von ihnen am gleichen Tag Geburtstag haben größer als 23 verschiedene Kalendertage. 

N P(einer hat heute Geb.) P(zwei am gleichen Tag ) 

N N·(N−1) 

2 = 2 

1 0.3% 0% 0 

2 0.6% 0.3% 1 

3 0.8% 0.8% 3 

4 1.1% 1.6% 6 

5 1.4% 2.7% 10 

... 

10 2.7% 11.7% 45 

... 

15 4.0% 25.3% 105 

... 

20 5.3% 41.1% 190 

21 5.6% 44.4% 210 

22 5.9% 47.6% 231 

23 6.1% 50.7% 253 

24 6.4% 53.8% 276 

25 6.6% 56.9% 300 

26 6.9% 59.8% 325 

27 7.1% 62.7% 351 

28 7.4% 65.5% 378 

29 7.7% 68.1% 406 

30 7.9% 70.1% 435 

31 8.2% 73.1% 465 

32 8.4% 75.3% 491 

33 8.7% 77.5% 523 

34 8.9% 79.5% 556 

35 9.2% 81.4% 590 

36 9.4% 83.2% 625 

37 9.7% 84.9% 661 

38 9.9% 86.4% 698 

39 10.2% 87.8% 636 

40 10.4% 89.1% 675 

... 

50 12.8% 97.0 % 1225 

... 

75 18.6% 100.0 % 2775 

... 

100 24.0% 4950 

... 

500 74.6% 124750 

9

Ein Abstandsmaß für dynamische Daten: Die Kreuzkorrelation

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?