Scagnostics - IWR
Scagnostics - IWR
Scagnostics - IWR
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.2 Skalardaten – Multivariate Daten<br />
Vorlesung: Mo, 11:00 – 13:00, INF 368 – 432<br />
Do, 11:00 – 13:00, INF 350 – OMZ, U014<br />
Übung: Mo, 9:00 – 11:00, INF 350 – OMZ, U011<br />
JProf. Dr. Heike Leite – htp:/www.iwr.uni-heidelberg.de/groups/CoVis/
Inhaltsverzeichnis<br />
1.Einführung<br />
2.Datentypen, Datenrepräsentation und Visualisierungspipeline<br />
3.Wahrnehmung<br />
4.Skalardaten<br />
5.Statistische Graphiken<br />
6.Interaktion und Datenexploration<br />
7.Graphen<br />
8.Vektordaten<br />
Grundlagen SciVis – 4.2 Multivariate Daten 2
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
1.Streudiagramme<br />
1.Definition und Erweiterungen<br />
2.<strong>Scagnostics</strong><br />
2.Paralele Koordinaten<br />
1.Definition<br />
2.Sortierverfahren<br />
3.Pargnostics<br />
3.Heatmaps<br />
2.Zeitreihen<br />
3.Text<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 3
Kleine Vielfache (Smal Multiples)<br />
[Christian Huygens, Systema Saturnium (The Hague, 1659)]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 4
Kleine Vielfache (Smal Multiples)<br />
[A. Ghizzo et al. Stability of Bernstein-Greene-Kruskal Plasma Equilibria:<br />
Numerical Experiments Over a Long Time. Physics of Fluids, 31:72-82, 1988]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 5
Kleine Vielfache<br />
Zeichnungen eines in Stein gehauenen<br />
Reliefs: Je nach Dokumentator und<br />
zeitlicher Epoche entstanden sehr<br />
unterschiedliche Darstelung. Erst im<br />
Vergleich werden die Unterschiede<br />
richtig deutlich. [Tufte, Envisioning<br />
Information, S. 72]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 6
Kleine Vielfache (Smal Multiples)<br />
●<br />
●<br />
●<br />
Wenn wir Daten analysieren und nach Struktur suchen, brauchen wir immer einen<br />
Vergleich. Wir suchen nach Unterschieden (zu bekannten, zu anderen Zeitpunkten, zu<br />
anderen Bereichen).<br />
Das „kleine Vielfache“-Design bietet eine solche Möglichkeit: Hierzu wird der gleiche<br />
Visualisierungstyp mehrfach nebeneinander mit unterschiedlichen Daten dargestelt. Die<br />
Daten sind so gewählt, das sie die Fragestelung unterstützen. Dargestelt werden etwa<br />
– Unterschiedliche Zeitpunkte (z.B. Klimadaten)<br />
– Unterschiedliche Kategorien (z.B. Bevölkerungstatistiken)<br />
– Veränderungen mit einer zusätzlichen nicht dargestelten Variable<br />
– Unterschiedliche Paramtereinstelungen (z.B. numerische Simulation)<br />
– Unterschiedliche Sichten auf die Daten (z.B. Projektion in der Architektur)<br />
Man solte beachten:<br />
– Die Daten sind ale gleichzeitig im Sichtfeld, so das sie gut verglichen werden<br />
können.<br />
– Die Daten sind systematisch angeordnet, so das ein leichtes Verständnis der Struktur<br />
möglich ist.<br />
– Das Design der Visualisierungen ist konsistent (z.B. gleiche Colormap)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 7
Kleine Vielfache<br />
●<br />
Drei Beispiele, die das Konzept der kleinen Vielfachen ausnutzen sind Streudiagrammmatrizen,<br />
paralele Koordinaten und Heatmaps.<br />
htp:/www.r-project.org/<br />
htp:/spotfirecommunity.tibco.com<br />
htp:/mbostock.github.com/protovis<br />
8
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
1.Streudiagramme<br />
1.Definition und Erweiterungen<br />
2.<strong>Scagnostics</strong><br />
2.Paralele Koordinaten<br />
1.Definition<br />
2.Sortierverfahren<br />
3.Pargnostics<br />
3.Heatmaps<br />
2.Zeitreihen<br />
3.Text<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 9
Streudiagrammmatrizen<br />
●<br />
●<br />
●<br />
Ein Streudiagramm stelt bivariate Daten in einem 2D<br />
Kartesischen Giter dar. Die Achsen entsprechen den<br />
beiden Variablen. Jedem Datenpunkt ist ein Punkt im<br />
Koordinatensystem zugewiesen.<br />
Folgende Information kann aus dem Diagramm abgelesen<br />
werden:<br />
– Verteilung der Daten im Parameteraum.<br />
– Korelationen zwischen zwei Variablen.<br />
– Einfärbung ermöglicht Clusteranalyse (siehe Bild)<br />
Erweitert man diese Idee nun auf n Variablen erhält man<br />
nx(n-1) Streudiagramme für ale möglichen Kombinationen.<br />
Diese kann man nun in einer Matrix anordnen und<br />
erhält eine Streudiagrammmatrix.<br />
[wikipedia]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 10
Streudiagramm-Matrix – Beispiele Irisblüten<br />
●<br />
●<br />
●<br />
Auf der kanadische Gaspésie-Halbinsel gibt es mehrere<br />
verschiedene Irisarten.<br />
Diese können anhand der Größe der Blüten- und<br />
Kelchbläter unterschieden werden.<br />
Um gute Schätzer für die Grenzwerte zu erhalten, mus<br />
man die natürliche Streuung berücksichtigen und<br />
geeignete Grenzwerte finden.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 11
406 Autos mit 4 Variablen<br />
Clustering: Herkunftsland<br />
12
Streudiagramm-Matrix<br />
●<br />
●<br />
Gemesen wurden vier Parameter, die miteinander korelieren:<br />
– Breite Blütenbläter<br />
– Länge Blütenbläter<br />
– Breite Kelchbläter<br />
– Länge Kelchbläter<br />
Um sich ein beseres Bild von den Korelationen machen zu können, betrachtet man<br />
paarweise Streudiagramme.<br />
Kelchblatt Länge<br />
Kelchblatt Breite Blütenblatt Länge Blütenblatt Breite<br />
Grundlagen SciVis – 4.2 Multivariate Daten 13
Streudiagramm-Matrix<br />
●<br />
Achtung: Im Regelfal sind die Daten vorher nicht klasifiziert, so das eine hilfreiche<br />
Einfärbung wie hier verwendet, nicht möglich ist.<br />
14
Streudiagramme – Erweiterungen<br />
●<br />
Gerade bei vielen Datenpunkten werden Streudiagramme schnel sehr unübersichtlich, da<br />
man einzelne Punkte nicht mehr unterscheiden kann.<br />
●<br />
Hier hilft es mit Transparenz zu arbeiten und jedem Punkt nur eine kleine Opazität<br />
zuzuweisen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 15
Streudiagramme – Erweiterungen<br />
●<br />
Besonders bei vielen Datenpunkten ist auch dieser Ansatz nicht mehr praktikabel, da die<br />
Graphikkarte sehr lange braucht um mehrere Milionen/Miliarden Kreise zu zeichnen. Hier<br />
solte man für das Streudiagramm eine Textur verwenden, in welche man die Punkte<br />
einzeichnet.<br />
●<br />
Transparenz erhält man durch Alphablending der bereits gezeichneten mit dem neuen<br />
Punkt. Sei B die im Pixel bereits gezeichnete Farbe, A die Farbe des neuen Datenpunkts, α<br />
der entsprechenden Transparenzwerte der neuen Farben. Dann ergibt sich die<br />
resultierende nichtransparente Farbe C durch<br />
C=α A<br />
A+(1−α A<br />
) B<br />
Grundlagen SciVis – 4.2 Multivariate Daten 16
Streudiagrammmatrizen für viele Variablen<br />
●<br />
Ein Problem, das sich nicht vermeiden läst, ist das Streudiagramm schnel<br />
unübersichtlich werden, wenn die Anzahl der Variablen wächst:<br />
[Lehmann et al., Selecting Coherent and Relevant Plots in Largs Scaterplot Matrices, Computer Graphics Forum, 2012]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 17
Analysestrategieen für SPLOMs<br />
●<br />
Folgende Strategien können eingesetzt werden, um die Daten übersichtlicher zu gestalten:<br />
– Navigation: Der Nutzer wird bei der Navigation in der Matrix unterstützt und kann<br />
sich gezielt verschiedene Streudiagramme in der Matrix ansehen.<br />
[Elmqvist N., Dragicevic P., Fekete J.: Roling the dice: Multidimensional visual exploration using scaterplot<br />
matrix navigation. IEEE TVCG, 14/6 (2008)]<br />
– Sortierung: Die Streudiagramme werden so sortiert, das ähnlich nahe beieinander<br />
liegen und so Muster deutlicher hervortreten.<br />
[Keim D.: Designing pixel-oriented visualization techniques: Theory & applications. IEEE TVCG 6 (2000), 59f.]<br />
– Selektion: Dem Nutzer werden nicht ale Streudiagramme gezeigt, sonder nur solche,<br />
die als wichtig erkannt wurde.<br />
[Friedman J. H., Tukey J. W.: A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Comput. 23<br />
(1974), 881–890.]<br />
– Hierarchische Analyse: Streudiagramme werden hierarchische geclustert und der<br />
Nutzer kann den Detailgrad interaktiv steuern.<br />
[Yang J., Peng W., Ward M. O., Rundensteiner E. A.: Interactive hierarchical dimension ordering, spacing and<br />
filtering for exploration of high dimensional datasets. In IEEE Symp. on Information Visualization, 105–112<br />
(2003).]<br />
– Metaanalyse: Es werden nicht die Streudiagramme selbst gezeigt, sondern<br />
abgeleitete Größen.<br />
[Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 18
<strong>Scagnostics</strong><br />
●<br />
●<br />
●<br />
Im Folgenden werden wir uns den Algorithmus von Wilkinson et al. 2004 ansehen, welcher<br />
<strong>Scagnostics</strong> (Scaterplot Diagnostics) zur Metaanalyse beschreibt.<br />
Der <strong>Scagnostics</strong>-Algorithmus berechnet charakteristische Merkmale zur Beschreibung<br />
einer Punktwolke im 2D (z.B. gibt es Cluster, wie dicht sind die Punkte, wie ist die Form der<br />
Punktwolke). Hierzu werden graphentheoretischer Maße verwendet.<br />
Wir definieren zunächst einen Graphen:<br />
Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />
(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />
w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />
Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />
ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />
Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />
●<br />
Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />
welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />
Kanten besitzen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 19
Scagnostic – Maßzahlen<br />
●<br />
Wir werden die folgenden Maßzahlen für Streudiagramme betrachten:<br />
Ausreiser in den Daten<br />
– Ausreiseranteil (outlying)<br />
Form der Datenpunkte<br />
– Konvexität (convex)<br />
– Dünnheit (skinny)<br />
– Faserig (stringy)<br />
– Gerade (straight)<br />
Zusammenhang in den Daten<br />
– Monotonie (monotonic)<br />
Dichte der Datenpunkte<br />
– Schiefe (skewed)<br />
– Klumpigkeit (clumpy)<br />
– Gestreift (striated)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 20
<strong>Scagnostics</strong><br />
●<br />
Wir definieren zunächst einen Graphen:<br />
Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />
(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />
w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />
Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />
ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />
Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />
●<br />
Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />
welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />
Kanten besitzen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 21
<strong>Scagnostics</strong><br />
●<br />
Die Graphenstrukturen, die wir verwenden werden, sind konvexe Hüle ( →Rand),<br />
Alphahüle ( →Form) und Minimaler Spannbaum (minimal spanning tree →relative Lage<br />
von Punkten).<br />
[wikipedia]<br />
●<br />
Die konvexe Hüle ist eine Möglichkeit den Rand einer Punktwolke X zu beschreiben. Ihre<br />
Knoten sind eine Teilmenge von X. Außerdem enthält sie ale Punkte der Menge X.<br />
Definition (konvexe Hüle): Die konvexe Hüle einer Teilmenge X eines reelen<br />
oder komplexen Vektoraumes V ist definiert als der Schnit aler konvexen<br />
Obermengen von X. Sie ist selbst konvex und damit die kleinste konvexe Menge,<br />
die X enhält.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 22
<strong>Scagnostics</strong><br />
●<br />
Die Alphahüle beschreibt den Rand einer Punktwolke präziser.<br />
Definition (Alphahüle): Die Alphahüle einer Menge X enthält ale Kanten<br />
zwischen zwei Punkten aus X, die auf einem Kreis mit Radius α liegen, welcher<br />
keine weiteren Punkte aus X enthält.<br />
Edelsbrunner, H.; Kirkpatrick, D. G.; Seidel, R. (1983), "On the shape of a set of points in<br />
the plane", IEEE Transactions on Information Theory 29 (4): 551–559.<br />
Alphahülen können efizient berechnet werden und man kann bei ihnen den Einfluß von<br />
Ausreißern reduzieren.<br />
●<br />
Spannbäume verbinden ale Punkte der Wolke durch einen Baum und geben so eine<br />
Strukturbeschreibung.<br />
Definition (Spannbaum): Ein Spannbaum ist ein Baum, desen Knoten durch<br />
eine gegebene Punktmenge X gegeben sind.<br />
Definition (minimaler Spannbaum MST): Von alen Spannbäumen einer<br />
Punktmenge ist derjenige der minimale, der die geringste Gesamtlänge (Summe<br />
aler Kantengewichte) besitzt.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 23
<strong>Scagnostics</strong><br />
●<br />
Zusätzlich benötigen wir folgende (normierte) Maßzahlen auf geometrischen Graphen:<br />
– Die Länge einer Kante length(e) ist die Euklidische Distanz zwischen ihren beiden<br />
Vertices.<br />
– Die Länge eines Graphen length(T) ist die Summe der Längen al seiner Kanten.<br />
– Ein Pfad ist eine Liste von Vertices, so das je zwei benachbarte Knoten in der Liste<br />
eine Kante des Graphen bilden.<br />
– Ein Pfad heißt geschlossen wenn sein erster und letzter Knoten identisch sind.<br />
– Ein geschlosener Pfad heißt Rand eines Polygons.<br />
– Der Umfang perimeter eines Polygons ist die Länge seines Randes.<br />
– Die Fläche area eines Polygons ist die Fläche in seinem Inneren.<br />
– Der Durchmesser diameter eines Graphen ist der längste kürzeste Pfad in G.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 24
Scagnostic – Maßzahlen zur Detektion von Ausreißern<br />
●<br />
Ausreisseranteil: Den Ausreiseranteil an den Punkten mesen wir mitels des MST. Hierzu<br />
filtern wir ale Punkte mit Grad 1 (eine angrenzende Kante) und Gewicht größer ω mit<br />
ω=q 75<br />
+1.5(q 75<br />
−q 25<br />
)<br />
wobei q 75<br />
das 75% Quantil ist (75% der Kanten sind kürze als diese Länge) und (q 75<br />
– q 25<br />
)<br />
ist der Interquartilsabstan.<br />
„Ausreiseranteil“ mist nun, den Anteil von sehr langen, einfach verbunden Kanten an der<br />
Gesamtlänge des MST T<br />
c entlegen = length(T Ausreißer )<br />
length(T )<br />
Grundlagen SciVis – 4.2 Multivariate Daten 25
Scagnostic – Maßzahlen für die Form<br />
●<br />
●<br />
Im Folgenden werden die Graphen wie folgt abgekürzt: H konvexe Hüle, A Alphahüle, T<br />
minimaler Spannbaum.<br />
Konvexität: Die Konvexität gibt ab, wie gut sich Alphahüle und konvexen Hüle<br />
überdecken.<br />
c konvex = area(A)<br />
area( H )<br />
●<br />
Dünnheit: Wir vergleichen die Fläche der Alphahüle mit ihrem Umfang. Das Maß ist<br />
normiert, so das wir für einen Kreis 0 für ein Quadrat 0.12 und für ein langes Rechteck 1<br />
erhalten.<br />
c dünn<br />
=1− √ 4 Π area(A)<br />
perimeter ( A)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 26
Scagnostic – Maßzahlen für die Form<br />
●<br />
Faserig: Eine faserige Form ist eine dünne Form ohne Äste. Hierzu analysieren wir die<br />
Pfade im Spannbaum. Ist der längste kürzeste Pfad im Baum etwa so lang wie die Summe<br />
aler Kantenlängen, hat der Baum wenig Verzweigungen/Äste, und ist somit sehnig.<br />
c sehnig =<br />
diameter (T )<br />
length(T )<br />
●<br />
Gerade: Um zu mesen wie gerade eine Punktewolke ist, betrachten wir den längsten<br />
kürzesten Pfad im MST. Bei geraden Punktwolken ist der Abstand zwischen den<br />
Endpunkten genauso lang, wie die Länge des Pfades.<br />
c gerade = dist (t j , t k )<br />
diameter(T )<br />
ti und tk sind die Vertices die den Durchmeser bestimmen.<br />
Das Maß liefert für gerade Graphen 1.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 27
Scagnostic – Maßzahlen für Trends<br />
●<br />
Monoton: Wenn wir die Folge der Punkte im Streudiagramm als Funktion aufasen, sol<br />
dieses Maß angeben, ob die Funktion monoton ist oder nicht. Hierzu verwenden wir<br />
Spearmans Rangkorelationskoefizienten:<br />
r s<br />
= Cov(rang x , rang y )<br />
s rang x<br />
s rang y<br />
rang( x i<br />
) der Rang von x i<br />
s rangx<br />
die Standardabweichung der Ränge von x<br />
Cov( rang(x), rang(y) ) die Kovarianz<br />
Das Maß für die Monotonie verwendet nun den quadrierten Rangkorelationskoefizienten,<br />
da es dem Betrachter zumeist egal ist, ob die Funktion monton steigend oder falend<br />
ist.<br />
c monton =r s<br />
2<br />
Grundlagen SciVis – 4.2 Multivariate Daten 28
Scagnostic – Maßzahlen für Dichte<br />
●<br />
Schiefe: Die Verteilung der Kantenlängen im MST gibt Aufschlus über die relative Dichte<br />
der Punkte im Streudiagramm. Über die Schiefe (statistisches Moment) des Histogramms<br />
über die Kantenlängen kann man nun Rückschlüse auf die Dichte der Punktwolke ziehen.<br />
c skew<br />
= q 90−q 50<br />
q 90<br />
−q 10<br />
Die q geben hier wieder die Quantile an. Bei q90 sind<br />
90% der Kanten des MST kürzer als diese Länge.<br />
●<br />
Klumpigkeit: Die Klumpigkeit mesen wir durch die Kanten im MST. Hier sehen wir uns die<br />
Distanzen innerhalb von Clustern an.<br />
c clumpy (T )=max<br />
j<br />
[<br />
max [length(e k )]<br />
]<br />
1−<br />
k<br />
length(e j )<br />
wobei j Indices für Kante im MST stehen. k Indices stehen<br />
für Kanten in Runt-Mengen der einzelnen Kanten j.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 29
c clumpy (T )=max<br />
j<br />
Scagnostic – Maßzahlen für Dichte<br />
[<br />
max [length(e k )]<br />
]<br />
1−<br />
k<br />
length(e j )<br />
W. Stuetzle. Estimating the cluster tree<br />
of a density by analyzing the minimal<br />
spanning tree of a sample. Journal of<br />
Clasification, 20:25–47, 2003.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 30
Scagnostic – Maßzahlen für Kohärenz<br />
●<br />
Gestreift: Um zu mesen wie streifig das Streudiagramm ist, analysieren wir die Winkel<br />
zwischen den Kanten an Knoten mit Grad 2. Der Durchschnitswinkel solte bei streifigen<br />
Daten in etwa 180° betragen.<br />
c striate<br />
= 1<br />
∣V (2) ∣ ∑<br />
v∈V (2) ∣cos θ(e(v ,a) ,e(v ,b))∣<br />
wobei V(2) ⊂ V die Menge aler Knoten mit Grad 2 angibt, θ<br />
den Winkel zwischen zwei Kanten und e(v,a) die Kante<br />
zwischen v und a.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 31
<strong>Scagnostics</strong> – Ergebnisse<br />
●<br />
●<br />
●<br />
Eine einfache Form um die Maßzahlen zu<br />
kodieren ist die Heatmap. Datenpunkte (=<br />
Streudiagramme) werden in Zeilen<br />
abgetragen, Atribute (= <strong>Scagnostics</strong>) in<br />
Spalten.<br />
Wie stark ein Streudiagramm einem<br />
Merkmal entspricht ist als Farbe codiert. Rot<br />
bedeutet, sehr gute Übereinstimmung, blau<br />
sehr geringe.<br />
Wir sehen:<br />
– Punktwolken entsprechen oft mehreren<br />
Kategorien (rote und orange Kästchen).<br />
– Punktwolken mit gleichem starken<br />
Atribut können noch sehr verschieden<br />
ausehen (vgl. Skewed oder Monotonic)<br />
– Es gibt Punktwolken, die schwer zu charakterisieren<br />
sind (max. gelbe Farbe).<br />
Grundlagen SciVis – 4.2 Multivariate Daten 32
Streudiagramm mit Scagnostic Maßzahlen<br />
●<br />
Jedes Streudiagramm können wir nun wieder als Punkt im hochdimensionalen<br />
<strong>Scagnostics</strong>raum aufasen und diese wieder als Streudiagrammmatrix darstelen.<br />
Abalone Datensatz:<br />
(unten) Streudiagrammmatrix<br />
(rechts) <strong>Scagnostics</strong><br />
Grundlagen SciVis – 4.2 Multivariate Daten 33
<strong>Scagnostics</strong> – Anwendung<br />
●<br />
Hier ein weiteres Beispiel für Wohnungsdaten in Boston. Jede Wohnung ist durch 14<br />
Variablen beschrieben, deren Korelationen durch 91 Streudiagramme dargestelt werden<br />
können.<br />
●<br />
Aufälig ist z.B. der isolierte Punkte<br />
in der Zeile für Dünn (sparse) der<br />
einem Streudiagramm entspricht<br />
bei dem die Punkte nur an 16 verschiedenen<br />
Positionen liegen<br />
können (Merkmal A: zwei Ausprägungen<br />
und Merkmal B: acht Ausprägungen).<br />
Grundlagen SciVis – 4.2 Multivariate Daten 34<br />
[wikipedia]
<strong>Scagnostics</strong> – Anwendung<br />
●<br />
Die Maße können wir nun auch benutzen, um die Streudiagramm zu sortieren:<br />
Scaterplots of<br />
weather data sorted<br />
by features<br />
[Wilkinson 2006]<br />
35
<strong>Scagnostics</strong> – Anwendung<br />
●<br />
Die Streudiagramme können auch wieder in einer Matrix dargestelt werden und so<br />
sortiert werden, das ähnliche Diagramme nah beieinander liegen. Ungewöhnliche<br />
Streudiagramme können automatisch hervorgehoben werden. Hierzu wird der<br />
Algorithmus zur Detektion von Ausreißern in Streudiagrammen verwendet.<br />
SPLOM of basebal data sorted<br />
by features component and<br />
colored by MST outlier statistic<br />
[Wilkinson 2006]<br />
36
<strong>Scagnostics</strong> – Beschleunigung<br />
●<br />
●<br />
●<br />
Die Laufzeit des Algorithmus beträgt in etwa<br />
O( n p² )<br />
wobei n die Anzahl der Datenpunkte ist und p die Anzahl der Parameter. Besonders bei der<br />
Implementierung der Graphen ist auf einen efizienten Algorithmus zu achten. Die<br />
algorithmische Geometrie beschreibt hierfür optimale Algorithmen.<br />
Beschleunigen läst sich der Algorithmus weiter, indem die Daten in Klasen eingeteilt<br />
werden. Wilkinson et al. schlagen hier hexagonales binning vor. Die Fläche wird in 40x40<br />
Hexagone unterteilt und die Daten werden entsprechend<br />
klasifiziert. Enthalten mehr als 250 Hexagone Datenpunkte<br />
so wird das Giter angepast, bis weniger als 250 Hexagone<br />
Daten enthalten.<br />
Für das Maß Faserigkeit (stringy) mus weiterhin mit den<br />
originalen Daten gearbeitet werden, da kurze Kanten sonst<br />
verloren gehen und das Maß stark verfälscht wird.<br />
[wikipedia]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 37
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
1.Streudiagramme<br />
1.Definition und Erweiterungen<br />
2.<strong>Scagnostics</strong><br />
2.Paralele Koordinaten<br />
1.Definition<br />
2.Sortierverfahren<br />
3.Pargnostics<br />
3.Heatmaps<br />
2.Zeitreihen<br />
3.Text<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 38
Paralele Koordinaten<br />
●<br />
Paralele Koordinaten sind eine weitere Technik zur Darstelung von Datenpunkten mit n<br />
Atributen. Die Koordinatenachsen werden hier nicht orthogonal sondern paralel<br />
angeordnet.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 39
Paralele Koordinaten<br />
●<br />
Für jede gemesene Variable wird eine vertikale Achse angelegt, die so skaliert ist, das sie<br />
den gesamten Wertebereich der Daten abdeckt.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 40
Paralele Koordinaten<br />
●<br />
Jeder Datenpunkt wird nun als Polygonzug in die Koordinatenachsen eingetragen.<br />
name:"chevrolet chevele malibu", mpg:18, cyl:8, dsp:307, hp:130, lbs:3504, acc:12, year:70, origin:1<br />
Grundlagen SciVis – 4.2 Multivariate Daten 41
Paralele Koordinaten<br />
●<br />
Geschieht dies für ale Datenpunkte erhält man die klasische paralele Koordinaten-<br />
Darstelung.<br />
[htp:/eagereyes.org/techniques/paralel-coordinates]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 42
Paralele Koordinaten<br />
●<br />
Für eine efiziente Analyse und Mustererkennung bedarf es ein wenig Training. Hier einige<br />
Beispiele für Strukturen in Streudiagrammen und korespondierenden Mustern in<br />
paralelen Koordinaten.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 43
Paralele Koordinaten<br />
Man kann aus dem Diagramm folgende Informationen direkt ablesen:<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Wie sind die Daten innerhalb einer Variable verteilt?<br />
Gibt es Werte die häufig/selten auftreten?<br />
Welchen Variablen sind kontinuierlich, welche diskret?<br />
Welche Zusammenhänge bestehen mit „benachbarten“ Variablen?<br />
Viele gleich gerichtete Linien weisen auf eine positive Korelation, viele sich kreuzende<br />
Linien auf eine negative Korelation hin.<br />
Wie groß ist die Streuung bei<br />
Verbindungen zwischen „benachbarten“<br />
Variablen?<br />
Grundlagen SciVis – 4.2 Multivariate Daten 44
Paralele Koordinaten – Erweiterungen<br />
Ähnlich wie bei den Streudiagrammen, werden paralele Koordinaten schnel unübersichtlich.<br />
Hier helfen ähnlich Konzepte dabei mehr Struktur erkennbar zu machen.<br />
●<br />
Transparenz und Farbe: Zum einen können die Polygonzüge wieder transparent<br />
gezeichnet werden, so das Überlagerungen deutlicher werden.<br />
Demo: htp:/vis.stanford.edu/protovis/ex/<br />
Grundlagen SciVis – 4.2 Multivariate Daten 45
Paralele Koordinaten – Erweiterungen<br />
●<br />
Wird eine Achse als primäre Achse ausgewählt und ihr ein Farbverlauf, der sich auf die<br />
Datenpunkte überträgt, zugewiesen, so können Korelationen beser gesehen werden.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 46
Paralele Koordinaten – Probleme und Grenzen<br />
Paralele Koordinaten können gut zur Exploration multivariater Datensätze verwendet werden.<br />
Sie haben alerdings auch einige Einschränkungen:<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Bei sehr vielen Datenpunkten kommt es meist zu Verdeckung. Die gesamte Bildfläche<br />
erscheint mehr oder minder einfarbig und es kann kaum Struktur abgelesen werden.<br />
Korelation zwischen zwei Variablen lasen sich in einem Streudiagramm leichter und<br />
genauer bestimmen.<br />
Es können etwa 12 verschiedene Dimensionen analysiert werden. Darüber hinaus wird die<br />
Darstelung und Analyse sehr schwierig.<br />
Die Darstelung zeigt nur eine kleine Auswahl der paarweisen Korelationen (n stat der<br />
n(n-1) Paare in Streudiagrammmatrizen).<br />
Die Anordnung der Achsen spielt eine sehr wichtige Role. Je nach Einstelung können<br />
Merkmale leichter bzw. schwerer oder gar nicht erkannt werden. (Es gibt Forschung im<br />
Bereich der automatischen Achsenanordnung, um dieses Problem zu überwinden.<br />
●<br />
Einige Verfahren zur verbeserten Darstelung sind auf der nächsten Folie gelistet.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 47
Paralele Koordinaten – Erweiterungen<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Clustering: Werden ähnlich verlaufende Kurven in Clustern zusammengefast, kann man<br />
die Visuale Komplexität der Darstelung stark reduzieren.<br />
[Yang, Jing; Peng, Wei; Ward, Mathew O.; Rundensteiner, Elke A. (2003). "Interactive Hierarchical Dimension<br />
Ordering Spacing and Filtering for Exploration of High Dimensional Datasets". IEEE Symposium on Information<br />
Visualization (INFOVIS 2003): 3–4.]<br />
Achsensortierung: Durch die fixe Achsensortierung stelen Par.Koord. nur einen kleinen<br />
Teil des hochdimensionalen Datenraumes äquivalent dar. Interaktive Sortieralgorithmen<br />
sind hier dringend nötig, um ale Kombination betrachten zu können.<br />
Kurvenbasierte Darstelungen: Kurven stelen visuele Kontinuität her und erleichtern es<br />
Muster zu erkennen. Es gibt Erweiterungen, die Paralele Koordinaten durch glate Kurven<br />
anstat durch Polygonzüge verbinden.<br />
[Using Curves to Enhance Paralel Coordinate Visualisations by Martin Graham & Jesie Kennedy, Napier University,<br />
Edinburgh, UK]<br />
Kontinuierliche Darstelungen: Ähnlich dem texturbasierten Ansatz für Streudiagramme<br />
gibt es eine Erweiterung der paralelen Koordinaten, die die kontinuierlich<br />
zugrundeliegende Verteilung approximiert.<br />
[Julian Heinrich, Daniel Weiskopf: Continuous Paralel Coordinates. IEEE Trans. Vis. Comput. Graph. 15(6): 1531-1538<br />
(2009)]<br />
Mustererkennung: Auch für par.Koord. gibt es Methode zur Metanalyse, die abgeleitete<br />
Merkmale berechnen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 48
Paralele Koordinaten – Erweiterungen<br />
Kurvenbasiert<br />
Clustering<br />
Kontinuierliche PK<br />
Grundlagen SciVis – 4.2 Multivariate Daten 49
Achsensortierung<br />
●<br />
●<br />
Wie bereits erwähnt, stelen paralele Koordinate<br />
nur eine kleine Auswahl der möglichen<br />
Variablenpaare dar. Umsortieren der Daten<br />
kann hier helfen<br />
– dem Nutzer eine möglichst gute<br />
Sortierung zu zeigen.<br />
– ihn bei der dynamischen Umsortierung<br />
unterstützen.<br />
Wir wolen uns einen Algorithmus ansehen,<br />
der die Achsen so umsortiert, so das es<br />
zwischen zwei Achsen möglichst wenig<br />
„Stördaten“ (cluter) gibt, also starke<br />
Korelationen bevorzugt werden.<br />
Algorithmus in [Peng 2004]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 50
Achsensortierung<br />
●<br />
●<br />
●<br />
Um eine optimale Achsenkombination zu wählen, berechnen wir zunächst die Güte aler<br />
paarweisen Kombinationen.<br />
Hierzu bestimmen wir die Anzahl der Ausreißer in jedem 2D paralele Koordinaten plot.<br />
Zunächst berechnen wir für jeden Punkt im 2D den Abstand zum nächsten Nachbarn und<br />
normalisieren diesen. Ale Punkte, deren Abstand größer als ein Nutzerspezifizierter Wert<br />
ist, werden nun als Ausreißer deklariert. S outlier<br />
gibt nun die Anzahl der Ausreißer für ein<br />
Achsenpaar an und S avg<br />
= S outlier<br />
/ (n-1) gibt die mitlere Ausreißerzahl an.<br />
Der Cluter pro Paar berechnet sich nun als<br />
●<br />
●<br />
Da S total<br />
, also die Anzahl an Datenpunkten, fix ist, können wir diese zusätzliche Normierung<br />
vernachläsigen.<br />
C = S avg<br />
S total<br />
Den Cluterwert berechnen wir jetzt für jede Paarkombination und speichern sie in einer<br />
Matrix ab.<br />
Die Achsenordnung mit minimalem Cluterwert zu finden ist nun ein<br />
Optimierungsproblem. Testen wir einfach ale Achsen durch, was bei unseren Falzahlen<br />
häufig noch möglich ist, erhalten wir einen Algorithmus der Komplexität O(n*n!)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 51
Achsensortierung – Beispiele<br />
Heinrich, Julian; Stasko, John; Weiskopf, Daniel: The Paralel Coordinates Matrix. In: EuroVis - Short Papers, pp. 37-41, 2012.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 52
Pargnostics<br />
●<br />
●<br />
●<br />
Pargnostics [Dagupta 2010] analysieren die Struktur (auf dem Bildschirm) gezeichneter<br />
paraleler Koord. und verwenden diese Maße um eine günstige Sortierung vorzugeben.<br />
Je nach Aufgabe kann der Nutzer unterschiedlich Sortierungstrategien auswählen.<br />
Folgende Aufgaben werden unterstützt:<br />
– Korelation finden<br />
– Cluster finden<br />
– Zusammenhänge zwischen<br />
Variablen<br />
Verwendet werden Maße zur<br />
Analyse von:<br />
1)Anzahl der Linienschnite<br />
2)Schnitwinkel<br />
3)Paralelität<br />
4)Korelation (Mutual Information)<br />
5)Konvergenz/Divergenz<br />
6)Überdeckung<br />
1) 2) 3) 4) 5) 6)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 53
Pargnostics – Histogramme<br />
●<br />
Für viele Maße werden später pixelbasierte Histogramme verwendet:<br />
– Achsenhistogramme unterteilen die Achsen in Bins und zählen jeweils die ein und<br />
ausgehenden Linien.<br />
– Distanzhistogramme speichern die Steigung der Geradenstücke (Diferenz von<br />
Ausgangs- und Eingangspixel.<br />
– Achsenpaarhistogramme speichern in einer Matrix wie häufig Geradenstücke von<br />
einem Eingangsbin zu einem Ausgangsbin laufen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 54
Pargnostics – Maße<br />
●<br />
●<br />
Anzahl der Linienschnite: Hierzu verwenden wir das Achsenpaarhistogramm.<br />
h−1 h−1<br />
L=∑ ∑<br />
i=0 j=0<br />
h−1 l < j<br />
∑ ∑<br />
k=i+1 l=0<br />
b ij b kl<br />
Teilt man nun durch die maximale Anzahl möglicher Schnite, erhält man den normierten<br />
Wert:<br />
L norm =<br />
2L<br />
n(n−1)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 55
Pargnostics – Maße<br />
●<br />
●<br />
Mitlerer Schnitwinkel: Als Maß zur Beschreibung der Schnitwinkel, verwenden wir den<br />
Median aler Schnitwinkel. Wir verwenden jeweils den kleineren der beiden Schnitwinkel<br />
zwischen zwei Geraden.<br />
Linienschnite werden nur für Geradenpaare berechnet, die im vorhergehenden Test<br />
(schneiden sich überhaupt) positiv getestet werden. Hier können klasische geometrische<br />
Ansätze verwendet werden.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 56
Pargnostics – Maße<br />
●<br />
●<br />
Paralelität: Um die Paralelität zu beschreiben, sehen wir uns die Verteilung der<br />
Steigungen an. Ist diese sehr schmal, deutet dies auf viele ähnliche Steigungen, also hohe<br />
Paralelität hin. Sehr konfuse Verläufe sind durch eine weite Streuung im Distanzhistogramm<br />
markiert.<br />
Als Maß verwenden wir den Interquartilsabstand der Steigungen:<br />
P norm<br />
=1−∣q 75<br />
−q 25<br />
∣<br />
Fig. 5: Distance histograms (left half of each cell below the parallel<br />
coordinates) and angles of crossings (right half) histograms for different<br />
dimensions of the cars data.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 57
Pargnostics – Optimierung<br />
●<br />
●<br />
●<br />
●<br />
Um nun eine möglichst gute Achsensortierung zu finden, wird ein Optimierungsalgorithmus<br />
verwendet. Im Paper wird hierzu ein Branch-and-Bound Ansatz verwendet.<br />
Hierzu benötigen wir eine Zielfunktion, die optimiert werden sol. Die Zielfunktion wird<br />
vom Nutzer spezifiziert und setzt sich aus einer Kombination der möglichen Maße<br />
zusammen. Jede Achsenkombination erhält nun bezüglich dieser Kombination eine Güte,<br />
welche in einer Matrix gespeichert wird.<br />
Grundidee Branch-and-Bound: Mögliche Anordnungen für die paralelen Koordinaten<br />
werden als Baum dargestelt. Der Algorithmus testet nun verschiedene Wege und verwirft<br />
wenigversprechende Bereiche. Als Schätzer für die Güte werden hierbei die<br />
vorberechneten Maße verwendet.<br />
Häufig wird hier einfach die Achse genommen, die den nächsten Abstand minimiert. Es<br />
werden nicht ale Permutationen durchgerechnet, so das eine gute Laufzeit ereicht wird.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 58
Pargnostics – Weine<br />
Grundlagen SciVis – 4.2 Multivariate Daten 59
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
1.Streudiagramme<br />
1.Definition und Erweiterungen<br />
2.<strong>Scagnostics</strong><br />
2.Paralele Koordinaten<br />
1.Definition<br />
2.Sortierverfahren<br />
3.Pargnostics<br />
3.Heatmaps<br />
2.Zeitreihen<br />
3.Text<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 60
Matrixdiagramm – Genexpression<br />
[Zapapa 2005]<br />
Heatmap unsortiert [BiBench]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 62
Matrixdiagramm – Kommunikation<br />
Grundlagen SciVis – 4.2 Multivariate Daten 63
Matrixdiagramm – Infrastruktur<br />
●<br />
Das Sortieren von Heatmaps wurde u.a. stark von Jaques Bertin (Kartograph, 1918-2010)<br />
propagiert. Hier sehen wir ein Beispiel, in dem er verschiedene Orte bezüglich ihrer<br />
Infrastruktur vergleicht.<br />
Innar Liv. 2010. Seriation and matrix reordering methods: An historical overview. Stat. Anal. Data Min. 3, 2 (April 2010), 70-91.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 64
Matrixdiagramm – Infrastruktur<br />
●<br />
Folgende Fragen können in der geordneten Variante nun leicht beantwortet werden:<br />
– Fragen zu bestimmten Spalten und Zeilen (z.B. Gibt es in Gemeinde '08' einen<br />
Bahnhof? Welche Gemeinden haben ein Polizeirevier?)<br />
– Lokale Muster in den Daten (z.B. Wenn es kein Waser gibt, dann gibt es auch keine<br />
weiterführenden Schulen.)<br />
– Globale Muster und Trends (z.B. Welche Veränderungen finden stat, wenn sich eine<br />
Gemeinde von ländlich zu urban wandelt?)<br />
Grundlagen SciVis – 4.2 Multivariate Daten 65
Matrixdiagramm – Verarbeitungskete<br />
[Liv Innar, Opik Rain, Ubi Jaan, Stasko John. Visual matrix explorer for colaborative seriation. WIREs Comp Stat 2012,<br />
4: 85-97.]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 66
Matrixdiagramm – Sortierung<br />
●<br />
●<br />
Die Frage ist nun, wie man Matrixdiagramme sortiert, damit Muster möglichst gut sichtbar<br />
werden. Auch hier gibt es leider keine (stets gültige) optimale Lösung, da eine gute<br />
Sortierung stark von der Fragestelung abhängt.<br />
Grundlegend unterscheidet man die Anzahl der Freiheitsgrade bei der Optimierung:<br />
– Umsortierung der Zeilen ( →Datenpunkte)<br />
– Umsortierung der Spalten ( →Variablen)<br />
– Unabhängige Sortierung von Zeilen und Spalten<br />
– Gemeinsame Sortierung von Zeilen und Spalten. Bond-Energy Algorithmus<br />
→Gruppierung von Blöcken<br />
Grundlagen SciVis – 4.2 Multivariate Daten 67
Matrixdiagramm – Sortierung<br />
●<br />
●<br />
Der clusterbasierte Ansatz berechnet zuerst ein<br />
Clustering auf den Daten. Dieses kann nun als Baum<br />
dargestelt werden (ab einem gewisen Ähnlichkeitswert,<br />
werden Daten als gleich angesehen und gehören zum<br />
selben Cluster). Die Daten werden nun entsprechend der<br />
Clusterordnung im Baum sortiert.<br />
Folgende Zutaten brauchen wir für die Berechnung:<br />
– Ähnlichkeitsmaß: Dieses quantifiziert, wie<br />
(un-)ähnlich zwei Objekt sind.<br />
– Clusteralgorithmus: Ein Algorithmus, der Objekte<br />
gruppiert. Ziel: kleine Unterschiede zwischen<br />
Objekten innerhalb eines Clusters, große<br />
Unterschiede zwischen Elementen verschiedener<br />
Cluster.<br />
[Eisen 98]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 68
Matrixdiagramm – Abstandsmaße<br />
Für zwei Vektoren x = (x 1 ,., x n ) und y = (y 1 ,., y n ) sind gebräuchliche Distanzmaße:<br />
●<br />
Euklidische Distanz<br />
d E ( x , y )=√ ∑ i=1<br />
n<br />
( x i − y i ) 2<br />
●<br />
Manhatan Distanz<br />
d M (x , y )=∑∣x i − y i ∣.<br />
n<br />
i=1<br />
●<br />
Korelationsdistanz<br />
d C ( x , y )=1−<br />
√ ∑ i=1<br />
∑<br />
i=1<br />
( x i −̄x )( y i −̄y )<br />
( x i −̄x ) 2 ∑<br />
i=1<br />
( y i −̄y ) 2 .<br />
Grundlagen SciVis – 4.2 Multivariate Daten 69
Matrixdiagramm – Abstandsmaße<br />
●<br />
●<br />
Euklidische- und Manhatandistanz mesen absolute Abstände zwischen Datenpunkten,<br />
wobei die Manhatandistanz robuster gegenüber Ausreißern ist.<br />
Die Korelationsdistanz mist Trends und relative Abstände. Normiert man die Daten, so<br />
sind Korelations- und Euklidische-Distanz äquivalent.<br />
x = (1.0, 1.0, 1.5, 1.5)<br />
y = (2.5, 2.5, 3.5, 3.5) = 2x + 0.5<br />
z = (1.5, 1.5, 1.0, 1.0)<br />
d kor ( x, y ) = 0 d Euklid ( x, y ) = 3.54<br />
d kor ( x, z ) = 2 d Euklid ( x, z ) = 1<br />
Grundlagen SciVis – 4.2 Multivariate Daten 70
Matrixdiagramm – Hierarchisches Clustering<br />
●<br />
●<br />
●<br />
Mit der Metrik können wir bestimmen, wie weit zwei Datenpunkte voneinander entfernt<br />
sind. Im nächsten Schrit berechnen wir durch ein hierarchisches Clustering, welche Punkte<br />
ähnlicher sind, als andere.<br />
Im Unterschied zum Standardclustering hat das hierarchische Clustering kein vom Nutzer<br />
spezifiziertes Abbruchkriterium (z.B. Anzahl der gesuchten Cluster) sondern verbindet<br />
zumeist Botom-Up die Punkte miteinander in einer Hierarchie von Clustern.<br />
Wichtiges Kriterium für das Clustering ist die<br />
Art, wie Datenpunkte verbunden werden. Man<br />
unterscheidet hier u.a.<br />
– Complete linkage: größte Distanz<br />
– Average linkage: mitlere Distanz<br />
– Single linkage: kürzeste Distanz<br />
Complete linkage findet eher kompakte/<br />
sphärische Cluster, single linkage kann zu<br />
langgezogenen Clustern führen.<br />
[wikipedia]<br />
71
Matrixdiagramm – Hierarchisches Clustering<br />
●<br />
●<br />
●<br />
Der Abstand von den Blätern zu einem inneren Knoten im Baum repräsentiert den<br />
Abstand der beiden Kinder des inneren Knoten.<br />
Von den n(n-1)/2 möglichen paarweisen Kombinationen von benachbarten Datenpunkten<br />
stelen wir hier nur einen kleinen Auschnit dar (optimiert nach Ähnlichkeit von<br />
Nachbarn). Ist nun ein Punkt sehr ähnlich zu drei oder mehr anderen, kann dies nicht mehr<br />
dargestelt werden.<br />
Für die Darstelung der Matrix basierend auf<br />
dem Clustering gibt es nun 2 n-1 Möglichkeiten<br />
(n-1 innere Knoten, an jedem können die<br />
Kinder vertauscht werden).<br />
●<br />
Mehr und vertiefte Information zum Clustering<br />
gibt es in der Machine Learning Vorlesung.<br />
[wikipedia]<br />
72
Matrixdiagramm – Beispiel<br />
●<br />
Analyse von Zelwachstum. (Clustered display of data from time course of serum<br />
stimulation of primary human fibroblasts [Eisen 1998]. )<br />
●<br />
●<br />
(A) cholesterol biosynthesis, (B) the cel cycle, (C) the immediate–early response, (D)<br />
signaling and angiogenesis, and (E) wound healing and tisue remodeling<br />
Bemerkenswert ist, das uniforme Blöcke von Genen entstehen, die zusammen aktiv sind.<br />
Die Korektheit der Ergebnise wurde geprüft, indem die Daten in drei Gruppen aufgeteilt<br />
wurden, separat visualisiert wurden und die gleichen Ergebnise herauskamen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 73
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
2.Zeitreihen<br />
1.Algemeines<br />
2.Kalendervisualisierung<br />
3.Themenflus und geschichtete Diagramm<br />
3.Text<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 74
Zeitabhängige Daten<br />
●<br />
Bei der Visualisierung von zeitabhängigen Daten, mus man sich zunächst einmal<br />
Gedanken darüber machen, welchen Typ man genau hat. Hierzu drei Beispiele:<br />
Datensatz 1:<br />
t 0 , Sonnenintensität<br />
t 1 , Sonnenintensität<br />
t 2 , Sonnenintensität<br />
…<br />
t n , Sonnenintensität<br />
Datensatz 2:<br />
Tag 1: 5 Zeitungsartikel über Fußbal, 7 Zeitungsartikel über<br />
Politik, 2 Zeitungsartikel über Ernährung<br />
Tag 2: .<br />
Tag n: .<br />
Datensatz 3:<br />
Antonia wurde 1992 in Waldorf geboren<br />
1994 zog sie nach Düseldorf<br />
2001 machte sie Urlaub in China<br />
2010 zog sie nach Berlin<br />
2013 wird sie für 6 Monate nach Südamerika reisen<br />
Grundlagen SciVis – 4.2 Multivariate Daten 76
Zeitabhängige Daten<br />
●<br />
Wichtige Kriterien zur Unterscheidung von Zeitreihen sind [Aigner 2008]<br />
– Linear Zeit vs. zyklische Zeit: Solen ale Zeitpunkte nebeneinander Dargestelt<br />
werden, wie etwa in einem Börsendiagramm, oder gibt es zyklische Ereignise, wie<br />
etwa in der Meteorologie, die verdeutlicht werden solen.<br />
– Zeitpunkte vs. Zeitinterval: Solen einzelne Mespunkte dargestelt werden, z.B.<br />
Zeitpunkt eines Ereignises, oder geht es um die Analyse von Intervalen mit festem<br />
Anfangs und Endpunkt, z.B. Stauzeiten auf der Autobahn.<br />
– Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Wir ein Prozes analysiert,<br />
der chronologisch Strukturiert wird, z.B. Tagesablauf einer Person, oder solen<br />
verschiedene Szenarien durchgespielt und verglichen werden, z.B. Feuersimulation<br />
und Verhalten von Menschen, oder sol der gleiche Zeitabschnit aus<br />
unterschiedlichen Perspektiven beleuchtet werden, z.B. Augenzeugenschilderungen<br />
bei Überfal.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 77
Zeitabhängige Daten<br />
●<br />
Lineare Zeit vs. Zyklische Zeit: Solen Muster erkannt werden, ist nicht nur darauf zu<br />
achten, das die richtige Technik verwendet wird, sondern auch, das sie korekt<br />
parametrisiert ist.<br />
In untenstehendem Beispiel wurden Influenzafalzahlen in Norddeutschland visualisiert. Im<br />
Balkendiagramm sind Muster nur schwer zu erahnen (auch weil eine korekte<br />
Achsenbeschriftung fehlt). Im mitleren Diagramm (Spiraldiagramm) wurde ein Zyklus von<br />
27 Tagen angenommen und Muster sind nicht klar erkennbar. Bei einem Zyklus von 28<br />
Tagen (= 4 Wochen) wird der große Anzahl an Falzahlen am Montag deutlich.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 78
Zeitabhängige Daten<br />
●<br />
Zeitpunkte vs. Zeitinterval: Bei Intervaldaten geht es häufig um die Darstelung der<br />
zeitlichen Dauer. Ein weiterer wichtiger Aspekt ist hierbei die Darstelung von Unsicherheit,<br />
da etwa gerade bei Planungszeiten oft nicht genau gesagt werden kann, wie lange etwas<br />
exakt dauern wird.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 79
Zeitabhängige Daten<br />
●<br />
Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für verzweigende<br />
zeitabhängige Visualisierungen sind die WorldLines, die unterschiedliche<br />
Flutungszenarien darstelen.<br />
Waser, J.; Fuchs, R.; Ribicic, H.; Schindler, B.; Bloschl, G.; Groler, E.; , "World<br />
̌ ̌ ̈ ̈<br />
Lines," Visualization and Computer Graphics, IEEE Transactions on , vol.16,<br />
no.6, pp.1458-1467, Nov.-Dec. 2010<br />
Grundlagen SciVis – 4.2 Multivariate Daten 80
Zeitabhängige Daten<br />
●<br />
Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für paralele Zeit ist<br />
die ThemeRiver (Themenflus)-Darstelung, welche die Relevanz verschiedener Größen<br />
(Themen, Kinofilme, etc) anzeigt und ihre zeitliche Entwicklung paralel darstelt.<br />
htp:/www.nytimes.com/interactive/2008/02/23/<br />
movies/20080223_REVENUE_GRAPHIC.html<br />
Grundlagen SciVis – 4.2 Multivariate Daten 81
Kalendervisualisierung<br />
●<br />
Bei der Kalendervisualisierung [vanWijk 1999] solen Muster in univariaten Zeitreihendaten<br />
gefunden werden. Diese Muster sind häufig auf verschiedenen Skalen zu finden (Tage,<br />
Wochen, Saison) und haben einen Bezug zum Kalender (hier Stromverbrauch).<br />
Grundlagen SciVis – 4.2 Multivariate Daten 82
Kalendervisualisierung<br />
●<br />
Visualisierung der Tagesprofile im 3D ist nicht sehr hilfreich.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 83
Kalendervisualisierung – Clustering<br />
●<br />
Die Kalendervisualisierung nutzt ebenfals einen Clusteransatz, um Daten zu aggregieren,<br />
ohne dabei wichtige Details zu verlieren, wie es etwa geschehen würde, wenn man die<br />
Daten miteln würde (z.B. über ale Montage, pro Woche, pro Monat, etc).<br />
●<br />
Folgende Metriken clustern nach bestimmten Merkmalen in den Zeitreihen y und z:<br />
– Euklidischer Abstand →robustes generisches Maß<br />
– Normalisierter Euklidischer Abstand →ähnliche Form<br />
d E = 1 N √ ∑ i ( y i −z i ) 2 d NE = 1 N √ ∑ i ( y i / y max −z i / z max ) 2<br />
– Mitlere Diferenz-bereinigter Abstand →ähnliche Form mit Ofset<br />
d sh = 1 N √ ∑ i ( y i −z i −Δ) 2 Δ= 1 N ∑ i ( y i −z i )<br />
– Maximalabstand →Vergleich von Spitzenwerten<br />
d max<br />
=∣y max<br />
−z max<br />
∣<br />
Grundlagen SciVis – 4.2 Multivariate Daten 84
Kalendervisualisierung – Beispiel<br />
Grundlagen SciVis – 4.2 Multivariate Daten 85
Kalendervisualisierung – Beispiel<br />
Several conclusions can be drawn from this image. We see that:<br />
●<br />
Ofice hours are folowed strictly. Most people arivebetween 8:30 and 9:00 am, and leave<br />
between 4:00 and 5:00 pm. Furthermore, in the morning the number of employees present<br />
is slightly higher than in the afternoon.<br />
●<br />
On Fridays and in the summer fewer people are present (cluster 722);<br />
●<br />
On Fridays in the summer even fewer people are present (cluster 718);<br />
●<br />
●<br />
●<br />
In the weekend and at holidays only very few people are working (cluster 710): security<br />
and fire brigade;<br />
Holidays in the Netherlands in 1997 were January 1st, March 28th, March 31st, April 30th,<br />
May 5th,May 8th, May 19th, December 25th and 26th.<br />
School vacations are visible in Spring (May 3rd toMay 11th), in Autumn (October 11th to<br />
October 19th), and in Winter (December 21th to December 31st);<br />
●<br />
Many people take a day of after a holiday (cluster 721);<br />
●<br />
On December 5th many people left at 4:00 PM. Dutch people wil immediately know the<br />
explanation: On this day we celebrate Santa Claus and are alowed to leave earlier!<br />
Grundlagen SciVis – 4.2 Multivariate Daten 86
Paralele Zeitreihen<br />
●<br />
Eine Möglichkeit paralele Ereignise darzustelen, ist die Zeitreihendaten als geschichtete<br />
Balkendiagrammen zu visualisieren. Jeder Balken steht hierbei für einen Zeitpunkt und ist<br />
aufgegliedert in die paralelen Ereignise, welche nach Bedeutung skaliert sind. Beispiel:<br />
Häufigkeit von Schlagwörtern in Zeitungsartikeln.<br />
87
Paralele Zeitreihen<br />
●<br />
●<br />
Probleme die hierbei auftreten sind:<br />
– Ein Thema ist nur schwer nachzuverfolgen (Anfang, Ende, Höhenvergleich).<br />
– Die Labels werden unübersichtlich, da die Farben nicht unterschieden werden<br />
können.<br />
Der Themenflus behebt diese Probleme, indem er zeitliche Kontinuität schaft und<br />
Themen miteinander verbindet.<br />
88
Themenfluss (ThemeRiver, Steamgraph)<br />
●<br />
●<br />
Ziel dieser Visualisierung ist die Beantwortung folgender Fragen:<br />
– Was sind die wichtigsten Themen zu einem bestimmten Zeitpunkt?<br />
– Wann hat ein Thema begonnen und wann geendet?<br />
– Welche Bereiche sind andersartig/interesant/aufalend?<br />
– Wann war ein bestimmtes Thema am wichtigsten?<br />
– Welche Themen traten zu welchen Zeitpunkt gleichzeitig auf?<br />
– Wie wichtig sind die verschiedenen Themen im Verhältnis zueinander?<br />
Nutzer haben mit dieser Visualisierung die folgenden Probleme:<br />
– Exakte Werte können nicht abgelesen werden.<br />
– Der zeitliche Vergleich ist zum Teil schwierig, da die Kurven sehr „wackelig“ sind.<br />
– Der Themenflus trägt absolute Werte ab. Hierdurch entstehen starke Verengungen<br />
an den Wochenenden, die iritierend sein können.<br />
– Die Sortierung der einzelnen Elemente ist nicht klar und hat keinen semantischen<br />
Hintergrund.<br />
89
NameVoyager<br />
●<br />
●<br />
Der NameVoyager umgeht einige dieser Probleme indem er<br />
– die Themen (hier Namen) alphabetisch sortiert.<br />
– eine fixe Basislinie verwendet und Achsen, sowie ein Giter einblendet.<br />
– Eine divergierende Farbgebung (zwei Farben: rosa für Mädchen, blau für Jungen)<br />
verwendet und die Heligkeit der Farbe durch die Häufigkeit bestimmt wird.<br />
Link zu NameVoyager:<br />
htp:/www.babynamewizard.com/voyager<br />
Grundlagen SciVis – 4.2 Multivariate Daten 90
Name Voyager<br />
Namen mit Jo*<br />
Namen mit Lat*<br />
[Baby Names, Visualization, and Social Data Analysis.<br />
Martin Watenberg. InfoVis 2005.]<br />
Namen mit O*<br />
Grundlagen SciVis – 4.2 Multivariate Daten 91
Themenfluss (ThemeRiver, Steamgraph)<br />
●<br />
●<br />
●<br />
Mit dem Design von geschichteten Graphen<br />
beschäftigt sich das Paper „Stacked Graphs –<br />
Geometry & Aesthetics“ [Byron 2008]<br />
Probleme die behandelt werden sind:<br />
– Wackler in den Kurven, die nicht in den<br />
Daten sind.<br />
– Unterschiedliche Wahrnehmung<br />
gleicher Werte in Abhängigkeit von der<br />
Steigung.<br />
– Lesbarkeit der einzelnen Schichten.<br />
– Ästhetik<br />
Diskutiert werden folgende Aspekte:<br />
– die Gesamtsilhouete<br />
– die Ordnung der Variablen<br />
– das Labeling<br />
– die Farbwahl<br />
[Filme des Sommers 2007 – Byron 2008]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 92
Gestapelte Graphen – Silhouete<br />
●<br />
●<br />
●<br />
Die Silhouete eines gestapelten Graphen wird durch<br />
die Basislinie g 0<br />
bestimmt, also der Unterkante des<br />
Graphen.<br />
Die einzelnen Zeitreihen werden hierfür als reelwertige<br />
nichtnegative stetig-diferenzierbare Funktionen f 1 , …,<br />
f n modeliert, welche auf das Interval [0,1] skaliert<br />
wurden.<br />
Die Oberkante der i-ten Funktion ist nun durch<br />
folgende Funktion g i gegeben:<br />
i<br />
g i =g 0 + ∑ f i<br />
j=1<br />
●<br />
Wählt man g0 = 0 erhält man das übliche geschichtete<br />
Liniendiagramm.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 93
Gestapelte Graphen – Silhouete<br />
●<br />
Weitere Möglichkeiten für die Berechnung der Basislinie sind:<br />
– ThemeRiver<br />
g 0 =− 1 2 ∑ i=1<br />
n<br />
f i<br />
→Symmetrisch um x-Achse, kleinster Abstand<br />
von der x-Achse, minimale Steigungen der Randkurven.<br />
– Wackler<br />
g 0 =− 1 ∑ n<br />
n1 i=1<br />
n−i1f i<br />
→Kleine Änderungen in den lokalen<br />
Ableitungen der einzelnen Ströme.<br />
– Gewichtete Wackler<br />
g' 0 =− 1<br />
n<br />
∑<br />
∑ f i i=0<br />
i−1<br />
(0.5 f i '+∑<br />
j=1<br />
f j ')f i<br />
→Kleine Änderungen in den lokalen<br />
Ableitungen der einzelnen Ströme.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 94
Gestapelte Graphen – Farbgebung<br />
●<br />
●<br />
Die Farbgebung kann die Wahrnehmung verschiedene Themen sehr stark beeinflusen. Zu<br />
beachten sind:<br />
– Wichtige Themen (Integral über die Funktion) solten dunklere/kräftigere Farben<br />
erhalten, so das sie schnel aufalen.<br />
– Kontrast zwischen benachbarten Themen solte groß genug sein, so das sie<br />
unterschieden werden können.<br />
– Das Gesamtbild solte trotzdem harmonisch bleiben.<br />
– Schlusendlich solte die Graphik auch noch gut ausehen.<br />
Byron 2008 verwendet die rechts abgebildete Farbkodierung.<br />
Sie unterstützt folgende Aspekte:<br />
– Beginn eines Themas ist farblich kodiert.<br />
●<br />
●<br />
Kalte Farben: bekannte Themen/Musiker<br />
Warme Farben: Hot Topics, neue Themen<br />
– Sinkende Sätigung mit sinkender Popularität.<br />
– Ausgewählte natürliche Farben und speziel<br />
designte Übergänge für eine gute Optik.<br />
– Nichtlineare Übergänge um neue Themen hervorzuheben.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 95
Gestapelte Graphen – Labeling<br />
●<br />
●<br />
●<br />
Bei der Beschriftung der einzelnen Themen mus auf folgende Aspekte geachtet werden:<br />
– Das Label sol visuelen Bezug zu den Daten haben.<br />
– Das Label überlagert keine anderen Labels oder Themen.<br />
– Das Label lenkt nicht von der Graphik ab.<br />
Der Algorithmus zur Detektion der besten<br />
Labelposition ist nicht angegeben (brute-force<br />
Ansatz). Denkbar ist etwa, Bereiche mit maximalem<br />
Integral zu suchen.<br />
Alternativ können standardmäßig auch keine<br />
Labels gezeigt werden und nur eingeblendet<br />
werden, wenn der Nutzer mit der Maus über ein<br />
Thema fährt.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 96
Gestapelte Graphen – Ordnung der Variablen<br />
●<br />
●<br />
Einen wichtigen Einfluß auf die<br />
Gesamterscheinung hat auch die Ordnung<br />
der Variablen.<br />
Mögliche Sortierungen sind:<br />
– Alphabetisch: Themen werden<br />
alphabetisch sortiert.<br />
→Viele Wackler und stark hervorstehende<br />
Bereiche<br />
– Anfangsdatum: Das neueste Thema ist<br />
am weitesten oben.<br />
→iritierendes Muster<br />
– Inside out: Je füher ein Thema beginnt,<br />
desto weiter rutscht es in die Mite des<br />
Datenstroms. Neuere Themen fügen<br />
sich dann links und recht an.<br />
→Starke Auschläge (meist am Anfang<br />
erscheinen am Rand) sind weniger<br />
iritierend und sorgen für weniger<br />
Wackler, Dirfts werden verhindert<br />
Grundlagen SciVis – 4.2 Multivariate Daten 97
Gestapelte Graphen – Ordnung der Variablen<br />
Sortieralgorithmus<br />
●<br />
●<br />
●<br />
●<br />
Berechne das Gewicht eines jeden Themas (Integral über die Zeit).<br />
Sortiere nach Anfangszeit.<br />
Füge das älteste Thema in eine Liste ein.<br />
Füge jedes weitere Thema ein.<br />
– Am Anfang der Liste, wenn die Summe der Gewichte der Elemente nach dem ersten<br />
Element größer ist, als die aler Elemente vor ihm.<br />
– Am Ende der Liste, sonst.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 98
Inhaltsverzeichnis<br />
4.Skalardaten<br />
1.Diagramme<br />
2.InfoVis<br />
1.Multivariate Daten<br />
2.Zeitreihen<br />
3.Text<br />
1.Wortwolken<br />
3.SciVis<br />
Grundlagen SciVis – 4.2 Multivariate Daten 99
Darstelung von Texten<br />
Association football, more commonly known as football or soccer (etymology), is a team sport played between two<br />
teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3]<br />
The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The<br />
object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only<br />
players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball<br />
into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by<br />
the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into<br />
extra time and/or a penalty shootout, depending on the format of the competition.<br />
The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of<br />
the Game created the foundations for the way the sport is played today. Football is governed internationally by the<br />
Fédération Internationale de Football Association (International Federation of Association Football), commonly known<br />
by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four<br />
years.[4]<br />
Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />
spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the<br />
other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals<br />
at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw.<br />
Each team is led by a captain.<br />
The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms<br />
during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move<br />
the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players<br />
are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside<br />
position.<br />
In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as<br />
by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing<br />
goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the<br />
opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a<br />
free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the<br />
referee. After a stoppage, play recommences with a specified restart.[6]<br />
Frequency and top words :<br />
Word # Frequency Rank<br />
game 33 2.50% 1<br />
ball 32 2.40% 2<br />
players 32 2.40% 2<br />
goal 26 2.00% 3<br />
play 22 1.70% 4<br />
time 20 1.50% 5<br />
football 19 1.40% 6<br />
team 18 1.40% 6<br />
may 18 1.40% 6<br />
laws 17 1.30% 7<br />
At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English<br />
Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player<br />
positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main<br />
categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their<br />
opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to<br />
pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern<br />
them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the<br />
player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield<br />
players may be arranged in any combination. The number of players in each position determines the style of the<br />
team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the<br />
reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific<br />
position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of<br />
a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the<br />
team\'s manager.[10]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 100
Darstelung von Texten<br />
Association football, more commonly known as football or soccer (etymology), is a team sport played between two<br />
teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3]<br />
The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The<br />
object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only<br />
players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball<br />
into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by<br />
the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into<br />
extra time and/or a penalty shootout, depending on the format of the competition.<br />
The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of<br />
the Game created the foundations for the way the sport is played today. Football is governed internationally by the<br />
Fédération Internationale de Football Association (International Federation of Association Football), commonly known<br />
by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four<br />
years.[4]<br />
Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />
spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the<br />
other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals<br />
at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw.<br />
Each team is led by a captain.<br />
The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms<br />
during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move<br />
the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players<br />
are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside<br />
position.<br />
Frequency and top words :<br />
Word # Frequency Rank<br />
game 33 2.50% 1<br />
ball 32 2.40% 2<br />
players 32 2.40% 2<br />
goal 26 2.00% 3<br />
play 22 1.70% 4<br />
time 20 1.50% 5<br />
football 19 1.40% 6<br />
team 18 1.40% 6<br />
may 18 1.40% 6<br />
laws 17 1.30% 7<br />
In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as<br />
by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing<br />
goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the<br />
opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a<br />
free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the<br />
referee. After a stoppage, play recommences with a specified restart.[6]<br />
At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English<br />
Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player<br />
positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main<br />
categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their<br />
opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to<br />
pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern<br />
them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the<br />
player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield<br />
players may be arranged in any combination. The number of players in each position determines the style of the<br />
team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the<br />
reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific<br />
position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of<br />
a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the<br />
team\'s manager.[10]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 101
Wortwolke/-mosaik (TagCloud, Wordle)<br />
●<br />
●<br />
In einer Schlagwortwolke wird eine List von Schlagwörtern flächig<br />
dargestelt. Wichtige Wörter werden zumeist durch Skalierung<br />
hervorgehoben.<br />
Skalierung der Wörter nach Häufigkeit:<br />
mit<br />
a= n i−n min<br />
n max −n min<br />
s i<br />
=1−a⋅s min<br />
a⋅s max<br />
– n i<br />
: Häufigkeit des aktuelen Wortes<br />
– n min<br />
: Häufigkeit des seltensten Wortes<br />
– n max<br />
: Häufigkeit des häufigsten Wortes<br />
– s min<br />
: kleinste Schriftgröße<br />
– s max<br />
: größte Schriftgröße<br />
●<br />
Wordle: htp:/www.wordle.net<br />
Grundlagen SciVis – 4.2 Multivariate Daten 102
Wortwolke (TagCloud, Wordle)<br />
●<br />
Die einfachste Art dieser Darstelung ist die Wortwolke. Hier werden die Worte<br />
alphabetisch in Zeilen angeordnet. Die Größe eines Wortes entspricht wie gehabt seiner<br />
Häufigkeit.<br />
●<br />
●<br />
Vorteile:<br />
– Leicht zu implementieren<br />
– Leichtes Suchen nach bestimmten<br />
Wörtern<br />
Nachteile:<br />
– Platz wird nicht efizient ausgenutzt<br />
– Position von Wörtern kann nur wenig<br />
beeinflust werden<br />
[wikipedia: Häufigsten Schlagwörter<br />
bei Flickr]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 103
Wortmosaik (TagCloud, Wordle)<br />
●<br />
Im Wortmosaik kann die Position der einzelnen Wörter frei bestimmt werden. Häufig<br />
werden Optimierungsalgorithmen eingesetzt, die für eine kompakte Darstelung sorgen.<br />
●<br />
Vorteile:<br />
– Besere Ausnutzung des Platzes<br />
– Meist optisch ansprechender<br />
– Text kann in eine bestimmte<br />
Form eingepast werden<br />
●<br />
Nachteile:<br />
– Rechenaufwand<br />
– Suche nach bestimmten Wörtern<br />
sehr umständlich<br />
[InfoVis:Wiki]<br />
[http://manyeyes.alphaworks.ibm.com/manyeyes/]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 104
Demo Wordle<br />
●<br />
●<br />
Programm: Wortwolkengenerator Wordle unter<br />
htp:/www.wordle.net/<br />
Text: 1. Mose – Schöpfungsgeschichte (Bibel) unter<br />
htp:/www.bibel-online.net/buch/01.1-mose/1.html#1,1<br />
Grundlagen SciVis – 4.2 Multivariate Daten 105
Wortwolke Algorithmus<br />
●<br />
Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />
(z.B. htp:/fivefilters.org/term-extraction/)<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Grundlagen SciVis – 4.2 Multivariate Daten 106
Wortwolke Algorithmus<br />
●<br />
●<br />
Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />
Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Grundlagen SciVis – 4.2 Multivariate Daten 107
Wortwolke Algorithmus<br />
●<br />
●<br />
●<br />
Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />
Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />
Man sortiere die Wörter nach absteigender Bedeutung.<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Sonne<br />
Badesee<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 108
Wortwolke Algorithmus<br />
●<br />
●<br />
●<br />
●<br />
Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />
Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />
Man sortiere die Wörter nach absteigender Bedeutung.<br />
Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Badesee<br />
Eis<br />
Fussball<br />
Heidelberg<br />
Sommer<br />
Sonne<br />
Urlaub<br />
Wasser<br />
Sonne<br />
Badesee<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 109
Wortwolke Algorithmus<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />
Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />
Man sortiere die Wörter nach absteigender Bedeutung.<br />
Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />
Innerhalb eines begrenzten Bereiches bestimmt man für jedes Wort eine zufälige<br />
Startposition.<br />
Sonne<br />
Badesee<br />
7<br />
1<br />
Fussball<br />
5<br />
Urlaub<br />
Wasser<br />
2<br />
4<br />
8<br />
6<br />
3<br />
Sommer<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 110
Wortwolke Algorithmus<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Badesee<br />
7<br />
1<br />
Fussball<br />
5<br />
Urlaub<br />
Wasser<br />
4<br />
Sonne<br />
2<br />
8<br />
6<br />
3<br />
Sommer<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 111
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
Badesee<br />
7<br />
1<br />
Fussball<br />
5<br />
Urlaub<br />
Wasser<br />
4<br />
Sonne<br />
2<br />
8<br />
6<br />
3<br />
Sommer<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 112
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
4<br />
Sonne<br />
5<br />
Badesee<br />
2<br />
8<br />
6<br />
3<br />
Grundlagen SciVis – 4.2 Multivariate Daten 113
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
4<br />
Sonne<br />
5<br />
Badesee<br />
2<br />
8<br />
6<br />
3<br />
Grundlagen SciVis – 4.2 Multivariate Daten 114
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
4<br />
Sonne<br />
5<br />
2<br />
Badesee<br />
8<br />
6<br />
3<br />
Grundlagen SciVis – 4.2 Multivariate Daten 115
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Fussball<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
4<br />
Sonne<br />
5<br />
2<br />
Badesee<br />
8<br />
6<br />
3<br />
Grundlagen SciVis – 4.2 Multivariate Daten 116
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Urlaub<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
4<br />
Sonne<br />
5<br />
2<br />
Fussball 3<br />
Badesee<br />
8<br />
6<br />
Grundlagen SciVis – 4.2 Multivariate Daten 117
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Wasser<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
Urlaub<br />
4<br />
Sonne<br />
5<br />
2<br />
Fussball 3<br />
Badesee<br />
8<br />
6<br />
Grundlagen SciVis – 4.2 Multivariate Daten 118
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Sommer<br />
Eis<br />
Heidelberg<br />
7<br />
Wasser 5<br />
Urlaub<br />
4<br />
Sonne<br />
2<br />
Fussball 3<br />
Badesee<br />
8<br />
6<br />
Grundlagen SciVis – 4.2 Multivariate Daten 119
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
7<br />
Wasser 5<br />
Urlaub<br />
4<br />
Sonne<br />
2<br />
Fussball 3<br />
Badesee<br />
Sommer<br />
8<br />
6<br />
Eis<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 120
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Eis 7<br />
Wasser 5<br />
Urlaub<br />
2<br />
4<br />
Sonne<br />
Fussball 3<br />
Badesee<br />
Sommer<br />
8<br />
6<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 121
Wortwolke Algorithmus<br />
●<br />
●<br />
Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />
wurde.<br />
Es ergeben sich nun zwei Fäle:<br />
– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />
– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />
Position.<br />
Eis<br />
Sonne<br />
Wasser<br />
Urlaub<br />
Fussball<br />
Badesee<br />
Sommer<br />
Heidelberg<br />
Grundlagen SciVis – 4.2 Multivariate Daten 122
Wortwolken – Implementierung<br />
●<br />
●<br />
Überdeckungstest: Um zu Testen, ob ein Wort die bereits dargestelten überdeckt, gibt es<br />
zwei wesentliche Ansätze:<br />
– Geometrische Schnitberechnung zwischen Zeichen: Jedes bereits Dargestelte<br />
Zeichen wird mit den Buchstaben des neuen Wortes geschniten.<br />
– Pixelbasierte Analyse zwischen gerenderten Wörtern: Ale bereits dargestelten<br />
Wörter sind in einer Textur gespeichert. Das neue Wort wird ebenfals in einer Textur<br />
gespeichert und es wird nun pixelweise verglichen, ob die vom Wort benötigten Pixel<br />
noch frei sind.<br />
Der pixelbasierte Ansatz ist hier wesentlich efizienter, da er unabhängig von der Anzahl<br />
der Wörter ist und<br />
Grundlagen SciVis – 4.2 Multivariate Daten 123
Wahrnehmung von Wortwolken<br />
●<br />
Interpretation: Manchen Betrachter fält die Interpretation der Darstelung schwer.<br />
●<br />
Größe von Wörtern: Große Wörter ziehen mehr Aufmerksamkeit auf sich als kleine<br />
Wörter. Dies wird auch beeinflust durch Anzahl der Buchstaben und nebenstehende<br />
Wörter.<br />
●<br />
Position: Wörter im Zentrum der Wortwolke ziehen mehr Aufmerksamkeit auf sich als<br />
solche am Rand.<br />
●<br />
Informationsaufnahme: Die meisten Betrachter analysieren eher die Struktur, als das sie<br />
einzelne Wörter lesen.<br />
●<br />
Datenerkundung: Es ist eher schwierig gezielt nach Wörtern in einer Wortwolke zu<br />
suchen.<br />
●<br />
[Lohmann, S., Ziegler, J., Tetzlaf, L. Comparison of<br />
Tag Cloud Layouts: Task-Related Performance and<br />
Visual Exploration, T. Gros et al. (Eds.): INTERACT<br />
2009, Part I, LNCS 5726, pp. 392–404, 2009.]<br />
Grundlagen SciVis – 4.2 Multivariate Daten 124
Wortwolke – Probleme und Lösungsansätze<br />
●<br />
Mangelnde Interaktivität: Wortwolken werden zumeist einmal berechnet und müsen<br />
dann so interpretiert werden, wie sie sind.<br />
→ Erweiterung um eine Zoomfunktion, die es dem Nutzer ermöglicht minimale<br />
Häufigkeitswerte anzugeben. (Achtung: Kohärenz mus gegeben bleiben)<br />
●<br />
Keine zeitliche Abgrenzung: Die zeitliche Information die in Textdaten steckt, welche<br />
über einen langen Zeitraum aufgezeichnet wurden werden normalerweise nicht<br />
abgebildet (Häufigkeit wird relativ zum Gesamtbestand berechnet).<br />
→ Zeitpunkt des ersten Auftrits wird mitgespeichert und in die Skalierung<br />
hineingerechnet. (Unterscheidung zwischen Al-Time-Favourites und zeitlich begrenzten<br />
Häufungen.)<br />
●<br />
Keine semantische Anordnung: Begriflich ähnliche Wörter sind räumlich nicht nah<br />
angeordnet.<br />
→Verfahren aus der Computerlinguistik einbeziehen um zusammengehörige Wörter zu<br />
identifizieren und benachbart anzuordnen.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 125
Literatur<br />
●<br />
H. Reijner, Panopticon Software. The Development of the Horizon Graph. Vis Workshop, 2008.<br />
●<br />
Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.<br />
●<br />
●<br />
●<br />
●<br />
●<br />
L. Wilkinson, A. Anand, R. Grosman: High-Dimensional Visual Analytics: Interactive Exploration Guided by<br />
Pairwise Views of Point Distributions. In: IEEE Transactions on Visualization and Computer Graphics. 12, Nr. 6,<br />
2006, S. 1363-1372.<br />
Wei Peng, Mathew O. Ward, and Elke A. Rundensteiner. 2004. Cluter Reduction in Multi-Dimensional Data<br />
Visualization Using Dimension Reordering. In Proceedings of the IEEE Symposium on Information<br />
Visualization (INFOVIS '04). IEEE Computer Society, Washington, DC, USA, 89-96.<br />
Eisen, M., Spelman, P., Brown, P., and Botstein, D. (1998), „Cluster analysis and display of genome-wide<br />
expresion paterns," Proceedings of the National Academy of Sciences, 95, 14863-14868.<br />
A. Dasgupta, R. Kosara. Pargnostics: screen-space metrics for paralel coordinates. IEEE Trans Vis Comput<br />
Graph. 2010;16(6):1017-26.<br />
Lee Byron and Martin Watenberg. 2008. Stacked Graphs – Geometry & Aesthetics. IEEE Transactions on<br />
Visualization and Computer Graphics 14, 6 (November 2008), 1245-1252.<br />
Grundlagen SciVis – 4.2 Multivariate Daten 126