11.03.2014 Aufrufe

Scagnostics - IWR

Scagnostics - IWR

Scagnostics - IWR

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.2 Skalardaten – Multivariate Daten<br />

Vorlesung: Mo, 11:00 – 13:00, INF 368 – 432<br />

Do, 11:00 – 13:00, INF 350 – OMZ, U014<br />

Übung: Mo, 9:00 – 11:00, INF 350 – OMZ, U011<br />

JProf. Dr. Heike Leite – htp:/www.iwr.uni-heidelberg.de/groups/CoVis/


Inhaltsverzeichnis<br />

1.Einführung<br />

2.Datentypen, Datenrepräsentation und Visualisierungspipeline<br />

3.Wahrnehmung<br />

4.Skalardaten<br />

5.Statistische Graphiken<br />

6.Interaktion und Datenexploration<br />

7.Graphen<br />

8.Vektordaten<br />

Grundlagen SciVis – 4.2 Multivariate Daten 2


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.<strong>Scagnostics</strong><br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 3


Kleine Vielfache (Smal Multiples)<br />

[Christian Huygens, Systema Saturnium (The Hague, 1659)]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 4


Kleine Vielfache (Smal Multiples)<br />

[A. Ghizzo et al. Stability of Bernstein-Greene-Kruskal Plasma Equilibria:<br />

Numerical Experiments Over a Long Time. Physics of Fluids, 31:72-82, 1988]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 5


Kleine Vielfache<br />

Zeichnungen eines in Stein gehauenen<br />

Reliefs: Je nach Dokumentator und<br />

zeitlicher Epoche entstanden sehr<br />

unterschiedliche Darstelung. Erst im<br />

Vergleich werden die Unterschiede<br />

richtig deutlich. [Tufte, Envisioning<br />

Information, S. 72]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 6


Kleine Vielfache (Smal Multiples)<br />

●<br />

●<br />

●<br />

Wenn wir Daten analysieren und nach Struktur suchen, brauchen wir immer einen<br />

Vergleich. Wir suchen nach Unterschieden (zu bekannten, zu anderen Zeitpunkten, zu<br />

anderen Bereichen).<br />

Das „kleine Vielfache“-Design bietet eine solche Möglichkeit: Hierzu wird der gleiche<br />

Visualisierungstyp mehrfach nebeneinander mit unterschiedlichen Daten dargestelt. Die<br />

Daten sind so gewählt, das sie die Fragestelung unterstützen. Dargestelt werden etwa<br />

– Unterschiedliche Zeitpunkte (z.B. Klimadaten)<br />

– Unterschiedliche Kategorien (z.B. Bevölkerungstatistiken)<br />

– Veränderungen mit einer zusätzlichen nicht dargestelten Variable<br />

– Unterschiedliche Paramtereinstelungen (z.B. numerische Simulation)<br />

– Unterschiedliche Sichten auf die Daten (z.B. Projektion in der Architektur)<br />

Man solte beachten:<br />

– Die Daten sind ale gleichzeitig im Sichtfeld, so das sie gut verglichen werden<br />

können.<br />

– Die Daten sind systematisch angeordnet, so das ein leichtes Verständnis der Struktur<br />

möglich ist.<br />

– Das Design der Visualisierungen ist konsistent (z.B. gleiche Colormap)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 7


Kleine Vielfache<br />

●<br />

Drei Beispiele, die das Konzept der kleinen Vielfachen ausnutzen sind Streudiagrammmatrizen,<br />

paralele Koordinaten und Heatmaps.<br />

htp:/www.r-project.org/<br />

htp:/spotfirecommunity.tibco.com<br />

htp:/mbostock.github.com/protovis<br />

8


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.<strong>Scagnostics</strong><br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 9


Streudiagrammmatrizen<br />

●<br />

●<br />

●<br />

Ein Streudiagramm stelt bivariate Daten in einem 2D<br />

Kartesischen Giter dar. Die Achsen entsprechen den<br />

beiden Variablen. Jedem Datenpunkt ist ein Punkt im<br />

Koordinatensystem zugewiesen.<br />

Folgende Information kann aus dem Diagramm abgelesen<br />

werden:<br />

– Verteilung der Daten im Parameteraum.<br />

– Korelationen zwischen zwei Variablen.<br />

– Einfärbung ermöglicht Clusteranalyse (siehe Bild)<br />

Erweitert man diese Idee nun auf n Variablen erhält man<br />

nx(n-1) Streudiagramme für ale möglichen Kombinationen.<br />

Diese kann man nun in einer Matrix anordnen und<br />

erhält eine Streudiagrammmatrix.<br />

[wikipedia]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 10


Streudiagramm-Matrix – Beispiele Irisblüten<br />

●<br />

●<br />

●<br />

Auf der kanadische Gaspésie-Halbinsel gibt es mehrere<br />

verschiedene Irisarten.<br />

Diese können anhand der Größe der Blüten- und<br />

Kelchbläter unterschieden werden.<br />

Um gute Schätzer für die Grenzwerte zu erhalten, mus<br />

man die natürliche Streuung berücksichtigen und<br />

geeignete Grenzwerte finden.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 11


406 Autos mit 4 Variablen<br />

Clustering: Herkunftsland<br />

12


Streudiagramm-Matrix<br />

●<br />

●<br />

Gemesen wurden vier Parameter, die miteinander korelieren:<br />

– Breite Blütenbläter<br />

– Länge Blütenbläter<br />

– Breite Kelchbläter<br />

– Länge Kelchbläter<br />

Um sich ein beseres Bild von den Korelationen machen zu können, betrachtet man<br />

paarweise Streudiagramme.<br />

Kelchblatt Länge<br />

Kelchblatt Breite Blütenblatt Länge Blütenblatt Breite<br />

Grundlagen SciVis – 4.2 Multivariate Daten 13


Streudiagramm-Matrix<br />

●<br />

Achtung: Im Regelfal sind die Daten vorher nicht klasifiziert, so das eine hilfreiche<br />

Einfärbung wie hier verwendet, nicht möglich ist.<br />

14


Streudiagramme – Erweiterungen<br />

●<br />

Gerade bei vielen Datenpunkten werden Streudiagramme schnel sehr unübersichtlich, da<br />

man einzelne Punkte nicht mehr unterscheiden kann.<br />

●<br />

Hier hilft es mit Transparenz zu arbeiten und jedem Punkt nur eine kleine Opazität<br />

zuzuweisen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 15


Streudiagramme – Erweiterungen<br />

●<br />

Besonders bei vielen Datenpunkten ist auch dieser Ansatz nicht mehr praktikabel, da die<br />

Graphikkarte sehr lange braucht um mehrere Milionen/Miliarden Kreise zu zeichnen. Hier<br />

solte man für das Streudiagramm eine Textur verwenden, in welche man die Punkte<br />

einzeichnet.<br />

●<br />

Transparenz erhält man durch Alphablending der bereits gezeichneten mit dem neuen<br />

Punkt. Sei B die im Pixel bereits gezeichnete Farbe, A die Farbe des neuen Datenpunkts, α<br />

der entsprechenden Transparenzwerte der neuen Farben. Dann ergibt sich die<br />

resultierende nichtransparente Farbe C durch<br />

C=α A<br />

A+(1−α A<br />

) B<br />

Grundlagen SciVis – 4.2 Multivariate Daten 16


Streudiagrammmatrizen für viele Variablen<br />

●<br />

Ein Problem, das sich nicht vermeiden läst, ist das Streudiagramm schnel<br />

unübersichtlich werden, wenn die Anzahl der Variablen wächst:<br />

[Lehmann et al., Selecting Coherent and Relevant Plots in Largs Scaterplot Matrices, Computer Graphics Forum, 2012]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 17


Analysestrategieen für SPLOMs<br />

●<br />

Folgende Strategien können eingesetzt werden, um die Daten übersichtlicher zu gestalten:<br />

– Navigation: Der Nutzer wird bei der Navigation in der Matrix unterstützt und kann<br />

sich gezielt verschiedene Streudiagramme in der Matrix ansehen.<br />

[Elmqvist N., Dragicevic P., Fekete J.: Roling the dice: Multidimensional visual exploration using scaterplot<br />

matrix navigation. IEEE TVCG, 14/6 (2008)]<br />

– Sortierung: Die Streudiagramme werden so sortiert, das ähnlich nahe beieinander<br />

liegen und so Muster deutlicher hervortreten.<br />

[Keim D.: Designing pixel-oriented visualization techniques: Theory & applications. IEEE TVCG 6 (2000), 59f.]<br />

– Selektion: Dem Nutzer werden nicht ale Streudiagramme gezeigt, sonder nur solche,<br />

die als wichtig erkannt wurde.<br />

[Friedman J. H., Tukey J. W.: A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Comput. 23<br />

(1974), 881–890.]<br />

– Hierarchische Analyse: Streudiagramme werden hierarchische geclustert und der<br />

Nutzer kann den Detailgrad interaktiv steuern.<br />

[Yang J., Peng W., Ward M. O., Rundensteiner E. A.: Interactive hierarchical dimension ordering, spacing and<br />

filtering for exploration of high dimensional datasets. In IEEE Symp. on Information Visualization, 105–112<br />

(2003).]<br />

– Metaanalyse: Es werden nicht die Streudiagramme selbst gezeigt, sondern<br />

abgeleitete Größen.<br />

[Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 18


<strong>Scagnostics</strong><br />

●<br />

●<br />

●<br />

Im Folgenden werden wir uns den Algorithmus von Wilkinson et al. 2004 ansehen, welcher<br />

<strong>Scagnostics</strong> (Scaterplot Diagnostics) zur Metaanalyse beschreibt.<br />

Der <strong>Scagnostics</strong>-Algorithmus berechnet charakteristische Merkmale zur Beschreibung<br />

einer Punktwolke im 2D (z.B. gibt es Cluster, wie dicht sind die Punkte, wie ist die Form der<br />

Punktwolke). Hierzu werden graphentheoretischer Maße verwendet.<br />

Wir definieren zunächst einen Graphen:<br />

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />

●<br />

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />

Kanten besitzen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 19


Scagnostic – Maßzahlen<br />

●<br />

Wir werden die folgenden Maßzahlen für Streudiagramme betrachten:<br />

Ausreiser in den Daten<br />

– Ausreiseranteil (outlying)<br />

Form der Datenpunkte<br />

– Konvexität (convex)<br />

– Dünnheit (skinny)<br />

– Faserig (stringy)<br />

– Gerade (straight)<br />

Zusammenhang in den Daten<br />

– Monotonie (monotonic)<br />

Dichte der Datenpunkte<br />

– Schiefe (skewed)<br />

– Klumpigkeit (clumpy)<br />

– Gestreift (striated)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 20


<strong>Scagnostics</strong><br />

●<br />

Wir definieren zunächst einen Graphen:<br />

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />

●<br />

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />

Kanten besitzen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 21


<strong>Scagnostics</strong><br />

●<br />

Die Graphenstrukturen, die wir verwenden werden, sind konvexe Hüle ( →Rand),<br />

Alphahüle ( →Form) und Minimaler Spannbaum (minimal spanning tree →relative Lage<br />

von Punkten).<br />

[wikipedia]<br />

●<br />

Die konvexe Hüle ist eine Möglichkeit den Rand einer Punktwolke X zu beschreiben. Ihre<br />

Knoten sind eine Teilmenge von X. Außerdem enthält sie ale Punkte der Menge X.<br />

Definition (konvexe Hüle): Die konvexe Hüle einer Teilmenge X eines reelen<br />

oder komplexen Vektoraumes V ist definiert als der Schnit aler konvexen<br />

Obermengen von X. Sie ist selbst konvex und damit die kleinste konvexe Menge,<br />

die X enhält.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 22


<strong>Scagnostics</strong><br />

●<br />

Die Alphahüle beschreibt den Rand einer Punktwolke präziser.<br />

Definition (Alphahüle): Die Alphahüle einer Menge X enthält ale Kanten<br />

zwischen zwei Punkten aus X, die auf einem Kreis mit Radius α liegen, welcher<br />

keine weiteren Punkte aus X enthält.<br />

Edelsbrunner, H.; Kirkpatrick, D. G.; Seidel, R. (1983), "On the shape of a set of points in<br />

the plane", IEEE Transactions on Information Theory 29 (4): 551–559.<br />

Alphahülen können efizient berechnet werden und man kann bei ihnen den Einfluß von<br />

Ausreißern reduzieren.<br />

●<br />

Spannbäume verbinden ale Punkte der Wolke durch einen Baum und geben so eine<br />

Strukturbeschreibung.<br />

Definition (Spannbaum): Ein Spannbaum ist ein Baum, desen Knoten durch<br />

eine gegebene Punktmenge X gegeben sind.<br />

Definition (minimaler Spannbaum MST): Von alen Spannbäumen einer<br />

Punktmenge ist derjenige der minimale, der die geringste Gesamtlänge (Summe<br />

aler Kantengewichte) besitzt.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 23


<strong>Scagnostics</strong><br />

●<br />

Zusätzlich benötigen wir folgende (normierte) Maßzahlen auf geometrischen Graphen:<br />

– Die Länge einer Kante length(e) ist die Euklidische Distanz zwischen ihren beiden<br />

Vertices.<br />

– Die Länge eines Graphen length(T) ist die Summe der Längen al seiner Kanten.<br />

– Ein Pfad ist eine Liste von Vertices, so das je zwei benachbarte Knoten in der Liste<br />

eine Kante des Graphen bilden.<br />

– Ein Pfad heißt geschlossen wenn sein erster und letzter Knoten identisch sind.<br />

– Ein geschlosener Pfad heißt Rand eines Polygons.<br />

– Der Umfang perimeter eines Polygons ist die Länge seines Randes.<br />

– Die Fläche area eines Polygons ist die Fläche in seinem Inneren.<br />

– Der Durchmesser diameter eines Graphen ist der längste kürzeste Pfad in G.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 24


Scagnostic – Maßzahlen zur Detektion von Ausreißern<br />

●<br />

Ausreisseranteil: Den Ausreiseranteil an den Punkten mesen wir mitels des MST. Hierzu<br />

filtern wir ale Punkte mit Grad 1 (eine angrenzende Kante) und Gewicht größer ω mit<br />

ω=q 75<br />

+1.5(q 75<br />

−q 25<br />

)<br />

wobei q 75<br />

das 75% Quantil ist (75% der Kanten sind kürze als diese Länge) und (q 75<br />

– q 25<br />

)<br />

ist der Interquartilsabstan.<br />

„Ausreiseranteil“ mist nun, den Anteil von sehr langen, einfach verbunden Kanten an der<br />

Gesamtlänge des MST T<br />

c entlegen = length(T Ausreißer )<br />

length(T )<br />

Grundlagen SciVis – 4.2 Multivariate Daten 25


Scagnostic – Maßzahlen für die Form<br />

●<br />

●<br />

Im Folgenden werden die Graphen wie folgt abgekürzt: H konvexe Hüle, A Alphahüle, T<br />

minimaler Spannbaum.<br />

Konvexität: Die Konvexität gibt ab, wie gut sich Alphahüle und konvexen Hüle<br />

überdecken.<br />

c konvex = area(A)<br />

area( H )<br />

●<br />

Dünnheit: Wir vergleichen die Fläche der Alphahüle mit ihrem Umfang. Das Maß ist<br />

normiert, so das wir für einen Kreis 0 für ein Quadrat 0.12 und für ein langes Rechteck 1<br />

erhalten.<br />

c dünn<br />

=1− √ 4 Π area(A)<br />

perimeter ( A)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 26


Scagnostic – Maßzahlen für die Form<br />

●<br />

Faserig: Eine faserige Form ist eine dünne Form ohne Äste. Hierzu analysieren wir die<br />

Pfade im Spannbaum. Ist der längste kürzeste Pfad im Baum etwa so lang wie die Summe<br />

aler Kantenlängen, hat der Baum wenig Verzweigungen/Äste, und ist somit sehnig.<br />

c sehnig =<br />

diameter (T )<br />

length(T )<br />

●<br />

Gerade: Um zu mesen wie gerade eine Punktewolke ist, betrachten wir den längsten<br />

kürzesten Pfad im MST. Bei geraden Punktwolken ist der Abstand zwischen den<br />

Endpunkten genauso lang, wie die Länge des Pfades.<br />

c gerade = dist (t j , t k )<br />

diameter(T )<br />

ti und tk sind die Vertices die den Durchmeser bestimmen.<br />

Das Maß liefert für gerade Graphen 1.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 27


Scagnostic – Maßzahlen für Trends<br />

●<br />

Monoton: Wenn wir die Folge der Punkte im Streudiagramm als Funktion aufasen, sol<br />

dieses Maß angeben, ob die Funktion monoton ist oder nicht. Hierzu verwenden wir<br />

Spearmans Rangkorelationskoefizienten:<br />

r s<br />

= Cov(rang x , rang y )<br />

s rang x<br />

s rang y<br />

rang( x i<br />

) der Rang von x i<br />

s rangx<br />

die Standardabweichung der Ränge von x<br />

Cov( rang(x), rang(y) ) die Kovarianz<br />

Das Maß für die Monotonie verwendet nun den quadrierten Rangkorelationskoefizienten,<br />

da es dem Betrachter zumeist egal ist, ob die Funktion monton steigend oder falend<br />

ist.<br />

c monton =r s<br />

2<br />

Grundlagen SciVis – 4.2 Multivariate Daten 28


Scagnostic – Maßzahlen für Dichte<br />

●<br />

Schiefe: Die Verteilung der Kantenlängen im MST gibt Aufschlus über die relative Dichte<br />

der Punkte im Streudiagramm. Über die Schiefe (statistisches Moment) des Histogramms<br />

über die Kantenlängen kann man nun Rückschlüse auf die Dichte der Punktwolke ziehen.<br />

c skew<br />

= q 90−q 50<br />

q 90<br />

−q 10<br />

Die q geben hier wieder die Quantile an. Bei q90 sind<br />

90% der Kanten des MST kürzer als diese Länge.<br />

●<br />

Klumpigkeit: Die Klumpigkeit mesen wir durch die Kanten im MST. Hier sehen wir uns die<br />

Distanzen innerhalb von Clustern an.<br />

c clumpy (T )=max<br />

j<br />

[<br />

max [length(e k )]<br />

]<br />

1−<br />

k<br />

length(e j )<br />

wobei j Indices für Kante im MST stehen. k Indices stehen<br />

für Kanten in Runt-Mengen der einzelnen Kanten j.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 29


c clumpy (T )=max<br />

j<br />

Scagnostic – Maßzahlen für Dichte<br />

[<br />

max [length(e k )]<br />

]<br />

1−<br />

k<br />

length(e j )<br />

W. Stuetzle. Estimating the cluster tree<br />

of a density by analyzing the minimal<br />

spanning tree of a sample. Journal of<br />

Clasification, 20:25–47, 2003.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 30


Scagnostic – Maßzahlen für Kohärenz<br />

●<br />

Gestreift: Um zu mesen wie streifig das Streudiagramm ist, analysieren wir die Winkel<br />

zwischen den Kanten an Knoten mit Grad 2. Der Durchschnitswinkel solte bei streifigen<br />

Daten in etwa 180° betragen.<br />

c striate<br />

= 1<br />

∣V (2) ∣ ∑<br />

v∈V (2) ∣cos θ(e(v ,a) ,e(v ,b))∣<br />

wobei V(2) ⊂ V die Menge aler Knoten mit Grad 2 angibt, θ<br />

den Winkel zwischen zwei Kanten und e(v,a) die Kante<br />

zwischen v und a.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 31


<strong>Scagnostics</strong> – Ergebnisse<br />

●<br />

●<br />

●<br />

Eine einfache Form um die Maßzahlen zu<br />

kodieren ist die Heatmap. Datenpunkte (=<br />

Streudiagramme) werden in Zeilen<br />

abgetragen, Atribute (= <strong>Scagnostics</strong>) in<br />

Spalten.<br />

Wie stark ein Streudiagramm einem<br />

Merkmal entspricht ist als Farbe codiert. Rot<br />

bedeutet, sehr gute Übereinstimmung, blau<br />

sehr geringe.<br />

Wir sehen:<br />

– Punktwolken entsprechen oft mehreren<br />

Kategorien (rote und orange Kästchen).<br />

– Punktwolken mit gleichem starken<br />

Atribut können noch sehr verschieden<br />

ausehen (vgl. Skewed oder Monotonic)<br />

– Es gibt Punktwolken, die schwer zu charakterisieren<br />

sind (max. gelbe Farbe).<br />

Grundlagen SciVis – 4.2 Multivariate Daten 32


Streudiagramm mit Scagnostic Maßzahlen<br />

●<br />

Jedes Streudiagramm können wir nun wieder als Punkt im hochdimensionalen<br />

<strong>Scagnostics</strong>raum aufasen und diese wieder als Streudiagrammmatrix darstelen.<br />

Abalone Datensatz:<br />

(unten) Streudiagrammmatrix<br />

(rechts) <strong>Scagnostics</strong><br />

Grundlagen SciVis – 4.2 Multivariate Daten 33


<strong>Scagnostics</strong> – Anwendung<br />

●<br />

Hier ein weiteres Beispiel für Wohnungsdaten in Boston. Jede Wohnung ist durch 14<br />

Variablen beschrieben, deren Korelationen durch 91 Streudiagramme dargestelt werden<br />

können.<br />

●<br />

Aufälig ist z.B. der isolierte Punkte<br />

in der Zeile für Dünn (sparse) der<br />

einem Streudiagramm entspricht<br />

bei dem die Punkte nur an 16 verschiedenen<br />

Positionen liegen<br />

können (Merkmal A: zwei Ausprägungen<br />

und Merkmal B: acht Ausprägungen).<br />

Grundlagen SciVis – 4.2 Multivariate Daten 34<br />

[wikipedia]


<strong>Scagnostics</strong> – Anwendung<br />

●<br />

Die Maße können wir nun auch benutzen, um die Streudiagramm zu sortieren:<br />

Scaterplots of<br />

weather data sorted<br />

by features<br />

[Wilkinson 2006]<br />

35


<strong>Scagnostics</strong> – Anwendung<br />

●<br />

Die Streudiagramme können auch wieder in einer Matrix dargestelt werden und so<br />

sortiert werden, das ähnliche Diagramme nah beieinander liegen. Ungewöhnliche<br />

Streudiagramme können automatisch hervorgehoben werden. Hierzu wird der<br />

Algorithmus zur Detektion von Ausreißern in Streudiagrammen verwendet.<br />

SPLOM of basebal data sorted<br />

by features component and<br />

colored by MST outlier statistic<br />

[Wilkinson 2006]<br />

36


<strong>Scagnostics</strong> – Beschleunigung<br />

●<br />

●<br />

●<br />

Die Laufzeit des Algorithmus beträgt in etwa<br />

O( n p² )<br />

wobei n die Anzahl der Datenpunkte ist und p die Anzahl der Parameter. Besonders bei der<br />

Implementierung der Graphen ist auf einen efizienten Algorithmus zu achten. Die<br />

algorithmische Geometrie beschreibt hierfür optimale Algorithmen.<br />

Beschleunigen läst sich der Algorithmus weiter, indem die Daten in Klasen eingeteilt<br />

werden. Wilkinson et al. schlagen hier hexagonales binning vor. Die Fläche wird in 40x40<br />

Hexagone unterteilt und die Daten werden entsprechend<br />

klasifiziert. Enthalten mehr als 250 Hexagone Datenpunkte<br />

so wird das Giter angepast, bis weniger als 250 Hexagone<br />

Daten enthalten.<br />

Für das Maß Faserigkeit (stringy) mus weiterhin mit den<br />

originalen Daten gearbeitet werden, da kurze Kanten sonst<br />

verloren gehen und das Maß stark verfälscht wird.<br />

[wikipedia]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 37


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.<strong>Scagnostics</strong><br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 38


Paralele Koordinaten<br />

●<br />

Paralele Koordinaten sind eine weitere Technik zur Darstelung von Datenpunkten mit n<br />

Atributen. Die Koordinatenachsen werden hier nicht orthogonal sondern paralel<br />

angeordnet.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 39


Paralele Koordinaten<br />

●<br />

Für jede gemesene Variable wird eine vertikale Achse angelegt, die so skaliert ist, das sie<br />

den gesamten Wertebereich der Daten abdeckt.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 40


Paralele Koordinaten<br />

●<br />

Jeder Datenpunkt wird nun als Polygonzug in die Koordinatenachsen eingetragen.<br />

name:"chevrolet chevele malibu", mpg:18, cyl:8, dsp:307, hp:130, lbs:3504, acc:12, year:70, origin:1<br />

Grundlagen SciVis – 4.2 Multivariate Daten 41


Paralele Koordinaten<br />

●<br />

Geschieht dies für ale Datenpunkte erhält man die klasische paralele Koordinaten-<br />

Darstelung.<br />

[htp:/eagereyes.org/techniques/paralel-coordinates]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 42


Paralele Koordinaten<br />

●<br />

Für eine efiziente Analyse und Mustererkennung bedarf es ein wenig Training. Hier einige<br />

Beispiele für Strukturen in Streudiagrammen und korespondierenden Mustern in<br />

paralelen Koordinaten.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 43


Paralele Koordinaten<br />

Man kann aus dem Diagramm folgende Informationen direkt ablesen:<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Wie sind die Daten innerhalb einer Variable verteilt?<br />

Gibt es Werte die häufig/selten auftreten?<br />

Welchen Variablen sind kontinuierlich, welche diskret?<br />

Welche Zusammenhänge bestehen mit „benachbarten“ Variablen?<br />

Viele gleich gerichtete Linien weisen auf eine positive Korelation, viele sich kreuzende<br />

Linien auf eine negative Korelation hin.<br />

Wie groß ist die Streuung bei<br />

Verbindungen zwischen „benachbarten“<br />

Variablen?<br />

Grundlagen SciVis – 4.2 Multivariate Daten 44


Paralele Koordinaten – Erweiterungen<br />

Ähnlich wie bei den Streudiagrammen, werden paralele Koordinaten schnel unübersichtlich.<br />

Hier helfen ähnlich Konzepte dabei mehr Struktur erkennbar zu machen.<br />

●<br />

Transparenz und Farbe: Zum einen können die Polygonzüge wieder transparent<br />

gezeichnet werden, so das Überlagerungen deutlicher werden.<br />

Demo: htp:/vis.stanford.edu/protovis/ex/<br />

Grundlagen SciVis – 4.2 Multivariate Daten 45


Paralele Koordinaten – Erweiterungen<br />

●<br />

Wird eine Achse als primäre Achse ausgewählt und ihr ein Farbverlauf, der sich auf die<br />

Datenpunkte überträgt, zugewiesen, so können Korelationen beser gesehen werden.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 46


Paralele Koordinaten – Probleme und Grenzen<br />

Paralele Koordinaten können gut zur Exploration multivariater Datensätze verwendet werden.<br />

Sie haben alerdings auch einige Einschränkungen:<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Bei sehr vielen Datenpunkten kommt es meist zu Verdeckung. Die gesamte Bildfläche<br />

erscheint mehr oder minder einfarbig und es kann kaum Struktur abgelesen werden.<br />

Korelation zwischen zwei Variablen lasen sich in einem Streudiagramm leichter und<br />

genauer bestimmen.<br />

Es können etwa 12 verschiedene Dimensionen analysiert werden. Darüber hinaus wird die<br />

Darstelung und Analyse sehr schwierig.<br />

Die Darstelung zeigt nur eine kleine Auswahl der paarweisen Korelationen (n stat der<br />

n(n-1) Paare in Streudiagrammmatrizen).<br />

Die Anordnung der Achsen spielt eine sehr wichtige Role. Je nach Einstelung können<br />

Merkmale leichter bzw. schwerer oder gar nicht erkannt werden. (Es gibt Forschung im<br />

Bereich der automatischen Achsenanordnung, um dieses Problem zu überwinden.<br />

●<br />

Einige Verfahren zur verbeserten Darstelung sind auf der nächsten Folie gelistet.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 47


Paralele Koordinaten – Erweiterungen<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Clustering: Werden ähnlich verlaufende Kurven in Clustern zusammengefast, kann man<br />

die Visuale Komplexität der Darstelung stark reduzieren.<br />

[Yang, Jing; Peng, Wei; Ward, Mathew O.; Rundensteiner, Elke A. (2003). "Interactive Hierarchical Dimension<br />

Ordering Spacing and Filtering for Exploration of High Dimensional Datasets". IEEE Symposium on Information<br />

Visualization (INFOVIS 2003): 3–4.]<br />

Achsensortierung: Durch die fixe Achsensortierung stelen Par.Koord. nur einen kleinen<br />

Teil des hochdimensionalen Datenraumes äquivalent dar. Interaktive Sortieralgorithmen<br />

sind hier dringend nötig, um ale Kombination betrachten zu können.<br />

Kurvenbasierte Darstelungen: Kurven stelen visuele Kontinuität her und erleichtern es<br />

Muster zu erkennen. Es gibt Erweiterungen, die Paralele Koordinaten durch glate Kurven<br />

anstat durch Polygonzüge verbinden.<br />

[Using Curves to Enhance Paralel Coordinate Visualisations by Martin Graham & Jesie Kennedy, Napier University,<br />

Edinburgh, UK]<br />

Kontinuierliche Darstelungen: Ähnlich dem texturbasierten Ansatz für Streudiagramme<br />

gibt es eine Erweiterung der paralelen Koordinaten, die die kontinuierlich<br />

zugrundeliegende Verteilung approximiert.<br />

[Julian Heinrich, Daniel Weiskopf: Continuous Paralel Coordinates. IEEE Trans. Vis. Comput. Graph. 15(6): 1531-1538<br />

(2009)]<br />

Mustererkennung: Auch für par.Koord. gibt es Methode zur Metanalyse, die abgeleitete<br />

Merkmale berechnen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 48


Paralele Koordinaten – Erweiterungen<br />

Kurvenbasiert<br />

Clustering<br />

Kontinuierliche PK<br />

Grundlagen SciVis – 4.2 Multivariate Daten 49


Achsensortierung<br />

●<br />

●<br />

Wie bereits erwähnt, stelen paralele Koordinate<br />

nur eine kleine Auswahl der möglichen<br />

Variablenpaare dar. Umsortieren der Daten<br />

kann hier helfen<br />

– dem Nutzer eine möglichst gute<br />

Sortierung zu zeigen.<br />

– ihn bei der dynamischen Umsortierung<br />

unterstützen.<br />

Wir wolen uns einen Algorithmus ansehen,<br />

der die Achsen so umsortiert, so das es<br />

zwischen zwei Achsen möglichst wenig<br />

„Stördaten“ (cluter) gibt, also starke<br />

Korelationen bevorzugt werden.<br />

Algorithmus in [Peng 2004]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 50


Achsensortierung<br />

●<br />

●<br />

●<br />

Um eine optimale Achsenkombination zu wählen, berechnen wir zunächst die Güte aler<br />

paarweisen Kombinationen.<br />

Hierzu bestimmen wir die Anzahl der Ausreißer in jedem 2D paralele Koordinaten plot.<br />

Zunächst berechnen wir für jeden Punkt im 2D den Abstand zum nächsten Nachbarn und<br />

normalisieren diesen. Ale Punkte, deren Abstand größer als ein Nutzerspezifizierter Wert<br />

ist, werden nun als Ausreißer deklariert. S outlier<br />

gibt nun die Anzahl der Ausreißer für ein<br />

Achsenpaar an und S avg<br />

= S outlier<br />

/ (n-1) gibt die mitlere Ausreißerzahl an.<br />

Der Cluter pro Paar berechnet sich nun als<br />

●<br />

●<br />

Da S total<br />

, also die Anzahl an Datenpunkten, fix ist, können wir diese zusätzliche Normierung<br />

vernachläsigen.<br />

C = S avg<br />

S total<br />

Den Cluterwert berechnen wir jetzt für jede Paarkombination und speichern sie in einer<br />

Matrix ab.<br />

Die Achsenordnung mit minimalem Cluterwert zu finden ist nun ein<br />

Optimierungsproblem. Testen wir einfach ale Achsen durch, was bei unseren Falzahlen<br />

häufig noch möglich ist, erhalten wir einen Algorithmus der Komplexität O(n*n!)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 51


Achsensortierung – Beispiele<br />

Heinrich, Julian; Stasko, John; Weiskopf, Daniel: The Paralel Coordinates Matrix. In: EuroVis - Short Papers, pp. 37-41, 2012.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 52


Pargnostics<br />

●<br />

●<br />

●<br />

Pargnostics [Dagupta 2010] analysieren die Struktur (auf dem Bildschirm) gezeichneter<br />

paraleler Koord. und verwenden diese Maße um eine günstige Sortierung vorzugeben.<br />

Je nach Aufgabe kann der Nutzer unterschiedlich Sortierungstrategien auswählen.<br />

Folgende Aufgaben werden unterstützt:<br />

– Korelation finden<br />

– Cluster finden<br />

– Zusammenhänge zwischen<br />

Variablen<br />

Verwendet werden Maße zur<br />

Analyse von:<br />

1)Anzahl der Linienschnite<br />

2)Schnitwinkel<br />

3)Paralelität<br />

4)Korelation (Mutual Information)<br />

5)Konvergenz/Divergenz<br />

6)Überdeckung<br />

1) 2) 3) 4) 5) 6)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 53


Pargnostics – Histogramme<br />

●<br />

Für viele Maße werden später pixelbasierte Histogramme verwendet:<br />

– Achsenhistogramme unterteilen die Achsen in Bins und zählen jeweils die ein und<br />

ausgehenden Linien.<br />

– Distanzhistogramme speichern die Steigung der Geradenstücke (Diferenz von<br />

Ausgangs- und Eingangspixel.<br />

– Achsenpaarhistogramme speichern in einer Matrix wie häufig Geradenstücke von<br />

einem Eingangsbin zu einem Ausgangsbin laufen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 54


Pargnostics – Maße<br />

●<br />

●<br />

Anzahl der Linienschnite: Hierzu verwenden wir das Achsenpaarhistogramm.<br />

h−1 h−1<br />

L=∑ ∑<br />

i=0 j=0<br />

h−1 l < j<br />

∑ ∑<br />

k=i+1 l=0<br />

b ij b kl<br />

Teilt man nun durch die maximale Anzahl möglicher Schnite, erhält man den normierten<br />

Wert:<br />

L norm =<br />

2L<br />

n(n−1)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 55


Pargnostics – Maße<br />

●<br />

●<br />

Mitlerer Schnitwinkel: Als Maß zur Beschreibung der Schnitwinkel, verwenden wir den<br />

Median aler Schnitwinkel. Wir verwenden jeweils den kleineren der beiden Schnitwinkel<br />

zwischen zwei Geraden.<br />

Linienschnite werden nur für Geradenpaare berechnet, die im vorhergehenden Test<br />

(schneiden sich überhaupt) positiv getestet werden. Hier können klasische geometrische<br />

Ansätze verwendet werden.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 56


Pargnostics – Maße<br />

●<br />

●<br />

Paralelität: Um die Paralelität zu beschreiben, sehen wir uns die Verteilung der<br />

Steigungen an. Ist diese sehr schmal, deutet dies auf viele ähnliche Steigungen, also hohe<br />

Paralelität hin. Sehr konfuse Verläufe sind durch eine weite Streuung im Distanzhistogramm<br />

markiert.<br />

Als Maß verwenden wir den Interquartilsabstand der Steigungen:<br />

P norm<br />

=1−∣q 75<br />

−q 25<br />

∣<br />

Fig. 5: Distance histograms (left half of each cell below the parallel<br />

coordinates) and angles of crossings (right half) histograms for different<br />

dimensions of the cars data.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 57


Pargnostics – Optimierung<br />

●<br />

●<br />

●<br />

●<br />

Um nun eine möglichst gute Achsensortierung zu finden, wird ein Optimierungsalgorithmus<br />

verwendet. Im Paper wird hierzu ein Branch-and-Bound Ansatz verwendet.<br />

Hierzu benötigen wir eine Zielfunktion, die optimiert werden sol. Die Zielfunktion wird<br />

vom Nutzer spezifiziert und setzt sich aus einer Kombination der möglichen Maße<br />

zusammen. Jede Achsenkombination erhält nun bezüglich dieser Kombination eine Güte,<br />

welche in einer Matrix gespeichert wird.<br />

Grundidee Branch-and-Bound: Mögliche Anordnungen für die paralelen Koordinaten<br />

werden als Baum dargestelt. Der Algorithmus testet nun verschiedene Wege und verwirft<br />

wenigversprechende Bereiche. Als Schätzer für die Güte werden hierbei die<br />

vorberechneten Maße verwendet.<br />

Häufig wird hier einfach die Achse genommen, die den nächsten Abstand minimiert. Es<br />

werden nicht ale Permutationen durchgerechnet, so das eine gute Laufzeit ereicht wird.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 58


Pargnostics – Weine<br />

Grundlagen SciVis – 4.2 Multivariate Daten 59


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.<strong>Scagnostics</strong><br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 60


Matrixdiagramm – Genexpression<br />

[Zapapa 2005]<br />

Heatmap unsortiert [BiBench]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 62


Matrixdiagramm – Kommunikation<br />

Grundlagen SciVis – 4.2 Multivariate Daten 63


Matrixdiagramm – Infrastruktur<br />

●<br />

Das Sortieren von Heatmaps wurde u.a. stark von Jaques Bertin (Kartograph, 1918-2010)<br />

propagiert. Hier sehen wir ein Beispiel, in dem er verschiedene Orte bezüglich ihrer<br />

Infrastruktur vergleicht.<br />

Innar Liv. 2010. Seriation and matrix reordering methods: An historical overview. Stat. Anal. Data Min. 3, 2 (April 2010), 70-91.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 64


Matrixdiagramm – Infrastruktur<br />

●<br />

Folgende Fragen können in der geordneten Variante nun leicht beantwortet werden:<br />

– Fragen zu bestimmten Spalten und Zeilen (z.B. Gibt es in Gemeinde '08' einen<br />

Bahnhof? Welche Gemeinden haben ein Polizeirevier?)<br />

– Lokale Muster in den Daten (z.B. Wenn es kein Waser gibt, dann gibt es auch keine<br />

weiterführenden Schulen.)<br />

– Globale Muster und Trends (z.B. Welche Veränderungen finden stat, wenn sich eine<br />

Gemeinde von ländlich zu urban wandelt?)<br />

Grundlagen SciVis – 4.2 Multivariate Daten 65


Matrixdiagramm – Verarbeitungskete<br />

[Liv Innar, Opik Rain, Ubi Jaan, Stasko John. Visual matrix explorer for colaborative seriation. WIREs Comp Stat 2012,<br />

4: 85-97.]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 66


Matrixdiagramm – Sortierung<br />

●<br />

●<br />

Die Frage ist nun, wie man Matrixdiagramme sortiert, damit Muster möglichst gut sichtbar<br />

werden. Auch hier gibt es leider keine (stets gültige) optimale Lösung, da eine gute<br />

Sortierung stark von der Fragestelung abhängt.<br />

Grundlegend unterscheidet man die Anzahl der Freiheitsgrade bei der Optimierung:<br />

– Umsortierung der Zeilen ( →Datenpunkte)<br />

– Umsortierung der Spalten ( →Variablen)<br />

– Unabhängige Sortierung von Zeilen und Spalten<br />

– Gemeinsame Sortierung von Zeilen und Spalten. Bond-Energy Algorithmus<br />

→Gruppierung von Blöcken<br />

Grundlagen SciVis – 4.2 Multivariate Daten 67


Matrixdiagramm – Sortierung<br />

●<br />

●<br />

Der clusterbasierte Ansatz berechnet zuerst ein<br />

Clustering auf den Daten. Dieses kann nun als Baum<br />

dargestelt werden (ab einem gewisen Ähnlichkeitswert,<br />

werden Daten als gleich angesehen und gehören zum<br />

selben Cluster). Die Daten werden nun entsprechend der<br />

Clusterordnung im Baum sortiert.<br />

Folgende Zutaten brauchen wir für die Berechnung:<br />

– Ähnlichkeitsmaß: Dieses quantifiziert, wie<br />

(un-)ähnlich zwei Objekt sind.<br />

– Clusteralgorithmus: Ein Algorithmus, der Objekte<br />

gruppiert. Ziel: kleine Unterschiede zwischen<br />

Objekten innerhalb eines Clusters, große<br />

Unterschiede zwischen Elementen verschiedener<br />

Cluster.<br />

[Eisen 98]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 68


Matrixdiagramm – Abstandsmaße<br />

Für zwei Vektoren x = (x 1 ,., x n ) und y = (y 1 ,., y n ) sind gebräuchliche Distanzmaße:<br />

●<br />

Euklidische Distanz<br />

d E ( x , y )=√ ∑ i=1<br />

n<br />

( x i − y i ) 2<br />

●<br />

Manhatan Distanz<br />

d M (x , y )=∑∣x i − y i ∣.<br />

n<br />

i=1<br />

●<br />

Korelationsdistanz<br />

d C ( x , y )=1−<br />

√ ∑ i=1<br />

∑<br />

i=1<br />

( x i −̄x )( y i −̄y )<br />

( x i −̄x ) 2 ∑<br />

i=1<br />

( y i −̄y ) 2 .<br />

Grundlagen SciVis – 4.2 Multivariate Daten 69


Matrixdiagramm – Abstandsmaße<br />

●<br />

●<br />

Euklidische- und Manhatandistanz mesen absolute Abstände zwischen Datenpunkten,<br />

wobei die Manhatandistanz robuster gegenüber Ausreißern ist.<br />

Die Korelationsdistanz mist Trends und relative Abstände. Normiert man die Daten, so<br />

sind Korelations- und Euklidische-Distanz äquivalent.<br />

x = (1.0, 1.0, 1.5, 1.5)<br />

y = (2.5, 2.5, 3.5, 3.5) = 2x + 0.5<br />

z = (1.5, 1.5, 1.0, 1.0)<br />

d kor ( x, y ) = 0 d Euklid ( x, y ) = 3.54<br />

d kor ( x, z ) = 2 d Euklid ( x, z ) = 1<br />

Grundlagen SciVis – 4.2 Multivariate Daten 70


Matrixdiagramm – Hierarchisches Clustering<br />

●<br />

●<br />

●<br />

Mit der Metrik können wir bestimmen, wie weit zwei Datenpunkte voneinander entfernt<br />

sind. Im nächsten Schrit berechnen wir durch ein hierarchisches Clustering, welche Punkte<br />

ähnlicher sind, als andere.<br />

Im Unterschied zum Standardclustering hat das hierarchische Clustering kein vom Nutzer<br />

spezifiziertes Abbruchkriterium (z.B. Anzahl der gesuchten Cluster) sondern verbindet<br />

zumeist Botom-Up die Punkte miteinander in einer Hierarchie von Clustern.<br />

Wichtiges Kriterium für das Clustering ist die<br />

Art, wie Datenpunkte verbunden werden. Man<br />

unterscheidet hier u.a.<br />

– Complete linkage: größte Distanz<br />

– Average linkage: mitlere Distanz<br />

– Single linkage: kürzeste Distanz<br />

Complete linkage findet eher kompakte/<br />

sphärische Cluster, single linkage kann zu<br />

langgezogenen Clustern führen.<br />

[wikipedia]<br />

71


Matrixdiagramm – Hierarchisches Clustering<br />

●<br />

●<br />

●<br />

Der Abstand von den Blätern zu einem inneren Knoten im Baum repräsentiert den<br />

Abstand der beiden Kinder des inneren Knoten.<br />

Von den n(n-1)/2 möglichen paarweisen Kombinationen von benachbarten Datenpunkten<br />

stelen wir hier nur einen kleinen Auschnit dar (optimiert nach Ähnlichkeit von<br />

Nachbarn). Ist nun ein Punkt sehr ähnlich zu drei oder mehr anderen, kann dies nicht mehr<br />

dargestelt werden.<br />

Für die Darstelung der Matrix basierend auf<br />

dem Clustering gibt es nun 2 n-1 Möglichkeiten<br />

(n-1 innere Knoten, an jedem können die<br />

Kinder vertauscht werden).<br />

●<br />

Mehr und vertiefte Information zum Clustering<br />

gibt es in der Machine Learning Vorlesung.<br />

[wikipedia]<br />

72


Matrixdiagramm – Beispiel<br />

●<br />

Analyse von Zelwachstum. (Clustered display of data from time course of serum<br />

stimulation of primary human fibroblasts [Eisen 1998]. )<br />

●<br />

●<br />

(A) cholesterol biosynthesis, (B) the cel cycle, (C) the immediate–early response, (D)<br />

signaling and angiogenesis, and (E) wound healing and tisue remodeling<br />

Bemerkenswert ist, das uniforme Blöcke von Genen entstehen, die zusammen aktiv sind.<br />

Die Korektheit der Ergebnise wurde geprüft, indem die Daten in drei Gruppen aufgeteilt<br />

wurden, separat visualisiert wurden und die gleichen Ergebnise herauskamen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 73


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

1.Algemeines<br />

2.Kalendervisualisierung<br />

3.Themenflus und geschichtete Diagramm<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 74


Zeitabhängige Daten<br />

●<br />

Bei der Visualisierung von zeitabhängigen Daten, mus man sich zunächst einmal<br />

Gedanken darüber machen, welchen Typ man genau hat. Hierzu drei Beispiele:<br />

Datensatz 1:<br />

t 0 , Sonnenintensität<br />

t 1 , Sonnenintensität<br />

t 2 , Sonnenintensität<br />

…<br />

t n , Sonnenintensität<br />

Datensatz 2:<br />

Tag 1: 5 Zeitungsartikel über Fußbal, 7 Zeitungsartikel über<br />

Politik, 2 Zeitungsartikel über Ernährung<br />

Tag 2: .<br />

Tag n: .<br />

Datensatz 3:<br />

Antonia wurde 1992 in Waldorf geboren<br />

1994 zog sie nach Düseldorf<br />

2001 machte sie Urlaub in China<br />

2010 zog sie nach Berlin<br />

2013 wird sie für 6 Monate nach Südamerika reisen<br />

Grundlagen SciVis – 4.2 Multivariate Daten 76


Zeitabhängige Daten<br />

●<br />

Wichtige Kriterien zur Unterscheidung von Zeitreihen sind [Aigner 2008]<br />

– Linear Zeit vs. zyklische Zeit: Solen ale Zeitpunkte nebeneinander Dargestelt<br />

werden, wie etwa in einem Börsendiagramm, oder gibt es zyklische Ereignise, wie<br />

etwa in der Meteorologie, die verdeutlicht werden solen.<br />

– Zeitpunkte vs. Zeitinterval: Solen einzelne Mespunkte dargestelt werden, z.B.<br />

Zeitpunkt eines Ereignises, oder geht es um die Analyse von Intervalen mit festem<br />

Anfangs und Endpunkt, z.B. Stauzeiten auf der Autobahn.<br />

– Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Wir ein Prozes analysiert,<br />

der chronologisch Strukturiert wird, z.B. Tagesablauf einer Person, oder solen<br />

verschiedene Szenarien durchgespielt und verglichen werden, z.B. Feuersimulation<br />

und Verhalten von Menschen, oder sol der gleiche Zeitabschnit aus<br />

unterschiedlichen Perspektiven beleuchtet werden, z.B. Augenzeugenschilderungen<br />

bei Überfal.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 77


Zeitabhängige Daten<br />

●<br />

Lineare Zeit vs. Zyklische Zeit: Solen Muster erkannt werden, ist nicht nur darauf zu<br />

achten, das die richtige Technik verwendet wird, sondern auch, das sie korekt<br />

parametrisiert ist.<br />

In untenstehendem Beispiel wurden Influenzafalzahlen in Norddeutschland visualisiert. Im<br />

Balkendiagramm sind Muster nur schwer zu erahnen (auch weil eine korekte<br />

Achsenbeschriftung fehlt). Im mitleren Diagramm (Spiraldiagramm) wurde ein Zyklus von<br />

27 Tagen angenommen und Muster sind nicht klar erkennbar. Bei einem Zyklus von 28<br />

Tagen (= 4 Wochen) wird der große Anzahl an Falzahlen am Montag deutlich.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 78


Zeitabhängige Daten<br />

●<br />

Zeitpunkte vs. Zeitinterval: Bei Intervaldaten geht es häufig um die Darstelung der<br />

zeitlichen Dauer. Ein weiterer wichtiger Aspekt ist hierbei die Darstelung von Unsicherheit,<br />

da etwa gerade bei Planungszeiten oft nicht genau gesagt werden kann, wie lange etwas<br />

exakt dauern wird.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 79


Zeitabhängige Daten<br />

●<br />

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für verzweigende<br />

zeitabhängige Visualisierungen sind die WorldLines, die unterschiedliche<br />

Flutungszenarien darstelen.<br />

Waser, J.; Fuchs, R.; Ribicic, H.; Schindler, B.; Bloschl, G.; Groler, E.; , "World<br />

̌ ̌ ̈ ̈<br />

Lines," Visualization and Computer Graphics, IEEE Transactions on , vol.16,<br />

no.6, pp.1458-1467, Nov.-Dec. 2010<br />

Grundlagen SciVis – 4.2 Multivariate Daten 80


Zeitabhängige Daten<br />

●<br />

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für paralele Zeit ist<br />

die ThemeRiver (Themenflus)-Darstelung, welche die Relevanz verschiedener Größen<br />

(Themen, Kinofilme, etc) anzeigt und ihre zeitliche Entwicklung paralel darstelt.<br />

htp:/www.nytimes.com/interactive/2008/02/23/<br />

movies/20080223_REVENUE_GRAPHIC.html<br />

Grundlagen SciVis – 4.2 Multivariate Daten 81


Kalendervisualisierung<br />

●<br />

Bei der Kalendervisualisierung [vanWijk 1999] solen Muster in univariaten Zeitreihendaten<br />

gefunden werden. Diese Muster sind häufig auf verschiedenen Skalen zu finden (Tage,<br />

Wochen, Saison) und haben einen Bezug zum Kalender (hier Stromverbrauch).<br />

Grundlagen SciVis – 4.2 Multivariate Daten 82


Kalendervisualisierung<br />

●<br />

Visualisierung der Tagesprofile im 3D ist nicht sehr hilfreich.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 83


Kalendervisualisierung – Clustering<br />

●<br />

Die Kalendervisualisierung nutzt ebenfals einen Clusteransatz, um Daten zu aggregieren,<br />

ohne dabei wichtige Details zu verlieren, wie es etwa geschehen würde, wenn man die<br />

Daten miteln würde (z.B. über ale Montage, pro Woche, pro Monat, etc).<br />

●<br />

Folgende Metriken clustern nach bestimmten Merkmalen in den Zeitreihen y und z:<br />

– Euklidischer Abstand →robustes generisches Maß<br />

– Normalisierter Euklidischer Abstand →ähnliche Form<br />

d E = 1 N √ ∑ i ( y i −z i ) 2 d NE = 1 N √ ∑ i ( y i / y max −z i / z max ) 2<br />

– Mitlere Diferenz-bereinigter Abstand →ähnliche Form mit Ofset<br />

d sh = 1 N √ ∑ i ( y i −z i −Δ) 2 Δ= 1 N ∑ i ( y i −z i )<br />

– Maximalabstand →Vergleich von Spitzenwerten<br />

d max<br />

=∣y max<br />

−z max<br />

∣<br />

Grundlagen SciVis – 4.2 Multivariate Daten 84


Kalendervisualisierung – Beispiel<br />

Grundlagen SciVis – 4.2 Multivariate Daten 85


Kalendervisualisierung – Beispiel<br />

Several conclusions can be drawn from this image. We see that:<br />

●<br />

Ofice hours are folowed strictly. Most people arivebetween 8:30 and 9:00 am, and leave<br />

between 4:00 and 5:00 pm. Furthermore, in the morning the number of employees present<br />

is slightly higher than in the afternoon.<br />

●<br />

On Fridays and in the summer fewer people are present (cluster 722);<br />

●<br />

On Fridays in the summer even fewer people are present (cluster 718);<br />

●<br />

●<br />

●<br />

In the weekend and at holidays only very few people are working (cluster 710): security<br />

and fire brigade;<br />

Holidays in the Netherlands in 1997 were January 1st, March 28th, March 31st, April 30th,<br />

May 5th,May 8th, May 19th, December 25th and 26th.<br />

School vacations are visible in Spring (May 3rd toMay 11th), in Autumn (October 11th to<br />

October 19th), and in Winter (December 21th to December 31st);<br />

●<br />

Many people take a day of after a holiday (cluster 721);<br />

●<br />

On December 5th many people left at 4:00 PM. Dutch people wil immediately know the<br />

explanation: On this day we celebrate Santa Claus and are alowed to leave earlier!<br />

Grundlagen SciVis – 4.2 Multivariate Daten 86


Paralele Zeitreihen<br />

●<br />

Eine Möglichkeit paralele Ereignise darzustelen, ist die Zeitreihendaten als geschichtete<br />

Balkendiagrammen zu visualisieren. Jeder Balken steht hierbei für einen Zeitpunkt und ist<br />

aufgegliedert in die paralelen Ereignise, welche nach Bedeutung skaliert sind. Beispiel:<br />

Häufigkeit von Schlagwörtern in Zeitungsartikeln.<br />

87


Paralele Zeitreihen<br />

●<br />

●<br />

Probleme die hierbei auftreten sind:<br />

– Ein Thema ist nur schwer nachzuverfolgen (Anfang, Ende, Höhenvergleich).<br />

– Die Labels werden unübersichtlich, da die Farben nicht unterschieden werden<br />

können.<br />

Der Themenflus behebt diese Probleme, indem er zeitliche Kontinuität schaft und<br />

Themen miteinander verbindet.<br />

88


Themenfluss (ThemeRiver, Steamgraph)<br />

●<br />

●<br />

Ziel dieser Visualisierung ist die Beantwortung folgender Fragen:<br />

– Was sind die wichtigsten Themen zu einem bestimmten Zeitpunkt?<br />

– Wann hat ein Thema begonnen und wann geendet?<br />

– Welche Bereiche sind andersartig/interesant/aufalend?<br />

– Wann war ein bestimmtes Thema am wichtigsten?<br />

– Welche Themen traten zu welchen Zeitpunkt gleichzeitig auf?<br />

– Wie wichtig sind die verschiedenen Themen im Verhältnis zueinander?<br />

Nutzer haben mit dieser Visualisierung die folgenden Probleme:<br />

– Exakte Werte können nicht abgelesen werden.<br />

– Der zeitliche Vergleich ist zum Teil schwierig, da die Kurven sehr „wackelig“ sind.<br />

– Der Themenflus trägt absolute Werte ab. Hierdurch entstehen starke Verengungen<br />

an den Wochenenden, die iritierend sein können.<br />

– Die Sortierung der einzelnen Elemente ist nicht klar und hat keinen semantischen<br />

Hintergrund.<br />

89


NameVoyager<br />

●<br />

●<br />

Der NameVoyager umgeht einige dieser Probleme indem er<br />

– die Themen (hier Namen) alphabetisch sortiert.<br />

– eine fixe Basislinie verwendet und Achsen, sowie ein Giter einblendet.<br />

– Eine divergierende Farbgebung (zwei Farben: rosa für Mädchen, blau für Jungen)<br />

verwendet und die Heligkeit der Farbe durch die Häufigkeit bestimmt wird.<br />

Link zu NameVoyager:<br />

htp:/www.babynamewizard.com/voyager<br />

Grundlagen SciVis – 4.2 Multivariate Daten 90


Name Voyager<br />

Namen mit Jo*<br />

Namen mit Lat*<br />

[Baby Names, Visualization, and Social Data Analysis.<br />

Martin Watenberg. InfoVis 2005.]<br />

Namen mit O*<br />

Grundlagen SciVis – 4.2 Multivariate Daten 91


Themenfluss (ThemeRiver, Steamgraph)<br />

●<br />

●<br />

●<br />

Mit dem Design von geschichteten Graphen<br />

beschäftigt sich das Paper „Stacked Graphs –<br />

Geometry & Aesthetics“ [Byron 2008]<br />

Probleme die behandelt werden sind:<br />

– Wackler in den Kurven, die nicht in den<br />

Daten sind.<br />

– Unterschiedliche Wahrnehmung<br />

gleicher Werte in Abhängigkeit von der<br />

Steigung.<br />

– Lesbarkeit der einzelnen Schichten.<br />

– Ästhetik<br />

Diskutiert werden folgende Aspekte:<br />

– die Gesamtsilhouete<br />

– die Ordnung der Variablen<br />

– das Labeling<br />

– die Farbwahl<br />

[Filme des Sommers 2007 – Byron 2008]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 92


Gestapelte Graphen – Silhouete<br />

●<br />

●<br />

●<br />

Die Silhouete eines gestapelten Graphen wird durch<br />

die Basislinie g 0<br />

bestimmt, also der Unterkante des<br />

Graphen.<br />

Die einzelnen Zeitreihen werden hierfür als reelwertige<br />

nichtnegative stetig-diferenzierbare Funktionen f 1 , …,<br />

f n modeliert, welche auf das Interval [0,1] skaliert<br />

wurden.<br />

Die Oberkante der i-ten Funktion ist nun durch<br />

folgende Funktion g i gegeben:<br />

i<br />

g i =g 0 + ∑ f i<br />

j=1<br />

●<br />

Wählt man g0 = 0 erhält man das übliche geschichtete<br />

Liniendiagramm.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 93


Gestapelte Graphen – Silhouete<br />

●<br />

Weitere Möglichkeiten für die Berechnung der Basislinie sind:<br />

– ThemeRiver<br />

g 0 =− 1 2 ∑ i=1<br />

n<br />

f i<br />

→Symmetrisch um x-Achse, kleinster Abstand<br />

von der x-Achse, minimale Steigungen der Randkurven.<br />

– Wackler<br />

g 0 =− 1 ∑ n<br />

n1 i=1<br />

n−i1f i<br />

→Kleine Änderungen in den lokalen<br />

Ableitungen der einzelnen Ströme.<br />

– Gewichtete Wackler<br />

g' 0 =− 1<br />

n<br />

∑<br />

∑ f i i=0<br />

i−1<br />

(0.5 f i '+∑<br />

j=1<br />

f j ')f i<br />

→Kleine Änderungen in den lokalen<br />

Ableitungen der einzelnen Ströme.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 94


Gestapelte Graphen – Farbgebung<br />

●<br />

●<br />

Die Farbgebung kann die Wahrnehmung verschiedene Themen sehr stark beeinflusen. Zu<br />

beachten sind:<br />

– Wichtige Themen (Integral über die Funktion) solten dunklere/kräftigere Farben<br />

erhalten, so das sie schnel aufalen.<br />

– Kontrast zwischen benachbarten Themen solte groß genug sein, so das sie<br />

unterschieden werden können.<br />

– Das Gesamtbild solte trotzdem harmonisch bleiben.<br />

– Schlusendlich solte die Graphik auch noch gut ausehen.<br />

Byron 2008 verwendet die rechts abgebildete Farbkodierung.<br />

Sie unterstützt folgende Aspekte:<br />

– Beginn eines Themas ist farblich kodiert.<br />

●<br />

●<br />

Kalte Farben: bekannte Themen/Musiker<br />

Warme Farben: Hot Topics, neue Themen<br />

– Sinkende Sätigung mit sinkender Popularität.<br />

– Ausgewählte natürliche Farben und speziel<br />

designte Übergänge für eine gute Optik.<br />

– Nichtlineare Übergänge um neue Themen hervorzuheben.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 95


Gestapelte Graphen – Labeling<br />

●<br />

●<br />

●<br />

Bei der Beschriftung der einzelnen Themen mus auf folgende Aspekte geachtet werden:<br />

– Das Label sol visuelen Bezug zu den Daten haben.<br />

– Das Label überlagert keine anderen Labels oder Themen.<br />

– Das Label lenkt nicht von der Graphik ab.<br />

Der Algorithmus zur Detektion der besten<br />

Labelposition ist nicht angegeben (brute-force<br />

Ansatz). Denkbar ist etwa, Bereiche mit maximalem<br />

Integral zu suchen.<br />

Alternativ können standardmäßig auch keine<br />

Labels gezeigt werden und nur eingeblendet<br />

werden, wenn der Nutzer mit der Maus über ein<br />

Thema fährt.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 96


Gestapelte Graphen – Ordnung der Variablen<br />

●<br />

●<br />

Einen wichtigen Einfluß auf die<br />

Gesamterscheinung hat auch die Ordnung<br />

der Variablen.<br />

Mögliche Sortierungen sind:<br />

– Alphabetisch: Themen werden<br />

alphabetisch sortiert.<br />

→Viele Wackler und stark hervorstehende<br />

Bereiche<br />

– Anfangsdatum: Das neueste Thema ist<br />

am weitesten oben.<br />

→iritierendes Muster<br />

– Inside out: Je füher ein Thema beginnt,<br />

desto weiter rutscht es in die Mite des<br />

Datenstroms. Neuere Themen fügen<br />

sich dann links und recht an.<br />

→Starke Auschläge (meist am Anfang<br />

erscheinen am Rand) sind weniger<br />

iritierend und sorgen für weniger<br />

Wackler, Dirfts werden verhindert<br />

Grundlagen SciVis – 4.2 Multivariate Daten 97


Gestapelte Graphen – Ordnung der Variablen<br />

Sortieralgorithmus<br />

●<br />

●<br />

●<br />

●<br />

Berechne das Gewicht eines jeden Themas (Integral über die Zeit).<br />

Sortiere nach Anfangszeit.<br />

Füge das älteste Thema in eine Liste ein.<br />

Füge jedes weitere Thema ein.<br />

– Am Anfang der Liste, wenn die Summe der Gewichte der Elemente nach dem ersten<br />

Element größer ist, als die aler Elemente vor ihm.<br />

– Am Ende der Liste, sonst.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 98


Inhaltsverzeichnis<br />

4.Skalardaten<br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Wortwolken<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 Multivariate Daten 99


Darstelung von Texten<br />

Association football, more commonly known as football or soccer (etymology), is a team sport played between two<br />

teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3]<br />

The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The<br />

object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only<br />

players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball<br />

into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by<br />

the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into<br />

extra time and/or a penalty shootout, depending on the format of the competition.<br />

The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of<br />

the Game created the foundations for the way the sport is played today. Football is governed internationally by the<br />

Fédération Internationale de Football Association (International Federation of Association Football), commonly known<br />

by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four<br />

years.[4]<br />

Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />

spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the<br />

other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals<br />

at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw.<br />

Each team is led by a captain.<br />

The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms<br />

during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move<br />

the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players<br />

are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside<br />

position.<br />

In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as<br />

by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing<br />

goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the<br />

opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a<br />

free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the<br />

referee. After a stoppage, play recommences with a specified restart.[6]<br />

Frequency and top words :<br />

Word # Frequency Rank<br />

game 33 2.50% 1<br />

ball 32 2.40% 2<br />

players 32 2.40% 2<br />

goal 26 2.00% 3<br />

play 22 1.70% 4<br />

time 20 1.50% 5<br />

football 19 1.40% 6<br />

team 18 1.40% 6<br />

may 18 1.40% 6<br />

laws 17 1.30% 7<br />

At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English<br />

Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player<br />

positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main<br />

categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their<br />

opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to<br />

pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern<br />

them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the<br />

player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield<br />

players may be arranged in any combination. The number of players in each position determines the style of the<br />

team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the<br />

reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific<br />

position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of<br />

a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the<br />

team\'s manager.[10]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 100


Darstelung von Texten<br />

Association football, more commonly known as football or soccer (etymology), is a team sport played between two<br />

teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3]<br />

The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The<br />

object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only<br />

players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball<br />

into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by<br />

the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into<br />

extra time and/or a penalty shootout, depending on the format of the competition.<br />

The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of<br />

the Game created the foundations for the way the sport is played today. Football is governed internationally by the<br />

Fédération Internationale de Football Association (International Federation of Association Football), commonly known<br />

by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four<br />

years.[4]<br />

Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />

spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the<br />

other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals<br />

at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw.<br />

Each team is led by a captain.<br />

The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms<br />

during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move<br />

the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players<br />

are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside<br />

position.<br />

Frequency and top words :<br />

Word # Frequency Rank<br />

game 33 2.50% 1<br />

ball 32 2.40% 2<br />

players 32 2.40% 2<br />

goal 26 2.00% 3<br />

play 22 1.70% 4<br />

time 20 1.50% 5<br />

football 19 1.40% 6<br />

team 18 1.40% 6<br />

may 18 1.40% 6<br />

laws 17 1.30% 7<br />

In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as<br />

by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing<br />

goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the<br />

opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a<br />

free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the<br />

referee. After a stoppage, play recommences with a specified restart.[6]<br />

At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English<br />

Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player<br />

positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main<br />

categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their<br />

opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to<br />

pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern<br />

them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the<br />

player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield<br />

players may be arranged in any combination. The number of players in each position determines the style of the<br />

team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the<br />

reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific<br />

position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of<br />

a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the<br />

team\'s manager.[10]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 101


Wortwolke/-mosaik (TagCloud, Wordle)<br />

●<br />

●<br />

In einer Schlagwortwolke wird eine List von Schlagwörtern flächig<br />

dargestelt. Wichtige Wörter werden zumeist durch Skalierung<br />

hervorgehoben.<br />

Skalierung der Wörter nach Häufigkeit:<br />

mit<br />

a= n i−n min<br />

n max −n min<br />

s i<br />

=1−a⋅s min<br />

a⋅s max<br />

– n i<br />

: Häufigkeit des aktuelen Wortes<br />

– n min<br />

: Häufigkeit des seltensten Wortes<br />

– n max<br />

: Häufigkeit des häufigsten Wortes<br />

– s min<br />

: kleinste Schriftgröße<br />

– s max<br />

: größte Schriftgröße<br />

●<br />

Wordle: htp:/www.wordle.net<br />

Grundlagen SciVis – 4.2 Multivariate Daten 102


Wortwolke (TagCloud, Wordle)<br />

●<br />

Die einfachste Art dieser Darstelung ist die Wortwolke. Hier werden die Worte<br />

alphabetisch in Zeilen angeordnet. Die Größe eines Wortes entspricht wie gehabt seiner<br />

Häufigkeit.<br />

●<br />

●<br />

Vorteile:<br />

– Leicht zu implementieren<br />

– Leichtes Suchen nach bestimmten<br />

Wörtern<br />

Nachteile:<br />

– Platz wird nicht efizient ausgenutzt<br />

– Position von Wörtern kann nur wenig<br />

beeinflust werden<br />

[wikipedia: Häufigsten Schlagwörter<br />

bei Flickr]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 103


Wortmosaik (TagCloud, Wordle)<br />

●<br />

Im Wortmosaik kann die Position der einzelnen Wörter frei bestimmt werden. Häufig<br />

werden Optimierungsalgorithmen eingesetzt, die für eine kompakte Darstelung sorgen.<br />

●<br />

Vorteile:<br />

– Besere Ausnutzung des Platzes<br />

– Meist optisch ansprechender<br />

– Text kann in eine bestimmte<br />

Form eingepast werden<br />

●<br />

Nachteile:<br />

– Rechenaufwand<br />

– Suche nach bestimmten Wörtern<br />

sehr umständlich<br />

[InfoVis:Wiki]<br />

[http://manyeyes.alphaworks.ibm.com/manyeyes/]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 104


Demo Wordle<br />

●<br />

●<br />

Programm: Wortwolkengenerator Wordle unter<br />

htp:/www.wordle.net/<br />

Text: 1. Mose – Schöpfungsgeschichte (Bibel) unter<br />

htp:/www.bibel-online.net/buch/01.1-mose/1.html#1,1<br />

Grundlagen SciVis – 4.2 Multivariate Daten 105


Wortwolke Algorithmus<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

(z.B. htp:/fivefilters.org/term-extraction/)<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Grundlagen SciVis – 4.2 Multivariate Daten 106


Wortwolke Algorithmus<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Grundlagen SciVis – 4.2 Multivariate Daten 107


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Bedeutung.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Sonne<br />

Badesee<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 108


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Bedeutung.<br />

Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Sonne<br />

Badesee<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 109


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Bedeutung.<br />

Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />

Innerhalb eines begrenzten Bereiches bestimmt man für jedes Wort eine zufälige<br />

Startposition.<br />

Sonne<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

2<br />

4<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 110


Wortwolke Algorithmus<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

4<br />

Sonne<br />

2<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 111


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

4<br />

Sonne<br />

2<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 112


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

Badesee<br />

2<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 Multivariate Daten 113


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

Badesee<br />

2<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 Multivariate Daten 114


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Badesee<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 Multivariate Daten 115


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Badesee<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 Multivariate Daten 116


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 Multivariate Daten 117


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

Urlaub<br />

4<br />

Sonne<br />

5<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 Multivariate Daten 118


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

Wasser 5<br />

Urlaub<br />

4<br />

Sonne<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 Multivariate Daten 119


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

7<br />

Wasser 5<br />

Urlaub<br />

4<br />

Sonne<br />

2<br />

Fussball 3<br />

Badesee<br />

Sommer<br />

8<br />

6<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 120


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Eis 7<br />

Wasser 5<br />

Urlaub<br />

2<br />

4<br />

Sonne<br />

Fussball 3<br />

Badesee<br />

Sommer<br />

8<br />

6<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 121


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Eis<br />

Sonne<br />

Wasser<br />

Urlaub<br />

Fussball<br />

Badesee<br />

Sommer<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 Multivariate Daten 122


Wortwolken – Implementierung<br />

●<br />

●<br />

Überdeckungstest: Um zu Testen, ob ein Wort die bereits dargestelten überdeckt, gibt es<br />

zwei wesentliche Ansätze:<br />

– Geometrische Schnitberechnung zwischen Zeichen: Jedes bereits Dargestelte<br />

Zeichen wird mit den Buchstaben des neuen Wortes geschniten.<br />

– Pixelbasierte Analyse zwischen gerenderten Wörtern: Ale bereits dargestelten<br />

Wörter sind in einer Textur gespeichert. Das neue Wort wird ebenfals in einer Textur<br />

gespeichert und es wird nun pixelweise verglichen, ob die vom Wort benötigten Pixel<br />

noch frei sind.<br />

Der pixelbasierte Ansatz ist hier wesentlich efizienter, da er unabhängig von der Anzahl<br />

der Wörter ist und<br />

Grundlagen SciVis – 4.2 Multivariate Daten 123


Wahrnehmung von Wortwolken<br />

●<br />

Interpretation: Manchen Betrachter fält die Interpretation der Darstelung schwer.<br />

●<br />

Größe von Wörtern: Große Wörter ziehen mehr Aufmerksamkeit auf sich als kleine<br />

Wörter. Dies wird auch beeinflust durch Anzahl der Buchstaben und nebenstehende<br />

Wörter.<br />

●<br />

Position: Wörter im Zentrum der Wortwolke ziehen mehr Aufmerksamkeit auf sich als<br />

solche am Rand.<br />

●<br />

Informationsaufnahme: Die meisten Betrachter analysieren eher die Struktur, als das sie<br />

einzelne Wörter lesen.<br />

●<br />

Datenerkundung: Es ist eher schwierig gezielt nach Wörtern in einer Wortwolke zu<br />

suchen.<br />

●<br />

[Lohmann, S., Ziegler, J., Tetzlaf, L. Comparison of<br />

Tag Cloud Layouts: Task-Related Performance and<br />

Visual Exploration, T. Gros et al. (Eds.): INTERACT<br />

2009, Part I, LNCS 5726, pp. 392–404, 2009.]<br />

Grundlagen SciVis – 4.2 Multivariate Daten 124


Wortwolke – Probleme und Lösungsansätze<br />

●<br />

Mangelnde Interaktivität: Wortwolken werden zumeist einmal berechnet und müsen<br />

dann so interpretiert werden, wie sie sind.<br />

→ Erweiterung um eine Zoomfunktion, die es dem Nutzer ermöglicht minimale<br />

Häufigkeitswerte anzugeben. (Achtung: Kohärenz mus gegeben bleiben)<br />

●<br />

Keine zeitliche Abgrenzung: Die zeitliche Information die in Textdaten steckt, welche<br />

über einen langen Zeitraum aufgezeichnet wurden werden normalerweise nicht<br />

abgebildet (Häufigkeit wird relativ zum Gesamtbestand berechnet).<br />

→ Zeitpunkt des ersten Auftrits wird mitgespeichert und in die Skalierung<br />

hineingerechnet. (Unterscheidung zwischen Al-Time-Favourites und zeitlich begrenzten<br />

Häufungen.)<br />

●<br />

Keine semantische Anordnung: Begriflich ähnliche Wörter sind räumlich nicht nah<br />

angeordnet.<br />

→Verfahren aus der Computerlinguistik einbeziehen um zusammengehörige Wörter zu<br />

identifizieren und benachbart anzuordnen.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 125


Literatur<br />

●<br />

H. Reijner, Panopticon Software. The Development of the Horizon Graph. Vis Workshop, 2008.<br />

●<br />

Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.<br />

●<br />

●<br />

●<br />

●<br />

●<br />

L. Wilkinson, A. Anand, R. Grosman: High-Dimensional Visual Analytics: Interactive Exploration Guided by<br />

Pairwise Views of Point Distributions. In: IEEE Transactions on Visualization and Computer Graphics. 12, Nr. 6,<br />

2006, S. 1363-1372.<br />

Wei Peng, Mathew O. Ward, and Elke A. Rundensteiner. 2004. Cluter Reduction in Multi-Dimensional Data<br />

Visualization Using Dimension Reordering. In Proceedings of the IEEE Symposium on Information<br />

Visualization (INFOVIS '04). IEEE Computer Society, Washington, DC, USA, 89-96.<br />

Eisen, M., Spelman, P., Brown, P., and Botstein, D. (1998), „Cluster analysis and display of genome-wide<br />

expresion paterns," Proceedings of the National Academy of Sciences, 95, 14863-14868.<br />

A. Dasgupta, R. Kosara. Pargnostics: screen-space metrics for paralel coordinates. IEEE Trans Vis Comput<br />

Graph. 2010;16(6):1017-26.<br />

Lee Byron and Martin Watenberg. 2008. Stacked Graphs – Geometry & Aesthetics. IEEE Transactions on<br />

Visualization and Computer Graphics 14, 6 (November 2008), 1245-1252.<br />

Grundlagen SciVis – 4.2 Multivariate Daten 126

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!