50 Die genaue Beschreibung ergibt sich aus folgender Datei: Regression tree: *** Tree Model *** snip.tree(tree = tree(formula = Gesamtmean ~ Geschlecht + Alter + Anzahlum + Noteum + Schulartkopie + Klassefak + Klassensatzfak, data = gepruefteEndtabelle27kurz, na.action = na.exclude, mincut = 3, minsize = 6, mindev = 0), nodes = c (12, 22, 23, 7, 4, 13, 10)) Variables actually used in tree construction: [1] "Klassensatzfak" "Anzahlum" "Noteum" "Geschlecht" Number of terminal nodes: 7 Residual mean deviance: 0.111 = 34.5 / 311 Distribution of residuals: Min. 1st Qu. Median Mean 3rd Qu. Max. -0.987 -0.20 -0.00567 -2.17e-016 0.22 0.905 node), split, n, deviance, yval * denotes terminal node 1) root 318 53.00 2.0 2) Klassensatzfak:1,3,5,6,7,9,14,15,17,20 199 19.00 1.8 4) Klassensatzfak:1,3,6,20 77 4.00 1.7 * 5) Klassensatzfak:5,7,9,14,15,17 122 13.00 1.9 10) Klassensatzfak:5,7,14,15 80 6.50 1.9 * 11) Klassensatzfak:9,17 42 6.10 2.0 22) Anzahlum3.5 10 0.96 1.7 * 3) Klassensatzfak:11,12,16,21,22 119 20.00 2.3 6) Noteum2.5 92 16.00 2.3 * Abbildung 26 Output <strong>für</strong> den Regressionsbaum Die Graphiken sind weitgehend selbsterklärend. Man sieht, dass Klassensatz, Note, Geschlecht <strong>und</strong> Anzahl als Kriterien fungieren, um einen Regressionsbaum <strong>für</strong> die Variable Gesamtmittel zu erstellen. Für einen Schüler mit Klassensatz = a (bzw. 1) wird als Gesamtmittel 1.7 vorhergesagt usw. Klassensatz = a in der Graphik steht dabei <strong>für</strong> Klassensatz = 1, da <strong>für</strong> faktorielle Variablen dort eine Buchstabenkodierung vorgenommen wird, um auch höhere Werte als 10 einstellig zu kodieren. Entsprechend bezeichnet Klassensatz aber den ersten, zweiten, fünften <strong>und</strong> fünfzehnten Ausprägungswert des Faktors Klassensatz, mithin die Klassensätze 1, 3, 6 <strong>und</strong> 20. In der Datei-Beschreibung des Regressionsbaumes ist aber die ursprüngliche Bezeichnung gewählt. Der gerade angesprochene Fall Klassensatz: abeo (bzw. 1, 3, 6, 20) findet sich dort unter „4“. Der damit bezeichnete Knoten ist ein Endknoten mit 77 Mitgliedern <strong>und</strong> einem Durchschnittswert von 1,7 <strong>für</strong> das Gesamtmittel. Bei der Addition der Endknotengrößen ergibt sich nur 318, weil Fälle mit fehlenden Werten in einer der Variablen ausgeschlossen werden müssen. Insgesamt ist der Baum <strong>und</strong> seine Knotenpunkte so gewählt worden, dass er die Daten möglichst genau <strong>und</strong> sparsam beschreibt. Als Vorteile hat man neben einer einfachen Beschreibung dann auch eine durchsichtige Darstellung der Struktur der Daten. Allerdings sind derartige Bäume im hohen Maße instabil, das heißt sie hängen stark von den gewählten Verfahren <strong>und</strong> Parametern <strong>für</strong> die zugr<strong>und</strong>e liegende Optimierung ab. Um nicht Artefakte zu produzieren, ist daher ein methodisch vorsichtiges Vorgehen gefordert. Im obigen Fall wurde ausgehend von den Variablen aus der Tabelle zunächst ein großer Baum erzeugt, der dann durch so genanntes „Pruning“ zurechtgestutzt wurde. Es ergab sich eine Sequenz von Bäumen mit zunehmender bzw. abnehmender Anzahl von Endknoten. Die so genannte „Deviance“ (als Maß <strong>für</strong> die Ungenauigkeit des Baumes) ist in folgender Graphik skizziert:
deviance 30 35 40 45 50 Devianzabnahme 14.00000 0.20000 0.15000 0.08300 0.03300 0.01300 0.00300 1 20 40 60 Abbildung 27 Devianzabnahme <strong>für</strong> einige Regressoinsbäume Grob gesprochen sind nun die Anzahlen von Knoten besonders interessant, bei denen man eine möglichst kleine Devianz erreicht. Das Augenmerk richtet sich daher auf solche Knotenanzahlen, die zu großen Abstiegen („hohen Treppenstufen“) gehören. Es lohnt sich gewissermaßen solche Knoten mit einzubeziehen, da man <strong>für</strong> diesen Aufwand relativ viel Ertrag – gemessen als Abnahme der Devianz – erhält. Im vorliegenden Fall legt diese Überlegung nahe einerseits mindestens 7 (wie im obigen Beispiel) <strong>und</strong> andererseits höchstens 15 oder 21 Endknoten zu wählen. Der „volle“ Baum (unter Beachtung einiger voreingestellter Parameter) mit 71 Endknoten wäre: Klassensatz:b Klassensatz:abeo Abbildung 28 Vollständiger Regressionsbaum mit 71 Endknoten size Klassensatz:abdefhklno | Klassensatz:dfkl Geschlecht:b Note