12.02.2014 Views

dfgagfa

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Mineria de dades<br />

Grau d'Estadística Aplicada de la UAB<br />

Convocatòria ordinària 14 de juny de 2011 - Part teòrica<br />

Professor: Joan Valls Marsal<br />

1. A continuació es mostren alguns resultats obtinguts en l'ajust d'un arbre de regressió a les<br />

dades cpus.<br />

> library(MASS); library(rpart);data(cpus)<br />

> cpus.rpart cpus.rpart<br />

n= 209<br />

node), split, n, deviance, yval<br />

* denotes terminal node<br />

1) root 209 5380227.00 105.61720<br />

2) mmax< 28000 182 585882.70 60.71978<br />

4) cach< 27 141 97850.55 39.63830 *<br />

5) cach>=27 41 209863.00 133.21950<br />

10) cach< 96.5 34 96488.38 114.44120 *<br />

11) cach>=96.5 7 43151.71 224.42860 *<br />

3) mmax>=28000 27 1954483.00 408.25930<br />

6) cach< 80 19 349169.20 299.21050 *<br />

7) cach>=80 8 842763.50 667.25000 *<br />

> printcp(cpus.rpart)<br />

Regression tree:<br />

rpart(formula = perf ~ syct + mmin + mmax + cach + chmin + chmax,<br />

data = cpus)<br />

Variables actually used in tree construction:<br />

[1] cach mmax<br />

Root node error: 5380227/209 = 25743<br />

n= 209<br />

CP nsplit rel error xerror xstd<br />

1 0.527833 0 1.00000 1.01166 0.318503<br />

2 0.141732 1 0.47217 0.49572 0.160928<br />

3 0.051702 2 0.33043 0.42854 0.129524<br />

4 0.013052 3 0.27873 0.31577 0.096899<br />

5 0.010000 4 0.26568 0.31547 0.096921<br />

> var(cpus$perf)<br />

[1] 25866.48<br />

Realitzeu els càlculs següents:<br />

(a) Determineu la partició de la suma total de quadrats (TSS) a partir de la suma de<br />

residus al quadrat (RSS) i la part explicada per l'arbre de regressió, per a cadascuna<br />

de les particions recursives. Mostreu els resultats en una taula, on a més, es presenti<br />

el coecient de determinació obtingut en cada nova partició i el nombre de fulles<br />

corresponents.<br />

1


2. Considereu la xarxa neuronal següent, obtinguda a partir de l'objecte iris.<br />

> library(nnet); library(MASS); data(iris)<br />

> best.nnet h1 i4->h1<br />

0.91 -0.41 1.43 -0.28 -2.01<br />

b->h2 i1->h2 i2->h2 i3->h2 i4->h2<br />

-5.41 -27.35 9.21 28.49 9.97<br />

b->o1 h1->o1 h2->o1<br />

-18.38 72.11 -7.36<br />

b->o2 h1->o2 h2->o2<br />

13.97 11.10 -6.73<br />

b->o3 h1->o3 h2->o3<br />

4.71 -84.02 13.60<br />

Realitzeu els càlculs següents:<br />

(a) Representeu gràcament la xarxa neuronal ajustada.<br />

(b) Especiqueu quin és el model associat a la xarxa neuronal (emprant notació compacta)<br />

i també a partir dels propis valors ajustats per als paràmetres.<br />

(c) Proporcioneu la probabilitat predita per a cadascuna de les espècies obtinguda per al<br />

lliri que ocupa la posició 139.<br />

> iris[139,]<br />

Sepal.Length Sepal.Width Petal.Length Petal.Width Species<br />

139 6 3 4.8 1.8 virginica<br />

2


Solucions:<br />

1. Exercici 1:<br />

Partició CP Nombre fulles R 2 TSS RSS SSE (explicada per l'arbre)<br />

0 0.52 1 0 5380227 5380227 0<br />

1 0.14 2 0.52 5380227 2540366 2839861<br />

2 0.05 3 0.66 5380227 1777815 3602412<br />

3 0.013 4 0.72 5380227 1499646 3880581<br />

4 0.01 5 0.73 5380227 1429423 3950804<br />

2. Exercici 3:<br />

(a)<br />

(b) y k = φ ( α k + ∑ 2<br />

h=1 w hkφ ( α h + ∑ 4<br />

i=1 w ihx i<br />

))<br />

(per k=1,2,3 i on φ(x) =<br />

e x<br />

1+e x )<br />

(c) Pr(setosa)=0 ; Pr(versicolor)=0.154 ; Pr(virginica)= 0.846<br />

3

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!