25.12.2012 Views

Dispense

Dispense

Dispense

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.6. ESERCIZI SULLE SERIE STORICHE 243<br />

Order selected 12 sigma^2 estimated as 4.715e+13<br />

La varianza dei residui, ottenibile anche col comando ar.best$var, è pari a 4:715e + 13.<br />

Il comando ha scelto il modello col miglior AIC. Il modello è<br />

(Xn ) = a1(Xn 1 ) + : : : + a12(Xn 12 ) + "n<br />

dove =mean(IT4) e la varianza dell’errore è appunto la varianza non spiegata.<br />

Dobbiamo spiegare vari concetti. Cosa sia l’indice di Akaike e cosa sia la variaza spiegata,<br />

in vista del giudizio sul modello trovato che discuteremo sotto.<br />

1) Il criterio di Akaike (Akaike Information Criterion, AIC ) consiste nel calcolare<br />

AIC = 2k + n log (RSS)<br />

dove k è il numero di parametri del modello ed n il numero di osservazioni, e scegliere il<br />

modello col minor AIC. A volte il software calcola delle grandezze legate in modo a¢ ne<br />

formula precedente (es. 2k + n log (2 RSS=n) + n che di¤erisce dalla precedente per una<br />

costante), che comunque assolvono lo stesso scopo di confrontare diversi modelli tra loro. La<br />

quantità AIC può anche essere negativa (log (RSS) può essere arbitrariamente negativo).<br />

Per questo, spesso il software calcola AIC rispetto ad un valore di riferimento (cioè aggiunge<br />

una costante) in modo da avere valori positivi. Se si stanno confrontando metodi, si può<br />

prendere l’AIC del modello migliore come punto di riferimento.<br />

Se si minimizzasse solo RSS lasciando libero il numero di parametri, si troverebbe il p<br />

massimo possibile e si cadrebbe in over…tting (pessimo per la predizione). Se si minimizzasse<br />

solo k, si troverebbe sempre il modello banale Xn = b, b dato dalla media dei dati. Diventa<br />

come un problema di minimizzazione multiobiettivo. Si minimizza la somma per cercare una<br />

situazione intermedia. Si prende log (RSS) invece che RSS per riportare il valore di RSS ad<br />

un livello comparabile con k (questo commento è vago, dà solo l’idea del problema).<br />

2) La varianza spiegata è un concetto di carattere generale, che ritroviamo nei più svariati<br />

contensi, e deve essere de…nito volta per volta a seconda del contesto. Per una serie storica<br />

x1; :::; xn, da un lato c’è la varianza (empirica) della serie, che indichiamo con S2 X , dall’altro,<br />

una volta trovato un modello (es. Xn = Tn + Sn + "n), si può calcolare la varianza (empirica)<br />

dei residui "1; :::; "n, , che indichiamo con S2 E . Concettualmente, la prima, S2 X , rappresenta<br />

l’imprevedibilità dei dati originari, la seconda, S2 E , l’imprevedibilità rispetto a ciò che può<br />

prevedere il modello, cioè l’imprevedibilità rimasta dopo aver scoperto il modello. Allora<br />

la grandezza S2 E<br />

S 2 X<br />

rappresenta la percentuale di imprevedibilità rimasta dopo aver scoperto<br />

il modello, mentre la percentuale di imprevedibilità spiegata dal modello, detta varianza<br />

spiegata, è<br />

varianza spiegata = 1<br />

S 2 X<br />

Per convenzione, col termine varianza spiegata si intende la percentuale di varianza spiegata,<br />

che ha il pregio di essere un numero tra 0 ed 1, quindi a carattere universale, per così dire:<br />

possiamo cioè apprezzare la bontà di un metodo sia rispetto ad un altro (per questo bastava<br />

la varianza dei residui) sia rispetto ad una generica esperienza sviluppata su tanti esempi.<br />

Volendo, si potrebbe anche impostare un test statistico, su questo indicatore universale.<br />

Dopo queste precisazioni, torniamo all’esercizio.<br />

S 2 E

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!