20.04.2015 Views

Lucidi modulo Data Mining

Lucidi modulo Data Mining

Lucidi modulo Data Mining

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Missing data<br />

Missing completely at random (MCAR)<br />

<br />

<br />

I dati mancanti sono distribuiti random su tutte le<br />

features<br />

La presenza di MCAR può essere confermata<br />

suddividendo i campioni in due gruppi (con e<br />

senza dati mancanti) e effettuando un t-tests sulle<br />

differenze medie tra le features per evidenziare se<br />

i due gruppi di campioni presentano (o meno)<br />

differenze significative<br />

Missing data<br />

<br />

<br />

Missing at random (MAR)<br />

I dati mancanti non sono distribuiti random su tutte le<br />

feature ma solo in alcune<br />

MAR sono più comuni dei MCAR.<br />

Non-ignorable missingness (Missing Not at random)<br />

Esempi di dati mancanti più probelmatici da trattare<br />

I missing values non sono distribuiti random su tutte le<br />

osservazioni, ma la probabilità di trovare un dato mancante<br />

non può essere stimata utilizzando le variabili nel modello<br />

Trattamento: sostituire il dato mancante in base a altri dati<br />

esterni al compito di DM<br />

26

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!