Lucidi modulo Data Mining
Lucidi modulo Data Mining
Lucidi modulo Data Mining
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Caratteristiche del processo<br />
KDD<br />
Il processo KDD è iterativo e interattivo<br />
<br />
<br />
iterativo perché composto di passi successivi<br />
iterazione a ogni passo (può essere necessario ripetere<br />
alcuni passi prima di completare l’intero processo)<br />
interattivo perché è necessario comprendere il<br />
processo e le possibilità di sviluppo a ogni passo<br />
non è possibile definire un meccanismo o una formula che<br />
sia sempre valida in ogni situazione<br />
Nel processo KDD si possono generalmente<br />
individuare diversi passi distinti<br />
<br />
si comincia con la comprensione del dominio e si<br />
termina con l’acquisizione di nuova conoscenza<br />
I passi del processo KDD<br />
1. Comprensione del dominio applicativo<br />
passo introduttivo per definire obiettivi e scelte successive<br />
formulazione precisa del problema che si sta provando a<br />
risolvere per evitare spreco tempo e denaro<br />
2. Esplorazione iniziale dei dati :<br />
Fase che include diversi meccanismi di preparazione dei dati<br />
“pulitura” dei dati (per esempio per identificare e rimuovere dati<br />
codificati in modo errato),<br />
trasformazione dei dati, la selezione di sottoinsiemi di record,<br />
preliminare selezione delle caratteristiche<br />
descrizione e visualizzazione dei dati (per esempio utilizzando<br />
statistiche descrittive, correlazioni, scatterplot, box plot, ecc.).<br />
<br />
La descrizione dei dati consente di ottenere una fotografia delle<br />
caratteristiche importanti dei dati (come ad esempio la tendenza<br />
centrale e le misure di dispersione). Le tendenze sono spesso più facili<br />
da individuare visivamente che attraverso liste e tabelle numeriche.<br />
2