PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV

More documents

Recommendations

Info

Figura 30. Calidad del modelo generado para los datos de entrenamientoCon lo que tenemos un 96,5% de acierto. Es decir un error de sólo el 3,5% sobre los datos deentrenamiento. Este modelo es muchísimo mejor que sí sólo nos guiamos por la distribución, que nosdaría un error de más del 50% (el 54,5% de las veces el medicamento DRUGY no es el adecuado).De todas maneras, es posible hacerlo mejor... ¿pero cómo? ¿con otro tipo de algoritmo deaprendizaje, una red neuronal, p.ej.?Es posible que otros modelos (p.ej. las redes neuronales) dieran mejor resultado (ya loprobaremos), pero el asunto aquí es que igual no hemos examinado suficientemente los datos deentrada.Vamos a analizar, con más detenimiento, los atributos de entrada del problema. Es posible que sepuedan establecer mejores modelos si combinamos algunos atributos. Podemos analizar pares deatributos utilizando diferentes gráficos.Para comparar los atributos discretos, el gráfico “Malla” suele ser conveniente. Creemos un nodo“malla” y enganchemos el nodo de fuentes de datos “drug1n” con él. Al editarlo, decimos que vamos aexaminar los campos discretos (Sex, BP, Cho, Drug):Figura 31. Configurando un nodo mallaUsaremos valores “Absolutos”. Ahora ejecutaremos el nodo:20
Figura 32. Relación (asociaciones) entre los atributos discretos Sex x BP x Cho x Drug con un nivel de 5(izquierda) y uno de 35 (derecha)Las líneas más gruesas representan asociaciones más fuertes. A un nivel absoluto de 5 no parecever ninguna relación especial entre los distintos valores de los atributos discretos, exceptuando laclase (valor de salida “drug”), que va decreciendo la intensidad de una manera regular para losfármacos menos usuales. Pero si movemos el límite a 35 podemos ver algunas cosas interesantes: lapresión “High” y “Low” está más asociada a hombres que a mujeres (sólo se asocia la presión “High”).En cualquier caso, este tipo de gráfico nos permite conocer un poco mejor la relación entre losatributos discretos (no numéricos) pero no parece aportar mucha información de cómo podemosintentar mejorar el modelado.Estudiemos la relación que hay entre los atributos continuos (numéricos) y su influencia en laclase. Para ello vamos a utilizar el nodo “gráfico” de la categoría “gráficos”. Añadimos el nodo al áreade trabajo y lo enganchamos con el nodo de entrada “drug1n”. Lo editamos y seleccionaremos quequeremos comparar el Na y el K. Para ello al editar el nodo “gráfico” pondremos en el Campo X elcampo Na, en el Campo Y el campo K y en el “Superponer” la clase Drug, tanto en “color” como en“forma”. Lo demás se deja por defecto, como se ve en la siguiente figura:Figura 33. Editando un nodo GráficoEn la pestaña de “Aspecto” podemos cambiar el fondo del gráfico a color blanco, para que se veanmás claros los colores. El resultado al ejecutar el gráfico es el siguiente:21
Page 3: Figura 1. Una ruta en Clementine.Co
Page 6 and 7: 1.5 Modelado (Modelling)La siguient
Page 9 and 10: 2. Un primer ejemploVamos a constru
Page 12 and 13: Ahora vamos a unirlos manualmente.
Page 14 and 15: No, de momento. Pinchamos dos veces
Page 16 and 17: 3. Un problema de clasificaciónVam
Page 18 and 19: Figura 25. Pasos para visualizar la
Page 22 and 23: Figura 34. Resultado de un nodo Gr
Page 25 and 26: Además si analizamos su calidad co
Page 27 and 28: marcamos que nos genere el campo de
Page 29: Figura 47. Ejemplos agrupados por c

PrÃ¡ctica 1 de MinerÃ­a de Datos - PoliformaT - UPV

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV