Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC

UIVERSIDAD DE EXTREMADURA 

Escuela Politécnica 

Ingeniería informática 

Proyecto Fin de Carrera 

Estudio comparativo de diferentes 

arquitecturas neuronales para tratamiento 

de imágenes hiperespectrales 

Cristina Barra Arias 

Diciembre, 2008

Proyecto fin de carrera. Cristina Barra Arias 

UIVERSIDAD DE EXTREMADURA 

Escuela Politécnica 

Ingeniería informática 

Proyecto Fin de Carrera 

Estudio comparativo de diferentes 

arquitecturas neuronales para tratamiento 

de imágenes hiperespectrales 

Autora: Cristina Barra Arias 

Fdo.: 

Director: Antonio Plaza Miguel. 

Fdo.: 

Co-director: Javier Plaza Miguel. 

Fdo.: 

CALIFICACIÓN: 

FECHA: 

Tribunal Calificador 

Presidente: Rosa Mª Pérez Utrero 

Fdo.: 

Secretario: Pedro Luis Aguilar 

Fdo.: 

Vocal: Pablo Martínez Cobo 

Fdo.: 

2

Estudio comparativo de diferentes arquitecturas neuronales para tratamiento de imágenes hiperespectrales 

Resumen 

El presente proyecto fin de carrera presenta un estudio comparativo de 

diferentes clasificadores para análisis de datos hiperespectrales obtenidas de forma 

remota. Las técnicas comparadas incluyen los clasificadores Maximum Likelihood 

(ML), Self-Organizing Map (SOM), Multi-layer Perceptron (MLP), y Support Vector 

Machine (SVM). El principal objetivo del estudio es realizar una comparativa entre 

dichos métodos y, particularmente, analizar la respuesta de dichos clasificadores en 

presencia de un conjunto muy limitado de patrones de entrenamiento, situación que 

suele ser habitual en aplicaciones de observación remota de la tierra debido a la 

dificultad de generar este tipo de información sobre el terreno. El estudio comparativo 

se ha realizado sobre dos de las imágenes más representativas en la literatura 

dedicada a clasificación de datos hiperespectrales: una imagen obtenida por el sensor 

Airborne Visible Infra-Red Imaging Spectrometer (AVIRIS) de NASA Jet Propulsión 

Laboratory sobre la región Indian Pines en Indiana, Estados Unidos, y una imagen 

obtenida por el sensor Reflective Optics Spectrographic Imaging System (ROSIS) de 

la Agencia Espacial Alemana (DLR) sobre la ciudad de Pavía, en Italia. Ambas 

imágenes disponen de información verdad-terreno de gran calidad y representan casos 

de estudio que permiten comparar una imagen de elevada resolución espectral y 

moderada resolución espacial (AVIRIS Indian Pines) frente a una imagen de elevada 

resolución espacial y moderada resolución espectral (DAIS Pavía). En ambos casos, 

se estudia el efecto de utilizar la imagen completa en la clasificación o de aplicar 

transformaciones sobre la imagen original para reducir su dimensionalidad, tales 

como la técnica de análisis de componentes principales (PCA) o la fracción mínima 

de ruido (MNF), lo cual tiene implicaciones en cuanto al número mínimo de patrones 

de entrenamiento necesarios para obtener una clasificación adecuada (teniendo 

presente el objetivo de utilizar el mínimo número de patrones de entrenamiento 

posible). Los resultados obtenidos ofrecen interesantes conclusiones que permiten 

analizar de forma detallada la precisión de los clasificadores comparados con dos 

imágenes de referencia en la literatura y, particularmente, la capacidad de dichos 

clasificadores de funcionar con un conjunto muy limitado de patrones de 

entrenamiento, con vistas a su utilización en aplicaciones reales. El estudio 

cuantitativo y comparativo presentado en el trabajo supone una novedad en la 

literatura dedicada a clasificación supervisada de datos hiperespectrales. 

3

Proyecto fin de carrera. Cristina Barra Arias 4


ÍNDICE DE CONTENIDOS 

Resumen.........................................................................................................................3 

1. Motivaciones y objetivos .......................................................................................11 

1.1 Motivaciones.........................................................................................11 

1.2 Objetivos...............................................................................................12 

2 Introducción ...........................................................................................................13 

2.1 Concepto de imagen hiperespectral ......................................................13 

2.2 El problema de la mezcla......................................................................15 

2.3 Clasificación .........................................................................................16 

2.4 Conceptos básicos sobre redes neuronales ...........................................19 

2.5 Clasificación de redes neuronales.........................................................21 

2.5.1 Categorización:........................................................................................21 

2.5.2 Computación neuronal en análisis hiperespectral ..................................23 

2.5.2.1 Arquitecturas no supervisadas: ............................................................24 

2.5.2.2 Arquitecturas supervisadas: .................................................................24 

2.6 Técnicas utilizadas................................................................................26 

2.6.1 Maximum Likelihood (Máxima probabilidad).........................................26 

2.6.2 SVM (Support Vector Machine)..............................................................28 

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP) .......................32 

2.6.4 Self-Organizing Map (SOM)....................................................................35 

2.7 Técnicas de preprocesado .....................................................................36 

2.7.1 Transformación Principal Component Analysis (PCA) ..........................37 

2.7.2 Transformación Minimum oise Fraction (MF) ..................................40 

3. Metodología ...........................................................................................................42 

3.1 Maximum likelihood (ML) ...................................................................43 

3.2 Multi-Layer Perceptron (MLP).............................................................44 

3.3 Support Vector Machine (SVM)...........................................................46 

3.4 Self-Organizing Map (SOM) ................................................................48 

3.5 Proceso de entrenamiento para todos los clasificadores.......................50 

3.5.1 Preprocesamiento .............................................................................51 

3.5.2 Conjunto de entrenamiento...............................................................51 

3.5.3 Post clasificación..............................................................................52 

4 Análisis y discusión de resultados .........................................................................54 

4.1 Introducción ..........................................................................................54 

4.2 Imágenes tratadas..................................................................................55 

4.2.1 AVIRIS Indian Pines .........................................................................55 

4.2.2 DAIS 7915 sobre Pavia.....................................................................57 

4.3 Modificaciones sobre las imágenes ......................................................59 

4.4 Estudio con la imagen AVIRIS Indian Pines........................................62 

5


4.4.1 ML.....................................................................................................62 

4.4.2 SOM ..................................................................................................65 

4.4.3 Multi-Layer Perceptron (MLP).........................................................66 

4.4.4 SVM...................................................................................................70 

4.4.4.1 SVM con transformadas MF y PCA...............................................73 

4.4.5 Resumen de la imagen AVIRIS Indian Pines ....................................76 

4.5 Estudio de la imagen DAIS 7915 sobre Pavia......................................77 

4.5.1 ML.....................................................................................................77 

4.5.2 SOM ..................................................................................................80 

4.5.3 MLP...................................................................................................83 

4.5.4 SVM...................................................................................................86 

4.5.5 Resumen DAIS 7915 sobre Pavia .....................................................91 

4.6 Discusión de resultados y análisis comparativo....................................92 

5 Conclusiones y líneas futuras de trabajo..............................................................102 

6 Referencias...........................................................................................................106 

6


LISTA DE FIGURAS 

Fig. 2.1 Concepto de imagen hiperespectral ......................................................................................... 14 

Fig. 2.2 . Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 

bandas) y el sensor hiperespectral AVIRIS (224 bandas) ..................................................................... 15 

Fig. 2.3 Concepto de píxel puro y píxel mezcla ..................................................................................... 16 

Fig. 2.4 Ejemplo de construcción de la matriz de confusión ................................................................. 18 

Fig. 2.5 Esquema de una neurona artificial .......................................................................................... 21 

Fig. 2.6 Esquema de funcionamiento SVM............................................................................................ 29 

Fig. 2.7 Perceptrón multicapa............................................................................................................... 33 

Fig. 2.8 Esquema SOM.......................................................................................................................... 35 

Fig. 2.10 Reducción dimensional........................................................................................................... 37 

Fig. 2.11 Ilustración gráfica de la transformación PCA....................................................................... 38 

Fig. 2.12 Ejemplo de aplicación de la transformada PCA sobre una imagen hiperespectral real. ...... 39 

Fig. 2.13. Ejemplo de aplicación de la transformada MF sobre una imagen hiperespectral real. .... 41 

Fig. 3.1 Esquema de funcionamiento ML .............................................................................................. 43 

Fig. 3.2 Esquema general de funcionamiento de MLP.......................................................................... 44 

Fig. 3.3 Diagrama de flujo SVM............................................................................................................ 47 

Fig. 3.4 Esquema general de SOM ........................................................................................................ 49 

Fig. 3.5 Matriz de entrenamiento SOM ................................................................................................. 50 

Fig. 3.6 Esquema general de funcionamiento........................................................................................ 51 

Fig. 3.7 Patrones de entrenamiento extremo, core y borde................................................................... 52 

Fig. 4.1Imagen de una banda de AVIRIS Indian Pines ......................................................................... 56 

Fig. 4.2 Verdad terreno AVIRIS Indian Pines ....................................................................................... 56 

Fig. 4.3 Conjuntos de entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d) 50%.56 

Fig. 4.4 Imagen de una banda de DAIS 7915 sobre Pavia................................................................... 58 

Fig. 4.5 Verdad terreno de la imagen DAIS 7915 sobre Pavia ............................................................. 58 

Fig. 4.6 Conjuntos de entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%. ... 58 

Fig. 4.7 (a) Banda 6 y (b) banda 1de la imagen de AVIRIS Indian Pines. ............................................ 59 

Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20% de 

los píxeles de cada clase (86.79% de acierto). (b) Imagen clasificada mediante ML con 

preprocesamiento MF entrenando con un 20% de los píxeles de cada clase (88.30% de acierto). (c) 

Verdad terreno para la escena de AVIRIS Indian Pines........................................................................ 64 

Fig. 4.9 Resumen del comportamiento global del clasificador ML al entrenarlo con conjuntos de 

patrones de tamaño creciente (5%, 10%, 20% y 50%).......................................................................... 64 

Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab .................................................................. 66 

Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones............................................................ 66 

Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto del 82.50%, (b) 10% con un 

acierto del 83.33%, (c) 20% con un acierto del 85.54% y (d) 50% con un acierto del 86.7%.............. 69 

Fig. 4.13 Resumen del comportamiento global del clasificador MLP utilizando diferentes kernels 

(funciones de base radial, lineal, polinómico y sigmoide) al entrenarlo con conjuntos de patrones de 

tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 70 

Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% de los píxeles de cada clase y 

utilizando el kernel lineal (74.15% de acierto). (b) Imagen clasificada mediante SVM entrenando con 

un 50% de los píxeles de cada clase y utilizando el kernel lineal (90.66% de acierto). (c) Verdad 

terreno para la escena de AVIRIS Indian Pines. ................................................................................... 71 

Fig. 4.15 Resumen del comportamiento global del clasificador SVM utilizando diferentes kernels 



Fig. 4.16 Comparación de resultados SVM con preprocesamiento y un conjunto de entrenamiento del 

50%, (a) clasificación PCA, el acierto es del 85.66%. (b) clasificación MF, el acierto es del 88.59% 

y (c) verdad terreno de AVIRIS Indian Pines. ....................................................................................... 74 




Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje de 

acierto de 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un porcentaje 

de acierto de 97.60% y (c) clasificación ML con la imagen con preprocesamiento MF, con un 

porcentaje de acierto de 97.30%. En todos los casos con el 10% de entrenamiento. (d) verdad terreno 

de la imagen DAIS 7915 sobre Pavia.................................................................................................... 78 

7


Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% de entrenamiento. (b) clasificación ML con el 

5% de entrenamiento y con tratamiento de imagen MF. (c) verdad terreno. ..................................... 80 

Fig. 4.20 Verdad Terreno de la imagen DAIS 7915 sobre Pavia .......................................................... 81 

Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc 

1000it. Acierto 84.7%............................................................................................................................ 81 

Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto de entrenamiento del 

20% con un resultado de 98.75% y (b) verdad terreno de la imagen DAIS 7915 sobre Pavia. ............ 85 

Fig. 4.23 (a) Clasificación de la imagen DAIS 7915 sobre Pavia con un entrenamiento 20% learning 

rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y 10000 

iteraciones. (c) Verdad terreno de la imagen DAIS 7915 sobre Pavia.................................................. 85 

Fig. 4.24 (a) clasificación SVM con kernel sigmoide y 5% de entrenamiento. (b) clasificación SVM con 

el kernel lineal y 50% de entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c) Verdad terreno 

de la imagen DAIS 7915 sobre PAVIA. ................................................................................................. 86 

Fig. 4.25 Clasificación SVM con un conjunto de entrenamiento del 20% y distintos kernel, (a) lineal, 

(b) polinómico, (c) RBF, (d) sigmoide para la imagen DAIS 7915 sobre PAVIA. ................................ 88 

Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto del 20% del tamaño 

total de píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF............................. 89 

Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian Pines y la 

imagen DAIS 7915 sobre Pavia............................................................................................................. 92 

Fig. 4.28 Resultados de la clasificación SOM....................................................................................... 93 

Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines......................................................................... 94 

Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia.................................................... 94 

Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre Pavia 

............................................................................................................................................................... 95 

Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines .............................................................. 96 

Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia......................................... 96 

Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines ...................... 97 

Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre Pavia. 98 

Fig. 4.36 Tiempo empleado por los diferentes clasificadores ............................................................... 99 

Fig. 4.37 Clasificación general AVIRIS Indian Pines ......................................................................... 100 

Fig. 4.38 Clasificación general de la imagen DAIS 7915 sobre Pavia ............................................... 101 

8


LISTA DE TABLAS 

Tabla 4.1 AVIRIS Indian Pines conjuntos de entrenamiento y número de total de píxeles por clase ... 57 

Tabla 4.2. Conjuntos de entrenamiento y número de píxeles totales etiquetados de la imagen DAIS 

7915 sobre Pavia ................................................................................................................................... 59 

Tabla 4.3. Separabilidad de AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn min. E: 

Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed. J: Oats. K: 

Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O: Wheat. P: Woods.... 60 

Tabla 4.4. Separabilidad de DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D: 

Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees........................................... 61 

Tabla 4.5 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de 

entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente 

las técnicas de reducción de la dimensionalidad (PCA y MF). .......................................................... 63 

Tabla 4.6 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de 



Tabla 4.7 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes tipos 

de kernels disponibles (funciones de base radial, lineal, polinómico y sigmoide) y conjuntos de 

entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 72 

Tabla 4.8. Resultados de clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y 

MF y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%).... 75 

Tabla 4.9 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de 



Tabla 4.10 Resultados de clasificación obtenidos por el clasificador SOM utilizando conjuntos de 

entrenamiento de tamaño progresivamente creciente (10, 50, 100 patrones por clase y la imagen 

completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno de los conjuntos de 

entrenamiento. ....................................................................................................................................... 82 

Tabla 4.11 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de 



Tabla 4.12 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes 

tipos de kernels disponibles (funciones de base radial, lineal, polinómico y sigmoide) y conjuntos de 

entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 87 

Tabla 4.13 Resultados de clasificación obtenidos por el clasificador SVM utilizando conjuntos de 



9

Proyecto fin de carrera. Cristina Barra Arias 10


1. Motivaciones y objetivos 

1.1 Motivaciones 

La línea de trabajo de este Proyecto Fin de Carrera se incluye en las líneas de 

investigación abordadas desde el Grupo de Redes Neuronales y Procesamiento 

Digital de la Señal (GRNPS) ubicado en el área de Arquitectura y Tecnología de 

Computadores, Departamento de Tecnología de los Computadores y de las 

Comunicaciones de la Universidad de Extremadura. 

Este grupo de investigación ha venido desarrollando diferentes técnicas de 

análisis hiperespectral basadas en el uso de arquitecturas de computación neuronal. 

Bajo ese punto de vista, y dada la gran variedad de herramientas neuronales 

disponibles para el tratamiento de datos multidimensionales, se hace necesario 

realizar estudio que evalúe la efectividad y rendimiento de las diferentes técnicas 

existentes para tratar de extraer conclusiones que permitan determinar que 

herramientas son más eficientes y en que determinados ámbitos de aplicación. 

Uno de los principales problemas asociados al análisis de datos hiperespectrales 

es la clasificación (supervisada o no) de los mismos. Existe un amplio abanico de 

técnicas de clasificación basadas en arquitecturas de computación neuronal que 

tradicionalmente se han empleado para etiquetar cada píxel como perteneciente a una 

determinada clase. En este sentido, el presente documento presenta un detallado 

estudio comparativo entre distintos tipos de clasificadores neuronales comúnmente 

aplicados en el ámbito del análisis hiperespectral, evaluando su funcionamiento al 

procesar distintas imágenes hiperespectrales con diferentes características, tales como 

resolución espacial y espectral, área sobre la que se adquiere la imagen, tipo de 

información verdad terreno de la que se dispone sobre la escena, etc., que serán 

aspectos altamente determinantes sobre la calidad de los resultados. 

Para concluir, es necesario aclarar que la comparación entre los diferentes 

clasificadores neuronales es difícil de establecer, ya que cada uno de ellos utiliza una 

serie de parámetros de configuración relacionados con sus mecanismos de 

aprendizaje, y que no tienen porque ser iguales. En este sentido, se han evaluado 

numerosas configuraciones posibles para cada uno de los clasificadores con el 

objetivo de determinar los mejores parámetros para los mismos y establecer una 

comparativa justa en términos de precisión de la clasificación sobre un conjunto de 

11


imágenes hiperespectrales ampliamente utilizadas en la comunidad científica 

dedicada al análisis de este tipo de datos. 

1.2 Objetivos 

Este trabajo pretende analizar el estado del arte de los clasificadores neuronales 

al aplicarlos sobre datos hiperespectrales. Para ello se plantea el siguiente objetivo 

global: estudiar, evaluar y comparar las diferentes técnicas neuronales existentes 

para realizar una clasificación de datos hiperespectrales, así como extraer 

conclusiones relativas a la eficiencia y rapidez de dichas técnicas. Para la 

consecución de este objetivo global, se han llevado a cabo los siguientes objetivos 

específicos: 

• Estudiar en profundidad las principales características de las técnicas objeto 

del análisis y sus parámetros de entrada. Este estudio comprende la adquisición de los 

conocimientos necesarios sobre todas las técnicas evaluadas, así como de otras 

técnicas de clasificación comúnmente utilizadas en el ámbito del análisis 

hiperespectral. 

• Adquirir conocimientos previos sobre análisis hiperespectral, necesarios 

para poder llevar a cabo el estudio (imagen hiperespectral, formatos de los datos, 

representación de datos, presentación de resultados, etc.). 

• Adquirir la soltura necesaria para trabajar eficientemente con el software 

ENVI y MATLAB. Codificar un conjunto de funciones externas a los clasificadores 

que se utilizarán para seleccionar conjuntos de patrones de entrenamiento capaces de 

representar equitativamente a todas las clases de datos presentes en la imagen, así 

como para representar de forma eficiente los resultados alcanzados por cada 

clasificador. 

• Realizar un análisis en profundidad de las imágenes utilizadas, aplicando 

sobre ellas técnicas de preprocesado con el objetivo de evaluar la influencia de dicho 

preprocesamiento sobre los resultados finales. 

• Diseñar una metodología de comparación de los resultados obtenidos por 

cada una de las técnicas empleadas que permita extraer conclusiones sobre la 

eficiencia y efectividad de cada método de clasificación testeado, extrapolando 

conclusiones sobre la capacidad de dichos métodos para extraer información a partir 

de datos hiperespectrales de gran dimensionalidad. 

12


2 Introducción 

El objetivo fundamental de este capítulo es presentar una introducción de los 

conceptos básicos que durante el trabajo se van a tratar. El capítulo se estructura de la 

siguiente forma: en primer lugar definiremos el concepto de imagen hiperespectral, 

comentando las características principales de este tipo de imágenes de alta 

dimensionalidad. Continuaremos definiendo el concepto de clasificación y algunos 

ideas básicas sobre redes neuronales, para terminar explicando las técnicas utilizadas. 

2.1 Concepto de imagen hiperespectral 

El análisis hiperespectral es una técnica de observación remota de la tierra 

basada en el análisis cuantitativo de las propiedades espectrales de diferentes 

materiales de la superficie terrestre, registradas en bandas espectrales contiguas en las 

diferentes longitudes de onda del espectro electromagnético. Para cada píxel es 

posible obtener un espectro de reflectancia completo [1]. Dicho espectro es el 

resultado de la reflexión, absorción y emisión de energía electromagnética con la que 

cada material responde ante la presencia de la luz solar [2]. 

Las técnicas de observación remota de la tierra han sufrido una notoria 

evolución desde su aparición, claramente marcada por los avances en el diseño de 

instrumentos avanzados de observación. Esta evolución ha permitido pasar de 

técnicas multiespectrales (técnicas que procesan decenas de bandas espectrales) a 

técnicas hiperespectrales (que son capaces de procesar la información contenida en 

cientos de bandas), cambio motivado principalmente por la aparición del primer 

sensor hiperespectral, denominado AVIRIS (Airborne Airborne Visible/Infrared 

Imaging Spectrometer) y desarrollado por NASA Jet Propulsión Laboratory [3]. Este 

hecho propició a su vez importantes avances en el diseño de técnicas de 

reconocimiento de patrones y procesamiento de imágenes, incorporando la tecnología 

hiperespectral a diferentes aplicaciones de gran relevancia social, tales como 

aplicaciones militares (detección de targets) [4]; detección y monitorización de fuegos 

y agentes contaminantes [5]; agricultura de precisión; identificación y cuantificación 

de especies geológicas; estudios relativos al cambio climático global; crecimiento de 

las urbes y su impacto medioambiental, etc. 

Si representamos una imagen hiperespectral de forma gráfica obtenemos un 

cubo cuyas dos primeras dimensiones representarían la ubicación en el espacio de un 

13


píxel determinado de la imagen (coordenadas espaciales) y una tercera dimensión que 

representaría la singularidad espectral de cada píxel según diferentes longitudes de 

onda [6]. De esta forma, podemos interpretar la información captada por un sensor 

hiperespectral como un conjunto de imágenes, cada una de las cuales representa una 

longitud de onda dentro del espectro electromagnético, también conocido como banda 

espectral. Estas imágenes se combinan y forman un cubo hiperespectral 

tridimensional para su posterior procesamiento y análisis. La Fig.2.1 muestra una 

sencilla representación gráfica del concepto real de imagen hiperespectral. 

Muestras 

Bandas 1 - 4 

Líneas 

Pixel en 

posición (x,y) 

Fig. 2.1 Concepto de imagen hiperespectral 

ND en banda 4 

ND en banda 3 

ND en banda 2 

ND en banda 1 

La capacidad de observación de los sensores hiperespectrales permite la 

obtención de una firma espectral detallada para cada píxel de la imagen, dada por los 

valores de reflectancia adquiridos por el sensor en diferentes longitudes de onda. Este 

hecho permite una caracterización muy precisa de la superficie del planeta [7]. De 

forma intuitiva, cuanto mayor sea el número de bandas disponibles, mejor será la 

caracterización de los materiales presentes en la escena. Además, conviene que estas 

bandas sean estrechas, puesto que la utilización de bandas anchas introduce un 

promediado de valores que puede encubrir la diferenciación espectral entre cubiertas 

[8]. En este sentido, podemos introducir el concepto de firma espectral de un 

determinado material o superficie como el conjunto de valores de radiancia o 

reflectancia captado en los diferentes canales espectrales del sensor. Si el número de 

bandas espectrales del sensor es muy grande y las bandas son muy estrechas, la firma 

espectral puede ser considerada como un espectro casi continuo [9]. 

14


La Fig. 2.2 muestra un ejemplo de dos firmas espectrales asociadas a una 

cubierta vegetal. La primera de ellas (parte izquierda) fue adquirida por un sensor 

multiespectral, en concreto, Landsat Thematic Mapper [10], que dispone de un total 

de 7 bandas en el rango 0.48 – 2.21 µm. La firma espectral mostrada en la parte 

derecha de la Fig. 2.2 fue adquirida por el sensor hiperespectral AVIRIS [3], con 224 

bandas espectrales en el rango 0.4 a 2.4 µm. Como puede apreciarse en la figura, la 

firma espectral obtenida mediante un sensor hiperespectral se asemeja a un espectro 

continuo de valores, mientras que la firma proporcionada por un sensor 

multiespectral es mucho menos detallada [10]. 

Radiancia 

0 

2000 

4000 

6000 

8000 

300 600 900 1200 1500 1800 2100 2400 

Longitud de onda (nm) 

Firma espectral vegetación 

(Landsat TM) 

Radiancia 

0 

2000 

4000 

6000 

8000 

15 

300 600 900 1200 1500 1800 2100 2400 

Longitud de onda (nm) 

Firma espectral vegetación 

(AVIRIS) 

Fig. 2.2 . Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 

bandas) y el sensor hiperespectral AVIRIS (224 bandas) 

. 

2.2 El problema de la mezcla 

El principal problema del análisis hiperespectral es el fenómeno de la mezcla. 

Antes de abordar el tema de la clasificación de píxeles, es conveniente destacar que 

en una escena hiperespectral es muy común encontrar píxeles cuya respuesta 

espectral está compuesta por diferentes materiales a nivel subpíxel [11], por lo que es 

frecuente hablar de píxeles puros y píxeles mezcla. (Véase Fig. 2.3)


Pixel mezcla 

(árboles + suelo) 

Pixel mezcla 

(suelo + rocas) 

Fig. 2.3 Concepto de píxel puro y píxel mezcla 

Pixel puro 

(agua) 

Podemos definir un píxel mezcla como aquel en el que cohabitan diferentes 

cubiertas ([12]; [13]; [11]; [14]). Los píxeles mezcla constituyen la mayor parte de los 

píxeles de una imagen hiperespectral. Esto es debido a que independientemente de la 

escala que se considere, la mezcla se produce a nivel microscópico [15], [9]. Así 

pues, la forma más simple de abordar el problema de la clasificación de píxeles en 

una imagen hiperespectral es considerar que los píxeles de interés están compuestos 

por un solo material, utilizando las técnicas convencionales de clasificación de 

patrones [16]. En las imágenes reales la mayoría de los píxeles son mezcla, raramente 

estarán compuestos por un único material. La clasificación es por tanto una 

simplificación del problema de desmezclado espectral. 

2.3 Clasificación 

Tras esta breve introducción al problema de la mezcla espectral, podemos 

definir la clasificación espectral como un conjunto de técnicas de interpretación de 

una escena obtenida de forma remota en base a unos patrones, obteniéndose una 

etiqueta para cada píxel de la imagen. 

Técnicas de clasificación 

16


Estas técnicas ofrecen resultados interesantes en determinadas aplicaciones, que 

se detallan a continuación: 

• Clasificación temática. Las técnicas de clasificación han sido utilizadas de 

forma satisfactoria en aplicaciones que tienen como objetivo la obtención de un mapa 

temático en el que cada píxel de la imagen hiperespectral está debidamente etiquetado 

como perteneciente a una clase concreta [17]. Puede existir una clase adicional 

denominada "fondo" o "resto" que representa a los píxeles que no han sido 

clasificados en ninguna de las clases anteriores. El resultado ideal se obtiene cuando 

todas las clases, incluyendo la clase "fondo", son mutuamente excluyentes entre sí. La 

tarea clave en este tipo de aplicaciones suele ser la determinación del número de 

clases y la caracterización de las mismas en términos de datos de entrenamiento o 

información de verdad-terreno. El objetivo es, en última instancia, determinar la 

existencia o no de cada uno de los objetos considerados en cada píxel, situación que 

puede expresarse como un problema de clasificación binario [18]. 

• Detección de targets. Las técnicas de clasificación también han sido 

utilizadas de forma muy extensa en aplicaciones de detección de objetivos o targets 

en imágenes hiperespectrales [19]. En este tipo de aplicaciones, el objetivo 

fundamental es la identificación de un material u objeto específico (denominado 

target en la bibliografía) entre todos los píxeles de la imagen. 

Técnicas de evaluación de algoritmos de clasificación 

La gran cantidad de técnicas existentes, así como la continua proliferación de 

nuevas metodologías, hace patente la necesidad de esquemas comparativos o métricas 

que permitan analizar de forma cualitativa el rendimiento de las nuevas metodologías 

planteadas, contrastando sus resultados con los proporcionados por las ya existentes 

[16]. 

La mayor parte de las técnicas de evaluación de algoritmos de análisis de 

imágenes digitales de teledetección se basan en el concepto de verdad terreno, 

ampliamente utilizado en análisis de imágenes obtenidas de forma remota [20]. 

Podemos definir idealmente el concepto de verdad terreno como el resultado de 

clasificación o interpretación óptimo al que debe llegar un algoritmo [21], [22] 

Asumiendo la existencia de la información de verdad terreno, existen varias 

metodologías que permiten comparar el resultado proporcionado por un algoritmo de 

17


análisis de imágenes con dicha información. En este proyecto se ha utilizado 

ampliamente la matriz de confusión: 

Matriz de confusión. 

La matriz de confusión [23] es una técnica que permite evaluar la precisión de 

algoritmos de clasificación de imágenes digitales obtenidas de forma remota. Esta 

técnica presupone que la información verdad terreno viene expresada en forma de un 

mapa temático [24], [25], caracterizado por las siguientes propiedades: 

• Cada píxel se encuentra etiquetado como perteneciente a una determinada 

R = . 

clase, de forma que se tienen N clases o regiones de referencia { } N 

i i 1 

• Las regiones de referencia son mutuamente excluyentes entre sí, es decir, dos 

regiones diferentes no tienen ningún píxel en común: ∩ R = ∅, 

∀i 

≠ j 

R i j 

La Fig.2.4 muestra la apariencia de una matriz de confusión utilizada para la 

evaluación de la clasificación obtenida por los métodos evaluados. 

Lago (R 0 ) 

Carretera (R 1 ) 

Árboles (R 2 ) 

Suelo (R 3 ) 

C 0 

C 1 

C 2 

C 3 

Mapa temático 

(verdad terreno) 

R 0 

a 00 =|C 0 ∩R 0 | 

a 10 =|C 1 ∩R 0 | 

a 20 =|C 2 ∩R 0 | 

a 30 =|C 3 ∩R 0 | 

Matriz de confusión 

R 1 

a 01 =|C 0 ∩R 1 | 

a 11 =|C 1 ∩R 1 | 

a 21 =|C 2 ∩R 1 | 

a 31 =|C 3 ∩R 1 | 

Clasificación 

(Algoritmo) 

R 2 

a 02 =|C 0 ∩R 2 | 

a 12 =|C 1 ∩R 2 | 

a 22 =|C 2 ∩R 2 | 

a 32 =|C 3 ∩R 2 | 

R 3 

a 03 =|C 0 ∩R 3 | 

a 13 =|C 1 ∩R 3 | 

a 23 =|C 2 ∩R 3 | 

a 33 =|C 3 ∩R 3 | 

Fig. 2.4 Ejemplo de construcción de la matriz de confusión 

Lago (C 0 ) 

Carretera (C 1 ) 

Árboles (C 2 ) 

Suelo (C 3 ) 

A partir de la matriz de confusión pueden derivarse algunas medidas de 

precisión genéricas [26], [27], como el porcentaje de acierto global (tanto por ciento 

de píxeles clasificados de forma correcta en todas las clases) y el porcentaje de fallo 

global (tanto por ciento de píxeles clasificados de forma incorrecta). 

Las métricas más comúnmente utilizadas en la clasificación de imágenes 

hiperespectrales son overall (OA) y average (AVE). Dónde OA indica el acierto total, 

18


es decir, el número de píxeles bien clasificados y AVE indica la media de acierto. Y 

se calculan de la siguiente forma, dado una verdad terreno, con P clases C1,…, Cp y 

un espectro de datos de ni puntos de test para las clases. Clasificamos todos los puntos 

de test en alguna de las clases por el método de clasificación empleado. 

Representando el termino aij el número de ejemplos de test que actualmente 

pertenecen a la clase Ci y han sido clasificados en la clase Cj, para i, j = 1,…P. La 

suma total de la fila es igual al número de ejemplos de la clase Ci, y la columna 

representa el número de ejemplos clasificados en Cj. Llamando N al número total de 

ejemplos. Podemos obtener la fórmula de cálculo de OA y AVE: 

2.4 Conceptos básicos sobre redes neuronales 

Las redes neuronales artificiales (Artificial eural etworks) son sistemas para 

el procesamiento de la información, inspirados en el modo en que las redes de 

neuronas biológicas del cerebro procesan esta. Por lo tanto las redes neuronales son 

un entramado o una estructura formada por muchos nodos de procesamiento simples 

llamados nodos o neuronas, conectados por medio de canales de comunicación o 

conexiones, cuya finalidad es transformar las entradas externas. 

Las redes neuronales son el ejemplo artificial que más se acerca a la capacidad 

de poder adquirir conocimiento a partir de la experiencia. Presentan un gran número 

de características semejantes a las del cerebro. Son capaces de aprender de la 

experiencia, de generalizar de casos anteriores a nuevos casos, de extraer 

características esenciales a partir de entradas que representan información irrelevante. 

Todo ello lo hacen gracias a las neuronas que son estimuladas a través de sus 

entradas, y pueden llegar a dispararse cuando lleguen a un cierto valor, denominado 

umbral, de forma que la señal pasa a la salida. Estas transformaciones de la señal de 

entrada se hacen por medio de diferentes funciones, que presentamos a continuación: 

• Entrada: cada neurona de entrada obtendrá un determinado valor llamado 

entrada neta a partir de la ponderación de todas las conexiones de entrada i x 

mediante sus pesos de entrada correspondientes w i . El cálculo de dicha entrada neta 

en la capa de entrada se muestra en la ecuación 2.1. 

19


et = w x ) + ( w x ) + ... + ( w x ) 

(2.1) 

i 

( i1 

1 i2 

2 

in n 

• Función de activación: Tanto las neuronas artificiales cómo las neuronas 

biológicas pueden tener dos estados de activación, pueden estar: activas e inactivas, 

también denominado: estado de activación. Aplicando la función de activación se 

calcula ese valor de activación a partir del valor obtenido en la entrada neta. Se 

pueden definir diferentes tipos de funciones de activación, definiendo así diferentes 

salidas sobre las neuronas en función del nivel de activación de sus entradas: 

o Función de activación lineal: 

a = f ( et ) = et 

(2.2) 

i 

o Función de activación sigmoide: 

1 

a f ( eti 

) = − 

1+ 

e 

i 

= (2.3) 

( eti 

) 

o Función de activación tangente hiperbólica: 

1− 

e 

a f ( eti 

) = − 

1+ 

e 

( −eti 

) 

= (2.4) 

( eti 

) 

También podemos encontrar redes, dónde las neuronas utilicen otra función de 

activación, como sucede en las redes de base radial [28]. 

Función de salida: una vez calculada la activación de cada neurona, se puede 

determinar el valor de la salida aplicando una función f a la activación, obteniendo el 

estado final de la neurona. 

x = f (a) 

(2.5) 

20


Fig. 2.5 Esquema de una neurona artificial 

2.5 Clasificación de redes neuronales 

El siguiente apartado se estructura de la siguiente manera. E primer lugar, se 

presentará una breve categorización de las diferentes arquitecturas neuronales 

atendiendo a tres aspectos fundamentales: su topología, las características de sus 

nodos y sus mecanismos de aprendizaje. A continuación se resumirá de forma concisa 

el estado del arte en lo relativo a la aplicación de técnicas de computación neuronal 

en el ámbito del análisis hiperespectral, tratando de justificar la elección de las 

técnicas utilizadas en el ámbito del presente documento. 

2.5.1 Categorización: 

clave [29]: 

Una arquitectura neuronal puede ser caracterizada por una serie de propiedades 

• Topología de la red: también conocido como el modelo de interconexión 

entre los diferentes nodos que componen la arquitectura neuronal. Lo más 

general es encontrar arquitecturas organizadas en capas, pudiendo así 

encontrar arquitecturas monocapa y arquitecturas multicapa. En cuanto a las 

21


conexiones de las neuronas presentes en dichas capas, lo más común es que 

interconecten nodos de diferentes capas, de manera que la información fluya 

desde la capa de entrada hasta la capa de salida (arquitecturas feedforward o 

de alimentación hacia delante). Sin embargo, también podemos encontrar 

arquitecturas con conexiones laterales (conexiones entre nodos de una misma 

capa), dando lugar a las conocidas como arquitecturas neuronales recurrentes 

[30], arquitecturas con conexiones auto-recurrentes (en las que la salida de 

una neurona sirve como entrada de esa misma neurona) y con conexiones 

hacia atrás o feedback en las que la salida de una neurona de un determinado 

nivel se conecta con neuronas de niveles precedentes. 

• Características de los nodos: consistentes básicamente en la forma de 

calcular las entradas netas, activaciones y salidas de cada una de las neuronas 

de la arquitectura neuronal. 

• Mecanismo de aprendizaje: que es el proceso por el cual una red neuronal 

artificial modifica sus pesos en respuesta a una información de entrada, 

pudiendo distinguir entre arquitecturas neuronales supervisadas y no 

supervisadas [31]: 

• Arquitecturas supervisadas: los modelos supervisados asumen la 

disponibilidad de información a priori sobre un determinado conjunto de 

patrones de entrenamiento [32]. Así pues, al mismo tiempo que se le 

suministran las entradas al sistema neuronal (estímulo de entrada) se 

incluyen también las salidas deseadas que la red debe producir (respuesta 

deseada). A partir de esta información formada por pares entrada/salida 

deseada, la red ajustará su conjunto de pesos basándose en alguno de los 

algoritmos de aprendizaje disponibles, entre los cuales destacan los 

siguientes: 

a. Aprendizaje por correccción del error, en el que el ajuste de los 

pesos se realiza en función de la diferencia entre la salida deseada 

y la salida obtenida por la red, bien atendiendo al error individual 

en cada nodo, o bien atendiendo al error global. 

22


b. Aprendizaje por refuerzo, en el que se aplica una función de 

refuerzo en el caso de que la salida de la red se ajuste de forma 

adecuada a la salida deseada (i.e.: éxito = +1, fracaso = -1). 

c. Aprendizaje estocástico, consistente en la realización de cambios 

aleatorios en los pesos y en la evaluación de su efecto a partir del 

objetivo deseado y de distribuciones de probabilidad (mediante el 

uso de funciones de energía como representantes de la estabilidad 

de la red). 

• Arquitecturas no supervisadas: los modelos neuronales no supervisados 

realizan la clasificación de los datos de entrada sin necesidad de 

incorporar información sobre la salida deseada [30]. En este tipo de 

arquitecturas, es la propia red la que debe encontrar por si misma la 

regularidad presente en los datos de entrada y agruparlos en consecuencia. 

La salida de la red puede representar tanto el grado de familiaridad o 

similitud entre la información presentada, como el establecimiento de 

categorías a partir de correlaciones entre los diferentes patrones de 

entrada. Este tipo de arquitecturas neuronales también puede utilizar 

diferentes tipos de aprendizajes no supervisados, entre los que destacamos 

los siguientes: 

a. Aprendizaje hebbiano, que realiza el ajuste en base a la correlación 

de los valores de activación (salidas) de las neuronas 

interconectadas. 

b. Aprendizaje competitivo, donde las neuronas compiten unas contra 

otras por activarse. Ante una información de entrada solo una de 

las neuronas de salida de la red (o un cierto grupo de éllas) se 

activan (o alcanzan su valor máximo). 

2.5.2 Computación neuronal en análisis hiperespectral 

En los últimos años, se han desarrollado diferentes técnicas que hacen uso de 

arquitecturas neuronales para la resolución de problemas relacionados con el análisis 

hiperespectral [33], [34], [35], [36]. La resolución de problemas de clasificación y 

regresión en espacios multidimensionales puede abordarse mediante el uso de 

23


determinadas arquitecturas neuronales [32]. Dentro del ámbito del análisis 

hiperespectral, podemos categorizar las arquitecturas neuronales utilizadas hasta la 

fecha atendiendo al hecho de si su mecanismo de aprendizaje es supervisado o no 

supervisado. 

2.5.2.1 Arquitecturas no supervisadas: 

Dentro del grupo de arquitecturas neuronales no supervisadas aplicadas al 

análisis hiperespectral, podemos destacar fundamentalmente la aplicación de los 

modelos de red auto-organizativos o self-organizing maps (SOM’s) sobre problemas 

de clasificación no supervisada de imágenes hiperespectrales [37], [38]. Este tipo de 

arquitecturas (redes de Kohonen) se basan en un proceso de aprendizaje no 

supervisado, competitivo, en el que cada neurona compite con el resto por activarse 

[39], [40] 

También podemos destacar la aplicación de arquitecturas recurrentes con 

conexiones recurrentes (conexiones entre neuronas de la misma capa) sobre datos 

hiperespectrales, como las arquitecturas basadas en el modelo de Hopfield [41] que se 

han aplicado con éxito a la resolución del problema lineal de mezcla, permitiendo 

minimizar el error cuadrático de la estimación de las abundancias para un píxel a 

partir de un determinado conjunto de espectros representativos o puros [30]. 

Dentro del conjunto de aquitecturas neuronales no supervisadas utilizadas en 

análisis hiperespectral también podemos incluir las arquitecturas basadas en la teoría 

de resonancia adaptativa o adaptive resonante theory (ART) que emplean algoritmos 

de aprendizaje competitivos centrados en conceptos de lógica difusa [42], [43]. 

2.5.2.2 Arquitecturas supervisadas: 

Las primeras arquitecturas de red neuronal supervisadas aplicadas a problemas 

de datos obtenidos de forma remota se basaron en la arquitectura denominada 

perceptrón multicapa o multi-layer perceptron (MLP) [44], [45]. Este tipo de 

arquitecturas, que son las arquitecturas neuronales supervisadas más ampliamente 

24


utilizadas en el ámbito del análisis hiperespectral, constan de una capa de entrada, una 

(o varias) capas de neuronas ocultas y una capa de salida. Cada nodo o neurona 

procesa la información de entrada a traves de conexiones ponderadas a los elementos 

de la siguiente capa, por lo que se dice que se propagan la salida hacia delante 

(alimentación feedforward). Este tipo de redes proporcionan un marco excepcional 

para mapear una serie de entradas a una serie de salidas que siguen una función no 

lineal [32]. Esto se consigue mediante la inclusión de funciones de activación no 

lineales en los nodos de la capa oculta y/o en la capa de salida. La función de 

activación más comúnmente utilizada sobre este tipo de arquitecturas neuronales es la 

función sigmoide. Como hemos comentado, son arquitecturas multicapa, 

feedforward, y suelen basar su aprendizaje en el algoritmo de propagación del error 

hacia atrás (backpropagation). Se puede resumir el algoritmo de propagación hacia 

atrás en la aplicación de un ciclo de propagación-adaptación de 3 fases: 

1.- Propagación hacia delante. Se aplica un patrón de entrada como estímulo 

para la primera capa de neuronas de la red. El estímulo se propaga a través de 

todas las capas intermedias (ocultas) hasta generar una salida. En el siguiente 

paso se compara la salida obtenida en los nodos o neuronas de salida con la 

salida deseada (salida objetivo de la red para dicho patrón o estímulo), y se 

calcula un término de error para cada neurona de salida como el promedio de 

los cuadrados de los errores cometidos para cada uno de los patrones. 

2.- Retropropagación del error. Los errores obtenidos en la etapa anterior se 

propagan hacia atrás, partiendo de la capa de salida, de forma que cada neurona 

recibe un porcentaje de error correspondiente a su contribución a la salida de la 

red. 

3.- Adaptación de pesos. Los pesos de la red se modifican de acuerdo a los 

errores calculados y retropropagados. 

Básicamente, este proceso de aprendizaje se basa en la búsqueda del mínimo de 

la función del error (promedio de los cuadrados de los errores) a mediante la técnica 

del descenso del gradiente [46]. 

25


Para la realización de las pruebas presentadas en esta memoria, hemos seleccionado 

como red neuronal no supervisada el modelo auto-organizativo de Kohonen (SOM) y 

como arquitectura supervisada el perceptron multi-capa (MLP). Estos dos modelos 

neuronales son los más ampliamente utilizados en la bibliografía revisada, han sido 

aplicados de forma exitosa en el ámbito del reconocimiento de patrones [32] y han 

sido seleccionados basándonos en trabajos previos realizados en el ámbito del Grupo 

de Redes Neuronales y Procesamiento de Señales (GRNPS) de la Universidad de 

Extremadura [30], [38], [46]. 

2.6 Técnicas utilizadas 

En este apartado presentamos los cuatro algoritmos de clasificación utilizados 

durante los experimentos que se describen en la presente memoria. Dichos algoritmos 

son: algoritmo de máxima verosimilitud o Maximum Likelihood (ML), máquinas de 

vectores soporte o Support Vector Machines (SVM), mapas auto-organizativos o Self 

Organizing Maps (SOM) y perceptron multi-capa o Multi-Layer Perceptron (MLP). 

Como se puede apreciar, las técnicas seleccionadas son clasificadores ampliamente 

utilizados en la literatura. 

2.6.1 Maximum Likelihood (Máxima probabilidad) 

El algoritmo Maximum Likelihood (ML) es clasificador lineal que asume que 

las estadísticas para cada clase en cada banda de la imagen hiperespectral siguen una 

distribución normal [47]. 

El clasificador Maximum Likelihood (ML) es una de las técnicas supervisadas 

más ampliamente utilizadas en análisis de imágenes obtenidas de forma remota [48]. 

Es preciso destacar que ML no se trata de un clasificador neuronal, sino de un método 

estándar de clasificación que se ha utilizado como referencia para las comparativas 

realizadas dada su amplia utilización en el problema que nos ocupa. El clasificador 

ML es una técnica supervisada que se basa en la estimación del vector promedio y de 

la matriz de covarianza para cada clase a partir de los patrones de entrenamiento 

disponibles para la misma. La expresión empleada por este clasificador para medir la 

probabilidad de pertenencia de un píxel (vector), denotado como x , con respecto a 

26


una determinada clase, denotada como C i , siendo i = 1, 

2, . .. , M , donde M denota el 

número total de clases, es la siguiente [49]: 

1 1 

1 

i 

i i 

T − 

( x) = − ln − ( x - m ) ( x - ) 

Σ 

Σ 

g m 

2 2 

donde Σi es la matriz de covarianza para la clase i 

i 

C y m i es el vector 

promedio para dicha clase. Como puede apreciarse, el clasificador está basado en el 

cálculo de la probabilidad de que un determinado píxel pertenezca a una clase dada, y 

utiliza la matriz de covarianza, Σi , y el vector promedio de la clase, m i , estimados 

ambos utilizando los patrones de entrenamiento seleccionados para dicha clase, para 

asignar el píxel x a la clase para la cual posee mayor probabilidad de pertenencia. Es 

importante destacar que, para poder calcular la matriz de covarianza en una 

determinada clase C i , es preciso disponer de suficientes patrones de entrenamiento 

(el número de patrones de entrenamiento necesarios depende de la dimensionalidad o 

número de bandas de los mismos). En caso contrario, no será posible entrenar al 

clasificador si el número de patrones de entrenamiento utilizados para una 

determinada clase es muy reducido [50]. Este aspecto puede afectar de forma 

negativa al clasificador ML, y será estudiado en detalle a la hora de evaluar el 

rendimiento del mismo en comparación con el resto de clasificadores descritos en el 

presente trabajo. 

Como hemos visto este clasificador asigna a cada píxel desconocido a una clase 

de acuerdo a un criterio Gaussiano de probabilidad. Cuando los datos son linealmente 

separables es sencillo obtener una fórmula de optimización de la probabilidad, pero 

cuando no lo son, como suele ocurrir normalmente, la estimación ML debe buscar los 

valores usando algoritmos de optimización no lineal. La idea básica de la optimación 

no lineal es encontrar rápidamente los parámetros óptimos que maximizan la función 

de probabilidad. Esto se hace mediante una búsqueda en subconjuntos del espacio del 

espacio de parámetros multidimensionales, siendo una búsqueda más exhaustiva que 

buscando en el espacio entero, lo cual llega a ser intratable cuando el número de 

parámetros aumenta [51]. 

Este proceso de búsqueda “inteligente” empieza con ensayo. En concreto, en 

cada iteración, teniendo en cuenta los resultados de la iteración anterior, se obtiene un 

nuevo conjunto de valores de los parámetros añadiendo pequeños cambios de forma 

que los nuevos parámetros pueden dar mejores resultados. Los diferentes algoritmos 

27


de optimización difieren en como se actualizan. El proceso iterativo continúa hasta 

que se considera que los parámetros convergen. Algunos ejemplos de criterios de 

parada incluyen un número máximo de iteraciones permitido o el cambio mínimo 

sobre los valores de los parámetros entre dos iteraciones sucesivas. 

2.6.2 SVM (Support Vector Machine) 

Son un conjunto de algoritmos desarrollados recientemente por Vladimir 

Vapnik y su equipo en los laboratorios AT&T. Pertenecen a la familia de los 

clasificadores lineales puesto que inducen separadores lineales o hiperplanos en 

espacios de características de muy alta dimensionalidad. [52], a pesar de que se 

pueden adaptar de forma sencilla para actuar como clasificadores no lineales 

mediante la aplicación de una función o kernel no lineal sobre los datos de entrada. 

Inicialmente se usaron para problemas de clasificación binaria, pero después se 

ha extendido su uso a problemas de regresión, agrupamiento, clasificación multiclase, 

regresión ordinal, y se está trabajando en la búsqueda de resolver problemas más 

complejos (árboles y grafos). Algunas aplicaciones de las SVM para los casos de 

reconocimiento de patrones han sido reconocimiento de caracteres [52], 

reconocimiento de objetos [53], reconocimiento de voz [54], etc. 

Su principal objetivo es obtener una superficie (o hiperplano) capaz de separar 

las diferentes clases en las que se puede agrupar una distribución de datos en un 

espacio N-dimensional, utilizando para ello un proceso de optimización basado en la 

obtención de vectores que definen los límites de las clases. Estos vectores se 

denominan normalmente vectores soporte o support vectors [52]. 

Si vemos los datos de entrada como dos conjuntos de vectores en un espacio N- 

dimensional, el objetivo del algoritmo SVM simplemente es construir un hiperplano 

de separación en ese espacio, el cual maximice el margen de distancia a los dos 

conjuntos de datos [55]. 

28


Fig. 2.6 Esquema de funcionamiento SVM 

En la Fig.2.6 podemos apreciar como calcular este hiperplano de separación, 

construyendo otros dos hiperplanos paralelos, uno a cada lado del primero. Los dos 

hiperplanos paralelos son empujados, para aproximarse lo más posible a los conjuntos 

de datos. Intuitivamente, se alcanza una buena separación cuando el hiperplano de 

separación se encuentra a la mayor distancia de ambas clases [52]. Cuanto mayor sea 

la distancia mejor será en general el error del clasificador. 

2.15: 

En términos matemáticos, dado un conjunto de entrenamiento de la ecuación 

Donde ci es 1 ó −1, indicando la clase a la que el punto pertenece. Cada 

29 

(2.15) 

es un vector real p-dimensional, queremos obtener un hiperplano de distancia máxima 

a los conjuntos de entrenamiento y que los divida aquellos pertenecientes a ci = 1 de 

aquellos que tengan el valor ci = − 1. Cualquier hiperplano puede ser escrito como un 

conjunto de puntos que satisfaga la ecuación 2.16 

El vector W es un vector normal perpendicular al hiperplano. El parámetro 

determina el desplazamiento del hiperplano sobre el origen. 

(2.16)


Nosotros queremos elegir la W y la b que maximicen la distancia entre los dos 

hiperplanos paralelos, que estarán tan apartados como sea posible en función de los 

datos. Estos hiperplanos pueden ser descritos con las fórmulas ecuación 2.17 y 

ecuación 2.18. 

30 

(2.17) 

y .(2.18) 

Nótese que si el conjunto de entrenamiento es linealmente separable podemos 

elegir dos hiperplanos en el borde de los conjuntos de modo que no hay puntos entre 

ellos y entonces intentar maximizar su distancia. Usando la geometría, podemos 

encontrar que la distancia entre ellos es , por lo que se pretende minimizar . 

Como tenemos que evitar que los puntos caigan en la zona límite, añadimos la 

restricción de la ecuación 2.7 a los pertenecientes a la primera clase y la 

restricción de la ecuación 2.8 a los de la segunda 

Esto puede ser escrito como: 

Podemos poner esto junto para llegar al problema de optimización: 

Elegir w, b para minimizar ||w|| 

(2.19) 

(2.20) 

(2.21) 

(2.22) 

El problema de optimización presentado anteriormente es difícil debido a que 

solo depende de un valor |w|. La razón es que es un problema de optimización no 

convexo, el cual se sabe que es mucho más difícil de resolver que el problema de 

optimización convexo. Afortunadamente es posible sustituir ||w|| por sin 

cambiar la solución. Esto es un problema de optimización de programación 

cuadrática. Más claramente, 

minimizar , sujeto a . 

El factor 1/2 se usa como una conveniencia matemática. Ahora el problema que 

se nos presenta se puede resolver mediante programas y técnicas de programación 

cuadrática estándar.


Escribiendo la regla de clasificación en su forma dual extendida revela que la 

distancia máxima al hiperplano, y por tanto la tarea de clasificación, es solo una 

función de los vectores soporte, es decir, los datos que están en el límite. La segunda 

forma de SVM se puede ver en la fórmula (2.23): 

31 

(2.23) 

Sujeto a , y (2.24) 

Donde los términos α constituyen otra representación del vector de pesos en 

términos del conjunto de entrenamiento: 

(2.25) 

El algoritmo original especifica un clasificador lineal, sin embargo, puede 

modificarse para resolver problemas de clasificación no lineal reemplazando el 

producto escalar por una función kernel no lineal. Esto permite al algoritmo fijar la 

máxima distancia al hiperplano en un espacio de características transformado. La 

transformación podría ser no lineal y el espacio transformado de alta 

dimensionalidad; de este modo aunque el clasificador es un hiperplano en un espacio 

de características de alta dimensionalidad podría no ser lineal en el espacio de entrada 

original [56]. 

Si el kernel utilizado es Gaussian radial basis function, el espacio de 

características correspondiente es un espacio de Hilbert de dimensión infinita. La 

máxima distancia esta regulada, por lo que la dimensión infinita no estropeará los 

resultados [57]. Algunos kernels habituales incluyen, 

• Polynomial (homogéneo): 

• Polynomial (heterogéneo): 

• Radial Basis Function: , para γ > 0 

• Gaussian Radial basis function:


• Sigmoid: , para algunos κ > 0 y c < 0 

En la literatura, podemos encontrar también ejemplos de kernels basados en métricas 

espectrales comúnmente utilizadas en análisis hiperespectral [58]. 

El procesamiento empleado por las SVM no requiere de un gran número de patrones 

de entrenamiento, siempre y cuando los patrones escogidos sean realmente 

representativos. De esta forma, el rendimiento del método no se ve muy afectado por 

la disponibilidad de un número limitado de patrones de entrenamiento [59]. 

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP) 

Como hemos mencionado en apartados anteriores, este clasificador es el 

exponente más típico en las redes neuronales artificiales con aprendizaje supervisado. 

Formado por múltiples capas, como su propio nombre indica, esto le permite resolver 

problemas que no son linealmente separables, lo cual es la principal limitación del 

perceptrón simple. 

Este método de aprendizaje de redes neuronales artificiales fue descrito por Paul 

Werbos en 1974, pero no fue hasta 1986, a través del trabajo de David E.Rumelhart, 

Geoffrey E. Hinton y Ronald J Williams, cuando obtuvieron el reconocimiento y dio 

lugar a un giro importante en el campo de investigación de redes neuronales 

artificiales. 

El entrenamiento se basa en la presentación sucesiva y de forma reiterada, de 

pares de vectores en las capas de entrada y salida. La red crea un modelo a base de 

ajustar sus pesos en función de los vectores de entrenamiento, de forma que a medida 

que se pasan estos patrones, para cada vector de entrada la red producirá un valor de 

salida más similar al vector de salida esperado. El esquema mostrado en la Fig. 2.7 

presenta una red neuronal de tipo feed-forward (propagación hacia delante). 

32


1 2 3 

1 2 • • • L 

1 2 3 

• • • 

• • • 

M 

N 

Fig. 2.7 Perceptrón multicapa 

Capa de salida 

Capa oculta 

Capa de entrada 

La Fig. 2.7 muestra la topología de un perceptrón multicapa con 3 capas de neuronas 

(de entrada, oculta y de salida). 

A continuación decribiremos el algoritmo de entrenamiento de retropropagación o 

backpropagation, que es el algoritmo de aprendizaje implementado en la versión 

utilizada. 

Los pasos de la fase de reconocimiento para una red NxLxM (siendo N la 

dimensionalidad de los datos de entrada, L el número de neuronas ocultas y M el 

número de clases a identificar) son los siguientes: 

33


Propagación hacia delante. Inicialmente, se presenta un patrón de entrada 

[ x , x ,..., x ] 

X = 

, así como la salida deseada para dicho patrón 

1 

2 

N 

[ a , a ,..., a ] 

A = 

. A continuación, se calculan las salidas de las neuronas 

1 

2 

M 

de la capa oculta teniendo en cuenta las neuronas de entrada para cada 

N 

o 

neurona i de la capa oculta oi = ∑= wij x j + wi0 

. Seguidamente, se calculan 

j 1 

las salidas de las neuronas ocultas mediante la función de activación 

o 

considerada z f ( o ) 

i 

= . 

i 

Se realizan los mismos cálculos que en el paso anterior para obtener las 

s 

salidas de cada neurona k de la capa de salida o k = vki 

zi 

+ vk0 

, 

k 

s ( o ) 

y = g . Teniendo en cuenta la salida obtenida por la red, así como la salida 

k 

deseada proporcionada al comienzo, se calcula un término de error para cada 

s 

' s 

neurona de salida mediante la siguiente expresión δ ( − y ) g ( o ) 

k 

L 

∑ 

i= 

1 

34 

= . A 

ak k k 

continuación, se retropropaga el error hacia atrás, calculando los términos de 

L 

o ⎛ ⎞ ' o 

error para las neuronas ocultas ⎜ δ f ( o ) 

δi = ∑ k ki ⎟ 

⎝ k= 

1 ⎠ 

v . De esta forma, el error 

que se produce en una neurona oculta es proporcional a la suma de los errores 

que se producen en las neuronas a las que está conectada la salida de esta. 

Finalmente, solo queda actualizar los pesos de acuerdo con los términos de error 

previamente calculados. Comenzamos por los pesos de la capa de salida, que 

calculamos de acuerdo con la expresión ki ( ) ki ( ) k pi 

i 

s 

v t + 1 = v t + αδ z y después 

hallamos los pesos de la capa oculta del siguiente modo 

ij 

o 

( t + 1) 

= wij( 

t) 

+ αδi 

x j 

w . 

Este proceso se reptite hasta que el término del error (error permitido) resulta lo 

suficientemente pequeño para dicho patrón: 

M 1 

E = ∑ a 

2 k= 

1 

( ) 2 

− y 

Una vez alcanzada la convergencia de la red (el error global está por 

debajo de un determinado error umbral), se aplica un procedimiento de asignación de 

k 

k


cada patrón a una clase siguiendo un simple proceso de winner-take-all, de forma que 

cada patrón se etiqueta como perteneciente a la clase con mayor porcentaje de 

abundancia obtenido a la salida de la red. 

2.6.4 Self-Organizing Map (SOM) 

Los mapas de características autoorganizativo o Self Organizing Feature Maps 

(SOM o SOFM), desarrollados por Kohonen son un tipo de red neuronal no 

supervisada, competitiva, que buscan la transformación de un patrón de entrada en un 

mapa discreto multidimensional de forma adaptativa, siguiendo algún criterio de 

ordenación topológico. 

La red utilizada consta de un conjunto de N neuronas lineales que reciben 

patrones N-dimensionales y un conjunto de M neuronas de salida que forman una 

capa unidimensional de tipo competitivo, siendo M el número total de clases 

existentes en la imagen. Las conexiones entre los nodos de entrada y de salida están 

ponderadas (wij, inicializados de forma aleatoria al principio del proceso), de forma que los 

valores correspondientes a una neurona de salida i (vector de pesos wi), representarán el 

prototipo o firma hiperespectral de la clase i-ésima (o endmember i-ésimo). Además existen 

conexiones laterales entre las M neuronas de salida, conexiones que especifican la influencia 

de la neurona sobre sus vecinas (función de vecindad) durante el proceso de actualización de 

los pesos. 

La Fig. 2.8 muestra una arquitectura sencilla de la red SOM, está formada por 

dos capas, una capa de entrada y otra de salida, existen conexiones hacia delante de la 

capa de entrada a la de salida y laterales y autorrecurrentes entre las neuronas de la 

capa de salida. 

Firmas 

espectrales 

1 

2 

 

W 

(endmembers) 

1 

2 

E 

Fig. 2.8 Esquema SOM 

35 

Imagen 

clasificada


El proceso de entrenamiento utilizado para la red SOM es el siguiente [38]: 

1.- Inicialización aleatoria de los pesos (wi). 

2.- Presentar los patrones de entrada a la red uno a uno en la capa de entrada 

(y(n)) determinando cual es la neurona ganadora de acuerdo con la siguiente 

expresión: 

2 

[ y( 

n) 

] = min y( 

n) 

−w 

( t) 

j = 1, 

2, 

L, 

M 

* 

i j 

j 

3.- A continuación, actualizar los pesos de la red según la siguiente ecuación: 

w ( t + 1) = w ( t ) + η ( t ) σ t, i, i x( n) x n − w t 

* 

2 

( [ ] ) ( ) ( ) 

( ) 

i i i 

* 

donde η(t) es el parámetro de aprendizaje y toma el valor 1/t, y σ ( t, 

i, 

i [ x( 

n) 

]) 

es la función de vecindad circular. 

Por último, presentamos cada píxel de la imagen a la capa de entrada, 

activándose en cada caso la neurona ganadora representante de la clase más 

similar al patrón introducido [37]. 

2.7 Técnicas de preprocesado 

Algunas pruebas se han hecho después de transformar la imagen original 

mediante dos métodos de reducción del número de bandas. El hecho de utilizar 

técnicas de preprocesamiento de imágenes orientadas a la reducción de la 

dimensionalidad de los datos de entrada viene propiciado por el conocido como 

fenómeno de Hughes [60]. 

Fenómeno de Hughes 

En un problema de clasificación típico, el objetivo es asignar una etiqueta de 

clase a los datos de entrada. El error mínimo esperado que se puede alcanzar al 

realizar la clasificación es lo que se conoce como el error de Bayes [61]. 

El error de Bayes es una función que decrece con la dimensionalidad de los 

datos. Una nueva característica añade información sobre el ejemplo y entonces, uno 

esperaría que la clasificación fuese tan buena como cuando esta información no se 

había introducido. Sin embargo, en la práctica esto no es así, cuando se añade una 

36


nueva característica a los datos el error de Bayes disminuye, pero al mismo tiempo las 

desviaciones del error de la clasificación aumentan. Este incremento se debe al hecho 

de que se necesitan calcular más parámetros partiendo del mismo número de 

ejemplos. Si el incremento de las desviaciones en la clasificación del error es mayor 

que el decremento del error de Bayes, entonces el uso de la característica adicional 

degrada la regla de decisión. Y este fenómeno es lo que se conoce como el efecto 

Hughes [60]. Además, cuando la dimensionalidad de los datos y la complejidad de la 

regla de decisión aumentan, el efecto Hughes puede llegar a ser más grave [9]. 

En resumen, el rendimiento decrece con la dimensionalidad de los datos a 

menos que el número de muestras sea infinito [60]. 

Esta reducción dimensional que se plantea es un paso utilizado por ciertos 

algoritmos con objeto de reducir la carga computacional de pasos sucesivos mediante 

la eliminación de ruido e información redundante en la imagen. Estos métodos 

realizan una disminución del número de bandas, el objetivo es obtener una 

representación mínima de la imagen que contenga la información indispensable para 

realizar el análisis sobre un sub-conjunto reducido de la imagen original [62]. La Fig. 

2.10 representa el cambio producido en la imagen original tras realizar una reducción 

de la dimensionalidad. 

Fig. 2.9 Reducción dimensional 

2.7.1 Transformación Principal Component Analysis (PCA) 

Esta transformación utiliza una transformación lineal para maximizar la 

varianza de los datos. Se utilizan los componentes principales para producir bandas 

de salida no correlativas, para eliminar los componentes ruidosos, y para reducir la 

dimensionalidad de los datos [63]. 

37


Análisis de componentes principales (PCA) es una transformación del espacio 

vectorial, normalmente utilizada para reducir la alta dimensionalidad de los datos a 

menores dimensiones para su análisis. 

El PCA construye una transformación lineal que escoge un nuevo sistema de 

coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño 

del conjunto de datos es capturada en el primer eje (llamado el Primer Componente 

Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente, 

(Véase Fig. 2.11). Para construir esta transformación lineal debe construirse primero 

la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría 

de esta matriz existe una base completa de vectores propios de la misma. La 

transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva 

base es precisamente la transformación lineal necesaria para reducir la 

dimensionalidad de datos. Además las coordenadas en la nueva base dan la 

composición en factores subyacentes de los datos iniciales. 

Banda Y 

Banda X 

Componente 1 

Componente 2 

Fig. 2.10 Ilustración gráfica de la transformación PCA. 

En la fig 2.12 se muestra un ejemplo de la aplicación de la transformación PCA 

a una imagen hiperespectral real del sensor AVIRIS sobre la región Jasper Ridge. La 

figura muestra las primeras 20 bandas obtenidas a partir de la transformada PCA. 

Visualmente, puede comprobarse que la presencia de ruido es mucho menor en las 

primeras bandas, aumentando de forma considerable en las últimas. 

38


Banda PCA 1 Banda PCA 2 Banda PCA 3 Banda PCA 4 Banda PCA 5 




Fig. 2.11 Ejemplo de aplicación de la transformada PCA sobre una imagen hiperespectral real. 

PCA es el análisis de valores multivaluados basados en eigenvector (vectores 

propios) más simple. Se usa para reducir la dimensionalidad de los datos reteniendo 

aquellas características del conjunto de datos que contribuyen más a su varianza, y 

manteniendo los componentes principales de orden más bajo e ignorando los más 

altos. Ya que los componentes de orden bajo contienen los datos “más importantes”. 

Sin embargo, dependiendo de la aplicación este podría no ser siempre el caso. 

Supongamos que existe una muestra con n individuos para cada uno de los 

cuales se han medido m variables (aleatorias) . El PCA permite encontrar un 

número de factores subyacentes p < m que explican aproximadamente el valor de las 

m variables para cada individuo. El hecho de que existan estos p factores subyacentes 

puede interpretarse como una reducción de la dimensionalidad de los datos: donde 

antes necesitábamos m valores para caracterizar a cada individuo ahora nos bastan p 

valores. Cada uno de los p encontrados se llama componente principal, de ahí el 

nombre del método. 

39


2.7.2 Transformación Minimum Noise Fraction (MNF) 

Esta transformación es usada para determinar la redimensión de los datos de la 

imagen, para sesgar el ruido de los datos y para reducir los requerimientos del 

procesamiento de los datos [48]. 

Este es un algoritmo que consiste en dos operaciones de reducción de datos 

consecutivas. La primera basada en la estimación del ruido de los datos como la 

representada por una matriz de correlación. Esta transformación elimina la 

correlación y reescala el ruido de los datos por varianza. En esta etapa, la información 

sobre el ruido entre bandas no se considera. La segunda operación se da sobre la 

correlación original, y crea un conjunto de componentes que contienen información 

ponderada sobre la varianza a lo largo de todas las bandas en el conjunto de datos 

bruto. 

La principal diferencia entre la transformación PCA y la transformación MNF 

es el hecho de que, en el segundo caso, se realiza una descripción más detallada de la 

relación existente entre la cantidad de señal presente en la imagen y la cantidad de 

ruido [64]. De este modo, la primera banda resultante de la transformación MNF es la 

que presenta mayor relación SNR. La segunda banda presenta mejor SNR que la 

tercera, y así sucesivamente. 

En la Fig 2.13 se muestra un ejemplo de la aplicación de la transformación 

MNF a una imagen hiperespectral real del sensor AVIRIS sobre la región Jasper 

Ridge. La figura muestra las primeras 20 bandas obtenidas a partir de la transformada 

MNF. Visualmente, puede comprobarse que la presencia de ruido es mucho menor en 

las primeras bandas, aumentando de forma considerable en las últimas. 

Como consecuencia de la estimación más precisa de las condiciones de ruido 

presentes en la imagen, en determinadas aplicaciones la descomposición MNF puede 

ofrecer resultados más robustos que la transformada PCA [65], pues es menos 

sensible a outliers y píxeles ruidosos. 

40


Banda MNF 1 Banda MNF 2 Banda MNF 3 Banda MNF 4 Banda MNF 5 




Fig. 2.12. Ejemplo de aplicación de la transformada MF sobre una imagen hiperespectral real. 

A menudo, la mayor parte de la variación del conjunto de datos se puede 

explicar con unos pocos de los primeros componentes, el resto contienen 

componentes que contribuyen a la variación principalmente con ruido [66]. Los 

primeros 10 componentes son determinantes, pueden contener un 99% del total de la 

varianza de los datos, y son seleccionados con un subconjunto de la nueva imagen. 

Este subconjunto de componentes dominantes será usado posteriormente para la 

transformación inversa y producirá de nuevo el total de bandas. Los datos mostrados 

por aquellas bandas con un número superior a 150 son datos dominados por el ruido. 

El uso de la transformación MNF es justificado [8]. 

41


3. Metodología 

En el presente capítulo vamos a explicar de forma detallada que procedimientos 

hemos seguido con cada una de las técnicas anteriormente descritas para lograr 

obtener los resultados que se presentarán en el capítulo 4. 

El siguiente diagrama de flujo es un esquema de la forma de procesar las 

imágenes mediante los métodos utilizados. Partiendo de una imagen hiperespectral, 

podemos realizar un paso opcional, señalado en naranja, que es una reducción, 

podemos utilizar la técnica PCA ó MNF. El siguiente paso es seleccionar el conjunto 

de entrenamiento, hemos hecho pruebas con conjuntos de entrenamiento de diferentes 

tamaños para cada una de las imágenes analizadas. Una vez que tenemos el conjunto 

de entrenamiento tenemos que elegir el procedimiento que vamos a utilizar para 

llevar a cabo la clasificación, los métodos analizados han sido ML, SOM, MLP y 

SVM. A continuación se llevan a cabo el entrenamiento y la clasificación, gracias a 

los cuales obtenemos los resultados de clasificación para cada imagen. 

A continuación vamos a explicar la forma de forma detallada como hemos 

procedido con cada una de las implementaciones utilizadas para llegar a los 

resultados obtenidos. Las principales razones para seleccionar los métodos 

anteriormente citados son las siguientes: 

• En primer lugar, el método ML se utiliza ampliamente en reconocimiento de 

patrones y en análisis hiperespectral, y es capaz de establecer similaridades 

a nivel espectral de forma sencilla aprovechando toda la información 

presente en cada píxel de la imagen. 

• El método MLP se trata de uno de los métodos neuronales más populares y 

aplicado a un mayor número de problemas en la literatura. 

• La técnica SVM ofrece un método sofisticado de clasificación capaz de 

funcionar en espacios altamente dimensionales. Constituye una nueva 

generación de clasificadores supervisados y resulta muy interesante para 

poder establecer comparativas con métodos tradicionales. 

Finalmente, el método SOM es representativo de las técnicas neuronales con 

menores requerimientos en cuanto a supervisión y necesidad de disponer de 

información a priori. 

42


3.1 Maximum likelihood (ML) 

La Fig 3.1 es el diagrama de flujo que representa el funcionamiento general del 

clasificador ML, en primer lugar tenemos el paso opcional de realizar 

preprocesamiento de la imagen, puede ser PCA o MNF, o podemos utilizar 

directamente la imagen hiperespectral original, la siguiente etapa consiste en decidir 

el tamaño del conjunto de entrenamiento, hemos creado conjuntos de entrenamiento 

del 5, 10 ,20 y 50% para cada una de las imágenes. 

Este método requiere que el número de píxeles de entrenamiento por clase sea 

mayor que el número de bandas de la imagen. Por lo que para imágenes con muchas 

bandas y clases con pocos puntos no es un método de clasificación útil, ya que la 

mayoría de las clases no se podrán entrenar y por tanto clasificar (Fenómeno Hughes, 

capítulo 2.7). 

El clasificador Maximum likelihood asume que las estadísticas para cada clase 

en cada banda se distribuyen normalmente y calcula la probabilidad de que dado un 

píxel pertenezca a una clase específica. A menos que se seleccione una probabilidad 

de error se clasificarán todos los píxeles. Cada píxel se asignará a la clase con una 

mayor probabilidad de pertenecer. Si la probabilidad máxima de un píxel es inferior 

al umbral especificado, el píxel queda no clasificado [67]. 

Fig. 3.1 Esquema de funcionamiento ML 

43


El umbral de probabilidad es un parámetro que se aplica una vez obtenida la 

probabilidad de que un píxel pertenezca a una determinada clase e indica la 

probabilidad mínima aceptada para ser clasificado. Podemos no seleccionar umbral y 

todos los puntos serán clasificados, podemos seleccionar un umbral de error para 

todas las clases. Cuanto mayor sea este umbral peor será la clasificación obtenida, 

pero antes obtendremos el resultado. 

3.2 Multi-Layer Perceptron (MLP) 

La arquitectura del perceptrón multicapa es una de las redes más populares, es 

una red multicapa con conexiones hacia delante (feedforward) y retroalimentación 

(backpropagation). 

La Fig. 3.2 es el diagrama de flujo para el procesamiento de la red MLP, 

podemos utilizar preprocesamiento de la imagen analizada o emplear directamente 

ésta. Los conjuntos de entrenamiento de esta red son los mismos que en el apartado 

anterior, y consisten en un conjunto de puntos seleccionados aleatoriamente sobre la 

verdad terreno, los tamaños utilizados en las pruebas han sido de 5%, 10%, 20% y 

50%. La red MLP es más compleja que ML por lo que tiene más patrones que 

seleccionar. 

Fig. 3.2 Esquema general de funcionamiento de MLP 

44


La tasa de convergencia de la red depende de la forma de la superficie del error 

así como el proceso de aprendizaje y el conjunto de puntos de entrenamiento. A 

continuación vamos a ver algunos de los parámetros que ayudan a mejorar la tasa de 

convergencia. 

• El coeficiente de aprendizaje η en la regla delta generalizada determina el 

ajuste de pesos hecho en cada iteración y por lo tanto influye en la tasa de 

convergencia. El valor de η es importante ya que una mala elección puede llevar a un 

fallo en el proceso de convergencia. También se sabe que este valor no debe ser 

constante si se quieren alcanzar mejores resultados [68]. Si el valor de η es muy 

grande el proceso de búsqueda puede oscilar sobre el camino ideal y tardar mucho en 

converger. Si por el contrario el valor es muy pequeño el proceso de búsqueda del 

mínimo puede ser muy largo llevando a un incremento del tiempo total de 

convergencia. 

o Los valores que hemos seleccionado para este parámetros han sido 0.2, 

0.01 y 0.001. En primer lugar seleccionamos un valor grande, pero tras 

varias pruebas vimos que el porcentaje de acierto era bastante bajo. El 

segundo y tercero los hemos ido cambiando para mejorar la tasa de 

convergencia. Cuanto más lento es el aprendizaje mejores resultado 

hemos obtenido. 

• El número de iteraciones máximo. 

o Las pruebas de este parámetro las hemos hecho para 1000 y 10000 

iteraciones. El primero de ellos era un valor bajo, para que el método 

terminará rápidamente, el segundo lo hemos seleccionado para que junto 

con una tasa de aprendizaje menor obtuviésemos unos resultados 

mejores. Al disminuir la tasa de aprendizaje tenemos que aumentar el 

número de iteraciones. Para las pruebas con la imagen completa, que 

tiene más datos, hemos necesitado aumentar el número de iteraciones a 

100.000 para poder llegar a unos resultados óptimos. 

• El número de capas ocultas. En general, si una red tiene pocas capas ocultas 

no puede aprender el conjunto de entrenamiento bien. Pero por otro lado si hay 

demasiadas tratarán de memorizar el conjunto de entrenamiento y no podrán 

generalizar bien. Por lo tanto, es mejor en la mayoría de las aplicaciones utilizar el 

tamaño mínimo de capas ocultas. 

45


o El número de capas ocultas lo hemos variado de 1 a 3. Al aumentar el 

número de capas, aumenta la complejidad de la red, lo cual no nos ha 

ayudado a mejorar la tasa de acierto, el valor más óptimo ha sido con 

una capa oculta. 

• El umbral de error. Si el error que alcanza la red en una determinada 

iteración es menor que este valor el procedimiento finaliza. Cuanto mayor sea este 

umbral peor será la clasificación. 

o El umbral lo hemos entre los valores 0.1 y 0.35. Para que la red 

finalizase en un número de iteraciones no demasiado elevado hemos 

aumentado la tasa de error permitida. Cuanto menor sea este valor mejor 

será la clasificación obtenida, pero más tardará la red en converger. 

Los resultados obtenidos los hemos comparado con la matriz de confusión y con 

las imágenes de clasificación resultantes. 

3.3 Support Vector Machine (SVM) 

En primer lugar vamos a hablar de SVM Support Vector Machine).Este método 

desarrolla una clasificación supervisada de imágenes para identificar las clases 

asociadas con cada píxel. SVM es un sistema de clasificación derivado de teorías de 

aprendizaje estadístico. Separa las clases con una superficie de decisión (hiperplano 

óptimo) que maximiza el margin entre las clases. 

SVM es un clasificador lineal, ya que el objetivo principal de esta 

implementación es conseguir un hiperplano de separación en el espacio N- 

dimensional. Los datos hiperespectrales son altamente no lineales, por lo que para 

poder separarlos la solución más utilizada es proyectar el espacio N-dimensional de 

entrada sobre espacios de mayor dimensionalidad de acuerdo con una función o 

kernel [69]. 

Para desarrollar las pruebas hemos trabajado con cuatro tipos de kernel que 

presentamos a continuación: 

• Kernel lineal. 

• Kernel Radial Basis Function (RBF). 

• Kernel polinómico 

• Kernel sigmoidal 

46


La Fig. 3.3 muestra un esquema general del procedimiento seguido para 

analizar el clasificador SVM, 

Fig. 3.3 Diagrama de flujo SVM 

SVM incluye un parámetro de flexibilidad que permite un cierto grado de error 

en la clasificación, que es especialmente importante para los conjuntos de 

entrenamiento no separables. Este parámetro controla el compendio entre permitir la 

generación de errores y forzar los márgenes entre clases. Creando un margen de error 

que permite algún error de clasificación, por lo que permite que a algunos puntos 

estar en el lado “incorrecto” del hiperplano. Incrementando el valor de este parámetro 

se aumenta el coste del error de clasificación y se fuerza la creación de modelos más 

exactos que no generalizan bien. Hemos probado con valores de 50, 100, 150. Los 

mejores resultados los hemos obtenido con 100, es un valor intermedio que compensa 

la relación entre permitir error en la clasificación y la rigidez de los márgenes. 

El umbral de probabilidad lo hemos variado, pero los mejores resultados se han 

producido con el umbral 0, exigiendo una clasificación para todos los pixels. 

El conjunto de patrones de entrenamiento se seleccionan aleatoriamente de la 

verdad terreno, los tamaños que hemos utilizado han sido 5%, 10%, 20% y 50% para 

cada clase. 

47


Una vez realizada la clasificación y obtenidos los resultados se comparan con la 

verdad terreno completa, haciendo una comparación entre los píxeles resultantes y los 

que deberíamos haber obtenido. 

3.4 Self-Organizing Map (SOM) 

Es una red competitiva, autoorganizada que aprende del entorno sin supervisión. 

La arquitectura es bastante simple, consiste en un grupo de neuronas organizadas 

geométricamente en una, dos tres o incluso más dimensiones. Esta red es capaz de 

aprender un vector de cuantificación de forma efectiva. La cuantificación es el 

proceso de transformación de un variable con valores continuos o analógicos a 

variables discretas, en nuestro caso pasar de las firmas espectrales de los píxeles a su 

categorización en clases [68]. 

Su funcionamiento se basa en una competición entre las neuronas, la neurona 

que tenga un peso más cercano al patrón de entrada gana la competición. Pero la 

neurona ganadora no es la única beneficiada del aprendizaje. Las vecinas más 

próximas también verán modificados sus pesos. 

pasos: 

vecindad. 

El proceso de aprendizaje para la SOM se puede resumir en los siguientes 

• Inicialización de pesos wr y la tasa de aprendizaje y los parámetros de 

• Seleccionar un vector x de los patrones de entrada a la red. 

• Determinar el array cuyos pesos estén más cerca de x después de ejecutar: 

|| wr – x|| = min || wr -x|| 

• Actualizar los vectores de pesos para la siguiente iteración para las neuronas 

vecinas y las neuronas que no sean vecinas. 

En la Fig. 3.4 vemos un esquema general del flujo de proceso de las pruebas de 

la red SOM, los parámetros del proceso de aprendizaje anteriormente indicados no 

tienen cabida en el esquema, ya que son variables internas del proceso de aprendizaje, 

pero si las tenemos que fijar antes de comenzar a utilizar la red, los pesos se 

inicializan aleatoriamente, la tasa de aprendizaje y los parámetros de vecindad tienen 

un valor fijo durante todo el proceso, estos parámetros son los que nos van ha hacer 

que la red tarde más o menos en converger. Los vectores de entrada es lo que en el 

48


esquema de la Fig 3.4 hemos llamado conjunto de entrenamiento, son los píxeles de 

la imagen que han sido seleccionados. A medida que se van realizando las iteraciones 

también se genera un vector de error y se modifica el vector de pesos, que es el que 

luego resolverá el proceso de clasificación. 

Los parámetros de entrada a la función son: 

• Imagen. Los patrones de entrenamiento de la red. 

• Número de iteraciones. Como su propio nombre indica determina el número 

de iteraciones que se repite el algoritmo. 

• Número de clases. Número de clases del conjunto de entrenamiento, de la 

imagen que introducimos como entrenamiento. 

Fig. 3.4 Esquema general de SOM 

Este método nos devuelve una matriz de pesos y un vector de error. La matriz 

de pesos es la entrada para la función de clasificación, que a raíz de estos pesos 

determina a que clase pertenece cada píxel. 

A la hora de seleccionar un conjunto de entrenamiento, el parámetro que hemos 

llamada Imagen, hemos seleccionado para todas las clases el mismo número de 

píxeles de entrenamiento. Para elegir este conjunto de entrenamiento se hace a partir 

de la imagen y su verdad terreno, se seleccionan para cada clase n píxeles de 

49


entrenamiento de forma aleatoria y se introducen en una matriz tridimensional, como 

se ve en la Fig. 3.5. 

Fig. 3.5 Matriz de entrenamiento SOM 

Es decir, organizamos la información de tal forma que para cada clase (fila del 

vector) tenemos un conjunto de puntos de entrenamiento pertenecientes a esa clase 

(columna del vector) y cada uno de esos puntos tiene todas las bandas de la imagen, 

que son las distintas matrices que se encuentran por detrás, cada una es una banda. 

Por lo que para esta clasificación almacenamos el píxel de entrenamiento con todas 

sus bandas y no las coordenadas como pasaba anteriormente. 

Además se puede crear un conjunto de test si se desea, para poder introducir en 

el método de clasificación de la SOM. Nosotros en las pruebas finales no lo hemos 

utilizado ya que el resto de los métodos clasificaban todos los puntos de la imagen y 

era necesario hacerlo también con la SOM para poder compararlos. 

3.5 Proceso de entrenamiento para todos los clasificadores 

En este apartado vamos a explicar aquellos pasos que son comunes a todos los 

métodos. Ya que son muchos los pasos que comparten los clasificadores. Podemos 

verlo en la Fig. 3.6. 

50


3.5.1 Preprocesamiento 

Fig. 3.6 Esquema general de funcionamiento 

Con esta transformación se mejoraron algunos resultados y se pudieron llevar a 

cabo los de la red neuronal Maximum likelihood, ya que entre sus requisitos esta 

tener un número de píxeles de entrenamiento superior al número de bandas y en el 

caso de AVIRIS Indian Pines, con clases de entrenamiento tan pequeñas y un número 

de bandas tan elevado (202) no se podían llevar a cabo las pruebas. 

3.5.2 Conjunto de entrenamiento 

Los conjuntos de entrenamiento son seleccionados en todos los casos de forma 

totalmente aleatoria entre los píxeles etiquetados. Para cada una de las clases 

elegimos un conjunto de píxeles en función del número total de píxeles etiquetados en 

esa clase, es decir, para cada una de las clases tenemos un porcentaje de píxeles de 

entrenamiento. Estos porcentajes son 5%, 10%, 20% y 50%. 

Aunque nosotros hemos hecho las pruebas seleccionando los conjuntos de 

entrenamiento aleatoriamente, hay estudios que demuestran que utilizar conjuntos de 

entrenamiento seleccionados entre los patrones más extremos mejora la 

clasificación.(Véase Fig. 3.7) Si seleccionamos los patrones que están en el borde 

como entrenamiento su proximidad a los patrones del resto de las clases es tan 

51


cercano como la distancia al resto de patrones de la clase a la que pertenece, por lo 

hace más difícil el proceso de clasificación ya que la diferencia entre dos clases 

distintas es menor [46]. 

Fig. 3.7 Patrones de entrenamiento extremo, core y borde 

Que todas las clases tuviesen el mismo número de ejemplos sería lo más 

adecuado, pero en la práctica muchas veces no es posible. En muchas ocasiones el 

número de píxeles de entrenamiento no es adecuado ya que el número de bandas en 

las imágenes hiperespectrales excede en gran cantidad a este, obteniéndose entonces 

con la red un patrón genérico de poca calidad que no identifica bien a la clase y por lo 

tanto a lo hora de testear el resto de píxeles pertenecientes a esa clase no son 

clasificados como tal. 

Por lo que algunas redes por sus características de estructura y comportamiento 

no son adecuadas para imágenes con gran cantidad de bandas [68]. Por eso una de los 

cambios realizados en las imágenes son las transformaciones MNF y Forward 

Principal Components Rotation. 

3.5.3 Post clasificación 

Finalmente para poder contrastar estos resultados se ha obtenido la matriz de 

confusión, es una forma de comparar la clasificación obtenida con la verdad terreno y 

comprobar la eficacia del método empleado. Una forma de comprobar visualmente el 

resultado obtenido consiste en visualizar la clasificación obtenida y compararla con la 

verdad terreno de la imagen correspondiente. 

52


Para poder comparar todos los resultados entre sí estos han sido representados 

mediante tablas que agrupan la información obtenida y posteriormente representados 

en gráficas para poder ver la evolución de los distintos métodos con los diferentes 

parámetros que hemos ido cambiando. 

53


4 Análisis y discusión de resultados 

En el presente capítulo, analizaremos de forma exhaustiva los resultados 

obtenidos al procesar diferentes imágenes hiperespectrales con las técnicas 

presentadas en capítulos anteriores. Mediante este análisis extraeremos una serie de 

conclusiones que se reflejan en el apartado 5. 

El resto del capítulo se estructura de la siguiente manera: en primer lugar, 

describiremos las imágenes hiperespectrales que se han utilizado para la evaluación 

de las técnicas consideradas. El conjunto de imágenes utilizadas representan un banco 

de pruebas suficiente para determinar la bondad de los clasificadores analizados, 

puesto que constituyen dos conjuntos de datos ampliamente utilizados en el ámbito 

del análisis hiperespectral a la hora de evaluar técnicas de clasificación. En segundo 

lugar, presentaremos los resultados obtenidos por cada uno de los métodos propuestos 

para ambos conjuntos de datos. La presentación de estos resultados se acompañará de 

una justificación de los mismos. 

4.1 Introducción 

El objetivo de este proyecto es realizar un estudio comparativo de diferentes 

redes neuronales y clasificadores utilizados para el análisis de imágenes 

hiperespectrales. 

Para ello se ha trabajado con el paquete software ENVI, Entorno de 

Visualización de Imágenes (Environment for Visualizing Images), es un moderno 

sistema de procesamiento de imágenes diseñado para proporcionar análisis 

multiespectral de los datos obtenidos por teledetección desde sensores instalados 

sobre aviones y satélites. Proporciona un entorno potente, novedoso y de fácil uso 

para presentar y analizar imágenes de cualquier tamaño y tipo de datos en un amplio 

rango de plataformas. 

Otro programa utilizado para tratar imágenes ha sido Matlab, ya que se disponía 

de algunas redes implementadas en el lenguaje propio de este programa que eran de 

interés para el análisis. MATLAB es la abreviatura de MATrix LABoratory 

(laboratorio de matrices). Se trata de un software matemático muy versátil que ofrece 

un entorno de desarrollo integrado (IDE) con un lenguaje de programación propio 

(lenguaje M). 

54


Con el fin de que los resultados fueran comparables se han desarrollado tablas 

en las que se dispone la información de manera compacta para su fácil visualización. 

También se puede apreciar las diferencias entre las distintas redes y los distintos 

parámetros utilizados a través de las gráficas realizadas. 

4.2 Imágenes tratadas 

En el estudio que se ha llevado a cabo se han utilizado dos conjuntos de datos 

hiperespectrales reales, el primero adquirido por el sensor AVIRIS sobre una región 

agrícola en Indiana (USA) y el segundo, una imagen urbana de la ciudad de Pavia 

(Italia) adquirida por el sensor DAIS 7915. 

4.2.1 AVIRIS Indian Pines 

Indian Pines es una imagen captada por del sensor AVIRIS tomada a lo largo de 

una región mixta agrícola / región boscosa en NW Indiana, en Estados Unidos en 

Junio 1992, esta es una imagen conocida y utilizada normalmente para la validación 

de técnicas de clasificación de imágenes hiperespectrales. La imagen comprende un 

total de 1939 x 677 píxeles, cada uno de los cuales presenta resolución espacial de 20 

metros y resolución espectral de 224 bandas comprendidas entre 0,4 y 2,5 µm. El 

tamaño total de la imagen es de 574 MB. 

La imagen representa un problema de clasificación muy complejo debido a la 

etapa temprana de crecimiento de la mayor parte de los cultivos y zonas agrícolas que 

componen la imagen (en la mayor parte, por debajo de un 5% de cobertura del suelo). 

En estas circunstancias, la discriminación entre diferentes cultivos se hace muy 

difícil, lo que ha hecho que esta imagen se haya convertido en una prueba de 

referencia. 

La imagen de AVIRIS Indian Pines (véase Fig. 4.1) utilizada en este estudio 

presenta unas dimensiones de 145 x 145 píxeles y 202 bandas. Tiene 17 clases 

etiquetadas, una de las cuales es el fondo, el tamaño de las clases etiquetadas van 

desde 20 a 2468 píxeles de tamaño. 

55


Fig. 4.1Imagen de una banda de AVIRIS Indian Pines 

La verdad terreno correspondiente a la imagen de AVIRIS Indian Pines es la 

Fig. 4.2, en ella podemos apreciar las 16 clases etiquetadas y los colores que se le han 

asignado a cada una de ellas. 

Fig. 4.2 Verdad terreno AVIRIS Indian Pines 

La Fig. 4.3 muestra los conjuntos de entrenamiento que hemos utilizado para 

realizar el análisis con la imagen AVIRIS Indian Pines, la Fig. (a) 5% con 519 

píxeles, (b) 10% con 1,036, (c) 20% con 2,074 y (d) 50% con 5,182 píxeles 

etiquetados. 

Fig. 4.3 Conjuntos de entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d) 

50%. 

56


En la tabla 4.1 podemos ver la distribución de los conjuntos de entrenamiento 

para cada una de las clases con los que hemos desarrollado las pruebas y el total de 

píxeles etiquetados de la verdad terreno. 

IDIA PIES % de patrones de entrenamiento 

Clases 5 % 10% 20 % 50 % 100% 

Alfalfa 3 5 11 27 54 

Grass trees 19 38 76 190 380 

Corn 12 23 47 117 234 

Corn min 42 83 167 417 834 

Corn notill 72 143 287 717 1,434 

Grass pasture 25 50 99 249 497 

Grass pasture mov. 1 3 5 13 26 

Grass trees 37 75 149 374 747 

Hay windrowed 24 49 98 245 489 

Oats 1 2 4 10 20 

Soybeans clean 31 61 123 307 614 

Soybeans min 123 247 494 1,234 2,468 

Soybeans notill 48 97 194 484 968 

Stone steel towers 5 10 19 48 95 

Wheat 11 21 42 106 212 

Woods 65 129 259 647 1,294 

Total 519 1,036 2,074 5,185 10,366 

Tabla 4.1 AVIRIS Indian Pines conjuntos de entrenamiento y número de total de píxeles por 

4.2.2 DAIS 7915 sobre Pavia 

clase 

El segundo conjunto de datos utilizado es la escena urbana adquirida por el 

sensor DAIS 7915 sobre la ciudad de Pavia, Italia (véase Fig. 4.4). La imagen se 

caracteriza por resoluciones espaciales y espectrales moderadas, con 5 metros de 

resolución por píxel y 40 bandas espectrales en el rango comprendido entre 504 y 864 

nm. La imagen representa un complicado problema de clasificación debido a la 

complejidad de las clases espaciales que dominan este paisaje urbano. La imagen se 

encuentra corregida atmosféricamente y tiene un tamaño total de 400 x 400 píxeles. 

57


Fig. 4.4 Imagen de una banda de DAIS 7915 sobre Pavia 

La Fig. 4.5 representa la verdad terreno correspondiente a la imagen de DAIS 

7915 sobre Pavia, en la que distinguimos las 9 clases etiquetadas para esta imagen. 

Fig. 4.5 Verdad terreno de la imagen DAIS 7915 sobre Pavia 

La Fig. 4.6 representa los puntos seleccionados de los ROIs como conjuntos de 

entrenamiento para la imagen DAIS 7915 sobre Pavia, en la Fig (a) los puntos son 

muy pocos, solo 729 de los 400x400 que tiene la imagen en total, de los cuales solo 

14,585 están etiquetados. La Fig (b) tiene 1,460 píxeles. La Fig (c) tiene 2,918 

píxeles seleccionados y la Fig (d) tiene 7,295 píxeles etiquetados. 

Fig. 4.6 Conjuntos de entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%. 

58


En la tabla 4.2 tenemos los tamaños de los conjuntos de entrenamiento para 

todas las clases de la imagen y también el número total de píxeles de la imagen. 

PAVIA % de patrones de entrenamiento 

Clases 5 % 10% 20 % 50 % 100% 

Shadows 34 69 137 343 685 

Water 62 125 249 623 1,245 

Parking lot 215 429 858 2,145 4,290 

Asphalt 12 24 48 121 241 

Brick roofs 14 29 58 144 288 

Bare soil 112 224 448 1,119 2,238 

Bitumen 74 148 295 738 1,475 

Meadows 121 242 485 1,212 2,424 

Trees 85 170 340 850 1,699 

Total 729 1,460 2.918 7,295 14,585 

Tabla 4.2. Conjuntos de entrenamiento y número de píxeles totales etiquetados de la imagen 

DAIS 7915 sobre Pavia 

4.3 Modificaciones sobre las imágenes 

Con el fin de intentar mejorar los resultados de la imagen de AVIRIS Indian 

Pines hemos hecho un estudio sobre la separabilidad de las clases y el ruido de las 

bandas ya que es una imagen complicada, con muchas bandas y algunas de las clases 

tienen pocos puntos de entrenamiento. 

Una de las posibles modificaciones es eliminar las bandas ruidosas, con la única 

finalidad de obtener mejores resultados. En la Fig. 4.7 podemos ver la diferencia 

entre una de estas bandas ruidosas, Fig. 4.7 (a) y otra que no lo es, Fig.4.7 (b). 

Fig. 4.7 (a) Banda 6 y (b) banda 1de la imagen de AVIRIS Indian Pines. 

59


Otra modificación que puede mejorar los resultados obtenidos es eliminar la 

clases difícimente separables, tras hacer un estudio de la separabilidad obtuvimos que 

12 de las 16 clases que eran separables, por lo que cuatro no lo son. 

En la tabla 4.3 vemos el problema de separabilidad para la imagen AVIRIS 

Indian Pines, en la diagonal principal vemos el número de píxeles de la clase 

correspondiente. El resto de la fila y la columna es el resultado de la separabilidad de 

esa clase con el resto, el valor máximo es 2, eso quiere decir que las clases son 

separables, por el contrario el valor mínimo que es 0, indica que las dos clases en 

cuestión no son separables. 

Si analizamos la tabla 4.3 tenemos que la clase Alfalfa (primera fila), la clase 

Grass-pasture-moved (sexta fila), la clase Oats (décima fila) y la clase Stone-Steel- 

tower (catorceava fila) no son separables. En todos los casos la fila y la columna 

correspondiente se encuentran a 0. Por el contrario tenemos clases que son totalmente 

separables y todos los valores, excepto los de estas cuatro clases, tienen el valor dos, 

como es el caso de Bldg-grass-trees-drives. 

Clases A B C D E F G H I J K L M O P 

A 54 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

B 0 380 2 2 2 2 0 2 2 0 2 2 2 0 2 2 

C 0 2 234 2 2 2 0 2 2 0 2 2 2 0 2 2 

D 0 2 2 834 1.999 2 0 2 2 0 2 1.999 1.999 0 2 2 

E 0 2 2 1.999 1434 2 0 2 2 0 2 1.997 1.999 0 2 2 

F 0 2 2 2 2 497 0 2 2 0 2 2 2 0 2 2 

G 0 0 0 0 0 0 26 0 0 0 0 0 0 0 0 0 

H 0 2 2 2 2 2 0 747 2 0 2 2 2 0 2 2 

I 0 2 2 2 2 2 0 2 489 0 2 2 2 0 2 2 

J 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 

K 0 2 2 2 2 2 0 2 2 0 614 1.999 2 0 2 2 

L 0 2 2 1.999 1.997 2 0 2 2 0 1.999 2468 1.999 0 2 2 

M 0 2 2 1.999 1.999 2 0 2 2 0 2 1.999 968 0 2 2 

0 0 0 0 0 0 0 0 0 0 0 0 0 95 0 0 

O 0 2 2 2 2 2 0 2 2 0 2 2 2 0 212 2 

P 0 2 2 2 2 2 0 2 2 0 2 2 2 0 2 1294 

Tabla 4.3. Separabilidad de AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn 

min. E: Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed. 

J: Oats. K: Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O: 

Wheat. P: Woods. 

60


En la tabla 4.4 tenemos los valores correspondientes a la separabilidad de las 

clases de la imagen DAIS 7915 sobre Pavia, en este caso todas las clases son 

separables. Los valores de la tabla o son dos o valores muy próximos a éste. 

Clases A B C D E F G H I 

A 685 2 2 2 2 2 2 2 2 

B 2 1245 2 2 2 2 2 1.999 2 

C 2 2 4290 2 2 2 2 2 2 

D 2 2 2 241 2 2 2 2 2 

E 2 2 2 2 288 2 1.999 2 1.999 

F 2 2 2 2 2 2238 2 2 2 

G 2 2 2 2 1.999 2 1475 2 2 

H 2 1.999 2 2 2 2 2 2424 2 

I 2 2 2 2 1.999 2 2 2 1699 

Tabla 4.4. Separabilidad de DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D: 

Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees. 

61

4.4 Estudio con la imagen AVIRIS Indian Pines 

En este apartado del capítulo vamos a analizar y comentar y los resultados 

obtenidos para la imagen AVIRIS Indian Pines para cada uno de los clasificadores 

utilizados. 

4.4.1 ML 

Este algoritmo es el más sencillo de todos los que se comparan. Para que una 

clase pueda ser entrenada el número de píxeles de esta debe ser superior al número de 

bandas de la imagen. Dada esta premisa y teniendo en cuenta el tamaño de las 

distintas clases, no se podían realizar las pruebas con la imagen completa, por lo que 

hemos tenido que aplicar a la imagen original la transformación MNF y PCA. 

Incluso reduciendo el número de bandas de la imagen a 20, muchas clases no 

pueden ser entrenadas, ya que el tamaño de los conjuntos de entrenamiento es muy 

pequeño. En la tabla 4.7 en la columna de entrenamiento del 5% siete de las dieciséis 

clases no pueden ser entrenadas, por lo que el número de píxeles de entrenamiento y 

de test es menor. Pasamos de tener un conjunto de entrenamiento de 519 a 467, y el 

conjunto de test se reduce de 10366 a 9345. 

Los resultados obtenidos nos indican que la transformación MNF resulta más 

beneficiosa que la transformación PCA. Ya que el porcentaje obtenido con el mismo 

conjunto de entrenamiento es superior para la primera. 

Al trabajar con el 10 ó el 20% (véase las columnas centrales de la tabla 4.7) el 

número de clases incluidas en el entrenamiento es mayor. El número de aciertos 

aumenta proporcionalmente al número de píxeles de entrenamiento por lo que 

aumenta el porcentaje global de acierto. 

En la tabla 4.7 cuando el tamaño del conjunto de entrenamiento es del 50%, 

sólo dos clases no pueden ser entrenadas. Pero en conjunto el porcentaje de acierto 

aumenta, ya que aunque el número de puntos con los que se esta testando es superior, 

también lo es el número de píxeles bien clasificados.

20% de patrones entrenamiento 50% de patrones 

entrenamiento 

10% de patrones 


ML 

entrenamiento 

entrenamiento 

Clase PCA MF PCA MF PCA MF PCA MF 

Alfalfa --- --- --- --- --- --- 100.00 81.48 

Grass trees --- --- 84.80 64.47 85.36 85.00 88.28 87.11 

Corn --- --- 75.06 16.24 82.97 71.37 84.65 92.31 

Corn min 76.43 49.64 10.26 80.10 73.50 81.06 96.58 83.69 

Corn notilla 43.41 82.29 91.16 86.12 94.38 88.08 95.98 89.12 

Grass pasture 69.88 48.26 97.86 92.96 97.59 96.78 6.79 95.17 

Grass pasture 

--- --- --- --- --- -- --- --mov. 

Grass trees 98.13 94.91 97.55 98.53 98.78 95.31 99.18 97.05 

Hay windrowed 63.67 93.87 79.55 98.36 83.88 100.00 90.91 99.80 

Oats --- --- --- --- --- --- --- --- 

Soybeans clean 62.60 45.44 77.88 89.90 79.50 93.16 75.36 96.91 

Soybeans min 81.44 83.91 85.67 80.15 91.21 80.96 95.11 80.35 

Soybeans notill 62.87 61.57 15.09 78.31 99.06 87.19 99.06 91.22 

Stone steel towers --- --- --- --- --- --- 96.45 97.06 

Wheat --- --- 97.53 25.00 97.37 97.17 75.26 99.53 

Woods 98.76 99.07 54.21 97.84 66.84 96.60 100.00 97.45 

Total 76.29 78.15 81.07 83.30 86.79 88.30 88.18 89.88 

Tabla 4.5 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 

10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y MF).

La Fig. 4.8 son los resultados de la clasificación ML con preprocesamiento PCA y 

MNF, los resultados son bastante similares entre si. 

Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20% 

de los píxeles de cada clase (86.79% de acierto). (b) Imagen clasificada mediante ML con 

preprocesamiento MF entrenando con un 20% de los píxeles de cada clase (88.30% de acierto). 

(c) Verdad terreno para la escena de AVIRIS Indian Pines. 

En la Fig. 4.9 vemos el comportamiento general del clasificador ML para la 

imagen AVIRIS Indian Pines, en todos los casos la clasificación de MNF es superior 

a PCA. Siendo el peor de los resultados superior al 75% y el mejor de ellos inferior al 

90%. 

% Píxels correctamente 

clasificados 

% Clasificación al aumentar conjunto de entrenamiento 

95% 

90% 

85% 

80% 

75% 

70% 

65% 

PCA MNF 

Tamaño conjunto de entrenamiento 

Fig. 4.9 Resumen del comportamiento global del clasificador ML al entrenarlo con conjuntos de 

patrones de tamaño creciente (5%, 10%, 20% y 50%).

Análisis comparativo de redes neuronales para el tratamiento de imágenes hiperespectrales 

4.4.2 SOM 

La implementación de la red neuronal SOM que disponemos es para Matlab, 

para poder realizar las pruebas con ella hemos tenido que crear una función de 

selección de patrones de entrenamiento. 

El código de esta red se entrena por una parte y luego se prueba con otro 

módulo. El problema de esta red es que para entrenar necesita que la matriz no tenga 

valores a 0, por lo que todas las clases tienen que entrenar con el mismo número de 

patrones. Esto es dificultad en cuanto a los otros métodos presentados anteriormente, 

en los que seleccionábamos un porcentaje de entrenamiento con respecto al número 

total de puntos etiquetadas para cada una de las clases. 

Como el algoritmo no permite que haya puntos de entrenamiento vacíos, para 

cada clase tenemos que tener el mismo número de columnas o ejemplos, pero para el 

caso de AVIRIS Indian Pines hay clases con muy pocos píxeles, 20 en total, por lo 

que es muy poco entrenamiento 16 clases por 10 píxeles por clase, 160 puntos en 

total. Hay clases que entrenan con un 1% mientras que otras entrenan por el 100%. 

La solución a esta desproporcionada situación fue descartar las clases que no 

son linealmente separables, que coinciden con las que tienen menos puntos, todas con 

menos de 100 píxeles de entrenamiento, con lo que se han podido hacer pruebas con 

un mayor conjunto de entrenamiento. Como los resultados tampoco eran muy buenos 

se decidió hacer una prueba con toda la imagen. 

Tanto el número de patrones por clase, como el número de clases y el número 

de iteraciones han sido factores que hemos ido cambiando, pero ninguno de ellos ha 

producido resultados buenos. 

La Fig. 4.10 es la verdad terreno de la imagen Indian Pines y la Fig. 4.11 es una 

de las imágenes obtenidas de resultado de la clasificación SOM, vemos que debido a 

la complejidad de la imagen y la separabilidad de las clases, junto con el hándicap 

que tiene la red SOM que aprende sin supervisión. Reduciendo el número de bandas o 

el número de clases con las que la red aprende no mejora la clasificación. 

65


Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab 

Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones 

La clasificación de la Fig 4.11 agrupa casi todos los puntos de la imagen en 3 ó 

4 clases principales, quedando las demás la mayor parte de las clases con un 0% de 

acierto. No se puede proceder a una clasificación a posteriori de la imagen en función 

de la clasificación obtenida, ya que muchas clases distintas las clasifica con el mismo 

valor y también dentro de la misma clase clasifica con distintos valores, es decir, no 

separa las clases correctamente, luego la clasificación obtenida no es buena. 

4.4.3 Multi-Layer Perceptron (MLP) 

Las pruebas realizadas se han repetido con diferentes parámetros para conseguir 

una clasificación óptima, los parámetros que hemos utilizado y hemos ido 

modificando son el número de iteraciones máximo, el error permitido y la tasa de 

aprendizaje. 

66


Inicialmente ponemos un error bajo, ya que lo que nos interesa es que la red sea 

lo más perfecta posible y realice la mejor clasificación. El número de iteraciones 

utilizado inicialmente como valor máximo es 1000, aunque es un valor superior al 

necesitado en la clasificación SVM y ML, es un número muy bajo para conseguir una 

buena clasificación ya que este tipo de red converge de forma más lenta que los 

clasificadores analizados anteriormente. La tasa de aprendizaje es un valor que tiene 

que tener un equilibrio entre un valor grande, que permita a la red aprender rápido y 

un valor pequeño para permitir a la red llegar a converger. Inicialmente este era un 

valor grande, de 0.2, luego hemos pasado a probar con un valor más pequeño para 

obtener una mejor clasificación, un valor de 0.001. 

Finalmente los valores con los que hemos obtenido una clasificación aceptable 

han sido con un número de iteraciones de 100.000, una tasa de aprendizaje de 0.001 y 

un error de 0.1. Realizando este prueba con el 5% hemos llegado ha obtener un error 

final de 0.32 ya que el algoritmo alcanzo el número máximo de iteraciones. El resto 

de los porcentajes tuvieron que llegar a este mismo error, debido a que el número de 

patrones de entrenamiento es superior cada una de las iteraciones necesitaba más 

tiempo, y para llegar al mismo error el número de iteraciones es superior conforme 

aumenta el número de patrones. El problema de esta red es que es lenta y para poder 

realizar una prueba del 20% se emplean aproximadamente dos semanas. Lo cual es 

mucho tiempo en comparación con el tiempo que emplean los otros clasificadores. 

Para el caso de las pruebas con la imagen completa para el 20 y 50% de los 

patrones de entrenamiento han estado ejecutándose durante más de 3 semanas, en las 

cuales no se ha conseguido alcanzar el error mínimo introducido, al principio 

convergían más rápido, peor en la última de estas tres semanas que estuvieron 

ejecutándose no han bajado ni una centésima, lo que hace suponer que para llegar al 

punto que deseamos pueden tardar incluso varios meses, siendo por tanto una prueba 

inviable es cuanto a tiempo. Por lo cual los resultados del 20 y 50% no se han 

incluido por tratarse de pruebas que no han llegado a finalizar. 

Para el caso MNF el error global alcanzado ha sido de 0.357, y en el caso de 

PCA ha sido de 0.40. 

67



MLP 5% de patrones entrenamiento 10% de patrones entrenamiento 

entrenamiento 

entrenamiento 

Imagen 

Imagen 

Clase 

PCA MF 

PCA MF PCA MF PCA MF 

completa 

completa 

Alfalfa 87.04 59.26 70.37 87.04 77.78 81.48 88.89 87.04 85.19 90.74 

Grass trees 62.48 75.59 80.47 60.32 51.67 77.27 47.35 84.03 53.00 55.72 

Corn 50.60 61.87 58.99 60.07 43.04 64.87 59.35 64.75 53.24 63.43 

Corn min 64.69 37.61 67.95 74.36 63.68 55.56 59.83 85.90 49.15 78.21 

Corn notill 65.59 55.53 65.79 89.74 65.59 65.79 65.39 65.59 69.01 65.79 

Grass pasture 96.52 94.24 98.39 93.71 92.90 98.53 97.31 97.99 97.59 92.37 

Grass pasture mov. 46.15 0.00 0.00 88.46 61.54 57.69 92.31 100.0 42.31 96.15 

Grass trees 95.30 91.41 97.96 95.30 98.57 97.14 91.00 98.77 89.16 99.55 

Hay windrowed 45.00 0.00 25.00 80.00 10.00 70.00 85.00 85.00 75.00 80.00 

Oats 43.60 13.64 61.05 38.84 82.75 78.20 52.38 67.87 55.99 62.29 

Soybeans clean 91.33 82.33 90.96 92.59 85.66 86.79 78.36 88.57 86.06 93.07 

Soybeans min 91.04 23.13 86.48 50.33 33.06 86.64 76.87 94.30 85.34 96.09 

Soybeans notill 99.53 98.11 98.58 99.53 99.06 99.53 99.06 99.06 99.53 99.53 

Stone steel towers 94.82 94.98 94.98 96.21 72.64 96.14 94.74 97.91 97.30 94.44 

Wheat 64.47 40.79 76.32 71.05 76.32 75.53 60.53 78.68 37.63 94.21 

Woods 89.47 93.68 71.58 95.79 94.74 78.95 85.26 96.84 84.21 97.89 

Total 76.70 70.02 82.50 77.42 71.96 83.33 72.67 85.4 75.07 86.7 

Tabla 4.6 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 


La Fig. 4.12 son las cuatro clasificaciones obtenidas para la imagen MLP con 

preprocesamiento MNF, de esta forma podemos comparar como mejoran los 

resultados a medida que aumentamos el conjunto de entrenamiento, siendo la Fig. 

4.11(a) con un conjunto de entrenamiento del 5%, la Fig. 4.11 (b) con un conjunto de 

entrenamiento del 10%, la Fig. 4.11(c) con un 20% de entrenamiento y la Fig 4.12 (d) 

con un 50% de entrenamiento. Las diferencias son mínimas, ya que los valores 

obtenidos son bastante similares, pero podemos apreciar como los resultados de la 

imagen del 5% tiene menos píxeles correctamente clasificados, lo podemos apreciar 

por ejemplo en la clase clasificada con color naranja, soybeans-notill, y destacada con 

un circulo, también se aprecia como la clase de color morado, grass-pasture-moved, 

no se encuentra clasificada en la Fig. (a) ya que como podemos ver en la tabla 4.5 

tiene un porcentaje de acierto del 0%. 

Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto del 82.50%, (b) 10% con 

un acierto del 83.33%, (c) 20% con un acierto del 85.54% y (d) 50% con un acierto del 86.7%. 

La Fig. 4.13 resume el comportamiento de la red MLP para la imagen AVIRIS 

Indian Pines, podemos ver como los mejores resultados son los obtenidos cuando 

realizamos el preprocesamiento MNF, aunque no se hayan podido completar los


resultados con la imagen completa, no era de esperar que superase el valor obtenido 

con MNF. 


clasificados 


90 

85 

80 

75 

70 

65 

60 

Imagen completa PCA MNF 

1 2 3 4 


Fig. 4.13 Resumen del comportamiento global del clasificador MLP utilizando diferentes kernels 

(funciones de base radial, lineal, polinómico y sigmoide) al entrenarlo con conjuntos de patrones 

de tamaño creciente (5%, 10%, 20% y 50%). 

4.4.4 SVM 

Hemos empezado trabajando con este clasificador con la imagen completa de 

AVIRIS Indian Pines, luego hemos hecho pruebas tras las transformaciones MNF y 

PCA. Y finalmente hemos comparado los resultados obtenidos tras las 

modificaciones de la imagen de eliminar las bandas ruidosas y las clases no 

separables. 

La tabla 4.5 muestra los resultados obtenidos al clasificar la imagen con el 

método SVM con cuatro kernel lineal, Radial Basic Function, polinómico y 

sigmoidal. Los conjuntos de entrenamiento son del 5%, 10%, 20% y 50% y el 

conjunto de test del 100%. Se aprecia claramente como el kernel lineal es el que 

mejores resultados obtiene, mientras que con el kernel RBF o polinómico se obtienen 

resultados inferiores al lineal pero bastante similares entre ellos, por último está el 

resultado obtenido al seleccionar el kernel sigmoide que es algo inferior. 

Los peores resultados se obtienen en aquellas clases en las que por tener menor 

número de píxeles etiquetados el conjunto de entrenamiento es muy reducido. Tanto 

que en este caso las clases Grass-pasture-moved y Oats tienen un único elemento para 

70


el entrenamiento y los resultados obtenidos son del 0.00% de acierto para los casos de 

entrenamiento del 5,10 y 20%. 

Si nos fijamos en los resultados obtenidos habiendo entrenado la red con el 10% 

de los patrones. Los resultados son mejores que los anteriores, pero las diferencias 

entre los resultados obtenidos entre los distintos tipos de kernel seleccionado son 

similares. El kernel lineal continúa siendo el mejor de los cuatro, mientras que el 

sigmoide es claramente peor. 

El conjunto de entrenamiento de ‘Grass-pasture-moved’ sigue siendo muy bajo, 

junto con Oats, por lo que los porcentajes de acierto para estas clases sigue siendo en 

la mayoría de los casos 0.00%. Los resultados de las columnas en las que se han 

utilizado conjuntos de entrenamiento del 20 y 50% los resultados son similares a los 

comentados anteriormente, aumentando, eso sí, el valor del porcentaje de acierto de 

forma proporcional al aumento del tamaño de los datos. El porcentaje de acierto más 

alto es de 90.6618%, perteneciente al kernel lineal con un entrenamiento del 50%. 

La Fig 4.14 compara visualmente los resultados mostrados en la tabla 4.7. La 

Fig (a) muestra la clasificación obtenida entrenando con el 5% de los píxeles 

utilizando un kernel lineal y la Fig (b) es la clasificación obtenida entrenando con un 

50% de los píxeles de cada clase. Se puede apreciar que la clasificación es mucho 

mejor para la imagen (b), con un acierto de 90.66%, que para la imagen (a) con un 

acierto del 74.15%. La imagen (c) es la verdad terreno que nos sirve para comparar 

ambas imágenes con el resultado ideal de clasificación. 

Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% de los píxeles de cada 

clase y utilizando el kernel lineal (74.15% de acierto). (b) Imagen clasificada mediante SVM 

entrenando con un 50% de los píxeles de cada clase y utilizando el kernel lineal (90.66% de 

acierto). (c) Verdad terreno para la escena de AVIRIS Indian Pines. 

71

SVM 5% de patrones entrenamiento 10% de patrones entrenamiento 20% de patrones entrenamiento 50% de patrones entrenamiento 

KEREL KEREL KEREL KEREL 

Clase 

RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. 

Alfalfa 0 20.37 40.74 22.22 29.36 42.59 27.78 27.78 59.26 51.85 59.26 59.26 77.78 94.4 77.78 75.93 

Grass trees 11.84 39.74 25.79 19.74 31.05 52.89 31.32 20.26 42.63 70 42.63 18.42 58.16 83.68 58.16 32.89 

Corn 1.71 32.48 11.54 0.43 39.74 43.16 38.89 12.82 67.09 73.93 69.23 27.78 76.07 84.19 76.92 17.95 

Corn min 43.88 46.40 35.49 27.46 43.76 63.67 40.29 8.51 50 72.06 52.52 34.29 61.75 79.02 62.23 29.26 

Corn notill 61.37 74.06 58.37 50.35 59.97 74.06 60.67 57.81 72.87 85.08 73.01 60.11 76.71 88.21 77.62 59.34 

Grass pasture 54.73 78.67 68.81 28.17 86.32 91.15 85.71 10.46 89.54 94.16 90.14 23.54 94.16 97.38 94.16 83.70 

Grass pasture mov. 0 0 0 96.15 0 3.85 0 0 11.54 46.15 30.77 0 80.77 80.77 80.77 73.08 

Grass trees 86.61 95.72 91.43 0 87.15 94.24 88.62 85.94 90.63 95.72 89.83 85.27 94.38 99.06 94.24 87.28 

Hay windrowed 99.39 97.75 95.30 0 97.14 97.96 97.34 97.14 99.39 99.59 99.39 99.18 98.98 99.39 98.98 98.98 

Oats 0 0 0 0 0 0 0 0 0 0 0 0 75.00 80.00 70.00 25.00 

Soybeans clean 24.92 57.17 34.85 7.98 40.39 81.76 45.28 4.56 62.38 83.22 60.42 8.63 80.94 93.65 80.62 20.52 

Soybeans min 82.21 82.58 79.29 82.33 82.58 86.35 83.75 84.44 82.7 88.82 82.58 81.32 84.81 90.48 85.7 81.60 

Soybeans notill 65.08 63.74 54.86 24.38 69.21 68.70 68.39 33.26 70.97 71.69 71.07 32.75 71.90 80.27 71.69 44.01 

Stone steel towers 82.11 60 64.21 68.42 82.11 84.21 83.16 81.05 86.32 83.16 90.53 83.16 92.63 93.68 92.63 89.47 

Wheat 81.13 47.64 0 0 82.08 93.87 81.13 43.4 92.45 98.11 92.45 91.51 99.53 100 99.53 94.34 

Woods 95.83 96.75 94.2 93.04 95.98 96.68 95.98 96.21 96.68 97.45 96.75 96.99 97.60 98.5 97.6 95.67 

Total 67.54 74.15 65.14 56.13 71.93 80.87 72.3 58.25 77.79 86 77.99 62.3 82.93 90.66 83.27 67.21 

Tabla 4.7 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes tipos de kernels disponibles (funciones de base 

radial, lineal, polinómico y sigmoide) y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%).

Los resultados finales los podemos comparar con la Fig. 4.15, los resultados van 

mejorando conforme aumenta el tamaño del conjunto de entrenamiento, los mejores 

resultados son los obtenidos con el kernel lineal, y los peores con el sigmoide. 

% Píxels correctamente clasificados 

95 

90 

85 

80 

75 

70 

65 

60 

55 

50 


RBF Lineal Polinómico Sigmoide 

5% 10% 20% 50% 





4.4.4.1 SVM con transformadas MNF y PCA 

Estas reducciones consisten en hacer una compresión de los datos para obtener 

una imagen con menor número de bandas. En las pruebas que se han realizado en este 

estudio se ha modificado la imagen de AVIRIS Indian Pines de 202 a tan solo 20 

bandas. 

En la tabla 4.6, fijándonos en la columna con un conjunto de entrenamiento del 

5%, vemos que el porcentaje de acierto que obtenemos con la imagen completa es 

menor que cuando realizamos la transformación. Por lo que podemos decir que para 

este caso es mejor la reducción, ya que mejora entre un 4 y un 8%. En este caso, 

aunque hagamos la transformación y reduzcamos el número de bandas, los 

porcentajes de acierto en las clases con 1 píxel de entrenamiento sigue siendo 0.00%. 

Si nos fijamos en la columna con un entrenamiento del 10%, se ve como la 

distancia entre el porcentaje de acierto con toda la imagen y una vez aplicadas las 

reducciones disminuye, la mejora está ahora entre un 1 y un 5% aproximadamente. 

Podemos ver como en el caso de Grass-pasture-moved el porcentaje de acierto 

se ha visto incrementado considerablemente, ha pasado de un 4% a un 75%


aproximadamente. Pero por el contrario otras clases o bien han disminuido su 

porcentaje de acierto o auque lo hayan aumentado, el incremento ha sido mayor en el 

caso de la clasificación lineal. 

Por el contrario, cuando se utiliza un conjunto de entrenamiento del 20%, los 

resultados obtenidos con la imagen completa ya no son los peores, sino que es el caso 

de la reducción PCA el que obtiene una peor clasificación global. MNF sigue 

teniendo mejores resultados, pero la diferencia con la clasificación lineal es cada vez 

menor. 

Cuando el entrenamiento lo hacemos con el 50%, la última columna de la tabla 

4.6, la clasificación obtenida con la imagen completa es mejor que en los otros dos 

casos entre un 2 y un 5% mejor. 

Aunque gracias a la comparación de la verdad terreno con el resultado obtenido 

con la matriz de confusión podemos ver como los resultados obtenidos con MNF son 

mejores que los obtenidos con PCA, es muy difícil poder apreciar esta diferencia a 

simple vista comparando la Fig. 4.16. 

Fig. 4.16 Comparación de resultados SVM con preprocesamiento y un conjunto de 

entrenamiento del 50%, (a) clasificación PCA, el acierto es del 85.66%. (b) clasificación MF, el 

acierto es del 88.59% y (c) verdad terreno de AVIRIS Indian Pines. 

74

5% de patrones entrenamiento 10% de patrones 



SVM 

entrenamiento 

entrenamiento 

entrenamiento 

Imagen 

Imagen 

Imagen 

Imagen 

Clase 

PCA MF 

PCA MF 

PCA MF 

PCA MF 

completa 

completa 

completa 

completa 

Alfalfa 20.37 27.78 11.11 42.59 75.93 57.41 51.85 51.85 66.67 94.44 75.93 81.48 

Grass trees 39.74 55.53 70.53 52.89 63.68 74.21 70.00 60.53 71.84 83.68 72.11 83.95 

Corn 32.48 43.59 46.58 43.16 35.47 51.71 73.93 73.50 81.20 84.19 82.48 80.77 

Corn min 46.40 53.00 54.08 63.67 66.07 67.27 72.06 67.15 67.99 79.02 71.22 74.70 

Corn notill 74.06 76.43 83.75 74.06 76.71 80.33 85.08 80.75 84.80 88.21 81.38 86.89 

Grass pasture 78.67 90.34 87.53 91.15 89.94 94.77 94.16 93.36 96.38 97.38 96.38 97.59 

Grass pasture 

0.00 0.00 0.00 3.85 76.92 73.08 46.15 80.77 88.46 80.77 84.62 100.00 

mov. 

Grass trees 95.72 94.51 98.80 94.24 96.39 98.13 95.72 94.91 98.26 99.06 96.25 98.53 

Hay windrowed 97.75 99.39 99.59 97.96 98.57 99.18 99.59 99.80 99.59 99.39 99.59 99.18 

Oats 0.00 0.00 0.00 0.00 10.00 0.00 0.00 5.00 40.00 80.00 85.00 90.00 

Soybeans clean 57.17 68.73 85.50 81.76 80.29 86.32 83.22 78.66 87.46 93.65 85.18 90.23 

Soybeans min 82.58 83.31 83.06 86.35 84.40 86.43 88.82 84.76 87.88 90.48 86.14 87.36 

Soybeans notill 63.74 66.12 73.35 68.70 72.42 75.41 71.69 66.32 77.07 80.27 69.63 75.00 

Stone steel towers 60.00 62.11 73.68 84.21 80.00 76.84 83.16 88.42 82.11 93.68 91.58 95.79 

Wheat 47.64 99.06 99.06 93.87 98.58 99.53 98.11 99.53 99.53 100.00 99.53 100.00 

Woods 96.75 97.99 96.21 96.68 95.36 95.36 97.45 97.22 98.07 98.53 97.84 98.38 

Total 74.16 78.74 82.05 80.87 81.84 84.56 86.00 82.97 87.04 90.66 85.66 88.59 

Tabla 4.8. Resultados de clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y MF y conjuntos de entrenamiento de tamaño 

progresivamente creciente (5%, 10%, 20% y 50%).

Fijándonos en la tabla 4.8 en general, podemos ver que a medida que aumenta el 

conjunto de entrenamiento, aumenta también el porcentaje de acierto, este porcentaje 

es mayor en el caso de la clasificación con toda la imagen. Por eso aunque 

inicialmente no obtiene los mejores resultados, si es la clasificación con un mayor 

porcentaje de acierto cuando se entrena con más píxeles, (véase Fig. 4.17). 


clasificados 


100 

95 

90 

85 

80 

75 

70 


5% 10% 20% 50% 





4.4.5 Resumen de la imagen AVIRIS Indian Pines 

La imagen AVIRIS Indian Pines es una imagen con un gran número de bandas, 

16 clases etiquetadas, algunas de las cuales no superan la 20 de píxeles etiquetados, lo 

que hace que sea un impedimento a la hora de clasificar la imagen. Los resultados 

obtenidos con las diferentes clasificaciones 

Con el método ML se ha podido realizar un entrenamiento con la imagen 

completa, ya que al tener conjuntos con un gran número de patrones de 

entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha 

permitido poder llevar a cabo el entrenamiento y su posterior clasificación, 

obteniendo buenos resultados. A pesar de que es un clasificador sencillo sus 

resultados van desde el 95% (cuando entrenamos con la imagen completa) y el 97% 

(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% de los 

píxeles etiquetados de la imagen, al 99% cuando entrenamos con un 50%. Los 

resultados son buenos, pero este clasificador tiene el inconveniente de necesitar que el


tamaño de los conjuntos de entrenamiento sea superior al número de bandas, 

pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines. 

La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un 

85%, debido a que es una red que aprende sin supervisión, de ahí que algunas de 

clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que 

se produce una mala clasificación. 

La red MLP obtiene buenos resultados, sus porcentajes de acierto varían entre 

un 98 y un 99.5% aproximadamente. Esta red trabaja de forma más lenta, pero gracias 

a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un 

tiempo moderado. 

Por ultimo el clasificador SVM aúna dos características buenos resultados, entre 

un 98 y 99.5%, como en el caso de MLP pero con unos tiempos de procesamiento 

más rápidos. 

Cualquiera de los métodos empleados (ML, SOM, MLP o SVM) para analizar 

esta imagen obtiene unos resultados muy buenos debido a que esta imagen tiene 

pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad de 

píxeles etiquetados. 

4.5 Estudio de la imagen DAIS 7915 sobre Pavia 

4.5.1 ML 

A la hora de comparar este método, como el número de bandas es bajo se han 

hecho 3 pruebas. La primera columna de resultados representa los datos obtenidos 

tras la clasificación partiendo de la imagen completa. En las dos columnas siguientes 

se presentan los resultados tras las transformaciones PCA y MNF practicadas sobre la 

imagen, reduciendo de 40 a 20 el número de bandas. 

En la tabla 4.10 podemos ver que cuando el conjunto de entrenamiento es del 

10% el porcentaje de acierto con la imagen completa es superior que en los casos de 

reducción, esto se explica debido a que en las clasificaciones de la imagen PCA y 

MNF las clases que tienen poco entrenamiento (shadows, 24) y (parking lot, 29) 

píxeles, tienen porcentajes bajos lo que empeora el porcentaje de acierto general, en 

el caso de la imagen completa estos porcentajes no se tienen en cuenta porque el 

método no lo permite, luego las clases que son tomadas en cuenta tienen un gran 

porcentaje de acierto y mejoran el porcentaje global. 

77


Los resultados de la clasificación para el 20% de entrenamiento son mejores con 

las clasificaciones de MNF y PCA debido a que el número de ejemplos con respecto 

al número de bandas es mejor. 

En los resultados obtenidos utilizando el 50% de entrenamiento las clases tienen 

suficientes ejemplos y vemos como los porcentajes se igualan, siendo ligeramente 

superiores los de la imagen completa. Al ver la tabla 4.10 podemos llegar a la 

conclusión de que la comparación entre las dos reducciones nos lleva a decir que son 

mejores las cifras obtenidas con la transformación MNF. 

La Fig. 4.18 es una comparativa entre la clasificación ML para el 10% entre las 

distintas soluciones obtenidas, la primera imagen (a) corresponde con la clasificación 

con la imagen completa, aunque es la mejor clasificación, podemos apreciar como la 

clase parking lot, de color turquesa, no aparece en la imagen, así como tampoco se 

tiene en cuenta para hallar el porcentaje de acierto la clase shadows, de color 

amarillo. 

Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje 

de acierto de 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un 

porcentaje de acierto de 97.60% y (c) clasificación ML con la imagen con preprocesamiento 

MF, con un porcentaje de acierto de 97.30%. En todos los casos con el 10% de entrenamiento. 

(d) verdad terreno de la imagen DAIS 7915 sobre Pavia. 

78

ML 5% de patrones entrenamiento 10% de patrones entrenamiento 20% de patrones entrenamiento 50% de patrones entrenamiento 

Imagen 

Imagen 

Imagen 

Imagen 

Clase 

PCA MF 

PCA MF 

PCA MF 

PCA MF 

completa 

completa 

completa 

completa 

Shadows --- --- --- --- 39.00 39.42 30.29 88.38 90.87 94.61 98.34 98.34 

Water 99.79 99.79 99.79 99.79 99.79 99.79 99.65 99.79 99.79 99.79 99.79 99.79 

Parking lot --- --- --- --- 67.71 57.29 58.33 95.14 94.10 97.22 97.92 98.26 

Asphalt 93.05 97.00 97.00 98.59 98.59 98.76 99.35 99.12 99.00 99.76 99.12 99.12 

Brick roofs 99.96 99.96 99.96 99.96 99.96 99.96 99.91 99.91 99.96 99.96 99.96 99.96 

Bare soil 94.31 98.64 98.98 99.46 99.25 99.32 99.39 99.12 99.59 99.46 99.32 99.46 

Bitumen --- 86.28 87.88 90.36 97.96 97.81 98.54 99.42 99.85 99.85 99.71 99.85 

Meadows 58.23 99.42 99.30 96.87 98.72 97.98 97.75% 98.51 98.14 98.80 98.89 98.47 

Trees 99.83 96.06 95.90 98.60 98.39 98.39 98.93 98.07 98.23 99.13 98.07 98.76 

Total 94.50 98.31 98.39 98.71 97.60 97.30 97.33 99.01 99.04 99.45 99.33 99.37 

Tabla 4.9 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 


En la Fig. 4.19 se hace una comparación entre SVM (a) y ML (b), se ha 

seleccionado un porcentaje de entrenamiento del 5%. Sin saber el porcentaje de 

acierto, podríamos decir que la clasificación SVM es mejor, ya que en ella se aprecian 

más clases. Aunque seguramente la clasificación ML sea buena, ya que se puede ver 

que las clases principales (con mayor número de píxeles) están bien distribuidas y sus 

colores son los correctos. Los porcentajes de acierto de estas imágenes son para SVM 

97.2026% y para ML 94.8166%. El porcentaje es más alto en SVM porque en ML 

tenemos 7 clases en lugar de 9, ya que las clases de color cyan y amarillo tienen un 

conjunto de entrenamiento del 5% con un número de píxeles menor de 20, que es el 

número de bandas de la imagen, y por lo tanto no pueden ser entrenados y tampoco 

clasificados correctamente. 

Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% de entrenamiento. (b) clasificación ML 

con el 5% de entrenamiento y con tratamiento de imagen MF. (c) verdad terreno. 

4.5.2 SOM 

Al realizar las pruebas con la imagen DAIS 7915 sobre Pavia hemos probado 

conjuntos de entrenamiento que van de los 10 a los 200 píxeles de entrenamiento por 

clase, debido a que la clase con menor número de entrenamiento son 240 puntos. 

Teniendo en cuenta los puntos de entrenamiento podemos ver como para unas 

clases entrenamos con muchos píxeles mientras que para otras el porcentaje es muy 

bajo. 

En cuanto al tiempo empleado si tiene un crecimiento lógico, a medida que 

aumentan el número de píxeles de entrenamiento y/o el número de iteraciones que se 

realizan aumenta el tiempo de cálculo.


Fig. 4.20 Verdad Terreno de la imagen DAIS 7915 sobre Pavia 

La Fig. 4.21 corresponde a dos clasificaciones obtenidas con la red SOM 

completamente distintas. La Fig. 4.21 (a) aunque muchos colores no son iguales que 

en la verdad terreno (véase Fig 4.20) podemos apreciar como las clases están bien 

diferenciadas, esto es debido a que la clasificación SOM se realiza sin supervisión, 

por lo que a cada clase le asigna un valor, que no tiene porque coincidir con el valor 

que tiene esa clase asignado en la verdad terreno. La Fig. 4.21 (b) ocurre lo mismo. 

Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc 

1000it. Acierto 84.7% 

Analizando la matriz de confusión obtenida vemos que las clases tienen la 

mayoría de sus puntos etiquetados en una única clase y además normalmente 

diferentes del resto, por lo que nos puede llevar a pensar que están bien clasificados 

pero no con las mismas etiquetas que la verdad terreno, partiendo de esta base se ha 

elaborado la tabla 4.9. 

81

SOM 10 patrones por clase 50 patrones por clase 100 patrones por clase Imagen completa 

Iteraciones Iteraciones Iteraciones Iteraciones 

Clase 

50 100 200 1000 50 100 200 1000 50 100 200 1000 50 100 200 1000 

Water 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 

Parking lot 86.22 85.35 85.48 84.53 83.58 89.77 82.22 90.59 90.51 89.72 93.89 89.39 89.72 91.13 88.07 88.82 

Asphalt 61.63 62.99 62.99 64.67 64.99 56.43 67.95 54.76 54.20 57.68 43.33 58.08 57.68 51.40 57.20 56.08 

Brick roofs 64.51 67.13 67.19 64.86 45.67 69.60 52.34 72.49 43.19 57.53 41.27 74.42 57.53 59.63 58.89 57.60 

Bare soil 81.40 86.21 81.75 80.99 78.87 47.77 78.52 83.51 46.30 51.44 51.35 85.67 51.44 10.09 56.08 55.37 

Bitumen 25.09 9.76 24.74 1.74 0.00 97.56 25.78 15.33 98.95 98.60 0.70 4.90 98.60 50.87 0.00 0.00 

Meadows 96.87 96.47 96.33 97.00 96.20 35.81 96.07 93.38 94.55 94.54 94.86 92.93 94.54 63.12 58.45 56.04 

Trees 69.49 70.66 18.83 67.45 77.08 74.16 73.87 72.55 74.89 80.70 69.78 71.05 80.70 88.76 89.77 88.60 

Shadows 20.75 21.58 20.75 20.75 20.75 0.00 20.75 20.33 15.77 17.50 20.95 19.58 17.50 0.83 15.42 15.42 

Total 83.46 84.37 81.70 83.30 81.30 72.53 82.29 84.46 78.99 81.52 76.93 84.70 77.74 71.10 74.81 74.20 

Tabla 4.10 Resultados de clasificación obtenidos por el clasificador SOM utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (10, 

50, 100 patrones por clase y la imagen completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno de los conjuntos de entrenamiento.

4.5.3 MLP 

Los resultados de MLP que se presentan en la tabla 4.10 corresponden a las 

clasificaciones obtenidas para la imagen DAIS 7915 sobre Pavia completa, 

seleccionando un conjunto de entrenamiento de 5, 10, 20 y 50% progresivamente y 

los resultados obtenidos para los mismos porcentajes usando la imagen transformada, 

ya sea mediante la técnica PCA o MNF. 

La reducción en el caso de la imagen DAIS 7915 sobre Pavia es poca, ya que 

pasamos de tener 40 bandas a tener 20, en el caso de la reducción de AVIRIS Indian 

Pines era más lógico y necesario ya que reducíamos de 202 a 20 bandas, 

produciéndose una mejora considerable. Con la imagen de Pavia los resultados son ya 

muy buenos con la imagen completa, estas transformaciones las aplicamos para 

comparar luego los resultados de las dos imágenes, pero realmente no serían 

necesarias. 

Los resultados de la tabla 4.10 van desde 97.73% en el caso con un menor 

tamaño del conjunto de entrenamiento y la imagen completa a 99.44% en el caso de 

mayor entrenamiento y reducción MNF. Como vemos los valores varían muy poco a 

medida que aumenta el tamaño del conjunto de entrenamiento, y es que para la 

imagen DAIS 7915 sobre Pavia los resultados son tan buenos que con poco training 

ya obtenemos unos resultados buenos. 

Comparando los resultados entre sí podemos afirmar que la reducción MNF es 

mejor que la reducción PCA ya que en todos los casos es superior el porcentaje de 

acierto que se consigue al realizar el preprocesamiento con MNF. 

Para obtener estos resultados hemos realizado varias pruebas, primero poniendo 

un número limitado de iteraciones a 1000, obteníamos resultados entorno al 75%, 

como eran resultados bajos, dada las características de esta imagen, decidimos reducir 

la tasa de aprendizaje para que la red aprendiera más lentamente y por tanto llegase a 

un punto de convergencia mejor, aumentando por supuesto el número de iteraciones 

máximo, ya que al aprender más lento necesita más tiempo. Los resultados con una 

tasa de aprendizaje de 0.001 y 10,000 iteraciones hemos llegado a obtener los 

resultados que se presentan a continuación. El tiempo empleado no es muy elevado, 

ya que el número de bandas de las imágenes no es alto, ni tampoco el número 

máximo de iteraciones permitido.

MLP 5% de patrones entrenamiento 10% de patrones entrenamiento 20% de patrones entrenamiento 50% de patrones entrenamiento 

Imagen 

Imagen 

Imagen 

Imagen 

Clase 

PCA MF 

PCA MF 

PCA MF 

PCA MF 

completa 

completa 

completa 

completa 

Shadows 97.96 92.53 98.34 97.08 95.44 99.17 100 98.76 100.00 99.56 99.59 99.59 

Water 93.98 99.79 99.86 97.67 99.98 99.98 97.99 99.79 99.79 93.49 99.95 99.98 

Parking lot 99.79 71.18 71.88 99.79 83.33 94.10 99.79 90.97 88.54 99.81 95.14 95.49 

Asphalt 77.18 98.47 98.94 93.36 98.06 98.65 93.36 99.06 99.12 98.34 99.59 99.59 

Brick roofs 88.54 99.73 99.78 91.32 99.69 99.82 92.01 99.73 99.82 93.40 99.96 99.96 

Bare soil 99.82 98.51 97.76 99.55 98.31 96.47 99.06 98.51 99.05 99.96 98.24 98.64 

Bitumen 94.24 95.77 92.99 97.63 99.56 99.42 98.51 99.42 99.85 99.32 99.71 99.85 

Meadows 98.68 96.39 97.75 96.66 99.12 99.12 98.14 98.63 98.71 99.55 98.47 98.63 

Trees 98.59 98.18 98.76 97.29 97.98 98.23 98.71 97.94 98.02 99.47 98.97 99.17 

Total 97.73 98.07 98.27 98.14 98.71 98.92 98.75 98.95 99.04 99 99.33 99.44 

Tabla 4.11 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de entrenamiento de tamaño progresivamente creciente 

(5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y MF).

Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto de entrenamiento 

del 20% con un resultado de 98.75% y (b) verdad terreno de la imagen DAIS 7915 sobre Pavia. 

La selección de unos parámetros es una tarea muy importante, que puede hacer 

obtener una mala clasificación. La Fig. 4.23 (a) corresponde a la clasificación MLP 

con una tasa de aprendizaje de 0.2 y rms 0.1 y 1000 iteraciones, la Fig (b) es la 

clasificación MLP con los parámetros learning rate 0.001 y el número de iteraciones 

superior 10000. Podemos ver como la clasificación (b) es una aproximación más 

exacta a la verdad terreno (c). En la Fig. (a) vemos que tiene clases clasificadas 

incorrectamente, el bitumen (color rojo) esta clasificado como azul, o el asfalto (color 

blanco) como amarillo y el verde claro por amarillo también. Por ello el porcentaje de 

acierto es 72.3757% y el porcentaje de la imagen central 95.3240%. 

Fig. 4.23 (a) Clasificación de la imagen DAIS 7915 sobre Pavia con un entrenamiento 20% 

learning rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y 

10000 iteraciones. (c) Verdad terreno de la imagen DAIS 7915 sobre Pavia


4.5.4 SVM 

El primer análisis realizado sobre el clasificador SVM con la imagen DAIS 

7915 sobre Pavia, ha consistido en realizar pruebas con distintos kernel, al igual que 

para la imagen AVIRIS Indian Pines. Los mejores resultados son los obtenidos por el 

kernel lineal como se puede ver en la tabla 4.7 y los peores los del kernel sigmoide, 

los kernel RBF y polinómico ofrecen resultados intermedios. 

Los resultados van de 94.81% en el caso del kernel sigmoideo con un 

entrenamiento del 5% (Fig. 4.24(a)), a 98.97% en el caso del kernel lineal con un 

training del 50% (Fig. 4.24 (b)). Con esto queremos decir que todos los resultados 

son buenos, incluso el peor, ya que un porcentaje de acierto del 94% da una 

clasificación muy fiable. 

Como es lógico a medida que aumentamos el porcentaje de puntos de 

entrenamiento, también aumenta el porcentaje de aciertos, siendo en todos los casos 

el mismo orden de clasificación, la mejor es la obtenida por el kernel lineal, en 

segundo y tercer lugar el kernel Radial Basis Function (RBF) o polinomial muy 

próximos entre sí y en cuarto lugar el kernel sigmoide. 

El 5% de diferencia de acierto entre la Fig. 4.24(a) y la Fig 4.24 (b) es 

inapreciable, las dos clasificaciones son muy similares a la verdad terreno, Fig 

4.24(c) 

Fig. 4.24 (a) clasificación SVM con kernel sigmoide y 5% de entrenamiento. (b) clasificación 

SVM con el kernel lineal y 50% de entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c) 

Verdad terreno de la imagen DAIS 7915 sobre PAVIA. 

86


KEREL KEREL KEREL KEREL 

Clase 

RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. 

Shadows 46.47 80.08 44.4 45.23 56.02 87.55 52.28 45.64 84.65 89.63 85.06 84.23 85.06 99.17 84.65 70.95 

Water 99.79 99.86 99.79 99.79 99.79 99.98 99.79 99.79 99.79 99.79 99.79 99.79 99.79 99.98 99.79 99.79 

Parking lot 79.51 69.44 79.51 87.85 82.29 85.42 82.64 87.15 82.64 92.36 82.99 83.33 87.85 93.06 88.54 84.38 

Asphalt 98.65 98.47 98.65 96.29 97.17 96.53 97.23 95.47 97.29 98.59 97.29 96.7 98.23 98.71 98.23 97.41 

Brick roofs 98.03 99.55 97.94 95.31 98.3 99.69 98.44 95.58 98.44 99.37 98.53 96.56 99.46 99.78 99.46 98.44 

Bare soil 91.66 95.12 92.20 89.76 95.12 97.42 95.19 92.54 95.66 97.22 95.46 93.56 95.46 97.49 95.53 93.90 

Bitumen 85.99 92.55 85.99 86.28 91.53 97.66 91.82 88.76 95.33 99.71 95.77 90.66 96.93 99.56 96.93 91.68 

Meadows 95.26 95.34 94.78 93.65 97.59 98.39 97.59 96.87 97.27 98.15 97.27 96.71 97.03 98.23 97.11 96.22 

Trees 96.78 97.98 96.74 96.37 96.37 96.74 96.2 96.08 96.91 97.48 96.86 96.66 97.24 98.47 97.28 97.07 

Total 95.74 97.2 95.7 94.81 96.57 97.99 96.53 95.37 97.38 98.48 97.4 96.51 97.84 98.97 97.87 96.79 

Tabla 4.12 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes tipos de kernels disponibles (funciones de base radial, 

lineal, polinómico y sigmoide) y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%).

La Fig. 4.25 corresponde a las pruebas realizadas con la imagen DAIS 7915 

sobre Pavia probando la red SVM con diferentes kernel. Son todas ellas muy 

similares y con un gran porcentaje de acierto. La Fig. (a), la clasificación lineal es la 

que más se aproxima a la verdad terreno, con un porcentaje de un 98.4847%, la Fig. 

(b), la clasificación polinómica y la Fig. (c), la clasificación RBF, son bastante 

similares entre sí, con porcentajes de acierto de 97.4014% para la primera y 

97.3809% para la segunda, la Fig. (d), es la que tiene un porcentaje de acierto más 

bajo, un 96.5150%. Pero la diferencia es muy poca entre ellas e inapreciable si 

tuviéramos que decidir cual es la más perfecta. 

Fig. 4.25 Clasificación SVM con un conjunto de entrenamiento del 20% y distintos kernel, (a) 

lineal, (b) polinómico, (c) RBF, (d) sigmoide para la imagen DAIS 7915 sobre PAVIA. 

4.5.4.1 SVM sobre una imagen con transformación MF y PCA. 

La tabla de la 4.9 compara los resultados obtenidos para la clasificación de la 

red SVM con los resultados obtenidos por las clasificaciones MNF y PCA de 20 

bandas, seleccionando en todos los casos un kernel lineal, ya que era el que mejores 

resultados obtenía en la clasificación comparativa de los kernel.


Con un conjunto de entrenamiento del 5%, vemos como las dos clases que 

tienen un número menor de píxeles de entrenamiento obtienen una peor clasificación, 

las clases shadows y parking lot, siendo esta mayor en el caso de la clasificación 

normal, debido a que la relación entre el número de bandas (40) y el número de 

píxeles de entrenamiento es (12 ó 15) es baja. Por eso vemos que se aprecia una ligera 

ventaja para el caso de acierto en PCA y MNF. 

A medida que va aumentando el tamaño del conjunto de entrenamiento las 

diferencias entre los resultados son menores. Pero siempre la relación entre ellos se da 

en el mismo orden, es decir, en todos los casos es mejor la clasificación obtenida por 

la transformación MNF 20 bandas, en segunda posición PCA (también 20 bandas) y 

en tercera la clasificación con todas las bandas. 

Si intentamos ver las diferencias de las tabla 4.13 con las imágenes obtenidas de 

estas clasificaciones, es muy difícil, ya que todas son muy buenas clasificaciones, y 

son muy pocos los píxeles de diferencias entre unas y otras. 

En la Fig 4.26 vemos como las diferencias entre la imagen (a) y (b) son 

inapreciables, habría que ir comparando píxel a píxeles para ver las diferencias con la 

verdad terreno, aun así las diferencias entre ambos resultados son mínimas de un 

98.71% de la Fig 4.26 (a), PCA con un 10% de entrenamiento, a un 98.92% de la Fig 

4.26 (b), resultado de MNF con un 10% de entrenamiento también. 

Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto del 20% del 

tamaño total de píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF. 

89


Imagen 

Imagen 

Imagen 

Imagen 

Clase 

PCA MF 

PCA MF 

PCA MF 

PCA MF 

completa 

completa 

completa 

completa 

Shadows 80.08 92.53 98.34 87.55 95.44 99.17 89.63 98.76 100.00 99.17 99.59 99.59 

Water 99.86 99.79 99.86 99.98 99.98 99.98 99.79 99.79 99.79 99.98 99.95 99.98 

Parking lot 69.44 71.18 71.88 85.42 83.33 94.10 92.36 90.97 88.54 93.06 95.14 95.49 

Asphalt 98.47 98.47 98.94 96.53 98.06 98.65 98.59 99.06 99.12 98.71 99.59 99.59 

Brick roofs 99.55 99.73 99.78 99.69 99.69 99.82 99.37 99.73 99.82 99.78 99.96 99.96 

Bare soil 95.12 98.51 97.76 97.42 98.31 96.47 97.22 98.51 99.05 97.49 98.24 98.64 

Bitumen 92.55 95.77 92.99 97.66 99.56 99.42 99.71 99.42 99.85 99.56 99.71 99.85 

Meadows 95.34 96.39 97.75 98.39 99.12 99.12 98.15 98.63 98.71 98.23 98.47 98.63 

Trees 97.98 98.18 98.76 96.74 97.98 98.23 97.48 97.94 98.02 98.47 98.97 99.17 

Total 97.20 98.07 98.27 98.00 98.71 98.92 98.48 98.95 99.04 98.98 99.33 99.44 

Tabla 4.13 Resultados de clasificación obtenidos por el clasificador SVM utilizando conjuntos de entrenamiento de tamaño progresivamente creciente 

(5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y MF).

4.5.5 Resumen DAIS 7915 sobre Pavia 

La imagen DAIS 7915 sobre Pavia obtiene muy buenos resultados de 

clasificación, como hemos podido ver en los apartados anteriores, estando todos en un 

rango de 90 a 100%. 

Con el método ML se ha podido realizar un entrenamiento con la imagen 

completa, ya que al tener conjuntos con un gran número de patrones de 

entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha 

permitido poder llevar a cabo el entrenamiento y su posterior clasificación, 

obteniendo buenos resultados. A pesar de que es un clasificador sencillo sus 

resultados van desde el 95% (cuando entrenamos con la imagen completa) y el 97% 

(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% de los 

píxeles etiquetados de la imagen, al 99% cuando entrenamos con un 50%. Los 

resultados son buenos, pero este clasificador tiene el inconveniente de necesitar que el 

tamaño de los conjuntos de entrenamiento sea superior al número de bandas, 

pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines. 

La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un 

85%, debido a que es una red que aprende sin supervisión, de ahí que algunas de 

clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que 

se produce una mala clasificación. 

La red MLP obtiene buenos resultados, sus porcentajes de acierto varían entre 

un 98 y un 99.5% aproximadamente. Esta red trabaja de forma más lenta, pero gracias 

a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un 

tiempo moderado. 

Por ultimo el clasificador SVM aúna dos características buenos resultados, entre 

un 98 y 99.5%, como en el caso de MLP pero con unos tiempos de procesamiento 

más rápidos. 

Cualquiera de los métodos empleados (ML, SOM, MLP o SVM) para analizar 

esta imagen obtiene unos resultados muy buenos debido a que esta imagen tiene 

pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad de 

píxeles etiquetados.


4.6 Discusión de resultados y análisis comparativo 

En este apartado haremos una comparativa entre los distintos métodos que 

hemos presentado anteriormente para cada una de las imágenes y también entre ellas. 

Primero empezaremos haciendo una evaluación de AVIRIS Indian Pines, para 

continuar con la imagen DAIS 7915 sobre Pavia y terminar haciendo una comparativa 

entre las dos. Para la imagen AVIRIS Indian Pines al igual que la imagen DAIS 7915 

sobre Pavia hemos probado 2 clasificadores, SVM y Maximum likelihood, y dos 

redes neuronales, MLP y SOM. 

En la Fig. 4.27 comparamos los resultados de ML, con la imagen DAIS 7915 

sobre Pavia son mejores que con AVIRIS Indian Pines. A pesar de ser un método 

simple da buenos resultados, en todos los casos superiores a un 75% de acierto. Para 

el caso de la imagen DAIS 7915 sobre Pavia, la diferencia entre MNF y PCA no se 

aprecia porque es muy reducida. Para la imagen AVIRIS Indian Pines, el resultado es 

mejor para el caso MNF. 


clasificados 


ML_MNF_IP ML_PCA_IP ML_MNF_PA ML_PCA_PA 

100 

95 

90 

85 

80 

75 

70 


Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian 

Pines y la imagen DAIS 7915 sobre Pavia 

La Fig. 4.28 muestra los resultados de la clasificación SOM obtenidos para la 

imagen DAIS 7915 sobre Pavia con los diferentes parámetros que se han utilizado. 

Cada una de las líneas indica el tamaño del conjunto de entrenamiento por clase, es 

decir, los píxeles seleccionados para el aprendizaje para cada una de las clases, 

teniendo un total de 9 clases, tenemos conjuntos de entrenamiento de 90, 450 y 900 

píxeles de entrenamiento, que en comparación con el número total 14.585 hace que 

92


hayamos utilizado un valor muy bajo de porcentaje de entrenamiento. Al realizar las 

pruebas con la imagen completa vemos como los resultados no mejoran, debido a que 

en este momento los datos son mucho más amplios y hemos utilizado el mismo 

número de iteraciones. 

% Pixels correctamente 

clasificados 

% Clasificación al aumentar el número de iteraciones 

88 

86 

84 

82 

80 

78 

76 

74 

72 

70 

10 50 100 Imagen completa 

50 100 200 1000 

Numero iteraciones 

Fig. 4.28 Resultados de la clasificación SOM 

La red MLP es lenta cuando intentamos trabajar con imágenes con un gran 

número de bandas, por eso como se explicó en el apartado 4.5 no se ha podido 

finalizar el estudio con los conjuntos de entrenamiento de un 20 y un 50% cuando se 

utilizaba la imagen completa. 

La Fig. 4.29 muestra los resultados obtenidos al utilizar esta red con la imagen 

de Indian Pines entera, para los casos del 5 y 10% y los resultados obtenidos 

utilizando el preprocesamiento PCA y MNF. Los mejores resultados son los 

obtenidos tras aplicar el preprocesamiento MNF. 

En esta comparación parece que el resultado obtenido al clasificar con la 

imagen completa es mejor que con la reducción PCA, pero es que el error permitido 

en uno y otro no era el mismo. Para determinar la convergencia que debía alcanzar la 

red se marcó un número de iteraciones elevado 100.000 y un error bajo de 0,1, cada 

uno de las imágenes tuvo un error mínimo diferente, ya que ninguna salió por la cota 

del error, sino por alcanzar el número de iteraciones. El valor permitido para PCA fue 

superior (más error) que para MNF o para la imagen completa. Al permitir mayor 

error el porcentaje de acierto obtenido es peor, pero la red converge antes. 

93



clasificados 


90 

85 

80 

75 

70 

65 

60 


1 2 3 4 


Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines 

Los resultados al entrenar la red MLP con la imagen DAIS 7915 sobre Pavia 

(véase Fig. 4.30) son mucho mejores, ya que el valor más bajo obtenido en este caso 

es bastante superior que el obtenido con la imagen AVIRIS Indian Pines, con esta 

imagen los resultados están comprendidos en un rango que abarca desde el 70% al 

86%, mientras que para la imagen DAIS 7915 sobre Pavia este rango comprende del 

97% al 99%. 


clasificados 


100 

99 

98 

97 


5% 10% 20% 50% 

Tamaño del conjunto de entrenamiento 

Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia 

94


Para poder obtener los resultados que en las Fig. 4.31 se muestran ha sido 

necesario realizar muchas pruebas, las cuales debido al peso de las imágenes han 

empleado, junto con el gran número de iteraciones que se han realizado han llevado 

mucho tiempo. La clasificación de la imagen DAIS 7915 sobre Pavia es muy superior 

a la de AVIRIS Indian Pines, mientras que para esta última vemos perfectamente cada 

una de las representaciones de resultados, para el caso de Pavia los porcentajes se 

encuentran muy agrupados en la franja del 95 al 100%. 

% Pixels correctamente 

clasificados 

100 

95 

90 

85 

80 

75 

70 

65 

% Clasificación al aumentar conjunto de 

entrenamiento 

Im. Cmplt PCA MNF Im. Cmplt PCA MNF 

Tamaño del conjunto de entrenamiento 

Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre 

Pavia 

La Fig. 4.32 es una comparativa de los resultados obtenidos para la imagen 

AVIRIS Indian Pines en la clasificación SVM para cada uno de los kernel. El kernel 

lineal destaca sobre los demás. Con valores ligeramente inferiores a los obtenidos con 

el kernel lineal se encuentran los resultados obtenidos por los kernel RBF y 

polinomial, que tienen valores muy similares, prácticamente se superponen y 

finalmente el kernel sigmoide, que es el que peores resultados refleja. 

Si comparamos los distintos kernel de SVM para la imagen DAIS 7915 sobre 

Pavia, la figura que obtenemos es la Fig. 4.33, donde vemos que los resultados 

obtenidos son bastante similares en cuanto a la forma, es decir, la figura presenta el 

mismo aspecto, pero el rango de valores representado en la Fig. 4.33 es superior y 

más limitado, los resultados están comprendidos entre el 94% y el 100%. 

95



95 

90 

85 

80 

75 

70 

65 

60 

55 

50 


RBF Lineal Polinómico Sigmoide 

5% 10% 20% 50% 


Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines 


clasificados 


100 

99 

98 

97 

96 

95 

94 

rbf lineal polinómico sigmoide 

5% 10% 20% 50% 


Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia 

Si comparamos los resultados de la Fig.s 4.32 y 4.33 nos damos cuenta que la 

clasificación de la imagen DAIS 7915 sobre Pavia es mejor que la de AVIRIS Indian 

Pines. El porcentaje más bajo para la imagen DAIS 7915 sobre Pavia es 94% 

mientras que el resultado más elevado en la clasificación de AVIRIS Indian Pines es 

90% 

En la Fig. 4.34 podemos ver como las clasificaciones MNF y PCA comienzan 

con un porcentaje de acierto mejor que la clasificación con la imagen completa, pero 

96


su crecimiento es más moderado. En todos los casos la clasificación MNF es superior 

a la clasificación PCA. 


clasificados 


100 

95 

90 

85 

80 

75 

70 


5% 10% 20% 50% 


Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines 

La clasificación general de la imagen DAIS 7915 sobre Pavia para el algoritmo 

SVM corresponde a la Fig. 4.35. La reducción en cuanto al número de bandas de 40 a 

20, no era necesaria, ya que obteníamos muy buenos resultados con la imagen 

completa, pero para poder comparar los resultados obtenidos con las dos imágenes se 

ha creído necesario realizar esta compresión de datos. 

Con la transformación de la imagen MNF es con la clasificación con la que se 

obtienen mejores resultados, siempre por encima del resto. Aunque muy cercanos a la 

transformación PCA. Todos los resultados son superiores al 97%, seleccionando en 

todos los casos un kernel lineal, ya que es con el que mejores resultados obtuvimos. 

97



100 

99 

98 

97 

96 

95 



5% 10% 20% 50% 


Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre 

Pavia 

En cuanto al tiempo empleado, la diferencia entre unos algoritmos y otros es 

muy grande, lo podemos ver en la Fig. 4.36 donde se representan para las distintas 

pruebas que hemos hecho el tiempo máximo y mínimo que tardarían bajo las mismas 

condiciones (dentro de lo posible). 

El tiempo mínimo corresponde al tiempo empleado en realizar las pruebas con 

un porcentaje del 5%. Y el máximo con un conjunto de entrenamiento del 50%. 

Como la red SOM no utiliza estos porcentajes de entrenamiento simplemente hemos 

utilizado su clasificación más ligera, con menos patrones de aprendizaje, y más 

pesada, con más patrones de aprendizaje. 

La Fig. 4.36 muestra las diferencias de tiempo empleadas por los métodos 

analizados, estos tiempos son una aproximación medida en minutos. Hay una clara 

diferencia entre los métodos con un procesamiento más lento y aquellos más veloces, 

pero además tenemos que tener en cuenta que para poder compararlos y que se 

apreciara hemos incluido en los nombres un factor de escala, siendo el caso de MLP 

con la imagen AVIRIS Indian Pines, tendríamos que multiplicar los minutos aquí 

indicados por 1000. Con lo que llegamos a la conclusión de que el tiempo empleados 

por SVM o ML es de unos pocos minutos, mientras que para SOM o MLP el tiempo 

que lleva su utilización es de horas, días e incluso semanas. 

98


Minutos empleados 

35 

30 

25 

20 

15 

10 

5 

0 

IP_SVM 

IP_SVM_MNF 

IP_ML 

IP_MLP x1000 

TIEMPO UTILIZADO 

IP_MLP_MNF x100 

PAV_SVM 

PAV_SVM_MNF 

PAV_ML 

PAV_ML_MNF 

PAV_MLP x100 

PAV_MLP_MNF x100 

PAV_SOM x10 

Fig. 4.36 Tiempo empleado por los diferentes clasificadores 

Después de observar la Fig. 4.36 llegamos a la conclusión anterior el algoritmo 

que peor se comporta es MLP, con la imagen AVIRIS Indian Pines. Y es que con la 

imagen DAIS 7915 sobre Pavia no ocurre lo mismo por tener ésta muchas menos 

bandas. 

Fijándonos en la Fig. 4.37 podemos ver como la clasificación MLP tiene un 

crecimiento más lento, mientra que los métodos SVM y ML crecen a la par a media 

que aumentan los conjuntos de entrenamiento. Pero el caso de ML requiere de un 

preprocesamiento para poder llevarse a cabo, luego podemos concluir que el método 

que mejor funciona con la imagen de AVIRIS Indian Pines es SVM, su tiempo es 

reducido y su tasa de acierto bastante elevada. 

99



clasificados 

100 

95 

90 

85 

80 

75 

70 

65 

60 


SVM ML_MNF MLP 

1 2 3 4 


Fig. 4.37 Clasificación general AVIRIS Indian Pines 

La Fig. 4.38 presenta los resultados generales de clasificación para la imagen 

DAIS 7915 sobre Pavia, los resultados son mejores que en el caso de AVIRIS Indian 

Pines, como la imagen analizada tiene menos bandas y las clases son totalmente 

separables da lugar a mejores resultados para todos los métodos. Siendo además estos 

más próximos entre sí. De todas formas podemos concluir que aunque los mejores 

resultados son los de ML, los de SVM no han necesitado preprocesamiento. Y como 

son ligeramente superiores a los de MLP a medida que aumenta el conjunto de 

entrenamiento, podemos decir que SVM es el que mejor resultados nos ofrece para la 

imagen DAIS 7915 completa. 

100



clasificados 


100 

99,5 

99 

98,5 

98 

97,5 

97 

96,5 

96 

SVM ML MLP 

5% 10% 20% 50% 


Fig. 4.38 Clasificación general de la imagen DAIS 7915 sobre Pavia 

Los resultados de la SOM no han sido incluidos en esta figura debido a que al 

estar distantes con respecto al resto de métodos haría que no pudiésemos apreciar 

bien la relación entre el resto de los métodos. La clasificación SOM es la que peores 

resultados ha obtenido. Pero a pesar de lo que parece son buenos resultados ya que no 

necesita supervisión. Lo que es una ventaja con respecto al resto de los métodos. 

El algoritmo que mejor se comporta ante los casos con poco entrenamiento es y 

utilizando todas las bandas de la imagen es el método SVM. Obtiene unos porcentajes 

de acierto superiores al resto, en algunos casos incluso cuando los otros métodos 

tienen características mejores, es decir, mayor número de iteraciones, número de 

bandas de la imagen, etc. Es un clasificador más robusto ante datos altamente 

dimensionales, mientras que el resto de métodos realmente necesitan la 

correspondiente reducción dimensional para evitar los efectos muy negativos de usar 

poco training o requieren de un aumento excesivo del número de iteraciones, lo que 

conlleva un aumento del tiempo considerable. 

101


5 Conclusiones y líneas futuras de trabajo 

En el presente trabajo se ha desarrollado un detallado análisis cuantitativo y 

comparativo de diferentes clasificadores para el tratamiento de datos hiperespectrales. 

Los cuatro clasificadores comparados (ML, SOM, MLP y SVM) cubren un rango de 

técnicas altamente representativas del estado del arte en análisis de datos 

hiperespectrales, incluyendo técnicas clásicas como ML, arquitecturas neuronales con 

diferentes tipos de aprendizaje (SOM, MLP) y clasificadores avanzados capaces de 

funcionar de forma muy precisa ante datos altamente dimensionales y en presencia de 

conjuntos de entrenamiento con un número de patrones muy limitado (SVM). Dicho 

estudio se ha efectuado utilizando dos imágenes hiperespectrales altamente 

representativas (AVIRIS Indian Pines y DAIS 7915 sobre Pavia) lo cual ha 

posibilitado un estudio detallado de diferentes cadenas de procesamiento basadas en 

los clasificadores anteriormente mencionados con dos imágenes de referencia en la 

comunidad científica. Conviene destacar que el estudio realizado incluye aspectos de 

gran interés, tales como el impacto de técnicas de reducción dimensional (MNF y 

PCA) y el tamaño del conjunto de entrenamiento empleado en los resultados 

proporcionados por los distintos clasificadores. En la literatura no existe tal estudio 

comparativo hasta la fecha, por lo que la variedad de resultados obtenidos y las 

interesantes conclusiones que su análisis ha dado lugar pueden representar una 

contribución de gran valor a la literatura existente en cuanto a clasificación de datos 

hiperespectrales y, en particular, en el caso concreto de disponer de un conjunto 

limitado de datos de entrenamiento, lo cual suele ser la situación habitual en 

aplicaciones reales dada la gran dificultad y elevado coste de obtener información de 

referencia a priori mediante estudios de campo. 

Teniendo en cuenta las contribuciones anteriormente destacadas, es importante 

mencionar que los resultados obtenidos en el presente trabajo se han logrado a partir 

de conjuntos de entrenamiento seleccionados aleatoriamente entre los datos que los 

archivos ROI nos proporcionaban, obteniéndose conjuntos de datos del 5, 10 20 y 

hasta 50%. En este sentido, se ha observado que se obtienen mejores resultados 

cuanto mayor es el número de píxeles utilizados en el entrenamiento. Sin embargo, 

resulta interesante destacar que algunos clasificadores (como la técnica SVM) 

permiten obtener resultados son muy buenos con un número muy limitado de 

patrones, gracias a las características concretas del clasificador. En este sentido, el 

102


estudio comparativo realizado en el presente trabajo puede ofrecer una guía 

interesante al usuario estándar de datos hiperespectrales a la hora de seleccionar un 

clasificador concreto para aplicaciones determinadas (por este motivo, en el presente 

trabajo se ha optado por comparar dos casos de estudio totalmente diferentes y 

ampliamente representativos, tales como una aplicación de agricultura de precisión y 

una aplicación relacionada con monitorización de zonas urbanas). 

Otra de las principales contribuciones del presente trabajo ha sido analizar el 

impacto de las técnicas de reucción dimensional MNF y PCA en el resultado 

proporcionado por los diferentes clasificadores. En este sentido, los resultados 

obtenidos revelan que las técnicas de preprocesamiento sólo son estrictamente 

necesarias en el caso de analizar la imagen AVIRIS Indian Pines al realizar la 

clasificación ML, ya que requiere que el número de píxeles de entrenamiento sea 

superior al número de bandas da la imagen. La clasificación de DAIS 7915 sobre 

Pavia con ML es posible sin realizar una disminución en el número de bandas de la 

imagen, ya que esta imagen tiene tan solo 40 bandas. Con la red MLP para la imagen 

AVIRIS Indian Pines los resultados obtenidos sin el preprocesamiento de la imagen 

necesitan muchas iteraciones para poder finalizar y llegar a una clasificación buena, 

por ello aunque con esta red no sea necesario si es recomendable ya que se obtiene 

una buena clasificación disminuyendo considerablemente el tiempo de 

procesamiento. En los casos del 20 o el 50% debido a la cantidad de tiempo 

necesaria, después de 3 semanas ejecutándose, no habían finalizado su entrenamiento 

y posterior clasificación. No ocurre lo mismo si hablamos de la imagen DAIS 7915 

sobre Pavia, donde el tiempo de procesamiento es mucho más reducido y por lo tanto 

no es necesario hacer la reducción de la imagen, pero de todas formas se ha realizado 

para poder comparar los resultados entre las dos imágenes y los diferentes métodos. 

Con el clasificador SVM también se han empleado las técnicas de PCA y MNF sin 

ser estrictamente necesarias, únicamente para corroborar que los resultados de 

clasificación (como era de esperar) pueden resultar un tanto mejores con dicha 

reducción dimensional y comparar con el resto de los métodos. Sin embargo, los 

resultados revelan que el clasificador SVM es el menos sensible a la realización de un 

proceso de reducción dimensional previo ya que este clasificador es capaz de trabajar 

de forma precisa en presencia de muy pocos patrones de entrenamiento y datos 

altamente dimensionales. Finalmente, las técnicas de preprocesamiento no son 

tampoco estrictamente necesarias para la red neuronal SOM, pero ni con 

103


preprocesamiento ni sin el son buenos los resultados para el caso de AVIRIS Indian 

Pines, debido a la no separabilidad de algunas de sus clases, unido a que el método es 

no supervisado. Los resultados obtenidos con la red SOM son mejores para el caso de 

DAIS 7915 sobre Pavia. En este sentido, conviene destacar que cuando la 

dimensionalidad de la imagen es más reducida (como es el caso de la imagen DAIS 

7915 sobre Pavia) los resultados tienden a mejorar para todos los métodos 

comparados, que proporcionan valores entre un 75 y un 100% de acierto. Pero cuando 

el número de bandas es más elevado, como ocurre con la imagen AVIRIS Indian 

Pines los resultados no son tan buenos, con valores del 50 al 90%, dependiendo del 

método empleado. Esta es una clara indicación del fenómeno de Hughes en 

clasificación de datos hiperespectrales, que marca la necesidad de establecer un 

compromiso entre la gran dimensionalidad de los datos a clasificar y la escasez de 

patrones de entrenamiento que suele producirse en aplicaciones reales. En este 

sentido, los resultados que se derivan del presente estudio indican que el clasificador 

SVM es el que mejor balance ofrece entre dimensionalidad elevada y número de 

patrones de entrenamiento limitado, resultando un clasificador idóneo para datos 

hiperspectrales (la selección de un kernel concreto para el clasificador SVM también 

ha constituido uno de los aspectos a estudiar dentro de las pruebas realizadas en el 

presente trabajo). 

En cuanto a las futuras líneas de trabajo derivadas del presente proyecto, 

podemos realizar las siguientes consideraciones. En primer lugar, en cuanto a la 

separabilidad de las clases en el caso de la imagen DAIS 7915 sobre Pavia, todas las 

clases son perfectamente separables. Sin embargo, en el caso de AVIRIS Indian Pines 

no es así, de las 16 etiquetadas, cuatro no son separables. Por tanto, eliminando estas 

clases del conjunto de entrenamiento mejoraríamos el porcentaje de acierto. Por otra 

parte, la eliminación de bandas ruidosas podría permitir llegar a conseguir mejores 

resultados, ya que el ruido empeora los porcentajes de clasificación. Además, el uso 

de otros clasificadores, incluyendo arquitecturas SVM con otros tipos de kernels (por 

ejemplo, espaciales-espectrales) podría dar como resultado una mejor modelización 

de clases con elevada correlación espacial, como por ejemplo las clases de la imagen 

DAIS 7915 sobre una zona urbana. 

Finalmente, proponemos como línea futura de trabajo la paralelización de los 

métodos empleados en arquitecturas de altas prestaciones, lo cual podría permitir 

obtener una significativa disminución del tiempo de procesamiento empleado, ya que 

104


las pruebas realizadas en este documento han sido hechas con arquitecturas 

monoprocesador. Si la misma tarea se puede dividir entre varios procesadores, el 

tiempo necesario será menor, mejorando así los tiempos mostrados en el presente 

documento. En este sentido, la paralelización de los métodos desarrollados puede 

constituir un interesante futuro trabajo de investigación. 

105


6 Referencias 

1. J. Bodechtel, “Requirements on optical sensors for quantitative definition of 

surface parameters multispectral - hyperspectral.” Advances in Space 

Research 28 (1): 241-250, 2001. 

2. R. N. Clark, Spectroscopy of Rocks and Minerals, and Principles of 

Spectroscopy. Manual of Remote Sensing, John Wiley and Sons, New York, 

1999a. 

3. R. O. Green et al., “Imaging spectroscopy and the Airborne Vsible/Infrared 

Imaging Spectrometer (AVIRIS)”, Remote Sens. Environ., vol. 65, 1998. 

4. C. -I.Chang, Q. Du. “Estimation of the number of spectrally distinct signal 

sources in hyperspectral imagery.” IEEE Transactions on Geoscience and 

Remote Sensing, 42:608-619, 2004. 

5. A. Plaza and C.-I Chang. “High Performance Computing in Remote Sensing”. 

Chapman & Hall/CRC Press, Computer & Information Science Series, Taylor 

& Francis, Boca Raton: Florida, 2007. 

6. C.-I Chang “Hyperspectral Imaging: Techniques for Spectral Detection and 

Classification”. Kluwer/Plenum, New York, 2003. 

7. L. Jimenez and D. A. Landgrebe, “Supervised classification in high- 

dimensional space: Geometrical, statistical, and asymptotical properties of 

multivariate data”, IEEE Trans. Syst., Man, Cybern. C, vol. 28, 1998. 

8. R. E. Roger, and J. F. Arnold, “Reliability Estimating the Noise in AVIRIS 

Hyperspectral Imges”, Int. J.Remote Sens., Vol. 17, 1996. 

9. D. A. Landgrebe, “Hyperspectral Image Data Analysis”, IEEE Signal 

Processing Magazine, vol. 19, no. 1, pp. 17-28, 2002. 

10. L. S. Kalman, G. R. Pelzer, “Simulation of Landsat Thematic Mapper 

Imagery Using AVIRIS Hyperspectral Imagery”, en Proc. ASA/JPL 

Airborne Earth Science Workshop, Pasadena, CA, 1993. 

11. M. Faraklioti, M. Petrou, “Illumination invariant unmixing of sets of mixed 

pixels”. IEEE Transactions on Geoscience and Remote Sensing, vol. 39, pp. 

2227-2234, 2001. 

12. P.-F. Hsieh, D. Landgrebe, Classification of High Dimensional Data. Tesis 

Doctoral, School of Electrical and Computer Engineering, Purdue University, 

1998. 

106


13. W. P. Kustas, J. M. Norman, “Evaluating the Effects of Subpixel 

Heterogeneity on Pixel Average Fluxes”. Remote Sensing of Environment, 

vol. 74, pp. 327-342, 2002. 

14. T. M. Tu, H. C. Shyu, C. H. Lee, C. -I. Chang, “An oblique subspace 

projection approach for mixed pixel classification in hyperspectral images”, 

Pattern Recognition, vol. 32, pp. 1399-1408, 1999. 

15. A. Plaza, J. Plaza, P. Martinez and R. M. Pérez, “A new approachto mixed 

pixel classification of hyperspectral imagery based on extended morphological 

profiles”. Pattern recognition, 2004. 

16. C. –I. Chang, H. Ren, “An Experiment-Based Quantitative and Comparative 

Analysis of Target Detection and Image Classification Algorithms for 

Hyperspectral Imagery”. IEEE Transactions on Geoscience and Remote 

Sensing, vol. 38, no. 2, pp. 1044- 1063, 2000. 

17. S. V. Stehman, “Selecting and Interpreting Measures of Thematic 

Classification Accuracy”. Remote Sensing of Environment, vol. 62, pp. 77-89, 

1997. 

18. G. Shaw, D. Manolakis, “Signal processing for hyperspectral image 

exploitation”. IEEE Signal Processing Magazine, vol. 19, pp. 12-16, 2002. 

19. A. K. L. Chiang (2001), “A Simple General Method for Constructing 

Confidence Intervals for Functions of Variance Components,” Technometrics, 

43, 356-367. 

20. G. Rellier, X. Descombes, J. Zerubia, “Local registration and deformation of a 

road cartographic database on a SPOT satellite image”. Pattern Recognition, 

vol. 35, pp. 2213-2221, 2002. 

21. S. Tadjudin, D. Landgrebe “Classification of high dimensional data with 

limited training samples”, ECE Tecnical Reports, Purdue Libraries, 1998. 

22. V. Madhok, D. Landgrebe, Spectral-Spatial Analysis of Remote Sensing Data: 

An Image Model and A Procedural Design. Tesis Doctoral, School of 

Electrical Engineering and Computer Science, Purdue University, 1998. 

23. R. G. Congalton, “Considerations and Techniques for Assessing the Accuracy 

of Remotely Sensed Data”, en: Proc. International Geoscience and Remote 

Sensing Symposium IGARSS, vol. 3, pp. 1847-1850, 1989. 

107


24. S. V. Stehman, “Practical Implications of Design-Based Sampling Inference 

for Thematic Map Accuracy Assessment”. Remote Sensing of Environment, 

vol. 72, pp. 35-45, 2000. 

25. B. M. Steele, J. C. Winne, R. L. Redmond, “Estimation and Mapping of 

Misclassification Probabilities for Thematic Land Cover Maps”, Remote 

Sensing of Environment, vol. 66, pp. 192-202, 1998. 

26. G. Jäger, U. Benz, “Measures of classification accuracy based on fuzzy 

similarity”. IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 

no. 2, pp. 1462-1467, 2000. 

27. R. Nishii, R. Tanaka, “Accuracy and Inaccuracy Assessments in Land-Cover 

Classification”. IEEE Transactions on Geoscience and Remote Sensing, vol. 

37, no. 1, pp. 491-498, 1999. 

28. K. J. Guilfoyle, M. L. Althouse, C.-I Chang, “A Quantitative and Comparative 

Analysis of Linear and Nonlinear Spectral Mixture Models Using Radial 

Basis Function Neural Networks”. IEEE Transactions on Geoscience and 

Remote Sensing, vol. 39, no. 8, pp. 2314- 2318, 2001. 

29. R. P. Lippmann, “An introduction to computimg with neural nets”, IEEE 

ASSP Magazine, April, pp. 4-22, 1987. 

30. R. M. Pérez Tesis doctoral: Algoritmo y arquitectura de red neuronal para el 

procesamiento de señal aplicado a la determinación y cuantificación de 

elementos presentes en composiciones espectrales. Facultad de Informática, 

Universidad Politécnica de Madrid, 1995. 

31. A. A. Marquina, Tesis Doctoral “Aportación a la Extracción Paramétrica en 

Reconocimiento De Voz Robusto Basada en la Aplicación de Conocimiento 

de Fonética Acústica”, Universidad Politécnica de Madrid, 1999. 

32. M. Bishop “Neural networks for pattern recognition”. Oxford University 

Press, 1995. 

33. P. M. Atkinson, A. R. L. Tatnall, “Neural Networks in remote sensing – 

introduction”. International Journal of Remote Sensing, vol. 18, pp. 699-709, 

1997. 

34. B. H. Braswell, S. C. Hagen, S. E. Frokling, W. A. Salas, “A multivariative 

approach for mapping sub-pixel land cover distributions using mirs and 

modis: application in the brazilian amazon region.” Remote Sensing of 

Environment, vol. 87, pp. 243-256, 2003. 

108


35. G. Camps-Valls, L. Bruzzone “Kernel-Based Methods for Hyperspectral 

Image Classification”, IEEE Transactions on Geoscience and Remote 

Sensing, 2005. 

36. J. Plaza, P. Martinez, A. Plaza y R. Perez, “Nonlinear Neural Network 

Mixture Models for AVIRIS land cover fraction data estimation”. Proc. 

NASA/JPL Airborne Earth Science Workshop, Pasadena, CA, 2004. 

37. P. Martinez, J. A. Gualtieri, P. Aguilar, R. M. Perez, M. Linaje, J.C. Preciado, 

A. Plaza “Hyperspectral Image Classification Using a Self-Organizing Map” 

XI JPL Airbone Herat Science Workshop, 2001. 

38. P. L. Aguilar “Cuantificación de firmas hiperespectrales utilizando mapas 

autoorganizativos”. Tesis Doctoral, Universidad de Extremadura, 2000. 

39. T. Kohonen, “Self-organized formation of topologically correct feature 

maps”, Biological Cybernetics, vol. 43, pp. 59-69, 1982. Reprinted in 

Anderson and Rosenfeld, 1988. 

40. P. Martinez, P. Aguilar, R. M. Perez, A. Plaza “Systolic SOM Neural 

Networks for Hyperspectral Image Classification”. Neural Networks and 

Systolic Array Design. Edited by D. Zhang and S. K. Pal, World Scientific. 

41. J. J. Hopfield, “Neural Networks and Physical Systems with Emergent 

Collective Computational Abilities”. Proc. of National Academy of Sciencies, 

vol. 79, pp. 2554-2558, 1982. 

42. G. A. Carpenter, “Distributes Learning, Recognition and Prediction by ART 

and ARTMAP Neural Networks”, Neural Networks (Elsevier Science), vol. 

10, no. 8, pp. 1473-1494, 1997. 

43. G. A. Carpenter, S. Grossberg, N. Markuzon, J. H. Reynolds, D. B. Rosen, 

“Fuzzy ARTMAP: A Neural Network Architecture for Incremental 

Supervised Learning of Analog Multidimensional Maps”, ”, IEEE 

Transactions on Geoscience and Remote Sensing, vol. 3, pp. 698–715, 1992. 

44. A. Baraldi, E. Binaghi, P. Blonda, P. A. Brivio, A. Rampini, “Comparison of 

the Multilayer Perceptron with Neuro-Fuzzy Techniques in the Estimation of 

Cover Class Mixture in Remotely Sensed Data”, IEEE Transactions on 

Geoscience and Remote Sensing, vol. 39, no. 5, pp. 994- 1005, 2001. 

45. J. D. Paola, R. A. Schowengerdt, “A detailed comparison of backpropagation 

neural networs and maximum-likelihood classifiers for urban land use 

109


classification”, IEEE Transactions on Geoscience and Remote Sensing, vol. 

33, pp. 981-996, 2005. 

46. J. Plaza. Tesis doctoral: Procesamiento paralelo de imágenes hiperespectrales 

utilizando arquitecturas de computación neuronal. Escuela Politécnica. 

Cáceres. 2008. 

47. R. O. Duda, P. E. Hart, “Pattern Classification and Scene Analysis”, New 

York: John Wiley, 1973. 

48. A. A. Green, M. Berman, P. Switzer, & M. D. Craig, “A transformation for 

ordering multispectral data in terms of image quality with implications for 

noise removal.” IEEE Transactions on Geoscience and Remote Sensing, vol. 

26. 1988. 

49. D. A. Landgrebe, Signal Theory Methods in Multispectral Remote Sensing. 

Hoboken, NJ: Wiley, 2003. 

50. X. Jia, J. A. Richards, y D. E. Ricken, Remote Sensing Digital Image 

Analysis: An Introduction. Springer-Verlag, Berlin, 1999. 

51. I. J. Myung. “Maximum Likelihood Estimation” Department of Psychology 

Ohio State University, 2002. 

52. C. Cortes and V. Vapnik, “Support vector networks”. Machine Learning, 

20:1-25, 1995 

53. V. Blanz, B. Schölkopf , H. Bülthoff, C. Burges 2, V. Vapnik, Comparison of 

View-Based Object Recognition Algorithms Using Realistic 3D Models. 

Springer, 1996. 

54. M. S. Schmidt. “Identifying speakers with support vector networks”. Interface 

'96 Proceedings, 1996. 

55. B. Schölkopf, A. Smola, “Advances in kernel methods: Support vector 

learning”, 1999. 

56. B. E. Boser, I. M. Guyon, and V. N. Vapnik. “A training algorithm for 

optimal margin classifiers”, In D. Haussler, editor, 5th Annual ACM 

Workshop on COLT, pages 144-152, Pittsburgh, PA, 1992. ACM Press. 

57. K. R. Muller, S. Mika, G. Ratsch, K. Tsuda, B. Schölkopf, “An introduction to 

kernel-based learning algorithms”. IEEE Transactions on eural etworks, 

vol 12, 2001. 

58. G. Mercier and M. Lennon, Support Vector Machines for Hyperspectral 

Image Classification with Spectral-Based Kernels, in IGARSS, 2003. 

110


59. G. M. Foody, “RVM-based multi-class classification of remotely sensed data” 

International Journal of Remote Sensing, vol 29, pp 1817-1823, 2008. 

60. G. F. Hughes, “On The Mean Accuracy Of Statistical Pattern Recognizers” 

IEEE Trans.Infor. Theory, Vol. IT-14, 1968. 

61. K. Fukunaga, “Introduction to Statistical Pattern Recognition” Publicado por 

Academic Press, 1990. 

62. A. Kaarna, P. Zemcik, H. Kalviainen, J. Parkkinen, “Compression of 

multispectral remote sensing images using clustering and spectral reduction”, 

IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000. 

63. J. A. Richards, “Remote Sensing Digital Image Analysis: An Introduction”, 

Springer-Verlag, Berlin, 1993. 

64. P. J. Curran, J. L. Dungan, “Estimation of Signal-to-Noise: A New Procedure 

Applied to AVIRIS Data”, IEEE Transactions on Geoscience and Remote 

Sensing, vol. 27, 1989. 

65. C. Gordon, “A Generalization of the Maximum Noise Fraction Transform”. 

IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000. 

66. J. W. Boardman, “Automating Spectral Unmixing of AVIRIS DATA Using 

Geometry Concepts” Fourth Annual JPL Airborne Geoscience Workshop, 

Vol. 1, Jet Propulsion Laboratory, Pasadena, CA., 1993 

67. J. A. Richards, “Remote Sensing Digital Image Analysis”, Springer-Verlag, 

Berlin, 1999. 

68. D. Patterson, Artificial eural etworks. Singapore: Prentice Hall.1996. 

69. T. Key, T. A. Warner, J. B. McGraw, M. A. Fajvan, “A Comparison of 

Multispectral and Multitemporal Information in High Spatial Resolution 

Imagery for Classification of Individual Tree Species in a Temperate 

Hardwood Forest”, Remote Sensing of Environment, vol. 75, pp. 100-112, 

2001. 

70. A. Plaza. Tesis doctoral: Proposición, Validación y Prueba de una 

Metodología Morfológica para el Análisis de Datos Hiperespectrales que 

Integra Información Espacial y Espectral. Escuela Politécnica, Cáceres. 2002. 

111

Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC

Create successful ePaper yourself

Delete template?

Save as template?