Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC
Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC
Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
UIVERSIDAD DE EXTREMADURA<br />
Escuela Politécnica<br />
Ingeniería informática<br />
Proyecto Fin <strong>de</strong> Carrera<br />
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />
<strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento<br />
<strong>de</strong> imágenes hiperespectrales<br />
Cristina Barra Arias<br />
Diciembre, 2008
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
UIVERSIDAD DE EXTREMADURA<br />
Escuela Politécnica<br />
Ingeniería informática<br />
Proyecto Fin <strong>de</strong> Carrera<br />
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />
<strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento<br />
<strong>de</strong> imágenes hiperespectrales<br />
Autora: Cristina Barra Arias<br />
Fdo.:<br />
Director: Antonio Plaza Miguel.<br />
Fdo.:<br />
Co-director: Javier Plaza Miguel.<br />
Fdo.:<br />
CALIFICACIÓN:<br />
FECHA:<br />
Tribunal Calificador<br />
Presi<strong>de</strong>nte: Rosa Mª Pérez Utrero<br />
Fdo.:<br />
Secretario: Pedro Luis Aguilar<br />
Fdo.:<br />
Vocal: Pablo Martínez Cobo<br />
Fdo.:<br />
2
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Resumen<br />
El presente proyecto fin <strong>de</strong> carrera presenta un estudio <strong>comparativo</strong> <strong>de</strong><br />
<strong>diferentes</strong> clasificadores para análisis <strong>de</strong> datos hiperespectrales obtenidas <strong>de</strong> forma<br />
remota. Las técnicas comparadas incluyen los clasificadores Maximum Likelihood<br />
(ML), Self-Organizing Map (SOM), Multi-layer Perceptron (MLP), y Support Vector<br />
Machine (SVM). El principal objetivo <strong>de</strong>l estudio es realizar una comparativa entre<br />
dichos métodos y, particularmente, analizar la respuesta <strong>de</strong> dichos clasificadores en<br />
presencia <strong>de</strong> un conjunto muy limitado <strong>de</strong> patrones <strong>de</strong> entrenamiento, situación que<br />
suele ser habitual en aplicaciones <strong>de</strong> observación remota <strong>de</strong> la tierra <strong>de</strong>bido a la<br />
dificultad <strong>de</strong> generar este tipo <strong>de</strong> información sobre el terreno. El estudio <strong>comparativo</strong><br />
se ha realizado sobre dos <strong>de</strong> las imágenes más representativas en la literatura<br />
<strong>de</strong>dicada a clasificación <strong>de</strong> datos hiperespectrales: una imagen obtenida por el sensor<br />
Airborne Visible Infra-Red Imaging Spectrometer (AVIRIS) <strong>de</strong> NASA Jet Propulsión<br />
Laboratory sobre la región Indian Pines en Indiana, Estados Unidos, y una imagen<br />
obtenida por el sensor Reflective Optics Spectrographic Imaging System (ROSIS) <strong>de</strong><br />
la Agencia Espacial Alemana (DLR) sobre la ciudad <strong>de</strong> Pavía, en Italia. Ambas<br />
imágenes disponen <strong>de</strong> información verdad-terreno <strong>de</strong> gran calidad y representan casos<br />
<strong>de</strong> estudio que permiten comparar una imagen <strong>de</strong> elevada resolución espectral y<br />
mo<strong>de</strong>rada resolución espacial (AVIRIS Indian Pines) frente a una imagen <strong>de</strong> elevada<br />
resolución espacial y mo<strong>de</strong>rada resolución espectral (DAIS Pavía). En ambos casos,<br />
se estudia el efecto <strong>de</strong> utilizar la imagen completa en la clasificación o <strong>de</strong> aplicar<br />
transformaciones sobre la imagen original para reducir su dimensionalidad, tales<br />
como la técnica <strong>de</strong> análisis <strong>de</strong> componentes principales (PCA) o la fracción mínima<br />
<strong>de</strong> ruido (MNF), lo cual tiene implicaciones en cuanto al número mínimo <strong>de</strong> patrones<br />
<strong>de</strong> entrenamiento necesarios para obtener una clasificación a<strong>de</strong>cuada (teniendo<br />
presente el objetivo <strong>de</strong> utilizar el mínimo número <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />
posible). Los resultados obtenidos ofrecen interesantes conclusiones que permiten<br />
analizar <strong>de</strong> forma <strong>de</strong>tallada la precisión <strong>de</strong> los clasificadores comparados con dos<br />
imágenes <strong>de</strong> referencia en la literatura y, particularmente, la capacidad <strong>de</strong> dichos<br />
clasificadores <strong>de</strong> funcionar con un conjunto muy limitado <strong>de</strong> patrones <strong>de</strong><br />
entrenamiento, con vistas a su utilización en aplicaciones reales. El estudio<br />
cuantitativo y <strong>comparativo</strong> presentado en el trabajo supone una novedad en la<br />
literatura <strong>de</strong>dicada a clasificación supervisada <strong>de</strong> datos hiperespectrales.<br />
3
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias 4
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
ÍNDICE DE CONTENIDOS<br />
Resumen.........................................................................................................................3<br />
1. Motivaciones y objetivos .......................................................................................11<br />
1.1 Motivaciones.........................................................................................11<br />
1.2 Objetivos...............................................................................................12<br />
2 Introducción ...........................................................................................................13<br />
2.1 Concepto <strong>de</strong> imagen hiperespectral ......................................................13<br />
2.2 El problema <strong>de</strong> la mezcla......................................................................15<br />
2.3 Clasificación .........................................................................................16<br />
2.4 Conceptos básicos sobre re<strong>de</strong>s <strong>neuronales</strong> ...........................................19<br />
2.5 Clasificación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong>.........................................................21<br />
2.5.1 Categorización:........................................................................................21<br />
2.5.2 Computación neuronal en análisis hiperespectral ..................................23<br />
2.5.2.1 Arquitecturas no supervisadas: ............................................................24<br />
2.5.2.2 Arquitecturas supervisadas: .................................................................24<br />
2.6 Técnicas utilizadas................................................................................26<br />
2.6.1 Maximum Likelihood (Máxima probabilidad).........................................26<br />
2.6.2 SVM (Support Vector Machine)..............................................................28<br />
2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP) .......................32<br />
2.6.4 Self-Organizing Map (SOM)....................................................................35<br />
2.7 Técnicas <strong>de</strong> preprocesado .....................................................................36<br />
2.7.1 Transformación Principal Component Analysis (PCA) ..........................37<br />
2.7.2 Transformación Minimum oise Fraction (MF) ..................................40<br />
3. Metodología ...........................................................................................................42<br />
3.1 Maximum likelihood (ML) ...................................................................43<br />
3.2 Multi-Layer Perceptron (MLP).............................................................44<br />
3.3 Support Vector Machine (SVM)...........................................................46<br />
3.4 Self-Organizing Map (SOM) ................................................................48<br />
3.5 Proceso <strong>de</strong> entrenamiento para todos los clasificadores.......................50<br />
3.5.1 Preprocesamiento .............................................................................51<br />
3.5.2 Conjunto <strong>de</strong> entrenamiento...............................................................51<br />
3.5.3 Post clasificación..............................................................................52<br />
4 Análisis y discusión <strong>de</strong> resultados .........................................................................54<br />
4.1 Introducción ..........................................................................................54<br />
4.2 Imágenes tratadas..................................................................................55<br />
4.2.1 AVIRIS Indian Pines .........................................................................55<br />
4.2.2 DAIS 7915 sobre Pavia.....................................................................57<br />
4.3 Modificaciones sobre las imágenes ......................................................59<br />
4.4 <strong>Estudio</strong> con la imagen AVIRIS Indian Pines........................................62<br />
5
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
4.4.1 ML.....................................................................................................62<br />
4.4.2 SOM ..................................................................................................65<br />
4.4.3 Multi-Layer Perceptron (MLP).........................................................66<br />
4.4.4 SVM...................................................................................................70<br />
4.4.4.1 SVM con transformadas MF y PCA...............................................73<br />
4.4.5 Resumen <strong>de</strong> la imagen AVIRIS Indian Pines ....................................76<br />
4.5 <strong>Estudio</strong> <strong>de</strong> la imagen DAIS 7915 sobre Pavia......................................77<br />
4.5.1 ML.....................................................................................................77<br />
4.5.2 SOM ..................................................................................................80<br />
4.5.3 MLP...................................................................................................83<br />
4.5.4 SVM...................................................................................................86<br />
4.5.5 Resumen DAIS 7915 sobre Pavia .....................................................91<br />
4.6 Discusión <strong>de</strong> resultados y análisis <strong>comparativo</strong>....................................92<br />
5 Conclusiones y líneas futuras <strong>de</strong> trabajo..............................................................102<br />
6 Referencias...........................................................................................................106<br />
6
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
LISTA DE FIGURAS<br />
Fig. 2.1 Concepto <strong>de</strong> imagen hiperespectral ......................................................................................... 14<br />
Fig. 2.2 . Firmas espectrales <strong>de</strong> vegetación obtenidas por el sensor multiespectral Landsat TM (7<br />
bandas) y el sensor hiperespectral AVIRIS (224 bandas) ..................................................................... 15<br />
Fig. 2.3 Concepto <strong>de</strong> píxel puro y píxel mezcla ..................................................................................... 16<br />
Fig. 2.4 Ejemplo <strong>de</strong> construcción <strong>de</strong> la matriz <strong>de</strong> confusión ................................................................. 18<br />
Fig. 2.5 Esquema <strong>de</strong> una neurona artificial .......................................................................................... 21<br />
Fig. 2.6 Esquema <strong>de</strong> funcionamiento SVM............................................................................................ 29<br />
Fig. 2.7 Perceptrón multicapa............................................................................................................... 33<br />
Fig. 2.8 Esquema SOM.......................................................................................................................... 35<br />
Fig. 2.10 Reducción dimensional........................................................................................................... 37<br />
Fig. 2.11 Ilustración gráfica <strong>de</strong> la transformación PCA....................................................................... 38<br />
Fig. 2.12 Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada PCA sobre una imagen hiperespectral real. ...... 39<br />
Fig. 2.13. Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada MF sobre una imagen hiperespectral real. .... 41<br />
Fig. 3.1 Esquema <strong>de</strong> funcionamiento ML .............................................................................................. 43<br />
Fig. 3.2 Esquema general <strong>de</strong> funcionamiento <strong>de</strong> MLP.......................................................................... 44<br />
Fig. 3.3 Diagrama <strong>de</strong> flujo SVM............................................................................................................ 47<br />
Fig. 3.4 Esquema general <strong>de</strong> SOM ........................................................................................................ 49<br />
Fig. 3.5 Matriz <strong>de</strong> entrenamiento SOM ................................................................................................. 50<br />
Fig. 3.6 Esquema general <strong>de</strong> funcionamiento........................................................................................ 51<br />
Fig. 3.7 Patrones <strong>de</strong> entrenamiento extremo, core y bor<strong>de</strong>................................................................... 52<br />
Fig. 4.1Imagen <strong>de</strong> una banda <strong>de</strong> AVIRIS Indian Pines ......................................................................... 56<br />
Fig. 4.2 Verdad terreno AVIRIS Indian Pines ....................................................................................... 56<br />
Fig. 4.3 Conjuntos <strong>de</strong> entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d) 50%.56<br />
Fig. 4.4 Imagen <strong>de</strong> una banda <strong>de</strong> DAIS 7915 sobre Pavia................................................................... 58<br />
Fig. 4.5 Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia ............................................................. 58<br />
Fig. 4.6 Conjuntos <strong>de</strong> entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%. ... 58<br />
Fig. 4.7 (a) Banda 6 y (b) banda 1<strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian Pines. ............................................ 59<br />
Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20% <strong>de</strong><br />
los píxeles <strong>de</strong> cada clase (86.79% <strong>de</strong> acierto). (b) Imagen clasificada mediante ML con<br />
preprocesamiento MF entrenando con un 20% <strong>de</strong> los píxeles <strong>de</strong> cada clase (88.30% <strong>de</strong> acierto). (c)<br />
Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines........................................................................ 64<br />
Fig. 4.9 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador ML al entrenarlo con conjuntos <strong>de</strong><br />
patrones <strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).......................................................................... 64<br />
Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab .................................................................. 66<br />
Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones............................................................ 66<br />
Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto <strong>de</strong>l 82.50%, (b) 10% con un<br />
acierto <strong>de</strong>l 83.33%, (c) 20% con un acierto <strong>de</strong>l 85.54% y (d) 50% con un acierto <strong>de</strong>l 86.7%.............. 69<br />
Fig. 4.13 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador MLP utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />
tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 70<br />
Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% <strong>de</strong> los píxeles <strong>de</strong> cada clase y<br />
utilizando el kernel lineal (74.15% <strong>de</strong> acierto). (b) Imagen clasificada mediante SVM entrenando con<br />
un 50% <strong>de</strong> los píxeles <strong>de</strong> cada clase y utilizando el kernel lineal (90.66% <strong>de</strong> acierto). (c) Verdad<br />
terreno para la escena <strong>de</strong> AVIRIS Indian Pines. ................................................................................... 71<br />
Fig. 4.15 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />
tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 73<br />
Fig. 4.16 Comparación <strong>de</strong> resultados SVM con preprocesamiento y un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />
50%, (a) clasificación PCA, el acierto es <strong>de</strong>l 85.66%. (b) clasificación MF, el acierto es <strong>de</strong>l 88.59%<br />
y (c) verdad terreno <strong>de</strong> AVIRIS Indian Pines. ....................................................................................... 74<br />
Fig. 4.17 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />
tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 76<br />
Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje <strong>de</strong><br />
acierto <strong>de</strong> 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un porcentaje<br />
<strong>de</strong> acierto <strong>de</strong> 97.60% y (c) clasificación ML con la imagen con preprocesamiento MF, con un<br />
porcentaje <strong>de</strong> acierto <strong>de</strong> 97.30%. En todos los casos con el 10% <strong>de</strong> entrenamiento. (d) verdad terreno<br />
<strong>de</strong> la imagen DAIS 7915 sobre Pavia.................................................................................................... 78<br />
7
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% <strong>de</strong> entrenamiento. (b) clasificación ML con el<br />
5% <strong>de</strong> entrenamiento y con tratamiento <strong>de</strong> imagen MF. (c) verdad terreno. ..................................... 80<br />
Fig. 4.20 Verdad Terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia .......................................................... 81<br />
Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc<br />
1000it. Acierto 84.7%............................................................................................................................ 81<br />
Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />
20% con un resultado <strong>de</strong> 98.75% y (b) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia. ............ 85<br />
Fig. 4.23 (a) Clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia con un entrenamiento 20% learning<br />
rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y 10000<br />
iteraciones. (c) Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.................................................. 85<br />
Fig. 4.24 (a) clasificación SVM con kernel sigmoi<strong>de</strong> y 5% <strong>de</strong> entrenamiento. (b) clasificación SVM con<br />
el kernel lineal y 50% <strong>de</strong> entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c) Verdad terreno<br />
<strong>de</strong> la imagen DAIS 7915 sobre PAVIA. ................................................................................................. 86<br />
Fig. 4.25 Clasificación SVM con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20% y distintos kernel, (a) lineal,<br />
(b) polinómico, (c) RBF, (d) sigmoi<strong>de</strong> para la imagen DAIS 7915 sobre PAVIA. ................................ 88<br />
Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto <strong>de</strong>l 20% <strong>de</strong>l tamaño<br />
total <strong>de</strong> píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF............................. 89<br />
Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian Pines y la<br />
imagen DAIS 7915 sobre Pavia............................................................................................................. 92<br />
Fig. 4.28 Resultados <strong>de</strong> la clasificación SOM....................................................................................... 93<br />
Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines......................................................................... 94<br />
Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia.................................................... 94<br />
Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre Pavia<br />
............................................................................................................................................................... 95<br />
Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines .............................................................. 96<br />
Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia......................................... 96<br />
Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines ...................... 97<br />
Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre Pavia. 98<br />
Fig. 4.36 Tiempo empleado por los <strong>diferentes</strong> clasificadores ............................................................... 99<br />
Fig. 4.37 Clasificación general AVIRIS Indian Pines ......................................................................... 100<br />
Fig. 4.38 Clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia ............................................... 101<br />
8
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
LISTA DE TABLAS<br />
Tabla 4.1 AVIRIS Indian Pines conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> total <strong>de</strong> píxeles por clase ... 57<br />
Tabla 4.2. Conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> píxeles totales etiquetados <strong>de</strong> la imagen DAIS<br />
7915 sobre Pavia ................................................................................................................................... 59<br />
Tabla 4.3. Separabilidad <strong>de</strong> AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn min. E:<br />
Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed. J: Oats. K:<br />
Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O: Wheat. P: Woods.... 60<br />
Tabla 4.4. Separabilidad <strong>de</strong> DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D:<br />
Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees........................................... 61<br />
Tabla 4.5 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />
las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 63<br />
Tabla 4.6 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />
las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 68<br />
Tabla 4.7 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos<br />
<strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 72<br />
Tabla 4.8. Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y<br />
MF y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).... 75<br />
Tabla 4.9 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />
las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 79<br />
Tabla 4.10 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SOM utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (10, 50, 100 patrones por clase y la imagen<br />
completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno <strong>de</strong> los conjuntos <strong>de</strong><br />
entrenamiento. ....................................................................................................................................... 82<br />
Tabla 4.11 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />
las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 84<br />
Tabla 4.12 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong><br />
tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 87<br />
Tabla 4.13 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando conjuntos <strong>de</strong><br />
entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />
las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 90<br />
9
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias 10
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
1. Motivaciones y objetivos<br />
1.1 Motivaciones<br />
La línea <strong>de</strong> trabajo <strong>de</strong> este Proyecto Fin <strong>de</strong> Carrera se incluye en las líneas <strong>de</strong><br />
investigación abordadas <strong>de</strong>s<strong>de</strong> el Grupo <strong>de</strong> Re<strong>de</strong>s Neuronales y Procesamiento<br />
Digital <strong>de</strong> la Señal (GRNPS) ubicado en el área <strong>de</strong> Arquitectura y Tecnología <strong>de</strong><br />
Computadores, Departamento <strong>de</strong> Tecnología <strong>de</strong> los Computadores y <strong>de</strong> las<br />
Comunicaciones <strong>de</strong> la Universidad <strong>de</strong> Extremadura.<br />
Este grupo <strong>de</strong> investigación ha venido <strong>de</strong>sarrollando <strong>diferentes</strong> técnicas <strong>de</strong><br />
análisis hiperespectral basadas en el uso <strong>de</strong> <strong>arquitecturas</strong> <strong>de</strong> computación neuronal.<br />
Bajo ese punto <strong>de</strong> vista, y dada la gran variedad <strong>de</strong> herramientas <strong>neuronales</strong><br />
disponibles para el tratamiento <strong>de</strong> datos multidimensionales, se hace necesario<br />
realizar estudio que evalúe la efectividad y rendimiento <strong>de</strong> las <strong>diferentes</strong> técnicas<br />
existentes para tratar <strong>de</strong> extraer conclusiones que permitan <strong>de</strong>terminar que<br />
herramientas son más eficientes y en que <strong>de</strong>terminados ámbitos <strong>de</strong> aplicación.<br />
Uno <strong>de</strong> los principales problemas asociados al análisis <strong>de</strong> datos hiperespectrales<br />
es la clasificación (supervisada o no) <strong>de</strong> los mismos. Existe un amplio abanico <strong>de</strong><br />
técnicas <strong>de</strong> clasificación basadas en <strong>arquitecturas</strong> <strong>de</strong> computación neuronal que<br />
tradicionalmente se han empleado para etiquetar cada píxel como perteneciente a una<br />
<strong>de</strong>terminada clase. En este sentido, el presente documento presenta un <strong>de</strong>tallado<br />
estudio <strong>comparativo</strong> entre distintos tipos <strong>de</strong> clasificadores <strong>neuronales</strong> comúnmente<br />
aplicados en el ámbito <strong>de</strong>l análisis hiperespectral, evaluando su funcionamiento al<br />
procesar distintas imágenes hiperespectrales con <strong>diferentes</strong> características, tales como<br />
resolución espacial y espectral, área sobre la que se adquiere la imagen, tipo <strong>de</strong><br />
información verdad terreno <strong>de</strong> la que se dispone sobre la escena, etc., que serán<br />
aspectos altamente <strong>de</strong>terminantes sobre la calidad <strong>de</strong> los resultados.<br />
Para concluir, es necesario aclarar que la comparación entre los <strong>diferentes</strong><br />
clasificadores <strong>neuronales</strong> es difícil <strong>de</strong> establecer, ya que cada uno <strong>de</strong> ellos utiliza una<br />
serie <strong>de</strong> parámetros <strong>de</strong> configuración relacionados con sus mecanismos <strong>de</strong><br />
aprendizaje, y que no tienen porque ser iguales. En este sentido, se han evaluado<br />
numerosas configuraciones posibles para cada uno <strong>de</strong> los clasificadores con el<br />
objetivo <strong>de</strong> <strong>de</strong>terminar los mejores parámetros para los mismos y establecer una<br />
comparativa justa en términos <strong>de</strong> precisión <strong>de</strong> la clasificación sobre un conjunto <strong>de</strong><br />
11
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
imágenes hiperespectrales ampliamente utilizadas en la comunidad científica<br />
<strong>de</strong>dicada al análisis <strong>de</strong> este tipo <strong>de</strong> datos.<br />
1.2 Objetivos<br />
Este trabajo preten<strong>de</strong> analizar el estado <strong>de</strong>l arte <strong>de</strong> los clasificadores <strong>neuronales</strong><br />
al aplicarlos sobre datos hiperespectrales. Para ello se plantea el siguiente objetivo<br />
global: estudiar, evaluar y comparar las <strong>diferentes</strong> técnicas <strong>neuronales</strong> existentes<br />
para realizar una clasificación <strong>de</strong> datos hiperespectrales, así como extraer<br />
conclusiones relativas a la eficiencia y rapi<strong>de</strong>z <strong>de</strong> dichas técnicas. Para la<br />
consecución <strong>de</strong> este objetivo global, se han llevado a cabo los siguientes objetivos<br />
específicos:<br />
• Estudiar en profundidad las principales características <strong>de</strong> las técnicas objeto<br />
<strong>de</strong>l análisis y sus parámetros <strong>de</strong> entrada. Este estudio compren<strong>de</strong> la adquisición <strong>de</strong> los<br />
conocimientos necesarios sobre todas las técnicas evaluadas, así como <strong>de</strong> otras<br />
técnicas <strong>de</strong> clasificación comúnmente utilizadas en el ámbito <strong>de</strong>l análisis<br />
hiperespectral.<br />
• Adquirir conocimientos previos sobre análisis hiperespectral, necesarios<br />
para po<strong>de</strong>r llevar a cabo el estudio (imagen hiperespectral, formatos <strong>de</strong> los datos,<br />
representación <strong>de</strong> datos, presentación <strong>de</strong> resultados, etc.).<br />
• Adquirir la soltura necesaria para trabajar eficientemente con el software<br />
ENVI y MATLAB. Codificar un conjunto <strong>de</strong> funciones externas a los clasificadores<br />
que se utilizarán para seleccionar conjuntos <strong>de</strong> patrones <strong>de</strong> entrenamiento capaces <strong>de</strong><br />
representar equitativamente a todas las clases <strong>de</strong> datos presentes en la imagen, así<br />
como para representar <strong>de</strong> forma eficiente los resultados alcanzados por cada<br />
clasificador.<br />
• Realizar un análisis en profundidad <strong>de</strong> las imágenes utilizadas, aplicando<br />
sobre ellas técnicas <strong>de</strong> preprocesado con el objetivo <strong>de</strong> evaluar la influencia <strong>de</strong> dicho<br />
preprocesamiento sobre los resultados finales.<br />
• Diseñar una metodología <strong>de</strong> comparación <strong>de</strong> los resultados obtenidos por<br />
cada una <strong>de</strong> las técnicas empleadas que permita extraer conclusiones sobre la<br />
eficiencia y efectividad <strong>de</strong> cada método <strong>de</strong> clasificación testeado, extrapolando<br />
conclusiones sobre la capacidad <strong>de</strong> dichos métodos para extraer información a partir<br />
<strong>de</strong> datos hiperespectrales <strong>de</strong> gran dimensionalidad.<br />
12
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
2 Introducción<br />
El objetivo fundamental <strong>de</strong> este capítulo es presentar una introducción <strong>de</strong> los<br />
conceptos básicos que durante el trabajo se van a tratar. El capítulo se estructura <strong>de</strong> la<br />
siguiente forma: en primer lugar <strong>de</strong>finiremos el concepto <strong>de</strong> imagen hiperespectral,<br />
comentando las características principales <strong>de</strong> este tipo <strong>de</strong> imágenes <strong>de</strong> alta<br />
dimensionalidad. Continuaremos <strong>de</strong>finiendo el concepto <strong>de</strong> clasificación y algunos<br />
i<strong>de</strong>as básicas sobre re<strong>de</strong>s <strong>neuronales</strong>, para terminar explicando las técnicas utilizadas.<br />
2.1 Concepto <strong>de</strong> imagen hiperespectral<br />
El análisis hiperespectral es una técnica <strong>de</strong> observación remota <strong>de</strong> la tierra<br />
basada en el análisis cuantitativo <strong>de</strong> las propieda<strong>de</strong>s espectrales <strong>de</strong> <strong>diferentes</strong><br />
materiales <strong>de</strong> la superficie terrestre, registradas en bandas espectrales contiguas en las<br />
<strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong> onda <strong>de</strong>l espectro electromagnético. Para cada píxel es<br />
posible obtener un espectro <strong>de</strong> reflectancia completo [1]. Dicho espectro es el<br />
resultado <strong>de</strong> la reflexión, absorción y emisión <strong>de</strong> energía electromagnética con la que<br />
cada material respon<strong>de</strong> ante la presencia <strong>de</strong> la luz solar [2].<br />
Las técnicas <strong>de</strong> observación remota <strong>de</strong> la tierra han sufrido una notoria<br />
evolución <strong>de</strong>s<strong>de</strong> su aparición, claramente marcada por los avances en el diseño <strong>de</strong><br />
instrumentos avanzados <strong>de</strong> observación. Esta evolución ha permitido pasar <strong>de</strong><br />
técnicas multiespectrales (técnicas que procesan <strong>de</strong>cenas <strong>de</strong> bandas espectrales) a<br />
técnicas hiperespectrales (que son capaces <strong>de</strong> procesar la información contenida en<br />
cientos <strong>de</strong> bandas), cambio motivado principalmente por la aparición <strong>de</strong>l primer<br />
sensor hiperespectral, <strong>de</strong>nominado AVIRIS (Airborne Airborne Visible/Infrared<br />
Imaging Spectrometer) y <strong>de</strong>sarrollado por NASA Jet Propulsión Laboratory [3]. Este<br />
hecho propició a su vez importantes avances en el diseño <strong>de</strong> técnicas <strong>de</strong><br />
reconocimiento <strong>de</strong> patrones y procesamiento <strong>de</strong> imágenes, incorporando la tecnología<br />
hiperespectral a <strong>diferentes</strong> aplicaciones <strong>de</strong> gran relevancia social, tales como<br />
aplicaciones militares (<strong>de</strong>tección <strong>de</strong> targets) [4]; <strong>de</strong>tección y monitorización <strong>de</strong> fuegos<br />
y agentes contaminantes [5]; agricultura <strong>de</strong> precisión; i<strong>de</strong>ntificación y cuantificación<br />
<strong>de</strong> especies geológicas; estudios relativos al cambio climático global; crecimiento <strong>de</strong><br />
las urbes y su impacto medioambiental, etc.<br />
Si representamos una imagen hiperespectral <strong>de</strong> forma gráfica obtenemos un<br />
cubo cuyas dos primeras dimensiones representarían la ubicación en el espacio <strong>de</strong> un<br />
13
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
píxel <strong>de</strong>terminado <strong>de</strong> la imagen (coor<strong>de</strong>nadas espaciales) y una tercera dimensión que<br />
representaría la singularidad espectral <strong>de</strong> cada píxel según <strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong><br />
onda [6]. De esta forma, po<strong>de</strong>mos interpretar la información captada por un sensor<br />
hiperespectral como un conjunto <strong>de</strong> imágenes, cada una <strong>de</strong> las cuales representa una<br />
longitud <strong>de</strong> onda <strong>de</strong>ntro <strong>de</strong>l espectro electromagnético, también conocido como banda<br />
espectral. Estas imágenes se combinan y forman un cubo hiperespectral<br />
tridimensional para su posterior procesamiento y análisis. La Fig.2.1 muestra una<br />
sencilla representación gráfica <strong>de</strong>l concepto real <strong>de</strong> imagen hiperespectral.<br />
Muestras<br />
Bandas 1 - 4<br />
Líneas<br />
Pixel en<br />
posición (x,y)<br />
Fig. 2.1 Concepto <strong>de</strong> imagen hiperespectral<br />
ND en banda 4<br />
ND en banda 3<br />
ND en banda 2<br />
ND en banda 1<br />
La capacidad <strong>de</strong> observación <strong>de</strong> los sensores hiperespectrales permite la<br />
obtención <strong>de</strong> una firma espectral <strong>de</strong>tallada para cada píxel <strong>de</strong> la imagen, dada por los<br />
valores <strong>de</strong> reflectancia adquiridos por el sensor en <strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong> onda. Este<br />
hecho permite una caracterización muy precisa <strong>de</strong> la superficie <strong>de</strong>l planeta [7]. De<br />
forma intuitiva, cuanto mayor sea el número <strong>de</strong> bandas disponibles, mejor será la<br />
caracterización <strong>de</strong> los materiales presentes en la escena. A<strong>de</strong>más, conviene que estas<br />
bandas sean estrechas, puesto que la utilización <strong>de</strong> bandas anchas introduce un<br />
promediado <strong>de</strong> valores que pue<strong>de</strong> encubrir la diferenciación espectral entre cubiertas<br />
[8]. En este sentido, po<strong>de</strong>mos introducir el concepto <strong>de</strong> firma espectral <strong>de</strong> un<br />
<strong>de</strong>terminado material o superficie como el conjunto <strong>de</strong> valores <strong>de</strong> radiancia o<br />
reflectancia captado en los <strong>diferentes</strong> canales espectrales <strong>de</strong>l sensor. Si el número <strong>de</strong><br />
bandas espectrales <strong>de</strong>l sensor es muy gran<strong>de</strong> y las bandas son muy estrechas, la firma<br />
espectral pue<strong>de</strong> ser consi<strong>de</strong>rada como un espectro casi continuo [9].<br />
14
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
La Fig. 2.2 muestra un ejemplo <strong>de</strong> dos firmas espectrales asociadas a una<br />
cubierta vegetal. La primera <strong>de</strong> ellas (parte izquierda) fue adquirida por un sensor<br />
multiespectral, en concreto, Landsat Thematic Mapper [10], que dispone <strong>de</strong> un total<br />
<strong>de</strong> 7 bandas en el rango 0.48 – 2.21 µm. La firma espectral mostrada en la parte<br />
<strong>de</strong>recha <strong>de</strong> la Fig. 2.2 fue adquirida por el sensor hiperespectral AVIRIS [3], con 224<br />
bandas espectrales en el rango 0.4 a 2.4 µm. Como pue<strong>de</strong> apreciarse en la figura, la<br />
firma espectral obtenida mediante un sensor hiperespectral se asemeja a un espectro<br />
continuo <strong>de</strong> valores, mientras que la firma proporcionada por un sensor<br />
multiespectral es mucho menos <strong>de</strong>tallada [10].<br />
Radiancia<br />
0<br />
2000<br />
4000<br />
6000<br />
8000<br />
300 600 900 1200 1500 1800 2100 2400<br />
Longitud <strong>de</strong> onda (nm)<br />
Firma espectral vegetación<br />
(Landsat TM)<br />
Radiancia<br />
0<br />
2000<br />
4000<br />
6000<br />
8000<br />
15<br />
300 600 900 1200 1500 1800 2100 2400<br />
Longitud <strong>de</strong> onda (nm)<br />
Firma espectral vegetación<br />
(AVIRIS)<br />
Fig. 2.2 . Firmas espectrales <strong>de</strong> vegetación obtenidas por el sensor multiespectral Landsat TM (7<br />
bandas) y el sensor hiperespectral AVIRIS (224 bandas)<br />
.<br />
2.2 El problema <strong>de</strong> la mezcla<br />
El principal problema <strong>de</strong>l análisis hiperespectral es el fenómeno <strong>de</strong> la mezcla.<br />
Antes <strong>de</strong> abordar el tema <strong>de</strong> la clasificación <strong>de</strong> píxeles, es conveniente <strong>de</strong>stacar que<br />
en una escena hiperespectral es muy común encontrar píxeles cuya respuesta<br />
espectral está compuesta por <strong>diferentes</strong> materiales a nivel subpíxel [11], por lo que es<br />
frecuente hablar <strong>de</strong> píxeles puros y píxeles mezcla. (Véase Fig. 2.3)
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Pixel mezcla<br />
(árboles + suelo)<br />
Pixel mezcla<br />
(suelo + rocas)<br />
Fig. 2.3 Concepto <strong>de</strong> píxel puro y píxel mezcla<br />
Pixel puro<br />
(agua)<br />
Po<strong>de</strong>mos <strong>de</strong>finir un píxel mezcla como aquel en el que cohabitan <strong>diferentes</strong><br />
cubiertas ([12]; [13]; [11]; [14]). Los píxeles mezcla constituyen la mayor parte <strong>de</strong> los<br />
píxeles <strong>de</strong> una imagen hiperespectral. Esto es <strong>de</strong>bido a que in<strong>de</strong>pendientemente <strong>de</strong> la<br />
escala que se consi<strong>de</strong>re, la mezcla se produce a nivel microscópico [15], [9]. Así<br />
pues, la forma más simple <strong>de</strong> abordar el problema <strong>de</strong> la clasificación <strong>de</strong> píxeles en<br />
una imagen hiperespectral es consi<strong>de</strong>rar que los píxeles <strong>de</strong> interés están compuestos<br />
por un solo material, utilizando las técnicas convencionales <strong>de</strong> clasificación <strong>de</strong><br />
patrones [16]. En las imágenes reales la mayoría <strong>de</strong> los píxeles son mezcla, raramente<br />
estarán compuestos por un único material. La clasificación es por tanto una<br />
simplificación <strong>de</strong>l problema <strong>de</strong> <strong>de</strong>smezclado espectral.<br />
2.3 Clasificación<br />
Tras esta breve introducción al problema <strong>de</strong> la mezcla espectral, po<strong>de</strong>mos<br />
<strong>de</strong>finir la clasificación espectral como un conjunto <strong>de</strong> técnicas <strong>de</strong> interpretación <strong>de</strong><br />
una escena obtenida <strong>de</strong> forma remota en base a unos patrones, obteniéndose una<br />
etiqueta para cada píxel <strong>de</strong> la imagen.<br />
Técnicas <strong>de</strong> clasificación<br />
16
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Estas técnicas ofrecen resultados interesantes en <strong>de</strong>terminadas aplicaciones, que<br />
se <strong>de</strong>tallan a continuación:<br />
• Clasificación temática. Las técnicas <strong>de</strong> clasificación han sido utilizadas <strong>de</strong><br />
forma satisfactoria en aplicaciones que tienen como objetivo la obtención <strong>de</strong> un mapa<br />
temático en el que cada píxel <strong>de</strong> la imagen hiperespectral está <strong>de</strong>bidamente etiquetado<br />
como perteneciente a una clase concreta [17]. Pue<strong>de</strong> existir una clase adicional<br />
<strong>de</strong>nominada "fondo" o "resto" que representa a los píxeles que no han sido<br />
clasificados en ninguna <strong>de</strong> las clases anteriores. El resultado i<strong>de</strong>al se obtiene cuando<br />
todas las clases, incluyendo la clase "fondo", son mutuamente excluyentes entre sí. La<br />
tarea clave en este tipo <strong>de</strong> aplicaciones suele ser la <strong>de</strong>terminación <strong>de</strong>l número <strong>de</strong><br />
clases y la caracterización <strong>de</strong> las mismas en términos <strong>de</strong> datos <strong>de</strong> entrenamiento o<br />
información <strong>de</strong> verdad-terreno. El objetivo es, en última instancia, <strong>de</strong>terminar la<br />
existencia o no <strong>de</strong> cada uno <strong>de</strong> los objetos consi<strong>de</strong>rados en cada píxel, situación que<br />
pue<strong>de</strong> expresarse como un problema <strong>de</strong> clasificación binario [18].<br />
• Detección <strong>de</strong> targets. Las técnicas <strong>de</strong> clasificación también han sido<br />
utilizadas <strong>de</strong> forma muy extensa en aplicaciones <strong>de</strong> <strong>de</strong>tección <strong>de</strong> objetivos o targets<br />
en imágenes hiperespectrales [19]. En este tipo <strong>de</strong> aplicaciones, el objetivo<br />
fundamental es la i<strong>de</strong>ntificación <strong>de</strong> un material u objeto específico (<strong>de</strong>nominado<br />
target en la bibliografía) entre todos los píxeles <strong>de</strong> la imagen.<br />
Técnicas <strong>de</strong> evaluación <strong>de</strong> algoritmos <strong>de</strong> clasificación<br />
La gran cantidad <strong>de</strong> técnicas existentes, así como la continua proliferación <strong>de</strong><br />
nuevas metodologías, hace patente la necesidad <strong>de</strong> esquemas <strong>comparativo</strong>s o métricas<br />
que permitan analizar <strong>de</strong> forma cualitativa el rendimiento <strong>de</strong> las nuevas metodologías<br />
planteadas, contrastando sus resultados con los proporcionados por las ya existentes<br />
[16].<br />
La mayor parte <strong>de</strong> las técnicas <strong>de</strong> evaluación <strong>de</strong> algoritmos <strong>de</strong> análisis <strong>de</strong><br />
imágenes digitales <strong>de</strong> tele<strong>de</strong>tección se basan en el concepto <strong>de</strong> verdad terreno,<br />
ampliamente utilizado en análisis <strong>de</strong> imágenes obtenidas <strong>de</strong> forma remota [20].<br />
Po<strong>de</strong>mos <strong>de</strong>finir i<strong>de</strong>almente el concepto <strong>de</strong> verdad terreno como el resultado <strong>de</strong><br />
clasificación o interpretación óptimo al que <strong>de</strong>be llegar un algoritmo [21], [22]<br />
Asumiendo la existencia <strong>de</strong> la información <strong>de</strong> verdad terreno, existen varias<br />
metodologías que permiten comparar el resultado proporcionado por un algoritmo <strong>de</strong><br />
17
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
análisis <strong>de</strong> imágenes con dicha información. En este proyecto se ha utilizado<br />
ampliamente la matriz <strong>de</strong> confusión:<br />
Matriz <strong>de</strong> confusión.<br />
La matriz <strong>de</strong> confusión [23] es una técnica que permite evaluar la precisión <strong>de</strong><br />
algoritmos <strong>de</strong> clasificación <strong>de</strong> imágenes digitales obtenidas <strong>de</strong> forma remota. Esta<br />
técnica presupone que la información verdad terreno viene expresada en forma <strong>de</strong> un<br />
mapa temático [24], [25], caracterizado por las siguientes propieda<strong>de</strong>s:<br />
• Cada píxel se encuentra etiquetado como perteneciente a una <strong>de</strong>terminada<br />
R = .<br />
clase, <strong>de</strong> forma que se tienen N clases o regiones <strong>de</strong> referencia { } N<br />
i i 1<br />
• Las regiones <strong>de</strong> referencia son mutuamente excluyentes entre sí, es <strong>de</strong>cir, dos<br />
regiones <strong>diferentes</strong> no tienen ningún píxel en común: ∩ R = ∅,<br />
∀i<br />
≠ j<br />
R i j<br />
La Fig.2.4 muestra la apariencia <strong>de</strong> una matriz <strong>de</strong> confusión utilizada para la<br />
evaluación <strong>de</strong> la clasificación obtenida por los métodos evaluados.<br />
Lago (R 0 )<br />
Carretera (R 1 )<br />
Árboles (R 2 )<br />
Suelo (R 3 )<br />
C 0<br />
C 1<br />
C 2<br />
C 3<br />
Mapa temático<br />
(verdad terreno)<br />
R 0<br />
a 00 =|C 0 ∩R 0 |<br />
a 10 =|C 1 ∩R 0 |<br />
a 20 =|C 2 ∩R 0 |<br />
a 30 =|C 3 ∩R 0 |<br />
Matriz <strong>de</strong> confusión<br />
R 1<br />
a 01 =|C 0 ∩R 1 |<br />
a 11 =|C 1 ∩R 1 |<br />
a 21 =|C 2 ∩R 1 |<br />
a 31 =|C 3 ∩R 1 |<br />
Clasificación<br />
(Algoritmo)<br />
R 2<br />
a 02 =|C 0 ∩R 2 |<br />
a 12 =|C 1 ∩R 2 |<br />
a 22 =|C 2 ∩R 2 |<br />
a 32 =|C 3 ∩R 2 |<br />
R 3<br />
a 03 =|C 0 ∩R 3 |<br />
a 13 =|C 1 ∩R 3 |<br />
a 23 =|C 2 ∩R 3 |<br />
a 33 =|C 3 ∩R 3 |<br />
Fig. 2.4 Ejemplo <strong>de</strong> construcción <strong>de</strong> la matriz <strong>de</strong> confusión<br />
Lago (C 0 )<br />
Carretera (C 1 )<br />
Árboles (C 2 )<br />
Suelo (C 3 )<br />
A partir <strong>de</strong> la matriz <strong>de</strong> confusión pue<strong>de</strong>n <strong>de</strong>rivarse algunas medidas <strong>de</strong><br />
precisión genéricas [26], [27], como el porcentaje <strong>de</strong> acierto global (tanto por ciento<br />
<strong>de</strong> píxeles clasificados <strong>de</strong> forma correcta en todas las clases) y el porcentaje <strong>de</strong> fallo<br />
global (tanto por ciento <strong>de</strong> píxeles clasificados <strong>de</strong> forma incorrecta).<br />
Las métricas más comúnmente utilizadas en la clasificación <strong>de</strong> imágenes<br />
hiperespectrales son overall (OA) y average (AVE). Dón<strong>de</strong> OA indica el acierto total,<br />
18
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
es <strong>de</strong>cir, el número <strong>de</strong> píxeles bien clasificados y AVE indica la media <strong>de</strong> acierto. Y<br />
se calculan <strong>de</strong> la siguiente forma, dado una verdad terreno, con P clases C1,…, Cp y<br />
un espectro <strong>de</strong> datos <strong>de</strong> ni puntos <strong>de</strong> test para las clases. Clasificamos todos los puntos<br />
<strong>de</strong> test en alguna <strong>de</strong> las clases por el método <strong>de</strong> clasificación empleado.<br />
Representando el termino aij el número <strong>de</strong> ejemplos <strong>de</strong> test que actualmente<br />
pertenecen a la clase Ci y han sido clasificados en la clase Cj, para i, j = 1,…P. La<br />
suma total <strong>de</strong> la fila es igual al número <strong>de</strong> ejemplos <strong>de</strong> la clase Ci, y la columna<br />
representa el número <strong>de</strong> ejemplos clasificados en Cj. Llamando N al número total <strong>de</strong><br />
ejemplos. Po<strong>de</strong>mos obtener la fórmula <strong>de</strong> cálculo <strong>de</strong> OA y AVE:<br />
2.4 Conceptos básicos sobre re<strong>de</strong>s <strong>neuronales</strong><br />
Las re<strong>de</strong>s <strong>neuronales</strong> artificiales (Artificial eural etworks) son sistemas para<br />
el procesamiento <strong>de</strong> la información, inspirados en el modo en que las re<strong>de</strong>s <strong>de</strong><br />
neuronas biológicas <strong>de</strong>l cerebro procesan esta. Por lo tanto las re<strong>de</strong>s <strong>neuronales</strong> son<br />
un entramado o una estructura formada por muchos nodos <strong>de</strong> procesamiento simples<br />
llamados nodos o neuronas, conectados por medio <strong>de</strong> canales <strong>de</strong> comunicación o<br />
conexiones, cuya finalidad es transformar las entradas externas.<br />
Las re<strong>de</strong>s <strong>neuronales</strong> son el ejemplo artificial que más se acerca a la capacidad<br />
<strong>de</strong> po<strong>de</strong>r adquirir conocimiento a partir <strong>de</strong> la experiencia. Presentan un gran número<br />
<strong>de</strong> características semejantes a las <strong>de</strong>l cerebro. Son capaces <strong>de</strong> apren<strong>de</strong>r <strong>de</strong> la<br />
experiencia, <strong>de</strong> generalizar <strong>de</strong> casos anteriores a nuevos casos, <strong>de</strong> extraer<br />
características esenciales a partir <strong>de</strong> entradas que representan información irrelevante.<br />
Todo ello lo hacen gracias a las neuronas que son estimuladas a través <strong>de</strong> sus<br />
entradas, y pue<strong>de</strong>n llegar a dispararse cuando lleguen a un cierto valor, <strong>de</strong>nominado<br />
umbral, <strong>de</strong> forma que la señal pasa a la salida. Estas transformaciones <strong>de</strong> la señal <strong>de</strong><br />
entrada se hacen por medio <strong>de</strong> <strong>diferentes</strong> funciones, que presentamos a continuación:<br />
• Entrada: cada neurona <strong>de</strong> entrada obtendrá un <strong>de</strong>terminado valor llamado<br />
entrada neta a partir <strong>de</strong> la pon<strong>de</strong>ración <strong>de</strong> todas las conexiones <strong>de</strong> entrada i x<br />
mediante sus pesos <strong>de</strong> entrada correspondientes w i . El cálculo <strong>de</strong> dicha entrada neta<br />
en la capa <strong>de</strong> entrada se muestra en la ecuación 2.1.<br />
19
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
et = w x ) + ( w x ) + ... + ( w x )<br />
(2.1)<br />
i<br />
( i1<br />
1 i2<br />
2<br />
in n<br />
• Función <strong>de</strong> activación: Tanto las neuronas artificiales cómo las neuronas<br />
biológicas pue<strong>de</strong>n tener dos estados <strong>de</strong> activación, pue<strong>de</strong>n estar: activas e inactivas,<br />
también <strong>de</strong>nominado: estado <strong>de</strong> activación. Aplicando la función <strong>de</strong> activación se<br />
calcula ese valor <strong>de</strong> activación a partir <strong>de</strong>l valor obtenido en la entrada neta. Se<br />
pue<strong>de</strong>n <strong>de</strong>finir <strong>diferentes</strong> tipos <strong>de</strong> funciones <strong>de</strong> activación, <strong>de</strong>finiendo así <strong>diferentes</strong><br />
salidas sobre las neuronas en función <strong>de</strong>l nivel <strong>de</strong> activación <strong>de</strong> sus entradas:<br />
o Función <strong>de</strong> activación lineal:<br />
a = f ( et ) = et<br />
(2.2)<br />
i<br />
o Función <strong>de</strong> activación sigmoi<strong>de</strong>:<br />
1<br />
a f ( eti<br />
) = −<br />
1+<br />
e<br />
i<br />
= (2.3)<br />
( eti<br />
)<br />
o Función <strong>de</strong> activación tangente hiperbólica:<br />
1−<br />
e<br />
a f ( eti<br />
) = −<br />
1+<br />
e<br />
( −eti<br />
)<br />
= (2.4)<br />
( eti<br />
)<br />
También po<strong>de</strong>mos encontrar re<strong>de</strong>s, dón<strong>de</strong> las neuronas utilicen otra función <strong>de</strong><br />
activación, como suce<strong>de</strong> en las re<strong>de</strong>s <strong>de</strong> base radial [28].<br />
Función <strong>de</strong> salida: una vez calculada la activación <strong>de</strong> cada neurona, se pue<strong>de</strong><br />
<strong>de</strong>terminar el valor <strong>de</strong> la salida aplicando una función f a la activación, obteniendo el<br />
estado final <strong>de</strong> la neurona.<br />
x = f (a)<br />
(2.5)<br />
20
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Fig. 2.5 Esquema <strong>de</strong> una neurona artificial<br />
2.5 Clasificación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong><br />
El siguiente apartado se estructura <strong>de</strong> la siguiente manera. E primer lugar, se<br />
presentará una breve categorización <strong>de</strong> las <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong><br />
atendiendo a tres aspectos fundamentales: su topología, las características <strong>de</strong> sus<br />
nodos y sus mecanismos <strong>de</strong> aprendizaje. A continuación se resumirá <strong>de</strong> forma concisa<br />
el estado <strong>de</strong>l arte en lo relativo a la aplicación <strong>de</strong> técnicas <strong>de</strong> computación neuronal<br />
en el ámbito <strong>de</strong>l análisis hiperespectral, tratando <strong>de</strong> justificar la elección <strong>de</strong> las<br />
técnicas utilizadas en el ámbito <strong>de</strong>l presente documento.<br />
2.5.1 Categorización:<br />
clave [29]:<br />
Una arquitectura neuronal pue<strong>de</strong> ser caracterizada por una serie <strong>de</strong> propieda<strong>de</strong>s<br />
• Topología <strong>de</strong> la red: también conocido como el mo<strong>de</strong>lo <strong>de</strong> interconexión<br />
entre los <strong>diferentes</strong> nodos que componen la arquitectura neuronal. Lo más<br />
general es encontrar <strong>arquitecturas</strong> organizadas en capas, pudiendo así<br />
encontrar <strong>arquitecturas</strong> monocapa y <strong>arquitecturas</strong> multicapa. En cuanto a las<br />
21
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
conexiones <strong>de</strong> las neuronas presentes en dichas capas, lo más común es que<br />
interconecten nodos <strong>de</strong> <strong>diferentes</strong> capas, <strong>de</strong> manera que la información fluya<br />
<strong>de</strong>s<strong>de</strong> la capa <strong>de</strong> entrada hasta la capa <strong>de</strong> salida (<strong>arquitecturas</strong> feedforward o<br />
<strong>de</strong> alimentación hacia <strong>de</strong>lante). Sin embargo, también po<strong>de</strong>mos encontrar<br />
<strong>arquitecturas</strong> con conexiones laterales (conexiones entre nodos <strong>de</strong> una misma<br />
capa), dando lugar a las conocidas como <strong>arquitecturas</strong> <strong>neuronales</strong> recurrentes<br />
[30], <strong>arquitecturas</strong> con conexiones auto-recurrentes (en las que la salida <strong>de</strong><br />
una neurona sirve como entrada <strong>de</strong> esa misma neurona) y con conexiones<br />
hacia atrás o feedback en las que la salida <strong>de</strong> una neurona <strong>de</strong> un <strong>de</strong>terminado<br />
nivel se conecta con neuronas <strong>de</strong> niveles prece<strong>de</strong>ntes.<br />
• Características <strong>de</strong> los nodos: consistentes básicamente en la forma <strong>de</strong><br />
calcular las entradas netas, activaciones y salidas <strong>de</strong> cada una <strong>de</strong> las neuronas<br />
<strong>de</strong> la arquitectura neuronal.<br />
• Mecanismo <strong>de</strong> aprendizaje: que es el proceso por el cual una red neuronal<br />
artificial modifica sus pesos en respuesta a una información <strong>de</strong> entrada,<br />
pudiendo distinguir entre <strong>arquitecturas</strong> <strong>neuronales</strong> supervisadas y no<br />
supervisadas [31]:<br />
• Arquitecturas supervisadas: los mo<strong>de</strong>los supervisados asumen la<br />
disponibilidad <strong>de</strong> información a priori sobre un <strong>de</strong>terminado conjunto <strong>de</strong><br />
patrones <strong>de</strong> entrenamiento [32]. Así pues, al mismo tiempo que se le<br />
suministran las entradas al sistema neuronal (estímulo <strong>de</strong> entrada) se<br />
incluyen también las salidas <strong>de</strong>seadas que la red <strong>de</strong>be producir (respuesta<br />
<strong>de</strong>seada). A partir <strong>de</strong> esta información formada por pares entrada/salida<br />
<strong>de</strong>seada, la red ajustará su conjunto <strong>de</strong> pesos basándose en alguno <strong>de</strong> los<br />
algoritmos <strong>de</strong> aprendizaje disponibles, entre los cuales <strong>de</strong>stacan los<br />
siguientes:<br />
a. Aprendizaje por correccción <strong>de</strong>l error, en el que el ajuste <strong>de</strong> los<br />
pesos se realiza en función <strong>de</strong> la diferencia entre la salida <strong>de</strong>seada<br />
y la salida obtenida por la red, bien atendiendo al error individual<br />
en cada nodo, o bien atendiendo al error global.<br />
22
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
b. Aprendizaje por refuerzo, en el que se aplica una función <strong>de</strong><br />
refuerzo en el caso <strong>de</strong> que la salida <strong>de</strong> la red se ajuste <strong>de</strong> forma<br />
a<strong>de</strong>cuada a la salida <strong>de</strong>seada (i.e.: éxito = +1, fracaso = -1).<br />
c. Aprendizaje estocástico, consistente en la realización <strong>de</strong> cambios<br />
aleatorios en los pesos y en la evaluación <strong>de</strong> su efecto a partir <strong>de</strong>l<br />
objetivo <strong>de</strong>seado y <strong>de</strong> distribuciones <strong>de</strong> probabilidad (mediante el<br />
uso <strong>de</strong> funciones <strong>de</strong> energía como representantes <strong>de</strong> la estabilidad<br />
<strong>de</strong> la red).<br />
• Arquitecturas no supervisadas: los mo<strong>de</strong>los <strong>neuronales</strong> no supervisados<br />
realizan la clasificación <strong>de</strong> los datos <strong>de</strong> entrada sin necesidad <strong>de</strong><br />
incorporar información sobre la salida <strong>de</strong>seada [30]. En este tipo <strong>de</strong><br />
<strong>arquitecturas</strong>, es la propia red la que <strong>de</strong>be encontrar por si misma la<br />
regularidad presente en los datos <strong>de</strong> entrada y agruparlos en consecuencia.<br />
La salida <strong>de</strong> la red pue<strong>de</strong> representar tanto el grado <strong>de</strong> familiaridad o<br />
similitud entre la información presentada, como el establecimiento <strong>de</strong><br />
categorías a partir <strong>de</strong> correlaciones entre los <strong>diferentes</strong> patrones <strong>de</strong><br />
entrada. Este tipo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> también pue<strong>de</strong> utilizar<br />
<strong>diferentes</strong> tipos <strong>de</strong> aprendizajes no supervisados, entre los que <strong>de</strong>stacamos<br />
los siguientes:<br />
a. Aprendizaje hebbiano, que realiza el ajuste en base a la correlación<br />
<strong>de</strong> los valores <strong>de</strong> activación (salidas) <strong>de</strong> las neuronas<br />
interconectadas.<br />
b. Aprendizaje competitivo, don<strong>de</strong> las neuronas compiten unas contra<br />
otras por activarse. Ante una información <strong>de</strong> entrada solo una <strong>de</strong><br />
las neuronas <strong>de</strong> salida <strong>de</strong> la red (o un cierto grupo <strong>de</strong> éllas) se<br />
activan (o alcanzan su valor máximo).<br />
2.5.2 Computación neuronal en análisis hiperespectral<br />
En los últimos años, se han <strong>de</strong>sarrollado <strong>diferentes</strong> técnicas que hacen uso <strong>de</strong><br />
<strong>arquitecturas</strong> <strong>neuronales</strong> para la resolución <strong>de</strong> problemas relacionados con el análisis<br />
hiperespectral [33], [34], [35], [36]. La resolución <strong>de</strong> problemas <strong>de</strong> clasificación y<br />
regresión en espacios multidimensionales pue<strong>de</strong> abordarse mediante el uso <strong>de</strong><br />
23
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
<strong>de</strong>terminadas <strong>arquitecturas</strong> <strong>neuronales</strong> [32]. Dentro <strong>de</strong>l ámbito <strong>de</strong>l análisis<br />
hiperespectral, po<strong>de</strong>mos categorizar las <strong>arquitecturas</strong> <strong>neuronales</strong> utilizadas hasta la<br />
fecha atendiendo al hecho <strong>de</strong> si su mecanismo <strong>de</strong> aprendizaje es supervisado o no<br />
supervisado.<br />
2.5.2.1 Arquitecturas no supervisadas:<br />
Dentro <strong>de</strong>l grupo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> no supervisadas aplicadas al<br />
análisis hiperespectral, po<strong>de</strong>mos <strong>de</strong>stacar fundamentalmente la aplicación <strong>de</strong> los<br />
mo<strong>de</strong>los <strong>de</strong> red auto-organizativos o self-organizing maps (SOM’s) sobre problemas<br />
<strong>de</strong> clasificación no supervisada <strong>de</strong> imágenes hiperespectrales [37], [38]. Este tipo <strong>de</strong><br />
<strong>arquitecturas</strong> (re<strong>de</strong>s <strong>de</strong> Kohonen) se basan en un proceso <strong>de</strong> aprendizaje no<br />
supervisado, competitivo, en el que cada neurona compite con el resto por activarse<br />
[39], [40]<br />
También po<strong>de</strong>mos <strong>de</strong>stacar la aplicación <strong>de</strong> <strong>arquitecturas</strong> recurrentes con<br />
conexiones recurrentes (conexiones entre neuronas <strong>de</strong> la misma capa) sobre datos<br />
hiperespectrales, como las <strong>arquitecturas</strong> basadas en el mo<strong>de</strong>lo <strong>de</strong> Hopfield [41] que se<br />
han aplicado con éxito a la resolución <strong>de</strong>l problema lineal <strong>de</strong> mezcla, permitiendo<br />
minimizar el error cuadrático <strong>de</strong> la estimación <strong>de</strong> las abundancias para un píxel a<br />
partir <strong>de</strong> un <strong>de</strong>terminado conjunto <strong>de</strong> espectros representativos o puros [30].<br />
Dentro <strong>de</strong>l conjunto <strong>de</strong> aquitecturas <strong>neuronales</strong> no supervisadas utilizadas en<br />
análisis hiperespectral también po<strong>de</strong>mos incluir las <strong>arquitecturas</strong> basadas en la teoría<br />
<strong>de</strong> resonancia adaptativa o adaptive resonante theory (ART) que emplean algoritmos<br />
<strong>de</strong> aprendizaje competitivos centrados en conceptos <strong>de</strong> lógica difusa [42], [43].<br />
2.5.2.2 Arquitecturas supervisadas:<br />
Las primeras <strong>arquitecturas</strong> <strong>de</strong> red neuronal supervisadas aplicadas a problemas<br />
<strong>de</strong> datos obtenidos <strong>de</strong> forma remota se basaron en la arquitectura <strong>de</strong>nominada<br />
perceptrón multicapa o multi-layer perceptron (MLP) [44], [45]. Este tipo <strong>de</strong><br />
<strong>arquitecturas</strong>, que son las <strong>arquitecturas</strong> <strong>neuronales</strong> supervisadas más ampliamente<br />
24
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
utilizadas en el ámbito <strong>de</strong>l análisis hiperespectral, constan <strong>de</strong> una capa <strong>de</strong> entrada, una<br />
(o varias) capas <strong>de</strong> neuronas ocultas y una capa <strong>de</strong> salida. Cada nodo o neurona<br />
procesa la información <strong>de</strong> entrada a traves <strong>de</strong> conexiones pon<strong>de</strong>radas a los elementos<br />
<strong>de</strong> la siguiente capa, por lo que se dice que se propagan la salida hacia <strong>de</strong>lante<br />
(alimentación feedforward). Este tipo <strong>de</strong> re<strong>de</strong>s proporcionan un marco excepcional<br />
para mapear una serie <strong>de</strong> entradas a una serie <strong>de</strong> salidas que siguen una función no<br />
lineal [32]. Esto se consigue mediante la inclusión <strong>de</strong> funciones <strong>de</strong> activación no<br />
lineales en los nodos <strong>de</strong> la capa oculta y/o en la capa <strong>de</strong> salida. La función <strong>de</strong><br />
activación más comúnmente utilizada sobre este tipo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> es la<br />
función sigmoi<strong>de</strong>. Como hemos comentado, son <strong>arquitecturas</strong> multicapa,<br />
feedforward, y suelen basar su aprendizaje en el algoritmo <strong>de</strong> propagación <strong>de</strong>l error<br />
hacia atrás (backpropagation). Se pue<strong>de</strong> resumir el algoritmo <strong>de</strong> propagación hacia<br />
atrás en la aplicación <strong>de</strong> un ciclo <strong>de</strong> propagación-adaptación <strong>de</strong> 3 fases:<br />
1.- Propagación hacia <strong>de</strong>lante. Se aplica un patrón <strong>de</strong> entrada como estímulo<br />
para la primera capa <strong>de</strong> neuronas <strong>de</strong> la red. El estímulo se propaga a través <strong>de</strong><br />
todas las capas intermedias (ocultas) hasta generar una salida. En el siguiente<br />
paso se compara la salida obtenida en los nodos o neuronas <strong>de</strong> salida con la<br />
salida <strong>de</strong>seada (salida objetivo <strong>de</strong> la red para dicho patrón o estímulo), y se<br />
calcula un término <strong>de</strong> error para cada neurona <strong>de</strong> salida como el promedio <strong>de</strong><br />
los cuadrados <strong>de</strong> los errores cometidos para cada uno <strong>de</strong> los patrones.<br />
2.- Retropropagación <strong>de</strong>l error. Los errores obtenidos en la etapa anterior se<br />
propagan hacia atrás, partiendo <strong>de</strong> la capa <strong>de</strong> salida, <strong>de</strong> forma que cada neurona<br />
recibe un porcentaje <strong>de</strong> error correspondiente a su contribución a la salida <strong>de</strong> la<br />
red.<br />
3.- Adaptación <strong>de</strong> pesos. Los pesos <strong>de</strong> la red se modifican <strong>de</strong> acuerdo a los<br />
errores calculados y retropropagados.<br />
Básicamente, este proceso <strong>de</strong> aprendizaje se basa en la búsqueda <strong>de</strong>l mínimo <strong>de</strong><br />
la función <strong>de</strong>l error (promedio <strong>de</strong> los cuadrados <strong>de</strong> los errores) a mediante la técnica<br />
<strong>de</strong>l <strong>de</strong>scenso <strong>de</strong>l gradiente [46].<br />
25
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Para la realización <strong>de</strong> las pruebas presentadas en esta memoria, hemos seleccionado<br />
como red neuronal no supervisada el mo<strong>de</strong>lo auto-organizativo <strong>de</strong> Kohonen (SOM) y<br />
como arquitectura supervisada el perceptron multi-capa (MLP). Estos dos mo<strong>de</strong>los<br />
<strong>neuronales</strong> son los más ampliamente utilizados en la bibliografía revisada, han sido<br />
aplicados <strong>de</strong> forma exitosa en el ámbito <strong>de</strong>l reconocimiento <strong>de</strong> patrones [32] y han<br />
sido seleccionados basándonos en trabajos previos realizados en el ámbito <strong>de</strong>l Grupo<br />
<strong>de</strong> Re<strong>de</strong>s Neuronales y Procesamiento <strong>de</strong> Señales (GRNPS) <strong>de</strong> la Universidad <strong>de</strong><br />
Extremadura [30], [38], [46].<br />
2.6 Técnicas utilizadas<br />
En este apartado presentamos los cuatro algoritmos <strong>de</strong> clasificación utilizados<br />
durante los experimentos que se <strong>de</strong>scriben en la presente memoria. Dichos algoritmos<br />
son: algoritmo <strong>de</strong> máxima verosimilitud o Maximum Likelihood (ML), máquinas <strong>de</strong><br />
vectores soporte o Support Vector Machines (SVM), mapas auto-organizativos o Self<br />
Organizing Maps (SOM) y perceptron multi-capa o Multi-Layer Perceptron (MLP).<br />
Como se pue<strong>de</strong> apreciar, las técnicas seleccionadas son clasificadores ampliamente<br />
utilizados en la literatura.<br />
2.6.1 Maximum Likelihood (Máxima probabilidad)<br />
El algoritmo Maximum Likelihood (ML) es clasificador lineal que asume que<br />
las estadísticas para cada clase en cada banda <strong>de</strong> la imagen hiperespectral siguen una<br />
distribución normal [47].<br />
El clasificador Maximum Likelihood (ML) es una <strong>de</strong> las técnicas supervisadas<br />
más ampliamente utilizadas en análisis <strong>de</strong> imágenes obtenidas <strong>de</strong> forma remota [48].<br />
Es preciso <strong>de</strong>stacar que ML no se trata <strong>de</strong> un clasificador neuronal, sino <strong>de</strong> un método<br />
estándar <strong>de</strong> clasificación que se ha utilizado como referencia para las comparativas<br />
realizadas dada su amplia utilización en el problema que nos ocupa. El clasificador<br />
ML es una técnica supervisada que se basa en la estimación <strong>de</strong>l vector promedio y <strong>de</strong><br />
la matriz <strong>de</strong> covarianza para cada clase a partir <strong>de</strong> los patrones <strong>de</strong> entrenamiento<br />
disponibles para la misma. La expresión empleada por este clasificador para medir la<br />
probabilidad <strong>de</strong> pertenencia <strong>de</strong> un píxel (vector), <strong>de</strong>notado como x , con respecto a<br />
26
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
una <strong>de</strong>terminada clase, <strong>de</strong>notada como C i , siendo i = 1,<br />
2, . .. , M , don<strong>de</strong> M <strong>de</strong>nota el<br />
número total <strong>de</strong> clases, es la siguiente [49]:<br />
1 1<br />
1<br />
i<br />
i i<br />
T −<br />
( x) = − ln − ( x - m ) ( x - )<br />
Σ<br />
Σ<br />
g m<br />
2 2<br />
don<strong>de</strong> Σi es la matriz <strong>de</strong> covarianza para la clase i<br />
i<br />
C y m i es el vector<br />
promedio para dicha clase. Como pue<strong>de</strong> apreciarse, el clasificador está basado en el<br />
cálculo <strong>de</strong> la probabilidad <strong>de</strong> que un <strong>de</strong>terminado píxel pertenezca a una clase dada, y<br />
utiliza la matriz <strong>de</strong> covarianza, Σi , y el vector promedio <strong>de</strong> la clase, m i , estimados<br />
ambos utilizando los patrones <strong>de</strong> entrenamiento seleccionados para dicha clase, para<br />
asignar el píxel x a la clase para la cual posee mayor probabilidad <strong>de</strong> pertenencia. Es<br />
importante <strong>de</strong>stacar que, para po<strong>de</strong>r calcular la matriz <strong>de</strong> covarianza en una<br />
<strong>de</strong>terminada clase C i , es preciso disponer <strong>de</strong> suficientes patrones <strong>de</strong> entrenamiento<br />
(el número <strong>de</strong> patrones <strong>de</strong> entrenamiento necesarios <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la dimensionalidad o<br />
número <strong>de</strong> bandas <strong>de</strong> los mismos). En caso contrario, no será posible entrenar al<br />
clasificador si el número <strong>de</strong> patrones <strong>de</strong> entrenamiento utilizados para una<br />
<strong>de</strong>terminada clase es muy reducido [50]. Este aspecto pue<strong>de</strong> afectar <strong>de</strong> forma<br />
negativa al clasificador ML, y será estudiado en <strong>de</strong>talle a la hora <strong>de</strong> evaluar el<br />
rendimiento <strong>de</strong>l mismo en comparación con el resto <strong>de</strong> clasificadores <strong>de</strong>scritos en el<br />
presente trabajo.<br />
Como hemos visto este clasificador asigna a cada píxel <strong>de</strong>sconocido a una clase<br />
<strong>de</strong> acuerdo a un criterio Gaussiano <strong>de</strong> probabilidad. Cuando los datos son linealmente<br />
separables es sencillo obtener una fórmula <strong>de</strong> optimización <strong>de</strong> la probabilidad, pero<br />
cuando no lo son, como suele ocurrir normalmente, la estimación ML <strong>de</strong>be buscar los<br />
valores usando algoritmos <strong>de</strong> optimización no lineal. La i<strong>de</strong>a básica <strong>de</strong> la optimación<br />
no lineal es encontrar rápidamente los parámetros óptimos que maximizan la función<br />
<strong>de</strong> probabilidad. Esto se hace mediante una búsqueda en subconjuntos <strong>de</strong>l espacio <strong>de</strong>l<br />
espacio <strong>de</strong> parámetros multidimensionales, siendo una búsqueda más exhaustiva que<br />
buscando en el espacio entero, lo cual llega a ser intratable cuando el número <strong>de</strong><br />
parámetros aumenta [51].<br />
Este proceso <strong>de</strong> búsqueda “inteligente” empieza con ensayo. En concreto, en<br />
cada iteración, teniendo en cuenta los resultados <strong>de</strong> la iteración anterior, se obtiene un<br />
nuevo conjunto <strong>de</strong> valores <strong>de</strong> los parámetros añadiendo pequeños cambios <strong>de</strong> forma<br />
que los nuevos parámetros pue<strong>de</strong>n dar mejores resultados. Los <strong>diferentes</strong> algoritmos<br />
27
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
<strong>de</strong> optimización difieren en como se actualizan. El proceso iterativo continúa hasta<br />
que se consi<strong>de</strong>ra que los parámetros convergen. Algunos ejemplos <strong>de</strong> criterios <strong>de</strong><br />
parada incluyen un número máximo <strong>de</strong> iteraciones permitido o el cambio mínimo<br />
sobre los valores <strong>de</strong> los parámetros entre dos iteraciones sucesivas.<br />
2.6.2 SVM (Support Vector Machine)<br />
Son un conjunto <strong>de</strong> algoritmos <strong>de</strong>sarrollados recientemente por Vladimir<br />
Vapnik y su equipo en los laboratorios AT&T. Pertenecen a la familia <strong>de</strong> los<br />
clasificadores lineales puesto que inducen separadores lineales o hiperplanos en<br />
espacios <strong>de</strong> características <strong>de</strong> muy alta dimensionalidad. [52], a pesar <strong>de</strong> que se<br />
pue<strong>de</strong>n adaptar <strong>de</strong> forma sencilla para actuar como clasificadores no lineales<br />
mediante la aplicación <strong>de</strong> una función o kernel no lineal sobre los datos <strong>de</strong> entrada.<br />
Inicialmente se usaron para problemas <strong>de</strong> clasificación binaria, pero <strong>de</strong>spués se<br />
ha extendido su uso a problemas <strong>de</strong> regresión, agrupamiento, clasificación multiclase,<br />
regresión ordinal, y se está trabajando en la búsqueda <strong>de</strong> resolver problemas más<br />
complejos (árboles y grafos). Algunas aplicaciones <strong>de</strong> las SVM para los casos <strong>de</strong><br />
reconocimiento <strong>de</strong> patrones han sido reconocimiento <strong>de</strong> caracteres [52],<br />
reconocimiento <strong>de</strong> objetos [53], reconocimiento <strong>de</strong> voz [54], etc.<br />
Su principal objetivo es obtener una superficie (o hiperplano) capaz <strong>de</strong> separar<br />
las <strong>diferentes</strong> clases en las que se pue<strong>de</strong> agrupar una distribución <strong>de</strong> datos en un<br />
espacio N-dimensional, utilizando para ello un proceso <strong>de</strong> optimización basado en la<br />
obtención <strong>de</strong> vectores que <strong>de</strong>finen los límites <strong>de</strong> las clases. Estos vectores se<br />
<strong>de</strong>nominan normalmente vectores soporte o support vectors [52].<br />
Si vemos los datos <strong>de</strong> entrada como dos conjuntos <strong>de</strong> vectores en un espacio N-<br />
dimensional, el objetivo <strong>de</strong>l algoritmo SVM simplemente es construir un hiperplano<br />
<strong>de</strong> separación en ese espacio, el cual maximice el margen <strong>de</strong> distancia a los dos<br />
conjuntos <strong>de</strong> datos [55].<br />
28
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Fig. 2.6 Esquema <strong>de</strong> funcionamiento SVM<br />
En la Fig.2.6 po<strong>de</strong>mos apreciar como calcular este hiperplano <strong>de</strong> separación,<br />
construyendo otros dos hiperplanos paralelos, uno a cada lado <strong>de</strong>l primero. Los dos<br />
hiperplanos paralelos son empujados, para aproximarse lo más posible a los conjuntos<br />
<strong>de</strong> datos. Intuitivamente, se alcanza una buena separación cuando el hiperplano <strong>de</strong><br />
separación se encuentra a la mayor distancia <strong>de</strong> ambas clases [52]. Cuanto mayor sea<br />
la distancia mejor será en general el error <strong>de</strong>l clasificador.<br />
2.15:<br />
En términos matemáticos, dado un conjunto <strong>de</strong> entrenamiento <strong>de</strong> la ecuación<br />
Don<strong>de</strong> ci es 1 ó −1, indicando la clase a la que el punto pertenece. Cada<br />
29<br />
(2.15)<br />
es un vector real p-dimensional, queremos obtener un hiperplano <strong>de</strong> distancia máxima<br />
a los conjuntos <strong>de</strong> entrenamiento y que los divida aquellos pertenecientes a ci = 1 <strong>de</strong><br />
aquellos que tengan el valor ci = − 1. Cualquier hiperplano pue<strong>de</strong> ser escrito como un<br />
conjunto <strong>de</strong> puntos que satisfaga la ecuación 2.16<br />
El vector W es un vector normal perpendicular al hiperplano. El parámetro<br />
<strong>de</strong>termina el <strong>de</strong>splazamiento <strong>de</strong>l hiperplano sobre el origen.<br />
(2.16)
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Nosotros queremos elegir la W y la b que maximicen la distancia entre los dos<br />
hiperplanos paralelos, que estarán tan apartados como sea posible en función <strong>de</strong> los<br />
datos. Estos hiperplanos pue<strong>de</strong>n ser <strong>de</strong>scritos con las fórmulas ecuación 2.17 y<br />
ecuación 2.18.<br />
30<br />
(2.17)<br />
y .(2.18)<br />
Nótese que si el conjunto <strong>de</strong> entrenamiento es linealmente separable po<strong>de</strong>mos<br />
elegir dos hiperplanos en el bor<strong>de</strong> <strong>de</strong> los conjuntos <strong>de</strong> modo que no hay puntos entre<br />
ellos y entonces intentar maximizar su distancia. Usando la geometría, po<strong>de</strong>mos<br />
encontrar que la distancia entre ellos es , por lo que se preten<strong>de</strong> minimizar .<br />
Como tenemos que evitar que los puntos caigan en la zona límite, añadimos la<br />
restricción <strong>de</strong> la ecuación 2.7 a los pertenecientes a la primera clase y la<br />
restricción <strong>de</strong> la ecuación 2.8 a los <strong>de</strong> la segunda<br />
Esto pue<strong>de</strong> ser escrito como:<br />
Po<strong>de</strong>mos poner esto junto para llegar al problema <strong>de</strong> optimización:<br />
Elegir w, b para minimizar ||w||<br />
(2.19)<br />
(2.20)<br />
(2.21)<br />
(2.22)<br />
El problema <strong>de</strong> optimización presentado anteriormente es difícil <strong>de</strong>bido a que<br />
solo <strong>de</strong>pen<strong>de</strong> <strong>de</strong> un valor |w|. La razón es que es un problema <strong>de</strong> optimización no<br />
convexo, el cual se sabe que es mucho más difícil <strong>de</strong> resolver que el problema <strong>de</strong><br />
optimización convexo. Afortunadamente es posible sustituir ||w|| por sin<br />
cambiar la solución. Esto es un problema <strong>de</strong> optimización <strong>de</strong> programación<br />
cuadrática. Más claramente,<br />
minimizar , sujeto a .<br />
El factor 1/2 se usa como una conveniencia matemática. Ahora el problema que<br />
se nos presenta se pue<strong>de</strong> resolver mediante programas y técnicas <strong>de</strong> programación<br />
cuadrática estándar.
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Escribiendo la regla <strong>de</strong> clasificación en su forma dual extendida revela que la<br />
distancia máxima al hiperplano, y por tanto la tarea <strong>de</strong> clasificación, es solo una<br />
función <strong>de</strong> los vectores soporte, es <strong>de</strong>cir, los datos que están en el límite. La segunda<br />
forma <strong>de</strong> SVM se pue<strong>de</strong> ver en la fórmula (2.23):<br />
31<br />
(2.23)<br />
Sujeto a , y (2.24)<br />
Don<strong>de</strong> los términos α constituyen otra representación <strong>de</strong>l vector <strong>de</strong> pesos en<br />
términos <strong>de</strong>l conjunto <strong>de</strong> entrenamiento:<br />
(2.25)<br />
El algoritmo original especifica un clasificador lineal, sin embargo, pue<strong>de</strong><br />
modificarse para resolver problemas <strong>de</strong> clasificación no lineal reemplazando el<br />
producto escalar por una función kernel no lineal. Esto permite al algoritmo fijar la<br />
máxima distancia al hiperplano en un espacio <strong>de</strong> características transformado. La<br />
transformación podría ser no lineal y el espacio transformado <strong>de</strong> alta<br />
dimensionalidad; <strong>de</strong> este modo aunque el clasificador es un hiperplano en un espacio<br />
<strong>de</strong> características <strong>de</strong> alta dimensionalidad podría no ser lineal en el espacio <strong>de</strong> entrada<br />
original [56].<br />
Si el kernel utilizado es Gaussian radial basis function, el espacio <strong>de</strong><br />
características correspondiente es un espacio <strong>de</strong> Hilbert <strong>de</strong> dimensión infinita. La<br />
máxima distancia esta regulada, por lo que la dimensión infinita no estropeará los<br />
resultados [57]. Algunos kernels habituales incluyen,<br />
• Polynomial (homogéneo):<br />
• Polynomial (heterogéneo):<br />
• Radial Basis Function: , para γ > 0<br />
• Gaussian Radial basis function:
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
• Sigmoid: , para algunos κ > 0 y c < 0<br />
En la literatura, po<strong>de</strong>mos encontrar también ejemplos <strong>de</strong> kernels basados en métricas<br />
espectrales comúnmente utilizadas en análisis hiperespectral [58].<br />
El procesamiento empleado por las SVM no requiere <strong>de</strong> un gran número <strong>de</strong> patrones<br />
<strong>de</strong> entrenamiento, siempre y cuando los patrones escogidos sean realmente<br />
representativos. De esta forma, el rendimiento <strong>de</strong>l método no se ve muy afectado por<br />
la disponibilidad <strong>de</strong> un número limitado <strong>de</strong> patrones <strong>de</strong> entrenamiento [59].<br />
2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP)<br />
Como hemos mencionado en apartados anteriores, este clasificador es el<br />
exponente más típico en las re<strong>de</strong>s <strong>neuronales</strong> artificiales con aprendizaje supervisado.<br />
Formado por múltiples capas, como su propio nombre indica, esto le permite resolver<br />
problemas que no son linealmente separables, lo cual es la principal limitación <strong>de</strong>l<br />
perceptrón simple.<br />
Este método <strong>de</strong> aprendizaje <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> artificiales fue <strong>de</strong>scrito por Paul<br />
Werbos en 1974, pero no fue hasta 1986, a través <strong>de</strong>l trabajo <strong>de</strong> David E.Rumelhart,<br />
Geoffrey E. Hinton y Ronald J Williams, cuando obtuvieron el reconocimiento y dio<br />
lugar a un giro importante en el campo <strong>de</strong> investigación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong><br />
artificiales.<br />
El entrenamiento se basa en la presentación sucesiva y <strong>de</strong> forma reiterada, <strong>de</strong><br />
pares <strong>de</strong> vectores en las capas <strong>de</strong> entrada y salida. La red crea un mo<strong>de</strong>lo a base <strong>de</strong><br />
ajustar sus pesos en función <strong>de</strong> los vectores <strong>de</strong> entrenamiento, <strong>de</strong> forma que a medida<br />
que se pasan estos patrones, para cada vector <strong>de</strong> entrada la red producirá un valor <strong>de</strong><br />
salida más similar al vector <strong>de</strong> salida esperado. El esquema mostrado en la Fig. 2.7<br />
presenta una red neuronal <strong>de</strong> tipo feed-forward (propagación hacia <strong>de</strong>lante).<br />
32
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
1 2 3<br />
1 2 • • • L<br />
1 2 3<br />
• • •<br />
• • •<br />
M<br />
N<br />
Fig. 2.7 Perceptrón multicapa<br />
Capa <strong>de</strong> salida<br />
Capa oculta<br />
Capa <strong>de</strong> entrada<br />
La Fig. 2.7 muestra la topología <strong>de</strong> un perceptrón multicapa con 3 capas <strong>de</strong> neuronas<br />
(<strong>de</strong> entrada, oculta y <strong>de</strong> salida).<br />
A continuación <strong>de</strong>cribiremos el algoritmo <strong>de</strong> entrenamiento <strong>de</strong> retropropagación o<br />
backpropagation, que es el algoritmo <strong>de</strong> aprendizaje implementado en la versión<br />
utilizada.<br />
Los pasos <strong>de</strong> la fase <strong>de</strong> reconocimiento para una red NxLxM (siendo N la<br />
dimensionalidad <strong>de</strong> los datos <strong>de</strong> entrada, L el número <strong>de</strong> neuronas ocultas y M el<br />
número <strong>de</strong> clases a i<strong>de</strong>ntificar) son los siguientes:<br />
33
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Propagación hacia <strong>de</strong>lante. Inicialmente, se presenta un patrón <strong>de</strong> entrada<br />
[ x , x ,..., x ]<br />
X =<br />
, así como la salida <strong>de</strong>seada para dicho patrón<br />
1<br />
2<br />
N<br />
[ a , a ,..., a ]<br />
A =<br />
. A continuación, se calculan las salidas <strong>de</strong> las neuronas<br />
1<br />
2<br />
M<br />
<strong>de</strong> la capa oculta teniendo en cuenta las neuronas <strong>de</strong> entrada para cada<br />
N<br />
o<br />
neurona i <strong>de</strong> la capa oculta oi = ∑= wij x j + wi0<br />
. Seguidamente, se calculan<br />
j 1<br />
las salidas <strong>de</strong> las neuronas ocultas mediante la función <strong>de</strong> activación<br />
o<br />
consi<strong>de</strong>rada z f ( o )<br />
i<br />
= .<br />
i<br />
Se realizan los mismos cálculos que en el paso anterior para obtener las<br />
s<br />
salidas <strong>de</strong> cada neurona k <strong>de</strong> la capa <strong>de</strong> salida o k = vki<br />
zi<br />
+ vk0<br />
,<br />
k<br />
s ( o )<br />
y = g . Teniendo en cuenta la salida obtenida por la red, así como la salida<br />
k<br />
<strong>de</strong>seada proporcionada al comienzo, se calcula un término <strong>de</strong> error para cada<br />
s<br />
' s<br />
neurona <strong>de</strong> salida mediante la siguiente expresión δ ( − y ) g ( o )<br />
k<br />
L<br />
∑<br />
i=<br />
1<br />
34<br />
= . A<br />
ak k k<br />
continuación, se retropropaga el error hacia atrás, calculando los términos <strong>de</strong><br />
L<br />
o ⎛ ⎞ ' o<br />
error para las neuronas ocultas ⎜ δ f ( o )<br />
δi = ∑ k ki ⎟<br />
⎝ k=<br />
1 ⎠<br />
v . De esta forma, el error<br />
que se produce en una neurona oculta es proporcional a la suma <strong>de</strong> los errores<br />
que se producen en las neuronas a las que está conectada la salida <strong>de</strong> esta.<br />
Finalmente, solo queda actualizar los pesos <strong>de</strong> acuerdo con los términos <strong>de</strong> error<br />
previamente calculados. Comenzamos por los pesos <strong>de</strong> la capa <strong>de</strong> salida, que<br />
calculamos <strong>de</strong> acuerdo con la expresión ki ( ) ki ( ) k pi<br />
i<br />
s<br />
v t + 1 = v t + αδ z y <strong>de</strong>spués<br />
hallamos los pesos <strong>de</strong> la capa oculta <strong>de</strong>l siguiente modo<br />
ij<br />
o<br />
( t + 1)<br />
= wij(<br />
t)<br />
+ αδi<br />
x j<br />
w .<br />
Este proceso se reptite hasta que el término <strong>de</strong>l error (error permitido) resulta lo<br />
suficientemente pequeño para dicho patrón:<br />
M 1<br />
E = ∑ a<br />
2 k=<br />
1<br />
( ) 2<br />
− y<br />
Una vez alcanzada la convergencia <strong>de</strong> la red (el error global está por<br />
<strong>de</strong>bajo <strong>de</strong> un <strong>de</strong>terminado error umbral), se aplica un procedimiento <strong>de</strong> asignación <strong>de</strong><br />
k<br />
k
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
cada patrón a una clase siguiendo un simple proceso <strong>de</strong> winner-take-all, <strong>de</strong> forma que<br />
cada patrón se etiqueta como perteneciente a la clase con mayor porcentaje <strong>de</strong><br />
abundancia obtenido a la salida <strong>de</strong> la red.<br />
2.6.4 Self-Organizing Map (SOM)<br />
Los mapas <strong>de</strong> características autoorganizativo o Self Organizing Feature Maps<br />
(SOM o SOFM), <strong>de</strong>sarrollados por Kohonen son un tipo <strong>de</strong> red neuronal no<br />
supervisada, competitiva, que buscan la transformación <strong>de</strong> un patrón <strong>de</strong> entrada en un<br />
mapa discreto multidimensional <strong>de</strong> forma adaptativa, siguiendo algún criterio <strong>de</strong><br />
or<strong>de</strong>nación topológico.<br />
La red utilizada consta <strong>de</strong> un conjunto <strong>de</strong> N neuronas lineales que reciben<br />
patrones N-dimensionales y un conjunto <strong>de</strong> M neuronas <strong>de</strong> salida que forman una<br />
capa unidimensional <strong>de</strong> tipo competitivo, siendo M el número total <strong>de</strong> clases<br />
existentes en la imagen. Las conexiones entre los nodos <strong>de</strong> entrada y <strong>de</strong> salida están<br />
pon<strong>de</strong>radas (wij, inicializados <strong>de</strong> forma aleatoria al principio <strong>de</strong>l proceso), <strong>de</strong> forma que los<br />
valores correspondientes a una neurona <strong>de</strong> salida i (vector <strong>de</strong> pesos wi), representarán el<br />
prototipo o firma hiperespectral <strong>de</strong> la clase i-ésima (o endmember i-ésimo). A<strong>de</strong>más existen<br />
conexiones laterales entre las M neuronas <strong>de</strong> salida, conexiones que especifican la influencia<br />
<strong>de</strong> la neurona sobre sus vecinas (función <strong>de</strong> vecindad) durante el proceso <strong>de</strong> actualización <strong>de</strong><br />
los pesos.<br />
La Fig. 2.8 muestra una arquitectura sencilla <strong>de</strong> la red SOM, está formada por<br />
dos capas, una capa <strong>de</strong> entrada y otra <strong>de</strong> salida, existen conexiones hacia <strong>de</strong>lante <strong>de</strong> la<br />
capa <strong>de</strong> entrada a la <strong>de</strong> salida y laterales y autorrecurrentes entre las neuronas <strong>de</strong> la<br />
capa <strong>de</strong> salida.<br />
Firmas<br />
espectrales<br />
1<br />
2<br />
<br />
W<br />
(endmembers)<br />
1<br />
2<br />
E<br />
Fig. 2.8 Esquema SOM<br />
35<br />
Imagen<br />
clasificada
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
El proceso <strong>de</strong> entrenamiento utilizado para la red SOM es el siguiente [38]:<br />
1.- Inicialización aleatoria <strong>de</strong> los pesos (wi).<br />
2.- Presentar los patrones <strong>de</strong> entrada a la red uno a uno en la capa <strong>de</strong> entrada<br />
(y(n)) <strong>de</strong>terminando cual es la neurona ganadora <strong>de</strong> acuerdo con la siguiente<br />
expresión:<br />
2<br />
[ y(<br />
n)<br />
] = min y(<br />
n)<br />
−w<br />
( t)<br />
j = 1,<br />
2,<br />
L,<br />
M<br />
*<br />
i j<br />
j<br />
3.- A continuación, actualizar los pesos <strong>de</strong> la red según la siguiente ecuación:<br />
w ( t + 1) = w ( t ) + η ( t ) σ t, i, i x( n) x n − w t<br />
*<br />
2<br />
( [ ] ) ( ) ( )<br />
( )<br />
i i i<br />
*<br />
don<strong>de</strong> η(t) es el parámetro <strong>de</strong> aprendizaje y toma el valor 1/t, y σ ( t,<br />
i,<br />
i [ x(<br />
n)<br />
])<br />
es la función <strong>de</strong> vecindad circular.<br />
Por último, presentamos cada píxel <strong>de</strong> la imagen a la capa <strong>de</strong> entrada,<br />
activándose en cada caso la neurona ganadora representante <strong>de</strong> la clase más<br />
similar al patrón introducido [37].<br />
2.7 Técnicas <strong>de</strong> preprocesado<br />
Algunas pruebas se han hecho <strong>de</strong>spués <strong>de</strong> transformar la imagen original<br />
mediante dos métodos <strong>de</strong> reducción <strong>de</strong>l número <strong>de</strong> bandas. El hecho <strong>de</strong> utilizar<br />
técnicas <strong>de</strong> preprocesamiento <strong>de</strong> imágenes orientadas a la reducción <strong>de</strong> la<br />
dimensionalidad <strong>de</strong> los datos <strong>de</strong> entrada viene propiciado por el conocido como<br />
fenómeno <strong>de</strong> Hughes [60].<br />
Fenómeno <strong>de</strong> Hughes<br />
En un problema <strong>de</strong> clasificación típico, el objetivo es asignar una etiqueta <strong>de</strong><br />
clase a los datos <strong>de</strong> entrada. El error mínimo esperado que se pue<strong>de</strong> alcanzar al<br />
realizar la clasificación es lo que se conoce como el error <strong>de</strong> Bayes [61].<br />
El error <strong>de</strong> Bayes es una función que <strong>de</strong>crece con la dimensionalidad <strong>de</strong> los<br />
datos. Una nueva característica aña<strong>de</strong> información sobre el ejemplo y entonces, uno<br />
esperaría que la clasificación fuese tan buena como cuando esta información no se<br />
había introducido. Sin embargo, en la práctica esto no es así, cuando se aña<strong>de</strong> una<br />
36
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
nueva característica a los datos el error <strong>de</strong> Bayes disminuye, pero al mismo tiempo las<br />
<strong>de</strong>sviaciones <strong>de</strong>l error <strong>de</strong> la clasificación aumentan. Este incremento se <strong>de</strong>be al hecho<br />
<strong>de</strong> que se necesitan calcular más parámetros partiendo <strong>de</strong>l mismo número <strong>de</strong><br />
ejemplos. Si el incremento <strong>de</strong> las <strong>de</strong>sviaciones en la clasificación <strong>de</strong>l error es mayor<br />
que el <strong>de</strong>cremento <strong>de</strong>l error <strong>de</strong> Bayes, entonces el uso <strong>de</strong> la característica adicional<br />
<strong>de</strong>grada la regla <strong>de</strong> <strong>de</strong>cisión. Y este fenómeno es lo que se conoce como el efecto<br />
Hughes [60]. A<strong>de</strong>más, cuando la dimensionalidad <strong>de</strong> los datos y la complejidad <strong>de</strong> la<br />
regla <strong>de</strong> <strong>de</strong>cisión aumentan, el efecto Hughes pue<strong>de</strong> llegar a ser más grave [9].<br />
En resumen, el rendimiento <strong>de</strong>crece con la dimensionalidad <strong>de</strong> los datos a<br />
menos que el número <strong>de</strong> muestras sea infinito [60].<br />
Esta reducción dimensional que se plantea es un paso utilizado por ciertos<br />
algoritmos con objeto <strong>de</strong> reducir la carga computacional <strong>de</strong> pasos sucesivos mediante<br />
la eliminación <strong>de</strong> ruido e información redundante en la imagen. Estos métodos<br />
realizan una disminución <strong>de</strong>l número <strong>de</strong> bandas, el objetivo es obtener una<br />
representación mínima <strong>de</strong> la imagen que contenga la información indispensable para<br />
realizar el análisis sobre un sub-conjunto reducido <strong>de</strong> la imagen original [62]. La Fig.<br />
2.10 representa el cambio producido en la imagen original tras realizar una reducción<br />
<strong>de</strong> la dimensionalidad.<br />
Fig. 2.9 Reducción dimensional<br />
2.7.1 Transformación Principal Component Analysis (PCA)<br />
Esta transformación utiliza una transformación lineal para maximizar la<br />
varianza <strong>de</strong> los datos. Se utilizan los componentes principales para producir bandas<br />
<strong>de</strong> salida no correlativas, para eliminar los componentes ruidosos, y para reducir la<br />
dimensionalidad <strong>de</strong> los datos [63].<br />
37
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Análisis <strong>de</strong> componentes principales (PCA) es una transformación <strong>de</strong>l espacio<br />
vectorial, normalmente utilizada para reducir la alta dimensionalidad <strong>de</strong> los datos a<br />
menores dimensiones para su análisis.<br />
El PCA construye una transformación lineal que escoge un nuevo sistema <strong>de</strong><br />
coor<strong>de</strong>nadas para el conjunto original <strong>de</strong> datos en el cual la varianza <strong>de</strong> mayor tamaño<br />
<strong>de</strong>l conjunto <strong>de</strong> datos es capturada en el primer eje (llamado el Primer Componente<br />
Principal), la segunda varianza más gran<strong>de</strong> es el segundo eje, y así sucesivamente,<br />
(Véase Fig. 2.11). Para construir esta transformación lineal <strong>de</strong>be construirse primero<br />
la matriz <strong>de</strong> covarianza o matriz <strong>de</strong> coeficientes <strong>de</strong> correlación. Debido a la simetría<br />
<strong>de</strong> esta matriz existe una base completa <strong>de</strong> vectores propios <strong>de</strong> la misma. La<br />
transformación que lleva <strong>de</strong> las antiguas coor<strong>de</strong>nadas a las coor<strong>de</strong>nadas <strong>de</strong> la nueva<br />
base es precisamente la transformación lineal necesaria para reducir la<br />
dimensionalidad <strong>de</strong> datos. A<strong>de</strong>más las coor<strong>de</strong>nadas en la nueva base dan la<br />
composición en factores subyacentes <strong>de</strong> los datos iniciales.<br />
Banda Y<br />
Banda X<br />
Componente 1<br />
Componente 2<br />
Fig. 2.10 Ilustración gráfica <strong>de</strong> la transformación PCA.<br />
En la fig 2.12 se muestra un ejemplo <strong>de</strong> la aplicación <strong>de</strong> la transformación PCA<br />
a una imagen hiperespectral real <strong>de</strong>l sensor AVIRIS sobre la región Jasper Ridge. La<br />
figura muestra las primeras 20 bandas obtenidas a partir <strong>de</strong> la transformada PCA.<br />
Visualmente, pue<strong>de</strong> comprobarse que la presencia <strong>de</strong> ruido es mucho menor en las<br />
primeras bandas, aumentando <strong>de</strong> forma consi<strong>de</strong>rable en las últimas.<br />
38
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Banda PCA 1 Banda PCA 2 Banda PCA 3 Banda PCA 4 Banda PCA 5<br />
Banda PCA 6 Banda PCA 7 Banda PCA 8 Banda PCA 9 Banda PCA 10<br />
Banda PCA 11 Banda PCA 12 Banda PCA 13 Banda PCA 14 Banda PCA 15<br />
Banda PCA 16 Banda PCA 17 Banda PCA 18 Banda PCA 19 Banda PCA 20<br />
Fig. 2.11 Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada PCA sobre una imagen hiperespectral real.<br />
PCA es el análisis <strong>de</strong> valores multivaluados basados en eigenvector (vectores<br />
propios) más simple. Se usa para reducir la dimensionalidad <strong>de</strong> los datos reteniendo<br />
aquellas características <strong>de</strong>l conjunto <strong>de</strong> datos que contribuyen más a su varianza, y<br />
manteniendo los componentes principales <strong>de</strong> or<strong>de</strong>n más bajo e ignorando los más<br />
altos. Ya que los componentes <strong>de</strong> or<strong>de</strong>n bajo contienen los datos “más importantes”.<br />
Sin embargo, <strong>de</strong>pendiendo <strong>de</strong> la aplicación este podría no ser siempre el caso.<br />
Supongamos que existe una muestra con n individuos para cada uno <strong>de</strong> los<br />
cuales se han medido m variables (aleatorias) . El PCA permite encontrar un<br />
número <strong>de</strong> factores subyacentes p < m que explican aproximadamente el valor <strong>de</strong> las<br />
m variables para cada individuo. El hecho <strong>de</strong> que existan estos p factores subyacentes<br />
pue<strong>de</strong> interpretarse como una reducción <strong>de</strong> la dimensionalidad <strong>de</strong> los datos: don<strong>de</strong><br />
antes necesitábamos m valores para caracterizar a cada individuo ahora nos bastan p<br />
valores. Cada uno <strong>de</strong> los p encontrados se llama componente principal, <strong>de</strong> ahí el<br />
nombre <strong>de</strong>l método.<br />
39
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
2.7.2 Transformación Minimum Noise Fraction (MNF)<br />
Esta transformación es usada para <strong>de</strong>terminar la redimensión <strong>de</strong> los datos <strong>de</strong> la<br />
imagen, para sesgar el ruido <strong>de</strong> los datos y para reducir los requerimientos <strong>de</strong>l<br />
procesamiento <strong>de</strong> los datos [48].<br />
Este es un algoritmo que consiste en dos operaciones <strong>de</strong> reducción <strong>de</strong> datos<br />
consecutivas. La primera basada en la estimación <strong>de</strong>l ruido <strong>de</strong> los datos como la<br />
representada por una matriz <strong>de</strong> correlación. Esta transformación elimina la<br />
correlación y reescala el ruido <strong>de</strong> los datos por varianza. En esta etapa, la información<br />
sobre el ruido entre bandas no se consi<strong>de</strong>ra. La segunda operación se da sobre la<br />
correlación original, y crea un conjunto <strong>de</strong> componentes que contienen información<br />
pon<strong>de</strong>rada sobre la varianza a lo largo <strong>de</strong> todas las bandas en el conjunto <strong>de</strong> datos<br />
bruto.<br />
La principal diferencia entre la transformación PCA y la transformación MNF<br />
es el hecho <strong>de</strong> que, en el segundo caso, se realiza una <strong>de</strong>scripción más <strong>de</strong>tallada <strong>de</strong> la<br />
relación existente entre la cantidad <strong>de</strong> señal presente en la imagen y la cantidad <strong>de</strong><br />
ruido [64]. De este modo, la primera banda resultante <strong>de</strong> la transformación MNF es la<br />
que presenta mayor relación SNR. La segunda banda presenta mejor SNR que la<br />
tercera, y así sucesivamente.<br />
En la Fig 2.13 se muestra un ejemplo <strong>de</strong> la aplicación <strong>de</strong> la transformación<br />
MNF a una imagen hiperespectral real <strong>de</strong>l sensor AVIRIS sobre la región Jasper<br />
Ridge. La figura muestra las primeras 20 bandas obtenidas a partir <strong>de</strong> la transformada<br />
MNF. Visualmente, pue<strong>de</strong> comprobarse que la presencia <strong>de</strong> ruido es mucho menor en<br />
las primeras bandas, aumentando <strong>de</strong> forma consi<strong>de</strong>rable en las últimas.<br />
Como consecuencia <strong>de</strong> la estimación más precisa <strong>de</strong> las condiciones <strong>de</strong> ruido<br />
presentes en la imagen, en <strong>de</strong>terminadas aplicaciones la <strong>de</strong>scomposición MNF pue<strong>de</strong><br />
ofrecer resultados más robustos que la transformada PCA [65], pues es menos<br />
sensible a outliers y píxeles ruidosos.<br />
40
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Banda MNF 1 Banda MNF 2 Banda MNF 3 Banda MNF 4 Banda MNF 5<br />
Banda MNF 6 Banda MNF 7 Banda MNF 8 Banda MNF 9 Banda MNF 10<br />
Banda MNF 11 Banda MNF 12 Banda MNF 13 Banda MNF 14 Banda MNF 15<br />
Banda MNF 16 Banda MNF 17 Banda MNF 18 Banda MNF 19 Banda MNF 20<br />
Fig. 2.12. Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada MF sobre una imagen hiperespectral real.<br />
A menudo, la mayor parte <strong>de</strong> la variación <strong>de</strong>l conjunto <strong>de</strong> datos se pue<strong>de</strong><br />
explicar con unos pocos <strong>de</strong> los primeros componentes, el resto contienen<br />
componentes que contribuyen a la variación principalmente con ruido [66]. Los<br />
primeros 10 componentes son <strong>de</strong>terminantes, pue<strong>de</strong>n contener un 99% <strong>de</strong>l total <strong>de</strong> la<br />
varianza <strong>de</strong> los datos, y son seleccionados con un subconjunto <strong>de</strong> la nueva imagen.<br />
Este subconjunto <strong>de</strong> componentes dominantes será usado posteriormente para la<br />
transformación inversa y producirá <strong>de</strong> nuevo el total <strong>de</strong> bandas. Los datos mostrados<br />
por aquellas bandas con un número superior a 150 son datos dominados por el ruido.<br />
El uso <strong>de</strong> la transformación MNF es justificado [8].<br />
41
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
3. Metodología<br />
En el presente capítulo vamos a explicar <strong>de</strong> forma <strong>de</strong>tallada que procedimientos<br />
hemos seguido con cada una <strong>de</strong> las técnicas anteriormente <strong>de</strong>scritas para lograr<br />
obtener los resultados que se presentarán en el capítulo 4.<br />
El siguiente diagrama <strong>de</strong> flujo es un esquema <strong>de</strong> la forma <strong>de</strong> procesar las<br />
imágenes mediante los métodos utilizados. Partiendo <strong>de</strong> una imagen hiperespectral,<br />
po<strong>de</strong>mos realizar un paso opcional, señalado en naranja, que es una reducción,<br />
po<strong>de</strong>mos utilizar la técnica PCA ó MNF. El siguiente paso es seleccionar el conjunto<br />
<strong>de</strong> entrenamiento, hemos hecho pruebas con conjuntos <strong>de</strong> entrenamiento <strong>de</strong> <strong>diferentes</strong><br />
tamaños para cada una <strong>de</strong> las imágenes analizadas. Una vez que tenemos el conjunto<br />
<strong>de</strong> entrenamiento tenemos que elegir el procedimiento que vamos a utilizar para<br />
llevar a cabo la clasificación, los métodos analizados han sido ML, SOM, MLP y<br />
SVM. A continuación se llevan a cabo el entrenamiento y la clasificación, gracias a<br />
los cuales obtenemos los resultados <strong>de</strong> clasificación para cada imagen.<br />
A continuación vamos a explicar la forma <strong>de</strong> forma <strong>de</strong>tallada como hemos<br />
procedido con cada una <strong>de</strong> las implementaciones utilizadas para llegar a los<br />
resultados obtenidos. Las principales razones para seleccionar los métodos<br />
anteriormente citados son las siguientes:<br />
• En primer lugar, el método ML se utiliza ampliamente en reconocimiento <strong>de</strong><br />
patrones y en análisis hiperespectral, y es capaz <strong>de</strong> establecer similarida<strong>de</strong>s<br />
a nivel espectral <strong>de</strong> forma sencilla aprovechando toda la información<br />
presente en cada píxel <strong>de</strong> la imagen.<br />
• El método MLP se trata <strong>de</strong> uno <strong>de</strong> los métodos <strong>neuronales</strong> más populares y<br />
aplicado a un mayor número <strong>de</strong> problemas en la literatura.<br />
• La técnica SVM ofrece un método sofisticado <strong>de</strong> clasificación capaz <strong>de</strong><br />
funcionar en espacios altamente dimensionales. Constituye una nueva<br />
generación <strong>de</strong> clasificadores supervisados y resulta muy interesante para<br />
po<strong>de</strong>r establecer comparativas con métodos tradicionales.<br />
Finalmente, el método SOM es representativo <strong>de</strong> las técnicas <strong>neuronales</strong> con<br />
menores requerimientos en cuanto a supervisión y necesidad <strong>de</strong> disponer <strong>de</strong><br />
información a priori.<br />
42
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
3.1 Maximum likelihood (ML)<br />
La Fig 3.1 es el diagrama <strong>de</strong> flujo que representa el funcionamiento general <strong>de</strong>l<br />
clasificador ML, en primer lugar tenemos el paso opcional <strong>de</strong> realizar<br />
preprocesamiento <strong>de</strong> la imagen, pue<strong>de</strong> ser PCA o MNF, o po<strong>de</strong>mos utilizar<br />
directamente la imagen hiperespectral original, la siguiente etapa consiste en <strong>de</strong>cidir<br />
el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, hemos creado conjuntos <strong>de</strong> entrenamiento<br />
<strong>de</strong>l 5, 10 ,20 y 50% para cada una <strong>de</strong> las imágenes.<br />
Este método requiere que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento por clase sea<br />
mayor que el número <strong>de</strong> bandas <strong>de</strong> la imagen. Por lo que para imágenes con muchas<br />
bandas y clases con pocos puntos no es un método <strong>de</strong> clasificación útil, ya que la<br />
mayoría <strong>de</strong> las clases no se podrán entrenar y por tanto clasificar (Fenómeno Hughes,<br />
capítulo 2.7).<br />
El clasificador Maximum likelihood asume que las estadísticas para cada clase<br />
en cada banda se distribuyen normalmente y calcula la probabilidad <strong>de</strong> que dado un<br />
píxel pertenezca a una clase específica. A menos que se seleccione una probabilidad<br />
<strong>de</strong> error se clasificarán todos los píxeles. Cada píxel se asignará a la clase con una<br />
mayor probabilidad <strong>de</strong> pertenecer. Si la probabilidad máxima <strong>de</strong> un píxel es inferior<br />
al umbral especificado, el píxel queda no clasificado [67].<br />
Fig. 3.1 Esquema <strong>de</strong> funcionamiento ML<br />
43
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
El umbral <strong>de</strong> probabilidad es un parámetro que se aplica una vez obtenida la<br />
probabilidad <strong>de</strong> que un píxel pertenezca a una <strong>de</strong>terminada clase e indica la<br />
probabilidad mínima aceptada para ser clasificado. Po<strong>de</strong>mos no seleccionar umbral y<br />
todos los puntos serán clasificados, po<strong>de</strong>mos seleccionar un umbral <strong>de</strong> error para<br />
todas las clases. Cuanto mayor sea este umbral peor será la clasificación obtenida,<br />
pero antes obtendremos el resultado.<br />
3.2 Multi-Layer Perceptron (MLP)<br />
La arquitectura <strong>de</strong>l perceptrón multicapa es una <strong>de</strong> las re<strong>de</strong>s más populares, es<br />
una red multicapa con conexiones hacia <strong>de</strong>lante (feedforward) y retroalimentación<br />
(backpropagation).<br />
La Fig. 3.2 es el diagrama <strong>de</strong> flujo para el procesamiento <strong>de</strong> la red MLP,<br />
po<strong>de</strong>mos utilizar preprocesamiento <strong>de</strong> la imagen analizada o emplear directamente<br />
ésta. Los conjuntos <strong>de</strong> entrenamiento <strong>de</strong> esta red son los mismos que en el apartado<br />
anterior, y consisten en un conjunto <strong>de</strong> puntos seleccionados aleatoriamente sobre la<br />
verdad terreno, los tamaños utilizados en las pruebas han sido <strong>de</strong> 5%, 10%, 20% y<br />
50%. La red MLP es más compleja que ML por lo que tiene más patrones que<br />
seleccionar.<br />
Fig. 3.2 Esquema general <strong>de</strong> funcionamiento <strong>de</strong> MLP<br />
44
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
La tasa <strong>de</strong> convergencia <strong>de</strong> la red <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la forma <strong>de</strong> la superficie <strong>de</strong>l error<br />
así como el proceso <strong>de</strong> aprendizaje y el conjunto <strong>de</strong> puntos <strong>de</strong> entrenamiento. A<br />
continuación vamos a ver algunos <strong>de</strong> los parámetros que ayudan a mejorar la tasa <strong>de</strong><br />
convergencia.<br />
• El coeficiente <strong>de</strong> aprendizaje η en la regla <strong>de</strong>lta generalizada <strong>de</strong>termina el<br />
ajuste <strong>de</strong> pesos hecho en cada iteración y por lo tanto influye en la tasa <strong>de</strong><br />
convergencia. El valor <strong>de</strong> η es importante ya que una mala elección pue<strong>de</strong> llevar a un<br />
fallo en el proceso <strong>de</strong> convergencia. También se sabe que este valor no <strong>de</strong>be ser<br />
constante si se quieren alcanzar mejores resultados [68]. Si el valor <strong>de</strong> η es muy<br />
gran<strong>de</strong> el proceso <strong>de</strong> búsqueda pue<strong>de</strong> oscilar sobre el camino i<strong>de</strong>al y tardar mucho en<br />
converger. Si por el contrario el valor es muy pequeño el proceso <strong>de</strong> búsqueda <strong>de</strong>l<br />
mínimo pue<strong>de</strong> ser muy largo llevando a un incremento <strong>de</strong>l tiempo total <strong>de</strong><br />
convergencia.<br />
o Los valores que hemos seleccionado para este parámetros han sido 0.2,<br />
0.01 y 0.001. En primer lugar seleccionamos un valor gran<strong>de</strong>, pero tras<br />
varias pruebas vimos que el porcentaje <strong>de</strong> acierto era bastante bajo. El<br />
segundo y tercero los hemos ido cambiando para mejorar la tasa <strong>de</strong><br />
convergencia. Cuanto más lento es el aprendizaje mejores resultado<br />
hemos obtenido.<br />
• El número <strong>de</strong> iteraciones máximo.<br />
o Las pruebas <strong>de</strong> este parámetro las hemos hecho para 1000 y 10000<br />
iteraciones. El primero <strong>de</strong> ellos era un valor bajo, para que el método<br />
terminará rápidamente, el segundo lo hemos seleccionado para que junto<br />
con una tasa <strong>de</strong> aprendizaje menor obtuviésemos unos resultados<br />
mejores. Al disminuir la tasa <strong>de</strong> aprendizaje tenemos que aumentar el<br />
número <strong>de</strong> iteraciones. Para las pruebas con la imagen completa, que<br />
tiene más datos, hemos necesitado aumentar el número <strong>de</strong> iteraciones a<br />
100.000 para po<strong>de</strong>r llegar a unos resultados óptimos.<br />
• El número <strong>de</strong> capas ocultas. En general, si una red tiene pocas capas ocultas<br />
no pue<strong>de</strong> apren<strong>de</strong>r el conjunto <strong>de</strong> entrenamiento bien. Pero por otro lado si hay<br />
<strong>de</strong>masiadas tratarán <strong>de</strong> memorizar el conjunto <strong>de</strong> entrenamiento y no podrán<br />
generalizar bien. Por lo tanto, es mejor en la mayoría <strong>de</strong> las aplicaciones utilizar el<br />
tamaño mínimo <strong>de</strong> capas ocultas.<br />
45
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
o El número <strong>de</strong> capas ocultas lo hemos variado <strong>de</strong> 1 a 3. Al aumentar el<br />
número <strong>de</strong> capas, aumenta la complejidad <strong>de</strong> la red, lo cual no nos ha<br />
ayudado a mejorar la tasa <strong>de</strong> acierto, el valor más óptimo ha sido con<br />
una capa oculta.<br />
• El umbral <strong>de</strong> error. Si el error que alcanza la red en una <strong>de</strong>terminada<br />
iteración es menor que este valor el procedimiento finaliza. Cuanto mayor sea este<br />
umbral peor será la clasificación.<br />
o El umbral lo hemos entre los valores 0.1 y 0.35. Para que la red<br />
finalizase en un número <strong>de</strong> iteraciones no <strong>de</strong>masiado elevado hemos<br />
aumentado la tasa <strong>de</strong> error permitida. Cuanto menor sea este valor mejor<br />
será la clasificación obtenida, pero más tardará la red en converger.<br />
Los resultados obtenidos los hemos comparado con la matriz <strong>de</strong> confusión y con<br />
las imágenes <strong>de</strong> clasificación resultantes.<br />
3.3 Support Vector Machine (SVM)<br />
En primer lugar vamos a hablar <strong>de</strong> SVM Support Vector Machine).Este método<br />
<strong>de</strong>sarrolla una clasificación supervisada <strong>de</strong> imágenes para i<strong>de</strong>ntificar las clases<br />
asociadas con cada píxel. SVM es un sistema <strong>de</strong> clasificación <strong>de</strong>rivado <strong>de</strong> teorías <strong>de</strong><br />
aprendizaje estadístico. Separa las clases con una superficie <strong>de</strong> <strong>de</strong>cisión (hiperplano<br />
óptimo) que maximiza el margin entre las clases.<br />
SVM es un clasificador lineal, ya que el objetivo principal <strong>de</strong> esta<br />
implementación es conseguir un hiperplano <strong>de</strong> separación en el espacio N-<br />
dimensional. Los datos hiperespectrales son altamente no lineales, por lo que para<br />
po<strong>de</strong>r separarlos la solución más utilizada es proyectar el espacio N-dimensional <strong>de</strong><br />
entrada sobre espacios <strong>de</strong> mayor dimensionalidad <strong>de</strong> acuerdo con una función o<br />
kernel [69].<br />
Para <strong>de</strong>sarrollar las pruebas hemos trabajado con cuatro tipos <strong>de</strong> kernel que<br />
presentamos a continuación:<br />
• Kernel lineal.<br />
• Kernel Radial Basis Function (RBF).<br />
• Kernel polinómico<br />
• Kernel sigmoidal<br />
46
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
La Fig. 3.3 muestra un esquema general <strong>de</strong>l procedimiento seguido para<br />
analizar el clasificador SVM,<br />
Fig. 3.3 Diagrama <strong>de</strong> flujo SVM<br />
SVM incluye un parámetro <strong>de</strong> flexibilidad que permite un cierto grado <strong>de</strong> error<br />
en la clasificación, que es especialmente importante para los conjuntos <strong>de</strong><br />
entrenamiento no separables. Este parámetro controla el compendio entre permitir la<br />
generación <strong>de</strong> errores y forzar los márgenes entre clases. Creando un margen <strong>de</strong> error<br />
que permite algún error <strong>de</strong> clasificación, por lo que permite que a algunos puntos<br />
estar en el lado “incorrecto” <strong>de</strong>l hiperplano. Incrementando el valor <strong>de</strong> este parámetro<br />
se aumenta el coste <strong>de</strong>l error <strong>de</strong> clasificación y se fuerza la creación <strong>de</strong> mo<strong>de</strong>los más<br />
exactos que no generalizan bien. Hemos probado con valores <strong>de</strong> 50, 100, 150. Los<br />
mejores resultados los hemos obtenido con 100, es un valor intermedio que compensa<br />
la relación entre permitir error en la clasificación y la rigi<strong>de</strong>z <strong>de</strong> los márgenes.<br />
El umbral <strong>de</strong> probabilidad lo hemos variado, pero los mejores resultados se han<br />
producido con el umbral 0, exigiendo una clasificación para todos los pixels.<br />
El conjunto <strong>de</strong> patrones <strong>de</strong> entrenamiento se seleccionan aleatoriamente <strong>de</strong> la<br />
verdad terreno, los tamaños que hemos utilizado han sido 5%, 10%, 20% y 50% para<br />
cada clase.<br />
47
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Una vez realizada la clasificación y obtenidos los resultados se comparan con la<br />
verdad terreno completa, haciendo una comparación entre los píxeles resultantes y los<br />
que <strong>de</strong>beríamos haber obtenido.<br />
3.4 Self-Organizing Map (SOM)<br />
Es una red competitiva, autoorganizada que apren<strong>de</strong> <strong>de</strong>l entorno sin supervisión.<br />
La arquitectura es bastante simple, consiste en un grupo <strong>de</strong> neuronas organizadas<br />
geométricamente en una, dos tres o incluso más dimensiones. Esta red es capaz <strong>de</strong><br />
apren<strong>de</strong>r un vector <strong>de</strong> cuantificación <strong>de</strong> forma efectiva. La cuantificación es el<br />
proceso <strong>de</strong> transformación <strong>de</strong> un variable con valores continuos o analógicos a<br />
variables discretas, en nuestro caso pasar <strong>de</strong> las firmas espectrales <strong>de</strong> los píxeles a su<br />
categorización en clases [68].<br />
Su funcionamiento se basa en una competición entre las neuronas, la neurona<br />
que tenga un peso más cercano al patrón <strong>de</strong> entrada gana la competición. Pero la<br />
neurona ganadora no es la única beneficiada <strong>de</strong>l aprendizaje. Las vecinas más<br />
próximas también verán modificados sus pesos.<br />
pasos:<br />
vecindad.<br />
El proceso <strong>de</strong> aprendizaje para la SOM se pue<strong>de</strong> resumir en los siguientes<br />
• Inicialización <strong>de</strong> pesos wr y la tasa <strong>de</strong> aprendizaje y los parámetros <strong>de</strong><br />
• Seleccionar un vector x <strong>de</strong> los patrones <strong>de</strong> entrada a la red.<br />
• Determinar el array cuyos pesos estén más cerca <strong>de</strong> x <strong>de</strong>spués <strong>de</strong> ejecutar:<br />
|| wr – x|| = min || wr -x||<br />
• Actualizar los vectores <strong>de</strong> pesos para la siguiente iteración para las neuronas<br />
vecinas y las neuronas que no sean vecinas.<br />
En la Fig. 3.4 vemos un esquema general <strong>de</strong>l flujo <strong>de</strong> proceso <strong>de</strong> las pruebas <strong>de</strong><br />
la red SOM, los parámetros <strong>de</strong>l proceso <strong>de</strong> aprendizaje anteriormente indicados no<br />
tienen cabida en el esquema, ya que son variables internas <strong>de</strong>l proceso <strong>de</strong> aprendizaje,<br />
pero si las tenemos que fijar antes <strong>de</strong> comenzar a utilizar la red, los pesos se<br />
inicializan aleatoriamente, la tasa <strong>de</strong> aprendizaje y los parámetros <strong>de</strong> vecindad tienen<br />
un valor fijo durante todo el proceso, estos parámetros son los que nos van ha hacer<br />
que la red tar<strong>de</strong> más o menos en converger. Los vectores <strong>de</strong> entrada es lo que en el<br />
48
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
esquema <strong>de</strong> la Fig 3.4 hemos llamado conjunto <strong>de</strong> entrenamiento, son los píxeles <strong>de</strong><br />
la imagen que han sido seleccionados. A medida que se van realizando las iteraciones<br />
también se genera un vector <strong>de</strong> error y se modifica el vector <strong>de</strong> pesos, que es el que<br />
luego resolverá el proceso <strong>de</strong> clasificación.<br />
Los parámetros <strong>de</strong> entrada a la función son:<br />
• Imagen. Los patrones <strong>de</strong> entrenamiento <strong>de</strong> la red.<br />
• Número <strong>de</strong> iteraciones. Como su propio nombre indica <strong>de</strong>termina el número<br />
<strong>de</strong> iteraciones que se repite el algoritmo.<br />
• Número <strong>de</strong> clases. Número <strong>de</strong> clases <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, <strong>de</strong> la<br />
imagen que introducimos como entrenamiento.<br />
Fig. 3.4 Esquema general <strong>de</strong> SOM<br />
Este método nos <strong>de</strong>vuelve una matriz <strong>de</strong> pesos y un vector <strong>de</strong> error. La matriz<br />
<strong>de</strong> pesos es la entrada para la función <strong>de</strong> clasificación, que a raíz <strong>de</strong> estos pesos<br />
<strong>de</strong>termina a que clase pertenece cada píxel.<br />
A la hora <strong>de</strong> seleccionar un conjunto <strong>de</strong> entrenamiento, el parámetro que hemos<br />
llamada Imagen, hemos seleccionado para todas las clases el mismo número <strong>de</strong><br />
píxeles <strong>de</strong> entrenamiento. Para elegir este conjunto <strong>de</strong> entrenamiento se hace a partir<br />
<strong>de</strong> la imagen y su verdad terreno, se seleccionan para cada clase n píxeles <strong>de</strong><br />
49
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
entrenamiento <strong>de</strong> forma aleatoria y se introducen en una matriz tridimensional, como<br />
se ve en la Fig. 3.5.<br />
Fig. 3.5 Matriz <strong>de</strong> entrenamiento SOM<br />
Es <strong>de</strong>cir, organizamos la información <strong>de</strong> tal forma que para cada clase (fila <strong>de</strong>l<br />
vector) tenemos un conjunto <strong>de</strong> puntos <strong>de</strong> entrenamiento pertenecientes a esa clase<br />
(columna <strong>de</strong>l vector) y cada uno <strong>de</strong> esos puntos tiene todas las bandas <strong>de</strong> la imagen,<br />
que son las distintas matrices que se encuentran por <strong>de</strong>trás, cada una es una banda.<br />
Por lo que para esta clasificación almacenamos el píxel <strong>de</strong> entrenamiento con todas<br />
sus bandas y no las coor<strong>de</strong>nadas como pasaba anteriormente.<br />
A<strong>de</strong>más se pue<strong>de</strong> crear un conjunto <strong>de</strong> test si se <strong>de</strong>sea, para po<strong>de</strong>r introducir en<br />
el método <strong>de</strong> clasificación <strong>de</strong> la SOM. Nosotros en las pruebas finales no lo hemos<br />
utilizado ya que el resto <strong>de</strong> los métodos clasificaban todos los puntos <strong>de</strong> la imagen y<br />
era necesario hacerlo también con la SOM para po<strong>de</strong>r compararlos.<br />
3.5 Proceso <strong>de</strong> entrenamiento para todos los clasificadores<br />
En este apartado vamos a explicar aquellos pasos que son comunes a todos los<br />
métodos. Ya que son muchos los pasos que comparten los clasificadores. Po<strong>de</strong>mos<br />
verlo en la Fig. 3.6.<br />
50
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
3.5.1 Preprocesamiento<br />
Fig. 3.6 Esquema general <strong>de</strong> funcionamiento<br />
Con esta transformación se mejoraron algunos resultados y se pudieron llevar a<br />
cabo los <strong>de</strong> la red neuronal Maximum likelihood, ya que entre sus requisitos esta<br />
tener un número <strong>de</strong> píxeles <strong>de</strong> entrenamiento superior al número <strong>de</strong> bandas y en el<br />
caso <strong>de</strong> AVIRIS Indian Pines, con clases <strong>de</strong> entrenamiento tan pequeñas y un número<br />
<strong>de</strong> bandas tan elevado (202) no se podían llevar a cabo las pruebas.<br />
3.5.2 Conjunto <strong>de</strong> entrenamiento<br />
Los conjuntos <strong>de</strong> entrenamiento son seleccionados en todos los casos <strong>de</strong> forma<br />
totalmente aleatoria entre los píxeles etiquetados. Para cada una <strong>de</strong> las clases<br />
elegimos un conjunto <strong>de</strong> píxeles en función <strong>de</strong>l número total <strong>de</strong> píxeles etiquetados en<br />
esa clase, es <strong>de</strong>cir, para cada una <strong>de</strong> las clases tenemos un porcentaje <strong>de</strong> píxeles <strong>de</strong><br />
entrenamiento. Estos porcentajes son 5%, 10%, 20% y 50%.<br />
Aunque nosotros hemos hecho las pruebas seleccionando los conjuntos <strong>de</strong><br />
entrenamiento aleatoriamente, hay estudios que <strong>de</strong>muestran que utilizar conjuntos <strong>de</strong><br />
entrenamiento seleccionados entre los patrones más extremos mejora la<br />
clasificación.(Véase Fig. 3.7) Si seleccionamos los patrones que están en el bor<strong>de</strong><br />
como entrenamiento su proximidad a los patrones <strong>de</strong>l resto <strong>de</strong> las clases es tan<br />
51
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
cercano como la distancia al resto <strong>de</strong> patrones <strong>de</strong> la clase a la que pertenece, por lo<br />
hace más difícil el proceso <strong>de</strong> clasificación ya que la diferencia entre dos clases<br />
distintas es menor [46].<br />
Fig. 3.7 Patrones <strong>de</strong> entrenamiento extremo, core y bor<strong>de</strong><br />
Que todas las clases tuviesen el mismo número <strong>de</strong> ejemplos sería lo más<br />
a<strong>de</strong>cuado, pero en la práctica muchas veces no es posible. En muchas ocasiones el<br />
número <strong>de</strong> píxeles <strong>de</strong> entrenamiento no es a<strong>de</strong>cuado ya que el número <strong>de</strong> bandas en<br />
las imágenes hiperespectrales exce<strong>de</strong> en gran cantidad a este, obteniéndose entonces<br />
con la red un patrón genérico <strong>de</strong> poca calidad que no i<strong>de</strong>ntifica bien a la clase y por lo<br />
tanto a lo hora <strong>de</strong> testear el resto <strong>de</strong> píxeles pertenecientes a esa clase no son<br />
clasificados como tal.<br />
Por lo que algunas re<strong>de</strong>s por sus características <strong>de</strong> estructura y comportamiento<br />
no son a<strong>de</strong>cuadas para imágenes con gran cantidad <strong>de</strong> bandas [68]. Por eso una <strong>de</strong> los<br />
cambios realizados en las imágenes son las transformaciones MNF y Forward<br />
Principal Components Rotation.<br />
3.5.3 Post clasificación<br />
Finalmente para po<strong>de</strong>r contrastar estos resultados se ha obtenido la matriz <strong>de</strong><br />
confusión, es una forma <strong>de</strong> comparar la clasificación obtenida con la verdad terreno y<br />
comprobar la eficacia <strong>de</strong>l método empleado. Una forma <strong>de</strong> comprobar visualmente el<br />
resultado obtenido consiste en visualizar la clasificación obtenida y compararla con la<br />
verdad terreno <strong>de</strong> la imagen correspondiente.<br />
52
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Para po<strong>de</strong>r comparar todos los resultados entre sí estos han sido representados<br />
mediante tablas que agrupan la información obtenida y posteriormente representados<br />
en gráficas para po<strong>de</strong>r ver la evolución <strong>de</strong> los distintos métodos con los <strong>diferentes</strong><br />
parámetros que hemos ido cambiando.<br />
53
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
4 Análisis y discusión <strong>de</strong> resultados<br />
En el presente capítulo, analizaremos <strong>de</strong> forma exhaustiva los resultados<br />
obtenidos al procesar <strong>diferentes</strong> imágenes hiperespectrales con las técnicas<br />
presentadas en capítulos anteriores. Mediante este análisis extraeremos una serie <strong>de</strong><br />
conclusiones que se reflejan en el apartado 5.<br />
El resto <strong>de</strong>l capítulo se estructura <strong>de</strong> la siguiente manera: en primer lugar,<br />
<strong>de</strong>scribiremos las imágenes hiperespectrales que se han utilizado para la evaluación<br />
<strong>de</strong> las técnicas consi<strong>de</strong>radas. El conjunto <strong>de</strong> imágenes utilizadas representan un banco<br />
<strong>de</strong> pruebas suficiente para <strong>de</strong>terminar la bondad <strong>de</strong> los clasificadores analizados,<br />
puesto que constituyen dos conjuntos <strong>de</strong> datos ampliamente utilizados en el ámbito<br />
<strong>de</strong>l análisis hiperespectral a la hora <strong>de</strong> evaluar técnicas <strong>de</strong> clasificación. En segundo<br />
lugar, presentaremos los resultados obtenidos por cada uno <strong>de</strong> los métodos propuestos<br />
para ambos conjuntos <strong>de</strong> datos. La presentación <strong>de</strong> estos resultados se acompañará <strong>de</strong><br />
una justificación <strong>de</strong> los mismos.<br />
4.1 Introducción<br />
El objetivo <strong>de</strong> este proyecto es realizar un estudio <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />
re<strong>de</strong>s <strong>neuronales</strong> y clasificadores utilizados para el análisis <strong>de</strong> imágenes<br />
hiperespectrales.<br />
Para ello se ha trabajado con el paquete software ENVI, Entorno <strong>de</strong><br />
Visualización <strong>de</strong> Imágenes (Environment for Visualizing Images), es un mo<strong>de</strong>rno<br />
sistema <strong>de</strong> procesamiento <strong>de</strong> imágenes diseñado para proporcionar análisis<br />
multiespectral <strong>de</strong> los datos obtenidos por tele<strong>de</strong>tección <strong>de</strong>s<strong>de</strong> sensores instalados<br />
sobre aviones y satélites. Proporciona un entorno potente, novedoso y <strong>de</strong> fácil uso<br />
para presentar y analizar imágenes <strong>de</strong> cualquier tamaño y tipo <strong>de</strong> datos en un amplio<br />
rango <strong>de</strong> plataformas.<br />
Otro programa utilizado para tratar imágenes ha sido Matlab, ya que se disponía<br />
<strong>de</strong> algunas re<strong>de</strong>s implementadas en el lenguaje propio <strong>de</strong> este programa que eran <strong>de</strong><br />
interés para el análisis. MATLAB es la abreviatura <strong>de</strong> MATrix LABoratory<br />
(laboratorio <strong>de</strong> matrices). Se trata <strong>de</strong> un software matemático muy versátil que ofrece<br />
un entorno <strong>de</strong> <strong>de</strong>sarrollo integrado (IDE) con un lenguaje <strong>de</strong> programación propio<br />
(lenguaje M).<br />
54
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Con el fin <strong>de</strong> que los resultados fueran comparables se han <strong>de</strong>sarrollado tablas<br />
en las que se dispone la información <strong>de</strong> manera compacta para su fácil visualización.<br />
También se pue<strong>de</strong> apreciar las diferencias entre las distintas re<strong>de</strong>s y los distintos<br />
parámetros utilizados a través <strong>de</strong> las gráficas realizadas.<br />
4.2 Imágenes tratadas<br />
En el estudio que se ha llevado a cabo se han utilizado dos conjuntos <strong>de</strong> datos<br />
hiperespectrales reales, el primero adquirido por el sensor AVIRIS sobre una región<br />
agrícola en Indiana (USA) y el segundo, una imagen urbana <strong>de</strong> la ciudad <strong>de</strong> Pavia<br />
(Italia) adquirida por el sensor DAIS 7915.<br />
4.2.1 AVIRIS Indian Pines<br />
Indian Pines es una imagen captada por <strong>de</strong>l sensor AVIRIS tomada a lo largo <strong>de</strong><br />
una región mixta agrícola / región boscosa en NW Indiana, en Estados Unidos en<br />
Junio 1992, esta es una imagen conocida y utilizada normalmente para la validación<br />
<strong>de</strong> técnicas <strong>de</strong> clasificación <strong>de</strong> imágenes hiperespectrales. La imagen compren<strong>de</strong> un<br />
total <strong>de</strong> 1939 x 677 píxeles, cada uno <strong>de</strong> los cuales presenta resolución espacial <strong>de</strong> 20<br />
metros y resolución espectral <strong>de</strong> 224 bandas comprendidas entre 0,4 y 2,5 µm. El<br />
tamaño total <strong>de</strong> la imagen es <strong>de</strong> 574 MB.<br />
La imagen representa un problema <strong>de</strong> clasificación muy complejo <strong>de</strong>bido a la<br />
etapa temprana <strong>de</strong> crecimiento <strong>de</strong> la mayor parte <strong>de</strong> los cultivos y zonas agrícolas que<br />
componen la imagen (en la mayor parte, por <strong>de</strong>bajo <strong>de</strong> un 5% <strong>de</strong> cobertura <strong>de</strong>l suelo).<br />
En estas circunstancias, la discriminación entre <strong>diferentes</strong> cultivos se hace muy<br />
difícil, lo que ha hecho que esta imagen se haya convertido en una prueba <strong>de</strong><br />
referencia.<br />
La imagen <strong>de</strong> AVIRIS Indian Pines (véase Fig. 4.1) utilizada en este estudio<br />
presenta unas dimensiones <strong>de</strong> 145 x 145 píxeles y 202 bandas. Tiene 17 clases<br />
etiquetadas, una <strong>de</strong> las cuales es el fondo, el tamaño <strong>de</strong> las clases etiquetadas van<br />
<strong>de</strong>s<strong>de</strong> 20 a 2468 píxeles <strong>de</strong> tamaño.<br />
55
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Fig. 4.1Imagen <strong>de</strong> una banda <strong>de</strong> AVIRIS Indian Pines<br />
La verdad terreno correspondiente a la imagen <strong>de</strong> AVIRIS Indian Pines es la<br />
Fig. 4.2, en ella po<strong>de</strong>mos apreciar las 16 clases etiquetadas y los colores que se le han<br />
asignado a cada una <strong>de</strong> ellas.<br />
Fig. 4.2 Verdad terreno AVIRIS Indian Pines<br />
La Fig. 4.3 muestra los conjuntos <strong>de</strong> entrenamiento que hemos utilizado para<br />
realizar el análisis con la imagen AVIRIS Indian Pines, la Fig. (a) 5% con 519<br />
píxeles, (b) 10% con 1,036, (c) 20% con 2,074 y (d) 50% con 5,182 píxeles<br />
etiquetados.<br />
Fig. 4.3 Conjuntos <strong>de</strong> entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d)<br />
50%.<br />
56
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
En la tabla 4.1 po<strong>de</strong>mos ver la distribución <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento<br />
para cada una <strong>de</strong> las clases con los que hemos <strong>de</strong>sarrollado las pruebas y el total <strong>de</strong><br />
píxeles etiquetados <strong>de</strong> la verdad terreno.<br />
IDIA PIES % <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />
Clases 5 % 10% 20 % 50 % 100%<br />
Alfalfa 3 5 11 27 54<br />
Grass trees 19 38 76 190 380<br />
Corn 12 23 47 117 234<br />
Corn min 42 83 167 417 834<br />
Corn notill 72 143 287 717 1,434<br />
Grass pasture 25 50 99 249 497<br />
Grass pasture mov. 1 3 5 13 26<br />
Grass trees 37 75 149 374 747<br />
Hay windrowed 24 49 98 245 489<br />
Oats 1 2 4 10 20<br />
Soybeans clean 31 61 123 307 614<br />
Soybeans min 123 247 494 1,234 2,468<br />
Soybeans notill 48 97 194 484 968<br />
Stone steel towers 5 10 19 48 95<br />
Wheat 11 21 42 106 212<br />
Woods 65 129 259 647 1,294<br />
Total 519 1,036 2,074 5,185 10,366<br />
Tabla 4.1 AVIRIS Indian Pines conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> total <strong>de</strong> píxeles por<br />
4.2.2 DAIS 7915 sobre Pavia<br />
clase<br />
El segundo conjunto <strong>de</strong> datos utilizado es la escena urbana adquirida por el<br />
sensor DAIS 7915 sobre la ciudad <strong>de</strong> Pavia, Italia (véase Fig. 4.4). La imagen se<br />
caracteriza por resoluciones espaciales y espectrales mo<strong>de</strong>radas, con 5 metros <strong>de</strong><br />
resolución por píxel y 40 bandas espectrales en el rango comprendido entre 504 y 864<br />
nm. La imagen representa un complicado problema <strong>de</strong> clasificación <strong>de</strong>bido a la<br />
complejidad <strong>de</strong> las clases espaciales que dominan este paisaje urbano. La imagen se<br />
encuentra corregida atmosféricamente y tiene un tamaño total <strong>de</strong> 400 x 400 píxeles.<br />
57
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Fig. 4.4 Imagen <strong>de</strong> una banda <strong>de</strong> DAIS 7915 sobre Pavia<br />
La Fig. 4.5 representa la verdad terreno correspondiente a la imagen <strong>de</strong> DAIS<br />
7915 sobre Pavia, en la que distinguimos las 9 clases etiquetadas para esta imagen.<br />
Fig. 4.5 Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />
La Fig. 4.6 representa los puntos seleccionados <strong>de</strong> los ROIs como conjuntos <strong>de</strong><br />
entrenamiento para la imagen DAIS 7915 sobre Pavia, en la Fig (a) los puntos son<br />
muy pocos, solo 729 <strong>de</strong> los 400x400 que tiene la imagen en total, <strong>de</strong> los cuales solo<br />
14,585 están etiquetados. La Fig (b) tiene 1,460 píxeles. La Fig (c) tiene 2,918<br />
píxeles seleccionados y la Fig (d) tiene 7,295 píxeles etiquetados.<br />
Fig. 4.6 Conjuntos <strong>de</strong> entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%.<br />
58
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
En la tabla 4.2 tenemos los tamaños <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento para<br />
todas las clases <strong>de</strong> la imagen y también el número total <strong>de</strong> píxeles <strong>de</strong> la imagen.<br />
PAVIA % <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />
Clases 5 % 10% 20 % 50 % 100%<br />
Shadows 34 69 137 343 685<br />
Water 62 125 249 623 1,245<br />
Parking lot 215 429 858 2,145 4,290<br />
Asphalt 12 24 48 121 241<br />
Brick roofs 14 29 58 144 288<br />
Bare soil 112 224 448 1,119 2,238<br />
Bitumen 74 148 295 738 1,475<br />
Meadows 121 242 485 1,212 2,424<br />
Trees 85 170 340 850 1,699<br />
Total 729 1,460 2.918 7,295 14,585<br />
Tabla 4.2. Conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> píxeles totales etiquetados <strong>de</strong> la imagen<br />
DAIS 7915 sobre Pavia<br />
4.3 Modificaciones sobre las imágenes<br />
Con el fin <strong>de</strong> intentar mejorar los resultados <strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian<br />
Pines hemos hecho un estudio sobre la separabilidad <strong>de</strong> las clases y el ruido <strong>de</strong> las<br />
bandas ya que es una imagen complicada, con muchas bandas y algunas <strong>de</strong> las clases<br />
tienen pocos puntos <strong>de</strong> entrenamiento.<br />
Una <strong>de</strong> las posibles modificaciones es eliminar las bandas ruidosas, con la única<br />
finalidad <strong>de</strong> obtener mejores resultados. En la Fig. 4.7 po<strong>de</strong>mos ver la diferencia<br />
entre una <strong>de</strong> estas bandas ruidosas, Fig. 4.7 (a) y otra que no lo es, Fig.4.7 (b).<br />
Fig. 4.7 (a) Banda 6 y (b) banda 1<strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian Pines.<br />
59
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Otra modificación que pue<strong>de</strong> mejorar los resultados obtenidos es eliminar la<br />
clases difícimente separables, tras hacer un estudio <strong>de</strong> la separabilidad obtuvimos que<br />
12 <strong>de</strong> las 16 clases que eran separables, por lo que cuatro no lo son.<br />
En la tabla 4.3 vemos el problema <strong>de</strong> separabilidad para la imagen AVIRIS<br />
Indian Pines, en la diagonal principal vemos el número <strong>de</strong> píxeles <strong>de</strong> la clase<br />
correspondiente. El resto <strong>de</strong> la fila y la columna es el resultado <strong>de</strong> la separabilidad <strong>de</strong><br />
esa clase con el resto, el valor máximo es 2, eso quiere <strong>de</strong>cir que las clases son<br />
separables, por el contrario el valor mínimo que es 0, indica que las dos clases en<br />
cuestión no son separables.<br />
Si analizamos la tabla 4.3 tenemos que la clase Alfalfa (primera fila), la clase<br />
Grass-pasture-moved (sexta fila), la clase Oats (décima fila) y la clase Stone-Steel-<br />
tower (catorceava fila) no son separables. En todos los casos la fila y la columna<br />
correspondiente se encuentran a 0. Por el contrario tenemos clases que son totalmente<br />
separables y todos los valores, excepto los <strong>de</strong> estas cuatro clases, tienen el valor dos,<br />
como es el caso <strong>de</strong> Bldg-grass-trees-drives.<br />
Clases A B C D E F G H I J K L M O P<br />
A 54 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0<br />
B 0 380 2 2 2 2 0 2 2 0 2 2 2 0 2 2<br />
C 0 2 234 2 2 2 0 2 2 0 2 2 2 0 2 2<br />
D 0 2 2 834 1.999 2 0 2 2 0 2 1.999 1.999 0 2 2<br />
E 0 2 2 1.999 1434 2 0 2 2 0 2 1.997 1.999 0 2 2<br />
F 0 2 2 2 2 497 0 2 2 0 2 2 2 0 2 2<br />
G 0 0 0 0 0 0 26 0 0 0 0 0 0 0 0 0<br />
H 0 2 2 2 2 2 0 747 2 0 2 2 2 0 2 2<br />
I 0 2 2 2 2 2 0 2 489 0 2 2 2 0 2 2<br />
J 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0<br />
K 0 2 2 2 2 2 0 2 2 0 614 1.999 2 0 2 2<br />
L 0 2 2 1.999 1.997 2 0 2 2 0 1.999 2468 1.999 0 2 2<br />
M 0 2 2 1.999 1.999 2 0 2 2 0 2 1.999 968 0 2 2<br />
0 0 0 0 0 0 0 0 0 0 0 0 0 95 0 0<br />
O 0 2 2 2 2 2 0 2 2 0 2 2 2 0 212 2<br />
P 0 2 2 2 2 2 0 2 2 0 2 2 2 0 2 1294<br />
Tabla 4.3. Separabilidad <strong>de</strong> AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn<br />
min. E: Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed.<br />
J: Oats. K: Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O:<br />
Wheat. P: Woods.<br />
60
<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />
En la tabla 4.4 tenemos los valores correspondientes a la separabilidad <strong>de</strong> las<br />
clases <strong>de</strong> la imagen DAIS 7915 sobre Pavia, en este caso todas las clases son<br />
separables. Los valores <strong>de</strong> la tabla o son dos o valores muy próximos a éste.<br />
Clases A B C D E F G H I<br />
A 685 2 2 2 2 2 2 2 2<br />
B 2 1245 2 2 2 2 2 1.999 2<br />
C 2 2 4290 2 2 2 2 2 2<br />
D 2 2 2 241 2 2 2 2 2<br />
E 2 2 2 2 288 2 1.999 2 1.999<br />
F 2 2 2 2 2 2238 2 2 2<br />
G 2 2 2 2 1.999 2 1475 2 2<br />
H 2 1.999 2 2 2 2 2 2424 2<br />
I 2 2 2 2 1.999 2 2 2 1699<br />
Tabla 4.4. Separabilidad <strong>de</strong> DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D:<br />
Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees.<br />
61
4.4 <strong>Estudio</strong> con la imagen AVIRIS Indian Pines<br />
En este apartado <strong>de</strong>l capítulo vamos a analizar y comentar y los resultados<br />
obtenidos para la imagen AVIRIS Indian Pines para cada uno <strong>de</strong> los clasificadores<br />
utilizados.<br />
4.4.1 ML<br />
Este algoritmo es el más sencillo <strong>de</strong> todos los que se comparan. Para que una<br />
clase pueda ser entrenada el número <strong>de</strong> píxeles <strong>de</strong> esta <strong>de</strong>be ser superior al número <strong>de</strong><br />
bandas <strong>de</strong> la imagen. Dada esta premisa y teniendo en cuenta el tamaño <strong>de</strong> las<br />
distintas clases, no se podían realizar las pruebas con la imagen completa, por lo que<br />
hemos tenido que aplicar a la imagen original la transformación MNF y PCA.<br />
Incluso reduciendo el número <strong>de</strong> bandas <strong>de</strong> la imagen a 20, muchas clases no<br />
pue<strong>de</strong>n ser entrenadas, ya que el tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento es muy<br />
pequeño. En la tabla 4.7 en la columna <strong>de</strong> entrenamiento <strong>de</strong>l 5% siete <strong>de</strong> las dieciséis<br />
clases no pue<strong>de</strong>n ser entrenadas, por lo que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento y<br />
<strong>de</strong> test es menor. Pasamos <strong>de</strong> tener un conjunto <strong>de</strong> entrenamiento <strong>de</strong> 519 a 467, y el<br />
conjunto <strong>de</strong> test se reduce <strong>de</strong> 10366 a 9345.<br />
Los resultados obtenidos nos indican que la transformación MNF resulta más<br />
beneficiosa que la transformación PCA. Ya que el porcentaje obtenido con el mismo<br />
conjunto <strong>de</strong> entrenamiento es superior para la primera.<br />
Al trabajar con el 10 ó el 20% (véase las columnas centrales <strong>de</strong> la tabla 4.7) el<br />
número <strong>de</strong> clases incluidas en el entrenamiento es mayor. El número <strong>de</strong> aciertos<br />
aumenta proporcionalmente al número <strong>de</strong> píxeles <strong>de</strong> entrenamiento por lo que<br />
aumenta el porcentaje global <strong>de</strong> acierto.<br />
En la tabla 4.7 cuando el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento es <strong>de</strong>l 50%,<br />
sólo dos clases no pue<strong>de</strong>n ser entrenadas. Pero en conjunto el porcentaje <strong>de</strong> acierto<br />
aumenta, ya que aunque el número <strong>de</strong> puntos con los que se esta testando es superior,<br />
también lo es el número <strong>de</strong> píxeles bien clasificados.
20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones<br />
entrenamiento<br />
10% <strong>de</strong> patrones<br />
5% <strong>de</strong> patrones<br />
ML<br />
entrenamiento<br />
entrenamiento<br />
Clase PCA MF PCA MF PCA MF PCA MF<br />
Alfalfa --- --- --- --- --- --- 100.00 81.48<br />
Grass trees --- --- 84.80 64.47 85.36 85.00 88.28 87.11<br />
Corn --- --- 75.06 16.24 82.97 71.37 84.65 92.31<br />
Corn min 76.43 49.64 10.26 80.10 73.50 81.06 96.58 83.69<br />
Corn notilla 43.41 82.29 91.16 86.12 94.38 88.08 95.98 89.12<br />
Grass pasture 69.88 48.26 97.86 92.96 97.59 96.78 6.79 95.17<br />
Grass pasture<br />
--- --- --- --- --- -- --- --mov.<br />
Grass trees 98.13 94.91 97.55 98.53 98.78 95.31 99.18 97.05<br />
Hay windrowed 63.67 93.87 79.55 98.36 83.88 100.00 90.91 99.80<br />
Oats --- --- --- --- --- --- --- ---<br />
Soybeans clean 62.60 45.44 77.88 89.90 79.50 93.16 75.36 96.91<br />
Soybeans min 81.44 83.91 85.67 80.15 91.21 80.96 95.11 80.35<br />
Soybeans notill 62.87 61.57 15.09 78.31 99.06 87.19 99.06 91.22<br />
Stone steel towers --- --- --- --- --- --- 96.45 97.06<br />
Wheat --- --- 97.53 25.00 97.37 97.17 75.26 99.53<br />
Woods 98.76 99.07 54.21 97.84 66.84 96.60 100.00 97.45<br />
Total 76.29 78.15 81.07 83.30 86.79 88.30 88.18 89.88<br />
Tabla 4.5 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />
10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).
La Fig. 4.8 son los resultados <strong>de</strong> la clasificación ML con preprocesamiento PCA y<br />
MNF, los resultados son bastante similares entre si.<br />
Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20%<br />
<strong>de</strong> los píxeles <strong>de</strong> cada clase (86.79% <strong>de</strong> acierto). (b) Imagen clasificada mediante ML con<br />
preprocesamiento MF entrenando con un 20% <strong>de</strong> los píxeles <strong>de</strong> cada clase (88.30% <strong>de</strong> acierto).<br />
(c) Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines.<br />
En la Fig. 4.9 vemos el comportamiento general <strong>de</strong>l clasificador ML para la<br />
imagen AVIRIS Indian Pines, en todos los casos la clasificación <strong>de</strong> MNF es superior<br />
a PCA. Siendo el peor <strong>de</strong> los resultados superior al 75% y el mejor <strong>de</strong> ellos inferior al<br />
90%.<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
95%<br />
90%<br />
85%<br />
80%<br />
75%<br />
70%<br />
65%<br />
PCA MNF<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.9 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador ML al entrenarlo con conjuntos <strong>de</strong><br />
patrones <strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
4.4.2 SOM<br />
La implementación <strong>de</strong> la red neuronal SOM que disponemos es para Matlab,<br />
para po<strong>de</strong>r realizar las pruebas con ella hemos tenido que crear una función <strong>de</strong><br />
selección <strong>de</strong> patrones <strong>de</strong> entrenamiento.<br />
El código <strong>de</strong> esta red se entrena por una parte y luego se prueba con otro<br />
módulo. El problema <strong>de</strong> esta red es que para entrenar necesita que la matriz no tenga<br />
valores a 0, por lo que todas las clases tienen que entrenar con el mismo número <strong>de</strong><br />
patrones. Esto es dificultad en cuanto a los otros métodos presentados anteriormente,<br />
en los que seleccionábamos un porcentaje <strong>de</strong> entrenamiento con respecto al número<br />
total <strong>de</strong> puntos etiquetadas para cada una <strong>de</strong> las clases.<br />
Como el algoritmo no permite que haya puntos <strong>de</strong> entrenamiento vacíos, para<br />
cada clase tenemos que tener el mismo número <strong>de</strong> columnas o ejemplos, pero para el<br />
caso <strong>de</strong> AVIRIS Indian Pines hay clases con muy pocos píxeles, 20 en total, por lo<br />
que es muy poco entrenamiento 16 clases por 10 píxeles por clase, 160 puntos en<br />
total. Hay clases que entrenan con un 1% mientras que otras entrenan por el 100%.<br />
La solución a esta <strong>de</strong>sproporcionada situación fue <strong>de</strong>scartar las clases que no<br />
son linealmente separables, que coinci<strong>de</strong>n con las que tienen menos puntos, todas con<br />
menos <strong>de</strong> 100 píxeles <strong>de</strong> entrenamiento, con lo que se han podido hacer pruebas con<br />
un mayor conjunto <strong>de</strong> entrenamiento. Como los resultados tampoco eran muy buenos<br />
se <strong>de</strong>cidió hacer una prueba con toda la imagen.<br />
Tanto el número <strong>de</strong> patrones por clase, como el número <strong>de</strong> clases y el número<br />
<strong>de</strong> iteraciones han sido factores que hemos ido cambiando, pero ninguno <strong>de</strong> ellos ha<br />
producido resultados buenos.<br />
La Fig. 4.10 es la verdad terreno <strong>de</strong> la imagen Indian Pines y la Fig. 4.11 es una<br />
<strong>de</strong> las imágenes obtenidas <strong>de</strong> resultado <strong>de</strong> la clasificación SOM, vemos que <strong>de</strong>bido a<br />
la complejidad <strong>de</strong> la imagen y la separabilidad <strong>de</strong> las clases, junto con el hándicap<br />
que tiene la red SOM que apren<strong>de</strong> sin supervisión. Reduciendo el número <strong>de</strong> bandas o<br />
el número <strong>de</strong> clases con las que la red apren<strong>de</strong> no mejora la clasificación.<br />
65
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab<br />
Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones<br />
La clasificación <strong>de</strong> la Fig 4.11 agrupa casi todos los puntos <strong>de</strong> la imagen en 3 ó<br />
4 clases principales, quedando las <strong>de</strong>más la mayor parte <strong>de</strong> las clases con un 0% <strong>de</strong><br />
acierto. No se pue<strong>de</strong> proce<strong>de</strong>r a una clasificación a posteriori <strong>de</strong> la imagen en función<br />
<strong>de</strong> la clasificación obtenida, ya que muchas clases distintas las clasifica con el mismo<br />
valor y también <strong>de</strong>ntro <strong>de</strong> la misma clase clasifica con distintos valores, es <strong>de</strong>cir, no<br />
separa las clases correctamente, luego la clasificación obtenida no es buena.<br />
4.4.3 Multi-Layer Perceptron (MLP)<br />
Las pruebas realizadas se han repetido con <strong>diferentes</strong> parámetros para conseguir<br />
una clasificación óptima, los parámetros que hemos utilizado y hemos ido<br />
modificando son el número <strong>de</strong> iteraciones máximo, el error permitido y la tasa <strong>de</strong><br />
aprendizaje.<br />
66
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Inicialmente ponemos un error bajo, ya que lo que nos interesa es que la red sea<br />
lo más perfecta posible y realice la mejor clasificación. El número <strong>de</strong> iteraciones<br />
utilizado inicialmente como valor máximo es 1000, aunque es un valor superior al<br />
necesitado en la clasificación SVM y ML, es un número muy bajo para conseguir una<br />
buena clasificación ya que este tipo <strong>de</strong> red converge <strong>de</strong> forma más lenta que los<br />
clasificadores analizados anteriormente. La tasa <strong>de</strong> aprendizaje es un valor que tiene<br />
que tener un equilibrio entre un valor gran<strong>de</strong>, que permita a la red apren<strong>de</strong>r rápido y<br />
un valor pequeño para permitir a la red llegar a converger. Inicialmente este era un<br />
valor gran<strong>de</strong>, <strong>de</strong> 0.2, luego hemos pasado a probar con un valor más pequeño para<br />
obtener una mejor clasificación, un valor <strong>de</strong> 0.001.<br />
Finalmente los valores con los que hemos obtenido una clasificación aceptable<br />
han sido con un número <strong>de</strong> iteraciones <strong>de</strong> 100.000, una tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.001 y<br />
un error <strong>de</strong> 0.1. Realizando este prueba con el 5% hemos llegado ha obtener un error<br />
final <strong>de</strong> 0.32 ya que el algoritmo alcanzo el número máximo <strong>de</strong> iteraciones. El resto<br />
<strong>de</strong> los porcentajes tuvieron que llegar a este mismo error, <strong>de</strong>bido a que el número <strong>de</strong><br />
patrones <strong>de</strong> entrenamiento es superior cada una <strong>de</strong> las iteraciones necesitaba más<br />
tiempo, y para llegar al mismo error el número <strong>de</strong> iteraciones es superior conforme<br />
aumenta el número <strong>de</strong> patrones. El problema <strong>de</strong> esta red es que es lenta y para po<strong>de</strong>r<br />
realizar una prueba <strong>de</strong>l 20% se emplean aproximadamente dos semanas. Lo cual es<br />
mucho tiempo en comparación con el tiempo que emplean los otros clasificadores.<br />
Para el caso <strong>de</strong> las pruebas con la imagen completa para el 20 y 50% <strong>de</strong> los<br />
patrones <strong>de</strong> entrenamiento han estado ejecutándose durante más <strong>de</strong> 3 semanas, en las<br />
cuales no se ha conseguido alcanzar el error mínimo introducido, al principio<br />
convergían más rápido, peor en la última <strong>de</strong> estas tres semanas que estuvieron<br />
ejecutándose no han bajado ni una centésima, lo que hace suponer que para llegar al<br />
punto que <strong>de</strong>seamos pue<strong>de</strong>n tardar incluso varios meses, siendo por tanto una prueba<br />
inviable es cuanto a tiempo. Por lo cual los resultados <strong>de</strong>l 20 y 50% no se han<br />
incluido por tratarse <strong>de</strong> pruebas que no han llegado a finalizar.<br />
Para el caso MNF el error global alcanzado ha sido <strong>de</strong> 0.357, y en el caso <strong>de</strong><br />
PCA ha sido <strong>de</strong> 0.40.<br />
67
50% <strong>de</strong> patrones<br />
20% <strong>de</strong> patrones<br />
MLP 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento<br />
entrenamiento<br />
entrenamiento<br />
Imagen<br />
Imagen<br />
Clase<br />
PCA MF<br />
PCA MF PCA MF PCA MF<br />
completa<br />
completa<br />
Alfalfa 87.04 59.26 70.37 87.04 77.78 81.48 88.89 87.04 85.19 90.74<br />
Grass trees 62.48 75.59 80.47 60.32 51.67 77.27 47.35 84.03 53.00 55.72<br />
Corn 50.60 61.87 58.99 60.07 43.04 64.87 59.35 64.75 53.24 63.43<br />
Corn min 64.69 37.61 67.95 74.36 63.68 55.56 59.83 85.90 49.15 78.21<br />
Corn notill 65.59 55.53 65.79 89.74 65.59 65.79 65.39 65.59 69.01 65.79<br />
Grass pasture 96.52 94.24 98.39 93.71 92.90 98.53 97.31 97.99 97.59 92.37<br />
Grass pasture mov. 46.15 0.00 0.00 88.46 61.54 57.69 92.31 100.0 42.31 96.15<br />
Grass trees 95.30 91.41 97.96 95.30 98.57 97.14 91.00 98.77 89.16 99.55<br />
Hay windrowed 45.00 0.00 25.00 80.00 10.00 70.00 85.00 85.00 75.00 80.00<br />
Oats 43.60 13.64 61.05 38.84 82.75 78.20 52.38 67.87 55.99 62.29<br />
Soybeans clean 91.33 82.33 90.96 92.59 85.66 86.79 78.36 88.57 86.06 93.07<br />
Soybeans min 91.04 23.13 86.48 50.33 33.06 86.64 76.87 94.30 85.34 96.09<br />
Soybeans notill 99.53 98.11 98.58 99.53 99.06 99.53 99.06 99.06 99.53 99.53<br />
Stone steel towers 94.82 94.98 94.98 96.21 72.64 96.14 94.74 97.91 97.30 94.44<br />
Wheat 64.47 40.79 76.32 71.05 76.32 75.53 60.53 78.68 37.63 94.21<br />
Woods 89.47 93.68 71.58 95.79 94.74 78.95 85.26 96.84 84.21 97.89<br />
Total 76.70 70.02 82.50 77.42 71.96 83.33 72.67 85.4 75.07 86.7<br />
Tabla 4.6 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />
10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).
La Fig. 4.12 son las cuatro clasificaciones obtenidas para la imagen MLP con<br />
preprocesamiento MNF, <strong>de</strong> esta forma po<strong>de</strong>mos comparar como mejoran los<br />
resultados a medida que aumentamos el conjunto <strong>de</strong> entrenamiento, siendo la Fig.<br />
4.11(a) con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5%, la Fig. 4.11 (b) con un conjunto <strong>de</strong><br />
entrenamiento <strong>de</strong>l 10%, la Fig. 4.11(c) con un 20% <strong>de</strong> entrenamiento y la Fig 4.12 (d)<br />
con un 50% <strong>de</strong> entrenamiento. Las diferencias son mínimas, ya que los valores<br />
obtenidos son bastante similares, pero po<strong>de</strong>mos apreciar como los resultados <strong>de</strong> la<br />
imagen <strong>de</strong>l 5% tiene menos píxeles correctamente clasificados, lo po<strong>de</strong>mos apreciar<br />
por ejemplo en la clase clasificada con color naranja, soybeans-notill, y <strong>de</strong>stacada con<br />
un circulo, también se aprecia como la clase <strong>de</strong> color morado, grass-pasture-moved,<br />
no se encuentra clasificada en la Fig. (a) ya que como po<strong>de</strong>mos ver en la tabla 4.5<br />
tiene un porcentaje <strong>de</strong> acierto <strong>de</strong>l 0%.<br />
Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto <strong>de</strong>l 82.50%, (b) 10% con<br />
un acierto <strong>de</strong>l 83.33%, (c) 20% con un acierto <strong>de</strong>l 85.54% y (d) 50% con un acierto <strong>de</strong>l 86.7%.<br />
La Fig. 4.13 resume el comportamiento <strong>de</strong> la red MLP para la imagen AVIRIS<br />
Indian Pines, po<strong>de</strong>mos ver como los mejores resultados son los obtenidos cuando<br />
realizamos el preprocesamiento MNF, aunque no se hayan podido completar los
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
resultados con la imagen completa, no era <strong>de</strong> esperar que superase el valor obtenido<br />
con MNF.<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
60<br />
Imagen completa PCA MNF<br />
1 2 3 4<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.13 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador MLP utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />
<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />
4.4.4 SVM<br />
Hemos empezado trabajando con este clasificador con la imagen completa <strong>de</strong><br />
AVIRIS Indian Pines, luego hemos hecho pruebas tras las transformaciones MNF y<br />
PCA. Y finalmente hemos comparado los resultados obtenidos tras las<br />
modificaciones <strong>de</strong> la imagen <strong>de</strong> eliminar las bandas ruidosas y las clases no<br />
separables.<br />
La tabla 4.5 muestra los resultados obtenidos al clasificar la imagen con el<br />
método SVM con cuatro kernel lineal, Radial Basic Function, polinómico y<br />
sigmoidal. Los conjuntos <strong>de</strong> entrenamiento son <strong>de</strong>l 5%, 10%, 20% y 50% y el<br />
conjunto <strong>de</strong> test <strong>de</strong>l 100%. Se aprecia claramente como el kernel lineal es el que<br />
mejores resultados obtiene, mientras que con el kernel RBF o polinómico se obtienen<br />
resultados inferiores al lineal pero bastante similares entre ellos, por último está el<br />
resultado obtenido al seleccionar el kernel sigmoi<strong>de</strong> que es algo inferior.<br />
Los peores resultados se obtienen en aquellas clases en las que por tener menor<br />
número <strong>de</strong> píxeles etiquetados el conjunto <strong>de</strong> entrenamiento es muy reducido. Tanto<br />
que en este caso las clases Grass-pasture-moved y Oats tienen un único elemento para<br />
70
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
el entrenamiento y los resultados obtenidos son <strong>de</strong>l 0.00% <strong>de</strong> acierto para los casos <strong>de</strong><br />
entrenamiento <strong>de</strong>l 5,10 y 20%.<br />
Si nos fijamos en los resultados obtenidos habiendo entrenado la red con el 10%<br />
<strong>de</strong> los patrones. Los resultados son mejores que los anteriores, pero las diferencias<br />
entre los resultados obtenidos entre los distintos tipos <strong>de</strong> kernel seleccionado son<br />
similares. El kernel lineal continúa siendo el mejor <strong>de</strong> los cuatro, mientras que el<br />
sigmoi<strong>de</strong> es claramente peor.<br />
El conjunto <strong>de</strong> entrenamiento <strong>de</strong> ‘Grass-pasture-moved’ sigue siendo muy bajo,<br />
junto con Oats, por lo que los porcentajes <strong>de</strong> acierto para estas clases sigue siendo en<br />
la mayoría <strong>de</strong> los casos 0.00%. Los resultados <strong>de</strong> las columnas en las que se han<br />
utilizado conjuntos <strong>de</strong> entrenamiento <strong>de</strong>l 20 y 50% los resultados son similares a los<br />
comentados anteriormente, aumentando, eso sí, el valor <strong>de</strong>l porcentaje <strong>de</strong> acierto <strong>de</strong><br />
forma proporcional al aumento <strong>de</strong>l tamaño <strong>de</strong> los datos. El porcentaje <strong>de</strong> acierto más<br />
alto es <strong>de</strong> 90.6618%, perteneciente al kernel lineal con un entrenamiento <strong>de</strong>l 50%.<br />
La Fig 4.14 compara visualmente los resultados mostrados en la tabla 4.7. La<br />
Fig (a) muestra la clasificación obtenida entrenando con el 5% <strong>de</strong> los píxeles<br />
utilizando un kernel lineal y la Fig (b) es la clasificación obtenida entrenando con un<br />
50% <strong>de</strong> los píxeles <strong>de</strong> cada clase. Se pue<strong>de</strong> apreciar que la clasificación es mucho<br />
mejor para la imagen (b), con un acierto <strong>de</strong> 90.66%, que para la imagen (a) con un<br />
acierto <strong>de</strong>l 74.15%. La imagen (c) es la verdad terreno que nos sirve para comparar<br />
ambas imágenes con el resultado i<strong>de</strong>al <strong>de</strong> clasificación.<br />
Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% <strong>de</strong> los píxeles <strong>de</strong> cada<br />
clase y utilizando el kernel lineal (74.15% <strong>de</strong> acierto). (b) Imagen clasificada mediante SVM<br />
entrenando con un 50% <strong>de</strong> los píxeles <strong>de</strong> cada clase y utilizando el kernel lineal (90.66% <strong>de</strong><br />
acierto). (c) Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines.<br />
71
SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />
KEREL KEREL KEREL KEREL<br />
Clase<br />
RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm.<br />
Alfalfa 0 20.37 40.74 22.22 29.36 42.59 27.78 27.78 59.26 51.85 59.26 59.26 77.78 94.4 77.78 75.93<br />
Grass trees 11.84 39.74 25.79 19.74 31.05 52.89 31.32 20.26 42.63 70 42.63 18.42 58.16 83.68 58.16 32.89<br />
Corn 1.71 32.48 11.54 0.43 39.74 43.16 38.89 12.82 67.09 73.93 69.23 27.78 76.07 84.19 76.92 17.95<br />
Corn min 43.88 46.40 35.49 27.46 43.76 63.67 40.29 8.51 50 72.06 52.52 34.29 61.75 79.02 62.23 29.26<br />
Corn notill 61.37 74.06 58.37 50.35 59.97 74.06 60.67 57.81 72.87 85.08 73.01 60.11 76.71 88.21 77.62 59.34<br />
Grass pasture 54.73 78.67 68.81 28.17 86.32 91.15 85.71 10.46 89.54 94.16 90.14 23.54 94.16 97.38 94.16 83.70<br />
Grass pasture mov. 0 0 0 96.15 0 3.85 0 0 11.54 46.15 30.77 0 80.77 80.77 80.77 73.08<br />
Grass trees 86.61 95.72 91.43 0 87.15 94.24 88.62 85.94 90.63 95.72 89.83 85.27 94.38 99.06 94.24 87.28<br />
Hay windrowed 99.39 97.75 95.30 0 97.14 97.96 97.34 97.14 99.39 99.59 99.39 99.18 98.98 99.39 98.98 98.98<br />
Oats 0 0 0 0 0 0 0 0 0 0 0 0 75.00 80.00 70.00 25.00<br />
Soybeans clean 24.92 57.17 34.85 7.98 40.39 81.76 45.28 4.56 62.38 83.22 60.42 8.63 80.94 93.65 80.62 20.52<br />
Soybeans min 82.21 82.58 79.29 82.33 82.58 86.35 83.75 84.44 82.7 88.82 82.58 81.32 84.81 90.48 85.7 81.60<br />
Soybeans notill 65.08 63.74 54.86 24.38 69.21 68.70 68.39 33.26 70.97 71.69 71.07 32.75 71.90 80.27 71.69 44.01<br />
Stone steel towers 82.11 60 64.21 68.42 82.11 84.21 83.16 81.05 86.32 83.16 90.53 83.16 92.63 93.68 92.63 89.47<br />
Wheat 81.13 47.64 0 0 82.08 93.87 81.13 43.4 92.45 98.11 92.45 91.51 99.53 100 99.53 94.34<br />
Woods 95.83 96.75 94.2 93.04 95.98 96.68 95.98 96.21 96.68 97.45 96.75 96.99 97.60 98.5 97.6 95.67<br />
Total 67.54 74.15 65.14 56.13 71.93 80.87 72.3 58.25 77.79 86 77.99 62.3 82.93 90.66 83.27 67.21<br />
Tabla 4.7 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base<br />
radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).
Los resultados finales los po<strong>de</strong>mos comparar con la Fig. 4.15, los resultados van<br />
mejorando conforme aumenta el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, los mejores<br />
resultados son los obtenidos con el kernel lineal, y los peores con el sigmoi<strong>de</strong>.<br />
% Píxels correctamente clasificados<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
60<br />
55<br />
50<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
RBF Lineal Polinómico Sigmoi<strong>de</strong><br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.15 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />
<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />
4.4.4.1 SVM con transformadas MNF y PCA<br />
Estas reducciones consisten en hacer una compresión <strong>de</strong> los datos para obtener<br />
una imagen con menor número <strong>de</strong> bandas. En las pruebas que se han realizado en este<br />
estudio se ha modificado la imagen <strong>de</strong> AVIRIS Indian Pines <strong>de</strong> 202 a tan solo 20<br />
bandas.<br />
En la tabla 4.6, fijándonos en la columna con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />
5%, vemos que el porcentaje <strong>de</strong> acierto que obtenemos con la imagen completa es<br />
menor que cuando realizamos la transformación. Por lo que po<strong>de</strong>mos <strong>de</strong>cir que para<br />
este caso es mejor la reducción, ya que mejora entre un 4 y un 8%. En este caso,<br />
aunque hagamos la transformación y reduzcamos el número <strong>de</strong> bandas, los<br />
porcentajes <strong>de</strong> acierto en las clases con 1 píxel <strong>de</strong> entrenamiento sigue siendo 0.00%.<br />
Si nos fijamos en la columna con un entrenamiento <strong>de</strong>l 10%, se ve como la<br />
distancia entre el porcentaje <strong>de</strong> acierto con toda la imagen y una vez aplicadas las<br />
reducciones disminuye, la mejora está ahora entre un 1 y un 5% aproximadamente.<br />
Po<strong>de</strong>mos ver como en el caso <strong>de</strong> Grass-pasture-moved el porcentaje <strong>de</strong> acierto<br />
se ha visto incrementado consi<strong>de</strong>rablemente, ha pasado <strong>de</strong> un 4% a un 75%
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
aproximadamente. Pero por el contrario otras clases o bien han disminuido su<br />
porcentaje <strong>de</strong> acierto o auque lo hayan aumentado, el incremento ha sido mayor en el<br />
caso <strong>de</strong> la clasificación lineal.<br />
Por el contrario, cuando se utiliza un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20%, los<br />
resultados obtenidos con la imagen completa ya no son los peores, sino que es el caso<br />
<strong>de</strong> la reducción PCA el que obtiene una peor clasificación global. MNF sigue<br />
teniendo mejores resultados, pero la diferencia con la clasificación lineal es cada vez<br />
menor.<br />
Cuando el entrenamiento lo hacemos con el 50%, la última columna <strong>de</strong> la tabla<br />
4.6, la clasificación obtenida con la imagen completa es mejor que en los otros dos<br />
casos entre un 2 y un 5% mejor.<br />
Aunque gracias a la comparación <strong>de</strong> la verdad terreno con el resultado obtenido<br />
con la matriz <strong>de</strong> confusión po<strong>de</strong>mos ver como los resultados obtenidos con MNF son<br />
mejores que los obtenidos con PCA, es muy difícil po<strong>de</strong>r apreciar esta diferencia a<br />
simple vista comparando la Fig. 4.16.<br />
Fig. 4.16 Comparación <strong>de</strong> resultados SVM con preprocesamiento y un conjunto <strong>de</strong><br />
entrenamiento <strong>de</strong>l 50%, (a) clasificación PCA, el acierto es <strong>de</strong>l 85.66%. (b) clasificación MF, el<br />
acierto es <strong>de</strong>l 88.59% y (c) verdad terreno <strong>de</strong> AVIRIS Indian Pines.<br />
74
5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones<br />
20% <strong>de</strong> patrones<br />
50% <strong>de</strong> patrones<br />
SVM<br />
entrenamiento<br />
entrenamiento<br />
entrenamiento<br />
Imagen<br />
Imagen<br />
Imagen<br />
Imagen<br />
Clase<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
completa<br />
completa<br />
completa<br />
completa<br />
Alfalfa 20.37 27.78 11.11 42.59 75.93 57.41 51.85 51.85 66.67 94.44 75.93 81.48<br />
Grass trees 39.74 55.53 70.53 52.89 63.68 74.21 70.00 60.53 71.84 83.68 72.11 83.95<br />
Corn 32.48 43.59 46.58 43.16 35.47 51.71 73.93 73.50 81.20 84.19 82.48 80.77<br />
Corn min 46.40 53.00 54.08 63.67 66.07 67.27 72.06 67.15 67.99 79.02 71.22 74.70<br />
Corn notill 74.06 76.43 83.75 74.06 76.71 80.33 85.08 80.75 84.80 88.21 81.38 86.89<br />
Grass pasture 78.67 90.34 87.53 91.15 89.94 94.77 94.16 93.36 96.38 97.38 96.38 97.59<br />
Grass pasture<br />
0.00 0.00 0.00 3.85 76.92 73.08 46.15 80.77 88.46 80.77 84.62 100.00<br />
mov.<br />
Grass trees 95.72 94.51 98.80 94.24 96.39 98.13 95.72 94.91 98.26 99.06 96.25 98.53<br />
Hay windrowed 97.75 99.39 99.59 97.96 98.57 99.18 99.59 99.80 99.59 99.39 99.59 99.18<br />
Oats 0.00 0.00 0.00 0.00 10.00 0.00 0.00 5.00 40.00 80.00 85.00 90.00<br />
Soybeans clean 57.17 68.73 85.50 81.76 80.29 86.32 83.22 78.66 87.46 93.65 85.18 90.23<br />
Soybeans min 82.58 83.31 83.06 86.35 84.40 86.43 88.82 84.76 87.88 90.48 86.14 87.36<br />
Soybeans notill 63.74 66.12 73.35 68.70 72.42 75.41 71.69 66.32 77.07 80.27 69.63 75.00<br />
Stone steel towers 60.00 62.11 73.68 84.21 80.00 76.84 83.16 88.42 82.11 93.68 91.58 95.79<br />
Wheat 47.64 99.06 99.06 93.87 98.58 99.53 98.11 99.53 99.53 100.00 99.53 100.00<br />
Woods 96.75 97.99 96.21 96.68 95.36 95.36 97.45 97.22 98.07 98.53 97.84 98.38<br />
Total 74.16 78.74 82.05 80.87 81.84 84.56 86.00 82.97 87.04 90.66 85.66 88.59<br />
Tabla 4.8. Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y MF y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño<br />
progresivamente creciente (5%, 10%, 20% y 50%).
Fijándonos en la tabla 4.8 en general, po<strong>de</strong>mos ver que a medida que aumenta el<br />
conjunto <strong>de</strong> entrenamiento, aumenta también el porcentaje <strong>de</strong> acierto, este porcentaje<br />
es mayor en el caso <strong>de</strong> la clasificación con toda la imagen. Por eso aunque<br />
inicialmente no obtiene los mejores resultados, si es la clasificación con un mayor<br />
porcentaje <strong>de</strong> acierto cuando se entrena con más píxeles, (véase Fig. 4.17).<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
100<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
Imagen completa PCA MNF<br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.17 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />
(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />
<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />
4.4.5 Resumen <strong>de</strong> la imagen AVIRIS Indian Pines<br />
La imagen AVIRIS Indian Pines es una imagen con un gran número <strong>de</strong> bandas,<br />
16 clases etiquetadas, algunas <strong>de</strong> las cuales no superan la 20 <strong>de</strong> píxeles etiquetados, lo<br />
que hace que sea un impedimento a la hora <strong>de</strong> clasificar la imagen. Los resultados<br />
obtenidos con las <strong>diferentes</strong> clasificaciones<br />
Con el método ML se ha podido realizar un entrenamiento con la imagen<br />
completa, ya que al tener conjuntos con un gran número <strong>de</strong> patrones <strong>de</strong><br />
entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha<br />
permitido po<strong>de</strong>r llevar a cabo el entrenamiento y su posterior clasificación,<br />
obteniendo buenos resultados. A pesar <strong>de</strong> que es un clasificador sencillo sus<br />
resultados van <strong>de</strong>s<strong>de</strong> el 95% (cuando entrenamos con la imagen completa) y el 97%<br />
(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% <strong>de</strong> los<br />
píxeles etiquetados <strong>de</strong> la imagen, al 99% cuando entrenamos con un 50%. Los<br />
resultados son buenos, pero este clasificador tiene el inconveniente <strong>de</strong> necesitar que el
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento sea superior al número <strong>de</strong> bandas,<br />
pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines.<br />
La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un<br />
85%, <strong>de</strong>bido a que es una red que apren<strong>de</strong> sin supervisión, <strong>de</strong> ahí que algunas <strong>de</strong><br />
clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que<br />
se produce una mala clasificación.<br />
La red MLP obtiene buenos resultados, sus porcentajes <strong>de</strong> acierto varían entre<br />
un 98 y un 99.5% aproximadamente. Esta red trabaja <strong>de</strong> forma más lenta, pero gracias<br />
a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un<br />
tiempo mo<strong>de</strong>rado.<br />
Por ultimo el clasificador SVM aúna dos características buenos resultados, entre<br />
un 98 y 99.5%, como en el caso <strong>de</strong> MLP pero con unos tiempos <strong>de</strong> procesamiento<br />
más rápidos.<br />
Cualquiera <strong>de</strong> los métodos empleados (ML, SOM, MLP o SVM) para analizar<br />
esta imagen obtiene unos resultados muy buenos <strong>de</strong>bido a que esta imagen tiene<br />
pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad <strong>de</strong><br />
píxeles etiquetados.<br />
4.5 <strong>Estudio</strong> <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />
4.5.1 ML<br />
A la hora <strong>de</strong> comparar este método, como el número <strong>de</strong> bandas es bajo se han<br />
hecho 3 pruebas. La primera columna <strong>de</strong> resultados representa los datos obtenidos<br />
tras la clasificación partiendo <strong>de</strong> la imagen completa. En las dos columnas siguientes<br />
se presentan los resultados tras las transformaciones PCA y MNF practicadas sobre la<br />
imagen, reduciendo <strong>de</strong> 40 a 20 el número <strong>de</strong> bandas.<br />
En la tabla 4.10 po<strong>de</strong>mos ver que cuando el conjunto <strong>de</strong> entrenamiento es <strong>de</strong>l<br />
10% el porcentaje <strong>de</strong> acierto con la imagen completa es superior que en los casos <strong>de</strong><br />
reducción, esto se explica <strong>de</strong>bido a que en las clasificaciones <strong>de</strong> la imagen PCA y<br />
MNF las clases que tienen poco entrenamiento (shadows, 24) y (parking lot, 29)<br />
píxeles, tienen porcentajes bajos lo que empeora el porcentaje <strong>de</strong> acierto general, en<br />
el caso <strong>de</strong> la imagen completa estos porcentajes no se tienen en cuenta porque el<br />
método no lo permite, luego las clases que son tomadas en cuenta tienen un gran<br />
porcentaje <strong>de</strong> acierto y mejoran el porcentaje global.<br />
77
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
Los resultados <strong>de</strong> la clasificación para el 20% <strong>de</strong> entrenamiento son mejores con<br />
las clasificaciones <strong>de</strong> MNF y PCA <strong>de</strong>bido a que el número <strong>de</strong> ejemplos con respecto<br />
al número <strong>de</strong> bandas es mejor.<br />
En los resultados obtenidos utilizando el 50% <strong>de</strong> entrenamiento las clases tienen<br />
suficientes ejemplos y vemos como los porcentajes se igualan, siendo ligeramente<br />
superiores los <strong>de</strong> la imagen completa. Al ver la tabla 4.10 po<strong>de</strong>mos llegar a la<br />
conclusión <strong>de</strong> que la comparación entre las dos reducciones nos lleva a <strong>de</strong>cir que son<br />
mejores las cifras obtenidas con la transformación MNF.<br />
La Fig. 4.18 es una comparativa entre la clasificación ML para el 10% entre las<br />
distintas soluciones obtenidas, la primera imagen (a) correspon<strong>de</strong> con la clasificación<br />
con la imagen completa, aunque es la mejor clasificación, po<strong>de</strong>mos apreciar como la<br />
clase parking lot, <strong>de</strong> color turquesa, no aparece en la imagen, así como tampoco se<br />
tiene en cuenta para hallar el porcentaje <strong>de</strong> acierto la clase shadows, <strong>de</strong> color<br />
amarillo.<br />
Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje<br />
<strong>de</strong> acierto <strong>de</strong> 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un<br />
porcentaje <strong>de</strong> acierto <strong>de</strong> 97.60% y (c) clasificación ML con la imagen con preprocesamiento<br />
MF, con un porcentaje <strong>de</strong> acierto <strong>de</strong> 97.30%. En todos los casos con el 10% <strong>de</strong> entrenamiento.<br />
(d) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.<br />
78
ML 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />
Imagen<br />
Imagen<br />
Imagen<br />
Imagen<br />
Clase<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
completa<br />
completa<br />
completa<br />
completa<br />
Shadows --- --- --- --- 39.00 39.42 30.29 88.38 90.87 94.61 98.34 98.34<br />
Water 99.79 99.79 99.79 99.79 99.79 99.79 99.65 99.79 99.79 99.79 99.79 99.79<br />
Parking lot --- --- --- --- 67.71 57.29 58.33 95.14 94.10 97.22 97.92 98.26<br />
Asphalt 93.05 97.00 97.00 98.59 98.59 98.76 99.35 99.12 99.00 99.76 99.12 99.12<br />
Brick roofs 99.96 99.96 99.96 99.96 99.96 99.96 99.91 99.91 99.96 99.96 99.96 99.96<br />
Bare soil 94.31 98.64 98.98 99.46 99.25 99.32 99.39 99.12 99.59 99.46 99.32 99.46<br />
Bitumen --- 86.28 87.88 90.36 97.96 97.81 98.54 99.42 99.85 99.85 99.71 99.85<br />
Meadows 58.23 99.42 99.30 96.87 98.72 97.98 97.75% 98.51 98.14 98.80 98.89 98.47<br />
Trees 99.83 96.06 95.90 98.60 98.39 98.39 98.93 98.07 98.23 99.13 98.07 98.76<br />
Total 94.50 98.31 98.39 98.71 97.60 97.30 97.33 99.01 99.04 99.45 99.33 99.37<br />
Tabla 4.9 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />
10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).
En la Fig. 4.19 se hace una comparación entre SVM (a) y ML (b), se ha<br />
seleccionado un porcentaje <strong>de</strong> entrenamiento <strong>de</strong>l 5%. Sin saber el porcentaje <strong>de</strong><br />
acierto, podríamos <strong>de</strong>cir que la clasificación SVM es mejor, ya que en ella se aprecian<br />
más clases. Aunque seguramente la clasificación ML sea buena, ya que se pue<strong>de</strong> ver<br />
que las clases principales (con mayor número <strong>de</strong> píxeles) están bien distribuidas y sus<br />
colores son los correctos. Los porcentajes <strong>de</strong> acierto <strong>de</strong> estas imágenes son para SVM<br />
97.2026% y para ML 94.8166%. El porcentaje es más alto en SVM porque en ML<br />
tenemos 7 clases en lugar <strong>de</strong> 9, ya que las clases <strong>de</strong> color cyan y amarillo tienen un<br />
conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5% con un número <strong>de</strong> píxeles menor <strong>de</strong> 20, que es el<br />
número <strong>de</strong> bandas <strong>de</strong> la imagen, y por lo tanto no pue<strong>de</strong>n ser entrenados y tampoco<br />
clasificados correctamente.<br />
Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% <strong>de</strong> entrenamiento. (b) clasificación ML<br />
con el 5% <strong>de</strong> entrenamiento y con tratamiento <strong>de</strong> imagen MF. (c) verdad terreno.<br />
4.5.2 SOM<br />
Al realizar las pruebas con la imagen DAIS 7915 sobre Pavia hemos probado<br />
conjuntos <strong>de</strong> entrenamiento que van <strong>de</strong> los 10 a los 200 píxeles <strong>de</strong> entrenamiento por<br />
clase, <strong>de</strong>bido a que la clase con menor número <strong>de</strong> entrenamiento son 240 puntos.<br />
Teniendo en cuenta los puntos <strong>de</strong> entrenamiento po<strong>de</strong>mos ver como para unas<br />
clases entrenamos con muchos píxeles mientras que para otras el porcentaje es muy<br />
bajo.<br />
En cuanto al tiempo empleado si tiene un crecimiento lógico, a medida que<br />
aumentan el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento y/o el número <strong>de</strong> iteraciones que se<br />
realizan aumenta el tiempo <strong>de</strong> cálculo.
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Fig. 4.20 Verdad Terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />
La Fig. 4.21 correspon<strong>de</strong> a dos clasificaciones obtenidas con la red SOM<br />
completamente distintas. La Fig. 4.21 (a) aunque muchos colores no son iguales que<br />
en la verdad terreno (véase Fig 4.20) po<strong>de</strong>mos apreciar como las clases están bien<br />
diferenciadas, esto es <strong>de</strong>bido a que la clasificación SOM se realiza sin supervisión,<br />
por lo que a cada clase le asigna un valor, que no tiene porque coincidir con el valor<br />
que tiene esa clase asignado en la verdad terreno. La Fig. 4.21 (b) ocurre lo mismo.<br />
Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc<br />
1000it. Acierto 84.7%<br />
Analizando la matriz <strong>de</strong> confusión obtenida vemos que las clases tienen la<br />
mayoría <strong>de</strong> sus puntos etiquetados en una única clase y a<strong>de</strong>más normalmente<br />
<strong>diferentes</strong> <strong>de</strong>l resto, por lo que nos pue<strong>de</strong> llevar a pensar que están bien clasificados<br />
pero no con las mismas etiquetas que la verdad terreno, partiendo <strong>de</strong> esta base se ha<br />
elaborado la tabla 4.9.<br />
81
SOM 10 patrones por clase 50 patrones por clase 100 patrones por clase Imagen completa<br />
Iteraciones Iteraciones Iteraciones Iteraciones<br />
Clase<br />
50 100 200 1000 50 100 200 1000 50 100 200 1000 50 100 200 1000<br />
Water 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00<br />
Parking lot 86.22 85.35 85.48 84.53 83.58 89.77 82.22 90.59 90.51 89.72 93.89 89.39 89.72 91.13 88.07 88.82<br />
Asphalt 61.63 62.99 62.99 64.67 64.99 56.43 67.95 54.76 54.20 57.68 43.33 58.08 57.68 51.40 57.20 56.08<br />
Brick roofs 64.51 67.13 67.19 64.86 45.67 69.60 52.34 72.49 43.19 57.53 41.27 74.42 57.53 59.63 58.89 57.60<br />
Bare soil 81.40 86.21 81.75 80.99 78.87 47.77 78.52 83.51 46.30 51.44 51.35 85.67 51.44 10.09 56.08 55.37<br />
Bitumen 25.09 9.76 24.74 1.74 0.00 97.56 25.78 15.33 98.95 98.60 0.70 4.90 98.60 50.87 0.00 0.00<br />
Meadows 96.87 96.47 96.33 97.00 96.20 35.81 96.07 93.38 94.55 94.54 94.86 92.93 94.54 63.12 58.45 56.04<br />
Trees 69.49 70.66 18.83 67.45 77.08 74.16 73.87 72.55 74.89 80.70 69.78 71.05 80.70 88.76 89.77 88.60<br />
Shadows 20.75 21.58 20.75 20.75 20.75 0.00 20.75 20.33 15.77 17.50 20.95 19.58 17.50 0.83 15.42 15.42<br />
Total 83.46 84.37 81.70 83.30 81.30 72.53 82.29 84.46 78.99 81.52 76.93 84.70 77.74 71.10 74.81 74.20<br />
Tabla 4.10 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SOM utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (10,<br />
50, 100 patrones por clase y la imagen completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento.
4.5.3 MLP<br />
Los resultados <strong>de</strong> MLP que se presentan en la tabla 4.10 correspon<strong>de</strong>n a las<br />
clasificaciones obtenidas para la imagen DAIS 7915 sobre Pavia completa,<br />
seleccionando un conjunto <strong>de</strong> entrenamiento <strong>de</strong> 5, 10, 20 y 50% progresivamente y<br />
los resultados obtenidos para los mismos porcentajes usando la imagen transformada,<br />
ya sea mediante la técnica PCA o MNF.<br />
La reducción en el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia es poca, ya que<br />
pasamos <strong>de</strong> tener 40 bandas a tener 20, en el caso <strong>de</strong> la reducción <strong>de</strong> AVIRIS Indian<br />
Pines era más lógico y necesario ya que reducíamos <strong>de</strong> 202 a 20 bandas,<br />
produciéndose una mejora consi<strong>de</strong>rable. Con la imagen <strong>de</strong> Pavia los resultados son ya<br />
muy buenos con la imagen completa, estas transformaciones las aplicamos para<br />
comparar luego los resultados <strong>de</strong> las dos imágenes, pero realmente no serían<br />
necesarias.<br />
Los resultados <strong>de</strong> la tabla 4.10 van <strong>de</strong>s<strong>de</strong> 97.73% en el caso con un menor<br />
tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento y la imagen completa a 99.44% en el caso <strong>de</strong><br />
mayor entrenamiento y reducción MNF. Como vemos los valores varían muy poco a<br />
medida que aumenta el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, y es que para la<br />
imagen DAIS 7915 sobre Pavia los resultados son tan buenos que con poco training<br />
ya obtenemos unos resultados buenos.<br />
Comparando los resultados entre sí po<strong>de</strong>mos afirmar que la reducción MNF es<br />
mejor que la reducción PCA ya que en todos los casos es superior el porcentaje <strong>de</strong><br />
acierto que se consigue al realizar el preprocesamiento con MNF.<br />
Para obtener estos resultados hemos realizado varias pruebas, primero poniendo<br />
un número limitado <strong>de</strong> iteraciones a 1000, obteníamos resultados entorno al 75%,<br />
como eran resultados bajos, dada las características <strong>de</strong> esta imagen, <strong>de</strong>cidimos reducir<br />
la tasa <strong>de</strong> aprendizaje para que la red aprendiera más lentamente y por tanto llegase a<br />
un punto <strong>de</strong> convergencia mejor, aumentando por supuesto el número <strong>de</strong> iteraciones<br />
máximo, ya que al apren<strong>de</strong>r más lento necesita más tiempo. Los resultados con una<br />
tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.001 y 10,000 iteraciones hemos llegado a obtener los<br />
resultados que se presentan a continuación. El tiempo empleado no es muy elevado,<br />
ya que el número <strong>de</strong> bandas <strong>de</strong> las imágenes no es alto, ni tampoco el número<br />
máximo <strong>de</strong> iteraciones permitido.
MLP 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />
Imagen<br />
Imagen<br />
Imagen<br />
Imagen<br />
Clase<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
completa<br />
completa<br />
completa<br />
completa<br />
Shadows 97.96 92.53 98.34 97.08 95.44 99.17 100 98.76 100.00 99.56 99.59 99.59<br />
Water 93.98 99.79 99.86 97.67 99.98 99.98 97.99 99.79 99.79 93.49 99.95 99.98<br />
Parking lot 99.79 71.18 71.88 99.79 83.33 94.10 99.79 90.97 88.54 99.81 95.14 95.49<br />
Asphalt 77.18 98.47 98.94 93.36 98.06 98.65 93.36 99.06 99.12 98.34 99.59 99.59<br />
Brick roofs 88.54 99.73 99.78 91.32 99.69 99.82 92.01 99.73 99.82 93.40 99.96 99.96<br />
Bare soil 99.82 98.51 97.76 99.55 98.31 96.47 99.06 98.51 99.05 99.96 98.24 98.64<br />
Bitumen 94.24 95.77 92.99 97.63 99.56 99.42 98.51 99.42 99.85 99.32 99.71 99.85<br />
Meadows 98.68 96.39 97.75 96.66 99.12 99.12 98.14 98.63 98.71 99.55 98.47 98.63<br />
Trees 98.59 98.18 98.76 97.29 97.98 98.23 98.71 97.94 98.02 99.47 98.97 99.17<br />
Total 97.73 98.07 98.27 98.14 98.71 98.92 98.75 98.95 99.04 99 99.33 99.44<br />
Tabla 4.11 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente<br />
(5%, 10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).
Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto <strong>de</strong> entrenamiento<br />
<strong>de</strong>l 20% con un resultado <strong>de</strong> 98.75% y (b) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.<br />
La selección <strong>de</strong> unos parámetros es una tarea muy importante, que pue<strong>de</strong> hacer<br />
obtener una mala clasificación. La Fig. 4.23 (a) correspon<strong>de</strong> a la clasificación MLP<br />
con una tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.2 y rms 0.1 y 1000 iteraciones, la Fig (b) es la<br />
clasificación MLP con los parámetros learning rate 0.001 y el número <strong>de</strong> iteraciones<br />
superior 10000. Po<strong>de</strong>mos ver como la clasificación (b) es una aproximación más<br />
exacta a la verdad terreno (c). En la Fig. (a) vemos que tiene clases clasificadas<br />
incorrectamente, el bitumen (color rojo) esta clasificado como azul, o el asfalto (color<br />
blanco) como amarillo y el ver<strong>de</strong> claro por amarillo también. Por ello el porcentaje <strong>de</strong><br />
acierto es 72.3757% y el porcentaje <strong>de</strong> la imagen central 95.3240%.<br />
Fig. 4.23 (a) Clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia con un entrenamiento 20%<br />
learning rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y<br />
10000 iteraciones. (c) Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
4.5.4 SVM<br />
El primer análisis realizado sobre el clasificador SVM con la imagen DAIS<br />
7915 sobre Pavia, ha consistido en realizar pruebas con distintos kernel, al igual que<br />
para la imagen AVIRIS Indian Pines. Los mejores resultados son los obtenidos por el<br />
kernel lineal como se pue<strong>de</strong> ver en la tabla 4.7 y los peores los <strong>de</strong>l kernel sigmoi<strong>de</strong>,<br />
los kernel RBF y polinómico ofrecen resultados intermedios.<br />
Los resultados van <strong>de</strong> 94.81% en el caso <strong>de</strong>l kernel sigmoi<strong>de</strong>o con un<br />
entrenamiento <strong>de</strong>l 5% (Fig. 4.24(a)), a 98.97% en el caso <strong>de</strong>l kernel lineal con un<br />
training <strong>de</strong>l 50% (Fig. 4.24 (b)). Con esto queremos <strong>de</strong>cir que todos los resultados<br />
son buenos, incluso el peor, ya que un porcentaje <strong>de</strong> acierto <strong>de</strong>l 94% da una<br />
clasificación muy fiable.<br />
Como es lógico a medida que aumentamos el porcentaje <strong>de</strong> puntos <strong>de</strong><br />
entrenamiento, también aumenta el porcentaje <strong>de</strong> aciertos, siendo en todos los casos<br />
el mismo or<strong>de</strong>n <strong>de</strong> clasificación, la mejor es la obtenida por el kernel lineal, en<br />
segundo y tercer lugar el kernel Radial Basis Function (RBF) o polinomial muy<br />
próximos entre sí y en cuarto lugar el kernel sigmoi<strong>de</strong>.<br />
El 5% <strong>de</strong> diferencia <strong>de</strong> acierto entre la Fig. 4.24(a) y la Fig 4.24 (b) es<br />
inapreciable, las dos clasificaciones son muy similares a la verdad terreno, Fig<br />
4.24(c)<br />
Fig. 4.24 (a) clasificación SVM con kernel sigmoi<strong>de</strong> y 5% <strong>de</strong> entrenamiento. (b) clasificación<br />
SVM con el kernel lineal y 50% <strong>de</strong> entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c)<br />
Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre PAVIA.<br />
86
SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />
KEREL KEREL KEREL KEREL<br />
Clase<br />
RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm.<br />
Shadows 46.47 80.08 44.4 45.23 56.02 87.55 52.28 45.64 84.65 89.63 85.06 84.23 85.06 99.17 84.65 70.95<br />
Water 99.79 99.86 99.79 99.79 99.79 99.98 99.79 99.79 99.79 99.79 99.79 99.79 99.79 99.98 99.79 99.79<br />
Parking lot 79.51 69.44 79.51 87.85 82.29 85.42 82.64 87.15 82.64 92.36 82.99 83.33 87.85 93.06 88.54 84.38<br />
Asphalt 98.65 98.47 98.65 96.29 97.17 96.53 97.23 95.47 97.29 98.59 97.29 96.7 98.23 98.71 98.23 97.41<br />
Brick roofs 98.03 99.55 97.94 95.31 98.3 99.69 98.44 95.58 98.44 99.37 98.53 96.56 99.46 99.78 99.46 98.44<br />
Bare soil 91.66 95.12 92.20 89.76 95.12 97.42 95.19 92.54 95.66 97.22 95.46 93.56 95.46 97.49 95.53 93.90<br />
Bitumen 85.99 92.55 85.99 86.28 91.53 97.66 91.82 88.76 95.33 99.71 95.77 90.66 96.93 99.56 96.93 91.68<br />
Meadows 95.26 95.34 94.78 93.65 97.59 98.39 97.59 96.87 97.27 98.15 97.27 96.71 97.03 98.23 97.11 96.22<br />
Trees 96.78 97.98 96.74 96.37 96.37 96.74 96.2 96.08 96.91 97.48 96.86 96.66 97.24 98.47 97.28 97.07<br />
Total 95.74 97.2 95.7 94.81 96.57 97.99 96.53 95.37 97.38 98.48 97.4 96.51 97.84 98.97 97.87 96.79<br />
Tabla 4.12 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial,<br />
lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).
La Fig. 4.25 correspon<strong>de</strong> a las pruebas realizadas con la imagen DAIS 7915<br />
sobre Pavia probando la red SVM con <strong>diferentes</strong> kernel. Son todas ellas muy<br />
similares y con un gran porcentaje <strong>de</strong> acierto. La Fig. (a), la clasificación lineal es la<br />
que más se aproxima a la verdad terreno, con un porcentaje <strong>de</strong> un 98.4847%, la Fig.<br />
(b), la clasificación polinómica y la Fig. (c), la clasificación RBF, son bastante<br />
similares entre sí, con porcentajes <strong>de</strong> acierto <strong>de</strong> 97.4014% para la primera y<br />
97.3809% para la segunda, la Fig. (d), es la que tiene un porcentaje <strong>de</strong> acierto más<br />
bajo, un 96.5150%. Pero la diferencia es muy poca entre ellas e inapreciable si<br />
tuviéramos que <strong>de</strong>cidir cual es la más perfecta.<br />
Fig. 4.25 Clasificación SVM con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20% y distintos kernel, (a)<br />
lineal, (b) polinómico, (c) RBF, (d) sigmoi<strong>de</strong> para la imagen DAIS 7915 sobre PAVIA.<br />
4.5.4.1 SVM sobre una imagen con transformación MF y PCA.<br />
La tabla <strong>de</strong> la 4.9 compara los resultados obtenidos para la clasificación <strong>de</strong> la<br />
red SVM con los resultados obtenidos por las clasificaciones MNF y PCA <strong>de</strong> 20<br />
bandas, seleccionando en todos los casos un kernel lineal, ya que era el que mejores<br />
resultados obtenía en la clasificación comparativa <strong>de</strong> los kernel.
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5%, vemos como las dos clases que<br />
tienen un número menor <strong>de</strong> píxeles <strong>de</strong> entrenamiento obtienen una peor clasificación,<br />
las clases shadows y parking lot, siendo esta mayor en el caso <strong>de</strong> la clasificación<br />
normal, <strong>de</strong>bido a que la relación entre el número <strong>de</strong> bandas (40) y el número <strong>de</strong><br />
píxeles <strong>de</strong> entrenamiento es (12 ó 15) es baja. Por eso vemos que se aprecia una ligera<br />
ventaja para el caso <strong>de</strong> acierto en PCA y MNF.<br />
A medida que va aumentando el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento las<br />
diferencias entre los resultados son menores. Pero siempre la relación entre ellos se da<br />
en el mismo or<strong>de</strong>n, es <strong>de</strong>cir, en todos los casos es mejor la clasificación obtenida por<br />
la transformación MNF 20 bandas, en segunda posición PCA (también 20 bandas) y<br />
en tercera la clasificación con todas las bandas.<br />
Si intentamos ver las diferencias <strong>de</strong> las tabla 4.13 con las imágenes obtenidas <strong>de</strong><br />
estas clasificaciones, es muy difícil, ya que todas son muy buenas clasificaciones, y<br />
son muy pocos los píxeles <strong>de</strong> diferencias entre unas y otras.<br />
En la Fig 4.26 vemos como las diferencias entre la imagen (a) y (b) son<br />
inapreciables, habría que ir comparando píxel a píxeles para ver las diferencias con la<br />
verdad terreno, aun así las diferencias entre ambos resultados son mínimas <strong>de</strong> un<br />
98.71% <strong>de</strong> la Fig 4.26 (a), PCA con un 10% <strong>de</strong> entrenamiento, a un 98.92% <strong>de</strong> la Fig<br />
4.26 (b), resultado <strong>de</strong> MNF con un 10% <strong>de</strong> entrenamiento también.<br />
Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto <strong>de</strong>l 20% <strong>de</strong>l<br />
tamaño total <strong>de</strong> píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF.<br />
89
SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />
Imagen<br />
Imagen<br />
Imagen<br />
Imagen<br />
Clase<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
PCA MF<br />
completa<br />
completa<br />
completa<br />
completa<br />
Shadows 80.08 92.53 98.34 87.55 95.44 99.17 89.63 98.76 100.00 99.17 99.59 99.59<br />
Water 99.86 99.79 99.86 99.98 99.98 99.98 99.79 99.79 99.79 99.98 99.95 99.98<br />
Parking lot 69.44 71.18 71.88 85.42 83.33 94.10 92.36 90.97 88.54 93.06 95.14 95.49<br />
Asphalt 98.47 98.47 98.94 96.53 98.06 98.65 98.59 99.06 99.12 98.71 99.59 99.59<br />
Brick roofs 99.55 99.73 99.78 99.69 99.69 99.82 99.37 99.73 99.82 99.78 99.96 99.96<br />
Bare soil 95.12 98.51 97.76 97.42 98.31 96.47 97.22 98.51 99.05 97.49 98.24 98.64<br />
Bitumen 92.55 95.77 92.99 97.66 99.56 99.42 99.71 99.42 99.85 99.56 99.71 99.85<br />
Meadows 95.34 96.39 97.75 98.39 99.12 99.12 98.15 98.63 98.71 98.23 98.47 98.63<br />
Trees 97.98 98.18 98.76 96.74 97.98 98.23 97.48 97.94 98.02 98.47 98.97 99.17<br />
Total 97.20 98.07 98.27 98.00 98.71 98.92 98.48 98.95 99.04 98.98 99.33 99.44<br />
Tabla 4.13 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente<br />
(5%, 10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).
4.5.5 Resumen DAIS 7915 sobre Pavia<br />
La imagen DAIS 7915 sobre Pavia obtiene muy buenos resultados <strong>de</strong><br />
clasificación, como hemos podido ver en los apartados anteriores, estando todos en un<br />
rango <strong>de</strong> 90 a 100%.<br />
Con el método ML se ha podido realizar un entrenamiento con la imagen<br />
completa, ya que al tener conjuntos con un gran número <strong>de</strong> patrones <strong>de</strong><br />
entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha<br />
permitido po<strong>de</strong>r llevar a cabo el entrenamiento y su posterior clasificación,<br />
obteniendo buenos resultados. A pesar <strong>de</strong> que es un clasificador sencillo sus<br />
resultados van <strong>de</strong>s<strong>de</strong> el 95% (cuando entrenamos con la imagen completa) y el 97%<br />
(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% <strong>de</strong> los<br />
píxeles etiquetados <strong>de</strong> la imagen, al 99% cuando entrenamos con un 50%. Los<br />
resultados son buenos, pero este clasificador tiene el inconveniente <strong>de</strong> necesitar que el<br />
tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento sea superior al número <strong>de</strong> bandas,<br />
pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines.<br />
La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un<br />
85%, <strong>de</strong>bido a que es una red que apren<strong>de</strong> sin supervisión, <strong>de</strong> ahí que algunas <strong>de</strong><br />
clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que<br />
se produce una mala clasificación.<br />
La red MLP obtiene buenos resultados, sus porcentajes <strong>de</strong> acierto varían entre<br />
un 98 y un 99.5% aproximadamente. Esta red trabaja <strong>de</strong> forma más lenta, pero gracias<br />
a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un<br />
tiempo mo<strong>de</strong>rado.<br />
Por ultimo el clasificador SVM aúna dos características buenos resultados, entre<br />
un 98 y 99.5%, como en el caso <strong>de</strong> MLP pero con unos tiempos <strong>de</strong> procesamiento<br />
más rápidos.<br />
Cualquiera <strong>de</strong> los métodos empleados (ML, SOM, MLP o SVM) para analizar<br />
esta imagen obtiene unos resultados muy buenos <strong>de</strong>bido a que esta imagen tiene<br />
pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad <strong>de</strong><br />
píxeles etiquetados.
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
4.6 Discusión <strong>de</strong> resultados y análisis <strong>comparativo</strong><br />
En este apartado haremos una comparativa entre los distintos métodos que<br />
hemos presentado anteriormente para cada una <strong>de</strong> las imágenes y también entre ellas.<br />
Primero empezaremos haciendo una evaluación <strong>de</strong> AVIRIS Indian Pines, para<br />
continuar con la imagen DAIS 7915 sobre Pavia y terminar haciendo una comparativa<br />
entre las dos. Para la imagen AVIRIS Indian Pines al igual que la imagen DAIS 7915<br />
sobre Pavia hemos probado 2 clasificadores, SVM y Maximum likelihood, y dos<br />
re<strong>de</strong>s <strong>neuronales</strong>, MLP y SOM.<br />
En la Fig. 4.27 comparamos los resultados <strong>de</strong> ML, con la imagen DAIS 7915<br />
sobre Pavia son mejores que con AVIRIS Indian Pines. A pesar <strong>de</strong> ser un método<br />
simple da buenos resultados, en todos los casos superiores a un 75% <strong>de</strong> acierto. Para<br />
el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia, la diferencia entre MNF y PCA no se<br />
aprecia porque es muy reducida. Para la imagen AVIRIS Indian Pines, el resultado es<br />
mejor para el caso MNF.<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
ML_MNF_IP ML_PCA_IP ML_MNF_PA ML_PCA_PA<br />
100<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian<br />
Pines y la imagen DAIS 7915 sobre Pavia<br />
La Fig. 4.28 muestra los resultados <strong>de</strong> la clasificación SOM obtenidos para la<br />
imagen DAIS 7915 sobre Pavia con los <strong>diferentes</strong> parámetros que se han utilizado.<br />
Cada una <strong>de</strong> las líneas indica el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento por clase, es<br />
<strong>de</strong>cir, los píxeles seleccionados para el aprendizaje para cada una <strong>de</strong> las clases,<br />
teniendo un total <strong>de</strong> 9 clases, tenemos conjuntos <strong>de</strong> entrenamiento <strong>de</strong> 90, 450 y 900<br />
píxeles <strong>de</strong> entrenamiento, que en comparación con el número total 14.585 hace que<br />
92
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
hayamos utilizado un valor muy bajo <strong>de</strong> porcentaje <strong>de</strong> entrenamiento. Al realizar las<br />
pruebas con la imagen completa vemos como los resultados no mejoran, <strong>de</strong>bido a que<br />
en este momento los datos son mucho más amplios y hemos utilizado el mismo<br />
número <strong>de</strong> iteraciones.<br />
% Pixels correctamente<br />
clasificados<br />
% Clasificación al aumentar el número <strong>de</strong> iteraciones<br />
88<br />
86<br />
84<br />
82<br />
80<br />
78<br />
76<br />
74<br />
72<br />
70<br />
10 50 100 Imagen completa<br />
50 100 200 1000<br />
Numero iteraciones<br />
Fig. 4.28 Resultados <strong>de</strong> la clasificación SOM<br />
La red MLP es lenta cuando intentamos trabajar con imágenes con un gran<br />
número <strong>de</strong> bandas, por eso como se explicó en el apartado 4.5 no se ha podido<br />
finalizar el estudio con los conjuntos <strong>de</strong> entrenamiento <strong>de</strong> un 20 y un 50% cuando se<br />
utilizaba la imagen completa.<br />
La Fig. 4.29 muestra los resultados obtenidos al utilizar esta red con la imagen<br />
<strong>de</strong> Indian Pines entera, para los casos <strong>de</strong>l 5 y 10% y los resultados obtenidos<br />
utilizando el preprocesamiento PCA y MNF. Los mejores resultados son los<br />
obtenidos tras aplicar el preprocesamiento MNF.<br />
En esta comparación parece que el resultado obtenido al clasificar con la<br />
imagen completa es mejor que con la reducción PCA, pero es que el error permitido<br />
en uno y otro no era el mismo. Para <strong>de</strong>terminar la convergencia que <strong>de</strong>bía alcanzar la<br />
red se marcó un número <strong>de</strong> iteraciones elevado 100.000 y un error bajo <strong>de</strong> 0,1, cada<br />
uno <strong>de</strong> las imágenes tuvo un error mínimo diferente, ya que ninguna salió por la cota<br />
<strong>de</strong>l error, sino por alcanzar el número <strong>de</strong> iteraciones. El valor permitido para PCA fue<br />
superior (más error) que para MNF o para la imagen completa. Al permitir mayor<br />
error el porcentaje <strong>de</strong> acierto obtenido es peor, pero la red converge antes.<br />
93
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
60<br />
Imagen completa PCA MNF<br />
1 2 3 4<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines<br />
Los resultados al entrenar la red MLP con la imagen DAIS 7915 sobre Pavia<br />
(véase Fig. 4.30) son mucho mejores, ya que el valor más bajo obtenido en este caso<br />
es bastante superior que el obtenido con la imagen AVIRIS Indian Pines, con esta<br />
imagen los resultados están comprendidos en un rango que abarca <strong>de</strong>s<strong>de</strong> el 70% al<br />
86%, mientras que para la imagen DAIS 7915 sobre Pavia este rango compren<strong>de</strong> <strong>de</strong>l<br />
97% al 99%.<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
100<br />
99<br />
98<br />
97<br />
Imagen completa PCA MNF<br />
5% 10% 20% 50%<br />
Tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia<br />
94
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Para po<strong>de</strong>r obtener los resultados que en las Fig. 4.31 se muestran ha sido<br />
necesario realizar muchas pruebas, las cuales <strong>de</strong>bido al peso <strong>de</strong> las imágenes han<br />
empleado, junto con el gran número <strong>de</strong> iteraciones que se han realizado han llevado<br />
mucho tiempo. La clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia es muy superior<br />
a la <strong>de</strong> AVIRIS Indian Pines, mientras que para esta última vemos perfectamente cada<br />
una <strong>de</strong> las representaciones <strong>de</strong> resultados, para el caso <strong>de</strong> Pavia los porcentajes se<br />
encuentran muy agrupados en la franja <strong>de</strong>l 95 al 100%.<br />
% Pixels correctamente<br />
clasificados<br />
100<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
% Clasificación al aumentar conjunto <strong>de</strong><br />
entrenamiento<br />
Im. Cmplt PCA MNF Im. Cmplt PCA MNF<br />
Tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre<br />
Pavia<br />
La Fig. 4.32 es una comparativa <strong>de</strong> los resultados obtenidos para la imagen<br />
AVIRIS Indian Pines en la clasificación SVM para cada uno <strong>de</strong> los kernel. El kernel<br />
lineal <strong>de</strong>staca sobre los <strong>de</strong>más. Con valores ligeramente inferiores a los obtenidos con<br />
el kernel lineal se encuentran los resultados obtenidos por los kernel RBF y<br />
polinomial, que tienen valores muy similares, prácticamente se superponen y<br />
finalmente el kernel sigmoi<strong>de</strong>, que es el que peores resultados refleja.<br />
Si comparamos los distintos kernel <strong>de</strong> SVM para la imagen DAIS 7915 sobre<br />
Pavia, la figura que obtenemos es la Fig. 4.33, don<strong>de</strong> vemos que los resultados<br />
obtenidos son bastante similares en cuanto a la forma, es <strong>de</strong>cir, la figura presenta el<br />
mismo aspecto, pero el rango <strong>de</strong> valores representado en la Fig. 4.33 es superior y<br />
más limitado, los resultados están comprendidos entre el 94% y el 100%.<br />
95
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
% Píxels correctamente clasificados<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
60<br />
55<br />
50<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
RBF Lineal Polinómico Sigmoi<strong>de</strong><br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
100<br />
99<br />
98<br />
97<br />
96<br />
95<br />
94<br />
rbf lineal polinómico sigmoi<strong>de</strong><br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia<br />
Si comparamos los resultados <strong>de</strong> la Fig.s 4.32 y 4.33 nos damos cuenta que la<br />
clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia es mejor que la <strong>de</strong> AVIRIS Indian<br />
Pines. El porcentaje más bajo para la imagen DAIS 7915 sobre Pavia es 94%<br />
mientras que el resultado más elevado en la clasificación <strong>de</strong> AVIRIS Indian Pines es<br />
90%<br />
En la Fig. 4.34 po<strong>de</strong>mos ver como las clasificaciones MNF y PCA comienzan<br />
con un porcentaje <strong>de</strong> acierto mejor que la clasificación con la imagen completa, pero<br />
96
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
su crecimiento es más mo<strong>de</strong>rado. En todos los casos la clasificación MNF es superior<br />
a la clasificación PCA.<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
100<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
Imagen completa PCA MNF<br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines<br />
La clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia para el algoritmo<br />
SVM correspon<strong>de</strong> a la Fig. 4.35. La reducción en cuanto al número <strong>de</strong> bandas <strong>de</strong> 40 a<br />
20, no era necesaria, ya que obteníamos muy buenos resultados con la imagen<br />
completa, pero para po<strong>de</strong>r comparar los resultados obtenidos con las dos imágenes se<br />
ha creído necesario realizar esta compresión <strong>de</strong> datos.<br />
Con la transformación <strong>de</strong> la imagen MNF es con la clasificación con la que se<br />
obtienen mejores resultados, siempre por encima <strong>de</strong>l resto. Aunque muy cercanos a la<br />
transformación PCA. Todos los resultados son superiores al 97%, seleccionando en<br />
todos los casos un kernel lineal, ya que es con el que mejores resultados obtuvimos.<br />
97
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
% Píxels correctamente clasificados<br />
100<br />
99<br />
98<br />
97<br />
96<br />
95<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
Imagen completa PCA MNF<br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre<br />
Pavia<br />
En cuanto al tiempo empleado, la diferencia entre unos algoritmos y otros es<br />
muy gran<strong>de</strong>, lo po<strong>de</strong>mos ver en la Fig. 4.36 don<strong>de</strong> se representan para las distintas<br />
pruebas que hemos hecho el tiempo máximo y mínimo que tardarían bajo las mismas<br />
condiciones (<strong>de</strong>ntro <strong>de</strong> lo posible).<br />
El tiempo mínimo correspon<strong>de</strong> al tiempo empleado en realizar las pruebas con<br />
un porcentaje <strong>de</strong>l 5%. Y el máximo con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 50%.<br />
Como la red SOM no utiliza estos porcentajes <strong>de</strong> entrenamiento simplemente hemos<br />
utilizado su clasificación más ligera, con menos patrones <strong>de</strong> aprendizaje, y más<br />
pesada, con más patrones <strong>de</strong> aprendizaje.<br />
La Fig. 4.36 muestra las diferencias <strong>de</strong> tiempo empleadas por los métodos<br />
analizados, estos tiempos son una aproximación medida en minutos. Hay una clara<br />
diferencia entre los métodos con un procesamiento más lento y aquellos más veloces,<br />
pero a<strong>de</strong>más tenemos que tener en cuenta que para po<strong>de</strong>r compararlos y que se<br />
apreciara hemos incluido en los nombres un factor <strong>de</strong> escala, siendo el caso <strong>de</strong> MLP<br />
con la imagen AVIRIS Indian Pines, tendríamos que multiplicar los minutos aquí<br />
indicados por 1000. Con lo que llegamos a la conclusión <strong>de</strong> que el tiempo empleados<br />
por SVM o ML es <strong>de</strong> unos pocos minutos, mientras que para SOM o MLP el tiempo<br />
que lleva su utilización es <strong>de</strong> horas, días e incluso semanas.<br />
98
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
Minutos empleados<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
IP_SVM<br />
IP_SVM_MNF<br />
IP_ML<br />
IP_MLP x1000<br />
TIEMPO UTILIZADO<br />
IP_MLP_MNF x100<br />
PAV_SVM<br />
PAV_SVM_MNF<br />
PAV_ML<br />
PAV_ML_MNF<br />
PAV_MLP x100<br />
PAV_MLP_MNF x100<br />
PAV_SOM x10<br />
Fig. 4.36 Tiempo empleado por los <strong>diferentes</strong> clasificadores<br />
Después <strong>de</strong> observar la Fig. 4.36 llegamos a la conclusión anterior el algoritmo<br />
que peor se comporta es MLP, con la imagen AVIRIS Indian Pines. Y es que con la<br />
imagen DAIS 7915 sobre Pavia no ocurre lo mismo por tener ésta muchas menos<br />
bandas.<br />
Fijándonos en la Fig. 4.37 po<strong>de</strong>mos ver como la clasificación MLP tiene un<br />
crecimiento más lento, mientra que los métodos SVM y ML crecen a la par a media<br />
que aumentan los conjuntos <strong>de</strong> entrenamiento. Pero el caso <strong>de</strong> ML requiere <strong>de</strong> un<br />
preprocesamiento para po<strong>de</strong>r llevarse a cabo, luego po<strong>de</strong>mos concluir que el método<br />
que mejor funciona con la imagen <strong>de</strong> AVIRIS Indian Pines es SVM, su tiempo es<br />
reducido y su tasa <strong>de</strong> acierto bastante elevada.<br />
99
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
% Píxels correctamente<br />
clasificados<br />
100<br />
95<br />
90<br />
85<br />
80<br />
75<br />
70<br />
65<br />
60<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
SVM ML_MNF MLP<br />
1 2 3 4<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.37 Clasificación general AVIRIS Indian Pines<br />
La Fig. 4.38 presenta los resultados generales <strong>de</strong> clasificación para la imagen<br />
DAIS 7915 sobre Pavia, los resultados son mejores que en el caso <strong>de</strong> AVIRIS Indian<br />
Pines, como la imagen analizada tiene menos bandas y las clases son totalmente<br />
separables da lugar a mejores resultados para todos los métodos. Siendo a<strong>de</strong>más estos<br />
más próximos entre sí. De todas formas po<strong>de</strong>mos concluir que aunque los mejores<br />
resultados son los <strong>de</strong> ML, los <strong>de</strong> SVM no han necesitado preprocesamiento. Y como<br />
son ligeramente superiores a los <strong>de</strong> MLP a medida que aumenta el conjunto <strong>de</strong><br />
entrenamiento, po<strong>de</strong>mos <strong>de</strong>cir que SVM es el que mejor resultados nos ofrece para la<br />
imagen DAIS 7915 completa.<br />
100
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
% Píxels correctamente<br />
clasificados<br />
% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />
100<br />
99,5<br />
99<br />
98,5<br />
98<br />
97,5<br />
97<br />
96,5<br />
96<br />
SVM ML MLP<br />
5% 10% 20% 50%<br />
Tamaño conjunto <strong>de</strong> entrenamiento<br />
Fig. 4.38 Clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />
Los resultados <strong>de</strong> la SOM no han sido incluidos en esta figura <strong>de</strong>bido a que al<br />
estar distantes con respecto al resto <strong>de</strong> métodos haría que no pudiésemos apreciar<br />
bien la relación entre el resto <strong>de</strong> los métodos. La clasificación SOM es la que peores<br />
resultados ha obtenido. Pero a pesar <strong>de</strong> lo que parece son buenos resultados ya que no<br />
necesita supervisión. Lo que es una ventaja con respecto al resto <strong>de</strong> los métodos.<br />
El algoritmo que mejor se comporta ante los casos con poco entrenamiento es y<br />
utilizando todas las bandas <strong>de</strong> la imagen es el método SVM. Obtiene unos porcentajes<br />
<strong>de</strong> acierto superiores al resto, en algunos casos incluso cuando los otros métodos<br />
tienen características mejores, es <strong>de</strong>cir, mayor número <strong>de</strong> iteraciones, número <strong>de</strong><br />
bandas <strong>de</strong> la imagen, etc. Es un clasificador más robusto ante datos altamente<br />
dimensionales, mientras que el resto <strong>de</strong> métodos realmente necesitan la<br />
correspondiente reducción dimensional para evitar los efectos muy negativos <strong>de</strong> usar<br />
poco training o requieren <strong>de</strong> un aumento excesivo <strong>de</strong>l número <strong>de</strong> iteraciones, lo que<br />
conlleva un aumento <strong>de</strong>l tiempo consi<strong>de</strong>rable.<br />
101
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
5 Conclusiones y líneas futuras <strong>de</strong> trabajo<br />
En el presente trabajo se ha <strong>de</strong>sarrollado un <strong>de</strong>tallado análisis cuantitativo y<br />
<strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> clasificadores para el tratamiento <strong>de</strong> datos hiperespectrales.<br />
Los cuatro clasificadores comparados (ML, SOM, MLP y SVM) cubren un rango <strong>de</strong><br />
técnicas altamente representativas <strong>de</strong>l estado <strong>de</strong>l arte en análisis <strong>de</strong> datos<br />
hiperespectrales, incluyendo técnicas clásicas como ML, <strong>arquitecturas</strong> <strong>neuronales</strong> con<br />
<strong>diferentes</strong> tipos <strong>de</strong> aprendizaje (SOM, MLP) y clasificadores avanzados capaces <strong>de</strong><br />
funcionar <strong>de</strong> forma muy precisa ante datos altamente dimensionales y en presencia <strong>de</strong><br />
conjuntos <strong>de</strong> entrenamiento con un número <strong>de</strong> patrones muy limitado (SVM). Dicho<br />
estudio se ha efectuado utilizando dos imágenes hiperespectrales altamente<br />
representativas (AVIRIS Indian Pines y DAIS 7915 sobre Pavia) lo cual ha<br />
posibilitado un estudio <strong>de</strong>tallado <strong>de</strong> <strong>diferentes</strong> ca<strong>de</strong>nas <strong>de</strong> procesamiento basadas en<br />
los clasificadores anteriormente mencionados con dos imágenes <strong>de</strong> referencia en la<br />
comunidad científica. Conviene <strong>de</strong>stacar que el estudio realizado incluye aspectos <strong>de</strong><br />
gran interés, tales como el impacto <strong>de</strong> técnicas <strong>de</strong> reducción dimensional (MNF y<br />
PCA) y el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento empleado en los resultados<br />
proporcionados por los distintos clasificadores. En la literatura no existe tal estudio<br />
<strong>comparativo</strong> hasta la fecha, por lo que la variedad <strong>de</strong> resultados obtenidos y las<br />
interesantes conclusiones que su análisis ha dado lugar pue<strong>de</strong>n representar una<br />
contribución <strong>de</strong> gran valor a la literatura existente en cuanto a clasificación <strong>de</strong> datos<br />
hiperespectrales y, en particular, en el caso concreto <strong>de</strong> disponer <strong>de</strong> un conjunto<br />
limitado <strong>de</strong> datos <strong>de</strong> entrenamiento, lo cual suele ser la situación habitual en<br />
aplicaciones reales dada la gran dificultad y elevado coste <strong>de</strong> obtener información <strong>de</strong><br />
referencia a priori mediante estudios <strong>de</strong> campo.<br />
Teniendo en cuenta las contribuciones anteriormente <strong>de</strong>stacadas, es importante<br />
mencionar que los resultados obtenidos en el presente trabajo se han logrado a partir<br />
<strong>de</strong> conjuntos <strong>de</strong> entrenamiento seleccionados aleatoriamente entre los datos que los<br />
archivos ROI nos proporcionaban, obteniéndose conjuntos <strong>de</strong> datos <strong>de</strong>l 5, 10 20 y<br />
hasta 50%. En este sentido, se ha observado que se obtienen mejores resultados<br />
cuanto mayor es el número <strong>de</strong> píxeles utilizados en el entrenamiento. Sin embargo,<br />
resulta interesante <strong>de</strong>stacar que algunos clasificadores (como la técnica SVM)<br />
permiten obtener resultados son muy buenos con un número muy limitado <strong>de</strong><br />
patrones, gracias a las características concretas <strong>de</strong>l clasificador. En este sentido, el<br />
102
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
estudio <strong>comparativo</strong> realizado en el presente trabajo pue<strong>de</strong> ofrecer una guía<br />
interesante al usuario estándar <strong>de</strong> datos hiperespectrales a la hora <strong>de</strong> seleccionar un<br />
clasificador concreto para aplicaciones <strong>de</strong>terminadas (por este motivo, en el presente<br />
trabajo se ha optado por comparar dos casos <strong>de</strong> estudio totalmente <strong>diferentes</strong> y<br />
ampliamente representativos, tales como una aplicación <strong>de</strong> agricultura <strong>de</strong> precisión y<br />
una aplicación relacionada con monitorización <strong>de</strong> zonas urbanas).<br />
Otra <strong>de</strong> las principales contribuciones <strong>de</strong>l presente trabajo ha sido analizar el<br />
impacto <strong>de</strong> las técnicas <strong>de</strong> reucción dimensional MNF y PCA en el resultado<br />
proporcionado por los <strong>diferentes</strong> clasificadores. En este sentido, los resultados<br />
obtenidos revelan que las técnicas <strong>de</strong> preprocesamiento sólo son estrictamente<br />
necesarias en el caso <strong>de</strong> analizar la imagen AVIRIS Indian Pines al realizar la<br />
clasificación ML, ya que requiere que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento sea<br />
superior al número <strong>de</strong> bandas da la imagen. La clasificación <strong>de</strong> DAIS 7915 sobre<br />
Pavia con ML es posible sin realizar una disminución en el número <strong>de</strong> bandas <strong>de</strong> la<br />
imagen, ya que esta imagen tiene tan solo 40 bandas. Con la red MLP para la imagen<br />
AVIRIS Indian Pines los resultados obtenidos sin el preprocesamiento <strong>de</strong> la imagen<br />
necesitan muchas iteraciones para po<strong>de</strong>r finalizar y llegar a una clasificación buena,<br />
por ello aunque con esta red no sea necesario si es recomendable ya que se obtiene<br />
una buena clasificación disminuyendo consi<strong>de</strong>rablemente el tiempo <strong>de</strong><br />
procesamiento. En los casos <strong>de</strong>l 20 o el 50% <strong>de</strong>bido a la cantidad <strong>de</strong> tiempo<br />
necesaria, <strong>de</strong>spués <strong>de</strong> 3 semanas ejecutándose, no habían finalizado su entrenamiento<br />
y posterior clasificación. No ocurre lo mismo si hablamos <strong>de</strong> la imagen DAIS 7915<br />
sobre Pavia, don<strong>de</strong> el tiempo <strong>de</strong> procesamiento es mucho más reducido y por lo tanto<br />
no es necesario hacer la reducción <strong>de</strong> la imagen, pero <strong>de</strong> todas formas se ha realizado<br />
para po<strong>de</strong>r comparar los resultados entre las dos imágenes y los <strong>diferentes</strong> métodos.<br />
Con el clasificador SVM también se han empleado las técnicas <strong>de</strong> PCA y MNF sin<br />
ser estrictamente necesarias, únicamente para corroborar que los resultados <strong>de</strong><br />
clasificación (como era <strong>de</strong> esperar) pue<strong>de</strong>n resultar un tanto mejores con dicha<br />
reducción dimensional y comparar con el resto <strong>de</strong> los métodos. Sin embargo, los<br />
resultados revelan que el clasificador SVM es el menos sensible a la realización <strong>de</strong> un<br />
proceso <strong>de</strong> reducción dimensional previo ya que este clasificador es capaz <strong>de</strong> trabajar<br />
<strong>de</strong> forma precisa en presencia <strong>de</strong> muy pocos patrones <strong>de</strong> entrenamiento y datos<br />
altamente dimensionales. Finalmente, las técnicas <strong>de</strong> preprocesamiento no son<br />
tampoco estrictamente necesarias para la red neuronal SOM, pero ni con<br />
103
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
preprocesamiento ni sin el son buenos los resultados para el caso <strong>de</strong> AVIRIS Indian<br />
Pines, <strong>de</strong>bido a la no separabilidad <strong>de</strong> algunas <strong>de</strong> sus clases, unido a que el método es<br />
no supervisado. Los resultados obtenidos con la red SOM son mejores para el caso <strong>de</strong><br />
DAIS 7915 sobre Pavia. En este sentido, conviene <strong>de</strong>stacar que cuando la<br />
dimensionalidad <strong>de</strong> la imagen es más reducida (como es el caso <strong>de</strong> la imagen DAIS<br />
7915 sobre Pavia) los resultados tien<strong>de</strong>n a mejorar para todos los métodos<br />
comparados, que proporcionan valores entre un 75 y un 100% <strong>de</strong> acierto. Pero cuando<br />
el número <strong>de</strong> bandas es más elevado, como ocurre con la imagen AVIRIS Indian<br />
Pines los resultados no son tan buenos, con valores <strong>de</strong>l 50 al 90%, <strong>de</strong>pendiendo <strong>de</strong>l<br />
método empleado. Esta es una clara indicación <strong>de</strong>l fenómeno <strong>de</strong> Hughes en<br />
clasificación <strong>de</strong> datos hiperespectrales, que marca la necesidad <strong>de</strong> establecer un<br />
compromiso entre la gran dimensionalidad <strong>de</strong> los datos a clasificar y la escasez <strong>de</strong><br />
patrones <strong>de</strong> entrenamiento que suele producirse en aplicaciones reales. En este<br />
sentido, los resultados que se <strong>de</strong>rivan <strong>de</strong>l presente estudio indican que el clasificador<br />
SVM es el que mejor balance ofrece entre dimensionalidad elevada y número <strong>de</strong><br />
patrones <strong>de</strong> entrenamiento limitado, resultando un clasificador idóneo para datos<br />
hiperspectrales (la selección <strong>de</strong> un kernel concreto para el clasificador SVM también<br />
ha constituido uno <strong>de</strong> los aspectos a estudiar <strong>de</strong>ntro <strong>de</strong> las pruebas realizadas en el<br />
presente trabajo).<br />
En cuanto a las futuras líneas <strong>de</strong> trabajo <strong>de</strong>rivadas <strong>de</strong>l presente proyecto,<br />
po<strong>de</strong>mos realizar las siguientes consi<strong>de</strong>raciones. En primer lugar, en cuanto a la<br />
separabilidad <strong>de</strong> las clases en el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia, todas las<br />
clases son perfectamente separables. Sin embargo, en el caso <strong>de</strong> AVIRIS Indian Pines<br />
no es así, <strong>de</strong> las 16 etiquetadas, cuatro no son separables. Por tanto, eliminando estas<br />
clases <strong>de</strong>l conjunto <strong>de</strong> entrenamiento mejoraríamos el porcentaje <strong>de</strong> acierto. Por otra<br />
parte, la eliminación <strong>de</strong> bandas ruidosas podría permitir llegar a conseguir mejores<br />
resultados, ya que el ruido empeora los porcentajes <strong>de</strong> clasificación. A<strong>de</strong>más, el uso<br />
<strong>de</strong> otros clasificadores, incluyendo <strong>arquitecturas</strong> SVM con otros tipos <strong>de</strong> kernels (por<br />
ejemplo, espaciales-espectrales) podría dar como resultado una mejor mo<strong>de</strong>lización<br />
<strong>de</strong> clases con elevada correlación espacial, como por ejemplo las clases <strong>de</strong> la imagen<br />
DAIS 7915 sobre una zona urbana.<br />
Finalmente, proponemos como línea futura <strong>de</strong> trabajo la paralelización <strong>de</strong> los<br />
métodos empleados en <strong>arquitecturas</strong> <strong>de</strong> altas prestaciones, lo cual podría permitir<br />
obtener una significativa disminución <strong>de</strong>l tiempo <strong>de</strong> procesamiento empleado, ya que<br />
104
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
las pruebas realizadas en este documento han sido hechas con <strong>arquitecturas</strong><br />
monoprocesador. Si la misma tarea se pue<strong>de</strong> dividir entre varios procesadores, el<br />
tiempo necesario será menor, mejorando así los tiempos mostrados en el presente<br />
documento. En este sentido, la paralelización <strong>de</strong> los métodos <strong>de</strong>sarrollados pue<strong>de</strong><br />
constituir un interesante futuro trabajo <strong>de</strong> investigación.<br />
105
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
6 Referencias<br />
1. J. Bo<strong>de</strong>chtel, “Requirements on optical sensors for quantitative <strong>de</strong>finition of<br />
surface parameters multispectral - hyperspectral.” Advances in Space<br />
Research 28 (1): 241-250, 2001.<br />
2. R. N. Clark, Spectroscopy of Rocks and Minerals, and Principles of<br />
Spectroscopy. Manual of Remote Sensing, John Wiley and Sons, New York,<br />
1999a.<br />
3. R. O. Green et al., “Imaging spectroscopy and the Airborne Vsible/Infrared<br />
Imaging Spectrometer (AVIRIS)”, Remote Sens. Environ., vol. 65, 1998.<br />
4. C. -I.Chang, Q. Du. “Estimation of the number of spectrally distinct signal<br />
sources in hyperspectral imagery.” IEEE Transactions on Geoscience and<br />
Remote Sensing, 42:608-619, 2004.<br />
5. A. Plaza and C.-I Chang. “High Performance Computing in Remote Sensing”.<br />
Chapman & Hall/CRC Press, Computer & Information Science Series, Taylor<br />
& Francis, Boca Raton: Florida, 2007.<br />
6. C.-I Chang “Hyperspectral Imaging: Techniques for Spectral Detection and<br />
Classification”. Kluwer/Plenum, New York, 2003.<br />
7. L. Jimenez and D. A. Landgrebe, “Supervised classification in high-<br />
dimensional space: Geometrical, statistical, and asymptotical properties of<br />
multivariate data”, IEEE Trans. Syst., Man, Cybern. C, vol. 28, 1998.<br />
8. R. E. Roger, and J. F. Arnold, “Reliability Estimating the Noise in AVIRIS<br />
Hyperspectral Imges”, Int. J.Remote Sens., Vol. 17, 1996.<br />
9. D. A. Landgrebe, “Hyperspectral Image Data Analysis”, IEEE Signal<br />
Processing Magazine, vol. 19, no. 1, pp. 17-28, 2002.<br />
10. L. S. Kalman, G. R. Pelzer, “Simulation of Landsat Thematic Mapper<br />
Imagery Using AVIRIS Hyperspectral Imagery”, en Proc. ASA/JPL<br />
Airborne Earth Science Workshop, Pasa<strong>de</strong>na, CA, 1993.<br />
11. M. Faraklioti, M. Petrou, “Illumination invariant unmixing of sets of mixed<br />
pixels”. IEEE Transactions on Geoscience and Remote Sensing, vol. 39, pp.<br />
2227-2234, 2001.<br />
12. P.-F. Hsieh, D. Landgrebe, Classification of High Dimensional Data. Tesis<br />
Doctoral, School of Electrical and Computer Engineering, Purdue University,<br />
1998.<br />
106
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
13. W. P. Kustas, J. M. Norman, “Evaluating the Effects of Subpixel<br />
Heterogeneity on Pixel Average Fluxes”. Remote Sensing of Environment,<br />
vol. 74, pp. 327-342, 2002.<br />
14. T. M. Tu, H. C. Shyu, C. H. Lee, C. -I. Chang, “An oblique subspace<br />
projection approach for mixed pixel classification in hyperspectral images”,<br />
Pattern Recognition, vol. 32, pp. 1399-1408, 1999.<br />
15. A. Plaza, J. Plaza, P. Martinez and R. M. Pérez, “A new approachto mixed<br />
pixel classification of hyperspectral imagery based on exten<strong>de</strong>d morphological<br />
profiles”. Pattern recognition, 2004.<br />
16. C. –I. Chang, H. Ren, “An Experiment-Based Quantitative and Comparative<br />
Analysis of Target Detection and Image Classification Algorithms for<br />
Hyperspectral Imagery”. IEEE Transactions on Geoscience and Remote<br />
Sensing, vol. 38, no. 2, pp. 1044- 1063, 2000.<br />
17. S. V. Stehman, “Selecting and Interpreting Measures of Thematic<br />
Classification Accuracy”. Remote Sensing of Environment, vol. 62, pp. 77-89,<br />
1997.<br />
18. G. Shaw, D. Manolakis, “Signal processing for hyperspectral image<br />
exploitation”. IEEE Signal Processing Magazine, vol. 19, pp. 12-16, 2002.<br />
19. A. K. L. Chiang (2001), “A Simple General Method for Constructing<br />
Confi<strong>de</strong>nce Intervals for Functions of Variance Components,” Technometrics,<br />
43, 356-367.<br />
20. G. Rellier, X. Descombes, J. Zerubia, “Local registration and <strong>de</strong>formation of a<br />
road cartographic database on a SPOT satellite image”. Pattern Recognition,<br />
vol. 35, pp. 2213-2221, 2002.<br />
21. S. Tadjudin, D. Landgrebe “Classification of high dimensional data with<br />
limited training samples”, ECE Tecnical Reports, Purdue Libraries, 1998.<br />
22. V. Madhok, D. Landgrebe, Spectral-Spatial Analysis of Remote Sensing Data:<br />
An Image Mo<strong>de</strong>l and A Procedural Design. Tesis Doctoral, School of<br />
Electrical Engineering and Computer Science, Purdue University, 1998.<br />
23. R. G. Congalton, “Consi<strong>de</strong>rations and Techniques for Assessing the Accuracy<br />
of Remotely Sensed Data”, en: Proc. International Geoscience and Remote<br />
Sensing Symposium IGARSS, vol. 3, pp. 1847-1850, 1989.<br />
107
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
24. S. V. Stehman, “Practical Implications of Design-Based Sampling Inference<br />
for Thematic Map Accuracy Assessment”. Remote Sensing of Environment,<br />
vol. 72, pp. 35-45, 2000.<br />
25. B. M. Steele, J. C. Winne, R. L. Redmond, “Estimation and Mapping of<br />
Misclassification Probabilities for Thematic Land Cover Maps”, Remote<br />
Sensing of Environment, vol. 66, pp. 192-202, 1998.<br />
26. G. Jäger, U. Benz, “Measures of classification accuracy based on fuzzy<br />
similarity”. IEEE Transactions on Geoscience and Remote Sensing, vol. 38,<br />
no. 2, pp. 1462-1467, 2000.<br />
27. R. Nishii, R. Tanaka, “Accuracy and Inaccuracy Assessments in Land-Cover<br />
Classification”. IEEE Transactions on Geoscience and Remote Sensing, vol.<br />
37, no. 1, pp. 491-498, 1999.<br />
28. K. J. Guilfoyle, M. L. Althouse, C.-I Chang, “A Quantitative and Comparative<br />
Analysis of Linear and Nonlinear Spectral Mixture Mo<strong>de</strong>ls Using Radial<br />
Basis Function Neural Networks”. IEEE Transactions on Geoscience and<br />
Remote Sensing, vol. 39, no. 8, pp. 2314- 2318, 2001.<br />
29. R. P. Lippmann, “An introduction to computimg with neural nets”, IEEE<br />
ASSP Magazine, April, pp. 4-22, 1987.<br />
30. R. M. Pérez Tesis doctoral: Algoritmo y arquitectura <strong>de</strong> red neuronal para el<br />
procesamiento <strong>de</strong> señal aplicado a la <strong>de</strong>terminación y cuantificación <strong>de</strong><br />
elementos presentes en composiciones espectrales. Facultad <strong>de</strong> Informática,<br />
Universidad Politécnica <strong>de</strong> Madrid, 1995.<br />
31. A. A. Marquina, Tesis Doctoral “Aportación a la Extracción Paramétrica en<br />
Reconocimiento De Voz Robusto Basada en la Aplicación <strong>de</strong> Conocimiento<br />
<strong>de</strong> Fonética Acústica”, Universidad Politécnica <strong>de</strong> Madrid, 1999.<br />
32. M. Bishop “Neural networks for pattern recognition”. Oxford University<br />
Press, 1995.<br />
33. P. M. Atkinson, A. R. L. Tatnall, “Neural Networks in remote sensing –<br />
introduction”. International Journal of Remote Sensing, vol. 18, pp. 699-709,<br />
1997.<br />
34. B. H. Braswell, S. C. Hagen, S. E. Frokling, W. A. Salas, “A multivariative<br />
approach for mapping sub-pixel land cover distributions using mirs and<br />
modis: application in the brazilian amazon region.” Remote Sensing of<br />
Environment, vol. 87, pp. 243-256, 2003.<br />
108
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
35. G. Camps-Valls, L. Bruzzone “Kernel-Based Methods for Hyperspectral<br />
Image Classification”, IEEE Transactions on Geoscience and Remote<br />
Sensing, 2005.<br />
36. J. Plaza, P. Martinez, A. Plaza y R. Perez, “Nonlinear Neural Network<br />
Mixture Mo<strong>de</strong>ls for AVIRIS land cover fraction data estimation”. Proc.<br />
NASA/JPL Airborne Earth Science Workshop, Pasa<strong>de</strong>na, CA, 2004.<br />
37. P. Martinez, J. A. Gualtieri, P. Aguilar, R. M. Perez, M. Linaje, J.C. Preciado,<br />
A. Plaza “Hyperspectral Image Classification Using a Self-Organizing Map”<br />
XI JPL Airbone Herat Science Workshop, 2001.<br />
38. P. L. Aguilar “Cuantificación <strong>de</strong> firmas hiperespectrales utilizando mapas<br />
autoorganizativos”. Tesis Doctoral, Universidad <strong>de</strong> Extremadura, 2000.<br />
39. T. Kohonen, “Self-organized formation of topologically correct feature<br />
maps”, Biological Cybernetics, vol. 43, pp. 59-69, 1982. Reprinted in<br />
An<strong>de</strong>rson and Rosenfeld, 1988.<br />
40. P. Martinez, P. Aguilar, R. M. Perez, A. Plaza “Systolic SOM Neural<br />
Networks for Hyperspectral Image Classification”. Neural Networks and<br />
Systolic Array Design. Edited by D. Zhang and S. K. Pal, World Scientific.<br />
41. J. J. Hopfield, “Neural Networks and Physical Systems with Emergent<br />
Collective Computational Abilities”. Proc. of National Aca<strong>de</strong>my of Sciencies,<br />
vol. 79, pp. 2554-2558, 1982.<br />
42. G. A. Carpenter, “Distributes Learning, Recognition and Prediction by ART<br />
and ARTMAP Neural Networks”, Neural Networks (Elsevier Science), vol.<br />
10, no. 8, pp. 1473-1494, 1997.<br />
43. G. A. Carpenter, S. Grossberg, N. Markuzon, J. H. Reynolds, D. B. Rosen,<br />
“Fuzzy ARTMAP: A Neural Network Architecture for Incremental<br />
Supervised Learning of Analog Multidimensional Maps”, ”, IEEE<br />
Transactions on Geoscience and Remote Sensing, vol. 3, pp. 698–715, 1992.<br />
44. A. Baraldi, E. Binaghi, P. Blonda, P. A. Brivio, A. Rampini, “Comparison of<br />
the Multilayer Perceptron with Neuro-Fuzzy Techniques in the Estimation of<br />
Cover Class Mixture in Remotely Sensed Data”, IEEE Transactions on<br />
Geoscience and Remote Sensing, vol. 39, no. 5, pp. 994- 1005, 2001.<br />
45. J. D. Paola, R. A. Schowengerdt, “A <strong>de</strong>tailed comparison of backpropagation<br />
neural networs and maximum-likelihood classifiers for urban land use<br />
109
Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />
classification”, IEEE Transactions on Geoscience and Remote Sensing, vol.<br />
33, pp. 981-996, 2005.<br />
46. J. Plaza. Tesis doctoral: Procesamiento paralelo <strong>de</strong> imágenes hiperespectrales<br />
utilizando <strong>arquitecturas</strong> <strong>de</strong> computación neuronal. Escuela Politécnica.<br />
Cáceres. 2008.<br />
47. R. O. Duda, P. E. Hart, “Pattern Classification and Scene Analysis”, New<br />
York: John Wiley, 1973.<br />
48. A. A. Green, M. Berman, P. Switzer, & M. D. Craig, “A transformation for<br />
or<strong>de</strong>ring multispectral data in terms of image quality with implications for<br />
noise removal.” IEEE Transactions on Geoscience and Remote Sensing, vol.<br />
26. 1988.<br />
49. D. A. Landgrebe, Signal Theory Methods in Multispectral Remote Sensing.<br />
Hoboken, NJ: Wiley, 2003.<br />
50. X. Jia, J. A. Richards, y D. E. Ricken, Remote Sensing Digital Image<br />
Analysis: An Introduction. Springer-Verlag, Berlin, 1999.<br />
51. I. J. Myung. “Maximum Likelihood Estimation” Department of Psychology<br />
Ohio State University, 2002.<br />
52. C. Cortes and V. Vapnik, “Support vector networks”. Machine Learning,<br />
20:1-25, 1995<br />
53. V. Blanz, B. Schölkopf , H. Bülthoff, C. Burges 2, V. Vapnik, Comparison of<br />
View-Based Object Recognition Algorithms Using Realistic 3D Mo<strong>de</strong>ls.<br />
Springer, 1996.<br />
54. M. S. Schmidt. “I<strong>de</strong>ntifying speakers with support vector networks”. Interface<br />
'96 Proceedings, 1996.<br />
55. B. Schölkopf, A. Smola, “Advances in kernel methods: Support vector<br />
learning”, 1999.<br />
56. B. E. Boser, I. M. Guyon, and V. N. Vapnik. “A training algorithm for<br />
optimal margin classifiers”, In D. Haussler, editor, 5th Annual ACM<br />
Workshop on COLT, pages 144-152, Pittsburgh, PA, 1992. ACM Press.<br />
57. K. R. Muller, S. Mika, G. Ratsch, K. Tsuda, B. Schölkopf, “An introduction to<br />
kernel-based learning algorithms”. IEEE Transactions on eural etworks,<br />
vol 12, 2001.<br />
58. G. Mercier and M. Lennon, Support Vector Machines for Hyperspectral<br />
Image Classification with Spectral-Based Kernels, in IGARSS, 2003.<br />
110
Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />
59. G. M. Foody, “RVM-based multi-class classification of remotely sensed data”<br />
International Journal of Remote Sensing, vol 29, pp 1817-1823, 2008.<br />
60. G. F. Hughes, “On The Mean Accuracy Of Statistical Pattern Recognizers”<br />
IEEE Trans.Infor. Theory, Vol. IT-14, 1968.<br />
61. K. Fukunaga, “Introduction to Statistical Pattern Recognition” Publicado por<br />
Aca<strong>de</strong>mic Press, 1990.<br />
62. A. Kaarna, P. Zemcik, H. Kalviainen, J. Parkkinen, “Compression of<br />
multispectral remote sensing images using clustering and spectral reduction”,<br />
IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000.<br />
63. J. A. Richards, “Remote Sensing Digital Image Analysis: An Introduction”,<br />
Springer-Verlag, Berlin, 1993.<br />
64. P. J. Curran, J. L. Dungan, “Estimation of Signal-to-Noise: A New Procedure<br />
Applied to AVIRIS Data”, IEEE Transactions on Geoscience and Remote<br />
Sensing, vol. 27, 1989.<br />
65. C. Gordon, “A Generalization of the Maximum Noise Fraction Transform”.<br />
IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000.<br />
66. J. W. Boardman, “Automating Spectral Unmixing of AVIRIS DATA Using<br />
Geometry Concepts” Fourth Annual JPL Airborne Geoscience Workshop,<br />
Vol. 1, Jet Propulsion Laboratory, Pasa<strong>de</strong>na, CA., 1993<br />
67. J. A. Richards, “Remote Sensing Digital Image Analysis”, Springer-Verlag,<br />
Berlin, 1999.<br />
68. D. Patterson, Artificial eural etworks. Singapore: Prentice Hall.1996.<br />
69. T. Key, T. A. Warner, J. B. McGraw, M. A. Fajvan, “A Comparison of<br />
Multispectral and Multitemporal Information in High Spatial Resolution<br />
Imagery for Classification of Individual Tree Species in a Temperate<br />
Hardwood Forest”, Remote Sensing of Environment, vol. 75, pp. 100-112,<br />
2001.<br />
70. A. Plaza. Tesis doctoral: Proposición, Validación y Prueba <strong>de</strong> una<br />
Metodología Morfológica para el Análisis <strong>de</strong> Datos Hiperespectrales que<br />
Integra Información Espacial y Espectral. Escuela Politécnica, Cáceres. 2002.<br />
111