06.05.2013 Views

Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC

Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC

Estudio comparativo de diferentes arquitecturas neuronales ... - UMBC

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

UIVERSIDAD DE EXTREMADURA<br />

Escuela Politécnica<br />

Ingeniería informática<br />

Proyecto Fin <strong>de</strong> Carrera<br />

<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />

<strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento<br />

<strong>de</strong> imágenes hiperespectrales<br />

Cristina Barra Arias<br />

Diciembre, 2008


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

UIVERSIDAD DE EXTREMADURA<br />

Escuela Politécnica<br />

Ingeniería informática<br />

Proyecto Fin <strong>de</strong> Carrera<br />

<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />

<strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento<br />

<strong>de</strong> imágenes hiperespectrales<br />

Autora: Cristina Barra Arias<br />

Fdo.:<br />

Director: Antonio Plaza Miguel.<br />

Fdo.:<br />

Co-director: Javier Plaza Miguel.<br />

Fdo.:<br />

CALIFICACIÓN:<br />

FECHA:<br />

Tribunal Calificador<br />

Presi<strong>de</strong>nte: Rosa Mª Pérez Utrero<br />

Fdo.:<br />

Secretario: Pedro Luis Aguilar<br />

Fdo.:<br />

Vocal: Pablo Martínez Cobo<br />

Fdo.:<br />

2


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Resumen<br />

El presente proyecto fin <strong>de</strong> carrera presenta un estudio <strong>comparativo</strong> <strong>de</strong><br />

<strong>diferentes</strong> clasificadores para análisis <strong>de</strong> datos hiperespectrales obtenidas <strong>de</strong> forma<br />

remota. Las técnicas comparadas incluyen los clasificadores Maximum Likelihood<br />

(ML), Self-Organizing Map (SOM), Multi-layer Perceptron (MLP), y Support Vector<br />

Machine (SVM). El principal objetivo <strong>de</strong>l estudio es realizar una comparativa entre<br />

dichos métodos y, particularmente, analizar la respuesta <strong>de</strong> dichos clasificadores en<br />

presencia <strong>de</strong> un conjunto muy limitado <strong>de</strong> patrones <strong>de</strong> entrenamiento, situación que<br />

suele ser habitual en aplicaciones <strong>de</strong> observación remota <strong>de</strong> la tierra <strong>de</strong>bido a la<br />

dificultad <strong>de</strong> generar este tipo <strong>de</strong> información sobre el terreno. El estudio <strong>comparativo</strong><br />

se ha realizado sobre dos <strong>de</strong> las imágenes más representativas en la literatura<br />

<strong>de</strong>dicada a clasificación <strong>de</strong> datos hiperespectrales: una imagen obtenida por el sensor<br />

Airborne Visible Infra-Red Imaging Spectrometer (AVIRIS) <strong>de</strong> NASA Jet Propulsión<br />

Laboratory sobre la región Indian Pines en Indiana, Estados Unidos, y una imagen<br />

obtenida por el sensor Reflective Optics Spectrographic Imaging System (ROSIS) <strong>de</strong><br />

la Agencia Espacial Alemana (DLR) sobre la ciudad <strong>de</strong> Pavía, en Italia. Ambas<br />

imágenes disponen <strong>de</strong> información verdad-terreno <strong>de</strong> gran calidad y representan casos<br />

<strong>de</strong> estudio que permiten comparar una imagen <strong>de</strong> elevada resolución espectral y<br />

mo<strong>de</strong>rada resolución espacial (AVIRIS Indian Pines) frente a una imagen <strong>de</strong> elevada<br />

resolución espacial y mo<strong>de</strong>rada resolución espectral (DAIS Pavía). En ambos casos,<br />

se estudia el efecto <strong>de</strong> utilizar la imagen completa en la clasificación o <strong>de</strong> aplicar<br />

transformaciones sobre la imagen original para reducir su dimensionalidad, tales<br />

como la técnica <strong>de</strong> análisis <strong>de</strong> componentes principales (PCA) o la fracción mínima<br />

<strong>de</strong> ruido (MNF), lo cual tiene implicaciones en cuanto al número mínimo <strong>de</strong> patrones<br />

<strong>de</strong> entrenamiento necesarios para obtener una clasificación a<strong>de</strong>cuada (teniendo<br />

presente el objetivo <strong>de</strong> utilizar el mínimo número <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />

posible). Los resultados obtenidos ofrecen interesantes conclusiones que permiten<br />

analizar <strong>de</strong> forma <strong>de</strong>tallada la precisión <strong>de</strong> los clasificadores comparados con dos<br />

imágenes <strong>de</strong> referencia en la literatura y, particularmente, la capacidad <strong>de</strong> dichos<br />

clasificadores <strong>de</strong> funcionar con un conjunto muy limitado <strong>de</strong> patrones <strong>de</strong><br />

entrenamiento, con vistas a su utilización en aplicaciones reales. El estudio<br />

cuantitativo y <strong>comparativo</strong> presentado en el trabajo supone una novedad en la<br />

literatura <strong>de</strong>dicada a clasificación supervisada <strong>de</strong> datos hiperespectrales.<br />

3


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias 4


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

ÍNDICE DE CONTENIDOS<br />

Resumen.........................................................................................................................3<br />

1. Motivaciones y objetivos .......................................................................................11<br />

1.1 Motivaciones.........................................................................................11<br />

1.2 Objetivos...............................................................................................12<br />

2 Introducción ...........................................................................................................13<br />

2.1 Concepto <strong>de</strong> imagen hiperespectral ......................................................13<br />

2.2 El problema <strong>de</strong> la mezcla......................................................................15<br />

2.3 Clasificación .........................................................................................16<br />

2.4 Conceptos básicos sobre re<strong>de</strong>s <strong>neuronales</strong> ...........................................19<br />

2.5 Clasificación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong>.........................................................21<br />

2.5.1 Categorización:........................................................................................21<br />

2.5.2 Computación neuronal en análisis hiperespectral ..................................23<br />

2.5.2.1 Arquitecturas no supervisadas: ............................................................24<br />

2.5.2.2 Arquitecturas supervisadas: .................................................................24<br />

2.6 Técnicas utilizadas................................................................................26<br />

2.6.1 Maximum Likelihood (Máxima probabilidad).........................................26<br />

2.6.2 SVM (Support Vector Machine)..............................................................28<br />

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP) .......................32<br />

2.6.4 Self-Organizing Map (SOM)....................................................................35<br />

2.7 Técnicas <strong>de</strong> preprocesado .....................................................................36<br />

2.7.1 Transformación Principal Component Analysis (PCA) ..........................37<br />

2.7.2 Transformación Minimum oise Fraction (MF) ..................................40<br />

3. Metodología ...........................................................................................................42<br />

3.1 Maximum likelihood (ML) ...................................................................43<br />

3.2 Multi-Layer Perceptron (MLP).............................................................44<br />

3.3 Support Vector Machine (SVM)...........................................................46<br />

3.4 Self-Organizing Map (SOM) ................................................................48<br />

3.5 Proceso <strong>de</strong> entrenamiento para todos los clasificadores.......................50<br />

3.5.1 Preprocesamiento .............................................................................51<br />

3.5.2 Conjunto <strong>de</strong> entrenamiento...............................................................51<br />

3.5.3 Post clasificación..............................................................................52<br />

4 Análisis y discusión <strong>de</strong> resultados .........................................................................54<br />

4.1 Introducción ..........................................................................................54<br />

4.2 Imágenes tratadas..................................................................................55<br />

4.2.1 AVIRIS Indian Pines .........................................................................55<br />

4.2.2 DAIS 7915 sobre Pavia.....................................................................57<br />

4.3 Modificaciones sobre las imágenes ......................................................59<br />

4.4 <strong>Estudio</strong> con la imagen AVIRIS Indian Pines........................................62<br />

5


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

4.4.1 ML.....................................................................................................62<br />

4.4.2 SOM ..................................................................................................65<br />

4.4.3 Multi-Layer Perceptron (MLP).........................................................66<br />

4.4.4 SVM...................................................................................................70<br />

4.4.4.1 SVM con transformadas MF y PCA...............................................73<br />

4.4.5 Resumen <strong>de</strong> la imagen AVIRIS Indian Pines ....................................76<br />

4.5 <strong>Estudio</strong> <strong>de</strong> la imagen DAIS 7915 sobre Pavia......................................77<br />

4.5.1 ML.....................................................................................................77<br />

4.5.2 SOM ..................................................................................................80<br />

4.5.3 MLP...................................................................................................83<br />

4.5.4 SVM...................................................................................................86<br />

4.5.5 Resumen DAIS 7915 sobre Pavia .....................................................91<br />

4.6 Discusión <strong>de</strong> resultados y análisis <strong>comparativo</strong>....................................92<br />

5 Conclusiones y líneas futuras <strong>de</strong> trabajo..............................................................102<br />

6 Referencias...........................................................................................................106<br />

6


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

LISTA DE FIGURAS<br />

Fig. 2.1 Concepto <strong>de</strong> imagen hiperespectral ......................................................................................... 14<br />

Fig. 2.2 . Firmas espectrales <strong>de</strong> vegetación obtenidas por el sensor multiespectral Landsat TM (7<br />

bandas) y el sensor hiperespectral AVIRIS (224 bandas) ..................................................................... 15<br />

Fig. 2.3 Concepto <strong>de</strong> píxel puro y píxel mezcla ..................................................................................... 16<br />

Fig. 2.4 Ejemplo <strong>de</strong> construcción <strong>de</strong> la matriz <strong>de</strong> confusión ................................................................. 18<br />

Fig. 2.5 Esquema <strong>de</strong> una neurona artificial .......................................................................................... 21<br />

Fig. 2.6 Esquema <strong>de</strong> funcionamiento SVM............................................................................................ 29<br />

Fig. 2.7 Perceptrón multicapa............................................................................................................... 33<br />

Fig. 2.8 Esquema SOM.......................................................................................................................... 35<br />

Fig. 2.10 Reducción dimensional........................................................................................................... 37<br />

Fig. 2.11 Ilustración gráfica <strong>de</strong> la transformación PCA....................................................................... 38<br />

Fig. 2.12 Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada PCA sobre una imagen hiperespectral real. ...... 39<br />

Fig. 2.13. Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada MF sobre una imagen hiperespectral real. .... 41<br />

Fig. 3.1 Esquema <strong>de</strong> funcionamiento ML .............................................................................................. 43<br />

Fig. 3.2 Esquema general <strong>de</strong> funcionamiento <strong>de</strong> MLP.......................................................................... 44<br />

Fig. 3.3 Diagrama <strong>de</strong> flujo SVM............................................................................................................ 47<br />

Fig. 3.4 Esquema general <strong>de</strong> SOM ........................................................................................................ 49<br />

Fig. 3.5 Matriz <strong>de</strong> entrenamiento SOM ................................................................................................. 50<br />

Fig. 3.6 Esquema general <strong>de</strong> funcionamiento........................................................................................ 51<br />

Fig. 3.7 Patrones <strong>de</strong> entrenamiento extremo, core y bor<strong>de</strong>................................................................... 52<br />

Fig. 4.1Imagen <strong>de</strong> una banda <strong>de</strong> AVIRIS Indian Pines ......................................................................... 56<br />

Fig. 4.2 Verdad terreno AVIRIS Indian Pines ....................................................................................... 56<br />

Fig. 4.3 Conjuntos <strong>de</strong> entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d) 50%.56<br />

Fig. 4.4 Imagen <strong>de</strong> una banda <strong>de</strong> DAIS 7915 sobre Pavia................................................................... 58<br />

Fig. 4.5 Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia ............................................................. 58<br />

Fig. 4.6 Conjuntos <strong>de</strong> entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%. ... 58<br />

Fig. 4.7 (a) Banda 6 y (b) banda 1<strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian Pines. ............................................ 59<br />

Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20% <strong>de</strong><br />

los píxeles <strong>de</strong> cada clase (86.79% <strong>de</strong> acierto). (b) Imagen clasificada mediante ML con<br />

preprocesamiento MF entrenando con un 20% <strong>de</strong> los píxeles <strong>de</strong> cada clase (88.30% <strong>de</strong> acierto). (c)<br />

Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines........................................................................ 64<br />

Fig. 4.9 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador ML al entrenarlo con conjuntos <strong>de</strong><br />

patrones <strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).......................................................................... 64<br />

Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab .................................................................. 66<br />

Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones............................................................ 66<br />

Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto <strong>de</strong>l 82.50%, (b) 10% con un<br />

acierto <strong>de</strong>l 83.33%, (c) 20% con un acierto <strong>de</strong>l 85.54% y (d) 50% con un acierto <strong>de</strong>l 86.7%.............. 69<br />

Fig. 4.13 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador MLP utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />

tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 70<br />

Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% <strong>de</strong> los píxeles <strong>de</strong> cada clase y<br />

utilizando el kernel lineal (74.15% <strong>de</strong> acierto). (b) Imagen clasificada mediante SVM entrenando con<br />

un 50% <strong>de</strong> los píxeles <strong>de</strong> cada clase y utilizando el kernel lineal (90.66% <strong>de</strong> acierto). (c) Verdad<br />

terreno para la escena <strong>de</strong> AVIRIS Indian Pines. ................................................................................... 71<br />

Fig. 4.15 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />

tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 73<br />

Fig. 4.16 Comparación <strong>de</strong> resultados SVM con preprocesamiento y un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />

50%, (a) clasificación PCA, el acierto es <strong>de</strong>l 85.66%. (b) clasificación MF, el acierto es <strong>de</strong>l 88.59%<br />

y (c) verdad terreno <strong>de</strong> AVIRIS Indian Pines. ....................................................................................... 74<br />

Fig. 4.17 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones <strong>de</strong><br />

tamaño creciente (5%, 10%, 20% y 50%). ............................................................................................ 76<br />

Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje <strong>de</strong><br />

acierto <strong>de</strong> 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un porcentaje<br />

<strong>de</strong> acierto <strong>de</strong> 97.60% y (c) clasificación ML con la imagen con preprocesamiento MF, con un<br />

porcentaje <strong>de</strong> acierto <strong>de</strong> 97.30%. En todos los casos con el 10% <strong>de</strong> entrenamiento. (d) verdad terreno<br />

<strong>de</strong> la imagen DAIS 7915 sobre Pavia.................................................................................................... 78<br />

7


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% <strong>de</strong> entrenamiento. (b) clasificación ML con el<br />

5% <strong>de</strong> entrenamiento y con tratamiento <strong>de</strong> imagen MF. (c) verdad terreno. ..................................... 80<br />

Fig. 4.20 Verdad Terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia .......................................................... 81<br />

Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc<br />

1000it. Acierto 84.7%............................................................................................................................ 81<br />

Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />

20% con un resultado <strong>de</strong> 98.75% y (b) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia. ............ 85<br />

Fig. 4.23 (a) Clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia con un entrenamiento 20% learning<br />

rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y 10000<br />

iteraciones. (c) Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.................................................. 85<br />

Fig. 4.24 (a) clasificación SVM con kernel sigmoi<strong>de</strong> y 5% <strong>de</strong> entrenamiento. (b) clasificación SVM con<br />

el kernel lineal y 50% <strong>de</strong> entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c) Verdad terreno<br />

<strong>de</strong> la imagen DAIS 7915 sobre PAVIA. ................................................................................................. 86<br />

Fig. 4.25 Clasificación SVM con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20% y distintos kernel, (a) lineal,<br />

(b) polinómico, (c) RBF, (d) sigmoi<strong>de</strong> para la imagen DAIS 7915 sobre PAVIA. ................................ 88<br />

Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto <strong>de</strong>l 20% <strong>de</strong>l tamaño<br />

total <strong>de</strong> píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF............................. 89<br />

Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian Pines y la<br />

imagen DAIS 7915 sobre Pavia............................................................................................................. 92<br />

Fig. 4.28 Resultados <strong>de</strong> la clasificación SOM....................................................................................... 93<br />

Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines......................................................................... 94<br />

Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia.................................................... 94<br />

Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre Pavia<br />

............................................................................................................................................................... 95<br />

Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines .............................................................. 96<br />

Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia......................................... 96<br />

Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines ...................... 97<br />

Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre Pavia. 98<br />

Fig. 4.36 Tiempo empleado por los <strong>diferentes</strong> clasificadores ............................................................... 99<br />

Fig. 4.37 Clasificación general AVIRIS Indian Pines ......................................................................... 100<br />

Fig. 4.38 Clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia ............................................... 101<br />

8


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

LISTA DE TABLAS<br />

Tabla 4.1 AVIRIS Indian Pines conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> total <strong>de</strong> píxeles por clase ... 57<br />

Tabla 4.2. Conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> píxeles totales etiquetados <strong>de</strong> la imagen DAIS<br />

7915 sobre Pavia ................................................................................................................................... 59<br />

Tabla 4.3. Separabilidad <strong>de</strong> AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn min. E:<br />

Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed. J: Oats. K:<br />

Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O: Wheat. P: Woods.... 60<br />

Tabla 4.4. Separabilidad <strong>de</strong> DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D:<br />

Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees........................................... 61<br />

Tabla 4.5 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />

las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 63<br />

Tabla 4.6 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />

las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 68<br />

Tabla 4.7 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos<br />

<strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 72<br />

Tabla 4.8. Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y<br />

MF y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).... 75<br />

Tabla 4.9 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />

las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 79<br />

Tabla 4.10 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SOM utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (10, 50, 100 patrones por clase y la imagen<br />

completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno <strong>de</strong> los conjuntos <strong>de</strong><br />

entrenamiento. ....................................................................................................................................... 82<br />

Tabla 4.11 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />

las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 84<br />

Tabla 4.12 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong><br />

tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%)..................................... 87<br />

Tabla 4.13 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando conjuntos <strong>de</strong><br />

entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente<br />

las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF). .......................................................... 90<br />

9


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias 10


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

1. Motivaciones y objetivos<br />

1.1 Motivaciones<br />

La línea <strong>de</strong> trabajo <strong>de</strong> este Proyecto Fin <strong>de</strong> Carrera se incluye en las líneas <strong>de</strong><br />

investigación abordadas <strong>de</strong>s<strong>de</strong> el Grupo <strong>de</strong> Re<strong>de</strong>s Neuronales y Procesamiento<br />

Digital <strong>de</strong> la Señal (GRNPS) ubicado en el área <strong>de</strong> Arquitectura y Tecnología <strong>de</strong><br />

Computadores, Departamento <strong>de</strong> Tecnología <strong>de</strong> los Computadores y <strong>de</strong> las<br />

Comunicaciones <strong>de</strong> la Universidad <strong>de</strong> Extremadura.<br />

Este grupo <strong>de</strong> investigación ha venido <strong>de</strong>sarrollando <strong>diferentes</strong> técnicas <strong>de</strong><br />

análisis hiperespectral basadas en el uso <strong>de</strong> <strong>arquitecturas</strong> <strong>de</strong> computación neuronal.<br />

Bajo ese punto <strong>de</strong> vista, y dada la gran variedad <strong>de</strong> herramientas <strong>neuronales</strong><br />

disponibles para el tratamiento <strong>de</strong> datos multidimensionales, se hace necesario<br />

realizar estudio que evalúe la efectividad y rendimiento <strong>de</strong> las <strong>diferentes</strong> técnicas<br />

existentes para tratar <strong>de</strong> extraer conclusiones que permitan <strong>de</strong>terminar que<br />

herramientas son más eficientes y en que <strong>de</strong>terminados ámbitos <strong>de</strong> aplicación.<br />

Uno <strong>de</strong> los principales problemas asociados al análisis <strong>de</strong> datos hiperespectrales<br />

es la clasificación (supervisada o no) <strong>de</strong> los mismos. Existe un amplio abanico <strong>de</strong><br />

técnicas <strong>de</strong> clasificación basadas en <strong>arquitecturas</strong> <strong>de</strong> computación neuronal que<br />

tradicionalmente se han empleado para etiquetar cada píxel como perteneciente a una<br />

<strong>de</strong>terminada clase. En este sentido, el presente documento presenta un <strong>de</strong>tallado<br />

estudio <strong>comparativo</strong> entre distintos tipos <strong>de</strong> clasificadores <strong>neuronales</strong> comúnmente<br />

aplicados en el ámbito <strong>de</strong>l análisis hiperespectral, evaluando su funcionamiento al<br />

procesar distintas imágenes hiperespectrales con <strong>diferentes</strong> características, tales como<br />

resolución espacial y espectral, área sobre la que se adquiere la imagen, tipo <strong>de</strong><br />

información verdad terreno <strong>de</strong> la que se dispone sobre la escena, etc., que serán<br />

aspectos altamente <strong>de</strong>terminantes sobre la calidad <strong>de</strong> los resultados.<br />

Para concluir, es necesario aclarar que la comparación entre los <strong>diferentes</strong><br />

clasificadores <strong>neuronales</strong> es difícil <strong>de</strong> establecer, ya que cada uno <strong>de</strong> ellos utiliza una<br />

serie <strong>de</strong> parámetros <strong>de</strong> configuración relacionados con sus mecanismos <strong>de</strong><br />

aprendizaje, y que no tienen porque ser iguales. En este sentido, se han evaluado<br />

numerosas configuraciones posibles para cada uno <strong>de</strong> los clasificadores con el<br />

objetivo <strong>de</strong> <strong>de</strong>terminar los mejores parámetros para los mismos y establecer una<br />

comparativa justa en términos <strong>de</strong> precisión <strong>de</strong> la clasificación sobre un conjunto <strong>de</strong><br />

11


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

imágenes hiperespectrales ampliamente utilizadas en la comunidad científica<br />

<strong>de</strong>dicada al análisis <strong>de</strong> este tipo <strong>de</strong> datos.<br />

1.2 Objetivos<br />

Este trabajo preten<strong>de</strong> analizar el estado <strong>de</strong>l arte <strong>de</strong> los clasificadores <strong>neuronales</strong><br />

al aplicarlos sobre datos hiperespectrales. Para ello se plantea el siguiente objetivo<br />

global: estudiar, evaluar y comparar las <strong>diferentes</strong> técnicas <strong>neuronales</strong> existentes<br />

para realizar una clasificación <strong>de</strong> datos hiperespectrales, así como extraer<br />

conclusiones relativas a la eficiencia y rapi<strong>de</strong>z <strong>de</strong> dichas técnicas. Para la<br />

consecución <strong>de</strong> este objetivo global, se han llevado a cabo los siguientes objetivos<br />

específicos:<br />

• Estudiar en profundidad las principales características <strong>de</strong> las técnicas objeto<br />

<strong>de</strong>l análisis y sus parámetros <strong>de</strong> entrada. Este estudio compren<strong>de</strong> la adquisición <strong>de</strong> los<br />

conocimientos necesarios sobre todas las técnicas evaluadas, así como <strong>de</strong> otras<br />

técnicas <strong>de</strong> clasificación comúnmente utilizadas en el ámbito <strong>de</strong>l análisis<br />

hiperespectral.<br />

• Adquirir conocimientos previos sobre análisis hiperespectral, necesarios<br />

para po<strong>de</strong>r llevar a cabo el estudio (imagen hiperespectral, formatos <strong>de</strong> los datos,<br />

representación <strong>de</strong> datos, presentación <strong>de</strong> resultados, etc.).<br />

• Adquirir la soltura necesaria para trabajar eficientemente con el software<br />

ENVI y MATLAB. Codificar un conjunto <strong>de</strong> funciones externas a los clasificadores<br />

que se utilizarán para seleccionar conjuntos <strong>de</strong> patrones <strong>de</strong> entrenamiento capaces <strong>de</strong><br />

representar equitativamente a todas las clases <strong>de</strong> datos presentes en la imagen, así<br />

como para representar <strong>de</strong> forma eficiente los resultados alcanzados por cada<br />

clasificador.<br />

• Realizar un análisis en profundidad <strong>de</strong> las imágenes utilizadas, aplicando<br />

sobre ellas técnicas <strong>de</strong> preprocesado con el objetivo <strong>de</strong> evaluar la influencia <strong>de</strong> dicho<br />

preprocesamiento sobre los resultados finales.<br />

• Diseñar una metodología <strong>de</strong> comparación <strong>de</strong> los resultados obtenidos por<br />

cada una <strong>de</strong> las técnicas empleadas que permita extraer conclusiones sobre la<br />

eficiencia y efectividad <strong>de</strong> cada método <strong>de</strong> clasificación testeado, extrapolando<br />

conclusiones sobre la capacidad <strong>de</strong> dichos métodos para extraer información a partir<br />

<strong>de</strong> datos hiperespectrales <strong>de</strong> gran dimensionalidad.<br />

12


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

2 Introducción<br />

El objetivo fundamental <strong>de</strong> este capítulo es presentar una introducción <strong>de</strong> los<br />

conceptos básicos que durante el trabajo se van a tratar. El capítulo se estructura <strong>de</strong> la<br />

siguiente forma: en primer lugar <strong>de</strong>finiremos el concepto <strong>de</strong> imagen hiperespectral,<br />

comentando las características principales <strong>de</strong> este tipo <strong>de</strong> imágenes <strong>de</strong> alta<br />

dimensionalidad. Continuaremos <strong>de</strong>finiendo el concepto <strong>de</strong> clasificación y algunos<br />

i<strong>de</strong>as básicas sobre re<strong>de</strong>s <strong>neuronales</strong>, para terminar explicando las técnicas utilizadas.<br />

2.1 Concepto <strong>de</strong> imagen hiperespectral<br />

El análisis hiperespectral es una técnica <strong>de</strong> observación remota <strong>de</strong> la tierra<br />

basada en el análisis cuantitativo <strong>de</strong> las propieda<strong>de</strong>s espectrales <strong>de</strong> <strong>diferentes</strong><br />

materiales <strong>de</strong> la superficie terrestre, registradas en bandas espectrales contiguas en las<br />

<strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong> onda <strong>de</strong>l espectro electromagnético. Para cada píxel es<br />

posible obtener un espectro <strong>de</strong> reflectancia completo [1]. Dicho espectro es el<br />

resultado <strong>de</strong> la reflexión, absorción y emisión <strong>de</strong> energía electromagnética con la que<br />

cada material respon<strong>de</strong> ante la presencia <strong>de</strong> la luz solar [2].<br />

Las técnicas <strong>de</strong> observación remota <strong>de</strong> la tierra han sufrido una notoria<br />

evolución <strong>de</strong>s<strong>de</strong> su aparición, claramente marcada por los avances en el diseño <strong>de</strong><br />

instrumentos avanzados <strong>de</strong> observación. Esta evolución ha permitido pasar <strong>de</strong><br />

técnicas multiespectrales (técnicas que procesan <strong>de</strong>cenas <strong>de</strong> bandas espectrales) a<br />

técnicas hiperespectrales (que son capaces <strong>de</strong> procesar la información contenida en<br />

cientos <strong>de</strong> bandas), cambio motivado principalmente por la aparición <strong>de</strong>l primer<br />

sensor hiperespectral, <strong>de</strong>nominado AVIRIS (Airborne Airborne Visible/Infrared<br />

Imaging Spectrometer) y <strong>de</strong>sarrollado por NASA Jet Propulsión Laboratory [3]. Este<br />

hecho propició a su vez importantes avances en el diseño <strong>de</strong> técnicas <strong>de</strong><br />

reconocimiento <strong>de</strong> patrones y procesamiento <strong>de</strong> imágenes, incorporando la tecnología<br />

hiperespectral a <strong>diferentes</strong> aplicaciones <strong>de</strong> gran relevancia social, tales como<br />

aplicaciones militares (<strong>de</strong>tección <strong>de</strong> targets) [4]; <strong>de</strong>tección y monitorización <strong>de</strong> fuegos<br />

y agentes contaminantes [5]; agricultura <strong>de</strong> precisión; i<strong>de</strong>ntificación y cuantificación<br />

<strong>de</strong> especies geológicas; estudios relativos al cambio climático global; crecimiento <strong>de</strong><br />

las urbes y su impacto medioambiental, etc.<br />

Si representamos una imagen hiperespectral <strong>de</strong> forma gráfica obtenemos un<br />

cubo cuyas dos primeras dimensiones representarían la ubicación en el espacio <strong>de</strong> un<br />

13


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

píxel <strong>de</strong>terminado <strong>de</strong> la imagen (coor<strong>de</strong>nadas espaciales) y una tercera dimensión que<br />

representaría la singularidad espectral <strong>de</strong> cada píxel según <strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong><br />

onda [6]. De esta forma, po<strong>de</strong>mos interpretar la información captada por un sensor<br />

hiperespectral como un conjunto <strong>de</strong> imágenes, cada una <strong>de</strong> las cuales representa una<br />

longitud <strong>de</strong> onda <strong>de</strong>ntro <strong>de</strong>l espectro electromagnético, también conocido como banda<br />

espectral. Estas imágenes se combinan y forman un cubo hiperespectral<br />

tridimensional para su posterior procesamiento y análisis. La Fig.2.1 muestra una<br />

sencilla representación gráfica <strong>de</strong>l concepto real <strong>de</strong> imagen hiperespectral.<br />

Muestras<br />

Bandas 1 - 4<br />

Líneas<br />

Pixel en<br />

posición (x,y)<br />

Fig. 2.1 Concepto <strong>de</strong> imagen hiperespectral<br />

ND en banda 4<br />

ND en banda 3<br />

ND en banda 2<br />

ND en banda 1<br />

La capacidad <strong>de</strong> observación <strong>de</strong> los sensores hiperespectrales permite la<br />

obtención <strong>de</strong> una firma espectral <strong>de</strong>tallada para cada píxel <strong>de</strong> la imagen, dada por los<br />

valores <strong>de</strong> reflectancia adquiridos por el sensor en <strong>diferentes</strong> longitu<strong>de</strong>s <strong>de</strong> onda. Este<br />

hecho permite una caracterización muy precisa <strong>de</strong> la superficie <strong>de</strong>l planeta [7]. De<br />

forma intuitiva, cuanto mayor sea el número <strong>de</strong> bandas disponibles, mejor será la<br />

caracterización <strong>de</strong> los materiales presentes en la escena. A<strong>de</strong>más, conviene que estas<br />

bandas sean estrechas, puesto que la utilización <strong>de</strong> bandas anchas introduce un<br />

promediado <strong>de</strong> valores que pue<strong>de</strong> encubrir la diferenciación espectral entre cubiertas<br />

[8]. En este sentido, po<strong>de</strong>mos introducir el concepto <strong>de</strong> firma espectral <strong>de</strong> un<br />

<strong>de</strong>terminado material o superficie como el conjunto <strong>de</strong> valores <strong>de</strong> radiancia o<br />

reflectancia captado en los <strong>diferentes</strong> canales espectrales <strong>de</strong>l sensor. Si el número <strong>de</strong><br />

bandas espectrales <strong>de</strong>l sensor es muy gran<strong>de</strong> y las bandas son muy estrechas, la firma<br />

espectral pue<strong>de</strong> ser consi<strong>de</strong>rada como un espectro casi continuo [9].<br />

14


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

La Fig. 2.2 muestra un ejemplo <strong>de</strong> dos firmas espectrales asociadas a una<br />

cubierta vegetal. La primera <strong>de</strong> ellas (parte izquierda) fue adquirida por un sensor<br />

multiespectral, en concreto, Landsat Thematic Mapper [10], que dispone <strong>de</strong> un total<br />

<strong>de</strong> 7 bandas en el rango 0.48 – 2.21 µm. La firma espectral mostrada en la parte<br />

<strong>de</strong>recha <strong>de</strong> la Fig. 2.2 fue adquirida por el sensor hiperespectral AVIRIS [3], con 224<br />

bandas espectrales en el rango 0.4 a 2.4 µm. Como pue<strong>de</strong> apreciarse en la figura, la<br />

firma espectral obtenida mediante un sensor hiperespectral se asemeja a un espectro<br />

continuo <strong>de</strong> valores, mientras que la firma proporcionada por un sensor<br />

multiespectral es mucho menos <strong>de</strong>tallada [10].<br />

Radiancia<br />

0<br />

2000<br />

4000<br />

6000<br />

8000<br />

300 600 900 1200 1500 1800 2100 2400<br />

Longitud <strong>de</strong> onda (nm)<br />

Firma espectral vegetación<br />

(Landsat TM)<br />

Radiancia<br />

0<br />

2000<br />

4000<br />

6000<br />

8000<br />

15<br />

300 600 900 1200 1500 1800 2100 2400<br />

Longitud <strong>de</strong> onda (nm)<br />

Firma espectral vegetación<br />

(AVIRIS)<br />

Fig. 2.2 . Firmas espectrales <strong>de</strong> vegetación obtenidas por el sensor multiespectral Landsat TM (7<br />

bandas) y el sensor hiperespectral AVIRIS (224 bandas)<br />

.<br />

2.2 El problema <strong>de</strong> la mezcla<br />

El principal problema <strong>de</strong>l análisis hiperespectral es el fenómeno <strong>de</strong> la mezcla.<br />

Antes <strong>de</strong> abordar el tema <strong>de</strong> la clasificación <strong>de</strong> píxeles, es conveniente <strong>de</strong>stacar que<br />

en una escena hiperespectral es muy común encontrar píxeles cuya respuesta<br />

espectral está compuesta por <strong>diferentes</strong> materiales a nivel subpíxel [11], por lo que es<br />

frecuente hablar <strong>de</strong> píxeles puros y píxeles mezcla. (Véase Fig. 2.3)


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Pixel mezcla<br />

(árboles + suelo)<br />

Pixel mezcla<br />

(suelo + rocas)<br />

Fig. 2.3 Concepto <strong>de</strong> píxel puro y píxel mezcla<br />

Pixel puro<br />

(agua)<br />

Po<strong>de</strong>mos <strong>de</strong>finir un píxel mezcla como aquel en el que cohabitan <strong>diferentes</strong><br />

cubiertas ([12]; [13]; [11]; [14]). Los píxeles mezcla constituyen la mayor parte <strong>de</strong> los<br />

píxeles <strong>de</strong> una imagen hiperespectral. Esto es <strong>de</strong>bido a que in<strong>de</strong>pendientemente <strong>de</strong> la<br />

escala que se consi<strong>de</strong>re, la mezcla se produce a nivel microscópico [15], [9]. Así<br />

pues, la forma más simple <strong>de</strong> abordar el problema <strong>de</strong> la clasificación <strong>de</strong> píxeles en<br />

una imagen hiperespectral es consi<strong>de</strong>rar que los píxeles <strong>de</strong> interés están compuestos<br />

por un solo material, utilizando las técnicas convencionales <strong>de</strong> clasificación <strong>de</strong><br />

patrones [16]. En las imágenes reales la mayoría <strong>de</strong> los píxeles son mezcla, raramente<br />

estarán compuestos por un único material. La clasificación es por tanto una<br />

simplificación <strong>de</strong>l problema <strong>de</strong> <strong>de</strong>smezclado espectral.<br />

2.3 Clasificación<br />

Tras esta breve introducción al problema <strong>de</strong> la mezcla espectral, po<strong>de</strong>mos<br />

<strong>de</strong>finir la clasificación espectral como un conjunto <strong>de</strong> técnicas <strong>de</strong> interpretación <strong>de</strong><br />

una escena obtenida <strong>de</strong> forma remota en base a unos patrones, obteniéndose una<br />

etiqueta para cada píxel <strong>de</strong> la imagen.<br />

Técnicas <strong>de</strong> clasificación<br />

16


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Estas técnicas ofrecen resultados interesantes en <strong>de</strong>terminadas aplicaciones, que<br />

se <strong>de</strong>tallan a continuación:<br />

• Clasificación temática. Las técnicas <strong>de</strong> clasificación han sido utilizadas <strong>de</strong><br />

forma satisfactoria en aplicaciones que tienen como objetivo la obtención <strong>de</strong> un mapa<br />

temático en el que cada píxel <strong>de</strong> la imagen hiperespectral está <strong>de</strong>bidamente etiquetado<br />

como perteneciente a una clase concreta [17]. Pue<strong>de</strong> existir una clase adicional<br />

<strong>de</strong>nominada "fondo" o "resto" que representa a los píxeles que no han sido<br />

clasificados en ninguna <strong>de</strong> las clases anteriores. El resultado i<strong>de</strong>al se obtiene cuando<br />

todas las clases, incluyendo la clase "fondo", son mutuamente excluyentes entre sí. La<br />

tarea clave en este tipo <strong>de</strong> aplicaciones suele ser la <strong>de</strong>terminación <strong>de</strong>l número <strong>de</strong><br />

clases y la caracterización <strong>de</strong> las mismas en términos <strong>de</strong> datos <strong>de</strong> entrenamiento o<br />

información <strong>de</strong> verdad-terreno. El objetivo es, en última instancia, <strong>de</strong>terminar la<br />

existencia o no <strong>de</strong> cada uno <strong>de</strong> los objetos consi<strong>de</strong>rados en cada píxel, situación que<br />

pue<strong>de</strong> expresarse como un problema <strong>de</strong> clasificación binario [18].<br />

• Detección <strong>de</strong> targets. Las técnicas <strong>de</strong> clasificación también han sido<br />

utilizadas <strong>de</strong> forma muy extensa en aplicaciones <strong>de</strong> <strong>de</strong>tección <strong>de</strong> objetivos o targets<br />

en imágenes hiperespectrales [19]. En este tipo <strong>de</strong> aplicaciones, el objetivo<br />

fundamental es la i<strong>de</strong>ntificación <strong>de</strong> un material u objeto específico (<strong>de</strong>nominado<br />

target en la bibliografía) entre todos los píxeles <strong>de</strong> la imagen.<br />

Técnicas <strong>de</strong> evaluación <strong>de</strong> algoritmos <strong>de</strong> clasificación<br />

La gran cantidad <strong>de</strong> técnicas existentes, así como la continua proliferación <strong>de</strong><br />

nuevas metodologías, hace patente la necesidad <strong>de</strong> esquemas <strong>comparativo</strong>s o métricas<br />

que permitan analizar <strong>de</strong> forma cualitativa el rendimiento <strong>de</strong> las nuevas metodologías<br />

planteadas, contrastando sus resultados con los proporcionados por las ya existentes<br />

[16].<br />

La mayor parte <strong>de</strong> las técnicas <strong>de</strong> evaluación <strong>de</strong> algoritmos <strong>de</strong> análisis <strong>de</strong><br />

imágenes digitales <strong>de</strong> tele<strong>de</strong>tección se basan en el concepto <strong>de</strong> verdad terreno,<br />

ampliamente utilizado en análisis <strong>de</strong> imágenes obtenidas <strong>de</strong> forma remota [20].<br />

Po<strong>de</strong>mos <strong>de</strong>finir i<strong>de</strong>almente el concepto <strong>de</strong> verdad terreno como el resultado <strong>de</strong><br />

clasificación o interpretación óptimo al que <strong>de</strong>be llegar un algoritmo [21], [22]<br />

Asumiendo la existencia <strong>de</strong> la información <strong>de</strong> verdad terreno, existen varias<br />

metodologías que permiten comparar el resultado proporcionado por un algoritmo <strong>de</strong><br />

17


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

análisis <strong>de</strong> imágenes con dicha información. En este proyecto se ha utilizado<br />

ampliamente la matriz <strong>de</strong> confusión:<br />

Matriz <strong>de</strong> confusión.<br />

La matriz <strong>de</strong> confusión [23] es una técnica que permite evaluar la precisión <strong>de</strong><br />

algoritmos <strong>de</strong> clasificación <strong>de</strong> imágenes digitales obtenidas <strong>de</strong> forma remota. Esta<br />

técnica presupone que la información verdad terreno viene expresada en forma <strong>de</strong> un<br />

mapa temático [24], [25], caracterizado por las siguientes propieda<strong>de</strong>s:<br />

• Cada píxel se encuentra etiquetado como perteneciente a una <strong>de</strong>terminada<br />

R = .<br />

clase, <strong>de</strong> forma que se tienen N clases o regiones <strong>de</strong> referencia { } N<br />

i i 1<br />

• Las regiones <strong>de</strong> referencia son mutuamente excluyentes entre sí, es <strong>de</strong>cir, dos<br />

regiones <strong>diferentes</strong> no tienen ningún píxel en común: ∩ R = ∅,<br />

∀i<br />

≠ j<br />

R i j<br />

La Fig.2.4 muestra la apariencia <strong>de</strong> una matriz <strong>de</strong> confusión utilizada para la<br />

evaluación <strong>de</strong> la clasificación obtenida por los métodos evaluados.<br />

Lago (R 0 )<br />

Carretera (R 1 )<br />

Árboles (R 2 )<br />

Suelo (R 3 )<br />

C 0<br />

C 1<br />

C 2<br />

C 3<br />

Mapa temático<br />

(verdad terreno)<br />

R 0<br />

a 00 =|C 0 ∩R 0 |<br />

a 10 =|C 1 ∩R 0 |<br />

a 20 =|C 2 ∩R 0 |<br />

a 30 =|C 3 ∩R 0 |<br />

Matriz <strong>de</strong> confusión<br />

R 1<br />

a 01 =|C 0 ∩R 1 |<br />

a 11 =|C 1 ∩R 1 |<br />

a 21 =|C 2 ∩R 1 |<br />

a 31 =|C 3 ∩R 1 |<br />

Clasificación<br />

(Algoritmo)<br />

R 2<br />

a 02 =|C 0 ∩R 2 |<br />

a 12 =|C 1 ∩R 2 |<br />

a 22 =|C 2 ∩R 2 |<br />

a 32 =|C 3 ∩R 2 |<br />

R 3<br />

a 03 =|C 0 ∩R 3 |<br />

a 13 =|C 1 ∩R 3 |<br />

a 23 =|C 2 ∩R 3 |<br />

a 33 =|C 3 ∩R 3 |<br />

Fig. 2.4 Ejemplo <strong>de</strong> construcción <strong>de</strong> la matriz <strong>de</strong> confusión<br />

Lago (C 0 )<br />

Carretera (C 1 )<br />

Árboles (C 2 )<br />

Suelo (C 3 )<br />

A partir <strong>de</strong> la matriz <strong>de</strong> confusión pue<strong>de</strong>n <strong>de</strong>rivarse algunas medidas <strong>de</strong><br />

precisión genéricas [26], [27], como el porcentaje <strong>de</strong> acierto global (tanto por ciento<br />

<strong>de</strong> píxeles clasificados <strong>de</strong> forma correcta en todas las clases) y el porcentaje <strong>de</strong> fallo<br />

global (tanto por ciento <strong>de</strong> píxeles clasificados <strong>de</strong> forma incorrecta).<br />

Las métricas más comúnmente utilizadas en la clasificación <strong>de</strong> imágenes<br />

hiperespectrales son overall (OA) y average (AVE). Dón<strong>de</strong> OA indica el acierto total,<br />

18


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

es <strong>de</strong>cir, el número <strong>de</strong> píxeles bien clasificados y AVE indica la media <strong>de</strong> acierto. Y<br />

se calculan <strong>de</strong> la siguiente forma, dado una verdad terreno, con P clases C1,…, Cp y<br />

un espectro <strong>de</strong> datos <strong>de</strong> ni puntos <strong>de</strong> test para las clases. Clasificamos todos los puntos<br />

<strong>de</strong> test en alguna <strong>de</strong> las clases por el método <strong>de</strong> clasificación empleado.<br />

Representando el termino aij el número <strong>de</strong> ejemplos <strong>de</strong> test que actualmente<br />

pertenecen a la clase Ci y han sido clasificados en la clase Cj, para i, j = 1,…P. La<br />

suma total <strong>de</strong> la fila es igual al número <strong>de</strong> ejemplos <strong>de</strong> la clase Ci, y la columna<br />

representa el número <strong>de</strong> ejemplos clasificados en Cj. Llamando N al número total <strong>de</strong><br />

ejemplos. Po<strong>de</strong>mos obtener la fórmula <strong>de</strong> cálculo <strong>de</strong> OA y AVE:<br />

2.4 Conceptos básicos sobre re<strong>de</strong>s <strong>neuronales</strong><br />

Las re<strong>de</strong>s <strong>neuronales</strong> artificiales (Artificial eural etworks) son sistemas para<br />

el procesamiento <strong>de</strong> la información, inspirados en el modo en que las re<strong>de</strong>s <strong>de</strong><br />

neuronas biológicas <strong>de</strong>l cerebro procesan esta. Por lo tanto las re<strong>de</strong>s <strong>neuronales</strong> son<br />

un entramado o una estructura formada por muchos nodos <strong>de</strong> procesamiento simples<br />

llamados nodos o neuronas, conectados por medio <strong>de</strong> canales <strong>de</strong> comunicación o<br />

conexiones, cuya finalidad es transformar las entradas externas.<br />

Las re<strong>de</strong>s <strong>neuronales</strong> son el ejemplo artificial que más se acerca a la capacidad<br />

<strong>de</strong> po<strong>de</strong>r adquirir conocimiento a partir <strong>de</strong> la experiencia. Presentan un gran número<br />

<strong>de</strong> características semejantes a las <strong>de</strong>l cerebro. Son capaces <strong>de</strong> apren<strong>de</strong>r <strong>de</strong> la<br />

experiencia, <strong>de</strong> generalizar <strong>de</strong> casos anteriores a nuevos casos, <strong>de</strong> extraer<br />

características esenciales a partir <strong>de</strong> entradas que representan información irrelevante.<br />

Todo ello lo hacen gracias a las neuronas que son estimuladas a través <strong>de</strong> sus<br />

entradas, y pue<strong>de</strong>n llegar a dispararse cuando lleguen a un cierto valor, <strong>de</strong>nominado<br />

umbral, <strong>de</strong> forma que la señal pasa a la salida. Estas transformaciones <strong>de</strong> la señal <strong>de</strong><br />

entrada se hacen por medio <strong>de</strong> <strong>diferentes</strong> funciones, que presentamos a continuación:<br />

• Entrada: cada neurona <strong>de</strong> entrada obtendrá un <strong>de</strong>terminado valor llamado<br />

entrada neta a partir <strong>de</strong> la pon<strong>de</strong>ración <strong>de</strong> todas las conexiones <strong>de</strong> entrada i x<br />

mediante sus pesos <strong>de</strong> entrada correspondientes w i . El cálculo <strong>de</strong> dicha entrada neta<br />

en la capa <strong>de</strong> entrada se muestra en la ecuación 2.1.<br />

19


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

et = w x ) + ( w x ) + ... + ( w x )<br />

(2.1)<br />

i<br />

( i1<br />

1 i2<br />

2<br />

in n<br />

• Función <strong>de</strong> activación: Tanto las neuronas artificiales cómo las neuronas<br />

biológicas pue<strong>de</strong>n tener dos estados <strong>de</strong> activación, pue<strong>de</strong>n estar: activas e inactivas,<br />

también <strong>de</strong>nominado: estado <strong>de</strong> activación. Aplicando la función <strong>de</strong> activación se<br />

calcula ese valor <strong>de</strong> activación a partir <strong>de</strong>l valor obtenido en la entrada neta. Se<br />

pue<strong>de</strong>n <strong>de</strong>finir <strong>diferentes</strong> tipos <strong>de</strong> funciones <strong>de</strong> activación, <strong>de</strong>finiendo así <strong>diferentes</strong><br />

salidas sobre las neuronas en función <strong>de</strong>l nivel <strong>de</strong> activación <strong>de</strong> sus entradas:<br />

o Función <strong>de</strong> activación lineal:<br />

a = f ( et ) = et<br />

(2.2)<br />

i<br />

o Función <strong>de</strong> activación sigmoi<strong>de</strong>:<br />

1<br />

a f ( eti<br />

) = −<br />

1+<br />

e<br />

i<br />

= (2.3)<br />

( eti<br />

)<br />

o Función <strong>de</strong> activación tangente hiperbólica:<br />

1−<br />

e<br />

a f ( eti<br />

) = −<br />

1+<br />

e<br />

( −eti<br />

)<br />

= (2.4)<br />

( eti<br />

)<br />

También po<strong>de</strong>mos encontrar re<strong>de</strong>s, dón<strong>de</strong> las neuronas utilicen otra función <strong>de</strong><br />

activación, como suce<strong>de</strong> en las re<strong>de</strong>s <strong>de</strong> base radial [28].<br />

Función <strong>de</strong> salida: una vez calculada la activación <strong>de</strong> cada neurona, se pue<strong>de</strong><br />

<strong>de</strong>terminar el valor <strong>de</strong> la salida aplicando una función f a la activación, obteniendo el<br />

estado final <strong>de</strong> la neurona.<br />

x = f (a)<br />

(2.5)<br />

20


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Fig. 2.5 Esquema <strong>de</strong> una neurona artificial<br />

2.5 Clasificación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong><br />

El siguiente apartado se estructura <strong>de</strong> la siguiente manera. E primer lugar, se<br />

presentará una breve categorización <strong>de</strong> las <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong><br />

atendiendo a tres aspectos fundamentales: su topología, las características <strong>de</strong> sus<br />

nodos y sus mecanismos <strong>de</strong> aprendizaje. A continuación se resumirá <strong>de</strong> forma concisa<br />

el estado <strong>de</strong>l arte en lo relativo a la aplicación <strong>de</strong> técnicas <strong>de</strong> computación neuronal<br />

en el ámbito <strong>de</strong>l análisis hiperespectral, tratando <strong>de</strong> justificar la elección <strong>de</strong> las<br />

técnicas utilizadas en el ámbito <strong>de</strong>l presente documento.<br />

2.5.1 Categorización:<br />

clave [29]:<br />

Una arquitectura neuronal pue<strong>de</strong> ser caracterizada por una serie <strong>de</strong> propieda<strong>de</strong>s<br />

• Topología <strong>de</strong> la red: también conocido como el mo<strong>de</strong>lo <strong>de</strong> interconexión<br />

entre los <strong>diferentes</strong> nodos que componen la arquitectura neuronal. Lo más<br />

general es encontrar <strong>arquitecturas</strong> organizadas en capas, pudiendo así<br />

encontrar <strong>arquitecturas</strong> monocapa y <strong>arquitecturas</strong> multicapa. En cuanto a las<br />

21


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

conexiones <strong>de</strong> las neuronas presentes en dichas capas, lo más común es que<br />

interconecten nodos <strong>de</strong> <strong>diferentes</strong> capas, <strong>de</strong> manera que la información fluya<br />

<strong>de</strong>s<strong>de</strong> la capa <strong>de</strong> entrada hasta la capa <strong>de</strong> salida (<strong>arquitecturas</strong> feedforward o<br />

<strong>de</strong> alimentación hacia <strong>de</strong>lante). Sin embargo, también po<strong>de</strong>mos encontrar<br />

<strong>arquitecturas</strong> con conexiones laterales (conexiones entre nodos <strong>de</strong> una misma<br />

capa), dando lugar a las conocidas como <strong>arquitecturas</strong> <strong>neuronales</strong> recurrentes<br />

[30], <strong>arquitecturas</strong> con conexiones auto-recurrentes (en las que la salida <strong>de</strong><br />

una neurona sirve como entrada <strong>de</strong> esa misma neurona) y con conexiones<br />

hacia atrás o feedback en las que la salida <strong>de</strong> una neurona <strong>de</strong> un <strong>de</strong>terminado<br />

nivel se conecta con neuronas <strong>de</strong> niveles prece<strong>de</strong>ntes.<br />

• Características <strong>de</strong> los nodos: consistentes básicamente en la forma <strong>de</strong><br />

calcular las entradas netas, activaciones y salidas <strong>de</strong> cada una <strong>de</strong> las neuronas<br />

<strong>de</strong> la arquitectura neuronal.<br />

• Mecanismo <strong>de</strong> aprendizaje: que es el proceso por el cual una red neuronal<br />

artificial modifica sus pesos en respuesta a una información <strong>de</strong> entrada,<br />

pudiendo distinguir entre <strong>arquitecturas</strong> <strong>neuronales</strong> supervisadas y no<br />

supervisadas [31]:<br />

• Arquitecturas supervisadas: los mo<strong>de</strong>los supervisados asumen la<br />

disponibilidad <strong>de</strong> información a priori sobre un <strong>de</strong>terminado conjunto <strong>de</strong><br />

patrones <strong>de</strong> entrenamiento [32]. Así pues, al mismo tiempo que se le<br />

suministran las entradas al sistema neuronal (estímulo <strong>de</strong> entrada) se<br />

incluyen también las salidas <strong>de</strong>seadas que la red <strong>de</strong>be producir (respuesta<br />

<strong>de</strong>seada). A partir <strong>de</strong> esta información formada por pares entrada/salida<br />

<strong>de</strong>seada, la red ajustará su conjunto <strong>de</strong> pesos basándose en alguno <strong>de</strong> los<br />

algoritmos <strong>de</strong> aprendizaje disponibles, entre los cuales <strong>de</strong>stacan los<br />

siguientes:<br />

a. Aprendizaje por correccción <strong>de</strong>l error, en el que el ajuste <strong>de</strong> los<br />

pesos se realiza en función <strong>de</strong> la diferencia entre la salida <strong>de</strong>seada<br />

y la salida obtenida por la red, bien atendiendo al error individual<br />

en cada nodo, o bien atendiendo al error global.<br />

22


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

b. Aprendizaje por refuerzo, en el que se aplica una función <strong>de</strong><br />

refuerzo en el caso <strong>de</strong> que la salida <strong>de</strong> la red se ajuste <strong>de</strong> forma<br />

a<strong>de</strong>cuada a la salida <strong>de</strong>seada (i.e.: éxito = +1, fracaso = -1).<br />

c. Aprendizaje estocástico, consistente en la realización <strong>de</strong> cambios<br />

aleatorios en los pesos y en la evaluación <strong>de</strong> su efecto a partir <strong>de</strong>l<br />

objetivo <strong>de</strong>seado y <strong>de</strong> distribuciones <strong>de</strong> probabilidad (mediante el<br />

uso <strong>de</strong> funciones <strong>de</strong> energía como representantes <strong>de</strong> la estabilidad<br />

<strong>de</strong> la red).<br />

• Arquitecturas no supervisadas: los mo<strong>de</strong>los <strong>neuronales</strong> no supervisados<br />

realizan la clasificación <strong>de</strong> los datos <strong>de</strong> entrada sin necesidad <strong>de</strong><br />

incorporar información sobre la salida <strong>de</strong>seada [30]. En este tipo <strong>de</strong><br />

<strong>arquitecturas</strong>, es la propia red la que <strong>de</strong>be encontrar por si misma la<br />

regularidad presente en los datos <strong>de</strong> entrada y agruparlos en consecuencia.<br />

La salida <strong>de</strong> la red pue<strong>de</strong> representar tanto el grado <strong>de</strong> familiaridad o<br />

similitud entre la información presentada, como el establecimiento <strong>de</strong><br />

categorías a partir <strong>de</strong> correlaciones entre los <strong>diferentes</strong> patrones <strong>de</strong><br />

entrada. Este tipo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> también pue<strong>de</strong> utilizar<br />

<strong>diferentes</strong> tipos <strong>de</strong> aprendizajes no supervisados, entre los que <strong>de</strong>stacamos<br />

los siguientes:<br />

a. Aprendizaje hebbiano, que realiza el ajuste en base a la correlación<br />

<strong>de</strong> los valores <strong>de</strong> activación (salidas) <strong>de</strong> las neuronas<br />

interconectadas.<br />

b. Aprendizaje competitivo, don<strong>de</strong> las neuronas compiten unas contra<br />

otras por activarse. Ante una información <strong>de</strong> entrada solo una <strong>de</strong><br />

las neuronas <strong>de</strong> salida <strong>de</strong> la red (o un cierto grupo <strong>de</strong> éllas) se<br />

activan (o alcanzan su valor máximo).<br />

2.5.2 Computación neuronal en análisis hiperespectral<br />

En los últimos años, se han <strong>de</strong>sarrollado <strong>diferentes</strong> técnicas que hacen uso <strong>de</strong><br />

<strong>arquitecturas</strong> <strong>neuronales</strong> para la resolución <strong>de</strong> problemas relacionados con el análisis<br />

hiperespectral [33], [34], [35], [36]. La resolución <strong>de</strong> problemas <strong>de</strong> clasificación y<br />

regresión en espacios multidimensionales pue<strong>de</strong> abordarse mediante el uso <strong>de</strong><br />

23


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

<strong>de</strong>terminadas <strong>arquitecturas</strong> <strong>neuronales</strong> [32]. Dentro <strong>de</strong>l ámbito <strong>de</strong>l análisis<br />

hiperespectral, po<strong>de</strong>mos categorizar las <strong>arquitecturas</strong> <strong>neuronales</strong> utilizadas hasta la<br />

fecha atendiendo al hecho <strong>de</strong> si su mecanismo <strong>de</strong> aprendizaje es supervisado o no<br />

supervisado.<br />

2.5.2.1 Arquitecturas no supervisadas:<br />

Dentro <strong>de</strong>l grupo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> no supervisadas aplicadas al<br />

análisis hiperespectral, po<strong>de</strong>mos <strong>de</strong>stacar fundamentalmente la aplicación <strong>de</strong> los<br />

mo<strong>de</strong>los <strong>de</strong> red auto-organizativos o self-organizing maps (SOM’s) sobre problemas<br />

<strong>de</strong> clasificación no supervisada <strong>de</strong> imágenes hiperespectrales [37], [38]. Este tipo <strong>de</strong><br />

<strong>arquitecturas</strong> (re<strong>de</strong>s <strong>de</strong> Kohonen) se basan en un proceso <strong>de</strong> aprendizaje no<br />

supervisado, competitivo, en el que cada neurona compite con el resto por activarse<br />

[39], [40]<br />

También po<strong>de</strong>mos <strong>de</strong>stacar la aplicación <strong>de</strong> <strong>arquitecturas</strong> recurrentes con<br />

conexiones recurrentes (conexiones entre neuronas <strong>de</strong> la misma capa) sobre datos<br />

hiperespectrales, como las <strong>arquitecturas</strong> basadas en el mo<strong>de</strong>lo <strong>de</strong> Hopfield [41] que se<br />

han aplicado con éxito a la resolución <strong>de</strong>l problema lineal <strong>de</strong> mezcla, permitiendo<br />

minimizar el error cuadrático <strong>de</strong> la estimación <strong>de</strong> las abundancias para un píxel a<br />

partir <strong>de</strong> un <strong>de</strong>terminado conjunto <strong>de</strong> espectros representativos o puros [30].<br />

Dentro <strong>de</strong>l conjunto <strong>de</strong> aquitecturas <strong>neuronales</strong> no supervisadas utilizadas en<br />

análisis hiperespectral también po<strong>de</strong>mos incluir las <strong>arquitecturas</strong> basadas en la teoría<br />

<strong>de</strong> resonancia adaptativa o adaptive resonante theory (ART) que emplean algoritmos<br />

<strong>de</strong> aprendizaje competitivos centrados en conceptos <strong>de</strong> lógica difusa [42], [43].<br />

2.5.2.2 Arquitecturas supervisadas:<br />

Las primeras <strong>arquitecturas</strong> <strong>de</strong> red neuronal supervisadas aplicadas a problemas<br />

<strong>de</strong> datos obtenidos <strong>de</strong> forma remota se basaron en la arquitectura <strong>de</strong>nominada<br />

perceptrón multicapa o multi-layer perceptron (MLP) [44], [45]. Este tipo <strong>de</strong><br />

<strong>arquitecturas</strong>, que son las <strong>arquitecturas</strong> <strong>neuronales</strong> supervisadas más ampliamente<br />

24


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

utilizadas en el ámbito <strong>de</strong>l análisis hiperespectral, constan <strong>de</strong> una capa <strong>de</strong> entrada, una<br />

(o varias) capas <strong>de</strong> neuronas ocultas y una capa <strong>de</strong> salida. Cada nodo o neurona<br />

procesa la información <strong>de</strong> entrada a traves <strong>de</strong> conexiones pon<strong>de</strong>radas a los elementos<br />

<strong>de</strong> la siguiente capa, por lo que se dice que se propagan la salida hacia <strong>de</strong>lante<br />

(alimentación feedforward). Este tipo <strong>de</strong> re<strong>de</strong>s proporcionan un marco excepcional<br />

para mapear una serie <strong>de</strong> entradas a una serie <strong>de</strong> salidas que siguen una función no<br />

lineal [32]. Esto se consigue mediante la inclusión <strong>de</strong> funciones <strong>de</strong> activación no<br />

lineales en los nodos <strong>de</strong> la capa oculta y/o en la capa <strong>de</strong> salida. La función <strong>de</strong><br />

activación más comúnmente utilizada sobre este tipo <strong>de</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> es la<br />

función sigmoi<strong>de</strong>. Como hemos comentado, son <strong>arquitecturas</strong> multicapa,<br />

feedforward, y suelen basar su aprendizaje en el algoritmo <strong>de</strong> propagación <strong>de</strong>l error<br />

hacia atrás (backpropagation). Se pue<strong>de</strong> resumir el algoritmo <strong>de</strong> propagación hacia<br />

atrás en la aplicación <strong>de</strong> un ciclo <strong>de</strong> propagación-adaptación <strong>de</strong> 3 fases:<br />

1.- Propagación hacia <strong>de</strong>lante. Se aplica un patrón <strong>de</strong> entrada como estímulo<br />

para la primera capa <strong>de</strong> neuronas <strong>de</strong> la red. El estímulo se propaga a través <strong>de</strong><br />

todas las capas intermedias (ocultas) hasta generar una salida. En el siguiente<br />

paso se compara la salida obtenida en los nodos o neuronas <strong>de</strong> salida con la<br />

salida <strong>de</strong>seada (salida objetivo <strong>de</strong> la red para dicho patrón o estímulo), y se<br />

calcula un término <strong>de</strong> error para cada neurona <strong>de</strong> salida como el promedio <strong>de</strong><br />

los cuadrados <strong>de</strong> los errores cometidos para cada uno <strong>de</strong> los patrones.<br />

2.- Retropropagación <strong>de</strong>l error. Los errores obtenidos en la etapa anterior se<br />

propagan hacia atrás, partiendo <strong>de</strong> la capa <strong>de</strong> salida, <strong>de</strong> forma que cada neurona<br />

recibe un porcentaje <strong>de</strong> error correspondiente a su contribución a la salida <strong>de</strong> la<br />

red.<br />

3.- Adaptación <strong>de</strong> pesos. Los pesos <strong>de</strong> la red se modifican <strong>de</strong> acuerdo a los<br />

errores calculados y retropropagados.<br />

Básicamente, este proceso <strong>de</strong> aprendizaje se basa en la búsqueda <strong>de</strong>l mínimo <strong>de</strong><br />

la función <strong>de</strong>l error (promedio <strong>de</strong> los cuadrados <strong>de</strong> los errores) a mediante la técnica<br />

<strong>de</strong>l <strong>de</strong>scenso <strong>de</strong>l gradiente [46].<br />

25


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Para la realización <strong>de</strong> las pruebas presentadas en esta memoria, hemos seleccionado<br />

como red neuronal no supervisada el mo<strong>de</strong>lo auto-organizativo <strong>de</strong> Kohonen (SOM) y<br />

como arquitectura supervisada el perceptron multi-capa (MLP). Estos dos mo<strong>de</strong>los<br />

<strong>neuronales</strong> son los más ampliamente utilizados en la bibliografía revisada, han sido<br />

aplicados <strong>de</strong> forma exitosa en el ámbito <strong>de</strong>l reconocimiento <strong>de</strong> patrones [32] y han<br />

sido seleccionados basándonos en trabajos previos realizados en el ámbito <strong>de</strong>l Grupo<br />

<strong>de</strong> Re<strong>de</strong>s Neuronales y Procesamiento <strong>de</strong> Señales (GRNPS) <strong>de</strong> la Universidad <strong>de</strong><br />

Extremadura [30], [38], [46].<br />

2.6 Técnicas utilizadas<br />

En este apartado presentamos los cuatro algoritmos <strong>de</strong> clasificación utilizados<br />

durante los experimentos que se <strong>de</strong>scriben en la presente memoria. Dichos algoritmos<br />

son: algoritmo <strong>de</strong> máxima verosimilitud o Maximum Likelihood (ML), máquinas <strong>de</strong><br />

vectores soporte o Support Vector Machines (SVM), mapas auto-organizativos o Self<br />

Organizing Maps (SOM) y perceptron multi-capa o Multi-Layer Perceptron (MLP).<br />

Como se pue<strong>de</strong> apreciar, las técnicas seleccionadas son clasificadores ampliamente<br />

utilizados en la literatura.<br />

2.6.1 Maximum Likelihood (Máxima probabilidad)<br />

El algoritmo Maximum Likelihood (ML) es clasificador lineal que asume que<br />

las estadísticas para cada clase en cada banda <strong>de</strong> la imagen hiperespectral siguen una<br />

distribución normal [47].<br />

El clasificador Maximum Likelihood (ML) es una <strong>de</strong> las técnicas supervisadas<br />

más ampliamente utilizadas en análisis <strong>de</strong> imágenes obtenidas <strong>de</strong> forma remota [48].<br />

Es preciso <strong>de</strong>stacar que ML no se trata <strong>de</strong> un clasificador neuronal, sino <strong>de</strong> un método<br />

estándar <strong>de</strong> clasificación que se ha utilizado como referencia para las comparativas<br />

realizadas dada su amplia utilización en el problema que nos ocupa. El clasificador<br />

ML es una técnica supervisada que se basa en la estimación <strong>de</strong>l vector promedio y <strong>de</strong><br />

la matriz <strong>de</strong> covarianza para cada clase a partir <strong>de</strong> los patrones <strong>de</strong> entrenamiento<br />

disponibles para la misma. La expresión empleada por este clasificador para medir la<br />

probabilidad <strong>de</strong> pertenencia <strong>de</strong> un píxel (vector), <strong>de</strong>notado como x , con respecto a<br />

26


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

una <strong>de</strong>terminada clase, <strong>de</strong>notada como C i , siendo i = 1,<br />

2, . .. , M , don<strong>de</strong> M <strong>de</strong>nota el<br />

número total <strong>de</strong> clases, es la siguiente [49]:<br />

1 1<br />

1<br />

i<br />

i i<br />

T −<br />

( x) = − ln − ( x - m ) ( x - )<br />

Σ<br />

Σ<br />

g m<br />

2 2<br />

don<strong>de</strong> Σi es la matriz <strong>de</strong> covarianza para la clase i<br />

i<br />

C y m i es el vector<br />

promedio para dicha clase. Como pue<strong>de</strong> apreciarse, el clasificador está basado en el<br />

cálculo <strong>de</strong> la probabilidad <strong>de</strong> que un <strong>de</strong>terminado píxel pertenezca a una clase dada, y<br />

utiliza la matriz <strong>de</strong> covarianza, Σi , y el vector promedio <strong>de</strong> la clase, m i , estimados<br />

ambos utilizando los patrones <strong>de</strong> entrenamiento seleccionados para dicha clase, para<br />

asignar el píxel x a la clase para la cual posee mayor probabilidad <strong>de</strong> pertenencia. Es<br />

importante <strong>de</strong>stacar que, para po<strong>de</strong>r calcular la matriz <strong>de</strong> covarianza en una<br />

<strong>de</strong>terminada clase C i , es preciso disponer <strong>de</strong> suficientes patrones <strong>de</strong> entrenamiento<br />

(el número <strong>de</strong> patrones <strong>de</strong> entrenamiento necesarios <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la dimensionalidad o<br />

número <strong>de</strong> bandas <strong>de</strong> los mismos). En caso contrario, no será posible entrenar al<br />

clasificador si el número <strong>de</strong> patrones <strong>de</strong> entrenamiento utilizados para una<br />

<strong>de</strong>terminada clase es muy reducido [50]. Este aspecto pue<strong>de</strong> afectar <strong>de</strong> forma<br />

negativa al clasificador ML, y será estudiado en <strong>de</strong>talle a la hora <strong>de</strong> evaluar el<br />

rendimiento <strong>de</strong>l mismo en comparación con el resto <strong>de</strong> clasificadores <strong>de</strong>scritos en el<br />

presente trabajo.<br />

Como hemos visto este clasificador asigna a cada píxel <strong>de</strong>sconocido a una clase<br />

<strong>de</strong> acuerdo a un criterio Gaussiano <strong>de</strong> probabilidad. Cuando los datos son linealmente<br />

separables es sencillo obtener una fórmula <strong>de</strong> optimización <strong>de</strong> la probabilidad, pero<br />

cuando no lo son, como suele ocurrir normalmente, la estimación ML <strong>de</strong>be buscar los<br />

valores usando algoritmos <strong>de</strong> optimización no lineal. La i<strong>de</strong>a básica <strong>de</strong> la optimación<br />

no lineal es encontrar rápidamente los parámetros óptimos que maximizan la función<br />

<strong>de</strong> probabilidad. Esto se hace mediante una búsqueda en subconjuntos <strong>de</strong>l espacio <strong>de</strong>l<br />

espacio <strong>de</strong> parámetros multidimensionales, siendo una búsqueda más exhaustiva que<br />

buscando en el espacio entero, lo cual llega a ser intratable cuando el número <strong>de</strong><br />

parámetros aumenta [51].<br />

Este proceso <strong>de</strong> búsqueda “inteligente” empieza con ensayo. En concreto, en<br />

cada iteración, teniendo en cuenta los resultados <strong>de</strong> la iteración anterior, se obtiene un<br />

nuevo conjunto <strong>de</strong> valores <strong>de</strong> los parámetros añadiendo pequeños cambios <strong>de</strong> forma<br />

que los nuevos parámetros pue<strong>de</strong>n dar mejores resultados. Los <strong>diferentes</strong> algoritmos<br />

27


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

<strong>de</strong> optimización difieren en como se actualizan. El proceso iterativo continúa hasta<br />

que se consi<strong>de</strong>ra que los parámetros convergen. Algunos ejemplos <strong>de</strong> criterios <strong>de</strong><br />

parada incluyen un número máximo <strong>de</strong> iteraciones permitido o el cambio mínimo<br />

sobre los valores <strong>de</strong> los parámetros entre dos iteraciones sucesivas.<br />

2.6.2 SVM (Support Vector Machine)<br />

Son un conjunto <strong>de</strong> algoritmos <strong>de</strong>sarrollados recientemente por Vladimir<br />

Vapnik y su equipo en los laboratorios AT&T. Pertenecen a la familia <strong>de</strong> los<br />

clasificadores lineales puesto que inducen separadores lineales o hiperplanos en<br />

espacios <strong>de</strong> características <strong>de</strong> muy alta dimensionalidad. [52], a pesar <strong>de</strong> que se<br />

pue<strong>de</strong>n adaptar <strong>de</strong> forma sencilla para actuar como clasificadores no lineales<br />

mediante la aplicación <strong>de</strong> una función o kernel no lineal sobre los datos <strong>de</strong> entrada.<br />

Inicialmente se usaron para problemas <strong>de</strong> clasificación binaria, pero <strong>de</strong>spués se<br />

ha extendido su uso a problemas <strong>de</strong> regresión, agrupamiento, clasificación multiclase,<br />

regresión ordinal, y se está trabajando en la búsqueda <strong>de</strong> resolver problemas más<br />

complejos (árboles y grafos). Algunas aplicaciones <strong>de</strong> las SVM para los casos <strong>de</strong><br />

reconocimiento <strong>de</strong> patrones han sido reconocimiento <strong>de</strong> caracteres [52],<br />

reconocimiento <strong>de</strong> objetos [53], reconocimiento <strong>de</strong> voz [54], etc.<br />

Su principal objetivo es obtener una superficie (o hiperplano) capaz <strong>de</strong> separar<br />

las <strong>diferentes</strong> clases en las que se pue<strong>de</strong> agrupar una distribución <strong>de</strong> datos en un<br />

espacio N-dimensional, utilizando para ello un proceso <strong>de</strong> optimización basado en la<br />

obtención <strong>de</strong> vectores que <strong>de</strong>finen los límites <strong>de</strong> las clases. Estos vectores se<br />

<strong>de</strong>nominan normalmente vectores soporte o support vectors [52].<br />

Si vemos los datos <strong>de</strong> entrada como dos conjuntos <strong>de</strong> vectores en un espacio N-<br />

dimensional, el objetivo <strong>de</strong>l algoritmo SVM simplemente es construir un hiperplano<br />

<strong>de</strong> separación en ese espacio, el cual maximice el margen <strong>de</strong> distancia a los dos<br />

conjuntos <strong>de</strong> datos [55].<br />

28


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Fig. 2.6 Esquema <strong>de</strong> funcionamiento SVM<br />

En la Fig.2.6 po<strong>de</strong>mos apreciar como calcular este hiperplano <strong>de</strong> separación,<br />

construyendo otros dos hiperplanos paralelos, uno a cada lado <strong>de</strong>l primero. Los dos<br />

hiperplanos paralelos son empujados, para aproximarse lo más posible a los conjuntos<br />

<strong>de</strong> datos. Intuitivamente, se alcanza una buena separación cuando el hiperplano <strong>de</strong><br />

separación se encuentra a la mayor distancia <strong>de</strong> ambas clases [52]. Cuanto mayor sea<br />

la distancia mejor será en general el error <strong>de</strong>l clasificador.<br />

2.15:<br />

En términos matemáticos, dado un conjunto <strong>de</strong> entrenamiento <strong>de</strong> la ecuación<br />

Don<strong>de</strong> ci es 1 ó −1, indicando la clase a la que el punto pertenece. Cada<br />

29<br />

(2.15)<br />

es un vector real p-dimensional, queremos obtener un hiperplano <strong>de</strong> distancia máxima<br />

a los conjuntos <strong>de</strong> entrenamiento y que los divida aquellos pertenecientes a ci = 1 <strong>de</strong><br />

aquellos que tengan el valor ci = − 1. Cualquier hiperplano pue<strong>de</strong> ser escrito como un<br />

conjunto <strong>de</strong> puntos que satisfaga la ecuación 2.16<br />

El vector W es un vector normal perpendicular al hiperplano. El parámetro<br />

<strong>de</strong>termina el <strong>de</strong>splazamiento <strong>de</strong>l hiperplano sobre el origen.<br />

(2.16)


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Nosotros queremos elegir la W y la b que maximicen la distancia entre los dos<br />

hiperplanos paralelos, que estarán tan apartados como sea posible en función <strong>de</strong> los<br />

datos. Estos hiperplanos pue<strong>de</strong>n ser <strong>de</strong>scritos con las fórmulas ecuación 2.17 y<br />

ecuación 2.18.<br />

30<br />

(2.17)<br />

y .(2.18)<br />

Nótese que si el conjunto <strong>de</strong> entrenamiento es linealmente separable po<strong>de</strong>mos<br />

elegir dos hiperplanos en el bor<strong>de</strong> <strong>de</strong> los conjuntos <strong>de</strong> modo que no hay puntos entre<br />

ellos y entonces intentar maximizar su distancia. Usando la geometría, po<strong>de</strong>mos<br />

encontrar que la distancia entre ellos es , por lo que se preten<strong>de</strong> minimizar .<br />

Como tenemos que evitar que los puntos caigan en la zona límite, añadimos la<br />

restricción <strong>de</strong> la ecuación 2.7 a los pertenecientes a la primera clase y la<br />

restricción <strong>de</strong> la ecuación 2.8 a los <strong>de</strong> la segunda<br />

Esto pue<strong>de</strong> ser escrito como:<br />

Po<strong>de</strong>mos poner esto junto para llegar al problema <strong>de</strong> optimización:<br />

Elegir w, b para minimizar ||w||<br />

(2.19)<br />

(2.20)<br />

(2.21)<br />

(2.22)<br />

El problema <strong>de</strong> optimización presentado anteriormente es difícil <strong>de</strong>bido a que<br />

solo <strong>de</strong>pen<strong>de</strong> <strong>de</strong> un valor |w|. La razón es que es un problema <strong>de</strong> optimización no<br />

convexo, el cual se sabe que es mucho más difícil <strong>de</strong> resolver que el problema <strong>de</strong><br />

optimización convexo. Afortunadamente es posible sustituir ||w|| por sin<br />

cambiar la solución. Esto es un problema <strong>de</strong> optimización <strong>de</strong> programación<br />

cuadrática. Más claramente,<br />

minimizar , sujeto a .<br />

El factor 1/2 se usa como una conveniencia matemática. Ahora el problema que<br />

se nos presenta se pue<strong>de</strong> resolver mediante programas y técnicas <strong>de</strong> programación<br />

cuadrática estándar.


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Escribiendo la regla <strong>de</strong> clasificación en su forma dual extendida revela que la<br />

distancia máxima al hiperplano, y por tanto la tarea <strong>de</strong> clasificación, es solo una<br />

función <strong>de</strong> los vectores soporte, es <strong>de</strong>cir, los datos que están en el límite. La segunda<br />

forma <strong>de</strong> SVM se pue<strong>de</strong> ver en la fórmula (2.23):<br />

31<br />

(2.23)<br />

Sujeto a , y (2.24)<br />

Don<strong>de</strong> los términos α constituyen otra representación <strong>de</strong>l vector <strong>de</strong> pesos en<br />

términos <strong>de</strong>l conjunto <strong>de</strong> entrenamiento:<br />

(2.25)<br />

El algoritmo original especifica un clasificador lineal, sin embargo, pue<strong>de</strong><br />

modificarse para resolver problemas <strong>de</strong> clasificación no lineal reemplazando el<br />

producto escalar por una función kernel no lineal. Esto permite al algoritmo fijar la<br />

máxima distancia al hiperplano en un espacio <strong>de</strong> características transformado. La<br />

transformación podría ser no lineal y el espacio transformado <strong>de</strong> alta<br />

dimensionalidad; <strong>de</strong> este modo aunque el clasificador es un hiperplano en un espacio<br />

<strong>de</strong> características <strong>de</strong> alta dimensionalidad podría no ser lineal en el espacio <strong>de</strong> entrada<br />

original [56].<br />

Si el kernel utilizado es Gaussian radial basis function, el espacio <strong>de</strong><br />

características correspondiente es un espacio <strong>de</strong> Hilbert <strong>de</strong> dimensión infinita. La<br />

máxima distancia esta regulada, por lo que la dimensión infinita no estropeará los<br />

resultados [57]. Algunos kernels habituales incluyen,<br />

• Polynomial (homogéneo):<br />

• Polynomial (heterogéneo):<br />

• Radial Basis Function: , para γ > 0<br />

• Gaussian Radial basis function:


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

• Sigmoid: , para algunos κ > 0 y c < 0<br />

En la literatura, po<strong>de</strong>mos encontrar también ejemplos <strong>de</strong> kernels basados en métricas<br />

espectrales comúnmente utilizadas en análisis hiperespectral [58].<br />

El procesamiento empleado por las SVM no requiere <strong>de</strong> un gran número <strong>de</strong> patrones<br />

<strong>de</strong> entrenamiento, siempre y cuando los patrones escogidos sean realmente<br />

representativos. De esta forma, el rendimiento <strong>de</strong>l método no se ve muy afectado por<br />

la disponibilidad <strong>de</strong> un número limitado <strong>de</strong> patrones <strong>de</strong> entrenamiento [59].<br />

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP)<br />

Como hemos mencionado en apartados anteriores, este clasificador es el<br />

exponente más típico en las re<strong>de</strong>s <strong>neuronales</strong> artificiales con aprendizaje supervisado.<br />

Formado por múltiples capas, como su propio nombre indica, esto le permite resolver<br />

problemas que no son linealmente separables, lo cual es la principal limitación <strong>de</strong>l<br />

perceptrón simple.<br />

Este método <strong>de</strong> aprendizaje <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> artificiales fue <strong>de</strong>scrito por Paul<br />

Werbos en 1974, pero no fue hasta 1986, a través <strong>de</strong>l trabajo <strong>de</strong> David E.Rumelhart,<br />

Geoffrey E. Hinton y Ronald J Williams, cuando obtuvieron el reconocimiento y dio<br />

lugar a un giro importante en el campo <strong>de</strong> investigación <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong><br />

artificiales.<br />

El entrenamiento se basa en la presentación sucesiva y <strong>de</strong> forma reiterada, <strong>de</strong><br />

pares <strong>de</strong> vectores en las capas <strong>de</strong> entrada y salida. La red crea un mo<strong>de</strong>lo a base <strong>de</strong><br />

ajustar sus pesos en función <strong>de</strong> los vectores <strong>de</strong> entrenamiento, <strong>de</strong> forma que a medida<br />

que se pasan estos patrones, para cada vector <strong>de</strong> entrada la red producirá un valor <strong>de</strong><br />

salida más similar al vector <strong>de</strong> salida esperado. El esquema mostrado en la Fig. 2.7<br />

presenta una red neuronal <strong>de</strong> tipo feed-forward (propagación hacia <strong>de</strong>lante).<br />

32


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

1 2 3<br />

1 2 • • • L<br />

1 2 3<br />

• • •<br />

• • •<br />

M<br />

N<br />

Fig. 2.7 Perceptrón multicapa<br />

Capa <strong>de</strong> salida<br />

Capa oculta<br />

Capa <strong>de</strong> entrada<br />

La Fig. 2.7 muestra la topología <strong>de</strong> un perceptrón multicapa con 3 capas <strong>de</strong> neuronas<br />

(<strong>de</strong> entrada, oculta y <strong>de</strong> salida).<br />

A continuación <strong>de</strong>cribiremos el algoritmo <strong>de</strong> entrenamiento <strong>de</strong> retropropagación o<br />

backpropagation, que es el algoritmo <strong>de</strong> aprendizaje implementado en la versión<br />

utilizada.<br />

Los pasos <strong>de</strong> la fase <strong>de</strong> reconocimiento para una red NxLxM (siendo N la<br />

dimensionalidad <strong>de</strong> los datos <strong>de</strong> entrada, L el número <strong>de</strong> neuronas ocultas y M el<br />

número <strong>de</strong> clases a i<strong>de</strong>ntificar) son los siguientes:<br />

33


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Propagación hacia <strong>de</strong>lante. Inicialmente, se presenta un patrón <strong>de</strong> entrada<br />

[ x , x ,..., x ]<br />

X =<br />

, así como la salida <strong>de</strong>seada para dicho patrón<br />

1<br />

2<br />

N<br />

[ a , a ,..., a ]<br />

A =<br />

. A continuación, se calculan las salidas <strong>de</strong> las neuronas<br />

1<br />

2<br />

M<br />

<strong>de</strong> la capa oculta teniendo en cuenta las neuronas <strong>de</strong> entrada para cada<br />

N<br />

o<br />

neurona i <strong>de</strong> la capa oculta oi = ∑= wij x j + wi0<br />

. Seguidamente, se calculan<br />

j 1<br />

las salidas <strong>de</strong> las neuronas ocultas mediante la función <strong>de</strong> activación<br />

o<br />

consi<strong>de</strong>rada z f ( o )<br />

i<br />

= .<br />

i<br />

Se realizan los mismos cálculos que en el paso anterior para obtener las<br />

s<br />

salidas <strong>de</strong> cada neurona k <strong>de</strong> la capa <strong>de</strong> salida o k = vki<br />

zi<br />

+ vk0<br />

,<br />

k<br />

s ( o )<br />

y = g . Teniendo en cuenta la salida obtenida por la red, así como la salida<br />

k<br />

<strong>de</strong>seada proporcionada al comienzo, se calcula un término <strong>de</strong> error para cada<br />

s<br />

' s<br />

neurona <strong>de</strong> salida mediante la siguiente expresión δ ( − y ) g ( o )<br />

k<br />

L<br />

∑<br />

i=<br />

1<br />

34<br />

= . A<br />

ak k k<br />

continuación, se retropropaga el error hacia atrás, calculando los términos <strong>de</strong><br />

L<br />

o ⎛ ⎞ ' o<br />

error para las neuronas ocultas ⎜ δ f ( o )<br />

δi = ∑ k ki ⎟<br />

⎝ k=<br />

1 ⎠<br />

v . De esta forma, el error<br />

que se produce en una neurona oculta es proporcional a la suma <strong>de</strong> los errores<br />

que se producen en las neuronas a las que está conectada la salida <strong>de</strong> esta.<br />

Finalmente, solo queda actualizar los pesos <strong>de</strong> acuerdo con los términos <strong>de</strong> error<br />

previamente calculados. Comenzamos por los pesos <strong>de</strong> la capa <strong>de</strong> salida, que<br />

calculamos <strong>de</strong> acuerdo con la expresión ki ( ) ki ( ) k pi<br />

i<br />

s<br />

v t + 1 = v t + αδ z y <strong>de</strong>spués<br />

hallamos los pesos <strong>de</strong> la capa oculta <strong>de</strong>l siguiente modo<br />

ij<br />

o<br />

( t + 1)<br />

= wij(<br />

t)<br />

+ αδi<br />

x j<br />

w .<br />

Este proceso se reptite hasta que el término <strong>de</strong>l error (error permitido) resulta lo<br />

suficientemente pequeño para dicho patrón:<br />

M 1<br />

E = ∑ a<br />

2 k=<br />

1<br />

( ) 2<br />

− y<br />

Una vez alcanzada la convergencia <strong>de</strong> la red (el error global está por<br />

<strong>de</strong>bajo <strong>de</strong> un <strong>de</strong>terminado error umbral), se aplica un procedimiento <strong>de</strong> asignación <strong>de</strong><br />

k<br />

k


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

cada patrón a una clase siguiendo un simple proceso <strong>de</strong> winner-take-all, <strong>de</strong> forma que<br />

cada patrón se etiqueta como perteneciente a la clase con mayor porcentaje <strong>de</strong><br />

abundancia obtenido a la salida <strong>de</strong> la red.<br />

2.6.4 Self-Organizing Map (SOM)<br />

Los mapas <strong>de</strong> características autoorganizativo o Self Organizing Feature Maps<br />

(SOM o SOFM), <strong>de</strong>sarrollados por Kohonen son un tipo <strong>de</strong> red neuronal no<br />

supervisada, competitiva, que buscan la transformación <strong>de</strong> un patrón <strong>de</strong> entrada en un<br />

mapa discreto multidimensional <strong>de</strong> forma adaptativa, siguiendo algún criterio <strong>de</strong><br />

or<strong>de</strong>nación topológico.<br />

La red utilizada consta <strong>de</strong> un conjunto <strong>de</strong> N neuronas lineales que reciben<br />

patrones N-dimensionales y un conjunto <strong>de</strong> M neuronas <strong>de</strong> salida que forman una<br />

capa unidimensional <strong>de</strong> tipo competitivo, siendo M el número total <strong>de</strong> clases<br />

existentes en la imagen. Las conexiones entre los nodos <strong>de</strong> entrada y <strong>de</strong> salida están<br />

pon<strong>de</strong>radas (wij, inicializados <strong>de</strong> forma aleatoria al principio <strong>de</strong>l proceso), <strong>de</strong> forma que los<br />

valores correspondientes a una neurona <strong>de</strong> salida i (vector <strong>de</strong> pesos wi), representarán el<br />

prototipo o firma hiperespectral <strong>de</strong> la clase i-ésima (o endmember i-ésimo). A<strong>de</strong>más existen<br />

conexiones laterales entre las M neuronas <strong>de</strong> salida, conexiones que especifican la influencia<br />

<strong>de</strong> la neurona sobre sus vecinas (función <strong>de</strong> vecindad) durante el proceso <strong>de</strong> actualización <strong>de</strong><br />

los pesos.<br />

La Fig. 2.8 muestra una arquitectura sencilla <strong>de</strong> la red SOM, está formada por<br />

dos capas, una capa <strong>de</strong> entrada y otra <strong>de</strong> salida, existen conexiones hacia <strong>de</strong>lante <strong>de</strong> la<br />

capa <strong>de</strong> entrada a la <strong>de</strong> salida y laterales y autorrecurrentes entre las neuronas <strong>de</strong> la<br />

capa <strong>de</strong> salida.<br />

Firmas<br />

espectrales<br />

1<br />

2<br />

<br />

W<br />

(endmembers)<br />

1<br />

2<br />

E<br />

Fig. 2.8 Esquema SOM<br />

35<br />

Imagen<br />

clasificada


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

El proceso <strong>de</strong> entrenamiento utilizado para la red SOM es el siguiente [38]:<br />

1.- Inicialización aleatoria <strong>de</strong> los pesos (wi).<br />

2.- Presentar los patrones <strong>de</strong> entrada a la red uno a uno en la capa <strong>de</strong> entrada<br />

(y(n)) <strong>de</strong>terminando cual es la neurona ganadora <strong>de</strong> acuerdo con la siguiente<br />

expresión:<br />

2<br />

[ y(<br />

n)<br />

] = min y(<br />

n)<br />

−w<br />

( t)<br />

j = 1,<br />

2,<br />

L,<br />

M<br />

*<br />

i j<br />

j<br />

3.- A continuación, actualizar los pesos <strong>de</strong> la red según la siguiente ecuación:<br />

w ( t + 1) = w ( t ) + η ( t ) σ t, i, i x( n) x n − w t<br />

*<br />

2<br />

( [ ] ) ( ) ( )<br />

( )<br />

i i i<br />

*<br />

don<strong>de</strong> η(t) es el parámetro <strong>de</strong> aprendizaje y toma el valor 1/t, y σ ( t,<br />

i,<br />

i [ x(<br />

n)<br />

])<br />

es la función <strong>de</strong> vecindad circular.<br />

Por último, presentamos cada píxel <strong>de</strong> la imagen a la capa <strong>de</strong> entrada,<br />

activándose en cada caso la neurona ganadora representante <strong>de</strong> la clase más<br />

similar al patrón introducido [37].<br />

2.7 Técnicas <strong>de</strong> preprocesado<br />

Algunas pruebas se han hecho <strong>de</strong>spués <strong>de</strong> transformar la imagen original<br />

mediante dos métodos <strong>de</strong> reducción <strong>de</strong>l número <strong>de</strong> bandas. El hecho <strong>de</strong> utilizar<br />

técnicas <strong>de</strong> preprocesamiento <strong>de</strong> imágenes orientadas a la reducción <strong>de</strong> la<br />

dimensionalidad <strong>de</strong> los datos <strong>de</strong> entrada viene propiciado por el conocido como<br />

fenómeno <strong>de</strong> Hughes [60].<br />

Fenómeno <strong>de</strong> Hughes<br />

En un problema <strong>de</strong> clasificación típico, el objetivo es asignar una etiqueta <strong>de</strong><br />

clase a los datos <strong>de</strong> entrada. El error mínimo esperado que se pue<strong>de</strong> alcanzar al<br />

realizar la clasificación es lo que se conoce como el error <strong>de</strong> Bayes [61].<br />

El error <strong>de</strong> Bayes es una función que <strong>de</strong>crece con la dimensionalidad <strong>de</strong> los<br />

datos. Una nueva característica aña<strong>de</strong> información sobre el ejemplo y entonces, uno<br />

esperaría que la clasificación fuese tan buena como cuando esta información no se<br />

había introducido. Sin embargo, en la práctica esto no es así, cuando se aña<strong>de</strong> una<br />

36


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

nueva característica a los datos el error <strong>de</strong> Bayes disminuye, pero al mismo tiempo las<br />

<strong>de</strong>sviaciones <strong>de</strong>l error <strong>de</strong> la clasificación aumentan. Este incremento se <strong>de</strong>be al hecho<br />

<strong>de</strong> que se necesitan calcular más parámetros partiendo <strong>de</strong>l mismo número <strong>de</strong><br />

ejemplos. Si el incremento <strong>de</strong> las <strong>de</strong>sviaciones en la clasificación <strong>de</strong>l error es mayor<br />

que el <strong>de</strong>cremento <strong>de</strong>l error <strong>de</strong> Bayes, entonces el uso <strong>de</strong> la característica adicional<br />

<strong>de</strong>grada la regla <strong>de</strong> <strong>de</strong>cisión. Y este fenómeno es lo que se conoce como el efecto<br />

Hughes [60]. A<strong>de</strong>más, cuando la dimensionalidad <strong>de</strong> los datos y la complejidad <strong>de</strong> la<br />

regla <strong>de</strong> <strong>de</strong>cisión aumentan, el efecto Hughes pue<strong>de</strong> llegar a ser más grave [9].<br />

En resumen, el rendimiento <strong>de</strong>crece con la dimensionalidad <strong>de</strong> los datos a<br />

menos que el número <strong>de</strong> muestras sea infinito [60].<br />

Esta reducción dimensional que se plantea es un paso utilizado por ciertos<br />

algoritmos con objeto <strong>de</strong> reducir la carga computacional <strong>de</strong> pasos sucesivos mediante<br />

la eliminación <strong>de</strong> ruido e información redundante en la imagen. Estos métodos<br />

realizan una disminución <strong>de</strong>l número <strong>de</strong> bandas, el objetivo es obtener una<br />

representación mínima <strong>de</strong> la imagen que contenga la información indispensable para<br />

realizar el análisis sobre un sub-conjunto reducido <strong>de</strong> la imagen original [62]. La Fig.<br />

2.10 representa el cambio producido en la imagen original tras realizar una reducción<br />

<strong>de</strong> la dimensionalidad.<br />

Fig. 2.9 Reducción dimensional<br />

2.7.1 Transformación Principal Component Analysis (PCA)<br />

Esta transformación utiliza una transformación lineal para maximizar la<br />

varianza <strong>de</strong> los datos. Se utilizan los componentes principales para producir bandas<br />

<strong>de</strong> salida no correlativas, para eliminar los componentes ruidosos, y para reducir la<br />

dimensionalidad <strong>de</strong> los datos [63].<br />

37


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Análisis <strong>de</strong> componentes principales (PCA) es una transformación <strong>de</strong>l espacio<br />

vectorial, normalmente utilizada para reducir la alta dimensionalidad <strong>de</strong> los datos a<br />

menores dimensiones para su análisis.<br />

El PCA construye una transformación lineal que escoge un nuevo sistema <strong>de</strong><br />

coor<strong>de</strong>nadas para el conjunto original <strong>de</strong> datos en el cual la varianza <strong>de</strong> mayor tamaño<br />

<strong>de</strong>l conjunto <strong>de</strong> datos es capturada en el primer eje (llamado el Primer Componente<br />

Principal), la segunda varianza más gran<strong>de</strong> es el segundo eje, y así sucesivamente,<br />

(Véase Fig. 2.11). Para construir esta transformación lineal <strong>de</strong>be construirse primero<br />

la matriz <strong>de</strong> covarianza o matriz <strong>de</strong> coeficientes <strong>de</strong> correlación. Debido a la simetría<br />

<strong>de</strong> esta matriz existe una base completa <strong>de</strong> vectores propios <strong>de</strong> la misma. La<br />

transformación que lleva <strong>de</strong> las antiguas coor<strong>de</strong>nadas a las coor<strong>de</strong>nadas <strong>de</strong> la nueva<br />

base es precisamente la transformación lineal necesaria para reducir la<br />

dimensionalidad <strong>de</strong> datos. A<strong>de</strong>más las coor<strong>de</strong>nadas en la nueva base dan la<br />

composición en factores subyacentes <strong>de</strong> los datos iniciales.<br />

Banda Y<br />

Banda X<br />

Componente 1<br />

Componente 2<br />

Fig. 2.10 Ilustración gráfica <strong>de</strong> la transformación PCA.<br />

En la fig 2.12 se muestra un ejemplo <strong>de</strong> la aplicación <strong>de</strong> la transformación PCA<br />

a una imagen hiperespectral real <strong>de</strong>l sensor AVIRIS sobre la región Jasper Ridge. La<br />

figura muestra las primeras 20 bandas obtenidas a partir <strong>de</strong> la transformada PCA.<br />

Visualmente, pue<strong>de</strong> comprobarse que la presencia <strong>de</strong> ruido es mucho menor en las<br />

primeras bandas, aumentando <strong>de</strong> forma consi<strong>de</strong>rable en las últimas.<br />

38


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Banda PCA 1 Banda PCA 2 Banda PCA 3 Banda PCA 4 Banda PCA 5<br />

Banda PCA 6 Banda PCA 7 Banda PCA 8 Banda PCA 9 Banda PCA 10<br />

Banda PCA 11 Banda PCA 12 Banda PCA 13 Banda PCA 14 Banda PCA 15<br />

Banda PCA 16 Banda PCA 17 Banda PCA 18 Banda PCA 19 Banda PCA 20<br />

Fig. 2.11 Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada PCA sobre una imagen hiperespectral real.<br />

PCA es el análisis <strong>de</strong> valores multivaluados basados en eigenvector (vectores<br />

propios) más simple. Se usa para reducir la dimensionalidad <strong>de</strong> los datos reteniendo<br />

aquellas características <strong>de</strong>l conjunto <strong>de</strong> datos que contribuyen más a su varianza, y<br />

manteniendo los componentes principales <strong>de</strong> or<strong>de</strong>n más bajo e ignorando los más<br />

altos. Ya que los componentes <strong>de</strong> or<strong>de</strong>n bajo contienen los datos “más importantes”.<br />

Sin embargo, <strong>de</strong>pendiendo <strong>de</strong> la aplicación este podría no ser siempre el caso.<br />

Supongamos que existe una muestra con n individuos para cada uno <strong>de</strong> los<br />

cuales se han medido m variables (aleatorias) . El PCA permite encontrar un<br />

número <strong>de</strong> factores subyacentes p < m que explican aproximadamente el valor <strong>de</strong> las<br />

m variables para cada individuo. El hecho <strong>de</strong> que existan estos p factores subyacentes<br />

pue<strong>de</strong> interpretarse como una reducción <strong>de</strong> la dimensionalidad <strong>de</strong> los datos: don<strong>de</strong><br />

antes necesitábamos m valores para caracterizar a cada individuo ahora nos bastan p<br />

valores. Cada uno <strong>de</strong> los p encontrados se llama componente principal, <strong>de</strong> ahí el<br />

nombre <strong>de</strong>l método.<br />

39


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

2.7.2 Transformación Minimum Noise Fraction (MNF)<br />

Esta transformación es usada para <strong>de</strong>terminar la redimensión <strong>de</strong> los datos <strong>de</strong> la<br />

imagen, para sesgar el ruido <strong>de</strong> los datos y para reducir los requerimientos <strong>de</strong>l<br />

procesamiento <strong>de</strong> los datos [48].<br />

Este es un algoritmo que consiste en dos operaciones <strong>de</strong> reducción <strong>de</strong> datos<br />

consecutivas. La primera basada en la estimación <strong>de</strong>l ruido <strong>de</strong> los datos como la<br />

representada por una matriz <strong>de</strong> correlación. Esta transformación elimina la<br />

correlación y reescala el ruido <strong>de</strong> los datos por varianza. En esta etapa, la información<br />

sobre el ruido entre bandas no se consi<strong>de</strong>ra. La segunda operación se da sobre la<br />

correlación original, y crea un conjunto <strong>de</strong> componentes que contienen información<br />

pon<strong>de</strong>rada sobre la varianza a lo largo <strong>de</strong> todas las bandas en el conjunto <strong>de</strong> datos<br />

bruto.<br />

La principal diferencia entre la transformación PCA y la transformación MNF<br />

es el hecho <strong>de</strong> que, en el segundo caso, se realiza una <strong>de</strong>scripción más <strong>de</strong>tallada <strong>de</strong> la<br />

relación existente entre la cantidad <strong>de</strong> señal presente en la imagen y la cantidad <strong>de</strong><br />

ruido [64]. De este modo, la primera banda resultante <strong>de</strong> la transformación MNF es la<br />

que presenta mayor relación SNR. La segunda banda presenta mejor SNR que la<br />

tercera, y así sucesivamente.<br />

En la Fig 2.13 se muestra un ejemplo <strong>de</strong> la aplicación <strong>de</strong> la transformación<br />

MNF a una imagen hiperespectral real <strong>de</strong>l sensor AVIRIS sobre la región Jasper<br />

Ridge. La figura muestra las primeras 20 bandas obtenidas a partir <strong>de</strong> la transformada<br />

MNF. Visualmente, pue<strong>de</strong> comprobarse que la presencia <strong>de</strong> ruido es mucho menor en<br />

las primeras bandas, aumentando <strong>de</strong> forma consi<strong>de</strong>rable en las últimas.<br />

Como consecuencia <strong>de</strong> la estimación más precisa <strong>de</strong> las condiciones <strong>de</strong> ruido<br />

presentes en la imagen, en <strong>de</strong>terminadas aplicaciones la <strong>de</strong>scomposición MNF pue<strong>de</strong><br />

ofrecer resultados más robustos que la transformada PCA [65], pues es menos<br />

sensible a outliers y píxeles ruidosos.<br />

40


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Banda MNF 1 Banda MNF 2 Banda MNF 3 Banda MNF 4 Banda MNF 5<br />

Banda MNF 6 Banda MNF 7 Banda MNF 8 Banda MNF 9 Banda MNF 10<br />

Banda MNF 11 Banda MNF 12 Banda MNF 13 Banda MNF 14 Banda MNF 15<br />

Banda MNF 16 Banda MNF 17 Banda MNF 18 Banda MNF 19 Banda MNF 20<br />

Fig. 2.12. Ejemplo <strong>de</strong> aplicación <strong>de</strong> la transformada MF sobre una imagen hiperespectral real.<br />

A menudo, la mayor parte <strong>de</strong> la variación <strong>de</strong>l conjunto <strong>de</strong> datos se pue<strong>de</strong><br />

explicar con unos pocos <strong>de</strong> los primeros componentes, el resto contienen<br />

componentes que contribuyen a la variación principalmente con ruido [66]. Los<br />

primeros 10 componentes son <strong>de</strong>terminantes, pue<strong>de</strong>n contener un 99% <strong>de</strong>l total <strong>de</strong> la<br />

varianza <strong>de</strong> los datos, y son seleccionados con un subconjunto <strong>de</strong> la nueva imagen.<br />

Este subconjunto <strong>de</strong> componentes dominantes será usado posteriormente para la<br />

transformación inversa y producirá <strong>de</strong> nuevo el total <strong>de</strong> bandas. Los datos mostrados<br />

por aquellas bandas con un número superior a 150 son datos dominados por el ruido.<br />

El uso <strong>de</strong> la transformación MNF es justificado [8].<br />

41


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

3. Metodología<br />

En el presente capítulo vamos a explicar <strong>de</strong> forma <strong>de</strong>tallada que procedimientos<br />

hemos seguido con cada una <strong>de</strong> las técnicas anteriormente <strong>de</strong>scritas para lograr<br />

obtener los resultados que se presentarán en el capítulo 4.<br />

El siguiente diagrama <strong>de</strong> flujo es un esquema <strong>de</strong> la forma <strong>de</strong> procesar las<br />

imágenes mediante los métodos utilizados. Partiendo <strong>de</strong> una imagen hiperespectral,<br />

po<strong>de</strong>mos realizar un paso opcional, señalado en naranja, que es una reducción,<br />

po<strong>de</strong>mos utilizar la técnica PCA ó MNF. El siguiente paso es seleccionar el conjunto<br />

<strong>de</strong> entrenamiento, hemos hecho pruebas con conjuntos <strong>de</strong> entrenamiento <strong>de</strong> <strong>diferentes</strong><br />

tamaños para cada una <strong>de</strong> las imágenes analizadas. Una vez que tenemos el conjunto<br />

<strong>de</strong> entrenamiento tenemos que elegir el procedimiento que vamos a utilizar para<br />

llevar a cabo la clasificación, los métodos analizados han sido ML, SOM, MLP y<br />

SVM. A continuación se llevan a cabo el entrenamiento y la clasificación, gracias a<br />

los cuales obtenemos los resultados <strong>de</strong> clasificación para cada imagen.<br />

A continuación vamos a explicar la forma <strong>de</strong> forma <strong>de</strong>tallada como hemos<br />

procedido con cada una <strong>de</strong> las implementaciones utilizadas para llegar a los<br />

resultados obtenidos. Las principales razones para seleccionar los métodos<br />

anteriormente citados son las siguientes:<br />

• En primer lugar, el método ML se utiliza ampliamente en reconocimiento <strong>de</strong><br />

patrones y en análisis hiperespectral, y es capaz <strong>de</strong> establecer similarida<strong>de</strong>s<br />

a nivel espectral <strong>de</strong> forma sencilla aprovechando toda la información<br />

presente en cada píxel <strong>de</strong> la imagen.<br />

• El método MLP se trata <strong>de</strong> uno <strong>de</strong> los métodos <strong>neuronales</strong> más populares y<br />

aplicado a un mayor número <strong>de</strong> problemas en la literatura.<br />

• La técnica SVM ofrece un método sofisticado <strong>de</strong> clasificación capaz <strong>de</strong><br />

funcionar en espacios altamente dimensionales. Constituye una nueva<br />

generación <strong>de</strong> clasificadores supervisados y resulta muy interesante para<br />

po<strong>de</strong>r establecer comparativas con métodos tradicionales.<br />

Finalmente, el método SOM es representativo <strong>de</strong> las técnicas <strong>neuronales</strong> con<br />

menores requerimientos en cuanto a supervisión y necesidad <strong>de</strong> disponer <strong>de</strong><br />

información a priori.<br />

42


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

3.1 Maximum likelihood (ML)<br />

La Fig 3.1 es el diagrama <strong>de</strong> flujo que representa el funcionamiento general <strong>de</strong>l<br />

clasificador ML, en primer lugar tenemos el paso opcional <strong>de</strong> realizar<br />

preprocesamiento <strong>de</strong> la imagen, pue<strong>de</strong> ser PCA o MNF, o po<strong>de</strong>mos utilizar<br />

directamente la imagen hiperespectral original, la siguiente etapa consiste en <strong>de</strong>cidir<br />

el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, hemos creado conjuntos <strong>de</strong> entrenamiento<br />

<strong>de</strong>l 5, 10 ,20 y 50% para cada una <strong>de</strong> las imágenes.<br />

Este método requiere que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento por clase sea<br />

mayor que el número <strong>de</strong> bandas <strong>de</strong> la imagen. Por lo que para imágenes con muchas<br />

bandas y clases con pocos puntos no es un método <strong>de</strong> clasificación útil, ya que la<br />

mayoría <strong>de</strong> las clases no se podrán entrenar y por tanto clasificar (Fenómeno Hughes,<br />

capítulo 2.7).<br />

El clasificador Maximum likelihood asume que las estadísticas para cada clase<br />

en cada banda se distribuyen normalmente y calcula la probabilidad <strong>de</strong> que dado un<br />

píxel pertenezca a una clase específica. A menos que se seleccione una probabilidad<br />

<strong>de</strong> error se clasificarán todos los píxeles. Cada píxel se asignará a la clase con una<br />

mayor probabilidad <strong>de</strong> pertenecer. Si la probabilidad máxima <strong>de</strong> un píxel es inferior<br />

al umbral especificado, el píxel queda no clasificado [67].<br />

Fig. 3.1 Esquema <strong>de</strong> funcionamiento ML<br />

43


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

El umbral <strong>de</strong> probabilidad es un parámetro que se aplica una vez obtenida la<br />

probabilidad <strong>de</strong> que un píxel pertenezca a una <strong>de</strong>terminada clase e indica la<br />

probabilidad mínima aceptada para ser clasificado. Po<strong>de</strong>mos no seleccionar umbral y<br />

todos los puntos serán clasificados, po<strong>de</strong>mos seleccionar un umbral <strong>de</strong> error para<br />

todas las clases. Cuanto mayor sea este umbral peor será la clasificación obtenida,<br />

pero antes obtendremos el resultado.<br />

3.2 Multi-Layer Perceptron (MLP)<br />

La arquitectura <strong>de</strong>l perceptrón multicapa es una <strong>de</strong> las re<strong>de</strong>s más populares, es<br />

una red multicapa con conexiones hacia <strong>de</strong>lante (feedforward) y retroalimentación<br />

(backpropagation).<br />

La Fig. 3.2 es el diagrama <strong>de</strong> flujo para el procesamiento <strong>de</strong> la red MLP,<br />

po<strong>de</strong>mos utilizar preprocesamiento <strong>de</strong> la imagen analizada o emplear directamente<br />

ésta. Los conjuntos <strong>de</strong> entrenamiento <strong>de</strong> esta red son los mismos que en el apartado<br />

anterior, y consisten en un conjunto <strong>de</strong> puntos seleccionados aleatoriamente sobre la<br />

verdad terreno, los tamaños utilizados en las pruebas han sido <strong>de</strong> 5%, 10%, 20% y<br />

50%. La red MLP es más compleja que ML por lo que tiene más patrones que<br />

seleccionar.<br />

Fig. 3.2 Esquema general <strong>de</strong> funcionamiento <strong>de</strong> MLP<br />

44


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

La tasa <strong>de</strong> convergencia <strong>de</strong> la red <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la forma <strong>de</strong> la superficie <strong>de</strong>l error<br />

así como el proceso <strong>de</strong> aprendizaje y el conjunto <strong>de</strong> puntos <strong>de</strong> entrenamiento. A<br />

continuación vamos a ver algunos <strong>de</strong> los parámetros que ayudan a mejorar la tasa <strong>de</strong><br />

convergencia.<br />

• El coeficiente <strong>de</strong> aprendizaje η en la regla <strong>de</strong>lta generalizada <strong>de</strong>termina el<br />

ajuste <strong>de</strong> pesos hecho en cada iteración y por lo tanto influye en la tasa <strong>de</strong><br />

convergencia. El valor <strong>de</strong> η es importante ya que una mala elección pue<strong>de</strong> llevar a un<br />

fallo en el proceso <strong>de</strong> convergencia. También se sabe que este valor no <strong>de</strong>be ser<br />

constante si se quieren alcanzar mejores resultados [68]. Si el valor <strong>de</strong> η es muy<br />

gran<strong>de</strong> el proceso <strong>de</strong> búsqueda pue<strong>de</strong> oscilar sobre el camino i<strong>de</strong>al y tardar mucho en<br />

converger. Si por el contrario el valor es muy pequeño el proceso <strong>de</strong> búsqueda <strong>de</strong>l<br />

mínimo pue<strong>de</strong> ser muy largo llevando a un incremento <strong>de</strong>l tiempo total <strong>de</strong><br />

convergencia.<br />

o Los valores que hemos seleccionado para este parámetros han sido 0.2,<br />

0.01 y 0.001. En primer lugar seleccionamos un valor gran<strong>de</strong>, pero tras<br />

varias pruebas vimos que el porcentaje <strong>de</strong> acierto era bastante bajo. El<br />

segundo y tercero los hemos ido cambiando para mejorar la tasa <strong>de</strong><br />

convergencia. Cuanto más lento es el aprendizaje mejores resultado<br />

hemos obtenido.<br />

• El número <strong>de</strong> iteraciones máximo.<br />

o Las pruebas <strong>de</strong> este parámetro las hemos hecho para 1000 y 10000<br />

iteraciones. El primero <strong>de</strong> ellos era un valor bajo, para que el método<br />

terminará rápidamente, el segundo lo hemos seleccionado para que junto<br />

con una tasa <strong>de</strong> aprendizaje menor obtuviésemos unos resultados<br />

mejores. Al disminuir la tasa <strong>de</strong> aprendizaje tenemos que aumentar el<br />

número <strong>de</strong> iteraciones. Para las pruebas con la imagen completa, que<br />

tiene más datos, hemos necesitado aumentar el número <strong>de</strong> iteraciones a<br />

100.000 para po<strong>de</strong>r llegar a unos resultados óptimos.<br />

• El número <strong>de</strong> capas ocultas. En general, si una red tiene pocas capas ocultas<br />

no pue<strong>de</strong> apren<strong>de</strong>r el conjunto <strong>de</strong> entrenamiento bien. Pero por otro lado si hay<br />

<strong>de</strong>masiadas tratarán <strong>de</strong> memorizar el conjunto <strong>de</strong> entrenamiento y no podrán<br />

generalizar bien. Por lo tanto, es mejor en la mayoría <strong>de</strong> las aplicaciones utilizar el<br />

tamaño mínimo <strong>de</strong> capas ocultas.<br />

45


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

o El número <strong>de</strong> capas ocultas lo hemos variado <strong>de</strong> 1 a 3. Al aumentar el<br />

número <strong>de</strong> capas, aumenta la complejidad <strong>de</strong> la red, lo cual no nos ha<br />

ayudado a mejorar la tasa <strong>de</strong> acierto, el valor más óptimo ha sido con<br />

una capa oculta.<br />

• El umbral <strong>de</strong> error. Si el error que alcanza la red en una <strong>de</strong>terminada<br />

iteración es menor que este valor el procedimiento finaliza. Cuanto mayor sea este<br />

umbral peor será la clasificación.<br />

o El umbral lo hemos entre los valores 0.1 y 0.35. Para que la red<br />

finalizase en un número <strong>de</strong> iteraciones no <strong>de</strong>masiado elevado hemos<br />

aumentado la tasa <strong>de</strong> error permitida. Cuanto menor sea este valor mejor<br />

será la clasificación obtenida, pero más tardará la red en converger.<br />

Los resultados obtenidos los hemos comparado con la matriz <strong>de</strong> confusión y con<br />

las imágenes <strong>de</strong> clasificación resultantes.<br />

3.3 Support Vector Machine (SVM)<br />

En primer lugar vamos a hablar <strong>de</strong> SVM Support Vector Machine).Este método<br />

<strong>de</strong>sarrolla una clasificación supervisada <strong>de</strong> imágenes para i<strong>de</strong>ntificar las clases<br />

asociadas con cada píxel. SVM es un sistema <strong>de</strong> clasificación <strong>de</strong>rivado <strong>de</strong> teorías <strong>de</strong><br />

aprendizaje estadístico. Separa las clases con una superficie <strong>de</strong> <strong>de</strong>cisión (hiperplano<br />

óptimo) que maximiza el margin entre las clases.<br />

SVM es un clasificador lineal, ya que el objetivo principal <strong>de</strong> esta<br />

implementación es conseguir un hiperplano <strong>de</strong> separación en el espacio N-<br />

dimensional. Los datos hiperespectrales son altamente no lineales, por lo que para<br />

po<strong>de</strong>r separarlos la solución más utilizada es proyectar el espacio N-dimensional <strong>de</strong><br />

entrada sobre espacios <strong>de</strong> mayor dimensionalidad <strong>de</strong> acuerdo con una función o<br />

kernel [69].<br />

Para <strong>de</strong>sarrollar las pruebas hemos trabajado con cuatro tipos <strong>de</strong> kernel que<br />

presentamos a continuación:<br />

• Kernel lineal.<br />

• Kernel Radial Basis Function (RBF).<br />

• Kernel polinómico<br />

• Kernel sigmoidal<br />

46


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

La Fig. 3.3 muestra un esquema general <strong>de</strong>l procedimiento seguido para<br />

analizar el clasificador SVM,<br />

Fig. 3.3 Diagrama <strong>de</strong> flujo SVM<br />

SVM incluye un parámetro <strong>de</strong> flexibilidad que permite un cierto grado <strong>de</strong> error<br />

en la clasificación, que es especialmente importante para los conjuntos <strong>de</strong><br />

entrenamiento no separables. Este parámetro controla el compendio entre permitir la<br />

generación <strong>de</strong> errores y forzar los márgenes entre clases. Creando un margen <strong>de</strong> error<br />

que permite algún error <strong>de</strong> clasificación, por lo que permite que a algunos puntos<br />

estar en el lado “incorrecto” <strong>de</strong>l hiperplano. Incrementando el valor <strong>de</strong> este parámetro<br />

se aumenta el coste <strong>de</strong>l error <strong>de</strong> clasificación y se fuerza la creación <strong>de</strong> mo<strong>de</strong>los más<br />

exactos que no generalizan bien. Hemos probado con valores <strong>de</strong> 50, 100, 150. Los<br />

mejores resultados los hemos obtenido con 100, es un valor intermedio que compensa<br />

la relación entre permitir error en la clasificación y la rigi<strong>de</strong>z <strong>de</strong> los márgenes.<br />

El umbral <strong>de</strong> probabilidad lo hemos variado, pero los mejores resultados se han<br />

producido con el umbral 0, exigiendo una clasificación para todos los pixels.<br />

El conjunto <strong>de</strong> patrones <strong>de</strong> entrenamiento se seleccionan aleatoriamente <strong>de</strong> la<br />

verdad terreno, los tamaños que hemos utilizado han sido 5%, 10%, 20% y 50% para<br />

cada clase.<br />

47


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Una vez realizada la clasificación y obtenidos los resultados se comparan con la<br />

verdad terreno completa, haciendo una comparación entre los píxeles resultantes y los<br />

que <strong>de</strong>beríamos haber obtenido.<br />

3.4 Self-Organizing Map (SOM)<br />

Es una red competitiva, autoorganizada que apren<strong>de</strong> <strong>de</strong>l entorno sin supervisión.<br />

La arquitectura es bastante simple, consiste en un grupo <strong>de</strong> neuronas organizadas<br />

geométricamente en una, dos tres o incluso más dimensiones. Esta red es capaz <strong>de</strong><br />

apren<strong>de</strong>r un vector <strong>de</strong> cuantificación <strong>de</strong> forma efectiva. La cuantificación es el<br />

proceso <strong>de</strong> transformación <strong>de</strong> un variable con valores continuos o analógicos a<br />

variables discretas, en nuestro caso pasar <strong>de</strong> las firmas espectrales <strong>de</strong> los píxeles a su<br />

categorización en clases [68].<br />

Su funcionamiento se basa en una competición entre las neuronas, la neurona<br />

que tenga un peso más cercano al patrón <strong>de</strong> entrada gana la competición. Pero la<br />

neurona ganadora no es la única beneficiada <strong>de</strong>l aprendizaje. Las vecinas más<br />

próximas también verán modificados sus pesos.<br />

pasos:<br />

vecindad.<br />

El proceso <strong>de</strong> aprendizaje para la SOM se pue<strong>de</strong> resumir en los siguientes<br />

• Inicialización <strong>de</strong> pesos wr y la tasa <strong>de</strong> aprendizaje y los parámetros <strong>de</strong><br />

• Seleccionar un vector x <strong>de</strong> los patrones <strong>de</strong> entrada a la red.<br />

• Determinar el array cuyos pesos estén más cerca <strong>de</strong> x <strong>de</strong>spués <strong>de</strong> ejecutar:<br />

|| wr – x|| = min || wr -x||<br />

• Actualizar los vectores <strong>de</strong> pesos para la siguiente iteración para las neuronas<br />

vecinas y las neuronas que no sean vecinas.<br />

En la Fig. 3.4 vemos un esquema general <strong>de</strong>l flujo <strong>de</strong> proceso <strong>de</strong> las pruebas <strong>de</strong><br />

la red SOM, los parámetros <strong>de</strong>l proceso <strong>de</strong> aprendizaje anteriormente indicados no<br />

tienen cabida en el esquema, ya que son variables internas <strong>de</strong>l proceso <strong>de</strong> aprendizaje,<br />

pero si las tenemos que fijar antes <strong>de</strong> comenzar a utilizar la red, los pesos se<br />

inicializan aleatoriamente, la tasa <strong>de</strong> aprendizaje y los parámetros <strong>de</strong> vecindad tienen<br />

un valor fijo durante todo el proceso, estos parámetros son los que nos van ha hacer<br />

que la red tar<strong>de</strong> más o menos en converger. Los vectores <strong>de</strong> entrada es lo que en el<br />

48


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

esquema <strong>de</strong> la Fig 3.4 hemos llamado conjunto <strong>de</strong> entrenamiento, son los píxeles <strong>de</strong><br />

la imagen que han sido seleccionados. A medida que se van realizando las iteraciones<br />

también se genera un vector <strong>de</strong> error y se modifica el vector <strong>de</strong> pesos, que es el que<br />

luego resolverá el proceso <strong>de</strong> clasificación.<br />

Los parámetros <strong>de</strong> entrada a la función son:<br />

• Imagen. Los patrones <strong>de</strong> entrenamiento <strong>de</strong> la red.<br />

• Número <strong>de</strong> iteraciones. Como su propio nombre indica <strong>de</strong>termina el número<br />

<strong>de</strong> iteraciones que se repite el algoritmo.<br />

• Número <strong>de</strong> clases. Número <strong>de</strong> clases <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, <strong>de</strong> la<br />

imagen que introducimos como entrenamiento.<br />

Fig. 3.4 Esquema general <strong>de</strong> SOM<br />

Este método nos <strong>de</strong>vuelve una matriz <strong>de</strong> pesos y un vector <strong>de</strong> error. La matriz<br />

<strong>de</strong> pesos es la entrada para la función <strong>de</strong> clasificación, que a raíz <strong>de</strong> estos pesos<br />

<strong>de</strong>termina a que clase pertenece cada píxel.<br />

A la hora <strong>de</strong> seleccionar un conjunto <strong>de</strong> entrenamiento, el parámetro que hemos<br />

llamada Imagen, hemos seleccionado para todas las clases el mismo número <strong>de</strong><br />

píxeles <strong>de</strong> entrenamiento. Para elegir este conjunto <strong>de</strong> entrenamiento se hace a partir<br />

<strong>de</strong> la imagen y su verdad terreno, se seleccionan para cada clase n píxeles <strong>de</strong><br />

49


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

entrenamiento <strong>de</strong> forma aleatoria y se introducen en una matriz tridimensional, como<br />

se ve en la Fig. 3.5.<br />

Fig. 3.5 Matriz <strong>de</strong> entrenamiento SOM<br />

Es <strong>de</strong>cir, organizamos la información <strong>de</strong> tal forma que para cada clase (fila <strong>de</strong>l<br />

vector) tenemos un conjunto <strong>de</strong> puntos <strong>de</strong> entrenamiento pertenecientes a esa clase<br />

(columna <strong>de</strong>l vector) y cada uno <strong>de</strong> esos puntos tiene todas las bandas <strong>de</strong> la imagen,<br />

que son las distintas matrices que se encuentran por <strong>de</strong>trás, cada una es una banda.<br />

Por lo que para esta clasificación almacenamos el píxel <strong>de</strong> entrenamiento con todas<br />

sus bandas y no las coor<strong>de</strong>nadas como pasaba anteriormente.<br />

A<strong>de</strong>más se pue<strong>de</strong> crear un conjunto <strong>de</strong> test si se <strong>de</strong>sea, para po<strong>de</strong>r introducir en<br />

el método <strong>de</strong> clasificación <strong>de</strong> la SOM. Nosotros en las pruebas finales no lo hemos<br />

utilizado ya que el resto <strong>de</strong> los métodos clasificaban todos los puntos <strong>de</strong> la imagen y<br />

era necesario hacerlo también con la SOM para po<strong>de</strong>r compararlos.<br />

3.5 Proceso <strong>de</strong> entrenamiento para todos los clasificadores<br />

En este apartado vamos a explicar aquellos pasos que son comunes a todos los<br />

métodos. Ya que son muchos los pasos que comparten los clasificadores. Po<strong>de</strong>mos<br />

verlo en la Fig. 3.6.<br />

50


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

3.5.1 Preprocesamiento<br />

Fig. 3.6 Esquema general <strong>de</strong> funcionamiento<br />

Con esta transformación se mejoraron algunos resultados y se pudieron llevar a<br />

cabo los <strong>de</strong> la red neuronal Maximum likelihood, ya que entre sus requisitos esta<br />

tener un número <strong>de</strong> píxeles <strong>de</strong> entrenamiento superior al número <strong>de</strong> bandas y en el<br />

caso <strong>de</strong> AVIRIS Indian Pines, con clases <strong>de</strong> entrenamiento tan pequeñas y un número<br />

<strong>de</strong> bandas tan elevado (202) no se podían llevar a cabo las pruebas.<br />

3.5.2 Conjunto <strong>de</strong> entrenamiento<br />

Los conjuntos <strong>de</strong> entrenamiento son seleccionados en todos los casos <strong>de</strong> forma<br />

totalmente aleatoria entre los píxeles etiquetados. Para cada una <strong>de</strong> las clases<br />

elegimos un conjunto <strong>de</strong> píxeles en función <strong>de</strong>l número total <strong>de</strong> píxeles etiquetados en<br />

esa clase, es <strong>de</strong>cir, para cada una <strong>de</strong> las clases tenemos un porcentaje <strong>de</strong> píxeles <strong>de</strong><br />

entrenamiento. Estos porcentajes son 5%, 10%, 20% y 50%.<br />

Aunque nosotros hemos hecho las pruebas seleccionando los conjuntos <strong>de</strong><br />

entrenamiento aleatoriamente, hay estudios que <strong>de</strong>muestran que utilizar conjuntos <strong>de</strong><br />

entrenamiento seleccionados entre los patrones más extremos mejora la<br />

clasificación.(Véase Fig. 3.7) Si seleccionamos los patrones que están en el bor<strong>de</strong><br />

como entrenamiento su proximidad a los patrones <strong>de</strong>l resto <strong>de</strong> las clases es tan<br />

51


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

cercano como la distancia al resto <strong>de</strong> patrones <strong>de</strong> la clase a la que pertenece, por lo<br />

hace más difícil el proceso <strong>de</strong> clasificación ya que la diferencia entre dos clases<br />

distintas es menor [46].<br />

Fig. 3.7 Patrones <strong>de</strong> entrenamiento extremo, core y bor<strong>de</strong><br />

Que todas las clases tuviesen el mismo número <strong>de</strong> ejemplos sería lo más<br />

a<strong>de</strong>cuado, pero en la práctica muchas veces no es posible. En muchas ocasiones el<br />

número <strong>de</strong> píxeles <strong>de</strong> entrenamiento no es a<strong>de</strong>cuado ya que el número <strong>de</strong> bandas en<br />

las imágenes hiperespectrales exce<strong>de</strong> en gran cantidad a este, obteniéndose entonces<br />

con la red un patrón genérico <strong>de</strong> poca calidad que no i<strong>de</strong>ntifica bien a la clase y por lo<br />

tanto a lo hora <strong>de</strong> testear el resto <strong>de</strong> píxeles pertenecientes a esa clase no son<br />

clasificados como tal.<br />

Por lo que algunas re<strong>de</strong>s por sus características <strong>de</strong> estructura y comportamiento<br />

no son a<strong>de</strong>cuadas para imágenes con gran cantidad <strong>de</strong> bandas [68]. Por eso una <strong>de</strong> los<br />

cambios realizados en las imágenes son las transformaciones MNF y Forward<br />

Principal Components Rotation.<br />

3.5.3 Post clasificación<br />

Finalmente para po<strong>de</strong>r contrastar estos resultados se ha obtenido la matriz <strong>de</strong><br />

confusión, es una forma <strong>de</strong> comparar la clasificación obtenida con la verdad terreno y<br />

comprobar la eficacia <strong>de</strong>l método empleado. Una forma <strong>de</strong> comprobar visualmente el<br />

resultado obtenido consiste en visualizar la clasificación obtenida y compararla con la<br />

verdad terreno <strong>de</strong> la imagen correspondiente.<br />

52


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Para po<strong>de</strong>r comparar todos los resultados entre sí estos han sido representados<br />

mediante tablas que agrupan la información obtenida y posteriormente representados<br />

en gráficas para po<strong>de</strong>r ver la evolución <strong>de</strong> los distintos métodos con los <strong>diferentes</strong><br />

parámetros que hemos ido cambiando.<br />

53


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

4 Análisis y discusión <strong>de</strong> resultados<br />

En el presente capítulo, analizaremos <strong>de</strong> forma exhaustiva los resultados<br />

obtenidos al procesar <strong>diferentes</strong> imágenes hiperespectrales con las técnicas<br />

presentadas en capítulos anteriores. Mediante este análisis extraeremos una serie <strong>de</strong><br />

conclusiones que se reflejan en el apartado 5.<br />

El resto <strong>de</strong>l capítulo se estructura <strong>de</strong> la siguiente manera: en primer lugar,<br />

<strong>de</strong>scribiremos las imágenes hiperespectrales que se han utilizado para la evaluación<br />

<strong>de</strong> las técnicas consi<strong>de</strong>radas. El conjunto <strong>de</strong> imágenes utilizadas representan un banco<br />

<strong>de</strong> pruebas suficiente para <strong>de</strong>terminar la bondad <strong>de</strong> los clasificadores analizados,<br />

puesto que constituyen dos conjuntos <strong>de</strong> datos ampliamente utilizados en el ámbito<br />

<strong>de</strong>l análisis hiperespectral a la hora <strong>de</strong> evaluar técnicas <strong>de</strong> clasificación. En segundo<br />

lugar, presentaremos los resultados obtenidos por cada uno <strong>de</strong> los métodos propuestos<br />

para ambos conjuntos <strong>de</strong> datos. La presentación <strong>de</strong> estos resultados se acompañará <strong>de</strong><br />

una justificación <strong>de</strong> los mismos.<br />

4.1 Introducción<br />

El objetivo <strong>de</strong> este proyecto es realizar un estudio <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong><br />

re<strong>de</strong>s <strong>neuronales</strong> y clasificadores utilizados para el análisis <strong>de</strong> imágenes<br />

hiperespectrales.<br />

Para ello se ha trabajado con el paquete software ENVI, Entorno <strong>de</strong><br />

Visualización <strong>de</strong> Imágenes (Environment for Visualizing Images), es un mo<strong>de</strong>rno<br />

sistema <strong>de</strong> procesamiento <strong>de</strong> imágenes diseñado para proporcionar análisis<br />

multiespectral <strong>de</strong> los datos obtenidos por tele<strong>de</strong>tección <strong>de</strong>s<strong>de</strong> sensores instalados<br />

sobre aviones y satélites. Proporciona un entorno potente, novedoso y <strong>de</strong> fácil uso<br />

para presentar y analizar imágenes <strong>de</strong> cualquier tamaño y tipo <strong>de</strong> datos en un amplio<br />

rango <strong>de</strong> plataformas.<br />

Otro programa utilizado para tratar imágenes ha sido Matlab, ya que se disponía<br />

<strong>de</strong> algunas re<strong>de</strong>s implementadas en el lenguaje propio <strong>de</strong> este programa que eran <strong>de</strong><br />

interés para el análisis. MATLAB es la abreviatura <strong>de</strong> MATrix LABoratory<br />

(laboratorio <strong>de</strong> matrices). Se trata <strong>de</strong> un software matemático muy versátil que ofrece<br />

un entorno <strong>de</strong> <strong>de</strong>sarrollo integrado (IDE) con un lenguaje <strong>de</strong> programación propio<br />

(lenguaje M).<br />

54


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Con el fin <strong>de</strong> que los resultados fueran comparables se han <strong>de</strong>sarrollado tablas<br />

en las que se dispone la información <strong>de</strong> manera compacta para su fácil visualización.<br />

También se pue<strong>de</strong> apreciar las diferencias entre las distintas re<strong>de</strong>s y los distintos<br />

parámetros utilizados a través <strong>de</strong> las gráficas realizadas.<br />

4.2 Imágenes tratadas<br />

En el estudio que se ha llevado a cabo se han utilizado dos conjuntos <strong>de</strong> datos<br />

hiperespectrales reales, el primero adquirido por el sensor AVIRIS sobre una región<br />

agrícola en Indiana (USA) y el segundo, una imagen urbana <strong>de</strong> la ciudad <strong>de</strong> Pavia<br />

(Italia) adquirida por el sensor DAIS 7915.<br />

4.2.1 AVIRIS Indian Pines<br />

Indian Pines es una imagen captada por <strong>de</strong>l sensor AVIRIS tomada a lo largo <strong>de</strong><br />

una región mixta agrícola / región boscosa en NW Indiana, en Estados Unidos en<br />

Junio 1992, esta es una imagen conocida y utilizada normalmente para la validación<br />

<strong>de</strong> técnicas <strong>de</strong> clasificación <strong>de</strong> imágenes hiperespectrales. La imagen compren<strong>de</strong> un<br />

total <strong>de</strong> 1939 x 677 píxeles, cada uno <strong>de</strong> los cuales presenta resolución espacial <strong>de</strong> 20<br />

metros y resolución espectral <strong>de</strong> 224 bandas comprendidas entre 0,4 y 2,5 µm. El<br />

tamaño total <strong>de</strong> la imagen es <strong>de</strong> 574 MB.<br />

La imagen representa un problema <strong>de</strong> clasificación muy complejo <strong>de</strong>bido a la<br />

etapa temprana <strong>de</strong> crecimiento <strong>de</strong> la mayor parte <strong>de</strong> los cultivos y zonas agrícolas que<br />

componen la imagen (en la mayor parte, por <strong>de</strong>bajo <strong>de</strong> un 5% <strong>de</strong> cobertura <strong>de</strong>l suelo).<br />

En estas circunstancias, la discriminación entre <strong>diferentes</strong> cultivos se hace muy<br />

difícil, lo que ha hecho que esta imagen se haya convertido en una prueba <strong>de</strong><br />

referencia.<br />

La imagen <strong>de</strong> AVIRIS Indian Pines (véase Fig. 4.1) utilizada en este estudio<br />

presenta unas dimensiones <strong>de</strong> 145 x 145 píxeles y 202 bandas. Tiene 17 clases<br />

etiquetadas, una <strong>de</strong> las cuales es el fondo, el tamaño <strong>de</strong> las clases etiquetadas van<br />

<strong>de</strong>s<strong>de</strong> 20 a 2468 píxeles <strong>de</strong> tamaño.<br />

55


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Fig. 4.1Imagen <strong>de</strong> una banda <strong>de</strong> AVIRIS Indian Pines<br />

La verdad terreno correspondiente a la imagen <strong>de</strong> AVIRIS Indian Pines es la<br />

Fig. 4.2, en ella po<strong>de</strong>mos apreciar las 16 clases etiquetadas y los colores que se le han<br />

asignado a cada una <strong>de</strong> ellas.<br />

Fig. 4.2 Verdad terreno AVIRIS Indian Pines<br />

La Fig. 4.3 muestra los conjuntos <strong>de</strong> entrenamiento que hemos utilizado para<br />

realizar el análisis con la imagen AVIRIS Indian Pines, la Fig. (a) 5% con 519<br />

píxeles, (b) 10% con 1,036, (c) 20% con 2,074 y (d) 50% con 5,182 píxeles<br />

etiquetados.<br />

Fig. 4.3 Conjuntos <strong>de</strong> entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d)<br />

50%.<br />

56


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

En la tabla 4.1 po<strong>de</strong>mos ver la distribución <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento<br />

para cada una <strong>de</strong> las clases con los que hemos <strong>de</strong>sarrollado las pruebas y el total <strong>de</strong><br />

píxeles etiquetados <strong>de</strong> la verdad terreno.<br />

IDIA PIES % <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />

Clases 5 % 10% 20 % 50 % 100%<br />

Alfalfa 3 5 11 27 54<br />

Grass trees 19 38 76 190 380<br />

Corn 12 23 47 117 234<br />

Corn min 42 83 167 417 834<br />

Corn notill 72 143 287 717 1,434<br />

Grass pasture 25 50 99 249 497<br />

Grass pasture mov. 1 3 5 13 26<br />

Grass trees 37 75 149 374 747<br />

Hay windrowed 24 49 98 245 489<br />

Oats 1 2 4 10 20<br />

Soybeans clean 31 61 123 307 614<br />

Soybeans min 123 247 494 1,234 2,468<br />

Soybeans notill 48 97 194 484 968<br />

Stone steel towers 5 10 19 48 95<br />

Wheat 11 21 42 106 212<br />

Woods 65 129 259 647 1,294<br />

Total 519 1,036 2,074 5,185 10,366<br />

Tabla 4.1 AVIRIS Indian Pines conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> total <strong>de</strong> píxeles por<br />

4.2.2 DAIS 7915 sobre Pavia<br />

clase<br />

El segundo conjunto <strong>de</strong> datos utilizado es la escena urbana adquirida por el<br />

sensor DAIS 7915 sobre la ciudad <strong>de</strong> Pavia, Italia (véase Fig. 4.4). La imagen se<br />

caracteriza por resoluciones espaciales y espectrales mo<strong>de</strong>radas, con 5 metros <strong>de</strong><br />

resolución por píxel y 40 bandas espectrales en el rango comprendido entre 504 y 864<br />

nm. La imagen representa un complicado problema <strong>de</strong> clasificación <strong>de</strong>bido a la<br />

complejidad <strong>de</strong> las clases espaciales que dominan este paisaje urbano. La imagen se<br />

encuentra corregida atmosféricamente y tiene un tamaño total <strong>de</strong> 400 x 400 píxeles.<br />

57


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Fig. 4.4 Imagen <strong>de</strong> una banda <strong>de</strong> DAIS 7915 sobre Pavia<br />

La Fig. 4.5 representa la verdad terreno correspondiente a la imagen <strong>de</strong> DAIS<br />

7915 sobre Pavia, en la que distinguimos las 9 clases etiquetadas para esta imagen.<br />

Fig. 4.5 Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />

La Fig. 4.6 representa los puntos seleccionados <strong>de</strong> los ROIs como conjuntos <strong>de</strong><br />

entrenamiento para la imagen DAIS 7915 sobre Pavia, en la Fig (a) los puntos son<br />

muy pocos, solo 729 <strong>de</strong> los 400x400 que tiene la imagen en total, <strong>de</strong> los cuales solo<br />

14,585 están etiquetados. La Fig (b) tiene 1,460 píxeles. La Fig (c) tiene 2,918<br />

píxeles seleccionados y la Fig (d) tiene 7,295 píxeles etiquetados.<br />

Fig. 4.6 Conjuntos <strong>de</strong> entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%.<br />

58


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

En la tabla 4.2 tenemos los tamaños <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento para<br />

todas las clases <strong>de</strong> la imagen y también el número total <strong>de</strong> píxeles <strong>de</strong> la imagen.<br />

PAVIA % <strong>de</strong> patrones <strong>de</strong> entrenamiento<br />

Clases 5 % 10% 20 % 50 % 100%<br />

Shadows 34 69 137 343 685<br />

Water 62 125 249 623 1,245<br />

Parking lot 215 429 858 2,145 4,290<br />

Asphalt 12 24 48 121 241<br />

Brick roofs 14 29 58 144 288<br />

Bare soil 112 224 448 1,119 2,238<br />

Bitumen 74 148 295 738 1,475<br />

Meadows 121 242 485 1,212 2,424<br />

Trees 85 170 340 850 1,699<br />

Total 729 1,460 2.918 7,295 14,585<br />

Tabla 4.2. Conjuntos <strong>de</strong> entrenamiento y número <strong>de</strong> píxeles totales etiquetados <strong>de</strong> la imagen<br />

DAIS 7915 sobre Pavia<br />

4.3 Modificaciones sobre las imágenes<br />

Con el fin <strong>de</strong> intentar mejorar los resultados <strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian<br />

Pines hemos hecho un estudio sobre la separabilidad <strong>de</strong> las clases y el ruido <strong>de</strong> las<br />

bandas ya que es una imagen complicada, con muchas bandas y algunas <strong>de</strong> las clases<br />

tienen pocos puntos <strong>de</strong> entrenamiento.<br />

Una <strong>de</strong> las posibles modificaciones es eliminar las bandas ruidosas, con la única<br />

finalidad <strong>de</strong> obtener mejores resultados. En la Fig. 4.7 po<strong>de</strong>mos ver la diferencia<br />

entre una <strong>de</strong> estas bandas ruidosas, Fig. 4.7 (a) y otra que no lo es, Fig.4.7 (b).<br />

Fig. 4.7 (a) Banda 6 y (b) banda 1<strong>de</strong> la imagen <strong>de</strong> AVIRIS Indian Pines.<br />

59


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Otra modificación que pue<strong>de</strong> mejorar los resultados obtenidos es eliminar la<br />

clases difícimente separables, tras hacer un estudio <strong>de</strong> la separabilidad obtuvimos que<br />

12 <strong>de</strong> las 16 clases que eran separables, por lo que cuatro no lo son.<br />

En la tabla 4.3 vemos el problema <strong>de</strong> separabilidad para la imagen AVIRIS<br />

Indian Pines, en la diagonal principal vemos el número <strong>de</strong> píxeles <strong>de</strong> la clase<br />

correspondiente. El resto <strong>de</strong> la fila y la columna es el resultado <strong>de</strong> la separabilidad <strong>de</strong><br />

esa clase con el resto, el valor máximo es 2, eso quiere <strong>de</strong>cir que las clases son<br />

separables, por el contrario el valor mínimo que es 0, indica que las dos clases en<br />

cuestión no son separables.<br />

Si analizamos la tabla 4.3 tenemos que la clase Alfalfa (primera fila), la clase<br />

Grass-pasture-moved (sexta fila), la clase Oats (décima fila) y la clase Stone-Steel-<br />

tower (catorceava fila) no son separables. En todos los casos la fila y la columna<br />

correspondiente se encuentran a 0. Por el contrario tenemos clases que son totalmente<br />

separables y todos los valores, excepto los <strong>de</strong> estas cuatro clases, tienen el valor dos,<br />

como es el caso <strong>de</strong> Bldg-grass-trees-drives.<br />

Clases A B C D E F G H I J K L M O P<br />

A 54 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0<br />

B 0 380 2 2 2 2 0 2 2 0 2 2 2 0 2 2<br />

C 0 2 234 2 2 2 0 2 2 0 2 2 2 0 2 2<br />

D 0 2 2 834 1.999 2 0 2 2 0 2 1.999 1.999 0 2 2<br />

E 0 2 2 1.999 1434 2 0 2 2 0 2 1.997 1.999 0 2 2<br />

F 0 2 2 2 2 497 0 2 2 0 2 2 2 0 2 2<br />

G 0 0 0 0 0 0 26 0 0 0 0 0 0 0 0 0<br />

H 0 2 2 2 2 2 0 747 2 0 2 2 2 0 2 2<br />

I 0 2 2 2 2 2 0 2 489 0 2 2 2 0 2 2<br />

J 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0<br />

K 0 2 2 2 2 2 0 2 2 0 614 1.999 2 0 2 2<br />

L 0 2 2 1.999 1.997 2 0 2 2 0 1.999 2468 1.999 0 2 2<br />

M 0 2 2 1.999 1.999 2 0 2 2 0 2 1.999 968 0 2 2<br />

0 0 0 0 0 0 0 0 0 0 0 0 0 95 0 0<br />

O 0 2 2 2 2 2 0 2 2 0 2 2 2 0 212 2<br />

P 0 2 2 2 2 2 0 2 2 0 2 2 2 0 2 1294<br />

Tabla 4.3. Separabilidad <strong>de</strong> AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn<br />

min. E: Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed.<br />

J: Oats. K: Soybeans clean. L: Soybeans min. M: Soybeans notill. : Stone steel towers. O:<br />

Wheat. P: Woods.<br />

60


<strong>Estudio</strong> <strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> <strong>arquitecturas</strong> <strong>neuronales</strong> para tratamiento <strong>de</strong> imágenes hiperespectrales<br />

En la tabla 4.4 tenemos los valores correspondientes a la separabilidad <strong>de</strong> las<br />

clases <strong>de</strong> la imagen DAIS 7915 sobre Pavia, en este caso todas las clases son<br />

separables. Los valores <strong>de</strong> la tabla o son dos o valores muy próximos a éste.<br />

Clases A B C D E F G H I<br />

A 685 2 2 2 2 2 2 2 2<br />

B 2 1245 2 2 2 2 2 1.999 2<br />

C 2 2 4290 2 2 2 2 2 2<br />

D 2 2 2 241 2 2 2 2 2<br />

E 2 2 2 2 288 2 1.999 2 1.999<br />

F 2 2 2 2 2 2238 2 2 2<br />

G 2 2 2 2 1.999 2 1475 2 2<br />

H 2 1.999 2 2 2 2 2 2424 2<br />

I 2 2 2 2 1.999 2 2 2 1699<br />

Tabla 4.4. Separabilidad <strong>de</strong> DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D:<br />

Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees.<br />

61


4.4 <strong>Estudio</strong> con la imagen AVIRIS Indian Pines<br />

En este apartado <strong>de</strong>l capítulo vamos a analizar y comentar y los resultados<br />

obtenidos para la imagen AVIRIS Indian Pines para cada uno <strong>de</strong> los clasificadores<br />

utilizados.<br />

4.4.1 ML<br />

Este algoritmo es el más sencillo <strong>de</strong> todos los que se comparan. Para que una<br />

clase pueda ser entrenada el número <strong>de</strong> píxeles <strong>de</strong> esta <strong>de</strong>be ser superior al número <strong>de</strong><br />

bandas <strong>de</strong> la imagen. Dada esta premisa y teniendo en cuenta el tamaño <strong>de</strong> las<br />

distintas clases, no se podían realizar las pruebas con la imagen completa, por lo que<br />

hemos tenido que aplicar a la imagen original la transformación MNF y PCA.<br />

Incluso reduciendo el número <strong>de</strong> bandas <strong>de</strong> la imagen a 20, muchas clases no<br />

pue<strong>de</strong>n ser entrenadas, ya que el tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento es muy<br />

pequeño. En la tabla 4.7 en la columna <strong>de</strong> entrenamiento <strong>de</strong>l 5% siete <strong>de</strong> las dieciséis<br />

clases no pue<strong>de</strong>n ser entrenadas, por lo que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento y<br />

<strong>de</strong> test es menor. Pasamos <strong>de</strong> tener un conjunto <strong>de</strong> entrenamiento <strong>de</strong> 519 a 467, y el<br />

conjunto <strong>de</strong> test se reduce <strong>de</strong> 10366 a 9345.<br />

Los resultados obtenidos nos indican que la transformación MNF resulta más<br />

beneficiosa que la transformación PCA. Ya que el porcentaje obtenido con el mismo<br />

conjunto <strong>de</strong> entrenamiento es superior para la primera.<br />

Al trabajar con el 10 ó el 20% (véase las columnas centrales <strong>de</strong> la tabla 4.7) el<br />

número <strong>de</strong> clases incluidas en el entrenamiento es mayor. El número <strong>de</strong> aciertos<br />

aumenta proporcionalmente al número <strong>de</strong> píxeles <strong>de</strong> entrenamiento por lo que<br />

aumenta el porcentaje global <strong>de</strong> acierto.<br />

En la tabla 4.7 cuando el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento es <strong>de</strong>l 50%,<br />

sólo dos clases no pue<strong>de</strong>n ser entrenadas. Pero en conjunto el porcentaje <strong>de</strong> acierto<br />

aumenta, ya que aunque el número <strong>de</strong> puntos con los que se esta testando es superior,<br />

también lo es el número <strong>de</strong> píxeles bien clasificados.


20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones<br />

entrenamiento<br />

10% <strong>de</strong> patrones<br />

5% <strong>de</strong> patrones<br />

ML<br />

entrenamiento<br />

entrenamiento<br />

Clase PCA MF PCA MF PCA MF PCA MF<br />

Alfalfa --- --- --- --- --- --- 100.00 81.48<br />

Grass trees --- --- 84.80 64.47 85.36 85.00 88.28 87.11<br />

Corn --- --- 75.06 16.24 82.97 71.37 84.65 92.31<br />

Corn min 76.43 49.64 10.26 80.10 73.50 81.06 96.58 83.69<br />

Corn notilla 43.41 82.29 91.16 86.12 94.38 88.08 95.98 89.12<br />

Grass pasture 69.88 48.26 97.86 92.96 97.59 96.78 6.79 95.17<br />

Grass pasture<br />

--- --- --- --- --- -- --- --mov.<br />

Grass trees 98.13 94.91 97.55 98.53 98.78 95.31 99.18 97.05<br />

Hay windrowed 63.67 93.87 79.55 98.36 83.88 100.00 90.91 99.80<br />

Oats --- --- --- --- --- --- --- ---<br />

Soybeans clean 62.60 45.44 77.88 89.90 79.50 93.16 75.36 96.91<br />

Soybeans min 81.44 83.91 85.67 80.15 91.21 80.96 95.11 80.35<br />

Soybeans notill 62.87 61.57 15.09 78.31 99.06 87.19 99.06 91.22<br />

Stone steel towers --- --- --- --- --- --- 96.45 97.06<br />

Wheat --- --- 97.53 25.00 97.37 97.17 75.26 99.53<br />

Woods 98.76 99.07 54.21 97.84 66.84 96.60 100.00 97.45<br />

Total 76.29 78.15 81.07 83.30 86.79 88.30 88.18 89.88<br />

Tabla 4.5 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />

10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).


La Fig. 4.8 son los resultados <strong>de</strong> la clasificación ML con preprocesamiento PCA y<br />

MNF, los resultados son bastante similares entre si.<br />

Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20%<br />

<strong>de</strong> los píxeles <strong>de</strong> cada clase (86.79% <strong>de</strong> acierto). (b) Imagen clasificada mediante ML con<br />

preprocesamiento MF entrenando con un 20% <strong>de</strong> los píxeles <strong>de</strong> cada clase (88.30% <strong>de</strong> acierto).<br />

(c) Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines.<br />

En la Fig. 4.9 vemos el comportamiento general <strong>de</strong>l clasificador ML para la<br />

imagen AVIRIS Indian Pines, en todos los casos la clasificación <strong>de</strong> MNF es superior<br />

a PCA. Siendo el peor <strong>de</strong> los resultados superior al 75% y el mejor <strong>de</strong> ellos inferior al<br />

90%.<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

95%<br />

90%<br />

85%<br />

80%<br />

75%<br />

70%<br />

65%<br />

PCA MNF<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.9 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador ML al entrenarlo con conjuntos <strong>de</strong><br />

patrones <strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

4.4.2 SOM<br />

La implementación <strong>de</strong> la red neuronal SOM que disponemos es para Matlab,<br />

para po<strong>de</strong>r realizar las pruebas con ella hemos tenido que crear una función <strong>de</strong><br />

selección <strong>de</strong> patrones <strong>de</strong> entrenamiento.<br />

El código <strong>de</strong> esta red se entrena por una parte y luego se prueba con otro<br />

módulo. El problema <strong>de</strong> esta red es que para entrenar necesita que la matriz no tenga<br />

valores a 0, por lo que todas las clases tienen que entrenar con el mismo número <strong>de</strong><br />

patrones. Esto es dificultad en cuanto a los otros métodos presentados anteriormente,<br />

en los que seleccionábamos un porcentaje <strong>de</strong> entrenamiento con respecto al número<br />

total <strong>de</strong> puntos etiquetadas para cada una <strong>de</strong> las clases.<br />

Como el algoritmo no permite que haya puntos <strong>de</strong> entrenamiento vacíos, para<br />

cada clase tenemos que tener el mismo número <strong>de</strong> columnas o ejemplos, pero para el<br />

caso <strong>de</strong> AVIRIS Indian Pines hay clases con muy pocos píxeles, 20 en total, por lo<br />

que es muy poco entrenamiento 16 clases por 10 píxeles por clase, 160 puntos en<br />

total. Hay clases que entrenan con un 1% mientras que otras entrenan por el 100%.<br />

La solución a esta <strong>de</strong>sproporcionada situación fue <strong>de</strong>scartar las clases que no<br />

son linealmente separables, que coinci<strong>de</strong>n con las que tienen menos puntos, todas con<br />

menos <strong>de</strong> 100 píxeles <strong>de</strong> entrenamiento, con lo que se han podido hacer pruebas con<br />

un mayor conjunto <strong>de</strong> entrenamiento. Como los resultados tampoco eran muy buenos<br />

se <strong>de</strong>cidió hacer una prueba con toda la imagen.<br />

Tanto el número <strong>de</strong> patrones por clase, como el número <strong>de</strong> clases y el número<br />

<strong>de</strong> iteraciones han sido factores que hemos ido cambiando, pero ninguno <strong>de</strong> ellos ha<br />

producido resultados buenos.<br />

La Fig. 4.10 es la verdad terreno <strong>de</strong> la imagen Indian Pines y la Fig. 4.11 es una<br />

<strong>de</strong> las imágenes obtenidas <strong>de</strong> resultado <strong>de</strong> la clasificación SOM, vemos que <strong>de</strong>bido a<br />

la complejidad <strong>de</strong> la imagen y la separabilidad <strong>de</strong> las clases, junto con el hándicap<br />

que tiene la red SOM que apren<strong>de</strong> sin supervisión. Reduciendo el número <strong>de</strong> bandas o<br />

el número <strong>de</strong> clases con las que la red apren<strong>de</strong> no mejora la clasificación.<br />

65


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab<br />

Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones<br />

La clasificación <strong>de</strong> la Fig 4.11 agrupa casi todos los puntos <strong>de</strong> la imagen en 3 ó<br />

4 clases principales, quedando las <strong>de</strong>más la mayor parte <strong>de</strong> las clases con un 0% <strong>de</strong><br />

acierto. No se pue<strong>de</strong> proce<strong>de</strong>r a una clasificación a posteriori <strong>de</strong> la imagen en función<br />

<strong>de</strong> la clasificación obtenida, ya que muchas clases distintas las clasifica con el mismo<br />

valor y también <strong>de</strong>ntro <strong>de</strong> la misma clase clasifica con distintos valores, es <strong>de</strong>cir, no<br />

separa las clases correctamente, luego la clasificación obtenida no es buena.<br />

4.4.3 Multi-Layer Perceptron (MLP)<br />

Las pruebas realizadas se han repetido con <strong>diferentes</strong> parámetros para conseguir<br />

una clasificación óptima, los parámetros que hemos utilizado y hemos ido<br />

modificando son el número <strong>de</strong> iteraciones máximo, el error permitido y la tasa <strong>de</strong><br />

aprendizaje.<br />

66


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Inicialmente ponemos un error bajo, ya que lo que nos interesa es que la red sea<br />

lo más perfecta posible y realice la mejor clasificación. El número <strong>de</strong> iteraciones<br />

utilizado inicialmente como valor máximo es 1000, aunque es un valor superior al<br />

necesitado en la clasificación SVM y ML, es un número muy bajo para conseguir una<br />

buena clasificación ya que este tipo <strong>de</strong> red converge <strong>de</strong> forma más lenta que los<br />

clasificadores analizados anteriormente. La tasa <strong>de</strong> aprendizaje es un valor que tiene<br />

que tener un equilibrio entre un valor gran<strong>de</strong>, que permita a la red apren<strong>de</strong>r rápido y<br />

un valor pequeño para permitir a la red llegar a converger. Inicialmente este era un<br />

valor gran<strong>de</strong>, <strong>de</strong> 0.2, luego hemos pasado a probar con un valor más pequeño para<br />

obtener una mejor clasificación, un valor <strong>de</strong> 0.001.<br />

Finalmente los valores con los que hemos obtenido una clasificación aceptable<br />

han sido con un número <strong>de</strong> iteraciones <strong>de</strong> 100.000, una tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.001 y<br />

un error <strong>de</strong> 0.1. Realizando este prueba con el 5% hemos llegado ha obtener un error<br />

final <strong>de</strong> 0.32 ya que el algoritmo alcanzo el número máximo <strong>de</strong> iteraciones. El resto<br />

<strong>de</strong> los porcentajes tuvieron que llegar a este mismo error, <strong>de</strong>bido a que el número <strong>de</strong><br />

patrones <strong>de</strong> entrenamiento es superior cada una <strong>de</strong> las iteraciones necesitaba más<br />

tiempo, y para llegar al mismo error el número <strong>de</strong> iteraciones es superior conforme<br />

aumenta el número <strong>de</strong> patrones. El problema <strong>de</strong> esta red es que es lenta y para po<strong>de</strong>r<br />

realizar una prueba <strong>de</strong>l 20% se emplean aproximadamente dos semanas. Lo cual es<br />

mucho tiempo en comparación con el tiempo que emplean los otros clasificadores.<br />

Para el caso <strong>de</strong> las pruebas con la imagen completa para el 20 y 50% <strong>de</strong> los<br />

patrones <strong>de</strong> entrenamiento han estado ejecutándose durante más <strong>de</strong> 3 semanas, en las<br />

cuales no se ha conseguido alcanzar el error mínimo introducido, al principio<br />

convergían más rápido, peor en la última <strong>de</strong> estas tres semanas que estuvieron<br />

ejecutándose no han bajado ni una centésima, lo que hace suponer que para llegar al<br />

punto que <strong>de</strong>seamos pue<strong>de</strong>n tardar incluso varios meses, siendo por tanto una prueba<br />

inviable es cuanto a tiempo. Por lo cual los resultados <strong>de</strong>l 20 y 50% no se han<br />

incluido por tratarse <strong>de</strong> pruebas que no han llegado a finalizar.<br />

Para el caso MNF el error global alcanzado ha sido <strong>de</strong> 0.357, y en el caso <strong>de</strong><br />

PCA ha sido <strong>de</strong> 0.40.<br />

67


50% <strong>de</strong> patrones<br />

20% <strong>de</strong> patrones<br />

MLP 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento<br />

entrenamiento<br />

entrenamiento<br />

Imagen<br />

Imagen<br />

Clase<br />

PCA MF<br />

PCA MF PCA MF PCA MF<br />

completa<br />

completa<br />

Alfalfa 87.04 59.26 70.37 87.04 77.78 81.48 88.89 87.04 85.19 90.74<br />

Grass trees 62.48 75.59 80.47 60.32 51.67 77.27 47.35 84.03 53.00 55.72<br />

Corn 50.60 61.87 58.99 60.07 43.04 64.87 59.35 64.75 53.24 63.43<br />

Corn min 64.69 37.61 67.95 74.36 63.68 55.56 59.83 85.90 49.15 78.21<br />

Corn notill 65.59 55.53 65.79 89.74 65.59 65.79 65.39 65.59 69.01 65.79<br />

Grass pasture 96.52 94.24 98.39 93.71 92.90 98.53 97.31 97.99 97.59 92.37<br />

Grass pasture mov. 46.15 0.00 0.00 88.46 61.54 57.69 92.31 100.0 42.31 96.15<br />

Grass trees 95.30 91.41 97.96 95.30 98.57 97.14 91.00 98.77 89.16 99.55<br />

Hay windrowed 45.00 0.00 25.00 80.00 10.00 70.00 85.00 85.00 75.00 80.00<br />

Oats 43.60 13.64 61.05 38.84 82.75 78.20 52.38 67.87 55.99 62.29<br />

Soybeans clean 91.33 82.33 90.96 92.59 85.66 86.79 78.36 88.57 86.06 93.07<br />

Soybeans min 91.04 23.13 86.48 50.33 33.06 86.64 76.87 94.30 85.34 96.09<br />

Soybeans notill 99.53 98.11 98.58 99.53 99.06 99.53 99.06 99.06 99.53 99.53<br />

Stone steel towers 94.82 94.98 94.98 96.21 72.64 96.14 94.74 97.91 97.30 94.44<br />

Wheat 64.47 40.79 76.32 71.05 76.32 75.53 60.53 78.68 37.63 94.21<br />

Woods 89.47 93.68 71.58 95.79 94.74 78.95 85.26 96.84 84.21 97.89<br />

Total 76.70 70.02 82.50 77.42 71.96 83.33 72.67 85.4 75.07 86.7<br />

Tabla 4.6 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />

10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).


La Fig. 4.12 son las cuatro clasificaciones obtenidas para la imagen MLP con<br />

preprocesamiento MNF, <strong>de</strong> esta forma po<strong>de</strong>mos comparar como mejoran los<br />

resultados a medida que aumentamos el conjunto <strong>de</strong> entrenamiento, siendo la Fig.<br />

4.11(a) con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5%, la Fig. 4.11 (b) con un conjunto <strong>de</strong><br />

entrenamiento <strong>de</strong>l 10%, la Fig. 4.11(c) con un 20% <strong>de</strong> entrenamiento y la Fig 4.12 (d)<br />

con un 50% <strong>de</strong> entrenamiento. Las diferencias son mínimas, ya que los valores<br />

obtenidos son bastante similares, pero po<strong>de</strong>mos apreciar como los resultados <strong>de</strong> la<br />

imagen <strong>de</strong>l 5% tiene menos píxeles correctamente clasificados, lo po<strong>de</strong>mos apreciar<br />

por ejemplo en la clase clasificada con color naranja, soybeans-notill, y <strong>de</strong>stacada con<br />

un circulo, también se aprecia como la clase <strong>de</strong> color morado, grass-pasture-moved,<br />

no se encuentra clasificada en la Fig. (a) ya que como po<strong>de</strong>mos ver en la tabla 4.5<br />

tiene un porcentaje <strong>de</strong> acierto <strong>de</strong>l 0%.<br />

Fig. 4.12 Resultado clasificación MLP para MF (a) 5% con un acierto <strong>de</strong>l 82.50%, (b) 10% con<br />

un acierto <strong>de</strong>l 83.33%, (c) 20% con un acierto <strong>de</strong>l 85.54% y (d) 50% con un acierto <strong>de</strong>l 86.7%.<br />

La Fig. 4.13 resume el comportamiento <strong>de</strong> la red MLP para la imagen AVIRIS<br />

Indian Pines, po<strong>de</strong>mos ver como los mejores resultados son los obtenidos cuando<br />

realizamos el preprocesamiento MNF, aunque no se hayan podido completar los


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

resultados con la imagen completa, no era <strong>de</strong> esperar que superase el valor obtenido<br />

con MNF.<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

60<br />

Imagen completa PCA MNF<br />

1 2 3 4<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.13 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador MLP utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />

<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />

4.4.4 SVM<br />

Hemos empezado trabajando con este clasificador con la imagen completa <strong>de</strong><br />

AVIRIS Indian Pines, luego hemos hecho pruebas tras las transformaciones MNF y<br />

PCA. Y finalmente hemos comparado los resultados obtenidos tras las<br />

modificaciones <strong>de</strong> la imagen <strong>de</strong> eliminar las bandas ruidosas y las clases no<br />

separables.<br />

La tabla 4.5 muestra los resultados obtenidos al clasificar la imagen con el<br />

método SVM con cuatro kernel lineal, Radial Basic Function, polinómico y<br />

sigmoidal. Los conjuntos <strong>de</strong> entrenamiento son <strong>de</strong>l 5%, 10%, 20% y 50% y el<br />

conjunto <strong>de</strong> test <strong>de</strong>l 100%. Se aprecia claramente como el kernel lineal es el que<br />

mejores resultados obtiene, mientras que con el kernel RBF o polinómico se obtienen<br />

resultados inferiores al lineal pero bastante similares entre ellos, por último está el<br />

resultado obtenido al seleccionar el kernel sigmoi<strong>de</strong> que es algo inferior.<br />

Los peores resultados se obtienen en aquellas clases en las que por tener menor<br />

número <strong>de</strong> píxeles etiquetados el conjunto <strong>de</strong> entrenamiento es muy reducido. Tanto<br />

que en este caso las clases Grass-pasture-moved y Oats tienen un único elemento para<br />

70


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

el entrenamiento y los resultados obtenidos son <strong>de</strong>l 0.00% <strong>de</strong> acierto para los casos <strong>de</strong><br />

entrenamiento <strong>de</strong>l 5,10 y 20%.<br />

Si nos fijamos en los resultados obtenidos habiendo entrenado la red con el 10%<br />

<strong>de</strong> los patrones. Los resultados son mejores que los anteriores, pero las diferencias<br />

entre los resultados obtenidos entre los distintos tipos <strong>de</strong> kernel seleccionado son<br />

similares. El kernel lineal continúa siendo el mejor <strong>de</strong> los cuatro, mientras que el<br />

sigmoi<strong>de</strong> es claramente peor.<br />

El conjunto <strong>de</strong> entrenamiento <strong>de</strong> ‘Grass-pasture-moved’ sigue siendo muy bajo,<br />

junto con Oats, por lo que los porcentajes <strong>de</strong> acierto para estas clases sigue siendo en<br />

la mayoría <strong>de</strong> los casos 0.00%. Los resultados <strong>de</strong> las columnas en las que se han<br />

utilizado conjuntos <strong>de</strong> entrenamiento <strong>de</strong>l 20 y 50% los resultados son similares a los<br />

comentados anteriormente, aumentando, eso sí, el valor <strong>de</strong>l porcentaje <strong>de</strong> acierto <strong>de</strong><br />

forma proporcional al aumento <strong>de</strong>l tamaño <strong>de</strong> los datos. El porcentaje <strong>de</strong> acierto más<br />

alto es <strong>de</strong> 90.6618%, perteneciente al kernel lineal con un entrenamiento <strong>de</strong>l 50%.<br />

La Fig 4.14 compara visualmente los resultados mostrados en la tabla 4.7. La<br />

Fig (a) muestra la clasificación obtenida entrenando con el 5% <strong>de</strong> los píxeles<br />

utilizando un kernel lineal y la Fig (b) es la clasificación obtenida entrenando con un<br />

50% <strong>de</strong> los píxeles <strong>de</strong> cada clase. Se pue<strong>de</strong> apreciar que la clasificación es mucho<br />

mejor para la imagen (b), con un acierto <strong>de</strong> 90.66%, que para la imagen (a) con un<br />

acierto <strong>de</strong>l 74.15%. La imagen (c) es la verdad terreno que nos sirve para comparar<br />

ambas imágenes con el resultado i<strong>de</strong>al <strong>de</strong> clasificación.<br />

Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% <strong>de</strong> los píxeles <strong>de</strong> cada<br />

clase y utilizando el kernel lineal (74.15% <strong>de</strong> acierto). (b) Imagen clasificada mediante SVM<br />

entrenando con un 50% <strong>de</strong> los píxeles <strong>de</strong> cada clase y utilizando el kernel lineal (90.66% <strong>de</strong><br />

acierto). (c) Verdad terreno para la escena <strong>de</strong> AVIRIS Indian Pines.<br />

71


SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />

KEREL KEREL KEREL KEREL<br />

Clase<br />

RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm.<br />

Alfalfa 0 20.37 40.74 22.22 29.36 42.59 27.78 27.78 59.26 51.85 59.26 59.26 77.78 94.4 77.78 75.93<br />

Grass trees 11.84 39.74 25.79 19.74 31.05 52.89 31.32 20.26 42.63 70 42.63 18.42 58.16 83.68 58.16 32.89<br />

Corn 1.71 32.48 11.54 0.43 39.74 43.16 38.89 12.82 67.09 73.93 69.23 27.78 76.07 84.19 76.92 17.95<br />

Corn min 43.88 46.40 35.49 27.46 43.76 63.67 40.29 8.51 50 72.06 52.52 34.29 61.75 79.02 62.23 29.26<br />

Corn notill 61.37 74.06 58.37 50.35 59.97 74.06 60.67 57.81 72.87 85.08 73.01 60.11 76.71 88.21 77.62 59.34<br />

Grass pasture 54.73 78.67 68.81 28.17 86.32 91.15 85.71 10.46 89.54 94.16 90.14 23.54 94.16 97.38 94.16 83.70<br />

Grass pasture mov. 0 0 0 96.15 0 3.85 0 0 11.54 46.15 30.77 0 80.77 80.77 80.77 73.08<br />

Grass trees 86.61 95.72 91.43 0 87.15 94.24 88.62 85.94 90.63 95.72 89.83 85.27 94.38 99.06 94.24 87.28<br />

Hay windrowed 99.39 97.75 95.30 0 97.14 97.96 97.34 97.14 99.39 99.59 99.39 99.18 98.98 99.39 98.98 98.98<br />

Oats 0 0 0 0 0 0 0 0 0 0 0 0 75.00 80.00 70.00 25.00<br />

Soybeans clean 24.92 57.17 34.85 7.98 40.39 81.76 45.28 4.56 62.38 83.22 60.42 8.63 80.94 93.65 80.62 20.52<br />

Soybeans min 82.21 82.58 79.29 82.33 82.58 86.35 83.75 84.44 82.7 88.82 82.58 81.32 84.81 90.48 85.7 81.60<br />

Soybeans notill 65.08 63.74 54.86 24.38 69.21 68.70 68.39 33.26 70.97 71.69 71.07 32.75 71.90 80.27 71.69 44.01<br />

Stone steel towers 82.11 60 64.21 68.42 82.11 84.21 83.16 81.05 86.32 83.16 90.53 83.16 92.63 93.68 92.63 89.47<br />

Wheat 81.13 47.64 0 0 82.08 93.87 81.13 43.4 92.45 98.11 92.45 91.51 99.53 100 99.53 94.34<br />

Woods 95.83 96.75 94.2 93.04 95.98 96.68 95.98 96.21 96.68 97.45 96.75 96.99 97.60 98.5 97.6 95.67<br />

Total 67.54 74.15 65.14 56.13 71.93 80.87 72.3 58.25 77.79 86 77.99 62.3 82.93 90.66 83.27 67.21<br />

Tabla 4.7 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base<br />

radial, lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).


Los resultados finales los po<strong>de</strong>mos comparar con la Fig. 4.15, los resultados van<br />

mejorando conforme aumenta el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, los mejores<br />

resultados son los obtenidos con el kernel lineal, y los peores con el sigmoi<strong>de</strong>.<br />

% Píxels correctamente clasificados<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

60<br />

55<br />

50<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

RBF Lineal Polinómico Sigmoi<strong>de</strong><br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.15 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />

<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />

4.4.4.1 SVM con transformadas MNF y PCA<br />

Estas reducciones consisten en hacer una compresión <strong>de</strong> los datos para obtener<br />

una imagen con menor número <strong>de</strong> bandas. En las pruebas que se han realizado en este<br />

estudio se ha modificado la imagen <strong>de</strong> AVIRIS Indian Pines <strong>de</strong> 202 a tan solo 20<br />

bandas.<br />

En la tabla 4.6, fijándonos en la columna con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l<br />

5%, vemos que el porcentaje <strong>de</strong> acierto que obtenemos con la imagen completa es<br />

menor que cuando realizamos la transformación. Por lo que po<strong>de</strong>mos <strong>de</strong>cir que para<br />

este caso es mejor la reducción, ya que mejora entre un 4 y un 8%. En este caso,<br />

aunque hagamos la transformación y reduzcamos el número <strong>de</strong> bandas, los<br />

porcentajes <strong>de</strong> acierto en las clases con 1 píxel <strong>de</strong> entrenamiento sigue siendo 0.00%.<br />

Si nos fijamos en la columna con un entrenamiento <strong>de</strong>l 10%, se ve como la<br />

distancia entre el porcentaje <strong>de</strong> acierto con toda la imagen y una vez aplicadas las<br />

reducciones disminuye, la mejora está ahora entre un 1 y un 5% aproximadamente.<br />

Po<strong>de</strong>mos ver como en el caso <strong>de</strong> Grass-pasture-moved el porcentaje <strong>de</strong> acierto<br />

se ha visto incrementado consi<strong>de</strong>rablemente, ha pasado <strong>de</strong> un 4% a un 75%


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

aproximadamente. Pero por el contrario otras clases o bien han disminuido su<br />

porcentaje <strong>de</strong> acierto o auque lo hayan aumentado, el incremento ha sido mayor en el<br />

caso <strong>de</strong> la clasificación lineal.<br />

Por el contrario, cuando se utiliza un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20%, los<br />

resultados obtenidos con la imagen completa ya no son los peores, sino que es el caso<br />

<strong>de</strong> la reducción PCA el que obtiene una peor clasificación global. MNF sigue<br />

teniendo mejores resultados, pero la diferencia con la clasificación lineal es cada vez<br />

menor.<br />

Cuando el entrenamiento lo hacemos con el 50%, la última columna <strong>de</strong> la tabla<br />

4.6, la clasificación obtenida con la imagen completa es mejor que en los otros dos<br />

casos entre un 2 y un 5% mejor.<br />

Aunque gracias a la comparación <strong>de</strong> la verdad terreno con el resultado obtenido<br />

con la matriz <strong>de</strong> confusión po<strong>de</strong>mos ver como los resultados obtenidos con MNF son<br />

mejores que los obtenidos con PCA, es muy difícil po<strong>de</strong>r apreciar esta diferencia a<br />

simple vista comparando la Fig. 4.16.<br />

Fig. 4.16 Comparación <strong>de</strong> resultados SVM con preprocesamiento y un conjunto <strong>de</strong><br />

entrenamiento <strong>de</strong>l 50%, (a) clasificación PCA, el acierto es <strong>de</strong>l 85.66%. (b) clasificación MF, el<br />

acierto es <strong>de</strong>l 88.59% y (c) verdad terreno <strong>de</strong> AVIRIS Indian Pines.<br />

74


5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones<br />

20% <strong>de</strong> patrones<br />

50% <strong>de</strong> patrones<br />

SVM<br />

entrenamiento<br />

entrenamiento<br />

entrenamiento<br />

Imagen<br />

Imagen<br />

Imagen<br />

Imagen<br />

Clase<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

completa<br />

completa<br />

completa<br />

completa<br />

Alfalfa 20.37 27.78 11.11 42.59 75.93 57.41 51.85 51.85 66.67 94.44 75.93 81.48<br />

Grass trees 39.74 55.53 70.53 52.89 63.68 74.21 70.00 60.53 71.84 83.68 72.11 83.95<br />

Corn 32.48 43.59 46.58 43.16 35.47 51.71 73.93 73.50 81.20 84.19 82.48 80.77<br />

Corn min 46.40 53.00 54.08 63.67 66.07 67.27 72.06 67.15 67.99 79.02 71.22 74.70<br />

Corn notill 74.06 76.43 83.75 74.06 76.71 80.33 85.08 80.75 84.80 88.21 81.38 86.89<br />

Grass pasture 78.67 90.34 87.53 91.15 89.94 94.77 94.16 93.36 96.38 97.38 96.38 97.59<br />

Grass pasture<br />

0.00 0.00 0.00 3.85 76.92 73.08 46.15 80.77 88.46 80.77 84.62 100.00<br />

mov.<br />

Grass trees 95.72 94.51 98.80 94.24 96.39 98.13 95.72 94.91 98.26 99.06 96.25 98.53<br />

Hay windrowed 97.75 99.39 99.59 97.96 98.57 99.18 99.59 99.80 99.59 99.39 99.59 99.18<br />

Oats 0.00 0.00 0.00 0.00 10.00 0.00 0.00 5.00 40.00 80.00 85.00 90.00<br />

Soybeans clean 57.17 68.73 85.50 81.76 80.29 86.32 83.22 78.66 87.46 93.65 85.18 90.23<br />

Soybeans min 82.58 83.31 83.06 86.35 84.40 86.43 88.82 84.76 87.88 90.48 86.14 87.36<br />

Soybeans notill 63.74 66.12 73.35 68.70 72.42 75.41 71.69 66.32 77.07 80.27 69.63 75.00<br />

Stone steel towers 60.00 62.11 73.68 84.21 80.00 76.84 83.16 88.42 82.11 93.68 91.58 95.79<br />

Wheat 47.64 99.06 99.06 93.87 98.58 99.53 98.11 99.53 99.53 100.00 99.53 100.00<br />

Woods 96.75 97.99 96.21 96.68 95.36 95.36 97.45 97.22 98.07 98.53 97.84 98.38<br />

Total 74.16 78.74 82.05 80.87 81.84 84.56 86.00 82.97 87.04 90.66 85.66 88.59<br />

Tabla 4.8. Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y MF y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño<br />

progresivamente creciente (5%, 10%, 20% y 50%).


Fijándonos en la tabla 4.8 en general, po<strong>de</strong>mos ver que a medida que aumenta el<br />

conjunto <strong>de</strong> entrenamiento, aumenta también el porcentaje <strong>de</strong> acierto, este porcentaje<br />

es mayor en el caso <strong>de</strong> la clasificación con toda la imagen. Por eso aunque<br />

inicialmente no obtiene los mejores resultados, si es la clasificación con un mayor<br />

porcentaje <strong>de</strong> acierto cuando se entrena con más píxeles, (véase Fig. 4.17).<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

100<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

Imagen completa PCA MNF<br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.17 Resumen <strong>de</strong>l comportamiento global <strong>de</strong>l clasificador SVM utilizando <strong>diferentes</strong> kernels<br />

(funciones <strong>de</strong> base radial, lineal, polinómico y sigmoi<strong>de</strong>) al entrenarlo con conjuntos <strong>de</strong> patrones<br />

<strong>de</strong> tamaño creciente (5%, 10%, 20% y 50%).<br />

4.4.5 Resumen <strong>de</strong> la imagen AVIRIS Indian Pines<br />

La imagen AVIRIS Indian Pines es una imagen con un gran número <strong>de</strong> bandas,<br />

16 clases etiquetadas, algunas <strong>de</strong> las cuales no superan la 20 <strong>de</strong> píxeles etiquetados, lo<br />

que hace que sea un impedimento a la hora <strong>de</strong> clasificar la imagen. Los resultados<br />

obtenidos con las <strong>diferentes</strong> clasificaciones<br />

Con el método ML se ha podido realizar un entrenamiento con la imagen<br />

completa, ya que al tener conjuntos con un gran número <strong>de</strong> patrones <strong>de</strong><br />

entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha<br />

permitido po<strong>de</strong>r llevar a cabo el entrenamiento y su posterior clasificación,<br />

obteniendo buenos resultados. A pesar <strong>de</strong> que es un clasificador sencillo sus<br />

resultados van <strong>de</strong>s<strong>de</strong> el 95% (cuando entrenamos con la imagen completa) y el 97%<br />

(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% <strong>de</strong> los<br />

píxeles etiquetados <strong>de</strong> la imagen, al 99% cuando entrenamos con un 50%. Los<br />

resultados son buenos, pero este clasificador tiene el inconveniente <strong>de</strong> necesitar que el


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento sea superior al número <strong>de</strong> bandas,<br />

pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines.<br />

La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un<br />

85%, <strong>de</strong>bido a que es una red que apren<strong>de</strong> sin supervisión, <strong>de</strong> ahí que algunas <strong>de</strong><br />

clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que<br />

se produce una mala clasificación.<br />

La red MLP obtiene buenos resultados, sus porcentajes <strong>de</strong> acierto varían entre<br />

un 98 y un 99.5% aproximadamente. Esta red trabaja <strong>de</strong> forma más lenta, pero gracias<br />

a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un<br />

tiempo mo<strong>de</strong>rado.<br />

Por ultimo el clasificador SVM aúna dos características buenos resultados, entre<br />

un 98 y 99.5%, como en el caso <strong>de</strong> MLP pero con unos tiempos <strong>de</strong> procesamiento<br />

más rápidos.<br />

Cualquiera <strong>de</strong> los métodos empleados (ML, SOM, MLP o SVM) para analizar<br />

esta imagen obtiene unos resultados muy buenos <strong>de</strong>bido a que esta imagen tiene<br />

pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad <strong>de</strong><br />

píxeles etiquetados.<br />

4.5 <strong>Estudio</strong> <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />

4.5.1 ML<br />

A la hora <strong>de</strong> comparar este método, como el número <strong>de</strong> bandas es bajo se han<br />

hecho 3 pruebas. La primera columna <strong>de</strong> resultados representa los datos obtenidos<br />

tras la clasificación partiendo <strong>de</strong> la imagen completa. En las dos columnas siguientes<br />

se presentan los resultados tras las transformaciones PCA y MNF practicadas sobre la<br />

imagen, reduciendo <strong>de</strong> 40 a 20 el número <strong>de</strong> bandas.<br />

En la tabla 4.10 po<strong>de</strong>mos ver que cuando el conjunto <strong>de</strong> entrenamiento es <strong>de</strong>l<br />

10% el porcentaje <strong>de</strong> acierto con la imagen completa es superior que en los casos <strong>de</strong><br />

reducción, esto se explica <strong>de</strong>bido a que en las clasificaciones <strong>de</strong> la imagen PCA y<br />

MNF las clases que tienen poco entrenamiento (shadows, 24) y (parking lot, 29)<br />

píxeles, tienen porcentajes bajos lo que empeora el porcentaje <strong>de</strong> acierto general, en<br />

el caso <strong>de</strong> la imagen completa estos porcentajes no se tienen en cuenta porque el<br />

método no lo permite, luego las clases que son tomadas en cuenta tienen un gran<br />

porcentaje <strong>de</strong> acierto y mejoran el porcentaje global.<br />

77


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

Los resultados <strong>de</strong> la clasificación para el 20% <strong>de</strong> entrenamiento son mejores con<br />

las clasificaciones <strong>de</strong> MNF y PCA <strong>de</strong>bido a que el número <strong>de</strong> ejemplos con respecto<br />

al número <strong>de</strong> bandas es mejor.<br />

En los resultados obtenidos utilizando el 50% <strong>de</strong> entrenamiento las clases tienen<br />

suficientes ejemplos y vemos como los porcentajes se igualan, siendo ligeramente<br />

superiores los <strong>de</strong> la imagen completa. Al ver la tabla 4.10 po<strong>de</strong>mos llegar a la<br />

conclusión <strong>de</strong> que la comparación entre las dos reducciones nos lleva a <strong>de</strong>cir que son<br />

mejores las cifras obtenidas con la transformación MNF.<br />

La Fig. 4.18 es una comparativa entre la clasificación ML para el 10% entre las<br />

distintas soluciones obtenidas, la primera imagen (a) correspon<strong>de</strong> con la clasificación<br />

con la imagen completa, aunque es la mejor clasificación, po<strong>de</strong>mos apreciar como la<br />

clase parking lot, <strong>de</strong> color turquesa, no aparece en la imagen, así como tampoco se<br />

tiene en cuenta para hallar el porcentaje <strong>de</strong> acierto la clase shadows, <strong>de</strong> color<br />

amarillo.<br />

Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje<br />

<strong>de</strong> acierto <strong>de</strong> 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un<br />

porcentaje <strong>de</strong> acierto <strong>de</strong> 97.60% y (c) clasificación ML con la imagen con preprocesamiento<br />

MF, con un porcentaje <strong>de</strong> acierto <strong>de</strong> 97.30%. En todos los casos con el 10% <strong>de</strong> entrenamiento.<br />

(d) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.<br />

78


ML 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />

Imagen<br />

Imagen<br />

Imagen<br />

Imagen<br />

Clase<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

completa<br />

completa<br />

completa<br />

completa<br />

Shadows --- --- --- --- 39.00 39.42 30.29 88.38 90.87 94.61 98.34 98.34<br />

Water 99.79 99.79 99.79 99.79 99.79 99.79 99.65 99.79 99.79 99.79 99.79 99.79<br />

Parking lot --- --- --- --- 67.71 57.29 58.33 95.14 94.10 97.22 97.92 98.26<br />

Asphalt 93.05 97.00 97.00 98.59 98.59 98.76 99.35 99.12 99.00 99.76 99.12 99.12<br />

Brick roofs 99.96 99.96 99.96 99.96 99.96 99.96 99.91 99.91 99.96 99.96 99.96 99.96<br />

Bare soil 94.31 98.64 98.98 99.46 99.25 99.32 99.39 99.12 99.59 99.46 99.32 99.46<br />

Bitumen --- 86.28 87.88 90.36 97.96 97.81 98.54 99.42 99.85 99.85 99.71 99.85<br />

Meadows 58.23 99.42 99.30 96.87 98.72 97.98 97.75% 98.51 98.14 98.80 98.89 98.47<br />

Trees 99.83 96.06 95.90 98.60 98.39 98.39 98.93 98.07 98.23 99.13 98.07 98.76<br />

Total 94.50 98.31 98.39 98.71 97.60 97.30 97.33 99.01 99.04 99.45 99.33 99.37<br />

Tabla 4.9 Resultados <strong>de</strong> clasificación obtenidos por el clasificador ML utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%,<br />

10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).


En la Fig. 4.19 se hace una comparación entre SVM (a) y ML (b), se ha<br />

seleccionado un porcentaje <strong>de</strong> entrenamiento <strong>de</strong>l 5%. Sin saber el porcentaje <strong>de</strong><br />

acierto, podríamos <strong>de</strong>cir que la clasificación SVM es mejor, ya que en ella se aprecian<br />

más clases. Aunque seguramente la clasificación ML sea buena, ya que se pue<strong>de</strong> ver<br />

que las clases principales (con mayor número <strong>de</strong> píxeles) están bien distribuidas y sus<br />

colores son los correctos. Los porcentajes <strong>de</strong> acierto <strong>de</strong> estas imágenes son para SVM<br />

97.2026% y para ML 94.8166%. El porcentaje es más alto en SVM porque en ML<br />

tenemos 7 clases en lugar <strong>de</strong> 9, ya que las clases <strong>de</strong> color cyan y amarillo tienen un<br />

conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5% con un número <strong>de</strong> píxeles menor <strong>de</strong> 20, que es el<br />

número <strong>de</strong> bandas <strong>de</strong> la imagen, y por lo tanto no pue<strong>de</strong>n ser entrenados y tampoco<br />

clasificados correctamente.<br />

Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% <strong>de</strong> entrenamiento. (b) clasificación ML<br />

con el 5% <strong>de</strong> entrenamiento y con tratamiento <strong>de</strong> imagen MF. (c) verdad terreno.<br />

4.5.2 SOM<br />

Al realizar las pruebas con la imagen DAIS 7915 sobre Pavia hemos probado<br />

conjuntos <strong>de</strong> entrenamiento que van <strong>de</strong> los 10 a los 200 píxeles <strong>de</strong> entrenamiento por<br />

clase, <strong>de</strong>bido a que la clase con menor número <strong>de</strong> entrenamiento son 240 puntos.<br />

Teniendo en cuenta los puntos <strong>de</strong> entrenamiento po<strong>de</strong>mos ver como para unas<br />

clases entrenamos con muchos píxeles mientras que para otras el porcentaje es muy<br />

bajo.<br />

En cuanto al tiempo empleado si tiene un crecimiento lógico, a medida que<br />

aumentan el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento y/o el número <strong>de</strong> iteraciones que se<br />

realizan aumenta el tiempo <strong>de</strong> cálculo.


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Fig. 4.20 Verdad Terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />

La Fig. 4.21 correspon<strong>de</strong> a dos clasificaciones obtenidas con la red SOM<br />

completamente distintas. La Fig. 4.21 (a) aunque muchos colores no son iguales que<br />

en la verdad terreno (véase Fig 4.20) po<strong>de</strong>mos apreciar como las clases están bien<br />

diferenciadas, esto es <strong>de</strong>bido a que la clasificación SOM se realiza sin supervisión,<br />

por lo que a cada clase le asigna un valor, que no tiene porque coincidir con el valor<br />

que tiene esa clase asignado en la verdad terreno. La Fig. 4.21 (b) ocurre lo mismo.<br />

Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc<br />

1000it. Acierto 84.7%<br />

Analizando la matriz <strong>de</strong> confusión obtenida vemos que las clases tienen la<br />

mayoría <strong>de</strong> sus puntos etiquetados en una única clase y a<strong>de</strong>más normalmente<br />

<strong>diferentes</strong> <strong>de</strong>l resto, por lo que nos pue<strong>de</strong> llevar a pensar que están bien clasificados<br />

pero no con las mismas etiquetas que la verdad terreno, partiendo <strong>de</strong> esta base se ha<br />

elaborado la tabla 4.9.<br />

81


SOM 10 patrones por clase 50 patrones por clase 100 patrones por clase Imagen completa<br />

Iteraciones Iteraciones Iteraciones Iteraciones<br />

Clase<br />

50 100 200 1000 50 100 200 1000 50 100 200 1000 50 100 200 1000<br />

Water 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00<br />

Parking lot 86.22 85.35 85.48 84.53 83.58 89.77 82.22 90.59 90.51 89.72 93.89 89.39 89.72 91.13 88.07 88.82<br />

Asphalt 61.63 62.99 62.99 64.67 64.99 56.43 67.95 54.76 54.20 57.68 43.33 58.08 57.68 51.40 57.20 56.08<br />

Brick roofs 64.51 67.13 67.19 64.86 45.67 69.60 52.34 72.49 43.19 57.53 41.27 74.42 57.53 59.63 58.89 57.60<br />

Bare soil 81.40 86.21 81.75 80.99 78.87 47.77 78.52 83.51 46.30 51.44 51.35 85.67 51.44 10.09 56.08 55.37<br />

Bitumen 25.09 9.76 24.74 1.74 0.00 97.56 25.78 15.33 98.95 98.60 0.70 4.90 98.60 50.87 0.00 0.00<br />

Meadows 96.87 96.47 96.33 97.00 96.20 35.81 96.07 93.38 94.55 94.54 94.86 92.93 94.54 63.12 58.45 56.04<br />

Trees 69.49 70.66 18.83 67.45 77.08 74.16 73.87 72.55 74.89 80.70 69.78 71.05 80.70 88.76 89.77 88.60<br />

Shadows 20.75 21.58 20.75 20.75 20.75 0.00 20.75 20.33 15.77 17.50 20.95 19.58 17.50 0.83 15.42 15.42<br />

Total 83.46 84.37 81.70 83.30 81.30 72.53 82.29 84.46 78.99 81.52 76.93 84.70 77.74 71.10 74.81 74.20<br />

Tabla 4.10 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SOM utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (10,<br />

50, 100 patrones por clase y la imagen completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento.


4.5.3 MLP<br />

Los resultados <strong>de</strong> MLP que se presentan en la tabla 4.10 correspon<strong>de</strong>n a las<br />

clasificaciones obtenidas para la imagen DAIS 7915 sobre Pavia completa,<br />

seleccionando un conjunto <strong>de</strong> entrenamiento <strong>de</strong> 5, 10, 20 y 50% progresivamente y<br />

los resultados obtenidos para los mismos porcentajes usando la imagen transformada,<br />

ya sea mediante la técnica PCA o MNF.<br />

La reducción en el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia es poca, ya que<br />

pasamos <strong>de</strong> tener 40 bandas a tener 20, en el caso <strong>de</strong> la reducción <strong>de</strong> AVIRIS Indian<br />

Pines era más lógico y necesario ya que reducíamos <strong>de</strong> 202 a 20 bandas,<br />

produciéndose una mejora consi<strong>de</strong>rable. Con la imagen <strong>de</strong> Pavia los resultados son ya<br />

muy buenos con la imagen completa, estas transformaciones las aplicamos para<br />

comparar luego los resultados <strong>de</strong> las dos imágenes, pero realmente no serían<br />

necesarias.<br />

Los resultados <strong>de</strong> la tabla 4.10 van <strong>de</strong>s<strong>de</strong> 97.73% en el caso con un menor<br />

tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento y la imagen completa a 99.44% en el caso <strong>de</strong><br />

mayor entrenamiento y reducción MNF. Como vemos los valores varían muy poco a<br />

medida que aumenta el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento, y es que para la<br />

imagen DAIS 7915 sobre Pavia los resultados son tan buenos que con poco training<br />

ya obtenemos unos resultados buenos.<br />

Comparando los resultados entre sí po<strong>de</strong>mos afirmar que la reducción MNF es<br />

mejor que la reducción PCA ya que en todos los casos es superior el porcentaje <strong>de</strong><br />

acierto que se consigue al realizar el preprocesamiento con MNF.<br />

Para obtener estos resultados hemos realizado varias pruebas, primero poniendo<br />

un número limitado <strong>de</strong> iteraciones a 1000, obteníamos resultados entorno al 75%,<br />

como eran resultados bajos, dada las características <strong>de</strong> esta imagen, <strong>de</strong>cidimos reducir<br />

la tasa <strong>de</strong> aprendizaje para que la red aprendiera más lentamente y por tanto llegase a<br />

un punto <strong>de</strong> convergencia mejor, aumentando por supuesto el número <strong>de</strong> iteraciones<br />

máximo, ya que al apren<strong>de</strong>r más lento necesita más tiempo. Los resultados con una<br />

tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.001 y 10,000 iteraciones hemos llegado a obtener los<br />

resultados que se presentan a continuación. El tiempo empleado no es muy elevado,<br />

ya que el número <strong>de</strong> bandas <strong>de</strong> las imágenes no es alto, ni tampoco el número<br />

máximo <strong>de</strong> iteraciones permitido.


MLP 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />

Imagen<br />

Imagen<br />

Imagen<br />

Imagen<br />

Clase<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

completa<br />

completa<br />

completa<br />

completa<br />

Shadows 97.96 92.53 98.34 97.08 95.44 99.17 100 98.76 100.00 99.56 99.59 99.59<br />

Water 93.98 99.79 99.86 97.67 99.98 99.98 97.99 99.79 99.79 93.49 99.95 99.98<br />

Parking lot 99.79 71.18 71.88 99.79 83.33 94.10 99.79 90.97 88.54 99.81 95.14 95.49<br />

Asphalt 77.18 98.47 98.94 93.36 98.06 98.65 93.36 99.06 99.12 98.34 99.59 99.59<br />

Brick roofs 88.54 99.73 99.78 91.32 99.69 99.82 92.01 99.73 99.82 93.40 99.96 99.96<br />

Bare soil 99.82 98.51 97.76 99.55 98.31 96.47 99.06 98.51 99.05 99.96 98.24 98.64<br />

Bitumen 94.24 95.77 92.99 97.63 99.56 99.42 98.51 99.42 99.85 99.32 99.71 99.85<br />

Meadows 98.68 96.39 97.75 96.66 99.12 99.12 98.14 98.63 98.71 99.55 98.47 98.63<br />

Trees 98.59 98.18 98.76 97.29 97.98 98.23 98.71 97.94 98.02 99.47 98.97 99.17<br />

Total 97.73 98.07 98.27 98.14 98.71 98.92 98.75 98.95 99.04 99 99.33 99.44<br />

Tabla 4.11 Resultados <strong>de</strong> clasificación obtenidos por el clasificador MLP utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente<br />

(5%, 10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).


Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto <strong>de</strong> entrenamiento<br />

<strong>de</strong>l 20% con un resultado <strong>de</strong> 98.75% y (b) verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia.<br />

La selección <strong>de</strong> unos parámetros es una tarea muy importante, que pue<strong>de</strong> hacer<br />

obtener una mala clasificación. La Fig. 4.23 (a) correspon<strong>de</strong> a la clasificación MLP<br />

con una tasa <strong>de</strong> aprendizaje <strong>de</strong> 0.2 y rms 0.1 y 1000 iteraciones, la Fig (b) es la<br />

clasificación MLP con los parámetros learning rate 0.001 y el número <strong>de</strong> iteraciones<br />

superior 10000. Po<strong>de</strong>mos ver como la clasificación (b) es una aproximación más<br />

exacta a la verdad terreno (c). En la Fig. (a) vemos que tiene clases clasificadas<br />

incorrectamente, el bitumen (color rojo) esta clasificado como azul, o el asfalto (color<br />

blanco) como amarillo y el ver<strong>de</strong> claro por amarillo también. Por ello el porcentaje <strong>de</strong><br />

acierto es 72.3757% y el porcentaje <strong>de</strong> la imagen central 95.3240%.<br />

Fig. 4.23 (a) Clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia con un entrenamiento 20%<br />

learning rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y<br />

10000 iteraciones. (c) Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre Pavia


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

4.5.4 SVM<br />

El primer análisis realizado sobre el clasificador SVM con la imagen DAIS<br />

7915 sobre Pavia, ha consistido en realizar pruebas con distintos kernel, al igual que<br />

para la imagen AVIRIS Indian Pines. Los mejores resultados son los obtenidos por el<br />

kernel lineal como se pue<strong>de</strong> ver en la tabla 4.7 y los peores los <strong>de</strong>l kernel sigmoi<strong>de</strong>,<br />

los kernel RBF y polinómico ofrecen resultados intermedios.<br />

Los resultados van <strong>de</strong> 94.81% en el caso <strong>de</strong>l kernel sigmoi<strong>de</strong>o con un<br />

entrenamiento <strong>de</strong>l 5% (Fig. 4.24(a)), a 98.97% en el caso <strong>de</strong>l kernel lineal con un<br />

training <strong>de</strong>l 50% (Fig. 4.24 (b)). Con esto queremos <strong>de</strong>cir que todos los resultados<br />

son buenos, incluso el peor, ya que un porcentaje <strong>de</strong> acierto <strong>de</strong>l 94% da una<br />

clasificación muy fiable.<br />

Como es lógico a medida que aumentamos el porcentaje <strong>de</strong> puntos <strong>de</strong><br />

entrenamiento, también aumenta el porcentaje <strong>de</strong> aciertos, siendo en todos los casos<br />

el mismo or<strong>de</strong>n <strong>de</strong> clasificación, la mejor es la obtenida por el kernel lineal, en<br />

segundo y tercer lugar el kernel Radial Basis Function (RBF) o polinomial muy<br />

próximos entre sí y en cuarto lugar el kernel sigmoi<strong>de</strong>.<br />

El 5% <strong>de</strong> diferencia <strong>de</strong> acierto entre la Fig. 4.24(a) y la Fig 4.24 (b) es<br />

inapreciable, las dos clasificaciones son muy similares a la verdad terreno, Fig<br />

4.24(c)<br />

Fig. 4.24 (a) clasificación SVM con kernel sigmoi<strong>de</strong> y 5% <strong>de</strong> entrenamiento. (b) clasificación<br />

SVM con el kernel lineal y 50% <strong>de</strong> entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c)<br />

Verdad terreno <strong>de</strong> la imagen DAIS 7915 sobre PAVIA.<br />

86


SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />

KEREL KEREL KEREL KEREL<br />

Clase<br />

RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm. RBF Lin. Polin. Sigm.<br />

Shadows 46.47 80.08 44.4 45.23 56.02 87.55 52.28 45.64 84.65 89.63 85.06 84.23 85.06 99.17 84.65 70.95<br />

Water 99.79 99.86 99.79 99.79 99.79 99.98 99.79 99.79 99.79 99.79 99.79 99.79 99.79 99.98 99.79 99.79<br />

Parking lot 79.51 69.44 79.51 87.85 82.29 85.42 82.64 87.15 82.64 92.36 82.99 83.33 87.85 93.06 88.54 84.38<br />

Asphalt 98.65 98.47 98.65 96.29 97.17 96.53 97.23 95.47 97.29 98.59 97.29 96.7 98.23 98.71 98.23 97.41<br />

Brick roofs 98.03 99.55 97.94 95.31 98.3 99.69 98.44 95.58 98.44 99.37 98.53 96.56 99.46 99.78 99.46 98.44<br />

Bare soil 91.66 95.12 92.20 89.76 95.12 97.42 95.19 92.54 95.66 97.22 95.46 93.56 95.46 97.49 95.53 93.90<br />

Bitumen 85.99 92.55 85.99 86.28 91.53 97.66 91.82 88.76 95.33 99.71 95.77 90.66 96.93 99.56 96.93 91.68<br />

Meadows 95.26 95.34 94.78 93.65 97.59 98.39 97.59 96.87 97.27 98.15 97.27 96.71 97.03 98.23 97.11 96.22<br />

Trees 96.78 97.98 96.74 96.37 96.37 96.74 96.2 96.08 96.91 97.48 96.86 96.66 97.24 98.47 97.28 97.07<br />

Total 95.74 97.2 95.7 94.81 96.57 97.99 96.53 95.37 97.38 98.48 97.4 96.51 97.84 98.97 97.87 96.79<br />

Tabla 4.12 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando los <strong>diferentes</strong> tipos <strong>de</strong> kernels disponibles (funciones <strong>de</strong> base radial,<br />

lineal, polinómico y sigmoi<strong>de</strong>) y conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente (5%, 10%, 20% y 50%).


La Fig. 4.25 correspon<strong>de</strong> a las pruebas realizadas con la imagen DAIS 7915<br />

sobre Pavia probando la red SVM con <strong>diferentes</strong> kernel. Son todas ellas muy<br />

similares y con un gran porcentaje <strong>de</strong> acierto. La Fig. (a), la clasificación lineal es la<br />

que más se aproxima a la verdad terreno, con un porcentaje <strong>de</strong> un 98.4847%, la Fig.<br />

(b), la clasificación polinómica y la Fig. (c), la clasificación RBF, son bastante<br />

similares entre sí, con porcentajes <strong>de</strong> acierto <strong>de</strong> 97.4014% para la primera y<br />

97.3809% para la segunda, la Fig. (d), es la que tiene un porcentaje <strong>de</strong> acierto más<br />

bajo, un 96.5150%. Pero la diferencia es muy poca entre ellas e inapreciable si<br />

tuviéramos que <strong>de</strong>cidir cual es la más perfecta.<br />

Fig. 4.25 Clasificación SVM con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 20% y distintos kernel, (a)<br />

lineal, (b) polinómico, (c) RBF, (d) sigmoi<strong>de</strong> para la imagen DAIS 7915 sobre PAVIA.<br />

4.5.4.1 SVM sobre una imagen con transformación MF y PCA.<br />

La tabla <strong>de</strong> la 4.9 compara los resultados obtenidos para la clasificación <strong>de</strong> la<br />

red SVM con los resultados obtenidos por las clasificaciones MNF y PCA <strong>de</strong> 20<br />

bandas, seleccionando en todos los casos un kernel lineal, ya que era el que mejores<br />

resultados obtenía en la clasificación comparativa <strong>de</strong> los kernel.


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 5%, vemos como las dos clases que<br />

tienen un número menor <strong>de</strong> píxeles <strong>de</strong> entrenamiento obtienen una peor clasificación,<br />

las clases shadows y parking lot, siendo esta mayor en el caso <strong>de</strong> la clasificación<br />

normal, <strong>de</strong>bido a que la relación entre el número <strong>de</strong> bandas (40) y el número <strong>de</strong><br />

píxeles <strong>de</strong> entrenamiento es (12 ó 15) es baja. Por eso vemos que se aprecia una ligera<br />

ventaja para el caso <strong>de</strong> acierto en PCA y MNF.<br />

A medida que va aumentando el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento las<br />

diferencias entre los resultados son menores. Pero siempre la relación entre ellos se da<br />

en el mismo or<strong>de</strong>n, es <strong>de</strong>cir, en todos los casos es mejor la clasificación obtenida por<br />

la transformación MNF 20 bandas, en segunda posición PCA (también 20 bandas) y<br />

en tercera la clasificación con todas las bandas.<br />

Si intentamos ver las diferencias <strong>de</strong> las tabla 4.13 con las imágenes obtenidas <strong>de</strong><br />

estas clasificaciones, es muy difícil, ya que todas son muy buenas clasificaciones, y<br />

son muy pocos los píxeles <strong>de</strong> diferencias entre unas y otras.<br />

En la Fig 4.26 vemos como las diferencias entre la imagen (a) y (b) son<br />

inapreciables, habría que ir comparando píxel a píxeles para ver las diferencias con la<br />

verdad terreno, aun así las diferencias entre ambos resultados son mínimas <strong>de</strong> un<br />

98.71% <strong>de</strong> la Fig 4.26 (a), PCA con un 10% <strong>de</strong> entrenamiento, a un 98.92% <strong>de</strong> la Fig<br />

4.26 (b), resultado <strong>de</strong> MNF con un 10% <strong>de</strong> entrenamiento también.<br />

Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto <strong>de</strong>l 20% <strong>de</strong>l<br />

tamaño total <strong>de</strong> píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento MF.<br />

89


SVM 5% <strong>de</strong> patrones entrenamiento 10% <strong>de</strong> patrones entrenamiento 20% <strong>de</strong> patrones entrenamiento 50% <strong>de</strong> patrones entrenamiento<br />

Imagen<br />

Imagen<br />

Imagen<br />

Imagen<br />

Clase<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

PCA MF<br />

completa<br />

completa<br />

completa<br />

completa<br />

Shadows 80.08 92.53 98.34 87.55 95.44 99.17 89.63 98.76 100.00 99.17 99.59 99.59<br />

Water 99.86 99.79 99.86 99.98 99.98 99.98 99.79 99.79 99.79 99.98 99.95 99.98<br />

Parking lot 69.44 71.18 71.88 85.42 83.33 94.10 92.36 90.97 88.54 93.06 95.14 95.49<br />

Asphalt 98.47 98.47 98.94 96.53 98.06 98.65 98.59 99.06 99.12 98.71 99.59 99.59<br />

Brick roofs 99.55 99.73 99.78 99.69 99.69 99.82 99.37 99.73 99.82 99.78 99.96 99.96<br />

Bare soil 95.12 98.51 97.76 97.42 98.31 96.47 97.22 98.51 99.05 97.49 98.24 98.64<br />

Bitumen 92.55 95.77 92.99 97.66 99.56 99.42 99.71 99.42 99.85 99.56 99.71 99.85<br />

Meadows 95.34 96.39 97.75 98.39 99.12 99.12 98.15 98.63 98.71 98.23 98.47 98.63<br />

Trees 97.98 98.18 98.76 96.74 97.98 98.23 97.48 97.94 98.02 98.47 98.97 99.17<br />

Total 97.20 98.07 98.27 98.00 98.71 98.92 98.48 98.95 99.04 98.98 99.33 99.44<br />

Tabla 4.13 Resultados <strong>de</strong> clasificación obtenidos por el clasificador SVM utilizando conjuntos <strong>de</strong> entrenamiento <strong>de</strong> tamaño progresivamente creciente<br />

(5%, 10%, 20% y 50%) y aplicando previamente las técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad (PCA y MF).


4.5.5 Resumen DAIS 7915 sobre Pavia<br />

La imagen DAIS 7915 sobre Pavia obtiene muy buenos resultados <strong>de</strong><br />

clasificación, como hemos podido ver en los apartados anteriores, estando todos en un<br />

rango <strong>de</strong> 90 a 100%.<br />

Con el método ML se ha podido realizar un entrenamiento con la imagen<br />

completa, ya que al tener conjuntos con un gran número <strong>de</strong> patrones <strong>de</strong><br />

entrenamiento, unido a las pocas bandas que tiene esta imagen, tan solo 40, ha<br />

permitido po<strong>de</strong>r llevar a cabo el entrenamiento y su posterior clasificación,<br />

obteniendo buenos resultados. A pesar <strong>de</strong> que es un clasificador sencillo sus<br />

resultados van <strong>de</strong>s<strong>de</strong> el 95% (cuando entrenamos con la imagen completa) y el 97%<br />

(cuando entrenamos con imagen trasformada), cuando entrenamos con el 5% <strong>de</strong> los<br />

píxeles etiquetados <strong>de</strong> la imagen, al 99% cuando entrenamos con un 50%. Los<br />

resultados son buenos, pero este clasificador tiene el inconveniente <strong>de</strong> necesitar que el<br />

tamaño <strong>de</strong> los conjuntos <strong>de</strong> entrenamiento sea superior al número <strong>de</strong> bandas,<br />

pudiéndose limitar su uso, como ocurría con la imagen AVIRIS Indian Pines.<br />

La red SOM obtiene los resultados más bajos, siendo estos entre un 75 y un<br />

85%, <strong>de</strong>bido a que es una red que apren<strong>de</strong> sin supervisión, <strong>de</strong> ahí que algunas <strong>de</strong><br />

clases no estén etiquetadas con el mismo valor que en la verdad terreno y parezca que<br />

se produce una mala clasificación.<br />

La red MLP obtiene buenos resultados, sus porcentajes <strong>de</strong> acierto varían entre<br />

un 98 y un 99.5% aproximadamente. Esta red trabaja <strong>de</strong> forma más lenta, pero gracias<br />

a que la imagen no tiene muchas bandas es posible llegar a una convergencia en un<br />

tiempo mo<strong>de</strong>rado.<br />

Por ultimo el clasificador SVM aúna dos características buenos resultados, entre<br />

un 98 y 99.5%, como en el caso <strong>de</strong> MLP pero con unos tiempos <strong>de</strong> procesamiento<br />

más rápidos.<br />

Cualquiera <strong>de</strong> los métodos empleados (ML, SOM, MLP o SVM) para analizar<br />

esta imagen obtiene unos resultados muy buenos <strong>de</strong>bido a que esta imagen tiene<br />

pocas bandas, sus clases son perfectamente separables y tiene una gran cantidad <strong>de</strong><br />

píxeles etiquetados.


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

4.6 Discusión <strong>de</strong> resultados y análisis <strong>comparativo</strong><br />

En este apartado haremos una comparativa entre los distintos métodos que<br />

hemos presentado anteriormente para cada una <strong>de</strong> las imágenes y también entre ellas.<br />

Primero empezaremos haciendo una evaluación <strong>de</strong> AVIRIS Indian Pines, para<br />

continuar con la imagen DAIS 7915 sobre Pavia y terminar haciendo una comparativa<br />

entre las dos. Para la imagen AVIRIS Indian Pines al igual que la imagen DAIS 7915<br />

sobre Pavia hemos probado 2 clasificadores, SVM y Maximum likelihood, y dos<br />

re<strong>de</strong>s <strong>neuronales</strong>, MLP y SOM.<br />

En la Fig. 4.27 comparamos los resultados <strong>de</strong> ML, con la imagen DAIS 7915<br />

sobre Pavia son mejores que con AVIRIS Indian Pines. A pesar <strong>de</strong> ser un método<br />

simple da buenos resultados, en todos los casos superiores a un 75% <strong>de</strong> acierto. Para<br />

el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia, la diferencia entre MNF y PCA no se<br />

aprecia porque es muy reducida. Para la imagen AVIRIS Indian Pines, el resultado es<br />

mejor para el caso MNF.<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

ML_MNF_IP ML_PCA_IP ML_MNF_PA ML_PCA_PA<br />

100<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.27 Clasificación ML con transformación MF Y PFC entre la imagen AVIRIS Indian<br />

Pines y la imagen DAIS 7915 sobre Pavia<br />

La Fig. 4.28 muestra los resultados <strong>de</strong> la clasificación SOM obtenidos para la<br />

imagen DAIS 7915 sobre Pavia con los <strong>diferentes</strong> parámetros que se han utilizado.<br />

Cada una <strong>de</strong> las líneas indica el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento por clase, es<br />

<strong>de</strong>cir, los píxeles seleccionados para el aprendizaje para cada una <strong>de</strong> las clases,<br />

teniendo un total <strong>de</strong> 9 clases, tenemos conjuntos <strong>de</strong> entrenamiento <strong>de</strong> 90, 450 y 900<br />

píxeles <strong>de</strong> entrenamiento, que en comparación con el número total 14.585 hace que<br />

92


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

hayamos utilizado un valor muy bajo <strong>de</strong> porcentaje <strong>de</strong> entrenamiento. Al realizar las<br />

pruebas con la imagen completa vemos como los resultados no mejoran, <strong>de</strong>bido a que<br />

en este momento los datos son mucho más amplios y hemos utilizado el mismo<br />

número <strong>de</strong> iteraciones.<br />

% Pixels correctamente<br />

clasificados<br />

% Clasificación al aumentar el número <strong>de</strong> iteraciones<br />

88<br />

86<br />

84<br />

82<br />

80<br />

78<br />

76<br />

74<br />

72<br />

70<br />

10 50 100 Imagen completa<br />

50 100 200 1000<br />

Numero iteraciones<br />

Fig. 4.28 Resultados <strong>de</strong> la clasificación SOM<br />

La red MLP es lenta cuando intentamos trabajar con imágenes con un gran<br />

número <strong>de</strong> bandas, por eso como se explicó en el apartado 4.5 no se ha podido<br />

finalizar el estudio con los conjuntos <strong>de</strong> entrenamiento <strong>de</strong> un 20 y un 50% cuando se<br />

utilizaba la imagen completa.<br />

La Fig. 4.29 muestra los resultados obtenidos al utilizar esta red con la imagen<br />

<strong>de</strong> Indian Pines entera, para los casos <strong>de</strong>l 5 y 10% y los resultados obtenidos<br />

utilizando el preprocesamiento PCA y MNF. Los mejores resultados son los<br />

obtenidos tras aplicar el preprocesamiento MNF.<br />

En esta comparación parece que el resultado obtenido al clasificar con la<br />

imagen completa es mejor que con la reducción PCA, pero es que el error permitido<br />

en uno y otro no era el mismo. Para <strong>de</strong>terminar la convergencia que <strong>de</strong>bía alcanzar la<br />

red se marcó un número <strong>de</strong> iteraciones elevado 100.000 y un error bajo <strong>de</strong> 0,1, cada<br />

uno <strong>de</strong> las imágenes tuvo un error mínimo diferente, ya que ninguna salió por la cota<br />

<strong>de</strong>l error, sino por alcanzar el número <strong>de</strong> iteraciones. El valor permitido para PCA fue<br />

superior (más error) que para MNF o para la imagen completa. Al permitir mayor<br />

error el porcentaje <strong>de</strong> acierto obtenido es peor, pero la red converge antes.<br />

93


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

60<br />

Imagen completa PCA MNF<br />

1 2 3 4<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines<br />

Los resultados al entrenar la red MLP con la imagen DAIS 7915 sobre Pavia<br />

(véase Fig. 4.30) son mucho mejores, ya que el valor más bajo obtenido en este caso<br />

es bastante superior que el obtenido con la imagen AVIRIS Indian Pines, con esta<br />

imagen los resultados están comprendidos en un rango que abarca <strong>de</strong>s<strong>de</strong> el 70% al<br />

86%, mientras que para la imagen DAIS 7915 sobre Pavia este rango compren<strong>de</strong> <strong>de</strong>l<br />

97% al 99%.<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

100<br />

99<br />

98<br />

97<br />

Imagen completa PCA MNF<br />

5% 10% 20% 50%<br />

Tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia<br />

94


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Para po<strong>de</strong>r obtener los resultados que en las Fig. 4.31 se muestran ha sido<br />

necesario realizar muchas pruebas, las cuales <strong>de</strong>bido al peso <strong>de</strong> las imágenes han<br />

empleado, junto con el gran número <strong>de</strong> iteraciones que se han realizado han llevado<br />

mucho tiempo. La clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia es muy superior<br />

a la <strong>de</strong> AVIRIS Indian Pines, mientras que para esta última vemos perfectamente cada<br />

una <strong>de</strong> las representaciones <strong>de</strong> resultados, para el caso <strong>de</strong> Pavia los porcentajes se<br />

encuentran muy agrupados en la franja <strong>de</strong>l 95 al 100%.<br />

% Pixels correctamente<br />

clasificados<br />

100<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

% Clasificación al aumentar conjunto <strong>de</strong><br />

entrenamiento<br />

Im. Cmplt PCA MNF Im. Cmplt PCA MNF<br />

Tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre<br />

Pavia<br />

La Fig. 4.32 es una comparativa <strong>de</strong> los resultados obtenidos para la imagen<br />

AVIRIS Indian Pines en la clasificación SVM para cada uno <strong>de</strong> los kernel. El kernel<br />

lineal <strong>de</strong>staca sobre los <strong>de</strong>más. Con valores ligeramente inferiores a los obtenidos con<br />

el kernel lineal se encuentran los resultados obtenidos por los kernel RBF y<br />

polinomial, que tienen valores muy similares, prácticamente se superponen y<br />

finalmente el kernel sigmoi<strong>de</strong>, que es el que peores resultados refleja.<br />

Si comparamos los distintos kernel <strong>de</strong> SVM para la imagen DAIS 7915 sobre<br />

Pavia, la figura que obtenemos es la Fig. 4.33, don<strong>de</strong> vemos que los resultados<br />

obtenidos son bastante similares en cuanto a la forma, es <strong>de</strong>cir, la figura presenta el<br />

mismo aspecto, pero el rango <strong>de</strong> valores representado en la Fig. 4.33 es superior y<br />

más limitado, los resultados están comprendidos entre el 94% y el 100%.<br />

95


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

% Píxels correctamente clasificados<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

60<br />

55<br />

50<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

RBF Lineal Polinómico Sigmoi<strong>de</strong><br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

100<br />

99<br />

98<br />

97<br />

96<br />

95<br />

94<br />

rbf lineal polinómico sigmoi<strong>de</strong><br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia<br />

Si comparamos los resultados <strong>de</strong> la Fig.s 4.32 y 4.33 nos damos cuenta que la<br />

clasificación <strong>de</strong> la imagen DAIS 7915 sobre Pavia es mejor que la <strong>de</strong> AVIRIS Indian<br />

Pines. El porcentaje más bajo para la imagen DAIS 7915 sobre Pavia es 94%<br />

mientras que el resultado más elevado en la clasificación <strong>de</strong> AVIRIS Indian Pines es<br />

90%<br />

En la Fig. 4.34 po<strong>de</strong>mos ver como las clasificaciones MNF y PCA comienzan<br />

con un porcentaje <strong>de</strong> acierto mejor que la clasificación con la imagen completa, pero<br />

96


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

su crecimiento es más mo<strong>de</strong>rado. En todos los casos la clasificación MNF es superior<br />

a la clasificación PCA.<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

100<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

Imagen completa PCA MNF<br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.34 Clasificación SVM (Imagen completa, PCA, MF) con AVIRIS Indian Pines<br />

La clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia para el algoritmo<br />

SVM correspon<strong>de</strong> a la Fig. 4.35. La reducción en cuanto al número <strong>de</strong> bandas <strong>de</strong> 40 a<br />

20, no era necesaria, ya que obteníamos muy buenos resultados con la imagen<br />

completa, pero para po<strong>de</strong>r comparar los resultados obtenidos con las dos imágenes se<br />

ha creído necesario realizar esta compresión <strong>de</strong> datos.<br />

Con la transformación <strong>de</strong> la imagen MNF es con la clasificación con la que se<br />

obtienen mejores resultados, siempre por encima <strong>de</strong>l resto. Aunque muy cercanos a la<br />

transformación PCA. Todos los resultados son superiores al 97%, seleccionando en<br />

todos los casos un kernel lineal, ya que es con el que mejores resultados obtuvimos.<br />

97


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

% Píxels correctamente clasificados<br />

100<br />

99<br />

98<br />

97<br />

96<br />

95<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

Imagen completa PCA MNF<br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.35 Clasificación SVM (Imagen completa, PCA, MF) con la imagen DAIS 7915 sobre<br />

Pavia<br />

En cuanto al tiempo empleado, la diferencia entre unos algoritmos y otros es<br />

muy gran<strong>de</strong>, lo po<strong>de</strong>mos ver en la Fig. 4.36 don<strong>de</strong> se representan para las distintas<br />

pruebas que hemos hecho el tiempo máximo y mínimo que tardarían bajo las mismas<br />

condiciones (<strong>de</strong>ntro <strong>de</strong> lo posible).<br />

El tiempo mínimo correspon<strong>de</strong> al tiempo empleado en realizar las pruebas con<br />

un porcentaje <strong>de</strong>l 5%. Y el máximo con un conjunto <strong>de</strong> entrenamiento <strong>de</strong>l 50%.<br />

Como la red SOM no utiliza estos porcentajes <strong>de</strong> entrenamiento simplemente hemos<br />

utilizado su clasificación más ligera, con menos patrones <strong>de</strong> aprendizaje, y más<br />

pesada, con más patrones <strong>de</strong> aprendizaje.<br />

La Fig. 4.36 muestra las diferencias <strong>de</strong> tiempo empleadas por los métodos<br />

analizados, estos tiempos son una aproximación medida en minutos. Hay una clara<br />

diferencia entre los métodos con un procesamiento más lento y aquellos más veloces,<br />

pero a<strong>de</strong>más tenemos que tener en cuenta que para po<strong>de</strong>r compararlos y que se<br />

apreciara hemos incluido en los nombres un factor <strong>de</strong> escala, siendo el caso <strong>de</strong> MLP<br />

con la imagen AVIRIS Indian Pines, tendríamos que multiplicar los minutos aquí<br />

indicados por 1000. Con lo que llegamos a la conclusión <strong>de</strong> que el tiempo empleados<br />

por SVM o ML es <strong>de</strong> unos pocos minutos, mientras que para SOM o MLP el tiempo<br />

que lleva su utilización es <strong>de</strong> horas, días e incluso semanas.<br />

98


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

Minutos empleados<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

IP_SVM<br />

IP_SVM_MNF<br />

IP_ML<br />

IP_MLP x1000<br />

TIEMPO UTILIZADO<br />

IP_MLP_MNF x100<br />

PAV_SVM<br />

PAV_SVM_MNF<br />

PAV_ML<br />

PAV_ML_MNF<br />

PAV_MLP x100<br />

PAV_MLP_MNF x100<br />

PAV_SOM x10<br />

Fig. 4.36 Tiempo empleado por los <strong>diferentes</strong> clasificadores<br />

Después <strong>de</strong> observar la Fig. 4.36 llegamos a la conclusión anterior el algoritmo<br />

que peor se comporta es MLP, con la imagen AVIRIS Indian Pines. Y es que con la<br />

imagen DAIS 7915 sobre Pavia no ocurre lo mismo por tener ésta muchas menos<br />

bandas.<br />

Fijándonos en la Fig. 4.37 po<strong>de</strong>mos ver como la clasificación MLP tiene un<br />

crecimiento más lento, mientra que los métodos SVM y ML crecen a la par a media<br />

que aumentan los conjuntos <strong>de</strong> entrenamiento. Pero el caso <strong>de</strong> ML requiere <strong>de</strong> un<br />

preprocesamiento para po<strong>de</strong>r llevarse a cabo, luego po<strong>de</strong>mos concluir que el método<br />

que mejor funciona con la imagen <strong>de</strong> AVIRIS Indian Pines es SVM, su tiempo es<br />

reducido y su tasa <strong>de</strong> acierto bastante elevada.<br />

99


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

% Píxels correctamente<br />

clasificados<br />

100<br />

95<br />

90<br />

85<br />

80<br />

75<br />

70<br />

65<br />

60<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

SVM ML_MNF MLP<br />

1 2 3 4<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.37 Clasificación general AVIRIS Indian Pines<br />

La Fig. 4.38 presenta los resultados generales <strong>de</strong> clasificación para la imagen<br />

DAIS 7915 sobre Pavia, los resultados son mejores que en el caso <strong>de</strong> AVIRIS Indian<br />

Pines, como la imagen analizada tiene menos bandas y las clases son totalmente<br />

separables da lugar a mejores resultados para todos los métodos. Siendo a<strong>de</strong>más estos<br />

más próximos entre sí. De todas formas po<strong>de</strong>mos concluir que aunque los mejores<br />

resultados son los <strong>de</strong> ML, los <strong>de</strong> SVM no han necesitado preprocesamiento. Y como<br />

son ligeramente superiores a los <strong>de</strong> MLP a medida que aumenta el conjunto <strong>de</strong><br />

entrenamiento, po<strong>de</strong>mos <strong>de</strong>cir que SVM es el que mejor resultados nos ofrece para la<br />

imagen DAIS 7915 completa.<br />

100


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

% Píxels correctamente<br />

clasificados<br />

% Clasificación al aumentar conjunto <strong>de</strong> entrenamiento<br />

100<br />

99,5<br />

99<br />

98,5<br />

98<br />

97,5<br />

97<br />

96,5<br />

96<br />

SVM ML MLP<br />

5% 10% 20% 50%<br />

Tamaño conjunto <strong>de</strong> entrenamiento<br />

Fig. 4.38 Clasificación general <strong>de</strong> la imagen DAIS 7915 sobre Pavia<br />

Los resultados <strong>de</strong> la SOM no han sido incluidos en esta figura <strong>de</strong>bido a que al<br />

estar distantes con respecto al resto <strong>de</strong> métodos haría que no pudiésemos apreciar<br />

bien la relación entre el resto <strong>de</strong> los métodos. La clasificación SOM es la que peores<br />

resultados ha obtenido. Pero a pesar <strong>de</strong> lo que parece son buenos resultados ya que no<br />

necesita supervisión. Lo que es una ventaja con respecto al resto <strong>de</strong> los métodos.<br />

El algoritmo que mejor se comporta ante los casos con poco entrenamiento es y<br />

utilizando todas las bandas <strong>de</strong> la imagen es el método SVM. Obtiene unos porcentajes<br />

<strong>de</strong> acierto superiores al resto, en algunos casos incluso cuando los otros métodos<br />

tienen características mejores, es <strong>de</strong>cir, mayor número <strong>de</strong> iteraciones, número <strong>de</strong><br />

bandas <strong>de</strong> la imagen, etc. Es un clasificador más robusto ante datos altamente<br />

dimensionales, mientras que el resto <strong>de</strong> métodos realmente necesitan la<br />

correspondiente reducción dimensional para evitar los efectos muy negativos <strong>de</strong> usar<br />

poco training o requieren <strong>de</strong> un aumento excesivo <strong>de</strong>l número <strong>de</strong> iteraciones, lo que<br />

conlleva un aumento <strong>de</strong>l tiempo consi<strong>de</strong>rable.<br />

101


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

5 Conclusiones y líneas futuras <strong>de</strong> trabajo<br />

En el presente trabajo se ha <strong>de</strong>sarrollado un <strong>de</strong>tallado análisis cuantitativo y<br />

<strong>comparativo</strong> <strong>de</strong> <strong>diferentes</strong> clasificadores para el tratamiento <strong>de</strong> datos hiperespectrales.<br />

Los cuatro clasificadores comparados (ML, SOM, MLP y SVM) cubren un rango <strong>de</strong><br />

técnicas altamente representativas <strong>de</strong>l estado <strong>de</strong>l arte en análisis <strong>de</strong> datos<br />

hiperespectrales, incluyendo técnicas clásicas como ML, <strong>arquitecturas</strong> <strong>neuronales</strong> con<br />

<strong>diferentes</strong> tipos <strong>de</strong> aprendizaje (SOM, MLP) y clasificadores avanzados capaces <strong>de</strong><br />

funcionar <strong>de</strong> forma muy precisa ante datos altamente dimensionales y en presencia <strong>de</strong><br />

conjuntos <strong>de</strong> entrenamiento con un número <strong>de</strong> patrones muy limitado (SVM). Dicho<br />

estudio se ha efectuado utilizando dos imágenes hiperespectrales altamente<br />

representativas (AVIRIS Indian Pines y DAIS 7915 sobre Pavia) lo cual ha<br />

posibilitado un estudio <strong>de</strong>tallado <strong>de</strong> <strong>diferentes</strong> ca<strong>de</strong>nas <strong>de</strong> procesamiento basadas en<br />

los clasificadores anteriormente mencionados con dos imágenes <strong>de</strong> referencia en la<br />

comunidad científica. Conviene <strong>de</strong>stacar que el estudio realizado incluye aspectos <strong>de</strong><br />

gran interés, tales como el impacto <strong>de</strong> técnicas <strong>de</strong> reducción dimensional (MNF y<br />

PCA) y el tamaño <strong>de</strong>l conjunto <strong>de</strong> entrenamiento empleado en los resultados<br />

proporcionados por los distintos clasificadores. En la literatura no existe tal estudio<br />

<strong>comparativo</strong> hasta la fecha, por lo que la variedad <strong>de</strong> resultados obtenidos y las<br />

interesantes conclusiones que su análisis ha dado lugar pue<strong>de</strong>n representar una<br />

contribución <strong>de</strong> gran valor a la literatura existente en cuanto a clasificación <strong>de</strong> datos<br />

hiperespectrales y, en particular, en el caso concreto <strong>de</strong> disponer <strong>de</strong> un conjunto<br />

limitado <strong>de</strong> datos <strong>de</strong> entrenamiento, lo cual suele ser la situación habitual en<br />

aplicaciones reales dada la gran dificultad y elevado coste <strong>de</strong> obtener información <strong>de</strong><br />

referencia a priori mediante estudios <strong>de</strong> campo.<br />

Teniendo en cuenta las contribuciones anteriormente <strong>de</strong>stacadas, es importante<br />

mencionar que los resultados obtenidos en el presente trabajo se han logrado a partir<br />

<strong>de</strong> conjuntos <strong>de</strong> entrenamiento seleccionados aleatoriamente entre los datos que los<br />

archivos ROI nos proporcionaban, obteniéndose conjuntos <strong>de</strong> datos <strong>de</strong>l 5, 10 20 y<br />

hasta 50%. En este sentido, se ha observado que se obtienen mejores resultados<br />

cuanto mayor es el número <strong>de</strong> píxeles utilizados en el entrenamiento. Sin embargo,<br />

resulta interesante <strong>de</strong>stacar que algunos clasificadores (como la técnica SVM)<br />

permiten obtener resultados son muy buenos con un número muy limitado <strong>de</strong><br />

patrones, gracias a las características concretas <strong>de</strong>l clasificador. En este sentido, el<br />

102


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

estudio <strong>comparativo</strong> realizado en el presente trabajo pue<strong>de</strong> ofrecer una guía<br />

interesante al usuario estándar <strong>de</strong> datos hiperespectrales a la hora <strong>de</strong> seleccionar un<br />

clasificador concreto para aplicaciones <strong>de</strong>terminadas (por este motivo, en el presente<br />

trabajo se ha optado por comparar dos casos <strong>de</strong> estudio totalmente <strong>diferentes</strong> y<br />

ampliamente representativos, tales como una aplicación <strong>de</strong> agricultura <strong>de</strong> precisión y<br />

una aplicación relacionada con monitorización <strong>de</strong> zonas urbanas).<br />

Otra <strong>de</strong> las principales contribuciones <strong>de</strong>l presente trabajo ha sido analizar el<br />

impacto <strong>de</strong> las técnicas <strong>de</strong> reucción dimensional MNF y PCA en el resultado<br />

proporcionado por los <strong>diferentes</strong> clasificadores. En este sentido, los resultados<br />

obtenidos revelan que las técnicas <strong>de</strong> preprocesamiento sólo son estrictamente<br />

necesarias en el caso <strong>de</strong> analizar la imagen AVIRIS Indian Pines al realizar la<br />

clasificación ML, ya que requiere que el número <strong>de</strong> píxeles <strong>de</strong> entrenamiento sea<br />

superior al número <strong>de</strong> bandas da la imagen. La clasificación <strong>de</strong> DAIS 7915 sobre<br />

Pavia con ML es posible sin realizar una disminución en el número <strong>de</strong> bandas <strong>de</strong> la<br />

imagen, ya que esta imagen tiene tan solo 40 bandas. Con la red MLP para la imagen<br />

AVIRIS Indian Pines los resultados obtenidos sin el preprocesamiento <strong>de</strong> la imagen<br />

necesitan muchas iteraciones para po<strong>de</strong>r finalizar y llegar a una clasificación buena,<br />

por ello aunque con esta red no sea necesario si es recomendable ya que se obtiene<br />

una buena clasificación disminuyendo consi<strong>de</strong>rablemente el tiempo <strong>de</strong><br />

procesamiento. En los casos <strong>de</strong>l 20 o el 50% <strong>de</strong>bido a la cantidad <strong>de</strong> tiempo<br />

necesaria, <strong>de</strong>spués <strong>de</strong> 3 semanas ejecutándose, no habían finalizado su entrenamiento<br />

y posterior clasificación. No ocurre lo mismo si hablamos <strong>de</strong> la imagen DAIS 7915<br />

sobre Pavia, don<strong>de</strong> el tiempo <strong>de</strong> procesamiento es mucho más reducido y por lo tanto<br />

no es necesario hacer la reducción <strong>de</strong> la imagen, pero <strong>de</strong> todas formas se ha realizado<br />

para po<strong>de</strong>r comparar los resultados entre las dos imágenes y los <strong>diferentes</strong> métodos.<br />

Con el clasificador SVM también se han empleado las técnicas <strong>de</strong> PCA y MNF sin<br />

ser estrictamente necesarias, únicamente para corroborar que los resultados <strong>de</strong><br />

clasificación (como era <strong>de</strong> esperar) pue<strong>de</strong>n resultar un tanto mejores con dicha<br />

reducción dimensional y comparar con el resto <strong>de</strong> los métodos. Sin embargo, los<br />

resultados revelan que el clasificador SVM es el menos sensible a la realización <strong>de</strong> un<br />

proceso <strong>de</strong> reducción dimensional previo ya que este clasificador es capaz <strong>de</strong> trabajar<br />

<strong>de</strong> forma precisa en presencia <strong>de</strong> muy pocos patrones <strong>de</strong> entrenamiento y datos<br />

altamente dimensionales. Finalmente, las técnicas <strong>de</strong> preprocesamiento no son<br />

tampoco estrictamente necesarias para la red neuronal SOM, pero ni con<br />

103


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

preprocesamiento ni sin el son buenos los resultados para el caso <strong>de</strong> AVIRIS Indian<br />

Pines, <strong>de</strong>bido a la no separabilidad <strong>de</strong> algunas <strong>de</strong> sus clases, unido a que el método es<br />

no supervisado. Los resultados obtenidos con la red SOM son mejores para el caso <strong>de</strong><br />

DAIS 7915 sobre Pavia. En este sentido, conviene <strong>de</strong>stacar que cuando la<br />

dimensionalidad <strong>de</strong> la imagen es más reducida (como es el caso <strong>de</strong> la imagen DAIS<br />

7915 sobre Pavia) los resultados tien<strong>de</strong>n a mejorar para todos los métodos<br />

comparados, que proporcionan valores entre un 75 y un 100% <strong>de</strong> acierto. Pero cuando<br />

el número <strong>de</strong> bandas es más elevado, como ocurre con la imagen AVIRIS Indian<br />

Pines los resultados no son tan buenos, con valores <strong>de</strong>l 50 al 90%, <strong>de</strong>pendiendo <strong>de</strong>l<br />

método empleado. Esta es una clara indicación <strong>de</strong>l fenómeno <strong>de</strong> Hughes en<br />

clasificación <strong>de</strong> datos hiperespectrales, que marca la necesidad <strong>de</strong> establecer un<br />

compromiso entre la gran dimensionalidad <strong>de</strong> los datos a clasificar y la escasez <strong>de</strong><br />

patrones <strong>de</strong> entrenamiento que suele producirse en aplicaciones reales. En este<br />

sentido, los resultados que se <strong>de</strong>rivan <strong>de</strong>l presente estudio indican que el clasificador<br />

SVM es el que mejor balance ofrece entre dimensionalidad elevada y número <strong>de</strong><br />

patrones <strong>de</strong> entrenamiento limitado, resultando un clasificador idóneo para datos<br />

hiperspectrales (la selección <strong>de</strong> un kernel concreto para el clasificador SVM también<br />

ha constituido uno <strong>de</strong> los aspectos a estudiar <strong>de</strong>ntro <strong>de</strong> las pruebas realizadas en el<br />

presente trabajo).<br />

En cuanto a las futuras líneas <strong>de</strong> trabajo <strong>de</strong>rivadas <strong>de</strong>l presente proyecto,<br />

po<strong>de</strong>mos realizar las siguientes consi<strong>de</strong>raciones. En primer lugar, en cuanto a la<br />

separabilidad <strong>de</strong> las clases en el caso <strong>de</strong> la imagen DAIS 7915 sobre Pavia, todas las<br />

clases son perfectamente separables. Sin embargo, en el caso <strong>de</strong> AVIRIS Indian Pines<br />

no es así, <strong>de</strong> las 16 etiquetadas, cuatro no son separables. Por tanto, eliminando estas<br />

clases <strong>de</strong>l conjunto <strong>de</strong> entrenamiento mejoraríamos el porcentaje <strong>de</strong> acierto. Por otra<br />

parte, la eliminación <strong>de</strong> bandas ruidosas podría permitir llegar a conseguir mejores<br />

resultados, ya que el ruido empeora los porcentajes <strong>de</strong> clasificación. A<strong>de</strong>más, el uso<br />

<strong>de</strong> otros clasificadores, incluyendo <strong>arquitecturas</strong> SVM con otros tipos <strong>de</strong> kernels (por<br />

ejemplo, espaciales-espectrales) podría dar como resultado una mejor mo<strong>de</strong>lización<br />

<strong>de</strong> clases con elevada correlación espacial, como por ejemplo las clases <strong>de</strong> la imagen<br />

DAIS 7915 sobre una zona urbana.<br />

Finalmente, proponemos como línea futura <strong>de</strong> trabajo la paralelización <strong>de</strong> los<br />

métodos empleados en <strong>arquitecturas</strong> <strong>de</strong> altas prestaciones, lo cual podría permitir<br />

obtener una significativa disminución <strong>de</strong>l tiempo <strong>de</strong> procesamiento empleado, ya que<br />

104


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

las pruebas realizadas en este documento han sido hechas con <strong>arquitecturas</strong><br />

monoprocesador. Si la misma tarea se pue<strong>de</strong> dividir entre varios procesadores, el<br />

tiempo necesario será menor, mejorando así los tiempos mostrados en el presente<br />

documento. En este sentido, la paralelización <strong>de</strong> los métodos <strong>de</strong>sarrollados pue<strong>de</strong><br />

constituir un interesante futuro trabajo <strong>de</strong> investigación.<br />

105


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

6 Referencias<br />

1. J. Bo<strong>de</strong>chtel, “Requirements on optical sensors for quantitative <strong>de</strong>finition of<br />

surface parameters multispectral - hyperspectral.” Advances in Space<br />

Research 28 (1): 241-250, 2001.<br />

2. R. N. Clark, Spectroscopy of Rocks and Minerals, and Principles of<br />

Spectroscopy. Manual of Remote Sensing, John Wiley and Sons, New York,<br />

1999a.<br />

3. R. O. Green et al., “Imaging spectroscopy and the Airborne Vsible/Infrared<br />

Imaging Spectrometer (AVIRIS)”, Remote Sens. Environ., vol. 65, 1998.<br />

4. C. -I.Chang, Q. Du. “Estimation of the number of spectrally distinct signal<br />

sources in hyperspectral imagery.” IEEE Transactions on Geoscience and<br />

Remote Sensing, 42:608-619, 2004.<br />

5. A. Plaza and C.-I Chang. “High Performance Computing in Remote Sensing”.<br />

Chapman & Hall/CRC Press, Computer & Information Science Series, Taylor<br />

& Francis, Boca Raton: Florida, 2007.<br />

6. C.-I Chang “Hyperspectral Imaging: Techniques for Spectral Detection and<br />

Classification”. Kluwer/Plenum, New York, 2003.<br />

7. L. Jimenez and D. A. Landgrebe, “Supervised classification in high-<br />

dimensional space: Geometrical, statistical, and asymptotical properties of<br />

multivariate data”, IEEE Trans. Syst., Man, Cybern. C, vol. 28, 1998.<br />

8. R. E. Roger, and J. F. Arnold, “Reliability Estimating the Noise in AVIRIS<br />

Hyperspectral Imges”, Int. J.Remote Sens., Vol. 17, 1996.<br />

9. D. A. Landgrebe, “Hyperspectral Image Data Analysis”, IEEE Signal<br />

Processing Magazine, vol. 19, no. 1, pp. 17-28, 2002.<br />

10. L. S. Kalman, G. R. Pelzer, “Simulation of Landsat Thematic Mapper<br />

Imagery Using AVIRIS Hyperspectral Imagery”, en Proc. ASA/JPL<br />

Airborne Earth Science Workshop, Pasa<strong>de</strong>na, CA, 1993.<br />

11. M. Faraklioti, M. Petrou, “Illumination invariant unmixing of sets of mixed<br />

pixels”. IEEE Transactions on Geoscience and Remote Sensing, vol. 39, pp.<br />

2227-2234, 2001.<br />

12. P.-F. Hsieh, D. Landgrebe, Classification of High Dimensional Data. Tesis<br />

Doctoral, School of Electrical and Computer Engineering, Purdue University,<br />

1998.<br />

106


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

13. W. P. Kustas, J. M. Norman, “Evaluating the Effects of Subpixel<br />

Heterogeneity on Pixel Average Fluxes”. Remote Sensing of Environment,<br />

vol. 74, pp. 327-342, 2002.<br />

14. T. M. Tu, H. C. Shyu, C. H. Lee, C. -I. Chang, “An oblique subspace<br />

projection approach for mixed pixel classification in hyperspectral images”,<br />

Pattern Recognition, vol. 32, pp. 1399-1408, 1999.<br />

15. A. Plaza, J. Plaza, P. Martinez and R. M. Pérez, “A new approachto mixed<br />

pixel classification of hyperspectral imagery based on exten<strong>de</strong>d morphological<br />

profiles”. Pattern recognition, 2004.<br />

16. C. –I. Chang, H. Ren, “An Experiment-Based Quantitative and Comparative<br />

Analysis of Target Detection and Image Classification Algorithms for<br />

Hyperspectral Imagery”. IEEE Transactions on Geoscience and Remote<br />

Sensing, vol. 38, no. 2, pp. 1044- 1063, 2000.<br />

17. S. V. Stehman, “Selecting and Interpreting Measures of Thematic<br />

Classification Accuracy”. Remote Sensing of Environment, vol. 62, pp. 77-89,<br />

1997.<br />

18. G. Shaw, D. Manolakis, “Signal processing for hyperspectral image<br />

exploitation”. IEEE Signal Processing Magazine, vol. 19, pp. 12-16, 2002.<br />

19. A. K. L. Chiang (2001), “A Simple General Method for Constructing<br />

Confi<strong>de</strong>nce Intervals for Functions of Variance Components,” Technometrics,<br />

43, 356-367.<br />

20. G. Rellier, X. Descombes, J. Zerubia, “Local registration and <strong>de</strong>formation of a<br />

road cartographic database on a SPOT satellite image”. Pattern Recognition,<br />

vol. 35, pp. 2213-2221, 2002.<br />

21. S. Tadjudin, D. Landgrebe “Classification of high dimensional data with<br />

limited training samples”, ECE Tecnical Reports, Purdue Libraries, 1998.<br />

22. V. Madhok, D. Landgrebe, Spectral-Spatial Analysis of Remote Sensing Data:<br />

An Image Mo<strong>de</strong>l and A Procedural Design. Tesis Doctoral, School of<br />

Electrical Engineering and Computer Science, Purdue University, 1998.<br />

23. R. G. Congalton, “Consi<strong>de</strong>rations and Techniques for Assessing the Accuracy<br />

of Remotely Sensed Data”, en: Proc. International Geoscience and Remote<br />

Sensing Symposium IGARSS, vol. 3, pp. 1847-1850, 1989.<br />

107


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

24. S. V. Stehman, “Practical Implications of Design-Based Sampling Inference<br />

for Thematic Map Accuracy Assessment”. Remote Sensing of Environment,<br />

vol. 72, pp. 35-45, 2000.<br />

25. B. M. Steele, J. C. Winne, R. L. Redmond, “Estimation and Mapping of<br />

Misclassification Probabilities for Thematic Land Cover Maps”, Remote<br />

Sensing of Environment, vol. 66, pp. 192-202, 1998.<br />

26. G. Jäger, U. Benz, “Measures of classification accuracy based on fuzzy<br />

similarity”. IEEE Transactions on Geoscience and Remote Sensing, vol. 38,<br />

no. 2, pp. 1462-1467, 2000.<br />

27. R. Nishii, R. Tanaka, “Accuracy and Inaccuracy Assessments in Land-Cover<br />

Classification”. IEEE Transactions on Geoscience and Remote Sensing, vol.<br />

37, no. 1, pp. 491-498, 1999.<br />

28. K. J. Guilfoyle, M. L. Althouse, C.-I Chang, “A Quantitative and Comparative<br />

Analysis of Linear and Nonlinear Spectral Mixture Mo<strong>de</strong>ls Using Radial<br />

Basis Function Neural Networks”. IEEE Transactions on Geoscience and<br />

Remote Sensing, vol. 39, no. 8, pp. 2314- 2318, 2001.<br />

29. R. P. Lippmann, “An introduction to computimg with neural nets”, IEEE<br />

ASSP Magazine, April, pp. 4-22, 1987.<br />

30. R. M. Pérez Tesis doctoral: Algoritmo y arquitectura <strong>de</strong> red neuronal para el<br />

procesamiento <strong>de</strong> señal aplicado a la <strong>de</strong>terminación y cuantificación <strong>de</strong><br />

elementos presentes en composiciones espectrales. Facultad <strong>de</strong> Informática,<br />

Universidad Politécnica <strong>de</strong> Madrid, 1995.<br />

31. A. A. Marquina, Tesis Doctoral “Aportación a la Extracción Paramétrica en<br />

Reconocimiento De Voz Robusto Basada en la Aplicación <strong>de</strong> Conocimiento<br />

<strong>de</strong> Fonética Acústica”, Universidad Politécnica <strong>de</strong> Madrid, 1999.<br />

32. M. Bishop “Neural networks for pattern recognition”. Oxford University<br />

Press, 1995.<br />

33. P. M. Atkinson, A. R. L. Tatnall, “Neural Networks in remote sensing –<br />

introduction”. International Journal of Remote Sensing, vol. 18, pp. 699-709,<br />

1997.<br />

34. B. H. Braswell, S. C. Hagen, S. E. Frokling, W. A. Salas, “A multivariative<br />

approach for mapping sub-pixel land cover distributions using mirs and<br />

modis: application in the brazilian amazon region.” Remote Sensing of<br />

Environment, vol. 87, pp. 243-256, 2003.<br />

108


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

35. G. Camps-Valls, L. Bruzzone “Kernel-Based Methods for Hyperspectral<br />

Image Classification”, IEEE Transactions on Geoscience and Remote<br />

Sensing, 2005.<br />

36. J. Plaza, P. Martinez, A. Plaza y R. Perez, “Nonlinear Neural Network<br />

Mixture Mo<strong>de</strong>ls for AVIRIS land cover fraction data estimation”. Proc.<br />

NASA/JPL Airborne Earth Science Workshop, Pasa<strong>de</strong>na, CA, 2004.<br />

37. P. Martinez, J. A. Gualtieri, P. Aguilar, R. M. Perez, M. Linaje, J.C. Preciado,<br />

A. Plaza “Hyperspectral Image Classification Using a Self-Organizing Map”<br />

XI JPL Airbone Herat Science Workshop, 2001.<br />

38. P. L. Aguilar “Cuantificación <strong>de</strong> firmas hiperespectrales utilizando mapas<br />

autoorganizativos”. Tesis Doctoral, Universidad <strong>de</strong> Extremadura, 2000.<br />

39. T. Kohonen, “Self-organized formation of topologically correct feature<br />

maps”, Biological Cybernetics, vol. 43, pp. 59-69, 1982. Reprinted in<br />

An<strong>de</strong>rson and Rosenfeld, 1988.<br />

40. P. Martinez, P. Aguilar, R. M. Perez, A. Plaza “Systolic SOM Neural<br />

Networks for Hyperspectral Image Classification”. Neural Networks and<br />

Systolic Array Design. Edited by D. Zhang and S. K. Pal, World Scientific.<br />

41. J. J. Hopfield, “Neural Networks and Physical Systems with Emergent<br />

Collective Computational Abilities”. Proc. of National Aca<strong>de</strong>my of Sciencies,<br />

vol. 79, pp. 2554-2558, 1982.<br />

42. G. A. Carpenter, “Distributes Learning, Recognition and Prediction by ART<br />

and ARTMAP Neural Networks”, Neural Networks (Elsevier Science), vol.<br />

10, no. 8, pp. 1473-1494, 1997.<br />

43. G. A. Carpenter, S. Grossberg, N. Markuzon, J. H. Reynolds, D. B. Rosen,<br />

“Fuzzy ARTMAP: A Neural Network Architecture for Incremental<br />

Supervised Learning of Analog Multidimensional Maps”, ”, IEEE<br />

Transactions on Geoscience and Remote Sensing, vol. 3, pp. 698–715, 1992.<br />

44. A. Baraldi, E. Binaghi, P. Blonda, P. A. Brivio, A. Rampini, “Comparison of<br />

the Multilayer Perceptron with Neuro-Fuzzy Techniques in the Estimation of<br />

Cover Class Mixture in Remotely Sensed Data”, IEEE Transactions on<br />

Geoscience and Remote Sensing, vol. 39, no. 5, pp. 994- 1005, 2001.<br />

45. J. D. Paola, R. A. Schowengerdt, “A <strong>de</strong>tailed comparison of backpropagation<br />

neural networs and maximum-likelihood classifiers for urban land use<br />

109


Proyecto fin <strong>de</strong> carrera. Cristina Barra Arias<br />

classification”, IEEE Transactions on Geoscience and Remote Sensing, vol.<br />

33, pp. 981-996, 2005.<br />

46. J. Plaza. Tesis doctoral: Procesamiento paralelo <strong>de</strong> imágenes hiperespectrales<br />

utilizando <strong>arquitecturas</strong> <strong>de</strong> computación neuronal. Escuela Politécnica.<br />

Cáceres. 2008.<br />

47. R. O. Duda, P. E. Hart, “Pattern Classification and Scene Analysis”, New<br />

York: John Wiley, 1973.<br />

48. A. A. Green, M. Berman, P. Switzer, & M. D. Craig, “A transformation for<br />

or<strong>de</strong>ring multispectral data in terms of image quality with implications for<br />

noise removal.” IEEE Transactions on Geoscience and Remote Sensing, vol.<br />

26. 1988.<br />

49. D. A. Landgrebe, Signal Theory Methods in Multispectral Remote Sensing.<br />

Hoboken, NJ: Wiley, 2003.<br />

50. X. Jia, J. A. Richards, y D. E. Ricken, Remote Sensing Digital Image<br />

Analysis: An Introduction. Springer-Verlag, Berlin, 1999.<br />

51. I. J. Myung. “Maximum Likelihood Estimation” Department of Psychology<br />

Ohio State University, 2002.<br />

52. C. Cortes and V. Vapnik, “Support vector networks”. Machine Learning,<br />

20:1-25, 1995<br />

53. V. Blanz, B. Schölkopf , H. Bülthoff, C. Burges 2, V. Vapnik, Comparison of<br />

View-Based Object Recognition Algorithms Using Realistic 3D Mo<strong>de</strong>ls.<br />

Springer, 1996.<br />

54. M. S. Schmidt. “I<strong>de</strong>ntifying speakers with support vector networks”. Interface<br />

'96 Proceedings, 1996.<br />

55. B. Schölkopf, A. Smola, “Advances in kernel methods: Support vector<br />

learning”, 1999.<br />

56. B. E. Boser, I. M. Guyon, and V. N. Vapnik. “A training algorithm for<br />

optimal margin classifiers”, In D. Haussler, editor, 5th Annual ACM<br />

Workshop on COLT, pages 144-152, Pittsburgh, PA, 1992. ACM Press.<br />

57. K. R. Muller, S. Mika, G. Ratsch, K. Tsuda, B. Schölkopf, “An introduction to<br />

kernel-based learning algorithms”. IEEE Transactions on eural etworks,<br />

vol 12, 2001.<br />

58. G. Mercier and M. Lennon, Support Vector Machines for Hyperspectral<br />

Image Classification with Spectral-Based Kernels, in IGARSS, 2003.<br />

110


Análisis <strong>comparativo</strong> <strong>de</strong> re<strong>de</strong>s <strong>neuronales</strong> para el tratamiento <strong>de</strong> imágenes hiperespectrales<br />

59. G. M. Foody, “RVM-based multi-class classification of remotely sensed data”<br />

International Journal of Remote Sensing, vol 29, pp 1817-1823, 2008.<br />

60. G. F. Hughes, “On The Mean Accuracy Of Statistical Pattern Recognizers”<br />

IEEE Trans.Infor. Theory, Vol. IT-14, 1968.<br />

61. K. Fukunaga, “Introduction to Statistical Pattern Recognition” Publicado por<br />

Aca<strong>de</strong>mic Press, 1990.<br />

62. A. Kaarna, P. Zemcik, H. Kalviainen, J. Parkkinen, “Compression of<br />

multispectral remote sensing images using clustering and spectral reduction”,<br />

IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000.<br />

63. J. A. Richards, “Remote Sensing Digital Image Analysis: An Introduction”,<br />

Springer-Verlag, Berlin, 1993.<br />

64. P. J. Curran, J. L. Dungan, “Estimation of Signal-to-Noise: A New Procedure<br />

Applied to AVIRIS Data”, IEEE Transactions on Geoscience and Remote<br />

Sensing, vol. 27, 1989.<br />

65. C. Gordon, “A Generalization of the Maximum Noise Fraction Transform”.<br />

IEEE Transactions on Geoscience and Remote Sensing, vol. 38, 2000.<br />

66. J. W. Boardman, “Automating Spectral Unmixing of AVIRIS DATA Using<br />

Geometry Concepts” Fourth Annual JPL Airborne Geoscience Workshop,<br />

Vol. 1, Jet Propulsion Laboratory, Pasa<strong>de</strong>na, CA., 1993<br />

67. J. A. Richards, “Remote Sensing Digital Image Analysis”, Springer-Verlag,<br />

Berlin, 1999.<br />

68. D. Patterson, Artificial eural etworks. Singapore: Prentice Hall.1996.<br />

69. T. Key, T. A. Warner, J. B. McGraw, M. A. Fajvan, “A Comparison of<br />

Multispectral and Multitemporal Information in High Spatial Resolution<br />

Imagery for Classification of Individual Tree Species in a Temperate<br />

Hardwood Forest”, Remote Sensing of Environment, vol. 75, pp. 100-112,<br />

2001.<br />

70. A. Plaza. Tesis doctoral: Proposición, Validación y Prueba <strong>de</strong> una<br />

Metodología Morfológica para el Análisis <strong>de</strong> Datos Hiperespectrales que<br />

Integra Información Espacial y Espectral. Escuela Politécnica, Cáceres. 2002.<br />

111

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!