TÃ©cnicas EstadÂ´Ä±sticas y Neuronales de Agrupamiento Adaptativo ...

Técnicas Estadísticas y Neuronales de 

Agrupamiento Adaptativo para la Predicción 

Probabilística de Fenómenos Meteorológicos 

Locales. Aplicación en el Corto Plazo y en la 

Predicción Estacional. 

Tesis Doctoral 

Presentada por 

D. Antonio S. Cofiño González 

bajo la dirección de 

Dr. José M. Gutiérrez 

en el 

Dpto. de Matemática Aplicada y Ciencias de la Computación. 

E.T.S.I. Caminos, Canales y Puertos 

de la 

Universidad de Cantabria. 

Santander, Octubre de 2003

Statistical and Neural Adaptive Clustering 

Downscaling Techniques in Meteorology. 

Application to Short-Range and Seasonal Forecast. 

Antonio S. Cofiño 

antonio.cofino@unican.es 

Dept. of Applied Mathematics and Computer Science 

University of Cantabria 

2003 Santander, Spain

Prefacio 

Desde comienzos del siglo XX, el problema de la predicción meteorológica 

se ha abordado de forma numérica, utilizando modelos de circulación 

atmosférica (sistemas de ecuaciones en derivadas parciales, o aproximaciones 

de estos) integrados sobre rejillas espaciales apropiadas, y a partir de 

unas condiciones iniciales conocidas. La predicción numérica se vió favorecida 

con el comienzo de la era de los ordenadores en la década de los 50, y 

por los sucesivos avances computacionales, que han producido una evolución 

vertiginosa en la predicción numérica del tiempo. A partir del estado futuro 

de la atmósfera predicho por el modelo, los predictores humanos ofrecen 

diariamente pronósticos regionales y locales, en los núcleos de población, 

y de fenómenos meteorológicos de interés, principalmente fenómenos producidos 

en superficie (meteoros como precipitación, temperatura, etc.). Por 

otra parte, se han realizado intentos de predecir meteoros locales aplicando 

directamente técnicas estadísticas a los registros históricos de observaciones 

disponibles de estos fenómenos (modelos auto-regresivos, etc.). Sin embargo, 

para determinados elementos meteorológicos (especialmente los relacionados 

con la humedad y precipitación) estas técnicas tienen grandes limitaciones. 

Por una parte debido a la resolución de los modelos numéricos que no permiten 

obtener predicciones locales precisas en puntos geográficos de interés. 

Y por otra parte, los modelos estadísticos no incluyen suficiente información 

sobre los fenómenos físicos que intervienen en estos procesos, por ello, se 

han mostrado ineficientes desde un punto de vista operativo. 

Por tanto, la predicción local de fenómenos meteorológicos y la mejora 

de la resolución de las salidas de los modelos numéricos (puede interpretarse 

como una interpolación) son problemas de gran interés tanto teórico como 

práctico. Además los distintos sectores económicos pueden verse favorecidos 

por los avances en este área (a la aplicación de predicción de cosechas, 

desastres naturales, etc.). En la literatura científica los problemas anteriores 

se enmarcan en término inglés “downscaling” (disminución de escala, o 

aumento de resolución) que, en realidad, son problemas de interpolación, en 

los que se trata de obtener valores en puntos locales a partir de las salidas 

de baja resolución de los modelos numéricos. 

Cada vez es mayor la disponibilidad de datos procedentes de observaciones 

(por ejemplo, la red de estaciones del Instituto Nacional de Meteorología 

dispone de observaciones diarias en más de 6000 estaciones distribuidas 

iii

IV 

por la geografía española); estos datos proporcionan valiosa información estadística 

de la climatología local. También existen diferentes re-análisis de 

modelos numéricos que contienen las situaciones atmosféricas dadas por un 

mismo modelo numérico para un período suficientemente amplio de tiempo. 

(por ejemplo el re-análisis ERA-40 realizado por el ECMWF cubre desde el 

año 1958, comienzo de la predicción numérica con ordenadores, hasta la actualidad). 

Y por último, también están disponibles diariamente numerosas 

predicciones numéricas, de la circulación atmosférica, realizadas por distintos 

centros meteorológicos. Con toda esta información se pueden desarrollar 

sofisticados modelos de predicción local. 

En esta Tesis se presentan nuevos métodos híbridos de predicción local 

(downscaling) que combinan las salidas de los modelos numéricos con la información 

estadística contenida en las observaciones locales. Para ello se han 

aplicado distintas técnicas estadísticas, tanto clásicas como modernas, a este 

problema, estudiando la forma óptima de combinar esta información desde 

el punto de vista de la pericia y valor económico de los modelos propuestos. 

También se han tratado de cubrir los tres aspectos necesarios para que el 

trabajo desarrollado pueda ser accesible y útil al público general. En primer 

lugar, se ha llevado a cabo un estudio teórico que ha permitido desarrollar 

métodos y algoritmos de predicción meteorológica local; después se ha trabajado 

en la implementación eficiente de los métodos resultantes utilizando 

software científico en el marco de las tecnologías actuales de la información; 

y finalmente, se ha llevado a cabo una puesta a punto operativa del producto 

(contando con el apoyo del Instituto Nacional de Meteorología) produciendo 

predicciones operativas desde enero del 2002, y realizando una validación 

exhaustiva de los resultados obtenidos. 

El trabajo presentado en esta Tesis ha sido desarrollado dentro del grupo 

de investigación AIMet (Inteligencia Artificial en Meteorología) de la 

Universidad de Cantabria (http://grupos.unican.es/ai/meteo). El autor 

agradece la ayuda económica de la Universidad de Cantabria, del Instituto 

Nacional de Meteorología (Ministerio de Medio Ambiente) y de la Dirección 

General de Ciencia y Tecnología en forma de becas y proyectos de investigación 

(MCYT REN2000-1572, REN2003-09853-C02-01). Además agradece al 

Instituto Geofísico de Perú, al European Center for Medium-Range Weather 

Forecast (ECMWF) y al INM por la disponibilidad de datos, que ha 

permitido llevar a cabo este trabajo. 

Por último agradecer a Blanca por estar siempre a mi lado apoyándome 

durante todos estos años, a Jose, Rafa, Miguel, Carmen y Cristina tanto 

por su amistad, como por su colaboración en el trabajo de esta Tesis, y a 

Enrique por su confianza. Por supuesto, reconocer el apoyo por parte de 

mi familia, sin olvidar el de todos aquellos profesores, y no-profesores, que 

supieron despertar en mi esa curiosidad por la Ciencia. 

Antonio S. Cofiño 

Santander, 20 de Septiembre de 2003

Índice general 

Prefacio 

III 

Índice general 

V 

1. Organización y Aportaciones de la Tesis 1 

1.1. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . 1 

1.2. Oportunidad de la Tesis . . . . . . . . . . . . . . . . . . . . . 2 

1.3. Principales Aportaciones . . . . . . . . . . . . . . . . . . . . . 3 

1.4. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

1.5. Algunos Acrónimos y Terminología Utilizados . . . . . . . . . 7 

I Estado del Conocimiento 9 

2. Modelos y Datos Atmosféricos 11 

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.2. Las Ecuaciones de la Atmósfera . . . . . . . . . . . . . . . . . 12 

2.2.1. Filtrado de Soluciones Triviales . . . . . . . . . . . . . 15 

2.3. Resolución Numérica de las Ecuaciones . . . . . . . . . . . . . 15 

2.3.1. Asimilación de Datos . . . . . . . . . . . . . . . . . . . 16 

2.3.2. Parametrización: Procesos Físicos de Escala Menor . . 17 

2.4. Tipos de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.4.1. Modelos Globales de Circulación General . . . . . . . 19 

2.4.2. Modelos Regionales . . . . . . . . . . . . . . . . . . . 20 

2.4.3. Modelos Mesoscalares . . . . . . . . . . . . . . . . . . 21 

2.5. Estado Actual de la Predicción Operativa . . . . . . . . . . . 22 

2.6. Futuro de la Predicción Numérica . . . . . . . . . . . . . . . . 26 

2.7. Datos Climatológicos y Meteorológicos . . . . . . . . . . . . . 27 

2.7.1. Redes de Observación . . . . . . . . . . . . . . . . . . 27 

v

VI 

ÍNDICE GENERAL 

2.7.2. Datos Paleoclimáticos . . . . . . . . . . . . . . . . . . 29 

2.7.3. Simulaciones de Modelos Numéricos . . . . . . . . . . 30 

3. Minería de Datos y Aprendizaje Automático 33 

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

3.2. Componentes Principales . . . . . . . . . . . . . . . . . . . . 34 

3.2.1. Elección del Número de Componentes . . . . . . . . . 40 

3.2.2. Efectos de la Escala Temporal . . . . . . . . . . . . . 42 

3.3. Técnicas de Agrupamiento . . . . . . . . . . . . . . . . . . . . 43 

3.3.1. Técnicas Jerárquicas . . . . . . . . . . . . . . . . . . . 43 

3.3.2. Técnicas Particionales . . . . . . . . . . . . . . . . . . 47 

3.4. Redes Auto-Organizativas (SOM) . . . . . . . . . . . . . . . . 48 

3.5. Redes Neuronales Multicapa . . . . . . . . . . . . . . . . . . . 55 

3.5.1. Estructura y Funcionamiento de las Redes Neuronales 55 

3.5.2. Aprendizaje y Validación . . . . . . . . . . . . . . . . 57 

3.5.3. Perceptrones (Redes de una Capa) . . . . . . . . . . . 58 

3.5.4. Perceptrones Multi-Capa . . . . . . . . . . . . . . . . 63 

4. Validación de Predicciones Probabilísticas 69 

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

4.2. Aspectos de la Calidad de una Predicción . . . . . . . . . . . 71 

4.3. Medidas de Validación de Predicciones Probabilísticas . . . . 74 

4.3.1. Brier Score . . . . . . . . . . . . . . . . . . . . . . . . 74 

4.3.2. Brier Skill Score . . . . . . . . . . . . . . . . . . . . . 75 

4.4. Validación de Predicciones Categóricas . . . . . . . . . . . . . 76 

II Aportaciones de la Tesis 85 

5. Predicción Local a Corto Plazo. Técnicas de Agrupamiento 87 

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

5.2. Técnicas Estadísticas para Series Temporales . . . . . . . . . 89 

5.2.1. Series Caóticas. Técnicas de Inmersión (Embedding). . 91 

5.3. Técnicas Híbridas (Downscaling Estadístico) . . . . . . . . . . 95 

5.3.1. Técnicas Globales Lineales y Neuronales . . . . . . . . 97 

5.3.2. Técnicas Locales basadas en Análogos . . . . . . . . . 98 

5.3.3. Comparación de Técnicas Estándar en el Corto Plazo 99 

5.4. Técnicas basadas en Agrupamiento y Clasificación . . . . . . 101 

5.4.1. Nuevo Método de Downscaling para el Corto Plazo . . 102 

5.4.2. Validación y Comparación con Otros Métodos . . . . . 104 

6. Predicción por Conjuntos. Redes Auto-Organizativas 113 

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

6.2. Predictibilidad y Predicción por Conjuntos . . . . . . . . . . 114 

6.3. Aplicación de las Redes Auto-Organizativas . . . . . . . . . . 117 

6.3.1. Medidas de Dispersión y Predictibilidad . . . . . . . . 120

ÍNDICE GENERAL 

VII 

6.4. Aplicación en la Predicción a Medio Plazo . . . . . . . . . . . 121 

6.5. Predicción Mensual y Estacional . . . . . . . . . . . . . . . . 126 

6.5.1. Predicción Local de Precipitación durante El Niño . . 130 

7. Implementación Operativa. PROMETEO 137 

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

7.2. Estructura de la Aplicación. Sistema Operativo en el INM . . 139 

7.2.1. Configuración e Inicialización del Sistema . . . . . . . 139 

7.2.2. Explotación Operativa . . . . . . . . . . . . . . . . . . 142 

7.2.3. Acceso Web a las Predicciones . . . . . . . . . . . . . 144 

7.2.4. Proceso de validación. Retro-alimentación del Sistema 149 

7.3. MeteoLab: Toolbox Meteorológica para Matlab . . . . . . . . 150 

7.4. Validación Operativa de Prometeo. . . . . . . . . . . . . . . . 154 

7.5. Computación Distribuida en la Web. Tecnología GRID . . . . 160 

7.5.1. Estructura de la tecnología GRID . . . . . . . . . . . 161 

7.5.2. Tecnologías GRID en Meteorología . . . . . . . . . . . 163 

7.5.3. Prometeo en un Entorno GRID . . . . . . . . . . . . . 164 

7.5.4. Paralelización GRID del Agrupamiento . . . . . . . . 166 

Bibliografía 171

CAPÍTULO 1 

Organización y Aportaciones de la Tesis 

En este capítulo se describe la organización de la Tesis y se presentan 

las principales aportaciones de la misma, así como las futuras líneas de 

investigación. También se analiza la oportunidad e interés de la investigación 

realizada en el marco actual de la predicción meteorológica. 

1.1. Estructura de la Tesis 

Esta Tesis está organizada en dos partes. La primera de ellas describe el 

estado del conocimiento relativo a los temas tratados y está organizada en 

tres capítulos. El Capítulo 2 describe brevemente la modelización numérica 

de la atmósfera, prestando especial atención a las características de los 

modelos operativos utilizados por los distintos servicios meteorológicos. En 

este capítulo también se describen los datos meteorológicos, tanto de salidas 

de modelos como de observaciones, que serán utilizados en esta Tesis. El 

Capítulo 3 introduce algunas técnicas de análisis y manipulación estadística 

de estos datos (técnicas de minería de datos) que serán utilizadas para 

el desarrollo de los modelos locales de predicción; en este capítulo se hace 

énfasis en los métodos estadísticos y neuronales de agrupamiento que son 

utilizados posteriormente en el problema de la predicción local de fenómenos 

meteorológicos. Por último, el Capítulo 4 describe las principales medidas 

de validación utilizadas por la comunidad científica para pronósticos meteorológicos 

probabilísticos, sobre los que versa esta Tesis. 

En la segunda parte de la Tesis se describen las aportaciones realizadas 

en el campo de la predicción local de fenómenos meteorológicos. Esta 

parte está organizada en tres capítulos; el primero de ellos (Cap. 5) aborda 

el problema desde la perspectiva de la predicción estadística local (downscaling 

estadístico) a corto plazo, mostrando un análisis comparativo de las 

distintas técnicas empleadas hasta la fecha y presentando un nuevo método 

1

2 1. ORGANIZACIÓN Y APORTACIONES DE LA TESIS 

basado en técnicas de agrupamiento adaptativo. En el Capítulo 6 se generaliza 

el método de downscaling estadístico anterior, utilizando redes autoorganizativas 

para el problema de la predicción por conjuntos, trabajando 

en el marco de la predicción a medio plazo y estacional. Se muestra cómo las 

redes auto-organizativas permiten interpretar de forma natural la dispersión 

de los miembros del conjunto de predicciones, permitiendo introducir una 

medida de predictibilidad asociada a la predicción. 

Por último, el Capítulo 7 describe los detalles sobre la implementación 

de los métodos presentados en esta Tesis y las tecnologías utilizadas para 

su desarrollo. El producto final es una herramienta genérica, fácilmente 

adaptable a distintos problemas denominada PROMETEO. En particular se 

ilustra la adaptación de esta herramienta en el Instituto Nacional de Meteorología 

para la predicción local a corto plazo en una red de 2500 estaciones 

meteorológicas. También se estudia la adaptación de esta herramienta a un 

entorno GRID con el objetivo de hacer completamente interactivo su uso, 

paralelizando sobre la Web aquellas partes con mayor carga computacional. 

1.2. Oportunidad de la Tesis 

La predicción local con técnicas de aumento de resolución dinámica y 

estadística (downscaling) es actualmente una de las principales inquietudes 

de la comunidad meteorológica internacional. Esta inquietud ha surgido, en 

parte, por la necesidad de trasladar a una escala regional los resultados obtenidos 

en numerosos proyectos que integran modelos globales de circulación 

tanto en la predicción estacional como en la creación de posibles escenarios 

de cambio climático. Por otra parte, la aplicación de estos proyectos a distintos 

sectores de producción de la sociedad (agrario, industrial, energético, 

turismo, etc.) requiere trabajar con variables en superficie que involucran 

procesos físicos parametrizados en los modelos numéricos, dificultando su 

predicción. Además, la resolución necesaria para estas aplicaciones suele ser 

mucho mayor que la ofrecida por lo propios modelos numéricos. Y por ello, 

las técnicas de downscaling son una pieza clave para poder trasladar a los 

sectores de producción los resultados meteorológicos obtenidos por estos 

proyectos. 

Por ejemplo, proyectos llevados a cabo en el V Programa Marco de la UE 

han contemplado paquetes especiales para el desarrollo y la implementación 

de técnicas de downscaling: 

DEMETER (Development of a European Multimodel Ensemble system 

for seasonal to inTERannual prediction) que ha desarrollado un 

sistema de predicción estacional multi-modelo: 

www.ecmwf.int/research/demeter/ 

STARDEX (Statistical and Regional dynamical Downscaling of Extremes 

for European regions): 

www.cru.uea.ac.uk/cru/projects/stardex/

1.3. PRINCIPALES APORTACIONES 3 

Además de haber jugado un papel importante hasta la fecha, las técnicas de 

downscaling también seguirán desempeñando un papel activo en el futuro 

cercano. Por ejemplo el proyecto integrado ENSEMBLES (ENSEMBLEbased 

Predictions of Climate Changes and their Impacts) del VI Programa 

Marco de la UE (2004-2008) cuenta con paquetes de downscaling estadístico 

y dinámico. Es, por tanto, un momento idóneo para desarrollar nuevas 

técnicas de downscaling que puedan ser capaces de adaptarse a distintas 

aplicaciones y rangos temporales. Todo esto lleva a afirmar que el trabajo 

desarrollado en esta Tesis es oportuno en el contexto actual. 

Por otra parte, el trabajo llevado a cabo para la implementación operativa 

de los métodos desarrollados se encuadra en el contexto actual de las tecnologías 

de la información. En el VI Programa Marco (www.mcyt.es/vipm/) 

se promueve la integración de la I+D europea para alcanzar masas críticas, 

lograr economías de escala y distribuir mejor los recursos disponibles. Se 

plantea la necesidad de interconectar centros de excelencia europeos y desarrollar 

centros virtuales, así como de apoyar la creación, funcionamiento y 

acceso a grandes infraestructuras. Existe por tanto una clara sintonía entre 

estos objetivos y el paradigma que plantea el GRID Computing analizado en 

esta Tesis (acceso a recursos computacionales distribuidos geográficamente 

a través de la red de alta velocidad). Esta ha sido una de las líneas temáticas 

priorizada en las primeras llamadas a proyectos del VI programa marco, en 

concreto dentro de la denominación “Complex Problem Solving” donde la 

meteorología y biología tienen un papel predominante. 

1.3. Principales Aportaciones 

En esta Tesis se han desarrollado, implementado, y validado nuevos 

métodos de predicción meteorológica local en distintas escalas temporales. 

Para ello se han combinando las salidas de los modelos numéricos de la 

atmósfera, con la información estadística contenida en registros históricos 

locales (downscaling estadístico). En concreto, en este trabajo se ha desarrollado 

un nuevo método aplicando las técnicas estadísticas y neuronales, 

de agrupamiento y clasificación, más apropiada para los distintos alcances 

temporales de la predicción: predicción a corto plazo (de uno a tres días), 

predicción a plazo medio (hasta 10 días) y predicción estacional (con meses 

de antelación). En los dos últimos casos los modelos atmosféricos son sistemas 

de predicción por conjuntos, que caracterizan la incertidumbre asociada 

a las condiciones iniciales y a la imprecisión del modelo, integrando el mismo 

para un conjunto de condiciones iniciales obtenidas perturbando la condición 

inicial. El método desarrollado en este trabajo ha permitido caracterizar la 

predictibilidad (confianza) de cada situación a partir de la dispersión del 

conjunto de predicciones sobre una red auto-organizativa. De esta forma, 

en el medio plazo y en la predicción estacional, el método resultante proporciona 

no sólo una predicción, sino una estimación de la confianza en 

la misma. Se muestran validaciones exhaustivas realizadas en la Península


Ibérica (latitudes medias) y en Perú (latitudes tropicales). 

En todo el desarrollo de la Tesis se han tratado de cubrir los tres aspectos 

necesarios para que el trabajo final pueda ser operativo y accesible al público 

en general. En primer lugar, se ha llevado a cabo un estudio teórico que 

ha permitido desarrollar métodos y algoritmos; a continuación, se ha trabajado 

en la implementación eficiente de los métodos resultantes utilizando 

software científico en el marco de las tecnologías actuales de la información; 

finalmente, se ha llevado a cabo una puesta a punto operativa del producto, 

contando con el apoyo del Instituto Nacional de Meteorología. 

A continuación se describen más en detalle las principales aportaciones 

realizadas: 

1. Se ha desarrollado un nuevo método de predicción local (downscaling) 

para la predicción a corto plazo empleando una técnica de agrupamiento 

ponderado basada en el algoritmo de k-medias. Este método 

es, computacionalmente, menos costoso y más eficiente, que el método 

estándar de análogos (vecinos cercanos) utilizado frecuentemente en la 

literatura. Se han llevado a cabo diversos experimentos de comparación 

con otras técnicas, considerando la precipitación y la racha máxima de 

viento diarias sobre una red de 98 estaciones en la Península Ibérica, y 

un período de tiempo apropiado para que los resultados sean significativos 

(1998-99). Esta comparaciones han mostrado la superioridad del 

nuevo método para la predicción de eventos de baja frecuencia (eventos 

raros o extremos) y un comportamiento similar para eventos más 

frecuentes (ver Cofiño et al., 2001a; Gutiérrez et al., 2004a). 

2. Se ha generalizado el método anterior, utilizando redes auto-organizativas 

para trabajar con sistemas de predicción por conjuntos, de forma 

que, éstos definen un histograma en la retícula de la red que permite 

caracterizar la dispersión de los miembros y llevar a cabo la predicción 

local de forma consistente. Con este esquema se ha demostrado que 

existe una relación entre la dispersión de la red auto-organizativa (medida 

como suma de desviación típica mas entropía de la probabilidad 

resultante) y el error de las predicciones, de forma que dispersiones 

grandes tienen asociados errores mayores. Esta técnica se ha aplicado 

en: 

La predicción por conjuntos a medio plazo en la península Ibérica. 

En este caso se ha mostrado que las predicciones locales obtenidas 

son mejores para el caso de la predicción por conjuntos que las 

obtenidas por un modelo tradicional con un sólo miembro (ver 

Cofiño et al., 2003a). 

La predicción estacional latitudes tropicales (más concretamente 

en Perú). En este caso se ha demostrado que es posible predecir 

anomalías positivas de precipitación en eventos fuertes de El 

Niño. Este trabajo se ha llevando a cabo en el marco del Proyecto

1.3. PRINCIPALES APORTACIONES 5 

DEMETERwww.ecmwf.int/research/demeter del V Programa 

Marco (ver Cofiño et al., 2003d; Gutiérrez et al., 2004). 

3. Los algoritmos y métodos propuestos en esta Tesis, así como algunos 

algoritmos estándar, han sido implementados en un paquete (toolbox) 

de Matlab denominado MeteoLab que permite diseñar fácilmente, en 

un entorno gráfico, diferentes tipos de experimentos de predicción local, 

y validar los resultados obtenidos. Este sistema puede ser integrado 

fácilmente en el ciclo operativo de producción aplicado a un problema 

de predicción local particular. En concreto, trabajando en colaboración 

con el INM se ha desarrollado un prototipo operativo (PROME- 

TEO) para la predicción local de distintos meteoros (precipitación, 

racha máxima de viento, nieve, tormenta, etc.) en 2500 estaciones distribuidas 

en las distintas cuencas hidrográficas Españolas. El sistema 

desarrollado se encuentra operativo y produce un total de 160000 predicciones 

diarias (consultar meteo.macc.unican.es/prometeo). 

Para hacer accesibles estas predicciones al público en general, se ha 

desarrollado una aplicación Web de forma que se puedan consultar las 

predicciones en tiempo real, y que incluso éstas puedan ser verificadas 

obteniendo distintos índices de calidad. Para ello, se ha hecho uso de 

las tecnologías de la información vigentes que, por una parte, permiten 

acceder a bases de datos (para almacenar las predicciones) y, por 

otra, permiten ejecutar la aplicación con unos parámetros concretos 

de interés (región geográfica, patrón atmosférico, etc...). 

Figura 1.1: Web de PROMETEO http://meteo.macc.unican.es/prometeo/ 

4. También se han llevado a cabo los primeros experimentos utilizando la 

tecnología emergente GRID que permite acceder de forma uniforme a


recursos de almacenamiento y computacionales distribuidos geográficamente 

por toda la Web (ver, como referencia, www.gridforum.org). 

Este entorno permite dotar de interactividad al sistema Prometeo desarrollado, 

permitiendo que distintos usuarios puedan configurar en 

tiempo real la aplicación según sus necesidades. Para ello, se ha paralelizado 

alguna de las partes más costosas del sistema (en concreto 

las técnicas de agrupamiento) para analizar el comportamiento y las 

necesidades en este nuevo entorno. Estos experimentos, descritos en 

la Sección 7.5, han mostrado que ninguno de los esquemas de paralelización 

empleados es óptimo en todos los casos, sino que según las 

características de los recursos disponibles en el entorno de cada ejecución 

unos resultan más eficientes que otros (potencia de cálculo, 

memoria, latencias y anchos de banda de la red, etc.); esto plantea 

la necesidad de desarrollar una nueva generación de técnicas de paralelización 

que se adapten a los recursos disponibles durante su ejecución. 

Este trabajo se está llevando a cabo en el marco del Proyecto 

CrossGrid www.crossgrid.org del V Programa Marco de la UE (ver 

Cofiño et al., 2003b; Gutiérrez et al., 2003). 

1.4. Trabajo Futuro 

El trabajo de esta Tesis tiene su continuidad en el proyecto integrado 

ENSEMBLES del VI Programa Marco (2004-2008). Este proyecto reúne a 

los principales centros y grupos europeos de investigación meteorológica para 

abordar el problema de cambio climático y sus impactos, desarrollando 

un sistema multi-modelo de predicción por conjuntos. El grupo de investigación 

de Inteligencia Artificial en Meteorología (AIMet) de la Universidad de 

Cantabria participa en este proyecto, en el que, entre otras, se aplicarán las 

técnicas desarrolladas en esta Tesis para la caracterización probabilística de 

posibles escenarios de cambio climático. Por tanto, la principal línea futura 

de investigación será la adaptación de los métodos y herramientas desarrollados 

a este marco de trabajo con nuevos alcances temporales, variables y 

características. 

Otra línea futura de investigación es analizar de forma más exhaustiva 

la conveniencia de distintas representaciones de los patrones atmosféricos 

utilizados en el trabajo (por ejemplo usando EOFs obtenidas de un análisis 

de correlación canónica y que, por tanto, no sean genéricas sino que estén 

asociadas con las observaciones). También el uso de ERA-40 como re-análisis 

de referencia y un estudio comparativo con el re-análisis ERA-15 usado en 

esta Tesis. 

También se planea seguir avanzando en el portal de la aplicación PRO- 

METEO, introduciendo las predicciones a medio plazo obtenidas con la red 

auto-organizativa. En esta dirección se seguirá desarrollando y probando la 

aplicación GRID que permitirá evaluar la conveniencia actual de esta nueva 

tecnología en distintos problemas de meteorología .

1.5. ALGUNOS ACRÓNIMOS Y TERMINOLOGÍA UTILIZADOS 7 

1.5. Algunos Acrónimos y Terminología Utilizados 

ARPS. Advanced Regional Prediction System,www.caps.ou.edu/ARPS. 

BS. Brier Score; error cuadrático medio de la probabilidad predicha 

menos la probabilidad observada (ver Cap. 4). 

BSS. Brier Skill Score; índice de pericia que se obtiene como 1 − 

BSP/BSR, donde BSP es el BS de la predicción y BSR es el BS de 

un sistema de referencia, normalmente la climatología (ver Cap. 4). 

COAMPS. US Navy‘s Coupled Ocean/Atmosphere Mesoscale Prediction 

System, www.nrlmry.navy.mil/projects/coamps. 

CP. Componente principal (ver Sec. 3.2). 

Downscaling. Mejora de resolución (o interpolación) de una predicción 

de un modelo numérico efectuada en una rejilla. 

ECMWF. Centro europeo para predicción a plazo medio (European 

Center for Medium-Range Weather Forecast), www.ecmwf.org. 

ENSO. Patrón de oscilación de El Niño-Pacífico Sur (El Niño-Southern 

Oscillation) (ver Sec. 3.2 y 6.5). 

EOF. Función empírica ortogonal (Empirical Ortogonal Function) (ver 

Sec. 3.2). 

EPS. Sistema de predicción por conjuntos (Ensemble Prediction System). 

HIRLAM. Modelo de área limitada de alta resolución (High Resolution 

Limited Area Model) hirlam.knmi.nl. 

INM. Instituto Nacional de Meteorología, www.inm.es. 

LAN. Red de área local (Local Area Network). 

MM5. Penn State/NCAR Mesoscale Model, box.mmm.ucar.edu/mm5. 

NAO. Oscilación del Atlántico Norte (North Atlantic Oscillation) (ver 

Sec. 3.2 y 6.5). 

NCEP. National Centers for Environmental Prediction: 

www.ncep.noaa.gov. 

NHC. National Hurricane Center, www.nhc.noaa.gov. 

Patrón. Estructura numérica con una cierta organización de sus elementos 

(por ejemplo, una estructura matricial o tensorial relativa a 

una rejilla sobre una region geográfica concreta). Para su tratamiento 

matemático los patrones serán considerados vectores, descomponiendo


su estructura de forma apropiada, y componiéndola de nuevo cuando 

sea necesario. 

Re-análisis. Experimento de simulación numérica de la circulación 

atmosférica para un largo período de tiempo con un mismo modelo 

numérico, asimilando toda la información disponible (ver Sec. 2.7.3). 

RMSE. Error cuadrático medio (Root Mean Square Error). 

ROC, curva. Relative Operating Characteristic. Curva obtenida a partir 

de los aciertos y las falsas alarmas de un sistema de predicción 

binario (ver Cap. 4). 

RSM. Modelo regional espectral del NCEP (Regional Spectral Model). 

SLP. Presión a nivel del mar (Sea Level Pressure). 

SOM. Redes auto-organizativas (Self-Organizing Maps) para agrupamiento 

y visualización de datos (ver sec. 3.4). 

SST. Temperatura de la superficie del agua del mar (Sea Surface Temperature). 

UTC. Coordenadas universales de tiempo (Universal Time Coordinates). 

WAN. Red de área extendida (Wide Area Network), en contraposición 

a las LAN.

Parte I 

Estado del Conocimiento 

9

CAPÍTULO 2 

Modelos y Datos Atmosféricos 

2.1. Introducción 

El esfuerzo investigador llevado a cabo en las tres últimas décadas ha permitido 

un gran avance en el desarrollo de modelos de circulación atmosférica 

que incorporan las parametrizaciones de los fenómenos físicos relevantes, 

adecuados a las escalas espaciales a que dichos modelos se aplican. Por otra 

parte, la aplicación operativa de estos modelos ha sido posible gracias a la 

disponibilidad de mejores y más complejos sistemas de observación (subsistema 

de observación terrestre: SYNOP, SHIP, TEMP, AIREP, DRIBU, 

etc. y subsistema espacial: SATEM, SATOB, etc., disponibles varias veces 

al día). Estos datos observacionales pueden ser asimilados en los modelos 

gracias al desarrollo y uso sucesivo de métodos de interpolación óptima y 

métodos de asimilación variacionales 3D y 4D, puestos a punto con el fin 

de establecer con la menor incertidumbre posible las condiciones iniciales a 

partir de las cuales se integran los modelos de predicción. 

Como resultado de este esfuerzo, se dispone en la actualidad de eficientes 

modelos atmosféricos que se utilizan para la elaboración de un amplio abanico 

de predicciones con distintos alcances temporales. Por una parte, para 

la predicción a corto y medio plazo se utilizan modelos numéricos de área 

limitada y alta resolución; por otra, los modelos acoplados océano-atmósfera 

de circulación general se aplican para la predicción de anomalías en la 

predicción estacional y para la preparación de escenarios climatológicos en 

función de diversos supuestos de forzamiento radiativo (duplicación del nivel 

de CO 2 , etc.). 

En este capítulo se describen brevemente las características más importantes 

de los modelos y procesos numéricos involucrados en la predicción 

numérica del tiempo. Las salidas de estos modelos se utilizan en el resto de 

11

12 2. MODELOS Y DATOS ATMOSFÉRICOS 

la Tesis como datos de entrada, o predictores, en los distintos métodos propuestos. 

En la Sección 2.2 se describen brevemente los principales procesos 

físicos que intervienen en la dinámica atmosférica. En la Sec. 2.3 se analizan 

algunos aspectos y limitaciones de la resolución numérica de estas ecuaciones. 

Por ejemplo, la Sec. 2.3.1 analiza el problema de la asimilación de datos, 

y la Sec. 2.3.2 describe las parametrizaciones introducidas en el modelo (y 

en la discretización del esquema numérico) para incluir los procesos físicos 

de menor escala que escapan a la resolución de la discretización (turbulencia, 

etc.). En la Sec. 2.4 se describen las características (resolución, alcance, 

etc.) de los principales tipos de modelos utilizados en predicción operativa, 

y en la Sec. 2.5 se describe el estado actual de las predicciones operativas 

que se obtienen diariamente con estos modelos; por otra parte, la Sec. 2.6 

se comentan brevemente las líneas de mayor interés en este campo de cara 

al futuro. Finalmente, la Sección 2.7 describe los datos climatológicos (observaciones) 

y meteorológicos (simulaciones de modelos) que se utilizan en 

esta Tesis. 

2.2. Las Ecuaciones de la Atmósfera 

El objetivo de esta sección es dar una breve descripción de las ecuaciones 

que describen la dinámica de la atmósfera, con el único objetivo de 

que proporcione al lector una visión general sobre la complejidad de los modelos 

involucrados en la predicción numérica del tiempo. Para un estudio 

detallado, existen numerosos libros de meteorología dinámica con excelentes 

explicaciones y ejemplos de las deducciones y descripciones físicas de 

las ecuaciones (ver, por ejemplo, Holton, 1992; Barry and Chorley, 1998; 

Kalnay, 2003). 

Desde un punto de vista físico, la atmósfera puede ser considerada como 

una mezcla de gases y agua en sus distintos estados. Esta mezcla está en 

movimiento dentro de un campo gravitatorio sobre una esfera en rotación y 

calentada por el Sol. En este sistema se deben cumplir la ecuación de estado 

de los gases y las leyes de conservación de energía, masa y momento. Algunas 

de estas leyes se traducen en ecuaciones que relacionan las derivadas 

totales de ciertas magnitudes físicas en el tiempo. Estas derivadas son normalmente 

descompuestas en sus términos locales y advectivo. Por ejemplo, 

considerando el campo de velocidades v = (u, v, w) asociado al sistema de 

referencia (x, y, z) se tendrá: 

df 

dt = ∂f 

∂t + ∂f dx 

∂x dt + ∂f dy 

∂y dt + ∂f dz 

∂z dt = ∂f 

∂t 

+ v · ∇f (2.1) 

donde f(x, y, z, t). Esta ecuación indica que la derivada total en el tiempo 

(Lagrangiana o individual) de una función, viene dada por la derivada local 

en el tiempo (parcial, o Euleriana) mas los cambios debidos al término de 

advección.

2.2. LAS ECUACIONES DE LA ATMÓSFERA 13 

Según la ecuación de conservación de masa, la variación total en el 

tiempo de la masa en una parcela de aire es nula (dM/dt = 0). La 

masa de aire contenida en un volumen ∆x∆y∆z es: 

M = ρ∆x∆y∆z (2.2) 

donde ρ es la densidad del aire. Considerando la ecuación 

1 dM 

M dt 

= 0, (2.3) 

sustituyendo (2.2) y aplicando (2.1) se tiene la ecuación de conservación 

de masa 

ya que ∂u/∂x = ∆x −1 d∆x/dt. 

1 dρ 

ρ dt + ∇ · v = 0 ⇔ ∂ρ = −∇ · (ρ v), (2.4) 

∂t 

La ecuación de conservación de vapor de agua indica que la cantidad 

total de vapor de agua en una parcela de aire se conserva, excepto 

cuando esta se mueve sobre fuentes (evaporación E) o sumideros (condensación 

C): 

dq 

dt = E − C (2.5) 

donde q es la proporción en masa de vapor de agua en la parcela de 

aire (g/kg). Si a esta ecuación la multiplicamos por ρ, la expandimos 

según (2.1) y la sumamos la ecuación de conservación de masa (2.4) 

multiplicada por q, queda 

∂ρ q 

∂t 

= −∇ · (ρ v q) + ρ (E − C). (2.6) 

De la misma forma que se ha incluido una ecuación de conservación 

para el vapor de agua, se podría incluir cualquier otra ecuación de conservación 

para otros elementos como agua líquida, ozono, etc., mientras 

también se incluyan sus correspondientes fuentes y sumideros. 

La ecuación de estado de los gases ideales aplicada a la atmósfera impone 

la siguiente relación entre las variables de estado termodinámicas: 

p α = R T, (2.7) 

donde p es la presión (mb ó Hpa), T la temperatura ( o C ó K), R es la 

constante de los gases ideales, y α es el volumen específico (m 3 /kg), 

inverso de la densidad ρ (kg/m 3 ). 

Conservación de energía: El foco principal de calor para la atmósfera 

es la superficie terrestre (calentada por el Sol), entendiendo como tal 

tierra y océano. El calor recibido por la atmósfera se emplea en variar


su temperatura, su densidad o ambas cosas a la vez. Si se aplica una 

tasa de calor Q por unidad de masa a una parcela de aire (cal/sg), esta 

energía es empleada en aumentar la energía interna C v T y producir 

un trabajo de expansión 

dT 

Q = C v 

dt + pdα dt , (2.8) 

donde los coeficientes de calor específico a volumen constante (C v ) y a 

presión constante (C p ) se relacionan mediante C p = C v +R. Haciendo 

uso de la ecuación de estado se puede obtener un forma alternativa de 

la ecuación de conservación de energía: 

Conservación del Momento: 

dv 

dt 

Q = C p 

dT 

dt − αdp dt . (2.9) 

= −α∇p − ∇φ + F − 2Ω × v; (2.10) 

La aceleración sobre la unidad de masa es debida a cuatro fuerzas: 

gradiente de presión (−α∇p), gravedad aparente (−∇φ), rozamiento 

(F) y Coriolis (−2Ω × v). 

Por tanto, resumiendo lo anterior se tienen siete ecuaciones y siete incógnitas: 

v = (u, v, w), T, p, ρ = 1/α y q: 

dv 

dt 

= −α∇p − ∇φ + F − 2Ω × v (2.11) 

∂ρ 

∂t 

= −∇ · (ρ v) (2.12) 

p α = R T (2.13) 

dT 

Q = C p 

dt − αdp dt 

(2.14) 

∂ρ q 

∂t 

= −∇ · (ρ v q) + ρ (E − C) (2.15) 

A las ecuaciones anteriores se las suele denominar ecuaciones primitivas, 

y representan el sistema que gobierna la dinámica de la atmósfera. El 

objetivo de la predicción numérica del tiempo es obtener el estado de la 

circulación atmosférica en un tiempo futuro. Para ello es necesario disponer 

de un modelo numérico capaz de integrar las ecuaciones y que incluya 

los intercambios energéticos (en la capa límite) más importantes (radiación, 

turbulencia, calor latente, etc.). Dada la no linealidad y complejidad de las 

ecuaciones primitivas, en la práctica se suele recurrir a distintas aproximaciones 

que simplifican la resolución numérica y eliminan inestabilidades 

numéricas.

2.3. RESOLUCIÓN NUMÉRICA DE LAS ECUACIONES 15 

2.2.1. Filtrado de Soluciones Triviales 

Las simplificaciones más básicas de las ecuaciones anteriores ayudan a 

entender las características de los tipos de ondas básicos presentes en la 

atmósfera, que también aparecen en las soluciones más generales. Por ejemplo, 

suponiendo que el movimiento es adiabático, rectilíneo, y sin gravedad, se 

obtienen como soluciones las ondas sonoras puras que se propagan a través 

de la compresión del aire. Si se considera la aproximación hidrostática (sin 

velocidad vertical, w=0), las ondas sonoras sólo se propagan horizontalmente 

(ondas de Lamb). Por otra parte, si se supone que no hay movimiento 

horizontal, pero sí desplazamientos verticales (el movimiento se considera 

adiabático y rectilíneo), entonces el resultado son las ondas gravitatorias 

externas: ‘oleaje’ en la superficie libre; y las ondas gravitatorias internas: 

cualquier partícula de fluido desplazada de su nivel de equilibrio oscila verticalmente 

con un periodo típico de 100s (frecuencia de Brunt-Vaisala). Por 

otra parte, considerando un flujo zonal (v = w = 0) y un campo uniforme de 

densidad, cualquier perturbación al flujo zonal supone un cambio de latitud 

y por tanto un cambio en la fuerza de Coriolis, que siempre actúa tratando 

de restaurar el flujo zonal produciendo las llamadas ondas de Rossby que se 

propagan alrededor del globo con un periodo de desarrollo de varios días a 

una semana y con una longitud de onda del orden de 3000 km para latitudes 

medias (ϕ = 45 o ). 

Como interesa que las soluciones obtenidas para la circulación de la atmósfera 

en un problema operativo muestren el comportamiento de interés meteorológico, 

es deseable eliminar algunas de las ondas básicas que no interfieren 

con esta dinámica, pero que pueden producir inestabilidades en el modelo 

numérico al ser propagadas (esto ocurre, por ejemplo con las ondas sonoras 

y gravitatorias). Este procedimiento de selección de tipos de ondas se 

denomina filtrado y consiste en eliminar parcialmente las fuerzas restauradoras 

que originan la onda que se desea filtrar. Por ejemplo, la aproximación 

hidrostática impide la propagación vertical de las ondas sonoras. 

Por tanto, los modelos operativos utilizados en la predicción numérica 

del tiempo son aproximaciones más o menos completas de las ecuaciones 

primitivas de la atmósfera. 

2.3. Resolución Numérica de las Ecuaciones 

Los modelos atmosféricos de circulación se resuelven utilizando técnicas 

numéricas que discretizan el espacio y el tiempo. En coordenadas cartesianas 

se considera una rejilla 4D sobre la que se aplican técnicas de elementos 

finitos, mientras que en coordenadas esféricas se aplican técnicas espectrales 

que consideran un número finito de armónicos esféricos en la predicción 

(para introducción a estos métodos ver Kalnay, 2003). En ambos casos, la 

precisión del modelo está fuertemente influenciada por la resolución espacial 

(dada directamente por el tamaño de rejilla o por el período del modo


de mayor frecuencia). Sin embargo, aumentar la resolución del modelo es 

extremadamente costoso ya que, por ejemplo, duplicar la resolución en el 

espacio tridimensional también requiere reducir a la mitad el paso de tiempo 

para satisfacer las condiciones de estabilidad computacional. Por tanto, 

el coste computacional total de duplicar la resolución crece con un factor 

de 2 4 = 16. Las técnicas modernas de discretización intentan obtener un 

incremento en la precisión sin tanto coste computacional; estas técnicas son 

los esquemas semi-implícitos y semi-lagrangiano en el tiempo. Además, estos 

esquemas poseen condiciones de estabilidad menos estrictas. Aún así, 

existe una constante necesidad de aumentar la resolución para obtener una 

predicción mejor y más detallada. Esta tarea es la mayor aplicación de los 

super-ordenadores disponibles (www.top500.org). 

A pesar de los avances logrados en cuanto a la modelización física de 

la atmósfera y a la resolución numérica de los modelos, la notable mejora 

en la capacidad de predicción se debe principalmente a otros factores. Por 

ejemplo, Kalnay (2003) describe los siguientes factores: 

Por un lado, el aumento de la potencia de los super-ordenadores permitiendo 

resoluciones mucho más finas y menos aproximaciones en los 

modelos atmosféricos operacionales. 

El aumento de la disponibilidad de datos, especialmente de procedentes 

de satélites y aviones sobre los océanos y el hemisferio Sur. 

El uso de métodos más exactos de asimilación de datos, lo que resulta 

en una mejor condición inicial para los modelos. 

La mejora en la representación de procesos físicos de escala pequeña 

en los modelos (nubes, precipitación, transferencia de calor en régimen 

turbulento, humedad, radiación, etc.). 

En las siguientes secciones se analizan estos temas en más detalle. 

2.3.1. Asimilación de Datos 

La predicción numérica es un problema de condicionas iniciales: dada una 

estimación actual del estado de la atmósfera, un modelo numérico simula su 

evolución, para obtener una predicción. Esta condición inicial se establece 

a partir de la interpolación de las observaciones disponibles a los puntos de 

rejilla del modelo, y el proceso de obtención es denominado asimilación. Sin 

embargo, el principal problema es que la cantidad de datos disponibles no 

es suficiente para inicializar el modelo en todos sus grados de libertad (por 

ejemplo, un modelo con una resolución típica de 1 o de resolución horizontal 

y 20 niveles verticales podría tener 180 × 360 × 20 = 1.3 × 10 6 puntos de 

rejilla, en cada uno de los cuales están definidas 7 variables, con lo que 

tendríamos aproximadamente 10 7 grados de libertad). Para una ventana 

temporal de ±3 horas, existen normalmente entre 10 4 y 10 5 observaciones

2.3. RESOLUCIÓN NUMÉRICA DE LAS ECUACIONES 17 

de la atmósfera, dos órdenes de magnitud menor que el número de grados 

de libertad del modelo. Mas aún, la distribución espacial y temporal de las 

observaciones no es uniforme, existiendo regiones en Eurasia y Norteamérica 

con muchos datos, y regiones en el Hemisferio Sur con pocos datos. Entonces 

se hace necesario usar información adicional (llamado fondo, first-guess o 

información a priori) para preparar las condiciones iniciales de la predicción. 

Inicialmente se usaba la climatología como first-guess, pero al mejorar la 

pericia de las predicciones, se utiliza una predicción a corto plazo como 

first-guess en los sistemas de asimilación de datos operacionales (ciclos de 

análisis). 

Para los modelos globales, el first-guess es la predicción del modelo a 

las 6 horas, x b (un array 4-dimensional) que es interpolada a los puntos de 

observación mediante un operador H(x b ) y convertida al mismo tipo que 

las variables observadas y o . Las diferencias entre las observaciones y el firstguess 

y o −H(x b ) son los incrementos observacionales o mejoras, y el análisis 

x a se obtiene añadiendo las mejoras al first-guess del modelo con unos pesos 

W que son determinados en base a las covarianzas de los errores estadísticos 

de la predicción y observación: 

x a = x b + W[y o − H(x b )] (2.16) 

Los diferentes esquemas de análisis están basados en este método: interpolación 

óptima, donde la matriz de pesos se determina minimizando los 

errores en cada punto de rejilla; los métodos variacionales 3D y 4D, con 

funciones de coste proporcionales al cuadrado de la distancia entre el análisis, 

el first-guess y las observaciones (sobre un intervalo temporal o ventana 

de asimilación para el caso 4D); y más recientemente los filtros de Kalman 

extendidos (Judd, 2003). 

A la vista de lo anterior podemos interpretar que el ciclo de asimilación de 

datos es una continua integración del modelo que se va perturbando con las 

observaciones de tal forma que permanezca los más cerca posible del estado 

real de la atmósfera. La función del modelo es transportar información de 

zonas con muchos datos, a zonas con pocos datos y ofrecer una estimación 

del estado de la atmósfera. 

Estos errores imponen una incertidumbre en la predicción que es necesario 

cuantificar e identificar su origen para poder minimizarla y obtener 

una mejor predictibilidad. Esto se vuelve importante en el plazo medio y en 

la predicción estacional; para ello se recurre a la predicción por conjuntos 

(ensemble forecast), que se analiza en una sección posterior. 

2.3.2. Parametrización: Procesos Físicos de Escala Menor 

A pesar de que los modelos numéricos tienen cada vez más resolución, 

existen muchos procesos atmosféricos que no pueden ser resueltos de manera 

explícita a la escala que se utiliza en los modelos (algunos ocurren a escala 

molecular, como la radiación, evaporación, rozamiento y turbulencia); por


tanto, estos procesos no están contemplados en las ecuaciones de los modelos 

que se usan. Estos procesos juegan un papel crucial en el balance energético 

global afectando, por supuesto, a los procesos a gran escala. Por esa razón, la 

interacción entre escalas no puede ser ignorada por los modelos, y se recurre 

a la parametrización. Así, cuando las ecuaciones son discretizadas sobre 

un tamaño de rejilla dado (de unos pocos a varios cientos de kilómetros), se 

hace necesario añadir términos “fuentes” y “sumideros” para tener en cuenta 

el balance energético asociado a los fenómenos que escapan a la dinámica 

formulada en el modelo numérico. 

La parametrización consiste en reformular a gran escala los efectos de 

pequeña escala (ver, por ejemplo, Beniston, 1998). Una dificultad añadida es 

que no siempre está claro a qué escala se asigna un fenómeno determinado; 

por ejemplo, un modelo de 50 km no resuelve la circulación de brisa, pero 

tampoco la ignora completamente, de manera que el proceso es doblemente 

difícil en estos casos. Como ejemplo, se podría considerar la ecuación de 

conservación de vapor de agua en coordenadas de presión dada por 

∂q 

∂t + u∂q ∂x + v ∂q 

∂y + w∂q ∂p = E − C + ∂w′ q ′ 

∂p 

(2.17) 

donde q es la proporción de vapor de agua y masa de aire seco, x e y coordenadas 

horizontales, p es la presión, t el tiempo, u y v son las componentes 

de la velocidad horizontal del aire (viento), w = dp 

dt 

es la velocidad vertical 

en coordenadas de presión, y el producto de las variables prima representa 

el transporte turbulento de humedad desde las escalas no resueltas por la 

rejilla usada en la discretización, con la barra horizontal (q) se representan 

promedios espaciales sobre la rejilla del modelo. A la parte izquierda de 

(2.17) se la denomina “dinámica” del modelo, y se calcula explícitamente. 

La parte derecha de (2.17) se denomina “física” del modelo. Para la ecuación 

de la humedad, incluye los efectos de los procesos físicos tales como evaporación 

(E) y condensación (C), y transferencias turbulentas de humedad que 

tienen lugar a escalas pequeñas que no pueden ser resueltas explícitamente 

por la “dinámica”. 

2.4. Tipos de Modelos 

Como ya se ha comentado, la estabilidad numérica de los métodos de 

integración impone una restricción entre la resolución temporal y la espacial. 

Por tanto, las integraciones con gran resolución espacial requerirán un 

paso de integración pequeño limitando el alcance operativo de las mismas, 

mientras que las integraciones de modelos de baja resolución podrán prolongarse 

más en el tiempo. Este hecho ha motivado que operativamente se 

consideren distintos tipos o configuraciones de modelos numéricos según el 

alcance y resolución de la predicción deseada. A continuación se describen 

las características de algunos de estos modelos.

2.4. TIPOS DE MODELOS 19 

0.1 

1 

0.3 

0.5 

1 

5 

Presion (mb) 

3 

5 

10 

50 

10 

15 

20 

Nivel 

100 

200 

300 

500 

1000 

25 

30 

35 

40 

45 

50 

60 

Figura 2.1: Rejilla global de 2.5 o de resolución en longitud y latitud utilizada 

por modelos de circulación general sobre todo el globo; el tamaño de la rejilla es 

144 × 73 = 10512 puntos. (derecha) Dos perfiles verticales con 31 y 60 niveles de 

altura geopotencial (expresados en milibares mb, y en números de nivel del modelo, 

respectivamente). La altura máxima mostrada (0.1mb) es de aproximadamente 64 

km. 

2.4.1. Modelos Globales de Circulación General 

Los modelos globales se integran sobre todo el globo por lo que su tratamiento 

numérico se realiza en coordenadas esféricas. Por tanto, la resolución 

horizontal de estos modelos viene caracterizada por el número de modos 

esféricos que se consideren en el desarrollo de las soluciones; así, un modelo 

truncado a 144 modos se denomina TL144 y tiene una resolución horizontal 

de 2.5 grados (aprox. 250 km en nuestra latitud). Este truncamiento también 

influye en la resolución vertical (número de niveles de presión) que habrá de 

ser consistente con la resolución espacial y temporal. Así, el modelo global 

operativo en la predicción a corto plazo del ECMWF (European Center for 

Medium-Range Weather Forecast, www.ecmwf.int) es un TL511L60 con 60 

niveles de presión, mientras que el modelo utilizado para la predicción estacional 

es un T63L31 (la resolución horizontal y vertical de este modelo se 

muestra en la Fig. 2.1). 

Dada su escasa resolución, estos modelos capturan la dinámica sinóptica 

de la atmósfera y normalmente son utilizados en la predicción mensual y 

estacional, y también en las simulaciones de escenarios de cambio climático. 

En algunos casos, lo modelos de circulación general son acoplados con modelos 

oceánicos para tener caracterizado este término forzante de la atmósfera; 

en otros casos, dado que la evolución de la atmósfera es la componente rápida 

del sistema, la temperatura del agua se supone constante (por ejemplo 

en la predicción mensual). 

Otros términos como la orografía, el uso del suelo, la cubierta de hielo,


etc. se introducen en el modelo en la misma rejilla utilizada para la predicción. 

Por tanto, la orografía de los modelos de circulación general está muy 

suavizada y sólo refleja de forma grosera los principales sistemas montañosos 

del planeta. 

2.4.2. Modelos Regionales 

Una solución para aumentar la resolución del modelo sin incrementar 

el coste computacional es considerar rejillas limitadas a zonas geográficas 

de especial interés. Por ejemplo, la Fig. 2.2(a) muestra una rejilla de 1 o de 

resolución en longitud y latitud centrada en Europa. Debido a su mayor resolución, 

los modelos regionales tienen una mayor exactitud para reproducir 

fenómenos de pequeña escala tales como frentes, y también tienen mejores 

forzamientos orográficos que los modelos globales (ver Fig. 2.2(b)). Por otro 

lado, al no ser globales, estos modelos tienen la desventaja de no ser “autocontenidos” 

y, aparte de las condiciones iniciales, requieren condiciones de 

contorno en las fronteras del dominio. Estas condiciones de contorno necesitan 

ser lo más precisas posibles y por ello se toman interpolando la salida de 

un modelo global. Normalmente las condiciones de contorno se actualizan 

durante el transcurso de la predicción para imponer sobre el modelo regional 

la dinámica sinóptica simulada por el modelo global. 

70 

70 

60 

60 

50 

50 

40 

40 

30 

30 20 10 0 10 20 30 

30 

30 20 10 0 10 20 30 

0 1000 2000 3000 4000 5000 

Figura 2.2: Rejilla horizontal de resolución 1 o de longitud y latitud sobre Europa 

(izquierda). Orografía del modelo para la resolución dada (derecha). 

m 

En algunos casos, se define una cascada de rejillas de tamaño decreciente 

y resolución creciente y las integraciones se realizan de forma anidada 

aprovechando las salidas de una rejilla como condiciones de contorno de la 

siguiente rejilla. Por ejemplo, el NCEP anida un modelo de baja resolución 

(eta − 12) con distintas rejillas de alta resolución (8 km) sobre zonas de 

interés (ver Fig. 2.3). 

Este tipo de modelos son los utilizados en la predicción operativa a corto 

y medio plazo, donde cada servicio meteorológico se centra en su región 

de influencia, integrando un modelo regional con una resolución limitada 

principalmente por la capacidad de cómputo.

2.4. TIPOS DE MODELOS 21 

Figura 2.3: Rejillas de alta resolución anidadas con el modelo eta-12 (línea 

sólida): Western U.S., Central U.S., Alaska, Hawaii, Puerto Rico. (FUENTE: 

NCEP/NOAA). 

2.4.3. Modelos Mesoscalares 

Más recientemente, la resolución de algunos modelos regionales ha aumentado 

hasta llegar a unos pocos kilómetros, con objeto de mejorar la resolución 

de fenómenos convectivos locales (tormentas) y otros procesos físicos 

de pequeña escala. En este caso, las parametrizaciones juegan un papel fundamental 

y su calibración para la zona geográfica de interés es determinante 

para el buen funcionamiento del modelo. Dada su escasa resolución horizontal, 

la formulación de estos modelos suele darse en coordenadas cartesianas 

y no usan la aproximación hidrostática, la cual deja de tener validez para 

escalas horizontales menores de 10 km. Así se han desarrollado varios 

modelos no-hidrostáticos que se utilizan rutinariamente para la predicción 

de fenómenos de mesoscala. Los más usados son ARPS (Advanced Regional 

Prediction System), MM5 (Penn State/NCAR Mesoscale Model, Version 

5), RSM (NCEP Regional Spectral Model) y COAMPS (US Navy‘s Coupled 

Ocean/Atmosphere Mesoscale Prediction System). Actualmente, existe una 

tendencia hacia el uso de modelos no-hidrostáticos que también pueden ser 

usados globalmente. 

En la Fig. 2.4 se muestra la orografía de la Península Ibérica con una 

resolución de 0.2 o (aprox. 20 km) y la orografía de la Cornisa Cantábrica 

con una resolución de 0.0083 o (aprox. 1 km). Esta última resolución es la 

que permite caracterizar de forma apropiada la orografía de esta zona.


Figura 2.4: Orografía de la Península Ibérica correspondiente a un modelo de 0.2 o 

(superior). Ampliación de la zona correspondiente a las Autonomías de Cantabria 

y Asturias (42.5-43.75N, 3-7 O), con una resolución de 0.0083 o . 

2.5. Estado Actual de la Predicción Operativa 

Las distintas predicciones que se preparan diariamente para el público y 

otros usuarios especializados en el Instituto Nacional de Meteorología (INM, 

www.inm.es) y en otros centros meteorológicos europeos (MeteoFrance, UK 

MetOffice, etc.) utilizan las salidas de los modelos numéricos anteriormente 

descritos; a estas se las denomina predicciones operativas y pueden ser de 

distintos tipos dependiendo de la escala espacial y temporal de su aplicación. 

Tradicionalmente las predicciones se han obtenido aplicando un único modelo, 

a partir de una condición inicial dada. Sin embargo en las dos últimas 

décadas los estudios no-lineales realizados en este campo han mostrado que 

es necesario hablar en términos probabilísticos y considerar los efectos causados 

por las distintas fuentes de incertidumbre en la evolución del modelo. 

Para ello, hoy día se utilizan distintos esquemas de predicción por conjuntos 

que perturban las condiciones iniciales, o combinan las salidas de distintos 

modelos (multi-modelo), para obtener un conjunto de predicciones con el 

que anticipar la evolución de la atmósfera. A continuación se muestra una 

descripción del abanico de predicciones que se realizan en distintos centros 

meteorológicos de forma operativa:

2.5. ESTADO ACTUAL DE LA PREDICCIÓN OPERATIVA 23 

El nowcasting (predicción inmediata) marca el primer umbral de predicción 

y se refiere a la predicción a muy corto plazo (minutos/horas). 

En este período de alcance, los análisis de radar, las imágenes de satélite 

y las labores de vigilancia llevadas a cabo por observadores y predictores 

humanos juegan el papel principal, relegando a los modelos 

numéricos a un segundo plano. En este umbral de predicción se trata de 

predecir con suficiente detalle la intensidad de eventos extremos (fuertes 

tormentas, etc.), así como la localización geográfica de los mismos. 

En esta Tesis no se abarca este alcance de predicción, pues supone el 

estudio de técnicas especiales para este tipo de fenómenos. 

En un segundo nivel, la predicción a corto plazo se entiende en un rango 

de entre 1 y 3 días de alcance. En un principio se realiza a nivel 

global con una resolución horizontal que oscila entre 0.5 y 1 o . Por ejemplo, 

el ECMWF proporciona salidas cada 6 horas sobre todo el globo 

con 0.6 o (aprox. 60 km) a partir de un modelo de circulación general 

T511. Este centro es una organización multinacional que aglutina 

esfuerzos de los distintos países de la comunidad europea para realizar 

una predicción base que sirva de soporte para el resto de servicios 

meteorológicos. Las salidas de los modelos del ECMWF se utilizan 

en los distintos servicios meteorológicos europeos como condiciones de 

contorno para modelos regionales de mayor resolución. Por ejemplo, 

el producto final de predicción operativa en España el INM se obtiene 

aplicando el modelo regional HIRLAM, con una resolución espacial de 

0.2 o , a las salidas del ECMWF (ver Fig. 2.5). 

De forma análoga en EEUU el NCEP (National Centers for Environmental 

Prediction, www.ncep.noaa.gov) realiza una predicción global 

que distribuye libremente a través de Internet, y que es luego utilizada 

por distintos centros regionales en diversas aplicaciones. Por ejemplo la 

Fig. 2.6 muestra el campo de precipitación estimado por el modelo del 

NCEP y los campos estimados por el modelo regional MM5 utilizado 

en Meteo Galicia meteo.usc.es con 30 y 10 km de resolución. 

La predicción por conjuntos a medio plazo abarca el período comprendido 

entre los 4 y 15 días de alcance. En este período el sistema tradicional 

de predicción determinista comienza a perder predictibilidad 

fruto de la no linealidad del modelo y los efectos de la incertidumbre. 

Por tanto, en este período la predicción se entiende en sentido probabilístico 

y se utilizan técnicas como la predicción por conjuntos para 

tener en cuenta estos efectos. La predicción por conjuntos se lleva a la 

práctica integrando el sistema varias veces utilizando un número arbitrario 

de condiciones iniciales distintas que se obtienen perturbando 

de forma apropiada la condición inicial obtenida a partir de las observaciones 

(ver Sec. 6.2 para más detalles). Como resultado, se obtiene 

un conjunto de predicciones que han de procesarse de forma apropiada 

para obtener una predicción de consenso (numérica o probabilística).


Figura 2.5: (superior) Orografía de los modelos HIRLAM de 0.5 o y 0.2 o utilizados 

por el INM en la predicción operativa. (inferior) Salida de precipitación del modelo 

con una resolución de 0.5 o (FUENTE: Instituto Nacional de Meteorología). 

(a) 

(b) 

(c) 

Figura 2.6: Campos de precipitación a D + 1 obtenidos con (a) el modelo AVN 

del NCEP; y el modelo MM5 utilizado por Meteo Galicia con (b) 30 y (c) 10 km 

de resulución. (FUENTE: Página web de Meteo Galicia).

2.5. ESTADO ACTUAL DE LA PREDICCIÓN OPERATIVA 25 

En cuanto a los sistemas globales de predicción por conjuntos operativos, 

desde Noviembre de 2000 el ECMWF ha puesto en marcha un modelo 

de predicción por conjuntos a plazo medio (con alcance de 10 días) 

basado en 50 integraciones con condiciones iniciales perturbadas y una 

integración con condiciones sin perturbar de un modelo TL255L40 

(aprox. 80 km de resolución en latitudes medias). La resolución de este 

modelo es cuatro veces superior a la del modelo anterior puesto en 

marcha en Diciembre de 1992 y se ha constatado que este aumento de 

resolución ha mejorado sustancialmente la predicción probabilística de 

la precipitación (ver Buizza et al., 2001, para más detalles). Por otra 

parte, el NCEP también produce de forma operativa predicciones por 

conjuntos a medio plazo (hasta 15 días) utilizando el Global Forecast 

System model (GFS) (ver www.nco.ncep.noaa.gov/pmb/products/). 

Paralelamente al crecimiento de los recursos computacionales, especialmente 

la capacidad de cómputo, la resolución de los modelos se 

va incrementando, permitiendo mejorar la resolución de las costosas 

simulaciones por conjuntos de alcance medio. Por tanto, es previsible 

que en el futuro cercano la predicción a corto plazo y la predicción por 

conjuntos a plazo medio se fundan en una sola predicción, extendiendo 

la aplicabilidad de la predicción por conjuntos (de hecho, se están dando 

ya las primeras experiencias de extender la predicción por conjuntos 

al corto plazo, buscando técnicas perturbativas apropiadas). 

En la predicción por conjuntos mensual y estacional no se trata de 

predecir el estado real de la atmósfera, sino las anomalías en la circulación 

(desviaciones respecto del comportamiento promedio) transcurridas 

tras un mes, un trimestre. En este supuesto, la condición 

inicial (el estado inicial de la atmósfera) no es el factor más importante 

para la identificación de anomalías en la evolución de la circulación 

atmosférica, sino que existen otros factores más determinantes, como 

la temperatura del agua del océano. Por tanto, estos modelos están 

acoplados con modelos oceánicos, o tienen forzadas las temperaturas 

del agua del mar. Por ejemplo, el ECMWF integra quincenalmente 

y hasta 180 días un modelo de predicción por conjuntos denominado 

System-II para la elaboración de predicciones de anomalías climáticas 

mensuales y estacionales (en este caso, las distintas condiciones iniciales 

se obtienen perturbando positiva y negativamente las temperaturas 

del agua del mar). Este modelo surgió de la experiencia llevada a cabo 

en el proyecto DEMETER (Development of a European Multimodel 

Ensemble system for seasonal to inTERannual prediction) en el que 

se construyó un sistema de predicción estacional multi-modelo que integra 

seis modelos globales de predicción por conjuntos con distintos 

esquemas de perturbación (www.ecmwf.int/research/demeter/). De 

hecho, se dispone de un re-análisis de este sistema multi-modelo que 

abarca el mismo período de ERA-40.


Finalmente, dentro del ámbito de la predicción climática, varios centros 

climáticos europeos (Centro Hadley en el Reino Unido, Instituto 

Max Plank en Alemania, Centro Nacional de Investigación de Méteo- 

France) llevan a cabo integraciones durante 100 o más años bajo diversas 

hipótesis de forzamiento radiativo para la realización de estudios 

de escenarios climáticos (por ejemplo, los efectos de la duplicación de 

las emisiones de CO 2 en la atmósfera). En estos casos, los modelos 

son globales y están acoplados con modelos oceánicos, por lo que su 

resolución es pequeña (entre 2.5 o y 5 o , es decir 250 − 500 km aproximadamente). 

2.6. Futuro de la Predicción Numérica 

Desde la perspectiva actual, el futuro de la predicción numérica se ve 

centrado en los desarrollos teóricos y prácticos para comprender los efectos 

de la incertidumbre y su propagación en los modelos numéricos; ésto incluye 

al proceso de asimilación y a los métodos de perturbación para predicción 

por conjuntos. Según Kalnay (2003), los siguientes problemas marcarán el 

futuro próximo de la predicción numérica: 

Predicciones a corto alcance de modelos de fenómenos convectivos locales 

(tormentas) con capacidad predictiva de fenómenos adversos. 

Métodos de asimilación de datos capaces de extraer la máxima información 

de los sistemas de observación, especialmente de satélites y 

radares. 

Mejora de la utilidad de las predicciones a plazo medio, especialmente 

a través del uso de la predicción por conjuntos. 

Sistemas totalmente acoplados de atmósfera e hidrología, con el objetivo 

de realizar mejores predicciones locales de la precipitación del 

modelo, y extendido a la predicción de caudales de ríos. 

Un mayor uso de modelos atmósfera-océano-tierra en los cuales anomalías 

de larga duración tales como temperatura de la superficie del 

mar (SST, Sea Surface Temperature) y humedad de suelo, lleven a 

mejores predicciones estacionales y climáticas. 

Aplicaciones de los modelos numéricos en sectores productivos relacionados 

con la actividad humana: agricultura, energía, prevención de 

riesgos naturales, etc., y en problemas que afectan a la salud tales como 

contaminación atmosférica, transporte de contaminantes y radiación 

ultravioleta. 

Esta Tesis doctoral se centra en alguno de estos problemas; en concreto 

se analiza la predicción local mediante técnicas híbridas y se aplican los 

métodos desarrollados para los sistemas de predicción por conjuntos.

2.7. DATOS CLIMATOLÓGICOS Y METEOROLÓGICOS 27 

2.7. Datos Climatológicos y Meteorológicos 

Los modelos numéricos y las distintas técnicas estadísticas de postproceso 

se valen de las observaciones de variables meteorológicas de la red 

mundial de observatorios, e incluso de datos paleoclimáticos obtenidos indirectamente 

a partir de mediciones de hielo, anillos de árboles, etc. En esta 

sección se describen las fuentes de esta cantidad ingente de información, que 

serán la base para las herramientas desarrolladas en esta Tesis. 

2.7.1. Redes de Observación 

Las observaciones rutinarias de la atmósfera (en especial en superficie) 

han ido extendiéndose de forma contínua desde la creación de la OMM en 

1950, propiciando el marco intergubernamental para el establecimiento de 

redes internacionales de observación. El GOS (Global Observing System) es 

el sistema coordinado que recopila y comprueba las observaciones de variables 

atmosféricas y oceánicas (en superficie) a nivel global. El núcleo de las 

observaciones superficiales consta de aproximadamente 10.000 observatorios 

que realizan observaciones al menos cada tres horas, y a menudo horariamente. 

Las variables observadas son: presión atmosférica, viento, temperatura 

del aire y humedad relativa. Además existen unas 1.000 estaciones de radiosonda 

y más de 3.000 aviones que realizan observaciones en varios niveles 

de la atmósfera. Unos 7.300 barcos, 600 boyas a la deriva, 300 boyas fijas y 

600 plataformas proporcionan observaciones en los océanos. Estos datos son 

utilizados diariamente por los modelos numéricos de circulación atmosférica, 

asimilando el estado de la atmósfera inicial en base a un conjunto de estas 

observaciones. Por ejemplo, la Figura 2.7 muestra las observaciones utilizadas 

un día en el ECMWF para el proceso de asimilación (inicialización) de 

su modelo operativo. 

Figura 2.7: Observaciones utilizadas en la asimilación de datos del modelo numérico 

del ECMWF. (FUENTE. Página Web del ECMWF).


El GOS también dispone de un subsistema espacial de observación, integrado 

por cuatro satélites en órbita polar y cinco geoestacionarios, con el 

objetivo principal de completar la cobertura de las observaciones de la red 

en superficie. El papel de las observaciones procedentes de satélites es cada 

vez más importante y la asimilación de estos datos en los modelos numéricos 

es un área de intensa investigación. La longitud de las series de datos 

almacenadas es muy variable y oscila entre un par de cientos de años (para 

estaciones históricas), hasta unos pocos años, o meses. 

Por otra parte, los distintos servicios meteorológicos nacionales disponen 

de su propia red de observación (algunos de cuyas estaciones se integran en 

el GOS). Estas redes mucho más densas abarcan gran variedad de variables 

climatológicas. Por ejemplo, el Instituto Nacional de Meteorología (INM) 

dispone de una red de observatorios que abarca 6735 puntos geográficos en 

las distintas cuencas hidrográficas Españolas (ver Fig. 2.8(b)) con mediciones 

diarias de precipitación y meteoros (tormenta, nieve, granizo, niebla, 

lluvia, calima, rocío y escarcha) en el período 1975-2000. Las temperaturas 

máxima y mínima se observan en 2281 puntos. Además de la red secundaria, 

existen algunas estaciones en las que se realizan observaciones por 

parte de personal cualificado. Estas estaciones corresponden a la red principal 

y en la actualidad consta de 225 puntos de observación en los que se 

mide insolación, evaporación, recorrido, dirección y racha máxima de viento, 

temperaturas medias, y otras variables. Las observaciones se realizan 

diariamente, aunque en la red principal se realizan observaciones con mayor 

frecuencia (cada 10 min, cuatro veces al día, etc.). En total se tienen 

8766 ×(6735 ×9+2281 ×2+225 ×3) ≃ 6 ×10 8 datos incluyendo lagunas en 

las observaciones. Si se consideran 2 bytes por dato habrá en total 1.2 Gb 

de información. 

A continuación se detallan las observaciones disponibles (salvo indicación 

expresa, las observaciones son diarias y hacen referencia a un periodo de 24 

horas comprendidas de 7 a 7 h): 

Observaciones en la red secundaria o termopluviométrica (Fig. 2.8(d)): 

1. Temperaturas extremas máxima y mínima a 1m del suelo (en o C). 

2. Precipitación diaria acumulada (en mm ≡ l/m 2 ). 

3. Ocurrencia de meteoros: nieblas, tormentas, granizo, nieve, escarcha 

y rocío. 

Observaciones en la red principal (Fig. 2.8(c)). Además de incluir las 

observaciones anteriores, la red principal posee una serie adicional de 

mediciones. 

1. Racha máxima de viento, medida de 0 a 24 horas a 10m del suelo 

(en km/h). La dirección de la racha máxima se mide en grados 

(tomando como origen el Norte).


2. Insolación medida de 0 a 24 horas (en horas diarias de sol). Si es 

relativa se mide en% respecto a la insolación máxima teórica del 

día. 

3. Evaporación Potencial, considerada como la máxima evaporación 

posible, medida de 0 a 24 horas (en mm) (existen algunas medidas 

en la red secundaria). 

4. En la red principal existen otras muchas variables que se podrían 

incluir entre las observaciones. Algunas de ellas son: Intensidad 

máxima y duración de precipitación, recorrido del viento, cantidad 

y tipo de nubosidad, humedad media, y visibilidad. 

Las series de datos disponibles tienen longitudes variables y contienen lagunas, 

pero en términos generales se puede decir que se dispone de 50 años de 

información. 

(a) 

45º N 

(b) 

NORTE 

DUERO 

EBRO 

CATALUÑA 

40º N 

TAJO 

JÚ CAR 

GUADIANA 

GUADALQUIVIR 

SEGURA 

35º N 

SUR 

10º W 5º W 

0º 

5º E 

(c) 

(d) 

Figura 2.8: (a) Orografía de España y sus (b) cuencas hidrográficas principales. 

(c) Red principal de estaciones del INM, (d) red termopluviométrica. 

2.7.2. Datos Paleoclimáticos 

Los datos instrumentales son medidas directas representativas de las variables 

meteorológicas; sin embargo, las series más largas no pasan de unos 

pocos cientos de años. Para llevar a cabo estudios climáticos a tiempos muy 

largos (del orden de miles de años) es necesario disponer de series de datos 

más largas. Por ello, se han desarrollado distintas técnicas indirectas


de medición a partir de indicadores de la naturaleza (datos “proxy”). Los 

más utilizados se obtienen de los árboles (fisiología de los anillos, análisis 

de isótopos, etc.), las catas de hielo (composición de isótopos, acumulación 

y estratificación, etc.), los corales (crecimiento, etc.), sedimentos oceánicos, 

fósiles, etc. Por ejemplo las extracciones del hielo profundo de glaciares contienen 

muestras de burbujas de aire, polvo, polen, o isótopos de oxígeno, 

que sirven para reconstruir el clima pasado, del área donde fue recogida la 

muestra. 

2.7.3. Simulaciones de Modelos Numéricos 

Los campos resultantes de las integraciones de los modelos numéricos del 

tiempo descritos en secciones anteriores caracterizan el estado de la atmósfera, 

tanto los análisis (estado inicial asimilado de la atmósfera), como las predicciones, 

y en muchos casos están disponibles para la comunidad investigadora. 

Por otra parte, también están disponibles los campos producidos por 

diversos proyectos de re-análisis que integran un mismo modelo de forma sucesiva 

para un período representativo de tiempo. Por ejemplo, el primer proyecto 

de re-análisis global llevado a cabo en el ECMWF se denominó ERA-15 

y proporciona los campos de análisis y predicciones a corto plazo obtenidos 

con un modelo T106L31 (1.125 grados de resolución) para el período comprendido 

entre Diciembre-1978 y Febrero-1994. Recientemente, este proyecto 

ha sido extendido y ya se dispone de información para el período Septiembre 

1957 - Agosto 2002 (ERA-40) obtenida con un modelo de mayor resolución 

(T159L60, aprox. 0.675 grados). El NCEP también dispone de un re-análisis 

llevado a cabo con un modelo T62L28 (1.875 grados de resolución) para el 

período 1958 hasta la actualidad (para más información sobre actualizaciones 

del re-análisis consultar wesley.wwb.noaa.gov/reanalysis2). La lista 

completa de variables disponibles para el proyecto ERA puede consultarse 

en www.ecmwf.org/research/era, mientras que en el caso del NCEP puede 

consultarse wesley.wwb.noaa.gov/reanalysis.html. 

En esta Tesis, se utiliza información de cada uno de los 4 análisis diarios 

de ERA-15, a las 00, 06, 12, y 18 horas UTC (Coordenadas Universales de 

Tiempo). El modelo de re-análisis posee información de variables en superficie 

y en niveles de presión, y de variables derivadas que no son integradas 

directamente en el modelo. Básicamente las variables utilizadas en altura 

son el geopotencial (Z), temperatura (T), velocidad del viento (U y V) y 

humedad relativa (H) en los niveles de presión de 1000, 925, 850, 700, 500, 

300 y 200 milibares (mb). Además existen las variables de superficie, asociadas 

a cada una de las variables anteriores, que son: presión media a nivel 

del mar (mslp), temperatura a 2 metros (T2), velocidad del viento a 10 

metros (U10 y V10) y temperatura del punto de rocío (Td). En total son 

5569 × 4 × 181 × 360 × 7 × 5 ≃ 5 × 10 10 datos. Estos datos se encuentran 

codificados en formato GRIB (WMO) y en total ocupa 100 GBytes de información 

del re-análisis. En los distintos ejemplos presentados en esta Tesis


se consideran distintas regiones y combinaciones horarias de campos para 

definir el “estado de la atmósfera”. 

Ejemplo 2.1 (Patrones Atmosféricos). Se desea estudiar la configuración 

atmosférica diaria en la península Ibérica. Para poder realizar un estudio 

estadístico se pueden utilizar los campos de análisis proporcionados 

por un re-análisis (por ejemplo ERA-15), en una rejilla apropiada sobre la 

región de interés, en los distintos niveles de altura. Por ejemplo, para caracterizar 

el patrón de circulación que afecta a la península Ibérica se pueden 

utilizar distintas rejillas y escalas temporales: 

70ºN 

(a) 

60ºN 

50ºN 

40ºN 

30ºN 

20ºN 

40ºW 

30º W 

20º W 

10 º W 

0 

º 

10 º E 

º 

20 E 

30 º E 

60º N 

(b) 

60º N 

(c) 

50º N 

50º N 

40º N 

40ºN 

30ºN 

30ºN 

20 W 

º 10º W 

0º 

10ºE 

20º E 

20 W 

º 10º W 

0º 

10ºE 

20º E 

Figura 2.9: Distintas áreas que cubren la península Ibérica: (a) Rejilla de larga 

escala (macro-β) de 2.5 ◦ × 2.5 ◦ de latitud y longitud; (b) rejilla peninsular (mesoα) 

1 ◦ × 1 ◦ de latitud y longitud; (c) rejilla meso-β 1 ◦ × 1 ◦ para la cuenca Norte de 

la Pensínsula Ibérica (cada una de las doce cuencas tiene su propia rejilla). 

Modelo 1: Rejilla de 2.5 ◦ × 2.5 ◦ de longitud y latitud mostrada en 

la Figura 2.9(a). En este caso, los patrones se obtienen combinado los 

campos T, H, Z, U y V a las 12h en los niveles 1000mb, 925mb, 850mb, 

700mb, 500mb y 300mb: 

x 12 = (T 1000 

12 , . . .,T 300 

12 , H 1000 

12 , . . .,H 300 

12 , . . .,V 1000 

12 , . . .,V 300 

12 ), (2.18) 

donde X j i denota el campo de la variable X a la hora i en el nivel j. 

Modelo 2: Rejilla de 1.0 ◦ ×1.0 ◦ mostrada en la Figura 2.9(b), cubriendo 

la zona de estudio. En este caso, se consideran las mismas variables


y niveles de presión (altura), pero incluyendo una componente temporal 

(se toman los campos a las 06h y 30h). Esta componente temporal 

compensa la reducción de escala de la rejilla teniendo en cuenta efectos 

de borde y de contorno que podrían alcanzar la zona de la rejilla 

durante el período de interés. 

x = (x 00 ,x 30 ). (2.19) 

Modelo 3: Rejilla de 1.0 ◦ × 1.0 ◦ mostrada en la Figura 2.9(c). En este 

caso se considera un patrón atmosférico concreto para cada una de 

las doce cuencas hidrográficas Españolas. Para ello se combinan los 

campos anteriores en un dominio temporal de mayor resolución: 06, 

12, 18, 24, y 30 UTC. En este caso se cubre el período de predicción 

con toda la información disponible: 

x = (x 06 ,x 12 ,x 18 ,x 24 ,x 30 ). (2.20) 

En ambos casos, los patrones obtenidos son de una enorme dimensión. 

Por ejemplo, en el caso de la Fig. 2.9(a) se tienen 17 × 21 (rejilla) ×3 (niveles 

de presión) ×5 (variables) = 5335 dimensiones para caracterizar un 

patrón atmosférico. Sin embargo, como se ilustra en el siguiente capítulo, 

estas variables están altamente correlacionadas y, en realidad, la información 

que contienen se puede expresar utilizando un número menor de grados 

de libertad (variables). 

Junto con los re-análisis de modelos numéricos que cubren períodos continuos, 

también se han elaborado bases de datos de observaciones homogeneizadas 

sobre rejillas y sin lagunas. Por ejemplo Chen et al. (2002) describe 

la elaboración de una base de datos con medias mensuales de precipitación 

en superficie para una rejilla de 2.5 o de resolución sobre todo el globo. La 

resolución de esta rejilla hace que sea poco útil para estudios regionales. Sin 

embargo, el INM también dispone de una rejilla de observaciones diarias de 

mayor resolución que abarca el período ERA-15, interpoladas a partir de las 

observaciones de la red secundaria (ver Fig. 2.10). 

45.0 ° N 

42.5 ° N 

40.0 ° N 

37.5 ° N 

35.0 ° N 

10.0 ° W 

7.5 ° W 

5.0 ° W 

2.5 ° W 

0.0 ° 

2.5 ° E 

5.0 ° E 

Figura 2.10: Rejilla de datos de precipitación en superficie interpolados de la red 

secundaria de observatorios del INM.

CAPÍTULO 3 

Minería de Datos y Aprendizaje Automático 


El vertiginoso crecimiento de la capacidad de cálculo y almacenamiento 

de las computadoras ha producido un incremento exponencial de la información 

disponible procedente de simulaciones y observaciones atmosféricas, 

y ha hecho más fácil y rápido el acceso masivo a la misma (en tiempo real a 

través de Internet). Distintas bases de datos contienen información útil para 

diversos problemas, y requieren ser procesadas para sintetizar el conocimiento 

relevante para un problema dado. En el ámbito de la Meteorología se han 

utilizado de forma sistemática diversas técnicas Estadísticas para abordar 

distintos problemas de modelización y predicción a partir de observaciones 

y/o de salidas de modelos numéricos (Ayuso, 1994). Sin embargo, el gran 

volumen de datos del que se dispone hoy día hace necesario el uso de técnicas 

más eficientes, optimizadas para trabajar con grandes muestras. 

En las dos últimas décadas se ha producido un gran avance en distintas 

áreas de la Inteligencia Artificial y Bases de Datos para desarrollar 

técnicas automáticas de aprendizaje y extracción de conocimiento (ver 

Gutiérrez et al., 2004b). El objetivo de estas técnicas es preprocesar de forma 

rápida y fiable la información, capturando distintos patrones de conocimiento 

(reglas, grupos, grafos de dependencia, etc.) que sean apropiados 

para resolver un problema dado, y que resuman la información disponible 

haciéndola manejable. Se trata también de que estas técnicas operen de forma 

automática, precisando de la mínima intervención humana. En la última 

década se ha acuñado el término Minería de Datos (Data Mining) para referirse 

a este área interdisciplinar que engloba una gran diversidad de técnicas. 

Para una visión general de este campo se refiere al lector a Fayyad et al. 

(1996); Witten and Frank (1999). Algunas aplicaciones en Meteorología se 

describen en Cofiño et al. (2003b). 

33

34 3. MINERÍA DE DATOS Y APRENDIZAJE AUTOMÁTICO 

En este capítulo se describen algunas de estas técnicas, que serán utilizadas 

posteriormente en la Tesis. Se hará especial énfasis en algunas aplicaciones 

en los ámbitos de la Meteorología y Climatología relacionadas con 

los contenidos de esta Tesis: 

La regionalización consiste en la identificación de regiones geográficas 

homogéneas con parámetros climatológicos similares (temperaturas, 

precipitación, etc.). Tradicionalmente este problema se ha abordado 

utilizando distintos criterios geográficos subjetivos, como la división 

impuesta por las cuencas hidrográficas, etc. Sin embargo la creciente 

disponibilidad de datos climatológicos en las últimas décadas (por 

ejemplo, las observaciones históricas de una red de estaciones) ha dado 

lugar al desarrollo de técnicas de regionalización automáticas basadas 

en criterios estadísticos (ver Oliver, 1991). En este caso la regionalización 

automática se basa en la obtención de conjuntos homogéneos de 

estaciones aplicando algún criterio de similitud a los datos disponibles. 

Por otra parte, la clasificación de patrones de circulación atmosférica 

consiste en obtener los estados característicos (los más frecuentes, 

persistentes, etc.) de la configuración de la atmósfera y clasificar cada 

nuevo patrón en base a la división realizada. Para ello se utilizan 

los campos numéricos asimilados por los modelos de circulación atmosférica 

en un cierta rejilla 3D para caracterizar numéricamente la 

configuración atmosférica en un instante dado. En particular, los distintos 

reanálisis disponibles para un período representativo de tiempo 

(ver Sec. 2.7.3 para una descripción de estos datos) ofrecen una muestra 

representativa para realizar este tipo de estudio. 

En la Sec. 3.2 se introduce la técnica de componentes principales y se 

ilustra su aplicación para reducir la elevada dimensionalidad de los datos, 

eliminando información redundante. A continuación, en la Sec. 3.3 se analizan 

distintas técnicas de agrupamiento; uno de estos métodos, las redes 

auto-organizativas, se describen en la Sec. 3.4. Finalmente, la Sec. 3.5 describe 

las redes neuronales desde el punto de vista de los métodos estadísticos 

no paramétricos. 

3.2. Componentes Principales 

El análisis de Componentes Principales (CPs) es una técnica estándar 

para representar una muestra de datos en un espacio de menor dimensión 

que el original, eliminando la información redundante con la mínima pérdida 

de variabilidad; en otras palabras, es una técnica eficiente para comprimir información 

(Preisendorfer and Mobley, 1988). Este método es especialmente 

útil en espacios de alta dimensionalidad, donde los datos pueden estar correlacionados 

en sus distintas componentes (dimensiones) y, por tanto, pueden 

contener mucha información redundante en su descripción. Un ejemplo típico

3.2. COMPONENTES PRINCIPALES 35 

en Meteorología lo constituye la caracterización de los patrones de circulación 

atmosférica, que vienen dados por los valores de una o varias magnitudes 

(la presión a nivel del mar, etc.) en una rejilla sobre una cierta zona 

de interés. Dado que estas magnitudes están correlacionadas espacialmente, 

existirá una gran redundancia en esta forma de expresar los datos. Por 

tanto es necesario disponer de técnicas eficientes que permitan “comprimir” 

la información, hallando un espacio de menor dimensión donde los patrones 

proyectados conserven ciertos estadísticos de la muestra. La técnica de componentes 

principales reduce la dimensión del espacio preservando el máximo 

de varianza de la muestra. Para ello, la base del nuevo espacio se forma 

con aquellos vectores donde la muestra proyectada presenta mayor varianza. 

Los vectores de esta base (o Funciones Empíricas Ortogonales, EOF) son de 

enorme utilidad en Meteorología, pues son los patrones dominantes (en el 

sentido de la variabilidad que representan de la muestra). 

Se parte de una muestra de m realizaciones de un vector 

x k = (x k1 , ..., x kn ) T , k = 1, . . .,m, (3.1) 

definido en un espacio n-dimensional con base canónica {e 1 , . . .,e n }. Se 

desea obtener un subespacio de dimensión d < n, dado por una nueva base 

{f 1 , . . .,f d } (siendo cada f j una combinación lineal de los vectores e i de la 

base canónica). El criterio para obtener este subespacio es que la muestra 

proyectada 

d∑ 

¯x k = f i c ki , (3.2) 

i=1 

tenga una varianza máxima. El cálculo matemático para obtener los vectores 

óptimos f i es sencillo y consiste en estimar la matriz de varianzas y 

covarianzas a partir de la muestra de datos. Los autovectores (o Funciones 

Ortogonales Empíricas , EOFs) de esta matriz son los nuevos vectores f i y 

los correspondientes autovalores indican la varianza explicada (la varianza 

de la muestra proyectada sobre el vector). Los coeficientes de cada elemento 

de la muestra en la nueva base se denominan Componentes Principales 

(CPs). 

Dada la muestra (3.1), se puede estimar la matriz de varianzas y covarianzas 

C x , donde cada elemento σ ij representa la covarianza de los datos 

entre la variable i y la j del espacio original: 

σ ij =< (x ki − µ i )(x kj − µ j ) > k ; µ i =< x ki > k , µ j =< x kj > k . (3.3) 

Esta matriz de varianzas y covarianzas es cuadrada y simétrica por lo que 

se puede calcular una nueva base ortogonal encontrando sus autovalores λ i 

(que serán reales y distintos) y los correspondientes autovectores f i : 

C x f i = λ i f i . (3.4) 

Es fácil resolver este problema cuando n es pequeño pero, a medida que 

aumenta la dimensión, el problema se complica debido al posible mal condicionamiento 

de la matriz. En estos casos es necesario aplicar métodos


numéricos eficientes como la Descomposición en Valores Sigulares (SVD), 

que proporciona una factorización de la matriz C x de la forma (ver Press et al. 

(1992) para más detalles): 

Σ x = P Λ P T , (3.5) 

donde Λ es una matriz diagonal que contiene los autovalores λ i (ordenados 

de forma decreciente) de C x , y las columnas de P son los correspondientes 

autovectores f i . Además P es una matriz ortogonal y P T es su inversa. De 

esta manera, si hacemos la proyección: 

¯x k = P T x k = 

⎛ 

⎜ 

⎝ 

f 11 

. 

f n1 

⎞ ⎛ 

. . . f 1n 

⎟ ⎜ 

. ⎠ ⎝ 

. . . f nn 

⎞ 

x 1k 

⎟ 

. ⎠ (3.6) 

x nk 

se tendrá el elemento de la muestra proyectado sobre la base de autovectores 

de C x , mientras que la proyección inversa se obtendrá mediante x k = P¯x k . 

Esta proyección tiene las siguientes propiedades: 

Componentes incorrelacionadas: < ¯x ki ¯x kj > k = 0, i ≠ j. 

V ar(¯x i ) = λ i , i = 1, . . .,n. 

∑ ni=1 

V ar(x i ) = ∑ n 

i=1 V ar(¯x i ) = ∑ n 

i=1 λ i . 

Dado que los vectores se eligen en orden decreciente de varianza, es posible 

hacer un recorte de dimensiones reteniendo la máxima cantidad posible de 

varianza (obviamente, si se quiere conservar toda la varianza habrá que 

tomar d = n). Si se toman sólo las d primeras EOFs, cada elemento de la 

muestra se podrá expresar aproximadamente como: 

⎛ 

x k ≈ QQ T x k = 

⎜ 

⎝ 

f 11 

. 

. 

f 1n 

⎞ 

. . . f d1 ⎛ 

. 

⎜ 

⎝ 

⎟ 

. ⎠ 

. . . f dn 

⎞ 

f 11 . . .... f 1n 

⎟ 

. . ⎠x k , (3.7) 

f d1 . . .... f dn 

donde Q representa a la matriz P truncada a los d primeros autovectores. 

El vector ¯x k = Q T x k de dimensión d×1 contendrá las CPs del patrón x k , es 

decir, las componentes del vector en el nuevo espacio de dimensión d. Para 

recuperar la dimensión original, el vector de CPs se proyectará mediante 

Q¯x k , obteniendo una aproximación del vector original (mejor cuanto mayor 

sea la dimensión d del espacio proyector). 

Maximizar la varianza es equivalente a minimizar la norma cuadrática 

de los residuos ¯x k − x k . 

V ar(x k ) = V ar(x k + Q¯x k − Q¯x k ) = V ar(x k − Q¯x k ) + V ar(Q¯x k ) (3.8)


Por tanto, la técnica de componentes principales obtiene la proyección lineal 

óptima en sentido de máxima varianza explicada y de mínimo error de 

reconstrucción. 

Para eliminar los problemas debidos a las distintas escalas de cada una de 

las componentes del vector, es conveniente estandarizar los datos como paso 

previo a realizar el análisis. De esta forma se evita que las variables de mayor 

varianza se hagan dominantes en el análisis. En el caso de datos atmosféricos 

se han de estandarizar por separado los valores correspondientes a cada 

punto de rejilla, de forma que la variabilidad del patrón en toda la extensión 

espacial sea homogénea. Otro procedimiento consiste en utilizar la matriz de 

correlaciones en lugar de la de varianza-covarianza para realizar el análisis 

(Noguer, 1994). 

Recientemente se han descrito en la literatura extensiones no lineales de 

esta técnica que proyectan los datos a través de combinaciones no lineales de 

las variables originales maximizando la varianza explicada o minimizando el 

error cuadrático (redes neuronales de cuello de botella, Kramer (1991), etc.). 

Los métodos resultantes tienen mayor flexibilidad que las técnicas lineales, 

pero la mejora que ofrecen no justifica algunas deficiencias, como la carencia 

de propiedades como la ortogonalidad de la base. 

Ejemplo 3.1 (EOFs y CPs de Patrones Atmosféricos). En este ejemplo 

se aplica la técnica de componentes principales para hallar los patrones 

de presión a nivel del mar (Sea Level Pressure, SLP) dominantes en tres 

zonas del globo (ver Fig. 3.1), con características diferentes de circulación 

atmosférica y oceánica. Para ello, se han considerado medias decenales de 

patrones diarios de SLP en tres rejillas distintas que definen la región del 

Atlántico Norte (AN), la región del Pacífico Sur (PS), y la zona de América 

Austral (Austral), respectivamente. Los datos disponibles cubren el período 

1979-1993 correspondiente al re-análisis ERA-15. La siguiente tabla muestra 

la varianza explicada por las cuatro primeras EOF en cada caso, ilustrando 

las diferencias entre las distintas zonas: 

AN PS Austral 

EOF 1 32.91 59.90 25.90 

EOF 2 19.14 12.71 22.62 

EOF 3 14.40 7.69 20.52 

EOF 4 8.86 5.26 9.86 

Acumulado 75.31 85.66 78.90 

En los tres casos existe una enorme redundancia en los datos, y una 

proporción muy pequeña de las variables permite explicar una alto porcentaje 

de la varianza. La zona del PS es la que mayor redundancia muestra (la 

primera EOF explica cerca del 60% de la varianza), mientras que las zonas 

AN y Austral presentan una varianza acumulada similar; sin embargo, esta 

varianza está igualmente distribuida entre las tres primeras EOFs en el caso 

Austral, mientras que decae uniformemente en el AN. Esto nos muestra


que la presión en los trópicos tiene mucha más correlación espacial que en 

latitudes medias y, a su vez, la correlación en latitudes medias se expresa de 

forma distinta en distintas regiones del globo. 

45 ° N 

0 ° 

45 ° S 

135 ° W 

90 ° W 

45 ° W 

0 ° 

Figura 3.1: Zonas geográficas correspondientes al Atlántico Norte, Pacífico Sur, y 

América Austral. Las rejillas (2.5 o × 2.5 o ) muestran los puntos de grid utilizados 

para caracterizar los patrones de presión a nivel del mar. 

La Fig. 3.2 muestra las cuatro primeras EOFs para la zona NAO y la zona 

Austral. Estos patrones maximizan la varianza proyectada de la muestra 

y, por tanto, definen los fenómenos sinópticos más relevantes que explican la 

variabilidad climática. Por ejemplo, la primera EOF de la zona AN corresponde 

al patrón de variabilidad anual de la presión, mientras que la segunda 

EOF corresponde al patrón de la NAO (North Atlantic Oscillation), y las 

siguientes están relacionadas con patrones como la EA (East Atlantic Index), 

AO (Artic Oscillation), etc. (ver, por ejemplo, Corte-Real et al., 1999; 

Rodríguez-Fonseca and Serrano, 1991, para una detallada descripción de estos 

patrones de teleconexión). 

La evolución temporal de las CPs nos da un idea de la frecuencia de 

variación temporal de los fenómenos caracterizados por la correspondiente 

EOF. Por ejemplo la Figura 3.3 muestra la evolución de la CPs para la 

región del AN. Puede observarse la frecuencia anual de la primera EOF, 

mientras que las restantes presentan variabilidades temporales más complejas, 

relacionadas con las oscilaciones de los correspondientes patrones.

1032 


1029 

1084 

1066 

1047 

1121 

1102 

1049 

995 

1006 

1027 

1070 

1060 

1016 

1010 

973 

1081 

992 

1038 

1016 

1006 

995 

1021 

1001 

1031 

982 

1011 

1021 

992 

972 

962 

953 

993 1000 

981 

1025 

1013 

1013 

1019 

1006 

1038 

1025 

1032 

1019 

1006 

1040 

1025 

946 

931 

915 

1009 

993 

978 

962 

899 

884 

1009 

1032 

1024 

979 

994 

1009 

1017 

964 

986 

971 

1002 

986 

1034 

1047 

1022 

1021 

1034 

1060 

1022 

996 

1009 

984 

971 

958 

1021 

1013 

1005 

998 

990 

1005 

1013 

966 

1021 

958 

982 

974 

Figura 3.2: Cuatro primeras EOF correspondientes al área geográfica del Atlántico 

Norte (AN) y de América Austral (Austral).


40 

20 

0 

-20 

-40 

40 

20 

0 

-20 

-40 

CP1 

CP2 

40 

20 

0 

-20 

-40 

20 

CP3 

CP4 

0 

-20 

0 750 1500 2250 3000 3750 4500 5250 

day number 

Figura 3.3: Evolución temporal de las cuatro primeras CPs en la zona del AN. 

3.2.1. Elección del Número de Componentes 

Una cuestión importante en la práctica es determinar el número de CPs 

que deben tomarse para un determinado problema, de forma que haya un 

equilibrio entre la reducción de información deseada y la calidad de la aproximación 

resultante. Una forma objetiva de seleccionar el número necesario 

de CPs es imponer un umbral para el error de reconstrucción obtenido (el 

error residual). Por ejemplo, la Figura 3.4 muestra el error de reconstrucción 

(Root Mean Square Error, RMSE) frente al porcentaje de CPs utilizadas 

para el patrón atmosférico Modelo 2 del Ejemplo 2.1 (estandarizando las 

variables antes de aplicar el algoritmo). En la figura se muestran los errores 

separadamente para cada variable. A pesar de que las CPs se han obtenido 

globalmente combinando todas las variables, los errores de reconstrucción 

son similares para todas ellas. Sólo en el caso de considerar un número pequeño 

de CPs se pueden apreciar diferencias en los errores de reconstrucción, 

siendo éstos inferiores en patrones más suaves (por ejemplo Z o T). 

Por ejemplo, se pude adoptar como criterio que los errores de reconstrucción 

sean inferiores a los errores de asimilación habituales en los modelos 

numéricos. En la Fig. 3.4 se observa que utilizando tan sólo un 10 % de las 

variables originales se tiene un error de reconstrucción menor del 2 % de la 

desviación estándar de los campos 3D, cifra inferior a los errores promedio 

de asimilación. Un criterio alternativo para seleccionar el número apropiado 

de componentes principales sería utilizar la distancia promedio entre los 

patrones vecinos en una base de datos de re-análisis. 

Otro criterio más práctico para seleccionar el número óptimo de CPs 

sería elegir el que proporcione mejores resultados de validación cuando se 

aplique un método concreto. En esta Tesis se aborda el problema de la


RMSE of standarized fields 

0.4 

0.3 

0.2 

0.1 

0.02 

0.01 

Z 

T 

U 

V 

RH 

0 

10 15 20 25 

0 

0 5 10 15 20 25 

% of Principal Components 

Figura 3.4: Error RMSE de reconstrucción para cada una de las cinco variables 

en el Modelo 1 (el error es calculado para los campos 3D normalizados) frente al 

número de CPs (variando desde 1 % de la dimensión del vector original, al 25 %). 

predicción meteorológica probabilística local utilizando distintas técnicas de 

agrupamiento. Por tanto, un criterio a seguir para elegir el número óptimo 

de CPs sería en base al menor error de validación. Por ejemplo, la Fig. 

3.5 muestra la evolución del índice de pericia de Brier (Brier Skill Score, 

BSS; ver Cap. 4) en función del número de CPs consideradas al aplicar un 

método estándar de predicción local denominado k-NN (ver Cap. 5). Esta 

figura indica que el número de componentes relevantes para el método es 

sustancialmente bajo (menor de 25 para umbrales bajos de precipitación). 

Así mismo, se observa que a medida que el evento es más raro (por ejemplo 

Precip > 20mm), el número de componentes óptimo se incrementa sustancialmente. 

Este ejemplo ilustra que el número de componentes principales 

relevantes depende sustancialmente del problema que se desea resolver y del 

método utilizado para su resolución. 

0.5 

0.4 

0.3 

BSS 

0.2 

0.1 

> 0.1mm 

> 2mm 

> 10mm 

> 20mm 

0 

0 25 50 75 100 125 150 

Número de CPs 

Figura 3.5: Evolución del Brier Skill Score (BSS) para la predicción de los eventos 

Precip > 0.1mm, 2, 10, y 20mm.


3.2.2. Efectos de la Escala Temporal 

La escala temporal de los datos viene dada por el tipo de estudio que 

se desee realizar. En estudios de tipo climático, que sólo analizan patrones 

sinópticos promedio semanales o mensuales de gran escala, el número de 

componentes tomadas suele ser reducido, y cada una de las EOFs resultantes 

se analiza en el contexto de los distintos patrones de teleconexión, buscando 

una interpretación del patrón resultante, como se mostró en el Ejemplo 3.1. 

En cambio, cuando se llevan a cabo estudios sobre regiones más reducidas 

y con patrones de mayor variabilidad temporal (diarios, horarios, etc.) el 

número de CPs crece de forma considerable, ya que la correlación espacial 

de los patrones disminuye. En el siguiente ejemplo, se ilustra este hecho. 

Ejemplo 3.2 (Componentes Principales y Escala Temporal). Un 

ejemplo más notorio lo constituyen los datos de observaciones en un red 

de estaciones sobre una zona de interés. Se consideran las 100 estaciones 

climáticas de la red principal del INM mostradas en la Fig. 2.8, tomando 

patrones diarios formados por los correspondientes 100 valores diarios de 

temperatura, precipitación, o de racha máxima de viento. En la Figura 3.6 

se muestra el porcentaje de varianza explicada en función del número de CPs 

tomadas para el patrón atmosférico del Ejemplo 2.1 (Modelo 2) considerado 

en la sección anterior, y los patrones de observaciones de temperatura, 

precipitación y racha máxima. 

% Varianza explicada 

100 

80 

60 

40 

20 

0 

0 20 40 60 80 100 

%CPs 

(c) Temperatura máxima 

100 

(a) Patrones diarios 

(a) 

Estado de la Atmósfera 

Temperatura máxima 

Racha máxima 

Precipitación 


100 

80 

60 

40 

20 

Precipitación/24h 

Precipitación/10días 



0 

0 20 40 60 80 100 

%CPs 

(d) Racha máxima 

100 

(b) Precipitación 


90 

80 

70 

60 

50 

40 

Temperatura máxima/24h 

Temperatura máxima/10días 

Temperatura máxima/30días 

30 

0 20 40 60 80 100 

%CPs 


80 

60 

40 

Racha máxima/24h 

Racha máxima/10días 

20 



0 

0 20 40 60 80 100 

%CPs 

Figura 3.6: Porcentaje de varianza explicada en función del número de EOFs 

consideras para patrones atmosféricos, temperatura, precipitación y racha máxima.

3.3. TÉCNICAS DE AGRUPAMIENTO 43 

En esta figura puede verse que el patrón atmosférico está altamente correlacionado 

y, por tanto, el porcentaje de varianza explicado con unas pocas 

CPs es muy elevado; por el contrario, la precipitación y la racha máxima 

presentan una menor correlación espacial y requieren de un número mayor 

de EOFs para ser representados adecuadamente. La temperatura muestra un 

comportamiento intermedio. 

Por otra parte, las Figuras 3.6(b)-(d) muestran el aumento de la correlación 

espacial al considerar promedios temporales (medias diarias, decenal, 

mensual y estacional) de esas mismas variables. Por tanto, a medida que 

crece la escala temporal donde el patrón está promediado, decrece el número 

de CPs necesario para alcanzar un umbral requerido. Por tanto, estudios de 

escala estacional, o de cambio climático, que trabajan con promedios mensuales 

de las variables requerirán un número menor de CPs que estudios que 

requieran el uso de patrones diarios. 

3.3. Técnicas de Agrupamiento 

En esta sección se describen brevemente las técnicas clásicas y modernas 

de agrupamiento que son utilizadas en numerosas disciplinas para dividir 

un conjunto de datos en subconjuntos homogéneos siguiendo algún criterio 

de similitud (ver Anderberg, 1973, para una descripción detallada de estos 

métodos). Una primera división de estas técnicas se puede establecer en base 

a su carácter jerárquico o particional, según las características del proceso 

seguido para construir los grupos. 

3.3.1. Técnicas Jerárquicas 

Las técnicas de agrupamiento jerárquico son iterativas y proceden uniendo 

grupos pequeños (técnicas aglomerativas), o dividiendo grupos grandes 

(técnicas divisivas), donde el concepto de tamaño viene dado por la medida 

de similitud utilizada (correlación, distancia, información mutua, etc.). 

Dentro de estos métodos destacan los llamados SHAN, que comparten las 

siguientes características: 

Secuencial (Sequential): el mismo algoritmo es aplicado iterativamente 

a los grupos disponibles. 

Jerárquico (Hierarchical): la secuencia de uniones de grupos se representa 

mediante una estructura de árbol. 

Aglomerativa (Agglomerative): inicialmente cada punto del conjunto 

de datos es asignado a un grupo distinto; y el algoritmo procede 

uniendo los grupos mas similares hasta que el criterio de parada es 

alcanzado. 

Sin-solapamiento (Non-overalpping): ningún elemento puede pertenecer 

simultáneamente a dos grupos diferentes.


Varias alternativas son posibles, dependiendo de la métrica utilizada para 

definir la similitud entre grupos. Por un lado, el método conocido como “enlace 

promedio” define una distancia inter-grupo como la distancia promedio 

entre todos los posibles pares de elementos en los dos grupos comparados. 

Este método tiende a formar grupos con varianzas similares. Por otro lado, el 

“enlace de Ward” mezcla aquellos pares de grupos que minimizan la dispersión 

del grupo resultante. En este caso, el cuadrado de la distancia Euclídea 

es tomada como medida de diferencia (para más detalles sobre la aplicación 

de estos métodos en Meteorología consultar Kalkstein et al. (1987)). A 

continuación, se describe el método de Ward como ejemplo de estas técnicas. 

Dado un conjunto de datos {v 1 , v 2 , . . .,v n }, este método descompone la 

varianza total V en varianzas intragrupo, para los grupos actuales C i con 

centroides c i y peso, o masa, m i (en un paso de iteración dado) y la varianza 

entre grupos: 

V = ∑ m q ||c q − c|| 2 + ∑ ∑ 

m i ||v i − c q || 2 , (3.9) 

q 

q i∈C q 

donde c es el centroide global (media de los datos). 

Si dos grupos C i y C j , con masas m i y m j respectivamente, son unidos 

en un solo grupo, D, con masa m i + m j y centroide 

d = m ic i + m j c j 

m i + m j 

, (3.10) 

entonces la varianza V ij de C i y C j respecto a D pueden ser descompuestas 

por la ecuación 

V ij = m i ||c i − d|| 2 + m j ||c j − d|| 2 + m||d − c|| 2 . (3.11) 

El último término es el único que permanece constante si cambiamos C i y 

C j por el centro de gravedad D. Entonces, la reducción de la varianza será: 

Usando (3.10), se tiene: 

∆V ij = m i ||c i − d|| 2 + m j ||c j − d|| 2 . (3.12) 

∆V ij 

= m i ||c i − m ic i + m j c j 

|| 2 + m j ||c j − m ic i + m j c j 

|| 2 

m i + m j 

m i + m j 

m i m j 

= ||c i − c j || 2 . (3.13) 

m i + m j 

Luego la estrategia seguida por este método es la unión, en cada paso, de 

grupos C i y C j que minimiza ∆V ij (inicialmente cada punto es considerado 

como un solo grupo). Así que se puede considerar ∆V ij como la medida de 

disimilitud. Notar que los elementos con menos peso son los primeros en 

unirse entre sí. 

El algoritmo de agrupamiento puede ser representado gráficamente mediante 

un “dendrograma” (un árbol representando en diferentes niveles la 

jerarquía de uniones de los grupos individuales o grupos en diferentes pasos).


Ejemplo 3.3 (Regionalización Automática). Una de las primeras clasificaciones 

climatológicas basadas en criterios estadísticos es la debida a 

Köppen (1918), que definió un conjunto de climas basado en combinaciones 

de umbrales para la precipitación y temperatura en las distintas estaciones 

del año (ver Oliver, 1991, para una descripción histórica de las técnicas de 

clasificación climática). Esta clasificación aún continúa vigente y es el punto 

de partida de estudios más sistemáticos de regionalización. En fechas más 

recientes, las técnicas basadas en métodos de agrupamiento han mostrado 

ser simples y eficientes para este problema (ver Fovell and Fovell, 1993). 

A la hora de aplicar técnicas de agrupamiento para el problema de la regionalización, 

primero hay que decidir qué variables van a considerarse para 

definir la climatología local de las distintas estaciones. Existen numerosas 

fuentes de información que permiten y discriminar adecuadamente distintas 

regiones con climatologías homogéneas: geográficas (como longitud, latitud, 

elevación, pertenencia a cuencas hidrográficas), estadísticas (temperaturas 

extremas, medias mensuales, precipitación acumulada, humedad relativa, 

etc.). Las técnicas de agrupamiento permiten realizar de forma automática 

distintos experimentos combinando estas variables. En el siguiente ejemplo 

se muestra una sencilla aplicación considerando sólamente información relativa 

a la precipitación (ésta es la variable esencial en problemas hidrológicos, 

agrícolas y ecológicos). Cada estación es representada por un vector 

que caracteriza su climatología local. En este ejemplo, cada estación está caracterizada 

por un vector v = (mp v , mp i ), donde mp v y mp i son las medias 

estacionales de precipitación para verano e invierno, respectivamente. 

Se consideran datos de 30 años para un conjunto de 54 estaciones de la 

península Ibérica (ver Fig. 3.7(a)). 

44 

(a) 

(b) 

40 

36 

Norte 

Duero 

Tajo 

Guadiana 

Guadalquivir 

Mediterraneo 

Ebro 

-10 -5 0 5 -10 -5 0 5 

Figura 3.7: (a) Red de 54 estaciones automáticas en España; (b) Estaciones correspondientes 

a cada una de las siete cuencas hidrográficas principales: Norte, Duero, 

Tajo, Guadiana, Guadalquivir-Sur, Mediterraneo, y Ebro. 

En todos los casos, las observaciones de precipitación diaria están disponibles 

de 1970 a 2000, sin falta de datos ni lagunas. La Fig. 3.8 muestra los 

grupos obtenidos aplicando el algoritmo de Ward considerando un máximo 

de 7 grupos. La razón para este criterio de parada es la coincidencia con las 

siete cuencas hidrográficas principales de la Península (ver Fig. 3.7(b)). 

La Figura 3.8 ilustra la capacidad de discriminación de la variable de


44 

42 

40 

38 

36 

10 5 0 5 

1 LA CORUÑA 

1 ROZAS 

1 PARAYAS 

1 SANTANDER 

1 SONDICA 

1 GIJON 

1 OVIEDO 

1 ORENSE 

1 SAN SEBASTIÁN 

1 FUENTERRABÍA 

2 NAVACERRADA 

1 SANTIAGO 

1 VIGO 

5 SEVILLA_A 

5 SEVILLA_B 

5 JEREZ 

5 TARIFA 

5 MÁLAGA 

7 VITORIA 

7 PAMPLONA 

1 PONFERRADA 

2 LEÓN 

2 BURGOS 

2 SORIA 

2 SEGOVIA 

2 VALLADOLID_A 

2 VALLADOLID_B 

4 BADAJOZ 

4 HINOJOSA 

4 CIUDAD REAL 

6 MURCIA_A 

6 MURCIA_B 

6 CARTAGENA 

6 MURCIA_C 

6 ALICANTE_A 

6 ALICANTE_B 

7 LOGROÑO 

7 DAROCA 

7 ZARAGOZA 

3 CÁCERES 

4 HUELVA 

6 VALENCIA_A 

6 VALENCIA_B 

6 CASTELLÓN 

7 TORTOSA 

7 HUESCA 

3 MADRID 

5 GRANADA 

2 SALAMANCA 

2 ÁVILA 

2 ZAMORA 

3 MADRID 

3 TOLEDO 

5 ALMERÍA 

Figura 3.8: Análisis de agrupamiento mediante el enlace de Ward de 54 estaciones 

en la Península Ibérica caracterizado por el promedio de precipitación en Invierno 

y Verano. El dendrograma representa los diferentes grupos a un cierto nivel de 

profundidad, en el eje horizontal, y las distancias donde los elementos son unidos 

en diferentes niveles jerárquicos, en el eje vertical.


precipitación promediada. Los símbolos en las figuras corresponden a los diferentes 

grupos obtenidos, y el dendrograma muestra el proceso aglomerativo. 

La lista de estaciones correspondientes a un grupo es dada bajo el correspondiente 

símbolo en el dendrograma; el número precedente a los nombres 

de las estaciones corresponde a la cuenca hidrográfica a la que pertenece la 

estación (Norte, Duero, Tajo, Guadiana, Guadalquivir-Sur, Mediterraneo, 

Ebro). En esta figura se puede ver como la cuenca Norte es claramente separada 

del resto de cuencas (esta es la principal separación climatológica en 

la Península Iberica, que corresponde con un clima “oceánico-húmedo” de 

acurdo con la clasificación de Köppen). La única excepción corresponde a 

“Navacerrada” la cual se encuentra en una zona montañosa que presenta 

condiciones climatológicas parecidas a las estaciones de la cuenca Norte (al 

menos en promedio). 

Por otra parte, el grupo etiquetado con una estrella corresponde a una 

región con un clima “semiárido”. Finalmente los dos grupos restantes corresponden 

a regiones con clima “verano seco subtropical”. En este caso el grupo 

etiquetado por “+” se encuentra básicamente en la cuenca del Guadalquivir 

y Sur (con alguna excepción), y el grupo etiquetado con un cuadrado esta 

disperso sobre toda la Península Ibérica. 

Este ilustrativo ejemplo del procedimiento de clasificación por agrupamiento 

automático corresponde bastante bien con la regionalización estándar 

de Köppen para la Península Ibérica. 

3.3.2. Técnicas Particionales 

Los métodos de agrupamiento más convenientes para un gran número 

de patrones en un espacio alto-dimensional son los métodos de ajuste de 

centroides iterativos. El método más común es el algoritmo de las k-medias 

(ver Hastie et al., 2001). Dado un grupo de vectores reales d-dimensionales 

X = {x 1 , . . .,x n }, y un número prescrito de grupos m, el algoritmo de las 

m-medias calcula un conjunto de prototipos d-dimensionales, o centroides, 

{v 1 , . . .,v m } cada uno de ellos caracterizando a un grupo de datos C i ⊂ X 

formado por los vectores para los cuales v i es el prototipo más cercano. Esta 

tarea es realizada siguiendo un procedimiento iterativo, el cual comienza 

con un conjunto inicial de centroides v 0 1 , . . .,v0 m, elegidos aleatoriamente 

(ver Peña et al., 1999, para una descripción y comparación de diferentes 

procedimientos de inicialización). El objetivo del algoritmo es minimizar 

globalmente la distancia intra-grupos: 

∑ 

i=1,...,m 

∑ 

x j ∈C i 

‖x j − v i ‖ 2 (3.14) 

Ya que una búsqueda exhaustiva del mínimo es prohibitiva, se calcula un 

mínimo local mediante un ajuste iterativo de los centroides de los grupos, y 

re-asignando cada patrón al centroide más cercano. En la iteración (r + 1)- 

ésima, cada uno de los vectores x j es asignado al grupo i-ésimo, donde


i = argmin c ‖ x j − vi c ‖, y los prototipos son actualizados por medio de los 

correspondientes patrones: 

vi 

r+1 = ∑ 

x j /#C i , 

x j ∈C i 

donde #C i denota el número de elementos en C i . Bajo ciertas condiciones, 

el proceso iterativo anterior converge después de R iteraciones, y los centros 

finales vi 

R son los prototipos (centroides). Cada uno de los centroides v i 

representa un grupo C i formado por los patrones más cercanos a vi 

R que a 

cualquier otro centroide. El algoritmo de m-medias consiste en los siguientes 

pasos: 

1. Seleccionar el número de grupos deseados m. 

2. Inicializar los centros de los grupos (p.e. aleatoriamente). 

3. Repetir: 

a) Asignar cada vector (patrón atmosférico) al grupo más cercano. 

b) Re-calcular los centros de cada grupo, para que sean la media de 

los patrones de los patrones asignados a ese grupo. 

Ejemplo 3.4 (Clasificación de Patrones Atmosféricos). Se consideran 

los 5500 patrones atmosféricos del re-análisis ERA-15 definidos en el 

Ejemplo 2.1 en distintas rejillas (Modelos 1 y 2); para reducir la dimensionalidad 

del espacio, se toman las primeras 100 componentes principales (ver 

Ejemplo 3.1) y se consideran distintos números de grupos m = 100, 200, y 

400, que corresponden a distintos tamaños promedio de grupo: aproximadamente 

50, 25, y 15, respectivamente. Por ejemplo, las Figs. 3.9 (a) y (b) 

muestran los prototipos obtenidos al aplicar el algoritmo con m = 100 para 

los Modelos 1 y 3, respectivamente. 

3.4. Redes Auto-Organizativas (SOM) 

Las redes auto-organizativas (Self-Organizing Maps, SOM) son técnicas 

de agrupamiento especialmente indicadas para trabajar en espacios de alta 

dimensionalidad, ya que permiten organizar y visualizar los datos de forma 

intuitiva y eficiente proyectándolos en un espacio arbitrario (normalmente 

una red 2-dimensional). Existen distintos métodos empíricos y/o subjetivos 

para visualizar datos meteorológicos (ver Macedo et al. (2000)), pero las 

SOM tienen una serie de ventajas que serán utilizadas en esta Tesis (ver 

Cap. 6). 

A pesar de que esta técnica surgió en el contexto de la computación 

neuronal (Kohonen, 2000), las SOM son una generalización de la técnica 

de m-medias descrita en la sección anterior. En este caso, cada uno de los 

centroides (o prototipos) de la SOM tiene asociados dos vectores: uno en el

3.4. REDES AUTO-ORGANIZATIVAS (SOM) 49 

(a) 

PC2 

PC1 

(b) 

PC2 

PC1 

Figura 3.9: Agrupamiento del re-análisis ERA-15 con el algoritmo de k- 

medias considerando 100 grupos para (a) Modelo 1, (b) Modelo 3. El grafo 

muestra los patrones diarios y los centroides proyectados en el espacio de las 

dos primeras componentes principales. Las líneas de separación entre diferentes 

grupos también se muestran (estas líneas corresponden al diagrama 

de Voronoi asociado a los centroides).


espacio de los datos y otro en el espacio base bidimensional de proyección. 

La característica de esta técnica es la inclusión de un núcleo espacial de 

vecindad cuyo efecto es mantener unidos en el espacio de los datos aquellos 

centroides vecinos en el espacio 2D. La amplitud del núcleo decrece durante 

el entrenamiento alternando la noción de vecindad de global a local, 

de forma que cuando finaliza el entrenamiento los centroides vecinos están 

también cercanos en el espacio 2D. De esta forma, el proceso de aprendizaje 

proyecta la estructura topológica del espacio original en un espacio prefijado 

(una red 2D). En los últimos años, han sido numerosas las aplicaciones que 

han utilizado las ventajas de esta técnica (ver Oja and Kaski, 1999, y las 

referencias incluidas). En Meteorología la aplicación ha sido más reciente 

(ver Hewitson and Crane, 2002). 

Como se muestra en la Figura 3.10, una SOM esta formada por un número 

arbitrario de grupos C 1 , . . .,C m , localizados sobre una red regular en un 

espacio de baja dimensión, usualmente una red 2D para propósitos de visualización 

(en este caso m = s × s). El vector p k = (i, j) representa la 

posición del grupo C k sobre la red, donde 1 ≤ i, j ≤ s. Mas aún, cada uno 

de los grupos C k tiene asociado un vector prototipo c k = (c k1 , . . .,c kd ), el 

cual describe la posición del centro del grupo sobre espacio d-dimensional de 

los datos (miles de dimensiones o, cientos de componentes principales para 

patrones atmosféricos). Por ejemplo, si se consideran los dos patrones atmosféricos 

analizados en el Ejemplo 3.1, se tendrán espacios de dimensiones 

10710 (Modelo 1) y 8100 (Modelo 2). 

1000 

T 12 

. 

. 

. 

300 

T 12 

. 

. 

. 

1000 

V 12 

. 

. 

. 

300 

V 12 

ORIGINAL DATA 

u 1 

1 

u 2 

1 

. 

. 

. 

1 

u 4050 

... 

u 1 

5445 

u 2 

5445 v 1 

1 

. 

. 

. 

5445 

u 4050 

PCA 

COMPRESSED DATA 

v 2 

1 

. 

. 

. 

1 

v 600 

... 

v 1 

5445 

v 2 

5445 

. 

. 

. 

5445 

v 600 

w 1,1 

w 1,2 

w 1,600 

w 22,1 

w 22,2 

w 22,600 

5 x 5 SOM 

C 2 C 3 C 4 C 5 

C 1 

C 25 

C 6 C 7 C 8 C 9 C 10 

C 11 C 12 C 13 C 14 C 15 

C 16 C 17 C 18 C 19 C 20 

C 21 C 22 C 23 C 24 

Figura 3.10: Esquema de una SOM operando sobre las componentes principales 

asociados a los patrones de datos del re-análisis. En este caso, consideramos 

25 neuronas organizadas en una red 2D, las cuales llevan a 25 grupos 

diferentes con datos similares a las correspondientes neuronas vecinas. 

Siguiendo un procedimiento similar al algoritmo de m-medias los vectores 

de la SOM son inicializados a valores aleatorios. El objetivo del algoritmo 

de entrenamiento es adaptar iterativamente los vectores prototipo, de forma 

que el prototipo final represente a un grupo de datos (aquellos que están 

más cerca al prototipo). Lo que hace a la SOM diferente de otros algoritmos 

de agrupamiento es que el proceso de entrenamiento incluye un mecanismo


de adaptación tal que los grupos vecinos en la red 2D son también similares 

en el espacio real, mientras que grupos más distantes en la red son más 

distintos. 

Un de las implementación del algoritmo de entrenamiento se realiza en 

ciclos sucesivos; en cada ciclo se analiza cada uno de los vectores v i calculando 

el prototipo más cercano (o “ganador”) c ki , como aquel que minimiza 

la distancia al vector de datos: 

||v i − c ki || = min k ||v i − c k ||, k = 1, . . .,m. (3.15) 

Después de cada ciclo, los prototipos se recalculan en base al centroide del 

grupo correspondiente y de los grupos vecinos: 

c j = 

∑ ni=1 

v i h(||p j − p ki ||) 

∑ ni=1 , j = 1, . . .,m. (3.16) 

h(||p j − p ki ||) 

donde la función h(||p 1 −p 2 ||) es un núcleo de vecindad que mide las distancias 

de los grupos en la red 2D y determina la tasa de cambio de un prototipo 

en base a los grupos vecinos (normalmente se usa una función Gaussiana: 

h(x) = exp(−x/s(t)))). El radio de vecindad s(t) decrece monótonamente 

en el tiempo, suavizando las restricciones topológicas (se suele elegir un 

decaimiento lineal a cero para estas funciones). Para una descripción detallada 

de diferentes implementaciones del método, el lector puede consultar 

Oja and Kaski (1999). 

Hay que tener en cuenta que la ventaja de tener los grupos organizados 

en la red tiene un coste, ya que comparada con la técnica estándar de 

m-medias, la SOM pierde parte de la variabilidad de los grupos, en favor 

de la restricción topológica impuesta. Esto se debe a que en los métodos 

clásicos los centroides se mueven libremente en el espacio y sólo tienen que 

minimizar la varianza intra-grupos, mientras que en una SOM la relación 

de vecindad entre centroides supone un recorte de libertad de movimiento. 

Es decir, si no es necesario disponer de una topología para los prototipos es 

más conveniente y sencillo utilizar un algoritmo estándar, pero si se quieren 

estudiar transiciones o posiciones relativas entre diferentes prototipos, 

entonces la SOM resulta de gran utilidad. 

Ejemplo 3.5 (Clasificación de Patrones Atmosféricos). Los problemas 

de regionalización y clasificación ya han sido abordados con técnicas 

de agrupamiento en ejemplos anteriores. La ventaja de utilizar una SOM es 

que, además de obtener los grupos, se obtendrá también una organización 

de vecindad de los mismos. Ésto proporciona una útil visualización de las 

posibles transiciones e interrelaciones entre clases. En la Fig. 3.11 se muestra 

el resultado de aplicar este algoritmo a los dos modelos atmosféricos del 

Ejemplo 3.4 considerando redes de 100 = 10 × 10 prototipos. En esta figura 

se pueden observar los centroides finales, así como la red proyectada en el 

espacio de los datos (sólo se muestran las dos primeras CPs).


(a) 

PC1 

(b) 

PC2 

PC2 

PC1 

Figura 3.11: Proyección sobre las dos primeras CPs de los patrones atmosféricos 

de ERA-15 definidos con los (a) Modelo 1 y (b) Modelo 3, junto con la rejilla de la 

SOM resultante después del entrenamiento.


La Figura 3.12 muestra los patrones atmosféricos de los prototipos resultantes 

(temperatura en 500mb) para el primer cuadrante de la cuadrícula. 

Esta figura muestra que los patrones cercanos en la cuadrícula son parecidos 

entre sí, mientras que los lejanos corresponden a situaciones diferentes. 

Cada prototipo representa un grupo de días cuyo patrón atmosférico (según 

el modelo utilizado) es cercano al prototipo. 

Figura 3.12: Campos de temperatura en 500mb correspondientes a los prototipos 

de una subrejilla 5 × 5 de la SOM mostrada en la Figura 3.11. 

Ejemplo 3.6 (Clasificación de Fenómenos Adversos). En este ejemplo, 

se analiza el problema de la clasificación de situaciones atmosféricas relacionadas 

con fenómenos adversos de precipitación: Precip > 40mm/24h 

en alguno de los observatorios de la red de estaciones completas del INM en 

la Península y Baleares. La clasificación se ha restringido a aquellas fechas 

en las que se ha observado un fenómeno adverso según la definición anterior. 

Se ha realizado una clasificación en 16 clases con una SOM para el período 

1979-1993, considerando la configuración de los patrones atmosféricos dada 

por el Modelo 1 del Ejemplo 2.1. La Figuras 3.13 muestra los campos 

de geopotencial en 1000mb para los prototipos de los grupos obtenidos; por 

otra parte, la Fig. 3.14 muestra los patrones de precipitación asociados a 

cada grupo; estos patrones se han obtenido interpolando los valores de las 

estaciones de la red de estaciones completas del INM. En esta figura pueden 

observarse modos claros de precipitación en Galicia, Levante, etc., mostrando 

la conexión entre los patrones atmosféricos y la fenomenológica.


Figura 3.13: Campos de geopotencial en 1000mb correspondientes a los prototipos 

de una SOM 4 × 4 entrenada con los días del período ERA-15 asociados a 

precipitaciones fuertes en superficie. 

(19) [16 95]mm/24h (9) [19 54]mm/24h (10) [20 80]mm/24h (15) [12 110]mm/24h 

(11) [17 71]mm/24h (13) [16 88]mm/24h (16) [22 87]mm/24h (9) [17 90]mm/24h 

(7) [17 87]mm/24h (8) [21 80]mm/24h (43) [15 105]mm/24h (20) [14 59]mm/24h 

(6) [15 47]mm/24h (7) [22 93]mm/24h (17) [14 139]mm/24h (17) [13 82]mm/24h 

Figura 3.14: Patrones fenomenológicos de precipitaciones fuertes asociados a los 

grupos de la SOM. Entre paréntesis se muestra el número de elementos de cada 

grupo y entre corchetes el rango de precipitación observada.

3.5. REDES NEURONALES MULTICAPA 55 

3.5. Redes Neuronales Multicapa 

La computación paralela y las redes neuronales son dos nuevos paradigmas 

que han despertado en los últimos años un gran interés. El elemento 

clave de estos paradigmas es una nueva estructura computacional compuesta 

de un gran número de pequeños elementos procesadores interconectados 

(neuronas) trabajando en paralelo, en contraposición al proceso en serie 

tradicional. Actualmente, las redes neuronales han probado su valía para 

resolver problemas complejos en diversos campos, incluyendo la predicción 

meteorológica y oceánica (Schizas et al., 1994; Hsieh and Tang, 1998) y se 

han desarrollado diversas extensiones de estos modelos para cubrir deficiencias 

en los mismos y especializarlos en problemas concretos; por ejemplo, 

las redes funcionales han surgido como una generalización de estos modelos 

para poder incluir conocimiento cualitativo del problema en la estructura 

de la red (ver Castillo et al., 1999, para más detalles); por otra parte, los 

algoritmos genéticos han sido aplicados para optimizar la estructura de la 

red (Cofiño et al., 2003c), etc. 

En esta sección se describe un tipo particular de redes (las redes multicapa), 

que tienen especial interés en esta tesis por su interpretación como 

técnicas no paramétricas de regresión no lineal (para una descripción más 

general, incluyendo otros tipos de redes, ver Hastie et al., 2001). 

3.5.1. Estructura y Funcionamiento de las Redes Neuronales 

En analogía a los modelos biológicos, los modelos computacionales de 

redes neuronales están compuestos por un número de unidades simples de 

proceso (neuronas) conectadas entre sí en base a una topología definida. La 

funcionalidad de la red neuronal viene dada por la topología de conexión de 

las neuronas, por la función concreta que realice cada neurona (actividad 

neuronal), y por los pesos de conexión de unas neuronas con otras. La topología 

de conexión y la actividad neuronal definen el tipo de red neuronal 

concreta (multicapa, competitiva, etc.), y los pesos de las conexiones son 

los parámetros que, ajustados a un problema concreto, permiten a la red 

“aprender” y generalizar el conocimiento aprendido. En este sentido, las redes 

neuronales pueden ser considerados modelos estadísticos no paramétricos 

de regresión local. 

La Figura 3.5.1(a) muestra la topología concreta de conexión de una red 

neuronal multicapa y la Figura 3.5.1(b) muestra una descripción detallada 

de la actividad neuronal (analizada en más detalle en la siguiente sección). 

En este caso, el aprendizaje de los pesos de las conexiones se realiza en base 

a un conjunto de datos entrada-salida dado (aprendizaje supervisado). 

Las neuronas son los elementos procesadores de la red neuronal y realizan 

un sencillo cálculo con las entradas para obtener un valor de salida: 

n∑ 

n∑ 

y i = f( w ij x j − θ i ) = f( w ij x j ), (3.17) 

j=1 

j=0


(a) 

Inputs 

Outputs 

x 1 

w i1 

-1 

θ i 

(b) 

w 

x i2 2 

w i=0 

Σ 

in 

x n 

n 

wij x j f( ) 

n 

Σ wij x j 

i=0 

Figura 3.15: (a)Red neuronal multicapa y (b) la función procesadora de una 

única neurona. 

donde f(x) es la función activación y θ i es el umbral de activación de la neurona. 

Obsérvese que el umbral de activación se puede incluir en el sumatorio 

considerando una nueva neurona auxiliar x 0 = −1 conectada a y i con un 

peso w i0 = θ i . Por tanto, la salida de una neurona y i se obtiene simplemente 

transformando la suma ponderada de las entradas que recibe usando la función 

de activación (ver Fig. 3.5.1(b)). Las funciones de activación continuas 

más populares son: 

Funciones lineales: Son funciones que dan una salida lineal: 

f(x) = x; x ∈ R. 

Funciones sigmoidales: Son funciones monótonas acotadas que dan una 

salida gradual no lineal para las entradas. Las funciones sigmoidales 

más populares son: 

1. La función logística de 0 a 1 (ver Figura 3.16): 

f c (x) = 

1 

1 + e−c x. 

2. La función tangente hiperbólica de −1 a 1 (similar a la función 

logística, pero con el nuevo rango): 

f c (x) = tanh(c x). 

Funciones núcleo: Localizadas alrededor de un punto, como la distribución 

Gaussiana.


1 

0.8 

0.6 

0.4 

c=0.5 

c=1 

c=2 

0.2 

0 

-10 -5 0 5 10 

Figura 3.16: Función de activación sigmoidal logística f c (x) = (1 + e −c x ) −1 . 

3.5.2. Aprendizaje y Validación 

Una de las principales propiedades de las redes neuronales es su capacidad 

de aprender a partir de unos datos. Una vez que ha sido elegida la 

arquitectura de red para un problema particular, los pesos de las conexiones 

se ajustan para codificar la información contenida en un conjunto de datos 

de entrenamiento. Las redes multicapa son apropiadas para problemas de 

aprendizaje supervisado, donde se dispone de un conjunto de patrones de entrenamiento 

de la forma (x p ,y p ) = (x 1p , . . .,x mp ; y 1p , . . .,y np ), p = 1, . . .,a, 

donde se conocen los patrones de salida y p correspondientes a cada conjunto 

de patrones de entrada x p y se desea que la red sea capaz de reproducir estos 

patrones con el menor error posible. Este problema se reduce a obtener los 

pesos apropiados utilizando algún algoritmo de aprendizaje apropiado. 

Una vez terminado el proceso de aprendizaje y calculados los pesos de la 

red neuronal, es importante comprobar la calidad del modelo resultante. Por 

ejemplo, en el caso de aprendizaje supervisado, una medida de la calidad 

puede darse en términos de los errores entre los valores de salida deseados y 

los obtenidos por la red neuronal. Algunas medidas estándar del error son: 

1. La suma de los cuadrados de los errores (Sum of Square Errors, SSE), 

definida como 

n∑ 

‖ y p − ŷ p ‖ 2 . (3.18) 

p=1 

2. La raíz cuadrada del error cuadrático medio (Root Mean Square Error, 

RMSE) definida como 

n∑ 

√ ‖ y p − ŷ p ‖ 2 /n. (3.19) 

p=1 

3. El error máximo, 

máx ‖ y p − ŷ p ‖ . (3.20) 

p=1,...,n


También es deseable realizar una validación cruzada para obtener una 

medida de la calidad de predicción del modelo. Con este propósito, los datos 

disponibles se pueden dividir en dos partes: una parte destinada al entrenamiento 

de la red y otra parte a la validación. Cuando el error de validación es 

significativamente mayor que el error de entrenamiento, entonces se produce 

un problema de sobreajuste durante el proceso de entrenamiento que puede 

ser debido a un excesivo número de parámetros. 

3.5.3. Perceptrones (Redes de una Capa) 

Los perceptrones son las arquitecturas más simples y consisten en una 

capa de entrada, {x 1 , . . .,x m }, y una de salida, {y 1 , . . .,y n }, de forma que las 

neuronas de la capa de salida están conectadas con las de entrada y no hay 

conexiones entre las neuronas de una misma capa (ver Rosenblat, 1962). Para 

indicar el número de entradas y de salidas, este tipo de redes suelen denotarse 

de forma abreviada mediante m : n. Los perceptrones suelen denominarse 

también redes de retro-propagación de una única capa. 

En un perceptrón, una unidad de salida típica, ŷ j , realiza el cálculo: 

m∑ 

ŷ j = f( β ji x i ) = f(β T j x), j = 1, . . .,n. (3.21) 

i=0 

donde f(·) es la función de activación y β j el correspondiente vector de peso. 

Se denota mediante ŷ p = f(β j T x p ) al valor de salida obtenido insertando 

el correspondiente patrón de entrada en la red (3.21). 

Algoritmos de Aprendizaje 

En los algoritmos de aprendizaje para este tipo de redes se usan método 

de optimización matemática para obtener los pesos β j que minimizan una 

cierta función de error. Obsérvese que los pesos son los únicos parámetros 

desconocidos de la red y son los que proporcionan flexibilidad a la misma 

para ajustarse a distintas situaciones caracterizadas por un conjunto de patrones 

entrada-salida. 

Los algoritmos de aprendizaje se basan en minimizar la suma de los 

cuadrados de los errores (otras medidas distintas de error han dado lugar a 

algoritmos de aprendizaje diferentes que se comentan más adelante): 

E(β) = 1 ∑ 

(y jp − ŷ jp ) 2 = 1 ∑ 

||y p − ŷ p || (3.22) 

2 

2 

j,p 

p 

= 1 ∑ 

(y jp − f( ∑ β jiˆx ip )) 2 = 1 ∑ 

||y p − f(β T ˆx p )|| (3.23) 

2 

2 

j,p i 

p 

Dado que esta función es no lineal, no existe ningún método exacto para 

obtener su solución (los pesos óptimos), aunque recientemente Castillo et al. 

(2002) han presentado un nuevo método de aprendizaje para este tipo de


redes que transform al función de error haciéndola lineal en los parámetros 

del modelo (los pesos). 

Uno de los algoritmos de optimización más simples para este problema 

es el método del descenso de gradiente (también llamado “regla delta” en 

este caso). Se trata de un algoritmo iterativo que en cada etapa trata de 

modificar incrementalmente los pesos de forma que se obtenga un error 

menor (inicialmente se toma un valor aleatorio de los pesos). En este caso 

concreto el incremento de los pesos se obtiene en base a los vectores en los 

que la función de error disminuye más rápidamente, que corresponde con 

el opuesto del gradiente de la función de error respecto de los pesos, − ∇E 

(método del descenso de gradiente). Por tanto, en cada paso de iteración cada 

uno de los pesos β ji se modifica mediante un incremento ∆β ji proporcional 

al gradiente del error: 

∆β ji 

= −η ∂E(β) 

∂β ji 

= −η ∑ p 

(y jp − ŷ jp ) ∂ŷ jp 

∂β ji 

= −η ∑ p 

(y jp − ŷ jp )f ′ ( ∑ i 

β ji x ip )x jp , (3.24) 

∆β j = −η∇E(β) = −η ∑ p 

(y jp − ŷ jp )f ′ (β T j x p )x jp , (3.25) 

donde el parámetro η es la tasa de aprendizaje, es decir, la constante que 

regula la intensidad de la variación incremental de los pesos (obsérvese que la 

aproximación de la superficie de error mediante el gradiente es sólo válida en 

un sentido local y, por tanto, el rango de la tasa de aprendizaje está limitado 

por este hecho). 

Algunas funciones de activación permiten definir su derivada en función 

de sí mismas, simplificando la fórmula (3.24) al no involucrar derivadas 

formales: 

1 

f(s) = 

1 + e −c s ⇒ f ′ (s) = c f(s)(1 − f(s)), 

o 

f(s) = tanh(c s) ⇒ f ′ (s) = c (1 − f(s) 2 ). 

Si la función de activación fuese lineal (f(s) = s), las salidas de la red 

dadas en (3.21) se reducirían a una combinación lineal de las entradas, resultando 

los siguientes incrementos de los pesos: 

∆β ji = −η ∂E 

∂β ji 

= η ∑ p 

(y jp − ŷ jp )x ip , (3.26) 

que proporcionan la solución global del problema lineal (obsérvese que este 

problema puede resolverse en un sólo paso con técnicas de optimización 

lineal, no siendo necesario el uso de una técnica iterativa).


Mejoras y Modificaciones 

Han sido varias las modificaciones propuestas en la literatura con el propósito 

de mejorar la eficiencia de los métodos de aprendizaje anteriores. A 

continuación se describen las más populares: 

Término de inercia. Este término extra se introduce en la expresión 

de ∆β ji para acelerar la convergencia teniendo en cuenta no sólo el 

gradiente local, sino las distintas tendencias en la “superficie” de error. 

Con ello se evita que la red caiga en pequeños mínimos locales. La 

nueva regla de actualización viene dada por 

∆β ji = −η ∂E 

∂w ji 

+ µ∆ ′ β ji , 

donde ∆ ′ β ji hace referencia a los valores previos de ∆β ji (en el paso 

de iteración previo) y µ es el parámetro de inercia. 

Tasa de aprendizaje variable. En el método de descenso de gradiente, 

la tasa de aprendizaje es constante en todo el proceso de entrenamiento. 

Pero la eficiencia del algoritmo es muy sensible a la elección de la 

tasa de aprendizaje; si la tasa es muy grande el algorimo oscila y se 

vuelve inestable, y si es demasiado pequeño la convergencia es muy 

lenta. Tampoco es posible saber cual es el valor más conveniente de 

la tasa antes de comenzar el entrenamiento, e incluso puede cambiar 

durante el proceso de aprendizaje. Una tasa de aprendizaje adaptativa 

consiste en variar ésta según la complejidad local de la superficie de 

error. 

Métodos de regularización. Estos métodos incluyen términos de la función 

de error que penalizan pesos grandes: 

r∑ 

E(β) = p − ŷ p ) 

p=1(y 2 + λ ∑ i,j 

β 2 ji, (3.27) 

donde λ es un parámetro de regularización, que controla el equilibrio 

entre el modelo ajustado y la penalización. El efecto de esta regularización 

de los pesos es suavizar la función de error, ya que los pesos 

grandes están usualmente asociados a valores de salida altos (para 

una descripción más detallada desde un punto de vista estadístico ver 

Hoerl and Kennard, 1970). Esta técnica también está relacionada con 

el método de descomposición de los pesos que consiste en recortar las 

conexiones de la red que tengan poca importancia (pesos muy bajos). 

Ejemplo 3.7 (Clasificación con Perceptrones). En este ejemplo se ilustra 

la aplicación del perceptrón al problema de la clasificación. Concretamente 

el problema consistirá en la clasificación de la mezcla de dos nubes 

gaussianas con desviación 0.5 y medias 0.5 y -0.5, respectivamente (ver Fig.


3.17). Una primera aproximación al problema de clasificación es realizar una 

clasificación lineal, considerando una función de activación lineal f(x) = x. 

En este caso, el óptimo de la red neuronal es óptimo en el sentido de mínimos 

cuadrados y se muestra en la Fig. 3.18. 

2 

1.5 

1 

0.5 

0 

−0.5 

−1 

−1.5 

−2 

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 

Figura 3.17: Muestra de 100 puntos obtenida de la mezcla de dos distribuciones 

gaussianas de desviación 0.5 y media 0.5 y -0.5 

2 

0.4 

0.3 

1.5 

1 

0.5 

0 

0.1 

0.2 

−0.7 

−0.6 

−0.5 

−0.4 

−0.3 

2 

1.5 

1 

0.5 

0.6 

0.7 

0.8 

−0.2 

−0.1 

0.5 

0 

0.9 

1 

0.4 

0.3 

0 

−0.5 

−1 

0.5 

0 

0.1 

0.2 

−0.5 

−1 

−2 

−1 

2 

−1.5 

1.6 

1.7 

1.1 

1.5 

1.4 

1.3 

1.2 

0.6 

0.7 

0.8 

0.9 

1 

−2 

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 

0 

1 

2 −2 

0 

Figura 3.18: Superficie generada por el perceptrón lineal 

Para obtener un criterio de separación no lineal se puede considerar 

un perceptrón con una función de activación sigmoidal; en este ejemplo se 

utiliza la función sigmoidal. El óptimo obtenido se muestar en la Fig. 3.19. 

Obsérvese que en este último ejemplo la red es equivalente a un modelo de 

regresión o clasificación logística.


2 

1.5 

1 

0.5 

0.2 

0.1 

0.3 

0.4 

0.5 

0.7 

0.6 

0.8 

2 

1.5 

1 

0.5 

0 

−0.5 

−1 

−1.5 

0.9 

0.1 

0.2 

−2 

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 

0.3 

0.4 

0.5 

0.7 

0.6 

0.8 

0.9 

0 

−0.5 

−1 

−2 

−1 

0 

1 

2 −2 

0 

2 

2 

1 

0 

−1 

−2 

2 

−1 

1 

0 

0 

1 

−1 

2 −2 

Figura 3.19: Superficie generada por el perceptrón sigmoidal no lineal. 

Ejemplo 3.8 (Clasificación de Patrones de Precipitación). En este 

ejemplo se aplican las mismas técnicas que en el ejemplo anterior para 

clasificar patrones atmosféricos en base a la precipitación local asociada en 

un cierta estación (la ciudad de Santander). Para ello se ha considerado 

el patrón atmosférico definido en el Ejemplo 2.1 (ver Fig. 2.9(a)). En la 

Fig. 3.20 se muestran dos gráficas 2D correspondientes a distintas combinaciones 

de componentes principales de estos patrones. Se han dibujado con 

símbolos distintos aquellos patrones que corresponden a eventos de precipitación 

(Precip > 0.5mm) en la localidad de Santander. En la primera figura 

puede observarse que el poder de discriminación de las dos primeras CPs es 

muy bajo, mientras que la segunda figura muestra cómo la tercera CP aporta 

información que permite discriminar parcialmente ambas categorías. Dado 

que las CPs siguen distribuciones aproximadamente normales, el parecido 

de este problema con el anteriormente expuesto es notable. En secciones 

posteriores se analiza este problema en detalle.


CP2 

10 

20 

30 

40 

30 

20 

10 

0 

40 

40 20 0 20 40 

CP1 

CP3 

10 

20 

30 

40 

30 

20 

10 

0 

40 

40 20 0 20 40 

CP2 

Figura 3.20: Gráficos de (a) CP1 vs CP2 y (b) CP2 vs CP3 mostrando en distintas 

clases los eventos lluvia (Precip > 0.5mm) y no lluvia en Santander. 

3.5.4. Perceptrones Multi-Capa 

Además de una capa de entrada y una de salida, un perceptrón multicapa 

tiene capas internas ocultas. Los nodos de la capa de entrada alimentan 

la red distribuyendo hacia delante las señales de entrada. Cada nodo en 

las capas ocultas y de salida recibe una entrada de los nodos de las capas 

previas y calcula un valor de salida para la siguiente capa. La adición de 

capas ocultas proporciona a este tipo de arquitectura suficiente flexibilidad 

para resolver muchos problemas en los que los perceptrones simples fallan. 

Para cada una de las salidas, y i , un perceptrón multi-capa calcula una 

función y i = F i (x 1 , . . .,x m ) de las entradas de la forma: 

y i = f( ∑ i 

β ji f( ∑ k 

α ik x kp )). (3.28) 

Se ha demostrado que un perceptrón con dos capas ocultas puede aproximar 

con un grado de exactitud dado cualquier conjunto de funciones 

F i (x 1 , . . .,x n ). Cuando estas funciones son continuas entonces una única 

capa oculta es suficiente. Esto resuelve parcialmente uno de los principales 

defectos de los perceptrones multi-capa: el diseño de una estructura de red 

apropiada para un problema dado. Ahora, el problema se reduce a elegir 

un número apropiado de unidades ocultas para ajustar el modelo evitando 

el problema de sobreajuste. La solución a este problema habrá de lograse 

mediante un procedimiento de prueba y error en la mayoría de los casos. 

El método de aprendizaje más popular para perceptrones multi-capa es 

conocido como retro-propagación (backpropagation) y está basado en minimizar 

la función que da el error cuadrático total usando el método del 

descenso de gradiente.


El Algoritmo de Retro-propagación 

Supóngase que se tienen unos conjuntos de entradas {x 1p , . . .,x mp } y sus 

correspondientes salidas {y 1p , . . .,y np }, p = 1, . . .,a, como patrones de entrenamiento. 

Como en el caso del perceptrón simple, se considera la función 

que da el error cuadrático total: 

E(α, β) = 1 ∑ 

(y jp − f( ∑ 2 

j,p i 

= ∑ p 

β ji f( ∑ k 

α ik x kp ))) 2 

||y p − f(β T f(α T x p ))|| (3.29) 

donde β tiene por columnas los vectores de pesos de la neurona j-ésima de 

la capa de salida, y α los de la k-ésima neurona de la capa oculta. 

El algoritmo de retro-propagación está basado en la misma idea del descenso 

de gradiente usado en el método de la regla delta. Por tanto, se han de 

cambiar los pesos de forma que se descienda por la pendiente de la función 

de error: 

∆β ik = −η ∂E ; ∆α kj = −η ∂E , (3.30) 

∂β ik ∂α kj 

donde el término η es el parámetro de aprendizaje, relacionado con el índice 

del peso cambiante. 

Como (3.29) involucra los pesos de las neuronas ocultas y las de salida, 

el problema de actualizar iterativamente los pesos no es tan simple como en 

el caso de los perceptrones de una capa. Una solución a este problema fue 

dada con el algoritmo de retro-propagación de dos pasos (ver, por ejemplo, 

Rumelhart and McClelland, 1986). En primer lugar, la entrada de un patrón 

x p se propaga hacia delante obteniendo el valor de las unidades ocultas, ĥp, 

y la salida, ŷ p , y, por tanto, el error asociado. Los valores obtenidos se usan 

luego para actualizar los pesos β ik de la capa de salida usando (3.29). Más 

tarde, los pesos obtenidos se utilizarán para actualizar los pesos de la capa 

oculta, α kj , usando (3.29) para propagar hacia atrás los errores anteriores. 

La forma final de algoritmo resulta como sigue: 

1. Iniciar los pesos con valores aleatorios. 

2. Elegir un patrón de entrenamiento y propagarlo hacia adelante obteniendo 

los valores ĥp y ŷ p para las neuronas de las capas ocultas y de 

salida. 

3. Calcular el error asociado a las unidades de salida: 

δ jp = (y jp − ŷ jp )f ′ (β T j ĥp). 

4. Calcular el error asociado a las unidades ocultas: 

ψ jp = ∑ k 

δ jp β jk f ′ (α T k x p ).


5. Calcular: 

y 

∆β jk = η ĥk δ jp , 

∆α ki = −η ∑ j 

x ip δ jp ψ jp , 

y actualizar los pesos de acuerdo con los valores obtenidos. 

6. Repetir los pasos anteriores para cada patrón de entrenamiento. 

Ejemplo 3.9 (Sistemas no Lineales: El Sistema de Lorenz). En los 

últimos años, el análisis de sistemas no lineales ha cobrado un fuerte interés. 

Uno de los fenómenos más sorprendentes relacionados con estos sistemas 

es la aparición del caos determinista, caracterizado por su sensibilidad 

a las perturbaciones en las condiciones iniciales, que resulta en un 

comportamientos aparentemente impredecible y errático del sistema que se 

desarrolla sobre un soporte fractal en su espacio de fases llamado atractor 

(ver Grassberger and Procaccia, 1983, para más detalles). Los modelos de 

circulación atmosférica contienen términos no lineales, por lo que la teoría 

del caos ha tenido notable repercusión en este campo; de hecho, el caos fue 

analizado por primera vez por Lorenz (1963) en las ecuaciones de un modelo 

atmosférico simplificado: 

˙u(t) = (ẋ,ẏ, ż) = F(u(t)) = (σ(y − x), −x z + r x − y, x y − bz). (3.31) 

Lorenz dedujo estas ecuaciones cuando estudiaba la posibilidad de predecir 

la formación de tornados y otras estructuras convectivas tan frecuentes en la 

naturaleza y en tan diversas escalas. Las ecuaciones que describen este experimento 

tienen en cuenta los tres efectos más importantes que aparecen en 

formaciones convectivas: la fuerza debida al gradiente térmico, la viscosidad 

y la difusión térmica. 

Las variables (x, y, z) de la ecuación (3.31), forman lo que se denomina 

el espacio de fases o de estados (cada punto de este espacio es un estado o 

fase del sistema). Por ejemplo, para los valores de los parámetros σ = 10, 

b = 8/3, y r = 28, el sistema presenta una dinámica caótica. Partiendo de la 

condición inicial (x(0), y(0), z(0)) = (−10, −5, 35) y utilizando un método de 

integración de Runge-Kutta de cuarto orden y paso de integración τ = 10 −2 

se obtiene la evolución del sistema en el espacio de fases (Fig. 3.21). Por otra 

parte, la Fig. 3.22 muestra la evolución en el tiempo de las tres variables. 

Dado que estos sistemas son deterministas, pueden ser predichos a corto 

plazo utilizando una técnica de ajuste no paramétrico para inferir la estructura 

funcional del sistema a partir de los datos disponibles. Sin embargo, 

dada la sensibilidad de estos sistemas a las perturbaciones en sus condiciones 

iniciales, una predicción a largo plazo sólo es posible en términos 

probabilísticos. 

En este ejemplo se analiza la eficiencia de las redes multicapa para predecir 

la dinámica caótica del sistema de Lorenz. Para ello, se considera la

¡£ 

¤£ 

¡£ 

£ 

¥£ 

¦£ 

¡£ 

¤£ 


zn 

yn 

xn 

Figura 3.21: Atractor del sistema de Lorenz. 

x(t) 

¡¢ 

y(t) 

¡£ ¢£¢¡£¡¢ ¤£ 

z(t) 

t 

¢ ¡£ ¡¢ ¤£ 

Figura 3.22: Series temporales para cada una de las tres variables del sistema. 

serie temporal obtenida integrando el sistema. Esto es equivalente a extraer 

una muestra del sistema a intervalos de tiempo equi-espaciados t n = n τ, 

n = 0, 1, 2, . . .. Se está interesado en la aproximación del modelo funcional 

F a partir de una serie u 0 ,u 1 , . . .,u N . En este caso, el modelo inferido 

será de la forma u n+p = f(u n ), donde f estará dada en términos de F, del 

tiempo de muestreo τ, y del horizonte de predicción p. 

Para este propósito se considera una red multicapa con funciones de 

activación sigmoidales para las capas ocultas y lineales para la capa de salida. 

El proceso de entrenamiento es llevado a cabo considerando pares entrada– 

salida de la forma (u n ,u n+p ), donde p es el horizonte de predicción. Al 

tratarse de un sistema continuo se han considerado distintas redes multicapa 

3 : a : 3 con una única capa oculta con a neuronas, además de tres neuronas 

de entrada (x n , y n , z n ) y tres neuronas de salida (x n+1 , y n+1 , z n+1 ). Para 

cada una de estas redes (con a variando entre 1 y 20) se realizaron diez 

experimentos con diferentes pesos iniciales; en cada caso se tomó la mejor 

solución como el modelo neuronal aproximado representativo. Por ejemplo, 

la Figura 3.23(a) muestra los errores obtenidos para la variable de predicción


0.1 

(a) 0.1 

xn-xn 

0 

0 

-0.1 

0.015 

-0.1 

200 400 600 800 1000 

(b) 

0.015 

xn-xn 

0 

0 

-0.015 

-0.015 

200 400 600 800 1000 

Figura 3.23: Residuos x n − ˆx n para dos modelos neuronales con (a) seis y (b) 

quince neuronas en la capa oculta. Las redes neuronales han sido entrenadas con 

los 500 primeros puntos y una validación cruzada se realiza con los 500 últimos. 

Ningún sobreajuste se puede apreciar en ninguno de los modelos. 

n 

x con el mejor modelo de red de 6 neuronas en la capa oculta para ˆx n+1 : 

0.34 

−3768.18 − 

1 + e 9.31+0.53 xn−0.68 yn−0.21 + 0.92 

− 

zn 1 + e7.64−0.121 xn−0.149 yn−0.13 zn 

2.75 

1 + e 6.19+0.15 xn+0.0451 yn−0.09 − 2.04 

+ (3.32) 

zn 1 + e1.13+0.06 xn+0.0119 yn−0.06 zn 

7164.31 

1 + e −0.12+0.00021 xn−0.0002 yn+0.000021 − 63.52 

, 

zn 1 + e−0.24+0.08 xn−0.016 yn+0.0049 zn 

El error cuadrático medio (RMSE) obtenido por esta red fue de 0.133 para 

el proceso de aprendizaje y de 0.149 para la validación. Estos resultados 

muestran que no se produce sobreajuste en los datos. 

A pesar del buen comportamiento de la red de seis neuronas ocultas para 

la predicción a un paso, no está claro que el modelo neuronal obtenido pueda 

reproducir la dinámica del sistema de Lorenz. La Figura 3.24 ilustra este hecho 

mostrando la evolución de la red neuronal para dos condiciones iniciales 

distintas; en el primer caso, el sistema neuronal converge a una trayectoria 

periódica (Fig. 3.24(a)), mientras que en el segundo caso converge a un 

punto fijo (Fig. 3.24(b)); ninguno de ellos refleja el comportamiento caótico 

del sistema de Lorenz. 

Cuando se aumenta el número de neuronas en la capa oculta por encima 

de diez, el error disminuye y el comportamiento dinámico del modelo neuronal 

obtenido se asemeja al sistema caótico original. Por ejemplo, la Figura 

3.23(b) muestra el error de entrenamiento y de test asociados a una red 

multicapa con 15 neuronas en la capa oculta (este error es un orden de magnitud 

menor que el asociado con el modelo de 6 neuronas mostrado en (a)).


(a) 

10 20 

0 

-10 

-20 

(b) 

10 20 

0 

-10 

-20 

10 20 -10 

40 

40 

z 

30 

20 

10 

0 

-10 

x 

0 10 

y 

z 

30 

20 

10 

0 

-10 

x 

0 10 

Figura 3.24: Evolución en el espacio de fases de un modelo neuronal 3 : 6 : 3 con 

dos condiciones iniciales diferentes. La parte sombreada en el fondo corresponde a 

la órbita caótica original y se muestra con propósito ilustrativo. 

y 

El RMSE del entrenamiento y test fueron de 0.0221 y 0.0237, respectivamente, 

los cuales indican que no hubo sobre-ajuste. La Figura 3.25 muestra 

la evolución de los sistemas original y neuronal, comenzando en la misma 

condición inicial. El punto donde ambos sistemas comienzan a separarse 

(≈ t = 3) es aproximadamente el umbral impuesto por el comportamiento 

caótico en la precisión numérica de los cálculos realizados. 

(a) 

(b) 

z 

-20 -1001020 -20 -1001020 

40 

40 

30 

30 

z 

20 

20 

10 

10 

-10 y 

-10 0 0 10 

x 

10 

x 

(c) 

15 

x 

10 

-5 05 

-10 

-15 

0 1 2 3 4 5 

(d) 

y 

15 

x 

10 

-5 05 

-10 

-15 

0 1 2 3 4 5 

t n x 102 

Figura 3.25: Evolución en el espacio de fase de (a) el modelo de Lorenz y (b) un 

modelo neuronal aproximado con 15 neuronas ocultas. 

Finalmente, si se sigue incrementando el número de neuronas en la capa 

oculta por encima de veinte el error de entrenamiento continúa decreciendo, 

pero los modelos neuronales comienza a sobre-ajustarse a los datos. Como 

consecuencia, el comportamiento de estos modelos presenta diferencias 

significativas con el sistema original (la mayoría de las veces los modelos 

neuronales divergen asimptóticamente).

CAPÍTULO 4 

Validación de Sistemas Probabiĺısticos de Predicción 

Meteorológica 


Cada variable meteorológica y cada tipo de predicción requieren unos 

métodos de validación apropiados. En este capítulo se analizan las medidas 

de validación utilizadas a lo largo de la Tesis (para una introducción más 

general, se refiere al lector a Jolliffe and Stephenson, 2003). Una predicción 

es probabilística cuando la salida es una distribución de probabilidad sobre 

el rango de valores o categorías de la variable. La forma específica de esta 

distribución vendrá dada por las características de la variable analizada. Por 

ejemplo, la temperatura sigue una distribución normal y, por tanto, una predicción 

probabilística vendrá dada por la media y la varianza. Los meteoros 

son eventos binarios (nieve/no nieve) y su predicción se especifica en base 

a un única probabilidad. En otros casos, la situación es más complicada, 

especialmente en la precipitación, que es una variable mixta con carácter 

discreto (lluvia/no lluvia) y continuo (cantidad de lluvia). En este caso la 

predicción probabilística se puede dar de varias formas; la forma más sencilla 

es mediante una probabilidad de precipitación por intervalos, discretizando 

la variable en todo su rango (Fig. 4.1); otra forma es considerar la variable 

ocurrencia de precipitación (que se distribuye aproximadamente según una 

Gamma) y dar una predicción probabilística especificando su media (Fig. 

4.2). Esta misma distribución proporciona la probabilidad de cualquier evento 

discreto que se quiera considerar como, por ejemplo, que la precipitación 

supere un cierto umbral. Estos son los tipos de predicciones probabilísticas 

que se consideran en esta Tesis y cada uno de ellos tiene sus propias medidas 

de validación. 

Se pueden diseñar sistemas de predicción probabilística elementales como 

la persistencia(τ), donde la probabilidad de la variable observada o(t) para 

69

70 4. VALIDACIÓN DE PREDICCIONES PROBABILÍSTICAS 

0.6 

0.5 

Probabilidad 

0.4 

0.3 

0.2 

0.1 

0 

[0, 1) mm [1, 5) mm [5, 15) mm >15 mm 

Precipitación 

Figura 4.1: Predicción probabilística de precipitación discretizada. 

Probabilidad 

Prob. acumulada 

0.10 

0.08 

0.06 

0.04 

0.02 

PDF 

0 

0 5 10 15 20 25 30 35 40 45 

Precipitacion (mm) 

1 

0.83 

0.8 

0.6 

0.4 

CDF 

0.2 

La prob. de superar 15 mm es del 17% 

0 

0 5 10 15 20 25 30 35 40 45 

Precipitacion (mm) 

Figura 4.2: Funciones de densidad y distribución del fenómeno “ocurrencia de 

precipitación”. La probabilidad de que la precipitación supere un umbral se obtiene 

fácilmente a partir de la función de distribución. 

el instante t viene dada por los valores anteriores (o(t − 1), . . .,o(t − τ)); 

y la climatología, que puede ser definida como la climatología estacional, 

mensual, diaria, etc., donde la distribución para el instante t viene dada por 

los valores ocurridos en un cierto subconjunto del registro histórico. 

Son numerosos los aspectos que se pueden tener en cuenta para analizar 

la calidad de un sistema de predicción, especialmente en los sistemas de 

predicción probabilística. Sin embargo, no hay ninguna medida de validación 

que proporcione una información completa de la calidad del sistema, sino que 

cada índice de validación describe algún atributo particular de la relación 

entre observaciones y predicciones. Algunos de estos atributos caracterizan a 

un único sistema, mientras que otros son comparativos e indican la diferencia 

entre sistemas de predicción distintos (o entre un sistema y otro sistema de 

referencia como la climatología o la persistencia).

4.2. ASPECTOS DE LA CALIDAD DE UNA PREDICCIÓN 71 

4.2. Aspectos de la Calidad de una Predicción 

Murphy and Winkler (1987) establecen que toda la información de una 

validación está contenida en la distribución conjunta de predicciones o y observaciones 

ô: P(o,ô). En el caso particular de variables discreta (con estados 

o categorías C 0 , . . ., C d ), esta información se puede representar mediante una 

tabla de contingencia: 

Observación 

C 0 C 1 . . . C d 

C 0 P 00 P 01 . . . P 0d 

Predicción C 1 P 10 P 11 . . . P 1d 

. . . . . . 

C d P d0 P d1 . . . P dd 

que permite obtener distintos índices de validación en base a la información 

condicional o marginal asociada a la misma: P(o|ô), P(ô|o), P(ô), P(o); 

a pesar de las relaciones obvias que existen entre estas probabilidades, su 

interpretación y utilidad meteorológica es muy distinta y, por ello, cada 

índice aporta información interesante desde un punto de vista diferente. 

Una vez que se tiene la distribución conjunta formada por las predicciones 

y las observaciones P(o,ô), se pueden examinar sus características de 

varias formas: 

Se pueden analizar globalmente las correspondencias entre pares de 

observación-predicción; es decir, se analiza la distribución conjunta 

total. El Brier Score pertenece a este grupo. 

Se puede condicionar el análisis a valores concretos de la predicción. 

La fiabilidad, la resolución y la definición pertenecen a este grupo. 

P(o,ô) = P(o|ô)P(ô). (4.1) 

Se puede condicionar el análisis a valores concretos de la observación. 

La discriminación (área ROC, etc.) es de este tipo. 

P(ô, o) = P(ô|o)P(o). (4.2) 

Estos tres tipos de análisis de la distribución conjunta permiten examinar 

diferentes aspectos de la calidad de las predicciones, llamados atributos de 

la predicción. Murphy (1993) identifica una serie de atributos importantes 

para una predicción (numérica o probabilística): 

Sesgo o desviación sistemática (bias): Referido a la concordancia 

entre la predicción media y la observación media; un sesgo positivo indica 

una sobreestimación del valor a predecir, mientras un sesgo negativo 

indica una subestimación (por ejemplo, se predice menos cantidad 

de lluvia de la que realmente ocurre).


Asociación: Indica el grado de relación lineal entre observación y 

predicción. La covarianza y la correlación, son medidas de asociación. 

Precisión(accuracy): Relativa a la concordancia entre el valor previsto 

y el observado realmente, promediada sobre una muestra de parejas 

individuales de predicciones y observaciones. Medidas de precisión son, 

por ejemplo, el error absoluto medio, el error cuadrático medio, y el 

Brier Score (BS). 

Habilidad(skill) o precisión relativa: Es la precisión de un sistemas 

respecto a la obtenida con otro de referencia (por ejemplo, climatología 

o persistencia). Se definen de modo que un valor positivo (negativo) 

indica que el sistema es más (menos) preciso que el de referencia. El 

Brier Skill Score (BSS) es el más conocido. 

Fiabilidad(reliability) o bias condicional: Para que un sistema sea fiable, 

la probabilidad prevista y la observada deben coincidir lo máximo 

posible en todo el rango de probabilidad; cuando no es así se habla de 

bias condicionado. La fiabilidad se refiere a un determinado evento y 

se representa gráficamente dibujando la curva de probabilidad prevista 

frente a probabilidad observada (climatológica) para intervalos de 5 

ó 10 % (ver Fig. 4.3). Cuanto más cerca esté de la diagonal más fiable 

será el sistema de predicción probabilística. 

probabilidad observada 


1 

0.8 

0.6 

0.4 

0.2 

(a) Fiabilidades individuales 

184 localidades de la Península, 

Baleares y Canarias 

0 

0 0.2 0.4 0.6 0.8 1 

probabilidad prevista 

1 

0.8 

0.6 

0.4 

0.2 

(c) Fiabilidades individuales 

184 localidades de la Península, 

Baleares y Canarias 

0 

0 0.2 0.4 0.6 0.8 1 




1 

0.8 

0.6 

0.4 

0.2 

(b) Fiabilidad media 

Evento: Precipitación > 0.1 mm 

% 

0 

0 0.2 0.4 0.6 0.8 1 


1 

0.8 

0.6 

0.4 

0.2 

(d) Fiabilidad media 

Evento: Precipitación > 20 mm 

0 

0 0.2 0.4 0.6 0.8 1 


Figura 4.3: Curvas de fiabilidad individuales y promedio para (a)-(b) Precip > 

0.1mm y (c)-(d) Precip > 20mm.

4.2. ASPECTOS DE LA CALIDAD DE UNA PREDICCIÓN 73 

Cuando se analiza la fiabilidad de distintas predicciones (por ejemplo, 

distintos observatorios), utilizar el promedio es un concepto engañoso, 

ya que las fiabilidades individuales generalmente son peores, 

como ocurre cuando se promedian errores. La fiabilidad media únicamente 

indica si el sistema subestima o sobreestima en promedio. En la 

Fig. 4.3 se muestran las fiabilidades obtenidas al aplicar un método de 

predicción local a 184 observatorios Españoles. Las Figs. (a)-(b) están 

asociadas al evento Precip > 0.1mm, mientras que (c)-(d) corresponden 

a Precip > 20mm. Se aprecia que la fiabilidad es mayor/menor en 

probabilidades extremas/intermedias; en este caso, el promedio resulta 

ser aceptablemente representativo de las fiabilidades individuales, ya 

que todas subestiman. Además se ve como se deteriora la fiabilidad a 

medida que el evento es más raro. 

Es muy importante estudiar la fiabilidad de los sistemas para diferentes 

eventos, ya que los eventos raros casi nunca se predicen con 

probabilidades altas, manifestando una fuerte pérdida de fiabilidad 

que debe ser corregida, como en la Fig. 4.3 (c)-(d). Existen diversas 

técnicas para realizar estas correcciones, entre las que se encuentran 

las de inflado que básicamente consisten en hacer un cambio de escala 

para aumentar la varianza estimada hasta su valor real. Existen versiones 

más sofisticadas, como la del expanded downscaling, donde la 

corrección se realiza mediante correlación canónica (Burguer, 1996). 

Estas técnicas paramétricas de inflado tienen como contrapartida que 

el error del estimador corregido siempre es mayor que el del estimador 

original (ver von Storch, 1999, para más detalles). 

Definición: Es la distribución de las probabilidades predichas. La definición 

se representa mediante un histograma que representa las frecuencias 

de las probabilidades previstas. Es deseable que el histograma 

tenga forma de ’U’ de manera que prediga pocas veces valores ambiguos 

en torno a 0.5 (ver Fig. 4.4). 

0.6 

0.5 

Frecuencia 

0.4 

0.3 

0.2 

0.1 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Probabilidad Prevista 

Figura 4.4: En negro la definición ideal y en blanco un ejemplo de definición real.


4.3. Medidas de Validación de Predicciones Probabiĺısticas 

Si se tiene un conjunto de observaciones o 1 , o 2 , ..., o n sobre las que se 

realizan las predicciones ô 1 , ô 2 , ...,ô n , los índices de validación más habituales 

son los de precisión y habilidad, ya que proporcionan una medida numérica 

de la calidad de la predicción realizada. 

4.3.1. Brier Score 

El Brier Score(BS) (Brier, 1950) es una medida clásica de la calidad 

(precisión) de una predicción probabilística para una variable discreta. Es 

una distancia medida en unidades de probabilidad para la ocurrencia de las 

distintas categorías de la variable. 

BS =< (p i − o i ) 2 > i , (4.3) 

donde p i = P(ô i = 1), y o i es 1 si ocurre el evento y 0 en caso contrario. El 

valor de BS es nulo para una predicción perfecta. 

Es muy usual utilizar la descomposición del Brier score como suma de 

tres componentes; para realizar la descomposición se utiliza el siguiente argumento 

(véase Murphy, 1973): 

(p i − o i ) 2 = f i (p i − 1) 2 + (1 − f i )p 2 i , (4.4) 

donde f i = p(o i = 1|p i ) es el número de casos observados de entre los 

previstos con probabilidad p i . Por tanto, 

BS = BS f − BS r + I, (4.5) 

donde BS f es la componente de fiabilidad cuya expresión es: 

BS f =< (p i − f i ) 2 > (4.6) 

BS r es la componente de resolución cuya expresión es: 

BS r =< (f i − p c ) 2 > (4.7) 

p c es la probabilidad climática del evento. Por último I es la componente de 

incertidumbre cuya expresión es: 

I = 1 M 

M∑ 

(p c − o i ) 2 = P c (1 − P c ). (4.8) 

i=1 

I es el Brier Score de un sistema de predicción climatológico. 

El BS da una idea del error cometido en una predicción, pero no dice nada 

acerca de la dificultad de dicha predicción. La dificultad de una predicción 

está muy asociada con su rareza, cuanto más infrecuente sea, es más difícil 

de predecir; por ejemplo, es mucho mas difícil predecir lluvia en Almería que 

en Santander. Por otra parte, si el evento es muy raro, como por ejemplo

4.3. MEDIDAS DE VALIDACIÓN DE PREDICCIONES PROBABILÍSTICAS 75 

la lluvia en Almería, un sistema sin utilidad que siempre diga que no va a 

llover (como la climatología o la persistencia) tendría un BS casi nulo por 

lo que sería casi imposible de superar por un sistema de mayor utilidad. Es 

decir, cuando está muy descompensada la frecuencia de ocurrencia y de no 

ocurrencia, el BS sólo es representativo del evento más frecuente. 

Precipitación > [0.1−2−10−20] mm, 184 localidades, PPS: ProMeteo 

0.7 

Brier Score Climatología 

Brier Score Predicción 

Brier Skill Score 

0.6 

probabilidad climatológica 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 

Score 

Figura 4.5: Brier Scores y Brier Skill Scores correspondientes a un sistema de predicción 

para 184 estaciones completas y cuatro eventos de precipitación. A medida 

que el error es inferior al error climatológico el BSS aumenta, los valores máximos 

se dan para p c = 0.5. 

4.3.2. Brier Skill Score 

Como se ve en la fig.4.5, el BS da una idea muy particular del comportamiento 

de un sistema de predicción ya que depende fuertemente de la 

frecuencia del evento, de la localidad donde se aplica y de la serie utilizada. 

Por tanto, si se quiere conocer correctamente la calidad del sistema, se 

tendrían que especificar todos y cada uno de los valores del BS para cada 

localidad y para cada evento, resultando una matriz de datos diferente 

para cada período considerado. Para evitar este problema se puede obtener 

una medida de validación relativa, en lugar de absoluta, considerando 

un sistema de predicción de referencia (como la climatología o la persistencia) 

(Talagrand, 1997). A estas medidas relativas se las denomina índices de 

pericia (Skill Scores, SS) y se calculan de la siguiente forma: 

SS = P(o = 1|p) − P(o = 1|p c) 

1 − P(o = 1|p c ) 

(4.9)


donde p es el sistema de predicción que se desea validar, p c es el sistema 

de referencia, y P(o = 1|p) es la probabilidad de que se produzca el evento 

dado que el sistema lo predice con probabilidad p. 

Teniendo en cuenta que el BS es equivalente a 1 − P(o = 1|p), se puede 

obtener un índice de pericia a partir de (4.9). Este índice se denomina Brier 

Skill Score (BSS): 

BSS = 1 − BS p 

BS c 

, (4.10) 

donde BS p es el BS del sistema de predicción y BS c el BS de la climatología 

(u otro sistema de referencia). La interpretación es sencilla: Si BSS > 0, 

entonces el sistema de predicción es mejor que el climatológico; en cambio, 

si BSS < 0 el sistema no mejora la climatología. En el caso de que BSS = 1 

se tendría una predicción perfecta. 

4.4. Validación de Predicciones Categóricas 

Cuando la predicción se refiere a la ocurrencia o no-ocurrencia de las 

categorías de una variable discreta, se habla de predicciones categóricas. Las 

predicciones categóricas se verifican utilizando tablas de contingencia, que 

se construyen combinando todas las posibilidades entre categoría prevista y 

categoría observada. 

Este tipo de predicciones son populares para variables binarias (por ejemplo, 

Precip > 0.1mm). En este caso, dada una predicción probabilística 

P(Precip > 0.1mm) = p, se puede asociar una predicción categórica considerando 

un cierto umbral de probabilidad u p para determinar la ocurrencia 

o no del evento. Por ejemplo, si se toma u p = 0.5 se determinará la ocurrencia 

del evento si la probabilidad es superior a 0.5 y se determinará la no 

ocurrencia en caso contrario. En el caso binario, las tablas de contingencia 

están determinadas por cuatro parámetros: 

Observado 

Si No 

Previsto Si α β 

No γ δ 

Para variables binarias definidas a partir de una variable continua, utilizando 

un umbral, se tiene una tabla de contingencia diferente para cada valor del 

umbral utilizado u p ; por tanto, α, β, γ y δ dependen de u p . 

Si se quieren contrastar dos sistemas de predicción, para un determinado 

rango de operación, los criterios globales como el BSS pueden inducir a 

equivocaciones a la hora de elegir el mejor sistema. Cuando se toman decisiones, 

se pueden cometer dos tipos de errores: falsa alarma y omisión, 

conocidos como errores de Tipo I y Tipo II respectivamente. Generalmente 

en Meteorología, se considera que la omisión es un error más grave que la 

falsa alarma y esto conduce a que el error más frecuente es, el de Tipo I.

4.4. VALIDACIÓN DE PREDICCIONES CATEGÓRICAS 77 

Sin embargo si se producen muchas falsas alarmas se pierde credibilidad. 

Un aspecto importante a tener en cuenta es que la importancia relativa de 

estos dos errores es diferente para diferentes usuarios. Por ello, hay que tener 

en cuenta los requerimientos específicos del usuario a quien va dirigida la 

predicción. 

A continuación se describen algunas de las medidas más utilizadas. Para 

indicar su rango de valores y el valor óptimo, se utilizará la notación: [a,b] 

donde se indica el rango y el valor óptimo (en negrita). 

Precisión [0,1]: 

ACC = 

α + δ 

α + β + γ + δ 

(4.11) 

Realmente mide la proporción de aciertos, y puede ser maximizada prediciendo 

siempre la categoría más común. En regiones donde el evento 

es muy raro, se hace prácticamente la unidad debido al gran número 

de aciertos negativos (no aporta información para eventos raros). La 

precisión de un sistema que nunca predice el evento es: 

ACC no = 

δ 

γ + δ = 1 − p c (4.12) 

0.7 

0.6 


Sistema I (10%) 

Sistema II (50%) 

Vigo 

Vigo 

Sistema NO (100%) 


0.5 

0.4 

0.3 

0.2 

Región Húmeda 

0.1 

Región Arida 

0 

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 

Precisión(ACC) 

Figura 4.6: Se constata una fuerte dependencia entre la precisión y la rareza del 

evento para diferentes umbrales de predicción en diferentes localidades. El sistema 

II resulta ser el más preciso en todo el rango. La recta negra representa a la precisión 

del sistema que nunca predice la ocurrencia del evento. 

En la figura 4.6 queda claro que atendiendo a la precisión, el sistema 

con el umbral de predicción del 50 % es mejor; además, se ve que un 

promedio global de ACC para todas las localidades estaría fuertemente


sesgado en favor de las regiones áridas, por lo que el empleo de éste 

índice no es aconsejable para ello. 

Critical Success Index ó Threat Score [0,1]: 

CSI = 

α 

α + β + γ 

(4.13) 

Es similar a la precisión, pero se han quitando los aciertos negativos. 

Aunque es más equilibrado que el ACC, sus mayores valores se dan 

en aquellas localidades donde el evento es más común. El CSI de un 

sistema que nunca predice el evento es nulo, mientras que el CSI de 

un sistema que siempre lo predice es: 

CSI si = 

α 

α + β = p c (4.14) 

Al igual que la precisión, es muy inestable para eventos raros. 

0.7 

0.6 




Sistema SI (0%) 


0.5 

0.4 

0.3 

0.2 

Región Húmeda 

0.1 

Región Arida 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 

Critical Success Index(CSI) 

Figura 4.7: Nuevamente se constata una notable dependencia respecto a la rareza 

del evento para diferentes umbrales de predicción en diferentes localidades. La línea 

negra corresponde al sistema que siempre predice el evento. 

En la figura 4.7 no queda claro qué sistema es mejor según el criterio 

del CSI ya que el sistema II con el umbral de predicción del 50 % es 

mejor en zonas húmedas mientras que el sistema I con el 10 % resulta 

mejor para zonas áridas, o equivalentemente para eventos raros; como 

en el caso del ACC, no es recomendable un promedio global de CSI 

para toda las localidades ya que es muy inestable en la zona de eventos 

raros.


Hit Rate(HIR) [0,1]: 

HIR(u p ) = P(p ≥ u p |o = 1) = 

α 

α + γ 

(4.15) 

Es una medida de precisión, que mide la probabilidad de detección; es 

decir, predecir eventos que realmente se han observado. 

False Alarm Rate(FAR) [0, 1]: 

FAR(u p ) = P(p ≥ u p |o = 0) = 

β 

β + δ 

(4.16) 

También es una medida de precisión, que mide la proporción de fallos 

cuando se predice positivamente un evento. Obsérvese que el concepto 

habitual de falsa alarma es un suceso que se ha predicho, pero luego no 

ha ocurrido; sin embargo, en este caso, el evento que condiciona es na 

no ocurrencia del evento. Con este cambio se consigue que cualquier 

usuario tendrá un criterio de comparación referido siempre a la incertidumbre 

climatológica del evento, que es un invariante estadístico 

independiente del tipo de sistema de predicción empleado. 

Curvas ROC (Relative Operating Characteristics) 

Las Curvas ROC permiten validar de forma uniforme los sistemas de 

predicción categóricos basados en umbrales de probabilidad. Se obtienen 

representando los valores FAR frente a los HIR para diferentes 

umbrales de probabilidad u p . Sobre ellas se pueden comparar dos sistemas 

diferentes, para los niveles relativos de falsas alarmas y omisiones 

que más convengan al usuario. 

Hay que tener en cuenta cómo se categoriza respecto a u p ; si tomamos 

u p = 0, el evento se predice siempre, y por tanto FAR(0) = 1 y 

HIR(0) = 1. En cambio si se toma u p = 1, el evento sólo será predicho 

cuando éste genere valores de p = u p = 1, por lo que no necesariamente 

FAR(100) = 0 y HIR(100) = 0. Por contra, si la definición de los 

umbrales fuese menor o igual en vez de mayor o igual, tendríamos que 

la curva ROC pasa necesariamente por (0, 0). 

La curva ROC para el PPS climatológico 

Es sencillo simular un sistema de predicción climatológico utilizando 

una variable uniforme que genere 0 con probabilidad (1 − p c ) y 1 con 

probabilidad p c . La tabla de contingencia resultante sería: 

Observado 

Si No 

Previsto Si p 2 c 

No p c (1 − p c ) 

p c (1 − p c ) 

(1 − p c ) 2


en este caso: 

HIR(p c ) = FAR(p c ) = p c (4.17) 

Y si se utiliza un umbral u p , se obtienen fácilmente dos puntos: el (0, 0) 

y el (1, 1), ya que en este caso, el pronóstico climático es 0 ó 1, por 

tanto, se considera que la curva ROC de los sistemas climatológicos 

siempre está sobre la diagonal. 

En la figura 4.8 se ve cómo reduciendo el valor del umbral u p , se 

consigue aumentar el HIR con poco aumento de FAR hasta que, dependiendo 

del sistema de predicción, un pequeño aumento en el HIR 

produce un gran aumento en el FAR. Operando con un umbral inferior 

a la probabilidad climatológica, el sistema comete más falsas alarmas 

que aciertos, ya que la pendiente de la curva ROC se hace menor que 

la diagonal. 

Precipitación > [0.1] mm, 184 localidades, PPS: ProMeteo 

1 


0.8 

Sistema III (up=pc) 

Precipitación > [2] mm, 184 localidades, PPS: ProMeteo 

1 


0.8 


HIR 

0.6 

0.4 


HIR 

0.6 

0.4 


0.2 

0.2 

0 

0 0.2 0.4 0.6 0.8 1 

FAR 


1 

0 

0 0.2 0.4 0.6 0.8 1 

FAR 


1 

0.8 


0.8 

HIR 

0.6 

0.4 


HIR 

0.6 

0.4 


0.2 

0.2 



0 

0 0.2 0.4 0.6 0.8 1 

FAR 

0 Sistema II (50%) 

0 0.2 0.4 0.6 0.8 1 

FAR 

Figura 4.8: Ejemplo de curvas ROC promediadas para cuatro eventos de precipitación. 

Se han reasaltado los umbrales correspondientes a distintos sistemas. 

Para cada umbral de probabilidad, el mejor sistema será aquel cuya 

tasa HIR sea más alta para un mismo nivel de FAR. El criterio más 

empleado es el del área bajo la curva ROC, de forma que es mejor 

aquel sistema que mayor área cubre bajo su curva ROC. Por ejemplo, 

la Fig. 4.9 muestra las áreas bao la curva ROC para las predicciones 

sobre 196 estaciones de la Península consideradas anteriormente. Se 

pone claramente de manifiesto que lo que para algunas estaciones es 

un evento raro, para otras es muy común. Asimismo, el área ROC


aumenta exponencialmente con la probabilidad climatológica. 


0.6 


0.5 


0.5 

0.4 

0.3 

0.2 

0.1 


0.4 

0.3 

0.2 

0.1 

Eventos Raros 

0 

0.5 0.6 0.7 0.8 0.9 1 

Roc Area 

Eventos Raros 

0 

0.5 0.6 0.7 0.8 0.9 1 

Roc Area 


0.2 


0.1 


0.15 

0.1 

0.05 

Eventos Raros 


0.08 

0.06 

0.04 

0.02 

Eventos Raros 

0 

0.5 0.6 0.7 0.8 0.9 1 

Roc Area 

0 

0.5 0.6 0.7 0.8 0.9 1 

Roc Area 

Figura 4.9: Areas ROC frente a la frecuencia climatológica de cuatro eventos de 

precipitación parar 196 estaciones en la Península. 

Valor Económico [-inf,1] 

Un potencial usuario de un sistema de predicción puede tomar alguna 

acción preventiva dependiendo de la probabilidad de que un determinado 

evento ocurra. Adoptar la acción preventiva supone un coste C 

independientemente de que el evento suceda o no; por otro lado, si 

ocurre el evento y no se toma ninguna acción se produce una pérdida 

P. El usuario necesita un criterio sencillo que le permita adoptar la 

estrategia que minimice los gastos. 

Una curva ROC indica, para cada u p , la relación entre la tasa HIR y 

la tasa FAR de un determinado sistema de predicción. Como se mencionó 

anteriormente, esta información por sí sola no es completa ya 

que es muy importante especificar la probabilidad de ocurrencia del 

evento, es decir, su probabilidad climática, que marca el límite a partir 

del cual el valor de falsas alarmas supera al de aciertos en valor absoluto. 

Es obvio que no todos los usuarios admiten el mismo número de 

falsas alarmas. Por un lado, cuantas más falsas alarmas pueda admitir 

el usuario, conseguirá mayor número de aciertos con el mismo sistema; 

sin embargo, por otra parte, el número de falsas alarmas no puede 

crecer indefinidamente ya que desde un punto de vista económico, la 

alarma conlleva la toma de acciones preventivas que tienen un coste


C, mientras que la omisión de un evento conlleva unas pérdidas P, de 

tal manera que si un evento se presenta con probabilidad P c , el gasto 

generado por las acciones preventivas nunca deberá superar el límite 

P ∗ P c . La tabla de gasto sería: 

Observado 

Si No 

Acción Si α . Coste β . Coste 

Preventiva No γ . Pérdida δ . 0 

De acuerdo con la tabla, el gasto del sistema sería: 

Utilizando (4.15) y (4.16) queda: 

G = αC + βC + γP (4.18) 

G = HIRP c C + FAR(1 − P c )C + (1 − HIR)P c P (4.19) 

Si el sistema fuese perfecto, entonces HIR = 1 y FAR = 0 por lo que: 

G perfecto = P c C (4.20) 

y utilizando como sistema de referencia el climatológico se tendría: 

G climatico = min[C, P c P] (4.21) 

ya que como se dijo anteriormente, el gasto generado por las acciones 

preventivas nunca deberá superar el límite P P c . 

Definiendo el valor económico como la diferencia del gasto, respecto a 

un sistema perfecto, del sistema que se pretende validar frente a un 

sistema climatológico, se tiene: 

V = 

G − G climatico 

G perfecto − G climatico 

(4.22) 

sustituyendo y poniendo V en función de R = C/P, es decir, de la 

relación Coste-Pérdidas: 

V = HIRP cR + FAR(1 − P c )R + (1 − HIR)P c − min[R, P c ] 

P c R − min[R, P c ] 

(4.23) 

• Ya que tanto HIR como FAR dependen del umbral de probabilidad 

(u p ), V es función de u p y R: V = V (u p , R) es decir, existe 

una curva V = f(R) para cada valor de u p . 

• Para cada valor de R existe un único valor de u p que maximiza 

el valor económico del sistema.


• El valor económico máximo se produce cuando R = P c para cualquier 

u p . 

• Cuando R de 

rápidamente su valor económico ya que el coste de la acción preventiva 

se hace tan pequeño que llega a ser rentable una acción 

preventiva permanente haciendo que el sistema sea obsoleto. 

• Del mismo modo si R > P c , y a medida que R aumenta, el sistema 

pierde más lentamente su valor económico a costa de ir aumentando 

u p para reducir las falsas alarmas hasta que, incapaz de 

soportar más falsas alarmas, vuelve a hacerse obsoleto. 

Valor Economico 



1 

HK Score 

Pc: 0.28 HK Score(Pc) 

0.8 

0.6 

0.4 

0.2 

0 

0 0.2 0.4 0.6 0.8 1 

R = Coste/Perdidas 


1 

HK Score 

Pc: 0.04 

HK Score(Pc) 

0.8 

0.6 

0.4 

0.2 

I 

I 

0 

0 0.2 0.4 0.6 0.8 1 


II 

II 




1 

HK Score 

Pc: 0.17 

HK Score(Pc) 

0.8 

0.6 

0.4 

0.2 

0 

0 0.2 0.4 0.6 0.8 1 



1 

HK Score 

Pc: 0.01 

HK Score(Pc) 

0.8 

0.6 

0.4 

0.2 

I 

I 

II 

0 

0 0.2 0.4 0.6 0.8 1 


II 

Figura 4.10: Curvas de valor económico para diferentes eventos. Para costes bajos 

es mejor el sistema I, pero para costes altos es mejor el sistema II. 

La validación de predicciones realizadas sobre un dominio espacial (una 

región, rejilla, o conjunto de estaciones) se suelen realizar promediando resultados 

espacialmente, o hallando los percentiles espaciales (sobre las estaciones) 

de los índices. Recientemente se han presentado distintas técnicas que 

no promedian los resultados. Por ejemplo Briggs and Levine (1997) presentan 

una medida utilizando wavelets para caracterizar la estructura espacial 

de los errores.

84 4. VALIDACIÓN DE PREDICCIONES PROBABILÍSTICAS

Parte II 

Aportaciones de la Tesis 

85

CAPÍTULO 5 

Predicción Local en el Corto Plazo con Técnicas de 

Agrupamiento 


En la actualidad, los servicios meteorológicos utilizan modelos atmosféricos 

operativos que simulan con bastante precisión la dinámica de la atmósfera 

a gran escala sobre rejillas de una resolución aproximada de 50 a 100 km 

(ver Cap. 2). Estos modelos permiten predecir con bastante pericia el comportamiento 

sinóptico de la atmósfera en el corto plazo (hasta tres días de 

antelación). Sin embargo, estos modelos poseen menos pericia para predecir 

ciertas variables, como la precipitación, que dependen de procesos físicos 

complejos, como la formación de nubes, evaporación, orografía, turbulencia, 

etc., que tienen una escala menor que los modelos (o incluso carecen de una 

escala característica) y cuya física no es fácil de resolver. Esto obliga a incluir 

estos procesos en los modelos mediante parametrizaciones, que aproximan 

los efectos de estos fenómenos a la escala de la rejilla empleada (ver Sec. 

2.3.2). Por tanto, la predicción a corto plazo de meteoros como la precipitación, 

niebla, tormenta, etc., es todavía un problema a resolver con enorme 

interés científico, social y económico. 

En la literatura se han propuesto diferentes métodos para abordar este 

problema desde distintas perspectivas, utilizando no sólo las predicciones 

de los modelos numéricos, sino también las series temporales de observaciones 

disponibles en la región o localidad de interés. Estos métodos podrían 

clasificarse en tres grandes grupos: 

Las técnicas de predicción estadística para series temporales, que se 

basan únicamente en la información procedente de las observaciones 

históricas de los meteoros en las localidades o puntos geográficos donde 

87

88 5. PREDICCIÓN LOCAL A CORTO PLAZO. TÉCNICAS DE AGRUPAMIENTO 

se desea realizar la predicción. Con esta información se pueden estimar 

modelos estadísticos de predicción (modelos autoregresivos, de 

Markov, etc.) que pueden ser posteriormente utilizados para predecir 

futuros valores y tendencias. Estos métodos son estadísticos y no utilizan 

las salidas numéricas de los modelos de circulación atmosférica. 

Por otra parte, las técnicas de downscaling dinámico (o incremento 

dinámico de resolución) tienen como propósito aumentar la resolución 

de los modelos atmosféricos globales, anidando a éstos un modelo atmosférico 

regional o mesoescalar limitado a la zona de interés. Para 

ello se usan los campos del modelo global como condiciones de contorno 

para el modelo regional o mesoescalar de mayor resolución, el cual 

incluye parametrizaciones adaptadas a la zona. Por tanto, la predicción 

local se limita a los valores de algunas variables que proporciona 

el modelo (temperatura, precipitación, etc.) en los puntos de rejilla 

en superficie. Estos métodos son esencialmente numéricos (basados 

en la integración de modelos de circulación atmosférica), aunque en 

ocasiones se utilizan técnicas estadísticas, como los filtros de Kalman 

(Bergman and Delleur, 1985), para eliminar la influencia de los errores 

sistemáticos del modelo global. 

Finalmente, los llamados métodos de downscaling estadístico son técnicas 

híbridas que combinan las salidas de los modelos numéricos con la 

información estadística de las observaciones. Estas técnicas se basan 

en la relación que existe entre los campos atmosféricos previstos por 

un modelo numérico del tiempo y los meteoros realmente ocurridos 

localmente. Esta relación se puede analizar estadísticamente utilizando 

los registros históricos de observaciones disponibles (en una región 

o punto de interés) y los correspondientes campos atmosféricos simulados 

por algún proyecto de re-análisis (ver Sec. 2.7). Estos métodos 

también pueden considerarse técnicas de interpolación avanzadas, pues 

estiman el valor de una variable en un punto a partir de los valores en 

una rejilla que lo contiene. 

En esta Tesis se analizan las técnicas estadísticas de series temporales y 

las híbridas que combinan éstas con predicciones de los modelos atmosféricos 

globales (el lector interesado en el downscaling dinámico puede consultar las 

referencias incluidas en la Sec. 2.4). En concreto, se presentan algunos resultados 

comparativos que muestran la superioridad de los modelos híbridos 

y se introduce un nuevo método, basado en técnicas de agrupamiento, que 

mejora a los algoritmos actuales en velocidad de cómputo y en la pericia de 

las predicciones de eventos poco probables. 

En la Sec. 5.2 se describen las técnicas de predicción estadística lineales y 

no lineales estándar para series temporales, y se muestran sus aplicaciones en 

el ámbito de la Meteorología. A continuación, la Sec. 5.3 describe en detalle 

el problema del downscaling y analiza las técnicas lineales, neuronales y

5.2. TÉCNICAS ESTADÍSTICAS PARA SERIES TEMPORALES 89 

locales que han sido propuestas en la literatura para abordar este problema. 

Finalmente, la Sec. 5.4 describe un nuevo método desarrollado en esta Tesis 

y compara su eficiencia con otras técnicas en el marco de la predicción a 

corto plazo. 

5.2. Técnicas Estadísticas para Series Temporales 

La predicción local de meteoros puede abordarse como un problema de 

series temporales: Dada una serie de observaciones x 1 , . . .,x N de una cierta 

variable (por ejemplo, la precipitación diaria en una localidad), se desea predecir 

el estado futuro de la misma x N+1 , . . .. En la actualidad se dispone de 

series históricas homogéneas y suficientemente largas (ver Sec. 2.7), por lo 

que es posible aplicar técnicas estándar de series temporales a este problema. 

Por ejemplo, las técnicas lineales autoregresivas tratan de explicar la estructura 

de la serie temporal de forma que el valor actual de la serie dependa 

de los valores inmediatamente anteriores y de una componente aleatoria ɛ n 

de media zero y varianza σ 2 (ver, por ejemplo, Box and Jenkins, 1976). Así, 

un proceso x n se dice que es un proceso autoregresivo de orden p (AR(p)) si 

x n = α 1 x n−1 + α 2 x n−2 + ... + α p x n−p + ɛ n , (5.1) 

donde α 1 , . . .,α p son los parámetros del modelo. Suponiendo que el proceso 

es estacionario y de varianza finita, estos parámetros pueden obtenerse a 

partir las ecuaciones de Yule-Walker, que relacionan la función de autocorrelación 

ρ(k) con los parámetros del modelo: 

p∑ 

ρ(k) = α m ρ(k − m). (5.2) 

m=1 

Aparte de los modelos autoregresivos, han sido propuestas numerosas variantes 

de modelos de series temporales en la literatura, cada una de las 

cuales incorpora un nuevo elemento para modelizar el comportamiento de la 

serie: Modelos de media móvil (MA), que incorporan efectos de retraso en 

los términos aleatorios; modelos ARMA, que son combinación de los modelos 

autoregresivos y de los de media móvil; modelos ARIMA, que permiten 

tratar series no estacionarias en la media; SARIMA, que incluyen componentes 

periódicas estacionales, etc. (ver Chatfield, 2003, para una descripción 

actualizada de estos modelos). 

Estos modelos han sido aplicados en Meteorología con cierto éxito en 

escalas de tiempo mensual o estacional, donde los promedios de las variables 

son aproximadamente gaussianos. Por ejemplo, Zwiers and von Storch 

(1990) emplean un modelo AR para la modelización del patrón El Niño/Oscilación 

del Sur (ENSO); por otra parte Verma et al. (2002) utilizan un modelo 

ARIMA para caracterizar medias mensuales de precipitación. Sin embargo, 

dado que la mayoría de las variables meteorológicas son no gaussianas en el 

corto plazo, estas técnicas son inadecuadas para la predicción local aplicada


a esta escala temporal. Para solventar este problema, se han introducido 

distintas extensiones no lineales de los modelos autoregresivos; por ejemplo, 

Buhamra et al. (2003) analizan en detalle las propiedades de distintas 

extensiones basadas en redes neuronales; por otra parte, Furundzic (1998) 

aplica con cierto éxito uno de estos modelos autoregresivos neuronales para 

la predicción de escorrentías (ver Masters, 1995, para una descripción general 

de este tipo de técnicas). Sin embargo, como se verá más adelante, 

estos modelos no consiguen alcanzar la pericia de otras técnicas híbridas de 

predicción local. 

En el ámbito de la predicción probabilística también han sido aplicadas 

distintas técnicas estocásticas para pronosticar la probabilidad de 

un cierto evento meteorológico (por ejemplo la ocurrencia o no de lluvia 

“Precip > 0.5mm”; de vientos fuertes “Racha > 80km/h”, etc.). Las cadenas 

de Markov han sido utilizadas profusamente en este campo, comenzando 

con Gabriel and Neumann (1962) que desarrollaron un modelo probabilístico 

de precipitación para Tel Aviv. Posteriormente, el uso de estos 

modelos se ha extendido a la predicción de eventos más complejos, como 

el día de comienzo de lluvias (el primer día que lloverá a partir de la fecha 

actual), o el primer día que se superará un cierto umbral de precipitación 

(Stern, 1982). Estos modelos estocásticos también se han combinado 

con técnicas de simulación (tipo Monte Carlo) para generar simulaciones 

numéricas de series de precipitación. Para cada día, primero se simula la 

ocurrencia o no de lluvia utilizando un modelo de Markov (generalmente 

de orden uno); en el caso de ocurrencia, se simula a continuación un valor 

numérico para la misma a partir de la distribución empírica de la cantidad 

de precipitación. Estos métodos se conocen como generadores de tiempo 

(weather generators) (ver Wilby and Wilks, 1999, y las referencias incluidas). 

Además de las cadenas de Markov, también han sido aplicados otros 

métodos estocásticos a estos problemas: procesos continuos puntuales (point 

process) (Rodriguez-Iturbe et al., 1987), procesos de renovación (Markov renewal 

process) (Faufoula-Georgiou and Lettenmaier, 1987), etc. 

Para ilustrar la aplicación de estas técnicas en la predicción local se 

ha realizado un sencillo experimento consistente en pronosticar la probabilidad 

del evento “Precip > 0.5mm” (es decir, ocurrencia de lluvia). Se 

ha considerado la serie diaria de precipitaciones en Santander durante los 

inviernos (Noviembre-Enero) del período 1979-2000. Con esta serie se han 

ajustado los parámetros de un modelo autoregresivo neuronal (una red multicapa 

5:3:1, con activación sigmoidal de rango [0, 1] en la salida; ver Sec. 

3.5) y un modelo de Markov de orden 5. Las entradas de la red neuronal 

son los valores numéricos de la precipitación en los cinco días previos al día 

de predicción y su salida es la probabilidad de ocurrencia del evento binario 

Precip > 0.5mm (ceros y unos en la muestra de entrenamiento); por 

otra parte, la cadena de Markov es generada considerando la serie de datos 

binaria obtenida discretizando la serie según la ocurrencia o no ocurrencia 

del evento. Los resultados se comparan con los obtenidos por una técnica


híbrida de downscaling estadístico que combina la información de las series 

temporales con las salidas de modelos numéricos atmosféricos globales (se 

trata de una técnica basada en vecinos cercanos, que se describirá en la Sec. 

5.4). La Fig. 5.1 muestra el valor real (observación), así como las probabilidades 

predichas por los modelos anteriores para los tres meses de invierno 

del año 2001. Esta figura pone de manifiesto la utilidad de las salidas de los 

modelos atmosféricos numéricos de predicción, combinados con las técnicas 

estadísticas (downscaling estadístico). Una comparación más extensa de 

estas técnicas puede encontrarse en Gutiérrez et al. (2002c). 

Observacioón Local Neuronal Markov 

probabilidad 

1 

0.8 

0.6 

0.4 

0.2 

0 

10 20 30 40 50 60 70 80 90 

día 

Figura 5.1: Valor observado y probabilidades predichas con un modelo neuronal, 

una cadena de Markov y un método híbrido (local) para la ocurrencia de precipitación 

durante los tres meses de invierno del año 2001. 

5.2.1. Series Caóticas. Técnicas de Inmersión (Embedding). 

En los últimos años, el análisis de series temporales caóticas ha cobrado 

un fuerte interés debido a sus múltiples aplicaciones (ver, por ejemplo, 

Abarbanel, 1995). Las técnicas clásicas autoregresivas de análisis de series 

temporales descritas en la sección anterior han sido generalizadas teniendo 

en cuenta las propiedades dinámicas de los sistemas caóticos. Desde un 

punto de vista práctico, el avance más importante en este campo ha sido la 

llamada técnica de inmersión o embedding (Sauer, 1994), que supone que la 

serie temporal proviene de un sistema dinámico determinista (por ejemplo, 

una ecuación diferencial) definido en un conjunto de variables que componen 

su espacio de fases: 

dx(t) 

= F(x(t)), (5.3) 

dt 

Una serie temporal x 1 ,x 2 , . . .,x N tomada del sistema caótico responderá 

a la relación funcional del sistema (5.3). Por tanto, con técnicas apropiadas 

se podrá obtener un modelo aproximado del mismo. Sin embargo, en 

la práctica no suele ser posible medir todas las variables que componen el 

espacio de fases de un sistema, sino que sólo se tiene acceso a observables 

derivados de estas variables o(t) = G(x(t)); por ejemplo, no se pueden medir


todos los grados de libertad que componen la atmósfera, pero se dispone de 

la medición de algunas variables derivadas (precipitación, temperatura, etc.) 

en puntos concretos. En estos casos, la técnica del delay-embedding ofrece 

una forma de reconstruir un espacio de fases topológicamente equivalente al 

original, tomando vectores de retrasos temporales del observable de la forma: 

(o(t), o(t−τ), ..., o(t−(m−1)τ)), donde o(t) es el valor del observable en 

el tiempo t y los parámetros τ y m son el salto y la dimensión de embedding, 

respectivamente. Bajo ciertas condiciones (Sauer, 1994), existe un difeomorfismo 

(aplicación biyectiva, diferenciable y con inversa diferenciable) entre 

el espacio de fases original y el espacio de embedding resultante, de forma 

que la evolución del sistema en el espacio de fases puede ser determinada 

a partir de una función en el espacio de embedding. De este modo se tiene 

una relación funcional de la forma: 

o(t) = G(x(t)) = H(o(t − τ), ..., o(t − (m − 1)τ)), (5.4) 

donde H será la función compuesta dada por el difeomorfismo G, la función 

de evolución del sistema dinámico y la función característica del observable. 

Los parámetros τ y m han de elegirse adecuadamente para que el espacio 

resultante sea topológicamente equivalente al espacio de fases original. Para 

la dimensión de embedding se ha hallado la cota teórica m < 2D +1, donde 

D es la dimensión del atractor del sistema original. A este valor de m se 

le denomina “dimension de embedding” del sistema dinámico. El intervalo 

temporal τ es arbitrario desde el punto de vista teórico; sin embargo, una 

mala elección obligará a tomar más retrasos de los necesarios. En la práctica, 

una forma sencilla de seleccionar τ es garantizar la independencia lineal entre 

sucesivos retrasos; para ello se puede utilizar la función de autocorrelación 

o la información mutua de la serie (ver Abarbanel, 1995, para más detalles). 

Para ilustrar esta técnica se considera el modelo de Lorenz descrito en el 

Ejemplo 3.9, y se supone que sólo se dispone de un observable del sistema: 

Una serie temporal de 5000 puntos de la variable x, obtenida integrando 

el sistema con un método de Runge-Kutta de cuarto orden y paso de integración 

∆t = 10 −2 . La Fig. 5.2 muestra una proyección del espacio de 

embedding dado por τ = 10 y m = 4; se observa la similitud topológica con 

el atractor real del sistema mostrado en la Fig. 3.21. Por tanto, se puede 

aplicar una red neuronal para tratar de modelizar la dinámica del sistema 

en el espacio de retrasos. La Fig. 5.3 muestra el error obtenido por una red 

neuronal 4:3:3:1 entrenada para estimar x n utilizando x n−τ , x n−2τ , x n−3τ y 

x n−4τ . En este caso, el tiempo de predicción es τ (en este ejemplo τ corresponde 

al mínimo retraso tomado: n = 10 ó t = 10 ∗ 10 −2 = 0.1 unidades de 

tiempo). 

Si se trata de utilizar este mismo modelo para predecir el valor del sistema 

a tiempos más largos (iterando el sistema con las predicciones obtenidas), 

existe un horizonte a partir del cual el sistema aproximado ya no sigue la 

misma dinámica del original. Por ejemplo, en la Fig. 5.4 se muestra la predicción 

obtenida por la red neuronal para umbrales de tiempo mayores. En


20 

xn 

0 

-15 

20 

xn-τ 

0 

-20 -15 

0 

x n-2τ 

20 

Figura 5.2: Atractor en el espacio de embedding obtenido a partir de un serie 

temporal de la variable x del sistema de Lorenz. 

15 

10 

5 

xn 

0 

xn -xn 

-5 

-10 

-15 

0.1 

0 

0.1 

1 100 200 300 400 500 

n 

Figura 5.3: Serie temporal real x n y error obtenido con la estimación ˆx n dada por 

una red neuronal 4:3:3:1 (la abscisa de la figura inferior está magnificada un factor 

50 para claridad de la visualización). 

xn ,xn 

15 

10 

5 

0 

-5 

-10 

-15 

20 21 22 23 24 25 26 27 

Figura 5.4: Serie original del modelo de Lorenz (trazo grueso) y serie obtenida 

prolongando la red neuronal a partir de la misma condición inicial. 

n


esta figura, tanto la red neuronal como el sistema de Lorenz son inicializados 

en un instante de tiempo y prolongados de forma independiente. Las 

trayectorias de ambos sistemas siguen la misma evolución hasta un tiempo 

t = 1.8 en que comienzan a diverger, marcando el umbral de predicción en 

este caso. En Cofiño et al. (2003b) se presenta un estudio más exhaustivo 

sobre la capacidad de predicción de las redes neuronales en este campo. 

Para aplicar este tipo de técnicas a datos meteorológicos es necesario 

considerar la atmósfera como un sistema caótico de baja dimensión 

(Tsonis and Elsner, 1988). Un observable puede ser la temperatura medida 

en una estación meteorológica (Oviedo). La Fig. 5.5(a) muestra la serie 

temporal de la temperatura media horaria registrada en Oviedo entre los 

años 1979 y 1993. En la figura sólo se han representado 3 años para observar 

con claridad la onda anual, con los correspondiente máximos de temperatura 

alcanzados en la época estival. En la gráfica superior se ha ampliado una 

zona de la serie temporal para mostrar la onda diurna. 

200 

150 

100 

50 

0 

30 

(a) 

1.12 1.13 1.14 1.15 1.16 1.17 

x 10 4 

20 

ºC 

10 

0 

10 

(b) 

5 

0 

-5 

-10 

x 10 4 

0 0.5 1 1.5 2 2.5 

n 

Figura 5.5: Temperatura media horaria tomada en el observatorio de Oviedo entre 

los años 1979 y 1981. 

Como puede observarse en este ejemplo, la situación real cuando se trabaja 

con datos meteorológicos no es sencilla, pues la serie contiene varias 

componentes periódicas (onda anual, diurna, etc.) y ruido, además de la 

componente no lineal. Las componentes periódicas pueden separarse fácilmente 

(ver Fig. 5.5(b)), pero el efecto del ruido complica la aplicación de 

la técnica de embedding. Por ejemplo, la Fig. 5.6 muestra el espacio de inmersión 

para el ejemplo de la temperatura en Oviedo, considerando tanto la 

señal original, como la señal obtenida eliminando la onda anual. En esta última 

figura resulta difícil observar alguna dinámica determinista. Este hecho

5.3. TÉCNICAS HÍBRIDAS (DOWNSCALING ESTADÍSTICO) 95 

se puede comprobar de forma práctica comparando un modelo no lineal neuronal 

y uno lineal entrenados con los datos. Las distintas pruebas realizadas 

no mostraron ninguna diferencia significativa entre ambos modelos. 

35 

30 

(a) 

15 

10 

(b) 

25 

20 

5 

T(t) 

15 

T(t) 

0 

10 

5 

5 

0 

0 5 10 15 20 25 30 35 

T(t-6) 

10 

10 5 0 5 10 15 

T(t-6) 

Figura 5.6: (a) Espacio de inmersión (T(t),T(t −6)) para la serie de temperaturas 

de Oviedo. (b) Espacio de inmersión para la serie anterior restando una media móvil 

(T(i − 24),T(i),T(i + 24)) para eliminar la componente anual. 

Por otra parte, la hipótesis de la baja dimensionalidad de la atmósfera es 

bastante cuestionable (Lorenz, 1991) y los modelos desarrollados no se han 

mostrado competitivos con otras técnicas. No obstante, en algunas aplicaciones, 

estas técnicas han mostrado una gran utilidad en combinación con 

modelos numéricos. Por ejemplo, Pérez-Muñuzuri and Gelpi (2000) presentan 

un modelo de predicción basado en esta técnica para la cubierta nubosa, 

y muestra como estas predicciones pueden ser utilizadas por un modelo 

numérico mesoscalar (ARPS) para mejorar la capacidad de predicción del 

mismo. 

Los recientes avances en el campo del caos espacio-temporal suponen 

una prometedora línea de trabajo para poder llegar a modelizar la dinámica 

atmosférica de forma más sólida y global (Gollub and Cross, 2000), sin 

tener que recurrir a hipótesis simplistas como la baja dimensionalidad de la 

atmósfera. 

5.3. Técnicas Híbridas (Downscaling Estadístico) 

En la sección anterior se han descrito distintas técnicas de predicción que 

se aplican directamente a observaciones (series temporales) para predecir 

tendencias y/o futuras ocurrencias de eventos. Sin embargo, estas técnicas 

no aprovechan el conocimiento sobre la dinámica de la atmósfera contenido 

en los modelos numéricos de circulación atmosférica. Las predicciones de 

estos modelos proporcionan los valores de un conjunto de variables fundamentales 

(temperatura, presión, humedad, etc.) para un alcance dado sobre 

una rejilla 3D con una cierta resolución horizontal y vertical (ver Sec. 2.4).


Además, en el nivel de superficie, el modelo también proporciona el valor de 

algunas variables derivadas (precipitación, etc.). Éstas son las variables que 

más afectan a la actividad humana y, por tanto, las que tienen mayor interés 

práctico. Sin embargo, las predicciones obtenidas por los modelos numéricos 

para estas variables también están limitadas por la resolución y por la 

parametrizaciones físicas empleadas (que aproximan los efectos de algunos 

fenómenos como la turbulencia, orografía, etc., que afectan a las variables 

de superficie; ver Sec. 2.3.2). 

Dadas las limitaciones de ambas técnicas por separado, se han desarrollado 

distintos métodos híbridos para combinar de forma apropiada ambas 

fuentes de información: observaciones (con información estadística sobre la 

climatología local) y salidas de modelos numéricos (con las predicciones del 

estado global de la atmósfera). Estas técnicas híbridas son denominadas 

métodos de downscaling estadístico (ver, por ejemplo, Wilby and Wigley, 

1997; Zorita and von Storch, 1999). En este caso, en lugar de aumentar la 

resolución de la rejilla sobre la que se realiza la predicción (downscaling 

dinámico), se obtienen predicciones sobre aquellas regiones o puntos geográficos 

donde se disponga de observaciones. La Fig. 5.7 ilustra este problema 

para el caso concreto de la Cuenca Norte de la Península Ibérica. 

Figura 5.7: El problema de downscaling. La figura superior muestra la rejilla de un 

modelo numérico de 1 o de resolución horizontal (aprox. 100 km) sobre la Península 

Ibérica; la figura inferior muestra una ampliación de la cornisa Cantábrica detallando 

los puntos de rejilla del modelo numérico (‘×’), y los observatorios de la red 

principal (‘+’) y secundaria (triángulos) del INM donde se dispone de observaciones 

históricas.


5.3.1. Técnicas Globales Lineales y Neuronales 

Los métodos híbridos de downscaling estadístico se basan en la relación 

que existe entre el estado de la atmósfera y los fenómenos meteorológicos 

observados en superficie y t en un instante de tiempo t. El estado de la 

atmósfera se puede aproximar utilizando un modelo numérico de circulación, 

que proporciona los campos atmosféricos x t estimados para un tiempo 

t. Por tanto, se puede analizar estadísticamente esta relación utilizando los 

registros históricos disponibles en un punto de interés, y los correspondientes 

campos atmosféricos simulados por un modelo numérico de re-análisis (ver 

Sec. 2.7). Este esquema se denomina Perfect-Prog puesto que supone que el 

modelo atmosférico proporciona una representación fidedigna del estado de 

la atmósfera que no varía en el tiempo, al menos en la periodo del re-análisis 

(ver Wilks, 1995, para una descripción más detallada). De esta forma, se puede 

entrenar un modelo global de regresión para estimar una relación lineal 

entre los datos ŷ t = ax t + b. Así, dado un patrón ˆx predicho por un modelo 

numérico para un cierto alcance, se tendrá una estimación aˆx + b del valor 

de la variable local esperado. Algunas aplicaciones de esta técnica están descritas 

en Enke and Spekat (1997) y Billet et al. (1997). Un problema de esta 

técnica es que, en general, los modelos lineales son difícilmente justificables 

para la predicción a corto plazo dada la no normalidad de las variables a esta 

escala temporal. Las limitaciones de los métodos lineales han sido recientemente 

superadas considerando modelos no-lineales más generales ŷ t = f(x t ), 

donde la forma funcional de f es ajustada usando técnicas no paramétricas 

modernas (por ejemplo, redes neuronales, Gardner and Dorling, 1998; 

McGinnis, 1994). 

Otra aproximación a este problema supone que los patrones atmosféricos 

disponibles no son una representación perfecta de la atmósfera, sino que 

dependen del modelo numérico utilizado (por ejemplo, cada cambio realizado 

en el modelo atmosférico operativo con nuevos esquemas de asimilación 

o parametrizaciones tienen influencia directa en los campos previstos). La 

técnica conocida como Model Output Statistics (MOS) (Klein and Glahn, 

1974) ajusta de forma dinámica un modelo de regresión entre los campos 

previstos por el modelo y las observaciones ocurridas, de forma que este 

modelo está continuamente actualizándose con las nuevas observaciones y 

predicciones disponibles. Este proceso se realiza de distintas formas, incluyendo 

filtros de Kalman (ver Bergman and Delleur, 1985, para más detalles). 

También han sido propuestas distintas extensiones no lineales de estos 

modelos utilizando, por ejemplo, redes neuronales (Yuval and Hsieh, 2003; 

Marzban, 2003). En este caso, el problema es la necesidad de disponer de 

observaciones y salidas del modelo recientes, que sean representativas de la 

configuración actual del mismo. Esta imposición limita el número de estaciones 

sobre el que es posible aplicar las técnicas, ya que no se dispone de 

información en tiempo real para la mayoría de las estaciones. 

Otro tipo de modelos globales aplicados a este problema ha sido el


Análisis de Correlación Canónica (CCA, Canonical Correlation Analysis), 

que es una generalización de la regresión que tiene en cuenta las dependencias 

espaciales existentes entre los distintos observatorios, tanto lineales 

(Bergman and Delleur, 1985), como no lineales (Hsieh, 2001); también 

han sido aplicadas recientemente técnicas de modelos gráficos probabilísticos 

(redes Bayesianas) para la predicción local de eventos discretos (ver, por 

ejemplo, Cofiño et al., 2002). 

El denominador común de todos estos métodos es su carácter global (es 

decir, se considera un único modelo para analizar todas las situaciones que 

puedan presentarse). El método de los análogos, o vecinos próximos, supone 

una alternativa local a estos modelos. 

5.3.2. Técnicas Locales basadas en Análogos 

El método de análogos introducido por Lorenz (1969) en el marco de la 

predicción de series temporales es una versión particular de una metodología 

más general llamada técnica de vecinos próximos (Nearest Neighbors, NN). 

Esta técnica utiliza el “entorno” del patrón atmosférico previsto para entrenar 

un modelo local y obtener una predicción ŷ t . Este entorno viene dado 

por una distribución o núcleo definido en el espacio continuo de patrones 

atmosféricos. En la práctica, el espacio de patrones atmosféricos se aproxima 

por la muestra aleatoria de patrones proporcionada por un re-análisis 

suficientemente largo (ver Sec. 2.7.3). Por ejemplo, utilizando ERA-15 se 

dispone de aproximadamente 5500 patrones atmosféricos diarios para aproximar 

el espacio de configuraciones atmosféricas. De esta forma, el núcleo se 

transforma en un vecindario en el nuevo espacio discreto. Por tanto, los modelos 

locales se entrenan en base al conjunto de patrones atmosféricos más 

cercanos al patrón previsto. Este conjunto se denomina conjunto de análogos 

y está formado por los k días más próximos al patrón previsto en la base 

de datos del re-análisis (k nearest neighbors, k-NN). La Fig. 5.8 muestra un 

esquema con las componentes fundamentales de este tipo de algoritmos. 

En esta figura puede observarse que es necesaria una base de datos con 

los patrones atmosféricos y otra con los registros históricos de la climatología 

local. El algoritmo parte de una predicción numérica del patrón atmosférico 

previsto, y obtiene una predicción local para los observatorios disponibles. 

Las zonas sombreadas representan las componentes del algoritmo implicadas 

en la fase operativa de obtención de predicciones locales. 

Algunas aplicaciones de este método para la predicción de anomalías 

climáticas (ver Zorita and von Storch, 1999; Wilby and Wigley, 1997, y sus 

referencias) y para la predicción a corto plazo (ver p.e., van den Dool, 1989) 

se han presentado en la literatura. En general, se ha demostrado que el método 

de análogos funciona tan bien como otras técnicas más complicadas de 

downscaling (ver, por ejemplo, Zorita and von Storch, 1999), indicando que 

estos métodos de “hombre pobre” son alternativas eficientes para diversos 

problemas de downscaling.


ACM FORECAST 

1979 

1993 

... 

ATMOSPHERIC 

PATTERNS 

DATABASE 

ERA15 

reanalisys 

1979-1993 

ECMWF 

operative model 

Ensemble of 

analog dates 

d 1 , ..., d k 

1979 

... 

INM primary 

stationÕs network 

Estimation: y 

1993 

LOCAL CLIMATE 

RECORDS DATABASE 

Figura 5.8: Esquema del algoritmo estándar de downscaling por análogos (k-NN). 

5.3.3. Comparación de Técnicas Estándar en el Corto Plazo 

En esta sección se describen los resultados de un experimento llevado a 

cabo para comparar entre sí los métodos descritos en las secciones anteriores 

aplicados a la predicción a corto plazo. Dado que uno de los modelos a 

comparar es la regresión lineal se ha decidido seleccionar la variable más 

“normal” de las que se dispone: la racha máxima diaria de viento (Wind). 

Los métodos son aplicados para obtener un pronóstico probabilístico del 

evento “Wind > 50km/h”. 

Se han considerado las salidas del modelo operativo del ECMWF con un 

alcance de 1 día para los meses Diciembre, Enero y Febrero del año 1998. 

Obsérvese que no existe solapamiento con los 15 años de re-análisis de ERA- 

15 (1979-1993) que se utilizan conjuntamente con observaciones históricas 

de ese período para entrenar los modelos. Se probaron diferentes estaciones 

de la red principal de estaciones del INM (ver Fig. 2.8(c)) obteniéndose resultados 

similares; en esta sección se ilustran los resultados obtenidos para 

Santander. Una metodología estándar de validación para predicciones probabilísticas 

es el uso de curvas ROC, descrito en el Cap. 4. El cálculo de 

las curvas ROC se basa en la tabla de contingencia que viene dada por las 

ocurrencias y no ocurrencias reales de un evento en función de las predichas. 

Esta tabla de contingencia se caracteriza mediante las llamadas tasa 

de aciertos o Hit Rate (HIR=p(predicho|ocurrido)) y la tasa de falsas alarmas 

(FAR=p(predicho|no ocurrido)). El area bajo la curva ROC cuantifica 

la pericia del método de predicción. Este índice de validación tiene ventajas 

sobre otros índices, como el Brier Score (BS), pues no depende de la 

frecuencia del evento (un evento raro o extremo), ya que HIR esta condicionado 

a la ocurrencia del evento, mientras que FAR está condicionado a la 

no ocurrencia (ver Cap. 4 para más detalles sobre validación).


Con objeto de comprobar la importancia de la resolución espacial y temporal 

del patrón atmosférico, se han realizado las pruebas considerando una 

rejilla global y una local (mostradas en las Fig. 2.9(a) y (c), respectivamente). 

En ambos casos se consideran las diez primeras componentes principales 

para representar cada uno de los patrones. En las Fig. 5.9(a) y (b) se muestran 

las curvas ROC y los Brier Scores (BS) para cuatro algoritmos distintos 

considerando los patrones local y global, respectivamente. Los métodos utilizados 

son: 

Un modelo de regresión lineal, ajustado para predecir la probabilidad 

del evento Wind > 50km/h en función de las componentes principales 

de los patrones atmosféricos. 

Un modelo de red neuronal de la forma 10:m:1, donde las entradas son 

las componentes principales y la salida es la probabilidad del evento. 

En este caso se probaron distintos valores de m y los mejores resultados 

se obtuvieron con m = 5. 

La técnica k-NN de análogos, utilizando como predictor de la probabilidad 

del evento la distribución empírica obtenida del conjunto de 

análogos. Se han considerado cuatro valores diferentes para k (100, 

50, 25 y 15), obteniéndose los mejores resultados con k = 50. 

1 

(a) 

1 

Metodo 

BS 

stdBS 

local k=NN 0.114 0.029 

Lineal 0.146 0.035 

Neuronal 0.114 0.035 

HIR 

HIR 

0.5 

0 

(b) 

0.5 

Metodo 

local k-NN 0.106 0.027 

Lineal 0.134 0.029 

Neuronal 0.139 0.007 

0 

0 0.2 0.4 0.6 0.8 1 

FAR 

Figura 5.9: Curvas ROC y Brier Scores obtenidos para predecir p(Wind > 

50km/h) en Santander aplicando distintos métodos a los patrones dados por una 

rejilla (a) local (Fig. 2.9(c)) y (b) global (Fig. 2.9(a)). 

BS 

stdBS

5.4. TÉCNICAS BASADAS EN AGRUPAMIENTO Y CLASIFICACIÓN 101 

Estos resultados indican que un modelo lineal es fácilmente mejorable 

con un modelo neuronal. Por otra parte, una técnica local simple de vecinos 

cercanos (k-NN) permite obtener resultados similares a una técnica complicada 

como una red neuronal. En lo referente a la influencia de la escala del 

patrón en los resultados, se observa que los métodos globales mejoran su 

pericia más que el método local cuando se aplican sobre patrones definidos 

en rejillas locales, especialmente la red neuronal. Este resultado es lógico 

puesto que la reducción de escala en el patrón atmosférico tiene un efecto 

similar a una localización en los patrones que se utilizan para la predicción. 

Una comparación de estas técnicas en una escala temporal distinta se puede 

encontrar en Schoof and Pryor (2001). 

Como conclusión se obtiene que los métodos locales basadas en análogos 

son las técnicas de downscaling estadístico más apropiadas para trabajar 

en esta escala temporal (predicción a corto plazo). En la siguiente sección 

se presenta un nuevo método de downscaling local basado en técnicas de 

agrupamiento y clasificación. 

5.4. Técnicas basadas en Agrupamiento y Clasificación 

Una limitación importante de la técnica de análogos estándar basada en 

k-NN es que considera siempre la misma cantidad de análogos, sin tener 

en cuenta la estructura del espacio donde se buscan los vecinos cercanos 

del patrón previsto. Este hecho no es consistente con la distribución de 

patrones atmosféricos ya que éstos no siguen una distribución uniforme, sino 

que algunas regiones del espacio están más pobladas que otras. La única 

regularidad hallada en esta distribución ha sido considerando una única 

estación del año y una dirección radial; en este caso los patrones tienen 

una distribución aproximadamente normal (ver Toth, 1991). Por tanto, se 

requieren conjuntos de análogos de tamaño variable que se adapten a las 

características de la región del espacio donde se halle el patrón previsto. Por 

otra parte, los algoritmos de análogos son computacionalmente costosos, ya 

que la búsqueda de vecinos involucra el cálculo de las distancias del patrón 

previsto con todos los patrones de la base de datos de re-análisis. 

Los algoritmos de agrupamiento proporcionan una solución simple para 

estos problemas. Estas técnicas permiten dividir la base de datos en grupos 

C i , caracterizados por un patrón prototipo v i . Cada grupo resultante puede 

ser utilizado como conjunto de análogos para aquellos patrones que sean 

posteriormente clasificados en el grupo (patrones más cercanos a v i , que a 

cualquier otro prototipo). Por tanto, el cálculo de distancias sólo involucra al 

patrón previsto y a los prototipos, lo que reduce significativamente el tiempo 

de computación. La técnica de agrupamiento también resuelve los problemas 

causados por las inhomogeneidades de la distribución de re-análisis, ya 

que el número de elementos en cada uno de los grupos se puede adaptar 

automáticamente a la distribución de los patrones atmosféricos utilizando 

un algoritmo apropiado.


En la literatura se han aplicado distintas técnicas de agrupamiento en 

este problema. Por ejemplo, Hughes et al. (1993) describe una algoritmo de 

downscaling que utiliza una técnica de agrupamiento llamada CART (ver 

también Zorita et al., 1995). Este algoritmo de agrupamiento se basa en un 

árbol de decisión binario, que se forma dividiendo los valores de las variables 

de entrada (cada uno de los valores en un punto de rejilla de las variables 

utilizadas para definir el patrón atmosférico) de forma que se obtenga una 

separación máxima en la distribución de ocurrencia del evento en las hojas 

del árbol. Cada nodo terminal del árbol de decisión corresponde a un grupo. 

Esta técnica se ha aplicado de forma eficiente a problemas de predicción 

a largo plazo (en particular, a problemas de cambio climático) donde los 

patrones atmosféricos utilizados tienen baja complejidad (normalmente un 

único nivel para una única variable en una rejilla de baja resolución: presión 

a nivel del mar, altura geopotencial en 500mb, etc.). Por otra parte, estos 

problemas requieren un número pequeño de clases, dado que sólo requiere 

un número más elevado de grupos y patrones atmosféricos más complejos, 

lo que hace que el proceso de construcción de árbol binario sea irrealizable 

en este caso. 

Otra aproximación a este problema ha sido realizada por Cavazos (1997), 

aplicando redes auto-organizativas (SOM) como algoritmo de agrupamiento, 

y considerando también una aplicación en el medio y largo plazo que requiere 

patrones simples y un número reducido de grupos. A diferencia del caso 

anterior, esta técnica es eficiente para trabajar con un número elevado de 

grupos y con patrones de alta dimensión. Sin embargo, este método es una 

generalización de otro algoritmo de agrupamiento más simple (el algoritmo 

de m-medias), al que añade una restricción para conservar la estructura 

topológica del espacio original en el espacio de grupos (ver Sec. 3.4). Esta 

restricción altera el algoritmo original de agrupamiento fijando los grupos 

de la periferia de la distribución a sus vecinos del centro, lo que conlleva a 

un decremento de la varianza de los grupos resultantes y de la pericia del 

método. 

Por tanto, los métodos presentados hasta la fecha no son eficientes para 

la predicción a corto plazo. En la siguiente sección se presenta un nuevo 

algoritmo de downscaling que opera en esta escala de tiempo utilizando la 

técnica de agrupamiento de m-medias para seleccionar los grupos de patrones 

análogos en la base de datos de re-análisis. 

5.4.1. Nuevo Método de Downscaling para el Corto Plazo 

La Figura 5.10 muestra esquemáticamente la estructura de la técnica 

de downscaling propuesta. Como una primera etapa de preproceso, se realiza 

el agrupamiento de la base de datos de re-análisis utilizando el método 

de m-medias (los detalles de este proceso ya han sido descritos en la Sec. 

3.3.2). Esta etapa permite prescindir de los datos de re-análisis en el resto 

del proceso, pues éstos son reemplazados por un número determinado


1979 

1993 

... 

ATMOSPHERIC 

PATTERNS 

DATABASE 

ERA15 

reanalisys 

1979-1993 

ACM FORECAST 

ECMWF 

operative model 

CLUSTERING Find Cluster: 

C 1 , ..., C m Ci 

Estimation: 

y 1 , ..., y m 

Inference: y i 

1979 

... 

INM primary 

stationÕs network 

1993 

LOCAL CLIMATE 


Figura 5.10: Esquema del algoritmo de downscaling por agrupamiento. Es necesaria 

una base de datos de patrones atmosféricos y un registro histórico de de la 

climatología local de un conjunto de estaciones. 

de grupos C 1 , . . .,C m con sus correspondientes prototipos v 1 , . . .,v m . En 

la fase operativa, las únicas distancias que es necesario calcular para obtener 

el conjunto de análogos de un patrón de predicción dado x t , son entre 

x t y v i , i = 1, . . .,m. Esto supone una reducción sustancial de la carga 

computacional del algoritmo. 

Una vez calculados los grupos C k = {x i1 , . . .,x iq(k) }, donde q(k) es el 

número de patrones del grupo k-ésimo e i 1 , . . .,i q(k) se refieren a las fechas de 

los días en el período de re-análisis, se puede obtener una predicción probabilística 

local correspondiente a cada uno de los grupos para una variable y y 

una estación s dadas. Esta predicción se puede obtener a partir de la función 

de probabilidad empírica de las observaciones históricas {y s i 1 

, . . .,y s i q(k) 

}: 

P s 

i = P(y s > u|C i ) = #{ys i j 

> u; j = 1, . . .,q(i)} 

. (5.5) 

q(i) 

Sin embargo, es bien sabido que esta estimación es inestable, especialmente 

para grupos de tamaño pequeño q(i). Una de las alternativas propuestas para 

sortear esta limitación es la técnica de estimación de la función de densidad 

utilizando una mezcla de núcleos continuos (Hastie et al., 2001). En este 

caso, cada observación no se considera como un único número, sino como una 

función núcleo centrado en el punto (normalmente un núcleo Gaussiano). 

φ λ (x, x 0 ) = 1 

2πλ 2exp − (x − x 0) 2 

. 

2λ 

El uso de esta técnica suaviza la estimación ya que la suma de núcleos 

Gaussianos tiene el efecto de una convolución entre un filtro (el núcleo) y


la distribución empírica. En este caso, una estimación de la probabilidad se 

obtiene con la integral de la función de densidad: 

f(y s ) = 1 

q(i) 

∑ 

φ λ (y s , yi s q(i) 

j 

). (5.6) 

j=1 

De esta ecuación podemos obtener diferentes estadísticos para la distribución. 

En particular, se puede obtener fácilmente una estimación de (5.5) 

para los diferentes umbrales de la variable (ver Cofiño et al., 2001a, para 

más detalles). 

El algoritmo propuesto es computacionalmente eficiente, ya que su funcionamiento 

operativo sólo requiere la selección del grupo representativo 

para el patrón de predicción dado por el modelo numérico (ver la zona 

sombreada de la Figura 5.10). Sin embargo, el principal inconveniente es la 

reducción de varianza y resolución de la predicción, debido a la cuantificación 

y a los efectos de borde asociados (todos los patrones asociados a un mismo 

grupo C k tienen asociada la misma predicción Pk s , independientemente de 

su posición relativa cercana al centro o al borde del grupo). Por tanto, el 

método sólo genera m predicciones diferentes para una estación dada. 

Para suavizar este problema se ha considerado una versión ponderada 

del algoritmo, donde la predicción se obtiene a partir de un número m dado 

de grupos vecinos: 

∑ wc=1 

d(c)P 

ŷt s t(c) 

s = ∑ wc=1 , (5.7) 

d(c) 

donde t(c) es el índice del c-ésimo prototipo más cercano a x t , d(c) es la 

distancia de v t (c) a x, y p s t(c) 

es la estimación de la probabilidad obtenida 

para el grupo t(c) usando (5.6). En lugar de asignar la misma estimación para 

todos los patrones en un grupo, ahora se considera una suma ponderada de 

las estimaciones asociadas a los grupos más cercanos a un patrón dado. Esta 

modificación también resuelve el problema de la reducción de resolución, 

ya que ahora las predicciones no se reducen únicamente a m casos (ver 

Gutiérrez et al., 2004a, para más detalles). 

5.4.2. Validación y Comparación con Otros Métodos 

Con objeto de validar y obtener la pericia del modelo para predecir la 

precipitación (Precip) y racha máxima de viento (Wind) diarias, se considerará 

el método estándar de análogos k-NN como modelo de referencia. En 

el análisis se comparan distintos valores de los parámetros de estos algoritmos. 

Por una parte el algoritmo de análogos (denotado Analog) sólo depende 

del número de análogos considerado para hacer la predicción (k). Por otra 

parte, el algoritmo de agrupamiento ponderado (denotado como WCluster) 

depende del número de grupos (m) y del número de vecinos ponderados en 

la predicción (w). Como la base de re-análisis contiene aproximadamente 

5000 patrones, se compararán los resultados obtenidos con parámetros k y


m que cumplan 5000/m = k (así el número promedio de patrones en cada 

grupo coincidirá con el número de análogos considerado). Además, para 

eliminar la reducción de varianza que conlleva el proceso de ponderación se 

mantiene constante la razón m/w, de forma que se incremente el número de 

grupos si también se incrementa el número de elementos que se utilizan en 

la ponderación. 

Se han considerado salidas del modelo operativo del ECMWF durante 

el periodo 1998-1999, con un alcance de 1 a 5 días, de forma que no exista 

solapamiento con los 15 años de re-análisis de ERA-15 (1979-1993). Se considera 

la red principal de estaciones del INM (ver Fig. 2.8(c)); la predicción 

sobre cada estación se obtiene de forma independiente, promediando los parámetros 

de validación respectivos en los resultados finales. Además de las 

medias anuales (período 1998-99), algunos de los resultados son desglosados 

para cada una de las estaciones del año: Invierno (Diciembre, Enero y Febrero: 

DEF), Primavera (MAM), Verano (JJA) y Otoño (SON). Se consideran 

distintos eventos binarios dados por los umbrales Precip > 0.1mm, 10mm, 

y 20mm, y Wind > 50km/h y 80km/h para obtener las predicciones. Una 

metodología estándar de validación para este tipo de predicciones probabilísticas 

es el uso de curvas ROC, descrito en el Cap. 4 y en la Sec. 5.3.3. 

El area A bajo la curva ROC cuantifica la pericia del método de predicción; 

el valor 2A − 1 se define como RSA (ROC Skill Area), y está normalizado 

en [0, 1] (el valor 1 se alcanza en una predicción perfecta). Como ya se ha 

mencionado, este índice tiene ventajas sobre otros parámetros de validación, 

como el Brier Score (BS), pues no depende de la frecuencia del evento (un 

evento raro o extremo). 

Al igual que en la comparación realizada en la Sec. 5.3.3, con objeto de 

comprobar la eficiencia de los métodos para distintas definiciones de patrones 

atmosféricos (rejillas de distinta amplitud y resolución y escalas temporales 

diferentes) se realizan los experimentos en tres modelos distintos mostrados 

en la Figura 2.9, que corresponden a tres modelos de patrones asociados 

a una rejilla global y un instante de tiempo (M1), una rejilla que cubre la 

Península Ibérica y una ventana de tiempo de cubre el intervalo de predicción 

(M2) y una rejilla local con toda la información temporal disponible (M3). 

Se han utilizado cuatro valores diferentes para k (100, 50, 25 y 15) y cuatro 

valores asociados para m (50, 100, 250, 300, respectivamente). Los mejores 

resultados se muestran en las Tablas 5.1 y 5.2 y fueron obtenidos con el 

modelo M3 (el modelo local de la Fig. 2.9(c)) para un número intermedio 

de elementos k = 50 y m = 100 (en este caso w = 1). 

También se consideraron valores diferentes para los parámetros w y m 

del método de agrupamiento ponderado. La Figura 5.11 muestra el comportamiento 

del método ponderado en función de sus parámetros; en todos los 

casos, la proporción m/w se mantiene cerca de 100 (todos ellos son alternativas 

al algoritmo de m-medias con m = 100). En este caso, una elección 

conveniente de valores se da para la configuración m = 400 y w = 4 con el 

algoritmo de m-medias ponderadas.


> 0.1mm > 10.0mm > 20.0mm 

M1 M2 M3 M1 M2 M3 M1 M2 M3 

D+1 Analog 0.647 0.750 0.791 0.602 0.728 0.776 0.480 0.643 0.673 

Cluster 0.538 0.682 0.744 0.501 0.627 0.710 0.427 0.583 0.681 

WCluster 0.597 0.733 0.783 0.574 0.715 0.769 0.526 0.685 0.781 

D+2 Analog 0.633 0.727 0.771 0.586 0.689 0.737 0.474 0.606 0.647 

Cluster 0.523 0.669 0.716 0.478 0.602 0.667 0.408 0.535 0.614 

WCluster 0.588 0.711 0.763 0.571 0.685 0.736 0.504 0.647 0.729 

D+3 Analog 0.572 0.693 0.734 0.572 0.674 0.694 0.467 0.602 0.624 

Cluster 0.449 0.640 0.678 0.449 0.576 0.631 0.372 0.513 0.591 

WCluster 0.542 0.680 0.726 0.542 0.668 0.706 0.489 0.632 0.675 

Tabla 5.1: Roc Skill Area (RSA) para la precipitación usando los modelos M1, 

M2 y M3 para un alcance entre 1 y 3 días (D + 1, D + 2 y D + 3). Se muestran 

resultados para los tres métodos Analog (k-NN con k = 50), Cluster (m-medias 

con m = 100), y WCluster m-medias ponderadas con m = 400 y w = 4). 

La Tabla 5.1 muestra los valores del RSA promediados anual y espacialmente 

para las 98 estaciones, para el caso de la precipitación. De forma 

similar, la Tabla 5.2 muestra los resultados para el caso del viento. Por otra 

parte, las Fig. 5.12 y 5.13 comparan las curvas ROC y los índices RSA correspondientes 

a las configuraciones óptimas de los algoritmos para un alcance 

de un día (D+1). 

> 50km/h > 80km/h 

M1 M2 M3 M1 M2 M3 

D+1 Analog 0.576 0.702 0.721 0.500 0.556 0.511 

Cluster 0.453 0.609 0.648 0.428 0.511 0.512 

WCluster 0.526 0.671 0.716 0.524 0.670 0.697 

D+2 Analog 0.574 0.682 0.707 0.491 0.598 0.590 

Cluster 0.421 0.583 0.630 0.384 0.521 0.549 

WCluster 0.514 0.653 0.708 0.472 0.703 0.706 

D+3 Analog 0.562 0.657 0.668 0.476 0.552 0.572 

Cluster 0.428 0.567 0.605 0.359 0.497 0.548 

WCluster 0.508 0.630 0.656 0.468 0.652 0.620 

Tabla 5.2: Roc Skill Area (RSA) para la racha máxima de viento. –Ver detalles en 

el pie de la Tabla 5.1.– 

A partir de estos resultados se puede concluir lo siguiente: 

(a) Como era de esperar, el método estándar de análogos mejora claramente 

al método de agrupamiento básico;


0.8 

RSA 

0.7 

0.6 

1 2 4 8 

w 

Wind>50Km/h 

Wind>80Km/h 

Precip>0.1mm 

Precip>20mm 

Figura 5.11: Roc skill area (RSA) para precipitación (eventos Precip > 0.1mm y 

Precip > 20mm) y racha máxima de viento (eventos Wind > 50km/h y Wind > 

80km/h) usando la estimación dada en (5.7) con w variando desde 1 a 8 y m = 

100 ∗ w (con objeto de mantener un número promedio de elementos cercano a 50). 

(b) el método de agrupamiento ponderado mejora al método de análogos 

para umbrales altos de precipitaciones y rachas máximas (eventos 

extremos: Precip > 20mm, Wind > 80km/h). Para eventos no extremos, 

ambos métodos muestran resultados similares. La Figura 5.14 

muestra los índices RSA frente a la frecuencia climatológica de los 

cuatro eventos diferentes en las 98 estaciones consideradas en este estudio. 

Esta figura muestra la relación entre el skill de la predicción y 

la frecuencia de la observación del evento en una estación. En el caso 

de eventos extremos, podemos ver que, a partir de las Figuras 5.14 

(b) y (d) como el skill de la predicción tiende a ser menor en aquellas 

estaciones en las que la frecuencia del evento es más pequeña (cuanto 

más raro es un evento peor pericia tendremos en nuestra predicción). 

Sin embargo, podemos ver que, en esta situación, la pericia del downscaling 

por agrupamiento ponderado (WCl) es mayor que la del método 

estándar de los k-vecinos. 

(c) Los mejores resultados se obtienen con el modelo M3, indicando que 

la definición óptima para el estado de la atmósfera, es un patrón 4D 

restringido a un dominio geográfico local; y 

(d) la pericia decae con el alcance de la predicción usada en la entrada 

del downscaling. La Figura 5.15 muestra que este decaimiento es más 

pronunciado para un alcance de 4 días, mostrando un horizonte para 

la pericia de las predicciones meteorológicas de corto alcance. 

Los resultados anteriores están basados en un promedio temporal y espacial 

que podría ocultar algún aspecto importante de las predicciones para 

diferentes regiones de la Península Ibérica y para diferentes estaciones del 

año. Por esta razón, se ha realizado una validación adicional para analizar la


1 

1 

1 

0.8 

0.8 

0.8 

HIR 

0.6 

0.4 

0.2 

0 

0 0.5 FAR 1 

1 

(a) 

Precip > 0.1mm 

Analog (0.647) 

WCluster (0.597) 

HIR 

0.6 

0.4 

0.2 

0 

0 0.5 FAR 1 

1 

(c) 




HIR 

0.6 

0.4 

0.2 



0 

0 0.5 FAR 1 

1 

(e) 


0.8 

0.8 

0.8 

HIR 

0.6 

0.4 

0.2 

(b) 

Precip > 20mm 



0 

0 0.5 FAR 1 

HIR 

0.6 

0.4 

0.2 

(d) 

Precip > 20mm 



0 

0 0.5 FAR 1 

HIR 

0.6 

0.4 

0.2 

(f) 

Precip > 20mm 



0 

0 0.5 FAR 1 

Figura 5.12: Curvas ROC y RSA (entre corchetes) para precipitación (eventos 

Precip > 0.1mm y Precip > 20mm) usando k-NN con k = 50 (etiqueta Analog), y 

m-medias ponderadas con m = 400 y w = 4 (etiqueta WCluster) para los modelos: 

(a)-(b) M1, (c)-(d) M2, y (e)-(f) M3. 

1 

1 

1 

0.8 

0.8 

0.8 

HIR 

0.6 

0.4 

0.2 

(a) 

Wind > 50 Km/h 



0 

0 0.5 FAR 1 

HIR 

0.6 

0.4 

0.2 

(c) 




0 

0 0.5 FAR 1 

HIR 

0.6 

0.4 

0.2 

(e) 




0 

0 0.5 FAR 1 

1 

1 

1 

0.8 

0.8 

0.8 

0.6 

0.6 

0.6 

HIR 

0.4 

0.2 

(b) 0.4 

(d) 0.4 

(f) 

Wind > 80 Km/h Wind > 80 Km/h Wind > 80 Km/h 

Analog (0.500) 0.2 Analog (0.556) 0.2 Analog (0.511) 




0 

0 0.5 1 

FAR 

HIR 

0 

0 0.5 1 

FAR 

HIR 

0 

0 0.5 1 

FAR 

Figura 5.13: Curvas ROC y RSA para Racha Máxima de Viento (eventos Wind > 

50km/h y Wind > 80km/h). –Ver detalles en el pie de la Figura. 5.12.–


Prob Clim. 

0.08 

0.06 

0.04 

(b) 

Analog (k=50) 

WCl (m=100, w=5) 

Prob Clim. 

0.1 

0.08 

0.06 

0.04 

(d) 

Analog (k=50) 

WCl (m=100, w=5) 

0.02 

0.02 

0 

-0.5 0 

RSA 

0.5 1 

0 

- 0.5 0 

RSA 

0.5 1 

Prob Clim. 

0.6 

0.4 

(a) 

Analog (k=50) 

WCl (m=100, w=5) 

Prob Clim. 

0.4 

0.2 

(c) 

Analog (k=50) 

WCl (m=100, w=5) 

0.2 

0 

0.4 0.6 0.8 1 

RSA 

0 

0.2 0.4 0.6 0.8 1 

RSA 

Figura 5.14: Dibujos de dispersión de los valores del RSA frente a la frecuencia 

climatológica del evento para las 98 estaciones climatológicas: (a) Precip > 0.1mm, 

(b) Precip > 20mm, (c) Wind < 50km/h, y (d) Wind < 80km/h. 

0.8 

0.7 

RSA 

0.6 

0.5 

0.4 

Analog (0.1mm) 

WClus (0.1mm) 

Analog (20mm) 

WClus (20mm) 

1 2 3 4 

lead time (days) 

5 

Figura 5.15: RSA frente al alcance de la predicción para la precipitación (eventos 

Precip > 0.1mm y Precip > 20mm) usando el método de análogos con k = 50 y el 

método de agrupamiento con m = 400 y w = 4. Para un alcance de cuatro dias, se 

aprecia un decaimiento del skill más pronunciado (se ha utilizado el modelo M2).


distribución espacial de los resultados. En particular, la Tabla 5.3 muestra 

los valores RSA para las once cuencas hidrográficas en la Península y Baleares 

(ver Figura 2.8(b)). Entre las diferentes estaciones, los peores resultados 

se dan en Verano en la mayor parte de las cuencas. Este hecho puede ser debido 

a que la precipitación en verano es debida fundamentalmente a procesos 

convectivos que son más difíciles de predecir dado que su escala espacial es 

menor que la de los frentes que producen lluvia en otras estaciones del año. 

En la Figura 5.16 se muestra los resultados diarios correspondientes al 

período Septiembre-Noviembre de 1998 para la precipitación. Las diferencias 

entre estos métodos se caracterizan mediante un diagrama de cajas que 

muestra los percentiles sobre las 98 estaciones para las pericias de cada uno 

de los días. 

BS(WCluster) - BS(Analog) 

0.4 

0.2 

0 

-0.2 

-0.4 

(a) Precip > 0.1mm 

-0.6 

BS(WCluster) - BS(Analog) 

0.4 

0.2 

0 

-0.2 

(b) Precip > 10mm 

-0.4 

1 10 20 30 40 50 60 70 80 90 

Day 

Figura 5.16: Diagramas de terciles para las diferencias de Brier Score (BS) entre 

los métodos de agrupamiento ponderado (WClust con m = 400 y w = 4) y el 

método de análogos estándar (k-NN con k = 50) para un periodo de 90 días (SON, 

1998). Cada día, las cajas representan los terciles de los índices de las 98 estaciones 

y las rectas muestran los valores extremos. 

Por último, el término “corto plazo” se refiere al hecho de que las salidas 

de los modelos de predicción por conjuntos (ensembles) no se usan. La pericia 

de la predicción decae rápidamente el cuarto día (de forma equivalente al de 

los modelos numéricos). Sin embargo el método es susceptible de ser aplicado 

a la salida de la predicción numérica por conjuntos, ya que cada uno de los 

miembros del ensemble correspondería a uno de los grupos y, por tanto, el 

conjunto completo definiría una distribución sobre los grupos, obteniendo 

así un mecanismo natural para trabajar con predicciones probabilísticas. 

Esta aplicación se detalla en el siguiente capítulo.


> 0.1mm > 20mm 

Wi Sp Su Fa Wi Sp Su Fa 

Segura kNN 0.831 0.779 0.415 0.808 0.832 0.818 − 0.783 

WCl 0.836 0.800 0.476 0.831 0.930 0.977 − 0.829 

Baleares kNN 0.717 0.804 0.600 0.726 0.625 0.826 − 0.662 

WCl 0.722 0.794 0.624 0.719 0.750 0.831 − 0.774 

Catalana kNN 0.808 0.734 0.685 0.727 0.772 0.582 0.305 0.758 

WCl 0.817 0.739 0.662 0.714 0.774 0.611 0.512 0.728 

Duero kNN 0.800 0.824 0.743 0.818 0.514 0.623 0.594 0.507 

WCl 0.789 0.819 0.751 0.808 0.633 0.654 0.676 0.585 

Ebro kNN 0.730 0.742 0.648 0.742 0.816 0.676 0.376 0.724 

WCl 0.744 0.745 0.674 0.744 0.798 0.808 0.517 0.775 

Guadalq. kNN 0.913 0.856 0.556 0.836 0.894 0.584 0.838 0.827 

WCl 0.916 0.863 0.701 0.841 0.940 0.661 0.951 0.909 

Guadiana kNN 0.842 0.837 0.713 0.833 0.799 0.868 0.258 0.781 

WCl 0.842 0.852 0.889 0.857 0.821 0.825 0.378 0.812 

Levante kNN 0.855 0.801 0.688 0.794 0.810 0.746 0.851 0.474 

WCl 0.873 0.798 0.690 0.805 0.916 0.788 0.948 0.604 

Norte kNN 0.869 0.852 0.740 0.819 0.807 0.734 0.741 0.718 

WCl 0.870 0.844 0.751 0.806 0.842 0.754 0.835 0.751 

Sur kNN 0.815 0.804 0.698 0.783 0.731 0.428 0.892 0.666 

WCl 0.840 0.823 0.716 0.790 0.813 0.640 0.964 0.720 

Tajo kNN 0.884 0.849 0.725 0.874 0.982 0.525 0.922 0.394 

WCl 0.879 0.845 0.741 0.880 0.980 0.885 0.946 0.668 

Tabla 5.3: Roc Skill Area (RSA) para la precipitación usando el método de análogos 

con k = 50 (etiqueta kNN), y de agrupamiento ponderado con m = 400 y w = 4 

(etiqueta WCl). El signo “-” indica la falta de datos de validación para ese periodo.

112 5. PREDICCIÓN LOCAL A CORTO PLAZO. TÉCNICAS DE AGRUPAMIENTO

CAPÍTULO 6 

Predicción por Conjuntos a Plazo Medio y 

Estacional. Redes Auto-Organizativas 


La no linealidad de los modelos de circulación, y su consiguiente sensibilidad 

a las distintas fuentes de incertidumbre (el estado inicial de la atmósfera, 

la no exactitud del modelo numérico, etc.), impone una limitación al alcance 

de las predicciones deterministas y ha obligado a formular el problema de la 

predicción a plazo medio y estacional, en términos probabilísticos (Lorenz, 

1996). Por ello, en el último decenio, se han desarrollado distintos métodos 

de predicción por conjuntos (ensemble forecast) para tener en cuenta el 

crecimiento exponencial de las fluctuaciones (errores) producidas por las distintas 

fuentes de incertidumbre asociadas con la predicción; por una parte, 

la incertidumbre producida por las condiciones iniciales (errores de observaciones 

y de análisis de los modelos), y por otra la incertidumbre producida 

por el modelo (imperfecciones en la parametrización de diversos procesos 

físicos, representación de la orografía, etc.). 

Los métodos de predicción por conjuntos, estiman la probabilidad a posteriori 

de las distintas variables atmosféricas, a partir de un conjunto de 

predicciones obtenidas, integrando el modelo atmosférico con distintas realizaciones 

de las fuentes de incertidumbre. Por una parte, para tener en 

cuenta la incertidumbre asociada al estado inicial, se perturban ligeramente 

las condiciones iniciales y se integra el modelo numérico, tantas veces como 

miembros tenga el conjunto de perturbaciones. Este coste computacional 

impone la necesidad de equipos más rápidos y potentes, y limita el número 

de miembros que pueden ser tratados de forma operativa (unas decenas). 

Este tipo de predicción por conjuntos, es el más difundido y el implantado 

operativamente en los principales centros meteorológicos. Por otra parte, 

113

114 6. PREDICCIÓN POR CONJUNTOS. REDES AUTO-ORGANIZATIVAS 

para considerar la incertidumbre causada por el modelo, se consideran perturbaciones 

en las parametrizaciones (incluida la orografía) y, más generalmente, 

se calcula un conjunto de predicciones aplicando distintos modelos 

(predicción multi-modelo). Pese a las dificultades teóricas y computacionales 

asociadas con este tipo de técnicas, los avances producidos han dado un 

enorme impulso a la predicción meteorológica en el plazo medio (entre 4 y 15 

días) y a la predicción mensual y estacional. Por ello, estos métodos se han 

convertido en un componente central en los grandes centros meteorológicos 

mundiales, incluyendo el ECMWF en Europa y el NCEP en EEUU. 

Aunque la predicción probabilística, no resulta familiar para los usuarios 

finales de las predicciones meteorológicas (sectores energético, hidrológico, 

agricultura, etc.), ésta posee el valor añadido de permitir definir una estrategia 

de toma de decisiones, en base a los costes de protegerse de los 

eventuales efectos de una predicción adversa, y a las pérdidas que se producirían 

si no se toman las medidas de protección. Este esquema de valoración 

de las predicciones probabilísticas de un modelo concreto en un período dado 

se obtiene a partir de la llamada “curva de valor económico”, que muestra 

la ganancia de la predicción realizada con el modelo, frente a la predicción 

climatológica, y para los distintos valores de la razón coste/pérdidas (ver 

Cap. 4). De esta forma, es más sencillo obtener el valor de las predicciones 

meteorológicas, para los distintos sectores socio-económicos de aplicación, 

permitiendo una mayor difusión y un uso más racional de los productos de 

predicción meteorológica por parte de los usuarios. 

En este capítulo se analizan diversas aplicaciones de las redes autoorganizativas 

(ver Sec. 3.4) en la predicción por conjuntos. En la Sec. 6.2 

se describen en más detalle algunas técnicas de este tipo de predicciones. 

En la Sec. 6.3 se ilustran las aplicaciones de las redes auto-organizativas 

para visualizar e interpretar el conjunto de predicciones, y para obtener predicciones 

locales a partir del mismo. En esta sección también se describen 

las ventajas de esta técnica frente a los algoritmos de agrupamiento presentados 

en el capítulo anterior. Una aplicación de este método en el plazo 

medio se analiza en la Sec. 6.4 y, por último, la Sec. 6.5 aplica el mismo 

esquema de predicción por conjuntos a la predicción estacional, donde se 

tratan de predecir los efectos asociados a cambios en los patrones de circulación 

atmosférica (anomalías de temperatura, precipitación, etc.) con varios 

meses de antelación. En esta sección, se demuestra que es posible obtener 

predicciones locales durante episodios de “El Niño” fuertes, con meses de 

antelación. 

6.2. Predictibilidad y Predicción por Conjuntos 

Como ya se ha comentado, el problema de la predictibilidad de los modelos 

numéricos de circulación atmosférica está asociado con su no linealidad, 

ya que cualquier incertidumbre o error introducido en el sistema fluctúa 

exponencialmente en el tiempo. Analizado de forma general, el origen de

6.2. PREDICTIBILIDAD Y PREDICCIÓN POR CONJUNTOS 115 

fluctuaciones en estos modelos puede provenir de errores en la condición 

inicial (caos), de reducción de variables en el modelo (ruido) o de las parametrizaciones 

y condiciones orográficas de contorno (desorden). 

La dispersión producida por errores en la condición inicial, ha sido el caso 

más estudiado en la predicción meteorológica. Se suele analizar aplicando un 

método de predicción por conjuntos, a modelos numéricos con muchos modos 

espaciales (Anderson, 1996). Los conjuntos se pueden formar de muy diversas 

formas, siendo el método de vectores singulares (Buizza and Palmer, 1995) o 

el método de breeding (Pu et al., 1997) los más utilizados para la generación 

de miembros, a partir de perturbaciones específicas de las condiciones iniciales. 

El método de vectores singulares ha sido adoptado por el ECMWF y 

el método de breeding por el NCEP. Ambos métodos presentan características 

muy distintas, y a veces contrarias, pero sus resultados finales, medidos 

en valores económicos, no son muy distintos. El método de breeding no requiere 

grandes esfuerzos computacionales, y es técnicamente muy simple. 

Consiste en seguir la evolución lineal en una determinada trayectoria, con 

condiciones iniciales aleatorias muy alejada del tiempo de observación. El 

método de vectores singulares es computacionalmente mucho más costoso y 

técnicamente más complejo, pues calcula, mediante técnicas de componentes 

principales, las fluctuaciones lineales más significativas ocurridas en un 

alcance de predicción dado. 

En la práctica, este tipo de predicción por conjuntos se realiza, tanto 

para la predicción a medio plazo, como para la predicción estacional. 

En este período la predicción se entiende en sentido probabilístico y cobra 

importancia el concepto de predictibilidad, y su caracterización para 

cada situación (unas situaciones son más predecibles que otras). En estos 

casos, la predicción por conjuntos proporciona una solución práctica, ya que 

los miembros del conjunto de predicciones, nos proporcionan descripciones 

equiprobables del patrón atmosférico previsto, y a partir de las cuales se 

puede obtener una predicción probabilística, así como una estimación de su 

predictibilidad. 

Por otra parte, la dispersión producida por la no exactitud del modelo, 

y de las distintas parametrizaciones, está siendo abordada considerando 

conjuntos de predicciones obtenidos por varios modelos (predicción multimodelo). 

Quizás la iniciativa más destacada en este ámbito sea la llevada a 

cabo en el proyecto DEMETER (Development of a European Multimodel 

Ensemble system for seasonal to inTERannual prediction) que está integrado 

por seis modelos globales de predicción por conjuntos con distintos esquemas 

de perturbación (www.ecmwf.int/research/demeter/) con los que se 

aborda el problema de la predicción mensual y estacional (Palmer et al., 

2003). 

Por ejemplo, uno de los casos más comunes de predicción estacional por 

conjuntos, es el fenómeno de El Niño; en concreto, la zona Niño-3 que comprende 

un área del Océano Pacífico entre la latitudes 5N − 5S y longitudes 

90W − 150W. El promedio de la temperatura del agua del mar en esta re-


gión, se suele utilizar como indicador de la actividad de El Niño. La Figura 

6.1 muestra las predicciones realizadas por el modelo estacional, System-II 

del ECMWF en (a) Abril y (b) Agosto, para cada uno de los miembros del 

conjunto de predicciones. En ambas figuras se muestra el valor real ocurrido 

en trazo discontinuo. En la figura (a) todos los miembros de la predicción 

indican una anomalía positiva en el futuro. En cambio, en la figura (b) unos 

miembros del conjunto indican anomalía positiva, mientras otros indican lo 

contrario. En este caso, la situación se supone menos predecible y la confianza 

asociada a la predicción es baja. En la figura inferior se muestra la 

probabilidad obtenida a partir del conjunto de predicciones, para que la 

temperatura en la superficie del mar tenga una anomalía positiva durante 

el trimestre septiembre-noviembre de 2003. 

(a) 

(b) 

Figura 6.1: Predicción por conjuntos del fenómeno de El Niño con un conjunto de 

51 miembros. (a) La predicción realizada en Abril muestra una anomalía positiva 

hasta octubre; (b) los miembros de la predicción realizada en Julio no coinciden 

en una misma predicción. La figura inferior muestra la probabilidad (en tanto por 

ciento) predicha el 1 de Agosto de que la temperatura a 2m se encuentre en el tercil 

superior (anomalía positiva) en el período SON 2003. (FUENTE: ECWMF) 

Distintas validaciones de la predicción probabilística por conjuntos, han 

mostrado su superioridad frente a la predicción determinista tradicional 

(Zhu et al., 2001). Sin embargo, a pesar de que cualitativamente la dispersión 

del conjunto parece apropiada, como medida de predictibilidad, todavía 

no se ha obtenido ningún resultado concluyente relacionando estos conceptos. 

En la siguiente sección se muestra que las redes auto-organizativas proporcionan 

criterios cualitativos, y cuantitativos, para relacionar predictibilidad 

y dispersión del conjunto de predicciones.

6.3. APLICACIÓN DE LAS REDES AUTO-ORGANIZATIVAS 117 

6.3. Aplicación de las Redes Auto-Organizativas 

En la Sec. 3.4 se describieron diversas aplicaciones de las redes autoorganizativas 

(Self-Organizing Maps, SOM) para la visualización y clasificación 

de patrones atmosféricos y de patrones fenomenológicos (observaciones 

en superficie). Esta técnica es una generalización de la técnica de agrupamiento 

de m-medias (ver Sec. 3.3.2) y divide el espacio original de patrones 

(por ejemplo, una base de datos de re-análisis) en grupos caracterizados 

por un patrón prototipo. La diferencia entre la técnicas de m-medias y la 

SOM consiste en que esta última, lleva a cabo una proyección no lineal del 

espacio de patrones (de muy alta dimensionalidad), en un espacio arbitrario 

(normalmente un espacio reticular bidimensional de fácil visualización), 

conservando la distancia y, por tanto, la noción de vecindad. De esta forma, 

patrones vecinos en la retícula 2D también son vecinos (similares) en el espacio 

real, mientas que los patrones alejados en esta representación reticular, 

también se encuentran alejados en el espacio real. 

40 

T 1000mb 

30 

20 

10 

PC2 

0 

-10 

-20 

-30 

-40 

-40 -30 -20 -10 0 10 20 30 40 

PC1 

T 500mb 

Z, (U,V) 500mb 

Figura 6.2: Ejemplo de una SOM de 5 × 5 grupos representada en el espacio 

generado por las dos primeras componentes principales del re-análisis ERA-15. Cada 

grupo tiene asociado un prototipo proyectado sobre la retícula 5 × 5; en este caso 

se muestran tres campos atmoféricos asociados a cada prototipo: temperatura en 

500 y 1000 mb y geopotencial y dirección de viento en 500 mb. 

Por ejemplo, la Fig. 6.2 muestra una retícula 5×5 (25 grupos) proyectada 

sobre el espacio definido por las dos primeras componentes principales de 

los patrones atmosféricos de ERA-15 (la retícula está proyectada sobre todo 

el espacio, pero se muestran solamente las dos primeras componentes para


facilitar su visualización). Cada punto de la retícula representa un prototipo, 

que caracteriza al conjunto de los patrones atmosféricos que están en su 

vecindad (más cerca de ese prototipo que de ningún otro). Asimismo, cada 

uno de los prototipos está representado por un punto en la retícula 2D 

original, y tiene asociado un conjunto de vecinos (los 8 vecinos de la retícula 

que lo rodean). El entrenamiento de la SOM calcula la ubicación óptima de 

los prototipos en el espacio real (agrupamiento), pero, manteniendo la noción 

de vecindad definida en la retícula original. Por ejemplo, en la Fig. 6.2, se 

muestran por separado los valores de tres campos atmosféricos (temperatura 

en 1000mb, temperatura en 500mb, y geopotencial y dirección del viento en 

500mb) asociados a cada uno de los prototipos resultantes, de entrenar una 

SOM 2D reticular 5 × 5 con los patrones atmosféricos del re-análisis ERA- 

15, limitados a la región del Atlántico Norte. En esta figura se puede ver 

que existe una continuidad en los patrones atmosféricos, mostrados en la 

retícula, que refleja la conservación de distancias de la proyección realizada. 

La utilidad de este tipo de representaciones ha sido puesta de manifiesto en 

la Sec. 3.4 para la clasificación y visualización de patrones de tiempo (otras 

aplicaciones en Climatología se ilustran en Hewitson and Crane, 2002). 

Esta técnica ha sido también utilizada para la predicción local (downscaling 

estadístico), permitiendo clasificar los patrones atmosféricos, y estimar 

modelos de regresión locales para cada uno de los grupos resultantes 

(Cavazos, 2000). Por una parte, este método podría ser mejorado aplicando 

algún método de estimación no lineal a los grupos resultantes (ver, por ejemplo, 

Fontela-Romero et al., 2002). Sin embargo, la aplicación de las SOM en 

este ámbito no presenta ninguna ventaja desde el punto de vista de la calidad 

de la predicción, con respecto al método de downscaling por agrupamiento, 

presentado en el Capítulo 5. Sin embargo, en la predicción por conjuntos la 

SOM aporta un valor añadido, que todavía no ha sido tenido en cuenta en 

este ámbito. En esta sección se analiza esa aplicación. 

El método de predicción local por agrupamiento, descrito en el Capítulo 

5 se describe en la Fig. 5.10, en la muestra un esquema de las partes principales. 

Esta figura muestra que la generalización de esta técnica, a la predicción 

por conjuntos, resulta trivial: en lugar de trabajar con un único patrón, se 

repite el proceso con cada uno de los patrones miembro de la predicción por 

conjuntos, obteniéndose un valor local, previsto a partir de las predicciones 

asociadas con cada uno de los grupos obtenidos, para los miembros. La etapa 

de agrupamiento, requerida como preproceso del algoritmo, no varía, lo 

que varía es la aplicación operativa, ya que sólo es necesario hallar el grupo 

correspondiente a cada patrón miembro de la predicción. Si en lugar de utilizar 

una técnica de agrupamiento estándar (como m-medias) se utiliza una 

SOM en este esquema, se cuenta con la ventaja adicional de tener organizados 

los grupos en una retícula 2D, donde se conserva la misma noción de 

vecindad que en el espacio real de patrones. Por tanto, los miembros de la 

predicción por conjunto definirán una función de probabilidad en la retícula 

de la SOM, que podrá combinarse con las funciones de probabilidad feno-

6.3. APLICACIÓN DE LAS REDES AUTO-ORGANIZATIVAS 119 

menológicas para ŷ i , obtenidas para cada grupo, para así obtener un valor 

final de la predicción (ver Fig. 6.3). 

1979 

1993 

... 

ATMOSPHERIC 

PATTERNS 

DATABASE 

ERA15 

reanalisys 

1979-1993 

CLUSTERING 

C 1 , ..., C m 

SELF-ORGANIZING 

MAP (SOM) 

Topological arrangement 

in a 2D lattice (e.g. m=36) 

C1 C2 ... 

C36 

Find Cluster: 

C i1 

ENSEMBLE 

FORECAST 

... 

f1 f 2 ... 

Find Cluster: 

C in 

1979 

... 

Daily records: 

Precip, wind, ... 

Estimation for 

each cluster 

and station 

y 1 , ..., y m 

f36 

Inference: y i 

1993 

LOCAL CLIMATE 


Figura 6.3: Esquema del algoritmo de downscaling por agrupamiento generalizado 

a la predicción por conjuntos. En este caso, la técnica de agrupamiento está basada 

en redes auto-organizativas considerando una retícula 2D. 

Por tanto, el uso de las SOM como técnica de agrupamiento permite 

obtener: 

Una predicción probabilística y numérica, a partir de algún estadístico 

central, o algún percentil, de la función de probabilidad resultante, de 

combinar la probabilidad de la SOM y la probabilidad fenomenológica 

de cada grupo (véase Sec. 5.4.1). 

Una medida de predictibilidad (o confianza) basándose en algún estadístico 

de dispersión de la probabilidad de la SOM. Obsérvese, que 

la dispersión estadística de la función de probabilidad, está relacionada 

con la dispersión de los patrones de los miembros de la predicción 

por conjuntos, ya que la SOM conserva las distancias del espacio real 

en la retícula 2D, que sirve de soporte a la función de probabilidad. 

Por tanto, la dispersión de los miembros de la predicción en el espacio 

real redundará en una mayor dispersión de la probabilidad sobre la 

retícula de la SOM. 

Por ejemplo, la Fig. 6.4(a) muestra la función de probabilidad definida 

en la SOM por los días de Invierno (Diciembre-Febrero) del período ERA- 

15 (1979-1993), mientras que la la Fig. 6.4(b) muestra la probabilidad correspondiente 

al verano (Junio-Agosto). Comparando estas dos figuras se 

puede observar que cada una de ellas se distribuye en una parte distinta 

del soporte, indicando la diferencia entre ambos conjuntos de patrones. Por 

otra parte, las Fig. 6.4(c) y (d) muestran las probabilidades de los invierno


(a) DJF 

0.1 

(b) JJA 

0.1 

0.08 

0.08 

0.06 

0.06 

0.04 

0.04 

0.02 

0.02 

(c) DJF 1998 

0 

0.1 

(d) DJF 2000 

0 

0.1 

0.08 

0.08 

0.06 

0.06 

0.04 

0.04 

0.02 

0.02 

0 

0 

Figura 6.4: Función de probabilidad empírica definida sobre la SOM por (a) los 

días de invierno (Diciembre-Febrero) del período ERA-15 (1979-1993), (b) los días 

de verano (Junio-Agosto) de ERA-15. (c) los días de invierno del año 1998 (d) los 

días de invierno del año 2000. 

para los años 1998 y 2000, respectivamente. Estas funciones de probabilidad 

definen la variabilidad de cada uno de los años y una comparación con la 

Fig. (a) permitiría reflejar lo anomalía de la estación correspondiente con 

respecto a la climatología. Estas mismas ideas se pueden aplicar para el caso 

de la predicción por conjuntos. En la siguiente sección se analizan distintas 

medidas que pueden caracterizar la dispersión de la función de probabilidad 

y comparar dos funciones entre sí. 

6.3.1. Medidas de Dispersión y Predictibilidad 

Aparte de las medidas estándar para caracterizar la dispersión de una 

función de probabilidad (por ejemplo, la desviación estándar σ), existen 

otras medidas, como la entropía, desarrolladas en el campo de la “teoría 

de la información” con propiedades interesantes para el problema que nos 

ocupa (Shannon, 1948). 

La entropía es una medida utilizada para caracterizar el desorden y la 

pérdida de información en distintos problemas (sistemas físicos como mezclas 

de gases, códigos digitales para comunicaciones, etc.). Desde el punto 

de vista estadístico, la entropía de una función de probabilidad caracteriza 

la uniformidad de la misma (para el caso discreto). Dada una función de 

probabilidad (p 1 , . . .,p n ) = (P(c 1 ), . . .,P(c n )) definida sobre una variable 

discreta C con n estados (C 1 , . . .,C n ), se define su entropía como: 

H(P) = − ∑ i 

p i log b p i = ∑ i 

[ ] 

1 1 

p i log b = E log b 

p i P(x) 

(6.1) 

donde la base del logaritmo nos va a determinar la unidad en la que se mide 

la información de los datos (si es 2, la unidad de medida es el bit). A partir

6.4. APLICACIÓN EN LA PREDICCIÓN A MEDIO PLAZO 121 

de esta definición, y considerando las propiedades de una probabilidad, se 

puede deducir que H(P) ≥ 0, y será nula cuando toda la probabilidad se 

acumule en un sólo estado (la variable tome un único valor). 

Otra medida de interés es la entropía relativa, también llamada distancia 

de Kullback-Leibler, que mide la distancia entre dos posibles distribuciones 

de probabilidad, P y Q, de una misma variable aleatoria X. Se define como: 

H(P |Q) = ∑ q i ≠0 

p i log p i 

q i 

(6.2) 

como en el caso anterior se tiene que H(P |Q) ≥ 0 y el valor nulo sólo se 

alcanza cuando P ≡ Q ⇔ p i = q i ∀i. 

Cada una de estas medidas, proporciona una caracterización de la dispersión 

de los miembros de la predicción por conjuntos, a partir de la probabilidad 

que definen sobre la SOM. La desviación típica es la más simple 

de estas caracterizaciones y mide la separación promedio de los miembros 

de la predicción, al patrón medio previsto. Por otra parte, la entropía tiene 

en cuenta la mayor, o menor dispersión de los miembros, sin considerar la 

distancia a la que se encuentran del centro de la probabildiad. Por último, 

la entropía relativa de la probabilidad, respecto a la probabilidad climatológica, 

ofrece una medida de la información proporcionada por el modelo 

numérico, o de la anomalía del patrón previsto. La conveniencia de estas 

medidas se analiza en detalle en dos aplicaciones concretas: la predicción a 

plazo medio y la predicción estacional. 

6.4. Aplicación en la Predicción a Medio Plazo 

En esta sección se analiza la aplicación de la técnica de la Sección anterior, 

a la predicción por conjuntos de plazo medio. Para ello se consideran 

las salidas operativas del modelo de predicción por conjuntos del ECMWF, 

para el período DEF 1998 y 2000 (180 días). Para cada uno de los días, 

este modelo realiza una predicción hasta D + 9 a partir de una condición 

inicial, a esta predicción se la denomina control. Después se generan otras 

50 predicciones, a partir de perturbaciones de la condición inicial, aplicando 

el método de vectores singulares. Por tanto, para cada alcance de predicción 

entre D + 1 y D + 9 se tienen 51 patrones atmosféricos que se consideran 

igualmente probables, para la descripción del patrón atmosférico previsto. 

Tal como se comentó en la sección anterior, cada conjunto de 51 patrones 

define una función de probabilidad que tiene como soporte la retícula de 

la SOM. Por ejemplo, la Fig. 6.5 muestra las funciones de probabilidad 

dadas por los 51 patrones para cada uno de los alcances obtenidos a partir 

del día 24 de febrero de 1998. Como puede observarse en esta figura, la 

predicción para los primeros dos días se centra en un sólo grupo, mientras 

que la dispersión comienza a crecer a partir del tercer día, a medida que 

aumenta la incertidumbre sobre la predicción. Los dos números que aparecen


EPS 24/2/1998 

H=0 σ=0 0 0 

1 

1 

0.743 0.793 

0.5 

0.5 

0 

0 

D+1 D+2 D+3 

1.612 1.614 2.190 1.571 1.998 1.984 

1 

1 

1 

0.5 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+4 D+5 D+6 

2.433 3.018 2.393 3.441 2.718 3.385 

1 

1 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+7 D+8 D+9 

0 

Figura 6.5: Probabilidades definidas sobre la SOM por los miembros de la predicción 

por conjuntos del día 24/2/1998 para los alcances entre D + 1 y D + 9. 

sobre la distribución, indican la entropía (izquierda) y la desviación típica 

(derecha). 

Sin embargo, no todas las situaciones son similares a la anterior, ya que 

se puede encontrar un período estable donde los miembros del conjunto de 

predicciones tienen escasa variabilidad (ver Fig. 6.6), y también una situación 

más impredecible, en la que la dispersión es considerable desde el primer 

día de alcance (ver Fig. 6.7). 

A pesar de la variabilidad de unas situaciones a otras, se puede esperar 

que, en promedio, la dispersión de las funciones de probabilidad crezca a 

medida que aumenta el alcance de la predicción (y, por tanto, su incertidumbre). 

Para constatar este hecho se han calculado los respectivos cuartiles de 

las dispersiones, y para los distintos alcances, considerando las predicciones 

realizadas en los 180 días. Las Figs. 6.8 (a) y (c) muestran la entropía y la 

desviación típica de la probabilidad para el alcance D. En estas figuras puede 

observarse que, la desviación tiene algunos valores fuera de rango durante los 

primeros días de la predicción y comienza a saturar a partir del quinto día, 

y por otra parte, el comportamiento de la entropía es más monótono. Cada 

una de estas dos medidas da una información distinta sobre la variabilidad 

de cada uno de los patrones. Por ello, se considera también un parámetro de 

dispersión definido como la suma de los parámetros anteriores. En la Fig. 

6.8(d) se muestra que este parámetro presenta la característica de satura-


H=0.321 σ=0.297 0.321 0.297 0.670 0.488 

1 

1 

1 

EPS 25/1/1988 

0.5 

0.5 

0 

0 

D+1 D+2 D+3 

1.097 1.083 0.415 0.425 0.546 0.798 

1 

1 

0.5 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+4 D+5 D+6 

1.333 1.477 1.528 1.565 1.626 1.637 

1 

1 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+7 D+8 D+9 



0 

EPS 19/12/1997 

H=0.756 σ=0.693 1.571 3.005 2.172 3.517 

1 

1 

0.5 

0.5 

0 

0 

D+1 D+2 D+3 

2.205 2.627 2.040 2.870 1.971 2.645 

1 

1 

1 

0.5 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+4 D+5 D+6 

2.629 2.497 2.540 2.529 2.366 3.291 

1 

1 

0 

1 

0.5 

0.5 

0.5 

0 

0 

D+7 D+8 D+9 



0


H(P(D)) 

3 

2 

1 

(a) 

H(P(D)|P(D-1)) 

4 

3 

2 

1 

(b) 

0 

1 2 3 4 5 6 7 8 9 

alcance (dias) 

0 

1 2 3 4 5 6 7 8 9 


4 

6 

σ(P(D)) 

3 

2 

1 

0 

(c) 

1 2 3 4 5 6 7 8 9 


Dispersión 

5 

4 

3 

2 

1 

0 

(d) 

1 2 3 4 5 6 7 8 9 


Figura 6.8: (a) Entropía de la probabilidad para el alcance D, H(P(D)); (b) Entropía 

relativa de la probabilidad de un día, respecto a la probabilidad del día 

anterior, H(P(D)|P(D −1)); (c) desviación típica de la probabilidad y (d) parámetros 

de dispersión, definido como la suma de la desviación típica y la entropía. 

ción de la desviación, mientras que reduce el problema de los valores fuera 

de rango. Por último, la Fig. 6.8(c) muestra la entropía relativa de un día 

respecto al anterior. Como se puede observar en la figura, este valor decae 

de forma continua a medida que se incrementa el alcance de la predicción; 

se observa un gran crecimiento incremental de la dispersión los primeros 

cinco días, mientras que la dispersión aumenta más lentamente a partir del 

quinto día de alcance. Este hecho coincide con la saturación indicada por la 

desviación típica. 

La validación del sistema de predicción probabilística por conjuntos ha 

mostrado ser superior a un sistema determinista clásico basado en una única 

integración (ver, por ejemplo, Richardson, 2000) en el medio plazo. A continuación 

se comprueba que este resultado también es cierto cuando se utilizan 

los patrones atmosféricos para realizar predicciones locales utilizando el 

método de downscaling descrito en el Capítulo 5. Para ello, se ha entrenado 

una SOM considerando el patrón de la Cuenca Norte de la Península Ibérica 

mostrado en la Fig. 2.9(c) y se ha aplicado el método de downscaling descrito 

en la Fig. 6.3 para predecir el evento P(Precip > 0.1mm) en 100 estaciones 

de la Cuenca Norte. La Fig. 6.9 muestra los Brier Scores (BS) diarios promediados 

para todas la estaciones obtenidos con los 50 miembros, perturbados,


1 

D+1 1 D+2 1 D+3 

0 

0 

0 

0 BS Control 1 0 BS Control 1 0 BS Control 1 

1 

D+4 1 D+5 1 D+6 

BS EPS 

BS EPS 

0 

0 

0 


1 

D+7 1 D+8 1 D+9 

BS EPS 

BS EPS 

BS EPS 

BS EPS 

BS EPS 

BS EPS 

BS EPS 

0 

0 

0 


Figura 6.9: Brier Score (BS) de la predicción local realizada con todos los miembros 

del conjunto (BS EPS) y sólo con el control (BS Control) para alcances entre uno 

y nueve días. Los valores representados son las medias para todas la estaciones 

principales de la Cuenca Norte. 

de la predicción por conjuntos (etiqueta EPS) y una única predicción dada 

por el control (el patrón correspondiente a la condición inicial sin perturbar) 

(etiqueta control). En esta figura puede verse que el downscaling realizado 

con la predicción por conjuntos es claramente superior al downscaling tradicional, 

basado en una única predicción entre los días quinto y octavo, siendo 

ligeramente mejor el resto de los días. En concreto el noveno día el comportamiento 

del sistema de predicción por conjuntos comienza a perder pericia 

respecto al control. 

Por último, se muestra que la medida de dispersión de la probabilidad 

de la SOM, definida como la suma de la desviación típica y de la entropía, 

está correlacionada con la predictibilidad de la situación correspondiente. 

Para ello, en la Fig. 6.10 se muestra la dispersión frente al error BS obtenido 

en la respectiva predicción realizada, para los distintos alcances del 

modelo. Se puede observar que a partir del tercer día de predicción, aparece 

una relación entre, la medida de dispersión definida a partir de la SOM, 

y el error que se produce en la predicción (confianza en la predicción, o 

predictibilidad). Esta relación indica que el rango de errores posibles crece 

linealmente al crecer la dispersión (estos resultados se analizan con más 

detalle en Cofiño et al., 2003a).


BS 

0.4 

0.3 

0.2 

0.1 

D+1 D+2 D+3 

0 

0 1 2 3 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

0 2 4 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

0 2 4 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

D+4 D+5 D+6 

1 2 3 4 5 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

2 4 6 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

2 4 6 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

D+7 D+8 D+9 

0 

2 4 6 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

2 4 6 

Dispersión 

BS 

0.4 

0.3 

0.2 

0.1 

0 

2 4 6 

Dispersión 

Figura 6.10: Brier Score (BS) de la predicción local realizada con el conjunto de 

predicciones frente a la medida de dispersión (desviación típica mas entropía) para 

alcances entre uno y nueve días. Los BS representados son las medias para todas 

la estaciones principales de la Cuenca Norte. 

6.5. Predicción Mensual y Estacional 

En secciones anteriores el objetivo de la predicción a corto y medio plazo 

era estimar numérica o probabilísticamente el valor de una cierta variable 

atmosférica con una anticipación de entre uno y nueve días. Este es el límite 

que se suele fijar como umbral de predictibilidad de la atmósfera 1 , ya que a 

tiempos superiores, la no-linealidad de los modelos de circulación atmosférica, 

junto con los errores asociados a las observaciones y las aproximaciones 

de los modelos utilizados, impiden una predicción numérica acertada. Por 

tanto, en principio, los términos “predicción mensual” o “predicción estacional” 

pueden parecer incorrectos. Sin embargo, aunque no es posible precisar 

el valor concreto de una cierta variable con una antelación de un mes (o 

un trimestre), en ocasiones sí resulta posible dar algún tipo de información 

útil asociada a la misma; por ejemplo, se podría tratar de predecir si el 

valor medio del siguiente mes, o trimestre, será significativamente inferior 

o superior a la media climatológica correspondiente (es decir, hablando en 

términos de precipitación, si se espera un mes o estación más húmeda o 

1 El límite de la predicción a medio plazo (o la predictibilidad de la atmósfera, en otras 

palabras) no es un valor fijo que haya sido obtenido teóricamente (obsérvese que además 

este valor oscilará temporal y espacialmente). Sin embargo, se suele considerar entre 10 y 

15 días para fines prácticos de la predicción operativa.

6.5. PREDICCIÓN MENSUAL Y ESTACIONAL 127 

4 

2 

0 

−2 

−4 

1900 1905 1910 1915 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 

Figura 6.11: Índice de Oscilación del Sur (SOI) durante el siglo XX. El índice de 

un mes se define como (T − D)/s, donde T y D son las anomalías mensuales en 

Taití y Darwin, respectivamente y S es la varianza de T − D para el mes dado. 

seca de lo normal). Así pues, en este tipo de predicciones, se trabaja con 

anomalías (estimaciones de desviaciones mensuales, o trimestrales, respecto 

de la climatología) o con su carácter (positivo, normal, o negativo) y no con 

valores concretos de las variables. 

La razón de esta predictibilidad estacional es la existencia de patrones 

sinópticos persistentes, que influyen en la circulación atmosférica a gran 

escala, durante largos períodos de tiempo. Algunos de estos patrones son 

dipolares y su estado (positivo o negativo) se puede caracterizar en base a 

un índice. Ejemplos de estos patrones son: 

NAO (North Atlantic Oscillation) (Wanner et al., 2001), característica 

de latitudes medias y asociada a un patrón alta/baja presión en 

Islandia - baja/alta presión en las Azores (ver Capítulo 3, Fig. 3.1). 

Este patrón suele definirse a través de un índice que caracteriza su fase 

y que es obtenido como la diferencia de presiones a nivel del mar en 

ambos puntos (o como la componente principal asociada a la primera 

EOF de la presión en 500 mb del Atlántico Norte; ver Capítulo 3, Figs. 

3.2 y 3.3). 

La NAO posee una marcada variabilidad interanual lo cual posibilita 

una hipotética predicción estacional. A causa de su notable impacto 

sobre el tiempo y clima de Europa, existe un creciente interés en determinar 

su predictibilidad estacional e interanual. Por desgracia la NAO 

es un fenómeno de latitudes medias muy ruidoso, con un espectro de 

potencias casi plano, muy parecido a un ruido blanco, de manera que 

incluso las predicciones posibles con modelos estadísticos, reproducen 

sólo un pequeño rango de la varianza total (Wunsch, 1999). Por tanto, 

un problema de es la predicción de este patrón, con modelos de 

circulación atmosférica. 

ENSO (El Niño-Southern Oscillation) (Philander, 1990) es un fenómeno 

tropical del Pacífico Sur (ver Capítulo 3, Fig. 3.1) caracterizado por 

un calentamiento del agua de la superficie del Pacífico central y Este 

y por la variación a gran escala asociada del sistema de presión 

atmosférica del trópico (denominado Oscilación del Sur, SO). Este pa-


Figura 6.12: Precipitación en el Pacífico durante el episodio fuerte de El Niño 

(Enero-Marzo de 1998). La figura izquierda muestra la precipitación total y la 

figura derecha la desviación en tanto por uno del valor medio (FUENTE: NCEP) 

trón se caracteriza tradicionalmente basándose en las diferencias en las 

anomalías en la presión del aire entre Tahiti y Darwin. La variabilidad 

de este índice se muestra en la Fig. 6.11. 

El ciclo ENSO tiene un periodo medio de cuatro años, aproximadamente, 

aunque en el registro histórico, el periodo ha variado entre dos 

y siete años. Entre 1980 y 1990 destacó un ciclo ENSO muy activo, con 

cinco episodios de El Niño,(1982/83, 1986/87, 1991 −1993, 1994/95, y 

1997/98) y tres episodios de La Niña (1984/85, 1988/89, 1995/96). En 

este periodo también tuvieron lugar dos de los episodios más fuertes 

del siglo (1982/83 y 1997/98), así como dos periodos consecutivos de 

las condiciones de El Niño durante 1991 − 1995 sin una intervención 

de episodio frío. El episodio más fuerte y reciente de La Niña fue en 

1988/89, y entre las consecuencias más graves del fenómeno de El Niño, 

están un fuerte incremento de las lluvias producidas sobre el sur de los 

EEUU y en Perú, lo que provoca destructivas inundaciones, así como 

sequías en el Pacífico Oeste, a veces asociadas a grandes incendios en 

Australia. Por ejemplo, la Fig. 6.12 muestra los efectos de El Niño 

1998 sobre la precipitación en el Pacífico. 

En la Tabla 6.1 de citan algunos de los patrones mas importantes(para 

más detalles ver www.cpc.ncep.noaa.gov/products). 

Además de estos patrones, se han descubierto distintas teleconexiones 

entre ellos, que inter-relacionan, de forma compleja, sus efectos globales 

sobre la circulación atmosférica, en distintas regiones del globo (ver, por 

ejemplo, Mo and Livezey, 1986). 

Los avances producidos en las técnicas de predicción por conjuntos han 

dado un enorme impulso a los modelos acoplados océano-atmósfera, de predicción 

estacional, que actualmente permiten predecir con cierta fiabilidad 

anomalías mensuales o estacionales durante ciertas épocas y en ciertas regiones 

del globo (asociadas principalmente a anomalías en la ENSO). Estos 

resultados han motivado la puesta en marcha operativa, de distintos produc-


Índice 

EA 

EAJET 

WP 

EP 

NP 

PNA 

EA/WR 

SCA 

TNH 

POL 

PT 

SZ 

ASU 

Descripción 

Patrón del Atlántico Este 

Patrón del chorro del Atlántico Este 

Patrón del Pacífico Oeste 

Patrón del Pacífico Este 

Patrón del Pacífico Norte 

Patrón Pacífico-NorteAmérica 

Patrón del Atlántico Este-Rusia Oeste 

Patrón Escandinavia 

Patrón Tropical del Hemisferio Norte 

Patrón Polar-Eurasia 

Patrón de Transición del Pacífico 

Patrón Subtropical zonal 

Patrón de Verano de Asia 

Tabla 6.1: Algunos patrones atmosféricos más importantes (para más detalle 

ver www.cpc.ncep.noaa.gov/products). 

tos de predicción estacional en distintos centros internacionales. Por ejemplo, 

el modelo System-II del ECMWF produce predicciones estacionales operativas. 

Asimismo también se dispone de un re-análisis (DEMETER), de un 

conjunto de seis modelos Europeos globales de predicción por conjuntos con 

distintos esquemas de perturbación (www.ecmwf.int/research/demeter/) 

(Palmer et al., 2003). 

No sólo se ha puesto de manifiesto la posibilidad de predecir en cierta 

medida los patrones estacionales de circulación sinóptica, sino que también, 

se ha mostrado su asociación con anomalías regionales y locales de precipitación, 

y de temperatura, tanto de la NAO como de la ENSO (ver, por 

ejemplo, Hurrell, 1995; Rodríguez-Fonseca and Serrano, 1991). Por ejemplo, 

si se considera por una parte la temperatura media mensual del agua del 

mar (SST) frente a la costa de Chicama en el Norte de Perú (representante 

de la oscilación sinóptica del ENSO), la precipitación en la ciudad de Piura 

(medias mensuales) y el caudal del río Piura, se puede comprobar fácilmente 

que existe una relación entre estas variables, que permite trasladar anomalías 

Precip. Piura (mm/mes) 

1000 

500 

0 

14 16 18 20 22 24 26 28 

SST Chicama (ºC) 

Figura 6.13: Precipitación mensual media en la ciudad de Piura (Perú) vs. temperatura 

media mensual de la superficie del agua del mar frente a la costa de Chicama.


sinópticas a anomalías locales (ver Fig. 6.13). Sin embargo, los efectos en 

otras regiones cercanas son distintos e incluso opuestos (épocas de sequía 

asociadas con los episodios fuertes de El Niño en la sierra de Perú y en el 

altiplano). 

Con este ejemplo se pone de manifiesto la utilidad de disponer de técnicas 

de downscaling, que permitan trasladar las anomalías predichas por los 

modelos estacionales a anomalías regionales y locales de variables de interés 

para la actividad humana. 

6.5.1. Predicción Local de Precipitación durante El Niño 

Una dificultad para realizar estudios de predicción local a partir de predicciones 

mensuales y estacionales es que, hasta la fecha, no se disponía 

de una base de datos con predicciones durante un período de tiempo suficientemente 

representativo. Durante los últimos años, el proyecto Europeo 

DEMETER ha creado una base de datos con las predicciones estacionales 

de seis modelos acoplados atmósfera-océano con nueve miembros en cada 

caso (obtenidos aplicando distintos esquemas perturbativos). Para ello se ha 

utilizado información del re-análisis ERA-40 (1957-2002). Los modelos estacionales 

se inicializan con los datos de ERA40 cuatro veces al año (Febrero, 

Mayo, Agosto y Noviembre) y son integrados para un alcance de seis meses, 

almacenando las variables que proporcionan una detallada descripción de la 

atmósfera predicha día a día. En esta sección se realiza un estudio sistemático 

de la predictibilidad estacional en latitudes tropicales, teniendo en cuenta 

el fenómeno de El Niño. 

80 ° W 

60 ° W 

40 ° W 

° 

Sausal de 

Culucán 

Morropón 

20 ° S 

40 ° S 

60 ° S 

Figura 6.14: Localización geográfica de Perú y de las dos estaciones que se utilizan 

en este trabajo.


5 

0 

5 

10 

15 

20 

(a) 

90 85 80 75 70 

5 

5 

0 

0 

5 

5 

10 

10 

15 

(b) 

20 

85 80 75 70 65 

15 

(c) 

20 

85 80 75 70 65 

Figura 6.15: Rejillas consideradas para la definición del patrón atmosférico en la 

zona Norte de Perú. 

Para ello, se considera la región Norte de Perú que se muestra en la Fig. 

6.14, donde se dispone de datos diarios de precipitación para dos estaciones: 

Sausal de Culucán y Morropón. 

Para aplicar la técnica basada en redes auto-organizativas descrita en 

la Sec. 6.3 se consideran distintas rejillas sobre la zona de interés de diferentes 

resoluciones y coberturas (ver Fig. 6.15). Sobre cada una de ellas se 

entrenaron distintas redes auto-organizativas con los patrones de re-análisis 

del período 1957-2002. Una vez realizado todo el estudio se comprobó que, 

de nuevo, los mejores resultado se obtuvieron con el patrón local (en este 

con la rejilla dinámica de la Fig. 6.15(c)). Por ejemplo, la Fig. 6.16 muestra 

los histogramas fenomenológicos definidos por la precipitación observada en 

8 

7 

6 

5 

4 

3 

2 

(a) Morropón 

25 

20 

15 

10 

5 

1 0 1 

1 2 3 4 5 6 7 8 

1 2 3 4 5 6 7 8 

8 

7 

6 

5 

4 

3 

2 

(b) Sausal de Culucán 

2.5 

2.0 

1.5 

1.0 

0.5 

0 

Precip (mm/day) 

Figura 6.16: Histogramas fenomenológicos de la precipitación en (a) Morropón y 

(b) Sausal de Culucán obtenidos sobre una SOM (el valor de cada grupo se obtiene 

como el promedio de los días pertenecientes al grupo).


1979 

... 

1993 

CIRCULATION 

PATTERNS 

DATABASE 

ERA15 

reanalisys 

1979-1993 

CLUSTERING 

C 1 , ..., C m 

SELF-ORGANIZING 

MAP (SOM) 

Topological arrangement 

in a 2D lattice (e.g. m=36) 

C1 C2 ... 

DEMETER 

multi-model 

GCM FORECAST 

UKMO ECMWF MPI CNRM 

5535 PATTERNS 

f1 f 2 ... 

f1 f 2 ... 

f1 f 2 ... 

f1 f 2 ... 

C36 

1979 

f36 

f36 

f36 

f36 

... 

1993 

Daily rainfall 

observations 

LOCAL CLIMATE 


Estimation for 

each cluster 

and station: 

y 1 , ..., y m 

LOCAL FORECAST 

Figura 6.17: Esquema de downscaling para DEMETER. Cada modelo produce 9 

patrones atmosféricos diarios durante un período de seis meses. 

cada una de las estaciones sobre una SOM entrenada con la rejilla local. 

Estas dos “huellas digitales” muestran las distintas formas de llover que se 

producen en dos estaciones tan cercanas. 

En este trabajo se utilizan sólo los modelos del ECMWF, Météo France, 

UKMet Office y Max Plank Institute de DEMETER, con nueve miembros 

en cada uno. Dado que el fenómeno de El Niño tiene especial incidencia 

en el Norte de Perú a principios de año, se consideran las predicciones de 

los modelos realizadas en Noviembre para el trimestre Diciembre-Febrero; 

por tanto, se tratan de predecir las anomalías locales de precipitación a 

partir de predicciones obtenidas entre uno y tres meses de anticipación. 

En este caso, se tienen varias opciones para combinar esta información. Se 

puede considerar cada modelo por separado y añadir un nuevo modelo, que 

consiste en la mezcla de todos (multi-modelo), y luego comparar la eficiencia 

de todos los modelos frente al multi-modelo. La Fig. 6.17 muestra el proceso 

seguido en este caso. 

En la Fig. 6.18 se muestran los resultados obtenidos. Para cada trimestre 

Diciembre-Febrero de cada año del período 1983-1998 se consideraron las 

predicciones obtenidas para los 90 días por cada miembro de cada modelo. 

Por tanto, cada trimestre se obtuvieron 9 predicciones para cada modelo de 

las cuales se obtuvo el valor promedio, que es considerado como la predicción 

del modelo; por otra parte, se consideró la predicción conjunta dada por 

todos los modelos (la media de las predicciones de cada uno de los modelos). 

La observación real (cuando está disponible) se muestra en la línea central 

con un cuadrado, mientras que la predicción del multi-modelo se muestra 

con una cruz. Las cajas muestran los respectivos cuartiles de precipitación en


15 

10 

5 

0 

200 

100 

0 

MORROPON 

Observation 

Multi-model forecast 

ECMWF forecast 

UK MetOffice forecast 

MPI forecast 

CNRM forecast 

Analysis: Nov. 

Forecast: Dec,Jan,Feb 

(missing data) 

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 

SAUSAL DE CULUCAN 

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 

mm (daily) 

mm 

(DJF average 

daily values) 

10 

5 

mm 

(DJF average 

daily values) 

0 

200 

100 

0 

Analysis: Nov. 

Forecast: Dec,Jan,Feb 

mm (daily) 

Figura 6.18: Predicción local de precipitación en Morropón y Sausal de Culucán 

para los cuatro modelos y para el multi-modelo en el período 1983-1998.


la estación considerada, para todo el período de estudio. Por tanto, cuando 

la predicción está por encima de cuartil 75, o por debajo del 25, se considera 

que se está prediciendo una anomalía positiva, o negativa, de precipitación, 

respectivamente. A partir de esta figura se puede observar que el sistema 

predice con acierto la anomalía positiva de precipitación durante los dos 

episodios de El Niño fuertes de los años 1982/83 y 1997/98. 

Además también se ha probado que durante estos dos episodios de El 

Niño, se podía predecir la anomalía positiva con mayor anticipación. Por 

ejemplo, la Fig. 6.19 muestra las situaciones predichas para los trimestres 

Diciembre-Febrero de los años 1982/83 y 1997/98 en las estaciones de Morropón 

y Sausal de Culucán, con una anticipación de 4-6 meses (predicción 

de Agosto). En estas figuras puede observarse que sólo el modelo Francés 

CNRM y el multi-modelo son capaces de predecir la anomalía de precipitación 

para el año 1982/83 en la estación de Morropón, mientras que todos los 

modelos proporcionan el valor correcto de la anomalía para el año 1997/98 

(ver Cofiño et al., 2003d, para más información). 

DJF83 

DJF98 

DJF83 

DJF98 

Figura 6.19: Predicción local de precipitación en Morropón y Sausal de Culucán 

para los cuatro modelos y para el multi-modelo en los períodos 1982/83 y 1997/98 

obtenidos con la predicción de Agosto de los modelos (4 meses de anticipación). 

De forma análoga al estudio realizado en el caso de predicción a medio 

plazo para caracterizar la predictibilidad de las predicciones, en este se 

consideran las probabilidades definidas en la SOM por cada uno de los modelos. 

La Fig. 6.20 muestra los histogramas definidos sobre la SOM por los


DEMETER DJF. H=1.9702 

8 

6 

DEMETER DJF90. H= 2.675 

8 

6 

DEMETER DJF98. H=2.151 

8 

6 

4 

4 

4 

2 

2 4 6 8 

2 

2 4 6 8 

2 

2 4 6 8 

8 

SCWF DJF 

8 

SCWF DJF90 

8 

SCWF DJF98 

6 

6 

6 

4 

4 

4 

2 

2 

2 

8 

2 4 6 8 

SMPI DJF 

8 

2 4 6 8 

SMPI DJF90 

8 

2 4 6 8 

SMPI DJF98 

6 

6 

6 

4 

4 

4 

2 

2 

2 

8 

2 4 6 8 

UKMO DJF 

8 

2 4 6 8 

UKMO DJF90 

8 

2 4 6 8 

UKMO DJF98 

6 

6 

6 

4 

4 

4 

2 

2 

2 

2 4 6 8 

2 4 6 8 

2 4 6 8 

8 

CNRM DJF 

8 

CNRM DJF90 

8 

CNRM DJF98 

6 

6 

6 

4 

4 

4 

2 

2 

2 

2 4 6 8 

2 4 6 8 

2 4 6 8 

Figura 6.20: Histogramas definidos sobre la SOM por los patrones previstos para 

el periodo Diciembre-Febrero por el multi-modelo DEMETER (primera fila) y 

cada uno de los cuatro modelos individuales. La columna de la izquierda muestra 

la climatología (periodo 1983-1998); la columna central muestra un año no Niño 

(similar a la climatología); la columna de la derecha muestra el trimestre de un año 

Niño. En la primera fila se muestran las entropías de cada probabilidad.


5 

4 

Entropía relativa 

3 

2 

1 

0 

82 84 86 88 90 92 94 96 98 

Figura 6.21: Entropía relativa de cada modelo cada año respecto a la climatología 

de DEMETER. Los colores de los modelos son los mismos que en figuras anteriores. 

Año 

patrones previstos para el periodo Diciembre-Febrero por el multi-modelo 

DEMETER (primera fila) y cada uno de los cuatro modelos individuales 

con 1-3 meses de anticipación. La columna de la izquierda muestra la climatología 

(periodo 1983-1998); la columna central muestra el año no Niño 

1989/90 (similar a la climatología); la columna de la derecha muestra el 

trimestre del año Niño 1997/98. La Fig. 6.21 muestra la entropía relativa 

del histograma de cada modelo respecto al histograma de la climatología de 

DEMETER. En esta figura se puede comprobar que este índice es un buen 

indicador de la predictibilidad de cada situación. 

Por último, indicar que un estudio de la aplicación de esta técnica en 

latitudes medias se tienen en (Díaz et al., 2003).

CAPÍTULO 7 

Implementación Operativa. El Sistema PROMETEO 


En capítulos anteriores se han descrito los aspectos teóricos de la predicción 

local probabilística en el corto plazo (Cap. 5) y de la aplicación de las 

redes auto-organizativas a la interpretación de la predicción por conjuntos 

y más concretamente, a la predicción estacional (Cap. 6). En esos capítulos 

se ha mostrado la validez científica de los métodos presentados y también 

su utilidad práctica en la predicción operativa. Para ello, se han aplicado 

los métodos descritos en estos capítulos a la salida de modelos numéricos 

operativos (ECMWF y HIRLAM) y a diferentes redes de observación (INM 

y Perú). Además se han validado los resultados obtenidos, comparándolos 

con los de otros productos operativos existentes. Todos los algoritmos, de los 

métodos propuestos en estos capítulos, se han implementado utilizando el 

paquete de cálculo científico Matlab (por sus prestaciones gráficas y científicas, 

como se muestra, por ejemplo, en Middleton (2000)) y aquellas partes 

que exigen mayor carga computacional se han codificado en C, para luego 

poder ser utilizadas desde Matlab, debido a que Matlab posee esta facilidad. 

Todo ello siempre sobre la idea de que el producto final sea genérico, fácilmente 

adaptable, que pueda ser integrado fácilmente en el ciclo operativo 

de producción de cualquier centro meteorológico y aplicado a un problema 

particular que pueda tener cualquier usuario. Todos estos algoritmos han 

sido codificados en un conjunto de herramientas para Matlab, denominado 

MeteoLab y que se describe en Sección 7.3, a este conjunto se le puede considerar 

como el núcleo científico que nos permite diseñar diferentes tipos de 

experimentos, para luego su aplicación operativa. 

Sin embargo, para que los resultados prácticos de esta Tesis tengan máxima 

divulgación y sean de utilidad para los distintos usuarios y sectores de 

producción (agrario, industrial, energético, turismo, etc.), se ha optado por 

137

138 7. IMPLEMENTACIÓN OPERATIVA. PROMETEO 

la Web como medio de divulgación, debido a su gran difusión en la sociedad, 

y ser el medio idóneo para este objetivo. Para ello se ha hecho necesario 

crear una aplicación Web con la que se puedan consultar las predicciones en 

tiempo real y estas puedan ser validadas para un problema dado, de forma 

que se pueda comprobar la utilidad del sistema. Además, se ha hecho uso 

de las tecnologías más utilizadas actualmente en Internet que, por una parte, 

permiten acceder a bases de datos (que almacenarían las predicciones) 

y, por otra, permiten ejecutar la aplicación con unos parámetros concretos 

de interés (región geográfica, patrón atmosférico, etc...) obteniendo las 

predicciones como resultado. En la Sec. 7.2.3 se describe este desarrollo. 

Si además de entender la Web como un medio de divulgación, se entiende 

como un medio de compartir recursos (potencia de cálculo y almacenamiento), 

en la que existen productores y consumidores de estos recursos, emerge 

lo que actualmente se denomina Tecnología GRID, cuyo objetivo es dar soporte 

a esta interacción entre productores y consumidores. Bajo esta idea 

se han llevado a cabo los primeros experimentos con la tecnología GRID 

para permitir una interacción en tiempo real con el sistema, paralelizando 

aquellas partes más costosas (componentes principales, agrupamiento, etc.) 

y permitiendo el acceso a bases de datos distribuidas. Estos experimentos 

son descritos en la Sección 7.5. 

Todos estos componentes están englobados por un sistema denominado 

Prometeo, y cuyo principal fundamento es la organización tanto de los datos, 

como de los procesos que intervienen y de todo el flujo de información 

que intervienen en cualquier experimento o funcionamiento operativo. Como 

ejemplo global del sistema, que nos ayudará a entender su estructura, en la 

Sección 7.2 se describe, la adaptación hecha en colaboración con el Instituto 

Nacional de Meterología (INM) para la predicción local diaria en una 

red de 2500 estaciones en la Península, Baleares y Canarias. Esta aplicación 

forma parte del ciclo operativo que tiene lugar en el INM y genera diariamente 

predicciones operativas con los modelos que se utilizan en el INM 

(HIRLAM, con sus respectivas pasadas de la 00UTC y 12UTC con alcances 

de D+0 y D+1 y los alcances de D+2 y D+3 del modelo operativo del 

ECMWF cuya pasada es a las 12UTC). Con estas predicciones numéricas 

se realizan predicciones locales para las doce cuencas hidrográficas (diez en 

la Península, una para Baleares y otra en Canarias), cada una de las cuales 

tiene asociado su correspondiente patrón atmosférico. En total se realizan 

unas 162500 predicciones diarias (5 salidas numéricas, 2500 observatorios, 

y 13 predicciones para cada estación: 6 para precipitación y 7 meteoros). A 

la vista de la magnitud de los datos es evidente que, si el objetivo es que 

el sistema funcione en modo operativo interactivamente, es importante la 

organización y la estructura de los datos para un acceso rápido y eficiente.

7.2. ESTRUCTURA DE LA APLICACIÓN. SISTEMA OPERATIVO EN EL INM 139 

7.2. Estructura de la Aplicación. Sistema Operativo en el 

INM 

En esta sección se describe la estructura del sistema PROMETEO 

(PROnóstico METEOrológico) utilizando como ejemplo la versión configurada 

para la predicción local diaria en el INM. Se comienza describiendo la 

fase de preproceso y las tareas involucradas, y se finaliza con el sistema de 

consulta Web para predicciones operativas. Para evitar problemas de confusión 

en la descripción del sistema, usaremos únicamente las salidas del 

modelo operativo y el re-análisis ERA-15 del ECMWF. Además, la base de 

datos de observaciones estará limitada a aproximadamente 2500 estaciones 

operativas de la red secundaria del INM. La Fig. 7.1 muestra la estructura 

global de la aplicación, destacando sus cuatro módulos (A)-(D). En las 

siguientes secciones se describen en detalle cada uno de estos módulos. 

A 

SE SE 

ECMWF 

Reanálisis ERA 

B 

SE 

ECMWF SE 

Modelo operativo 

C 

operativo 

D+1 

D+2 

D+3 

1 

dominios 

CPLab 

2 

Cuenca Norte 

Cuenca Duero 

Cuenca Norte 

D+3 

Cuenca Duero 

D+3 

SE SE 

SE SĖ .. 

... 

cluster 

3 

Predicciones 

locales y validación 

Observaciones INM 

SE 

Precip. SE 

SE SE 

SE 

Nieve Tormenta SE 

Predicción 

Local 

D+3 

SE pred. 

locales 

4 

SE SE 

Validación 

5 

Validación 

D 

6 

Aplicación Web 

Figura 7.1: Estructura global de la aplicación PROMETEO con las etapas: (A) 

configuración, (B) producción operativa, (C) consulta a través de la Web, y (D) 

validación. 

7.2.1. Configuración e Inicialización del Sistema 

En esta sección se describe la fase inicial de configuración y adaptación 

del sistema a un entorno concreto (zona geográfica, variables, bases de datos, 

etc.). El sistema está basado en el método descrito en la Sec. 5.4 y, por tanto, 

a ella se remite al lector para consultar detalles sobre los algoritmos. Más 

en concreto, en esta sección se describen los elementos que intervienen para 

configurar la aplicación para la predicción local en la red secundaria del INM 

a partir de las predicciones numéricas del ECMWF. En este módulo se utiliza 

la base de datos de re-análisis ERA-15 del ECMWF, descritas en la Sec. 2.7, 

que comprende el período 1979-1994 (5569 días en total). Primero, se define


el patrón que caracterizará el estado de la atmósfera para el problema en 

cuestión (tarea 1 en Fig. 7.2); a continuación en la tarea 2 se aplica el 

algoritmo de componentes principales (Sec. 3.2) para reducir la dimensión 

de los patrones y, finalmente, se aplica la técnica de agrupamiento apropiada 

sobre cada uno de los vectores de componentes principales obtenidos (tarea 

3). Este módulo es el que contiene el núcleo del sistema y será necesario 

ejecutarlo cada vez que queramos para re-adaptarlo a un nuevo problema o 

a una nueva situación. Esta tarea se realizará una única vez, previamente a 

la fase operativa de la aplicación (la obtención diaria de predicciones). 

Cuenca Norte 

SE SE 

SE SE 

ECMWF 


1 

dominios 

CPLab 

2 

Cuenca Duero 

SE SĖ .. 

cluster 

3 

Figura 7.2: Módulo de configuración e inicialización, con la definición del patrón 

atmosférico abarcando un dominio dado (tarea 1), la compresión de información 

aplicando componentes principales (2), y la ejecución de la técnica de agrupamiento 

apropiada (3). 

La figura 7.2 muestra esquemáticamente este módulo. En esta figura 

podemos ver la base de datos de re-análisis y los 3 módulos siguientes: 

1. dominios. Es el encargado de extraer los datos necesarios para definir 

el patrón atmosférico a partir de la base de datos de re-análisis y 

aglutinar la información en forma vectorial. En el Ejemplo 2.1 se había 

visto la forma de definir un patrón atmosférico concreto ilustrando su 

aplicación sobre la península ibérica. En el Cap. 5 se mostró que los 

mejores resultados de predicción local se obtienen con un patrón 4D 

de área limitada. Por ello, consideramos 12 dominios distintos (uno 

para cada cuenca) tal como se muestra en la Fig. 7.3. 

Para ello se ha de especificar en un fichero de dominio la región geográfica 

de interés (cuadrícula longitud-latitud, resolución y nodos a 

incluir), las variables, las horas de análisis, y los niveles de presión 

(en la figura 7.4 se muestra un ejemplo de definición de configuración 

atmosférica para la Cuenca Norte). Este es el fichero que usa como 

entrada el módulo “dominio”. 

Este fichero define un patrón atmosférico de 1 o de resolución en longitud 

y latitud; tres niveles en altura 1000mb, 850mb, y 500mb; cinco 

horas de análisis 06, 12, 18, 24, y 30 UTC; y cinco variables Temperatura 

(T, parámetro 129), geopotencial (Z, parámetro 130), coordenadas 

del viento (U y V, parámetros 131 y 132, respectivamente) y humedad


60 N 

(a) 

50 N 

40 N 

30 N 

20 W 

10 W 

0 

10 E 

20 E 

(b) 

Figura 7.3: (a) Región geográfica de la Cuenca Norte utilizada para la aplicación 

Prometeo. (b) Observatorios disponibles en la región. 

relativa (H, parámetro 157). El patrón 4D resultante es: 

x = (x 06 ,x 12 ,x 18 ,x 24 ,x 30 ), (7.1) 

donde x t = (T 1000 

t , T 850 

t , T 500 

t , . . .,H 1000 

t , H 8500 

t , H 500 

t ). 

2. CPLab. Una vez se ha “filtrado” la base de datos de re-análisis extrayendo 

los patrones (Expresión 7.1) con el módulo dominio, se aplica 

un análisis de componentes principales con el objetivo de reducir la 

dimensión de los patrones. Dado que esta dimensión puede ser muy 

elevada y los patrones pueden contener mucha información redundante 

(debido a las grandes correlaciones espaciales que existen en los 

datos atmosféricos), es probable obtener matrices de covarianza mal 

condicionadas, que dificulten la aplicación de técnicas estándar. En 

este módulo se ha utilizado una técnica iterativa para calcular los primeros 

valores singulares. Antes de aplicar este análisis es necesario 

estandarizar los datos para evitar que las variables con mayor magnitud 

dominen al resto. Como resultado de este proceso obtenemos 

datos necesarios para poder aplicar la misma transformación (matriz 

de transformación, media y desviación de los datos) a las salidas de 

otros modelos numéricos, como por ejemplo el operativo del ECMWF, 

que se usa en la etapa de explotación de la aplicación. 

3. cluster (k-medias/SOM). Este módulo es el encargado de realizar y almacenar 

los resultados de agrupar los datos de re-análisis después de


lon=-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4 

lat=44,43,42,41,40,39,38,37,36 

lvl=1000,850,500 

tim=06,12,18,24,30 

par=129,130,131,132,157 

lop=par,tim,lvl 

nod=2,3,4,5,6,7,8,9,17,18,19,20,21,22,23,24,32,33,34 

src=../SourceDB/era10 

Figura 7.4: Definición de la configuración atmosférica de un patrón que abarca la 

cuenca norte en la península ibérica, considerando para un día, los patrones 4D de 

cinco variables, para 5 horas de análisis distintas, en tres niveles de altura. 

haber sido filtrados y comprimidos. En este módulo se definen el número 

de grupos que vamos a realizar, y los parámetros de entrenamiento 

del algoritmo de agrupamiento (para k-medias); en el caso de utilizar 

una SOM también es necesario indicar la topología y el parámetro de 

vecindad. Debido a la exigencia computacional de esta tarea, es necesario 

guardar los distintos agrupamientos realizados (centros, etc.), 

junto con información auxiliar necesaria para su posterior uso. 

Por otra parte, los problemas de inicialización en los algoritmos iterativos 

de agrupamiento, hacen conveniente realizar varios entrenamientos 

y evaluarlos posteriormente con el módulo de validación para contrastar 

la calidad de cada uno de ellos. 

En la aplicación para el INM, los procesos anteriores se han aplicado 

a cada una de las 12 cuencas hidrográficas, almacenando las CPs del reanálisis, 

la matriz de transformación, y los agrupamientos realizados. 

Esta fase de configuración e inicialización, es la que exige una mayor 

capacidad de cómputo y de almacenamiento, y la que marcará más adelante 

la interactividad del sistema, aplicando otro paradigma de computación 

(GRID). Toda esta información almacenada, para hacer el sistema interactivo, 

es utilizada en el siguiente proceso de explotación operativa. 

7.2.2. Explotación Operativa 

Este módulo es el encargado de obtener las predicciones locales. En la 

figura 7.5 se puede observar su estructura, incluyendo su tarea principal 

predicción local. Este módulo requiere la configuración e inicialización previa 

del sistema, que conlleva la definición del dominio (o dominios) y de 

las correspondientes componentes principales y del agrupamiento a utilizar 

(línea discontinua de la figura). 

En esta fase se precisan las salidas diarias (predicciones numéricas) de 

un modelo operativo. En esta aplicación se utiliza el modelo operativo del 

ECMWF en la pasada de las 12 UTC y para un alcance de 10 días, con salida



SE 

Precip. SE 

SE SE Nieve 

SE 

Tormenta SE 

SE SE 

ECMWF 

operativo 

Modelo operativo 

D+1 

D+2 

D+3 

dominios 

CPLab 

Cuenca Norte 

D+3 

Cuenca Duero 

D+3 

... 

cluster 

Predicciones 

locales 

Predicción 

Local 

D+3 

SE pred. 

locales 

4 

Figura 7.5: Módulo de explotación operativa de la aplicación Prometeo. 

cada 6 horas, y un dominio espacial global. De estas predicciones se extraen 

las mismas variables, niveles y área geográfica previamente especificadas en 

el módulo dominios. En este caso sólo es necesario disponer de la predicción 

para el día de interés y, por tanto, no es necesaria una base de datos, sino 

sólo un fichero de entrada. Sin embargo, nuestro objetivo es desarrollar una 

herramienta interactiva que permita explorar y validar un periodo amplio de 

predicciones. En esta aplicación se han incluido los dos últimos años (2002 y 

2003) de predicciones (unos 640 días) en la base de datos ECMWF operativo. 

Esta base de datos se completa diariamente con las nuevas predicciones 

obtenidas en días sucesivos. Por tanto, por cada día tendremos 10 días de 

alcance de predicción, lo que equivale a la misma magnitud de datos que en el 

reanálisis (100 gigabytes). Debido a la magnitud de información manejada 

los datos se encuentran almacenados en su formato original (GRIB) para 

impedir duplicidad de información; además su lectura y decodificación se 

encuentra optimizada (indexada) para un rápido acceso a esta (detalles sobre 

este formato y códigos de codificación/decodificación pueden encontrarse en 

wesley.wwb.noaa.gov/wgrib.html). 

Este módulo involucra las siguientes tareas: 

(1,2) dominio, CPLab. Al igual que en la fase de configuración, se filtran los 

datos operativos sobre la región geográfica indicada. Ahora hay que 

tener en cuenta que para cada día tenemos distintos alcances (en la 

figura se indican los alcances D+1, D+2 y D+3, correspondientes a las 

predicciones hechas un día para cada uno de los tres días siguientes). 

Las componentes principales de los patrones atmosféricos resultantes 

son obtenidas aplicando las transformaciones calculadas en la fase de 

configuración. Por tanto, este módulo se limita a un simple cálculo 

en la fase operativa. Un aspecto importante de esta fase es que ahora 

no es necesario almacenar la salidas del módulo CPLab ya que sólo se 

calculan en tiempo real para obtener la predicción. 

(4) Predicción local. Esta es la tarea central de la aplicación ya que en 

ella se combinan los resultados del agrupamiento (que condensan los


datos de re-análisis) con las salidas de los modelos numéricos (en forma 

de vectores de CPs) y con las observaciones (almacenadas en bases 

de datos). Todo ello es necesario para obtener una predicción local a 

partir del método descrito en la Sec. 5.4. En este módulo también se 

realizan las distintas tareas de inferencia probabilística y numérica. Por 

ejemplo, se obtienen predicciones probabilísticas de la precipitación 

para distintos umbrales y se obtiene una predicción numérica de la 

cantidad estimada de precipitación (usando tanto la media como un 

percentil superior para compensar la pérdida de resolución del grupo; 

ver Sec. 5.4 para más detalles). 

Un fichero de configuración define los observatorios de la base de datos 

de observaciones donde se desea obtener una predicción (2500 en la 

aplicación del INM), y asocia cada uno de ellos a un dominio (en este 

caso, la cuenca hidrográfica a la que pertenece). Estas predicciones se 

almacenan posteriormente en la base de datos de predicciones locales 

para un posterior acceso y tratamiento. 

Una vez que hemos obtenido las predicciones de nuestro sistema, sería 

deseable poder acceder a ellas de forma interactiva. En la siguiente subsección 

se explica el módulo encargado de establecer un sistema de acceso 

interactivo a esta base de datos de predicciones locales, y como veremos más 

adelante, de acceso a los resultados de las validaciones de estas predicciones. 

7.2.3. Acceso Web a las Predicciones 

Un forma versátil de acceder a esta información es a través de Internet 

utilizando un navegador. Para ello, se ha diseñado una aplicación Web para 

que usuarios anónimos y autorizados puedan acceder a esta información 

usando cualquier navegador de internet (ver Fig. 7.6). 

Para ello se ha hecho uso de tecnología de acceso dinámico a bases 

de datos a través de internet. En particular se ha usado tecnología JAVA 

www.sun.com/java, tanto servlets como JSP (Java Server Pages), debido a 

su difusión, funcionalidad, y carácter abierto de su código. El software de 

conexión utilizado ha sido el desarrollado por el grupo de trabajo Apache 

(www.apache.org) y se denomina Jakarta. Esta tecnología ha permitido desarrollar 

una aplicación WEB (módulo 5) con el objetivo de que el usuario 

pueda interaccionar con los datos de la predicción local. En la figura 7.6 

se muestra un ejemplo de la página web, en la que se puede seleccionar 

la información deseada para una fecha concreta y mostrarla en un mapa 

dinámico donde se muestran las probabilidades con un código de colores 

(en el ejemplo mostrado se muestra la probabilidad de que la precipitación 

supere los 0.1mm). Además se puede acceder a la información puntual para 

una estación concreta sin más que pulsar sobre ella con el ratón. 

A continuación se muestran distintos ejemplos del funcionamiento del 

sistema.


Figura 7.6: Aplicación Web de acceso a predicciones locales del sistema 

Prometeo adaptado a la predicción local en la red secundaria del INM 

meteo.macc.unican.es/prometeo/ 

En la figura 7.7 se muestran las predicciones de precipitación y tormenta 

realizadas la última semana de Enero de 2003. En concreto el día 30 de 

Enero se registraron grandes nevadas en los sistemas central, pirenaico y en 

los picos de Europa, así como tormentas en la mitad norte de la Península 

Ibérica. También se registraron precipitaciones que superaron los 20mm en 

algunos puntos de Cantabria y el País Vasco. Las predicciones del sistema 

reflejan esta situación claramente con un día de antelación (son predicciones 

a D+1). La figura 7.7 muestra los eventos Precip > 0.5mm (lluvia débil), 

Precip > 20mm (lluvia muy fuerte) y Tormena), mientras que la Fig. 

7.8 muestra las predicciones de nieve, granizo, y la predicción numérica de 

la temperatura máxima, donde se observan valores extremadamente bajos 

(tener en cuenta que se trata del máximo de temperatura en todo un día) 

en muchas localidades. 

Cabe también destacar la predicción realizada para las islas Baleares en 

las que se observaron nevadas en localidades próximas al mar. 

En el ejemplo anterior, las predicciones se obtienen con alcance de un 

día. Sin embargo, tiene interés analizar cómo varían éstas cuando se aumenta 

el horizonte de predicción. En la primera columna de la Fig. 7.9 se muestra 

la predicción de precipitación débil para el día 19/3/2003, obtenida con 1, 

2, y 3 días de antelación. En esta figura puede comprobarse que este evento 

era altamente predecible y las predicciones no varían sustancialmente en un 

lapso de tres días. Sin embargo, existen otras situaciones menos predecibles 

en las que los distintos alcances de predicción muestran distintas situaciones.


Precip > 0.5mm Precip > 20mm Tormenta 

1/2/2003 

31/1/2003 

30/1/2003 

29/1/2003 

28/1/2003 

Figura 7.7: Predicciones probabilísticas del 28/1/2003 al 1/2/2003 a D+1. En 

columnas se muestran los eventos P(Precip > 0.5mm), P(Precip > 20mm) y 

P(Tormena).


Nieve Granizo Temp. Max. 

1/2/2003 

31/1/2003 

30/1/2003 

29/1/2003 

28/1/2003 

Figura 7.8: Predicciones del 28/1/2003 al 1/2/2003 a D+1. En columnas se muestran 

los eventos P(Nieve), P(Granizo) y valor de temperatura máxima previsto.


Por ejemplo, en la segunda columna de la Fig. 7.9 se muestran las predicciones 

para 7/3/2003; en esta figura puede comprobarse cómo la predicción 

se va afinando con el paso del tiempo. La tercera columna de la Fig. 7.9 

muestra un caso más extremo, en el que las predicciones no coinciden. 

Acierto 

Perfilado 

Fallo 

D+2 

D+1 

D+0 

19/3/2003 7/3/2003 5/6/2003 

Figura 7.9: Predicciones probabilísticas de P(Precip > 0.5mm). En filas se muestran 

los distintos alcances de la predicción (D+1, D+2 y D+3); la primera columna 

corresponde a la fecha 19/3/2003, mientras que la segunda corresponde a la fecha 

7/3/2003 y la tercera 5/6/2003 

Otro aspecto interesante del sistema es su reflejo de la dinámica y evolución 

de distintas situaciones sinópticas (como las entradas de frentes en 

la península). En la figura 7.10 se puede ver la evolución de la probabilidad 

de lluvia débil, desde el 24 de Marzo del 2003 al 1 de Abril del 2003. En 

ese período puede observarse (a través de sus efectos en la probabilidad de 

lluvia) la entrada de un frente por el noroeste de la península y su posterior 

evolución hasta que finalmente desaparece. 

Todos los mapas mostrados en esta Sección se han obtenido directamente 

de la página Web del sistema (meteo.macc.unican.es/prometeo) y han 

sido predicciones realizadas en modo operativo, que pueden ser consultadas 

en tiempo pasado para comprobar los distintos aspectos, que hemos desarrollado 

en esta subsección, de las predicciones realizadas por el sistema. Fruto 

de esta comprobación también surge la necesidad de realizar y almacenar 

distintos elementos de validación, los cuales ofrecen valiosa información que 

permite evaluar las distintas configuraciones dependientes de los parámetros 

del sistema, y que es utilizada para mejorar las predicciones.



30/3/2003 

31/3/2003 

1/4/2003 

27/3/2003 

28/3/2003 

29/3/2003 

24/3/2003 

25/3/2003 

26/3/2003 

Figura 7.10: Predicciones probabilísticas de P(Precip > 0.5mm) entre el 

24/3/2003 y el 1/4/2003 a D+1. 

7.2.4. Proceso de validación. Retro-alimentación del Sistema 

Una parte importante de la aplicación es el módulo de validación. Este 

módulo tiene un valor tanto informativo (mostrando la calidad de las distintas 

predicciones), como técnico (proporcionando una medida de calidad para 

tomar decisiones en el momento de construir el sistema; por ejemplo, a la 

hora de seleccionar el número de vecinos óptimo, o un agrupamiento eficiente 

para el algoritmo). Para que las validaciones sean representativas, es necesario 

considerar un periodo suficientemente largo de predicciones operativas. 

Para ello, el módulo de validación puede ejecutar el módulo de producción 

operativa para un período dado y almacenar los resultados en la base de datos; 

o bien puede trabajar con un conjunto de fechas ya almacenadas en la 

base de datos. Como se comentó anteriormente, en el sistema se han cargado 

las predicciones de los años 2002-2003 y en base a ellas puedan realizarse 

las validaciones oportunas. En la Fig. 7.11 se muestra la estructura de este 

módulo, que accede a las predicciones locales y las valida frente a las observaciones 

almacenadas en la base de datos. Después de aplicar distintos 

scores de validación (Brier Score, Brier Skill Score, fiabilidad, resolución, 

ROC Area, error cuadrático) almacena los resultados en la base de datos 

validación para cada uno de los alcances del modelo numérico. Los resultados 

de validación son posteriormente promediados por estación (Invierno,


Primavera, Verano u Otoño) y también se almacenan las medias anuales y 

la climatología del evento, para que el usuario pueda comprobar cual es la 

frecuencia del evento. 


SE SE 

SE SE 

SE 

Nieve Tormenta SE 

Precip. 

Predicción 

Local 

5 

Validación 

SE 

pred. 

locales 

SE SE 

Validación 

Figura 7.11: Módulo de validación de la aplicación Prometeo. 

Estas validaciones son usadas para decidir que estaciones, de todas las 

que el INM dispone de información, pueden ser usadas con capacidad predictiva, 

y por tanto saber cuáles son buenas estaciones de observación. No 

sólo eso, si no que a un usuario experto le puede interesar conocer qué configuración 

atmosférica de patrones ofrece mejores resultados de validación. 

Todo esto se calcula de forma simple utilizando este módulo. 

En esta sección hemos visto un ejemplo de implementación realizado 

con el INM, pero todo este sistema posee un núcleo central que permite 

diseñar esquemas adaptables a otras regiones y datos. Este sistema facilita 

en gran medida esta labor ya que esta diseñada para aprovechar el esquema 

de Prometeo descrito, y además ofrecer validaciones en tiempo real a partir 

de datos de modelos operativos, en tiempo real. 

7.3. MeteoLab: Toolbox Meteorológica para Matlab 

La implementación de los módulos descritos en la sección anterior se ha 

realizado en Matlabwww.mathworks.com (para las rutinas científicas y gráficas), 

combinándolo con lenguaje C para aquellos algoritmos más costosos. 

La aplicación final es eficiente para trabajar con grandes volúmenes de datos 

provenientes de diferentes modelos meteorológicos y con un gran número de 

estaciones de distintas redes de observación. Aparte de los módulos operativos, 

en todo el proceso de desarrollo se han creado en paralelo herramientas 

más amistosas e interactivas para un usuario no experto en Matlab, que puedan 

ser utilizadas bajo distintos requerimientos de investigación de forma 

cómoda. Para ello, se han definido distintas interfases de usuario en Matlab 

(otra de sus importantes propiedades) de forma que se combinen los núcleos

7.3. METEOLAB: TOOLBOX METEOROLÓGICA PARA MATLAB 151 

de los módulos con otras rutinas gráficas y auxiliares que permitan investigar 

cómodamente sobre distintas configuraciones y sobre los resultados de 

los distintos métodos utilizados. El resultado de todo este proceso es un 

conjunto de herramientas para Matlab, denominada MeteoLab que, además 

de ser muy versátil y eficiente para un problema general, permite hacer uso 

del sistema Prometeo para otros problemas de interés. 

Figura 7.12: Interfases de usuario de configuración y de predicción local de la 

Toolbox Meteolab. 

En la Figura 7.12 se muestran las interfases de usuario para configuración-inicialización 

y predicción local que trabajan a partir de los mismos 

ficheros de configuración descritos en la sección anterior. Una característica 

importante son las capacidades gráficas de esta herramienta, que nos permiten 

visualizar en todo momento los distintos resultados del proceso. 

Los dos botones finales de la interfase de predicción permiten visualizar 

tanto la predicción realizada en el período especificado, como los resultados 

de validación (si se dispone de observaciones simultáneas). Dado el carácter 

espacio-temporal 3D de las predicciones (tiempo, longitud y latitud), se han 

definido distintas formas de visualización de estos resultados. Por ejemplo, la 

Fig. 7.13 muestra el resultado de las predicciones para el período Diciembre- 

Febrero de 1999 (90 días). El panel superior muestra las observaciones reales 

(blanco/negro) de una fecha seleccionada. El panel intermedio muestra las


probabilidades predichas (grises). Por último, el panel inferior muestra la 

evolución de las probabilidades predichas para una estación dada. En el 

ejemplo mostrado se observa que las probabilidades son todas cercanas a 

cero o uno, indicando una buena resolución del modelo. Tanto la fecha de 

los interfases superiores, como la estación de la interfase inferior se puede 

interaccionar pulsando con el ratón sobre una estación, o sobre una fecha en 

la figura. La fecha seleccionada se marca con una línea roja vertical, mientras 

que la estación se indica en trazo grueso. 

Figura 7.13: Predicción. El panel superior muestra las observaciones reales (1 

ocurrencia, 0 no ocurrencia); el panel intermedio muestra las probabilidades predichas. 

Finalmente, el panel inferior muestra la evolución de las probabilidades para 

una cierta estación. 

No solo se han desarrollado componentes para la predicción si no también 

para la validación, que es quizás el elemento que más información puede 

ofrecer, y por tanto un buen diseño facilita esta tarea de extracción de información. 

En la Fig. 7.14 se muestra la ventana de validación para este 

período que contiene paneles con BSS espaciales y temporales, así como las 

curvas ROC individuales de una estación y promedio de todas las estaciones. 

Por último, en la Fig. 7.15 se muestra la paleta de agrupamiento que 

permite ejecutar de forma interactiva distintos algoritmos de agrupamiento 

sobre los datos meteorológicos seleccionados, así como visualizar los prototipos 

y grupos obtenidos. Esta paleta permite, entre otras cosas, analizar los 

efectos de los distintos parámetros en el proceso de agrupamiento.

7.3. METEOLAB: TOOLBOX METEOROLÓGICA PARA MATLAB 153 

Figura 7.14: Validación. (izquierda) BSS individual para cada estación y evolución 

temporal del BSS para una estación concreta; (derecha) curva ROC individual para 

una estación seleccionada y promedio espacial de las curvas ROC. 

Figura 7.15: Interfase de la Toolbox MeteoLab para el problema del agrupamiento.


7.4. Validación Operativa de Prometeo. 

En esta sección se muestra una detallada validación del sistema Prometeo 

en el período 1987-1988. Para ello se utilizan las medidas estándar 

como la pericia, valor económico, etc., descritas en el Capítulo 4. También 

se lleva a cabo una comparación de este sistema con el método 

de análogos en dos etapas desarrollado por el Servicio de Aplicaciones 

Meteorológicas del INM y utilizado actualmente en la predicción diaria 

(en los siguiente este sistema se denotará AnalogoINM) (Fernández et al. 

(2001), www.inm.es/web/infmet/predi/preci.html). Dado que este último 

sistema está diseñado y especializado para la precipitación, se muestran 

únicamente los resultados de la validación de esta variable. El resto 

de información puede consultarse directamente en la página de Prometeo 

(meteo.macc.unican.es/prometeo). Para validar ambos métodos se consideran 

los datos de precipitación de la red de estaciones “synop” del INM 

mostrada en la Figura 7.16. 

45.0 ° N 

42.5 ° N 

40.0 ° N 

37.5 ° N 

35.0 ° N 

10.0 ° W 

7.5 ° W 

5.0 ° W 

2.5 ° W 

0.0 ° 

2.5 ° E 

5.0 ° E 

Figura 7.16: Red de 88 estaciones “Synop” del INM de datos pluviométricos. 

Ambos métodos generan sus predicciones aplicando la técnica de análogos 

(o de los vecinos más cercanos) utilizando patrones con distinta información 

tomada de los campos atmosféricos integrados en ERA-15. Los Brier 

Skill Score (BSS), diagramas de fiabilidad y resolución, y curvas ROC y de 

valor económico se han obtenido para el conjunto de los dos años (anual), y 

separadamente para cada estación del año (DEF: Invierno, MAM: Primavera, 

JJA: Verano, SON: Otoño). Estas medidas de validación se han calculado 

para cuatro umbrales distintos de la precipitación 0.5, 2, 10 y 20 mm. 

Con el fin de comprobar la eficiencia de ambos métodos en distintas zonas 

de la península, se calcularon los BSS anuales de AnalogoINM y PROME- 

TEO para Prec > 0.5mm considerando como modelo de referencia la climatología 

(un valor positivo indicará una superioridad del método frente a la 

climatología, mientras que un valor negativo indicará la situación contraria). 

Las Figuras 7.17 (a) y (b) muestran la distribución espacial de pericias en la 

península para los modelos PROMETEO y AnalogoINM, respectivamente.

7.4. VALIDACIÓN OPERATIVA DE PROMETEO. 155 

0.51 

0.46 

0.38 0.34 

0.31 

0.57 

0.54 

0.52 0.50 

0.37 

0.51 0.39 

0.42 

0.56 0.53 0.22 

0.41 0.37 

0.26 

0.31 0.26 

0.45 

0.33 0.42 0.39 

0.45 

0.33 0.18 0.29 

0.35 

0.26 

0.36 0.35 

0.52 0.33 0.34 

0.41 0.48 

0.45 0.48 0.30 

0.51 0.43 

0.48 

0.31 0.27 

0.52 

0.28 

0.27 

0.50 0.50 

0.24 

0.37 

0.21 

0.44 0.30 

0.25 

0.22 

0.48 0.20 

0.63 0.13 

0.48 0.25 

0.50 0.44 

0.46 0.44 

0.49 0.49 

0.27 

0.41 

0.44 

0.49 

0.37 

0.37 0.35 0.390.31 

0.20 

(a) 

0.33 

0.45 0.25 0.26 0.24 

0.36 

0.44 

0.25 

0.23 0.22 0.27 

0.46 

0.31 

0.46 

0.42 

0.51 0.42 0.40 

0.29 0.33 

0.33 

0.35 

0.33 0.26 

0.25 

0.30 0.27 

0.29 

0.31 0.33 

0.35 0.32 

0.24 0.22 0.21 

0.29 

0.27 

0.33 0.27 

0.37 0.33 0.26 

0.34 0.32 

0.390.35 0.30 

0.38 0.34 

0.36 0.24 

0.26 

0.41 

0.21 

0.27 0.30 

0.19 

0.35 0.39 0.28 

0.19 

0.34 0.22 

0.21 0.20 

0.39 0.24 

0.50 

0.20 

0.12 

0.37 0.37 

0.39 

0.40 0.30 

0.43 0.34 

0.19 

0.40 

0.40 

0.44 

0.21 

(b) 

Figura 7.17: BSS para evento de precipitación > 0.5mm en el periodo 1987-1988 

de (a) PROMETEO (BSS medio = 0.392) y (b) AnalogoINM (BSS medio = 0.322); 

los valores en negrita en esta última figura indican una pericia mayor que el modelo 

PROMETEO. 

A partir de estas figuras se puede observar que PROMETEO tiene una 

pericia superior en toda la península (con la excepción de algunas estaciones 

aisladas). La zona donde ambos métodos tienen menor pericia es la zona del 

Mediterráneo (concretamente en Levante), siendo el Noroeste peninsular la 

zona con pericias más elevadas. Para el resto de umbrales, los resultados son 

similares, aunque la diferencia entre ambos métodos es menor a medida que 

el umbral de predicción aumenta. La Tabla 7.1 muestra los valores de Brier 

Skill (BS), así como los BSS medios para ambos métodos. 

Para ilustrar la resolución de las predicciones, en la figura 7.18 se muestran 

los histogramas de las distintas probabilidades predichas para el evento 

de precipitación superior a un umbral, en los casos en los que el evento se observó 

(y no se observó), respectivamente. Una predicción perfecta debería de 

estar asociada a una función delta centrada en 1 (y en el 0), respectivamente. 

Obsérvese que la predicción en una estación del Noroeste (Monteventoso) es


Brier Score Brier Skill Score 

Umbrales CLIMA M1 M2 M1 M2 

0.5 mm 0.1729 0.1171 0.1051 0.322 0.392 

2 mm 0.1337 0.0963 0.0886 0.279 0.337 

10 mm 0.0512 0.0436 0.0425 0.148 0.169 

20 mm 0.0201 0.0186 0.0186 0.074 0.074 

Tabla 7.1: BSS de los modelos AnalogoINM (M1) y PROMETEO (M2) para los 

años 1987 y 1988, tomando la climatología como modelo de referencia en ambos 

casos. Distintos umbrales de precipitación se muestran en cada una de las filas. 

claramente superior a una predicción en una estación de Levante (Alicante). 

250 

250 

Monteventoso > 0.5 mm 

Alicante > 0.5mm 

200 

P(pred=no| observado =no) 

P(pred=si | observado =si) 

200 

150 

150 

100 

100 

50 

50 

0 

300 

0 

[0,0.1) [0.1,0.2) [0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6) [0.6,0.7) [0.7,0.8) [0.8,0.9) [0.9,1) 

250 

200 

Monteventoso > 10 mm 

P(pred=no| observado =no) 

P(pred=si | observado =si) 

150 

100 

50 

0 

[0,0.1) [0.1,0.2) [0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6) [0.6,0.7) [0.7,0.8) [0.8,0.9) [0.9,1) 

Figura 7.18: Probabilidades condicionadas de la predicción o no de un evento, 

condicionado a la ocurrencia o no del evento, en la estación “Monteventoso” del 

Noroeste peninsular y en la estación “Alicante” del Mediterráneo. 

En las figuras 7.19, 7.20, y 7.21 se muestran medidas alternativas al BSS 

para validar los pronósticos probabilísticos de ambos modelos: las curvas de 

fiabilidad y resolución, las curvas ROC, y las curvas de valor económico, 

respectivamente. Estas figuras muestran que la fiabilidad de ambos métodos 

es similar, siendo la pericia superior en el caso de Prometeo. 

Finalmente, las cuatro últimas figuras muestran las curvas de valor 

económico para las distintas estaciones de los dos años de validación.


1 

1 

1 

1 

0.75 

0.75 

0.5 

0 

0 0.25 0.5 0.75 

0.5 

0 

0 0.25 0.5 0.75 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

1 

1 

1 

0.75 

0.75 

0.5 

0 

0 0.25 0.5 0.75 

0.5 

0 

0 0.25 0.5 0.75 

0.25 

0 

0 0.25 0.5 0.75 1 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

Figura 7.19: Diagramas de Fiabilidad y de resolución para los años 1987-1988. 

1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0 

0 0.25 0.5 0.75 1 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

Figura 7.20: Curvas ROC de los modelos PROMETEO y AnalogoINM (1987- 

1988).


1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.25 

0.5 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

Figura 7.21: Valor económico de los modelos PROMETEO y AnalogoINM (1987- 

1988). 

1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.25 

0.5 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

Figura 7.22: Valor económico de los modelos PROMETEO y AnalogoINM para 

las Primaveras de los años 1987-1988.


1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.25 

0.5 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 


los Veranos de los años 1987-1988. 

1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.25 

0.5 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 


los Otoños de los años 1987-1988.


1 

Prec > 0.5mm 

1 

Prec > 2mm 

0.75 

0.75 

0.5 

0.5 

0.25 

0.25 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 

1 

Prec > 10mm 

1 

Prec > 20mm 

0.75 

0.75 

0.5 

0.25 

0.5 

0.25 

AnalogoINM 

PROMETEO 

Clim 

0 

0 0.25 0.5 0.75 1 

0 

0 0.25 0.5 0.75 1 


los Inviernos de los años 1987-1988. 

7.5. Computación Distribuida en la Web. Tecnología GRID 

En las secciones anteriores se ha descrito al sistema Prometeo en su versión 

operativa, que hace uso de las tecnologías Web desde una perspectiva 

cliente-servidor. Las áreas geográficas sobre las que se lleva a cabo la predicción 

están prefijadas (España peninsular, y las islas Baleares y Canarias) y el 

sistema da acceso al cliente a una base de datos con las distintas predicciones 

realizadas en las mismas. Una aplicación más interactiva de esta aplicación 

supondría que el usuario pudiese seleccionar el área de interés y proporcionar 

la información (observaciones locales) necesaria para realizar la predicción, 

todo de forma interactiva. Ello supondría ejecutar la aplicación y obtener 

las predicciones en tiempo real a partir de una petición realizada a través de 

la Web (servicio Web). El problema de un servicio Web de este tipo es que 

requiere la ejecución de algunos procesos costosos (como entrenar una SOM 

para la región especificada por el usuario) y el acceso a bases de datos distribuidas 

(la base de datos de las predicciones numéricas y la base de datos 

con observaciones del usuario) y la tecnología Web actual no es apropiada 

ni eficiente para resolver estos problemas. En concreto, la fase de configuración/inicialización 

y, en especial, los algoritmos de componentes principales 

y de agrupamiento, son muy exigentes en tiempo de computación (por el 

gran volumen de datos). Más aún, es aconsejable ejecutar repetidas veces el 

algoritmo de agrupamiento para validar y seleccionar el más eficiente. 

Para resolver interactivamente este tipo de problemas que requieren

7.5. COMPUTACIÓN DISTRIBUIDA EN LA WEB. TECNOLOGÍA GRID 161 

grandes tiempos de cómputo, ha surgido en los últimos cinco años una tecnología 

llamada GRID. La tecnología GRID pretende aprovechar la rapidez 

de las redes de alta velocidad (Internet2 y GEANT) para extender la idea 

del cluster de computación, uniendo distintos clusters dispersos geográficamente 

mediante una red de altas prestaciones. De esta forma se pueden 

aprovechar mejor los recursos computacionales y de almacenamiento, pudiendo 

llevarse a cabo costosos procesos en tiempo real ejecutándolos de 

forma distribuida a través de la red. Esta tecnología requiere el desarrollo 

de software intermedio complejo (middleware) que permita acceder a los recursos 

y paralelizar las aplicaciones de forma simple (por ejemplo Globus, 

www.globus.com), así como de técnicas de seguridad apropiadas que verifiquen 

la identidad de los usuarios en los distintos clusters y que garanticen la 

confidencialidad de datos privados que viajen por la red. Todo este trabajo 

está en desarrollo en distintos proyectos Europeos y Estadounidenses (por 

ejemplo, el proyecto CrossGrid www.crossgrid.com, en el que se enmarca 

el trabajo preliminar presentado en esta sección). En esta Sección se da una 

visión sobre que es la tecnología GRID cuales son sus elementos más importantes 

y su funcionamiento. Además se introduce cuales son las aplicaciones 

GRID en meteorología para luego describir como Prometeo es un sistema 

muy apropiado para utilizar GRID. Por último, se estudia la aplicación de 

los algoritmos de agrupamiento a un entorno de computación cambiante. 

7.5.1. Estructura de la tecnología GRID 

La tecnología Grid surge en el ámbito de la comunidad de supercomputación 

y está basada en las ideas de agregar y compartir, utilizando la red 

como via de comunicación. Con ello se trata de dar un salto cuantitativo 

en la computación distribuida, equivalente al que se produjo al conseguir 

clusters de ordenadores con capacidad de cómputo similar a las máquinas 

multiprocesadoras. En ese caso, los ordenadores del cluster se comunican 

localmente mediante redes de alta velocidad, con eficiencias comparables a 

las conexiones de placas multiprocesadoras. El salto de GRID consiste en 

permitir que los cluster puedan estar distribuidos geográficamente y conectados 

no por una sola red local, sino conjuntamente a través de Internet. 

Para ello, es necesario generalizar las técnicas y tecnologías de paralelización 

como, por ejemplo, las basadas en el uso de MPI (Message Passing 

Interface, www-unix.mcs.anl.gov/mpi/) para que sean eficientes en este 

contexto. La primera experiencia de este tipo se produjo en 1995 durante 

el congreso SuperComputing 95, donde se demostró la posibilidad de ejecutar 

aplicaciones distribuidas de diferentes áreas científicas en una red de 

17 centros de USA conectados con una red de alta velocidad (155 Mbps). 

Éste fue el punto de partida de varios proyectos en diferentes áreas con el 

denominador común de compartir recursos distribuidos de computación. En 

Foster and Kesselman (1999) se presenta una analogía con la red eléctrica 

(electrical power grid), donde el usuario debe tener acceso a los recursos


computacionales en condiciones similares a las que tiene para utilizar la 

energía eléctrica; es decir, desde cualquier sitio, con un interfase uniforme, 

pudiendo confiar en su funcionamiento, y a un coste asequible. Esta idea 

marca el desarrollo de la supercomputación moderna a través de Internet. 

En la actualidad son numerosos los proyectos que se están llevando a cabo 

en esta línea, tanto a nivel de infraestructura y middleware (EuroGrid 

www.eurogrid.org y DataGrid www.eu-datagrid.org), como a nivel de 

aplicaciones (CrossGrid www.crossgrid.org). 

En la Fig. 7.26 se muestra un esquema de los elementos que intervienen 

en un GRID. Dos piezas fundamentales son la autoridad de certificación y 

el localizador de recursos (resource broker). El primer módulo se encarga 

de gestionar de forma segura los certificados de usuario que se compartirán 

en todas las redes locales para el proceso de identificación. El localizador 

de recursos se encarga de localizar los recursos óptimos (computacionales y 

datos) para llevar a cabo un trabajo solicitado; en otras palabras, es la puerta 

a los recursos de GRID. Estos recursos se hallan distribuidos en distintas 

redes locales (LAN) participantes en el GRID. 

Autoridad de certificados 

servidor de 

certificados 

acceso 

LAN 1 

localizador de 

recursos 

LAN UNICAN 

LAN INM 

Elemento de 

cómputo 


almacenamiento 

Interfase de 

usuario 

WAN 



SE SE observaciones 


LAN 2 

LAN n 

LAN ECMWF 

... 


cómputo 



SE SE 

reanálisis 


SE SE 

operativo 

salidas 

operativas 

Figura 7.26: Esquema prototipo de un entorno GRID, donde el componente de 

conexión es una WAN (Wide Area Network): Internet-2, GEANT, etc. 

Ejecutar un trabajo en el GRID requerirá lo siguiente: 

1. Preparar el código paralelo de la aplicación (por ejemplo en MPI para 

Globus) de forma que pueda compilarse en las distintas plataformas 

que intervengan en el GRID. Por ejemplo, la Fig. 7.31 muestra el 

código paralelizado de algoritmo de agrupamiento basado en redes 

auto-organizativas (uno de los módulos del sistema Prometeo). 

2. Disponer de un certificado que tenga permisos en distintas redes locales


(LAN) del grid y que esté autorizado por la “autoridad de certificados’. 

Este certificado será la llave para acceder a los distintos recursos. 

3. Ejecutar el localizador de recursos con las restricciones deseadas (velocidad 

mínima del elemento de cómputo, tipo de sistema operativo, 

etc.) y decidir dependiendo de las características del algoritmo qué recursos 

van a utilizarse. 

4. Una vez preparada la petición, se lanza al GRID y se puede realizar 

un seguimiento utilizando alguna herramienta de monitorización (en 

qué máquinas se está ejecutando, etc.). 

7.5.2. Tecnologías GRID en Meteorología 

Históricamente, la Meteorología ha sido una de los principales usuarios 

de las nuevas tecnologías de la Computación, tanto en lo relativo a la capacidad 

de cálculo, como al almacenamiento de grandes volúmenes de información 

y a su rápida distribución mediante redes de alto rendimiento. En 

el pasado, muchas de las tareas involucradas en este área (integración de 

modelos numéricos de predicción, mantenimiento de bases de datos operativas, 

etc.) eran exclusivas de grandes centros meteorológicos que disponían 

de la tecnología necesaria. En la actualidad, la situación es distinta debido al 

abaratamiento de la tecnología, y diversos grupos de investigación públicos 

y privados llevan a cabo costosas simulaciones meteorológicas que utilizan 

distintas bases de datos para realizar tareas tan diversas como: estudios 

climatológicos y de cambio climático, pronóstico meteorológico local, predicción 

de viento para la gestión de parques eólicos, difusión de contaminantes 

en el mar y en la atmósfera, etc. Sin embargo, el tipo de estudios que pueden 

emprender estos grupos en un tiempo reducido está todavía limitado 

por los recursos computacionales de que disponen (principalmente clusters 

de ordenadores Drake et al. (1995)). Por tanto, la tecnología GRID puede 

proporcionar un enorme beneficio en este campo, permitiendo abordar 

problemas más complejos a los centros de investigación y proporcionando 

servicios especializados a medida a través de Internet. Los centros de e- 

Ciencia son una iniciativa surgida en el Reino Unido para amparar este 

tipo de tecnologías, proporcionando el entorno computacional y el soporte 

técnico necesarios para dar una cobertura apropiada a los distintos grupos y 

empresas con necesidad de gestionar recursos a través de la red, utilizando 

la tecnología GRID como soporte de este proceso. 

Los temas de meteorología han formado y forman parte de los distintos 

proyectos GRID (Hoffmann, 2001). Uno de los primeros desarrollos de 

aplicaciones meteorológicas integradas en Europa en entornos GRID se lleva 

a cabo en el proyecto Europeo del V Programa Marco llamado Cross-Grid 

(www.crossgrid.org), con una activa participación de grupos Españoles 

en el ámbito de la dispersión de contaminantes en la atmósfera y en la 

implementación de herramientas de minería de datos para bases de datos


meteorológicas. Fruto de estas iniciativas se están resolviendo distintos problemas 

de migración y adaptación de las técnicas y productos existentes 

al nuevo entorno GRID, facilitando el trabajo para futuras iniciativas en 

este campo. Otra de las experiencias piloto en este proyecto es la paralelización 

y migración a GRID del modelo COAMPS en forma de servicio Web 

en el que el usuario pueda seleccionar interactivamente un área de interés, 

la resolución horizontal y vertical, y un período de predicción, obteniendo 

los campos meteorológicos solicitados resultado de la integración del modelo. 

Está planeado integrar este servicio web con aplicaciones específicas de 

cálculo de contaminates en la atmósfera, cálculo de oleaje, y procesamiento 

y análisis de proyectos de re-análisis regionales. En la Fig. 7.27 se muestran 

más detalles. 

Figura 7.27: Esquema previsto de integración de aplicaciones meteorológicas en el 

proyecto Cross-GRID. 

Una de estas aplicaciones es la utilización de técnicas de minería de datos 

a bases de datos meteorológicas, y Prometeo es un sistema que engloba parte 

de estas técnicas. 

7.5.3. Prometeo en un Entorno GRID 

Debido a las características del sistema Prometo, éstas le hacen apropiado 

para el entorno GRID, ya que puede aprovechar tanto recursos compu-


tacionales como de almacenamiento distribuido: 

Ejecución interactiva definida por el usuario. Cada usuario requiere 

una petición concreta de la aplicación, que tendrá que ser ejecutada 

según sus necesidades de forma interactiva (área geográfica, variables 

atmosféricas, etc.). Ello supondrá ejecutar el sistema completo (configuración/explotación) 

en tiempo real. El tiempo de cómputo hace 

inviable su uso interactivo con tecnologías web estándar y hace necesario 

el uso de GRID. 

Alto coste computacional, que demanda cálculo distribuido masivo, en 

lugar de computación local en una sola máquina. Todos los algoritmos 

están bien definidos y los más costosos de ellos (componentes principales 

y agrupamiento) son paralelizables. En la Sec. 7.5.4 analizamos 

el rendimiento de distintas versiones paralelizadas de este algoritmo 

en un entorno GRID de unidades de computación y latencias de red 

heterogéneas. 

Acceso masivo a datos distribuidos. Aparte de los datos proporcionados 

por el usuario, el algoritmo requiere otros datos de entrada (reanálisis, 

observaciones, etc.) que en principio están distribuidos en distintos 

centros. Por ejemplo, la Fig. 7.26 muestra un posible GRID donde 

la Universidad de Cantabria, el INM y el ECMWF serían tres de las 

redes locales, haciendo posible la no replicación de datos y el acceso 

dinámico a los mismos. 

Aplicación paramétrica (parameter driven). Otra característica de Prometeo 

es que la aplicación forma un núcleo que sólo requiere un conjunto 

de datos de entrada (parámetros) para ejecutar una tarea específica. 

Este tipo de aplicaciones son manejables en un entorno GRID, tanto 

para su réplica en los distintos elementos de cómputo, como para su 

ejecución. 

Las fases más críticas para la implementación de Prometeo en un entorno 

GRID serían: 

1. La paralelización de los algoritmos de componentes principales y agrupamiento, 

teniendo en cuenta las características del entorno GRID. 

2. Las inclusión en GRID de las bases de datos de reanálisis, operativa, 

y observaciones. En la actualidad no hay una única solución para la 

gestión y acceso a bases de datos distribuidas en el GRID, sino que se 

están planteando distintas alternativas. 

En la siguiente sección se muestran resultados de la primera tarea. La segunda 

tarea está todavía en fase de estudio.


7.5.4. Paralelización GRID de los Algoritmos de Agrupamiento 

En esta sección se analiza la eficiencia de distintas paralelizaciones de 

algoritmos de agrupamiento (en particular, de la SOM) en un entorno tipo 

GRID, donde los recursos computacionales disponibles son heterogéneos, y 

la velocidad de la red es variable de unos nodos a otros. Es decir, no se trata 

de paralelizar el algoritmo teniendo en cuenta unas características estáticas 

de un cluster, sino tener en cuenta la heterogeneidad y variabilidad de estos 

factores. En consecuencia, los algoritmos tienen que ser adaptativos según 

la situación. 

Para desarrollar un algoritmo de este tipo se ha comenzado analizando 

distintas opciones de paralelización del algoritmo de la SOM descrito en la 

Sec. 3.4 y que constituye la parte con mayor carga computacional del sistema 

prometeo. Para este cometido se ha utilizado un cluster de 80 maquinas 

IBM modelo x220 server con un procesador Pentium III a una frecuencia de 

1.26 GHz, con 512 MB de memoria RAM, y 90 GB de disco duro, todas ellas 

conectadas con una red Ethernet a 100 Mbps gestionada por dos switch de 

1Gbps en la Figura 7.28 el esquema del cluster. Este cluster es gestionado 

por el IFCA (Instituto de Física de Cantabria) y se puede obtener más información 

detallada en grid.ifca.unican.es. Cada uno de estos ordenadores 

constituye una unidad de cálculo. 

Todos los programas han sido desarrollados en lenguaje C y usando la 

implementación de la Interfase de Paso de Mensajes (MPI, Message Passing 

Interfase) MPICH-p4 desarrollado por el Argonne National Laboratory 

(www-unix.mcs.anl.gov/mpi/mpich). Aunque los resultados mostrados en 

esta Sección hayan sido obtenidos a partir de esta implementación, pruebas 

de ejecución, con resultados muy preliminares, se han realizado utilizando 

la implementación de MPI para Glogus (MPICH-g2). Debido a las inhomogeneidades 

de comunicación en un entorno GRID, uno de los principales 

inconvenientes es el tamaño y la cantidad de mensajes enviados y recibidos 

durante el algoritmo. Así que, elegimos una arquitectura centralizada 

de maestro-esclavo para evitar el paso de una gran cantidad de mensajes 

entre las unidades de cómputo. Mas aún, en un entorno GRID el maestro 

debería chequear a las unidades de cómputo durante el algoritmo, y tomar 

decisiones si cualquiera de ellos no funcionase correctamente. Este punto de 

vista es diferente con respecto a otras implementaciones paralelas de la SOM 

en las cuales se usa un paso masivo de mensajes sobre máquinas paralelas. 

La forma más simple de paralelización del algoritmo de la SOM es dividir 

los datos, y de esta forma la suma en (3.16) puede repartirse entre diferentes 

procesadores, como se muestra en la Fig. 7.29(a). Sin embargo, en este caso, 

después de cada ciclo completo, los esclavos tienen que enviar los prototipos 

al maestro, el cual calcula su actualización, y envía los centros finales a cada 

uno de los esclavos. Esta no es una implementación eficiente para el entorno 

GRID, ya que requiere un paso intensivo de datos. 

Las Figuras 7.29(b) y (c) muestran dos alternativas diferentes llama-


Figura 7.28: Cluster local del Instituto de Física de Cantabria (CSIC/Universidad 

de Cantabria). 

das SOM R y SOM C , respectivamente, para distribución computacional de 

recursos con los vectores de prototipos replicados (y centralizados). En la Figura 

7.31 se muestra el pseudocódigo, de estos algoritmos usando la siguiente 

notación: 

Se considera una SOM m = r × r; c k y w k ∈ R d representa el centro 

del cluster C k antes y después de aplicar las restricciones topológicas, 

respectivamente. 

Se utilizan P + 1 procesadores (1 maestro y P esclavos). 

T i ⊂ {1, . . .,m}, i = 1, · · ·,P, son los índices de los vectores prototipos 

asignados al procesador i. 

Los diferentes mensajes requeridos para cada uno de los esquemas, se muestran 

en la Figura 7.29 con líneas discontinuas, las cuales pueden corresponder, 

o bien a una iteración del algoritmo, o bien a un ciclo completo. En la 

Figura 7.29(b), el tamaño de los mensajes es mínimo, pero los prototipos 

deben ser replicados y actualizados en cada unidad de cómputo (SOM R ). 

Por otro lado, en la Figura 7.29(c) se muestra que los cálculos son realizados 

únicamente en el maestro, pero para actualizar los centros es necesario 

enviar mensajes a los esclavos después de cada ciclo (SOM C ). En ambos 

casos, el cálculo de distancias de 3.15, esta distribuido por igual sobre cada 

uno de los esclavos. Por tanto, una SOM con m centros podría ser repartida 

hasta en P procesos esclavos, cada uno de ellos calculando m/P distancias. 

Para comprobar la eficiencia de estos algoritmos, se han realizado varios 

experimentos variando el número de centros m, la dimensión de los datos d,


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figura 7.29: Tres esquemas paralelos diferentes para el algoritmo de entrenamiento 

de la SOM: (a) distribución de datos (b), SOM R distribución computacional de recursos 

con los vectores prototipos replicados, (c) SOM C distribución computacional 

de recursos con los vectores prototipos centralizados. 

el tamaño de la base de datos n, y el número de ciclos. La Figura 7.30 muestra 

las curvas de speedup obtenidas para d = 500, n = 5500 y un tamaño 

variable de la SOM (desde 10 × 5 = 50 a 40 × 40 = 1600 centros, o prototipos); 

los centros prototipos, son distribuidos en dos, cuatro y hasta veinte 

procesos, obteniendo curvas de speedup para los esquemas SOM R y SOM C . 

En la Figura 7.30(a) podemos ver como la curva de speedup del algoritmo 

SOM R tiene una gran dependencia del tamaño de la SOM (m). esto no es 

sorprendente, ya que en cada iteración del algoritmo el maestro calcula la 

neurona ganadora y la envía a los esclavos. Este proceso de comunicación 

arruina por completo el comportamiento paralelo cuando el número de centros 

es demasiado pequeño, ya que el cálculo de la distancia es rápido. Por 

otro lado, la Fig. 7.30(b) muestra speedup del algoritmo de la SOM C . Se 

consiguen mejores comportamientos para tamaños de SOM pequeños o medianos, 

para un número dado de unidades procesadoras. Cuando el balance 

entre el tiempo de paso de mensajes y el cálculo en el esclavo, se pierde (p.e. 

incrementando el numero de procesos, y de esto, decrementando el trabajo 

hecho por cada uno de los esclavos), el algoritmo se vuelve súbitamente 

ineficiente, debido al coste de paso de mensajes. 

Estos resultados muestran que ninguno de los esquemas es el más eficiente 

para todas las situaciones. Por tanto, para la distribución de los primeros 

datos y luego la carga computacional es necesaria una estrategia híbrida. 

Este esquema adaptativo híbrido es adecuado para el entorno GRID, ya que 

la distribución de recursos de datos y de cómputo puede ser hecho de acuer-


do a los recursos disponibles en el momento de la ejecución de cada tarea 

en el GRID (ver Gutiérrez et al., 2003, para más detalles). 

10x5 50x2 50x4 50x8 

40x20 40x40 Linear speedup 

(a) 

speedup 

20 

18 

16 

14 

12 

10 

8 

6 

4 

2 

0 

2 4 6 8 10 12 14 16 18 20 

processors 

10x5 50x2 50x4 50x8 

40x20 40x40 Linear speedup 

(b) 

speedup 

20 

18 

16 

14 

12 

10 

8 

6 

4 

2 

0 

2 4 6 8 10 12 14 16 18 20 

processors 

Figura 7.30: Curvas de speedup para (a) SOM R (b) SOM C .


(código esclavo) 

Inicializar los vectores prototipos en todos los procesadores 

for (epoch = 1, · · · ,N epoch ) 

Inicializar los vectores de los centros a 0 

para (pattern = 1, · · · ,N pattern ) 

para (cada j ∈ T i ) 

calcular distancia d j 

fin para 

calcular nodo ganador g i en T i 

MPI Gather para pasar g i al maestro 

{∗ 1 } 

end for 

{∗ 2 } 

para (cada j ∈ T i ) 

actualizar vector de prototipos w j 

fin para 

fin para 

(código maestro) 

for (epoch = 1, · · · ,N epoch ) 

para (pattern = 1, · · · ,N pattern ) 

MPI Gather para recibir g i de cada esclavo 

calcular el nodo ganador g 

{∗ 3 } 

fin para 

{∗ 4 } 

end for 

PARSOM R 

{∗ 1 } MPI Recv para recibir el nodo ganador g del Maestro 

{∗ 2 } Nill 

{∗ 3 } MPI Bcast para comunicar el nodo ganador g a los esclavos 

{∗ 4 } Nill 

PARSOM C 

{∗ 1 } Nill 

{∗ 2 } MPI Recv para recibir los vectors de los centros del Maestro 

{∗ 3 } update center vectors 

{∗ 4 } MPI Bcast para comunicar los vectores de los centros a cada 

esclavo 

Figura 7.31: Pseudo-código de los algoritmos paralelos para SOM R y SOM C 

.

Bibliografía 

Abarbanel, H. D. I. (1995). Analysis of Observed Chaotic Data. Springer. 

Anderberg, M. R. (1973). Cluster Analysis for Applications. Academic 

Press, New York. 

Anderson, J. L. (1996). Selection of initial conditions for ensemble forecasts 

in a simple perfect model framework. Journal of Atmospheric 

Sciences, 53:22–35. 

Ayuso, J. J. (1994). Predicción Estadística Operativa en el INM, vol. B- 

34 of Monografías del Instituto Nacional de Meteorología. Ministerio de 

Medio Ambiente, Madrid. 

Barry, R. and Chorley, R. (1998). Atmosphere, Weather and Climate. 

Routledge, London, 7th ed. 

Beniston, M. (1998). From Turbulence to Climate: Numerical Investigations 

of the Atmosphere with a Hierarchy of Models. Springer-Verlag. 

Bergman, M. J. and Delleur, J. W. (1985). Kalman filter estimation 

and prediction of daily streamflow: 1- review, algorithm, and simulation 

experiements; 2-application to the potomac river. Water Resources Bulletin, 

21(5):815–832. 

Billet, J., Delisi, M., Smith, B. G., and Gates, C. (1997). Use of 

regression techniques to predict hail size and the probability of large hail. 

Weather and Forecasting, 12:154–164. 

Box, G. E. P. and Jenkins, F. M. (1976). Time Series Analysis: Forecasting 

and Control. Holden-Day, Oakland, CA, 2nd ed. 

Brier, G. W. (1950). Verification of forecasts expressed in terms of probability. 

Monthly Weather Review, 78:1–3. 

Briggs, W. M. and Levine, R. A. (1997). Wavelets and field forecast 

verification. Monthly Weather Review, 125:1329–1341. 

171

172 BIBLIOGRAFÍA 

Buhamra, S., Smaoui, N., and Gabr, M. (2003). The box-jenkins analysis 

and neural networks: prediction and time series modelling. Applied 

Mathematical Modelling, 27:805–815. 

Buizza, R. and Palmer, T. N. (1995). Singular vector structure of the 

atmospheric global circulation. Journal of Atmospheric Sciences, 52:1434. 

Buizza, R., Richardson, D. S., and Palmer, T. N. (2001). The new 

80km high-resolution ECMWF EPS. ECMWF Newsletter, spring:90. 

Burguer, G. (1996). Expanded downscaling for generating local weather 

scenarios. Climate Research, 7:111–128. 

Castillo, E., Cobo, A., Gutiérrez, J. M., and Pruneda, E. (1999). An 

Introduction to Functional Networks with Applications. Kluwer Academic 

Publishers, Boston. 

Castillo, E., Fontela-Romero, O., Guijarro-Berdiñas, B., and 

Alonso-Betanzos, A. (2002). A global optimum approach for one-layer 

neural networks. Neural Computation, 14(6):1429–1449. 

Cavazos, T. (1997). Downscaling large-scale circulation to local winter 

rainfall in north-eastern mexico. International Journal of Climatology, 

17:1069–1082. 

Cavazos, T. (2000). Using self-organizing maps to investigate extreme 

climate event: An application to wintertime precipitation in the balkans. 

Journal of Climate, 13:1718–1732. 

Chatfield, C. (2003). The Analysis of Time Series: An Introduction. CRC 

Press, 6th ed. 

Chen, M., Xie, P., Janowiak, J. E., and Arkin, P. A. (2002). Precipiation: 

A 50-yr monthly analysis based on gauge observations. Journal 

of Hydrometeorology, 3:249–266. 

Cofiño, A. S., Abbott, P., and Gutiérrez, J. M. (2003a). Linguistic 

fractal analysis of symbolic sequences. In P. Mitic and et al., eds., 

Chanllenging the Boundaries of Symbolic Computation, pp. 1–8. World 

Scientific Publication, Singapore. 

Cofiño, A. S., Cano, R., and Gutiérrez, J. M. (2002). Bayesian networks 

for probabilistic weather prediction. In Proceedings of the 15th 

European Conference on Artificial Intelligence, pp. 695–700. IOS Press. 

Cofiño, A. S., Cano, R., Gutiérrez, J. M., and Rodríguez, M. A. 

(1999). Prometeo: Un sistema experto para el pronóstico meteorológico 

local basado en redes neuronales y cálculo de analogías. In Actas de las 

III Jornadas de Transferencia Tecnológica de Inteligencia Artificial., pp. 

11–19. CAEPIA.

BIBLIOGRAFÍA 173 

Cofiño, A. S., Cano, R., López, F. J., Gutiérrez, J. M., and Rodríguez, 

M. A. (2001a). Aplicación de métodos de clasificación al downscaling 

estadístico. In Actas del V Simposio Nacional de Predicción, pp. 

49–50. Instituto Nacional de Meteorología, Madrid. 

Cofiño, A. S., Ciszak, M., and Gutierrez, J. M. (2003b). A practical 

approach to predictability in chaotic systems. Neural networks and 

anticipated synchronization. Enviado a Physica A. 

Cofiño, A. S. and Gutiérrez, J. M. (2001). Optimal modular feedforward 

neural networks based on functional networks. Lecture Notes in 

Artificial Intelligence, 2083:308–315. 

Cofiño, A. S., Gutiérrez, J. M., and Ivanissevich, M. L. (2003c). 

Evolving modular networks with genetic algorithms. application to nonlinear 

time series. Enviado a Expert Systems. 

Cofiño, A. S., Ivanissevich, M. L., and Gutiérrez, J. M. (2000). An 

hybrid evolutive genetic strategy for solving the inverse fractal problem 

of ifs models. Lecture Notes in Artificial Intelligence, 1952:467–476. 

Cofiño, A. S., Ivanissevich, M. L., and Gutiérrez, J. M. (2001b). 

Minimum description length quality measurues for modular functional 

networks. In Actas del VII Congreso Argentino de Ciencias de la Computación, 

pp. 115–125. 

Cofiño, A. S., Primo, C., Cano, R., Sordo, C., and Gutiérrez, J. M. 

(2003d). Downscaling demeter seasonal ensemble precipitation forecasts 

in the tropics during el niño episodes. Geophysical Research Abstracts, 

5:14586. 

Cofiño, A., Cano, R., and Gutiérrez, J. (2003a). Self-organizing maps 

for statistical downcaling in ensemble prediction systems. Climate Dynamics 

(enviado). 

Cofiño, A. S., Gutiérrez, J. M., Jakubiak, B., and Melonek, M. 

(2003b). Implementation of data mining techniques for meteorological 

applications. In W. Zwieflhofer and N. Kreitz, eds., Realizing Teracomputing, 

pp. 215–240. World Scientific. 

Corte-Real, J., Quian, B., and Xu, H. (1999). Circulation patterns, 

daily precipitation in portugal and implications for climate change simulated 

by the second hadley centre gcm. Climate Dynamics, 15:921–935. 

Díaz, E., García-Moya, J. A., Cofiño, A. S., and Orfila, B. (2003). 

Downscaling techniques applied to outputs of the demeter project over 

specific mediterranean regions. Geophysical Research Abstracts, 5:986.


Drake, J., Foster, I., Michalakes, J., Toonen, B., and Worley, P. 

(1995). Design and performance of a scalable parallel community climate 

model. Parallel Computing, December:245–257. 

Enke, W. and Spekat, A. (1997). Downscaling climate model outputs 

into local and regional weather elements by classification and regression. 

Climate Research, 8:195–207. 

Faufoula-Georgiou, E. and Lettenmaier, D. P. (1987). A markov 

renewal model for rainfall occurrences. Water Resources Research, 23:875– 

884. 

Fayyad, U. M., Piatetsky Shapiro, G., Smyth, P., and Uthurusamy, 

R. (1996). Advances in Knowledge Discovery and Data Mining. AAAI 

Press/The MIT Press, Cambridge, MA. 

Fernández, A., del Hoyo, J., Peral, C., and Mestre, A. (2001). El 

sistema de predicción analógica del la precipitación en el inm. Publicación 

interna del INM. 

Fontela-Romero, O., Alonso-Betanzos, A., Castillo, E., Principe, 

J. C., and Guijarro-Berdiñas, B. (2002). Local modeling using 

self-organizing maps and single layer neural networks. Lectures Notes in 

Computer Science, 2415:945–950. 

Foster, I. and Kesselman, C. (1999). The Grid: Blueprint for a New 

Computing Infraestructure. Morgan-Kaufmann. 

Fovell, R. G. and Fovell, M. Y. C. (1993). Climate zones of the conterminous 

united states defined using cluste analysis. Journal of Climate, 

6:2103–2135. 

Furundzic, D. (1998). Application example of neural networks for time 

series analysis: rainfall-runoff modeling. Signal Processing, 64:383–396. 

Gabriel, K. R. and Neumann, J. (1962). A markov chain model for 

daily rainfall occurrences at Tel Aviv. Quaterly Journal of the Royal 

Meteorological Society, 88:90–95. 

Gardner, M. W. and Dorling, S. R. (1998). Artificial neural networks 

(the multilayer perceptron). A review of applicatios in the atmospheric 

sciences. Journal of Applied Meteorology, 39:147–159. 

Gollub, J. P. and Cross, M. C. (2000). Chaos in space and time. Nature, 

404:710–711. 

Grassberger, P. and Procaccia, I. (1983). Characterization of strange 

attractors. Physical Review Letters, 50:346–349.


Gutiérrez, J. M., Cano, R., Cofiño, A. S., and Rodríguez, M. A. 

(2004a). Clustering methods for statistical downscaling in short-range 

weather forecast. Monthly Weather Review (en prensa). 

Gutiérrez, J. M., Cano, R., Cofiño, A. S., and Sordo, C. (2004b). 

Redes Probabilística y Neuronales para las Ciencias Atmosféricas. Monografías 

del Instituto Nacional de Meteorología. Ministerio de Medio 

Ambiente, Madrid. (en prensa). 

Gutiérrez, J. M., Cano, R., Cofiño, A. S., and Rodríguez, M. A. 

(1999). Redes neuronales y patrones de analogías aplicados al downscaling 

climático. In La Climatología Española en los Albores del Siglo XXI, pp. 

113–121. Asociación Española de Climatología. 

Gutiérrez, J. M., Cofiño, A. S., Cano, R., and Sordo, C. (2002a). 

A generalization of analogue downscaling methods by bayesian networks. 

In International Conference on Quatitative Precipitation Forecasting, pp. 

87–87. The World Weather Research Programme’s WWRP. 

Gutiérrez, J. M., Cofiño, A. S., Cano, R., and Sordo, C. (2002b). 

Probabilistic networks for statistical downscaling and spatialisation of meteorological 

data. Geophysical Research Abstracts, 4:192. 

Gutiérrez, J. M., Cofiño, A. S., and Ivanissevich, M. L. (2001). A 

comparison of different evolutive niching strategies for identifying a set of 

selfsimilar contractions for the ifs inverse problem. Journal of Computer 

Science and Technology, 2(5):234–246. 

Gutiérrez, J. M., Cofiño, A. S., and Luengo, F. (2003). Grid oriented 

implementation of self-organizing maps for data mining in meteorology. 

Lecture Notes in Computer Science (en prensa). 

Gutiérrez, J. M., Sordo, C., Cano, R., Cofiño, A. S., and Rodríguez, 

M. A. (2002c). Dynamic bayesian networks for probabilistic 

time series prediction. Geophysical Research Abstracts, 4:284. 

Gutiérrez, J., Cofiño, A., Cano, R., and Primo, C. (2004). Analysis 

and downscaling multi-model seasonal forecasts using self-organizing 

maps. Tellus A (en prensa). 

Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of 

Statistical Learning. Springer, New York. 

Hewitson, B. C. and Crane, R. G. (2002). Self-organizing maps: applications 

to synoptic climatology. Climate Research, 22(1):13–26. 

Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: biased 

estimation for nonorthogonal problems. Technometrics, 12:55–82.


Hoffmann, G. (2001). Grid computing for meteorology. In W. Zwieflhofer 

and N. Kreitz, eds., Developments in Teracomputing, pp. 117–126. World 

Scientific. 

Holton, J. (1992). An Introduction to Dynamic Meteorology. Academic 

Press. 

Hsieh, W. W. (2001). Nonlinear canonical correlation analysis of the tropical 

pacific climate variability using a neural network approach. Journal 

of Climate, 14:2528–2539. 

Hsieh, W. W. and Tang, B. (1998). Applying neural network models to 

prediction and data analysis in meteorology and oceanography. Bulletin of 

the American Meteorological Society, 79:1855–1870. 

Hughes, J., Lettemaier, D. P., and Guttorp, P. (1993). A stochastic 

approach for assessing the effect of changes in regional circulation patterns 

on local precipitation. Water Resources Research, 29:3303–3315. 

Hurrell, J. W. (1995). Decadal trends in the north atlantic oscillation and 

relationships to regional temperature and precipitation. Science, 269:676– 

679. 

Jolliffe, I. T. and Stephenson, D. B. (2003). Forecast Verification. 

John Wiley and Sons. 

Judd, K. (2003). Nonlinear state estimation, indistinguishable states, and 

the extended kalman filter. Physica D, 183:273–281. 

Kalkstein, L. S., Tan, G., and Skindlov, J. A. (1987). An evaluation of 

three clustering procedures for use in synoptic climatological classification. 

Journal of Climate and Applied Meteorology, 26:717–730. 

Kalnay, E. (2003). Atmospheric Modeling, Data Assimilation and Predictability. 

Cambridge University Press. 

Klein, W. H. and Glahn, H. R. (1974). Forecasting local weather by 

means of model output statistics. Bulletin of the American Meteorological 

Society, 55:1217–1227. 

Kohonen, T. (2000). Self-Organizing Maps. Springer-Verlag, Berlin, 3rd 

ed. 

Köppen, W. (1918). Klassifikation der klimate nach temperatur, niederschlag 

und jahreslauf. Petermanns Mitt, 64:193–203. 

Kramer, M. A. (1991). Nonlinear principal component analysis using 

autoassociative neural networks. Neural Computation, 9(7):1493–1516. 

Lorenz, E. N. (1963). Deterministic nonperiodic flow. Physical Review 

Letters, 20:130–141.


Lorenz, E. N. (1969). Atmospheric predictability as revealed by naturally 

occuring analogues. Journal of the Atmospheric Sciences, 26:636–646. 

Lorenz, E. N. (1991). Dimension of weather and climate attractors. Nature, 

353:241–244. 

Lorenz, E. N. (1996). The Essence of Chaos. University of Washington 

Press. 

Macedo, M., Cook, D., and Brown, T. J. (2000). Visual data mining 

in atmospheric science data. Data Mining and Knowledge Discovery, 

4:69–80. 

Marzban, C. (2003). A neural network for post-processing model output: 

ARPS. Monthly Weather Review, 131(6):1103–1111. 

Masters, T. (1995). Neural, Novel and Hybrid Algorithms for Time Series 

Prediction. John Wiley & Sons. 

McGinnis, D. L. (1994). Predicting snowfall from synoptic circulation: A 

comparison of linear regression and neural networks. In B. Hewitson and 

R. G. Crane, eds., Neural Nets: Applications in Geography, pp. 79–99. 

Kluwer Academic Publishers. 

Middleton, G. (2000). Data Analysis in the Earth Sciences Using MAT- 

LAB. Prentice Hall. 

Mo, K. C. and Livezey, R. E. (1986). Tropical-extratropical geopotential 

height teleconnections during the northern hemisphere winter. Monthly 

Weather Review, 114:2488–2515. 

Murphy, A. H. (1973). A new vector partition of probability score. Journal 

of Applied Meteorology, 12:595–600. 

Murphy, A. H. (1993). What is a good forecast? an essay on the nature 

of goodness in weather forecasting. Weather and Forecasting, 8:281–293. 

Murphy, A. H. and Winkler, R. L. (1987). A general framework for 

forecast verification. Monthly Weather Review, 115:1330–1338. 

Noguer, M. (1994). Using statistical techniques to deduce local climate 

distributions. an application for model validation. Meteorological Applications, 

1:277–287. 

Oja, E. and Kaski, S. (1999). Kohonen Maps. Elsevier, Amsterdam. 

Oliver, J. (1991). The history, status and future of climatic classification. 

Physical Geography, 12:231–251.


Palmer, T. N., Alessandri, A., Andersen, U., Cantelaube, P., Davey, 

M., Délécluse, P., Déqué, M., Díez, E., Doblas-Reyes, F. J., 

Feddersen, H., Graham, R., Gualdi, S., Guérémy, J. F., Hagedorn, 

R., Hoshen, M., Keenlyside, N., Latif, M., Lazar, A., Maisonnave, 

E., Marletto, V., Morse, A. P., Orfila, B., Rogel, P., 

Terres, J. M., and Thomson, M. C. (2003). Development of a european 

enseble system for seasonal to inter-annual prediction (DEMETER). 

URL http://www.ecmwf.int/research/demeter/. Enviado a Bulletin 

of the American Meteorological Society. 

Peña, J. M., Lozano, J. A., and Larrañaga, P. (1999). An empirical 

comparison of four initialization methods for the k-means algorithm. 

Pattern Recognition Letters, 20:1027–1040. 

Pérez-Muñuzuri, V. and Gelpi, I. R. (2000). Application of nonlinear 

forecasting techniques for meteorological modeling. Annales Geophysicae, 

18:1349–1359. 

Philander, S. G. (1990). El Niño, La Niña, and the Southern Oscillation. 

Academic Press, San Diego. 

Preisendorfer, R. W. and Mobley, C. D. (1988). Principal component 

analysis in meteorology and oceanography. Elsevier, Amsterdam. 

Press, W. H., Teulosky, S. A., Vetterling, W. T., and Flannery, 

B. P. (1992). Numerical Recipies. Cambridge University Press, Cambridge, 

2nd ed. 

Pu, Z.-X., Kalnay, E., Parrish, D., Wu, W., and Toth, Z. (1997). The 

use of the bred vectors in the ncep operational 3-dimensional variational 

system. Weather and Forecasting, 12:689–695. 

Richardson, D. S. (2000). Skill and economic value of the ecmwf ensemble 

prediction system. Quaterly Journal of the Royal Meteorological Society, 

126:649–668. 

Rodríguez-Fonseca, B. and Serrano, E. (1991). Winter 10-day coupled 

patterns between geopotential height and iberian peninsula rainfall using 

the ecmwf precipitation reanalysis. Journal of Climate, 15:1309–1321. 

Rodriguez-Iturbe, I., Cox, D. R., and Isham, V. (1987). Some models 

for rainfall based on stochastic point processes. Proc. of the Royeal Society 

of London A, 410:269–288. 

Rosenblat, F. (1962). Principles of Neurodynamics. Spartan, New York. 

Rumelhart, D. E. and McClelland, J. L. (1986). Parallel Distributed 

Processing: Explorations in the Microstructure of Cognition. The MIT 

Press, Cambridge.


Sauer, T. (1994). Time series prediction by using delay coordinate embedding. 

In A. S. Weigend and N. A. Gershenfeld, eds., Time Series Prediction: 

Forecasting the Future and Understanding the Past, pp. 175–193. 

Addison-Wesley. 

Schizas, C. N., Pattichis, C. S., and Michaelides, S. C. (1994). Artificial 

neural networks in weather forecasting. Neural Networks, pp. 219– 

230. 

Schoof, J. T. and Pryor, S. C. (2001). Downscaling temperature and precipitation: 

A comparison of regression-based methods and artificial neural 

networks. International Journal of Climatology, 21(7):773–790. 

Shannon, C. E. (1948). A mathematical theory of communication. The 

Bell System Technical Journal, 27:623–656. 

Stern, R. D. (1982). Computing a probability distribution for the start of 

the rains from a markov chain model for precipitation. Journal of Applied 

Meteorology, 21(3):420–422. 

Talagrand, O. (1997). Evaluation of probabilistic prediction systems. In 

Workshop on predictability, pp. 1–25. ECMWF. 

Toth, Z. (1991). Circulation patterns in phase space. A multinormal distribution? 

Montly Weather Review, 119:1501–1511. 

Tsonis, A. A. and Elsner, J. B. (1988). The wheater atrractor over very 

short time scales. Nature, 333:545–547. 

van den Dool, H. M. (1989). A new look at weather forecasting though 

analogs. Montly Weather Review, 117:2230–2247. 

Verma, U., Yadav, M., and Hasija, R. C. (2002). A seasonal arima 

model for monthly rainfall sequence. In 16th Australian Statistical Conference. 

Canberra, Australia. 

von Storch, H. (1999). On the use of “inflation”in statistical downscaling. 

Journal of Climate, 12:3505–3506. 

Wanner, H., Bronnimann, S., Casty, C., Fyalistras, D., Luterbacher, 

J., Schmutz, C., Stephenson, D. B., and Xoplaki, E. (2001). 

North atlantic oscillation – concepts and studies. Surveys in Geophysics, 

22:321–382. 

Wilby, R. L. and Wigley, T. M. L. (1997). Downscaling general circulation 

model output. A review of methods and limitations. Progress in 

Physical Geography, 21:530–548. 

Wilby, R. L. and Wilks, D. S. (1999). The weather generation game. 

A review of stochastic weather models. Progress in Physical Geography, 

23:329–357.


Wilks, D. S. (1995). Statisticaql methods in the atmospheric sciences. 

Academic Press. 

Witten, I. H. and Frank, E. (1999). Data Mining: Practical Machine 

Learning Tools and Techniques with Java Implementations. Morgan 

Kaufmann. 

WMO (1994). Guide to wmo binary code form grib 1. technical report no. 

17. 

Wunsch, C. (1999). The interpretation of short climate records, with comments 

on the north atlantic and southern oscillation. Bulletin of the 

American Meteorological Society (BAMS), 80:245–255. 

Yuval and Hsieh, W. W. (2003). An adaptive nonlinear MOS scheme for 

precipitation forecasts using neural networks. Weather and Forecasting, 

18(2):303–310. 

Zhu, Y., Toth, Z., Wobus, R., Richardson, D., and Mylne, K. 

(2001). On the economic value of ensemble based weather forecasts. Bulletin 

of American Meteorological Society, 83:73–85. 

Zorita, E., Hughes, J. P., P, L. D., and von Storch, H. (1995). Stochastic 

characterization of regional circulation patterns for climate model 

diagnosis and estimation of local precipitation. Journal of Climate, 

8:1023–1042. 

Zorita, E. and von Storch, H. (1999). The analog method as a simple 

statistical downscaling technique: Comparison with more complicated 

methods. Journal of Climate, 12:2474–2489. 

Zwiers, F. W. and von Storch, H. (1990). Regime dependent autoregressive 

time series modelling of the southern oscillation. Journal of 

Climate, 3:1347–1363.

TÃ©cnicas EstadÂ´Ä±sticas y Neuronales de Agrupamiento Adaptativo ...

Create successful ePaper yourself

Delete template?

Save as template?