20.04.2015 Views

Reconocimiento de actividades en vídeo basado en ejemplos - ATVS

Reconocimiento de actividades en vídeo basado en ejemplos - ATVS

Reconocimiento de actividades en vídeo basado en ejemplos - ATVS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

UNIVERSIDAD AUTONOMA DE MADRID<br />

ESCUELA POLITECNICA SUPERIOR<br />

RECONOCIMIENTO DE ACTIVIDADES<br />

EN VIDEO BASADO EN EJEMPLOS<br />

-PROYECTO FIN DE CARRERA-<br />

Pablo Manuel Herranz Fernán<strong>de</strong>z<br />

MAYO 2010<br />

i


RECONOCIMIENTO DE ACTIVIDADES EN<br />

VIDEO BASADO EN EJEMPLOS<br />

AUTOR: Pablo Manuel Herranz Fernán<strong>de</strong>z<br />

TUTOR: Pedro Tomé González<br />

PONENTE: Javier Ortega García<br />

<strong>ATVS</strong> Grupo <strong>de</strong> <strong>Reconocimi<strong>en</strong>to</strong> Biométrico<br />

(http://atvs.ii.uam.es)<br />

Dpto. <strong>de</strong> Ing<strong>en</strong>iería Informática<br />

Escuela Politécnica Superior<br />

Universidad Autónoma <strong>de</strong> Madrid<br />

MAYO 2010<br />

iii


Resum<strong>en</strong><br />

Las aplicaciones <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> acción sobre vi<strong>de</strong>os reales requier<strong>en</strong> el<br />

<strong>de</strong>sarrollo <strong>de</strong> los sistemas que sean rápidos, que puedan manejar una gran variedad <strong>de</strong><br />

acciones sin el conocimi<strong>en</strong>to a priori <strong>de</strong>l tipo <strong>de</strong> acciones, que necesit<strong>en</strong> un número<br />

mínimo <strong>de</strong> parámetros, y que la etapa <strong>de</strong> estudio sea tan corta como fuera posible. En<br />

este trabajo seguiremos tal <strong>en</strong>foque. Consi<strong>de</strong>ramos las activida<strong>de</strong>s dinámicas como<br />

objetos <strong>de</strong> larga duración temporal, que se caracterizan por rasgos espacio-temporales<br />

<strong>en</strong> múltiples escalas temporales. Basado <strong>en</strong> esto, diseñamos una medida simple <strong>de</strong><br />

distancia estadística <strong>en</strong>tre las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que capturan las similitu<strong>de</strong>s <strong>en</strong> su<br />

cont<strong>en</strong>ido conductual. Esta medida es no paramétrica y por lo tanto pue<strong>de</strong> manejar una<br />

amplia gama <strong>de</strong> complejas acciones dinámicas. T<strong>en</strong>i<strong>en</strong>do una medida <strong>de</strong> distancia<br />

basada <strong>en</strong> el comportami<strong>en</strong>to <strong>en</strong>tre secu<strong>en</strong>cias, lo usamos para varias <strong>de</strong> tareas,<br />

incluy<strong>en</strong>do: la in<strong>de</strong>xación <strong>de</strong> ví<strong>de</strong>o, la segm<strong>en</strong>tación temporal, y clustering <strong>de</strong> ví<strong>de</strong>o<br />

<strong>basado</strong> <strong>en</strong> acciones. Estas tareas son realizadas sin el conocimi<strong>en</strong>to previo <strong>de</strong> los tipos<br />

<strong>de</strong> acciones, sus mo<strong>de</strong>los, o sus grados temporales.<br />

Palabras clave:<br />

Acción, movimi<strong>en</strong>to, distancia conductual, secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, gradi<strong>en</strong>te, segm<strong>en</strong>tación,<br />

reconocedor automático <strong>de</strong> activida<strong>de</strong>s.<br />

v


Abstract<br />

The action recognition applications on real vi<strong>de</strong>os need the <strong>de</strong>velopm<strong>en</strong>t of fast<br />

systems, which can handle a variety of actions without a previous knowledge of the type<br />

of action, requiring a minimum number of parameters, and a learning stage as short as<br />

possible. In addition, this work will continue focus on this approach. We un<strong>de</strong>rstand<br />

dynamic activities as long-term temporal objects, which are characterized by spatiotemporal<br />

features at multiple temporal scales. Based on this, we <strong>de</strong>sign a simple<br />

statistical distance measure in vi<strong>de</strong>o sequ<strong>en</strong>ces which capture the similarities in their<br />

behavioural cont<strong>en</strong>t. This measure is non-parametric and therefore, it can handle a wi<strong>de</strong><br />

range of complex dynamic actions. Having a distance measure based on behaviour<br />

sequ<strong>en</strong>ces, is useful to several task as for example: vi<strong>de</strong>o in<strong>de</strong>xing, temporal<br />

segm<strong>en</strong>tation, and action-based vi<strong>de</strong>o clustering. These tasks are performed without<br />

previous knowledge of the types of actions, their mo<strong>de</strong>ls, or their temporary <strong>de</strong>grees.<br />

Key words:<br />

Action, movem<strong>en</strong>t, behavior distance, vi<strong>de</strong>o stream, gradi<strong>en</strong>t, segm<strong>en</strong>tation, automatic<br />

activitys recognition.<br />

vi


Agra<strong>de</strong>cimi<strong>en</strong>tos<br />

Después <strong>de</strong> mucho trabajo y tiempo invertido <strong>en</strong> la realización <strong>de</strong> este proyecto, es una<br />

tarea complicada agra<strong>de</strong>cer a toda la g<strong>en</strong>te que con su pres<strong>en</strong>cia a lo largo <strong>de</strong> este<br />

periodo me ha ayudado a llegar a este punto. En primer lugar t<strong>en</strong>go que agra<strong>de</strong>cer a<br />

mi pon<strong>en</strong>te Javier Ortega su confianza al darme la oportunidad <strong>de</strong> po<strong>de</strong>r formar parte<br />

<strong>de</strong>l grupo <strong>de</strong> investigación <strong>ATVS</strong> y su apoyo recibido.<br />

Por supuesto t<strong>en</strong>go que agra<strong>de</strong>cer a Ivana Mikic por ser la persona que hizo posible<br />

que este proyecto com<strong>en</strong>zara y por todos los conocimi<strong>en</strong>tos que me transmitió que<br />

fueron fundam<strong>en</strong>tales para la finalización <strong>de</strong>l mismo. A mi tutor Pedro Tomé, que<br />

recogió el testigo <strong>de</strong> Ivana, por su gran trabajo, paci<strong>en</strong>cia y <strong>de</strong>dicación.<br />

También agra<strong>de</strong>zco a todo el profesorado <strong>de</strong> la Escuela Politécnica Superior por su<br />

<strong>en</strong>trega profesional y personal y por saber guiarnos a todos hacia lo que ahora somos.<br />

Al resto <strong>de</strong> compañeros <strong>de</strong>l <strong>ATVS</strong> por el bu<strong>en</strong> ambi<strong>en</strong>te g<strong>en</strong>erado <strong>en</strong> el grupo.<br />

T<strong>en</strong>go que agra<strong>de</strong>cer a mi familia al completo, abuelos, tíos y a mis padres Eug<strong>en</strong>ia y<br />

Manuel, por todo su cariño, apoyo, ánimo, compresión y tantas cosas que me han dado<br />

durante toda mi vida que no se pue<strong>de</strong>n <strong>de</strong>scribir con palabras.<br />

Pero todo <strong>en</strong> esta etapa universitaria no han sido estudios, sino más bi<strong>en</strong> <strong>de</strong>sarrollo<br />

personal, por eso t<strong>en</strong>go que agra<strong>de</strong>cer <strong>en</strong>ormem<strong>en</strong>te a todos mis compañeros que ha<br />

compartido este largo camino conmigo durante todos estos años, me han dado muchos<br />

mom<strong>en</strong>tos bu<strong>en</strong>os, risas, felicidad, pero sobre todo lo que más valoro es que me han<br />

dado su amistad. Gracias Gus, Kiko, Chus, Peter (los superpepos), Sergio, Vero, Ele,<br />

Moni, Esther, Sonso, Imanol, Nit, Mario, Marcos (no sé si me <strong>de</strong>jo a algui<strong>en</strong>)… espero<br />

que sigamos siempre juntos.<br />

Quiero recordad <strong>de</strong> forma especial a Guido un gran compañero y amigo que está<br />

pres<strong>en</strong>te <strong>en</strong> nuestros corazones. Siempre te echaremos <strong>de</strong> m<strong>en</strong>os.<br />

Por último quiero agra<strong>de</strong>cer <strong>de</strong> todo corazón a mis amigos <strong>de</strong> siempre, con los que he<br />

compartido ya tantos años y experi<strong>en</strong>cias que han llegado a convertirse <strong>en</strong> parte<br />

fundam<strong>en</strong>tal <strong>en</strong> mi vida, los mom<strong>en</strong>tos con vosotros siempre han sido y serán<br />

importantes parara mí. Gracias por estar ahí Valle Nacho, Nico, Ángela, Gonzalo,<br />

Javi, y también El<strong>en</strong>a, María, Carlos… Gracias por todo.<br />

A todos muchas gracias.<br />

vii


viii


Índice <strong>de</strong> cont<strong>en</strong>idos:<br />

1. INTRODUCCIÓN ...................................................................................................... 1<br />

1.1. Motivación ....................................................................................................................................... 1<br />

1.2. Objetivos .......................................................................................................................................... 2<br />

1.3. Organización <strong>de</strong> la memoria .......................................................................................................... 3<br />

2. FUNDAMENTOS DE LA BIOMETRÍA ................................................................. 5<br />

2.1. Introducción a la biometría ............................................................................................................ 5<br />

2.1.1. Rasgos biométricos .................................................................................................................... 5<br />

2.1.2. Aplicaciones <strong>de</strong> los sistemas biométricos .................................................................................. 8<br />

2.1.3. Problemas y limitaciones <strong>de</strong> los sistemas biométricos .............................................................. 8<br />

2.1.4. Aceptación <strong>en</strong> la sociedad ......................................................................................................... 9<br />

2.2. Sistemas automáticos <strong>de</strong> <strong>Reconocimi<strong>en</strong>to</strong> ................................................................................... 10<br />

2.2.1. Estructura ................................................................................................................................ 10<br />

2.2.2. Modos <strong>de</strong> operación ................................................................................................................ 12<br />

2.2.3. Evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to ..................................................................................................... 13<br />

2.2.4. Sistemas multibiométricos ....................................................................................................... 14<br />

3. ESTADO DEL ARTE .............................................................................................. 15<br />

3.1. Teoría <strong>de</strong> imág<strong>en</strong>es ....................................................................................................................... 15<br />

3.1.1. Definición <strong>de</strong> pixel ................................................................................................................... 15<br />

3.1.2. Mo<strong>de</strong>los <strong>de</strong> color <strong>de</strong> un pixel ................................................................................................... 16<br />

3.1.3. Resolución <strong>de</strong> imág<strong>en</strong>es .......................................................................................................... 18<br />

3.2. Teoría <strong>de</strong>l vi<strong>de</strong>o ............................................................................................................................. 19<br />

3.2.1. Los estándares <strong>de</strong> ví<strong>de</strong>o analógico .......................................................................................... 20<br />

3.2.2. El paso a ví<strong>de</strong>o digital ............................................................................................................. 21<br />

ix


3.2.3. Usos <strong>de</strong>l ví<strong>de</strong>o digital .............................................................................................................. 22<br />

3.2.4. Co<strong>de</strong>cs y métodos <strong>de</strong> compresión ............................................................................................ 22<br />

3.3. Detección <strong>de</strong> objetos <strong>en</strong> primer plano ......................................................................................... 24<br />

3.3.1. Mo<strong>de</strong>lado <strong>de</strong>l fondo ................................................................................................................. 26<br />

3.3.2. Detección <strong>de</strong> fr<strong>en</strong>te .................................................................................................................. 29<br />

3.3.3. Seguimi<strong>en</strong>to <strong>de</strong> objetos ............................................................................................................ 31<br />

3.4. Detección y reconocimi<strong>en</strong>to <strong>de</strong> acciones ...................................................................................... 32<br />

3.4.1. “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human Action Classification” ........... 33<br />

3.4.2. “Unsupervised Learning of Human Action Categories Using Spatial-TemporalWords” ...... 35<br />

3.4.3. “Actions in Context” ............................................................................................................... 39<br />

3.4.4. Otros métodos <strong>de</strong> clasificación <strong>de</strong> la acción humana ............................................................. 42<br />

4. DISEÑO ..................................................................................................................... 45<br />

4.1. Introducción .................................................................................................................................. 45<br />

4.1.1. Definición <strong>de</strong> acción ................................................................................................................ 46<br />

4.2. Software utilizado ......................................................................................................................... 47<br />

4.2.1. MATLAB .................................................................................................................................. 48<br />

4.2.2. Op<strong>en</strong>CV ................................................................................................................................... 48<br />

4.3. Estructura g<strong>en</strong>eral ........................................................................................................................ 49<br />

4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ............................................................................................ 50<br />

4.3.2. Extracción <strong>de</strong> características .................................................................................................. 51<br />

4.3.3. Comparador y <strong>de</strong>cisor ............................................................................................................ 52<br />

5. DESARROLLO ........................................................................................................ 55<br />

5.1. Introducción .................................................................................................................................. 55<br />

5.2. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ................................................................................................. 56<br />

5.2.1. Captura <strong>de</strong> los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ........................................................................ 56<br />

5.2.2 Segm<strong>en</strong>tación para la substracción <strong>de</strong>l fondo .......................................................................... 57<br />

5.2.3. Creación <strong>de</strong> la pirámi<strong>de</strong> temporal ........................................................................................... 58<br />

x


5.3. Extracción <strong>de</strong> características ....................................................................................................... 59<br />

5.3.1. Cálculo <strong>de</strong> los gradi<strong>en</strong>tes ........................................................................................................ 59<br />

5.3.2. Segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te .............................................................................. 62<br />

5.3.3. Cálculo <strong>de</strong> los histogramas ..................................................................................................... 65<br />

5.4. Comparación y <strong>de</strong>cisión................................................................................................................ 68<br />

5.4.1. Comparación ........................................................................................................................... 68<br />

5.4.2. Decisión ................................................................................................................................... 69<br />

6. EXPERIMENTOS Y RESULTADOS .................................................................... 71<br />

6.1. Modo <strong>de</strong> evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to ........................................................................................... 71<br />

6.1.1. Métodos <strong>de</strong> evaluación <strong>de</strong> sistemas ......................................................................................... 71<br />

6.1.2. Establecimi<strong>en</strong>to <strong>de</strong>l umbral ..................................................................................................... 74<br />

6.2. Resultados ...................................................................................................................................... 74<br />

6.2.1. Experim<strong>en</strong>to A: condiciones idénticas ..................................................................................... 75<br />

6.2.2. Experim<strong>en</strong>to B: condiciones no idénticas ................................................................................ 78<br />

6.2.2. Experim<strong>en</strong>to C: condiciones in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes ........................................................................... 85<br />

6.3. EVALUACIÓN DE ROBUSTEZ ................................................................................................ 88<br />

6.3.1. Cambio <strong>de</strong> la Longitud <strong>de</strong> V<strong>en</strong>tana Temporal ......................................................................... 88<br />

6.3.2. Fondo multimodal ................................................................................................................... 89<br />

6.3.3. Cambios <strong>en</strong> la vestim<strong>en</strong>ta ........................................................................................................ 90<br />

6.3.4. Variación <strong>de</strong> las escalas temporales ....................................................................................... 91<br />

6.3.5. Variación <strong>de</strong> las escalas espaciales ........................................................................................ 91<br />

6.3.6. Cambios <strong>en</strong> la dirección <strong>de</strong> visión ........................................................................................... 93<br />

7. CONCLUSIONES Y TRABAJO FUTURO .......................................................... 97<br />

REFERENCIAS ......................................................................................................... 101<br />

ANEXOS ..................................................................................................................... 107<br />

A. Manual <strong>de</strong>l programador ............................................................................................................. 107<br />

xi


B. Conjunto <strong>de</strong> ví<strong>de</strong>os ........................................................................................................................ 112<br />

Presupuesto: ....................................................................................................................................... 115<br />

xii


Índice <strong>de</strong> ilustraciones:<br />

Figura 2.1: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> reconocimi<strong>en</strong>to<br />

biométrico. ......................................................................................................... 10<br />

Figura 2.2: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo registro. ........................................... 12<br />

Figura 2.3: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo verificación. .................................... 13<br />

Figura 2.4: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación. ................................. 13<br />

Figura 3.1: Ampliación <strong>de</strong> un sector <strong>de</strong> la imag<strong>en</strong>. ........................................................ 15<br />

Figura 3.2: Composición <strong>de</strong> una imag<strong>en</strong> <strong>en</strong> RGB. ......................................................... 16<br />

Figura 3.3 Mezcla aditiva <strong>de</strong> colores <strong>de</strong>l RGB y el mo<strong>de</strong>lo sustractivo <strong>de</strong>l CMYK...... 17<br />

Figura 3.4: De izquierda a <strong>de</strong>recha, imag<strong>en</strong> con sus compon<strong>en</strong>tes Y, I y Q. ................. 18<br />

Figura 3.5: De izquierda a <strong>de</strong>recha, aum<strong>en</strong>to <strong>de</strong> la resolución <strong>de</strong> una imag<strong>en</strong>. ............. 19<br />

Figura 3.6: Diagrama <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong>tector <strong>de</strong> primer plano<br />

g<strong>en</strong>érico. ............................................................................................................ 26<br />

Figura 3.7: Muestra la <strong>de</strong>tección <strong>de</strong> los puntos <strong>de</strong> interés usando el método <strong>de</strong><br />

filtro lineal separable. ........................................................................................ 37<br />

Figura 3.8: Ilustración sobre la concurr<strong>en</strong>cia <strong>en</strong>tre las clases <strong>de</strong> esc<strong>en</strong>a y las<br />

acciones. ............................................................................................................ 40<br />

Figura 4.1: Esquema g<strong>en</strong>eral <strong>de</strong>l algoritmo. ................................................................... 49<br />

Figura 4.2: Esquema <strong>de</strong> la fase captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. ................................. 50<br />

Figura 4.3: Esquema <strong>de</strong> la fase extracción <strong>de</strong> características. ........................................ 52<br />

Figura 5.2: Ejemplo <strong>de</strong> la información que obt<strong>en</strong>emos <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />

que introducimos <strong>en</strong> el sistema. En este ejemplo se muestra <strong>en</strong> los dos<br />

primeros bloques la información <strong>de</strong> dos secu<strong>en</strong>cias que conti<strong>en</strong><strong>en</strong><br />

movimi<strong>en</strong>tos ejemplo y <strong>en</strong> el tercer bloque la información <strong>de</strong> la secu<strong>en</strong>cia<br />

que queremos analizar. ...................................................................................... 56<br />

Figura 5.3: Tres <strong>ejemplos</strong> <strong>de</strong> substracción <strong>de</strong> fondo <strong>en</strong> tres secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />

difer<strong>en</strong>tes <strong>en</strong> las que trabajamos con distintos <strong>en</strong>tornos. .................................. 58<br />

Figura 5.4: Esquema <strong>de</strong> la pirámi<strong>de</strong> temporal que vamos a utilizar durante el<br />

algoritmo. .......................................................................................................... 59<br />

Figura 5.5: Filtros <strong>de</strong> Sobel. ........................................................................................... 60<br />

xiii


Figura 5.6: Volum<strong>en</strong> espacio-temporal S correspondi<strong>en</strong>te a una persona<br />

caminando. El gradi<strong>en</strong>te espacio-temporal (S x , S y , S t )se estima <strong>en</strong> cada<br />

punto espacio-temporal (x, y, t). ....................................................................... 61<br />

Figura 5.7: En (a), (b) y (c) muestran <strong>ejemplos</strong> <strong>de</strong> un frame <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje<br />

‘x’, cada imag<strong>en</strong> correspon<strong>de</strong> a un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la<br />

acción <strong>de</strong> caminar. En (d), (e) y (f) se muestra el mismo ejemplo pero <strong>de</strong>l<br />

gradi<strong>en</strong>te <strong>en</strong> el eje ’y’. Por último (g), (h) y (i) muestran el mismo<br />

ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje <strong>de</strong>l tiempo. ............................................... 61<br />

Figura 5.8: En (a) y (b) se muestra un ejemplo <strong>de</strong> una persona corri<strong>en</strong>do y su<br />

respectivo resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. En (c) y (d) se muestra un<br />

ejemplo <strong>en</strong> el que aparec<strong>en</strong> dos personas simultáneam<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia<br />

una caminando y otra gateando y el correspondi<strong>en</strong>te resultado <strong>de</strong> la<br />

<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. ........................................................................................... 63<br />

Figura 5.9: Se muestra un ejemplo <strong>de</strong> cómo se consigue in<strong>de</strong>p<strong>en</strong>dizar cada acción<br />

<strong>de</strong> la esc<strong>en</strong>a acotando las zonas don<strong>de</strong> se produce el movimi<strong>en</strong>to<br />

mediante estos rectángulos. ............................................................................... 64<br />

Figura 5.10: Diagrama <strong>de</strong> flujo que nos <strong>en</strong>seña cómo obt<strong>en</strong>emos la posición <strong>de</strong> los<br />

pixeles que nos interesan para una secu<strong>en</strong>cia <strong>en</strong> la que aparece una<br />

persona caminando.(a)Frame sobre el que estamos trabajando. (b)<br />

Resultado <strong>de</strong> calcular el gradi<strong>en</strong>te temporal sobre el frame inicial. .................. 66<br />

(c)Resultado <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong>l frame inicial. (d) Obt<strong>en</strong>ción <strong>de</strong> los pixiles<br />

útiles. ................................................................................................................. 66<br />

Figura 5.11: Histogramas <strong>en</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes ‘x’, ‘y’ y ‘t’ <strong>de</strong>l primer<br />

nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para un ejemplo <strong>de</strong> la acción <strong>de</strong>l tipo correr. .... 67<br />

Figura 5.12: Comparativa <strong>de</strong> los histogramas <strong>de</strong> 4 acciones distintas, que son<br />

correr, caminar, agitar los brazos y rodar. (a)h 1 x, (b)h 1 y, (c)h 1 t, (d)h 2 x,<br />

(e)h 2 y y (f)h 2 t. ..................................................................................................... 68<br />

Figura 5.13: Ejemplo <strong>de</strong> un frame <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o analizada por el<br />

sistema para el caso <strong>en</strong> el que la acción mo<strong>de</strong>lo es caminar. ............................ 69<br />

Figura 6.1: Ejemplos <strong>de</strong> FAR y FRR. ............................................................................ 72<br />

Figura 6.2: Ejemplo <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s y distribuciones <strong>de</strong> probabilidad <strong>de</strong> acciones<br />

correctas e incorrectas. ...................................................................................... 73<br />

Figura 6.3: Ejemplo <strong>de</strong> curva DET ................................................................................. 73<br />

Figura 6.4: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral<br />

fr<strong>en</strong>te a la actividad ejemplo caminar. ............................................................. 76<br />

Figura 6.5: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones ) caminar, b) correr y c) paso lateral<br />

fr<strong>en</strong>te a la actividad ejemplo correr. ................................................................ 76<br />

xiv


Figura 6.6: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral<br />

y d) gatear fr<strong>en</strong>te a la actividad ejemplo caminar. ........................................... 79<br />

Figura 6.7: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral<br />

y d) gatear fr<strong>en</strong>te a la actividad ejemplo correr. .............................................. 79<br />

Figura 6.8: Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones caminar y correr con respecto a las<br />

actividad ejemplo caminar y correr. .................................................................. 82<br />

Figura 6.9: Imag<strong>en</strong> <strong>de</strong>l fondo <strong>en</strong> el que están <strong>de</strong>stacadas distintas zonas afectan <strong>de</strong><br />

forma distinta al resultado. ................................ ¡Error! Marcador no <strong>de</strong>finido.<br />

Figura 6.10: (a), (b) y (c) Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las<br />

medidas <strong>de</strong> distancia conductual <strong>de</strong> las acciones que <strong>en</strong>contramos <strong>en</strong><br />

distintas secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o con respecto a difer<strong>en</strong>tes activida<strong>de</strong>s<br />

ejemplo. ............................................................................................................. 84<br />

Figura 6.12: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear<br />

fr<strong>en</strong>te a la actividad ejemplo correr. ................................................................ 86<br />

Figura 6.13: Ejemplo <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones con una secu<strong>en</strong>cia con<br />

fondo multimodal. ............................................................................................. 90<br />

Figura 6.14: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />

persona caminando y corri<strong>en</strong>do, con ropa <strong>de</strong> un color homogéneo, y una<br />

persona caminando con una pr<strong>en</strong>da <strong>de</strong> vestir a rayas fr<strong>en</strong>te a la actividad<br />

ejemplo caminar. ............................................................................................... 90<br />

Figura 6.15: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />

persona caminando a distintas distancias con respecto a la cámara fr<strong>en</strong>te a<br />

la actividad ejemplo caminar. ............................................................................ 92<br />

Figura 6.16: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />

persona caminando con difer<strong>en</strong>tes direcciones <strong>de</strong> movimi<strong>en</strong>to con<br />

respecto a la cámara fr<strong>en</strong>te a la actividad ejemplo caminar. ............................. 93<br />

Figura 6.17: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />

persona caminando, <strong>en</strong> un primer mom<strong>en</strong>to paralelo a la cámara y<br />

seguidam<strong>en</strong>te cambiando su dirección <strong>de</strong> movimi<strong>en</strong>to 90º, com<strong>en</strong>zando<br />

así a caminar perp<strong>en</strong>dicular a la cámara fr<strong>en</strong>te a la actividad ejemplo<br />

caminar. ............................................................................................................. 94<br />

xv


Índice <strong>de</strong> Tablas:<br />

Tabla 6.1: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar,<br />

correr y pasos laterales con respecto <strong>de</strong> la actividad ejemplo caminar. ........... 77<br />

Tabla 6.2: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar,<br />

correr y pasos laterales con respecto <strong>de</strong> la actividad ejemplo correr. .............. 77<br />

Tabla 6.3: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar,<br />

correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />

caminar. ............................................................................................................ 80<br />

Tabla 6.4: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar,<br />

correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />

correr. ............................................................................................................... 80<br />

Tabla 6.5: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar,<br />

correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />

caminar. ............................................................................................................ 87<br />

Tabla 6.6: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar,<br />

correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />

correr. ............................................................................................................... 87<br />

xvi


xvii


xviii


1. Introducción<br />

1. Introducción<br />

1.1. Motivación<br />

Un ser humano cuando observa una <strong>de</strong>terminada imag<strong>en</strong> o un ví<strong>de</strong>o ti<strong>en</strong>e la capacidad<br />

<strong>de</strong> reconocer <strong>de</strong> manera s<strong>en</strong>cilla e inmediata las distintas activida<strong>de</strong>s que se <strong>de</strong>sarrollan<br />

<strong>en</strong> la esc<strong>en</strong>a, pero este reconocimi<strong>en</strong>to que resulta fácil <strong>de</strong> realizar para un humano es<br />

un gran <strong>de</strong>safío para los sistemas <strong>en</strong>cargados <strong>de</strong>l procesami<strong>en</strong>to <strong>de</strong> imág<strong>en</strong>es y ví<strong>de</strong>o. El<br />

reconocimi<strong>en</strong>to automático <strong>de</strong> las activida<strong>de</strong>s dinámicas es necesario <strong>en</strong> varios sistemas<br />

<strong>de</strong> análisis <strong>de</strong> vi<strong>de</strong>o, como por ejemplo sistemas <strong>de</strong> seguridad, espacios intelig<strong>en</strong>tes,<br />

vi<strong>de</strong>o in<strong>de</strong>xado <strong>basado</strong> <strong>en</strong> acciones, browsing, clustering y segm<strong>en</strong>tación.<br />

Hasta ahora muchos <strong>de</strong> los trabajos anteriores se c<strong>en</strong>tran <strong>en</strong> reconocer una serie <strong>de</strong><br />

acciones pre<strong>de</strong>finidas. Estos métodos propon<strong>en</strong> aproximaciones para capturar las<br />

características importantes <strong>de</strong> las acciones mediante mo<strong>de</strong>los paramétricos<br />

especializados, que por lo g<strong>en</strong>eral, dan lugar al reconocimi<strong>en</strong>to <strong>de</strong> alta calidad <strong>de</strong> las<br />

acciones estudiadas. Su construcción, g<strong>en</strong>eralm<strong>en</strong>te requiere una fase <strong>de</strong> apr<strong>en</strong>dizaje<br />

muy amplia, don<strong>de</strong> se proporcionan muchos <strong>ejemplos</strong> <strong>de</strong> la acción estudiada. Sin<br />

embrago, cuando tratamos con aplicaciones <strong>de</strong>l mundo real a m<strong>en</strong>udo este tipo <strong>de</strong><br />

sistemas pres<strong>en</strong>tan gran<strong>de</strong>s problemas, ya que es improbable que se restrinjan para el<br />

reconocimi<strong>en</strong>to <strong>de</strong> acciones mo<strong>de</strong>lo cuidadosam<strong>en</strong>te estudiadas. Esto se <strong>de</strong>be a que<br />

cuando tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o no hay ningún conocimi<strong>en</strong>to previo sobre<br />

los tipos <strong>de</strong> acciones <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su<br />

naturaleza (periódica / no periódica).<br />

Por este motivo, este trabajo no sólo se restringe al reconocimi<strong>en</strong>to <strong>de</strong> las acciones<br />

cuidadosam<strong>en</strong>te estudiadas, sino que tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> los que a<br />

m<strong>en</strong>udo no hay ningún conocimi<strong>en</strong>to previo sobre los tipos <strong>de</strong> acciones <strong>en</strong> la secu<strong>en</strong>cia<br />

<strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su naturaleza (periódica/no periódica). En este<br />

proyecto pres<strong>en</strong>taremos un reconocedor <strong>de</strong> activida<strong>de</strong>s, para datos <strong>de</strong> ví<strong>de</strong>o g<strong>en</strong>erales,<br />

utilizando una simple medida <strong>de</strong> distancia conductual <strong>en</strong>tre la acciones que aparec<strong>en</strong> <strong>en</strong><br />

una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o y las activida<strong>de</strong>s ejemplo introducidas <strong>en</strong> una etapa breve <strong>de</strong><br />

estudio previo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 1


1. Introducción<br />

1.2. Objetivos<br />

El principal objetivo <strong>en</strong> este proyecto es conseguir un sistema reconocedor <strong>de</strong> acciones<br />

humanas <strong>en</strong> ví<strong>de</strong>o sin t<strong>en</strong>er conocimi<strong>en</strong>to a priori <strong>de</strong>l tipo <strong>de</strong> activida<strong>de</strong>s que aparec<strong>en</strong><br />

<strong>en</strong> la secu<strong>en</strong>cia, basándose únicam<strong>en</strong>te <strong>en</strong> los datos <strong>de</strong> un conjunto <strong>de</strong> <strong>ejemplos</strong> <strong>de</strong><br />

movimi<strong>en</strong>tos guardados <strong>en</strong> una fase <strong>de</strong> estudio previa <strong>en</strong> nuestra base <strong>de</strong> datos. El<br />

diseño <strong>de</strong>l algoritmo permite a la computadora, <strong>en</strong> una primera etapa, apr<strong>en</strong><strong>de</strong>r <strong>de</strong> forma<br />

s<strong>en</strong>cilla y breve mo<strong>de</strong>los <strong>de</strong> acciones humanas, y más a<strong>de</strong>lante dado un nuevo ví<strong>de</strong>o, el<br />

algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te<br />

están o no pres<strong>en</strong>tes <strong>en</strong> la secu<strong>en</strong>cia.<br />

Esto se consigue mediante una medida <strong>de</strong> distancia estadística <strong>en</strong>tre las activida<strong>de</strong>s que<br />

surg<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que está basada sólo <strong>en</strong> el comportami<strong>en</strong>to. Es <strong>de</strong>cir<br />

conserva las variaciones temporales, mi<strong>en</strong>tras es ins<strong>en</strong>sible a cambios <strong>de</strong> aspecto como<br />

la variación <strong>de</strong> la ropa, condiciones <strong>de</strong> iluminación, etc. Esta medida es no paramétrica<br />

pudi<strong>en</strong>do manejar así una amplia gama <strong>de</strong> comportami<strong>en</strong>tos dinámicos, permitiéndonos<br />

así el análisis g<strong>en</strong>eral <strong>de</strong> información <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e tipos <strong>de</strong> acción<br />

<strong>de</strong>sconocidos.<br />

Un uso <strong>de</strong>seado, podría ser <strong>de</strong>tección <strong>de</strong> activida<strong>de</strong>s inusuales <strong>en</strong> un vi<strong>de</strong>o <strong>de</strong> seguridad<br />

<strong>en</strong> un lugar público, como podría ser un aeropuerto. Otro uso podría ser para el usuario<br />

que ve una película, indicar un punto interesante <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e una acción <strong>de</strong><br />

interés, requiri<strong>en</strong>do posteriorm<strong>en</strong>te al sistema avanzar rápido al sigui<strong>en</strong>te fragm<strong>en</strong>to <strong>en</strong><br />

el que ocurran acciones similares. Otra aplicación <strong>de</strong>seada es la segm<strong>en</strong>tación temporal<br />

basada <strong>en</strong> comportami<strong>en</strong>tos <strong>de</strong> secu<strong>en</strong>cias largas <strong>de</strong> ví<strong>de</strong>o. Dada una secu<strong>en</strong>cia larga <strong>de</strong><br />

vi<strong>de</strong>o que conti<strong>en</strong>e variedad <strong>de</strong> acciones nos interesaría <strong>de</strong>tectar los puntos <strong>de</strong> comi<strong>en</strong>zo<br />

y final <strong>de</strong> las acciones, sin requerir cualquier conocimi<strong>en</strong>to previo <strong>de</strong> los tipos <strong>de</strong><br />

acciones o sus grados temporales.<br />

Los objetivos principales serán:<br />

1. <strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

Dado un ejemplo <strong>de</strong> un fragm<strong>en</strong>to simple <strong>de</strong> una acción <strong>de</strong> interés y un amplio conjunto<br />

<strong>de</strong> secu<strong>en</strong>cias, <strong>de</strong>seamos <strong>de</strong>tectar acciones similares a la acción ejemplo, no t<strong>en</strong>i<strong>en</strong>do<br />

información previa <strong>en</strong> el cont<strong>en</strong>ido <strong>de</strong>l conjunto <strong>de</strong> ví<strong>de</strong>os. Esto es logrado mediante<br />

comparación <strong>de</strong> acciones <strong>de</strong> interés contra todas las subsecu<strong>en</strong>cias <strong>de</strong> un vi<strong>de</strong>o, con la<br />

misma longitud temporal que el fragm<strong>en</strong>to <strong>de</strong> ejemplo (similar a la acción <strong>de</strong><br />

<strong>de</strong>tección). Las subsecu<strong>en</strong>cias con una pequeña distancia a la dada <strong>en</strong> el fragm<strong>en</strong>to<br />

ejemplo son <strong>de</strong>tectadas como una repres<strong>en</strong>tación <strong>de</strong> la misma acción. Cuando una<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 2


1. Introducción<br />

acción se repite múltiples veces <strong>en</strong> subsecu<strong>en</strong>cias consecutivas será <strong>de</strong>tectada como la<br />

misma acción, así el resultado final <strong>de</strong> la <strong>de</strong>tección, pue<strong>de</strong> incluir segm<strong>en</strong>tos <strong>de</strong> vi<strong>de</strong>o <strong>de</strong><br />

varias longitu<strong>de</strong>s.<br />

2. <strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s inusuales<br />

Dado <strong>ejemplos</strong> <strong>de</strong> activida<strong>de</strong>s conocidas, <strong>de</strong>seamos <strong>de</strong>tectar acciones sufici<strong>en</strong>tem<strong>en</strong>te<br />

difer<strong>en</strong>tes. La medida que planeamos diseñar <strong>de</strong>be ser capaz <strong>de</strong> distinguir <strong>en</strong>tre las<br />

activida<strong>de</strong>s que son sufici<strong>en</strong>tem<strong>en</strong>te difer<strong>en</strong>tes y, por tanto, nos permite diseñar un<br />

algoritmo para <strong>de</strong>tectar activida<strong>de</strong>s difer<strong>en</strong>tes <strong>de</strong>l conjunto <strong>de</strong> las activida<strong>de</strong>s<br />

pres<strong>en</strong>tadas conocidas por el sistema.<br />

1.3. Organización <strong>de</strong> la memoria<br />

La memoria consta <strong>de</strong> los sigui<strong>en</strong>tes capítulos:<br />

• Capítulo 1. Introducción: Introducción, objetivos y motivación <strong>de</strong>l proyecto.<br />

• Capítulo 2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría: Se introducirán los conceptos<br />

básicos <strong>de</strong> la biometría, haci<strong>en</strong>do refer<strong>en</strong>cia a los rasgos biométricos, a la<br />

estructura g<strong>en</strong>eral <strong>de</strong> los sistemas, a los modos <strong>de</strong> operación <strong>de</strong> los sistemas<br />

biométricos, etc.<br />

• Capítulo 3. Estado <strong>de</strong>l arte <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones: Se introducirán<br />

conceptos pert<strong>en</strong>eci<strong>en</strong>tes a la teoría <strong>de</strong> imag<strong>en</strong> y <strong>de</strong> ví<strong>de</strong>o, una visión <strong>de</strong> los<br />

distintos <strong>en</strong>foques <strong>en</strong> reconocimi<strong>en</strong>to movimi<strong>en</strong>to. Posteriorm<strong>en</strong>te se hace un<br />

estudio <strong>de</strong> distintos sistemas <strong>de</strong> reconocimi<strong>en</strong>to exist<strong>en</strong>tes.<br />

• Capítulo 4. Diseño <strong>de</strong>l proyecto: Se <strong>de</strong>scribirán los medios disponibles para el<br />

<strong>de</strong>sarrollo, el sistema g<strong>en</strong>eral y las distintas fases que lo compon<strong>en</strong>.<br />

• Capítulo 5. Desarrollo <strong>de</strong>l proyecto: Se <strong>de</strong>scribirá el procedimi<strong>en</strong>to seguido<br />

para la implem<strong>en</strong>tación <strong>de</strong>l sistema y el funcionami<strong>en</strong>to <strong>de</strong> cada uno <strong>de</strong> los<br />

compon<strong>en</strong>tes <strong>de</strong>sarrollados.<br />

• Capítulo 6. Experim<strong>en</strong>tos y resultado: Se pres<strong>en</strong>taran los datos obt<strong>en</strong>idos tras<br />

la evaluación <strong>de</strong>l sistema y se analizaran los resultados conseguidos.<br />

• Capítulo 7. Conclusiones y trabajo futuro.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 3


1. Introducción<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 4


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

2. Fundam<strong>en</strong>tos <strong>de</strong> la<br />

biometría<br />

2.1. Introducción a la biometría<br />

Exist<strong>en</strong> tres gran<strong>de</strong>s modalida<strong>de</strong>s <strong>de</strong> reconocimi<strong>en</strong>to: <strong>basado</strong> <strong>en</strong> algo que el individuo<br />

sabe (p.e. una contraseña), <strong>en</strong> algo que ti<strong>en</strong>e (p.e una llave) o <strong>en</strong> algo que es (p.e su<br />

cara). El reconocimi<strong>en</strong>to biométrico se correspon<strong>de</strong> a este último grupo.<br />

El término biometría vi<strong>en</strong>e <strong>de</strong>l griego “bio” que significa vida y “metría” que significa<br />

medida o medición. La biometría es el conjunto <strong>de</strong> métodos automatizados que analizan<br />

<strong>de</strong>terminadas características humanas para i<strong>de</strong>ntificar o aut<strong>en</strong>tificar personas.<br />

En los distintitos sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométrico se utilizan difer<strong>en</strong>tes rasgos<br />

para conseguir llegar a la i<strong>de</strong>ntificación y aut<strong>en</strong>tificación <strong>de</strong>l individuo. Todos estos<br />

rasgos ti<strong>en</strong><strong>en</strong> que cumplir <strong>en</strong> mayor o m<strong>en</strong>or medida estas características:<br />

• Universalidad.<br />

• Unicidad.<br />

• Perman<strong>en</strong>cia o estabilidad.<br />

• M<strong>en</strong>surabilidad o evaluabilidad.<br />

• Aceptabilidad.<br />

• R<strong>en</strong>dimi<strong>en</strong>to.<br />

• Evitabilidad o frau<strong>de</strong>.<br />

2.1.1. Rasgos biométricos<br />

Desafortunadam<strong>en</strong>te no hay ningún rasgo biométrico que cumpla todas las<br />

características anteriores con total satisfacción. Por lo tanto la elección <strong>de</strong>l rasgo que se<br />

utilizara para cada aplicación <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> las características <strong>de</strong>l mismo y <strong>de</strong> los<br />

requisitos <strong>de</strong> la aplicación. Los rasgos biométricos con los que se trabaja son los<br />

sigui<strong>en</strong>tes.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 5


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

ADN: El ADN ti<strong>en</strong>e como factor positivo que es único para cada individuo. En<br />

cambio, como factores negativos se pue<strong>de</strong> <strong>de</strong>stacar que es un rasgo biométrico<br />

fácil <strong>de</strong> robar, el proceso <strong>de</strong> reconocimi<strong>en</strong>to es l<strong>en</strong>to y es necesario que sea<br />

asistido por un persona y a<strong>de</strong>más el ADN pue<strong>de</strong> revelar características <strong>de</strong>l<br />

individuo que no quiere hacer públicas.<br />

Oreja: Para este tipo <strong>de</strong> reconocimi<strong>en</strong>to se emplea la forma <strong>de</strong>l bor<strong>de</strong> y <strong>de</strong> las<br />

estructuras gelatinosas que la compon<strong>en</strong>.<br />

Cara: Es el rasgo biométrico que más comúnm<strong>en</strong>te se utiliza para el<br />

reconocimi<strong>en</strong>to humano <strong>en</strong>tre individuos junto con la voz. Como aspectos<br />

positivos se pue<strong>de</strong> <strong>de</strong>cir que es un rasgo muy aceptado y se adquiere mediante<br />

un método no invasivo. Por otro lado se pue<strong>de</strong> <strong>en</strong>gañar al sistema mediante el<br />

uso <strong>de</strong> mascaras, luego el sistema <strong>de</strong>bería estar preparado para posibles cambios<br />

<strong>de</strong>bidos a la edad, iluminación, expresión, etc.<br />

Termogramas: El calor que radia cada individuo es característico. Este rasgo se<br />

captura <strong>de</strong> forma no intrusiva mediante cámaras <strong>de</strong> infrarrojos. Las <strong>de</strong>sv<strong>en</strong>tajas<br />

son el coste <strong>de</strong> los s<strong>en</strong>sores y la vulnerabilidad fr<strong>en</strong>te a fu<strong>en</strong>tes <strong>de</strong> calor no<br />

controlables.<br />

V<strong>en</strong>as <strong>de</strong> la mano: La i<strong>de</strong>ntificación mediante las v<strong>en</strong>as <strong>de</strong> la mano es muy<br />

segura y difícilm<strong>en</strong>te falsificable <strong>de</strong>bido a las múltiples características que los<br />

difer<strong>en</strong>cian, por ello está modalidad biométrica es consi<strong>de</strong>rada más segura que<br />

otras.<br />

Huellas dactilares: La i<strong>de</strong>ntificación mediante huella dactilar se lleva utilizando<br />

muchos siglos. Una huella es única para cada individuo y <strong>de</strong>ntro <strong>de</strong> cada<br />

individuo para cada <strong>de</strong>do. Actualm<strong>en</strong>te la exactitud <strong>de</strong> estos sistemas es muy<br />

elevada y están muy ext<strong>en</strong>didos.<br />

Forma <strong>de</strong> caminar: Este es un rasgo biométrico complejo a nivel espaciotemporal.<br />

No es muy distintivo, pero pue<strong>de</strong> ser sufici<strong>en</strong>tem<strong>en</strong>te discriminatorio<br />

si por ejemplo los usuarios están obligados a pasar por un mismo sitio. Pert<strong>en</strong>ece<br />

a los rasgos biométricos <strong>de</strong> comportami<strong>en</strong>to y varía a lo largo <strong>de</strong>l tiempo, pero<br />

se adquiere <strong>de</strong> forma no invasiva con una cámara.<br />

Geometría <strong>de</strong> la mano: Este rasgo no es muy distintivo y está sujeto a cambios a<br />

lo largo <strong>de</strong> la vida. Se basa <strong>en</strong> un conjunto <strong>de</strong> medidas significativas como la<br />

forma <strong>de</strong> la mano, el tamaño <strong>de</strong> la palma, la longitud y el ancho <strong>de</strong> los <strong>de</strong>dos.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 6


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

Iris: Es un rasgo altam<strong>en</strong>te discriminatorio y único para cada uno <strong>de</strong> los ojos <strong>de</strong>l<br />

individuo. En la antigüedad <strong>de</strong> una gran participación por parte <strong>de</strong>l usuario <strong>en</strong> el<br />

proceso <strong>de</strong> captura, pero hoy <strong>en</strong> día es posible su captura <strong>de</strong> manera poco<br />

invasiva. Debido a la complejidad <strong>de</strong> los sistemas la tecnología sigue si<strong>en</strong>do<br />

clara.<br />

Huella palmar: Es un rasgo similar a la huella dactilar, pero con mayor<br />

información, ya que posee mayor área, luego es por esto que se consi<strong>de</strong>ra más<br />

distintivo.<br />

Olor: Una parte <strong>de</strong>l olor que emit<strong>en</strong> los humanos es distintivo, el olor pue<strong>de</strong> ser<br />

capturado por s<strong>en</strong>sores químicos, pero es complicado separarlo <strong>de</strong> sustancias<br />

artificiales.<br />

Escáner <strong>de</strong> retina: La estructura vascular <strong>de</strong> la retina es distinta para cada ojo y<br />

para cada individuo. Debido a la complejidad <strong>de</strong> su captura es un rasgo<br />

difícilm<strong>en</strong>te falsificable.<br />

Firma: La firma es característica <strong>de</strong> cada persona. Este método se usa<br />

habitualm<strong>en</strong>te <strong>en</strong> multitud <strong>de</strong> transacciones como sistema <strong>de</strong> aut<strong>en</strong>tificación. La<br />

firma ti<strong>en</strong>e una amplia variabilidad a lo largo <strong>de</strong>l tiempo y también con aspectos<br />

físicos y emocionales <strong>de</strong>l individuo.<br />

Voz: La voz es una combinación <strong>de</strong> características físicas y <strong>de</strong> conducta, las<br />

físicas no varían a lo largo <strong>de</strong>l tiempo, pero las <strong>de</strong> conducta se v<strong>en</strong> alteradas por<br />

múltiples factores. Este rasgo pue<strong>de</strong> ser fácilm<strong>en</strong>te imitado, pero a su vez está<br />

muy aceptado y es fácil <strong>de</strong> conseguir.<br />

Escritura: La escritura no es muy distintiva y varía a lo largo <strong>de</strong>l tiempo, pero<br />

su captura es poco invasiva.<br />

Dinámica <strong>de</strong> tecleo: Cada persona ti<strong>en</strong>e una dinámica <strong>de</strong> tecleo característica.<br />

Este rasgo es <strong>de</strong> conducta por lo que varía a lo largo <strong>de</strong>l tiempo y es poco<br />

distintivo, pero proporciona información sufici<strong>en</strong>tem<strong>en</strong>te discriminatoria para<br />

i<strong>de</strong>ntificación <strong>en</strong> casos s<strong>en</strong>cillos. Para su captura basta con emplear secu<strong>en</strong>cias<br />

<strong>de</strong> tecleo <strong>de</strong>l usuario, por lo que no es intrusivo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 7


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

2.1.2. Aplicaciones <strong>de</strong> los sistemas biométricos<br />

Un sistema biométrico consiste <strong>en</strong> un reconocedor <strong>de</strong> parámetros que funciona<br />

sigui<strong>en</strong>do los sigui<strong>en</strong>tes pasos: captura el rasgo biométrico, extrae sus características y<br />

las compara con los patrones almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong> datos para <strong>de</strong>cidir la i<strong>de</strong>ntidad<br />

<strong>de</strong>l individuo.<br />

Las aplicaciones <strong>de</strong> los sistemas biométricos se pue<strong>de</strong>n agrupar <strong>de</strong> la sigui<strong>en</strong>te forma:<br />

• Aplicaciones comerciales: protección <strong>de</strong> datos electrónicos, protección <strong>de</strong> red, e-<br />

comercio, cajeros automáticos, control <strong>de</strong> acceso físico, etc.<br />

• Aplicaciones gubernam<strong>en</strong>tales: DNI, carnet <strong>de</strong> conducir, pasaporte, control <strong>de</strong><br />

fronteras, etc.<br />

• Aplicaciones for<strong>en</strong>ses: i<strong>de</strong>ntificación <strong>de</strong> cadáveres, investigación criminal,<br />

<strong>de</strong>terminación <strong>de</strong> par<strong>en</strong>tesco, etc.<br />

2.1.3. Problemas y limitaciones <strong>de</strong> los sistemas<br />

biométricos<br />

Sin embargo los sistemas biométricos también ti<strong>en</strong><strong>en</strong> problemas y limitaciones que<br />

pue<strong>de</strong>n variar los rasgos biométricos, las causas más comunes que provocan esto son:<br />

Pres<strong>en</strong>tación inconsci<strong>en</strong>te: La señal capturada por el s<strong>en</strong>sor <strong>de</strong>p<strong>en</strong><strong>de</strong> tanto <strong>de</strong><br />

las características <strong>de</strong>l rasgo biométrico como <strong>de</strong> la forma que se pres<strong>en</strong>ta dicho<br />

rasgo.<br />

Pres<strong>en</strong>tación irreproducible: El hecho <strong>de</strong> que se produzca una variación <strong>de</strong> la<br />

señal capturada <strong>en</strong> difer<strong>en</strong>tes adquisiciones pue<strong>de</strong> ser <strong>de</strong>bido a que como los<br />

rasgos biométricos repres<strong>en</strong>tan una característica biológicas o <strong>de</strong><br />

comportami<strong>en</strong>to los acci<strong>de</strong>ntes o los adornos pue<strong>de</strong>n cambiar su estructura o su<br />

aspecto exterior.<br />

Captura imperfecta: Las condiciones <strong>de</strong> captura <strong>de</strong> una señal <strong>en</strong> la práctica no<br />

son perfectas y causan variaciones <strong>en</strong> la señal capturada.<br />

Ruido <strong>en</strong> los datos adquiridos: El ruido pue<strong>de</strong> estar producido por las<br />

condiciones <strong>de</strong>l s<strong>en</strong>sor o condiciones ambi<strong>en</strong>tales <strong>de</strong>sfavorables. Las<br />

adquisiciones con ruido pue<strong>de</strong>n provocar errores <strong>en</strong> la i<strong>de</strong>ntificación.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 8


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

Unicidad: Pue<strong>de</strong> existir similitu<strong>de</strong>s <strong>en</strong>tre difer<strong>en</strong>tes usuarios <strong>en</strong> las<br />

características usadas para repres<strong>en</strong>tar un rasgo biométrico. Esto disminuye la<br />

capacidad <strong>de</strong> discriminar mediante este rasgo.<br />

No universalidad: Pue<strong>de</strong> ser que un subconjunto <strong>de</strong> individuos carezca <strong>de</strong> un<br />

rasgo biométrico que se espera que t<strong>en</strong>gan todos los individuos.<br />

Ataques: Un impostor pue<strong>de</strong> int<strong>en</strong>tar imitar un rasgo biométrico para sortear el<br />

sistema.<br />

2.1.4. Aceptación <strong>en</strong> la sociedad<br />

Es la sociedad la que <strong>de</strong>termina el éxito <strong>de</strong> los sistemas <strong>de</strong> i<strong>de</strong>ntificación <strong>basado</strong>s <strong>en</strong><br />

rasgos biométricos. La facilidad y comodidad <strong>en</strong> la interacción con el sistema<br />

contribuye a su aceptación. Las tecnologías que requier<strong>en</strong> muy poca cooperación o<br />

participación <strong>de</strong> los usuarios suel<strong>en</strong> ser percibidas como más conv<strong>en</strong>i<strong>en</strong>tes. Por otro<br />

lado, los rasgos biométricos que no requier<strong>en</strong> la participación <strong>de</strong>l usuario <strong>en</strong> su<br />

adquisición pue<strong>de</strong>n ser capturados sin que el individuo se dé cu<strong>en</strong>ta y esto es percibido<br />

como una am<strong>en</strong>aza a la privacidad por parte <strong>de</strong> muchos usuarios. El tema <strong>de</strong> la<br />

privacidad adquiere gran relevancia con los sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométrico<br />

porque los rasgos biométricos pue<strong>de</strong>n proporcionar información muy personal <strong>de</strong> un<br />

individuo, como afecciones médicas, y esta información pue<strong>de</strong> ser utilizada <strong>de</strong> forma<br />

poco ética.<br />

Por otro lado, los sistemas biométricos pue<strong>de</strong>n ser empleados como uno <strong>de</strong> los medios<br />

más efectivos para la protección <strong>de</strong> la privacidad individual. Si un individuo extravía su<br />

tarjeta <strong>de</strong> crédito y otra persona la <strong>en</strong>cu<strong>en</strong>tra, podría hacer un uso fraudul<strong>en</strong>to <strong>de</strong> ella.<br />

Pero si la tarjeta <strong>de</strong> crédito únicam<strong>en</strong>te pudiese ser utilizada si el impostor suplantase<br />

los rasgos biométricos <strong>de</strong>l usuario, éste estaría muchísimo más protegido. Otra v<strong>en</strong>taja<br />

<strong>de</strong>l uso <strong>de</strong> los rasgos biométricos consiste <strong>en</strong> limitar el acceso a información personal.<br />

La mayoría <strong>de</strong> los sistemas biométricos comerciales disponibles hoy <strong>en</strong> día no<br />

almac<strong>en</strong>an las características físicas capturadas <strong>en</strong> su forma original, sino que<br />

almac<strong>en</strong>an una repres<strong>en</strong>tación digital <strong>en</strong> un formato <strong>en</strong>criptado. Esto ti<strong>en</strong>e dos<br />

propósitos: el primero consiste <strong>en</strong> que la característica física real no pueda ser<br />

recuperada a partir <strong>de</strong> su repres<strong>en</strong>tación digital, lo que asegura privacidad, y el segundo<br />

se basa <strong>en</strong> que el <strong>en</strong>criptado asegura que sólo la aplicación <strong>de</strong>signada pue<strong>de</strong> usar dicha<br />

repres<strong>en</strong>tación digital.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 9


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

2.2. Sistemas automáticos <strong>de</strong><br />

<strong>Reconocimi<strong>en</strong>to</strong><br />

2.2.1. Estructura<br />

Los sistemas automáticos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patrones pose<strong>en</strong> una estructura<br />

funcional común, formada por varias fases, cuya forma <strong>de</strong> proce<strong>de</strong>r <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la<br />

naturaleza <strong>de</strong>l rasgo o señal a reconocer. La primera etapa correspon<strong>de</strong> a la zona a la<br />

cual el usuario ti<strong>en</strong>e acceso, es <strong>de</strong>cir, el interfaz <strong>de</strong> usuario, <strong>en</strong> ella cabe <strong>de</strong>stacar el<br />

s<strong>en</strong>sor que es el <strong>en</strong>cargado <strong>de</strong> capturar el rasgo biométrico con el que pret<strong>en</strong><strong>de</strong> hacer el<br />

reconocimi<strong>en</strong>to. La sigui<strong>en</strong>te etapa correspon<strong>de</strong> al sistema los módulos más <strong>de</strong>stacables<br />

son el módulo <strong>de</strong> extracción <strong>de</strong> características, el comparador y el <strong>de</strong>cisor estos módulos<br />

son básicos <strong>en</strong> cualquier sistema <strong>de</strong> reconocimi<strong>en</strong>to, el resto <strong>de</strong> módulos sirv<strong>en</strong> para<br />

procesar la señal y pue<strong>de</strong>n ser opcionales.<br />

Figura 2.1: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> reconocimi<strong>en</strong>to biométrico.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 10


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

Para explicar más <strong>en</strong> profundidad el diagrama anterior lo po<strong>de</strong>mos dividir <strong>en</strong> cuatro<br />

fases <strong>de</strong> funcionami<strong>en</strong>to que son la adquisición <strong>de</strong> datos, seguida <strong>de</strong>l preprocesado,<br />

extracción <strong>de</strong> características y terminando con la comparación <strong>de</strong> patrones.<br />

Adquisición <strong>de</strong> datos: En esta fase un s<strong>en</strong>sor se <strong>en</strong>carga <strong>de</strong> recoger los datos<br />

analógicos y los convierte a formato digital. Esta fase es <strong>de</strong> suma importancia ya<br />

que <strong>de</strong> ella <strong>de</strong>p<strong>en</strong><strong>de</strong> la cantidad y la calidad <strong>de</strong> información que se introduce <strong>en</strong><br />

el sistema, es <strong>de</strong>cir, la información con la que van a trabajar las sigui<strong>en</strong>tes fases,<br />

y por lo tanto <strong>de</strong> esta fase <strong>de</strong>p<strong>en</strong><strong>de</strong> mucho el resultado final que se obti<strong>en</strong>e.<br />

Preprocesado: En algunos casos es necesario acondicionar la información<br />

capturada para eliminar posibles ruidos o distorsiones producidas <strong>en</strong> la fase <strong>de</strong><br />

adquisición, o para normalizar la información a unos rasgos específicos para<br />

t<strong>en</strong>er una mayor efectividad <strong>en</strong> el reconocimi<strong>en</strong>to posterior.<br />

Extracción <strong>de</strong> características: En esta fase se extra<strong>en</strong> aquellas características<br />

que sean discriminantes <strong>en</strong>tre distintos individuos y que al mismo tiempo<br />

permanezcan invariables para un mismo usuario, eliminando la información que<br />

no resulte útil <strong>en</strong> el proceso <strong>de</strong> reconocimi<strong>en</strong>to. Con esto se reduce la duración<br />

<strong>de</strong> todo el proceso, su coste computacional y el espacio para almac<strong>en</strong>ar la<br />

plantilla.<br />

Comparación <strong>de</strong> patrones: En esta fase se comparan las características<br />

anteriorm<strong>en</strong>te extraídas con los difer<strong>en</strong>tes mo<strong>de</strong>los almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong><br />

datos con el fin <strong>de</strong> evaluar <strong>de</strong> la correspon<strong>de</strong>ncia <strong>en</strong>tre los patrones <strong>de</strong> <strong>en</strong>trada y<br />

el mo<strong>de</strong>lo particular que queremos reconocer.<br />

D<strong>en</strong>tro <strong>de</strong>l ámbito <strong>de</strong> sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométricos, se pue<strong>de</strong> trabajar <strong>de</strong> dos<br />

formas: modo reconocimi<strong>en</strong>to positivo o modo reconocimi<strong>en</strong>to negativo. El<br />

reconocimi<strong>en</strong>to positivo trata <strong>de</strong> <strong>de</strong>terminar si un usuario es qui<strong>en</strong> afirma ser, mi<strong>en</strong>tras<br />

que el reconocimi<strong>en</strong>to negativo int<strong>en</strong>tan <strong>de</strong>terminar si un usuario es qui<strong>en</strong> niega ser, un<br />

ejemplo <strong>de</strong> este tipo <strong>de</strong> sistemas está instalado <strong>en</strong> los aeropuertos, con las listas negras<br />

<strong>de</strong> terroristas. Cabe <strong>de</strong>stacar que la i<strong>de</strong>ntificación negativa sólo pue<strong>de</strong> ser realizada<br />

mediante rasgos biométricos, y no mediante métodos clásicos como contraseñas o<br />

llaves.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 11


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

2.2.2. Modos <strong>de</strong> operación<br />

Un sistema <strong>de</strong> reconocimi<strong>en</strong>to consta <strong>de</strong> tres modos <strong>de</strong> operación primeram<strong>en</strong>te una<br />

fase previa que sería el modo registro, seguidam<strong>en</strong>te <strong>de</strong> dos posibles modos <strong>de</strong><br />

funcionami<strong>en</strong>to que son verificación o i<strong>de</strong>ntificación.<br />

En el modo registro, el sistema adquiere una plantilla <strong>de</strong>l rasgo biométrico. Durante esta<br />

etapa, se produce un preprocesado <strong>de</strong> la señal biométrica, se extra<strong>en</strong> las características<br />

<strong>de</strong> interés y se almac<strong>en</strong>an <strong>en</strong> el sistema construy<strong>en</strong>do un mo<strong>de</strong>lo. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la<br />

aplicación esta información será guardada <strong>en</strong> la base <strong>de</strong> datos <strong>de</strong>l sistema o <strong>en</strong> otro tipo<br />

<strong>de</strong> dispositivos externos.<br />

Figura 2.2: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo registro.<br />

En el modo verificación o aut<strong>en</strong>ticación el sistema valida la i<strong>de</strong>ntidad <strong>de</strong> una persona<br />

comparando el rasgo biométrico capturado <strong>en</strong> la <strong>en</strong>trada con su propia plantilla<br />

biométrica previam<strong>en</strong>te almac<strong>en</strong>ada <strong>en</strong> la base <strong>de</strong> datos.<br />

Las dos posibles salidas <strong>en</strong> este modo <strong>de</strong> funcionami<strong>en</strong>to (verda<strong>de</strong>ro/ falso) dan lugar a<br />

la aparición <strong>de</strong> dos errores distintos:<br />

• Falso Rechazo: se produce cuando el sistema indica que la información<br />

adquirida <strong>de</strong>l usuario <strong>en</strong> la <strong>en</strong>trada no se correspon<strong>de</strong> con la plantilla<br />

almac<strong>en</strong>ada, cuando realm<strong>en</strong>te sí se correspon<strong>de</strong>.<br />

• Falsa Aceptación: se produce cuando el sistema indica que la información<br />

adquirida <strong>de</strong>l usuario <strong>en</strong> la <strong>en</strong>trada sí se correspon<strong>de</strong> con la plantilla almac<strong>en</strong>ada,<br />

cuando realm<strong>en</strong>te no se correspon<strong>de</strong>.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 12


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

Figura 2.3: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo verificación.<br />

En el modo i<strong>de</strong>ntificación el sistema recibe un rasgo biométrico <strong>de</strong>terminado y<br />

comprueba se correspon<strong>de</strong> con alguno <strong>de</strong> los mo<strong>de</strong>los almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong> datos.<br />

El sistema tratara <strong>de</strong> <strong>de</strong>cidir si el usuario esta o no <strong>en</strong> la base <strong>de</strong> datos. El coste<br />

computacional <strong>de</strong> este modo es muy elevado.<br />

Figura 2.4: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación.<br />

2.2.3. Evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to<br />

Para <strong>de</strong>terminar la capacidad y la bondad <strong>de</strong> nuestro sistema <strong>de</strong> reconocimi<strong>en</strong>to<br />

necesitamos una medida objetiva <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l mismo. Ent<strong>en</strong><strong>de</strong>mos como<br />

r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un sistema biométrico como la precisión <strong>en</strong> el proceso <strong>de</strong><br />

reconocimi<strong>en</strong>to.<br />

En cualquier sistema biométrico hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que dos muestras <strong>de</strong> un mismo<br />

rasgo no son exactam<strong>en</strong>te iguales <strong>de</strong>bido a imperfecciones <strong>en</strong> las condiciones <strong>en</strong> las que<br />

se captura la imag<strong>en</strong>, cambios fisiológicos o <strong>de</strong> comportami<strong>en</strong>to, factores ambi<strong>en</strong>tales y<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 13


2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />

a la interacción <strong>de</strong>l usuario con el s<strong>en</strong>sor <strong>en</strong>tre otros. Por tanto la respuesta <strong>de</strong>l<br />

comparador <strong>de</strong> un sistema biométrico consiste <strong>en</strong> una puntuación que cuantifica la<br />

similitud <strong>en</strong>tre la <strong>en</strong>trada y el patrón <strong>de</strong> la base <strong>de</strong> datos con el que se está comparando.<br />

Cuanto mayor sea la similitud <strong>en</strong>tre muestras mayor será la puntuación <strong>de</strong>vuelta por el<br />

comparador.<br />

La <strong>de</strong>cisión <strong>de</strong>l sistema está regulada por un umbral: los pares <strong>de</strong> muestras que g<strong>en</strong>er<strong>en</strong><br />

puntuaciones mayores o iguales que el umbral se supondrán correspondi<strong>en</strong>tes a la<br />

misma persona, mi<strong>en</strong>tras que los pares <strong>de</strong> muestras cuya puntuación sea inferior al<br />

umbral establecido se consi<strong>de</strong>rarán <strong>de</strong> personas difer<strong>en</strong>tes.<br />

2.2.4. Sistemas multibiométricos<br />

Los sistemas multibiométricos son aquellos que combinan varias fu<strong>en</strong>tes <strong>de</strong><br />

información biométrica para mejorar el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un <strong>de</strong>terminado sistema, se<br />

mejora la seguridad <strong>de</strong>l sistema al aum<strong>en</strong>tar la dificultad <strong>de</strong> imitar o falsificar varios<br />

rasgos simultáneam<strong>en</strong>te.<br />

Un sistema <strong>de</strong> este tipo pue<strong>de</strong> operar <strong>de</strong> tres modos difer<strong>en</strong>tes:<br />

• Modo serie: las salidas <strong>de</strong>l análisis <strong>de</strong> un rasgo biométrico se usan como<br />

<strong>en</strong>trada para análisis <strong>de</strong>l sigui<strong>en</strong>te rasgo, reduci<strong>en</strong>do así <strong>en</strong> cada paso el número<br />

<strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s posibles antes <strong>de</strong> emplear la sigui<strong>en</strong>te característica.<br />

• Modo paralelo: la información <strong>de</strong> múltiples rasgos biométricos se emplea<br />

simultáneam<strong>en</strong>te <strong>en</strong> el proceso <strong>de</strong> reconocimi<strong>en</strong>to.<br />

• Modo jerárquico: los clasificadores individuales se combinan <strong>en</strong> una<br />

estructura <strong>de</strong> árbol.<br />

Los sistemas biométricos multimodales pue<strong>de</strong>n trabajar <strong>en</strong> cinco posibles esc<strong>en</strong>arios:<br />

• Múltiples s<strong>en</strong>sores<br />

• Múltiples rasgos<br />

• Múltiples instancias <strong>de</strong> un mismo rasgo<br />

• Múltiples capturas <strong>de</strong> un mismo rasgo<br />

• Múltiples repres<strong>en</strong>taciones/comparaciones para un mismo rasgo<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 14


3. Estado <strong>de</strong>l arte<br />

3. Estado <strong>de</strong>l arte<br />

3.1. Teoría <strong>de</strong> imág<strong>en</strong>es<br />

El trabajo con imág<strong>en</strong>es es una parte fundam<strong>en</strong>tal <strong>de</strong>ntro <strong>de</strong>l proyecto a realizar, ya que<br />

mediante el procesami<strong>en</strong>to <strong>de</strong> las mismas se logra la <strong>de</strong>tección <strong>de</strong> los ev<strong>en</strong>tos<br />

pre<strong>de</strong>terminados. Es por ello que <strong>en</strong> este apartado se explicarán las características más<br />

importantes que pose<strong>en</strong> las imág<strong>en</strong>es.<br />

3.1.1. Definición <strong>de</strong> pixel<br />

El píxel es la unidad más pequeña <strong>en</strong> la que se pue<strong>de</strong> <strong>de</strong>scomponer una imag<strong>en</strong> digital,<br />

ya sea una fotografía, un fotograma <strong>de</strong> ví<strong>de</strong>o o un gráfico. Los píxeles aparec<strong>en</strong> como<br />

pequeños cuadrados <strong>en</strong> color, <strong>en</strong> blanco o <strong>en</strong> negro, o <strong>en</strong> matices <strong>de</strong> gris. Las imág<strong>en</strong>es<br />

se forman como una matriz rectangular <strong>de</strong> píxeles, don<strong>de</strong> cada píxel forma un punto<br />

diminuto <strong>en</strong> la imag<strong>en</strong> total.<br />

Figura 3.1: Ampliación <strong>de</strong> un sector <strong>de</strong> la imag<strong>en</strong>.<br />

Como se observa <strong>en</strong> la figura 3.1, cuando se amplifica una pequeña región <strong>de</strong> la imag<strong>en</strong><br />

(zoom) se pue<strong>de</strong> apreciar fácilm<strong>en</strong>te los píxeles que conforman dicha imag<strong>en</strong> como si<br />

fueran pequeños cuadraditos. Los píxeles son tan diminutos que a simple vista uno no se<br />

pue<strong>de</strong> percatar <strong>de</strong> su forma cuadrada.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 15


3. Estado <strong>de</strong>l arte<br />

En las imág<strong>en</strong>es <strong>de</strong> mapa <strong>de</strong> bits cada píxel se codifica mediante un conjunto <strong>de</strong> bits <strong>de</strong><br />

longitud <strong>de</strong>terminada (la llamada profundidad <strong>de</strong> color), por ejemplo, pue<strong>de</strong> codificarse<br />

un píxel con un byte, u 8 bits, <strong>de</strong> manera que cada píxel admite 256 variantes (2 dígitos<br />

por bit, elevados a la octava pot<strong>en</strong>cia, es <strong>de</strong>cir, 2 8 ). En las imág<strong>en</strong>es <strong>de</strong> color verda<strong>de</strong>ro,<br />

se suel<strong>en</strong> usar tres bytes para <strong>de</strong>finir un color, es <strong>de</strong>cir, <strong>en</strong> total se pue<strong>de</strong> repres<strong>en</strong>tar<br />

16.777,216 colores difer<strong>en</strong>tes (2 24 variantes).<br />

Para po<strong>de</strong>r transformar la información numérica que almac<strong>en</strong>a un píxel <strong>en</strong> un color se<br />

<strong>de</strong>be conocer, a<strong>de</strong>más <strong>de</strong> la profundidad <strong>de</strong> color (el tamaño <strong>en</strong> bits <strong>de</strong>l píxel), el<br />

mo<strong>de</strong>lo <strong>de</strong> color que se está usando, como por ejemplo el mo<strong>de</strong>lo <strong>de</strong> color RGB. A<br />

continuación po<strong>de</strong>mos ver una figura que nos muestra como están distribuidos los<br />

pixeles <strong>en</strong> <strong>de</strong> una imag<strong>en</strong> que utiliza el mo<strong>de</strong>lo RGB.<br />

Figura 3.2: Composición <strong>de</strong> una imag<strong>en</strong> <strong>en</strong> RGB.<br />

3.1.2. Mo<strong>de</strong>los <strong>de</strong> color <strong>de</strong> un pixel<br />

Algunos <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> color más conocidos que se utilizan <strong>en</strong> la composición <strong>de</strong>l<br />

color <strong>de</strong> un píxel son, el mo<strong>de</strong>lo <strong>de</strong> color RGB, CMYK y YIQ, los cuales serán<br />

<strong>de</strong>scritos a continuación:<br />

El mo<strong>de</strong>lo <strong>de</strong> color RGB (Red-Gre<strong>en</strong>-Blue) permite crear un color componi<strong>en</strong>do tres<br />

colores básicos: el rojo, el ver<strong>de</strong> y el azul. En el mo<strong>de</strong>lo RGB es frecu<strong>en</strong>te que se use un<br />

byte (8 bits) para repres<strong>en</strong>tar la proporción <strong>de</strong> cada una <strong>de</strong> las tres compon<strong>en</strong>tes<br />

primarias. Así, <strong>de</strong> una manera estándar, la int<strong>en</strong>sidad <strong>de</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes se<br />

mi<strong>de</strong> según una escala <strong>en</strong>tre 0 y 255. De esta forma, cuando una <strong>de</strong> las compon<strong>en</strong>tes<br />

vale 0, significa que esta no intervi<strong>en</strong>e <strong>en</strong> la mezcla y cuando vale 255 (2 8 -1) significa<br />

que intervi<strong>en</strong>e aportando el máximo <strong>de</strong> ese tono.<br />

Por lo tanto, el rojo se obti<strong>en</strong>e con (255, 0, 0), el ver<strong>de</strong> con (0, 255, 0) y el azul con (0,0,<br />

255), obt<strong>en</strong>i<strong>en</strong>do un color resultante monocromático. La combinación <strong>de</strong> dos colores <strong>en</strong><br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 16


3. Estado <strong>de</strong>l arte<br />

nivel 255 con un tercero <strong>en</strong> nivel 0 da lugar a tres colores intermedios: el amarillo (255,<br />

255 ,0), el cian (0, 255, 255) y el mag<strong>en</strong>ta (255, 0, 255).<br />

Figura 3.3 Mezcla aditiva <strong>de</strong> colores <strong>de</strong>l RGB y el mo<strong>de</strong>lo sustractivo <strong>de</strong>l CMYK.<br />

El gráfico <strong>de</strong> la figura 3.3 muestra <strong>en</strong> su parte izquierda la mezcla aditiva <strong>de</strong> colores <strong>de</strong>l<br />

mo<strong>de</strong>lo RGB, <strong>en</strong> don<strong>de</strong> la combinación <strong>de</strong> sus tres compon<strong>en</strong>tes primarias compone el<br />

color blanco y la aus<strong>en</strong>cia <strong>de</strong> sus compon<strong>en</strong>tes forma el color negro. En la <strong>de</strong>recha <strong>de</strong> la<br />

figura, se muestra la mezcla sustractiva <strong>de</strong>l mo<strong>de</strong>lo CMYK.<br />

Las ecuaciones sigui<strong>en</strong>tes muestran la forma <strong>de</strong> conversión <strong>de</strong>l mo<strong>de</strong>lo RGB al mo<strong>de</strong>lo<br />

CMYK. Para convertir valores <strong>en</strong>tre RGB y CMYK, se <strong>de</strong>be utilizar un valor CMY<br />

intermedio. Estos valores <strong>de</strong> color se <strong>de</strong>b<strong>en</strong> repres<strong>en</strong>tar como un vector, estos pue<strong>de</strong>n<br />

variar <strong>en</strong>tre 0.0 (color inexist<strong>en</strong>te) y 1.0 (color totalm<strong>en</strong>te saturado):<br />

t CMYK = {C, M, Y, K} es el cuádruplo <strong>de</strong>l valor CMYK <strong>en</strong>tre [0,1] 4 (3.1)<br />

t CMY ={C ,M ,Y}es el triple <strong>de</strong>l valor CMY <strong>en</strong>tre [0,1] 3 (3.2)<br />

t RGB ={R ,G ,B} es el triple <strong>de</strong>l valor RGB <strong>en</strong>tre [0,1] 3 (3.3)<br />

El mo<strong>de</strong>lo CMYK (acrónimo <strong>de</strong> Cian, Mag<strong>en</strong>ta, Yellow y Key) es un mo<strong>de</strong>lo <strong>de</strong><br />

colores sustractivo que se utiliza <strong>en</strong> la impresión a color. Este mo<strong>de</strong>lo se basa <strong>en</strong> la<br />

mezcla <strong>de</strong> pigm<strong>en</strong>tos <strong>de</strong> los colores Cian (C), Mag<strong>en</strong>ta (M), Amarillo (Y) y Negro (K)<br />

para crear otros.<br />

La mezcla <strong>de</strong> colores CMY i<strong>de</strong>ales es sustractiva (al imprimir cian, mag<strong>en</strong>ta y amarillo<br />

<strong>en</strong> fondo blanco resulta el color negro). El mo<strong>de</strong>lo CMYK trabaja <strong>en</strong> base a la absorción<br />

<strong>de</strong> la luz. Los colores que se v<strong>en</strong> son <strong>de</strong> la parte <strong>de</strong> la luz que no es absorbida. El cian es<br />

el opuesto al rojo, lo que significa que actúa como un filtro que absorbe dicho color (-R<br />

+G +B). Mag<strong>en</strong>ta es el opuesto al ver<strong>de</strong> (+R -G +B) y amarillo el opuesto al azul (+R<br />

+G -B).<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 17


3. Estado <strong>de</strong>l arte<br />

El mo<strong>de</strong>lo YIQ <strong>de</strong>fine un espacio <strong>de</strong> color, usado antiguam<strong>en</strong>te por el estándar <strong>de</strong><br />

televisión NTSC. La compon<strong>en</strong>te “Y” repres<strong>en</strong>ta la información <strong>de</strong> luminancia y es el<br />

único compon<strong>en</strong>te utilizado por los televisores <strong>de</strong> blanco y negro. “I” y “Q” repres<strong>en</strong>tan<br />

la información <strong>de</strong> crominancia o <strong>de</strong>l color. La luminancia (Y) vi<strong>en</strong>e dada por el brillo <strong>de</strong><br />

un objeto, pudi<strong>en</strong>do producir dos objetos con tonalida<strong>de</strong>s difer<strong>en</strong>tes con la misma<br />

s<strong>en</strong>sación lumínica. La señal <strong>de</strong> luminancia es la cuantificación <strong>de</strong> esa s<strong>en</strong>sación <strong>de</strong><br />

brillo.<br />

Figura 3.4: De izquierda a <strong>de</strong>recha, imag<strong>en</strong> con sus compon<strong>en</strong>tes Y, I y Q.<br />

En la figura 3.4, <strong>de</strong> izquierda a <strong>de</strong>recha, se muestra primero la imag<strong>en</strong> <strong>en</strong> color real,<br />

luego se muestra la imag<strong>en</strong> únicam<strong>en</strong>te con sus valores <strong>de</strong> luminancia Y (brillo <strong>de</strong> la<br />

imag<strong>en</strong>). Luego se muestra la imag<strong>en</strong> con la información <strong>de</strong> crominancia I (naranjaazul)<br />

y la que sigue utiliza los valores <strong>de</strong> crominancia Q (púrpura-ver<strong>de</strong>). La matriz <strong>de</strong><br />

conversión <strong>de</strong>l mo<strong>de</strong>lo RGB al mo<strong>de</strong>lo YIQ se muestra <strong>en</strong> la sigui<strong>en</strong>te ecuación:<br />

0.299 0.587 0.114 <br />

0.595716 274453 321263 <br />

0.211456 .522591 0.311135 <br />

(3.4)<br />

La repres<strong>en</strong>tación YIQ se emplea a veces <strong>en</strong> transformaciones <strong>de</strong> procesami<strong>en</strong>to digital<br />

<strong>de</strong> imág<strong>en</strong>es <strong>en</strong> color. Por ejemplo, aplicando una ecualización <strong>de</strong>l histograma<br />

directam<strong>en</strong>te a los canales <strong>en</strong> una imag<strong>en</strong> RGB se alterarían los colores unos <strong>en</strong> relación<br />

con otro, resultando una imag<strong>en</strong> con colores que no ti<strong>en</strong><strong>en</strong> s<strong>en</strong>tido. En vez <strong>de</strong> ello, si la<br />

ecualización el histograma es aplicada al canal Y <strong>de</strong> la repres<strong>en</strong>tación YIQ <strong>de</strong> la<br />

imag<strong>en</strong>, sólo se normalizan los niveles <strong>de</strong> brillo <strong>de</strong> la imag<strong>en</strong>.<br />

3.1.3. Resolución <strong>de</strong> imág<strong>en</strong>es<br />

La resolución <strong>de</strong> imág<strong>en</strong>es <strong>de</strong>scribe cuánto <strong>de</strong>talle pue<strong>de</strong> observarse <strong>en</strong> una imag<strong>en</strong>. El<br />

término es comúnm<strong>en</strong>te utilizado <strong>en</strong> relación a imág<strong>en</strong>es <strong>de</strong> fotografía digital, pero<br />

también se utiliza para <strong>de</strong>scribir la niti<strong>de</strong>z <strong>de</strong> la misma. T<strong>en</strong>er mayor resolución se<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 18


3. Estado <strong>de</strong>l arte<br />

traduce <strong>en</strong> obt<strong>en</strong>er una imag<strong>en</strong> con más <strong>de</strong>talle o calidad visual y por tanto mayor<br />

información.<br />

Para las imág<strong>en</strong>es digitales almac<strong>en</strong>adas como mapa <strong>de</strong> bits, la conv<strong>en</strong>ción es <strong>de</strong>scribir<br />

la resolución <strong>de</strong> la imag<strong>en</strong> con dos números <strong>en</strong>teros, don<strong>de</strong> el primero es la cantidad <strong>de</strong><br />

columnas <strong>de</strong> píxeles y el segundo es la cantidad <strong>de</strong> filas <strong>de</strong> píxeles. La conv<strong>en</strong>ción que<br />

le sigue <strong>en</strong> popularidad es <strong>de</strong>scribir el número total <strong>de</strong> píxeles <strong>en</strong> la imag<strong>en</strong> (usualm<strong>en</strong>te<br />

expresado como la cantidad <strong>de</strong> megapíxeles), que pue<strong>de</strong> ser calculado multiplicando la<br />

cantidad <strong>de</strong> columnas <strong>de</strong> píxeles por la cantidad <strong>de</strong> filas <strong>de</strong> píxeles.<br />

Figura 3.5: De izquierda a <strong>de</strong>recha, aum<strong>en</strong>to <strong>de</strong> la resolución <strong>de</strong> una imag<strong>en</strong>.<br />

Como se muestra <strong>en</strong> la figura 3.5, el primer cuadro <strong>de</strong> la izquierda posee una resolución<br />

<strong>de</strong> 10x10 (10 columnas y 10 filas <strong>de</strong> píxeles) <strong>en</strong> la que la imag<strong>en</strong> es bastante borrosa y<br />

como se observa <strong>en</strong> las imág<strong>en</strong>es sigui<strong>en</strong>tes hacia la <strong>de</strong>recha, a medida que la resolución<br />

aum<strong>en</strong>ta también aum<strong>en</strong>ta la calidad y la niti<strong>de</strong>z <strong>de</strong> la imag<strong>en</strong>.<br />

3.2. Teoría <strong>de</strong>l vi<strong>de</strong>o<br />

El ví<strong>de</strong>o es la tecnología <strong>de</strong> captación, grabación y reproducción <strong>de</strong> imág<strong>en</strong>es, que nos<br />

permite, al ejecutar estas imág<strong>en</strong>es <strong>en</strong> secu<strong>en</strong>cia, simular movimi<strong>en</strong>to. Existe la<br />

posibilidad <strong>de</strong> que las imág<strong>en</strong>es que compon<strong>en</strong> el ví<strong>de</strong>o estén acompañadas <strong>de</strong> sonido.<br />

Etimológicam<strong>en</strong>te la palabra vi<strong>de</strong>o provi<strong>en</strong>e <strong>de</strong>l verbo latino “vi<strong>de</strong>re”, y significa "yo<br />

veo".<br />

Los comi<strong>en</strong>zos <strong>de</strong>l vi<strong>de</strong>o están relacionados con el int<strong>en</strong>to <strong>de</strong> cubrir las necesida<strong>de</strong>s que<br />

t<strong>en</strong>ía la televisión. En efecto, las primeras trasmisiones televisivas se realizaban <strong>en</strong> vivo<br />

y con la posibilidad <strong>de</strong> grabarlas se facilitaba sobremanera el trabajo <strong>de</strong> programación;<br />

<strong>en</strong> este s<strong>en</strong>tido, los juegos olímpicos <strong>de</strong> Tokio <strong>en</strong> el año 1964 fueron el primer caso <strong>en</strong><br />

que se realiza una transmisión <strong>en</strong> diferido. Ya a finales <strong>de</strong> los años set<strong>en</strong>ta se consolida<br />

<strong>de</strong>finitivam<strong>en</strong>te como una tecnología in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la televisión.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 19


3. Estado <strong>de</strong>l arte<br />

En la actualidad, con la proliferación <strong>de</strong> medios digitales, el uso <strong>de</strong> vi<strong>de</strong>os ha alcanzado<br />

un carácter masivo que difícilm<strong>en</strong>te se haya soñado cuatro décadas atrás. El otro punto<br />

importante a consi<strong>de</strong>rar es el abaratami<strong>en</strong>to <strong>de</strong> los medios tecnológicos <strong>de</strong> grabación,<br />

que se hac<strong>en</strong> cada día más accesibles.<br />

El ví<strong>de</strong>o pue<strong>de</strong> pres<strong>en</strong>tarse <strong>en</strong> distintos formatos, como pue<strong>de</strong>n ser cintas <strong>de</strong> ví<strong>de</strong>o<br />

analógico (VHS, Betamax) o <strong>en</strong> formatos digitales (DVD, MPEG-4). La calidad <strong>de</strong>l<br />

ví<strong>de</strong>o v<strong>en</strong>drá <strong>de</strong>terminada por distintos factores, como el método <strong>de</strong> captura o el tipo <strong>de</strong><br />

almac<strong>en</strong>ami<strong>en</strong>to elegido.<br />

3.2.1. Los estándares <strong>de</strong> ví<strong>de</strong>o analógico<br />

Exist<strong>en</strong> diversos estándares analógicos. El NTSC (Nacional Televisión System Comité)<br />

sigue las especificaciones establecidas <strong>en</strong> 1950 para la introducción <strong>de</strong> la televisión <strong>en</strong><br />

color. Se usa <strong>en</strong> USA y Japón. El PAL (Phase Alternating Line) es el sistema propio <strong>de</strong><br />

Australia, Ori<strong>en</strong>te Medio, Asia y Europa con la excepción <strong>de</strong> Francia que utiliza el<br />

SECAM. Ninguno <strong>de</strong> estos sistemas resulta óptimo para una visualización <strong>en</strong> la pantalla<br />

<strong>de</strong>l or<strong>de</strong>nador a causa <strong>de</strong> algunas difer<strong>en</strong>cias técnicas importantes.<br />

Tamaño <strong>de</strong>l fotograma. Mi<strong>en</strong>tras que <strong>en</strong> la pantalla <strong>de</strong>l televisor conv<strong>en</strong>cional la<br />

imag<strong>en</strong> se forma <strong>en</strong> base a líneas horizontales (525 <strong>en</strong> NTSC y 576 <strong>en</strong> PAL), <strong>en</strong> la<br />

pantalla <strong>de</strong>l or<strong>de</strong>nador se crea <strong>en</strong> base a un mosaico <strong>de</strong> píxeles. Por otra parte, mi<strong>en</strong>tras<br />

la resolución <strong>de</strong>l televisor es fija, la <strong>de</strong> la pantalla <strong>de</strong> or<strong>de</strong>nador es variable y <strong>en</strong> ella los<br />

reescalados <strong>de</strong> la imag<strong>en</strong> pue<strong>de</strong>n ser necesarios.<br />

Fotogramas por segundo (fps). El ví<strong>de</strong>o es <strong>en</strong> es<strong>en</strong>cia una sucesión <strong>de</strong> fotogramas que<br />

al visionarse a una <strong>de</strong>terminada velocidad crea la ilusión <strong>de</strong> movimi<strong>en</strong>to. En NTSC la<br />

frecu<strong>en</strong>cia es <strong>de</strong> 30 fps mi<strong>en</strong>tras que el valor <strong>en</strong> PAL es <strong>de</strong> 25. En aplicaciones<br />

multimedia es frecu<strong>en</strong>te que el ví<strong>de</strong>o se reproduzca a la mitad <strong>de</strong> estos valores.<br />

Píxel Aspect Ratio. Exist<strong>en</strong> difer<strong>en</strong>cias también que atañ<strong>en</strong> a la forma <strong>de</strong>l píxel.<br />

Mi<strong>en</strong>tras <strong>en</strong> una pantalla <strong>de</strong> televisor es rectangular, <strong>en</strong> un monitor informático es<br />

cuadrado. En consecu<strong>en</strong>cia una misma imag<strong>en</strong> pue<strong>de</strong> aparecer <strong>de</strong>formada. En función<br />

<strong>de</strong> cuál sea el <strong>de</strong>stino <strong>de</strong>l ví<strong>de</strong>o será preciso llevar a cabo o no la corrección <strong>de</strong> este<br />

parámetro. Algunas aplicaciones <strong>de</strong> edición <strong>de</strong> ví<strong>de</strong>o llevan a cabo esta comp<strong>en</strong>sación al<br />

mostrar la imag<strong>en</strong> <strong>en</strong> una v<strong>en</strong>tana <strong>de</strong>l monitor. Si el <strong>de</strong>stino final <strong>de</strong>l ví<strong>de</strong>o es la web es<br />

recom<strong>en</strong>dable adaptar los píxeles a unas proporciones <strong>de</strong> 3x4.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 20


3. Estado <strong>de</strong>l arte<br />

Ví<strong>de</strong>o <strong>en</strong>trelazado y progresivo. La imag<strong>en</strong> <strong>de</strong> ví<strong>de</strong>o analógico consiste <strong>en</strong> dos campos<br />

<strong>en</strong>trelazados cuya suma forma un fotograma. La necesidad <strong>de</strong>l <strong>en</strong>trelazado provi<strong>en</strong>e <strong>de</strong><br />

una limitación técnica <strong>de</strong> los inicios <strong>de</strong> la televisión y fue la solución que evitaba que se<br />

produjera excesivo efecto <strong>de</strong> parpa<strong>de</strong>o aún trabajando con una baja frecu<strong>en</strong>cia <strong>de</strong><br />

imag<strong>en</strong>. Con el adv<strong>en</strong>imi<strong>en</strong>to <strong>de</strong>l ví<strong>de</strong>o digital esta característica constituyó un serio<br />

obstáculo <strong>en</strong> la integración <strong>de</strong> formatos analógicos y digitales y no es <strong>de</strong>scartable que <strong>en</strong><br />

el futuro <strong>de</strong>saparezca. De hecho, <strong>en</strong> los nuevos formatos <strong>de</strong> televisión <strong>de</strong> alta <strong>de</strong>finición<br />

se ha eliminado el <strong>en</strong>trelazado.<br />

3.2.2. El paso a ví<strong>de</strong>o digital<br />

La g<strong>en</strong>eralización <strong>de</strong>l ví<strong>de</strong>o digital se ha producido <strong>de</strong> la mano <strong>de</strong>l DV y la posibilidad<br />

<strong>de</strong> editar <strong>en</strong> el or<strong>de</strong>nador. A la facilidad <strong>de</strong> uso <strong>de</strong> las cámaras DV y su notable calidad<br />

<strong>de</strong> imag<strong>en</strong> se un<strong>en</strong> las pot<strong>en</strong>cialida<strong>de</strong>s que se <strong>de</strong>rivan <strong>de</strong> la edición digital. A difer<strong>en</strong>cia<br />

<strong>de</strong> los casos <strong>en</strong> los que la fu<strong>en</strong>te <strong>de</strong> orig<strong>en</strong> es un ví<strong>de</strong>o analógico, el trabajar <strong>en</strong> formato<br />

digital <strong>en</strong> orig<strong>en</strong> elimina la necesidad <strong>de</strong> disponer <strong>de</strong> tarjeta digitalizadora <strong>en</strong> el<br />

or<strong>de</strong>nador. De hecho un simple puerto Firewire, USB o USB-2 permite la transfer<strong>en</strong>cia<br />

<strong>de</strong> datos <strong>en</strong>tre la cámara y el equipo informático. El s<strong>en</strong>tido pue<strong>de</strong> ser también el<br />

inverso cuando se graba el master ya editado <strong>en</strong> una cámara o magnetoscopio externo.<br />

La edición digital recupera <strong>en</strong> cierto modo el espíritu <strong>de</strong> la edición cinematográfica<br />

clásica. Editar un ví<strong>de</strong>o analógico sobre cinta implica no po<strong>de</strong>r cortar y suprimir<br />

secu<strong>en</strong>cias innecesarias, o no po<strong>de</strong>r añadir nuevos planos a una cinta ya editada. Es lo<br />

que <strong>de</strong>nominamos edición lineal que se contrapone a la clásicam<strong>en</strong>te ejercida <strong>en</strong> el cine.<br />

Mi<strong>en</strong>tras <strong>en</strong> éste se corta físicam<strong>en</strong>te el film, se suprim<strong>en</strong> fotogramas o se aña<strong>de</strong>n<br />

librem<strong>en</strong>te, <strong>en</strong> la edición analógica <strong>de</strong>l ví<strong>de</strong>o el mismo procedimi<strong>en</strong>to es imposible. Uno<br />

<strong>de</strong> los gran<strong>de</strong>s cambios aportados por la edición digital es la recuperación <strong>de</strong> la no<br />

linealidad. Trabajar <strong>en</strong> formato digital permite insertar, suprimir, aplicar efectos, sumar<br />

capas,…, sin per<strong>de</strong>r <strong>en</strong> absoluto calidad. En teoría son posibles infinitas g<strong>en</strong>eraciones a<br />

través <strong>de</strong> la exportación y reimportación <strong>de</strong> los clips a un proyecto.<br />

La introducción <strong>de</strong>l or<strong>de</strong>nador como instrum<strong>en</strong>to <strong>de</strong> edición <strong>de</strong> ví<strong>de</strong>o se produjo <strong>en</strong> los<br />

<strong>en</strong>tornos profesionales los últimos años <strong>de</strong>l siglo pasado y se g<strong>en</strong>eralizó para el público<br />

<strong>en</strong> g<strong>en</strong>eral los primeros <strong>de</strong> éste. Los procesos <strong>de</strong> edición digital se han g<strong>en</strong>eralizado y si<br />

bi<strong>en</strong> exist<strong>en</strong> diversas posibilida<strong>de</strong>s <strong>de</strong> software para llevarlos a cabo pue<strong>de</strong> afirmarse<br />

que forman un conjunto <strong>de</strong> procedimi<strong>en</strong>tos y tareas bastante uniforme. En cambio el uso<br />

<strong>de</strong>l ví<strong>de</strong>o editado es ya todo otro tema. Por <strong>de</strong>cirlo <strong>de</strong> algún modo, un campo que se<br />

diversifica y ramifica ampliam<strong>en</strong>te.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 21


3. Estado <strong>de</strong>l arte<br />

3.2.3. Usos <strong>de</strong>l ví<strong>de</strong>o digital<br />

En términos g<strong>en</strong>erales po<strong>de</strong>mos hablar <strong>de</strong> dos gran<strong>de</strong>s tipos <strong>de</strong> salidas y usos.<br />

• El primer grupo lo integran las salidas para teledifusión y soportes que como el<br />

DVD o las cónsolas <strong>de</strong> vi<strong>de</strong>ojuegos no plantean problema por gestionar gran<strong>de</strong>s<br />

volúm<strong>en</strong>es <strong>de</strong> información. En g<strong>en</strong>eral prima <strong>en</strong> ellos una elevada calidad <strong>de</strong><br />

imag<strong>en</strong>, pero quizás el común <strong>de</strong>nominador que más nos interesa ahora es que<br />

<strong>en</strong> ninguno exist<strong>en</strong> problemas <strong>de</strong>rivados <strong>de</strong>l peso <strong>de</strong> los archivos. Que el<br />

material <strong>de</strong> ví<strong>de</strong>o ocupe gigas no reviste mayor importancia que la <strong>de</strong> disponer<br />

<strong>de</strong> un equipo con las prestaciones a<strong>de</strong>cuadas. Una vez realizada la edición y<br />

guardado el master, ya sea <strong>en</strong> cinta, ya sea <strong>en</strong> un soporte óptico, los archivos <strong>de</strong><br />

trabajo se borran <strong>de</strong>l disco duro.<br />

• El segundo grupo se refiere a la salida para multimedia, la web o los dispositivos<br />

móviles. En él se incluy<strong>en</strong> los clips <strong>de</strong>stinados a ser reproducidos <strong>en</strong> un<br />

or<strong>de</strong>nador, ya sea a través <strong>de</strong> un soporte óptico o sea a través <strong>de</strong> la web, y los<br />

<strong>de</strong>stinados a dispositivos como los teléfonos móviles o las PDAs.<br />

3.2.4. Co<strong>de</strong>cs y métodos <strong>de</strong> compresión<br />

Có<strong>de</strong>c es una abreviatura <strong>de</strong> Codificador-Decodificador. Describe una especificación<br />

<strong>de</strong>sarrollada <strong>en</strong> software, hardware o una combinación <strong>de</strong> ambos, capaz <strong>de</strong> transformar<br />

un archivo con un flujo <strong>de</strong> datos o una señal. Los có<strong>de</strong>cs pue<strong>de</strong>n codificar el flujo o la<br />

señal (a m<strong>en</strong>udo para la transmisión, el almac<strong>en</strong>aje o el cifrado) y recuperarlo o<br />

<strong>de</strong>scifrarlo <strong>de</strong>l mismo modo para la reproducción o la manipulación <strong>en</strong> un formato más<br />

apropiado para estas operaciones. Los có<strong>de</strong>cs son usados a m<strong>en</strong>udo <strong>en</strong><br />

vi<strong>de</strong>oconfer<strong>en</strong>cias y emisiones <strong>de</strong> medios <strong>de</strong> comunicación.<br />

Un có<strong>de</strong>c <strong>de</strong> vi<strong>de</strong>o es un tipo <strong>de</strong> có<strong>de</strong>c que permite comprimir y <strong>de</strong>scomprimir vi<strong>de</strong>o<br />

digital. Normalm<strong>en</strong>te los algoritmos <strong>de</strong> compresión empleados conllevan una pérdida <strong>de</strong><br />

información.<br />

El problema que se pret<strong>en</strong><strong>de</strong> acometer con los có<strong>de</strong>c es que la información <strong>de</strong> vi<strong>de</strong>o es<br />

bastante ing<strong>en</strong>te <strong>en</strong> relación a lo que un or<strong>de</strong>nador normal es capaz <strong>de</strong> manejar. Es así<br />

como un par <strong>de</strong> segundos <strong>de</strong> vi<strong>de</strong>o <strong>en</strong> una resolución ap<strong>en</strong>as aceptable pue<strong>de</strong> ocupar un<br />

lugar respetable <strong>en</strong> un medio <strong>de</strong> almac<strong>en</strong>ami<strong>en</strong>to típico (disco duro, CD, DVD) y su<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 22


3. Estado <strong>de</strong>l arte<br />

manejo (copia, edición, visualización) pue<strong>de</strong> llevar fácilm<strong>en</strong>te a sobrepasar las<br />

posibilida<strong>de</strong>s <strong>de</strong> dicho or<strong>de</strong>nador o llevarlo a su límite.<br />

La finalidad <strong>de</strong> los có<strong>de</strong>c es obt<strong>en</strong>er un almac<strong>en</strong>ami<strong>en</strong>to substancialm<strong>en</strong>te m<strong>en</strong>or <strong>de</strong> la<br />

información <strong>de</strong> ví<strong>de</strong>o. Esta se comprime <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> guardar la información hacia<br />

un archivo y se <strong>de</strong>scomprime, <strong>en</strong> tiempo real, <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> la visualización. Se<br />

pret<strong>en</strong><strong>de</strong>, por otro lado, que éste sea un proceso transpar<strong>en</strong>te para el usuario, es <strong>de</strong>cir,<br />

que éste no interv<strong>en</strong>ga o lo haga lo m<strong>en</strong>os posible.<br />

Existe un complicado equilibrio <strong>en</strong>tre la calidad <strong>de</strong> vi<strong>de</strong>o, la cantidad <strong>de</strong> datos<br />

necesarios para repres<strong>en</strong>tarlo (también conocida como tasa <strong>de</strong> bits), la complejidad <strong>de</strong><br />

los algoritmos <strong>de</strong> codificación y <strong>de</strong>codificación, la robustez fr<strong>en</strong>te a las pérdidas <strong>de</strong><br />

datos y errores, la facilidad <strong>de</strong> edición, la posibilidad <strong>de</strong> acce<strong>de</strong>r directam<strong>en</strong>te a los<br />

frames, y otros factores.<br />

Básicam<strong>en</strong>te exist<strong>en</strong> dos métodos <strong>de</strong> compresión, la <strong>de</strong>nominada compresión espacial y<br />

la temporal. En la espacial se reduce la información comprimi<strong>en</strong>do la exist<strong>en</strong>te <strong>en</strong> el<br />

interior <strong>de</strong> cada frame. En lugar <strong>de</strong> <strong>de</strong>scribir la imag<strong>en</strong> píxel a píxel, señalando por<br />

ejemplo la posición y color <strong>de</strong> los píxeles, el có<strong>de</strong>c <strong>de</strong> compresión g<strong>en</strong>eraliza<br />

<strong>de</strong>scribi<strong>en</strong>do área similares y sus características <strong>de</strong> luz y color. Así por ejemplo, <strong>en</strong><br />

lugar <strong>de</strong> reproducir un cielo azul píxel a píxel se <strong>de</strong>scribiría el mismo como un área con<br />

características <strong>de</strong> luz y color similares. Una conclusión clara es que cuantos m<strong>en</strong>os<br />

<strong>de</strong>talles variados pres<strong>en</strong>te una imag<strong>en</strong> más fácilm<strong>en</strong>te el có<strong>de</strong>c podrá g<strong>en</strong>eralizar y<br />

comprimir. Crear ví<strong>de</strong>os con fondos simples facilita la compresión y la reducción, <strong>de</strong>l<br />

mismo modo que trabajar con trípo<strong>de</strong> <strong>en</strong> lugar <strong>de</strong> cámara <strong>en</strong> mano supone estabilizar los<br />

fondos y por lo tanto facilitar la compresión posterior.<br />

En la compresión temporal se compara la información <strong>en</strong>tre frames consecutivos y<br />

únicam<strong>en</strong>te se almac<strong>en</strong>an los <strong>de</strong>talles que varían. Si el cielo azul <strong>de</strong>l ejemplo anterior<br />

fuera atravesado por un pájaro <strong>en</strong> vuelo, aplicar una compresión temporal a la secu<strong>en</strong>cia<br />

implicaría <strong>de</strong>scribir únicam<strong>en</strong>te los píxeles que varias<strong>en</strong> <strong>en</strong> cada fotograma. Se podría<br />

prescindir <strong>de</strong> la información <strong>de</strong>l cielo y relacionar únicam<strong>en</strong>te la <strong>de</strong>l animal. No<br />

obstante es claro que la compresión temporal precisa también <strong>de</strong>scribir algunos<br />

fotogramas sin comprimir, <strong>en</strong> el ejemplo anterior el primero <strong>de</strong> la serie, pongamos por<br />

caso. Los fotogramas <strong>de</strong> refer<strong>en</strong>cia a partir <strong>de</strong> los cuáles se analizan las difer<strong>en</strong>cias y se<br />

sust<strong>en</strong>tan los posteriores se <strong>de</strong>nominan fotogramas clave y conti<strong>en</strong><strong>en</strong> la imag<strong>en</strong><br />

completa. Por el contrario, los fotogramas que reflejan las difer<strong>en</strong>cias se <strong>de</strong>nominan<br />

<strong>de</strong>lta frames y sólo conti<strong>en</strong><strong>en</strong> la información <strong>de</strong> las áreas que varían respecto <strong>de</strong> las<br />

imág<strong>en</strong>es anteriores.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 23


3. Estado <strong>de</strong>l arte<br />

En g<strong>en</strong>eral, como ya hemos apuntado anteriorm<strong>en</strong>te, los ví<strong>de</strong>os que pres<strong>en</strong>tan pocos<br />

cambios <strong>en</strong>tre fotogramas se comprim<strong>en</strong> mejor y ello afecta necesariam<strong>en</strong>te a la<br />

realización. Actualm<strong>en</strong>te tanto la realización televisiva como la cinematográfica ti<strong>en</strong><strong>de</strong>n<br />

al uso <strong>de</strong> la cámara <strong>en</strong> movimi<strong>en</strong>to. No únicam<strong>en</strong>te panorámicas, travellings y zooms,<br />

sino también filmaciones con “steadycam” (o su emulación como la función<br />

“steadyshot” <strong>de</strong> los equipos domésticos) e incluso filmaciones cámara <strong>en</strong> mano.<br />

Para solucionar este tipo <strong>de</strong> problemas se utilizan algunos có<strong>de</strong>cs como los Sor<strong>en</strong>son o<br />

los MPEG que ti<strong>en</strong><strong>en</strong> capacidad para tratar a<strong>de</strong>cuadam<strong>en</strong>te movimi<strong>en</strong>tos mo<strong>de</strong>rados <strong>de</strong><br />

la cámara y comp<strong>en</strong>sar por ejemplo los cambios para lograr panorámicas sin saltos. De<br />

todos modos, el campo <strong>de</strong> estudio que relaciona los dos extremos <strong>de</strong> la ca<strong>de</strong>na <strong>de</strong><br />

trabajo, la realización y la compresión, pres<strong>en</strong>ta un panorama ext<strong>en</strong>so y dilatado <strong>en</strong> el<br />

que hay mucho camino por recorrer.<br />

3.3. Detección <strong>de</strong> objetos <strong>en</strong> primer plano<br />

En procesado <strong>de</strong> imag<strong>en</strong> se <strong>en</strong>ti<strong>en</strong><strong>de</strong> por <strong>de</strong>tección <strong>de</strong> primer plano al conjunto <strong>de</strong><br />

técnicas que ti<strong>en</strong><strong>en</strong> por objetivo <strong>de</strong>tectar objetos <strong>en</strong> movimi<strong>en</strong>to que aparec<strong>en</strong> <strong>en</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o sobre la que se trabaja.<br />

Actualm<strong>en</strong>te, el uso <strong>de</strong> sistemas intelig<strong>en</strong>tes <strong>de</strong> análisis <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> vi<strong>de</strong>o está cada<br />

vez más pres<strong>en</strong>te <strong>en</strong> una gran variedad <strong>de</strong> sistemas: vi<strong>de</strong>o-vigilancia [3,4], in<strong>de</strong>xación<br />

<strong>de</strong> cont<strong>en</strong>idos [5], cine y TV [6], compresión <strong>de</strong> vi<strong>de</strong>o [7]. Debido a la creci<strong>en</strong>te<br />

cantidad <strong>de</strong> información visual g<strong>en</strong>erada por las cámaras y s<strong>en</strong>sores <strong>de</strong> estos sistemas,<br />

es necesario <strong>de</strong>sarrollar herrami<strong>en</strong>tas <strong>de</strong> análisis automático, que oper<strong>en</strong> <strong>en</strong> tiempo real<br />

<strong>en</strong> ciertos dominios <strong>de</strong> aplicación (por ejemplo, vi<strong>de</strong>o-vigilancia), que permitan extraer<br />

las regiones <strong>de</strong> interés <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada. En este contexto, el primer<br />

problema es la localización <strong>de</strong> la región don<strong>de</strong> suce<strong>de</strong> algo relevante. Esta operación<br />

suele conocerse como segm<strong>en</strong>tación.<br />

El objetivo <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong> objetos habitualm<strong>en</strong>te consiste <strong>en</strong> difer<strong>en</strong>ciar los<br />

objetos <strong>en</strong> movimi<strong>en</strong>to <strong>de</strong>l primer plano (fr<strong>en</strong>te o “foreground”) <strong>de</strong> una imag<strong>en</strong>, <strong>de</strong>l<br />

resto <strong>de</strong> los objetos o fondo (“background”). En el caso <strong>de</strong> una esc<strong>en</strong>a grabada por una<br />

cámara fija, las técnicas <strong>de</strong> segm<strong>en</strong>tación más eficaces son las basadas <strong>en</strong> el mo<strong>de</strong>lado y<br />

posterior substracción <strong>de</strong>l fondo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 24


3. Estado <strong>de</strong>l arte<br />

La segm<strong>en</strong>tación automática <strong>de</strong> objetos pres<strong>en</strong>ta múltiples complicaciones, si<strong>en</strong>do una<br />

<strong>de</strong> las tareas más complicadas <strong>de</strong>ntro <strong>de</strong>l procesado <strong>de</strong> vi<strong>de</strong>o. Algunos <strong>de</strong> los problemas<br />

más <strong>de</strong>stacados son los sigui<strong>en</strong>tes:<br />

Mo<strong>de</strong>lo <strong>de</strong> fondo actualizable: El mo<strong>de</strong>lo <strong>de</strong> fondo utilizado para <strong>de</strong>tectar los<br />

objetos <strong>de</strong>be po<strong>de</strong>r evolucionar junto con la secu<strong>en</strong>cia, con el fin <strong>de</strong> adaptarse a<br />

los cambios observados <strong>en</strong> ella, como pue<strong>de</strong>n ser los cambios <strong>de</strong> iluminación o<br />

la <strong>de</strong>t<strong>en</strong>ción <strong>de</strong> objetos <strong>de</strong> primer plano <strong>en</strong> el fondo, situación <strong>en</strong> que el objeto <strong>de</strong><br />

primer plano pasaría a ser un objeto inmóvil <strong>de</strong> fondo.<br />

Reducir falsas <strong>de</strong>tecciones <strong>de</strong> primer plano / maximizar las <strong>de</strong>tecciones<br />

correctas: Debido a que la estimación <strong>de</strong> la distribución estadística <strong>de</strong>l fondo<br />

ti<strong>en</strong>e como objetivo calcular la probabilidad <strong>de</strong> que una nueva muestra<br />

pert<strong>en</strong>ezca a este mo<strong>de</strong>lo, es muy importante elegir correctam<strong>en</strong>te un umbral <strong>de</strong><br />

<strong>de</strong>cisión que permita discernir <strong>en</strong>tre primer plano y fondo. Pero también hay<br />

otras técnicas que consigu<strong>en</strong> el mismo objetivo, como son incluir información<br />

espacial <strong>en</strong> los mo<strong>de</strong>los <strong>de</strong> fondo.<br />

Eliminar sombras o brillos <strong>de</strong> las <strong>de</strong>tecciones <strong>de</strong> primer plano:<br />

In<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te <strong>de</strong>l método <strong>de</strong> <strong>de</strong>tección <strong>de</strong> primer plano, <strong>de</strong>bido a que los<br />

mo<strong>de</strong>los están <strong>basado</strong>s <strong>en</strong> el color, es fácil <strong>de</strong>tectar erróneam<strong>en</strong>te sombras <strong>de</strong><br />

objetos o brillos, pudiéndose aplicar otros algoritmos para disminuir la aparición<br />

<strong>de</strong> estas falsas <strong>de</strong>tecciones.<br />

Fondos multimodales: Son los que po<strong>de</strong>mos <strong>en</strong>contrar <strong>en</strong> secu<strong>en</strong>cias con<br />

objetos <strong>en</strong> movimi<strong>en</strong>to l<strong>en</strong>to y/o periódico (movimi<strong>en</strong>to <strong>de</strong> las hojas <strong>de</strong> los<br />

árboles, movimi<strong>en</strong>to ondulatorio <strong>de</strong>l agua,…) y que, <strong>de</strong>s<strong>de</strong> una perspectiva<br />

semántica, habitualm<strong>en</strong>te se consi<strong>de</strong>ra que pert<strong>en</strong>ec<strong>en</strong> al fondo <strong>de</strong> la esc<strong>en</strong>a.<br />

Camuflaje: Este efecto aparece cuando los objetos <strong>de</strong>l primer plano pose<strong>en</strong> el<br />

mismo color y textura que el fondo; por este motivo, el fr<strong>en</strong>te se confun<strong>de</strong> o<br />

camufla como fondo.<br />

Todo sistema <strong>de</strong> <strong>de</strong>tección <strong>de</strong> objetos <strong>de</strong> primer plano se basa <strong>en</strong> el mo<strong>de</strong>lado <strong>de</strong>l fondo<br />

y la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. El mo<strong>de</strong>lado <strong>de</strong> fondo consiste <strong>en</strong> la elaboración y<br />

actualización <strong>de</strong> un fondo a partir <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o g<strong>en</strong>erada por una cámara y,<br />

la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te es el proceso mediante el cual cada imag<strong>en</strong> <strong>de</strong> un vi<strong>de</strong>o se<br />

compara con el mo<strong>de</strong>lo <strong>de</strong> fondo a fin <strong>de</strong> <strong>de</strong>terminar los píxeles pert<strong>en</strong>eci<strong>en</strong>tes al fondo<br />

y aquellos que son primer plano o fr<strong>en</strong>te. Po<strong>de</strong>mos ver un ejemplo <strong>en</strong> la sigui<strong>en</strong>te<br />

ilustración.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 25


3. Estado <strong>de</strong>l arte<br />

Figura 3.6: Diagrama <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong>tector <strong>de</strong> primer plano g<strong>en</strong>érico.<br />

3.3.1. Mo<strong>de</strong>lado <strong>de</strong>l fondo<br />

El mo<strong>de</strong>lado <strong>de</strong> fondo es una fase es es<strong>en</strong>cial para los algoritmos <strong>de</strong> <strong>de</strong>tección <strong>de</strong><br />

objetos <strong>en</strong> movimi<strong>en</strong>to. Su función es la inicialización, actualización y repres<strong>en</strong>tación<br />

<strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> fondo robusto <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada. El fondo se <strong>de</strong>scribe<br />

mediante un mo<strong>de</strong>lo matemático, para cada píxel <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> cada instante <strong>de</strong><br />

tiempo.<br />

Exist<strong>en</strong> dos tipos <strong>de</strong> fondos: los fondos unimodales y los fondos multimodales. Los<br />

unimodales se dan <strong>en</strong> <strong>en</strong>tornos muy controlados, <strong>en</strong> los que los valores <strong>de</strong> los pixeles<br />

<strong>de</strong>l fondo no cambian a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia, la cámara suele ser estática y no se<br />

produc<strong>en</strong> variaciones <strong>en</strong> la iluminación. Los fondos multimodales <strong>en</strong> cambio se dan <strong>en</strong><br />

<strong>en</strong>tornos m<strong>en</strong>os controlados, <strong>en</strong> los cuales los píxeles <strong>de</strong>l fondo pue<strong>de</strong>n cambiar su<br />

valor <strong>de</strong>bido a cambios <strong>de</strong> iluminación (esc<strong>en</strong>as capturadas al aire libre y a distintas<br />

horas <strong>de</strong>l día) o <strong>de</strong>bido al movimi<strong>en</strong>to <strong>de</strong> los objetos que pert<strong>en</strong>ec<strong>en</strong> al fondo (como<br />

ocurre <strong>en</strong> esc<strong>en</strong>as con árboles agitándose u olas <strong>de</strong> mar).<br />

En la etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fondo se <strong>de</strong>b<strong>en</strong> t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta problemas como pue<strong>de</strong>n ser<br />

los cambios <strong>de</strong> iluminación (graduales y rep<strong>en</strong>tinos), cambios <strong>de</strong> movimi<strong>en</strong>to<br />

(oscilaciones <strong>de</strong> la cámara, movimi<strong>en</strong>to <strong>de</strong> objetos con alta frecu<strong>en</strong>cia,…) o cambios <strong>en</strong><br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 26


3. Estado <strong>de</strong>l arte<br />

la geometría <strong>de</strong>l fondo (por ejemplo coches aparcados). Para int<strong>en</strong>tar solucionar estos<br />

problemas se han <strong>de</strong>sarrollado una gran cantidad <strong>de</strong> algoritmos y así luego po<strong>de</strong>r<br />

realizar una estimación correcta <strong>de</strong> movimi<strong>en</strong>to <strong>en</strong> la secu<strong>en</strong>cia analizada. Se han<br />

investigado diversas técnicas que se expon<strong>en</strong> a continuación:<br />

• Métodos básicos: Los métodos básicos <strong>de</strong> sustracción <strong>de</strong> fondo utilizan mo<strong>de</strong>los<br />

matemáticos s<strong>en</strong>cillos tales como, difer<strong>en</strong>cias <strong>en</strong>tre imág<strong>en</strong>es, promedios,<br />

máximos y mínimos,..etc., que permit<strong>en</strong> mo<strong>de</strong>lar <strong>de</strong> forma simple los píxeles <strong>de</strong><br />

la imag<strong>en</strong> <strong>de</strong> fondo.<br />

o Difer<strong>en</strong>cia <strong>de</strong> imág<strong>en</strong>es: [11] Utiliza únicam<strong>en</strong>te la imag<strong>en</strong> anterior<br />

como mo<strong>de</strong>lo <strong>de</strong> fondo. Este método solo funciona bajo <strong>de</strong>terminadas<br />

condiciones <strong>de</strong> velocidad <strong>de</strong> objetos y velocidad <strong>de</strong> frames (fps). La<br />

<strong>de</strong>tección es muy <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l umbral (Th) que seleccionemos.<br />

| frame i - frame i-1 | > Th (3.5)<br />

o Método average o median: [12] El fondo es calculado como la media o<br />

la mediana <strong>de</strong> los previos ‘n’ frames <strong>en</strong> la secu<strong>en</strong>cia. El problema <strong>de</strong> esta<br />

estimación es la consecu<strong>en</strong>te inclusión <strong>de</strong> objetos <strong>en</strong> movimi<strong>en</strong>to que<br />

pasan a formar parte <strong>de</strong>l background (con el consigui<strong>en</strong>te error <strong>en</strong><br />

posteriores <strong>de</strong>tecciones). Otro problema sería el requerimi<strong>en</strong>to <strong>de</strong><br />

memoria, pues t<strong>en</strong>dremos que almac<strong>en</strong>ar los ‘n’ cuadros anteriores.<br />

o Método running average o actualización progresiva <strong>de</strong> fondo: [13]<br />

Mejora <strong>de</strong>l método average evitando el uso <strong>de</strong> memoria. Sigue la<br />

sigui<strong>en</strong>te fórmula:<br />

B i+1 (i, j) = αF i (i, j) + ( 1- α) B i+1 (i, j) (3.6)<br />

Don<strong>de</strong> típicam<strong>en</strong>te el factor <strong>de</strong> actualización (α) vale 0.05.<br />

o G<strong>en</strong>eración <strong>de</strong> fondo basada <strong>en</strong> histogramas: [61] Se realiza un<br />

histograma <strong>de</strong>l valor <strong>de</strong> cada pixel <strong>en</strong> los últimos ‘n’ frames y nos<br />

fijaremos <strong>en</strong> el histograma <strong>de</strong> cada píxel para <strong>de</strong>terminar si este<br />

pert<strong>en</strong>ece al fondo o a un posible movimi<strong>en</strong>to <strong>de</strong> un objeto, con este<br />

método po<strong>de</strong>mos <strong>de</strong>scartar otros factores como ruido <strong>de</strong> la imag<strong>en</strong>,<br />

cambio <strong>de</strong> luminosidad, etc.<br />

o Método <strong>de</strong> selectividad: Para cada nuevo frame, los píxeles son<br />

clasificados como fondo (“background”) o primer plano (“foreground”).<br />

Si son clasificados como primer plano, <strong>en</strong>tonces no se toman <strong>en</strong> cu<strong>en</strong>ta<br />

para la actualización <strong>de</strong>l fondo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 27


3. Estado <strong>de</strong>l arte<br />

B i+1 (i, j) = αF i (i, j) + ( 1- α) B i+1 (i, j) si F i (i, j) es fondo (3.7)<br />

B i+1 (i, j) = B i (i, j) si F i (i, j) es fondo<br />

• Métodos paramétricos: Los algoritmos <strong>basado</strong>s <strong>en</strong> mo<strong>de</strong>los paramétricos<br />

<strong>de</strong>fin<strong>en</strong> mo<strong>de</strong>los <strong>de</strong> fondo más complejos, que permit<strong>en</strong> cierta tolerancia al ruido<br />

y a pequeñas fluctuaciones. Describ<strong>en</strong> la imag<strong>en</strong> <strong>de</strong> fondo <strong>en</strong> base a parámetros<br />

<strong>de</strong> una distribución <strong>de</strong> probabilidad estándar (usualm<strong>en</strong>te Gaussiana).<br />

o Método Running Gaussian Average: [14] Se int<strong>en</strong>ta ajustar una<br />

distribución gaussiana (µ, σ) sobre el histograma, así obt<strong>en</strong>emos la<br />

función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad <strong>de</strong>l fondo.<br />

o Método Mixture of Gaussianas: [15] Basándonos <strong>en</strong> el método anterior,<br />

consi<strong>de</strong>ramos un ajuste a una mezcla <strong>de</strong> gaussianas pon<strong>de</strong>radas (µ i , σ i ,<br />

ω i ). Con este mo<strong>de</strong>lo podremos hacer fr<strong>en</strong>te a distribuciones<br />

multimodales <strong>de</strong> fondos (backgrounds).<br />

• Métodos no paramétricos: Los mo<strong>de</strong>los no paramétricos también son métodos<br />

complejos <strong>en</strong> los que no se asum<strong>en</strong> distribuciones estándar <strong>de</strong> probabilidad para<br />

mo<strong>de</strong>lar a los píxeles <strong>de</strong> fondo, sino técnicas más g<strong>en</strong>erales, como pue<strong>de</strong>n ser<br />

almac<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los últimos valores <strong>de</strong>l píxel, cálculo <strong>de</strong> rangos <strong>de</strong> valores<br />

<strong>de</strong>l píxel, ajustes <strong>de</strong> funciones <strong>de</strong> predicción, etc.<br />

o Método Kernel D<strong>en</strong>sity Estimators: [16] La función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong><br />

probabilidad (fdp) <strong>de</strong>l fondo la obt<strong>en</strong>emos a través <strong>de</strong>l histograma <strong>de</strong> los<br />

“n” últimos valores, cada uno alisado con un núcleo gaussiano. Si la<br />

fdp(x) > Th, <strong>en</strong>tonces el píxel x es clasificado como background. Este<br />

método implica selectividad y gran<strong>de</strong>s requerimi<strong>en</strong>tos <strong>de</strong> memoria (n *<br />

size(frame)).<br />

o Métodos <strong>basado</strong>s <strong>en</strong> códigos (‘Co<strong>de</strong>books’): [17] Cada píxel <strong>de</strong> fondo Bt<br />

(x, y) pue<strong>de</strong> codificarse por un conjunto <strong>de</strong> valores ‘co<strong>de</strong>words’ que<br />

constituirían un <strong>de</strong>scriptor o ‘Co<strong>de</strong>book’. Al procesar una nueva imag<strong>en</strong><br />

<strong>de</strong> la secu<strong>en</strong>cia, los valores <strong>de</strong> int<strong>en</strong>sidad <strong>de</strong> los píxeles se comparan con<br />

los que forman su ‘Co<strong>de</strong>book’ mediante difer<strong>en</strong>cias <strong>de</strong> color y<br />

luminancia, <strong>de</strong> tal forma que si existe parecido, se estiman y actualizan<br />

los códigos y, si no hay coinci<strong>de</strong>ncia, se inserta el nuevo código.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 28


3. Estado <strong>de</strong>l arte<br />

3.3.2. Detección <strong>de</strong> fr<strong>en</strong>te<br />

La <strong>de</strong>tección <strong>de</strong> primer plano también <strong>de</strong>nominada <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te, compara la<br />

<strong>en</strong>trada con el mo<strong>de</strong>lo <strong>de</strong> fondo e i<strong>de</strong>ntifica los píxeles candidatos a ser objeto <strong>en</strong><br />

movimi<strong>en</strong>to (fr<strong>en</strong>te o primer plano). Esta comparación se pue<strong>de</strong> llevar a cabo por<br />

difer<strong>en</strong>cia y la clasificación <strong>de</strong> los pixeles fijando un umbral que <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la esc<strong>en</strong>a,<br />

el ruido <strong>de</strong> la cámara, y las condiciones <strong>de</strong> iluminación.<br />

Las técnicas <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te son algoritmos s<strong>en</strong>cillos cuando se dispone <strong>de</strong> un<br />

mo<strong>de</strong>lo <strong>de</strong> fondo a<strong>de</strong>cuado a la esc<strong>en</strong>a <strong>de</strong> análisis ya que por comparación <strong>en</strong>tre la<br />

imag<strong>en</strong> actual y fondo se pue<strong>de</strong>n <strong>de</strong>tectar fácilm<strong>en</strong>te los objetos <strong>en</strong> movimi<strong>en</strong>to.<br />

Algunas <strong>de</strong> estas técnicas son las sigui<strong>en</strong>tes:<br />

• Tecnicas basadas <strong>en</strong> difer<strong>en</strong>cia: El método más básico para realizar la<br />

<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te Ft es calculando la difer<strong>en</strong>cia <strong>en</strong>tre dos imág<strong>en</strong>es: los píxeles<br />

cuyos valores <strong>de</strong> difer<strong>en</strong>cia son altos normalm<strong>en</strong>te correspon<strong>de</strong>rán a objetos <strong>en</strong><br />

movimi<strong>en</strong>to.<br />

( I t (x, y) – B t (x, y)) ≤ τ→ F t (x, y) = 0 (3.8)<br />

( I t (x, y) – B t (x, y)) > τ→ F t (x, y) = 1<br />

En la literatura po<strong>de</strong>mos <strong>en</strong>contrar difer<strong>en</strong>tes formas <strong>de</strong> difer<strong>en</strong>cia:<br />

o Difer<strong>en</strong>cia absoluta: [18] La difer<strong>en</strong>cia absoluta <strong>en</strong>tre la imag<strong>en</strong> actual y<br />

la imag<strong>en</strong> <strong>de</strong> fondo proporciona bor<strong>de</strong>s gruesos que son útiles <strong>en</strong><br />

<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te ya que permit<strong>en</strong> más fácilm<strong>en</strong>te rell<strong>en</strong>ar contornos.<br />

o Difer<strong>en</strong>cia relativa: [19] Consiste <strong>en</strong> aplicar un difer<strong>en</strong>cia <strong>en</strong> función <strong>de</strong><br />

la distribución espacial <strong>de</strong> localización.<br />

o Difer<strong>en</strong>cia normalizada: Otro método <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te que se<br />

realiza aplicando un umbral sobre las estadísticas normalizadas.<br />

o Difer<strong>en</strong>cia basada <strong>en</strong> dos umbrales: [20] Algunos autores, aplican varios<br />

umbrales a la difer<strong>en</strong>cia <strong>en</strong>tre la imag<strong>en</strong> y el fondo para <strong>de</strong>tectar los<br />

objetos <strong>en</strong> movimi<strong>en</strong>to y <strong>de</strong> esta forma, increm<strong>en</strong>tar el grado <strong>de</strong><br />

precisión <strong>en</strong> la <strong>de</strong>tección.<br />

• Técnicas basadas <strong>en</strong> estadísticos: Las técnicas <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te basadas<br />

<strong>en</strong> estadísticos pue<strong>de</strong>n utilizarse si se conoce la función <strong>de</strong>nsidad <strong>de</strong> ruido <strong>de</strong> la<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 29


3. Estado <strong>de</strong>l arte<br />

cámara. Estos métodos, <strong>en</strong> lugar <strong>de</strong> umbralizar la difer<strong>en</strong>cia <strong>de</strong> la imag<strong>en</strong>,<br />

comparan el comportami<strong>en</strong>to estadístico <strong>de</strong> un conjunto <strong>de</strong> valores <strong>de</strong> un píxel<br />

pert<strong>en</strong>eci<strong>en</strong>tes a una serie <strong>de</strong> imág<strong>en</strong>es <strong>de</strong> la secu<strong>en</strong>cia con el píxel <strong>de</strong> la imag<strong>en</strong><br />

actual situado <strong>en</strong> la misma posición que éstos.<br />

Los métodos estadísticos <strong>de</strong>p<strong>en</strong><strong>de</strong>n <strong>de</strong> la distribución con la que se mo<strong>de</strong>le el<br />

fondo, <strong>de</strong> tal forma que cada mo<strong>de</strong>lo <strong>de</strong> fondo utiliza una estrategia difer<strong>en</strong>te<br />

para <strong>de</strong>tectar los píxeles <strong>de</strong> fr<strong>en</strong>te. Por ejemplo:<br />

o Basados <strong>en</strong> una Gaussiana: [14] La imag<strong>en</strong> actual se compara con el mo<strong>de</strong>lo<br />

<strong>de</strong> fondo <strong>de</strong> distribución Gaussiana (µ t , σ t<br />

2 ) mediante la medición <strong>de</strong> la<br />

probabilidad <strong>en</strong> luminancia o color y si la probabilidad es pequeña, el píxel<br />

se clasifica como fr<strong>en</strong>te (Ft = 1), <strong>de</strong> lo contrario, será clasificado como fondo<br />

(Ft = 0).<br />

| I t (x, y) -µ t (x, y) | ≥ cσ t (x, y) → F t (x, y) = 1 (3.9)<br />

| I t (x, y) -µ t (x, y) | < cσ t (x, y) → F t (x, y) = 0<br />

o Basados <strong>en</strong> Mezcla <strong>de</strong> Gaussianas: [15] En una nueva imag<strong>en</strong> procesada, el<br />

valor <strong>de</strong> cada píxel se compara con las k distribuciones que mo<strong>de</strong>lan el píxel<br />

<strong>en</strong> una MoG (µ t , σ t<br />

2 ) a fin <strong>de</strong> <strong>de</strong>cidir si el elem<strong>en</strong>to pert<strong>en</strong>ece al fondo (Ft =<br />

0), recae <strong>de</strong>ntro <strong>de</strong> la Gaussiana k-ésima o al fr<strong>en</strong>te (Ft = 1), si la difer<strong>en</strong>cia<br />

supera la varianza permitida.<br />

<br />

∑ , | It x, y μt x, y, k| t x, y, k Ftx, y 1<br />

<br />

∑ , | It x, y μt x, y, k | cσt x, y, k Ftx, y 0<br />

(3.10)<br />

o Basados <strong>en</strong> la estimación <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> Núcleo e Histogramas: [61] Se<br />

g<strong>en</strong>eran estimaciones <strong>de</strong> probabilidad para cada píxel <strong>en</strong> función <strong>de</strong> los<br />

píxeles almac<strong>en</strong>ados <strong>de</strong> un número <strong>de</strong> imág<strong>en</strong>es anteriores a una procesada,<br />

<strong>de</strong> modo que, un píxel se consi<strong>de</strong>ra primer plano (Ft = 1) si la probabilidad<br />

<strong>de</strong> pert<strong>en</strong>ecer a esta estimación es inferior a un umbral.<br />

f x,y ( imag<strong>en</strong> [ x, y]) > τ → F t (x, y) =0 (3.11)<br />

f x,y ( imag<strong>en</strong> [ x, y]) > τ → F t (x, y) =0<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 30


3. Estado <strong>de</strong>l arte<br />

3.3.3. Seguimi<strong>en</strong>to <strong>de</strong> objetos<br />

El paso inmediatam<strong>en</strong>te posterior a la <strong>de</strong>tección <strong>de</strong> los objetos <strong>en</strong> primer plano (objetos<br />

<strong>en</strong> movimi<strong>en</strong>to) consiste <strong>en</strong> el seguimi<strong>en</strong>to <strong>de</strong> estos objetos. El seguimi<strong>en</strong>to <strong>de</strong> objetos<br />

<strong>en</strong> tiempo real es una tarea crítica <strong>en</strong> muchas aplicaciones como ví<strong>de</strong>o-seguridad,<br />

asist<strong>en</strong>cia al conductor, interfaces <strong>de</strong> usuario perceptuales, compresión <strong>de</strong> vi<strong>de</strong>o basada<br />

<strong>en</strong> objetos, etc.<br />

En un contexto <strong>de</strong> percepción visual, el seguimi<strong>en</strong>to <strong>de</strong> un objeto es, <strong>en</strong> es<strong>en</strong>cia, un<br />

proceso <strong>en</strong> el que se efectúa la <strong>de</strong>tección <strong>de</strong>l objeto u objetos móviles y su<br />

“persecución” a través <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> imág<strong>en</strong>es <strong>de</strong>l <strong>en</strong>torno adquiridas por una o<br />

varias cámaras (estáticas o móviles). El proceso <strong>de</strong> seguimi<strong>en</strong>to pue<strong>de</strong> implicar a<br />

cualquier objeto móvil pres<strong>en</strong>te <strong>en</strong> la esc<strong>en</strong>a, sin reconocer <strong>de</strong> qué objeto se trata o el<br />

seguimi<strong>en</strong>to <strong>de</strong> uno o varios objetos específicos <strong>de</strong>l cual se ti<strong>en</strong>e un mo<strong>de</strong>lo.<br />

Tradicionalm<strong>en</strong>te exist<strong>en</strong> dos aproximaciones para resolver el problema <strong>de</strong>l<br />

seguimi<strong>en</strong>to:<br />

o Las aproximaciones basadas <strong>en</strong> el análisis <strong>de</strong>l cont<strong>en</strong>ido <strong>de</strong> los píxeles:<br />

Estas técnicas <strong>de</strong>terminan las zonas <strong>de</strong> la imag<strong>en</strong> don<strong>de</strong> se produce<br />

movimi<strong>en</strong>to y realizan el seguimi<strong>en</strong>to mediante un análisis <strong>de</strong>l cont<strong>en</strong>ido <strong>de</strong><br />

los píxeles. Ejemplos <strong>de</strong> estas dos aproximaciones son los métodos <strong>basado</strong>s<br />

<strong>en</strong> el análisis <strong>de</strong> movimi<strong>en</strong>tos difer<strong>en</strong>ciales [21] y las técnicas <strong>de</strong> flujo<br />

óptico [22].<br />

o Las aproximaciones basadas <strong>en</strong> mo<strong>de</strong>los: Estas técnicas implican localizar,<br />

<strong>en</strong> cada una <strong>de</strong> las imág<strong>en</strong>es que compon<strong>en</strong> la secu<strong>en</strong>cia, la posición <strong>de</strong>l<br />

objeto móvil <strong>de</strong>l que se dispone <strong>de</strong> un mo<strong>de</strong>lo. Los mo<strong>de</strong>los empleados<br />

suel<strong>en</strong> construirse “a mano”, inducirse a partir <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ejemplos</strong><br />

o adquirirse dinámicam<strong>en</strong>te a partir <strong>de</strong>l objeto móvil. Los métodos <strong>basado</strong>s<br />

<strong>en</strong> mo<strong>de</strong>lo incluy<strong>en</strong>: métodos correlacionales [23], métodos <strong>basado</strong>s <strong>en</strong><br />

correspon<strong>de</strong>ncia [24], métodos <strong>de</strong> filtrado [25], métodos <strong>basado</strong>s <strong>en</strong><br />

contornos <strong>de</strong>formables activos [26] y métodos <strong>basado</strong>s <strong>en</strong> filtrado predictivo<br />

[27].<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 31


3. Estado <strong>de</strong>l arte<br />

3.4. Detección y reconocimi<strong>en</strong>to <strong>de</strong><br />

acciones<br />

El concepto <strong>de</strong> análisis <strong>de</strong> movimi<strong>en</strong>to se pue<strong>de</strong> <strong>de</strong>finir, <strong>en</strong>t<strong>en</strong>di<strong>en</strong>do análisis, como la<br />

separación <strong>de</strong> las partes <strong>de</strong> un todo hasta conocer sus principios y/o elem<strong>en</strong>tos, y<br />

movimi<strong>en</strong>to, como “cambio continuo <strong>en</strong> la posición <strong>de</strong> un objeto”. Por lo tanto el<br />

análisis <strong>de</strong> movimi<strong>en</strong>to se pue<strong>de</strong> <strong>de</strong>finir como la búsqueda <strong>de</strong> los elem<strong>en</strong>tos y principios<br />

que permit<strong>en</strong> los continuos cambios <strong>de</strong> posición <strong>de</strong>l cuerpo humano.<br />

El análisis <strong>de</strong> movimi<strong>en</strong>to no es un tema actual, ya <strong>en</strong> la Antigua Grecia, Aristóteles<br />

(348-322 AC) veía el cuerpo <strong>de</strong> los animales como sistemas mecánicos, lo que expuso<br />

<strong>en</strong> su libro “De Motu Animalium”. Sorpr<strong>en</strong><strong>de</strong>nte resulta saber que él ya cuestionaba las<br />

difer<strong>en</strong>cias fisiológicas <strong>en</strong>tre la acción imaginada y la <strong>de</strong>sarrollada. Mil años <strong>de</strong>spués,<br />

Leonardo Da Vinci (1452-1519) <strong>de</strong>scribiría la mecánica <strong>de</strong> la bipe<strong>de</strong>stación, marcha <strong>en</strong><br />

<strong>de</strong>sc<strong>en</strong>so y asc<strong>en</strong>so, levantami<strong>en</strong>to <strong>de</strong>s<strong>de</strong> s<strong>en</strong>tado y salto, <strong>en</strong> sus dibujos anatómicos.<br />

Ci<strong>en</strong> años <strong>de</strong>spués, Galileo Galilei (1564-1643) haría los primeros int<strong>en</strong>tos por analizar<br />

matemáticam<strong>en</strong>te la función fisiológica y Borelli (1608-1679) apoyado <strong>en</strong> dicho trabajo<br />

dibujó fuera <strong>de</strong> las articulaciones las fuerzas requeridas para el equilibrio <strong>de</strong>l cuerpo.<br />

Algo más tar<strong>de</strong> Newton publicó las “Leyes <strong>de</strong>l Movimi<strong>en</strong>to” y <strong>de</strong>terminó la posición<br />

<strong>de</strong>l c<strong>en</strong>tro <strong>de</strong> gravedad humano. Muybridge (1830-1904) es el primero <strong>en</strong> disecar el<br />

movimi<strong>en</strong>to humano y animal, a través <strong>de</strong> una secu<strong>en</strong>cia fotográfica, luego Marey<br />

(1830-1904) utilizaría ci<strong>en</strong>tíficam<strong>en</strong>te esta técnica para correlacionarla con la fuerza <strong>de</strong><br />

reacción <strong>de</strong>l suelo, hito que marca el inicio <strong>de</strong>l Análisis <strong>de</strong> Movimi<strong>en</strong>to Mo<strong>de</strong>rno.<br />

Actualm<strong>en</strong>te los vi<strong>de</strong>os se crean y se propagan muy fácilm<strong>en</strong>te por los medios <strong>de</strong><br />

comunicación y están al servicio <strong>de</strong>l <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to, <strong>de</strong> la comunicación y otros fines.<br />

La <strong>de</strong>manda asociada <strong>de</strong> extraer las gran<strong>de</strong>s colecciones <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o realistas<br />

motiva a ir más lejos <strong>en</strong> la investigación para el <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to automático <strong>de</strong> ví<strong>de</strong>o. Es<br />

<strong>de</strong> gran interés práctico y ci<strong>en</strong>tífico compr<strong>en</strong><strong>de</strong>r los movimi<strong>en</strong>tos articulados cuerpo,<br />

especialm<strong>en</strong>te los <strong>de</strong>l cuerpo humano. Des<strong>de</strong> la visión <strong>de</strong> la computación, una cuestión<br />

interesante es como repres<strong>en</strong>tar y reconocer los difer<strong>en</strong>tes tipos <strong>de</strong> movimi<strong>en</strong>tos<br />

humanos con mo<strong>de</strong>los eficaces.<br />

Imagínese un ví<strong>de</strong>o tomado una playa soleada, don<strong>de</strong> hay g<strong>en</strong>te jugando al voleibol <strong>de</strong><br />

playa, unos hac<strong>en</strong> surf, y otros dan un paseo a lo largo <strong>de</strong> la playa. ¿Automáticam<strong>en</strong>te<br />

pue<strong>de</strong> un or<strong>de</strong>nador <strong>de</strong>cirnos qué pasa <strong>en</strong> la esc<strong>en</strong>a? ¿Pue<strong>de</strong> i<strong>de</strong>ntificar difer<strong>en</strong>tes<br />

acciones humanas? Actualm<strong>en</strong>te se está estudiando el problema <strong>de</strong> <strong>de</strong>tección y la<br />

clasificación <strong>de</strong> la acción humana <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 32


3. Estado <strong>de</strong>l arte<br />

La tarea <strong>de</strong> clasificación automática y localización <strong>de</strong> acciones humanas <strong>en</strong> secu<strong>en</strong>cias<br />

<strong>de</strong> ví<strong>de</strong>o es sumam<strong>en</strong>te interesante para una gran variedad <strong>de</strong> aplicaciones:<br />

<strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s relevantes <strong>en</strong> ví<strong>de</strong>os <strong>de</strong> vigilancia, resumi<strong>en</strong>do e<br />

in<strong>de</strong>xando secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, organizando una biblioteca digital <strong>de</strong> ví<strong>de</strong>o según las<br />

acciones relevantes, etc. Sigue si<strong>en</strong>do, sin embargo, un problema difícil para los<br />

or<strong>de</strong>nadores lograr el reconocimi<strong>en</strong>to robusto <strong>de</strong> acción <strong>de</strong>bido al fondo <strong>de</strong>sor<strong>de</strong>nado, el<br />

movimi<strong>en</strong>to <strong>de</strong> cámara, la oclusión, cambios <strong>de</strong> punto <strong>de</strong> vista, y las variaciones<br />

geométricas y fotométricas <strong>de</strong> objetos.<br />

En este apartado vamos a com<strong>en</strong>tar algunos <strong>de</strong> los sistemas o algoritmos, que po<strong>de</strong>mos<br />

<strong>en</strong>contrar <strong>en</strong> la literatura, que trabajan <strong>en</strong> sobre el problema <strong>de</strong> la <strong>de</strong>tección y<br />

reconocimi<strong>en</strong>to <strong>de</strong> las acciones humanas.<br />

3.4.1. “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance<br />

for Human Action Classification”<br />

En el docum<strong>en</strong>to “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human Action<br />

Classification” [28] se pres<strong>en</strong>ta un mo<strong>de</strong>lo para caracterizar las acciones humanas, <strong>en</strong><br />

particular, se propone un mo<strong>de</strong>lo que ti<strong>en</strong>e <strong>en</strong> cu<strong>en</strong>ta tanto rasgos estáticos como<br />

dinámicos <strong>de</strong>l movimi<strong>en</strong>to humano [29,30]. Una secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o se repres<strong>en</strong>ta como<br />

una colección <strong>de</strong> características espaciales y espacio-temporales mediante la extracción<br />

<strong>de</strong> puntos estáticos y dinámicos <strong>de</strong> interés.<br />

La utilización <strong>de</strong> las mejores características para <strong>de</strong>scribir la postura y el movimi<strong>en</strong>to ha<br />

sido un tema ampliam<strong>en</strong>te estudiado <strong>en</strong> los últimos años. Por lo g<strong>en</strong>eral, hay tres tipos<br />

<strong>de</strong> rasgos más utilizados: rasgos estáticos <strong>basado</strong>s <strong>en</strong> bor<strong>de</strong>s y la forma <strong>de</strong> los miembros<br />

[31], rasgos dinámicos <strong>basado</strong>s <strong>en</strong> flujos ópticos [32], y los rasgos espacio-temporales<br />

que caracterizan un volum<strong>en</strong> espacio-temporal <strong>de</strong> los datos [29,33]. Las características<br />

espacio-temporales han <strong>de</strong>mostrado ser especialm<strong>en</strong>te prometedoras <strong>en</strong> la marcha para<br />

la compr<strong>en</strong>sión <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong>bido a su rico po<strong>de</strong>r <strong>de</strong>scriptivo. Pero por otro lado,<br />

si sólo <strong>de</strong>p<strong>en</strong><strong>de</strong>mos <strong>de</strong> estas características significa que únicam<strong>en</strong>te se podría<br />

caracterizar los movimi<strong>en</strong>tos <strong>en</strong> los ví<strong>de</strong>os. Sin embargo si nos basamos <strong>en</strong> la<br />

experi<strong>en</strong>cia <strong>de</strong> la vida cotidiana, nos damos cu<strong>en</strong>ta que los seres humanos pue<strong>de</strong>n<br />

reconocer perfectam<strong>en</strong>te un movimi<strong>en</strong>to basándose <strong>en</strong> un solo gesto. Por lo tanto <strong>en</strong><br />

este trabajo se propone el uso híbrido <strong>de</strong> rasgos <strong>de</strong> forma estáticos así como rasgos<br />

espaciales temporales.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 33


3. Estado <strong>de</strong>l arte<br />

Por otro lado para objetos estructurados como el cuerpo humano, es importante mo<strong>de</strong>lar<br />

la relación geométrica mutua <strong>en</strong>tre las difer<strong>en</strong>tes partes. Los mo<strong>de</strong>los <strong>de</strong> constelación<br />

ofrec<strong>en</strong> una solución <strong>de</strong> este tipo [30]. Lam<strong>en</strong>tablem<strong>en</strong>te, <strong>de</strong>bido a la complejidad<br />

computacional <strong>de</strong>l mo<strong>de</strong>lo, sólo se pue<strong>de</strong> utilizar un número muy reducido <strong>de</strong><br />

características. Otro <strong>en</strong>foque es per<strong>de</strong>r toda la información geométrica y consi<strong>de</strong>rar los<br />

mo<strong>de</strong>los <strong>de</strong> “bag of words”. Estos han resultado ser sumam<strong>en</strong>te efici<strong>en</strong>tes y eficaces <strong>en</strong><br />

la clasificación <strong>de</strong> objetos y <strong>de</strong>l movimi<strong>en</strong>to humano. En el docum<strong>en</strong>to se propone un<br />

método <strong>de</strong> explotar a ambos, el po<strong>de</strong>r geométrico <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación así como<br />

la riqueza <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> “bag of words”. Reconoci<strong>en</strong>do el límite computacional <strong>de</strong><br />

t<strong>en</strong>er un número muy pequeño <strong>de</strong> partes totalm<strong>en</strong>te conectadas <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong><br />

constelación. Pero <strong>en</strong> vez <strong>de</strong> aplicarse esto directam<strong>en</strong>te <strong>en</strong> los rasgos <strong>de</strong> la imag<strong>en</strong>, se<br />

adjunta el mo<strong>de</strong>lo <strong>de</strong> “bag of words” a cada parte <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación. La<br />

repres<strong>en</strong>tación g<strong>en</strong>eral incorpora un mo<strong>de</strong>lo jerárquico que combina un mo<strong>de</strong>lo <strong>de</strong><br />

constelación <strong>de</strong> pocas partes con mo<strong>de</strong>los <strong>de</strong> “bag of words” con un número gran<strong>de</strong> y<br />

flexible <strong>de</strong> rasgos.<br />

En la versión más simple, el mo<strong>de</strong>lo costa <strong>de</strong> dos niveles jerárquicos. La capa superior<br />

esta cercana <strong>en</strong> forma a las condiciones <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación, se compone <strong>de</strong> un<br />

conjunto <strong>de</strong> P partes cuya posición está repres<strong>en</strong>tada por una <strong>de</strong>nsidad Gaussiana <strong>de</strong> sus<br />

posiciones relativas. Cada una <strong>de</strong> las partes P p (p = 1... P) está conectada a N p rasgos <strong>de</strong><br />

imag<strong>en</strong> <strong>en</strong> el nivel inferior, y a su vez está asociado a las distribuciones <strong>de</strong> aparición y<br />

ubicación relativa <strong>de</strong> las características que se le asign<strong>en</strong>. En otras palabras, la capa<br />

superior es una constelación <strong>de</strong> partes, y cada una <strong>de</strong> estas partes se asocia a una "bolsa<br />

<strong>de</strong> características" <strong>en</strong> la capa inferior. Debido a sus limitaciones geométricas, este<br />

mo<strong>de</strong>lo es conv<strong>en</strong>i<strong>en</strong>te para capturar configuraciones <strong>de</strong> cuerpo similares o posturas.<br />

Tras la observación <strong>de</strong> que las acciones humanas son el resultado <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong><br />

posturas, que surg<strong>en</strong> <strong>de</strong> unos pocos conjuntos <strong>de</strong> configuraciones <strong>de</strong> cuerpo similares,<br />

se llega a la conclusión <strong>de</strong> que una única acción está mejor repres<strong>en</strong>tada como una<br />

distribución multimodal <strong>de</strong> forma y apari<strong>en</strong>cia. Para t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta esta<br />

multimodalidad, se usa una mezcla <strong>de</strong> mo<strong>de</strong>los jerárquicos, don<strong>de</strong> cada uno <strong>de</strong> los<br />

compon<strong>en</strong>tes correspon<strong>de</strong> a una serie <strong>de</strong> poses que se agrupan según su semejanza.<br />

Consi<strong>de</strong>rando un nuevo frame <strong>de</strong> ví<strong>de</strong>o y los mo<strong>de</strong>los apr<strong>en</strong>didos para cada clase <strong>de</strong><br />

acción, la tarea es clasificar los nuevos datos que pert<strong>en</strong>ec<strong>en</strong> a uno <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong><br />

acción. Suponga que se ti<strong>en</strong>e C números <strong>de</strong> clases. Se calcula la probabilidad <strong>de</strong><br />

observar los datos <strong>de</strong> imag<strong>en</strong> dados que han sido g<strong>en</strong>erados <strong>de</strong> cada clase C. Esto<br />

produce un vector <strong>de</strong> características C-dim<strong>en</strong>sional <strong>de</strong> la <strong>en</strong>trada <strong>en</strong> el espacio mo<strong>de</strong>lo.<br />

Se calcula este vector <strong>de</strong> rasgos para cada ejemplo <strong>en</strong> un conjunto <strong>de</strong> validación, y se<br />

usa para <strong>en</strong>tr<strong>en</strong>ar un clasificador discriminatorio. Por lo tanto, una <strong>de</strong>cisión <strong>de</strong><br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 34


3. Estado <strong>de</strong>l arte<br />

clasificación se hace primero calculando la probabilidad <strong>de</strong> la <strong>en</strong>trada según cada uno<br />

<strong>de</strong> los C mo<strong>de</strong>los <strong>de</strong> acción, y luego categorizando este vector <strong>de</strong> características C-<br />

dim<strong>en</strong>sional usando el clasificador discriminativo.<br />

A<strong>de</strong>más, las <strong>de</strong>cisiones pue<strong>de</strong>n ser hechas sobre una gama <strong>de</strong> frames <strong>de</strong> ví<strong>de</strong>o<br />

adoptando una estrategia <strong>de</strong> bolso-<strong>de</strong>-frames. Primero, cada frame es clasificado por<br />

separado, y se le asigna un voto a favor <strong>de</strong> una clase <strong>de</strong> acción. La secu<strong>en</strong>cia completa<br />

<strong>de</strong> ví<strong>de</strong>o es clasificada por ser la categoría que reune la mayoría <strong>de</strong> los votos.<br />

En resum<strong>en</strong> el objetivo <strong>de</strong> este <strong>en</strong>foque es conseguir un mo<strong>de</strong>lo jerárquico que pue<strong>de</strong><br />

caracterizarse como una constelación <strong>de</strong> bolsas <strong>de</strong> características y que es capaz <strong>de</strong><br />

combinar características espaciales y espacial-temporales cuya finalidad es apr<strong>en</strong><strong>de</strong>r y<br />

clasificar las difer<strong>en</strong>tes categorías <strong>de</strong> movimi<strong>en</strong>to humano.<br />

3.4.2. “Unsupervised Learning of Human Action<br />

Categories Using Spatial-TemporalWords”<br />

En el trabajo “Unsupervised Learning of Human Action Categories Using Spatial-<br />

TemporalWords” [34] se quiere diseñar un algoritmo que permite a la computadora<br />

apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los <strong>de</strong> las acciones humanas. Entonces, dado un nuevo ví<strong>de</strong>o, el<br />

algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir qué acción humana está pres<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia.<br />

A<strong>de</strong>más, se quiere buscar el medio <strong>de</strong> proporcionar una indicación preliminar <strong>de</strong> don<strong>de</strong><br />

está (<strong>en</strong> el espacio y el tiempo) si<strong>en</strong>do realizada la acción.<br />

El fondo <strong>de</strong>sor<strong>de</strong>nado, el movimi<strong>en</strong>to <strong>de</strong> cámara, la oclusión, los cambios <strong>de</strong> punto <strong>de</strong><br />

vista, y las variaciones geométricas y fotométricas <strong>de</strong> objetos son problemas que causan<br />

que pocos algoritmos <strong>de</strong> visión puedan i<strong>de</strong>ntificar, clasificar y localizar los<br />

movimi<strong>en</strong>tos <strong>de</strong> forma a<strong>de</strong>cuada. A<strong>de</strong>más, el <strong>de</strong>safío es aún mayor cuando hay<br />

múltiples activida<strong>de</strong>s <strong>en</strong> una secu<strong>en</strong>cia compleja <strong>de</strong> ví<strong>de</strong>o. En este trabajo se pres<strong>en</strong>ta un<br />

algoritmo que está ori<strong>en</strong>tado a explicar estos esc<strong>en</strong>arios.<br />

Se propone <strong>en</strong> este artículo un acercami<strong>en</strong>to <strong>de</strong> un mo<strong>de</strong>lo gráfico g<strong>en</strong>erativo para<br />

apr<strong>en</strong><strong>de</strong>r y reconocer acciones humanas <strong>en</strong> ví<strong>de</strong>o, aprovechando la repres<strong>en</strong>tación<br />

robusta <strong>de</strong> los escasos puntos <strong>de</strong> interés espacio-temporales y un <strong>en</strong>foque <strong>de</strong> estudio no<br />

supervisado. El estudio no supervisado se logra obt<strong>en</strong>i<strong>en</strong>do parámetros <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong><br />

acción prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o sin segm<strong>en</strong>tar ni etiquetar, que conti<strong>en</strong><strong>en</strong> un<br />

número conocido <strong>de</strong> clases <strong>de</strong> acción humanas. Se emplea un <strong>en</strong>torno <strong>de</strong> estudio sin<br />

supervisión porque esto abre la posibilidad <strong>de</strong> aprovechar la cantidad creci<strong>en</strong>te <strong>de</strong> datos<br />

disponibles <strong>de</strong> ví<strong>de</strong>o, sin el costo <strong>de</strong> la <strong>de</strong>tallada anotación humana. Con este fin, un<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 35


3. Estado <strong>de</strong>l arte<br />

<strong>en</strong>foque g<strong>en</strong>erativo proporciona los medios para apr<strong>en</strong><strong>de</strong>r los mo<strong>de</strong>los <strong>de</strong> una manera no<br />

supervisada, <strong>en</strong> contraposición a los mo<strong>de</strong>los <strong>de</strong> discriminación que, <strong>en</strong> g<strong>en</strong>eral,<br />

requier<strong>en</strong> datos <strong>de</strong>tallados etiquetados.<br />

Este método está motivado por el éxito <strong>de</strong> la <strong>de</strong>tección/clasificación <strong>de</strong> objeto o la<br />

clasificación <strong>de</strong> esc<strong>en</strong>a <strong>de</strong> imág<strong>en</strong>es estáticas sin etiquetar, usando mo<strong>de</strong>los <strong>de</strong> tema<br />

lat<strong>en</strong>tes [35]. Una consi<strong>de</strong>ración clave <strong>en</strong> estos trabajos es conocida como la<br />

repres<strong>en</strong>tación " bag of words", don<strong>de</strong> la disposición geométrica <strong>en</strong>tre características<br />

visuales es ignorada. Esto comúnm<strong>en</strong>te se implem<strong>en</strong>ta como un histograma <strong>de</strong>l número<br />

<strong>de</strong> casos <strong>de</strong> patrones visuales particulares <strong>en</strong> una imag<strong>en</strong> dada.<br />

Dado un conjunto <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o sin etiquetar este método pret<strong>en</strong><strong>de</strong> <strong>de</strong>scubrir<br />

un conjunto <strong>de</strong> clases <strong>de</strong> ellos. Cada una <strong>de</strong> estas clases correspon<strong>de</strong>ría a una categoría<br />

<strong>de</strong> acción, tal que se pue<strong>de</strong> construir mo<strong>de</strong>los para cada clase. A<strong>de</strong>más, pret<strong>en</strong><strong>de</strong><br />

<strong>en</strong>t<strong>en</strong><strong>de</strong>r los ví<strong>de</strong>os que están compuestos por una mezcla <strong>de</strong> categorías <strong>de</strong> acción, para<br />

manejar el caso <strong>de</strong> múltiples movimi<strong>en</strong>tos. Esto se parece al problema <strong>de</strong>l<br />

<strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> tema automático <strong>en</strong> el análisis <strong>de</strong> texto. En este caso, se quiere<br />

analizar secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> vez <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> texto; las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o son<br />

resumidas como un conjunto <strong>de</strong> palabras espacio-temporales <strong>en</strong> vez <strong>de</strong> palabras <strong>de</strong><br />

texto; se procura <strong>de</strong>scubrir categorías <strong>de</strong> acción <strong>en</strong> vez <strong>de</strong> temas <strong>de</strong> texto; y los ví<strong>de</strong>os<br />

son explicados como una mezcla <strong>de</strong> acciones <strong>en</strong> vez <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> texto como una<br />

mezcla <strong>de</strong> temas.<br />

Con este trabajo, se investigan dos mo<strong>de</strong>los que se propusieron <strong>en</strong> la literatura <strong>de</strong><br />

análisis <strong>de</strong> texto para dirigir el problema <strong>de</strong> <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> tema lat<strong>en</strong>te:<br />

probabilistic Lat<strong>en</strong>t Semantic nalysis (pLSA) by Hofmann (1999) [36] and Lat<strong>en</strong>t<br />

Dirichlet Allocation (LDA) by Blei et al. (2003) [37]. En este trabajo, se investiga la<br />

conv<strong>en</strong>i<strong>en</strong>cia <strong>de</strong> ambos mo<strong>de</strong>los para el análisis <strong>de</strong> ví<strong>de</strong>o explorando las v<strong>en</strong>tajas <strong>de</strong> la<br />

po<strong>de</strong>rosa repres<strong>en</strong>tación y la gran flexibilidad <strong>de</strong> estos mo<strong>de</strong>los gráficos g<strong>en</strong>erativos.<br />

Así pues, estos mo<strong>de</strong>los proporcionan un marco <strong>de</strong> apr<strong>en</strong>dizaje sin supervisión, que<br />

permite <strong>de</strong>scubrir automáticam<strong>en</strong>te agrupaciones semánticas <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong><br />

datos. También, a difer<strong>en</strong>cia <strong>de</strong> métodos discriminatorios como Support Vector<br />

Machines, pLSA y LDA permit<strong>en</strong> al algoritmo realizar el razonami<strong>en</strong>to significativo<br />

sobre los datos más allá <strong>de</strong> la clasificación, por ejemplo la localización <strong>de</strong> asunto.<br />

A<strong>de</strong>más, tal localización pue<strong>de</strong> ser realizada sin la necesidad <strong>de</strong> explorar miles o<br />

millones <strong>de</strong> v<strong>en</strong>tanas por imag<strong>en</strong>. Estos mo<strong>de</strong>los, sin embargo, no proporcionan<br />

invariancias <strong>de</strong> escala espacial ni temporal. Así, estos sólo pue<strong>de</strong>n trabajar <strong>de</strong>ntro <strong>de</strong> un<br />

pequeño marg<strong>en</strong> <strong>de</strong> las escalas que ha sido observado <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 36


3. Estado <strong>de</strong>l arte<br />

En este sistema se repres<strong>en</strong>ta cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o como una colección <strong>de</strong> palabras<br />

espacio-temporales extray<strong>en</strong>do puntos <strong>de</strong> interés <strong>de</strong> espacio-tiempo. Se usa el método<br />

<strong>de</strong> filtro lineal separable, ya que g<strong>en</strong>eralm<strong>en</strong>te produce un alto número <strong>de</strong> <strong>de</strong>tecciones.<br />

Como po<strong>de</strong>mos ver <strong>en</strong> la figura 3.7 pequeños pedazos <strong>de</strong> ví<strong>de</strong>o son extraídos <strong>de</strong> cada<br />

punto interés y constituy<strong>en</strong> la información local que se utiliza para apr<strong>en</strong><strong>de</strong>r y reconocer<br />

categorías <strong>de</strong> acción humanas. Empleando rasgos locales, se int<strong>en</strong>ta ac<strong>en</strong>tuar la<br />

importancia <strong>de</strong>l corto rango <strong>de</strong> patrones espacio-temporales. Los patrones locales<br />

observados son bastante discriminatorios a través <strong>de</strong> clases <strong>de</strong> acción humanas, y<br />

proporcionan un espacio característico razonable que permite construir bu<strong>en</strong>os mo<strong>de</strong>los<br />

<strong>de</strong> acción humana.<br />

Figura 3.7: Muestra la <strong>de</strong>tección <strong>de</strong> los puntos <strong>de</strong> interés usando el método <strong>de</strong> filtro lineal<br />

separable.<br />

Para obt<strong>en</strong>er un <strong>de</strong>scriptor para cada cubo espacial temporal, se calculan sus gradi<strong>en</strong>tes<br />

<strong>de</strong> brillo sobre ‘x’, y ‘y’ direcciones <strong>de</strong> ‘t’. El cubo espacial temporal <strong>en</strong>tonces es<br />

alisado <strong>en</strong> escalas difer<strong>en</strong>tes antes <strong>de</strong>l cálculo <strong>de</strong> los gradi<strong>en</strong>tes <strong>de</strong> imag<strong>en</strong>. Los<br />

gradi<strong>en</strong>tes calculados se concat<strong>en</strong>an para formar un vector.<br />

El <strong>de</strong>scriptor que se utiliza es un <strong>de</strong>scriptor muy simple <strong>basado</strong> <strong>en</strong> gradi<strong>en</strong>tes <strong>de</strong> imag<strong>en</strong>,<br />

tal <strong>de</strong>scriptor no proporciona invariancia <strong>de</strong> escala, ni <strong>en</strong> el espacio, ni dominio <strong>de</strong><br />

tiempo, tampoco captura el movimi<strong>en</strong>to relativo <strong>de</strong> la cámara. Sin embargo, los<br />

<strong>de</strong>scriptores más complejos que incluy<strong>en</strong> pequeñas invariancias a la escala espacial y a<br />

la velocidad, así como invariancias a pequeños movimi<strong>en</strong>tos <strong>de</strong> cámara, ti<strong>en</strong><strong>en</strong> una<br />

mayor complejidad computacional. En este acercami<strong>en</strong>to se confía <strong>en</strong> el co<strong>de</strong>book para<br />

manejar cambios <strong>de</strong> escala y movimi<strong>en</strong>tos <strong>de</strong> cámara. Mi<strong>en</strong>tras los rasgos locales recién<br />

observados no conti<strong>en</strong><strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> cambio <strong>de</strong> escala y ni el movimi<strong>en</strong>to <strong>de</strong> cámara<br />

que es sumam<strong>en</strong>te difer<strong>en</strong>te <strong>de</strong> los observados <strong>en</strong> los datos utilizados para formar el<br />

co<strong>de</strong>book, se espera que rasgos locales similares sean asignados a miembros constantes<br />

<strong>en</strong> el co<strong>de</strong>book.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 37


3. Estado <strong>de</strong>l arte<br />

Los mo<strong>de</strong>los tema lat<strong>en</strong>te pLSA y LDA se basan <strong>en</strong> la exist<strong>en</strong>cia <strong>de</strong> un vocabulario<br />

finito <strong>de</strong> las palabras espacio-temporales <strong>de</strong> tamaño V. Para apr<strong>en</strong><strong>de</strong>r el vocabulario <strong>de</strong><br />

palabras espacio-temporales, consi<strong>de</strong>ramos el juego <strong>de</strong> <strong>de</strong>scriptores correspondi<strong>en</strong>te a<br />

todos los puntos <strong>de</strong> interés espacio-temporales <strong>de</strong>scubiertos <strong>en</strong> los datos que se<br />

<strong>en</strong>tr<strong>en</strong>an. Este vocabulario es construido por agrupación utilizando el algoritmo K-<br />

means y la distancia euclí<strong>de</strong>a como métrica <strong>de</strong> agrupación. El c<strong>en</strong>tro resultante <strong>de</strong> cada<br />

grupo se <strong>de</strong>fine como una palabra espacio-temporal. Así, cada punto <strong>de</strong> interés<br />

<strong>de</strong>scubierto pue<strong>de</strong> ser asignado a un único grupo.<br />

Una característica importante <strong>de</strong> los mo<strong>de</strong>los pLSA y LDA es que están <strong>basado</strong>s <strong>en</strong> la<br />

suposición <strong>de</strong> bolso <strong>de</strong> <strong>de</strong> palabras, es <strong>de</strong>cir el or<strong>de</strong>n <strong>de</strong> las palabras <strong>en</strong> un docum<strong>en</strong>to <strong>de</strong><br />

texto pue<strong>de</strong> ser <strong>de</strong>scuidada. En el contexto <strong>de</strong> clasificación <strong>de</strong> acción humana, la<br />

suposición <strong>de</strong> bolso <strong>de</strong> palabras se traduce <strong>en</strong> una repres<strong>en</strong>tación <strong>de</strong> ví<strong>de</strong>o que ignora el<br />

conv<strong>en</strong>io posicional, <strong>en</strong> el espacio y el tiempo, <strong>de</strong> los puntos <strong>de</strong> interés espaciales<br />

temporales. Tal suposición trae las v<strong>en</strong>tajas <strong>de</strong> usar una repres<strong>en</strong>tación simple que hace<br />

el apr<strong>en</strong>dizaje eficaz. La car<strong>en</strong>cia <strong>de</strong> información espacial proporciona poca<br />

información sobre el cuerpo humano, mi<strong>en</strong>tras la car<strong>en</strong>cia información temporal a largo<br />

plazo no permite mo<strong>de</strong>lar las acciones más complejas que no están constituidas por<br />

patrones simples repetitivos.<br />

Cuando la secu<strong>en</strong>cia <strong>de</strong> pruebas es consi<strong>de</strong>rablem<strong>en</strong>te larga, la secu<strong>en</strong>cia se divi<strong>de</strong> <strong>en</strong><br />

subsecu<strong>en</strong>cias utilizando una v<strong>en</strong>tana temporal que se <strong>de</strong>sliza. Tales subsecu<strong>en</strong>cias son<br />

tratadas por separado y obt<strong>en</strong>emos <strong>de</strong>cisiones <strong>de</strong> clasificación para cada uno <strong>de</strong> ellas.<br />

Esto es necesario <strong>de</strong>bido a la naturaleza <strong>de</strong> la repres<strong>en</strong>tación: la car<strong>en</strong>cia <strong>de</strong><br />

or<strong>de</strong>nami<strong>en</strong>to temporal relativo <strong>de</strong> características <strong>en</strong> nuestra repres<strong>en</strong>tación <strong>de</strong> " bag of<br />

words" no proporciona el medio para asignar etiquetas <strong>en</strong> los casos <strong>de</strong> tiempo difer<strong>en</strong>tes<br />

<strong>de</strong>ntro <strong>de</strong> un ví<strong>de</strong>o; <strong>en</strong> cambio, el análisis es hecho para la secu<strong>en</strong>cia completa. Así,<br />

dividi<strong>en</strong>do el ví<strong>de</strong>o largo original <strong>en</strong> subsecu<strong>en</strong>cias, el método pue<strong>de</strong> asignar etiquetas a<br />

cada subsecu<strong>en</strong>cia <strong>de</strong>ntro <strong>de</strong> la secu<strong>en</strong>cia larga.<br />

Las contribuciones <strong>de</strong> este trabajo son dobles. Primero, se propone un acercami<strong>en</strong>to <strong>de</strong><br />

estudio no supervisado para acciones humanas que usan una repres<strong>en</strong>tación <strong>de</strong> bolso<br />

<strong>de</strong> palabras. Se aplican dos mo<strong>de</strong>los <strong>de</strong> asunto lat<strong>en</strong>tes, pLSA y LDA, al problema <strong>de</strong><br />

apr<strong>en</strong><strong>de</strong>r y reconocer categorías <strong>de</strong> acción humanas, adoptando la repres<strong>en</strong>tación <strong>de</strong><br />

"bag of spatial-temporal words " para secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Segundo, este método pue<strong>de</strong><br />

localizar y clasificar múltiples acciones <strong>en</strong> un solo ví<strong>de</strong>o. A<strong>de</strong>más <strong>de</strong> la tarea <strong>de</strong><br />

clasificación, este acercami<strong>en</strong>to también pue<strong>de</strong> localizar acciones difer<strong>en</strong>tes<br />

simultáneam<strong>en</strong>te <strong>en</strong> una secu<strong>en</strong>cia nueva y compleja <strong>de</strong> ví<strong>de</strong>o. Esto incluye los casos<br />

don<strong>de</strong> varias personas realizan acciones distintas al mismo tiempo, y también<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 38


3. Estado <strong>de</strong>l arte<br />

situaciones don<strong>de</strong> una persona sola realiza acciones distintas durante el tiempo que dura<br />

una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />

3.4.3. “Actions in Context”<br />

El artículo “Actions in Context” [38] nos da un <strong>en</strong>foque para <strong>en</strong>t<strong>en</strong><strong>de</strong>r las secu<strong>en</strong>cias <strong>de</strong><br />

ví<strong>de</strong>o basándose <strong>en</strong> el estudio conjunto <strong>de</strong> las acciones, los esc<strong>en</strong>arios y los objetos,<br />

b<strong>en</strong>eficiándose así <strong>de</strong> las limitaciones contextuales mutuas que hay <strong>en</strong>tre ellos.<br />

Este trabajo se construye sobre la susodicha intuición y explota relaciones <strong>de</strong><br />

concurr<strong>en</strong>cia <strong>en</strong>tre acciones y esc<strong>en</strong>as <strong>en</strong> el ví<strong>de</strong>o. A partir <strong>de</strong> un <strong>de</strong>terminado conjunto<br />

<strong>de</strong> clases <strong>de</strong> acciones, se pret<strong>en</strong><strong>de</strong> <strong>de</strong>scubrir automáticam<strong>en</strong>te las clases <strong>de</strong> esc<strong>en</strong>a<br />

correlacionadas y usar esta correlación para mejorar el reconocimi<strong>en</strong>to <strong>de</strong> acción. Ya<br />

que algunas acciones son relativam<strong>en</strong>te in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> la esc<strong>en</strong>a (p.ej. "la risa"), no<br />

se espera que el contexto sea igualm<strong>en</strong>te importante para todas las acciones. El contexto<br />

<strong>de</strong> esc<strong>en</strong>a, sin embargo, esta correlacionado con muchas clases <strong>de</strong> acción. Es por lo<br />

tanto es<strong>en</strong>cial para el reconocimi<strong>en</strong>to <strong>de</strong> acción <strong>en</strong> g<strong>en</strong>eral.<br />

En este acercami<strong>en</strong>to se exploran esc<strong>en</strong>as y acciones <strong>en</strong> ví<strong>de</strong>os g<strong>en</strong>éricos y realistas. Se<br />

evitan situaciones específicas tales como vigilancia o <strong>de</strong>portes, y se consi<strong>de</strong>ra un<br />

conjunto gran<strong>de</strong> y diverso <strong>de</strong> muestras <strong>de</strong> ví<strong>de</strong>o <strong>de</strong> películas, se usan guiones <strong>de</strong><br />

película para la anotación automática <strong>de</strong> ví<strong>de</strong>o y se aplica la extracción <strong>de</strong> texto para<br />

<strong>de</strong>scubrir las clases <strong>de</strong> esc<strong>en</strong>a que concurr<strong>en</strong> con las acciones dadas. Se utiliza la<br />

alineación <strong>de</strong> guion-a-ví<strong>de</strong>o y la búsqueda <strong>de</strong> texto para recuperar automáticam<strong>en</strong>te las<br />

muestras <strong>de</strong> ví<strong>de</strong>o y las etiquetas correspondi<strong>en</strong>tes para las esc<strong>en</strong>as y acciones <strong>en</strong><br />

películas.<br />

Los guiones son docum<strong>en</strong>tos <strong>de</strong> texto disponibles públicam<strong>en</strong>te para la mayoría <strong>de</strong> las<br />

películas populares, conti<strong>en</strong><strong>en</strong> títulos <strong>de</strong> esc<strong>en</strong>a, diálogos y <strong>de</strong>scripciones <strong>de</strong> esc<strong>en</strong>a,<br />

pero por lo g<strong>en</strong>eral no ofrec<strong>en</strong> la sincronización <strong>de</strong> tiempo con el ví<strong>de</strong>o. Este problema<br />

se aborda utilizando los subtítulos que si están sincronizados con el ví<strong>de</strong>o. Así para<br />

conseguir la alineación guion-a-vi<strong>de</strong>o se utiliza la información <strong>de</strong> tiempo <strong>de</strong> los<br />

subtítulos para po<strong>de</strong>r estimar la localización temporal <strong>de</strong> los títulos <strong>de</strong> esc<strong>en</strong>a y las<br />

<strong>de</strong>scripciones <strong>de</strong> esc<strong>en</strong>a.<br />

Mejorar la clasificación <strong>de</strong> acciones explotando relaciones que ocurr<strong>en</strong> <strong>en</strong>tre acciones y<br />

su contexto <strong>de</strong> esc<strong>en</strong>a es la finalidad principal <strong>de</strong> este trabajo. Esto se consigue para un<br />

conjunto dado <strong>de</strong> clases <strong>de</strong> acción mediante (i) la i<strong>de</strong>ntificación <strong>de</strong> tipos <strong>de</strong> esc<strong>en</strong>a<br />

relevantes (ii) y la estimación <strong>de</strong> la relación <strong>de</strong> concurr<strong>en</strong>cia con las acciones. En este<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 39


3. Estado <strong>de</strong>l arte<br />

punto es don<strong>de</strong> se recurre a los guiones <strong>de</strong> cine, anteriorm<strong>en</strong>te sincronizados con el<br />

ví<strong>de</strong>o, ya que usando los títulos <strong>de</strong> esc<strong>en</strong>a y las <strong>de</strong>scripciones cortas <strong>de</strong> esc<strong>en</strong>a se<br />

obti<strong>en</strong>e la información requerida sobre los tipos <strong>de</strong> esc<strong>en</strong>a y su concurr<strong>en</strong>cia con las<br />

acciones. Una vez t<strong>en</strong>emos esta información se pue<strong>de</strong>n recuperar automáticam<strong>en</strong>te las<br />

muestras <strong>de</strong> ví<strong>de</strong>o con las etiquetas correspondi<strong>en</strong>tes para las esc<strong>en</strong>as y acciones <strong>en</strong><br />

películas.<br />

Figura 3.8: Ilustración sobre la concurr<strong>en</strong>cia <strong>en</strong>tre las clases <strong>de</strong> esc<strong>en</strong>a y las acciones.<br />

El tamaño <strong>de</strong> los círculos <strong>de</strong> la figura 3.8 correspon<strong>de</strong> a las probabilida<strong>de</strong>s estimadas <strong>de</strong><br />

que una clase <strong>de</strong> acción se dé <strong>en</strong> una <strong>de</strong>terminada esc<strong>en</strong>a y coinci<strong>de</strong> así con las<br />

expectativas intuitivas. Por ejemplo, correr sobre todo ocurre <strong>en</strong> esc<strong>en</strong>as exteriores,<br />

mi<strong>en</strong>tras que comer ocurre <strong>en</strong> esc<strong>en</strong>as <strong>de</strong> restaurante y <strong>en</strong> la cocina. El color ver<strong>de</strong> <strong>de</strong><br />

los círculos correspon<strong>de</strong> a las concurr<strong>en</strong>cias calculadas automáticam<strong>en</strong>te <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar<br />

guiones y el color amarillo correspon<strong>de</strong> a las concurr<strong>en</strong>cias manualm<strong>en</strong>te evaluadas<br />

sobre las películas <strong>de</strong> prueba, como se pue<strong>de</strong> observar el reparto <strong>de</strong>ntro <strong>de</strong> los círculos<br />

es equitativo por lo tanto se valida la coher<strong>en</strong>cia <strong>en</strong>tre las relaciones extraídas <strong>de</strong>l texto<br />

y lo que realm<strong>en</strong>te se produce <strong>en</strong> los ví<strong>de</strong>os.<br />

Consi<strong>de</strong>rando las muestras <strong>de</strong> ví<strong>de</strong>o recuperadas automáticam<strong>en</strong>te con etiquetas<br />

posiblem<strong>en</strong>te ruidosas, se usa la repres<strong>en</strong>tación <strong>de</strong> bolsa <strong>de</strong> características y SVM para<br />

apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los visuales separados para la clasificación <strong>de</strong> esc<strong>en</strong>a y la acción.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 40


3. Estado <strong>de</strong>l arte<br />

La repres<strong>en</strong>tación <strong>de</strong> bolsa <strong>de</strong> características ve los ví<strong>de</strong>os como volúm<strong>en</strong>es espaciotemporales.<br />

Consi<strong>de</strong>rando una muestra <strong>de</strong> ví<strong>de</strong>o, las principales regiones locales son<br />

extraídas usando un <strong>de</strong>tector <strong>de</strong> punto <strong>de</strong> interés. Después, el cont<strong>en</strong>ido <strong>de</strong> ví<strong>de</strong>o <strong>en</strong><br />

cada una <strong>de</strong> las regiones <strong>de</strong>tectadas es <strong>de</strong>scrito con <strong>de</strong>scriptores locales. Finalm<strong>en</strong>te, las<br />

distribuciones <strong>de</strong>sor<strong>de</strong>nadas <strong>de</strong> rasgos son calculadas para toda la muestra <strong>de</strong> ví<strong>de</strong>o.<br />

Para construir la base <strong>de</strong> refer<strong>en</strong>cia se extrae movimi<strong>en</strong>to <strong>basado</strong> <strong>en</strong> las características<br />

espacio-tiempo. Esta repres<strong>en</strong>tación se c<strong>en</strong>tra <strong>en</strong> las acciones humanas consi<strong>de</strong>radas<br />

como patrones <strong>de</strong> movimi<strong>en</strong>to. Las regiones sali<strong>en</strong>tes <strong>de</strong>scubiertas correspon<strong>de</strong>n al<br />

movimi<strong>en</strong>to y los rasgos están <strong>basado</strong>s <strong>en</strong> la dinámica <strong>de</strong> gradi<strong>en</strong>te y el flujo óptico.<br />

Este <strong>en</strong>foque básico ha <strong>de</strong>mostrado el éxito <strong>en</strong> el reconocimi<strong>en</strong>to <strong>de</strong> la acción, pero por<br />

sí solo no es sufici<strong>en</strong>te para la clasificación <strong>de</strong> la esc<strong>en</strong>a. Para t<strong>en</strong>er mo<strong>de</strong>los <strong>de</strong> esc<strong>en</strong>as<br />

fiables, es necesario incluir el aspecto estático, a<strong>de</strong>más <strong>de</strong> los patrones <strong>de</strong> movimi<strong>en</strong>to.<br />

Por lo tanto el ví<strong>de</strong>o también es visto como una colección <strong>de</strong> frames. Esto permite<br />

emplear los compon<strong>en</strong>tes <strong>de</strong> bolsas <strong>de</strong> características <strong>de</strong>sarrollados para la esc<strong>en</strong>a<br />

estática y el reconocimi<strong>en</strong>to <strong>de</strong> objeto y t<strong>en</strong>er una repres<strong>en</strong>tación híbrida <strong>en</strong> un marco <strong>de</strong><br />

trabajo unificado.<br />

Usamos el Support Vector Classifier [39] (SVM) para apr<strong>en</strong><strong>de</strong>r el contexto <strong>de</strong> esc<strong>en</strong>a y<br />

acciones. La función <strong>de</strong> <strong>de</strong>cisión <strong>de</strong> un clasificador C-SVM binario ti<strong>en</strong>e la forma<br />

sigui<strong>en</strong>te:<br />

∑ , <br />

(3.12)<br />

El kernel más simple posible es un kernel lineal. La función <strong>de</strong> <strong>de</strong>cisión <strong>en</strong>tonces pue<strong>de</strong><br />

ser vuelta a escribir como una suma pon<strong>de</strong>rada <strong>de</strong> compon<strong>en</strong>tes <strong>de</strong> muestra.<br />

, , (3.13)<br />

Como la principal contribución <strong>de</strong> este docum<strong>en</strong>to se <strong>de</strong>muestra que po<strong>de</strong>mos usar la<br />

información automáticam<strong>en</strong>te extraída <strong>de</strong>l contexto basada <strong>en</strong> guiones <strong>de</strong> ví<strong>de</strong>o y<br />

mejorar el reconocimi<strong>en</strong>to automático <strong>de</strong> las relaciones contextuales <strong>en</strong> ambos tanto <strong>en</strong><br />

(i) el reconocimi<strong>en</strong>to <strong>de</strong> las acciones <strong>en</strong> el contexto <strong>de</strong> las esc<strong>en</strong>as, así como (ii) el<br />

reconocimi<strong>en</strong>to <strong>de</strong> esc<strong>en</strong>as <strong>en</strong> el contexto <strong>de</strong> las acciones.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 41


3. Estado <strong>de</strong>l arte<br />

3.4.4. Otros métodos <strong>de</strong> clasificación <strong>de</strong> la acción<br />

humana<br />

Una cantidad consi<strong>de</strong>rable <strong>de</strong> trabajos anteriores ha abordado la cuestión <strong>de</strong> la<br />

categorización <strong>de</strong> la acción humana y el análisis <strong>de</strong>l movimi<strong>en</strong>to. Una línea <strong>de</strong> trabajo<br />

está basada <strong>en</strong> el cómputo <strong>de</strong> la correlación <strong>en</strong>tre los volúm<strong>en</strong>es <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o.<br />

Efros et al. (2003) [40] realizan el reconocimi<strong>en</strong>to <strong>de</strong> acción correlacionando medidas<br />

<strong>de</strong> flujo ópticas <strong>de</strong> ví<strong>de</strong>os <strong>de</strong> baja resolución. Su método requiere, <strong>en</strong> primer lugar la<br />

segm<strong>en</strong>tación y la estabilización <strong>de</strong> cada figura humana <strong>en</strong> la secu<strong>en</strong>cia, así como una<br />

mayor interv<strong>en</strong>ción humana para anotar las acciones <strong>en</strong> cada volum<strong>en</strong> resultante<br />

espacio-temporal. Shechtman y Irani (2005) [41] propon<strong>en</strong> una correlación basada <strong>en</strong> el<br />

comportami<strong>en</strong>to para calcular la semejanza <strong>en</strong>tre los volúm<strong>en</strong>es <strong>de</strong> espacio-tiempo que<br />

permite <strong>en</strong>contrar comportami<strong>en</strong>tos y acciones similares. En cada pixel, los gradi<strong>en</strong>tes<br />

<strong>de</strong> espacio-tiempo <strong>de</strong>l pedazo correspondi<strong>en</strong>te <strong>de</strong> ví<strong>de</strong>o <strong>de</strong>b<strong>en</strong> ser calculados y<br />

resumidos <strong>en</strong> una matriz. Los valores propios <strong>de</strong> las matrices resultantes son usados<br />

para calcular la semejanza <strong>en</strong>tre dos pedazos espacio-temporales. Por lo tanto, este<br />

método requiere el cómputo significativo <strong>de</strong>bido al procedimi<strong>en</strong>to <strong>de</strong> correlación <strong>en</strong>tre<br />

cada pedazo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> pruebas y la base <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o.<br />

Otro acercami<strong>en</strong>to popular es primero rastrear partes <strong>de</strong> cuerpo y luego usar las<br />

trayectorias <strong>de</strong> movimi<strong>en</strong>to obt<strong>en</strong>idas para realizar el reconocimi<strong>en</strong>to <strong>de</strong> acción. Esto se<br />

realiza con mucha supervisión humana y la robustez <strong>de</strong>l algoritmo es sumam<strong>en</strong>te<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l sistema <strong>de</strong> seguimi<strong>en</strong>to. En el acercami<strong>en</strong>to <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong><br />

acción <strong>de</strong> Ramanan y Forsyth (2004) [42] <strong>en</strong> primer lugar se hace un seguimi<strong>en</strong>to <strong>de</strong> los<br />

seres humanos <strong>en</strong> las secu<strong>en</strong>cias usando un procedimi<strong>en</strong>to <strong>de</strong> estructura pictórico.<br />

Entonces las configuraciones 3D <strong>de</strong>l cuerpo son estimadas y comparadas <strong>en</strong> una<br />

biblioteca anotada <strong>de</strong> movimi<strong>en</strong>to 3D. El algoritmo permite la asignación <strong>de</strong> etiquetas<br />

compuestas a las secu<strong>en</strong>cias <strong>de</strong> pruebas; sin embargo, esto <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>en</strong> gran medida el<br />

resultado <strong>de</strong>l seguimi<strong>en</strong>to, y la estimación <strong>de</strong> la postura 3D pue<strong>de</strong> introducir errores<br />

significativos <strong>de</strong>bido a ambigüeda<strong>de</strong>s difíciles <strong>de</strong> solucionar. En Yilmaz y Cha (2005)<br />

[43], el etiquetaje humano <strong>de</strong> puntos <strong>de</strong> refer<strong>en</strong>cia <strong>de</strong>l cuerpo humano primero es<br />

realizado <strong>en</strong> cada frame <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> múltiples cámaras <strong>en</strong> movimi<strong>en</strong>to. Entonces<br />

las acciones son comparadas usando su correspondi<strong>en</strong>tes trayectorias 4D (x, y, z, t). Así,<br />

su acercami<strong>en</strong>to pue<strong>de</strong> ser aplicado al reconocimi<strong>en</strong>to y la recuperación <strong>de</strong> acción, con<br />

el coste <strong>de</strong> una cantidad significativa <strong>de</strong> anotación humana.<br />

También, los investigadores han consi<strong>de</strong>rado el análisis <strong>de</strong> acciones humanas mirando<br />

las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o como volúm<strong>en</strong>es <strong>de</strong> int<strong>en</strong>sidad <strong>de</strong> espacio-tiempo. Blank et al.<br />

(2005)[44] repres<strong>en</strong>tan las acciones como formas <strong>de</strong> espacio-tiempo y extra<strong>en</strong> las<br />

características <strong>de</strong> espacio-tiempo para el reconocimi<strong>en</strong>to <strong>de</strong> acción, como la<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 42


3. Estado <strong>de</strong>l arte<br />

promin<strong>en</strong>cia <strong>de</strong> espacio-tiempo local, la acción dinámica, la forma y la ori<strong>en</strong>tación <strong>de</strong><br />

las estructuras. Asimismo este acercami<strong>en</strong>to se basa <strong>en</strong> la restricción <strong>de</strong> los fondos<br />

estáticos que les permite segm<strong>en</strong>tar el primer plano usando la substracción <strong>de</strong> fondo.<br />

Algunos investigadores también han explorado métodos sin supervisión para el análisis<br />

<strong>de</strong> movimi<strong>en</strong>to. Zhong et al. (2004) [45] han propuesto un acercami<strong>en</strong>to no supervisado<br />

para <strong>de</strong>scubrir la actividad insólita <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Usando una repres<strong>en</strong>tación<br />

global basada <strong>en</strong> un vector <strong>de</strong>scriptor simple por cada frame, el método agrupa<br />

segm<strong>en</strong>tos <strong>de</strong> ví<strong>de</strong>o e i<strong>de</strong>ntifica grupos espacialm<strong>en</strong>te aislados como la actividad<br />

insólita. Por lo tanto, las activida<strong>de</strong>s insólitas <strong>de</strong>b<strong>en</strong> ser observadas durante el<br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Otros acercami<strong>en</strong>tos usan una repres<strong>en</strong>tación <strong>de</strong> ví<strong>de</strong>o basada <strong>en</strong> puntos <strong>de</strong> interés<br />

espacio-temporales. Ke et al. (2005)[46] aplican rasgos espaciales temporales<br />

volumétricos que <strong>de</strong> manera efici<strong>en</strong>te exploran secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> el espacio y el<br />

tiempo Su acercami<strong>en</strong>to <strong>de</strong>scubre puntos <strong>de</strong> interés sobre vectores <strong>de</strong> movimi<strong>en</strong>to, lo<br />

que requiere una estimación <strong>de</strong>nsa <strong>de</strong>l flujo óptico. A<strong>de</strong>más, el método requiere calcular<br />

un número significativo <strong>de</strong> características que son <strong>de</strong>l or<strong>de</strong>n <strong>de</strong> un millón, aún <strong>de</strong>spués<br />

<strong>de</strong> la discretización y el muestreo <strong>de</strong>l espacio característico. Los puntos <strong>de</strong> interés<br />

<strong>de</strong>tectados <strong>en</strong>tonces son empleados como características para realizar la clasificación <strong>de</strong><br />

la acción humana con un clasificador discriminatorio <strong>de</strong> cascada, que requiere <strong>ejemplos</strong><br />

positivos y negativos anotados. En (Schuldt et al. 2004 [47]; Dollár et al. 2005 [48];<br />

Oikonomopoulos et al. 2006 [49]; Ke et al. 2005 [46]), los puntos <strong>de</strong> interés <strong>de</strong> espaciotiempo<br />

son combinados con clasificadores discriminatorios para apr<strong>en</strong><strong>de</strong>r y reconocer<br />

acciones humanas. Por lo tanto, pedazos locales <strong>de</strong> espacio-tiempo han <strong>de</strong>mostrado ser<br />

útiles para proporcionar significado semántico <strong>de</strong> acontecimi<strong>en</strong>tos <strong>de</strong> ví<strong>de</strong>o<br />

proporcionando una repres<strong>en</strong>tación compacta y abstracta <strong>de</strong> mo<strong>de</strong>lo.<br />

Finalm<strong>en</strong>te, notamos el éxito <strong>de</strong> <strong>en</strong>foques g<strong>en</strong>erativos <strong>basado</strong>s <strong>en</strong> mo<strong>de</strong>los <strong>de</strong> temas<br />

lat<strong>en</strong>tes para el reconocimi<strong>en</strong>to <strong>de</strong> esc<strong>en</strong>a y objeto. Fei-Fei y Perona (2005) [35]<br />

introduc<strong>en</strong> el uso <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> asunto lat<strong>en</strong>tes a tareas <strong>de</strong> visión <strong>de</strong> or<strong>de</strong>nador, <strong>en</strong> el<br />

ámbito <strong>de</strong> la categorización natural esc<strong>en</strong>a. Sus mo<strong>de</strong>los son inspirados por el mo<strong>de</strong>lo<br />

<strong>de</strong> LDA (Blei et al. 2003 [37]), y pue<strong>de</strong> apr<strong>en</strong><strong>de</strong>r distribuciones <strong>de</strong> asunto intermedias<br />

sin supervisión. También, Sivic et al. (2005) [50] realizan el apr<strong>en</strong>dizaje y el<br />

reconocimi<strong>en</strong>to sin supervisión <strong>de</strong> clases <strong>de</strong> objeto aplicando un mo<strong>de</strong>lo <strong>de</strong> pLSA con la<br />

repres<strong>en</strong>tación visual <strong>de</strong> bolso <strong>de</strong> palabras. El acercami<strong>en</strong>to permite apr<strong>en</strong><strong>de</strong>r clases <strong>de</strong><br />

objeto <strong>de</strong> imág<strong>en</strong>es sin la etiqueta y sin <strong>de</strong>sor<strong>de</strong>n <strong>de</strong>l fondo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 43


3. Estado <strong>de</strong>l arte<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 44


4. Diseño<br />

4. Diseño<br />

4.1. Introducción<br />

El reconocimi<strong>en</strong>to <strong>de</strong> las activida<strong>de</strong>s dinámicas es necesario <strong>en</strong> varios sistemas <strong>de</strong><br />

análisis <strong>de</strong> vi<strong>de</strong>o, incluy<strong>en</strong>do sistemas <strong>de</strong> seguridad, espacios intelig<strong>en</strong>tes, vi<strong>de</strong>o<br />

in<strong>de</strong>xado <strong>basado</strong> <strong>en</strong> acciones, browsing, clustering y segm<strong>en</strong>tación. Algunos <strong>de</strong> los<br />

trabajos anteriores se c<strong>en</strong>tran <strong>en</strong> reconocer una serie <strong>de</strong> acciones pre<strong>de</strong>finidas, o<br />

<strong>en</strong>tornos restringidos <strong>de</strong> imág<strong>en</strong>es. Estos métodos propon<strong>en</strong> aproximaciones para<br />

capturar las características importantes <strong>de</strong> las acciones mediante mo<strong>de</strong>los paramétricos<br />

especializados que por lo g<strong>en</strong>eral dan lugar al reconocimi<strong>en</strong>to <strong>de</strong> alta calidad <strong>de</strong> las<br />

acciones estudiadas, pero <strong>en</strong> su <strong>de</strong>fecto su construcción, g<strong>en</strong>eralm<strong>en</strong>te requiere una fase<br />

<strong>de</strong> apr<strong>en</strong>dizaje muy amplia, don<strong>de</strong> se proporcionan muchos <strong>ejemplos</strong> <strong>de</strong> la acción<br />

estudiada. Sin embargo, este trabajo no sólo se restringe al reconocimi<strong>en</strong>to <strong>de</strong> las<br />

acciones cuidadosam<strong>en</strong>te estudiadas, sino que tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o <strong>en</strong><br />

los que a m<strong>en</strong>udo no hay ningún conocimi<strong>en</strong>to previo sobre los tipos <strong>de</strong> acciones <strong>en</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su naturaleza (periódica/no<br />

periódica).<br />

El principal objetivo <strong>en</strong> este proyecto es reconocer una serie <strong>de</strong> acciones humanas <strong>en</strong><br />

ví<strong>de</strong>o basándose <strong>en</strong> los datos <strong>de</strong> un conjunto <strong>de</strong> activida<strong>de</strong>s ejemplo guardadas <strong>en</strong> una<br />

base <strong>de</strong> datos. El diseño <strong>de</strong>l algoritmo permite a la computadora, <strong>en</strong> una primera etapa,<br />

apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los <strong>de</strong> las acciones humanas, y más a<strong>de</strong>lante dado un nuevo ví<strong>de</strong>o, el<br />

algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te<br />

están o no pres<strong>en</strong>tes <strong>en</strong> la secu<strong>en</strong>cia.<br />

Esto se consigue mediante una medida <strong>de</strong> semejanza, basada sólo <strong>en</strong> el comportami<strong>en</strong>to,<br />

<strong>en</strong>tre las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Es <strong>de</strong>cir, dicha medida conserva las variaciones<br />

temporales, mi<strong>en</strong>tras es ins<strong>en</strong>sible a cambios <strong>de</strong> aspecto como la variación <strong>de</strong> la ropa,<br />

condiciones <strong>de</strong> iluminación, etc. Esta medida es no paramétrica pudi<strong>en</strong>do manejar así<br />

una amplia gama <strong>de</strong> comportami<strong>en</strong>tos dinámicos. Por lo tanto no pue<strong>de</strong> ser óptimo para<br />

una acción específica, pero permite el análisis g<strong>en</strong>eral <strong>basado</strong> <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong><br />

información <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e tipos <strong>de</strong> acciones <strong>de</strong>sconocidos.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 45


4. Diseño<br />

Para realizar este proyecto se ha tomado como punto <strong>de</strong> partida el trabajo <strong>de</strong> Zelnik-<br />

Manor e Irani[1], <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical Analysis of Dynamic Actions”,<br />

cuyo algoritmo se ha adaptado y mejorado <strong>en</strong> base a los objetivos <strong>de</strong> este proyecto.<br />

Algunas posibles aplicaciones para este sistema podrían ser:<br />

• Detección <strong>de</strong> activida<strong>de</strong>s inusuales <strong>en</strong> un vi<strong>de</strong>o <strong>de</strong> seguridad <strong>en</strong> un lugar<br />

público.<br />

• Indicar un punto interesante <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e una acción <strong>de</strong> interés, y<br />

requerir al sistema avanzar rápido al sigui<strong>en</strong>te fragm<strong>en</strong>to <strong>en</strong> el que ocurran<br />

acciones similares.<br />

• Segm<strong>en</strong>tación temporal basada <strong>en</strong> comportami<strong>en</strong>tos <strong>de</strong> secu<strong>en</strong>cias largas <strong>de</strong><br />

ví<strong>de</strong>o. Dada una secu<strong>en</strong>cia larga <strong>de</strong> vi<strong>de</strong>o que conti<strong>en</strong>e variedad <strong>de</strong> acciones nos<br />

interesaría <strong>de</strong>tectar los puntos <strong>de</strong> comi<strong>en</strong>zo y final <strong>de</strong> las acciones, sin requerir<br />

cualquier conocimi<strong>en</strong>to a priori <strong>de</strong> los tipos <strong>de</strong> acciones o sus grados temporales.<br />

4.1.1. Definición <strong>de</strong> acción<br />

Las acciones son amplios términos temporales, que normalm<strong>en</strong>te se exti<strong>en</strong><strong>de</strong>n sobre<br />

<strong>de</strong>c<strong>en</strong>as y c<strong>en</strong>t<strong>en</strong>as <strong>de</strong> frames. Polana y Nelson[60] separaron la clase objetos<br />

temporales <strong>en</strong> tres grupos y sugirieron distintas aproximaciones para el mo<strong>de</strong>lado y el<br />

reconocimi<strong>en</strong>to <strong>de</strong> cada uno:<br />

• Texturas temporales que ti<strong>en</strong><strong>en</strong> in<strong>de</strong>finidas las áreas espacial y temporal.<br />

• Activida<strong>de</strong>s que son temporalm<strong>en</strong>te periódicas pero restringidas espacialm<strong>en</strong>te.<br />

• Ev<strong>en</strong>tos <strong>de</strong> movimi<strong>en</strong>to que son acciones aisladas que no se repit<strong>en</strong> ni <strong>en</strong><br />

espacio ni <strong>en</strong> tiempo.<br />

Nuestros experim<strong>en</strong>tos están <strong>en</strong>focados principalm<strong>en</strong>te <strong>en</strong> los dos últimos puntos,<br />

<strong>de</strong>bido a su gran número <strong>de</strong> aplicaciones y su interés ci<strong>en</strong>tífico.<br />

Inicialm<strong>en</strong>te haremos una serie <strong>de</strong> observaciones que afectarán al diseño <strong>de</strong> nuestro<br />

esquema <strong>de</strong> mo<strong>de</strong>lado <strong>de</strong> acciones. Primero, observamos que una repres<strong>en</strong>tación que<br />

pue<strong>de</strong> manejar los tres tipos <strong>de</strong> acciones/comportami<strong>en</strong>tos ha <strong>de</strong> ser g<strong>en</strong>eral, por<br />

ejemplo no se pue<strong>de</strong>n hacer severas suposiciones, tales como estacionalidad (que es<br />

común <strong>en</strong> mo<strong>de</strong>lado <strong>de</strong> texturas temporales) o periodicidad (que es común <strong>en</strong> el<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 46


4. Diseño<br />

mo<strong>de</strong>lado <strong>de</strong> activida<strong>de</strong>s repetitivas). Segundo, la repres<strong>en</strong>tación basada <strong>en</strong><br />

comportami<strong>en</strong>tos ti<strong>en</strong>e que <strong>de</strong>p<strong>en</strong><strong>de</strong>r <strong>de</strong> características basadas <strong>en</strong> el movimi<strong>en</strong>to, las<br />

cuales son invariantes fr<strong>en</strong>te a cambios <strong>en</strong> apari<strong>en</strong>cia tales como aquellos causados por<br />

variaciones <strong>en</strong> el vestuario, <strong>en</strong> las condiciones <strong>de</strong> luz, <strong>en</strong> el fondo, etc. Por último hemos<br />

<strong>de</strong> difer<strong>en</strong>ciar que acciones están caracterizadas por múltiples escalas temporales. Por<br />

ejemplo, <strong>en</strong> una secu<strong>en</strong>cia <strong>de</strong> personas caminando, la resolución más alta conseguirá<br />

capturar el movimi<strong>en</strong>to <strong>de</strong> los miembros, mi<strong>en</strong>tras que las resoluciones temporales bajas<br />

capturarán principalm<strong>en</strong>te el movimi<strong>en</strong>to global <strong>de</strong>l cuerpo <strong>en</strong>tero.<br />

Deberíamos t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que aunque las acciones son capturadas <strong>en</strong> múltiples<br />

escalas temporales, una acción específica está siempre realizada con aproximadam<strong>en</strong>te<br />

la misma velocidad, y por esto, es capturada <strong>en</strong> la misma escala temporal. Por ejemplo,<br />

un único paso <strong>de</strong> una persona andando visto por dos cámaras <strong>de</strong> vi<strong>de</strong>o difer<strong>en</strong>tes con la<br />

misma tasa <strong>de</strong> frame, se ext<strong>en</strong><strong>de</strong>rá sobre el mismo número <strong>de</strong> frames <strong>en</strong> ambas<br />

secu<strong>en</strong>cias, sin t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta los parámetros internos y externos <strong>de</strong> la cámara.<br />

Similarm<strong>en</strong>te, un único paso <strong>de</strong> dos personas difer<strong>en</strong>tes se ext<strong>en</strong><strong>de</strong>rán también sobre el<br />

mismo número <strong>de</strong> frames. Ésta observación implica que ante la difer<strong>en</strong>ciación <strong>de</strong> dos<br />

acciones, no es necesario comparar a través <strong>de</strong> escalas temporales, aunque es preferible.<br />

Esto facilita el diseño <strong>de</strong> una medida <strong>de</strong> similitud secu<strong>en</strong>cia a secu<strong>en</strong>cia.<br />

Un esc<strong>en</strong>ario que no cumple esta suposición es <strong>en</strong> el que una misma acción es realizada<br />

con velocida<strong>de</strong>s significativam<strong>en</strong>te difer<strong>en</strong>tes. En este caso, comparar escalas<br />

temporales correspondi<strong>en</strong>tes <strong>de</strong>be ser insufici<strong>en</strong>te para <strong>de</strong>tectar la similitud <strong>en</strong>tre las<br />

acciones. Sin embargo, <strong>en</strong> este caso, no se pue<strong>de</strong> afirmar directam<strong>en</strong>te si dos vi<strong>de</strong>os han<br />

<strong>de</strong> ser consi<strong>de</strong>rados como capturas <strong>de</strong> la misma acción o no. Por ejemplo, es lo mismo<br />

andar a paso ligero que correr, o es lo mismo un baile rápido que uno l<strong>en</strong>to.<br />

4.2. Software utilizado<br />

Para completar este proyecto se ha pasado por dos etapas difer<strong>en</strong>ciadas a la hora <strong>de</strong> la<br />

implem<strong>en</strong>tación <strong>de</strong>l algoritmo. Primero se implem<strong>en</strong>tó una versión inicial <strong>de</strong>l proyecto<br />

<strong>en</strong> l<strong>en</strong>guaje MATLAB, <strong>de</strong>bido a que ofrece bastantes v<strong>en</strong>tajas para trabajar con<br />

matrices, y por lo tanto con imág<strong>en</strong>es y ví<strong>de</strong>o. En esta etapa se experim<strong>en</strong>tó con<br />

difer<strong>en</strong>tes soluciones posibles para lograr los objetivos propuestos y se escogieron los<br />

métodos que más conv<strong>en</strong>ían para la consecución <strong>de</strong> este trabajo.<br />

En la segunda etapa, basándonos <strong>en</strong> los experim<strong>en</strong>tos <strong>de</strong> la etapa anterior, el algoritmo<br />

<strong>de</strong>finitivo se ha implem<strong>en</strong>tado <strong>en</strong> el l<strong>en</strong>guaje <strong>de</strong> programación C++ sobre una<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 47


4. Diseño<br />

plataforma PC. Ya que este sistema trabaja sobre imág<strong>en</strong>es y ví<strong>de</strong>os nos hemos ayudado<br />

principalm<strong>en</strong>te <strong>de</strong> las librerías proporcionadas por el paquete Op<strong>en</strong>CV.<br />

4.2.1. MATLAB<br />

MATLAB (abreviatura <strong>de</strong> MATrix LABoratory, "laboratorio <strong>de</strong> matrices") es un<br />

software matemático que ofrece un <strong>en</strong>torno <strong>de</strong> <strong>de</strong>sarrollo integrado (IDE) con un<br />

l<strong>en</strong>guaje <strong>de</strong> programación propio (l<strong>en</strong>guaje M). Está disponible para las plataformas<br />

Unix, Windows y Apple Mac OS X.<br />

Entre sus prestaciones básicas se hallan: la manipulación <strong>de</strong> matrices, la repres<strong>en</strong>tación<br />

<strong>de</strong> datos y funciones, la implem<strong>en</strong>tación <strong>de</strong> algoritmos, la creación <strong>de</strong> interfaces <strong>de</strong><br />

usuario (GUI) y la comunicación con programas <strong>en</strong> otros l<strong>en</strong>guajes y con otros<br />

dispositivos hardware. El paquete MATLAB dispone <strong>de</strong> dos herrami<strong>en</strong>tas adicionales<br />

que expan<strong>de</strong>n sus prestaciones, a saber, Simulink (plataforma <strong>de</strong> simulación<br />

multidominio) y GUIDE (editor <strong>de</strong> interfaces <strong>de</strong> usuario - GUI). A<strong>de</strong>más, se pue<strong>de</strong>n<br />

ampliar las capacida<strong>de</strong>s <strong>de</strong> MATLAB con las cajas <strong>de</strong> herrami<strong>en</strong>tas (toolboxes); y las<br />

<strong>de</strong> Simulink con los paquetes <strong>de</strong> bloques (blocksets).<br />

Es un software muy usado <strong>en</strong> universida<strong>de</strong>s y c<strong>en</strong>tros <strong>de</strong> investigación y <strong>de</strong>sarrollo, ya<br />

que se pue<strong>de</strong> consi<strong>de</strong>rar como uno <strong>de</strong> los softwares más utilizados <strong>en</strong> ing<strong>en</strong>iería.<br />

4.2.2. Op<strong>en</strong>CV<br />

Op<strong>en</strong>CV es una biblioteca libre <strong>de</strong> visión artificial originalm<strong>en</strong>te <strong>de</strong>sarrollada por Intel.<br />

Des<strong>de</strong> que apareció su primera versión alfa <strong>en</strong> el mes <strong>de</strong> <strong>en</strong>ero <strong>de</strong> 1999, se ha utilizado<br />

<strong>en</strong> infinidad <strong>de</strong> aplicaciones. Des<strong>de</strong> sistemas <strong>de</strong> seguridad con <strong>de</strong>tección <strong>de</strong><br />

movimi<strong>en</strong>to, hasta aplicativos <strong>de</strong> control <strong>de</strong> procesos don<strong>de</strong> se requiere reconocimi<strong>en</strong>to<br />

<strong>de</strong> objetos. Esto se <strong>de</strong>be a que su publicación se da bajo lic<strong>en</strong>cia BSD, que permite que<br />

sea usada librem<strong>en</strong>te para propósitos comerciales y <strong>de</strong> investigación con las condiciones<br />

<strong>en</strong> ella expresadas.<br />

Op<strong>en</strong> CV es multiplataforma, Existi<strong>en</strong>do versiones para Linux, Mac OS X y Windows.<br />

Conti<strong>en</strong>e más <strong>de</strong> 500 funciones que abarcan una gran gama <strong>de</strong> áreas <strong>en</strong> el proceso <strong>de</strong><br />

visión, como reconocimi<strong>en</strong>to <strong>de</strong> objetos (reconocimi<strong>en</strong>to facial), calibración <strong>de</strong><br />

cámaras, visión estéreo y visión robótica.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 48


4. Diseño<br />

4.3. Estructura g<strong>en</strong>eral<br />

En esta sección se <strong>de</strong>scribe la estructura <strong>de</strong>l sistema global (Figura 4.1) y se hará una<br />

introducción <strong>de</strong> las técnicas usadas <strong>en</strong> el <strong>de</strong>sarrollo. El sistema g<strong>en</strong>eral se divi<strong>de</strong> <strong>en</strong> tres<br />

fases principales. Estas tres fases se correspon<strong>de</strong>n con la estructura <strong>de</strong> los sistemas<br />

automáticos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> la cual ya se ha hablado antes <strong>en</strong> el apartado <strong>de</strong><br />

fundam<strong>en</strong>tos <strong>de</strong> la biometría. A estas tres fases principales se pue<strong>de</strong> añadir una nueva<br />

fase que sería el procesado <strong>de</strong> la señal la cual, a pesar <strong>de</strong> no ser es<strong>en</strong>cial, nos va a<br />

permitir <strong>en</strong>t<strong>en</strong><strong>de</strong>r y manejar <strong>de</strong> una forma más efici<strong>en</strong>te los datos <strong>de</strong> <strong>en</strong>trada y va a<br />

ayudar a mejorar el sistema <strong>de</strong> reconocimi<strong>en</strong>to. De esta manera el sistema queda<br />

dividido <strong>en</strong> las sigui<strong>en</strong>tes etapas:<br />

4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o, <strong>en</strong> esta fase se pue<strong>de</strong> añadir el procesado <strong>de</strong><br />

la señal.<br />

4.3.2. Extracción <strong>de</strong> características.<br />

4.3.3. Comparador y <strong>de</strong>cisor.<br />

Secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

Ví<strong>de</strong>o <strong>de</strong> acción ejemplo<br />

Procesado <strong>de</strong> la<br />

señal<br />

Procesado <strong>de</strong> la<br />

señal<br />

Extracción <strong>de</strong><br />

características<br />

Extracción <strong>de</strong><br />

características<br />

Comparador<br />

Base <strong>de</strong> datos<br />

Umbral<br />

Decisor<br />

Figura 4.1: Esquema g<strong>en</strong>eral <strong>de</strong>l algoritmo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 49


4. Diseño<br />

4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

En esta primera fase se introduc<strong>en</strong> <strong>en</strong> el sistema tanto los vi<strong>de</strong>os que conti<strong>en</strong><strong>en</strong> los<br />

movimi<strong>en</strong>tos ejemplo sobre los que queremos trabajar como las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />

pret<strong>en</strong><strong>de</strong>mos analizar, <strong>en</strong> las que aparec<strong>en</strong> distintos movimi<strong>en</strong>tos humanos que<br />

aspiramos po<strong>de</strong>r discernir. Una vez t<strong>en</strong>emos los ví<strong>de</strong>os <strong>de</strong>ntro <strong>de</strong>l sistema proce<strong>de</strong>mos a<br />

realizar las difer<strong>en</strong>tes operaciones que nos permit<strong>en</strong> trabajar <strong>en</strong> las sigui<strong>en</strong>tes fases,<br />

estas operaciones compon<strong>en</strong> la etapa <strong>de</strong>l procesado <strong>de</strong> la señal. El diseño <strong>de</strong> esta fase se<br />

pue<strong>de</strong> observar <strong>en</strong> la figura 4.2.<br />

Si estamos <strong>en</strong> el modo <strong>de</strong> registro <strong>de</strong> un movimi<strong>en</strong>to ejemplo, que más a<strong>de</strong>lante<br />

queremos <strong>de</strong>tectar, una vez que se han recogido los datos <strong>de</strong>l ví<strong>de</strong>o frame a frame, como<br />

particularidad <strong>de</strong> este modo <strong>en</strong> esta fase, se guarda como tamaño <strong>de</strong> la v<strong>en</strong>tana, para<br />

luego analizar las sigui<strong>en</strong>tes secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, el número <strong>de</strong> frames <strong>de</strong>l ví<strong>de</strong>o <strong>de</strong>l<br />

movimi<strong>en</strong>to ejemplo.<br />

Una vez que se han introducido los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que se pret<strong>en</strong><strong>de</strong><br />

analizar <strong>en</strong> el sistema pasamos a la etapa <strong>de</strong> procesado <strong>de</strong> la señal, esta etapa se pue<strong>de</strong><br />

dividir <strong>en</strong> dos operaciones fundam<strong>en</strong>tales, i) es la segm<strong>en</strong>tación <strong>de</strong>l foreground y <strong>de</strong>l<br />

background y ii) realizar una pirámi<strong>de</strong> temporal <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o introducida.<br />

Por un lado mediante la segm<strong>en</strong>tación obt<strong>en</strong>emos una media <strong>de</strong>l fondo que luego<br />

utilizaremos para separar correctam<strong>en</strong>te el foreground <strong>de</strong>l backgruond. Y por otro lado<br />

<strong>en</strong> cada iteración escogemos una v<strong>en</strong>tana <strong>de</strong> frames <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, a la cual<br />

aplicamos una serie <strong>de</strong> operaciones para obt<strong>en</strong>er una pirámi<strong>de</strong> temporal <strong>de</strong> tres niveles,<br />

para más a<strong>de</strong>lante po<strong>de</strong>r obt<strong>en</strong>er medidas <strong>de</strong> la secu<strong>en</strong>cia <strong>en</strong> difer<strong>en</strong>tes escalas<br />

temporales.<br />

Secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

Procesado <strong>de</strong> la señal<br />

Segm<strong>en</strong>tación<br />

Pirámi<strong>de</strong> temporal<br />

Figura 4.2: Esquema <strong>de</strong> la fase captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 50


4. Diseño<br />

4.3.2. Extracción <strong>de</strong> características<br />

Esta segunda fase <strong>en</strong>globa la mayor parte <strong>de</strong> las operaciones que se realizan <strong>en</strong> el<br />

algoritmo, la tarea principal que se int<strong>en</strong>ta <strong>de</strong>sarrollar <strong>en</strong> esta etapa consiste <strong>en</strong> extraer<br />

únicam<strong>en</strong>te las características que son más discriminantes <strong>en</strong>tre los distintitos tipos <strong>de</strong><br />

acciones humanas, procurando que estas características permanezcan invariantes para<br />

distintas personas que realizan el mismo movimi<strong>en</strong>to. Al mismo tiempo se elimina la<br />

información <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que no sea interesante ni útil para el proceso <strong>de</strong><br />

reconocimi<strong>en</strong>to <strong>de</strong> movimi<strong>en</strong>tos, como por ejemplo reduci<strong>en</strong>do la zona <strong>en</strong> cada frame<br />

don<strong>de</strong> se buscan los pixeles que conti<strong>en</strong><strong>en</strong> las características que necesitamos para<br />

caracterizar un movimi<strong>en</strong>to, el hecho <strong>de</strong> eliminar esta información que no nos es útil<br />

provoca que se reduzca la duración <strong>de</strong>l proceso y el coste computacional. El esquema<br />

<strong>de</strong> esta fase lo po<strong>de</strong>mos <strong>en</strong>contrar <strong>en</strong> la figura 4.3.<br />

En esta fase se trabaja fundam<strong>en</strong>talm<strong>en</strong>te sobre los tres ví<strong>de</strong>os que correspon<strong>de</strong>n a cada<br />

uno <strong>de</strong> los tres niveles <strong>de</strong> la pirámi<strong>de</strong> temporal que hemos obt<strong>en</strong>ido <strong>en</strong> la fase anterior<br />

operando sobre la v<strong>en</strong>tana correspondi<strong>en</strong>te <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o inicial. El primer<br />

paso consiste <strong>en</strong> calcular los gradi<strong>en</strong>tes <strong>en</strong> los ejes ‘x’, ‘y’ y tiempo <strong>de</strong> los ví<strong>de</strong>os <strong>de</strong> la<br />

pirámi<strong>de</strong> temporal, para a continuación obt<strong>en</strong>er así nueve conjuntos <strong>de</strong> matrices que<br />

seguidam<strong>en</strong>te pasamos a normalizar.<br />

En el sigui<strong>en</strong>te paso se utiliza la media <strong>de</strong>l fondo, obt<strong>en</strong>ida <strong>en</strong> la etapa <strong>de</strong> procesado <strong>de</strong><br />

la señal <strong>de</strong> la primera fase <strong>de</strong>l algoritmo, para realizar una segm<strong>en</strong>tación <strong>de</strong> los tres<br />

ví<strong>de</strong>os <strong>de</strong> la pirámi<strong>de</strong> temporal mediante la cual separamos el foreground <strong>de</strong>l<br />

background. Una vez hemos conseguido saber <strong>en</strong> qué zonas <strong>de</strong> cada frame se produce el<br />

movimi<strong>en</strong>to po<strong>de</strong>mos in<strong>de</strong>p<strong>en</strong>dizar y hacer el seguimi<strong>en</strong>to <strong>de</strong> los movimi<strong>en</strong>tos <strong>de</strong><br />

difer<strong>en</strong>tes personas que aparezcan <strong>en</strong> la secu<strong>en</strong>cia, también conseguimos reducir el área<br />

<strong>de</strong> cada frame <strong>en</strong> la que vamos a buscar los pixeles que nos interesan para caracterizar<br />

cada acción, lo que como ya hemos com<strong>en</strong>tado nos va a permitir ahorrar tiempo y coste<br />

computacional.<br />

Una vez t<strong>en</strong>emos los gradi<strong>en</strong>tes <strong>en</strong> los tres ejes y su normalización junto con la<br />

segm<strong>en</strong>tación <strong>de</strong>l foreground llegamos a la etapa <strong>en</strong> la que introducimos los datos <strong>en</strong><br />

los histogramas que van a caracterizar el movimi<strong>en</strong>to. Para ello lo que hacemos es<br />

utilizar un umbral para <strong>de</strong>tectar <strong>en</strong> el conjunto <strong>de</strong> matrices <strong>de</strong>l gradi<strong>en</strong>te <strong>de</strong>l eje <strong>de</strong>l<br />

tiempo los pixeles <strong>de</strong> cada frame <strong>en</strong> los que se produce el movimi<strong>en</strong>to, una vez t<strong>en</strong>emos<br />

estos pixeles escogemos sólo los que coinci<strong>de</strong>n con los pixeles <strong>de</strong>l foreground que<br />

hemos extraído con la segm<strong>en</strong>tación. Por último introducimos <strong>en</strong> los histogramas los<br />

valores <strong>de</strong> los difer<strong>en</strong>tes conjuntos <strong>de</strong> matrices <strong>de</strong> los gradi<strong>en</strong>tes normalizados que<br />

correspon<strong>de</strong>n con la posición <strong>de</strong> los pixeles que hemos escogido. Para conseguir<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 51


4. Diseño<br />

caracterizar correctam<strong>en</strong>te un movimi<strong>en</strong>to usamos nueve histogramas uno por cada uno<br />

<strong>de</strong> los tres gradi<strong>en</strong>tes <strong>de</strong> los tres ví<strong>de</strong>os <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />

Segm<strong>en</strong>tación foreground<br />

Gradi<strong>en</strong>tes (x, y, t)<br />

In<strong>de</strong>p<strong>en</strong>dizar movimi<strong>en</strong>tos<br />

Normalización<br />

Histogramas<br />

Figura 4.3: Esquema <strong>de</strong> la fase extracción <strong>de</strong> características.<br />

4.3.3. Comparador y <strong>de</strong>cisor<br />

En esta última fase <strong>de</strong>l algoritmo una vez que mediante los histogramas hemos extraído<br />

las características más significativas con las que se <strong>de</strong>fine un movimi<strong>en</strong>to que aparece<br />

<strong>en</strong> la secu<strong>en</strong>cia que estamos estudiando, estos histogramas se comparan con el conjunto<br />

<strong>de</strong> histogramas <strong>de</strong> la acción o acciones ejemplo que hemos almac<strong>en</strong>ado con anterioridad<br />

<strong>en</strong> la base <strong>de</strong> datos <strong>de</strong>l sistema, para po<strong>de</strong>r así <strong>de</strong>terminar si se trata <strong>de</strong>l mismo<br />

movimi<strong>en</strong>to o no. Esta comparación se realiza mediante una operación que nos da como<br />

resultado la “distancia <strong>de</strong> comportami<strong>en</strong>to”, D 2 <strong>en</strong>tre dos secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, la<br />

fórmula utilizada es la sigui<strong>en</strong>te:<br />

∑<br />

,,<br />

<br />

<br />

<br />

<br />

K € {x, y, t}<br />

l= 1,…, L (niveles <strong>de</strong> pirámi<strong>de</strong> temporal)<br />

i= 1,…, nº <strong>de</strong> divisiones histograma<br />

(4.1)<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 52


4. Diseño<br />

Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> que estamos usando, k el eje con el que estamos<br />

trabajando e i el número <strong>de</strong> bin <strong>de</strong>l histograma <strong>en</strong> el que nos <strong>en</strong>contramos; h 1 y h 2<br />

repres<strong>en</strong>tan los histogramas correspondi<strong>en</strong>tes a la acción ejemplo y al movimi<strong>en</strong>to<br />

estudiado respectivam<strong>en</strong>te.<br />

Ya con esta medida <strong>de</strong> similitud <strong>en</strong>tre dos secu<strong>en</strong>cias lo único que falta por hacer es,<br />

utilizando un umbral, <strong>de</strong>cidir si la acción que aparece el ví<strong>de</strong>o analizado correspon<strong>de</strong><br />

con nuestra acción ejemplo y esta <strong>de</strong>cisión sería nuestro resultado.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 53


4. Diseño<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 54


5. Desarrollo<br />

5. Desarrollo<br />

5.1. Introducción<br />

A lo largo <strong>de</strong> este capítulo se <strong>de</strong>talla <strong>en</strong> profundidad como se ha llevado a cabo la<br />

implem<strong>en</strong>tación <strong>de</strong>l algoritmo <strong>de</strong>scrito <strong>en</strong> esta memoria cuyo objetivo principal,<br />

consiste <strong>en</strong> el reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> vi<strong>de</strong>os basándose <strong>en</strong> acciones ejemplo.<br />

Como recordatorio <strong>de</strong>cir que para <strong>de</strong>sarrollar este algoritmo nos hemos <strong>basado</strong><br />

inicialm<strong>en</strong>te <strong>en</strong> el trabajo <strong>de</strong> Zelnik-Manor e Irani, <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical<br />

Analysis of Dynamic Actions”[1].<br />

Es por ello que a continuación se explicarán las <strong>de</strong>cisiones que hemos tomado <strong>en</strong> cada<br />

una <strong>de</strong> las fases <strong>en</strong> base a que técnica es mejor, <strong>de</strong>scribi<strong>en</strong>do los criterios<br />

discriminatorios elegidos y explicando <strong>en</strong> <strong>de</strong>talle cada una <strong>de</strong> las fases <strong>de</strong>l sistema <strong>de</strong><br />

reconocimi<strong>en</strong>to <strong>de</strong> acciones <strong>en</strong> vi<strong>de</strong>o. Las tres fases principales que hemos<br />

implem<strong>en</strong>tado <strong>en</strong> el algoritmo son: i) <strong>en</strong> la primera fase se capturan los datos <strong>de</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o, se realiza la segm<strong>en</strong>tación para así conseguir <strong>en</strong>contrar las regiones<br />

<strong>de</strong> fondo y se crea la pirámi<strong>de</strong> temporal, ii) <strong>en</strong> la fase <strong>de</strong> extracción <strong>de</strong> características se<br />

g<strong>en</strong>eran los gradi<strong>en</strong>tes, se in<strong>de</strong>p<strong>en</strong>dizan los difer<strong>en</strong>tes movimi<strong>en</strong>tos que se produc<strong>en</strong> <strong>en</strong><br />

la esc<strong>en</strong>a y se crean los histogramas que caracterizan las distintas acciones y iii) <strong>en</strong> la<br />

última la fase <strong>en</strong> la que se realiza la comparación y la <strong>de</strong>cisión final. Como se pue<strong>de</strong><br />

observar estas tres fases son equival<strong>en</strong>tes a las que hemos com<strong>en</strong>tado <strong>de</strong> forma<br />

superficial <strong>en</strong> el capítulo anterior. En la figura 5.1 po<strong>de</strong>mos ver un ejemplo <strong>de</strong> lo que<br />

queremos conseguir con este sistema.<br />

(a)<br />

(b)<br />

(a)<br />

(c)<br />

Figura 5.1: En las tres<br />

primeras imág<strong>en</strong>es se observan<br />

las acciones puñetazo, patada y<br />

agacharse, que son los tres<br />

movimi<strong>en</strong>tos que po<strong>de</strong>mos ver<br />

<strong>en</strong> el ví<strong>de</strong>o. La gráfica muestra<br />

la medida <strong>de</strong> distancia <strong>en</strong>tre un<br />

ejemplo <strong>de</strong> la acción puñetazo y<br />

el resto <strong>de</strong> subsecu<strong>en</strong>cias.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 55


5. Desarrollo<br />

5.2. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

5.2.1. Captura <strong>de</strong> los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

Al com<strong>en</strong>zar el algoritmo lo primero que hacemos es obt<strong>en</strong>er la información g<strong>en</strong>eral<br />

que <strong>de</strong>scribe cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, concretam<strong>en</strong>te la información que se busca es la<br />

sigui<strong>en</strong>te (Figura 5.2):<br />

• Nombre <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o: se<br />

utilizara para saber con que ví<strong>de</strong>o estamos<br />

trabajando y para dar nombre a los ficheros y<br />

ví<strong>de</strong>os <strong>de</strong> los correspondi<strong>en</strong>tes resultados.<br />

• Número <strong>de</strong> frames: Este dato se<br />

utilizara para g<strong>en</strong>erar los gradi<strong>en</strong>tes, para<br />

realizar la segm<strong>en</strong>tación, para el cálculo <strong>de</strong><br />

los histogramas, etc. En g<strong>en</strong>eral <strong>en</strong> casi todo<br />

el sistema.<br />

• Alto y ancho <strong>de</strong> cada frame: Cada<br />

una <strong>de</strong> las matrices que utilizaremos más<br />

a<strong>de</strong>lante t<strong>en</strong>drán los mismos valores <strong>de</strong> acho<br />

y alto que los <strong>de</strong> la secu<strong>en</strong>cia inicial.<br />

• La tasa <strong>de</strong> frames: Los ví<strong>de</strong>os<br />

resultado t<strong>en</strong>drán la misma tasa <strong>de</strong> frames.<br />

• Código <strong>de</strong> có<strong>de</strong>c: Los ví<strong>de</strong>os<br />

resultado se guardaran con la misma<br />

codificación.<br />

Figura 5.2: Ejemplo <strong>de</strong> la información que obt<strong>en</strong>emos <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />

introducimos <strong>en</strong> el sistema. En este ejemplo se muestra <strong>en</strong> los dos primeros bloques la<br />

información <strong>de</strong> dos secu<strong>en</strong>cias que conti<strong>en</strong><strong>en</strong> movimi<strong>en</strong>tos ejemplo y <strong>en</strong> el tercer bloque la<br />

información <strong>de</strong> la secu<strong>en</strong>cia que queremos analizar.<br />

Justo <strong>de</strong>spués <strong>de</strong> obt<strong>en</strong>er esta información <strong>de</strong>l ví<strong>de</strong>o que queremos analizar, pasamos a<br />

capturar los datos <strong>de</strong> todos los frames <strong>de</strong> la secu<strong>en</strong>cia, guardándolos <strong>en</strong> difer<strong>en</strong>tes<br />

conjuntos <strong>de</strong> matrices para su posterior utilización durante el algoritmo. Para esta tarea<br />

necesitamos cuatro conjuntos <strong>de</strong> matrices.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 56


5. Desarrollo<br />

Para rell<strong>en</strong>ar el primer conjunto <strong>de</strong> matrices guardamos los datos <strong>de</strong> la secu<strong>en</strong>cia una<br />

vez que es convertida a escala <strong>de</strong> grises, este conjunto lo usaremos más a<strong>de</strong>lante para la<br />

segm<strong>en</strong>tación <strong>de</strong>l fondo, para in<strong>de</strong>p<strong>en</strong>dizar los movimi<strong>en</strong>tos y para g<strong>en</strong>erar el ví<strong>de</strong>o<br />

resultado. En los tres conjuntos <strong>de</strong> matrices restantes guardamos los datos <strong>de</strong> cada una<br />

<strong>de</strong> las tres compon<strong>en</strong>tes primarias <strong>de</strong> color (RGB) <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, es <strong>de</strong>cir <strong>en</strong><br />

un conjunto se guardan los datos que correspon<strong>de</strong>n a los rojos, <strong>en</strong> otro los datos que<br />

correspon<strong>de</strong>n a los ver<strong>de</strong>s y <strong>en</strong> el tercero los que correspon<strong>de</strong>n a los azules, estos tres<br />

conjuntos <strong>de</strong> matrices se usaran posteriorm<strong>en</strong>te para g<strong>en</strong>erar las difer<strong>en</strong>tes escalas<br />

temporales <strong>de</strong> la secu<strong>en</strong>cia con las que vamos a trabajar y para calcular los gradi<strong>en</strong>tes.<br />

5.2.2 Segm<strong>en</strong>tación para la substracción <strong>de</strong>l fondo<br />

Un punto importante <strong>en</strong> el procesado <strong>de</strong> la señal es el <strong>de</strong> la segm<strong>en</strong>tación para la<br />

substracción <strong>de</strong>l fondo, ya que nos va a ser muy útil <strong>en</strong> los pasos posteriores <strong>de</strong>l<br />

algoritmo. En esta etapa inicializamos y repres<strong>en</strong>tamos un mo<strong>de</strong>lo <strong>de</strong> fondo robusto <strong>de</strong><br />

la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada, para conseguir esto el fondo se <strong>de</strong>scribe mediante un<br />

mo<strong>de</strong>lo matemático para cada píxel <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> cada instante <strong>de</strong> tiempo.<br />

El mo<strong>de</strong>lo o método que hemos escogido para repres<strong>en</strong>tar el fondo consiste <strong>en</strong> el<br />

método <strong>de</strong> la media o mediana, calculamos el fondo como la media <strong>de</strong> ‘n’ frames<br />

(normalm<strong>en</strong>te escogemos <strong>en</strong>tre 100-150 frames) <strong>de</strong> la secu<strong>en</strong>cia, cada ‘n’ frames<br />

volvemos a calcular una nueva media <strong>de</strong>l fondo. Si el número <strong>de</strong> frames totales <strong>de</strong> la<br />

secu<strong>en</strong>cia no es superior a ‘2n’ frames o es inferior a ‘n’ frames se calcula la media <strong>de</strong>l<br />

fondo con la totalidad <strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o. Si a<strong>de</strong>más <strong>de</strong>spués <strong>de</strong> hacer la última<br />

media <strong>de</strong>l fondo el número <strong>de</strong> frames que restan <strong>de</strong> la secu<strong>en</strong>cia es inferior a ‘n’ frames,<br />

estos frames restantes también se usaran para hacer la última media <strong>de</strong>l fondo. En la<br />

figura 5.3 se muestra algunos <strong>de</strong> los resultados que obt<strong>en</strong>emos al usar este método <strong>de</strong><br />

substracción <strong>de</strong>l fondo.<br />

<br />

, ∑ , <br />

(5.1)<br />

La utilización <strong>de</strong> este método <strong>en</strong> concreto se <strong>de</strong>be a que normalm<strong>en</strong>te <strong>en</strong> la mayoría <strong>de</strong><br />

los ví<strong>de</strong>os que vamos a analizar con este sistema el tipo <strong>de</strong> fondo que aparece es<br />

unimodal (Figura 5.3 a) y b)), <strong>en</strong> este tipo <strong>de</strong> fondo los valores <strong>de</strong> los pixeles <strong>de</strong>l fondo<br />

no cambian a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia, la cámara suele ser estática y no se produc<strong>en</strong><br />

variaciones <strong>en</strong> la iluminación. Aunque también el sistema funciona con algunos fondos<br />

multimodales (Figura 5.3 c)) <strong>en</strong> los que la cámara permanece estática y no hay cambios<br />

<strong>en</strong> la iluminación, pero si exist<strong>en</strong> objetos que pert<strong>en</strong>ec<strong>en</strong> al fondo que están <strong>en</strong> leve<br />

movimi<strong>en</strong>to (como olas <strong>de</strong> mar) o hay cambios <strong>en</strong> la geometría <strong>de</strong>l fondo (aparición <strong>de</strong><br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 57


5. Desarrollo<br />

nuevos objetos estáticos), este último problema se soluciona gracias a que vamos<br />

actualizando el fondo cada ‘n’ frames.<br />

(a)<br />

(b) (c)<br />

Figura 5.3: Tres <strong>ejemplos</strong> <strong>de</strong> substracción <strong>de</strong> fondo <strong>en</strong> tres secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o difer<strong>en</strong>tes <strong>en</strong><br />

las que trabajamos con distintos <strong>en</strong>tornos.<br />

En esta misma etapa a<strong>de</strong>más <strong>de</strong> la media <strong>de</strong>l fondo también aprovechamos para calcular<br />

cada ‘n’ frames la <strong>de</strong>sviación típica <strong>de</strong>l fondo, la cual almac<strong>en</strong>aremos para usarla <strong>en</strong> una<br />

etapa futura <strong>en</strong> la que <strong>de</strong>bemos hacer la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te, ya que para <strong>de</strong>tectar las<br />

zonas <strong>en</strong> las que se produce el movimi<strong>en</strong>to utilizaremos técnicas basadas <strong>en</strong> gaussiana y<br />

para ello necesitaremos tanto la media <strong>de</strong>l fondo como su <strong>de</strong>sviación típica.<br />

5.2.3. Creación <strong>de</strong> la pirámi<strong>de</strong> temporal<br />

Por otro lado para po<strong>de</strong>r comparar nuestra secu<strong>en</strong>cia con los difer<strong>en</strong>tes movimi<strong>en</strong>tos<br />

ejemplo <strong>de</strong>bemos ir analizando el ví<strong>de</strong>o escogi<strong>en</strong>do una v<strong>en</strong>tana <strong>de</strong> ‘M’ frames <strong>en</strong> cada<br />

iteración. Estos ‘M’ frames correspon<strong>de</strong>n al número <strong>de</strong> frames que compon<strong>en</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e el movimi<strong>en</strong>to ejemplo que estemos estudiando. En<br />

cada nueva iteración para conseguir la sigui<strong>en</strong>te v<strong>en</strong>tana <strong>de</strong>sechamos el primer frame<br />

<strong>de</strong>l conjunto anterior y añadimos un nuevo frame al final. Vamos a trabajar con cada<br />

una <strong>de</strong> las subsecu<strong>en</strong>cias que obt<strong>en</strong>emos y sobre cada una <strong>de</strong> ellas vamos a crear una<br />

pirámi<strong>de</strong> temporal.<br />

El hecho <strong>de</strong> crear la pirámi<strong>de</strong> temporal <strong>de</strong> cada a subsecu<strong>en</strong>cia se <strong>de</strong>be a que nos permite<br />

comparar una misma acción <strong>en</strong> difer<strong>en</strong>tes escalas temporales. Normalm<strong>en</strong>te una acción<br />

específica se ejecuta con aproximadam<strong>en</strong>te la misma velocidad, por lo tanto para ví<strong>de</strong>os<br />

con la misma tasa <strong>de</strong> frames y sin t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta el resto <strong>de</strong> parámetros, una misma<br />

acción que realizan dos personas distintas o es realizada por una persona pero captada<br />

por dos cámaras distintas se ext<strong>en</strong><strong>de</strong>rá <strong>de</strong> forma aproximada por el mismo número <strong>de</strong><br />

frames. Esto nos indica que normalm<strong>en</strong>te podremos difer<strong>en</strong>ciar dos activida<strong>de</strong>s sin t<strong>en</strong>er<br />

que utilizar difer<strong>en</strong>tes escalas temporales, aunque el hecho <strong>de</strong> utilizar difer<strong>en</strong>tes escalas<br />

temporales nos favorece a la hora <strong>de</strong> obt<strong>en</strong>er una mejor medida <strong>de</strong> similitud <strong>en</strong>tre dos<br />

acciones. Sin embargo, la comparación a través <strong>de</strong> escalas temporales es imprescindible<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

58


5. Desarrollo<br />

si queremos po<strong>de</strong>r difer<strong>en</strong>ciar acciones cuando estas son capturadas <strong>en</strong> múltiples escalas<br />

temporales, es <strong>de</strong>cir, si una misma actividad se realiza con velocida<strong>de</strong>s<br />

significativam<strong>en</strong>te difer<strong>en</strong>tes. <strong>en</strong>tes. También es posible que aún ayudándonos <strong>de</strong>l uso <strong>de</strong><br />

difer<strong>en</strong>tes escalas temporales no consigamos distinguir correctam<strong>en</strong>te dos acciones<br />

distintas <strong>de</strong>bido a su similitud tanto <strong>en</strong> velocidad como <strong>en</strong> movimi<strong>en</strong>to, como por<br />

ejemplo distinguir <strong>en</strong>tre marchar (andar rápidam<strong>en</strong>te) y hacer footing.<br />

Para obt<strong>en</strong>er las múltiples escalas temporales que constituy<strong>en</strong> la pirámi<strong>de</strong> temporal el<br />

proceso que utilizamos consiste <strong>en</strong> hacer un muestreo <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o<br />

inicial y seguidam<strong>en</strong>te hacer un filtrado paso-bajo a lo largo <strong>de</strong> la dirección temporal.<br />

La pirámi<strong>de</strong> temporal (Figura 5.4) <strong>de</strong> una secu<strong>en</strong>cia S es una pirámi<strong>de</strong> <strong>de</strong> secu<strong>en</strong>cias<br />

S 1 (=S); S 2 ;...; S L , don<strong>de</strong> los frames <strong>de</strong> imag<strong>en</strong> <strong>en</strong> todos los niveles (secu<strong>en</strong>cias) <strong>de</strong>ntro<br />

<strong>de</strong> la pirámi<strong>de</strong> son <strong>de</strong>l mismo tamaño, y cada secu<strong>en</strong>cia S l ti<strong>en</strong>e la mitad <strong>de</strong>l número <strong>de</strong><br />

frames <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> resolución inmediatam<strong>en</strong>te anterior S l-1 .<br />

L=3<br />

S 3<br />

m/4 frames<br />

S 2<br />

m/2 frames<br />

S 1 m frames<br />

Figura 5.4: Esquema <strong>de</strong> la pirámi<strong>de</strong> temporal que vamos a utilizar durante el algoritmo.<br />

5.3. . Extracción <strong>de</strong> características<br />

5.3.1. Cálculo <strong>de</strong> los gradi<strong>en</strong>tes<br />

En este apartado vamos a explicar el proceso por el cual calculamos los gradi<strong>en</strong>tes <strong>en</strong><br />

los ejes ‘x’, ‘y’ y ‘t’ <strong>de</strong> los conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan la secu<strong>en</strong>cia. El<br />

gradi<strong>en</strong>te <strong>de</strong>nota una dirección <strong>en</strong> la que se aprecia una variación <strong>de</strong> una <strong>de</strong>terminada<br />

propiedad o magnitud física, <strong>en</strong> nuestro caso el gradi<strong>en</strong>te <strong>en</strong> los ejes ‘x’ e ‘y' nos servirá<br />

para i<strong>de</strong>ntificar los cambios <strong>de</strong> los valores <strong>de</strong> los píxeles <strong>de</strong> un mismo frame <strong>en</strong> el<br />

espacio, y el gradi<strong>en</strong>te <strong>en</strong> el tiempo nos aportará información <strong>de</strong> cómo varían los píxeles<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

59


5. Desarrollo<br />

a lo largo <strong>de</strong> difer<strong>en</strong>tes frame, con lo que podremos <strong>de</strong>tectar el movimi<strong>en</strong>to que se<br />

produce <strong>en</strong> la secu<strong>en</strong>cia. Esta etapa es fundam<strong>en</strong>tal <strong>de</strong>ntro <strong>de</strong> nuestro sistema ya que <strong>de</strong><br />

ella obt<strong>en</strong>dremos la mayor parte <strong>de</strong> los datos que nos van a ayudar a caracterizar las<br />

difer<strong>en</strong>tes acciones y movimi<strong>en</strong>tos.<br />

En este punto vamos a trabajar con los tres conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan las<br />

tres compon<strong>en</strong>tes primarias <strong>de</strong> color (rojo, ver<strong>de</strong>, azul) <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong> tamaño<br />

‘M’ frames que estamos analizando, a las cuales hemos aplicado un proceso para<br />

g<strong>en</strong>erar una pirámi<strong>de</strong> temporal <strong>de</strong> cada uno <strong>de</strong> los tres conjuntos. Por lo tanto usaremos<br />

nueve ví<strong>de</strong>os, tres por cada nivel <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />

Para cada nivel (la secu<strong>en</strong>cia) S l <strong>de</strong> la pirámi<strong>de</strong> temporal, estimamos los gradi<strong>en</strong>tes <strong>de</strong><br />

int<strong>en</strong>sidad espacio-temporal local (S l x; S l y; S l t) <strong>en</strong> todos los puntos espacio-temporales.<br />

Para conseguir esto aplicamos a cada uno <strong>de</strong> los tres conjuntos <strong>de</strong> matrices, que<br />

repres<strong>en</strong>tan las compon<strong>en</strong>tes primarias <strong>de</strong> color <strong>de</strong> un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal, tres<br />

filtros <strong>de</strong> Sobel <strong>de</strong> tres dim<strong>en</strong>siones <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te, uno por cada eje (eje ‘x’,<br />

eje ‘y’ y eje tiempo), los filtros son los sigui<strong>en</strong>tes (Figura 5.5):<br />

Filtro <strong>de</strong> Sobel para el eje X: Filtro <strong>de</strong> Sobel para el eje Y:<br />

Filtro <strong>de</strong> Sobel para el eje T:<br />

1 0 1<br />

2 0 2<br />

1 0 1<br />

2 0 2<br />

4 0 4<br />

2 0 2<br />

1 0 1<br />

2 0 2<br />

1 0 1<br />

1 2 1<br />

0 0 0 <br />

1 2 1<br />

2 4 2<br />

0 0 0 <br />

2 4 2<br />

1 2 1<br />

0 0 0 <br />

1 2 1<br />

1 2 1<br />

2 4 2<br />

1 2 1<br />

0 0 0<br />

0 0 0<br />

0 0 0<br />

1 2 1<br />

2 4 2<br />

1 2 1<br />

Figura 5.5: Filtros <strong>de</strong> Sobel.<br />

Inmediatam<strong>en</strong>te <strong>de</strong>spués <strong>de</strong> aplicar los filtros <strong>de</strong> Sobel obt<strong>en</strong>dremos como resultado tres<br />

conjuntos <strong>de</strong> matrices uno por cada compon<strong>en</strong>te primaria <strong>de</strong> color por cada uno <strong>de</strong> los<br />

ejes <strong>de</strong> gradi<strong>en</strong>te, <strong>en</strong>tonces para rell<strong>en</strong>ar cada valor <strong>de</strong>l conjunto <strong>de</strong> matrices que<br />

repres<strong>en</strong>tan cada gradi<strong>en</strong>te <strong>de</strong> un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal (Figura 5.6) hacemos la<br />

sigui<strong>en</strong>te selección: escogemos para cada uno <strong>de</strong> los valores <strong>de</strong> gradi<strong>en</strong>te, que<br />

repres<strong>en</strong>taría cada pixel <strong>de</strong> los frames <strong>de</strong> un gradi<strong>en</strong>te, el valor correspondi<strong>en</strong>te que sea<br />

mayor <strong>en</strong>tre los tres conjuntos <strong>de</strong> matrices <strong>de</strong> compon<strong>en</strong>te <strong>de</strong> color primaria que hemos<br />

obt<strong>en</strong>ido por cada gradi<strong>en</strong>te. Esto nos da como v<strong>en</strong>taja t<strong>en</strong>er un mayor contraste <strong>en</strong>tre el<br />

primer plano y el fondo logrando una mayor información conductual.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 60


5. Desarrollo<br />

Figura 5.6: Volum<strong>en</strong> espacio-temporal<br />

S correspondi<strong>en</strong>te a una persona<br />

caminando. El gradi<strong>en</strong>te espaciotemporal<br />

(S x , S y , S t )se estima <strong>en</strong> cada<br />

punto espacio-temporal (x, y, t).<br />

El gradi<strong>en</strong>te es normal a la superficie espacio-temporal local g<strong>en</strong>erada según el<br />

movimi<strong>en</strong>to <strong>en</strong> el volum<strong>en</strong> espacio-temporal <strong>de</strong> la secu<strong>en</strong>cia (<strong>en</strong> la resolución temporal<br />

l). Así, la dirección <strong>de</strong> gradi<strong>en</strong>te captura la ori<strong>en</strong>tación superficial local, que <strong>de</strong>p<strong>en</strong><strong>de</strong><br />

sobre todo <strong>de</strong> las propieda<strong>de</strong>s conductuales locales <strong>de</strong>l objeto móvil, mi<strong>en</strong>tras su<br />

magnitud <strong>de</strong>p<strong>en</strong><strong>de</strong> principalm<strong>en</strong>te <strong>de</strong> las propieda<strong>de</strong>s fotométricas locales <strong>de</strong>l objeto<br />

móvil y es afectada por su aspecto espacial (p.ej., el contraste, el color, la textura <strong>de</strong> la<br />

ropa, la iluminación, etc.).<br />

(i)<br />

(a) (b) (c)<br />

(d)<br />

(e)<br />

(f)<br />

(g)<br />

(h)<br />

(i)<br />

Figura 5.7: En (a), (b) y (c) muestran <strong>ejemplos</strong> <strong>de</strong> un frame <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje ‘x’, cada<br />

imag<strong>en</strong> correspon<strong>de</strong> a un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la acción <strong>de</strong> caminar. En (d), (e) y<br />

(f) se muestra el mismo ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje ’y’. Por último (g), (h) y (i)<br />

muestran el mismo ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje <strong>de</strong>l tiempo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 61


5. Desarrollo<br />

Una vez hemos obt<strong>en</strong>ido los nueve conjuntos <strong>de</strong> matrices que correspon<strong>de</strong>n a los<br />

gradi<strong>en</strong>tes <strong>de</strong> int<strong>en</strong>sidad espacio-temporal (figura 5.7) con los que po<strong>de</strong>mos repres<strong>en</strong>tar<br />

un movimi<strong>en</strong>to, pasamos a normalizarlos para int<strong>en</strong>tar conseguir conservar solam<strong>en</strong>te la<br />

información conductual (ori<strong>en</strong>tación) y eliminar tanta compon<strong>en</strong>te fotométrica como<br />

sea posible (la magnitud). Para que el mo<strong>de</strong>lo sea invariante a la dirección <strong>de</strong> la acción<br />

(por ejemplo <strong>de</strong> <strong>de</strong>recha a izquierda o <strong>de</strong> izquierda a <strong>de</strong>recha), tomamos el valor<br />

absoluto <strong>de</strong> los gradi<strong>en</strong>tes normalizados. En la fórmula 5.2 se <strong>de</strong>scribe la normalización<br />

<strong>de</strong> la que haremos uso.<br />

N <br />

, N , N <br />

, , <br />

l=1,…, L<br />

(5.2)<br />

L=3<br />

Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> temporal, S l x; S l y; S l t son los gradi<strong>en</strong>tes <strong>de</strong> int<strong>en</strong>sidad<br />

espacio-temporal <strong>en</strong> cada uno <strong>de</strong> los posibles niveles <strong>de</strong> la pirámi<strong>de</strong> temporal y N l x; N l y;<br />

N l t correspon<strong>de</strong>n a los gradi<strong>en</strong>tes espacio-temporales normalizados.<br />

Nuestra repres<strong>en</strong>tación <strong>de</strong> acción consiste <strong>en</strong> una distribución 3L-dim<strong>en</strong>sional <strong>de</strong>l<br />

conjunto <strong>de</strong> medidas <strong>de</strong> cada punto espacio-temporal a través <strong>de</strong> todas las escalas<br />

temporales. Por lo tanto cada punto espacio-temporal es asociado con vector 9-<br />

dim<strong>en</strong>sional: [N1x; N1y; N1t; N2x; N2y; N2t; N3x; N3y; N3t].<br />

5.3.2. Segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />

En este punto se explicará <strong>de</strong> forma <strong>de</strong>tallada los pasos <strong>de</strong>l proceso por el cual<br />

conseguimos <strong>de</strong>tectar las zonas <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> don<strong>de</strong> se produce el movimi<strong>en</strong>to,<br />

pudi<strong>en</strong>do así in<strong>de</strong>p<strong>en</strong>dizar las activida<strong>de</strong>s que realiza cada persona que aparece <strong>en</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, para que más a<strong>de</strong>lante podamos estudiar su similitud con las<br />

acciones ejemplo.<br />

Para la consecución <strong>de</strong> esta tarea necesitamos recuperar la media y la <strong>de</strong>sviación típica<br />

que hemos obt<strong>en</strong>ido <strong>en</strong> la primera etapa <strong>de</strong>l algoritmo y trabajaremos sobre el conjunto<br />

<strong>de</strong> matrices <strong>en</strong> el que hemos guardado los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong><br />

grises.<br />

La técnica que utilizamos para lograr localizar las zonas pert<strong>en</strong>eci<strong>en</strong>tes al fr<strong>en</strong>te es el<br />

método <strong>basado</strong> <strong>en</strong> Gaussiana, por el cual comparamos cada matriz, que repres<strong>en</strong>ta un<br />

frame <strong>de</strong> la subsecu<strong>en</strong>cia que estamos analizando, con el mo<strong>de</strong>lo <strong>de</strong> fondo <strong>de</strong><br />

distribución Gaussiana, que obt<strong>en</strong>emos gracias a la media y a la <strong>de</strong>sviación típica <strong>de</strong>l<br />

fondo (µ, σ2), midi<strong>en</strong>do así la probabilidad <strong>en</strong> luminancia. Una vez hecha esta<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 62


5. Desarrollo<br />

comparación po<strong>de</strong>mos <strong>de</strong>cidir que pixeles correspon<strong>de</strong>n al fondo, a los cuales le damos<br />

el valor 255 (negro), y que pixeles pert<strong>en</strong>ec<strong>en</strong> al fr<strong>en</strong>te a los que les daremos el valor 0<br />

(blanco) (Figura 5.8). Para que podamos clasificar un pixel como integrante <strong>de</strong>l fr<strong>en</strong>te<br />

<strong>de</strong>be cumplir la sigui<strong>en</strong>te condición <strong>de</strong>scrita a continuación <strong>en</strong> la fórmula 5.3:<br />

, , , , , , 0 (5.3)<br />

(a)<br />

(b)<br />

(c)<br />

(d)<br />

Figura 5.8: En (a) y (b) se muestra un ejemplo <strong>de</strong> una persona corri<strong>en</strong>do y su respectivo<br />

resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. En (c) y (d) se muestra un ejemplo <strong>en</strong> el que aparec<strong>en</strong> dos<br />

personas simultáneam<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia una caminando y otra gateando y el<br />

correspondi<strong>en</strong>te resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te.<br />

El sigui<strong>en</strong>te paso que <strong>de</strong>bemos realizar <strong>en</strong> este proceso una vez hemos <strong>de</strong>tectado las<br />

zonas <strong>en</strong> las que se produce el movimi<strong>en</strong>to es el seguimi<strong>en</strong>to <strong>de</strong> las difer<strong>en</strong>tes personas<br />

que se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> la secu<strong>en</strong>cia, <strong>de</strong> esta forma podremos observar <strong>de</strong> manera<br />

in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te las distintas activida<strong>de</strong>s <strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> cuestión.<br />

Lo primero que hemos hecho para efectuar esta tarea es crear una función que nos<br />

permite hallar los contornos <strong>de</strong> las figuras que forman los pixeles blancos unidos y<br />

luego g<strong>en</strong>eramos por cada figura un rectángulo que la conti<strong>en</strong>e Una vez g<strong>en</strong>erados estos<br />

rectángulos escogemos solam<strong>en</strong>te los que son sufici<strong>en</strong>tem<strong>en</strong>te gran<strong>de</strong>s como para<br />

cont<strong>en</strong>er una silueta <strong>de</strong> una persona (<strong>en</strong> este caso se ha <strong>de</strong>cidido que sean rectángulos<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 63


5. Desarrollo<br />

mayores <strong>de</strong> 30 pixeles <strong>de</strong> ancho y 40 pixeles <strong>de</strong> alto), estos rectángulos que se elig<strong>en</strong><br />

como útiles se guardan <strong>en</strong> un array <strong>de</strong> rectángulos. En la figura 5.9 se observa un<br />

ejemplo <strong>de</strong> cómo in<strong>de</strong>p<strong>en</strong>dizamos los movimi<strong>en</strong>tos <strong>de</strong>ntro <strong>de</strong> la misma esc<strong>en</strong>a.<br />

Figura 5.9: Se muestra un ejemplo <strong>de</strong> cómo se consigue in<strong>de</strong>p<strong>en</strong>dizar cada acción <strong>de</strong> la esc<strong>en</strong>a<br />

acotando las zonas don<strong>de</strong> se produce el movimi<strong>en</strong>to mediante estos rectángulos.<br />

Con el conjunto <strong>de</strong> rectángulos que aparec<strong>en</strong> por cada frame vamos rell<strong>en</strong>ando un array<br />

<strong>de</strong> una estructura que se ha creado específicam<strong>en</strong>te para po<strong>de</strong>r guardar y clasificar estos<br />

rectángulos, para así po<strong>de</strong>r i<strong>de</strong>ntificar con que grupo <strong>de</strong> rectángulos se correspon<strong>de</strong> cada<br />

movimi<strong>en</strong>to <strong>de</strong>ntro <strong>de</strong>l vi<strong>de</strong>o. La estructura <strong>en</strong> la que guardamos dichos rectángulos<br />

obt<strong>en</strong>idos se compone <strong>de</strong> los sigui<strong>en</strong>tes campos:<br />

type<strong>de</strong>f struct {<br />

int num_frames; -> número total <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia <strong>en</strong> los<br />

que se da <strong>de</strong>terminado movimi<strong>en</strong>to.<br />

int *NF; -> guardo el número <strong>de</strong> frame que correspon<strong>de</strong> a cada<br />

rectángulo <strong>de</strong>l grupo.<br />

int *x; -> coor<strong>de</strong>nada inicial x <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />

int *y; -> coor<strong>de</strong>nada inicial y <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />

int *ancho; -> ancho <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />

int *alto; -> alto <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />

int flag_libre; -> indica si ha sido guardado algún rectángulo <strong>en</strong><br />

este grupo (0= no hay ningún rectángulo, grupo libre; 1= grupo <strong>en</strong> el<br />

que ya ha sido guardado algún rectángulo).<br />

int distancia; -> el valor <strong>de</strong> la distancia que obt<strong>en</strong>go más a<strong>de</strong>lante<br />

con respecto al movimi<strong>en</strong>to que repres<strong>en</strong>ta este grupo <strong>de</strong> rectángulos.<br />

} GRUPO_RECT;<br />

En principio hemos <strong>de</strong>cidido que este array<br />

t<strong>en</strong>ga capacidad para guardar diez<br />

estructuras <strong>de</strong> este tipo, es <strong>de</strong>cir, diez movimi<strong>en</strong>tos distintos como máximo, esto se ha<br />

hecho <strong>de</strong> esta forma porque por ahora <strong>en</strong> los vi<strong>de</strong>os con los que trabajamos el número<br />

<strong>de</strong> activida<strong>de</strong>s distintas que aparec<strong>en</strong> a la vez es bastante bajo, normalm<strong>en</strong>te <strong>en</strong>tre una y<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

64


5. Desarrollo<br />

cinco. Como aclaración <strong>de</strong>cir que <strong>en</strong> cada grupo <strong>de</strong> rectángulos se guarda como mucho<br />

un rectángulo por cada frame <strong>de</strong> la secu<strong>en</strong>cia.<br />

Para rell<strong>en</strong>ar correctam<strong>en</strong>te el array <strong>de</strong> grupos <strong>de</strong> rectángulos lo primero que hacemos<br />

con cada uno <strong>de</strong> los rectángulos <strong>de</strong> cada frame es ver si pert<strong>en</strong>ece a alguno <strong>de</strong> los<br />

grupos <strong>de</strong> rectángulos que ya estén iniciados, es <strong>de</strong>cir, los grupos <strong>en</strong> los que ya se haya<br />

guardado algún rectángulo. Un rectángulo pert<strong>en</strong>ece a un grupo ya iniciado si cumple la<br />

condición <strong>de</strong> que su c<strong>en</strong>tro este próximo al c<strong>en</strong>tro <strong>de</strong>l último rectángulo que se haya<br />

guardado <strong>en</strong> el grupo. Si el nuevo rectángulo no cumple esta condición con ninguno <strong>de</strong><br />

los grupos iniciados quiere <strong>de</strong>cir que correspon<strong>de</strong> a un grupo nuevo y se introduce <strong>en</strong> un<br />

grupo con el flag libre a cero, que indica que es un grupo vacio.<br />

Después <strong>de</strong> ubicar cada uno <strong>de</strong> los rectángulos <strong>en</strong> su respectivo grupo, <strong>de</strong>scartamos<br />

aquellos grupos que ti<strong>en</strong><strong>en</strong> rectángulos <strong>en</strong> m<strong>en</strong>os <strong>de</strong> tres frames <strong>de</strong>l vi<strong>de</strong>o, porque<br />

suel<strong>en</strong> indicar zonas <strong>en</strong> las que aparec<strong>en</strong> siluetas <strong>de</strong>bido a una mala segm<strong>en</strong>tación, o<br />

porque hay un cambio <strong>en</strong> el fondo <strong>de</strong>l vi<strong>de</strong>o, y como aún no se ha actualizado <strong>de</strong> nuevo<br />

la media <strong>de</strong>l fondo, aparec<strong>en</strong> rectángulos no <strong>de</strong>seados, o porque un movimi<strong>en</strong>to <strong>en</strong><br />

m<strong>en</strong>os <strong>de</strong> tres frames es tan rápido y ti<strong>en</strong>e tan poca información que se <strong>de</strong>scarta.<br />

Gracias a este proceso logramos in<strong>de</strong>p<strong>en</strong>dizar las activida<strong>de</strong>s <strong>de</strong> las difer<strong>en</strong>tes personas<br />

que aparec<strong>en</strong> <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o con la que estamos trabajando, lo que nos<br />

permite <strong>en</strong> los pasos posteriores conseguir para cada acción un conjunto <strong>de</strong> histogramas<br />

que la caracteric<strong>en</strong>, con los que podremos realizar la comparación con las acciones<br />

mo<strong>de</strong>lo <strong>de</strong> nuestra base <strong>de</strong> datos.<br />

5.3.3. Cálculo <strong>de</strong> los histogramas<br />

Ahora pasaremos a <strong>de</strong>scribir otra <strong>de</strong> las fases fundam<strong>en</strong>tales <strong>de</strong> este algoritmo, <strong>en</strong> este<br />

caso vamos a hablar <strong>de</strong> cuál es el método que aplicamos para introducir los datos que<br />

nos interesan para caracterizar un movimi<strong>en</strong>to <strong>en</strong> un conjunto <strong>de</strong> histogramas, que<br />

usaremos más a<strong>de</strong>lante para examinar el grado <strong>de</strong> similitud <strong>en</strong>tre dos activida<strong>de</strong>s. De<br />

esta etapa <strong>de</strong>bemos obt<strong>en</strong>er como resultado un grupo <strong>de</strong> nueve histogramas uno por<br />

cada eje <strong>de</strong> coor<strong>de</strong>nadas <strong>en</strong> cada uno <strong>de</strong> los tres niveles <strong>de</strong> la pirámi<strong>de</strong> temporal que<br />

t<strong>en</strong>emos <strong>de</strong> cada subsecu<strong>en</strong>cia <strong>de</strong>l vi<strong>de</strong>o que hemos introducido <strong>en</strong> el sistema.<br />

En esta fase trabajaremos sobre los resultados que hemos obt<strong>en</strong>ido <strong>en</strong> las fases<br />

anteriores, tanto sobre los nueve conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan a los gradi<strong>en</strong>tes<br />

y sus respectivas normalizaciones, como sobre los resultados que hemos obt<strong>en</strong>ido al<br />

in<strong>de</strong>p<strong>en</strong>dizar las distintas acciones que aparec<strong>en</strong> <strong>en</strong> la secu<strong>en</strong>cia.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 65


5. Desarrollo<br />

Inicialm<strong>en</strong>te para repres<strong>en</strong>tar un movimi<strong>en</strong>to in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te introducimos un único<br />

grupo <strong>de</strong> rectángulos <strong>en</strong> la función que calcula los histogramas. A continuación<br />

buscamos <strong>en</strong> cada frame <strong>de</strong>l gradi<strong>en</strong>te <strong>de</strong>l eje <strong>de</strong> tiempo <strong>en</strong> las zonas que nos indican los<br />

rectángulos la posición <strong>de</strong> los pixeles <strong>en</strong> los que se produce el movimi<strong>en</strong>to. Para escoger<br />

los pixeles que nos interesan utilizamos dos umbrales, <strong>de</strong> esta forma seleccionamos<br />

como pixeles válidos aquellos que sean mayores que el primer umbral o los que sean<br />

m<strong>en</strong>ores que el segundo umbral. El hecho <strong>de</strong> buscar las posiciones <strong>de</strong> los pixeles útiles<br />

<strong>en</strong> las zonas acotadas por los rectángulos obt<strong>en</strong>idos <strong>en</strong> la fase anterior <strong>de</strong>l algoritmo, nos<br />

permite reducir el ruido que po<strong>de</strong>mos introducir <strong>en</strong> los histogramas y reducir también<br />

tanto el coste computacional como el tiempo <strong>de</strong> ejecución. Por último, para que un pixel<br />

sea válido a<strong>de</strong>más <strong>de</strong> pert<strong>en</strong>ecer al conjunto <strong>de</strong> pixeles que indican movimi<strong>en</strong>to <strong>de</strong>ntro<br />

<strong>de</strong> los frames <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje temporal, <strong>de</strong>be coincidir con un pixel blanco que<br />

indique que pert<strong>en</strong>ece al fr<strong>en</strong>te <strong>en</strong> el frame correspondi<strong>en</strong>te <strong>de</strong> la segm<strong>en</strong>tación que<br />

realizada <strong>en</strong> el apartado anterior. En la figura 5.10 se muestra un diagrama <strong>en</strong> el que<br />

observamos la manera <strong>en</strong> la que obt<strong>en</strong>emos los píxeles que nos interesan.<br />

(a)<br />

(b)<br />

(c)<br />

(d)<br />

Figura 5.10: Diagrama <strong>de</strong> flujo que nos <strong>en</strong>seña cómo obt<strong>en</strong>emos la posición <strong>de</strong> los pixeles que<br />

nos interesan para una secu<strong>en</strong>cia <strong>en</strong> la que aparece una persona caminando.(a)Frame sobre el<br />

que estamos trabajando. (b) Resultado <strong>de</strong> calcular el gradi<strong>en</strong>te temporal sobre el frame inicial.<br />

(c)Resultado <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong>l frame inicial. (d) Obt<strong>en</strong>ción <strong>de</strong> los pixiles útiles.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 66


5. Desarrollo<br />

Tras finalizar la tarea <strong>de</strong> extarción e in<strong>de</strong>ntificación <strong>de</strong> las posiciones <strong>de</strong> los pixeles <strong>de</strong><br />

cada frame <strong>de</strong> la secu<strong>en</strong>cia que nos interesan para caracterizar un movimi<strong>en</strong>to,<br />

buscamos a partir <strong>de</strong> las mismas el valor correspondi<strong>en</strong>te <strong>en</strong> el conjunto <strong>de</strong> matrices que<br />

repres<strong>en</strong>tan a los gradi<strong>en</strong>tes normalizados (Nx, Ny, Nt), y finalm<strong>en</strong>te estos valores los<br />

introducimos <strong>en</strong> su respectivo histograma, uno <strong>de</strong> los tres posibles que exist<strong>en</strong> por<br />

cada escala temporal <strong>de</strong> la subsecu<strong>en</strong>cia. De esta forma logramos obt<strong>en</strong>er los nueve<br />

histogramas con los que po<strong>de</strong>mos caracterizar correctam<strong>en</strong>te una acción humana<br />

concreta (h1x; h1y; h1t; h2 x; h2y; h2t; h3x; h3y; h3t).<br />

Los datos <strong>de</strong> los histogramas que caracterizan cada movimi<strong>en</strong>to son guardados <strong>en</strong> la<br />

sigui<strong>en</strong>te estructura:<br />

type<strong>de</strong>f struct {<br />

int hist_bins_x1[256];<br />

int hist_bins_y1[256];<br />

int hist_bins_t1[256];<br />

int hist_bins_x2[256];<br />

int hist_bins_y2[256];<br />

int hist_bins_t2[256];<br />

int hist_bins_x3[256];<br />

int hist_bins_y3[256];<br />

int hist_bins_t3[256];<br />

} HISTOGRAMAS;<br />

El hecho <strong>de</strong> que repres<strong>en</strong>temos una acción usando estos nueve histogramas se <strong>de</strong>be a<br />

que <strong>en</strong> una etapa previa <strong>de</strong>l proyecto se <strong>de</strong>scartó repres<strong>en</strong>tar las distintas acciones<br />

mediante histogramas multidim<strong>en</strong>sionales, ya que son computacionalm<strong>en</strong>te costosos y<br />

consum<strong>en</strong> mucha memoria. Así que <strong>de</strong>cidimos asumir que todos los compon<strong>en</strong>tes <strong>de</strong> un<br />

punto espacio-temporal son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes el uno <strong>de</strong>l otro. Repres<strong>en</strong>tamos<br />

cada acción<br />

con un conjunto <strong>de</strong> 3L distribuciones unidim<strong>en</strong>sionales, una para cada compon<strong>en</strong>te <strong>de</strong><br />

las medidas espacio-temporales (x,y,t) <strong>en</strong> cada uno <strong>de</strong> los niveles <strong>de</strong> la pirámi<strong>de</strong><br />

temporal. En la figura 5.11 se muestra un ejemplo <strong>de</strong> los histogramas s que logramos <strong>en</strong><br />

el primer nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la acción <strong>de</strong>l tipo correr.<br />

Figura 5.11: Histogramas <strong>en</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes ‘x’, ‘y’ y ‘t’ <strong>de</strong>l primer nivel <strong>de</strong> la<br />

pirámi<strong>de</strong> temporal para un ejemplo <strong>de</strong> la acción <strong>de</strong>l tipo correr.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

67


5. Desarrollo<br />

5.4. Comparación y <strong>de</strong>cisión<br />

5.4.1. Comparación<br />

Esta sección se <strong>de</strong>scribe la fase <strong>de</strong>finitiva <strong>de</strong> nuestro algoritmo <strong>en</strong> la que apoyándonos<br />

sobre el conjunto <strong>de</strong> histogramas que repres<strong>en</strong>tan cada actividad humana, vamos a<br />

conseguir estudiar su similitud conductual con respecto a las acciones que hemos<br />

escogido como ejemplo o mo<strong>de</strong>lo. En la figura 5.12 po<strong>de</strong>mos comprobar las difer<strong>en</strong>cias<br />

que exist<strong>en</strong> <strong>en</strong>tre los histogramas pert<strong>en</strong>eci<strong>en</strong>tes a distintos movimi<strong>en</strong>tos<br />

Una vez que hemos recogido las características que <strong>de</strong>fin<strong>en</strong> un movimi<strong>en</strong>to, que está<br />

pres<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que estamos analizando, <strong>de</strong>ntro <strong>de</strong> su respectivo<br />

conjunto <strong>de</strong> nueve histogramas, pasamos a realizar una comparativa con la actividad o<br />

activida<strong>de</strong>s humanas ejemplo que hemos guardado con anterioridad <strong>en</strong> nuestra base <strong>de</strong><br />

datos mediante sus respectivos conjuntos <strong>de</strong> histogramas que las caracterizan. Para<br />

realizar esta comparativa <strong>en</strong>tre dos acciones vamos a utilizar la sigui<strong>en</strong>te fórmula 5.4,<br />

que nos da como resultado la distancia <strong>de</strong> “comportami<strong>en</strong>to” <strong>en</strong>tre dos secu<strong>en</strong>cias.<br />

∑<br />

,,<br />

<br />

<br />

<br />

<br />

K € {x, y, t}<br />

l= 1,…, L (niveles <strong>de</strong> pirámi<strong>de</strong> temporal)<br />

i= 1,…, nº <strong>de</strong> divisiones histograma<br />

(5.4)<br />

Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> que estamos usando, k el eje con el que estamos<br />

trabajando e i el número <strong>de</strong> bin <strong>de</strong>l histograma <strong>en</strong> el que nos <strong>en</strong>contramos; h 1 y h 2<br />

repres<strong>en</strong>tan los histogramas correspondi<strong>en</strong>tes a la acción ejemplo y al movimi<strong>en</strong>to<br />

estudiado respectivam<strong>en</strong>te.<br />

Figura 5.12: Comparativa <strong>de</strong> los histogramas <strong>de</strong> 4 acciones distintas, que son correr, caminar,<br />

agitar los brazos y rodar. (a)h 1 x, (b)h 1 y, (c)h 1 t, (d)h 2 x, (e)h 2 y y (f)h 2 t.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 68


5. Desarrollo<br />

5.4.2. Decisión<br />

Una vez calculada esta medida <strong>de</strong> distancia <strong>en</strong>tre las acciones que aparec<strong>en</strong> <strong>en</strong> dos<br />

secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o distintas, el último paso que <strong>de</strong>bemos dar <strong>en</strong> este algoritmo consiste<br />

<strong>en</strong> tomar la <strong>de</strong>cisión <strong>de</strong> si se trata <strong>de</strong> la misma acción o no, para conseguir esto<br />

empleamos un umbral. Si la distancia <strong>en</strong>tre nuestra actividad y la actividad ejemplo es<br />

m<strong>en</strong>or o igual al umbral que estamos usando tomaremos la <strong>de</strong>cisión <strong>de</strong> que nuestra<br />

actividad pue<strong>de</strong> consi<strong>de</strong>rarse similar a la acción ejemplo, <strong>en</strong> caso contrario tomaremos<br />

la <strong>de</strong>cisión opuesta.<br />

Como nuestra repres<strong>en</strong>tación está basada <strong>en</strong> distribuciones, se comporta <strong>de</strong> la misma<br />

forma para secu<strong>en</strong>cias que muestran la misma acción, incluso cuando los tamaños <strong>de</strong> los<br />

frames son distintos o cuando se muestra un número difer<strong>en</strong>te <strong>de</strong> repeticiones por<br />

acción.<br />

En la sigui<strong>en</strong>te sección <strong>de</strong>mostraremos que un movimi<strong>en</strong>to se pue<strong>de</strong> caracterizar por un<br />

conjunto <strong>de</strong> distribuciones unidim<strong>en</strong>sionales, y que la difer<strong>en</strong>cia <strong>en</strong>tre dos <strong>de</strong> estos<br />

conjuntos es sufici<strong>en</strong>te como para discernir dos tipos <strong>de</strong> acción humana.<br />

Figura 5.13: Ejemplo <strong>de</strong> un frame <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong><br />

ví<strong>de</strong>o analizada por el sistema para el caso <strong>en</strong> el que la<br />

acción mo<strong>de</strong>lo es caminar.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 69


5. Desarrollo<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 70


6. Experim<strong>en</strong>tos y resultados<br />

6. Experim<strong>en</strong>tos y resultados<br />

6.1. Modo <strong>de</strong> evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to<br />

Para evaluar <strong>de</strong> forma correcta los resultados obt<strong>en</strong>idos <strong>de</strong> nuestro sistema reconocedor<br />

<strong>de</strong> activida<strong>de</strong>s humanas <strong>en</strong> ví<strong>de</strong>o, necesitamos una serie <strong>de</strong> herrami<strong>en</strong>tas y<br />

procedimi<strong>en</strong>tos que nos permitan evaluar su r<strong>en</strong>dimi<strong>en</strong>to. Para ello utilizaremos una<br />

serie <strong>de</strong> valores y curvas que nos permitan analizar diversos aspectos <strong>de</strong>l algoritmo.<br />

Des<strong>de</strong> el primer mom<strong>en</strong>to <strong>de</strong>bemos t<strong>en</strong>er <strong>en</strong> consi<strong>de</strong>ración que dos muestras <strong>de</strong> un<br />

mismo movimi<strong>en</strong>to realizado por distintas personas (cambios <strong>en</strong> el comportami<strong>en</strong>to) o<br />

<strong>en</strong> distintas condiciones ambi<strong>en</strong>tales (iluminación, condiciones <strong>de</strong> cámara, etc.) no son<br />

exactam<strong>en</strong>te iguales y pres<strong>en</strong>tan una serie <strong>de</strong> difer<strong>en</strong>cias. Por ello la respuesta <strong>de</strong>l<br />

comparador <strong>de</strong> nuestro sistema se basa <strong>en</strong> cuantificar la distancia conductual <strong>en</strong>tre la<br />

secu<strong>en</strong>cia introducida y el patrón <strong>de</strong> la base <strong>de</strong> datos con el que se está comparando.<br />

Cuanto mayor sea la similitud <strong>en</strong>tre muestras, m<strong>en</strong>or será la puntuación <strong>de</strong> distancia<br />

<strong>de</strong>vuelta por el comparador y más seguro estará el sistema <strong>de</strong> que dos movimi<strong>en</strong>tos son<br />

iguales.<br />

La <strong>de</strong>cisión <strong>de</strong>l algoritmo vi<strong>en</strong>e dada mediante un umbral, las activida<strong>de</strong>s que nos <strong>de</strong>n<br />

como resultado <strong>de</strong> la comparación una distancia m<strong>en</strong>or que el umbral se consi<strong>de</strong>raran<br />

que son iguales a las <strong>de</strong>l correspondi<strong>en</strong>te ejemplo que estemos usando, mi<strong>en</strong>tras si la<br />

distancia es superior al umbral, consi<strong>de</strong>raremos estas activida<strong>de</strong>s como distintas a la<br />

actividad ejemplo correspondi<strong>en</strong>te.<br />

6.1.1. Métodos <strong>de</strong> evaluación <strong>de</strong> sistemas<br />

Si estuviésemos trabajando con un sistema i<strong>de</strong>al, los rangos <strong>de</strong> variación <strong>de</strong> las medidas<br />

<strong>de</strong> distancia obt<strong>en</strong>idas para las acciones <strong>de</strong>berían estar sufici<strong>en</strong>tem<strong>en</strong>te separadas, <strong>de</strong><br />

forma que no haya ningún tipo <strong>de</strong> solapami<strong>en</strong>to <strong>en</strong>tre las distribuciones <strong>de</strong> las distintas<br />

activida<strong>de</strong>s. De esta forma po<strong>de</strong>mos establecer un umbral <strong>de</strong> <strong>de</strong>cisión que discrimine<br />

perfectam<strong>en</strong>te cada acción. Sin embargo, pue<strong>de</strong> darse el caso <strong>en</strong> que exista una región<br />

<strong>en</strong> la que se solap<strong>en</strong> las distribuciones, interpretando toda medida <strong>de</strong> distancia bajo el<br />

umbral como movimi<strong>en</strong>tos iguales a los <strong>de</strong> la base <strong>de</strong> datos. Esto nos lleva a <strong>de</strong>ducir<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 71


6. Experim<strong>en</strong>tos y resultados<br />

que el área bajo la curva <strong>de</strong> acciones incorrectas que queda por <strong>de</strong>bajo <strong>de</strong>l umbral es la<br />

probabilidad <strong>de</strong> que tomemos una acción incorrecta como válida, lo que <strong>de</strong>nominaremos<br />

tasa <strong>de</strong> falsa aceptación (FAR, False Acceptance Rate). De la misma manera el área<br />

bajo la curva <strong>de</strong> movimi<strong>en</strong>tos correctos que queda por <strong>en</strong>cima <strong>de</strong>l umbral es la<br />

probabilidad <strong>de</strong> que tomemos una acción correcta como no válida, es <strong>de</strong>ir, tasa <strong>de</strong> falso<br />

rechazo (FRR, False Rejection Rate). Según coloquemos el umbral la FAR y la FRR<br />

varían <strong>en</strong> s<strong>en</strong>tido opuesto (Figura 6.1), si el umbral es alto nuestro sistema será muy<br />

permisivo, <strong>en</strong> caso contrario si el umbral es bajo el sistema pasará a ser muy restrictivo.<br />

Figura 6.1: Ejemplos <strong>de</strong> FAR y FRR.<br />

Un punto <strong>de</strong> dichas graficas que nos permite caracterizar <strong>de</strong> forma directa el<br />

funcionami<strong>en</strong>to <strong>de</strong>l sistema es el punto <strong>de</strong> igual error, EER (Equal Error Rate) (Figura<br />

6.2). Punto <strong>en</strong> que las curvas <strong>de</strong> falsa aceptación (FA) y falso rechazo (FR) se cruzan, es<br />

por ello la tasa <strong>de</strong> igual error (EER) suele usarse para caracterizar con un único número<br />

el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un sistema.<br />

A pesar <strong>de</strong> que el punto <strong>de</strong> EER correspon<strong>de</strong> al umbral don<strong>de</strong> se igualan FA y FR, esto<br />

no implica que el sistema <strong>de</strong>ba trabajar <strong>en</strong> ese punto. Para conseguir una bu<strong>en</strong>a<br />

comparación <strong>en</strong>tre sistemas se suele emplear la repres<strong>en</strong>tación <strong>en</strong> forma <strong>de</strong> curvas DET<br />

(Detection Error Tra<strong>de</strong>off), que consiste <strong>en</strong> la pres<strong>en</strong>tación <strong>de</strong> un error fr<strong>en</strong>te al otro <strong>en</strong><br />

un eje normalizado, obt<strong>en</strong>iéndose así una única curva para ambos tipos <strong>de</strong> error <strong>de</strong>finida<br />

por todos los posibles puntos <strong>de</strong> trabajo <strong>de</strong>l sistema. En esta curva cualquier punto está<br />

dado por un valor <strong>de</strong> FA y otro <strong>de</strong> FR, <strong>de</strong> modo que no es necesario estar manejando<br />

varias curvas para <strong>de</strong>terminar el punto <strong>de</strong> trabajo. Por contra, per<strong>de</strong>mos facilidad para<br />

<strong>en</strong>contrar el EER, que se localiza <strong>en</strong> la bisectriz <strong>de</strong>l ángulo formado por la parte positiva<br />

<strong>de</strong>l eje <strong>de</strong> FA y FR (Figura 6.3).<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 72


6. Experim<strong>en</strong>tos y resultados<br />

Figura 6.2: Ejemplo <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s y distribuciones <strong>de</strong> probabilidad <strong>de</strong> acciones correctas e<br />

incorrectas.<br />

Figura 6.3: Ejemplo <strong>de</strong> curva DET.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

73


6. Experim<strong>en</strong>tos y resultados<br />

6.1.2. Establecimi<strong>en</strong>to <strong>de</strong>l umbral<br />

Los valores <strong>de</strong>l umbral influy<strong>en</strong> <strong>de</strong> forma directa <strong>en</strong> las tasas <strong>de</strong> falsa aceptación y falso<br />

rechazo. Si el umbral es alto, pocos movimi<strong>en</strong>tos válidos serán rechazados, pero un<br />

número mayor <strong>de</strong> movimi<strong>en</strong>tos incorrectos serán aceptados <strong>de</strong> forma errónea, por el<br />

contrario, si disminuimos el valor <strong>de</strong>l umbral, <strong>de</strong>crecerán las falsas aceptaciones a costa<br />

<strong>de</strong> increm<strong>en</strong>tar los falsos rechazos. Por tanto, el establecimi<strong>en</strong>to <strong>de</strong> umbrales estará<br />

condicionado a una especificación <strong>de</strong> un punto <strong>de</strong> trabajo que guar<strong>de</strong> un compromiso<br />

<strong>en</strong>tre ambos tipos <strong>de</strong> error.<br />

Exist<strong>en</strong> dos procedimi<strong>en</strong>tos clásicos para establecer los umbrales, ya se realice este<br />

proceso a priori o a posteriori.<br />

Establecimi<strong>en</strong>to <strong>de</strong> umbrales a priori: El umbral se establece a partir <strong>de</strong> un<br />

conjunto <strong>de</strong> datos <strong>de</strong> estimación, que pue<strong>de</strong>n ser: bi<strong>en</strong> los propios datos <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>l sistema, o bi<strong>en</strong> un conjunto nuevo <strong>de</strong> datos no observados<br />

hasta el mom<strong>en</strong>to. Una vez establecidos los umbrales, las tasas <strong>de</strong> falso rechazo<br />

y falsa aceptación, se estiman a partir <strong>de</strong> un conjunto <strong>de</strong> prueba distinto <strong>de</strong>l<br />

conjunto usado para la estimación <strong>de</strong>l umbral.<br />

Establecimi<strong>en</strong>to <strong>de</strong> umbrales a posteriori: El umbral se calcula a partir <strong>de</strong> los<br />

datos <strong>de</strong>l conjunto <strong>de</strong> prueba. En este caso, las tasas <strong>de</strong> falso rechazo y falsa<br />

aceptación, <strong>de</strong>b<strong>en</strong> ser interpretadas como los mejores resultados posibles <strong>de</strong>l<br />

sistema, o lo que es lo mismo, el funcionami<strong>en</strong>to <strong>de</strong>l sistema con un umbral<br />

i<strong>de</strong>al.<br />

Debido a que no existe un estándar a la hora <strong>de</strong> establecer un umbral <strong>en</strong> sistemas <strong>de</strong><br />

reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s, para concretar el umbral <strong>de</strong> <strong>de</strong>cisión <strong>en</strong> nuestro<br />

algoritmo hemos optado por ayudarnos <strong>de</strong> los resultados <strong>de</strong> las tasas FA y FR. Haci<strong>en</strong>do<br />

un barrido por todos los valores posibles <strong>de</strong> umbral obt<strong>en</strong>emos difer<strong>en</strong>tes porc<strong>en</strong>tajes <strong>de</strong><br />

falsos aciertos y falsos rechazos y según estos resultados <strong>de</strong>terminamos el valor más<br />

óptimo para el umbral <strong>de</strong> <strong>de</strong>cisión <strong>en</strong> cada caso.<br />

6.2. Resultados<br />

Para realizar los experim<strong>en</strong>tos expuestos a continuación hemos contado con un conjunto<br />

<strong>de</strong> ví<strong>de</strong>os <strong>en</strong> los que se muestran diversas activida<strong>de</strong>s humanas que han sido<br />

proporcionados por Ivana Mikic, también expondremos posteriorm<strong>en</strong>te experim<strong>en</strong>tos<br />

realizados sobre un set <strong>de</strong> ví<strong>de</strong>os creados exclusivam<strong>en</strong>te para este proyecto (Anexo B).<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 74


6. Experim<strong>en</strong>tos y resultados<br />

6.2.1. Experim<strong>en</strong>to A: condiciones idénticas<br />

Empezaremos <strong>de</strong>sarrollando el caso más simple que pres<strong>en</strong>ta m<strong>en</strong>os dificulta<strong>de</strong>s a la<br />

hora <strong>de</strong> reconocer las activida<strong>de</strong>s que aparec<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias que vamos a analizar.<br />

Para este caso las condiciones g<strong>en</strong>erales <strong>de</strong> la secu<strong>en</strong>cia ejemplo y <strong>de</strong> la secu<strong>en</strong>cia<br />

estudiada serán idénticas. Esto implica que el fondo a<strong>de</strong>más <strong>de</strong> ser el mismo para ambas<br />

secu<strong>en</strong>cias, será unimodal y los valores <strong>de</strong> sus pixeles no variaran, tampoco habrá<br />

cambios significativos <strong>en</strong> la iluminación ni <strong>en</strong> las condiciones <strong>de</strong> cámara la cual<br />

permanecerá <strong>en</strong> todo mom<strong>en</strong>to estática.<br />

A partir <strong>de</strong> este punto los resultados inmediatos <strong>de</strong> distancias <strong>en</strong>tre los distintos<br />

movimi<strong>en</strong>tos, los repres<strong>en</strong>taremos mediante una serie <strong>de</strong> gráficas que relacionaran cada<br />

frame <strong>en</strong> los que aparece una <strong>de</strong>terminada actividad con su correspondi<strong>en</strong>te valor <strong>de</strong><br />

distancia conductual con respecto <strong>de</strong> la actividad ejemplo que esta almac<strong>en</strong>ada <strong>en</strong><br />

nuestra base <strong>de</strong> datos.<br />

A continuación expondremos los resultados obt<strong>en</strong>idos, bajo las condiciones <strong>de</strong>scritas<br />

anteriorm<strong>en</strong>te, <strong>de</strong> los movimi<strong>en</strong>tos caminar, correr y pasos laterales. Primero<br />

emplearemos como acción ejemplo caminar (Figura 6.4) y seguidam<strong>en</strong>te utilizaremos<br />

como acción ejemplo correr (Figura 6.5).<br />

7000<br />

6000<br />

caminar<br />

correr<br />

lateral<br />

5000<br />

dis tanc ia<br />

4000<br />

3000<br />

2000<br />

Acción ejemplo<br />

caminar<br />

1000<br />

0<br />

0 50 100 150 200 250<br />

frame<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 75


6. Experim<strong>en</strong>tos y resultados<br />

(a) (b) (c)<br />

Figura 6.4: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral fr<strong>en</strong>te a la actividad ejemplo<br />

caminar.<br />

8000<br />

7000<br />

caminar<br />

correr<br />

lateral<br />

6000<br />

5000<br />

distancia<br />

4000<br />

3000<br />

2000<br />

Acción ejemplo<br />

correr<br />

1000<br />

0<br />

0 50 100 150 200 250<br />

frame<br />

(a) (b) (c)<br />

Figura 6.5: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral fr<strong>en</strong>te a la actividad ejemplo<br />

correr.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 76


6. Experim<strong>en</strong>tos y resultados<br />

De los resultados que conseguimos <strong>en</strong> este experim<strong>en</strong>to, <strong>en</strong> el que las condiciones son<br />

i<strong>de</strong>ales, po<strong>de</strong>mos obt<strong>en</strong>er como conclusión que el sistema consigue discernir con una<br />

tasa <strong>de</strong> error <strong>de</strong> cero o muy cercana a cero los posibles movimi<strong>en</strong>tos que aparec<strong>en</strong> <strong>en</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o estudiada. Los resultados <strong>de</strong> las tasas FA y FR se expon<strong>en</strong> <strong>en</strong> las<br />

tablas sigui<strong>en</strong>tes.<br />

Caminar<br />

Correr<br />

Pasos laterales<br />

Umbral<br />

Tasas<br />

950 960-1410 1420<br />

FA(%) 0 0 0<br />

FR(%) 0.4000 0 0<br />

FA(%) 0 0 1.0000<br />

FR(%) 0 0 0<br />

FA(%) 0 0 0<br />

FR(%) 0 0 0<br />

Tabla 6.1: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar, correr y<br />

pasos laterales con respecto <strong>de</strong> la actividad ejemplo caminar.<br />

Caminar<br />

Correr<br />

Pasos laterales<br />

Umbral<br />

Tasas<br />

880 890-1270 1280<br />

FA(%) 0 0 0.4000<br />

FR(%) 0 0 0<br />

FA(%) 0 0 0<br />

FR(%) 1.0000 0 0<br />

FA(%) 0 0 0<br />

FR(%) 0 0 0<br />

Tabla 6.2: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar, correr y<br />

pasos laterales con respecto <strong>de</strong> la actividad ejemplo correr.<br />

Conforme a estos resultados hemos optado por poner el umbral <strong>de</strong> <strong>de</strong>cisión para ambos<br />

<strong>ejemplos</strong> <strong>en</strong> 1100, ya que <strong>en</strong> este caso se da que <strong>en</strong> este punto se pue<strong>de</strong> conseguir<br />

perfectam<strong>en</strong>te que las tasas <strong>de</strong> falsa aceptación y falso rechazo sean cero.<br />

Para realizar esta primera prueba hemos escogido movimi<strong>en</strong>tos que son parecidos<br />

conductualm<strong>en</strong>te, ya que son este tipo <strong>de</strong> movimi<strong>en</strong>tos los que nos ofrec<strong>en</strong> una mayor<br />

dificultad a la hora <strong>de</strong> difer<strong>en</strong>ciarlos, los movimi<strong>en</strong>tos escogidos para este experim<strong>en</strong>to<br />

son los antes m<strong>en</strong>cionados caminar, correr y hacer pasos laterales.<br />

En ambas gráficas (Figuras 6.4 y 6.5) po<strong>de</strong>mos observar que las medidas <strong>de</strong> distancia<br />

que surg<strong>en</strong> al comparar los pasos laterales con las activida<strong>de</strong>s ejemplo <strong>de</strong> caminar o<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 77


6. Experim<strong>en</strong>tos y resultados<br />

correr se separan <strong>de</strong> forma significativa <strong>de</strong>l umbral propuesto, lo que nos indica que no<br />

t<strong>en</strong>dríamos ninguna dificultad <strong>en</strong> difer<strong>en</strong>ciar este tipo acción <strong>de</strong> las acciones ejemplo<br />

dadas. Esto también nos lleva a p<strong>en</strong>sar que acciones que se difer<strong>en</strong>cian <strong>en</strong> su realización<br />

aun más que esta acción estudiada (por ejemplo gatear), nos darán como resultado un<br />

conjunto <strong>de</strong> valores <strong>de</strong> distancia que estarán todavía más alejados <strong>de</strong>l umbral.<br />

Un caso distinto y más interesante se da a la hora <strong>de</strong> analizar las activida<strong>de</strong>s <strong>de</strong> caminar<br />

y correr, al ser dos movimi<strong>en</strong>tos significativam<strong>en</strong>te parecidos al compararlos <strong>en</strong>tre si<br />

obt<strong>en</strong>emos medidas <strong>de</strong> distancia relativam<strong>en</strong>te cercanas, lo que hace que a la hora <strong>de</strong><br />

distinguir una acción <strong>de</strong> otra se pueda cometer algún tipo <strong>de</strong> error. En este caso<br />

po<strong>de</strong>mos conseguir que el error sea nulo <strong>de</strong>bido a que las condiciones sobre las que<br />

trabajamos están muy controladas. Como veremos <strong>en</strong> los sigui<strong>en</strong>tes experim<strong>en</strong>tos, estos<br />

dos movimi<strong>en</strong>tos serán los que nos ofrecerán una mayor dificultad a la hora <strong>de</strong> discernir<br />

uno <strong>de</strong>l otro, a causa <strong>de</strong> posibles f<strong>en</strong>óm<strong>en</strong>os como por ejemplo: oclusiones( zonas <strong>en</strong> las<br />

que se produce efecto camuflaje <strong>de</strong>bido al poco contraste <strong>en</strong>tre el fr<strong>en</strong>te y el fondo),<br />

cambios significativos <strong>de</strong> iluminación, etc.<br />

6.2.2. Experim<strong>en</strong>to B: condiciones no idénticas<br />

En este apartado hablaremos <strong>de</strong> la segunda posibilidad que nos po<strong>de</strong>mos <strong>en</strong>contrar a la<br />

hora <strong>de</strong> utilizar este sistema. En esta ocasión las condiciones que se dan <strong>en</strong> el ejemplo<br />

no son idénticas a las <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que posteriorm<strong>en</strong>te analizaremos, sino<br />

que esta vez las condiciones serán parecidas, ya que el ejemplo lo extraeremos <strong>de</strong> un<br />

ví<strong>de</strong>o <strong>en</strong> el que el fondo será similar al <strong>de</strong> los ví<strong>de</strong>os estudiados, pero <strong>en</strong> el que puedan<br />

aparecer algunas difer<strong>en</strong>cias. Este caso lo po<strong>de</strong>mos calificar como el más habitual,<br />

<strong>de</strong>bido a que si aplicásemos este algoritmo a un sistema <strong>en</strong> la vida real serían estas<br />

circunstancias las que se darían con más frecu<strong>en</strong>cia, ya que lo más lógico sería <strong>en</strong>tr<strong>en</strong>ar<br />

el sistema con <strong>ejemplos</strong> sacados <strong>de</strong> las situaciones con las que nos vamos a <strong>en</strong>contrar.<br />

Este caso recoge situaciones como: ampliar o disminuir el plano <strong>de</strong> la cámara,<br />

condiciones <strong>de</strong> iluminación variables, (por ejemplo porque estuviese grabado <strong>en</strong><br />

exteriores) esc<strong>en</strong>arios con varias cámaras que abarcan toda una zona. La única<br />

condición que permanecerá constante siempre es que la cámara <strong>de</strong>be mant<strong>en</strong>erse<br />

estática.<br />

Las sigui<strong>en</strong>tes figuras muestran los resultados obt<strong>en</strong>idos para este experim<strong>en</strong>to <strong>de</strong> las<br />

acciones caminar, correr, paso lateral y gatear. Seguiremos el mismo esquema que el<br />

apartado anterior, analizando primero la actividad caminar como ejemplo y luego la<br />

actividad correr.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 78


6. Experim<strong>en</strong>tos y resultados<br />

6000<br />

5000<br />

caminar<br />

correr<br />

lateral<br />

gatear<br />

4000<br />

distancia<br />

3000<br />

2000<br />

Acción ejemplo<br />

caminar<br />

1000<br />

0<br />

0 50 100 150 200 250<br />

frame<br />

Figura 6.6: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral y d) gatear fr<strong>en</strong>te a la<br />

actividad ejemplo caminar.<br />

4500<br />

4000<br />

3500<br />

(a) (b) (c) (d)<br />

caminar<br />

correr<br />

lateral<br />

gatear<br />

3000<br />

distancia<br />

2500<br />

2000<br />

1500<br />

1000<br />

Acción ejemplo<br />

correr<br />

500<br />

0<br />

0 50 100 150 200 250<br />

frame<br />

(a) (b) (c) (d)<br />

Figura 6.7: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral y d) gatear fr<strong>en</strong>te a la<br />

actividad ejemplo correr.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 79


6. Experim<strong>en</strong>tos y resultados<br />

A simple vista observamos que los resultados no son tan óptimos como <strong>en</strong> el<br />

experim<strong>en</strong>to anterior, aunque las tasas <strong>de</strong> falsa aceptación y faso rechazo sigu<strong>en</strong> si<strong>en</strong>do<br />

sufici<strong>en</strong>tem<strong>en</strong>te bajas como para po<strong>de</strong>r i<strong>de</strong>ntificar los movimi<strong>en</strong>tos que puedan ocurrir<br />

<strong>en</strong> la secu<strong>en</strong>cia. Para t<strong>en</strong>er más datos veamos las tablas que conti<strong>en</strong><strong>en</strong> los resultados <strong>de</strong><br />

las tasas <strong>de</strong> falsa aceptación y falso rechazo.<br />

Caminar<br />

Correr<br />

Pasos<br />

laterales<br />

Gatear<br />

Umbral<br />

Tasas<br />

400 445-463 464-473 500<br />

FA(%) 0 0 0 0<br />

FR(%) 26.8817 22.5806 21.5054 20.4301<br />

FA(%) 0 0 0.7813 5.4688<br />

FR(%) 0 0 0 0<br />

FA(%) 0 0 0 0<br />

FR(%) 0 0 0 0<br />

FA(%) 0 0 0 0<br />

FR(%) 0 0 0 0<br />

Tabla 6.3: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar, correr,<br />

pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo caminar.<br />

Caminar<br />

Correr<br />

Pasos<br />

laterales<br />

Gatear<br />

Umbral<br />

Tasas<br />

400 460-465 476-482 500<br />

FA(%) 0 0 0.5155 2.5773<br />

FR(%) 0 0 0 0<br />

FA(%) 0 0 0 0<br />

FR(%) 26.4706 14.7059 14.4861 12.5000<br />

FA(%) 0 0 0 0<br />

FR(%) 0 0 0 0<br />

FA(%) 0 0 0 0<br />

FR(%) 0 0 0 0<br />

Tabla 6.4: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar, correr,<br />

pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo correr.<br />

Sigui<strong>en</strong>do el resultado mostrado <strong>en</strong> estas tablas hemos <strong>de</strong>cidido colocar el umbral <strong>de</strong><br />

<strong>de</strong>cisión para el primer ejemplo <strong>en</strong> 450 y para el segundo ejemplo <strong>en</strong> 460, ya que <strong>en</strong><br />

estos dos puntos conseguimos un bu<strong>en</strong> equilibrio <strong>en</strong>tre las tasas <strong>de</strong> falso rechazo y falsa<br />

aceptación respectivam<strong>en</strong>te. El hecho <strong>de</strong> que la tasa <strong>de</strong> falso rechazo sea tan elevada se<br />

<strong>de</strong>be a los altos valores <strong>de</strong> las distancias que aparec<strong>en</strong> <strong>en</strong> la parte izquierda <strong>de</strong> las<br />

gráficas, más a<strong>de</strong>lante se explicará el porqué <strong>de</strong> dicha causa.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 80


6. Experim<strong>en</strong>tos y resultados<br />

El primer movimi<strong>en</strong>to que vamos a analizar es el <strong>de</strong> gatear, como po<strong>de</strong>mos ver, una vez<br />

hemos recopilado todos los datos, es el movimi<strong>en</strong>to cuya distancias conductuales se<br />

alejan más <strong>de</strong> las acciones ejemplo propuestas, lo que nos lleva a concluir que nuestro<br />

algoritmo trabaja perfectam<strong>en</strong>te <strong>en</strong> este tipo <strong>de</strong> casos, ya que cuanto mayor sean las<br />

difer<strong>en</strong>cias a la hora <strong>de</strong> realizar un movimi<strong>en</strong>to con respecto a la actividad ejemplo<br />

mayor es la distancia que obt<strong>en</strong>emos como resultado. Por lo tanto a la hora <strong>de</strong> distinguir<br />

dos acciones muy difer<strong>en</strong>tes la tasa <strong>de</strong> error que conseguimos es nula, <strong>de</strong>bido a que las<br />

medidas <strong>de</strong> distancia que resultan están muy separadas <strong>de</strong>l umbral <strong>de</strong> <strong>de</strong>cisión.<br />

Por otro lado cuando estudiamos el movimi<strong>en</strong>to <strong>de</strong> pasos laterales con respecto <strong>de</strong> las<br />

activida<strong>de</strong>s ejemplo caminar y correr, po<strong>de</strong>mos sacar unas conclusiones parecidas a las<br />

que hemos <strong>de</strong>ducido <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong> gatear, porque también este movimi<strong>en</strong>to dista<br />

<strong>en</strong> su realización <strong>de</strong> las acciones ejemplo, aunque po<strong>de</strong>mos incluir algunos matices.<br />

Inicialm<strong>en</strong>te observamos que los valores <strong>de</strong>l conjunto <strong>de</strong> distancias conductuales son<br />

sufici<strong>en</strong>tem<strong>en</strong>te altos como para conseguir también unas tasas <strong>de</strong> falso rechazo y falsa<br />

aceptación nulas, por lo que conseguimos difer<strong>en</strong>ciar este movimi<strong>en</strong>to <strong>de</strong> los dos<br />

<strong>ejemplos</strong> sin cometer errores. De los resultados <strong>de</strong> este movimi<strong>en</strong>to <strong>de</strong>stacaremos que<br />

los valores <strong>de</strong> distancias que conseguimos son m<strong>en</strong>ores <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> si el<br />

movimi<strong>en</strong>to se parece más o m<strong>en</strong>os al ejemplo, si comparamos las dos gráficas (Figura<br />

6.6 y 6.7) vemos que las medidas <strong>de</strong> distancia con respecto a caminar son m<strong>en</strong>ores que<br />

con respecto a correr, esto se <strong>de</strong>be a que la acción <strong>de</strong> pasos laterales más correlacionada<br />

con la acción caminar que con la acción correr.<br />

Por último analizaremos los resultados que hemos adquirido <strong>de</strong> los movimi<strong>en</strong>tos <strong>de</strong><br />

caminar y correr, como sucedía <strong>en</strong> el experim<strong>en</strong>to anterior, estos dos movimi<strong>en</strong>tos al ser<br />

los que más se asemejan el uno <strong>de</strong>l otro, son los que al compararlos obt<strong>en</strong>emos como<br />

resultado unas distancias conductuales próximas, esto nos hace más complicado la tarea<br />

<strong>de</strong> i<strong>de</strong>ntificar estas dos acciones. En este experim<strong>en</strong>to, a causa <strong>de</strong> que no controlamos<br />

todas las condiciones <strong>de</strong> la esc<strong>en</strong>a, no po<strong>de</strong>mos evitar que se produzca algún tipo <strong>de</strong><br />

error a la hora <strong>de</strong> comparar estas dos acciones. Algunos errores son inevitables a priori,<br />

porque se produc<strong>en</strong> <strong>en</strong> zonas don<strong>de</strong> hay efecto camuflaje u oclusiones, pero otros se<br />

<strong>de</strong>b<strong>en</strong> simplem<strong>en</strong>te a que la cercanía <strong>en</strong>tre dos acciones, haci<strong>en</strong>do que el sistema no<br />

pueda conseguir difer<strong>en</strong>ciarlas.<br />

A continuación analizaremos la proce<strong>de</strong>ncia <strong>de</strong> dichos errores y porque se produc<strong>en</strong>,<br />

haci<strong>en</strong>do uso <strong>de</strong> gráficas como las mostradas <strong>en</strong> la figura 6.8.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 81


6. Experim<strong>en</strong>tos y resultados<br />

4500<br />

4000<br />

Acción ejemplo caminar<br />

caminar<br />

correr<br />

4000<br />

3500<br />

Acción ejemplo correr<br />

caminar<br />

correr<br />

3500<br />

3000<br />

3000<br />

2500<br />

dis tanc ia<br />

2500<br />

2000<br />

dis ta nc ia<br />

2000<br />

1500<br />

1500<br />

1000<br />

1000<br />

500<br />

500<br />

0<br />

0<br />

0 50 100 150 200 250 0 50 100 150 200 250<br />

frame<br />

frame<br />

Figura 6.8: Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones caminar y correr con respecto a las actividad ejemplo caminar y<br />

correr.<br />

Figura 6.9: Imag<strong>en</strong> <strong>de</strong>l fondo <strong>en</strong> el<br />

que están <strong>de</strong>stacadas distintas zonas<br />

afectan <strong>de</strong> forma distinta al<br />

resultado.<br />

Primero aclararemos que los resultados <strong>de</strong> las dos<br />

gráficas (Fig. 6.8) están or<strong>de</strong>nados <strong>de</strong> tal forma<br />

que la primera mitad se correspon<strong>de</strong> con el<br />

movimi<strong>en</strong>to que transcurre <strong>de</strong>s<strong>de</strong> la parte<br />

<strong>de</strong>recha hacia la parte izquierda <strong>de</strong> la pantalla y la<br />

segunda mitad el movimi<strong>en</strong>to transcurre <strong>de</strong> forma<br />

opuesta.<br />

Empezaremos explicando la razón por la que obt<strong>en</strong>emos unas medidas <strong>de</strong> distancia tan<br />

altas sobre todo <strong>en</strong> la parte izquierda <strong>de</strong> las dos gráficas (Figura 6.8) y el porqué<br />

también <strong>en</strong>contramos una pequeña elevación <strong>de</strong> los valores para ambos movimi<strong>en</strong>tos <strong>en</strong><br />

la parte final. Estos valores altos <strong>de</strong> distancias se correspon<strong>de</strong>n con la zona <strong>de</strong>l fondo<br />

que hemos marcado <strong>en</strong> rojo (Figura 6.9), <strong>en</strong> esta zona, como es tan oscura, se produce<br />

efecto camuflaje, lo que hace que se pierda <strong>de</strong> forma casi total la información que<br />

necesitamos para caracterizar el movimi<strong>en</strong>to. Este error es mucho más ac<strong>en</strong>tuado <strong>en</strong> la<br />

parte izquierda <strong>de</strong> las gráficas, <strong>de</strong>bido a que cuando un movimi<strong>en</strong>to se inicia<br />

específicam<strong>en</strong>te <strong>en</strong> esa zona no t<strong>en</strong>emos información previa <strong>de</strong>l mismo, por lo que es<br />

mucho más difícil <strong>en</strong>m<strong>en</strong>dar dicho error.<br />

La zona marcada <strong>en</strong> amarillo también es un punto <strong>de</strong> conflicto aunque <strong>en</strong> m<strong>en</strong>or<br />

medida, los resultados que correspon<strong>de</strong>n a esta zona se pue<strong>de</strong>n observar sobre todo <strong>en</strong> la<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />

82


6. Experim<strong>en</strong>tos y resultados<br />

parte c<strong>en</strong>tral <strong>de</strong> las gráficas (Figura. 6.8), don<strong>de</strong> se produce claram<strong>en</strong>te un pico <strong>en</strong> los<br />

valores <strong>de</strong> distancia. En esta zona también se da el efecto camuflaje, pero <strong>en</strong> esta<br />

ocasión sólo afecta a la parte inferior <strong>de</strong>l cuerpo (extremida<strong>de</strong>s inferiores), esto hace que<br />

perdamos información <strong>de</strong> forma parcial. Este error es significativo para las acciones <strong>de</strong><br />

andar y correr, ya que para estas activida<strong>de</strong>s extraemos bastante información <strong>de</strong> esa<br />

zona <strong>de</strong>l cuerpo. Como <strong>en</strong> el caso anterior, el error es más acusado cuando<br />

interactuamos <strong>en</strong> esa zona al inicio <strong>de</strong>l movimi<strong>en</strong>to, aunque también se pue<strong>de</strong> apreciar<br />

una subida <strong>en</strong> lo valores, <strong>en</strong> la zona justo anterior al pico <strong>de</strong>l c<strong>en</strong>tro <strong>de</strong> las curvas, que<br />

correspon<strong>de</strong>ría a la finalización <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong> izquierda a <strong>de</strong>recha.<br />

En el resto <strong>de</strong>l fondo, marcado <strong>en</strong> ver<strong>de</strong>, no t<strong>en</strong>emos ningún problema a la hora <strong>de</strong><br />

po<strong>de</strong>r difer<strong>en</strong>ciar dos acciones, ya que <strong>en</strong> esta zona po<strong>de</strong>mos afirmar que el error es casi<br />

nulo.<br />

Seguidam<strong>en</strong>te mostraremos algunos datos recogidos <strong>de</strong> otras secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />

hemos analizado, <strong>en</strong> los que aparec<strong>en</strong> varias personas <strong>en</strong> la secu<strong>en</strong>cia o hay<br />

movimi<strong>en</strong>tos distintos <strong>de</strong> los que ya nos hemos referido. Esto nos aportará un mayor<br />

conocimi<strong>en</strong>to <strong>de</strong> las capacida<strong>de</strong>s <strong>de</strong> nuestro algoritmo.<br />

6000<br />

5000<br />

4000<br />

distancia<br />

3000<br />

2000<br />

1000<br />

Acción ejemplo<br />

caminar<br />

(a)<br />

0<br />

0 50 100 150 200 250 300 350 400 450<br />

frame<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 83


6. Experim<strong>en</strong>tos y resultados<br />

1800<br />

1600<br />

1400<br />

distancia<br />

1200<br />

1000<br />

800<br />

Acción ejemplo<br />

saltar<br />

(b)<br />

600<br />

400<br />

0 10 20 30 40 50 60 70<br />

frame<br />

5000<br />

4500<br />

4000<br />

3500<br />

distancia<br />

3000<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

Acción ejemplo<br />

correr<br />

(c)<br />

0<br />

0 20 40 60 80 100 120 140<br />

frame<br />

Figura 6.10: (a), (b) y (c) Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones que <strong>en</strong>contramos <strong>en</strong> distintas secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o con<br />

respecto a difer<strong>en</strong>tes activida<strong>de</strong>s ejemplo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 84


6. Experim<strong>en</strong>tos y resultados<br />

6.2.2. Experim<strong>en</strong>to C: condiciones in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />

Por último explicaremos el caso más complejo con el que po<strong>de</strong>mos trabajar <strong>en</strong> este<br />

sistema, que consiste <strong>en</strong> que las condiciones <strong>de</strong> la secu<strong>en</strong>cia ejemplo y la secu<strong>en</strong>cia que<br />

queremos analizar son totalm<strong>en</strong>te in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes, es <strong>de</strong>cir, la acción ejemplo la<br />

extraeremos <strong>de</strong> un ví<strong>de</strong>o que no t<strong>en</strong>drá relación con los ví<strong>de</strong>os con los que trabajaremos<br />

posteriorm<strong>en</strong>te, por lo que <strong>en</strong> esta ocasión el fondo, la iluminación y el resto <strong>de</strong><br />

características <strong>de</strong> la esc<strong>en</strong>a serán distintas. La única condición que sigue permaneci<strong>en</strong>do<br />

constante es que la cámara <strong>de</strong>be mant<strong>en</strong>erse estática.<br />

Este modo <strong>de</strong> trabajar es una <strong>de</strong> las opciones <strong>de</strong>stacables <strong>de</strong> este algoritmo, ya que nos<br />

permite reconocer las activida<strong>de</strong>s <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o usando una actividad<br />

ejemplo estándar, lo que nos ahorraría t<strong>en</strong>er que <strong>en</strong>tr<strong>en</strong>ar cada sistema al que<br />

aplicásemos nuestro algoritmo. El hecho <strong>de</strong> que podamos reconocer acciones <strong>de</strong> esta<br />

manera se <strong>de</strong>be a la forma con la que recogemos las características <strong>de</strong> los movimi<strong>en</strong>tos<br />

ayudándonos <strong>de</strong> los gradi<strong>en</strong>tes (x, y, t), con lo que conseguimos eliminar la mayor parte<br />

<strong>de</strong> información que nos pue<strong>de</strong> aportar el fondo <strong>de</strong> la esc<strong>en</strong>a, pudi<strong>en</strong>do discriminar <strong>de</strong><br />

esta forma la información que nos aporta el movimi<strong>en</strong>to <strong>en</strong> cuestión.<br />

3500<br />

3000<br />

caminar<br />

correr<br />

lateral<br />

gatear<br />

2500<br />

distancia<br />

2000<br />

1500<br />

Acción ejemplo<br />

caminar<br />

1000<br />

500<br />

0 50 100 150 200 250<br />

frame<br />

Figura 6.11: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong><br />

distancia conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear fr<strong>en</strong>te a la<br />

actividad ejemplo caminar.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 85


6. Experim<strong>en</strong>tos y resultados<br />

2000<br />

1800<br />

1600<br />

caminar<br />

correr<br />

lateral<br />

gatear<br />

distancia<br />

1400<br />

1200<br />

1000<br />

Acción ejemplo<br />

correr<br />

800<br />

600<br />

0 50 100 150 200 250<br />

frame<br />

Figura 6.12: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear fr<strong>en</strong>te a la actividad ejemplo<br />

correr.<br />

Como hemos repres<strong>en</strong>tado <strong>en</strong> los anteriores experim<strong>en</strong>tos, la figuras 6.11 y 6.12<br />

muestran los resultados <strong>de</strong> los movimi<strong>en</strong>tos caminar, correr, pasos laterales y gatear que<br />

hemos conseguido bajo las condiciones <strong>de</strong> este experim<strong>en</strong>to. Inicialm<strong>en</strong>te hemos usado<br />

como acción ejemplo caminar y a continuación correr, esta elección se <strong>de</strong>be a que son<br />

los más repres<strong>en</strong>tativos <strong>en</strong> la vida real.<br />

Según estos datos es evi<strong>de</strong>nte que el error que se com<strong>en</strong>te <strong>en</strong> este experim<strong>en</strong>to es mayor<br />

que <strong>en</strong> los dos experim<strong>en</strong>tos anteriores, sin embargo aun t<strong>en</strong>i<strong>en</strong>do más dificulta<strong>de</strong>s<br />

seguimos pudi<strong>en</strong>do <strong>de</strong>tectar el movimi<strong>en</strong>to que nos interesa <strong>de</strong>ntro <strong>de</strong> una esc<strong>en</strong>a.<br />

Seguidam<strong>en</strong>te expondremos las tablas con los datos <strong>de</strong> las tasas <strong>de</strong> falsa aceptación y<br />

falso rechazo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 86


6. Experim<strong>en</strong>tos y resultados<br />

Umbral<br />

Tasas<br />

1024 1031 1053 1084 1150<br />

Caminar<br />

Correr<br />

Pasos<br />

laterales<br />

Gatear<br />

FA(%) 0 0 0 0 0<br />

FR(%) 44.0217 41.3043 35.8696 27.7174 9.2391<br />

FA(%) 0 2.1277 15.6028 27.6596 41.8440<br />

FR(%) 0 0 0 0 0<br />

FA(%) 0 0 0 0 0<br />

FR(%) 0 0 0 0 0<br />

FA(%) 0 0 0 0 0<br />

FR(%) 0 0 0 0 0<br />

Tabla 6.5: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar, correr,<br />

pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo caminar.<br />

Umbral<br />

Tasas<br />

810 815 840 856 950<br />

Caminar<br />

Correr<br />

Pasos<br />

laterales<br />

Gatear<br />

FA(%) 0 2.0408 13.2653 28.5714 60.2041<br />

FR(%) 0 0 0 0 0<br />

FA(%) 0 0 0 0 0<br />

FR(%) 47.1429 45.7143 37.1429 28.5714 12.1429<br />

FA(%) 0 0 0 0 0<br />

FR(%) 0 0 0 0 0<br />

FA(%) 0 0 0 0 0<br />

FR(%) 0 0 0 0 0<br />

Tabla 6.6: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar, correr,<br />

pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo correr.<br />

Conforme a los resultados <strong>de</strong> estas tablas hemos colocado el umbral <strong>de</strong> <strong>de</strong>cisión para el<br />

primer ejemplo <strong>en</strong> 1053 y para el segundo ejemplo <strong>en</strong> 840, pese a que los puntos ERR<br />

para el primer y el segundo ejemplo están <strong>en</strong> 1084 y 856 respectivam<strong>en</strong>te, no los hemos<br />

escogido como umbral <strong>de</strong>bido a que bu<strong>en</strong>a parte <strong>de</strong>l porc<strong>en</strong>taje <strong>de</strong> error por falso<br />

rechazo es provocado por las zonas <strong>en</strong> las que se dan oclusiones o efecto camuflaje, que<br />

no po<strong>de</strong>mos evitar, por lo que preferimos no subir el umbral para no aum<strong>en</strong>tar las falsas<br />

aceptaciones <strong>de</strong> forma innecesaria.<br />

Al igual que suce<strong>de</strong> <strong>en</strong> los experim<strong>en</strong>tos previos con los movimi<strong>en</strong>tos gatear y pasos<br />

laterales, obt<strong>en</strong>emos un conjunto <strong>de</strong> distancias conductuales que se alejan lo sufici<strong>en</strong>te<br />

<strong>de</strong>l umbral <strong>de</strong> <strong>de</strong>cisión como para que tanto la tasa <strong>de</strong> falsos rechazos como la tasa <strong>de</strong><br />

falsas aceptaciones sean nulas, esto nos lleva a que siempre consigamos distinguir<br />

ambos movimi<strong>en</strong>tos <strong>de</strong> acciones como caminar y correr. Las altas distancias<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 87


6. Experim<strong>en</strong>tos y resultados<br />

conseguidas nos indican que estas acciones se difer<strong>en</strong>cian bastante <strong>en</strong> la forma <strong>de</strong><br />

ejecutarse <strong>de</strong> las activida<strong>de</strong>s mo<strong>de</strong>lo que buscamos. También se da el hecho <strong>de</strong> que la<br />

acción <strong>de</strong> gatear, al ser la m<strong>en</strong>os parecida a las activida<strong>de</strong>s ejemplo, normalm<strong>en</strong>te<br />

resulta que obti<strong>en</strong>e puntuaciones <strong>de</strong> distancia superiores a las obt<strong>en</strong>idas con el<br />

movimi<strong>en</strong>to <strong>de</strong> pasos laterales.<br />

Finalm<strong>en</strong>te pasamos a estudiar los resultados <strong>de</strong> distancias conductuales para los<br />

movimi<strong>en</strong>tos <strong>de</strong> caminar y correr, al ser dos movimi<strong>en</strong>tos similares, las curvas que<br />

repres<strong>en</strong>tan las medidas <strong>de</strong> distancia <strong>de</strong> estas dos acciones son bastante cercanas, lo que<br />

provoca que <strong>en</strong> algunas ocasiones el algoritmo pueda cometer errores a la hora <strong>de</strong><br />

int<strong>en</strong>tar distinguir ambos movimi<strong>en</strong>tos. En este caso como las condiciones <strong>de</strong> la<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e la acción ejemplo son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y difer<strong>en</strong>tes <strong>de</strong><br />

las <strong>de</strong>l ví<strong>de</strong>o analizado, los errores que com<strong>en</strong>te nuestro sistema son más ac<strong>en</strong>tuados.<br />

Las zonas <strong>de</strong>l ví<strong>de</strong>o analizado <strong>en</strong> las que se produzcan oclusiones o que se dé el efecto<br />

camuflaje sigu<strong>en</strong> ocasionando un error inevitable, ya que se pier<strong>de</strong> información<br />

necesaria para la correcta comparación <strong>de</strong> movimi<strong>en</strong>tos. En este experim<strong>en</strong>to por el<br />

contrario se com<strong>en</strong>t<strong>en</strong> un número superior <strong>de</strong> errores <strong>en</strong> zonas <strong>de</strong> la esc<strong>en</strong>a <strong>en</strong> las que no<br />

sufrimos efectos negativos, esto pue<strong>de</strong> provocar que <strong>en</strong> <strong>de</strong>terminadas ocasiones el<br />

algoritmo no consiga discernir la acción caminar <strong>de</strong> la acción correr y viceversa.<br />

6.3. Evaluación <strong>de</strong> la robustez<br />

En este apartado evaluamos la robustez <strong>de</strong>l sistema <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> acción, que<br />

pres<strong>en</strong>tamos <strong>en</strong> esta memoria, analizando como afectan a nuestra <strong>de</strong>tección<br />

<strong>de</strong>terminados parámetros.<br />

6.3.1. Cambio <strong>de</strong> la longitud <strong>de</strong> v<strong>en</strong>tana temporal<br />

Para analizar cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o introducida <strong>en</strong> el sistema, como ya hemos<br />

explicado <strong>en</strong> secciones anteriores, vamos dividi<strong>en</strong>do la secu<strong>en</strong>cia <strong>en</strong> subsecu<strong>en</strong>cicas <strong>de</strong><br />

longitud ‘M’ frames, <strong>de</strong> estas subsecu<strong>en</strong>cias extraemos la información necesaria para<br />

más a<strong>de</strong>lante compararla con la información <strong>de</strong> la acción ejemplo buscada y tomar la<br />

<strong>de</strong>cisión que corresponda. ‘M’ es el número <strong>de</strong> frames <strong>de</strong> los que consta la secu<strong>en</strong>cia <strong>de</strong><br />

nuestra actividad ejemplo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 88


6. Experim<strong>en</strong>tos y resultados<br />

Escogi<strong>en</strong>do subsecu<strong>en</strong>cais <strong>de</strong> tamaño ‘M’ logramos que t<strong>en</strong>gan la misma longitud que<br />

la secu<strong>en</strong>cia que conti<strong>en</strong>e la actividad ejemplo, aunque esto es recom<strong>en</strong>dable para<br />

asegurarnos el bu<strong>en</strong> funcionami<strong>en</strong>to <strong>de</strong>l sistema, no implica que sea estrictam<strong>en</strong>te<br />

necesario que la subsecu<strong>en</strong>cia t<strong>en</strong>ga que t<strong>en</strong>er el mismo tamaño que la secu<strong>en</strong>cia <strong>de</strong>l<br />

ejemplo o que cont<strong>en</strong>ga información <strong>de</strong> un movimi<strong>en</strong>to <strong>en</strong> todos y cada uno <strong>de</strong> los ‘M’<br />

frames que la compon<strong>en</strong>.<br />

El tamaño <strong>de</strong> la v<strong>en</strong>tana que escogemos para dividir la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o analizada<br />

pue<strong>de</strong> variar, pudi<strong>en</strong>do mant<strong>en</strong>er un reconocimi<strong>en</strong>to <strong>de</strong> calidad <strong>de</strong> los movimi<strong>en</strong>tos que<br />

aparec<strong>en</strong> <strong>en</strong> el ví<strong>de</strong>o. Según las pruebas y observaciones realizadas, si la longitud <strong>de</strong><br />

nuestra v<strong>en</strong>tana temporal, que marca el tamaño <strong>de</strong> cada subsecu<strong>en</strong>cias, es superior a las<br />

tres cuartas partes <strong>de</strong> ‘M’ nuestro algoritmo seguirá reconoci<strong>en</strong>do perfectam<strong>en</strong>te las<br />

acciones buscadas. Por otro lado si el tamaño <strong>de</strong> la subsecu<strong>en</strong>cia está compr<strong>en</strong>dido <strong>en</strong>tre<br />

‘M/2’ frames y ‘3M/4’ frames el algoritmo sigue reconoci<strong>en</strong>do las acciones iguales al<br />

ejemplo, pero con mayor dificultad, lo que hace disminuir la calidad <strong>de</strong> nuestro sistema.<br />

En cambio si la longitud <strong>de</strong> la subsecu<strong>en</strong>ia es inferior a la mitad <strong>de</strong>l número total <strong>de</strong> los<br />

frames <strong>de</strong> la secu<strong>en</strong>cia ejemplo, po<strong>de</strong>mos <strong>de</strong>cir que no conseguiríamos sufici<strong>en</strong>te<br />

información para lograr un reconocimi<strong>en</strong>to fiable.<br />

Esto es aplicable a las zonas <strong>de</strong> las distintas esc<strong>en</strong>as <strong>en</strong> las que se produc<strong>en</strong> oclusiones o<br />

se da el efecto camuflaje, ya que esto nos hace que perdamos información sobre un<br />

movimi<strong>en</strong>to <strong>en</strong> cierto número <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia. Si per<strong>de</strong>mos información<br />

<strong>en</strong> un número reducido <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia nuestro sistema conseguirá<br />

<strong>de</strong>tectar <strong>de</strong> forma óptima la actividad buscada, si por el contrario el número <strong>de</strong> frames<br />

<strong>en</strong> los que per<strong>de</strong>mos información es superior a la mitad <strong>de</strong> ‘M’ nuestro sistema no<br />

lograría <strong>en</strong> la mayoría <strong>de</strong> los casos reconocer el movimi<strong>en</strong>to.<br />

6.3.2. Fondo multimodal<br />

Exist<strong>en</strong> dos tipos <strong>de</strong> fondo los fondos unimodales y los fondos multimodales, la<br />

característica principal <strong>de</strong> los primeros consiste <strong>en</strong> que los pixeles <strong>de</strong>l fondo a lo largo<br />

<strong>de</strong> toda una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o permanec<strong>en</strong> constantes, <strong>en</strong> cambio <strong>en</strong> los fondos<br />

multimodales los pixeles <strong>de</strong>l fondo pue<strong>de</strong>n sufrir alguna variación a lo largo <strong>de</strong> la<br />

secu<strong>en</strong>cia.<br />

Hasta ahora hemos <strong>de</strong>mostrado la eficacia <strong>de</strong> nuestro sistema trabajando sobre fondos<br />

unimodales, pero este algoritmo también ti<strong>en</strong>e la capacidad <strong>de</strong> trabajar con secu<strong>en</strong>cias<br />

<strong>en</strong> las que se dé un fondo multimodal, como por ejemplo <strong>en</strong> esc<strong>en</strong>as <strong>en</strong> las que el fondo<br />

se mueva <strong>de</strong> forma l<strong>en</strong>ta y periódica (olas <strong>de</strong>l mar, hojas agitándose).<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 89


6. Experim<strong>en</strong>tos y resultados<br />

En la figura 6.13 po<strong>de</strong>mos ver algunas imág<strong>en</strong>es extraídas <strong>de</strong> pruebas realizadas sobre<br />

una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o grabada <strong>en</strong> una playa, es <strong>de</strong>cir, una secu<strong>en</strong>cia con un fondo<br />

multimodal. La actividad ejemplo que hemos utilizado <strong>en</strong> esta prueba es caminar.<br />

Figura 6.13: Ejemplo <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones con una secu<strong>en</strong>cia con fondo multimodal.<br />

Como se pue<strong>de</strong> ver <strong>en</strong> las imág<strong>en</strong>es nuestro sistema consigue reconocer acciones <strong>en</strong> una<br />

secu<strong>en</strong>cia con un fondo <strong>en</strong> el que los pixeles varían <strong>de</strong> forma periódica, para ello<br />

a<strong>de</strong>más necesitamos que la cámara permanezca estática. Sin embrago si los pixeles <strong>de</strong>l<br />

fondo varias<strong>en</strong> constantem<strong>en</strong>te <strong>de</strong> forma no periódica o la cámara no permaneciese<br />

estática nuestro algoritmo fallaría y no podríamos reconocer correctam<strong>en</strong>te las<br />

activida<strong>de</strong>s que buscamos.<br />

6.3.3. Cambios <strong>en</strong> la vestim<strong>en</strong>ta<br />

El sistema es robusto a los cambios <strong>en</strong> el color <strong>de</strong> la vestim<strong>en</strong>ta infligidos por difer<strong>en</strong>tes<br />

pr<strong>en</strong>das <strong>de</strong> vestir, esto <strong>de</strong>ja <strong>de</strong> ser así cuando intervi<strong>en</strong><strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a personas con<br />

pr<strong>en</strong>das con difer<strong>en</strong>tes texturas, ya que si la vestim<strong>en</strong>ta que lleva la persona que realiza<br />

el movimi<strong>en</strong>to que estamos analizando incluye una pr<strong>en</strong>da a rayas, pue<strong>de</strong> provocar que<br />

los gradi<strong>en</strong>tes <strong>en</strong> los ejes ‘x’ o ‘y’ varí<strong>en</strong>, esto nos llevaría a introducir información<br />

errónea <strong>en</strong> los histogramas, lo que pue<strong>de</strong> hacer que el reconocimi<strong>en</strong>to <strong>de</strong> la actividad <strong>en</strong><br />

cuestión falle.<br />

distancia<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

Acción ejemplo caminar<br />

caminar ropa rayas<br />

caminar<br />

correr<br />

0<br />

0 20 40 60 80 100 120<br />

frame<br />

Figura 6.14: Gráfica<br />

que muestra las<br />

medidas <strong>de</strong> distancia<br />

conductual <strong>de</strong> una<br />

persona caminando y<br />

corri<strong>en</strong>do, con ropa <strong>de</strong><br />

un color homogéneo,<br />

y una persona<br />

caminando con una<br />

pr<strong>en</strong>da <strong>de</strong> vestir a<br />

rayas fr<strong>en</strong>te a la<br />

actividad ejemplo<br />

caminar.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 90


6. Experim<strong>en</strong>tos y resultados<br />

Mediante los datos que nos aporta la gráfica (Figura 6.14) po<strong>de</strong>mos comprobar que si<br />

incluimos una pr<strong>en</strong>da a rayas, <strong>en</strong> la vestim<strong>en</strong>ta <strong>de</strong> la persona que realiza el movimi<strong>en</strong>to<br />

que estamos estudiando, la distancia que obt<strong>en</strong>emos es bastante mayor que la que<br />

<strong>de</strong>beríamos conseguir, lo que provoca que la tarea <strong>de</strong> reconocer la acción que buscamos<br />

pueda fallar. En este ejemplo <strong>en</strong> concreto, la acción <strong>de</strong> caminar portando una pr<strong>en</strong>da a<br />

rayas consigue valores <strong>de</strong> distancia similares a los <strong>de</strong> la acción correr.<br />

Para solucionar este contratiempo t<strong>en</strong>dríamos que utilizar un método que nos <strong>en</strong>turbie y<br />

nos mezcle los distintos colores <strong>de</strong> la pr<strong>en</strong>da rayada, así el sistema tomaría esa pr<strong>en</strong>da<br />

como si fuese <strong>de</strong> un único color y <strong>de</strong> esta forma conseguiríamos que la pr<strong>en</strong>da no<br />

tuviese influ<strong>en</strong>cia sobre los gradi<strong>en</strong>tes espaciales.<br />

6.3.4. Variación <strong>de</strong> las escalas temporales<br />

Para realizar este sistema hemos t<strong>en</strong>ido <strong>en</strong> cu<strong>en</strong>ta que una misma acción humana pue<strong>de</strong><br />

ocurrir a difer<strong>en</strong>tes velocida<strong>de</strong>s, por eso hemos construido nuestro algoritmo para que<br />

sea robusto fr<strong>en</strong>te a estos cambios <strong>de</strong> velocidad. Esto lo conseguimos gracias a la<br />

utilización <strong>de</strong> la pirámi<strong>de</strong> temporal que creamos <strong>en</strong> la primera parte <strong>de</strong>l algoritmo,<br />

consigui<strong>en</strong>do así replicar los datos <strong>de</strong>l mismo movimi<strong>en</strong>to <strong>en</strong> distintas escalas<br />

temporales, lo que nos resulta <strong>de</strong> gran ayuda a la hora reconocer un <strong>de</strong>terminado<br />

movimi<strong>en</strong>to si este se ejecuta <strong>en</strong> una escala temporal distinta que la <strong>de</strong> la actividad<br />

ejemplo.<br />

6.3.5. Variación <strong>de</strong> las escalas espaciales<br />

Las variaciones <strong>en</strong> el tamaño espacial <strong>de</strong>bido a cambios mo<strong>de</strong>rados <strong>de</strong> zoom o <strong>de</strong> la<br />

distancia <strong>de</strong> la persona con respecto <strong>de</strong> la cámara <strong>de</strong> ví<strong>de</strong>o provocan únicam<strong>en</strong>te un<br />

efecto pequeño sobre el conjunto <strong>de</strong> gradi<strong>en</strong>tes, por lo tanto, po<strong>de</strong>mos asegurar que<br />

nuestro sistema maneja correctam<strong>en</strong>te estos pequeños cambios. Por otra parte, si se dan<br />

cambios gran<strong>de</strong>s <strong>en</strong> el zoom o <strong>en</strong> la distancia <strong>de</strong> la persona con respecto a la cámara,<br />

estos si afectaran <strong>de</strong> forma más clara a los gradi<strong>en</strong>tes, lo que acarreara consecu<strong>en</strong>cias<br />

negativas a nuestro reconocedor <strong>de</strong> activida<strong>de</strong>s humanas.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 91


6. Experim<strong>en</strong>tos y resultados<br />

Figura 6.15: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />

caminando a distintas distancias con respecto a la cámara fr<strong>en</strong>te a la actividad ejemplo<br />

caminar.<br />

Si observamos los resultados <strong>de</strong> la gráfica (Figura 6.15)<br />

po<strong>de</strong>mos corroborar<br />

perfectam<strong>en</strong>te, que los cambios significativos <strong>de</strong> la distancia que existe <strong>en</strong>tre la persona<br />

que aparece <strong>en</strong> la esc<strong>en</strong>a y la cámara afectan directam<strong>en</strong>te a los valores <strong>de</strong> distancia<br />

conductual. Po<strong>de</strong>mos concluir, que aunque se realice el mismo movimi<strong>en</strong>to las<br />

variaciones <strong>de</strong> las escalas espaciales hac<strong>en</strong> que nuestro sistema no consiga i<strong>de</strong>ntificar<br />

correctam<strong>en</strong>te las acciones que pueda cont<strong>en</strong>er una secu<strong>en</strong>cia. También po<strong>de</strong>mos ver<br />

que cuanto mayor sea el cambio <strong>de</strong> zoom o el cambio <strong>de</strong> distancia <strong>de</strong> la persona con<br />

respecto a la cámara, mayor será el efecto sobre la ori<strong>en</strong>tación <strong>de</strong> los gradi<strong>en</strong>tes y m<strong>en</strong>or<br />

será la posibilidad <strong>de</strong> reconocimi<strong>en</strong>to.<br />

Para v<strong>en</strong>cer este problema <strong>de</strong>bemos utilizar una solución parecida a la usada para evitar<br />

las variaciones <strong>de</strong> las escalas temporales, t<strong>en</strong>emos que construir para cada acción que<br />

queramos <strong>de</strong>tectar una repres<strong>en</strong>tación <strong>en</strong> múltiples escalas espaciales. Para ello<br />

po<strong>de</strong>mos introducir varios <strong>ejemplos</strong> para cada acción que se difer<strong>en</strong>ci<strong>en</strong> únicam<strong>en</strong>te <strong>en</strong><br />

el zoom utilizado o <strong>en</strong> la distancia con respecto a la cámara.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 92


6. Experim<strong>en</strong>tos y resultados<br />

6.3.6. Cambios <strong>en</strong> la dirección <strong>de</strong> visión<br />

Los cambios significativos <strong>en</strong> la dirección <strong>de</strong> la visión <strong>de</strong> la cámara o cambios <strong>en</strong> la<br />

dirección <strong>de</strong>l movimi<strong>en</strong>to que realiza una persona con respecto a la cámara influy<strong>en</strong><br />

directam<strong>en</strong>te <strong>en</strong> el conjunto <strong>de</strong> gradi<strong>en</strong>tes espacio-temporales. T<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta que<br />

una persona pue<strong>de</strong> estar realizando un mismo movimi<strong>en</strong>to fr<strong>en</strong>te a una cámara <strong>de</strong> ví<strong>de</strong>o<br />

y <strong>en</strong> cualquier mom<strong>en</strong>to pue<strong>de</strong> cambiar el ángulo <strong>de</strong> la dirección <strong>de</strong>l movimi<strong>en</strong>to con<br />

respecto a la cámara, hemos realizado un estudio para conocer cómo afectan estos<br />

cambios al sistema, los resultados se expon<strong>en</strong> a continuación.<br />

Figura 6.16: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />

caminando con difer<strong>en</strong>tes direcciones <strong>de</strong> movimi<strong>en</strong>to con respecto a la cámara fr<strong>en</strong>te a la<br />

actividad ejemplo caminar.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 93


6. Experim<strong>en</strong>tos y resultados<br />

Figura 6.17: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />

caminando, <strong>en</strong> un primer mom<strong>en</strong>to paralelo a la cámara y seguidam<strong>en</strong>te cambiando su<br />

dirección <strong>de</strong> movimi<strong>en</strong>to 90º, com<strong>en</strong>zando así a caminar perp<strong>en</strong>dicular a la cámara fr<strong>en</strong>te a la<br />

actividad ejemplo caminar.<br />

Los datos que nos ofrec<strong>en</strong> estas gráficas (Figura 6.16 y 6.17) nos sirv<strong>en</strong> <strong>de</strong> gran ayuda<br />

para conocer como actúa nuestro sistema a cambios <strong>en</strong> la dirección <strong>de</strong> una persona o<br />

cambios <strong>en</strong> la dirección <strong>de</strong> visión <strong>de</strong> la cámara. Si observamos las gráficas po<strong>de</strong>mos<br />

<strong>de</strong>cir que cuanto mayor sea el cambio <strong>de</strong> dirección, más afecta a los gradi<strong>en</strong>tes y por lo<br />

tanto a la tarea <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s. Si el cambio <strong>de</strong> dirección es <strong>de</strong> 90º<br />

con respecto a la dirección <strong>de</strong>l movimi<strong>en</strong>to ejemplo, aunque se trate <strong>de</strong> la acción que<br />

queremos <strong>de</strong>tectar, el sistema asigna a este movimi<strong>en</strong>to unos valores <strong>de</strong> distancia muy<br />

altos por lo que será imposible reconocer esa acción. Por otro lado, si el cambio <strong>de</strong><br />

dirección es <strong>de</strong> 60º el efecto se reduce consi<strong>de</strong>rablem<strong>en</strong>te, pero los valores <strong>de</strong> distancia<br />

que obt<strong>en</strong>emos pue<strong>de</strong>n hacer que nos confundamos con otros movimi<strong>en</strong>tos, como por<br />

ejemplo, como ocurre <strong>en</strong> este caso, con la acción correr. Sin embargo, vemos que si el<br />

cambio <strong>de</strong> dirección <strong>de</strong>l movimi<strong>en</strong>to con respecto a la cámara es <strong>de</strong> 30º o m<strong>en</strong>or el<br />

sistema no se ve afectado y por lo tanto manejaría esta situación reconoci<strong>en</strong>do<br />

correctam<strong>en</strong>te la actividad incluida <strong>en</strong> el ejemplo.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 94


6. Experim<strong>en</strong>tos y resultados<br />

Para contrarrestar este problema <strong>de</strong>bemos introducir <strong>en</strong> el sistema, para cada acción<br />

buscada, varios <strong>ejemplos</strong> cuyas direcciones <strong>de</strong> realización con respecto a la cámara sean<br />

distintas.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 95


6. Experim<strong>en</strong>tos y resultados<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 96


7. Conclusiones y trabajo futuro<br />

7. Conclusiones y trabajo<br />

futuro<br />

En el pres<strong>en</strong>te proyecto se ha estudiado, <strong>de</strong>sarrollado, implem<strong>en</strong>tado y docum<strong>en</strong>tado un<br />

sistema reconocedor <strong>de</strong> activida<strong>de</strong>s humanas <strong>en</strong> ví<strong>de</strong>o, nuestro algoritmo es capaz <strong>de</strong><br />

<strong>de</strong>tectar y reconocer las difer<strong>en</strong>tes acciones que aparec<strong>en</strong> <strong>en</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />

sirviéndose sólo <strong>de</strong> una simple medida <strong>de</strong> distancia estadística, con la que po<strong>de</strong>mos<br />

medir la semejanza conductual <strong>en</strong>tre dos movimi<strong>en</strong>tos.<br />

Como po<strong>de</strong>mos comprobar, gracias a los resultados obt<strong>en</strong>idos expuestos <strong>en</strong> esta<br />

memoria, hemos logrado cumplir los objetivos propuestos <strong>en</strong> un principio para<br />

<strong>de</strong>sarrollar un sistema óptimo que consigue manejar múltiples activida<strong>de</strong>s humanas<br />

pres<strong>en</strong>tes <strong>en</strong> difer<strong>en</strong>tes secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, para ello nos hemos <strong>basado</strong> <strong>en</strong> el trabajo<br />

previo <strong>de</strong> Zelnik-Manor e Irani <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical Analysis of<br />

Dynamic Actions” [1].<br />

El primer objetivo que se ha conseguido es que el sistema sea capaz <strong>de</strong> trabajar con todo<br />

tipo <strong>de</strong> acciones dinámicas, esto se <strong>de</strong>be a la forma con la que se extra<strong>en</strong> las<br />

características <strong>de</strong> los movimi<strong>en</strong>tos que surg<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias con las que trabajamos,<br />

ya que solam<strong>en</strong>te nos c<strong>en</strong>tramos <strong>en</strong> escoger los rasgos espacio-temporales <strong>en</strong> múltiples<br />

escalas temporales, conservando así las peculiarida<strong>de</strong>s conductuales <strong>de</strong> las acciones y<br />

<strong>de</strong>sechando cambios <strong>en</strong> el fondo, iluminación, aspecto, etc. Por otro lado, esto también<br />

nos ha ayudado a disminuir consi<strong>de</strong>rablem<strong>en</strong>te la duración <strong>de</strong> la etapa <strong>de</strong> estudio <strong>de</strong> las<br />

activida<strong>de</strong>s que vamos a tomar como ejemplo con respecto <strong>de</strong> otros sistemas similares,<br />

<strong>de</strong>bido a que para caracterizar las acciones necesitamos un número reducido <strong>de</strong><br />

parámetros.<br />

El segundo objetivo que hemos logrado satisfactoriam<strong>en</strong>te es simplificar el método<br />

mediante el cual se comparan dos activida<strong>de</strong>s que aparec<strong>en</strong> <strong>en</strong> dos secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />

distintas. Para ello nos ayudamos <strong>de</strong> una medida <strong>de</strong> distancia no paramétrica que está<br />

basada únicam<strong>en</strong>te <strong>en</strong> el comportami<strong>en</strong>to, con esta medida <strong>de</strong> distancia conductual<br />

logramos <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te están o no pres<strong>en</strong>tes<br />

<strong>en</strong> el ví<strong>de</strong>o estudiado.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 97


7. Conclusiones y trabajo futuro<br />

Concluy<strong>en</strong>do, el sistema <strong>de</strong>sarrollado: reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong><br />

<strong>en</strong> <strong>ejemplos</strong>, es muy versátil y que está capacitado para po<strong>de</strong>r trabajar con una amplia<br />

gama <strong>de</strong> acciones y ví<strong>de</strong>os, ya que no es necesario que las condiciones <strong>de</strong> la secu<strong>en</strong>cia o<br />

secu<strong>en</strong>cias que conti<strong>en</strong>e la actividad ejemplo sean iguales o similares a las <strong>de</strong>l ví<strong>de</strong>o que<br />

queremos analizar.<br />

A lo largo <strong>de</strong> la elaboración <strong>de</strong> este proyecto hemos podido comprobar que la tarea <strong>de</strong><br />

reconocimi<strong>en</strong>to <strong>de</strong> acciones <strong>en</strong> vi<strong>de</strong>o es bastante difícil. Actualm<strong>en</strong>te es un aspecto<br />

p<strong>en</strong>di<strong>en</strong>te <strong>en</strong> el mundo <strong>de</strong>l procesami<strong>en</strong>to imag<strong>en</strong> y ví<strong>de</strong>o. Muchos sistemas están<br />

<strong>en</strong>focados al reconocimi<strong>en</strong>to <strong>de</strong> un conjunto altam<strong>en</strong>te limitado <strong>de</strong> acciones, sin<br />

embargo, los sistemas reales t<strong>en</strong>drán que ext<strong>en</strong><strong>de</strong>rse <strong>en</strong> variedad y número <strong>de</strong> acciones<br />

para po<strong>de</strong>r manejarse, es por esto que <strong>en</strong> este proyecto se int<strong>en</strong>ta seguir esa dirección,<br />

aunque este sistema que pres<strong>en</strong>tamos aún está muy lejos <strong>de</strong> ser <strong>de</strong>finitivo. Mejores<br />

métodos han ser <strong>de</strong>sarrollados todavía, para conseguir la invariancia ante cambios <strong>en</strong> la<br />

dirección <strong>de</strong> visión, apari<strong>en</strong>cia, distancia a la cámara, etc.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 98


<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 99


<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 100


Refer<strong>en</strong>cias<br />

[1] L. Zelnik-Manor and M. Irani, “Statistical analysis of dynamic actions”, IEEE<br />

Transactions on Pattern Analysis and Machine Intellig<strong>en</strong>ce, pp.1530-1535, 2006.<br />

[2] Y. Tsaig and A. Averbuch, “Automatic Segm<strong>en</strong>tation of Moving Objects in Vi<strong>de</strong>o<br />

Sequ<strong>en</strong>ces: A Region Labeling Approach”, IEEE Transactions on Circuits and Systems<br />

for Vi<strong>de</strong>o Technology, pp. 597-612, Dec. 2002.<br />

[3] H. Dias, J. Rocha, P. Silva, C. Leao, “Distributed Surveillance System", Confer<strong>en</strong>ce on<br />

Artificial Intellig<strong>en</strong>ce, pp 257-261, 2005.<br />

[4] M. Valera and S.A. Velastin, “Intellig<strong>en</strong>t Distributed Surveillance Systems”, IEEE<br />

Proc.-Vis. Image Signal Processing., vol. 152, no. 2, Apr. 2005.<br />

[5] M. M. Chang, M. I. Sezan, and A. M. Tekalp, “An algorithm for simultaneous motion<br />

estimation and sc<strong>en</strong>e segm<strong>en</strong>tation,” IEEE International Confer<strong>en</strong>ce on Acoustics,<br />

Speech, and Signal Processing, vol. V, pp. 221–224, A<strong>de</strong>lai<strong>de</strong>, Australia, Apr. 1994.<br />

[6] R.Li<strong>en</strong>hart, C.Kuhmunch, W. Effelsberg, “On the <strong>de</strong>tection and recognition of<br />

television commercials”, International Confer<strong>en</strong>ce on Multimedia Computing and<br />

Systems, pp. 509–516, 1997.<br />

[7] O. Sukmarg, K.R. Rao, “Fast object <strong>de</strong>tection and segm<strong>en</strong>tation in MPEG compressed<br />

domain”, IEEE TENCON, vol. 3, pp. 364–368, Kuala Lumpur, Malaysia, 2000.<br />

[8] K. Toyama, J. Krumm, B. Brumitt, B. Meyers, “Principles and Practice of Background<br />

Maint<strong>en</strong>ance”, ICCV, Sev<strong>en</strong>th International Confer<strong>en</strong>ce on Computer Vision, vol.1, pp.<br />

255-261, 1999.<br />

[9] A. Elgammal, R. Duraiswami, D. Harwood, LS. Davis. “Background and foreground<br />

mo<strong>de</strong>ling using nonparametric kernel <strong>de</strong>nsity estimation for visual surveillance”, IEEE,<br />

pp. 1151-1163 Jul. 2002.<br />

[10] M. Harville, G. Gordon, J. Woodfill “Foreground Segm<strong>en</strong>tation Using Adaptive<br />

Mixture Mo<strong>de</strong>ls in Color and Depth”, IEEE Workshop on Detection and Recog of<br />

Ev<strong>en</strong>ts in Vi<strong>de</strong>o, pp. 3-12, 2001.<br />

[11] R Ewerth, B Freisleb<strong>en</strong>, “Frame differ<strong>en</strong>ce normalization: an approach to reduce error<br />

rates of cut <strong>de</strong>tection algorithms for MPEG vi<strong>de</strong>os” ICIP, pp. 1009-1012, 2003.<br />

[12] B.P.L. Lo and S.A. Velastin, “Automatic congestion <strong>de</strong>tection system for un<strong>de</strong>rground<br />

platforms”, International Symposium on Intellig<strong>en</strong>ce Multimedia, Vi<strong>de</strong>o and Speech<br />

Processing, pp. 158-161, 2000.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 101


[13] R. Cucchiara, C. Grana, M. Piccardi, and A. Prati, “Detecting moving objects, ghosts<br />

and shadows in vi<strong>de</strong>o streams”, IEEE Trans. Patter Analysis and Machine Intellig<strong>en</strong>t,<br />

vol. 25, no. 10, pp. 1337-1342, Oct. 2003.<br />

[14] C. Wr<strong>en</strong>, A. Azarbayejani, T. Darrell, and A. P<strong>en</strong>tland, “Pfin<strong>de</strong>r:Real-time Tracking of<br />

the Human Body,” IEEE Trans. Patter Analysis and Machine Intellig<strong>en</strong>t, vol. 19, no. 7,<br />

pp. 780-785, 1997.<br />

[15] C. Stauffer, W.E.L. Grimson, “Adaptive background mixture mo<strong>de</strong>lsfor real-time<br />

tracking”, CVPR, pp. 246-252, 1999.<br />

[16] A, Elgammal, D. Harwood, and L.S. Davis, “Non-parametric Mo<strong>de</strong>l for Background<br />

Subtraction”, ICCV '99 FRAME-RATE Workshop, 1999.<br />

[17] D. Butler, S. Sridharan, VMJr. Bove, “Real-time Adaptive Background Segm<strong>en</strong>tation.<br />

Acoustics, Speech, and Signal Processing”,2003. Proceedings. (ICASSP '03). 2003<br />

IEEE, pp.349-52, Apr. 2003.<br />

[18] A. Cavallaro, T. Ebrahimi, “Change <strong>de</strong>tection based on color edges, circuits and<br />

systems”, IEEE International Symposium, pp. 141-144, May, 2001.<br />

[19] L.Fu<strong>en</strong>tes, S.Velastin, “From tracking to advanced surveillance”, IEEE International.<br />

Confer<strong>en</strong>ce on Image Processing, Barcelona, Spain, Sept 2003.<br />

[20] T. Boult, R. Micheals, X. Gao, M. Eckmann, “Into the woods: Visual surveillance of<br />

oncooperative camouflaged targets in complex outdoor settings”, IEEE, pp. 1382- 1402,<br />

Oct. 2001.<br />

[21] R. J. Schalkoff, “Digital Image Processing and Computer Vision” Editorial John Wiley<br />

& Sons pp. 213-218, 1989.<br />

[22] B.K.P. Horn, “Robot Vision”, MIT Press, Cambridge, MA, & McGrawn-Hill Book<br />

Company, New York, 1986.<br />

[23] M. Wessler, L.A. Stein, “Robust Active Vision from Simple Symbiotic Subsystems”,<br />

Technical Report, MIT, 1997.<br />

[24] P. Anandan, “A computacional cuadrowork and an algorithm for the measurem<strong>en</strong>t of<br />

visual motion”, International Journal of Computer Vision, pp.283-310, Jan., 1989.<br />

[25] S. A. Brock-Gunn, G.R. Dowling, T. J. Ellis. “Tracking using colour information”,<br />

Technical Report TCU/CS/1994/7, City Univ. London, 1994.<br />

[26] M. Kass, A. Witkin and Terzopoulos. “Snakes: Active contour mo<strong>de</strong>ls”, International<br />

Journal of Computer Vision, pp-133-144, 1987.<br />

[27] S. Gil, R. Milanese, T. Pun. “Feature selection for object tracking in traffic sc<strong>en</strong>es”,<br />

SPIE International Symposium on Smart Highways, Boston, Massachusetts, Oct. 31-<br />

Nov. 4, 1994.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 102


[28] J.C. Niebles, F.F. Li, “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human<br />

Action Classification”, CVPR07(1-8), IEEE, 2007.<br />

[29] M. Blank, L. Gorelick, E. Shechtman, M. Irani, and R. Basri. “Actions as space-time<br />

shapes”, ICCV, 2005.<br />

[30] C. Fanti, L. Zelnik-Manor, and P. Perona. Hybrid mo<strong>de</strong>ls for human motion<br />

recognition. In CVPR, 2005.<br />

[31] N. Dalal, B. Triggs, and C. Schmid. “Human <strong>de</strong>tection usingori<strong>en</strong>ted histograms of flow<br />

and appearance”. ECCV, 2006.<br />

[32] A. A. Efros, A. C. Berg, G. Mori, and J. Malik. “Recognizing action at a distance”. In<br />

ICCV, 2003.<br />

[33] V. Cheung, B. J. Frey, and N. Jojic. “Vi<strong>de</strong>o epitomes”. InCVPR, 2005.<br />

[34] J. C. Niebles, Hongch<strong>en</strong>g Wang and Li Fei-Fei. “Unsupervised Learning of Human<br />

Action Categories Using Spatial-Temporal Words”. International Journal of Computer<br />

Vision (IJCV). Sep., 2008.<br />

[35] L. Fei-Fei, & P.Perona, “A Bayesian hierarchical mo<strong>de</strong>l for learning natural sc<strong>en</strong>e<br />

categories2, IEEE computer society confer<strong>en</strong>ce on computer vision and pattern<br />

recognition, pp. 524–531, 2005.<br />

[36] T. Hofmann, “Probabilistic lat<strong>en</strong>t semantic in<strong>de</strong>xing”, 22nd annual international ACM<br />

SIGIR confer<strong>en</strong>ce on research and <strong>de</strong>velopm<strong>en</strong>t in information retrieval pp. 50–57,<br />

Aug. 1999.<br />

[37] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Lat<strong>en</strong>t Dirichlet allocation Journal of Machine<br />

Learning Research”, vol. 3, pp. 993–1022, 2003.<br />

[38] M. Marsza lek, I. Laptev and C. Schmid. “Actions in context”, IEEE Confer<strong>en</strong>ce on<br />

Computer Vision and Pattern Recognition, 2009.<br />

[39] B. Sch¨olkopf and A. Smola. “Learning with Kernels: Support Vector Machines,<br />

Regularization, Optimization and Beyond”, MIT Press, Cambridge, MA, 2002.<br />

[40] A. A. Efros, A. C. Berg, G. J. Mori, and Malik, “Recognizing action at a distance”.<br />

IEEE international confer<strong>en</strong>ce on computer visión, Vol. 2, pp. 726–733, 2003.<br />

[41] E. Shechtman, and M. Irani, “Space-time behavior based correlation”. IEEE computer<br />

society confer<strong>en</strong>ce on computer vision and pattern recognition, Vol. 1, pp. 405– 412),<br />

2005.<br />

[42] D. Ramanan, D. A. and Forsyth, “Automatic annotation of everyday movem<strong>en</strong>ts”. In<br />

Thrun, S., Saul, L., & Schölkopf, B. (Eds.), Advances in neural information processing<br />

systems, Vol. 16, Cambridge: MIT Press, 2004.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 103


[43] A. Yilmaz, and M. Shah, “Recognizing human actions in vi<strong>de</strong>os acquired by<br />

uncalibrated moving cameras”, IEEE international confer<strong>en</strong>ce on computer vision Vol.<br />

1, pp. 150–157, 2005.<br />

[44] M. Blank, L. Gorelick, E. Shechtman, M. Irani, R.& Basri, “Actions as space-time<br />

shapes”, IEEE international confer<strong>en</strong>ce on computer visión, Vol. 2, pp. 1395– 1402,<br />

2005.<br />

[45] H. Zhong, J. Shi, & M. Visontai, “Detecting unusual activity in vi<strong>de</strong>o”. IEEE computer<br />

society confer<strong>en</strong>ce on computer vision and pattern recognition pp. 819–826, 2004.<br />

[46] Y. Ke, R. Sukthankar, & M. Hebert, “Effici<strong>en</strong>t visual ev<strong>en</strong>t <strong>de</strong>tection using volumetric<br />

features”. IEEE international confer<strong>en</strong>ce on computer visión, pp. 166–173, 2005.<br />

[47] C. Schuldt, I. Laptev, and B. Caputo, “Recognizing human actions: a local svm<br />

approach”. ICPR, pp. 32–36, 2004.<br />

[48] P. Dollár, V. Rabaud, G. Cottrell, and S. Belongie, “Behavior recognition via sparse<br />

spatio-temporal features”. IEEE international workshop on visual surveillance and<br />

performanc., 2005.<br />

[49] A. Oikonomopoulos, I. Patras, and M. Pantic, “Human action recognition with<br />

spatiotemporal sali<strong>en</strong>t points”, IEEE Transactions on Systems, Man, and Cybernetics,<br />

Part B: Cybernetics, pp. 710–719, 2006.<br />

[50] J. Sivic, B. C. Russell, A. A. Efros, A. Zisserman, and W. T. Freeman, “Discovering<br />

objects and their location in images”, IEEE international confer<strong>en</strong>ce on computer vision<br />

pp. 370–377 Oct. 2005.<br />

[51] A. K. Jain, A. Ross, and S. Prabhakar. “An introduction to biometric recognition”. IEEE<br />

Transactions on Circuits and Systems for Vi<strong>de</strong>o Technology, pp.125_143, 2006.<br />

[52] A. Bobick and J. Davis, “The Repres<strong>en</strong>tation and Recognition of Action Using<br />

Temporal Templates,” IEEE Transactions Pattern Analysis and Machine Intellig<strong>en</strong>ce,<br />

vol. 23, no. 3, pp. 257-267, Mar. 2001.<br />

[53] G. Bradski and J. Davis, “Motion Segm<strong>en</strong>tation and Pose Recognition with Motion<br />

History Gradi<strong>en</strong>ts,” Int’l J. Machine Vision and Applications, vol. 13, no. 3, pp. 174-<br />

184, 2002.<br />

[54] O. Chomat and J.L. Crowley, “Probabilistic Recognition of Activity Using Local<br />

Appearance,” IEEE Confer<strong>en</strong>ce Computer Vision and Pattern Recognition, June 1999.<br />

[55] A. Efros, A. Berg, G. Mori, and J. Malik, “Recognizing Action at a Distance,” Int’l<br />

Conf. Computer Vision, vol. 2, pp. 726-733, Oct. 2003.<br />

[56] D.M. Gavrila and L.S. Davis, “3-D Mo<strong>de</strong>l-Based Tracking of Humans in Action: A<br />

Multi-View Approach,” Proc. IEEE Confefer<strong>en</strong>ce Computer Vision and Pattern<br />

Recognition, 1996.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 104


[57] M. Irani, B. Rousso, and S. Peleg, “Computing Occluding and Transpar<strong>en</strong>t Motions,”<br />

Int’l J. Computer Vision, vol. 12, pp. 5-16, Feb. 1994.<br />

[58] S.X. Ju, M.J. Black, and Y. Yacoob, “Cardboard People: A Parametrized Mo<strong>de</strong>l of<br />

Articulated Image Motion,” Second Int’l Confer<strong>en</strong>ce. Automatic Face and Gesture<br />

Recognition, pp. 38-44, Oct. 1996.<br />

[59] Y. Yacoob and M.J. Black, “Parametrized Mo<strong>de</strong>ling and Recognition of Activities,”<br />

Computer Vision and Image Un<strong>de</strong>rstanding, vol. 73, no. 2, pp. 232- 247, 1999.<br />

[60] R. Polana and R. Nelson, “Detecting Activities,” IEEE Conf. Computer Vision and<br />

Pattern Recognition, June 1993.<br />

[61] R. O. Duda, Peter E. Hart y D. G. Stork. “Pattern Classi_cation, da. edici_on”. New<br />

York, Wiley-Intersci<strong>en</strong>ce, Nov. 2001.<br />

[62] M. Everingham and B. Thomas. S”upervised Segm<strong>en</strong>tation and Tracking of Nonrigid<br />

Objects Using a “Mixture of Histograms" Mo<strong>de</strong>l”. IEEE International confer<strong>en</strong>ce on<br />

Image Processing, vol. 1 pp. 62-65, Oct. 2001.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 105


<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 106


Anexos<br />

A. Manual <strong>de</strong>l programador<br />

Fución vi<strong>de</strong>o_info:<br />

void vi<strong>de</strong>o_info(CvCapture* <strong>en</strong>trada, char* cad )<br />

/*********************************************************************<br />

Función: Muestra por pantalla la información concerni<strong>en</strong>te al ví<strong>de</strong>o.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvCapture* <strong>en</strong>trada -Puntero a la captura <strong>de</strong>l vi<strong>de</strong>o.<br />

char* cad –Nombre <strong>de</strong>l ví<strong>de</strong>o.<br />

Retorno:<br />

*********************************************************************/<br />

Fución matriz_frames:<br />

void matriz_frames(CvCapture* <strong>en</strong>trada, CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_R,<br />

CvMat** vi<strong>de</strong>o_G, CvMat** vi<strong>de</strong>o_B, double num_frames, char *cad, int<br />

flag )<br />

/*********************************************************************<br />

Función: Devuelve cuatro conjuntos <strong>de</strong> matrices que conti<strong>en</strong>e los datos<br />

<strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o. El 1º conjunto conti<strong>en</strong>e el ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong><br />

grises. El 2º conjunto conti<strong>en</strong>e la compon<strong>en</strong>te primaria <strong>de</strong> color Rojo<br />

<strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. El 3º conjunto conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color azul <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. El 4º conjunto<br />

conti<strong>en</strong>e la compon<strong>en</strong>te primaria <strong>de</strong> color ver<strong>de</strong> <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong><br />

ví<strong>de</strong>o.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvCapture* <strong>en</strong>trada - puntero a la captura <strong>de</strong>l vi<strong>de</strong>o.<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

char* cad – Nombre <strong>de</strong>l ví<strong>de</strong>o.<br />

int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />

algoritmo.<br />

Retorno:<br />

CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e el ví<strong>de</strong>o <strong>en</strong> escala<br />

<strong>de</strong> grises.<br />

CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 107


*********************************************************************/<br />

Fución moving_window:<br />

void moving_window(CvCapture* <strong>en</strong>trada, CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_R,<br />

CvMat** vi<strong>de</strong>o_G, CvMat** vi<strong>de</strong>o_B, double num_frames, int flag)<br />

/*********************************************************************<br />

Función: Devuelve cuatro conjuntos <strong>de</strong> matrices que conti<strong>en</strong>e los datos<br />

<strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o, <strong>de</strong>spués <strong>de</strong> <strong>de</strong>scartar el primer frame <strong>de</strong>l<br />

cunjunto pert<strong>en</strong>eci<strong>en</strong>te a la iteración anterior y añadir un nuevo frame<br />

al final <strong>de</strong>l conjunto <strong>de</strong> matrices. El 1º conjunto conti<strong>en</strong>e una<br />

subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises. El 2º conjunto compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o. El 3º conjunto<br />

compon<strong>en</strong>te primaria <strong>de</strong> color azul <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o. El 4º<br />

conjunto compon<strong>en</strong>te primaria <strong>de</strong> color ver<strong>de</strong> <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l<br />

ví<strong>de</strong>o.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvCapture* <strong>en</strong>trada - puntero que apunta la captura <strong>de</strong>l vi<strong>de</strong>o.<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />

algoritmo.<br />

Retorno:<br />

CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />

<strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises.<br />

CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

*********************************************************************/<br />

Fución media_y_<strong>de</strong>sviacion_tipica_fondo:<br />

void media_y_<strong>de</strong>sviacion_tipica_fondo(CvCapture* <strong>en</strong>trada, double<br />

num_frames, CvMat* mediafondo,CvMat* <strong>de</strong>sv_tipica_fonfo )<br />

/*********************************************************************<br />

Función: Devuelve una matriz que repres<strong>en</strong>ta la media <strong>de</strong>l fondo y otra<br />

matriz que nos da la <strong>de</strong>sviacion típica <strong>de</strong>l fondo.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvCapture* <strong>en</strong>trada - puntero que apunta la captura <strong>de</strong>l vi<strong>de</strong>o.<br />

double num_frames - número <strong>de</strong> frames con los que vamos a<br />

trabajar para conseguir la media y la <strong>de</strong>sviación típica.<br />

Retorno:<br />

CvMat* mediafondo - Matriz CvMat media <strong>de</strong>l fondo.<br />

<strong>de</strong>sv_tipica_fonfo - Matriz CvMat <strong>de</strong>sviación típica <strong>de</strong>l fondo.<br />

*********************************************************************/<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 108


Fución vi<strong>de</strong>o_pasobajo:<br />

void vi<strong>de</strong>o_pasobajo(CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_pb, double<br />

num_frames)<br />

/*********************************************************************<br />

Función: Muestrea la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o y seguidam<strong>en</strong>te pasa un filtro<br />

paso baja obt<strong>en</strong>i<strong>en</strong>do así el sigui<strong>en</strong>te escalón <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />

<strong>de</strong>l ví<strong>de</strong>o.<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

Retorno:<br />

CvMat** vi<strong>de</strong>o_pb - set <strong>de</strong> matrices que conti<strong>en</strong>e el sigui<strong>en</strong>te<br />

nivel <strong>de</strong> la pirámi<strong>de</strong> temporal <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

*********************************************************************/<br />

Fución gradi<strong>en</strong>te_ejes_xyt:<br />

void gradi<strong>en</strong>te_ejes_xyt(CvMat** vi<strong>de</strong>o_R, CvMat** vi<strong>de</strong>o_G, CvMat**<br />

vi<strong>de</strong>o_B, double num_frames, IplImage** gradi<strong>en</strong>te_t, CvMat** Nx,<br />

CvMat** Ny, CvMat** Nt, int flag)<br />

/*********************************************************************<br />

Función: Calcula los gradi<strong>en</strong>te <strong>en</strong> los ejes ‘x, ‘y’ y tiempo para una<br />

secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, <strong>de</strong>volvi<strong>en</strong>do el array <strong>de</strong> imág<strong>en</strong>es que forman el<br />

gradi<strong>en</strong>te temporal y los tres conjuntos <strong>de</strong> matrices que conti<strong>en</strong><strong>en</strong> los<br />

gradi<strong>en</strong>tes espacio-temporales normalizados.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />

primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />

algoritmo.<br />

Retorno:<br />

IplImage** gradi<strong>en</strong>te_t – array <strong>de</strong> estructura IplImage que<br />

conti<strong>en</strong>e la información <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />

CvMat** Nx – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te espacial x.<br />

CvMat** Ny – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te espacial y.<br />

CvMat** Nt - set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />

*********************************************************************/<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 109


Fución movimi<strong>en</strong>tos_in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes:<br />

void movimi<strong>en</strong>tos_in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes(doublé num_frames, CvMat* mediafondo,<br />

CvMat* <strong>de</strong>sv_tipica_fonfo, CvMat** vi<strong>de</strong>o, GRUPO_RECT<br />

grupos_rectangulos[], IplImage** seg_BN )<br />

/*********************************************************************<br />

Función: Realiza una segm<strong>en</strong>tación <strong>en</strong> blanco y negro para la <strong>de</strong>tección<br />

<strong>de</strong>l fr<strong>en</strong>te <strong>de</strong> <strong>de</strong> los frames <strong>de</strong> un ví<strong>de</strong>o, a continuación in<strong>de</strong>p<strong>en</strong>diza<br />

los distintos movimi<strong>en</strong>tos que aparec<strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a y <strong>de</strong>vuelve un<br />

array con los distintos grupos <strong>de</strong> rectángulos que repres<strong>en</strong>tan cada una<br />

<strong>de</strong> las acciones que suce<strong>de</strong>n <strong>en</strong> la secu<strong>en</strong>cia.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

CvMat* mediafondo - Matriz CvMat media <strong>de</strong>l fondo.<br />

CvMat* <strong>de</strong>sv_tipica_fonfo - Matriz CvMat <strong>de</strong>sviación típica <strong>de</strong>l<br />

fondo.<br />

CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />

<strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises.<br />

Retorno:<br />

GRUPO_RECT grupos_rectangulos[] – array <strong>de</strong> estructura GRUPO_RECT<br />

que conti<strong>en</strong>e <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te los distintos movimi<strong>en</strong>tos<br />

que aparec<strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a.<br />

IplImage** seg_BN - array <strong>de</strong> estructura IplImage que conti<strong>en</strong>e la<br />

información <strong>de</strong> la segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />

realizada sobre el ví<strong>de</strong>o.<br />

*********************************************************************/<br />

Fución histograma:<br />

void histograma (IplImage** gradi<strong>en</strong>te_t, CvMat** Nx, CvMat** Ny,<br />

CvMat** Nt, double num_frames,int* hist_bins_x,int* hist_bins_y,int*<br />

hist_bins_t, GRUPO_RECT *grupos_rectangulos, int flag, IplImage**<br />

seg_BN)<br />

/*********************************************************************<br />

Función: Calcula los histogramas que conti<strong>en</strong><strong>en</strong> los datos que<br />

caracterizan <strong>en</strong> movimi<strong>en</strong>to.<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

IplImage** gradi<strong>en</strong>te_t – array <strong>de</strong> estructura IplImage que<br />

conti<strong>en</strong>e la información <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />

CvMat** Nx – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te espacial x.<br />

CvMat** Ny – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te espacial y.<br />

CvMat** Nt - set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />

normalización <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />

double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />

acción ejemplo.<br />

int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />

algoritmo.<br />

IplImage** seg_BN - array <strong>de</strong> estructura IplImage que conti<strong>en</strong>e la<br />

información <strong>de</strong> la segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />

realizada sobre el ví<strong>de</strong>o.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 110


GRUPO_RECT *grupos_rectangulos – Coti<strong>en</strong> un conjunto <strong>de</strong><br />

rectángulos con los datos <strong>de</strong> un únco movimi<strong>en</strong>to.<br />

Retorno:<br />

int hist_bins_x - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />

histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘x’.<br />

int hist_bins_y - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />

histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘y’.<br />

int hist_bins_t - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />

histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘t’.<br />

*********************************************************************/<br />

Fución distancia2:<br />

double distancia2(int* hist_bins_x1_1,int* hist_bins_y1_1,int*<br />

hist_bins_t1_1, int* hist_bins_x1_2,int* hist_bins_y1_2,int*<br />

hist_bins_t1_2, int* hist_bins_x2_1,int* hist_bins_y2_1,int*<br />

hist_bins_t2_1, int* hist_bins_x2_2,int* hist_bins_y2_2,int*<br />

hist_bins_t2_2, int* hist_bins_x3_1,int* hist_bins_y3_1,int*<br />

hist_bins_t3_1, int* hist_bins_x3_2,int* hist_bins_y3_2,int*<br />

hist_bins_t3_2)<br />

/*********************************************************************<br />

Función Recibe 9 histogramas por cada acción, uno por cada una <strong>de</strong> las<br />

dim<strong>en</strong>siones y escalas temporales y <strong>de</strong>vuelve el valor <strong>de</strong> la distancia<br />

<strong>de</strong> comportami<strong>en</strong>to <strong>en</strong>tre las dos activida<strong>de</strong>s analizadas<br />

Parámetros <strong>de</strong> <strong>en</strong>trada:<br />

Conjunto e 9 histogramas <strong>de</strong> la acción ejemplo.<br />

Conjunto <strong>de</strong> 9 histogramas <strong>de</strong> la acción estudiada.<br />

Retorno:<br />

double Distancia – distancia conductual <strong>en</strong>tre dos movimi<strong>en</strong>tos.<br />

*********************************************************************/<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 111


B. Conjunto <strong>de</strong> ví<strong>de</strong>os<br />

Vi<strong>de</strong>os actividad ejemplo<br />

Nombre<br />

Caminar_ej1<br />

Caminar_ej2<br />

Caminar_ej3<br />

Correr_ej1<br />

Correr_ej2<br />

Saltar_ej1<br />

Descripción<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

una persona realizando la acción caminar una vez con cada pierna.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción caminar una vez con cada pierna.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te (experim<strong>en</strong>to C), <strong>en</strong> el que aparece una<br />

persona realizando la acción caminar una vez con cada pierna.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

una persona realizando la acción correr una vez con cada pierna.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción correr una vez con cada pierna.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción saltar.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 112


Vi<strong>de</strong>os Analizados<br />

Nombre<br />

Caminar1_expA<br />

Caminar2_expA<br />

Correr1_expA<br />

Correr2_expA<br />

Lateral1_expA<br />

Lateral2_expA<br />

Caminar1_expB<br />

Correr1_expB<br />

Lateral1_expB<br />

Gatear1_expB<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_1<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_2<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_3<br />

Descripción<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_1 realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_2 realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_1 realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_2 realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_1 realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />

esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_2 realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />

esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />

esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción gatear <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />

aparec<strong>en</strong> dos personas caminando y una apunta con un arma a la otra.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />

aparec<strong>en</strong> dos personas caminando una <strong>de</strong>trás <strong>de</strong> otra.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />

aparec<strong>en</strong> dos personas una realizando pasos laterales y otra persona<br />

simultáneam<strong>en</strong>te está gateando.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 113


Vi<strong>de</strong>os Analizados<br />

Nombre<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_4<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_5<br />

Secu<strong>en</strong>cia<br />

g<strong>en</strong>eral_5<br />

Fondo<br />

multimodal_1<br />

Fondo<br />

multimodal_2<br />

Caminar<br />

Zoom_x1_1<br />

Caminar<br />

Zoom_x1_2<br />

Caminar<br />

Zoom_x1_1<br />

Caminar<br />

Zoom_x1_2<br />

Caminar<br />

30º<br />

Caminar<br />

60º<br />

Caminar<br />

90º<br />

Descripción<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />

aparec<strong>en</strong> <strong>de</strong> inicio dos personas una realizando la acción gatear y una <strong>de</strong><br />

ellas cambia <strong>en</strong> la mitad <strong>de</strong>l esc<strong>en</strong>ario la acción gatear por la acción<br />

caminar, mi<strong>en</strong>tras que la otra persona continua gateando.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona realizando la acción correr, <strong>en</strong> la mitad <strong>de</strong> la secu<strong>en</strong>cia<br />

tropieza, se cae, se levanta y continua corri<strong>en</strong>do.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />

una persona alternando la acción correr y saltar.<br />

Ví<strong>de</strong>o <strong>en</strong> un esc<strong>en</strong>ario multimodal (playa), <strong>en</strong> el que aparece una persona<br />

realizando la acción caminar.<br />

Ví<strong>de</strong>o <strong>en</strong> un esc<strong>en</strong>ario multimodal (playa), <strong>en</strong> el que aparec<strong>en</strong> varias<br />

personas realizando la acción caminar.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_1 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />

modificando la distancia con respecto 5m.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_2 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />

modificando la distancia con respecto 5m.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_1 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />

modificando la distancia con respecto 10m.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

la persona_2 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />

modificando la distancia con respecto 10m.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

una persona caminando con un ángulo <strong>de</strong> 30º con respecto la cámara.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

una persona caminando con un ángulo <strong>de</strong> 60º con respecto la cámara.<br />

Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />

una persona caminando con un ángulo <strong>de</strong> 90º con respecto la cámara.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 114


Presupuesto:<br />

1) Ejecución Material<br />

• Compra <strong>de</strong> or<strong>de</strong>nador personal (Software incluido) ....................................... 1.950 €<br />

• Material <strong>de</strong> oficina................................................................................... 200 €<br />

• Total <strong>de</strong> ejecución material ................................................................. 2.150 €<br />

2) Gastos g<strong>en</strong>erales<br />

• 16 % sobre Ejecución Material ............................................................... 344 €<br />

3) B<strong>en</strong>eficio Industrial<br />

• 6 % sobre Ejecución Material ................................................................ 129 €<br />

4) Honorarios Proyecto<br />

• 1.200 horas a 15 € / hora ................................................................... 18.000 €<br />

5) Material fungible<br />

• Gastos <strong>de</strong> impresión ............................................................................................. 85 €<br />

• Encua<strong>de</strong>rnación .................................................................................................. 200 €<br />

6) Subtotal <strong>de</strong>l presupuesto<br />

• Subtotal Presupuesto .......................................................................... 20.908 €<br />

7) I.V.A. aplicable<br />

• 16% Subtotal Presupuesto .............................................................. 3.345,28 €<br />

8) Total presupuesto<br />

• Total Presupuesto ......................................................................... 24.253,28 €<br />

Madrid, Febrero 2010<br />

El Ing<strong>en</strong>iero Jefe <strong>de</strong> Proyecto<br />

Fdo.: Pablo Manuel Herranz Fernán<strong>de</strong>z<br />

Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 115


<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 116


PLIEGO DE CONDICIONES<br />

Este docum<strong>en</strong>to conti<strong>en</strong>e las condiciones legales que guiarán la realización, <strong>en</strong> este<br />

proyecto, <strong>de</strong> un reconocedor <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> vi<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong>. En lo que<br />

sigue, se supondrá que el proyecto ha sido <strong>en</strong>cargado por una empresa cli<strong>en</strong>te a una<br />

empresa consultora con la finalidad <strong>de</strong> realizar dicho sistema. Dicha empresa ha <strong>de</strong>bido<br />

<strong>de</strong>sarrollar una línea <strong>de</strong> investigación con objeto <strong>de</strong> elaborar el proyecto. Esta línea <strong>de</strong><br />

investigación, junto con el posterior <strong>de</strong>sarrollo <strong>de</strong> los programas está amparada por las<br />

condiciones particulares <strong>de</strong>l sigui<strong>en</strong>te pliego.<br />

Supuesto que la utilización industrial <strong>de</strong> los métodos recogidos <strong>en</strong> el pres<strong>en</strong>te proyecto<br />

ha sido <strong>de</strong>cidida por parte <strong>de</strong> la empresa cli<strong>en</strong>te o <strong>de</strong> otras, la obra a realizar se regulará<br />

por las sigui<strong>en</strong>tes:<br />

Condiciones g<strong>en</strong>erales<br />

1. La modalidad <strong>de</strong> contratación será el concurso. La adjudicación se hará, por<br />

tanto, a la proposición más favorable sin at<strong>en</strong><strong>de</strong>r exclusivam<strong>en</strong>te al valor económico,<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> las mayores garantías ofrecidas. La empresa que somete el proyecto a<br />

concurso se reserva el <strong>de</strong>recho a <strong>de</strong>clararlo <strong>de</strong>sierto.<br />

2. El montaje y mecanización completa <strong>de</strong> los equipos que interv<strong>en</strong>gan será<br />

realizado totalm<strong>en</strong>te por la empresa licitadora.<br />

3. En la oferta, se hará constar el precio total por el que se compromete a realizar<br />

la obra y el tanto por ci<strong>en</strong>to <strong>de</strong> baja que supone este precio <strong>en</strong> relación con un importe<br />

límite si este se hubiera fijado.<br />

4. La obra se realizará bajo la dirección técnica <strong>de</strong> un Ing<strong>en</strong>iero Superior <strong>de</strong><br />

Telecomunicación, auxiliado por el número <strong>de</strong> Ing<strong>en</strong>ieros Técnicos y Programadores<br />

que se estime preciso para el <strong>de</strong>sarrollo <strong>de</strong> la misma.<br />

5. Aparte <strong>de</strong>l Ing<strong>en</strong>iero Director, el contratista t<strong>en</strong>drá <strong>de</strong>recho a contratar al resto<br />

<strong>de</strong>l personal, pudi<strong>en</strong>do ce<strong>de</strong>r esta prerrogativa a favor <strong>de</strong>l Ing<strong>en</strong>iero Director, qui<strong>en</strong> no<br />

estará obligado a aceptarla.<br />

6. El contratista ti<strong>en</strong>e <strong>de</strong>recho a sacar copias a su costa <strong>de</strong> los planos, pliego <strong>de</strong><br />

condiciones y presupuestos. El Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto autorizará con su firma las<br />

copias solicitadas por el contratista <strong>de</strong>spués <strong>de</strong> confrontarlas.<br />

7. Se abonará al contratista la obra que realm<strong>en</strong>te ejecute con sujeción al<br />

proyecto que sirvió <strong>de</strong> base para la contratación, a las modificaciones autorizadas por la<br />

superioridad o a las ór<strong>de</strong>nes que con arreglo a sus faculta<strong>de</strong>s le hayan comunicado por<br />

escrito al Ing<strong>en</strong>iero Director <strong>de</strong> obras siempre que dicha obra se haya ajustado a los<br />

preceptos <strong>de</strong> los pliegos <strong>de</strong> condiciones, con arreglo a los cuales, se harán las<br />

modificaciones y la valoración <strong>de</strong> las diversas unida<strong>de</strong>s sin que el importe total pueda<br />

exce<strong>de</strong>r <strong>de</strong> los presupuestos aprobados. Por consigui<strong>en</strong>te, el número <strong>de</strong> unida<strong>de</strong>s que se<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 117


consignan <strong>en</strong> el proyecto o <strong>en</strong> el presupuesto, no podrá servirle <strong>de</strong> fundam<strong>en</strong>to para<br />

<strong>en</strong>tablar reclamaciones <strong>de</strong> ninguna clase, salvo <strong>en</strong> los casos <strong>de</strong> rescisión.<br />

8. Tanto <strong>en</strong> las certificaciones <strong>de</strong> obras como <strong>en</strong> la liquidación final, se abonarán<br />

los trabajos realizados por el contratista a los precios <strong>de</strong> ejecución material que figuran<br />

<strong>en</strong> el presupuesto para cada unidad <strong>de</strong> la obra.<br />

9. Si excepcionalm<strong>en</strong>te se hubiera ejecutado algún trabajo que no se ajustase a<br />

las condiciones <strong>de</strong> la contrata pero que sin embargo es admisible a juicio <strong>de</strong>l Ing<strong>en</strong>iero<br />

Director <strong>de</strong> obras, se dará conocimi<strong>en</strong>to a la Dirección, proponi<strong>en</strong>do a la vez la rebaja<br />

<strong>de</strong> precios que el Ing<strong>en</strong>iero estime justa y si la Dirección resolviera aceptar la obra,<br />

quedará el contratista obligado a conformarse con la rebaja acordada.<br />

10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no<br />

figur<strong>en</strong> <strong>en</strong> el presupuesto <strong>de</strong> la contrata, se evaluará su importe a los precios asignados<br />

a otras obras o materiales análogos si los hubiere y cuando no, se discutirán <strong>en</strong>tre el<br />

Ing<strong>en</strong>iero Director y el contratista, sometiéndolos a la aprobación <strong>de</strong> la Dirección. Los<br />

nuevos precios conv<strong>en</strong>idos por uno u otro procedimi<strong>en</strong>to, se sujetarán siempre al<br />

establecido <strong>en</strong> el punto anterior.<br />

11. Cuando el contratista, con autorización <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />

emplee materiales <strong>de</strong> calidad más elevada o <strong>de</strong> mayores dim<strong>en</strong>siones <strong>de</strong> lo estipulado <strong>en</strong><br />

el proyecto, o sustituya una clase <strong>de</strong> fabricación por otra que t<strong>en</strong>ga asignado mayor<br />

precio o ejecute con mayores dim<strong>en</strong>siones cualquier otra parte <strong>de</strong> las obras, o <strong>en</strong><br />

g<strong>en</strong>eral, introduzca <strong>en</strong> ellas cualquier modificación que sea b<strong>en</strong>eficiosa a juicio <strong>de</strong>l<br />

Ing<strong>en</strong>iero Director <strong>de</strong> obras, no t<strong>en</strong>drá <strong>de</strong>recho sin embargo, sino a lo que le<br />

correspon<strong>de</strong>ría si hubiera realizado la obra con estricta sujeción a lo proyectado y<br />

contratado.<br />

12. Las cantida<strong>de</strong>s calculadas para obras accesorias, aunque figur<strong>en</strong> por partida<br />

alzada <strong>en</strong> el presupuesto final (g<strong>en</strong>eral), no serán abonadas sino a los precios <strong>de</strong> la<br />

contrata, según las condiciones <strong>de</strong> la misma y los proyectos particulares que para ellas<br />

se form<strong>en</strong>, o <strong>en</strong> su <strong>de</strong>fecto, por lo que resulte <strong>de</strong> su medición final.<br />

13. El contratista queda obligado a abonar al Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto y<br />

director <strong>de</strong> obras así como a los Ing<strong>en</strong>ieros Técnicos, el importe <strong>de</strong> sus respectivos<br />

honorarios facultativos por formación <strong>de</strong>l proyecto, dirección técnica y administración<br />

<strong>en</strong> su caso, con arreglo a las tarifas y honorarios vig<strong>en</strong>tes.<br />

14. Concluida la ejecución <strong>de</strong> la obra, será reconocida por el Ing<strong>en</strong>iero Director<br />

que a tal efecto <strong>de</strong>signe la empresa.<br />

15. La garantía <strong>de</strong>finitiva será <strong>de</strong>l 4% <strong>de</strong>l presupuesto y la provisional <strong>de</strong>l 2%.<br />

16. La forma <strong>de</strong> pago será por certificaciones m<strong>en</strong>suales <strong>de</strong> la obra ejecutada, <strong>de</strong><br />

acuerdo con los precios <strong>de</strong>l presupuesto, <strong>de</strong>ducida la baja si la hubiera.<br />

17. La fecha <strong>de</strong> comi<strong>en</strong>zo <strong>de</strong> las obras será a partir <strong>de</strong> los 15 días naturales <strong>de</strong>l<br />

replanteo oficial <strong>de</strong> las mismas y la <strong>de</strong>finitiva, al año <strong>de</strong> haber ejecutado la provisional,<br />

procediéndose si no existe reclamación alguna, a la reclamación <strong>de</strong> la fianza.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 118


18. Si el contratista al efectuar el replanteo, observase algún error <strong>en</strong> el proyecto,<br />

<strong>de</strong>berá comunicarlo <strong>en</strong> el plazo <strong>de</strong> quince días al Ing<strong>en</strong>iero Director <strong>de</strong> obras, pues<br />

transcurrido ese plazo será responsable <strong>de</strong> la exactitud <strong>de</strong>l proyecto.<br />

19. El contratista está obligado a <strong>de</strong>signar una persona responsable que se<br />

<strong>en</strong>t<strong>en</strong><strong>de</strong>rá con el Ing<strong>en</strong>iero Director <strong>de</strong> obras, o con el <strong>de</strong>legado que éste <strong>de</strong>signe, para<br />

todo relacionado con ella. Al ser el Ing<strong>en</strong>iero Director <strong>de</strong> obras el que interpreta el<br />

proyecto, el contratista <strong>de</strong>berá consultarle cualquier duda que surja <strong>en</strong> su realización.<br />

20. Durante la realización <strong>de</strong> la obra, se girarán visitas <strong>de</strong> inspección por<br />

personal facultativo <strong>de</strong> la empresa cli<strong>en</strong>te, para hacer las comprobaciones que se crean<br />

oportunas. Es obligación <strong>de</strong>l contratista, la conservación <strong>de</strong> la obra ya ejecutada hasta la<br />

recepción <strong>de</strong> la misma, por lo que el <strong>de</strong>terioro parcial o total <strong>de</strong> ella, aunque sea por<br />

ag<strong>en</strong>tes atmosféricos u otras causas, <strong>de</strong>berá ser reparado o reconstruido por su cu<strong>en</strong>ta.<br />

21. El contratista, <strong>de</strong>berá realizar la obra <strong>en</strong> el plazo m<strong>en</strong>cionado a partir <strong>de</strong> la<br />

fecha <strong>de</strong>l contrato, incurri<strong>en</strong>do <strong>en</strong> multa, por retraso <strong>de</strong> la ejecución siempre que éste no<br />

sea <strong>de</strong>bido a causas <strong>de</strong> fuerza mayor. A la terminación <strong>de</strong> la obra, se hará una recepción<br />

provisional previo reconocimi<strong>en</strong>to y exam<strong>en</strong> por la dirección técnica, el <strong>de</strong>positario <strong>de</strong><br />

efectos, el interv<strong>en</strong>tor y el jefe <strong>de</strong> servicio o un repres<strong>en</strong>tante, estampando su<br />

conformidad el contratista.<br />

22. Hecha la recepción provisional, se certificará al contratista el resto <strong>de</strong> la<br />

obra, reservándose la administración el importe <strong>de</strong> los gastos <strong>de</strong> conservación <strong>de</strong> la<br />

misma hasta su recepción <strong>de</strong>finitiva y la fianza durante el tiempo señalado como plazo<br />

<strong>de</strong> garantía. La recepción <strong>de</strong>finitiva se hará <strong>en</strong> las mismas condiciones que la<br />

provisional, ext<strong>en</strong>diéndose el acta correspondi<strong>en</strong>te. El Director Técnico propondrá a la<br />

Junta Económica la <strong>de</strong>volución <strong>de</strong> la fianza al contratista <strong>de</strong> acuerdo con las<br />

condiciones económicas legales establecidas.<br />

23. Las tarifas para la <strong>de</strong>terminación <strong>de</strong> honorarios, reguladas por or<strong>de</strong>n <strong>de</strong> la<br />

Presi<strong>de</strong>ncia <strong>de</strong>l Gobierno el 19 <strong>de</strong> Octubre <strong>de</strong> 1961, se aplicarán sobre el <strong>de</strong>nominado<br />

<strong>en</strong> la actualidad “Presupuesto <strong>de</strong> Ejecución <strong>de</strong> Contrata” y anteriorm<strong>en</strong>te llamado<br />

”Presupuesto <strong>de</strong> Ejecución Material” que hoy <strong>de</strong>signa otro concepto.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 119


Condiciones particulares<br />

La empresa consultora, que ha <strong>de</strong>sarrollado el pres<strong>en</strong>te proyecto, lo <strong>en</strong>tregará a la<br />

empresa cli<strong>en</strong>te bajo las condiciones g<strong>en</strong>erales ya formuladas, <strong>de</strong>bi<strong>en</strong>do añadirse las<br />

sigui<strong>en</strong>tes condiciones particulares:<br />

1. La propiedad intelectual <strong>de</strong> los procesos <strong>de</strong>scritos y analizados <strong>en</strong> el pres<strong>en</strong>te<br />

trabajo, pert<strong>en</strong>ece por <strong>en</strong>tero a la empresa consultora repres<strong>en</strong>tada por el Ing<strong>en</strong>iero<br />

Director <strong>de</strong>l Proyecto.<br />

2. La empresa consultora se reserva el <strong>de</strong>recho a la utilización total o parcial <strong>de</strong><br />

los resultados <strong>de</strong> la investigación realizada para <strong>de</strong>sarrollar el sigui<strong>en</strong>te proyecto, bi<strong>en</strong><br />

para su publicación o bi<strong>en</strong> para su uso <strong>en</strong> trabajos o proyectos posteriores, para la<br />

misma empresa cli<strong>en</strong>te o para otra.<br />

3. Cualquier tipo <strong>de</strong> reproducción aparte <strong>de</strong> las reseñadas <strong>en</strong> las condiciones<br />

g<strong>en</strong>erales, bi<strong>en</strong> sea para uso particular <strong>de</strong> la empresa cli<strong>en</strong>te, o para cualquier otra<br />

aplicación, contará con autorización expresa y por escrito <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong>l<br />

Proyecto, que actuará <strong>en</strong> repres<strong>en</strong>tación <strong>de</strong> la empresa consultora.<br />

4. En la autorización se ha <strong>de</strong> hacer constar la aplicación a que se <strong>de</strong>stinan sus<br />

reproducciones así como su cantidad.<br />

5. En todas las reproducciones se indicará su proce<strong>de</strong>ncia, explicitando el<br />

nombre <strong>de</strong>l proyecto, nombre <strong>de</strong>l Ing<strong>en</strong>iero Director y <strong>de</strong> la empresa consultora.<br />

6. Si el proyecto pasa la etapa <strong>de</strong> <strong>de</strong>sarrollo, cualquier modificación que se<br />

realice sobre él, <strong>de</strong>berá ser notificada al Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto y a criterio <strong>de</strong><br />

éste, la empresa consultora <strong>de</strong>cidirá aceptar o no la modificación propuesta.<br />

7. Si la modificación se acepta, la empresa consultora se hará responsable al<br />

mismo nivel que el proyecto inicial <strong>de</strong>l que resulta el añadirla.<br />

8. Si la modificación no es aceptada, por el contrario, la empresa consultora<br />

<strong>de</strong>clinará toda responsabilidad que se <strong>de</strong>rive <strong>de</strong> la aplicación o influ<strong>en</strong>cia <strong>de</strong> la misma.<br />

9. Si la empresa cli<strong>en</strong>te <strong>de</strong>ci<strong>de</strong> <strong>de</strong>sarrollar industrialm<strong>en</strong>te uno o varios<br />

productos <strong>en</strong> los que resulte parcial o totalm<strong>en</strong>te aplicable el estudio <strong>de</strong> este proyecto,<br />

<strong>de</strong>berá comunicarlo a la empresa consultora.<br />

10. La empresa consultora no se responsabiliza <strong>de</strong> los efectos laterales que se<br />

puedan producir <strong>en</strong> el mom<strong>en</strong>to <strong>en</strong> que se utilice la herrami<strong>en</strong>ta objeto <strong>de</strong>l pres<strong>en</strong>te<br />

proyecto para la realización <strong>de</strong> otras aplicaciones.<br />

11. La empresa consultora t<strong>en</strong>drá prioridad respecto a otras <strong>en</strong> la elaboración <strong>de</strong><br />

los proyectos auxiliares que fuese necesario <strong>de</strong>sarrollar para dicha aplicación industrial,<br />

siempre que no haga explícita r<strong>en</strong>uncia a este hecho. En este caso, <strong>de</strong>berá autorizar<br />

expresam<strong>en</strong>te los proyectos pres<strong>en</strong>tados por otros.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 120


12. El Ing<strong>en</strong>iero Director <strong>de</strong>l pres<strong>en</strong>te proyecto, será el responsable <strong>de</strong> la<br />

dirección <strong>de</strong> la aplicación industrial siempre que la empresa consultora lo estime<br />

oportuno. En caso contrario, la persona <strong>de</strong>signada <strong>de</strong>berá contar con la autorización <strong>de</strong>l<br />

mismo, qui<strong>en</strong> <strong>de</strong>legará <strong>en</strong> él las responsabilida<strong>de</strong>s que ost<strong>en</strong>te.<br />

<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 121

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!