Reconocimiento de actividades en vídeo basado en ejemplos - ATVS
Reconocimiento de actividades en vídeo basado en ejemplos - ATVS
Reconocimiento de actividades en vídeo basado en ejemplos - ATVS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
UNIVERSIDAD AUTONOMA DE MADRID<br />
ESCUELA POLITECNICA SUPERIOR<br />
RECONOCIMIENTO DE ACTIVIDADES<br />
EN VIDEO BASADO EN EJEMPLOS<br />
-PROYECTO FIN DE CARRERA-<br />
Pablo Manuel Herranz Fernán<strong>de</strong>z<br />
MAYO 2010<br />
i
RECONOCIMIENTO DE ACTIVIDADES EN<br />
VIDEO BASADO EN EJEMPLOS<br />
AUTOR: Pablo Manuel Herranz Fernán<strong>de</strong>z<br />
TUTOR: Pedro Tomé González<br />
PONENTE: Javier Ortega García<br />
<strong>ATVS</strong> Grupo <strong>de</strong> <strong>Reconocimi<strong>en</strong>to</strong> Biométrico<br />
(http://atvs.ii.uam.es)<br />
Dpto. <strong>de</strong> Ing<strong>en</strong>iería Informática<br />
Escuela Politécnica Superior<br />
Universidad Autónoma <strong>de</strong> Madrid<br />
MAYO 2010<br />
iii
Resum<strong>en</strong><br />
Las aplicaciones <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> acción sobre vi<strong>de</strong>os reales requier<strong>en</strong> el<br />
<strong>de</strong>sarrollo <strong>de</strong> los sistemas que sean rápidos, que puedan manejar una gran variedad <strong>de</strong><br />
acciones sin el conocimi<strong>en</strong>to a priori <strong>de</strong>l tipo <strong>de</strong> acciones, que necesit<strong>en</strong> un número<br />
mínimo <strong>de</strong> parámetros, y que la etapa <strong>de</strong> estudio sea tan corta como fuera posible. En<br />
este trabajo seguiremos tal <strong>en</strong>foque. Consi<strong>de</strong>ramos las activida<strong>de</strong>s dinámicas como<br />
objetos <strong>de</strong> larga duración temporal, que se caracterizan por rasgos espacio-temporales<br />
<strong>en</strong> múltiples escalas temporales. Basado <strong>en</strong> esto, diseñamos una medida simple <strong>de</strong><br />
distancia estadística <strong>en</strong>tre las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que capturan las similitu<strong>de</strong>s <strong>en</strong> su<br />
cont<strong>en</strong>ido conductual. Esta medida es no paramétrica y por lo tanto pue<strong>de</strong> manejar una<br />
amplia gama <strong>de</strong> complejas acciones dinámicas. T<strong>en</strong>i<strong>en</strong>do una medida <strong>de</strong> distancia<br />
basada <strong>en</strong> el comportami<strong>en</strong>to <strong>en</strong>tre secu<strong>en</strong>cias, lo usamos para varias <strong>de</strong> tareas,<br />
incluy<strong>en</strong>do: la in<strong>de</strong>xación <strong>de</strong> ví<strong>de</strong>o, la segm<strong>en</strong>tación temporal, y clustering <strong>de</strong> ví<strong>de</strong>o<br />
<strong>basado</strong> <strong>en</strong> acciones. Estas tareas son realizadas sin el conocimi<strong>en</strong>to previo <strong>de</strong> los tipos<br />
<strong>de</strong> acciones, sus mo<strong>de</strong>los, o sus grados temporales.<br />
Palabras clave:<br />
Acción, movimi<strong>en</strong>to, distancia conductual, secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, gradi<strong>en</strong>te, segm<strong>en</strong>tación,<br />
reconocedor automático <strong>de</strong> activida<strong>de</strong>s.<br />
v
Abstract<br />
The action recognition applications on real vi<strong>de</strong>os need the <strong>de</strong>velopm<strong>en</strong>t of fast<br />
systems, which can handle a variety of actions without a previous knowledge of the type<br />
of action, requiring a minimum number of parameters, and a learning stage as short as<br />
possible. In addition, this work will continue focus on this approach. We un<strong>de</strong>rstand<br />
dynamic activities as long-term temporal objects, which are characterized by spatiotemporal<br />
features at multiple temporal scales. Based on this, we <strong>de</strong>sign a simple<br />
statistical distance measure in vi<strong>de</strong>o sequ<strong>en</strong>ces which capture the similarities in their<br />
behavioural cont<strong>en</strong>t. This measure is non-parametric and therefore, it can handle a wi<strong>de</strong><br />
range of complex dynamic actions. Having a distance measure based on behaviour<br />
sequ<strong>en</strong>ces, is useful to several task as for example: vi<strong>de</strong>o in<strong>de</strong>xing, temporal<br />
segm<strong>en</strong>tation, and action-based vi<strong>de</strong>o clustering. These tasks are performed without<br />
previous knowledge of the types of actions, their mo<strong>de</strong>ls, or their temporary <strong>de</strong>grees.<br />
Key words:<br />
Action, movem<strong>en</strong>t, behavior distance, vi<strong>de</strong>o stream, gradi<strong>en</strong>t, segm<strong>en</strong>tation, automatic<br />
activitys recognition.<br />
vi
Agra<strong>de</strong>cimi<strong>en</strong>tos<br />
Después <strong>de</strong> mucho trabajo y tiempo invertido <strong>en</strong> la realización <strong>de</strong> este proyecto, es una<br />
tarea complicada agra<strong>de</strong>cer a toda la g<strong>en</strong>te que con su pres<strong>en</strong>cia a lo largo <strong>de</strong> este<br />
periodo me ha ayudado a llegar a este punto. En primer lugar t<strong>en</strong>go que agra<strong>de</strong>cer a<br />
mi pon<strong>en</strong>te Javier Ortega su confianza al darme la oportunidad <strong>de</strong> po<strong>de</strong>r formar parte<br />
<strong>de</strong>l grupo <strong>de</strong> investigación <strong>ATVS</strong> y su apoyo recibido.<br />
Por supuesto t<strong>en</strong>go que agra<strong>de</strong>cer a Ivana Mikic por ser la persona que hizo posible<br />
que este proyecto com<strong>en</strong>zara y por todos los conocimi<strong>en</strong>tos que me transmitió que<br />
fueron fundam<strong>en</strong>tales para la finalización <strong>de</strong>l mismo. A mi tutor Pedro Tomé, que<br />
recogió el testigo <strong>de</strong> Ivana, por su gran trabajo, paci<strong>en</strong>cia y <strong>de</strong>dicación.<br />
También agra<strong>de</strong>zco a todo el profesorado <strong>de</strong> la Escuela Politécnica Superior por su<br />
<strong>en</strong>trega profesional y personal y por saber guiarnos a todos hacia lo que ahora somos.<br />
Al resto <strong>de</strong> compañeros <strong>de</strong>l <strong>ATVS</strong> por el bu<strong>en</strong> ambi<strong>en</strong>te g<strong>en</strong>erado <strong>en</strong> el grupo.<br />
T<strong>en</strong>go que agra<strong>de</strong>cer a mi familia al completo, abuelos, tíos y a mis padres Eug<strong>en</strong>ia y<br />
Manuel, por todo su cariño, apoyo, ánimo, compresión y tantas cosas que me han dado<br />
durante toda mi vida que no se pue<strong>de</strong>n <strong>de</strong>scribir con palabras.<br />
Pero todo <strong>en</strong> esta etapa universitaria no han sido estudios, sino más bi<strong>en</strong> <strong>de</strong>sarrollo<br />
personal, por eso t<strong>en</strong>go que agra<strong>de</strong>cer <strong>en</strong>ormem<strong>en</strong>te a todos mis compañeros que ha<br />
compartido este largo camino conmigo durante todos estos años, me han dado muchos<br />
mom<strong>en</strong>tos bu<strong>en</strong>os, risas, felicidad, pero sobre todo lo que más valoro es que me han<br />
dado su amistad. Gracias Gus, Kiko, Chus, Peter (los superpepos), Sergio, Vero, Ele,<br />
Moni, Esther, Sonso, Imanol, Nit, Mario, Marcos (no sé si me <strong>de</strong>jo a algui<strong>en</strong>)… espero<br />
que sigamos siempre juntos.<br />
Quiero recordad <strong>de</strong> forma especial a Guido un gran compañero y amigo que está<br />
pres<strong>en</strong>te <strong>en</strong> nuestros corazones. Siempre te echaremos <strong>de</strong> m<strong>en</strong>os.<br />
Por último quiero agra<strong>de</strong>cer <strong>de</strong> todo corazón a mis amigos <strong>de</strong> siempre, con los que he<br />
compartido ya tantos años y experi<strong>en</strong>cias que han llegado a convertirse <strong>en</strong> parte<br />
fundam<strong>en</strong>tal <strong>en</strong> mi vida, los mom<strong>en</strong>tos con vosotros siempre han sido y serán<br />
importantes parara mí. Gracias por estar ahí Valle Nacho, Nico, Ángela, Gonzalo,<br />
Javi, y también El<strong>en</strong>a, María, Carlos… Gracias por todo.<br />
A todos muchas gracias.<br />
vii
viii
Índice <strong>de</strong> cont<strong>en</strong>idos:<br />
1. INTRODUCCIÓN ...................................................................................................... 1<br />
1.1. Motivación ....................................................................................................................................... 1<br />
1.2. Objetivos .......................................................................................................................................... 2<br />
1.3. Organización <strong>de</strong> la memoria .......................................................................................................... 3<br />
2. FUNDAMENTOS DE LA BIOMETRÍA ................................................................. 5<br />
2.1. Introducción a la biometría ............................................................................................................ 5<br />
2.1.1. Rasgos biométricos .................................................................................................................... 5<br />
2.1.2. Aplicaciones <strong>de</strong> los sistemas biométricos .................................................................................. 8<br />
2.1.3. Problemas y limitaciones <strong>de</strong> los sistemas biométricos .............................................................. 8<br />
2.1.4. Aceptación <strong>en</strong> la sociedad ......................................................................................................... 9<br />
2.2. Sistemas automáticos <strong>de</strong> <strong>Reconocimi<strong>en</strong>to</strong> ................................................................................... 10<br />
2.2.1. Estructura ................................................................................................................................ 10<br />
2.2.2. Modos <strong>de</strong> operación ................................................................................................................ 12<br />
2.2.3. Evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to ..................................................................................................... 13<br />
2.2.4. Sistemas multibiométricos ....................................................................................................... 14<br />
3. ESTADO DEL ARTE .............................................................................................. 15<br />
3.1. Teoría <strong>de</strong> imág<strong>en</strong>es ....................................................................................................................... 15<br />
3.1.1. Definición <strong>de</strong> pixel ................................................................................................................... 15<br />
3.1.2. Mo<strong>de</strong>los <strong>de</strong> color <strong>de</strong> un pixel ................................................................................................... 16<br />
3.1.3. Resolución <strong>de</strong> imág<strong>en</strong>es .......................................................................................................... 18<br />
3.2. Teoría <strong>de</strong>l vi<strong>de</strong>o ............................................................................................................................. 19<br />
3.2.1. Los estándares <strong>de</strong> ví<strong>de</strong>o analógico .......................................................................................... 20<br />
3.2.2. El paso a ví<strong>de</strong>o digital ............................................................................................................. 21<br />
ix
3.2.3. Usos <strong>de</strong>l ví<strong>de</strong>o digital .............................................................................................................. 22<br />
3.2.4. Co<strong>de</strong>cs y métodos <strong>de</strong> compresión ............................................................................................ 22<br />
3.3. Detección <strong>de</strong> objetos <strong>en</strong> primer plano ......................................................................................... 24<br />
3.3.1. Mo<strong>de</strong>lado <strong>de</strong>l fondo ................................................................................................................. 26<br />
3.3.2. Detección <strong>de</strong> fr<strong>en</strong>te .................................................................................................................. 29<br />
3.3.3. Seguimi<strong>en</strong>to <strong>de</strong> objetos ............................................................................................................ 31<br />
3.4. Detección y reconocimi<strong>en</strong>to <strong>de</strong> acciones ...................................................................................... 32<br />
3.4.1. “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human Action Classification” ........... 33<br />
3.4.2. “Unsupervised Learning of Human Action Categories Using Spatial-TemporalWords” ...... 35<br />
3.4.3. “Actions in Context” ............................................................................................................... 39<br />
3.4.4. Otros métodos <strong>de</strong> clasificación <strong>de</strong> la acción humana ............................................................. 42<br />
4. DISEÑO ..................................................................................................................... 45<br />
4.1. Introducción .................................................................................................................................. 45<br />
4.1.1. Definición <strong>de</strong> acción ................................................................................................................ 46<br />
4.2. Software utilizado ......................................................................................................................... 47<br />
4.2.1. MATLAB .................................................................................................................................. 48<br />
4.2.2. Op<strong>en</strong>CV ................................................................................................................................... 48<br />
4.3. Estructura g<strong>en</strong>eral ........................................................................................................................ 49<br />
4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ............................................................................................ 50<br />
4.3.2. Extracción <strong>de</strong> características .................................................................................................. 51<br />
4.3.3. Comparador y <strong>de</strong>cisor ............................................................................................................ 52<br />
5. DESARROLLO ........................................................................................................ 55<br />
5.1. Introducción .................................................................................................................................. 55<br />
5.2. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ................................................................................................. 56<br />
5.2.1. Captura <strong>de</strong> los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o ........................................................................ 56<br />
5.2.2 Segm<strong>en</strong>tación para la substracción <strong>de</strong>l fondo .......................................................................... 57<br />
5.2.3. Creación <strong>de</strong> la pirámi<strong>de</strong> temporal ........................................................................................... 58<br />
x
5.3. Extracción <strong>de</strong> características ....................................................................................................... 59<br />
5.3.1. Cálculo <strong>de</strong> los gradi<strong>en</strong>tes ........................................................................................................ 59<br />
5.3.2. Segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te .............................................................................. 62<br />
5.3.3. Cálculo <strong>de</strong> los histogramas ..................................................................................................... 65<br />
5.4. Comparación y <strong>de</strong>cisión................................................................................................................ 68<br />
5.4.1. Comparación ........................................................................................................................... 68<br />
5.4.2. Decisión ................................................................................................................................... 69<br />
6. EXPERIMENTOS Y RESULTADOS .................................................................... 71<br />
6.1. Modo <strong>de</strong> evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to ........................................................................................... 71<br />
6.1.1. Métodos <strong>de</strong> evaluación <strong>de</strong> sistemas ......................................................................................... 71<br />
6.1.2. Establecimi<strong>en</strong>to <strong>de</strong>l umbral ..................................................................................................... 74<br />
6.2. Resultados ...................................................................................................................................... 74<br />
6.2.1. Experim<strong>en</strong>to A: condiciones idénticas ..................................................................................... 75<br />
6.2.2. Experim<strong>en</strong>to B: condiciones no idénticas ................................................................................ 78<br />
6.2.2. Experim<strong>en</strong>to C: condiciones in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes ........................................................................... 85<br />
6.3. EVALUACIÓN DE ROBUSTEZ ................................................................................................ 88<br />
6.3.1. Cambio <strong>de</strong> la Longitud <strong>de</strong> V<strong>en</strong>tana Temporal ......................................................................... 88<br />
6.3.2. Fondo multimodal ................................................................................................................... 89<br />
6.3.3. Cambios <strong>en</strong> la vestim<strong>en</strong>ta ........................................................................................................ 90<br />
6.3.4. Variación <strong>de</strong> las escalas temporales ....................................................................................... 91<br />
6.3.5. Variación <strong>de</strong> las escalas espaciales ........................................................................................ 91<br />
6.3.6. Cambios <strong>en</strong> la dirección <strong>de</strong> visión ........................................................................................... 93<br />
7. CONCLUSIONES Y TRABAJO FUTURO .......................................................... 97<br />
REFERENCIAS ......................................................................................................... 101<br />
ANEXOS ..................................................................................................................... 107<br />
A. Manual <strong>de</strong>l programador ............................................................................................................. 107<br />
xi
B. Conjunto <strong>de</strong> ví<strong>de</strong>os ........................................................................................................................ 112<br />
Presupuesto: ....................................................................................................................................... 115<br />
xii
Índice <strong>de</strong> ilustraciones:<br />
Figura 2.1: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> reconocimi<strong>en</strong>to<br />
biométrico. ......................................................................................................... 10<br />
Figura 2.2: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo registro. ........................................... 12<br />
Figura 2.3: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo verificación. .................................... 13<br />
Figura 2.4: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación. ................................. 13<br />
Figura 3.1: Ampliación <strong>de</strong> un sector <strong>de</strong> la imag<strong>en</strong>. ........................................................ 15<br />
Figura 3.2: Composición <strong>de</strong> una imag<strong>en</strong> <strong>en</strong> RGB. ......................................................... 16<br />
Figura 3.3 Mezcla aditiva <strong>de</strong> colores <strong>de</strong>l RGB y el mo<strong>de</strong>lo sustractivo <strong>de</strong>l CMYK...... 17<br />
Figura 3.4: De izquierda a <strong>de</strong>recha, imag<strong>en</strong> con sus compon<strong>en</strong>tes Y, I y Q. ................. 18<br />
Figura 3.5: De izquierda a <strong>de</strong>recha, aum<strong>en</strong>to <strong>de</strong> la resolución <strong>de</strong> una imag<strong>en</strong>. ............. 19<br />
Figura 3.6: Diagrama <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong>tector <strong>de</strong> primer plano<br />
g<strong>en</strong>érico. ............................................................................................................ 26<br />
Figura 3.7: Muestra la <strong>de</strong>tección <strong>de</strong> los puntos <strong>de</strong> interés usando el método <strong>de</strong><br />
filtro lineal separable. ........................................................................................ 37<br />
Figura 3.8: Ilustración sobre la concurr<strong>en</strong>cia <strong>en</strong>tre las clases <strong>de</strong> esc<strong>en</strong>a y las<br />
acciones. ............................................................................................................ 40<br />
Figura 4.1: Esquema g<strong>en</strong>eral <strong>de</strong>l algoritmo. ................................................................... 49<br />
Figura 4.2: Esquema <strong>de</strong> la fase captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. ................................. 50<br />
Figura 4.3: Esquema <strong>de</strong> la fase extracción <strong>de</strong> características. ........................................ 52<br />
Figura 5.2: Ejemplo <strong>de</strong> la información que obt<strong>en</strong>emos <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />
que introducimos <strong>en</strong> el sistema. En este ejemplo se muestra <strong>en</strong> los dos<br />
primeros bloques la información <strong>de</strong> dos secu<strong>en</strong>cias que conti<strong>en</strong><strong>en</strong><br />
movimi<strong>en</strong>tos ejemplo y <strong>en</strong> el tercer bloque la información <strong>de</strong> la secu<strong>en</strong>cia<br />
que queremos analizar. ...................................................................................... 56<br />
Figura 5.3: Tres <strong>ejemplos</strong> <strong>de</strong> substracción <strong>de</strong> fondo <strong>en</strong> tres secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />
difer<strong>en</strong>tes <strong>en</strong> las que trabajamos con distintos <strong>en</strong>tornos. .................................. 58<br />
Figura 5.4: Esquema <strong>de</strong> la pirámi<strong>de</strong> temporal que vamos a utilizar durante el<br />
algoritmo. .......................................................................................................... 59<br />
Figura 5.5: Filtros <strong>de</strong> Sobel. ........................................................................................... 60<br />
xiii
Figura 5.6: Volum<strong>en</strong> espacio-temporal S correspondi<strong>en</strong>te a una persona<br />
caminando. El gradi<strong>en</strong>te espacio-temporal (S x , S y , S t )se estima <strong>en</strong> cada<br />
punto espacio-temporal (x, y, t). ....................................................................... 61<br />
Figura 5.7: En (a), (b) y (c) muestran <strong>ejemplos</strong> <strong>de</strong> un frame <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje<br />
‘x’, cada imag<strong>en</strong> correspon<strong>de</strong> a un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la<br />
acción <strong>de</strong> caminar. En (d), (e) y (f) se muestra el mismo ejemplo pero <strong>de</strong>l<br />
gradi<strong>en</strong>te <strong>en</strong> el eje ’y’. Por último (g), (h) y (i) muestran el mismo<br />
ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje <strong>de</strong>l tiempo. ............................................... 61<br />
Figura 5.8: En (a) y (b) se muestra un ejemplo <strong>de</strong> una persona corri<strong>en</strong>do y su<br />
respectivo resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. En (c) y (d) se muestra un<br />
ejemplo <strong>en</strong> el que aparec<strong>en</strong> dos personas simultáneam<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia<br />
una caminando y otra gateando y el correspondi<strong>en</strong>te resultado <strong>de</strong> la<br />
<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. ........................................................................................... 63<br />
Figura 5.9: Se muestra un ejemplo <strong>de</strong> cómo se consigue in<strong>de</strong>p<strong>en</strong>dizar cada acción<br />
<strong>de</strong> la esc<strong>en</strong>a acotando las zonas don<strong>de</strong> se produce el movimi<strong>en</strong>to<br />
mediante estos rectángulos. ............................................................................... 64<br />
Figura 5.10: Diagrama <strong>de</strong> flujo que nos <strong>en</strong>seña cómo obt<strong>en</strong>emos la posición <strong>de</strong> los<br />
pixeles que nos interesan para una secu<strong>en</strong>cia <strong>en</strong> la que aparece una<br />
persona caminando.(a)Frame sobre el que estamos trabajando. (b)<br />
Resultado <strong>de</strong> calcular el gradi<strong>en</strong>te temporal sobre el frame inicial. .................. 66<br />
(c)Resultado <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong>l frame inicial. (d) Obt<strong>en</strong>ción <strong>de</strong> los pixiles<br />
útiles. ................................................................................................................. 66<br />
Figura 5.11: Histogramas <strong>en</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes ‘x’, ‘y’ y ‘t’ <strong>de</strong>l primer<br />
nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para un ejemplo <strong>de</strong> la acción <strong>de</strong>l tipo correr. .... 67<br />
Figura 5.12: Comparativa <strong>de</strong> los histogramas <strong>de</strong> 4 acciones distintas, que son<br />
correr, caminar, agitar los brazos y rodar. (a)h 1 x, (b)h 1 y, (c)h 1 t, (d)h 2 x,<br />
(e)h 2 y y (f)h 2 t. ..................................................................................................... 68<br />
Figura 5.13: Ejemplo <strong>de</strong> un frame <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o analizada por el<br />
sistema para el caso <strong>en</strong> el que la acción mo<strong>de</strong>lo es caminar. ............................ 69<br />
Figura 6.1: Ejemplos <strong>de</strong> FAR y FRR. ............................................................................ 72<br />
Figura 6.2: Ejemplo <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s y distribuciones <strong>de</strong> probabilidad <strong>de</strong> acciones<br />
correctas e incorrectas. ...................................................................................... 73<br />
Figura 6.3: Ejemplo <strong>de</strong> curva DET ................................................................................. 73<br />
Figura 6.4: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral<br />
fr<strong>en</strong>te a la actividad ejemplo caminar. ............................................................. 76<br />
Figura 6.5: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones ) caminar, b) correr y c) paso lateral<br />
fr<strong>en</strong>te a la actividad ejemplo correr. ................................................................ 76<br />
xiv
Figura 6.6: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral<br />
y d) gatear fr<strong>en</strong>te a la actividad ejemplo caminar. ........................................... 79<br />
Figura 6.7: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral<br />
y d) gatear fr<strong>en</strong>te a la actividad ejemplo correr. .............................................. 79<br />
Figura 6.8: Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones caminar y correr con respecto a las<br />
actividad ejemplo caminar y correr. .................................................................. 82<br />
Figura 6.9: Imag<strong>en</strong> <strong>de</strong>l fondo <strong>en</strong> el que están <strong>de</strong>stacadas distintas zonas afectan <strong>de</strong><br />
forma distinta al resultado. ................................ ¡Error! Marcador no <strong>de</strong>finido.<br />
Figura 6.10: (a), (b) y (c) Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las<br />
medidas <strong>de</strong> distancia conductual <strong>de</strong> las acciones que <strong>en</strong>contramos <strong>en</strong><br />
distintas secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o con respecto a difer<strong>en</strong>tes activida<strong>de</strong>s<br />
ejemplo. ............................................................................................................. 84<br />
Figura 6.12: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear<br />
fr<strong>en</strong>te a la actividad ejemplo correr. ................................................................ 86<br />
Figura 6.13: Ejemplo <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones con una secu<strong>en</strong>cia con<br />
fondo multimodal. ............................................................................................. 90<br />
Figura 6.14: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />
persona caminando y corri<strong>en</strong>do, con ropa <strong>de</strong> un color homogéneo, y una<br />
persona caminando con una pr<strong>en</strong>da <strong>de</strong> vestir a rayas fr<strong>en</strong>te a la actividad<br />
ejemplo caminar. ............................................................................................... 90<br />
Figura 6.15: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />
persona caminando a distintas distancias con respecto a la cámara fr<strong>en</strong>te a<br />
la actividad ejemplo caminar. ............................................................................ 92<br />
Figura 6.16: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />
persona caminando con difer<strong>en</strong>tes direcciones <strong>de</strong> movimi<strong>en</strong>to con<br />
respecto a la cámara fr<strong>en</strong>te a la actividad ejemplo caminar. ............................. 93<br />
Figura 6.17: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una<br />
persona caminando, <strong>en</strong> un primer mom<strong>en</strong>to paralelo a la cámara y<br />
seguidam<strong>en</strong>te cambiando su dirección <strong>de</strong> movimi<strong>en</strong>to 90º, com<strong>en</strong>zando<br />
así a caminar perp<strong>en</strong>dicular a la cámara fr<strong>en</strong>te a la actividad ejemplo<br />
caminar. ............................................................................................................. 94<br />
xv
Índice <strong>de</strong> Tablas:<br />
Tabla 6.1: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar,<br />
correr y pasos laterales con respecto <strong>de</strong> la actividad ejemplo caminar. ........... 77<br />
Tabla 6.2: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar,<br />
correr y pasos laterales con respecto <strong>de</strong> la actividad ejemplo correr. .............. 77<br />
Tabla 6.3: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar,<br />
correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />
caminar. ............................................................................................................ 80<br />
Tabla 6.4: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar,<br />
correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />
correr. ............................................................................................................... 80<br />
Tabla 6.5: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar,<br />
correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />
caminar. ............................................................................................................ 87<br />
Tabla 6.6: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar,<br />
correr, pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo<br />
correr. ............................................................................................................... 87<br />
xvi
xvii
xviii
1. Introducción<br />
1. Introducción<br />
1.1. Motivación<br />
Un ser humano cuando observa una <strong>de</strong>terminada imag<strong>en</strong> o un ví<strong>de</strong>o ti<strong>en</strong>e la capacidad<br />
<strong>de</strong> reconocer <strong>de</strong> manera s<strong>en</strong>cilla e inmediata las distintas activida<strong>de</strong>s que se <strong>de</strong>sarrollan<br />
<strong>en</strong> la esc<strong>en</strong>a, pero este reconocimi<strong>en</strong>to que resulta fácil <strong>de</strong> realizar para un humano es<br />
un gran <strong>de</strong>safío para los sistemas <strong>en</strong>cargados <strong>de</strong>l procesami<strong>en</strong>to <strong>de</strong> imág<strong>en</strong>es y ví<strong>de</strong>o. El<br />
reconocimi<strong>en</strong>to automático <strong>de</strong> las activida<strong>de</strong>s dinámicas es necesario <strong>en</strong> varios sistemas<br />
<strong>de</strong> análisis <strong>de</strong> vi<strong>de</strong>o, como por ejemplo sistemas <strong>de</strong> seguridad, espacios intelig<strong>en</strong>tes,<br />
vi<strong>de</strong>o in<strong>de</strong>xado <strong>basado</strong> <strong>en</strong> acciones, browsing, clustering y segm<strong>en</strong>tación.<br />
Hasta ahora muchos <strong>de</strong> los trabajos anteriores se c<strong>en</strong>tran <strong>en</strong> reconocer una serie <strong>de</strong><br />
acciones pre<strong>de</strong>finidas. Estos métodos propon<strong>en</strong> aproximaciones para capturar las<br />
características importantes <strong>de</strong> las acciones mediante mo<strong>de</strong>los paramétricos<br />
especializados, que por lo g<strong>en</strong>eral, dan lugar al reconocimi<strong>en</strong>to <strong>de</strong> alta calidad <strong>de</strong> las<br />
acciones estudiadas. Su construcción, g<strong>en</strong>eralm<strong>en</strong>te requiere una fase <strong>de</strong> apr<strong>en</strong>dizaje<br />
muy amplia, don<strong>de</strong> se proporcionan muchos <strong>ejemplos</strong> <strong>de</strong> la acción estudiada. Sin<br />
embrago, cuando tratamos con aplicaciones <strong>de</strong>l mundo real a m<strong>en</strong>udo este tipo <strong>de</strong><br />
sistemas pres<strong>en</strong>tan gran<strong>de</strong>s problemas, ya que es improbable que se restrinjan para el<br />
reconocimi<strong>en</strong>to <strong>de</strong> acciones mo<strong>de</strong>lo cuidadosam<strong>en</strong>te estudiadas. Esto se <strong>de</strong>be a que<br />
cuando tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o no hay ningún conocimi<strong>en</strong>to previo sobre<br />
los tipos <strong>de</strong> acciones <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su<br />
naturaleza (periódica / no periódica).<br />
Por este motivo, este trabajo no sólo se restringe al reconocimi<strong>en</strong>to <strong>de</strong> las acciones<br />
cuidadosam<strong>en</strong>te estudiadas, sino que tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> los que a<br />
m<strong>en</strong>udo no hay ningún conocimi<strong>en</strong>to previo sobre los tipos <strong>de</strong> acciones <strong>en</strong> la secu<strong>en</strong>cia<br />
<strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su naturaleza (periódica/no periódica). En este<br />
proyecto pres<strong>en</strong>taremos un reconocedor <strong>de</strong> activida<strong>de</strong>s, para datos <strong>de</strong> ví<strong>de</strong>o g<strong>en</strong>erales,<br />
utilizando una simple medida <strong>de</strong> distancia conductual <strong>en</strong>tre la acciones que aparec<strong>en</strong> <strong>en</strong><br />
una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o y las activida<strong>de</strong>s ejemplo introducidas <strong>en</strong> una etapa breve <strong>de</strong><br />
estudio previo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 1
1. Introducción<br />
1.2. Objetivos<br />
El principal objetivo <strong>en</strong> este proyecto es conseguir un sistema reconocedor <strong>de</strong> acciones<br />
humanas <strong>en</strong> ví<strong>de</strong>o sin t<strong>en</strong>er conocimi<strong>en</strong>to a priori <strong>de</strong>l tipo <strong>de</strong> activida<strong>de</strong>s que aparec<strong>en</strong><br />
<strong>en</strong> la secu<strong>en</strong>cia, basándose únicam<strong>en</strong>te <strong>en</strong> los datos <strong>de</strong> un conjunto <strong>de</strong> <strong>ejemplos</strong> <strong>de</strong><br />
movimi<strong>en</strong>tos guardados <strong>en</strong> una fase <strong>de</strong> estudio previa <strong>en</strong> nuestra base <strong>de</strong> datos. El<br />
diseño <strong>de</strong>l algoritmo permite a la computadora, <strong>en</strong> una primera etapa, apr<strong>en</strong><strong>de</strong>r <strong>de</strong> forma<br />
s<strong>en</strong>cilla y breve mo<strong>de</strong>los <strong>de</strong> acciones humanas, y más a<strong>de</strong>lante dado un nuevo ví<strong>de</strong>o, el<br />
algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te<br />
están o no pres<strong>en</strong>tes <strong>en</strong> la secu<strong>en</strong>cia.<br />
Esto se consigue mediante una medida <strong>de</strong> distancia estadística <strong>en</strong>tre las activida<strong>de</strong>s que<br />
surg<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que está basada sólo <strong>en</strong> el comportami<strong>en</strong>to. Es <strong>de</strong>cir<br />
conserva las variaciones temporales, mi<strong>en</strong>tras es ins<strong>en</strong>sible a cambios <strong>de</strong> aspecto como<br />
la variación <strong>de</strong> la ropa, condiciones <strong>de</strong> iluminación, etc. Esta medida es no paramétrica<br />
pudi<strong>en</strong>do manejar así una amplia gama <strong>de</strong> comportami<strong>en</strong>tos dinámicos, permitiéndonos<br />
así el análisis g<strong>en</strong>eral <strong>de</strong> información <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e tipos <strong>de</strong> acción<br />
<strong>de</strong>sconocidos.<br />
Un uso <strong>de</strong>seado, podría ser <strong>de</strong>tección <strong>de</strong> activida<strong>de</strong>s inusuales <strong>en</strong> un vi<strong>de</strong>o <strong>de</strong> seguridad<br />
<strong>en</strong> un lugar público, como podría ser un aeropuerto. Otro uso podría ser para el usuario<br />
que ve una película, indicar un punto interesante <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e una acción <strong>de</strong><br />
interés, requiri<strong>en</strong>do posteriorm<strong>en</strong>te al sistema avanzar rápido al sigui<strong>en</strong>te fragm<strong>en</strong>to <strong>en</strong><br />
el que ocurran acciones similares. Otra aplicación <strong>de</strong>seada es la segm<strong>en</strong>tación temporal<br />
basada <strong>en</strong> comportami<strong>en</strong>tos <strong>de</strong> secu<strong>en</strong>cias largas <strong>de</strong> ví<strong>de</strong>o. Dada una secu<strong>en</strong>cia larga <strong>de</strong><br />
vi<strong>de</strong>o que conti<strong>en</strong>e variedad <strong>de</strong> acciones nos interesaría <strong>de</strong>tectar los puntos <strong>de</strong> comi<strong>en</strong>zo<br />
y final <strong>de</strong> las acciones, sin requerir cualquier conocimi<strong>en</strong>to previo <strong>de</strong> los tipos <strong>de</strong><br />
acciones o sus grados temporales.<br />
Los objetivos principales serán:<br />
1. <strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
Dado un ejemplo <strong>de</strong> un fragm<strong>en</strong>to simple <strong>de</strong> una acción <strong>de</strong> interés y un amplio conjunto<br />
<strong>de</strong> secu<strong>en</strong>cias, <strong>de</strong>seamos <strong>de</strong>tectar acciones similares a la acción ejemplo, no t<strong>en</strong>i<strong>en</strong>do<br />
información previa <strong>en</strong> el cont<strong>en</strong>ido <strong>de</strong>l conjunto <strong>de</strong> ví<strong>de</strong>os. Esto es logrado mediante<br />
comparación <strong>de</strong> acciones <strong>de</strong> interés contra todas las subsecu<strong>en</strong>cias <strong>de</strong> un vi<strong>de</strong>o, con la<br />
misma longitud temporal que el fragm<strong>en</strong>to <strong>de</strong> ejemplo (similar a la acción <strong>de</strong><br />
<strong>de</strong>tección). Las subsecu<strong>en</strong>cias con una pequeña distancia a la dada <strong>en</strong> el fragm<strong>en</strong>to<br />
ejemplo son <strong>de</strong>tectadas como una repres<strong>en</strong>tación <strong>de</strong> la misma acción. Cuando una<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 2
1. Introducción<br />
acción se repite múltiples veces <strong>en</strong> subsecu<strong>en</strong>cias consecutivas será <strong>de</strong>tectada como la<br />
misma acción, así el resultado final <strong>de</strong> la <strong>de</strong>tección, pue<strong>de</strong> incluir segm<strong>en</strong>tos <strong>de</strong> vi<strong>de</strong>o <strong>de</strong><br />
varias longitu<strong>de</strong>s.<br />
2. <strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s inusuales<br />
Dado <strong>ejemplos</strong> <strong>de</strong> activida<strong>de</strong>s conocidas, <strong>de</strong>seamos <strong>de</strong>tectar acciones sufici<strong>en</strong>tem<strong>en</strong>te<br />
difer<strong>en</strong>tes. La medida que planeamos diseñar <strong>de</strong>be ser capaz <strong>de</strong> distinguir <strong>en</strong>tre las<br />
activida<strong>de</strong>s que son sufici<strong>en</strong>tem<strong>en</strong>te difer<strong>en</strong>tes y, por tanto, nos permite diseñar un<br />
algoritmo para <strong>de</strong>tectar activida<strong>de</strong>s difer<strong>en</strong>tes <strong>de</strong>l conjunto <strong>de</strong> las activida<strong>de</strong>s<br />
pres<strong>en</strong>tadas conocidas por el sistema.<br />
1.3. Organización <strong>de</strong> la memoria<br />
La memoria consta <strong>de</strong> los sigui<strong>en</strong>tes capítulos:<br />
• Capítulo 1. Introducción: Introducción, objetivos y motivación <strong>de</strong>l proyecto.<br />
• Capítulo 2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría: Se introducirán los conceptos<br />
básicos <strong>de</strong> la biometría, haci<strong>en</strong>do refer<strong>en</strong>cia a los rasgos biométricos, a la<br />
estructura g<strong>en</strong>eral <strong>de</strong> los sistemas, a los modos <strong>de</strong> operación <strong>de</strong> los sistemas<br />
biométricos, etc.<br />
• Capítulo 3. Estado <strong>de</strong>l arte <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones: Se introducirán<br />
conceptos pert<strong>en</strong>eci<strong>en</strong>tes a la teoría <strong>de</strong> imag<strong>en</strong> y <strong>de</strong> ví<strong>de</strong>o, una visión <strong>de</strong> los<br />
distintos <strong>en</strong>foques <strong>en</strong> reconocimi<strong>en</strong>to movimi<strong>en</strong>to. Posteriorm<strong>en</strong>te se hace un<br />
estudio <strong>de</strong> distintos sistemas <strong>de</strong> reconocimi<strong>en</strong>to exist<strong>en</strong>tes.<br />
• Capítulo 4. Diseño <strong>de</strong>l proyecto: Se <strong>de</strong>scribirán los medios disponibles para el<br />
<strong>de</strong>sarrollo, el sistema g<strong>en</strong>eral y las distintas fases que lo compon<strong>en</strong>.<br />
• Capítulo 5. Desarrollo <strong>de</strong>l proyecto: Se <strong>de</strong>scribirá el procedimi<strong>en</strong>to seguido<br />
para la implem<strong>en</strong>tación <strong>de</strong>l sistema y el funcionami<strong>en</strong>to <strong>de</strong> cada uno <strong>de</strong> los<br />
compon<strong>en</strong>tes <strong>de</strong>sarrollados.<br />
• Capítulo 6. Experim<strong>en</strong>tos y resultado: Se pres<strong>en</strong>taran los datos obt<strong>en</strong>idos tras<br />
la evaluación <strong>de</strong>l sistema y se analizaran los resultados conseguidos.<br />
• Capítulo 7. Conclusiones y trabajo futuro.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 3
1. Introducción<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 4
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
2. Fundam<strong>en</strong>tos <strong>de</strong> la<br />
biometría<br />
2.1. Introducción a la biometría<br />
Exist<strong>en</strong> tres gran<strong>de</strong>s modalida<strong>de</strong>s <strong>de</strong> reconocimi<strong>en</strong>to: <strong>basado</strong> <strong>en</strong> algo que el individuo<br />
sabe (p.e. una contraseña), <strong>en</strong> algo que ti<strong>en</strong>e (p.e una llave) o <strong>en</strong> algo que es (p.e su<br />
cara). El reconocimi<strong>en</strong>to biométrico se correspon<strong>de</strong> a este último grupo.<br />
El término biometría vi<strong>en</strong>e <strong>de</strong>l griego “bio” que significa vida y “metría” que significa<br />
medida o medición. La biometría es el conjunto <strong>de</strong> métodos automatizados que analizan<br />
<strong>de</strong>terminadas características humanas para i<strong>de</strong>ntificar o aut<strong>en</strong>tificar personas.<br />
En los distintitos sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométrico se utilizan difer<strong>en</strong>tes rasgos<br />
para conseguir llegar a la i<strong>de</strong>ntificación y aut<strong>en</strong>tificación <strong>de</strong>l individuo. Todos estos<br />
rasgos ti<strong>en</strong><strong>en</strong> que cumplir <strong>en</strong> mayor o m<strong>en</strong>or medida estas características:<br />
• Universalidad.<br />
• Unicidad.<br />
• Perman<strong>en</strong>cia o estabilidad.<br />
• M<strong>en</strong>surabilidad o evaluabilidad.<br />
• Aceptabilidad.<br />
• R<strong>en</strong>dimi<strong>en</strong>to.<br />
• Evitabilidad o frau<strong>de</strong>.<br />
2.1.1. Rasgos biométricos<br />
Desafortunadam<strong>en</strong>te no hay ningún rasgo biométrico que cumpla todas las<br />
características anteriores con total satisfacción. Por lo tanto la elección <strong>de</strong>l rasgo que se<br />
utilizara para cada aplicación <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> las características <strong>de</strong>l mismo y <strong>de</strong> los<br />
requisitos <strong>de</strong> la aplicación. Los rasgos biométricos con los que se trabaja son los<br />
sigui<strong>en</strong>tes.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 5
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
ADN: El ADN ti<strong>en</strong>e como factor positivo que es único para cada individuo. En<br />
cambio, como factores negativos se pue<strong>de</strong> <strong>de</strong>stacar que es un rasgo biométrico<br />
fácil <strong>de</strong> robar, el proceso <strong>de</strong> reconocimi<strong>en</strong>to es l<strong>en</strong>to y es necesario que sea<br />
asistido por un persona y a<strong>de</strong>más el ADN pue<strong>de</strong> revelar características <strong>de</strong>l<br />
individuo que no quiere hacer públicas.<br />
Oreja: Para este tipo <strong>de</strong> reconocimi<strong>en</strong>to se emplea la forma <strong>de</strong>l bor<strong>de</strong> y <strong>de</strong> las<br />
estructuras gelatinosas que la compon<strong>en</strong>.<br />
Cara: Es el rasgo biométrico que más comúnm<strong>en</strong>te se utiliza para el<br />
reconocimi<strong>en</strong>to humano <strong>en</strong>tre individuos junto con la voz. Como aspectos<br />
positivos se pue<strong>de</strong> <strong>de</strong>cir que es un rasgo muy aceptado y se adquiere mediante<br />
un método no invasivo. Por otro lado se pue<strong>de</strong> <strong>en</strong>gañar al sistema mediante el<br />
uso <strong>de</strong> mascaras, luego el sistema <strong>de</strong>bería estar preparado para posibles cambios<br />
<strong>de</strong>bidos a la edad, iluminación, expresión, etc.<br />
Termogramas: El calor que radia cada individuo es característico. Este rasgo se<br />
captura <strong>de</strong> forma no intrusiva mediante cámaras <strong>de</strong> infrarrojos. Las <strong>de</strong>sv<strong>en</strong>tajas<br />
son el coste <strong>de</strong> los s<strong>en</strong>sores y la vulnerabilidad fr<strong>en</strong>te a fu<strong>en</strong>tes <strong>de</strong> calor no<br />
controlables.<br />
V<strong>en</strong>as <strong>de</strong> la mano: La i<strong>de</strong>ntificación mediante las v<strong>en</strong>as <strong>de</strong> la mano es muy<br />
segura y difícilm<strong>en</strong>te falsificable <strong>de</strong>bido a las múltiples características que los<br />
difer<strong>en</strong>cian, por ello está modalidad biométrica es consi<strong>de</strong>rada más segura que<br />
otras.<br />
Huellas dactilares: La i<strong>de</strong>ntificación mediante huella dactilar se lleva utilizando<br />
muchos siglos. Una huella es única para cada individuo y <strong>de</strong>ntro <strong>de</strong> cada<br />
individuo para cada <strong>de</strong>do. Actualm<strong>en</strong>te la exactitud <strong>de</strong> estos sistemas es muy<br />
elevada y están muy ext<strong>en</strong>didos.<br />
Forma <strong>de</strong> caminar: Este es un rasgo biométrico complejo a nivel espaciotemporal.<br />
No es muy distintivo, pero pue<strong>de</strong> ser sufici<strong>en</strong>tem<strong>en</strong>te discriminatorio<br />
si por ejemplo los usuarios están obligados a pasar por un mismo sitio. Pert<strong>en</strong>ece<br />
a los rasgos biométricos <strong>de</strong> comportami<strong>en</strong>to y varía a lo largo <strong>de</strong>l tiempo, pero<br />
se adquiere <strong>de</strong> forma no invasiva con una cámara.<br />
Geometría <strong>de</strong> la mano: Este rasgo no es muy distintivo y está sujeto a cambios a<br />
lo largo <strong>de</strong> la vida. Se basa <strong>en</strong> un conjunto <strong>de</strong> medidas significativas como la<br />
forma <strong>de</strong> la mano, el tamaño <strong>de</strong> la palma, la longitud y el ancho <strong>de</strong> los <strong>de</strong>dos.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 6
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
Iris: Es un rasgo altam<strong>en</strong>te discriminatorio y único para cada uno <strong>de</strong> los ojos <strong>de</strong>l<br />
individuo. En la antigüedad <strong>de</strong> una gran participación por parte <strong>de</strong>l usuario <strong>en</strong> el<br />
proceso <strong>de</strong> captura, pero hoy <strong>en</strong> día es posible su captura <strong>de</strong> manera poco<br />
invasiva. Debido a la complejidad <strong>de</strong> los sistemas la tecnología sigue si<strong>en</strong>do<br />
clara.<br />
Huella palmar: Es un rasgo similar a la huella dactilar, pero con mayor<br />
información, ya que posee mayor área, luego es por esto que se consi<strong>de</strong>ra más<br />
distintivo.<br />
Olor: Una parte <strong>de</strong>l olor que emit<strong>en</strong> los humanos es distintivo, el olor pue<strong>de</strong> ser<br />
capturado por s<strong>en</strong>sores químicos, pero es complicado separarlo <strong>de</strong> sustancias<br />
artificiales.<br />
Escáner <strong>de</strong> retina: La estructura vascular <strong>de</strong> la retina es distinta para cada ojo y<br />
para cada individuo. Debido a la complejidad <strong>de</strong> su captura es un rasgo<br />
difícilm<strong>en</strong>te falsificable.<br />
Firma: La firma es característica <strong>de</strong> cada persona. Este método se usa<br />
habitualm<strong>en</strong>te <strong>en</strong> multitud <strong>de</strong> transacciones como sistema <strong>de</strong> aut<strong>en</strong>tificación. La<br />
firma ti<strong>en</strong>e una amplia variabilidad a lo largo <strong>de</strong>l tiempo y también con aspectos<br />
físicos y emocionales <strong>de</strong>l individuo.<br />
Voz: La voz es una combinación <strong>de</strong> características físicas y <strong>de</strong> conducta, las<br />
físicas no varían a lo largo <strong>de</strong>l tiempo, pero las <strong>de</strong> conducta se v<strong>en</strong> alteradas por<br />
múltiples factores. Este rasgo pue<strong>de</strong> ser fácilm<strong>en</strong>te imitado, pero a su vez está<br />
muy aceptado y es fácil <strong>de</strong> conseguir.<br />
Escritura: La escritura no es muy distintiva y varía a lo largo <strong>de</strong>l tiempo, pero<br />
su captura es poco invasiva.<br />
Dinámica <strong>de</strong> tecleo: Cada persona ti<strong>en</strong>e una dinámica <strong>de</strong> tecleo característica.<br />
Este rasgo es <strong>de</strong> conducta por lo que varía a lo largo <strong>de</strong>l tiempo y es poco<br />
distintivo, pero proporciona información sufici<strong>en</strong>tem<strong>en</strong>te discriminatoria para<br />
i<strong>de</strong>ntificación <strong>en</strong> casos s<strong>en</strong>cillos. Para su captura basta con emplear secu<strong>en</strong>cias<br />
<strong>de</strong> tecleo <strong>de</strong>l usuario, por lo que no es intrusivo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 7
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
2.1.2. Aplicaciones <strong>de</strong> los sistemas biométricos<br />
Un sistema biométrico consiste <strong>en</strong> un reconocedor <strong>de</strong> parámetros que funciona<br />
sigui<strong>en</strong>do los sigui<strong>en</strong>tes pasos: captura el rasgo biométrico, extrae sus características y<br />
las compara con los patrones almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong> datos para <strong>de</strong>cidir la i<strong>de</strong>ntidad<br />
<strong>de</strong>l individuo.<br />
Las aplicaciones <strong>de</strong> los sistemas biométricos se pue<strong>de</strong>n agrupar <strong>de</strong> la sigui<strong>en</strong>te forma:<br />
• Aplicaciones comerciales: protección <strong>de</strong> datos electrónicos, protección <strong>de</strong> red, e-<br />
comercio, cajeros automáticos, control <strong>de</strong> acceso físico, etc.<br />
• Aplicaciones gubernam<strong>en</strong>tales: DNI, carnet <strong>de</strong> conducir, pasaporte, control <strong>de</strong><br />
fronteras, etc.<br />
• Aplicaciones for<strong>en</strong>ses: i<strong>de</strong>ntificación <strong>de</strong> cadáveres, investigación criminal,<br />
<strong>de</strong>terminación <strong>de</strong> par<strong>en</strong>tesco, etc.<br />
2.1.3. Problemas y limitaciones <strong>de</strong> los sistemas<br />
biométricos<br />
Sin embargo los sistemas biométricos también ti<strong>en</strong><strong>en</strong> problemas y limitaciones que<br />
pue<strong>de</strong>n variar los rasgos biométricos, las causas más comunes que provocan esto son:<br />
Pres<strong>en</strong>tación inconsci<strong>en</strong>te: La señal capturada por el s<strong>en</strong>sor <strong>de</strong>p<strong>en</strong><strong>de</strong> tanto <strong>de</strong><br />
las características <strong>de</strong>l rasgo biométrico como <strong>de</strong> la forma que se pres<strong>en</strong>ta dicho<br />
rasgo.<br />
Pres<strong>en</strong>tación irreproducible: El hecho <strong>de</strong> que se produzca una variación <strong>de</strong> la<br />
señal capturada <strong>en</strong> difer<strong>en</strong>tes adquisiciones pue<strong>de</strong> ser <strong>de</strong>bido a que como los<br />
rasgos biométricos repres<strong>en</strong>tan una característica biológicas o <strong>de</strong><br />
comportami<strong>en</strong>to los acci<strong>de</strong>ntes o los adornos pue<strong>de</strong>n cambiar su estructura o su<br />
aspecto exterior.<br />
Captura imperfecta: Las condiciones <strong>de</strong> captura <strong>de</strong> una señal <strong>en</strong> la práctica no<br />
son perfectas y causan variaciones <strong>en</strong> la señal capturada.<br />
Ruido <strong>en</strong> los datos adquiridos: El ruido pue<strong>de</strong> estar producido por las<br />
condiciones <strong>de</strong>l s<strong>en</strong>sor o condiciones ambi<strong>en</strong>tales <strong>de</strong>sfavorables. Las<br />
adquisiciones con ruido pue<strong>de</strong>n provocar errores <strong>en</strong> la i<strong>de</strong>ntificación.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 8
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
Unicidad: Pue<strong>de</strong> existir similitu<strong>de</strong>s <strong>en</strong>tre difer<strong>en</strong>tes usuarios <strong>en</strong> las<br />
características usadas para repres<strong>en</strong>tar un rasgo biométrico. Esto disminuye la<br />
capacidad <strong>de</strong> discriminar mediante este rasgo.<br />
No universalidad: Pue<strong>de</strong> ser que un subconjunto <strong>de</strong> individuos carezca <strong>de</strong> un<br />
rasgo biométrico que se espera que t<strong>en</strong>gan todos los individuos.<br />
Ataques: Un impostor pue<strong>de</strong> int<strong>en</strong>tar imitar un rasgo biométrico para sortear el<br />
sistema.<br />
2.1.4. Aceptación <strong>en</strong> la sociedad<br />
Es la sociedad la que <strong>de</strong>termina el éxito <strong>de</strong> los sistemas <strong>de</strong> i<strong>de</strong>ntificación <strong>basado</strong>s <strong>en</strong><br />
rasgos biométricos. La facilidad y comodidad <strong>en</strong> la interacción con el sistema<br />
contribuye a su aceptación. Las tecnologías que requier<strong>en</strong> muy poca cooperación o<br />
participación <strong>de</strong> los usuarios suel<strong>en</strong> ser percibidas como más conv<strong>en</strong>i<strong>en</strong>tes. Por otro<br />
lado, los rasgos biométricos que no requier<strong>en</strong> la participación <strong>de</strong>l usuario <strong>en</strong> su<br />
adquisición pue<strong>de</strong>n ser capturados sin que el individuo se dé cu<strong>en</strong>ta y esto es percibido<br />
como una am<strong>en</strong>aza a la privacidad por parte <strong>de</strong> muchos usuarios. El tema <strong>de</strong> la<br />
privacidad adquiere gran relevancia con los sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométrico<br />
porque los rasgos biométricos pue<strong>de</strong>n proporcionar información muy personal <strong>de</strong> un<br />
individuo, como afecciones médicas, y esta información pue<strong>de</strong> ser utilizada <strong>de</strong> forma<br />
poco ética.<br />
Por otro lado, los sistemas biométricos pue<strong>de</strong>n ser empleados como uno <strong>de</strong> los medios<br />
más efectivos para la protección <strong>de</strong> la privacidad individual. Si un individuo extravía su<br />
tarjeta <strong>de</strong> crédito y otra persona la <strong>en</strong>cu<strong>en</strong>tra, podría hacer un uso fraudul<strong>en</strong>to <strong>de</strong> ella.<br />
Pero si la tarjeta <strong>de</strong> crédito únicam<strong>en</strong>te pudiese ser utilizada si el impostor suplantase<br />
los rasgos biométricos <strong>de</strong>l usuario, éste estaría muchísimo más protegido. Otra v<strong>en</strong>taja<br />
<strong>de</strong>l uso <strong>de</strong> los rasgos biométricos consiste <strong>en</strong> limitar el acceso a información personal.<br />
La mayoría <strong>de</strong> los sistemas biométricos comerciales disponibles hoy <strong>en</strong> día no<br />
almac<strong>en</strong>an las características físicas capturadas <strong>en</strong> su forma original, sino que<br />
almac<strong>en</strong>an una repres<strong>en</strong>tación digital <strong>en</strong> un formato <strong>en</strong>criptado. Esto ti<strong>en</strong>e dos<br />
propósitos: el primero consiste <strong>en</strong> que la característica física real no pueda ser<br />
recuperada a partir <strong>de</strong> su repres<strong>en</strong>tación digital, lo que asegura privacidad, y el segundo<br />
se basa <strong>en</strong> que el <strong>en</strong>criptado asegura que sólo la aplicación <strong>de</strong>signada pue<strong>de</strong> usar dicha<br />
repres<strong>en</strong>tación digital.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 9
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
2.2. Sistemas automáticos <strong>de</strong><br />
<strong>Reconocimi<strong>en</strong>to</strong><br />
2.2.1. Estructura<br />
Los sistemas automáticos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patrones pose<strong>en</strong> una estructura<br />
funcional común, formada por varias fases, cuya forma <strong>de</strong> proce<strong>de</strong>r <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la<br />
naturaleza <strong>de</strong>l rasgo o señal a reconocer. La primera etapa correspon<strong>de</strong> a la zona a la<br />
cual el usuario ti<strong>en</strong>e acceso, es <strong>de</strong>cir, el interfaz <strong>de</strong> usuario, <strong>en</strong> ella cabe <strong>de</strong>stacar el<br />
s<strong>en</strong>sor que es el <strong>en</strong>cargado <strong>de</strong> capturar el rasgo biométrico con el que pret<strong>en</strong><strong>de</strong> hacer el<br />
reconocimi<strong>en</strong>to. La sigui<strong>en</strong>te etapa correspon<strong>de</strong> al sistema los módulos más <strong>de</strong>stacables<br />
son el módulo <strong>de</strong> extracción <strong>de</strong> características, el comparador y el <strong>de</strong>cisor estos módulos<br />
son básicos <strong>en</strong> cualquier sistema <strong>de</strong> reconocimi<strong>en</strong>to, el resto <strong>de</strong> módulos sirv<strong>en</strong> para<br />
procesar la señal y pue<strong>de</strong>n ser opcionales.<br />
Figura 2.1: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> reconocimi<strong>en</strong>to biométrico.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 10
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
Para explicar más <strong>en</strong> profundidad el diagrama anterior lo po<strong>de</strong>mos dividir <strong>en</strong> cuatro<br />
fases <strong>de</strong> funcionami<strong>en</strong>to que son la adquisición <strong>de</strong> datos, seguida <strong>de</strong>l preprocesado,<br />
extracción <strong>de</strong> características y terminando con la comparación <strong>de</strong> patrones.<br />
Adquisición <strong>de</strong> datos: En esta fase un s<strong>en</strong>sor se <strong>en</strong>carga <strong>de</strong> recoger los datos<br />
analógicos y los convierte a formato digital. Esta fase es <strong>de</strong> suma importancia ya<br />
que <strong>de</strong> ella <strong>de</strong>p<strong>en</strong><strong>de</strong> la cantidad y la calidad <strong>de</strong> información que se introduce <strong>en</strong><br />
el sistema, es <strong>de</strong>cir, la información con la que van a trabajar las sigui<strong>en</strong>tes fases,<br />
y por lo tanto <strong>de</strong> esta fase <strong>de</strong>p<strong>en</strong><strong>de</strong> mucho el resultado final que se obti<strong>en</strong>e.<br />
Preprocesado: En algunos casos es necesario acondicionar la información<br />
capturada para eliminar posibles ruidos o distorsiones producidas <strong>en</strong> la fase <strong>de</strong><br />
adquisición, o para normalizar la información a unos rasgos específicos para<br />
t<strong>en</strong>er una mayor efectividad <strong>en</strong> el reconocimi<strong>en</strong>to posterior.<br />
Extracción <strong>de</strong> características: En esta fase se extra<strong>en</strong> aquellas características<br />
que sean discriminantes <strong>en</strong>tre distintos individuos y que al mismo tiempo<br />
permanezcan invariables para un mismo usuario, eliminando la información que<br />
no resulte útil <strong>en</strong> el proceso <strong>de</strong> reconocimi<strong>en</strong>to. Con esto se reduce la duración<br />
<strong>de</strong> todo el proceso, su coste computacional y el espacio para almac<strong>en</strong>ar la<br />
plantilla.<br />
Comparación <strong>de</strong> patrones: En esta fase se comparan las características<br />
anteriorm<strong>en</strong>te extraídas con los difer<strong>en</strong>tes mo<strong>de</strong>los almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong><br />
datos con el fin <strong>de</strong> evaluar <strong>de</strong> la correspon<strong>de</strong>ncia <strong>en</strong>tre los patrones <strong>de</strong> <strong>en</strong>trada y<br />
el mo<strong>de</strong>lo particular que queremos reconocer.<br />
D<strong>en</strong>tro <strong>de</strong>l ámbito <strong>de</strong> sistemas <strong>de</strong> reconocimi<strong>en</strong>to biométricos, se pue<strong>de</strong> trabajar <strong>de</strong> dos<br />
formas: modo reconocimi<strong>en</strong>to positivo o modo reconocimi<strong>en</strong>to negativo. El<br />
reconocimi<strong>en</strong>to positivo trata <strong>de</strong> <strong>de</strong>terminar si un usuario es qui<strong>en</strong> afirma ser, mi<strong>en</strong>tras<br />
que el reconocimi<strong>en</strong>to negativo int<strong>en</strong>tan <strong>de</strong>terminar si un usuario es qui<strong>en</strong> niega ser, un<br />
ejemplo <strong>de</strong> este tipo <strong>de</strong> sistemas está instalado <strong>en</strong> los aeropuertos, con las listas negras<br />
<strong>de</strong> terroristas. Cabe <strong>de</strong>stacar que la i<strong>de</strong>ntificación negativa sólo pue<strong>de</strong> ser realizada<br />
mediante rasgos biométricos, y no mediante métodos clásicos como contraseñas o<br />
llaves.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 11
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
2.2.2. Modos <strong>de</strong> operación<br />
Un sistema <strong>de</strong> reconocimi<strong>en</strong>to consta <strong>de</strong> tres modos <strong>de</strong> operación primeram<strong>en</strong>te una<br />
fase previa que sería el modo registro, seguidam<strong>en</strong>te <strong>de</strong> dos posibles modos <strong>de</strong><br />
funcionami<strong>en</strong>to que son verificación o i<strong>de</strong>ntificación.<br />
En el modo registro, el sistema adquiere una plantilla <strong>de</strong>l rasgo biométrico. Durante esta<br />
etapa, se produce un preprocesado <strong>de</strong> la señal biométrica, se extra<strong>en</strong> las características<br />
<strong>de</strong> interés y se almac<strong>en</strong>an <strong>en</strong> el sistema construy<strong>en</strong>do un mo<strong>de</strong>lo. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la<br />
aplicación esta información será guardada <strong>en</strong> la base <strong>de</strong> datos <strong>de</strong>l sistema o <strong>en</strong> otro tipo<br />
<strong>de</strong> dispositivos externos.<br />
Figura 2.2: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo registro.<br />
En el modo verificación o aut<strong>en</strong>ticación el sistema valida la i<strong>de</strong>ntidad <strong>de</strong> una persona<br />
comparando el rasgo biométrico capturado <strong>en</strong> la <strong>en</strong>trada con su propia plantilla<br />
biométrica previam<strong>en</strong>te almac<strong>en</strong>ada <strong>en</strong> la base <strong>de</strong> datos.<br />
Las dos posibles salidas <strong>en</strong> este modo <strong>de</strong> funcionami<strong>en</strong>to (verda<strong>de</strong>ro/ falso) dan lugar a<br />
la aparición <strong>de</strong> dos errores distintos:<br />
• Falso Rechazo: se produce cuando el sistema indica que la información<br />
adquirida <strong>de</strong>l usuario <strong>en</strong> la <strong>en</strong>trada no se correspon<strong>de</strong> con la plantilla<br />
almac<strong>en</strong>ada, cuando realm<strong>en</strong>te sí se correspon<strong>de</strong>.<br />
• Falsa Aceptación: se produce cuando el sistema indica que la información<br />
adquirida <strong>de</strong>l usuario <strong>en</strong> la <strong>en</strong>trada sí se correspon<strong>de</strong> con la plantilla almac<strong>en</strong>ada,<br />
cuando realm<strong>en</strong>te no se correspon<strong>de</strong>.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 12
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
Figura 2.3: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo verificación.<br />
En el modo i<strong>de</strong>ntificación el sistema recibe un rasgo biométrico <strong>de</strong>terminado y<br />
comprueba se correspon<strong>de</strong> con alguno <strong>de</strong> los mo<strong>de</strong>los almac<strong>en</strong>ados <strong>en</strong> la base <strong>de</strong> datos.<br />
El sistema tratara <strong>de</strong> <strong>de</strong>cidir si el usuario esta o no <strong>en</strong> la base <strong>de</strong> datos. El coste<br />
computacional <strong>de</strong> este modo es muy elevado.<br />
Figura 2.4: Esquema <strong>de</strong> funcionami<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación.<br />
2.2.3. Evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to<br />
Para <strong>de</strong>terminar la capacidad y la bondad <strong>de</strong> nuestro sistema <strong>de</strong> reconocimi<strong>en</strong>to<br />
necesitamos una medida objetiva <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l mismo. Ent<strong>en</strong><strong>de</strong>mos como<br />
r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un sistema biométrico como la precisión <strong>en</strong> el proceso <strong>de</strong><br />
reconocimi<strong>en</strong>to.<br />
En cualquier sistema biométrico hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que dos muestras <strong>de</strong> un mismo<br />
rasgo no son exactam<strong>en</strong>te iguales <strong>de</strong>bido a imperfecciones <strong>en</strong> las condiciones <strong>en</strong> las que<br />
se captura la imag<strong>en</strong>, cambios fisiológicos o <strong>de</strong> comportami<strong>en</strong>to, factores ambi<strong>en</strong>tales y<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 13
2. Fundam<strong>en</strong>tos <strong>de</strong> la biometría<br />
a la interacción <strong>de</strong>l usuario con el s<strong>en</strong>sor <strong>en</strong>tre otros. Por tanto la respuesta <strong>de</strong>l<br />
comparador <strong>de</strong> un sistema biométrico consiste <strong>en</strong> una puntuación que cuantifica la<br />
similitud <strong>en</strong>tre la <strong>en</strong>trada y el patrón <strong>de</strong> la base <strong>de</strong> datos con el que se está comparando.<br />
Cuanto mayor sea la similitud <strong>en</strong>tre muestras mayor será la puntuación <strong>de</strong>vuelta por el<br />
comparador.<br />
La <strong>de</strong>cisión <strong>de</strong>l sistema está regulada por un umbral: los pares <strong>de</strong> muestras que g<strong>en</strong>er<strong>en</strong><br />
puntuaciones mayores o iguales que el umbral se supondrán correspondi<strong>en</strong>tes a la<br />
misma persona, mi<strong>en</strong>tras que los pares <strong>de</strong> muestras cuya puntuación sea inferior al<br />
umbral establecido se consi<strong>de</strong>rarán <strong>de</strong> personas difer<strong>en</strong>tes.<br />
2.2.4. Sistemas multibiométricos<br />
Los sistemas multibiométricos son aquellos que combinan varias fu<strong>en</strong>tes <strong>de</strong><br />
información biométrica para mejorar el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un <strong>de</strong>terminado sistema, se<br />
mejora la seguridad <strong>de</strong>l sistema al aum<strong>en</strong>tar la dificultad <strong>de</strong> imitar o falsificar varios<br />
rasgos simultáneam<strong>en</strong>te.<br />
Un sistema <strong>de</strong> este tipo pue<strong>de</strong> operar <strong>de</strong> tres modos difer<strong>en</strong>tes:<br />
• Modo serie: las salidas <strong>de</strong>l análisis <strong>de</strong> un rasgo biométrico se usan como<br />
<strong>en</strong>trada para análisis <strong>de</strong>l sigui<strong>en</strong>te rasgo, reduci<strong>en</strong>do así <strong>en</strong> cada paso el número<br />
<strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s posibles antes <strong>de</strong> emplear la sigui<strong>en</strong>te característica.<br />
• Modo paralelo: la información <strong>de</strong> múltiples rasgos biométricos se emplea<br />
simultáneam<strong>en</strong>te <strong>en</strong> el proceso <strong>de</strong> reconocimi<strong>en</strong>to.<br />
• Modo jerárquico: los clasificadores individuales se combinan <strong>en</strong> una<br />
estructura <strong>de</strong> árbol.<br />
Los sistemas biométricos multimodales pue<strong>de</strong>n trabajar <strong>en</strong> cinco posibles esc<strong>en</strong>arios:<br />
• Múltiples s<strong>en</strong>sores<br />
• Múltiples rasgos<br />
• Múltiples instancias <strong>de</strong> un mismo rasgo<br />
• Múltiples capturas <strong>de</strong> un mismo rasgo<br />
• Múltiples repres<strong>en</strong>taciones/comparaciones para un mismo rasgo<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 14
3. Estado <strong>de</strong>l arte<br />
3. Estado <strong>de</strong>l arte<br />
3.1. Teoría <strong>de</strong> imág<strong>en</strong>es<br />
El trabajo con imág<strong>en</strong>es es una parte fundam<strong>en</strong>tal <strong>de</strong>ntro <strong>de</strong>l proyecto a realizar, ya que<br />
mediante el procesami<strong>en</strong>to <strong>de</strong> las mismas se logra la <strong>de</strong>tección <strong>de</strong> los ev<strong>en</strong>tos<br />
pre<strong>de</strong>terminados. Es por ello que <strong>en</strong> este apartado se explicarán las características más<br />
importantes que pose<strong>en</strong> las imág<strong>en</strong>es.<br />
3.1.1. Definición <strong>de</strong> pixel<br />
El píxel es la unidad más pequeña <strong>en</strong> la que se pue<strong>de</strong> <strong>de</strong>scomponer una imag<strong>en</strong> digital,<br />
ya sea una fotografía, un fotograma <strong>de</strong> ví<strong>de</strong>o o un gráfico. Los píxeles aparec<strong>en</strong> como<br />
pequeños cuadrados <strong>en</strong> color, <strong>en</strong> blanco o <strong>en</strong> negro, o <strong>en</strong> matices <strong>de</strong> gris. Las imág<strong>en</strong>es<br />
se forman como una matriz rectangular <strong>de</strong> píxeles, don<strong>de</strong> cada píxel forma un punto<br />
diminuto <strong>en</strong> la imag<strong>en</strong> total.<br />
Figura 3.1: Ampliación <strong>de</strong> un sector <strong>de</strong> la imag<strong>en</strong>.<br />
Como se observa <strong>en</strong> la figura 3.1, cuando se amplifica una pequeña región <strong>de</strong> la imag<strong>en</strong><br />
(zoom) se pue<strong>de</strong> apreciar fácilm<strong>en</strong>te los píxeles que conforman dicha imag<strong>en</strong> como si<br />
fueran pequeños cuadraditos. Los píxeles son tan diminutos que a simple vista uno no se<br />
pue<strong>de</strong> percatar <strong>de</strong> su forma cuadrada.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 15
3. Estado <strong>de</strong>l arte<br />
En las imág<strong>en</strong>es <strong>de</strong> mapa <strong>de</strong> bits cada píxel se codifica mediante un conjunto <strong>de</strong> bits <strong>de</strong><br />
longitud <strong>de</strong>terminada (la llamada profundidad <strong>de</strong> color), por ejemplo, pue<strong>de</strong> codificarse<br />
un píxel con un byte, u 8 bits, <strong>de</strong> manera que cada píxel admite 256 variantes (2 dígitos<br />
por bit, elevados a la octava pot<strong>en</strong>cia, es <strong>de</strong>cir, 2 8 ). En las imág<strong>en</strong>es <strong>de</strong> color verda<strong>de</strong>ro,<br />
se suel<strong>en</strong> usar tres bytes para <strong>de</strong>finir un color, es <strong>de</strong>cir, <strong>en</strong> total se pue<strong>de</strong> repres<strong>en</strong>tar<br />
16.777,216 colores difer<strong>en</strong>tes (2 24 variantes).<br />
Para po<strong>de</strong>r transformar la información numérica que almac<strong>en</strong>a un píxel <strong>en</strong> un color se<br />
<strong>de</strong>be conocer, a<strong>de</strong>más <strong>de</strong> la profundidad <strong>de</strong> color (el tamaño <strong>en</strong> bits <strong>de</strong>l píxel), el<br />
mo<strong>de</strong>lo <strong>de</strong> color que se está usando, como por ejemplo el mo<strong>de</strong>lo <strong>de</strong> color RGB. A<br />
continuación po<strong>de</strong>mos ver una figura que nos muestra como están distribuidos los<br />
pixeles <strong>en</strong> <strong>de</strong> una imag<strong>en</strong> que utiliza el mo<strong>de</strong>lo RGB.<br />
Figura 3.2: Composición <strong>de</strong> una imag<strong>en</strong> <strong>en</strong> RGB.<br />
3.1.2. Mo<strong>de</strong>los <strong>de</strong> color <strong>de</strong> un pixel<br />
Algunos <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> color más conocidos que se utilizan <strong>en</strong> la composición <strong>de</strong>l<br />
color <strong>de</strong> un píxel son, el mo<strong>de</strong>lo <strong>de</strong> color RGB, CMYK y YIQ, los cuales serán<br />
<strong>de</strong>scritos a continuación:<br />
El mo<strong>de</strong>lo <strong>de</strong> color RGB (Red-Gre<strong>en</strong>-Blue) permite crear un color componi<strong>en</strong>do tres<br />
colores básicos: el rojo, el ver<strong>de</strong> y el azul. En el mo<strong>de</strong>lo RGB es frecu<strong>en</strong>te que se use un<br />
byte (8 bits) para repres<strong>en</strong>tar la proporción <strong>de</strong> cada una <strong>de</strong> las tres compon<strong>en</strong>tes<br />
primarias. Así, <strong>de</strong> una manera estándar, la int<strong>en</strong>sidad <strong>de</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes se<br />
mi<strong>de</strong> según una escala <strong>en</strong>tre 0 y 255. De esta forma, cuando una <strong>de</strong> las compon<strong>en</strong>tes<br />
vale 0, significa que esta no intervi<strong>en</strong>e <strong>en</strong> la mezcla y cuando vale 255 (2 8 -1) significa<br />
que intervi<strong>en</strong>e aportando el máximo <strong>de</strong> ese tono.<br />
Por lo tanto, el rojo se obti<strong>en</strong>e con (255, 0, 0), el ver<strong>de</strong> con (0, 255, 0) y el azul con (0,0,<br />
255), obt<strong>en</strong>i<strong>en</strong>do un color resultante monocromático. La combinación <strong>de</strong> dos colores <strong>en</strong><br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 16
3. Estado <strong>de</strong>l arte<br />
nivel 255 con un tercero <strong>en</strong> nivel 0 da lugar a tres colores intermedios: el amarillo (255,<br />
255 ,0), el cian (0, 255, 255) y el mag<strong>en</strong>ta (255, 0, 255).<br />
Figura 3.3 Mezcla aditiva <strong>de</strong> colores <strong>de</strong>l RGB y el mo<strong>de</strong>lo sustractivo <strong>de</strong>l CMYK.<br />
El gráfico <strong>de</strong> la figura 3.3 muestra <strong>en</strong> su parte izquierda la mezcla aditiva <strong>de</strong> colores <strong>de</strong>l<br />
mo<strong>de</strong>lo RGB, <strong>en</strong> don<strong>de</strong> la combinación <strong>de</strong> sus tres compon<strong>en</strong>tes primarias compone el<br />
color blanco y la aus<strong>en</strong>cia <strong>de</strong> sus compon<strong>en</strong>tes forma el color negro. En la <strong>de</strong>recha <strong>de</strong> la<br />
figura, se muestra la mezcla sustractiva <strong>de</strong>l mo<strong>de</strong>lo CMYK.<br />
Las ecuaciones sigui<strong>en</strong>tes muestran la forma <strong>de</strong> conversión <strong>de</strong>l mo<strong>de</strong>lo RGB al mo<strong>de</strong>lo<br />
CMYK. Para convertir valores <strong>en</strong>tre RGB y CMYK, se <strong>de</strong>be utilizar un valor CMY<br />
intermedio. Estos valores <strong>de</strong> color se <strong>de</strong>b<strong>en</strong> repres<strong>en</strong>tar como un vector, estos pue<strong>de</strong>n<br />
variar <strong>en</strong>tre 0.0 (color inexist<strong>en</strong>te) y 1.0 (color totalm<strong>en</strong>te saturado):<br />
t CMYK = {C, M, Y, K} es el cuádruplo <strong>de</strong>l valor CMYK <strong>en</strong>tre [0,1] 4 (3.1)<br />
t CMY ={C ,M ,Y}es el triple <strong>de</strong>l valor CMY <strong>en</strong>tre [0,1] 3 (3.2)<br />
t RGB ={R ,G ,B} es el triple <strong>de</strong>l valor RGB <strong>en</strong>tre [0,1] 3 (3.3)<br />
El mo<strong>de</strong>lo CMYK (acrónimo <strong>de</strong> Cian, Mag<strong>en</strong>ta, Yellow y Key) es un mo<strong>de</strong>lo <strong>de</strong><br />
colores sustractivo que se utiliza <strong>en</strong> la impresión a color. Este mo<strong>de</strong>lo se basa <strong>en</strong> la<br />
mezcla <strong>de</strong> pigm<strong>en</strong>tos <strong>de</strong> los colores Cian (C), Mag<strong>en</strong>ta (M), Amarillo (Y) y Negro (K)<br />
para crear otros.<br />
La mezcla <strong>de</strong> colores CMY i<strong>de</strong>ales es sustractiva (al imprimir cian, mag<strong>en</strong>ta y amarillo<br />
<strong>en</strong> fondo blanco resulta el color negro). El mo<strong>de</strong>lo CMYK trabaja <strong>en</strong> base a la absorción<br />
<strong>de</strong> la luz. Los colores que se v<strong>en</strong> son <strong>de</strong> la parte <strong>de</strong> la luz que no es absorbida. El cian es<br />
el opuesto al rojo, lo que significa que actúa como un filtro que absorbe dicho color (-R<br />
+G +B). Mag<strong>en</strong>ta es el opuesto al ver<strong>de</strong> (+R -G +B) y amarillo el opuesto al azul (+R<br />
+G -B).<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 17
3. Estado <strong>de</strong>l arte<br />
El mo<strong>de</strong>lo YIQ <strong>de</strong>fine un espacio <strong>de</strong> color, usado antiguam<strong>en</strong>te por el estándar <strong>de</strong><br />
televisión NTSC. La compon<strong>en</strong>te “Y” repres<strong>en</strong>ta la información <strong>de</strong> luminancia y es el<br />
único compon<strong>en</strong>te utilizado por los televisores <strong>de</strong> blanco y negro. “I” y “Q” repres<strong>en</strong>tan<br />
la información <strong>de</strong> crominancia o <strong>de</strong>l color. La luminancia (Y) vi<strong>en</strong>e dada por el brillo <strong>de</strong><br />
un objeto, pudi<strong>en</strong>do producir dos objetos con tonalida<strong>de</strong>s difer<strong>en</strong>tes con la misma<br />
s<strong>en</strong>sación lumínica. La señal <strong>de</strong> luminancia es la cuantificación <strong>de</strong> esa s<strong>en</strong>sación <strong>de</strong><br />
brillo.<br />
Figura 3.4: De izquierda a <strong>de</strong>recha, imag<strong>en</strong> con sus compon<strong>en</strong>tes Y, I y Q.<br />
En la figura 3.4, <strong>de</strong> izquierda a <strong>de</strong>recha, se muestra primero la imag<strong>en</strong> <strong>en</strong> color real,<br />
luego se muestra la imag<strong>en</strong> únicam<strong>en</strong>te con sus valores <strong>de</strong> luminancia Y (brillo <strong>de</strong> la<br />
imag<strong>en</strong>). Luego se muestra la imag<strong>en</strong> con la información <strong>de</strong> crominancia I (naranjaazul)<br />
y la que sigue utiliza los valores <strong>de</strong> crominancia Q (púrpura-ver<strong>de</strong>). La matriz <strong>de</strong><br />
conversión <strong>de</strong>l mo<strong>de</strong>lo RGB al mo<strong>de</strong>lo YIQ se muestra <strong>en</strong> la sigui<strong>en</strong>te ecuación:<br />
0.299 0.587 0.114 <br />
0.595716 274453 321263 <br />
0.211456 .522591 0.311135 <br />
(3.4)<br />
La repres<strong>en</strong>tación YIQ se emplea a veces <strong>en</strong> transformaciones <strong>de</strong> procesami<strong>en</strong>to digital<br />
<strong>de</strong> imág<strong>en</strong>es <strong>en</strong> color. Por ejemplo, aplicando una ecualización <strong>de</strong>l histograma<br />
directam<strong>en</strong>te a los canales <strong>en</strong> una imag<strong>en</strong> RGB se alterarían los colores unos <strong>en</strong> relación<br />
con otro, resultando una imag<strong>en</strong> con colores que no ti<strong>en</strong><strong>en</strong> s<strong>en</strong>tido. En vez <strong>de</strong> ello, si la<br />
ecualización el histograma es aplicada al canal Y <strong>de</strong> la repres<strong>en</strong>tación YIQ <strong>de</strong> la<br />
imag<strong>en</strong>, sólo se normalizan los niveles <strong>de</strong> brillo <strong>de</strong> la imag<strong>en</strong>.<br />
3.1.3. Resolución <strong>de</strong> imág<strong>en</strong>es<br />
La resolución <strong>de</strong> imág<strong>en</strong>es <strong>de</strong>scribe cuánto <strong>de</strong>talle pue<strong>de</strong> observarse <strong>en</strong> una imag<strong>en</strong>. El<br />
término es comúnm<strong>en</strong>te utilizado <strong>en</strong> relación a imág<strong>en</strong>es <strong>de</strong> fotografía digital, pero<br />
también se utiliza para <strong>de</strong>scribir la niti<strong>de</strong>z <strong>de</strong> la misma. T<strong>en</strong>er mayor resolución se<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 18
3. Estado <strong>de</strong>l arte<br />
traduce <strong>en</strong> obt<strong>en</strong>er una imag<strong>en</strong> con más <strong>de</strong>talle o calidad visual y por tanto mayor<br />
información.<br />
Para las imág<strong>en</strong>es digitales almac<strong>en</strong>adas como mapa <strong>de</strong> bits, la conv<strong>en</strong>ción es <strong>de</strong>scribir<br />
la resolución <strong>de</strong> la imag<strong>en</strong> con dos números <strong>en</strong>teros, don<strong>de</strong> el primero es la cantidad <strong>de</strong><br />
columnas <strong>de</strong> píxeles y el segundo es la cantidad <strong>de</strong> filas <strong>de</strong> píxeles. La conv<strong>en</strong>ción que<br />
le sigue <strong>en</strong> popularidad es <strong>de</strong>scribir el número total <strong>de</strong> píxeles <strong>en</strong> la imag<strong>en</strong> (usualm<strong>en</strong>te<br />
expresado como la cantidad <strong>de</strong> megapíxeles), que pue<strong>de</strong> ser calculado multiplicando la<br />
cantidad <strong>de</strong> columnas <strong>de</strong> píxeles por la cantidad <strong>de</strong> filas <strong>de</strong> píxeles.<br />
Figura 3.5: De izquierda a <strong>de</strong>recha, aum<strong>en</strong>to <strong>de</strong> la resolución <strong>de</strong> una imag<strong>en</strong>.<br />
Como se muestra <strong>en</strong> la figura 3.5, el primer cuadro <strong>de</strong> la izquierda posee una resolución<br />
<strong>de</strong> 10x10 (10 columnas y 10 filas <strong>de</strong> píxeles) <strong>en</strong> la que la imag<strong>en</strong> es bastante borrosa y<br />
como se observa <strong>en</strong> las imág<strong>en</strong>es sigui<strong>en</strong>tes hacia la <strong>de</strong>recha, a medida que la resolución<br />
aum<strong>en</strong>ta también aum<strong>en</strong>ta la calidad y la niti<strong>de</strong>z <strong>de</strong> la imag<strong>en</strong>.<br />
3.2. Teoría <strong>de</strong>l vi<strong>de</strong>o<br />
El ví<strong>de</strong>o es la tecnología <strong>de</strong> captación, grabación y reproducción <strong>de</strong> imág<strong>en</strong>es, que nos<br />
permite, al ejecutar estas imág<strong>en</strong>es <strong>en</strong> secu<strong>en</strong>cia, simular movimi<strong>en</strong>to. Existe la<br />
posibilidad <strong>de</strong> que las imág<strong>en</strong>es que compon<strong>en</strong> el ví<strong>de</strong>o estén acompañadas <strong>de</strong> sonido.<br />
Etimológicam<strong>en</strong>te la palabra vi<strong>de</strong>o provi<strong>en</strong>e <strong>de</strong>l verbo latino “vi<strong>de</strong>re”, y significa "yo<br />
veo".<br />
Los comi<strong>en</strong>zos <strong>de</strong>l vi<strong>de</strong>o están relacionados con el int<strong>en</strong>to <strong>de</strong> cubrir las necesida<strong>de</strong>s que<br />
t<strong>en</strong>ía la televisión. En efecto, las primeras trasmisiones televisivas se realizaban <strong>en</strong> vivo<br />
y con la posibilidad <strong>de</strong> grabarlas se facilitaba sobremanera el trabajo <strong>de</strong> programación;<br />
<strong>en</strong> este s<strong>en</strong>tido, los juegos olímpicos <strong>de</strong> Tokio <strong>en</strong> el año 1964 fueron el primer caso <strong>en</strong><br />
que se realiza una transmisión <strong>en</strong> diferido. Ya a finales <strong>de</strong> los años set<strong>en</strong>ta se consolida<br />
<strong>de</strong>finitivam<strong>en</strong>te como una tecnología in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la televisión.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 19
3. Estado <strong>de</strong>l arte<br />
En la actualidad, con la proliferación <strong>de</strong> medios digitales, el uso <strong>de</strong> vi<strong>de</strong>os ha alcanzado<br />
un carácter masivo que difícilm<strong>en</strong>te se haya soñado cuatro décadas atrás. El otro punto<br />
importante a consi<strong>de</strong>rar es el abaratami<strong>en</strong>to <strong>de</strong> los medios tecnológicos <strong>de</strong> grabación,<br />
que se hac<strong>en</strong> cada día más accesibles.<br />
El ví<strong>de</strong>o pue<strong>de</strong> pres<strong>en</strong>tarse <strong>en</strong> distintos formatos, como pue<strong>de</strong>n ser cintas <strong>de</strong> ví<strong>de</strong>o<br />
analógico (VHS, Betamax) o <strong>en</strong> formatos digitales (DVD, MPEG-4). La calidad <strong>de</strong>l<br />
ví<strong>de</strong>o v<strong>en</strong>drá <strong>de</strong>terminada por distintos factores, como el método <strong>de</strong> captura o el tipo <strong>de</strong><br />
almac<strong>en</strong>ami<strong>en</strong>to elegido.<br />
3.2.1. Los estándares <strong>de</strong> ví<strong>de</strong>o analógico<br />
Exist<strong>en</strong> diversos estándares analógicos. El NTSC (Nacional Televisión System Comité)<br />
sigue las especificaciones establecidas <strong>en</strong> 1950 para la introducción <strong>de</strong> la televisión <strong>en</strong><br />
color. Se usa <strong>en</strong> USA y Japón. El PAL (Phase Alternating Line) es el sistema propio <strong>de</strong><br />
Australia, Ori<strong>en</strong>te Medio, Asia y Europa con la excepción <strong>de</strong> Francia que utiliza el<br />
SECAM. Ninguno <strong>de</strong> estos sistemas resulta óptimo para una visualización <strong>en</strong> la pantalla<br />
<strong>de</strong>l or<strong>de</strong>nador a causa <strong>de</strong> algunas difer<strong>en</strong>cias técnicas importantes.<br />
Tamaño <strong>de</strong>l fotograma. Mi<strong>en</strong>tras que <strong>en</strong> la pantalla <strong>de</strong>l televisor conv<strong>en</strong>cional la<br />
imag<strong>en</strong> se forma <strong>en</strong> base a líneas horizontales (525 <strong>en</strong> NTSC y 576 <strong>en</strong> PAL), <strong>en</strong> la<br />
pantalla <strong>de</strong>l or<strong>de</strong>nador se crea <strong>en</strong> base a un mosaico <strong>de</strong> píxeles. Por otra parte, mi<strong>en</strong>tras<br />
la resolución <strong>de</strong>l televisor es fija, la <strong>de</strong> la pantalla <strong>de</strong> or<strong>de</strong>nador es variable y <strong>en</strong> ella los<br />
reescalados <strong>de</strong> la imag<strong>en</strong> pue<strong>de</strong>n ser necesarios.<br />
Fotogramas por segundo (fps). El ví<strong>de</strong>o es <strong>en</strong> es<strong>en</strong>cia una sucesión <strong>de</strong> fotogramas que<br />
al visionarse a una <strong>de</strong>terminada velocidad crea la ilusión <strong>de</strong> movimi<strong>en</strong>to. En NTSC la<br />
frecu<strong>en</strong>cia es <strong>de</strong> 30 fps mi<strong>en</strong>tras que el valor <strong>en</strong> PAL es <strong>de</strong> 25. En aplicaciones<br />
multimedia es frecu<strong>en</strong>te que el ví<strong>de</strong>o se reproduzca a la mitad <strong>de</strong> estos valores.<br />
Píxel Aspect Ratio. Exist<strong>en</strong> difer<strong>en</strong>cias también que atañ<strong>en</strong> a la forma <strong>de</strong>l píxel.<br />
Mi<strong>en</strong>tras <strong>en</strong> una pantalla <strong>de</strong> televisor es rectangular, <strong>en</strong> un monitor informático es<br />
cuadrado. En consecu<strong>en</strong>cia una misma imag<strong>en</strong> pue<strong>de</strong> aparecer <strong>de</strong>formada. En función<br />
<strong>de</strong> cuál sea el <strong>de</strong>stino <strong>de</strong>l ví<strong>de</strong>o será preciso llevar a cabo o no la corrección <strong>de</strong> este<br />
parámetro. Algunas aplicaciones <strong>de</strong> edición <strong>de</strong> ví<strong>de</strong>o llevan a cabo esta comp<strong>en</strong>sación al<br />
mostrar la imag<strong>en</strong> <strong>en</strong> una v<strong>en</strong>tana <strong>de</strong>l monitor. Si el <strong>de</strong>stino final <strong>de</strong>l ví<strong>de</strong>o es la web es<br />
recom<strong>en</strong>dable adaptar los píxeles a unas proporciones <strong>de</strong> 3x4.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 20
3. Estado <strong>de</strong>l arte<br />
Ví<strong>de</strong>o <strong>en</strong>trelazado y progresivo. La imag<strong>en</strong> <strong>de</strong> ví<strong>de</strong>o analógico consiste <strong>en</strong> dos campos<br />
<strong>en</strong>trelazados cuya suma forma un fotograma. La necesidad <strong>de</strong>l <strong>en</strong>trelazado provi<strong>en</strong>e <strong>de</strong><br />
una limitación técnica <strong>de</strong> los inicios <strong>de</strong> la televisión y fue la solución que evitaba que se<br />
produjera excesivo efecto <strong>de</strong> parpa<strong>de</strong>o aún trabajando con una baja frecu<strong>en</strong>cia <strong>de</strong><br />
imag<strong>en</strong>. Con el adv<strong>en</strong>imi<strong>en</strong>to <strong>de</strong>l ví<strong>de</strong>o digital esta característica constituyó un serio<br />
obstáculo <strong>en</strong> la integración <strong>de</strong> formatos analógicos y digitales y no es <strong>de</strong>scartable que <strong>en</strong><br />
el futuro <strong>de</strong>saparezca. De hecho, <strong>en</strong> los nuevos formatos <strong>de</strong> televisión <strong>de</strong> alta <strong>de</strong>finición<br />
se ha eliminado el <strong>en</strong>trelazado.<br />
3.2.2. El paso a ví<strong>de</strong>o digital<br />
La g<strong>en</strong>eralización <strong>de</strong>l ví<strong>de</strong>o digital se ha producido <strong>de</strong> la mano <strong>de</strong>l DV y la posibilidad<br />
<strong>de</strong> editar <strong>en</strong> el or<strong>de</strong>nador. A la facilidad <strong>de</strong> uso <strong>de</strong> las cámaras DV y su notable calidad<br />
<strong>de</strong> imag<strong>en</strong> se un<strong>en</strong> las pot<strong>en</strong>cialida<strong>de</strong>s que se <strong>de</strong>rivan <strong>de</strong> la edición digital. A difer<strong>en</strong>cia<br />
<strong>de</strong> los casos <strong>en</strong> los que la fu<strong>en</strong>te <strong>de</strong> orig<strong>en</strong> es un ví<strong>de</strong>o analógico, el trabajar <strong>en</strong> formato<br />
digital <strong>en</strong> orig<strong>en</strong> elimina la necesidad <strong>de</strong> disponer <strong>de</strong> tarjeta digitalizadora <strong>en</strong> el<br />
or<strong>de</strong>nador. De hecho un simple puerto Firewire, USB o USB-2 permite la transfer<strong>en</strong>cia<br />
<strong>de</strong> datos <strong>en</strong>tre la cámara y el equipo informático. El s<strong>en</strong>tido pue<strong>de</strong> ser también el<br />
inverso cuando se graba el master ya editado <strong>en</strong> una cámara o magnetoscopio externo.<br />
La edición digital recupera <strong>en</strong> cierto modo el espíritu <strong>de</strong> la edición cinematográfica<br />
clásica. Editar un ví<strong>de</strong>o analógico sobre cinta implica no po<strong>de</strong>r cortar y suprimir<br />
secu<strong>en</strong>cias innecesarias, o no po<strong>de</strong>r añadir nuevos planos a una cinta ya editada. Es lo<br />
que <strong>de</strong>nominamos edición lineal que se contrapone a la clásicam<strong>en</strong>te ejercida <strong>en</strong> el cine.<br />
Mi<strong>en</strong>tras <strong>en</strong> éste se corta físicam<strong>en</strong>te el film, se suprim<strong>en</strong> fotogramas o se aña<strong>de</strong>n<br />
librem<strong>en</strong>te, <strong>en</strong> la edición analógica <strong>de</strong>l ví<strong>de</strong>o el mismo procedimi<strong>en</strong>to es imposible. Uno<br />
<strong>de</strong> los gran<strong>de</strong>s cambios aportados por la edición digital es la recuperación <strong>de</strong> la no<br />
linealidad. Trabajar <strong>en</strong> formato digital permite insertar, suprimir, aplicar efectos, sumar<br />
capas,…, sin per<strong>de</strong>r <strong>en</strong> absoluto calidad. En teoría son posibles infinitas g<strong>en</strong>eraciones a<br />
través <strong>de</strong> la exportación y reimportación <strong>de</strong> los clips a un proyecto.<br />
La introducción <strong>de</strong>l or<strong>de</strong>nador como instrum<strong>en</strong>to <strong>de</strong> edición <strong>de</strong> ví<strong>de</strong>o se produjo <strong>en</strong> los<br />
<strong>en</strong>tornos profesionales los últimos años <strong>de</strong>l siglo pasado y se g<strong>en</strong>eralizó para el público<br />
<strong>en</strong> g<strong>en</strong>eral los primeros <strong>de</strong> éste. Los procesos <strong>de</strong> edición digital se han g<strong>en</strong>eralizado y si<br />
bi<strong>en</strong> exist<strong>en</strong> diversas posibilida<strong>de</strong>s <strong>de</strong> software para llevarlos a cabo pue<strong>de</strong> afirmarse<br />
que forman un conjunto <strong>de</strong> procedimi<strong>en</strong>tos y tareas bastante uniforme. En cambio el uso<br />
<strong>de</strong>l ví<strong>de</strong>o editado es ya todo otro tema. Por <strong>de</strong>cirlo <strong>de</strong> algún modo, un campo que se<br />
diversifica y ramifica ampliam<strong>en</strong>te.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 21
3. Estado <strong>de</strong>l arte<br />
3.2.3. Usos <strong>de</strong>l ví<strong>de</strong>o digital<br />
En términos g<strong>en</strong>erales po<strong>de</strong>mos hablar <strong>de</strong> dos gran<strong>de</strong>s tipos <strong>de</strong> salidas y usos.<br />
• El primer grupo lo integran las salidas para teledifusión y soportes que como el<br />
DVD o las cónsolas <strong>de</strong> vi<strong>de</strong>ojuegos no plantean problema por gestionar gran<strong>de</strong>s<br />
volúm<strong>en</strong>es <strong>de</strong> información. En g<strong>en</strong>eral prima <strong>en</strong> ellos una elevada calidad <strong>de</strong><br />
imag<strong>en</strong>, pero quizás el común <strong>de</strong>nominador que más nos interesa ahora es que<br />
<strong>en</strong> ninguno exist<strong>en</strong> problemas <strong>de</strong>rivados <strong>de</strong>l peso <strong>de</strong> los archivos. Que el<br />
material <strong>de</strong> ví<strong>de</strong>o ocupe gigas no reviste mayor importancia que la <strong>de</strong> disponer<br />
<strong>de</strong> un equipo con las prestaciones a<strong>de</strong>cuadas. Una vez realizada la edición y<br />
guardado el master, ya sea <strong>en</strong> cinta, ya sea <strong>en</strong> un soporte óptico, los archivos <strong>de</strong><br />
trabajo se borran <strong>de</strong>l disco duro.<br />
• El segundo grupo se refiere a la salida para multimedia, la web o los dispositivos<br />
móviles. En él se incluy<strong>en</strong> los clips <strong>de</strong>stinados a ser reproducidos <strong>en</strong> un<br />
or<strong>de</strong>nador, ya sea a través <strong>de</strong> un soporte óptico o sea a través <strong>de</strong> la web, y los<br />
<strong>de</strong>stinados a dispositivos como los teléfonos móviles o las PDAs.<br />
3.2.4. Co<strong>de</strong>cs y métodos <strong>de</strong> compresión<br />
Có<strong>de</strong>c es una abreviatura <strong>de</strong> Codificador-Decodificador. Describe una especificación<br />
<strong>de</strong>sarrollada <strong>en</strong> software, hardware o una combinación <strong>de</strong> ambos, capaz <strong>de</strong> transformar<br />
un archivo con un flujo <strong>de</strong> datos o una señal. Los có<strong>de</strong>cs pue<strong>de</strong>n codificar el flujo o la<br />
señal (a m<strong>en</strong>udo para la transmisión, el almac<strong>en</strong>aje o el cifrado) y recuperarlo o<br />
<strong>de</strong>scifrarlo <strong>de</strong>l mismo modo para la reproducción o la manipulación <strong>en</strong> un formato más<br />
apropiado para estas operaciones. Los có<strong>de</strong>cs son usados a m<strong>en</strong>udo <strong>en</strong><br />
vi<strong>de</strong>oconfer<strong>en</strong>cias y emisiones <strong>de</strong> medios <strong>de</strong> comunicación.<br />
Un có<strong>de</strong>c <strong>de</strong> vi<strong>de</strong>o es un tipo <strong>de</strong> có<strong>de</strong>c que permite comprimir y <strong>de</strong>scomprimir vi<strong>de</strong>o<br />
digital. Normalm<strong>en</strong>te los algoritmos <strong>de</strong> compresión empleados conllevan una pérdida <strong>de</strong><br />
información.<br />
El problema que se pret<strong>en</strong><strong>de</strong> acometer con los có<strong>de</strong>c es que la información <strong>de</strong> vi<strong>de</strong>o es<br />
bastante ing<strong>en</strong>te <strong>en</strong> relación a lo que un or<strong>de</strong>nador normal es capaz <strong>de</strong> manejar. Es así<br />
como un par <strong>de</strong> segundos <strong>de</strong> vi<strong>de</strong>o <strong>en</strong> una resolución ap<strong>en</strong>as aceptable pue<strong>de</strong> ocupar un<br />
lugar respetable <strong>en</strong> un medio <strong>de</strong> almac<strong>en</strong>ami<strong>en</strong>to típico (disco duro, CD, DVD) y su<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 22
3. Estado <strong>de</strong>l arte<br />
manejo (copia, edición, visualización) pue<strong>de</strong> llevar fácilm<strong>en</strong>te a sobrepasar las<br />
posibilida<strong>de</strong>s <strong>de</strong> dicho or<strong>de</strong>nador o llevarlo a su límite.<br />
La finalidad <strong>de</strong> los có<strong>de</strong>c es obt<strong>en</strong>er un almac<strong>en</strong>ami<strong>en</strong>to substancialm<strong>en</strong>te m<strong>en</strong>or <strong>de</strong> la<br />
información <strong>de</strong> ví<strong>de</strong>o. Esta se comprime <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> guardar la información hacia<br />
un archivo y se <strong>de</strong>scomprime, <strong>en</strong> tiempo real, <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> la visualización. Se<br />
pret<strong>en</strong><strong>de</strong>, por otro lado, que éste sea un proceso transpar<strong>en</strong>te para el usuario, es <strong>de</strong>cir,<br />
que éste no interv<strong>en</strong>ga o lo haga lo m<strong>en</strong>os posible.<br />
Existe un complicado equilibrio <strong>en</strong>tre la calidad <strong>de</strong> vi<strong>de</strong>o, la cantidad <strong>de</strong> datos<br />
necesarios para repres<strong>en</strong>tarlo (también conocida como tasa <strong>de</strong> bits), la complejidad <strong>de</strong><br />
los algoritmos <strong>de</strong> codificación y <strong>de</strong>codificación, la robustez fr<strong>en</strong>te a las pérdidas <strong>de</strong><br />
datos y errores, la facilidad <strong>de</strong> edición, la posibilidad <strong>de</strong> acce<strong>de</strong>r directam<strong>en</strong>te a los<br />
frames, y otros factores.<br />
Básicam<strong>en</strong>te exist<strong>en</strong> dos métodos <strong>de</strong> compresión, la <strong>de</strong>nominada compresión espacial y<br />
la temporal. En la espacial se reduce la información comprimi<strong>en</strong>do la exist<strong>en</strong>te <strong>en</strong> el<br />
interior <strong>de</strong> cada frame. En lugar <strong>de</strong> <strong>de</strong>scribir la imag<strong>en</strong> píxel a píxel, señalando por<br />
ejemplo la posición y color <strong>de</strong> los píxeles, el có<strong>de</strong>c <strong>de</strong> compresión g<strong>en</strong>eraliza<br />
<strong>de</strong>scribi<strong>en</strong>do área similares y sus características <strong>de</strong> luz y color. Así por ejemplo, <strong>en</strong><br />
lugar <strong>de</strong> reproducir un cielo azul píxel a píxel se <strong>de</strong>scribiría el mismo como un área con<br />
características <strong>de</strong> luz y color similares. Una conclusión clara es que cuantos m<strong>en</strong>os<br />
<strong>de</strong>talles variados pres<strong>en</strong>te una imag<strong>en</strong> más fácilm<strong>en</strong>te el có<strong>de</strong>c podrá g<strong>en</strong>eralizar y<br />
comprimir. Crear ví<strong>de</strong>os con fondos simples facilita la compresión y la reducción, <strong>de</strong>l<br />
mismo modo que trabajar con trípo<strong>de</strong> <strong>en</strong> lugar <strong>de</strong> cámara <strong>en</strong> mano supone estabilizar los<br />
fondos y por lo tanto facilitar la compresión posterior.<br />
En la compresión temporal se compara la información <strong>en</strong>tre frames consecutivos y<br />
únicam<strong>en</strong>te se almac<strong>en</strong>an los <strong>de</strong>talles que varían. Si el cielo azul <strong>de</strong>l ejemplo anterior<br />
fuera atravesado por un pájaro <strong>en</strong> vuelo, aplicar una compresión temporal a la secu<strong>en</strong>cia<br />
implicaría <strong>de</strong>scribir únicam<strong>en</strong>te los píxeles que varias<strong>en</strong> <strong>en</strong> cada fotograma. Se podría<br />
prescindir <strong>de</strong> la información <strong>de</strong>l cielo y relacionar únicam<strong>en</strong>te la <strong>de</strong>l animal. No<br />
obstante es claro que la compresión temporal precisa también <strong>de</strong>scribir algunos<br />
fotogramas sin comprimir, <strong>en</strong> el ejemplo anterior el primero <strong>de</strong> la serie, pongamos por<br />
caso. Los fotogramas <strong>de</strong> refer<strong>en</strong>cia a partir <strong>de</strong> los cuáles se analizan las difer<strong>en</strong>cias y se<br />
sust<strong>en</strong>tan los posteriores se <strong>de</strong>nominan fotogramas clave y conti<strong>en</strong><strong>en</strong> la imag<strong>en</strong><br />
completa. Por el contrario, los fotogramas que reflejan las difer<strong>en</strong>cias se <strong>de</strong>nominan<br />
<strong>de</strong>lta frames y sólo conti<strong>en</strong><strong>en</strong> la información <strong>de</strong> las áreas que varían respecto <strong>de</strong> las<br />
imág<strong>en</strong>es anteriores.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 23
3. Estado <strong>de</strong>l arte<br />
En g<strong>en</strong>eral, como ya hemos apuntado anteriorm<strong>en</strong>te, los ví<strong>de</strong>os que pres<strong>en</strong>tan pocos<br />
cambios <strong>en</strong>tre fotogramas se comprim<strong>en</strong> mejor y ello afecta necesariam<strong>en</strong>te a la<br />
realización. Actualm<strong>en</strong>te tanto la realización televisiva como la cinematográfica ti<strong>en</strong><strong>de</strong>n<br />
al uso <strong>de</strong> la cámara <strong>en</strong> movimi<strong>en</strong>to. No únicam<strong>en</strong>te panorámicas, travellings y zooms,<br />
sino también filmaciones con “steadycam” (o su emulación como la función<br />
“steadyshot” <strong>de</strong> los equipos domésticos) e incluso filmaciones cámara <strong>en</strong> mano.<br />
Para solucionar este tipo <strong>de</strong> problemas se utilizan algunos có<strong>de</strong>cs como los Sor<strong>en</strong>son o<br />
los MPEG que ti<strong>en</strong><strong>en</strong> capacidad para tratar a<strong>de</strong>cuadam<strong>en</strong>te movimi<strong>en</strong>tos mo<strong>de</strong>rados <strong>de</strong><br />
la cámara y comp<strong>en</strong>sar por ejemplo los cambios para lograr panorámicas sin saltos. De<br />
todos modos, el campo <strong>de</strong> estudio que relaciona los dos extremos <strong>de</strong> la ca<strong>de</strong>na <strong>de</strong><br />
trabajo, la realización y la compresión, pres<strong>en</strong>ta un panorama ext<strong>en</strong>so y dilatado <strong>en</strong> el<br />
que hay mucho camino por recorrer.<br />
3.3. Detección <strong>de</strong> objetos <strong>en</strong> primer plano<br />
En procesado <strong>de</strong> imag<strong>en</strong> se <strong>en</strong>ti<strong>en</strong><strong>de</strong> por <strong>de</strong>tección <strong>de</strong> primer plano al conjunto <strong>de</strong><br />
técnicas que ti<strong>en</strong><strong>en</strong> por objetivo <strong>de</strong>tectar objetos <strong>en</strong> movimi<strong>en</strong>to que aparec<strong>en</strong> <strong>en</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o sobre la que se trabaja.<br />
Actualm<strong>en</strong>te, el uso <strong>de</strong> sistemas intelig<strong>en</strong>tes <strong>de</strong> análisis <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> vi<strong>de</strong>o está cada<br />
vez más pres<strong>en</strong>te <strong>en</strong> una gran variedad <strong>de</strong> sistemas: vi<strong>de</strong>o-vigilancia [3,4], in<strong>de</strong>xación<br />
<strong>de</strong> cont<strong>en</strong>idos [5], cine y TV [6], compresión <strong>de</strong> vi<strong>de</strong>o [7]. Debido a la creci<strong>en</strong>te<br />
cantidad <strong>de</strong> información visual g<strong>en</strong>erada por las cámaras y s<strong>en</strong>sores <strong>de</strong> estos sistemas,<br />
es necesario <strong>de</strong>sarrollar herrami<strong>en</strong>tas <strong>de</strong> análisis automático, que oper<strong>en</strong> <strong>en</strong> tiempo real<br />
<strong>en</strong> ciertos dominios <strong>de</strong> aplicación (por ejemplo, vi<strong>de</strong>o-vigilancia), que permitan extraer<br />
las regiones <strong>de</strong> interés <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada. En este contexto, el primer<br />
problema es la localización <strong>de</strong> la región don<strong>de</strong> suce<strong>de</strong> algo relevante. Esta operación<br />
suele conocerse como segm<strong>en</strong>tación.<br />
El objetivo <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong> objetos habitualm<strong>en</strong>te consiste <strong>en</strong> difer<strong>en</strong>ciar los<br />
objetos <strong>en</strong> movimi<strong>en</strong>to <strong>de</strong>l primer plano (fr<strong>en</strong>te o “foreground”) <strong>de</strong> una imag<strong>en</strong>, <strong>de</strong>l<br />
resto <strong>de</strong> los objetos o fondo (“background”). En el caso <strong>de</strong> una esc<strong>en</strong>a grabada por una<br />
cámara fija, las técnicas <strong>de</strong> segm<strong>en</strong>tación más eficaces son las basadas <strong>en</strong> el mo<strong>de</strong>lado y<br />
posterior substracción <strong>de</strong>l fondo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 24
3. Estado <strong>de</strong>l arte<br />
La segm<strong>en</strong>tación automática <strong>de</strong> objetos pres<strong>en</strong>ta múltiples complicaciones, si<strong>en</strong>do una<br />
<strong>de</strong> las tareas más complicadas <strong>de</strong>ntro <strong>de</strong>l procesado <strong>de</strong> vi<strong>de</strong>o. Algunos <strong>de</strong> los problemas<br />
más <strong>de</strong>stacados son los sigui<strong>en</strong>tes:<br />
Mo<strong>de</strong>lo <strong>de</strong> fondo actualizable: El mo<strong>de</strong>lo <strong>de</strong> fondo utilizado para <strong>de</strong>tectar los<br />
objetos <strong>de</strong>be po<strong>de</strong>r evolucionar junto con la secu<strong>en</strong>cia, con el fin <strong>de</strong> adaptarse a<br />
los cambios observados <strong>en</strong> ella, como pue<strong>de</strong>n ser los cambios <strong>de</strong> iluminación o<br />
la <strong>de</strong>t<strong>en</strong>ción <strong>de</strong> objetos <strong>de</strong> primer plano <strong>en</strong> el fondo, situación <strong>en</strong> que el objeto <strong>de</strong><br />
primer plano pasaría a ser un objeto inmóvil <strong>de</strong> fondo.<br />
Reducir falsas <strong>de</strong>tecciones <strong>de</strong> primer plano / maximizar las <strong>de</strong>tecciones<br />
correctas: Debido a que la estimación <strong>de</strong> la distribución estadística <strong>de</strong>l fondo<br />
ti<strong>en</strong>e como objetivo calcular la probabilidad <strong>de</strong> que una nueva muestra<br />
pert<strong>en</strong>ezca a este mo<strong>de</strong>lo, es muy importante elegir correctam<strong>en</strong>te un umbral <strong>de</strong><br />
<strong>de</strong>cisión que permita discernir <strong>en</strong>tre primer plano y fondo. Pero también hay<br />
otras técnicas que consigu<strong>en</strong> el mismo objetivo, como son incluir información<br />
espacial <strong>en</strong> los mo<strong>de</strong>los <strong>de</strong> fondo.<br />
Eliminar sombras o brillos <strong>de</strong> las <strong>de</strong>tecciones <strong>de</strong> primer plano:<br />
In<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te <strong>de</strong>l método <strong>de</strong> <strong>de</strong>tección <strong>de</strong> primer plano, <strong>de</strong>bido a que los<br />
mo<strong>de</strong>los están <strong>basado</strong>s <strong>en</strong> el color, es fácil <strong>de</strong>tectar erróneam<strong>en</strong>te sombras <strong>de</strong><br />
objetos o brillos, pudiéndose aplicar otros algoritmos para disminuir la aparición<br />
<strong>de</strong> estas falsas <strong>de</strong>tecciones.<br />
Fondos multimodales: Son los que po<strong>de</strong>mos <strong>en</strong>contrar <strong>en</strong> secu<strong>en</strong>cias con<br />
objetos <strong>en</strong> movimi<strong>en</strong>to l<strong>en</strong>to y/o periódico (movimi<strong>en</strong>to <strong>de</strong> las hojas <strong>de</strong> los<br />
árboles, movimi<strong>en</strong>to ondulatorio <strong>de</strong>l agua,…) y que, <strong>de</strong>s<strong>de</strong> una perspectiva<br />
semántica, habitualm<strong>en</strong>te se consi<strong>de</strong>ra que pert<strong>en</strong>ec<strong>en</strong> al fondo <strong>de</strong> la esc<strong>en</strong>a.<br />
Camuflaje: Este efecto aparece cuando los objetos <strong>de</strong>l primer plano pose<strong>en</strong> el<br />
mismo color y textura que el fondo; por este motivo, el fr<strong>en</strong>te se confun<strong>de</strong> o<br />
camufla como fondo.<br />
Todo sistema <strong>de</strong> <strong>de</strong>tección <strong>de</strong> objetos <strong>de</strong> primer plano se basa <strong>en</strong> el mo<strong>de</strong>lado <strong>de</strong>l fondo<br />
y la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. El mo<strong>de</strong>lado <strong>de</strong> fondo consiste <strong>en</strong> la elaboración y<br />
actualización <strong>de</strong> un fondo a partir <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o g<strong>en</strong>erada por una cámara y,<br />
la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te es el proceso mediante el cual cada imag<strong>en</strong> <strong>de</strong> un vi<strong>de</strong>o se<br />
compara con el mo<strong>de</strong>lo <strong>de</strong> fondo a fin <strong>de</strong> <strong>de</strong>terminar los píxeles pert<strong>en</strong>eci<strong>en</strong>tes al fondo<br />
y aquellos que son primer plano o fr<strong>en</strong>te. Po<strong>de</strong>mos ver un ejemplo <strong>en</strong> la sigui<strong>en</strong>te<br />
ilustración.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 25
3. Estado <strong>de</strong>l arte<br />
Figura 3.6: Diagrama <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong>tector <strong>de</strong> primer plano g<strong>en</strong>érico.<br />
3.3.1. Mo<strong>de</strong>lado <strong>de</strong>l fondo<br />
El mo<strong>de</strong>lado <strong>de</strong> fondo es una fase es es<strong>en</strong>cial para los algoritmos <strong>de</strong> <strong>de</strong>tección <strong>de</strong><br />
objetos <strong>en</strong> movimi<strong>en</strong>to. Su función es la inicialización, actualización y repres<strong>en</strong>tación<br />
<strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> fondo robusto <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada. El fondo se <strong>de</strong>scribe<br />
mediante un mo<strong>de</strong>lo matemático, para cada píxel <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> cada instante <strong>de</strong><br />
tiempo.<br />
Exist<strong>en</strong> dos tipos <strong>de</strong> fondos: los fondos unimodales y los fondos multimodales. Los<br />
unimodales se dan <strong>en</strong> <strong>en</strong>tornos muy controlados, <strong>en</strong> los que los valores <strong>de</strong> los pixeles<br />
<strong>de</strong>l fondo no cambian a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia, la cámara suele ser estática y no se<br />
produc<strong>en</strong> variaciones <strong>en</strong> la iluminación. Los fondos multimodales <strong>en</strong> cambio se dan <strong>en</strong><br />
<strong>en</strong>tornos m<strong>en</strong>os controlados, <strong>en</strong> los cuales los píxeles <strong>de</strong>l fondo pue<strong>de</strong>n cambiar su<br />
valor <strong>de</strong>bido a cambios <strong>de</strong> iluminación (esc<strong>en</strong>as capturadas al aire libre y a distintas<br />
horas <strong>de</strong>l día) o <strong>de</strong>bido al movimi<strong>en</strong>to <strong>de</strong> los objetos que pert<strong>en</strong>ec<strong>en</strong> al fondo (como<br />
ocurre <strong>en</strong> esc<strong>en</strong>as con árboles agitándose u olas <strong>de</strong> mar).<br />
En la etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fondo se <strong>de</strong>b<strong>en</strong> t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta problemas como pue<strong>de</strong>n ser<br />
los cambios <strong>de</strong> iluminación (graduales y rep<strong>en</strong>tinos), cambios <strong>de</strong> movimi<strong>en</strong>to<br />
(oscilaciones <strong>de</strong> la cámara, movimi<strong>en</strong>to <strong>de</strong> objetos con alta frecu<strong>en</strong>cia,…) o cambios <strong>en</strong><br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 26
3. Estado <strong>de</strong>l arte<br />
la geometría <strong>de</strong>l fondo (por ejemplo coches aparcados). Para int<strong>en</strong>tar solucionar estos<br />
problemas se han <strong>de</strong>sarrollado una gran cantidad <strong>de</strong> algoritmos y así luego po<strong>de</strong>r<br />
realizar una estimación correcta <strong>de</strong> movimi<strong>en</strong>to <strong>en</strong> la secu<strong>en</strong>cia analizada. Se han<br />
investigado diversas técnicas que se expon<strong>en</strong> a continuación:<br />
• Métodos básicos: Los métodos básicos <strong>de</strong> sustracción <strong>de</strong> fondo utilizan mo<strong>de</strong>los<br />
matemáticos s<strong>en</strong>cillos tales como, difer<strong>en</strong>cias <strong>en</strong>tre imág<strong>en</strong>es, promedios,<br />
máximos y mínimos,..etc., que permit<strong>en</strong> mo<strong>de</strong>lar <strong>de</strong> forma simple los píxeles <strong>de</strong><br />
la imag<strong>en</strong> <strong>de</strong> fondo.<br />
o Difer<strong>en</strong>cia <strong>de</strong> imág<strong>en</strong>es: [11] Utiliza únicam<strong>en</strong>te la imag<strong>en</strong> anterior<br />
como mo<strong>de</strong>lo <strong>de</strong> fondo. Este método solo funciona bajo <strong>de</strong>terminadas<br />
condiciones <strong>de</strong> velocidad <strong>de</strong> objetos y velocidad <strong>de</strong> frames (fps). La<br />
<strong>de</strong>tección es muy <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l umbral (Th) que seleccionemos.<br />
| frame i - frame i-1 | > Th (3.5)<br />
o Método average o median: [12] El fondo es calculado como la media o<br />
la mediana <strong>de</strong> los previos ‘n’ frames <strong>en</strong> la secu<strong>en</strong>cia. El problema <strong>de</strong> esta<br />
estimación es la consecu<strong>en</strong>te inclusión <strong>de</strong> objetos <strong>en</strong> movimi<strong>en</strong>to que<br />
pasan a formar parte <strong>de</strong>l background (con el consigui<strong>en</strong>te error <strong>en</strong><br />
posteriores <strong>de</strong>tecciones). Otro problema sería el requerimi<strong>en</strong>to <strong>de</strong><br />
memoria, pues t<strong>en</strong>dremos que almac<strong>en</strong>ar los ‘n’ cuadros anteriores.<br />
o Método running average o actualización progresiva <strong>de</strong> fondo: [13]<br />
Mejora <strong>de</strong>l método average evitando el uso <strong>de</strong> memoria. Sigue la<br />
sigui<strong>en</strong>te fórmula:<br />
B i+1 (i, j) = αF i (i, j) + ( 1- α) B i+1 (i, j) (3.6)<br />
Don<strong>de</strong> típicam<strong>en</strong>te el factor <strong>de</strong> actualización (α) vale 0.05.<br />
o G<strong>en</strong>eración <strong>de</strong> fondo basada <strong>en</strong> histogramas: [61] Se realiza un<br />
histograma <strong>de</strong>l valor <strong>de</strong> cada pixel <strong>en</strong> los últimos ‘n’ frames y nos<br />
fijaremos <strong>en</strong> el histograma <strong>de</strong> cada píxel para <strong>de</strong>terminar si este<br />
pert<strong>en</strong>ece al fondo o a un posible movimi<strong>en</strong>to <strong>de</strong> un objeto, con este<br />
método po<strong>de</strong>mos <strong>de</strong>scartar otros factores como ruido <strong>de</strong> la imag<strong>en</strong>,<br />
cambio <strong>de</strong> luminosidad, etc.<br />
o Método <strong>de</strong> selectividad: Para cada nuevo frame, los píxeles son<br />
clasificados como fondo (“background”) o primer plano (“foreground”).<br />
Si son clasificados como primer plano, <strong>en</strong>tonces no se toman <strong>en</strong> cu<strong>en</strong>ta<br />
para la actualización <strong>de</strong>l fondo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 27
3. Estado <strong>de</strong>l arte<br />
B i+1 (i, j) = αF i (i, j) + ( 1- α) B i+1 (i, j) si F i (i, j) es fondo (3.7)<br />
B i+1 (i, j) = B i (i, j) si F i (i, j) es fondo<br />
• Métodos paramétricos: Los algoritmos <strong>basado</strong>s <strong>en</strong> mo<strong>de</strong>los paramétricos<br />
<strong>de</strong>fin<strong>en</strong> mo<strong>de</strong>los <strong>de</strong> fondo más complejos, que permit<strong>en</strong> cierta tolerancia al ruido<br />
y a pequeñas fluctuaciones. Describ<strong>en</strong> la imag<strong>en</strong> <strong>de</strong> fondo <strong>en</strong> base a parámetros<br />
<strong>de</strong> una distribución <strong>de</strong> probabilidad estándar (usualm<strong>en</strong>te Gaussiana).<br />
o Método Running Gaussian Average: [14] Se int<strong>en</strong>ta ajustar una<br />
distribución gaussiana (µ, σ) sobre el histograma, así obt<strong>en</strong>emos la<br />
función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad <strong>de</strong>l fondo.<br />
o Método Mixture of Gaussianas: [15] Basándonos <strong>en</strong> el método anterior,<br />
consi<strong>de</strong>ramos un ajuste a una mezcla <strong>de</strong> gaussianas pon<strong>de</strong>radas (µ i , σ i ,<br />
ω i ). Con este mo<strong>de</strong>lo podremos hacer fr<strong>en</strong>te a distribuciones<br />
multimodales <strong>de</strong> fondos (backgrounds).<br />
• Métodos no paramétricos: Los mo<strong>de</strong>los no paramétricos también son métodos<br />
complejos <strong>en</strong> los que no se asum<strong>en</strong> distribuciones estándar <strong>de</strong> probabilidad para<br />
mo<strong>de</strong>lar a los píxeles <strong>de</strong> fondo, sino técnicas más g<strong>en</strong>erales, como pue<strong>de</strong>n ser<br />
almac<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los últimos valores <strong>de</strong>l píxel, cálculo <strong>de</strong> rangos <strong>de</strong> valores<br />
<strong>de</strong>l píxel, ajustes <strong>de</strong> funciones <strong>de</strong> predicción, etc.<br />
o Método Kernel D<strong>en</strong>sity Estimators: [16] La función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong><br />
probabilidad (fdp) <strong>de</strong>l fondo la obt<strong>en</strong>emos a través <strong>de</strong>l histograma <strong>de</strong> los<br />
“n” últimos valores, cada uno alisado con un núcleo gaussiano. Si la<br />
fdp(x) > Th, <strong>en</strong>tonces el píxel x es clasificado como background. Este<br />
método implica selectividad y gran<strong>de</strong>s requerimi<strong>en</strong>tos <strong>de</strong> memoria (n *<br />
size(frame)).<br />
o Métodos <strong>basado</strong>s <strong>en</strong> códigos (‘Co<strong>de</strong>books’): [17] Cada píxel <strong>de</strong> fondo Bt<br />
(x, y) pue<strong>de</strong> codificarse por un conjunto <strong>de</strong> valores ‘co<strong>de</strong>words’ que<br />
constituirían un <strong>de</strong>scriptor o ‘Co<strong>de</strong>book’. Al procesar una nueva imag<strong>en</strong><br />
<strong>de</strong> la secu<strong>en</strong>cia, los valores <strong>de</strong> int<strong>en</strong>sidad <strong>de</strong> los píxeles se comparan con<br />
los que forman su ‘Co<strong>de</strong>book’ mediante difer<strong>en</strong>cias <strong>de</strong> color y<br />
luminancia, <strong>de</strong> tal forma que si existe parecido, se estiman y actualizan<br />
los códigos y, si no hay coinci<strong>de</strong>ncia, se inserta el nuevo código.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 28
3. Estado <strong>de</strong>l arte<br />
3.3.2. Detección <strong>de</strong> fr<strong>en</strong>te<br />
La <strong>de</strong>tección <strong>de</strong> primer plano también <strong>de</strong>nominada <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te, compara la<br />
<strong>en</strong>trada con el mo<strong>de</strong>lo <strong>de</strong> fondo e i<strong>de</strong>ntifica los píxeles candidatos a ser objeto <strong>en</strong><br />
movimi<strong>en</strong>to (fr<strong>en</strong>te o primer plano). Esta comparación se pue<strong>de</strong> llevar a cabo por<br />
difer<strong>en</strong>cia y la clasificación <strong>de</strong> los pixeles fijando un umbral que <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la esc<strong>en</strong>a,<br />
el ruido <strong>de</strong> la cámara, y las condiciones <strong>de</strong> iluminación.<br />
Las técnicas <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te son algoritmos s<strong>en</strong>cillos cuando se dispone <strong>de</strong> un<br />
mo<strong>de</strong>lo <strong>de</strong> fondo a<strong>de</strong>cuado a la esc<strong>en</strong>a <strong>de</strong> análisis ya que por comparación <strong>en</strong>tre la<br />
imag<strong>en</strong> actual y fondo se pue<strong>de</strong>n <strong>de</strong>tectar fácilm<strong>en</strong>te los objetos <strong>en</strong> movimi<strong>en</strong>to.<br />
Algunas <strong>de</strong> estas técnicas son las sigui<strong>en</strong>tes:<br />
• Tecnicas basadas <strong>en</strong> difer<strong>en</strong>cia: El método más básico para realizar la<br />
<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te Ft es calculando la difer<strong>en</strong>cia <strong>en</strong>tre dos imág<strong>en</strong>es: los píxeles<br />
cuyos valores <strong>de</strong> difer<strong>en</strong>cia son altos normalm<strong>en</strong>te correspon<strong>de</strong>rán a objetos <strong>en</strong><br />
movimi<strong>en</strong>to.<br />
( I t (x, y) – B t (x, y)) ≤ τ→ F t (x, y) = 0 (3.8)<br />
( I t (x, y) – B t (x, y)) > τ→ F t (x, y) = 1<br />
En la literatura po<strong>de</strong>mos <strong>en</strong>contrar difer<strong>en</strong>tes formas <strong>de</strong> difer<strong>en</strong>cia:<br />
o Difer<strong>en</strong>cia absoluta: [18] La difer<strong>en</strong>cia absoluta <strong>en</strong>tre la imag<strong>en</strong> actual y<br />
la imag<strong>en</strong> <strong>de</strong> fondo proporciona bor<strong>de</strong>s gruesos que son útiles <strong>en</strong><br />
<strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te ya que permit<strong>en</strong> más fácilm<strong>en</strong>te rell<strong>en</strong>ar contornos.<br />
o Difer<strong>en</strong>cia relativa: [19] Consiste <strong>en</strong> aplicar un difer<strong>en</strong>cia <strong>en</strong> función <strong>de</strong><br />
la distribución espacial <strong>de</strong> localización.<br />
o Difer<strong>en</strong>cia normalizada: Otro método <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te que se<br />
realiza aplicando un umbral sobre las estadísticas normalizadas.<br />
o Difer<strong>en</strong>cia basada <strong>en</strong> dos umbrales: [20] Algunos autores, aplican varios<br />
umbrales a la difer<strong>en</strong>cia <strong>en</strong>tre la imag<strong>en</strong> y el fondo para <strong>de</strong>tectar los<br />
objetos <strong>en</strong> movimi<strong>en</strong>to y <strong>de</strong> esta forma, increm<strong>en</strong>tar el grado <strong>de</strong><br />
precisión <strong>en</strong> la <strong>de</strong>tección.<br />
• Técnicas basadas <strong>en</strong> estadísticos: Las técnicas <strong>de</strong> <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te basadas<br />
<strong>en</strong> estadísticos pue<strong>de</strong>n utilizarse si se conoce la función <strong>de</strong>nsidad <strong>de</strong> ruido <strong>de</strong> la<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 29
3. Estado <strong>de</strong>l arte<br />
cámara. Estos métodos, <strong>en</strong> lugar <strong>de</strong> umbralizar la difer<strong>en</strong>cia <strong>de</strong> la imag<strong>en</strong>,<br />
comparan el comportami<strong>en</strong>to estadístico <strong>de</strong> un conjunto <strong>de</strong> valores <strong>de</strong> un píxel<br />
pert<strong>en</strong>eci<strong>en</strong>tes a una serie <strong>de</strong> imág<strong>en</strong>es <strong>de</strong> la secu<strong>en</strong>cia con el píxel <strong>de</strong> la imag<strong>en</strong><br />
actual situado <strong>en</strong> la misma posición que éstos.<br />
Los métodos estadísticos <strong>de</strong>p<strong>en</strong><strong>de</strong>n <strong>de</strong> la distribución con la que se mo<strong>de</strong>le el<br />
fondo, <strong>de</strong> tal forma que cada mo<strong>de</strong>lo <strong>de</strong> fondo utiliza una estrategia difer<strong>en</strong>te<br />
para <strong>de</strong>tectar los píxeles <strong>de</strong> fr<strong>en</strong>te. Por ejemplo:<br />
o Basados <strong>en</strong> una Gaussiana: [14] La imag<strong>en</strong> actual se compara con el mo<strong>de</strong>lo<br />
<strong>de</strong> fondo <strong>de</strong> distribución Gaussiana (µ t , σ t<br />
2 ) mediante la medición <strong>de</strong> la<br />
probabilidad <strong>en</strong> luminancia o color y si la probabilidad es pequeña, el píxel<br />
se clasifica como fr<strong>en</strong>te (Ft = 1), <strong>de</strong> lo contrario, será clasificado como fondo<br />
(Ft = 0).<br />
| I t (x, y) -µ t (x, y) | ≥ cσ t (x, y) → F t (x, y) = 1 (3.9)<br />
| I t (x, y) -µ t (x, y) | < cσ t (x, y) → F t (x, y) = 0<br />
o Basados <strong>en</strong> Mezcla <strong>de</strong> Gaussianas: [15] En una nueva imag<strong>en</strong> procesada, el<br />
valor <strong>de</strong> cada píxel se compara con las k distribuciones que mo<strong>de</strong>lan el píxel<br />
<strong>en</strong> una MoG (µ t , σ t<br />
2 ) a fin <strong>de</strong> <strong>de</strong>cidir si el elem<strong>en</strong>to pert<strong>en</strong>ece al fondo (Ft =<br />
0), recae <strong>de</strong>ntro <strong>de</strong> la Gaussiana k-ésima o al fr<strong>en</strong>te (Ft = 1), si la difer<strong>en</strong>cia<br />
supera la varianza permitida.<br />
<br />
∑ , | It x, y μt x, y, k| t x, y, k Ftx, y 1<br />
<br />
∑ , | It x, y μt x, y, k | cσt x, y, k Ftx, y 0<br />
(3.10)<br />
o Basados <strong>en</strong> la estimación <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> Núcleo e Histogramas: [61] Se<br />
g<strong>en</strong>eran estimaciones <strong>de</strong> probabilidad para cada píxel <strong>en</strong> función <strong>de</strong> los<br />
píxeles almac<strong>en</strong>ados <strong>de</strong> un número <strong>de</strong> imág<strong>en</strong>es anteriores a una procesada,<br />
<strong>de</strong> modo que, un píxel se consi<strong>de</strong>ra primer plano (Ft = 1) si la probabilidad<br />
<strong>de</strong> pert<strong>en</strong>ecer a esta estimación es inferior a un umbral.<br />
f x,y ( imag<strong>en</strong> [ x, y]) > τ → F t (x, y) =0 (3.11)<br />
f x,y ( imag<strong>en</strong> [ x, y]) > τ → F t (x, y) =0<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 30
3. Estado <strong>de</strong>l arte<br />
3.3.3. Seguimi<strong>en</strong>to <strong>de</strong> objetos<br />
El paso inmediatam<strong>en</strong>te posterior a la <strong>de</strong>tección <strong>de</strong> los objetos <strong>en</strong> primer plano (objetos<br />
<strong>en</strong> movimi<strong>en</strong>to) consiste <strong>en</strong> el seguimi<strong>en</strong>to <strong>de</strong> estos objetos. El seguimi<strong>en</strong>to <strong>de</strong> objetos<br />
<strong>en</strong> tiempo real es una tarea crítica <strong>en</strong> muchas aplicaciones como ví<strong>de</strong>o-seguridad,<br />
asist<strong>en</strong>cia al conductor, interfaces <strong>de</strong> usuario perceptuales, compresión <strong>de</strong> vi<strong>de</strong>o basada<br />
<strong>en</strong> objetos, etc.<br />
En un contexto <strong>de</strong> percepción visual, el seguimi<strong>en</strong>to <strong>de</strong> un objeto es, <strong>en</strong> es<strong>en</strong>cia, un<br />
proceso <strong>en</strong> el que se efectúa la <strong>de</strong>tección <strong>de</strong>l objeto u objetos móviles y su<br />
“persecución” a través <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> imág<strong>en</strong>es <strong>de</strong>l <strong>en</strong>torno adquiridas por una o<br />
varias cámaras (estáticas o móviles). El proceso <strong>de</strong> seguimi<strong>en</strong>to pue<strong>de</strong> implicar a<br />
cualquier objeto móvil pres<strong>en</strong>te <strong>en</strong> la esc<strong>en</strong>a, sin reconocer <strong>de</strong> qué objeto se trata o el<br />
seguimi<strong>en</strong>to <strong>de</strong> uno o varios objetos específicos <strong>de</strong>l cual se ti<strong>en</strong>e un mo<strong>de</strong>lo.<br />
Tradicionalm<strong>en</strong>te exist<strong>en</strong> dos aproximaciones para resolver el problema <strong>de</strong>l<br />
seguimi<strong>en</strong>to:<br />
o Las aproximaciones basadas <strong>en</strong> el análisis <strong>de</strong>l cont<strong>en</strong>ido <strong>de</strong> los píxeles:<br />
Estas técnicas <strong>de</strong>terminan las zonas <strong>de</strong> la imag<strong>en</strong> don<strong>de</strong> se produce<br />
movimi<strong>en</strong>to y realizan el seguimi<strong>en</strong>to mediante un análisis <strong>de</strong>l cont<strong>en</strong>ido <strong>de</strong><br />
los píxeles. Ejemplos <strong>de</strong> estas dos aproximaciones son los métodos <strong>basado</strong>s<br />
<strong>en</strong> el análisis <strong>de</strong> movimi<strong>en</strong>tos difer<strong>en</strong>ciales [21] y las técnicas <strong>de</strong> flujo<br />
óptico [22].<br />
o Las aproximaciones basadas <strong>en</strong> mo<strong>de</strong>los: Estas técnicas implican localizar,<br />
<strong>en</strong> cada una <strong>de</strong> las imág<strong>en</strong>es que compon<strong>en</strong> la secu<strong>en</strong>cia, la posición <strong>de</strong>l<br />
objeto móvil <strong>de</strong>l que se dispone <strong>de</strong> un mo<strong>de</strong>lo. Los mo<strong>de</strong>los empleados<br />
suel<strong>en</strong> construirse “a mano”, inducirse a partir <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> <strong>ejemplos</strong><br />
o adquirirse dinámicam<strong>en</strong>te a partir <strong>de</strong>l objeto móvil. Los métodos <strong>basado</strong>s<br />
<strong>en</strong> mo<strong>de</strong>lo incluy<strong>en</strong>: métodos correlacionales [23], métodos <strong>basado</strong>s <strong>en</strong><br />
correspon<strong>de</strong>ncia [24], métodos <strong>de</strong> filtrado [25], métodos <strong>basado</strong>s <strong>en</strong><br />
contornos <strong>de</strong>formables activos [26] y métodos <strong>basado</strong>s <strong>en</strong> filtrado predictivo<br />
[27].<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 31
3. Estado <strong>de</strong>l arte<br />
3.4. Detección y reconocimi<strong>en</strong>to <strong>de</strong><br />
acciones<br />
El concepto <strong>de</strong> análisis <strong>de</strong> movimi<strong>en</strong>to se pue<strong>de</strong> <strong>de</strong>finir, <strong>en</strong>t<strong>en</strong>di<strong>en</strong>do análisis, como la<br />
separación <strong>de</strong> las partes <strong>de</strong> un todo hasta conocer sus principios y/o elem<strong>en</strong>tos, y<br />
movimi<strong>en</strong>to, como “cambio continuo <strong>en</strong> la posición <strong>de</strong> un objeto”. Por lo tanto el<br />
análisis <strong>de</strong> movimi<strong>en</strong>to se pue<strong>de</strong> <strong>de</strong>finir como la búsqueda <strong>de</strong> los elem<strong>en</strong>tos y principios<br />
que permit<strong>en</strong> los continuos cambios <strong>de</strong> posición <strong>de</strong>l cuerpo humano.<br />
El análisis <strong>de</strong> movimi<strong>en</strong>to no es un tema actual, ya <strong>en</strong> la Antigua Grecia, Aristóteles<br />
(348-322 AC) veía el cuerpo <strong>de</strong> los animales como sistemas mecánicos, lo que expuso<br />
<strong>en</strong> su libro “De Motu Animalium”. Sorpr<strong>en</strong><strong>de</strong>nte resulta saber que él ya cuestionaba las<br />
difer<strong>en</strong>cias fisiológicas <strong>en</strong>tre la acción imaginada y la <strong>de</strong>sarrollada. Mil años <strong>de</strong>spués,<br />
Leonardo Da Vinci (1452-1519) <strong>de</strong>scribiría la mecánica <strong>de</strong> la bipe<strong>de</strong>stación, marcha <strong>en</strong><br />
<strong>de</strong>sc<strong>en</strong>so y asc<strong>en</strong>so, levantami<strong>en</strong>to <strong>de</strong>s<strong>de</strong> s<strong>en</strong>tado y salto, <strong>en</strong> sus dibujos anatómicos.<br />
Ci<strong>en</strong> años <strong>de</strong>spués, Galileo Galilei (1564-1643) haría los primeros int<strong>en</strong>tos por analizar<br />
matemáticam<strong>en</strong>te la función fisiológica y Borelli (1608-1679) apoyado <strong>en</strong> dicho trabajo<br />
dibujó fuera <strong>de</strong> las articulaciones las fuerzas requeridas para el equilibrio <strong>de</strong>l cuerpo.<br />
Algo más tar<strong>de</strong> Newton publicó las “Leyes <strong>de</strong>l Movimi<strong>en</strong>to” y <strong>de</strong>terminó la posición<br />
<strong>de</strong>l c<strong>en</strong>tro <strong>de</strong> gravedad humano. Muybridge (1830-1904) es el primero <strong>en</strong> disecar el<br />
movimi<strong>en</strong>to humano y animal, a través <strong>de</strong> una secu<strong>en</strong>cia fotográfica, luego Marey<br />
(1830-1904) utilizaría ci<strong>en</strong>tíficam<strong>en</strong>te esta técnica para correlacionarla con la fuerza <strong>de</strong><br />
reacción <strong>de</strong>l suelo, hito que marca el inicio <strong>de</strong>l Análisis <strong>de</strong> Movimi<strong>en</strong>to Mo<strong>de</strong>rno.<br />
Actualm<strong>en</strong>te los vi<strong>de</strong>os se crean y se propagan muy fácilm<strong>en</strong>te por los medios <strong>de</strong><br />
comunicación y están al servicio <strong>de</strong>l <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to, <strong>de</strong> la comunicación y otros fines.<br />
La <strong>de</strong>manda asociada <strong>de</strong> extraer las gran<strong>de</strong>s colecciones <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o realistas<br />
motiva a ir más lejos <strong>en</strong> la investigación para el <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to automático <strong>de</strong> ví<strong>de</strong>o. Es<br />
<strong>de</strong> gran interés práctico y ci<strong>en</strong>tífico compr<strong>en</strong><strong>de</strong>r los movimi<strong>en</strong>tos articulados cuerpo,<br />
especialm<strong>en</strong>te los <strong>de</strong>l cuerpo humano. Des<strong>de</strong> la visión <strong>de</strong> la computación, una cuestión<br />
interesante es como repres<strong>en</strong>tar y reconocer los difer<strong>en</strong>tes tipos <strong>de</strong> movimi<strong>en</strong>tos<br />
humanos con mo<strong>de</strong>los eficaces.<br />
Imagínese un ví<strong>de</strong>o tomado una playa soleada, don<strong>de</strong> hay g<strong>en</strong>te jugando al voleibol <strong>de</strong><br />
playa, unos hac<strong>en</strong> surf, y otros dan un paseo a lo largo <strong>de</strong> la playa. ¿Automáticam<strong>en</strong>te<br />
pue<strong>de</strong> un or<strong>de</strong>nador <strong>de</strong>cirnos qué pasa <strong>en</strong> la esc<strong>en</strong>a? ¿Pue<strong>de</strong> i<strong>de</strong>ntificar difer<strong>en</strong>tes<br />
acciones humanas? Actualm<strong>en</strong>te se está estudiando el problema <strong>de</strong> <strong>de</strong>tección y la<br />
clasificación <strong>de</strong> la acción humana <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 32
3. Estado <strong>de</strong>l arte<br />
La tarea <strong>de</strong> clasificación automática y localización <strong>de</strong> acciones humanas <strong>en</strong> secu<strong>en</strong>cias<br />
<strong>de</strong> ví<strong>de</strong>o es sumam<strong>en</strong>te interesante para una gran variedad <strong>de</strong> aplicaciones:<br />
<strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s relevantes <strong>en</strong> ví<strong>de</strong>os <strong>de</strong> vigilancia, resumi<strong>en</strong>do e<br />
in<strong>de</strong>xando secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, organizando una biblioteca digital <strong>de</strong> ví<strong>de</strong>o según las<br />
acciones relevantes, etc. Sigue si<strong>en</strong>do, sin embargo, un problema difícil para los<br />
or<strong>de</strong>nadores lograr el reconocimi<strong>en</strong>to robusto <strong>de</strong> acción <strong>de</strong>bido al fondo <strong>de</strong>sor<strong>de</strong>nado, el<br />
movimi<strong>en</strong>to <strong>de</strong> cámara, la oclusión, cambios <strong>de</strong> punto <strong>de</strong> vista, y las variaciones<br />
geométricas y fotométricas <strong>de</strong> objetos.<br />
En este apartado vamos a com<strong>en</strong>tar algunos <strong>de</strong> los sistemas o algoritmos, que po<strong>de</strong>mos<br />
<strong>en</strong>contrar <strong>en</strong> la literatura, que trabajan <strong>en</strong> sobre el problema <strong>de</strong> la <strong>de</strong>tección y<br />
reconocimi<strong>en</strong>to <strong>de</strong> las acciones humanas.<br />
3.4.1. “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance<br />
for Human Action Classification”<br />
En el docum<strong>en</strong>to “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human Action<br />
Classification” [28] se pres<strong>en</strong>ta un mo<strong>de</strong>lo para caracterizar las acciones humanas, <strong>en</strong><br />
particular, se propone un mo<strong>de</strong>lo que ti<strong>en</strong>e <strong>en</strong> cu<strong>en</strong>ta tanto rasgos estáticos como<br />
dinámicos <strong>de</strong>l movimi<strong>en</strong>to humano [29,30]. Una secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o se repres<strong>en</strong>ta como<br />
una colección <strong>de</strong> características espaciales y espacio-temporales mediante la extracción<br />
<strong>de</strong> puntos estáticos y dinámicos <strong>de</strong> interés.<br />
La utilización <strong>de</strong> las mejores características para <strong>de</strong>scribir la postura y el movimi<strong>en</strong>to ha<br />
sido un tema ampliam<strong>en</strong>te estudiado <strong>en</strong> los últimos años. Por lo g<strong>en</strong>eral, hay tres tipos<br />
<strong>de</strong> rasgos más utilizados: rasgos estáticos <strong>basado</strong>s <strong>en</strong> bor<strong>de</strong>s y la forma <strong>de</strong> los miembros<br />
[31], rasgos dinámicos <strong>basado</strong>s <strong>en</strong> flujos ópticos [32], y los rasgos espacio-temporales<br />
que caracterizan un volum<strong>en</strong> espacio-temporal <strong>de</strong> los datos [29,33]. Las características<br />
espacio-temporales han <strong>de</strong>mostrado ser especialm<strong>en</strong>te prometedoras <strong>en</strong> la marcha para<br />
la compr<strong>en</strong>sión <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong>bido a su rico po<strong>de</strong>r <strong>de</strong>scriptivo. Pero por otro lado,<br />
si sólo <strong>de</strong>p<strong>en</strong><strong>de</strong>mos <strong>de</strong> estas características significa que únicam<strong>en</strong>te se podría<br />
caracterizar los movimi<strong>en</strong>tos <strong>en</strong> los ví<strong>de</strong>os. Sin embargo si nos basamos <strong>en</strong> la<br />
experi<strong>en</strong>cia <strong>de</strong> la vida cotidiana, nos damos cu<strong>en</strong>ta que los seres humanos pue<strong>de</strong>n<br />
reconocer perfectam<strong>en</strong>te un movimi<strong>en</strong>to basándose <strong>en</strong> un solo gesto. Por lo tanto <strong>en</strong><br />
este trabajo se propone el uso híbrido <strong>de</strong> rasgos <strong>de</strong> forma estáticos así como rasgos<br />
espaciales temporales.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 33
3. Estado <strong>de</strong>l arte<br />
Por otro lado para objetos estructurados como el cuerpo humano, es importante mo<strong>de</strong>lar<br />
la relación geométrica mutua <strong>en</strong>tre las difer<strong>en</strong>tes partes. Los mo<strong>de</strong>los <strong>de</strong> constelación<br />
ofrec<strong>en</strong> una solución <strong>de</strong> este tipo [30]. Lam<strong>en</strong>tablem<strong>en</strong>te, <strong>de</strong>bido a la complejidad<br />
computacional <strong>de</strong>l mo<strong>de</strong>lo, sólo se pue<strong>de</strong> utilizar un número muy reducido <strong>de</strong><br />
características. Otro <strong>en</strong>foque es per<strong>de</strong>r toda la información geométrica y consi<strong>de</strong>rar los<br />
mo<strong>de</strong>los <strong>de</strong> “bag of words”. Estos han resultado ser sumam<strong>en</strong>te efici<strong>en</strong>tes y eficaces <strong>en</strong><br />
la clasificación <strong>de</strong> objetos y <strong>de</strong>l movimi<strong>en</strong>to humano. En el docum<strong>en</strong>to se propone un<br />
método <strong>de</strong> explotar a ambos, el po<strong>de</strong>r geométrico <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación así como<br />
la riqueza <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> “bag of words”. Reconoci<strong>en</strong>do el límite computacional <strong>de</strong><br />
t<strong>en</strong>er un número muy pequeño <strong>de</strong> partes totalm<strong>en</strong>te conectadas <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong><br />
constelación. Pero <strong>en</strong> vez <strong>de</strong> aplicarse esto directam<strong>en</strong>te <strong>en</strong> los rasgos <strong>de</strong> la imag<strong>en</strong>, se<br />
adjunta el mo<strong>de</strong>lo <strong>de</strong> “bag of words” a cada parte <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación. La<br />
repres<strong>en</strong>tación g<strong>en</strong>eral incorpora un mo<strong>de</strong>lo jerárquico que combina un mo<strong>de</strong>lo <strong>de</strong><br />
constelación <strong>de</strong> pocas partes con mo<strong>de</strong>los <strong>de</strong> “bag of words” con un número gran<strong>de</strong> y<br />
flexible <strong>de</strong> rasgos.<br />
En la versión más simple, el mo<strong>de</strong>lo costa <strong>de</strong> dos niveles jerárquicos. La capa superior<br />
esta cercana <strong>en</strong> forma a las condiciones <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> constelación, se compone <strong>de</strong> un<br />
conjunto <strong>de</strong> P partes cuya posición está repres<strong>en</strong>tada por una <strong>de</strong>nsidad Gaussiana <strong>de</strong> sus<br />
posiciones relativas. Cada una <strong>de</strong> las partes P p (p = 1... P) está conectada a N p rasgos <strong>de</strong><br />
imag<strong>en</strong> <strong>en</strong> el nivel inferior, y a su vez está asociado a las distribuciones <strong>de</strong> aparición y<br />
ubicación relativa <strong>de</strong> las características que se le asign<strong>en</strong>. En otras palabras, la capa<br />
superior es una constelación <strong>de</strong> partes, y cada una <strong>de</strong> estas partes se asocia a una "bolsa<br />
<strong>de</strong> características" <strong>en</strong> la capa inferior. Debido a sus limitaciones geométricas, este<br />
mo<strong>de</strong>lo es conv<strong>en</strong>i<strong>en</strong>te para capturar configuraciones <strong>de</strong> cuerpo similares o posturas.<br />
Tras la observación <strong>de</strong> que las acciones humanas son el resultado <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong><br />
posturas, que surg<strong>en</strong> <strong>de</strong> unos pocos conjuntos <strong>de</strong> configuraciones <strong>de</strong> cuerpo similares,<br />
se llega a la conclusión <strong>de</strong> que una única acción está mejor repres<strong>en</strong>tada como una<br />
distribución multimodal <strong>de</strong> forma y apari<strong>en</strong>cia. Para t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta esta<br />
multimodalidad, se usa una mezcla <strong>de</strong> mo<strong>de</strong>los jerárquicos, don<strong>de</strong> cada uno <strong>de</strong> los<br />
compon<strong>en</strong>tes correspon<strong>de</strong> a una serie <strong>de</strong> poses que se agrupan según su semejanza.<br />
Consi<strong>de</strong>rando un nuevo frame <strong>de</strong> ví<strong>de</strong>o y los mo<strong>de</strong>los apr<strong>en</strong>didos para cada clase <strong>de</strong><br />
acción, la tarea es clasificar los nuevos datos que pert<strong>en</strong>ec<strong>en</strong> a uno <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong><br />
acción. Suponga que se ti<strong>en</strong>e C números <strong>de</strong> clases. Se calcula la probabilidad <strong>de</strong><br />
observar los datos <strong>de</strong> imag<strong>en</strong> dados que han sido g<strong>en</strong>erados <strong>de</strong> cada clase C. Esto<br />
produce un vector <strong>de</strong> características C-dim<strong>en</strong>sional <strong>de</strong> la <strong>en</strong>trada <strong>en</strong> el espacio mo<strong>de</strong>lo.<br />
Se calcula este vector <strong>de</strong> rasgos para cada ejemplo <strong>en</strong> un conjunto <strong>de</strong> validación, y se<br />
usa para <strong>en</strong>tr<strong>en</strong>ar un clasificador discriminatorio. Por lo tanto, una <strong>de</strong>cisión <strong>de</strong><br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 34
3. Estado <strong>de</strong>l arte<br />
clasificación se hace primero calculando la probabilidad <strong>de</strong> la <strong>en</strong>trada según cada uno<br />
<strong>de</strong> los C mo<strong>de</strong>los <strong>de</strong> acción, y luego categorizando este vector <strong>de</strong> características C-<br />
dim<strong>en</strong>sional usando el clasificador discriminativo.<br />
A<strong>de</strong>más, las <strong>de</strong>cisiones pue<strong>de</strong>n ser hechas sobre una gama <strong>de</strong> frames <strong>de</strong> ví<strong>de</strong>o<br />
adoptando una estrategia <strong>de</strong> bolso-<strong>de</strong>-frames. Primero, cada frame es clasificado por<br />
separado, y se le asigna un voto a favor <strong>de</strong> una clase <strong>de</strong> acción. La secu<strong>en</strong>cia completa<br />
<strong>de</strong> ví<strong>de</strong>o es clasificada por ser la categoría que reune la mayoría <strong>de</strong> los votos.<br />
En resum<strong>en</strong> el objetivo <strong>de</strong> este <strong>en</strong>foque es conseguir un mo<strong>de</strong>lo jerárquico que pue<strong>de</strong><br />
caracterizarse como una constelación <strong>de</strong> bolsas <strong>de</strong> características y que es capaz <strong>de</strong><br />
combinar características espaciales y espacial-temporales cuya finalidad es apr<strong>en</strong><strong>de</strong>r y<br />
clasificar las difer<strong>en</strong>tes categorías <strong>de</strong> movimi<strong>en</strong>to humano.<br />
3.4.2. “Unsupervised Learning of Human Action<br />
Categories Using Spatial-TemporalWords”<br />
En el trabajo “Unsupervised Learning of Human Action Categories Using Spatial-<br />
TemporalWords” [34] se quiere diseñar un algoritmo que permite a la computadora<br />
apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los <strong>de</strong> las acciones humanas. Entonces, dado un nuevo ví<strong>de</strong>o, el<br />
algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir qué acción humana está pres<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia.<br />
A<strong>de</strong>más, se quiere buscar el medio <strong>de</strong> proporcionar una indicación preliminar <strong>de</strong> don<strong>de</strong><br />
está (<strong>en</strong> el espacio y el tiempo) si<strong>en</strong>do realizada la acción.<br />
El fondo <strong>de</strong>sor<strong>de</strong>nado, el movimi<strong>en</strong>to <strong>de</strong> cámara, la oclusión, los cambios <strong>de</strong> punto <strong>de</strong><br />
vista, y las variaciones geométricas y fotométricas <strong>de</strong> objetos son problemas que causan<br />
que pocos algoritmos <strong>de</strong> visión puedan i<strong>de</strong>ntificar, clasificar y localizar los<br />
movimi<strong>en</strong>tos <strong>de</strong> forma a<strong>de</strong>cuada. A<strong>de</strong>más, el <strong>de</strong>safío es aún mayor cuando hay<br />
múltiples activida<strong>de</strong>s <strong>en</strong> una secu<strong>en</strong>cia compleja <strong>de</strong> ví<strong>de</strong>o. En este trabajo se pres<strong>en</strong>ta un<br />
algoritmo que está ori<strong>en</strong>tado a explicar estos esc<strong>en</strong>arios.<br />
Se propone <strong>en</strong> este artículo un acercami<strong>en</strong>to <strong>de</strong> un mo<strong>de</strong>lo gráfico g<strong>en</strong>erativo para<br />
apr<strong>en</strong><strong>de</strong>r y reconocer acciones humanas <strong>en</strong> ví<strong>de</strong>o, aprovechando la repres<strong>en</strong>tación<br />
robusta <strong>de</strong> los escasos puntos <strong>de</strong> interés espacio-temporales y un <strong>en</strong>foque <strong>de</strong> estudio no<br />
supervisado. El estudio no supervisado se logra obt<strong>en</strong>i<strong>en</strong>do parámetros <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong><br />
acción prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o sin segm<strong>en</strong>tar ni etiquetar, que conti<strong>en</strong><strong>en</strong> un<br />
número conocido <strong>de</strong> clases <strong>de</strong> acción humanas. Se emplea un <strong>en</strong>torno <strong>de</strong> estudio sin<br />
supervisión porque esto abre la posibilidad <strong>de</strong> aprovechar la cantidad creci<strong>en</strong>te <strong>de</strong> datos<br />
disponibles <strong>de</strong> ví<strong>de</strong>o, sin el costo <strong>de</strong> la <strong>de</strong>tallada anotación humana. Con este fin, un<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 35
3. Estado <strong>de</strong>l arte<br />
<strong>en</strong>foque g<strong>en</strong>erativo proporciona los medios para apr<strong>en</strong><strong>de</strong>r los mo<strong>de</strong>los <strong>de</strong> una manera no<br />
supervisada, <strong>en</strong> contraposición a los mo<strong>de</strong>los <strong>de</strong> discriminación que, <strong>en</strong> g<strong>en</strong>eral,<br />
requier<strong>en</strong> datos <strong>de</strong>tallados etiquetados.<br />
Este método está motivado por el éxito <strong>de</strong> la <strong>de</strong>tección/clasificación <strong>de</strong> objeto o la<br />
clasificación <strong>de</strong> esc<strong>en</strong>a <strong>de</strong> imág<strong>en</strong>es estáticas sin etiquetar, usando mo<strong>de</strong>los <strong>de</strong> tema<br />
lat<strong>en</strong>tes [35]. Una consi<strong>de</strong>ración clave <strong>en</strong> estos trabajos es conocida como la<br />
repres<strong>en</strong>tación " bag of words", don<strong>de</strong> la disposición geométrica <strong>en</strong>tre características<br />
visuales es ignorada. Esto comúnm<strong>en</strong>te se implem<strong>en</strong>ta como un histograma <strong>de</strong>l número<br />
<strong>de</strong> casos <strong>de</strong> patrones visuales particulares <strong>en</strong> una imag<strong>en</strong> dada.<br />
Dado un conjunto <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o sin etiquetar este método pret<strong>en</strong><strong>de</strong> <strong>de</strong>scubrir<br />
un conjunto <strong>de</strong> clases <strong>de</strong> ellos. Cada una <strong>de</strong> estas clases correspon<strong>de</strong>ría a una categoría<br />
<strong>de</strong> acción, tal que se pue<strong>de</strong> construir mo<strong>de</strong>los para cada clase. A<strong>de</strong>más, pret<strong>en</strong><strong>de</strong><br />
<strong>en</strong>t<strong>en</strong><strong>de</strong>r los ví<strong>de</strong>os que están compuestos por una mezcla <strong>de</strong> categorías <strong>de</strong> acción, para<br />
manejar el caso <strong>de</strong> múltiples movimi<strong>en</strong>tos. Esto se parece al problema <strong>de</strong>l<br />
<strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> tema automático <strong>en</strong> el análisis <strong>de</strong> texto. En este caso, se quiere<br />
analizar secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> vez <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> texto; las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o son<br />
resumidas como un conjunto <strong>de</strong> palabras espacio-temporales <strong>en</strong> vez <strong>de</strong> palabras <strong>de</strong><br />
texto; se procura <strong>de</strong>scubrir categorías <strong>de</strong> acción <strong>en</strong> vez <strong>de</strong> temas <strong>de</strong> texto; y los ví<strong>de</strong>os<br />
son explicados como una mezcla <strong>de</strong> acciones <strong>en</strong> vez <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> texto como una<br />
mezcla <strong>de</strong> temas.<br />
Con este trabajo, se investigan dos mo<strong>de</strong>los que se propusieron <strong>en</strong> la literatura <strong>de</strong><br />
análisis <strong>de</strong> texto para dirigir el problema <strong>de</strong> <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> tema lat<strong>en</strong>te:<br />
probabilistic Lat<strong>en</strong>t Semantic nalysis (pLSA) by Hofmann (1999) [36] and Lat<strong>en</strong>t<br />
Dirichlet Allocation (LDA) by Blei et al. (2003) [37]. En este trabajo, se investiga la<br />
conv<strong>en</strong>i<strong>en</strong>cia <strong>de</strong> ambos mo<strong>de</strong>los para el análisis <strong>de</strong> ví<strong>de</strong>o explorando las v<strong>en</strong>tajas <strong>de</strong> la<br />
po<strong>de</strong>rosa repres<strong>en</strong>tación y la gran flexibilidad <strong>de</strong> estos mo<strong>de</strong>los gráficos g<strong>en</strong>erativos.<br />
Así pues, estos mo<strong>de</strong>los proporcionan un marco <strong>de</strong> apr<strong>en</strong>dizaje sin supervisión, que<br />
permite <strong>de</strong>scubrir automáticam<strong>en</strong>te agrupaciones semánticas <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong><br />
datos. También, a difer<strong>en</strong>cia <strong>de</strong> métodos discriminatorios como Support Vector<br />
Machines, pLSA y LDA permit<strong>en</strong> al algoritmo realizar el razonami<strong>en</strong>to significativo<br />
sobre los datos más allá <strong>de</strong> la clasificación, por ejemplo la localización <strong>de</strong> asunto.<br />
A<strong>de</strong>más, tal localización pue<strong>de</strong> ser realizada sin la necesidad <strong>de</strong> explorar miles o<br />
millones <strong>de</strong> v<strong>en</strong>tanas por imag<strong>en</strong>. Estos mo<strong>de</strong>los, sin embargo, no proporcionan<br />
invariancias <strong>de</strong> escala espacial ni temporal. Así, estos sólo pue<strong>de</strong>n trabajar <strong>de</strong>ntro <strong>de</strong> un<br />
pequeño marg<strong>en</strong> <strong>de</strong> las escalas que ha sido observado <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 36
3. Estado <strong>de</strong>l arte<br />
En este sistema se repres<strong>en</strong>ta cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o como una colección <strong>de</strong> palabras<br />
espacio-temporales extray<strong>en</strong>do puntos <strong>de</strong> interés <strong>de</strong> espacio-tiempo. Se usa el método<br />
<strong>de</strong> filtro lineal separable, ya que g<strong>en</strong>eralm<strong>en</strong>te produce un alto número <strong>de</strong> <strong>de</strong>tecciones.<br />
Como po<strong>de</strong>mos ver <strong>en</strong> la figura 3.7 pequeños pedazos <strong>de</strong> ví<strong>de</strong>o son extraídos <strong>de</strong> cada<br />
punto interés y constituy<strong>en</strong> la información local que se utiliza para apr<strong>en</strong><strong>de</strong>r y reconocer<br />
categorías <strong>de</strong> acción humanas. Empleando rasgos locales, se int<strong>en</strong>ta ac<strong>en</strong>tuar la<br />
importancia <strong>de</strong>l corto rango <strong>de</strong> patrones espacio-temporales. Los patrones locales<br />
observados son bastante discriminatorios a través <strong>de</strong> clases <strong>de</strong> acción humanas, y<br />
proporcionan un espacio característico razonable que permite construir bu<strong>en</strong>os mo<strong>de</strong>los<br />
<strong>de</strong> acción humana.<br />
Figura 3.7: Muestra la <strong>de</strong>tección <strong>de</strong> los puntos <strong>de</strong> interés usando el método <strong>de</strong> filtro lineal<br />
separable.<br />
Para obt<strong>en</strong>er un <strong>de</strong>scriptor para cada cubo espacial temporal, se calculan sus gradi<strong>en</strong>tes<br />
<strong>de</strong> brillo sobre ‘x’, y ‘y’ direcciones <strong>de</strong> ‘t’. El cubo espacial temporal <strong>en</strong>tonces es<br />
alisado <strong>en</strong> escalas difer<strong>en</strong>tes antes <strong>de</strong>l cálculo <strong>de</strong> los gradi<strong>en</strong>tes <strong>de</strong> imag<strong>en</strong>. Los<br />
gradi<strong>en</strong>tes calculados se concat<strong>en</strong>an para formar un vector.<br />
El <strong>de</strong>scriptor que se utiliza es un <strong>de</strong>scriptor muy simple <strong>basado</strong> <strong>en</strong> gradi<strong>en</strong>tes <strong>de</strong> imag<strong>en</strong>,<br />
tal <strong>de</strong>scriptor no proporciona invariancia <strong>de</strong> escala, ni <strong>en</strong> el espacio, ni dominio <strong>de</strong><br />
tiempo, tampoco captura el movimi<strong>en</strong>to relativo <strong>de</strong> la cámara. Sin embargo, los<br />
<strong>de</strong>scriptores más complejos que incluy<strong>en</strong> pequeñas invariancias a la escala espacial y a<br />
la velocidad, así como invariancias a pequeños movimi<strong>en</strong>tos <strong>de</strong> cámara, ti<strong>en</strong><strong>en</strong> una<br />
mayor complejidad computacional. En este acercami<strong>en</strong>to se confía <strong>en</strong> el co<strong>de</strong>book para<br />
manejar cambios <strong>de</strong> escala y movimi<strong>en</strong>tos <strong>de</strong> cámara. Mi<strong>en</strong>tras los rasgos locales recién<br />
observados no conti<strong>en</strong><strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> cambio <strong>de</strong> escala y ni el movimi<strong>en</strong>to <strong>de</strong> cámara<br />
que es sumam<strong>en</strong>te difer<strong>en</strong>te <strong>de</strong> los observados <strong>en</strong> los datos utilizados para formar el<br />
co<strong>de</strong>book, se espera que rasgos locales similares sean asignados a miembros constantes<br />
<strong>en</strong> el co<strong>de</strong>book.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 37
3. Estado <strong>de</strong>l arte<br />
Los mo<strong>de</strong>los tema lat<strong>en</strong>te pLSA y LDA se basan <strong>en</strong> la exist<strong>en</strong>cia <strong>de</strong> un vocabulario<br />
finito <strong>de</strong> las palabras espacio-temporales <strong>de</strong> tamaño V. Para apr<strong>en</strong><strong>de</strong>r el vocabulario <strong>de</strong><br />
palabras espacio-temporales, consi<strong>de</strong>ramos el juego <strong>de</strong> <strong>de</strong>scriptores correspondi<strong>en</strong>te a<br />
todos los puntos <strong>de</strong> interés espacio-temporales <strong>de</strong>scubiertos <strong>en</strong> los datos que se<br />
<strong>en</strong>tr<strong>en</strong>an. Este vocabulario es construido por agrupación utilizando el algoritmo K-<br />
means y la distancia euclí<strong>de</strong>a como métrica <strong>de</strong> agrupación. El c<strong>en</strong>tro resultante <strong>de</strong> cada<br />
grupo se <strong>de</strong>fine como una palabra espacio-temporal. Así, cada punto <strong>de</strong> interés<br />
<strong>de</strong>scubierto pue<strong>de</strong> ser asignado a un único grupo.<br />
Una característica importante <strong>de</strong> los mo<strong>de</strong>los pLSA y LDA es que están <strong>basado</strong>s <strong>en</strong> la<br />
suposición <strong>de</strong> bolso <strong>de</strong> <strong>de</strong> palabras, es <strong>de</strong>cir el or<strong>de</strong>n <strong>de</strong> las palabras <strong>en</strong> un docum<strong>en</strong>to <strong>de</strong><br />
texto pue<strong>de</strong> ser <strong>de</strong>scuidada. En el contexto <strong>de</strong> clasificación <strong>de</strong> acción humana, la<br />
suposición <strong>de</strong> bolso <strong>de</strong> palabras se traduce <strong>en</strong> una repres<strong>en</strong>tación <strong>de</strong> ví<strong>de</strong>o que ignora el<br />
conv<strong>en</strong>io posicional, <strong>en</strong> el espacio y el tiempo, <strong>de</strong> los puntos <strong>de</strong> interés espaciales<br />
temporales. Tal suposición trae las v<strong>en</strong>tajas <strong>de</strong> usar una repres<strong>en</strong>tación simple que hace<br />
el apr<strong>en</strong>dizaje eficaz. La car<strong>en</strong>cia <strong>de</strong> información espacial proporciona poca<br />
información sobre el cuerpo humano, mi<strong>en</strong>tras la car<strong>en</strong>cia información temporal a largo<br />
plazo no permite mo<strong>de</strong>lar las acciones más complejas que no están constituidas por<br />
patrones simples repetitivos.<br />
Cuando la secu<strong>en</strong>cia <strong>de</strong> pruebas es consi<strong>de</strong>rablem<strong>en</strong>te larga, la secu<strong>en</strong>cia se divi<strong>de</strong> <strong>en</strong><br />
subsecu<strong>en</strong>cias utilizando una v<strong>en</strong>tana temporal que se <strong>de</strong>sliza. Tales subsecu<strong>en</strong>cias son<br />
tratadas por separado y obt<strong>en</strong>emos <strong>de</strong>cisiones <strong>de</strong> clasificación para cada uno <strong>de</strong> ellas.<br />
Esto es necesario <strong>de</strong>bido a la naturaleza <strong>de</strong> la repres<strong>en</strong>tación: la car<strong>en</strong>cia <strong>de</strong><br />
or<strong>de</strong>nami<strong>en</strong>to temporal relativo <strong>de</strong> características <strong>en</strong> nuestra repres<strong>en</strong>tación <strong>de</strong> " bag of<br />
words" no proporciona el medio para asignar etiquetas <strong>en</strong> los casos <strong>de</strong> tiempo difer<strong>en</strong>tes<br />
<strong>de</strong>ntro <strong>de</strong> un ví<strong>de</strong>o; <strong>en</strong> cambio, el análisis es hecho para la secu<strong>en</strong>cia completa. Así,<br />
dividi<strong>en</strong>do el ví<strong>de</strong>o largo original <strong>en</strong> subsecu<strong>en</strong>cias, el método pue<strong>de</strong> asignar etiquetas a<br />
cada subsecu<strong>en</strong>cia <strong>de</strong>ntro <strong>de</strong> la secu<strong>en</strong>cia larga.<br />
Las contribuciones <strong>de</strong> este trabajo son dobles. Primero, se propone un acercami<strong>en</strong>to <strong>de</strong><br />
estudio no supervisado para acciones humanas que usan una repres<strong>en</strong>tación <strong>de</strong> bolso<br />
<strong>de</strong> palabras. Se aplican dos mo<strong>de</strong>los <strong>de</strong> asunto lat<strong>en</strong>tes, pLSA y LDA, al problema <strong>de</strong><br />
apr<strong>en</strong><strong>de</strong>r y reconocer categorías <strong>de</strong> acción humanas, adoptando la repres<strong>en</strong>tación <strong>de</strong><br />
"bag of spatial-temporal words " para secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Segundo, este método pue<strong>de</strong><br />
localizar y clasificar múltiples acciones <strong>en</strong> un solo ví<strong>de</strong>o. A<strong>de</strong>más <strong>de</strong> la tarea <strong>de</strong><br />
clasificación, este acercami<strong>en</strong>to también pue<strong>de</strong> localizar acciones difer<strong>en</strong>tes<br />
simultáneam<strong>en</strong>te <strong>en</strong> una secu<strong>en</strong>cia nueva y compleja <strong>de</strong> ví<strong>de</strong>o. Esto incluye los casos<br />
don<strong>de</strong> varias personas realizan acciones distintas al mismo tiempo, y también<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 38
3. Estado <strong>de</strong>l arte<br />
situaciones don<strong>de</strong> una persona sola realiza acciones distintas durante el tiempo que dura<br />
una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />
3.4.3. “Actions in Context”<br />
El artículo “Actions in Context” [38] nos da un <strong>en</strong>foque para <strong>en</strong>t<strong>en</strong><strong>de</strong>r las secu<strong>en</strong>cias <strong>de</strong><br />
ví<strong>de</strong>o basándose <strong>en</strong> el estudio conjunto <strong>de</strong> las acciones, los esc<strong>en</strong>arios y los objetos,<br />
b<strong>en</strong>eficiándose así <strong>de</strong> las limitaciones contextuales mutuas que hay <strong>en</strong>tre ellos.<br />
Este trabajo se construye sobre la susodicha intuición y explota relaciones <strong>de</strong><br />
concurr<strong>en</strong>cia <strong>en</strong>tre acciones y esc<strong>en</strong>as <strong>en</strong> el ví<strong>de</strong>o. A partir <strong>de</strong> un <strong>de</strong>terminado conjunto<br />
<strong>de</strong> clases <strong>de</strong> acciones, se pret<strong>en</strong><strong>de</strong> <strong>de</strong>scubrir automáticam<strong>en</strong>te las clases <strong>de</strong> esc<strong>en</strong>a<br />
correlacionadas y usar esta correlación para mejorar el reconocimi<strong>en</strong>to <strong>de</strong> acción. Ya<br />
que algunas acciones son relativam<strong>en</strong>te in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> la esc<strong>en</strong>a (p.ej. "la risa"), no<br />
se espera que el contexto sea igualm<strong>en</strong>te importante para todas las acciones. El contexto<br />
<strong>de</strong> esc<strong>en</strong>a, sin embargo, esta correlacionado con muchas clases <strong>de</strong> acción. Es por lo<br />
tanto es<strong>en</strong>cial para el reconocimi<strong>en</strong>to <strong>de</strong> acción <strong>en</strong> g<strong>en</strong>eral.<br />
En este acercami<strong>en</strong>to se exploran esc<strong>en</strong>as y acciones <strong>en</strong> ví<strong>de</strong>os g<strong>en</strong>éricos y realistas. Se<br />
evitan situaciones específicas tales como vigilancia o <strong>de</strong>portes, y se consi<strong>de</strong>ra un<br />
conjunto gran<strong>de</strong> y diverso <strong>de</strong> muestras <strong>de</strong> ví<strong>de</strong>o <strong>de</strong> películas, se usan guiones <strong>de</strong><br />
película para la anotación automática <strong>de</strong> ví<strong>de</strong>o y se aplica la extracción <strong>de</strong> texto para<br />
<strong>de</strong>scubrir las clases <strong>de</strong> esc<strong>en</strong>a que concurr<strong>en</strong> con las acciones dadas. Se utiliza la<br />
alineación <strong>de</strong> guion-a-ví<strong>de</strong>o y la búsqueda <strong>de</strong> texto para recuperar automáticam<strong>en</strong>te las<br />
muestras <strong>de</strong> ví<strong>de</strong>o y las etiquetas correspondi<strong>en</strong>tes para las esc<strong>en</strong>as y acciones <strong>en</strong><br />
películas.<br />
Los guiones son docum<strong>en</strong>tos <strong>de</strong> texto disponibles públicam<strong>en</strong>te para la mayoría <strong>de</strong> las<br />
películas populares, conti<strong>en</strong><strong>en</strong> títulos <strong>de</strong> esc<strong>en</strong>a, diálogos y <strong>de</strong>scripciones <strong>de</strong> esc<strong>en</strong>a,<br />
pero por lo g<strong>en</strong>eral no ofrec<strong>en</strong> la sincronización <strong>de</strong> tiempo con el ví<strong>de</strong>o. Este problema<br />
se aborda utilizando los subtítulos que si están sincronizados con el ví<strong>de</strong>o. Así para<br />
conseguir la alineación guion-a-vi<strong>de</strong>o se utiliza la información <strong>de</strong> tiempo <strong>de</strong> los<br />
subtítulos para po<strong>de</strong>r estimar la localización temporal <strong>de</strong> los títulos <strong>de</strong> esc<strong>en</strong>a y las<br />
<strong>de</strong>scripciones <strong>de</strong> esc<strong>en</strong>a.<br />
Mejorar la clasificación <strong>de</strong> acciones explotando relaciones que ocurr<strong>en</strong> <strong>en</strong>tre acciones y<br />
su contexto <strong>de</strong> esc<strong>en</strong>a es la finalidad principal <strong>de</strong> este trabajo. Esto se consigue para un<br />
conjunto dado <strong>de</strong> clases <strong>de</strong> acción mediante (i) la i<strong>de</strong>ntificación <strong>de</strong> tipos <strong>de</strong> esc<strong>en</strong>a<br />
relevantes (ii) y la estimación <strong>de</strong> la relación <strong>de</strong> concurr<strong>en</strong>cia con las acciones. En este<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 39
3. Estado <strong>de</strong>l arte<br />
punto es don<strong>de</strong> se recurre a los guiones <strong>de</strong> cine, anteriorm<strong>en</strong>te sincronizados con el<br />
ví<strong>de</strong>o, ya que usando los títulos <strong>de</strong> esc<strong>en</strong>a y las <strong>de</strong>scripciones cortas <strong>de</strong> esc<strong>en</strong>a se<br />
obti<strong>en</strong>e la información requerida sobre los tipos <strong>de</strong> esc<strong>en</strong>a y su concurr<strong>en</strong>cia con las<br />
acciones. Una vez t<strong>en</strong>emos esta información se pue<strong>de</strong>n recuperar automáticam<strong>en</strong>te las<br />
muestras <strong>de</strong> ví<strong>de</strong>o con las etiquetas correspondi<strong>en</strong>tes para las esc<strong>en</strong>as y acciones <strong>en</strong><br />
películas.<br />
Figura 3.8: Ilustración sobre la concurr<strong>en</strong>cia <strong>en</strong>tre las clases <strong>de</strong> esc<strong>en</strong>a y las acciones.<br />
El tamaño <strong>de</strong> los círculos <strong>de</strong> la figura 3.8 correspon<strong>de</strong> a las probabilida<strong>de</strong>s estimadas <strong>de</strong><br />
que una clase <strong>de</strong> acción se dé <strong>en</strong> una <strong>de</strong>terminada esc<strong>en</strong>a y coinci<strong>de</strong> así con las<br />
expectativas intuitivas. Por ejemplo, correr sobre todo ocurre <strong>en</strong> esc<strong>en</strong>as exteriores,<br />
mi<strong>en</strong>tras que comer ocurre <strong>en</strong> esc<strong>en</strong>as <strong>de</strong> restaurante y <strong>en</strong> la cocina. El color ver<strong>de</strong> <strong>de</strong><br />
los círculos correspon<strong>de</strong> a las concurr<strong>en</strong>cias calculadas automáticam<strong>en</strong>te <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar<br />
guiones y el color amarillo correspon<strong>de</strong> a las concurr<strong>en</strong>cias manualm<strong>en</strong>te evaluadas<br />
sobre las películas <strong>de</strong> prueba, como se pue<strong>de</strong> observar el reparto <strong>de</strong>ntro <strong>de</strong> los círculos<br />
es equitativo por lo tanto se valida la coher<strong>en</strong>cia <strong>en</strong>tre las relaciones extraídas <strong>de</strong>l texto<br />
y lo que realm<strong>en</strong>te se produce <strong>en</strong> los ví<strong>de</strong>os.<br />
Consi<strong>de</strong>rando las muestras <strong>de</strong> ví<strong>de</strong>o recuperadas automáticam<strong>en</strong>te con etiquetas<br />
posiblem<strong>en</strong>te ruidosas, se usa la repres<strong>en</strong>tación <strong>de</strong> bolsa <strong>de</strong> características y SVM para<br />
apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los visuales separados para la clasificación <strong>de</strong> esc<strong>en</strong>a y la acción.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 40
3. Estado <strong>de</strong>l arte<br />
La repres<strong>en</strong>tación <strong>de</strong> bolsa <strong>de</strong> características ve los ví<strong>de</strong>os como volúm<strong>en</strong>es espaciotemporales.<br />
Consi<strong>de</strong>rando una muestra <strong>de</strong> ví<strong>de</strong>o, las principales regiones locales son<br />
extraídas usando un <strong>de</strong>tector <strong>de</strong> punto <strong>de</strong> interés. Después, el cont<strong>en</strong>ido <strong>de</strong> ví<strong>de</strong>o <strong>en</strong><br />
cada una <strong>de</strong> las regiones <strong>de</strong>tectadas es <strong>de</strong>scrito con <strong>de</strong>scriptores locales. Finalm<strong>en</strong>te, las<br />
distribuciones <strong>de</strong>sor<strong>de</strong>nadas <strong>de</strong> rasgos son calculadas para toda la muestra <strong>de</strong> ví<strong>de</strong>o.<br />
Para construir la base <strong>de</strong> refer<strong>en</strong>cia se extrae movimi<strong>en</strong>to <strong>basado</strong> <strong>en</strong> las características<br />
espacio-tiempo. Esta repres<strong>en</strong>tación se c<strong>en</strong>tra <strong>en</strong> las acciones humanas consi<strong>de</strong>radas<br />
como patrones <strong>de</strong> movimi<strong>en</strong>to. Las regiones sali<strong>en</strong>tes <strong>de</strong>scubiertas correspon<strong>de</strong>n al<br />
movimi<strong>en</strong>to y los rasgos están <strong>basado</strong>s <strong>en</strong> la dinámica <strong>de</strong> gradi<strong>en</strong>te y el flujo óptico.<br />
Este <strong>en</strong>foque básico ha <strong>de</strong>mostrado el éxito <strong>en</strong> el reconocimi<strong>en</strong>to <strong>de</strong> la acción, pero por<br />
sí solo no es sufici<strong>en</strong>te para la clasificación <strong>de</strong> la esc<strong>en</strong>a. Para t<strong>en</strong>er mo<strong>de</strong>los <strong>de</strong> esc<strong>en</strong>as<br />
fiables, es necesario incluir el aspecto estático, a<strong>de</strong>más <strong>de</strong> los patrones <strong>de</strong> movimi<strong>en</strong>to.<br />
Por lo tanto el ví<strong>de</strong>o también es visto como una colección <strong>de</strong> frames. Esto permite<br />
emplear los compon<strong>en</strong>tes <strong>de</strong> bolsas <strong>de</strong> características <strong>de</strong>sarrollados para la esc<strong>en</strong>a<br />
estática y el reconocimi<strong>en</strong>to <strong>de</strong> objeto y t<strong>en</strong>er una repres<strong>en</strong>tación híbrida <strong>en</strong> un marco <strong>de</strong><br />
trabajo unificado.<br />
Usamos el Support Vector Classifier [39] (SVM) para apr<strong>en</strong><strong>de</strong>r el contexto <strong>de</strong> esc<strong>en</strong>a y<br />
acciones. La función <strong>de</strong> <strong>de</strong>cisión <strong>de</strong> un clasificador C-SVM binario ti<strong>en</strong>e la forma<br />
sigui<strong>en</strong>te:<br />
∑ , <br />
(3.12)<br />
El kernel más simple posible es un kernel lineal. La función <strong>de</strong> <strong>de</strong>cisión <strong>en</strong>tonces pue<strong>de</strong><br />
ser vuelta a escribir como una suma pon<strong>de</strong>rada <strong>de</strong> compon<strong>en</strong>tes <strong>de</strong> muestra.<br />
, , (3.13)<br />
Como la principal contribución <strong>de</strong> este docum<strong>en</strong>to se <strong>de</strong>muestra que po<strong>de</strong>mos usar la<br />
información automáticam<strong>en</strong>te extraída <strong>de</strong>l contexto basada <strong>en</strong> guiones <strong>de</strong> ví<strong>de</strong>o y<br />
mejorar el reconocimi<strong>en</strong>to automático <strong>de</strong> las relaciones contextuales <strong>en</strong> ambos tanto <strong>en</strong><br />
(i) el reconocimi<strong>en</strong>to <strong>de</strong> las acciones <strong>en</strong> el contexto <strong>de</strong> las esc<strong>en</strong>as, así como (ii) el<br />
reconocimi<strong>en</strong>to <strong>de</strong> esc<strong>en</strong>as <strong>en</strong> el contexto <strong>de</strong> las acciones.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 41
3. Estado <strong>de</strong>l arte<br />
3.4.4. Otros métodos <strong>de</strong> clasificación <strong>de</strong> la acción<br />
humana<br />
Una cantidad consi<strong>de</strong>rable <strong>de</strong> trabajos anteriores ha abordado la cuestión <strong>de</strong> la<br />
categorización <strong>de</strong> la acción humana y el análisis <strong>de</strong>l movimi<strong>en</strong>to. Una línea <strong>de</strong> trabajo<br />
está basada <strong>en</strong> el cómputo <strong>de</strong> la correlación <strong>en</strong>tre los volúm<strong>en</strong>es <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o.<br />
Efros et al. (2003) [40] realizan el reconocimi<strong>en</strong>to <strong>de</strong> acción correlacionando medidas<br />
<strong>de</strong> flujo ópticas <strong>de</strong> ví<strong>de</strong>os <strong>de</strong> baja resolución. Su método requiere, <strong>en</strong> primer lugar la<br />
segm<strong>en</strong>tación y la estabilización <strong>de</strong> cada figura humana <strong>en</strong> la secu<strong>en</strong>cia, así como una<br />
mayor interv<strong>en</strong>ción humana para anotar las acciones <strong>en</strong> cada volum<strong>en</strong> resultante<br />
espacio-temporal. Shechtman y Irani (2005) [41] propon<strong>en</strong> una correlación basada <strong>en</strong> el<br />
comportami<strong>en</strong>to para calcular la semejanza <strong>en</strong>tre los volúm<strong>en</strong>es <strong>de</strong> espacio-tiempo que<br />
permite <strong>en</strong>contrar comportami<strong>en</strong>tos y acciones similares. En cada pixel, los gradi<strong>en</strong>tes<br />
<strong>de</strong> espacio-tiempo <strong>de</strong>l pedazo correspondi<strong>en</strong>te <strong>de</strong> ví<strong>de</strong>o <strong>de</strong>b<strong>en</strong> ser calculados y<br />
resumidos <strong>en</strong> una matriz. Los valores propios <strong>de</strong> las matrices resultantes son usados<br />
para calcular la semejanza <strong>en</strong>tre dos pedazos espacio-temporales. Por lo tanto, este<br />
método requiere el cómputo significativo <strong>de</strong>bido al procedimi<strong>en</strong>to <strong>de</strong> correlación <strong>en</strong>tre<br />
cada pedazo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> pruebas y la base <strong>de</strong> datos <strong>de</strong> ví<strong>de</strong>o.<br />
Otro acercami<strong>en</strong>to popular es primero rastrear partes <strong>de</strong> cuerpo y luego usar las<br />
trayectorias <strong>de</strong> movimi<strong>en</strong>to obt<strong>en</strong>idas para realizar el reconocimi<strong>en</strong>to <strong>de</strong> acción. Esto se<br />
realiza con mucha supervisión humana y la robustez <strong>de</strong>l algoritmo es sumam<strong>en</strong>te<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l sistema <strong>de</strong> seguimi<strong>en</strong>to. En el acercami<strong>en</strong>to <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong><br />
acción <strong>de</strong> Ramanan y Forsyth (2004) [42] <strong>en</strong> primer lugar se hace un seguimi<strong>en</strong>to <strong>de</strong> los<br />
seres humanos <strong>en</strong> las secu<strong>en</strong>cias usando un procedimi<strong>en</strong>to <strong>de</strong> estructura pictórico.<br />
Entonces las configuraciones 3D <strong>de</strong>l cuerpo son estimadas y comparadas <strong>en</strong> una<br />
biblioteca anotada <strong>de</strong> movimi<strong>en</strong>to 3D. El algoritmo permite la asignación <strong>de</strong> etiquetas<br />
compuestas a las secu<strong>en</strong>cias <strong>de</strong> pruebas; sin embargo, esto <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>en</strong> gran medida el<br />
resultado <strong>de</strong>l seguimi<strong>en</strong>to, y la estimación <strong>de</strong> la postura 3D pue<strong>de</strong> introducir errores<br />
significativos <strong>de</strong>bido a ambigüeda<strong>de</strong>s difíciles <strong>de</strong> solucionar. En Yilmaz y Cha (2005)<br />
[43], el etiquetaje humano <strong>de</strong> puntos <strong>de</strong> refer<strong>en</strong>cia <strong>de</strong>l cuerpo humano primero es<br />
realizado <strong>en</strong> cada frame <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> múltiples cámaras <strong>en</strong> movimi<strong>en</strong>to. Entonces<br />
las acciones son comparadas usando su correspondi<strong>en</strong>tes trayectorias 4D (x, y, z, t). Así,<br />
su acercami<strong>en</strong>to pue<strong>de</strong> ser aplicado al reconocimi<strong>en</strong>to y la recuperación <strong>de</strong> acción, con<br />
el coste <strong>de</strong> una cantidad significativa <strong>de</strong> anotación humana.<br />
También, los investigadores han consi<strong>de</strong>rado el análisis <strong>de</strong> acciones humanas mirando<br />
las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o como volúm<strong>en</strong>es <strong>de</strong> int<strong>en</strong>sidad <strong>de</strong> espacio-tiempo. Blank et al.<br />
(2005)[44] repres<strong>en</strong>tan las acciones como formas <strong>de</strong> espacio-tiempo y extra<strong>en</strong> las<br />
características <strong>de</strong> espacio-tiempo para el reconocimi<strong>en</strong>to <strong>de</strong> acción, como la<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 42
3. Estado <strong>de</strong>l arte<br />
promin<strong>en</strong>cia <strong>de</strong> espacio-tiempo local, la acción dinámica, la forma y la ori<strong>en</strong>tación <strong>de</strong><br />
las estructuras. Asimismo este acercami<strong>en</strong>to se basa <strong>en</strong> la restricción <strong>de</strong> los fondos<br />
estáticos que les permite segm<strong>en</strong>tar el primer plano usando la substracción <strong>de</strong> fondo.<br />
Algunos investigadores también han explorado métodos sin supervisión para el análisis<br />
<strong>de</strong> movimi<strong>en</strong>to. Zhong et al. (2004) [45] han propuesto un acercami<strong>en</strong>to no supervisado<br />
para <strong>de</strong>scubrir la actividad insólita <strong>en</strong> secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Usando una repres<strong>en</strong>tación<br />
global basada <strong>en</strong> un vector <strong>de</strong>scriptor simple por cada frame, el método agrupa<br />
segm<strong>en</strong>tos <strong>de</strong> ví<strong>de</strong>o e i<strong>de</strong>ntifica grupos espacialm<strong>en</strong>te aislados como la actividad<br />
insólita. Por lo tanto, las activida<strong>de</strong>s insólitas <strong>de</strong>b<strong>en</strong> ser observadas durante el<br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Otros acercami<strong>en</strong>tos usan una repres<strong>en</strong>tación <strong>de</strong> ví<strong>de</strong>o basada <strong>en</strong> puntos <strong>de</strong> interés<br />
espacio-temporales. Ke et al. (2005)[46] aplican rasgos espaciales temporales<br />
volumétricos que <strong>de</strong> manera efici<strong>en</strong>te exploran secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> el espacio y el<br />
tiempo Su acercami<strong>en</strong>to <strong>de</strong>scubre puntos <strong>de</strong> interés sobre vectores <strong>de</strong> movimi<strong>en</strong>to, lo<br />
que requiere una estimación <strong>de</strong>nsa <strong>de</strong>l flujo óptico. A<strong>de</strong>más, el método requiere calcular<br />
un número significativo <strong>de</strong> características que son <strong>de</strong>l or<strong>de</strong>n <strong>de</strong> un millón, aún <strong>de</strong>spués<br />
<strong>de</strong> la discretización y el muestreo <strong>de</strong>l espacio característico. Los puntos <strong>de</strong> interés<br />
<strong>de</strong>tectados <strong>en</strong>tonces son empleados como características para realizar la clasificación <strong>de</strong><br />
la acción humana con un clasificador discriminatorio <strong>de</strong> cascada, que requiere <strong>ejemplos</strong><br />
positivos y negativos anotados. En (Schuldt et al. 2004 [47]; Dollár et al. 2005 [48];<br />
Oikonomopoulos et al. 2006 [49]; Ke et al. 2005 [46]), los puntos <strong>de</strong> interés <strong>de</strong> espaciotiempo<br />
son combinados con clasificadores discriminatorios para apr<strong>en</strong><strong>de</strong>r y reconocer<br />
acciones humanas. Por lo tanto, pedazos locales <strong>de</strong> espacio-tiempo han <strong>de</strong>mostrado ser<br />
útiles para proporcionar significado semántico <strong>de</strong> acontecimi<strong>en</strong>tos <strong>de</strong> ví<strong>de</strong>o<br />
proporcionando una repres<strong>en</strong>tación compacta y abstracta <strong>de</strong> mo<strong>de</strong>lo.<br />
Finalm<strong>en</strong>te, notamos el éxito <strong>de</strong> <strong>en</strong>foques g<strong>en</strong>erativos <strong>basado</strong>s <strong>en</strong> mo<strong>de</strong>los <strong>de</strong> temas<br />
lat<strong>en</strong>tes para el reconocimi<strong>en</strong>to <strong>de</strong> esc<strong>en</strong>a y objeto. Fei-Fei y Perona (2005) [35]<br />
introduc<strong>en</strong> el uso <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> asunto lat<strong>en</strong>tes a tareas <strong>de</strong> visión <strong>de</strong> or<strong>de</strong>nador, <strong>en</strong> el<br />
ámbito <strong>de</strong> la categorización natural esc<strong>en</strong>a. Sus mo<strong>de</strong>los son inspirados por el mo<strong>de</strong>lo<br />
<strong>de</strong> LDA (Blei et al. 2003 [37]), y pue<strong>de</strong> apr<strong>en</strong><strong>de</strong>r distribuciones <strong>de</strong> asunto intermedias<br />
sin supervisión. También, Sivic et al. (2005) [50] realizan el apr<strong>en</strong>dizaje y el<br />
reconocimi<strong>en</strong>to sin supervisión <strong>de</strong> clases <strong>de</strong> objeto aplicando un mo<strong>de</strong>lo <strong>de</strong> pLSA con la<br />
repres<strong>en</strong>tación visual <strong>de</strong> bolso <strong>de</strong> palabras. El acercami<strong>en</strong>to permite apr<strong>en</strong><strong>de</strong>r clases <strong>de</strong><br />
objeto <strong>de</strong> imág<strong>en</strong>es sin la etiqueta y sin <strong>de</strong>sor<strong>de</strong>n <strong>de</strong>l fondo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 43
3. Estado <strong>de</strong>l arte<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 44
4. Diseño<br />
4. Diseño<br />
4.1. Introducción<br />
El reconocimi<strong>en</strong>to <strong>de</strong> las activida<strong>de</strong>s dinámicas es necesario <strong>en</strong> varios sistemas <strong>de</strong><br />
análisis <strong>de</strong> vi<strong>de</strong>o, incluy<strong>en</strong>do sistemas <strong>de</strong> seguridad, espacios intelig<strong>en</strong>tes, vi<strong>de</strong>o<br />
in<strong>de</strong>xado <strong>basado</strong> <strong>en</strong> acciones, browsing, clustering y segm<strong>en</strong>tación. Algunos <strong>de</strong> los<br />
trabajos anteriores se c<strong>en</strong>tran <strong>en</strong> reconocer una serie <strong>de</strong> acciones pre<strong>de</strong>finidas, o<br />
<strong>en</strong>tornos restringidos <strong>de</strong> imág<strong>en</strong>es. Estos métodos propon<strong>en</strong> aproximaciones para<br />
capturar las características importantes <strong>de</strong> las acciones mediante mo<strong>de</strong>los paramétricos<br />
especializados que por lo g<strong>en</strong>eral dan lugar al reconocimi<strong>en</strong>to <strong>de</strong> alta calidad <strong>de</strong> las<br />
acciones estudiadas, pero <strong>en</strong> su <strong>de</strong>fecto su construcción, g<strong>en</strong>eralm<strong>en</strong>te requiere una fase<br />
<strong>de</strong> apr<strong>en</strong>dizaje muy amplia, don<strong>de</strong> se proporcionan muchos <strong>ejemplos</strong> <strong>de</strong> la acción<br />
estudiada. Sin embargo, este trabajo no sólo se restringe al reconocimi<strong>en</strong>to <strong>de</strong> las<br />
acciones cuidadosam<strong>en</strong>te estudiadas, sino que tratamos con datos g<strong>en</strong>erales <strong>de</strong> ví<strong>de</strong>o <strong>en</strong><br />
los que a m<strong>en</strong>udo no hay ningún conocimi<strong>en</strong>to previo sobre los tipos <strong>de</strong> acciones <strong>en</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, su grado temporal y espacial, o su naturaleza (periódica/no<br />
periódica).<br />
El principal objetivo <strong>en</strong> este proyecto es reconocer una serie <strong>de</strong> acciones humanas <strong>en</strong><br />
ví<strong>de</strong>o basándose <strong>en</strong> los datos <strong>de</strong> un conjunto <strong>de</strong> activida<strong>de</strong>s ejemplo guardadas <strong>en</strong> una<br />
base <strong>de</strong> datos. El diseño <strong>de</strong>l algoritmo permite a la computadora, <strong>en</strong> una primera etapa,<br />
apr<strong>en</strong><strong>de</strong>r mo<strong>de</strong>los <strong>de</strong> las acciones humanas, y más a<strong>de</strong>lante dado un nuevo ví<strong>de</strong>o, el<br />
algoritmo <strong>de</strong>be ser capaz <strong>de</strong> <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te<br />
están o no pres<strong>en</strong>tes <strong>en</strong> la secu<strong>en</strong>cia.<br />
Esto se consigue mediante una medida <strong>de</strong> semejanza, basada sólo <strong>en</strong> el comportami<strong>en</strong>to,<br />
<strong>en</strong>tre las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o. Es <strong>de</strong>cir, dicha medida conserva las variaciones<br />
temporales, mi<strong>en</strong>tras es ins<strong>en</strong>sible a cambios <strong>de</strong> aspecto como la variación <strong>de</strong> la ropa,<br />
condiciones <strong>de</strong> iluminación, etc. Esta medida es no paramétrica pudi<strong>en</strong>do manejar así<br />
una amplia gama <strong>de</strong> comportami<strong>en</strong>tos dinámicos. Por lo tanto no pue<strong>de</strong> ser óptimo para<br />
una acción específica, pero permite el análisis g<strong>en</strong>eral <strong>basado</strong> <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong><br />
información <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e tipos <strong>de</strong> acciones <strong>de</strong>sconocidos.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 45
4. Diseño<br />
Para realizar este proyecto se ha tomado como punto <strong>de</strong> partida el trabajo <strong>de</strong> Zelnik-<br />
Manor e Irani[1], <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical Analysis of Dynamic Actions”,<br />
cuyo algoritmo se ha adaptado y mejorado <strong>en</strong> base a los objetivos <strong>de</strong> este proyecto.<br />
Algunas posibles aplicaciones para este sistema podrían ser:<br />
• Detección <strong>de</strong> activida<strong>de</strong>s inusuales <strong>en</strong> un vi<strong>de</strong>o <strong>de</strong> seguridad <strong>en</strong> un lugar<br />
público.<br />
• Indicar un punto interesante <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e una acción <strong>de</strong> interés, y<br />
requerir al sistema avanzar rápido al sigui<strong>en</strong>te fragm<strong>en</strong>to <strong>en</strong> el que ocurran<br />
acciones similares.<br />
• Segm<strong>en</strong>tación temporal basada <strong>en</strong> comportami<strong>en</strong>tos <strong>de</strong> secu<strong>en</strong>cias largas <strong>de</strong><br />
ví<strong>de</strong>o. Dada una secu<strong>en</strong>cia larga <strong>de</strong> vi<strong>de</strong>o que conti<strong>en</strong>e variedad <strong>de</strong> acciones nos<br />
interesaría <strong>de</strong>tectar los puntos <strong>de</strong> comi<strong>en</strong>zo y final <strong>de</strong> las acciones, sin requerir<br />
cualquier conocimi<strong>en</strong>to a priori <strong>de</strong> los tipos <strong>de</strong> acciones o sus grados temporales.<br />
4.1.1. Definición <strong>de</strong> acción<br />
Las acciones son amplios términos temporales, que normalm<strong>en</strong>te se exti<strong>en</strong><strong>de</strong>n sobre<br />
<strong>de</strong>c<strong>en</strong>as y c<strong>en</strong>t<strong>en</strong>as <strong>de</strong> frames. Polana y Nelson[60] separaron la clase objetos<br />
temporales <strong>en</strong> tres grupos y sugirieron distintas aproximaciones para el mo<strong>de</strong>lado y el<br />
reconocimi<strong>en</strong>to <strong>de</strong> cada uno:<br />
• Texturas temporales que ti<strong>en</strong><strong>en</strong> in<strong>de</strong>finidas las áreas espacial y temporal.<br />
• Activida<strong>de</strong>s que son temporalm<strong>en</strong>te periódicas pero restringidas espacialm<strong>en</strong>te.<br />
• Ev<strong>en</strong>tos <strong>de</strong> movimi<strong>en</strong>to que son acciones aisladas que no se repit<strong>en</strong> ni <strong>en</strong><br />
espacio ni <strong>en</strong> tiempo.<br />
Nuestros experim<strong>en</strong>tos están <strong>en</strong>focados principalm<strong>en</strong>te <strong>en</strong> los dos últimos puntos,<br />
<strong>de</strong>bido a su gran número <strong>de</strong> aplicaciones y su interés ci<strong>en</strong>tífico.<br />
Inicialm<strong>en</strong>te haremos una serie <strong>de</strong> observaciones que afectarán al diseño <strong>de</strong> nuestro<br />
esquema <strong>de</strong> mo<strong>de</strong>lado <strong>de</strong> acciones. Primero, observamos que una repres<strong>en</strong>tación que<br />
pue<strong>de</strong> manejar los tres tipos <strong>de</strong> acciones/comportami<strong>en</strong>tos ha <strong>de</strong> ser g<strong>en</strong>eral, por<br />
ejemplo no se pue<strong>de</strong>n hacer severas suposiciones, tales como estacionalidad (que es<br />
común <strong>en</strong> mo<strong>de</strong>lado <strong>de</strong> texturas temporales) o periodicidad (que es común <strong>en</strong> el<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 46
4. Diseño<br />
mo<strong>de</strong>lado <strong>de</strong> activida<strong>de</strong>s repetitivas). Segundo, la repres<strong>en</strong>tación basada <strong>en</strong><br />
comportami<strong>en</strong>tos ti<strong>en</strong>e que <strong>de</strong>p<strong>en</strong><strong>de</strong>r <strong>de</strong> características basadas <strong>en</strong> el movimi<strong>en</strong>to, las<br />
cuales son invariantes fr<strong>en</strong>te a cambios <strong>en</strong> apari<strong>en</strong>cia tales como aquellos causados por<br />
variaciones <strong>en</strong> el vestuario, <strong>en</strong> las condiciones <strong>de</strong> luz, <strong>en</strong> el fondo, etc. Por último hemos<br />
<strong>de</strong> difer<strong>en</strong>ciar que acciones están caracterizadas por múltiples escalas temporales. Por<br />
ejemplo, <strong>en</strong> una secu<strong>en</strong>cia <strong>de</strong> personas caminando, la resolución más alta conseguirá<br />
capturar el movimi<strong>en</strong>to <strong>de</strong> los miembros, mi<strong>en</strong>tras que las resoluciones temporales bajas<br />
capturarán principalm<strong>en</strong>te el movimi<strong>en</strong>to global <strong>de</strong>l cuerpo <strong>en</strong>tero.<br />
Deberíamos t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que aunque las acciones son capturadas <strong>en</strong> múltiples<br />
escalas temporales, una acción específica está siempre realizada con aproximadam<strong>en</strong>te<br />
la misma velocidad, y por esto, es capturada <strong>en</strong> la misma escala temporal. Por ejemplo,<br />
un único paso <strong>de</strong> una persona andando visto por dos cámaras <strong>de</strong> vi<strong>de</strong>o difer<strong>en</strong>tes con la<br />
misma tasa <strong>de</strong> frame, se ext<strong>en</strong><strong>de</strong>rá sobre el mismo número <strong>de</strong> frames <strong>en</strong> ambas<br />
secu<strong>en</strong>cias, sin t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta los parámetros internos y externos <strong>de</strong> la cámara.<br />
Similarm<strong>en</strong>te, un único paso <strong>de</strong> dos personas difer<strong>en</strong>tes se ext<strong>en</strong><strong>de</strong>rán también sobre el<br />
mismo número <strong>de</strong> frames. Ésta observación implica que ante la difer<strong>en</strong>ciación <strong>de</strong> dos<br />
acciones, no es necesario comparar a través <strong>de</strong> escalas temporales, aunque es preferible.<br />
Esto facilita el diseño <strong>de</strong> una medida <strong>de</strong> similitud secu<strong>en</strong>cia a secu<strong>en</strong>cia.<br />
Un esc<strong>en</strong>ario que no cumple esta suposición es <strong>en</strong> el que una misma acción es realizada<br />
con velocida<strong>de</strong>s significativam<strong>en</strong>te difer<strong>en</strong>tes. En este caso, comparar escalas<br />
temporales correspondi<strong>en</strong>tes <strong>de</strong>be ser insufici<strong>en</strong>te para <strong>de</strong>tectar la similitud <strong>en</strong>tre las<br />
acciones. Sin embargo, <strong>en</strong> este caso, no se pue<strong>de</strong> afirmar directam<strong>en</strong>te si dos vi<strong>de</strong>os han<br />
<strong>de</strong> ser consi<strong>de</strong>rados como capturas <strong>de</strong> la misma acción o no. Por ejemplo, es lo mismo<br />
andar a paso ligero que correr, o es lo mismo un baile rápido que uno l<strong>en</strong>to.<br />
4.2. Software utilizado<br />
Para completar este proyecto se ha pasado por dos etapas difer<strong>en</strong>ciadas a la hora <strong>de</strong> la<br />
implem<strong>en</strong>tación <strong>de</strong>l algoritmo. Primero se implem<strong>en</strong>tó una versión inicial <strong>de</strong>l proyecto<br />
<strong>en</strong> l<strong>en</strong>guaje MATLAB, <strong>de</strong>bido a que ofrece bastantes v<strong>en</strong>tajas para trabajar con<br />
matrices, y por lo tanto con imág<strong>en</strong>es y ví<strong>de</strong>o. En esta etapa se experim<strong>en</strong>tó con<br />
difer<strong>en</strong>tes soluciones posibles para lograr los objetivos propuestos y se escogieron los<br />
métodos que más conv<strong>en</strong>ían para la consecución <strong>de</strong> este trabajo.<br />
En la segunda etapa, basándonos <strong>en</strong> los experim<strong>en</strong>tos <strong>de</strong> la etapa anterior, el algoritmo<br />
<strong>de</strong>finitivo se ha implem<strong>en</strong>tado <strong>en</strong> el l<strong>en</strong>guaje <strong>de</strong> programación C++ sobre una<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 47
4. Diseño<br />
plataforma PC. Ya que este sistema trabaja sobre imág<strong>en</strong>es y ví<strong>de</strong>os nos hemos ayudado<br />
principalm<strong>en</strong>te <strong>de</strong> las librerías proporcionadas por el paquete Op<strong>en</strong>CV.<br />
4.2.1. MATLAB<br />
MATLAB (abreviatura <strong>de</strong> MATrix LABoratory, "laboratorio <strong>de</strong> matrices") es un<br />
software matemático que ofrece un <strong>en</strong>torno <strong>de</strong> <strong>de</strong>sarrollo integrado (IDE) con un<br />
l<strong>en</strong>guaje <strong>de</strong> programación propio (l<strong>en</strong>guaje M). Está disponible para las plataformas<br />
Unix, Windows y Apple Mac OS X.<br />
Entre sus prestaciones básicas se hallan: la manipulación <strong>de</strong> matrices, la repres<strong>en</strong>tación<br />
<strong>de</strong> datos y funciones, la implem<strong>en</strong>tación <strong>de</strong> algoritmos, la creación <strong>de</strong> interfaces <strong>de</strong><br />
usuario (GUI) y la comunicación con programas <strong>en</strong> otros l<strong>en</strong>guajes y con otros<br />
dispositivos hardware. El paquete MATLAB dispone <strong>de</strong> dos herrami<strong>en</strong>tas adicionales<br />
que expan<strong>de</strong>n sus prestaciones, a saber, Simulink (plataforma <strong>de</strong> simulación<br />
multidominio) y GUIDE (editor <strong>de</strong> interfaces <strong>de</strong> usuario - GUI). A<strong>de</strong>más, se pue<strong>de</strong>n<br />
ampliar las capacida<strong>de</strong>s <strong>de</strong> MATLAB con las cajas <strong>de</strong> herrami<strong>en</strong>tas (toolboxes); y las<br />
<strong>de</strong> Simulink con los paquetes <strong>de</strong> bloques (blocksets).<br />
Es un software muy usado <strong>en</strong> universida<strong>de</strong>s y c<strong>en</strong>tros <strong>de</strong> investigación y <strong>de</strong>sarrollo, ya<br />
que se pue<strong>de</strong> consi<strong>de</strong>rar como uno <strong>de</strong> los softwares más utilizados <strong>en</strong> ing<strong>en</strong>iería.<br />
4.2.2. Op<strong>en</strong>CV<br />
Op<strong>en</strong>CV es una biblioteca libre <strong>de</strong> visión artificial originalm<strong>en</strong>te <strong>de</strong>sarrollada por Intel.<br />
Des<strong>de</strong> que apareció su primera versión alfa <strong>en</strong> el mes <strong>de</strong> <strong>en</strong>ero <strong>de</strong> 1999, se ha utilizado<br />
<strong>en</strong> infinidad <strong>de</strong> aplicaciones. Des<strong>de</strong> sistemas <strong>de</strong> seguridad con <strong>de</strong>tección <strong>de</strong><br />
movimi<strong>en</strong>to, hasta aplicativos <strong>de</strong> control <strong>de</strong> procesos don<strong>de</strong> se requiere reconocimi<strong>en</strong>to<br />
<strong>de</strong> objetos. Esto se <strong>de</strong>be a que su publicación se da bajo lic<strong>en</strong>cia BSD, que permite que<br />
sea usada librem<strong>en</strong>te para propósitos comerciales y <strong>de</strong> investigación con las condiciones<br />
<strong>en</strong> ella expresadas.<br />
Op<strong>en</strong> CV es multiplataforma, Existi<strong>en</strong>do versiones para Linux, Mac OS X y Windows.<br />
Conti<strong>en</strong>e más <strong>de</strong> 500 funciones que abarcan una gran gama <strong>de</strong> áreas <strong>en</strong> el proceso <strong>de</strong><br />
visión, como reconocimi<strong>en</strong>to <strong>de</strong> objetos (reconocimi<strong>en</strong>to facial), calibración <strong>de</strong><br />
cámaras, visión estéreo y visión robótica.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 48
4. Diseño<br />
4.3. Estructura g<strong>en</strong>eral<br />
En esta sección se <strong>de</strong>scribe la estructura <strong>de</strong>l sistema global (Figura 4.1) y se hará una<br />
introducción <strong>de</strong> las técnicas usadas <strong>en</strong> el <strong>de</strong>sarrollo. El sistema g<strong>en</strong>eral se divi<strong>de</strong> <strong>en</strong> tres<br />
fases principales. Estas tres fases se correspon<strong>de</strong>n con la estructura <strong>de</strong> los sistemas<br />
automáticos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> la cual ya se ha hablado antes <strong>en</strong> el apartado <strong>de</strong><br />
fundam<strong>en</strong>tos <strong>de</strong> la biometría. A estas tres fases principales se pue<strong>de</strong> añadir una nueva<br />
fase que sería el procesado <strong>de</strong> la señal la cual, a pesar <strong>de</strong> no ser es<strong>en</strong>cial, nos va a<br />
permitir <strong>en</strong>t<strong>en</strong><strong>de</strong>r y manejar <strong>de</strong> una forma más efici<strong>en</strong>te los datos <strong>de</strong> <strong>en</strong>trada y va a<br />
ayudar a mejorar el sistema <strong>de</strong> reconocimi<strong>en</strong>to. De esta manera el sistema queda<br />
dividido <strong>en</strong> las sigui<strong>en</strong>tes etapas:<br />
4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o, <strong>en</strong> esta fase se pue<strong>de</strong> añadir el procesado <strong>de</strong><br />
la señal.<br />
4.3.2. Extracción <strong>de</strong> características.<br />
4.3.3. Comparador y <strong>de</strong>cisor.<br />
Secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
Ví<strong>de</strong>o <strong>de</strong> acción ejemplo<br />
Procesado <strong>de</strong> la<br />
señal<br />
Procesado <strong>de</strong> la<br />
señal<br />
Extracción <strong>de</strong><br />
características<br />
Extracción <strong>de</strong><br />
características<br />
Comparador<br />
Base <strong>de</strong> datos<br />
Umbral<br />
Decisor<br />
Figura 4.1: Esquema g<strong>en</strong>eral <strong>de</strong>l algoritmo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 49
4. Diseño<br />
4.3.1. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
En esta primera fase se introduc<strong>en</strong> <strong>en</strong> el sistema tanto los vi<strong>de</strong>os que conti<strong>en</strong><strong>en</strong> los<br />
movimi<strong>en</strong>tos ejemplo sobre los que queremos trabajar como las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />
pret<strong>en</strong><strong>de</strong>mos analizar, <strong>en</strong> las que aparec<strong>en</strong> distintos movimi<strong>en</strong>tos humanos que<br />
aspiramos po<strong>de</strong>r discernir. Una vez t<strong>en</strong>emos los ví<strong>de</strong>os <strong>de</strong>ntro <strong>de</strong>l sistema proce<strong>de</strong>mos a<br />
realizar las difer<strong>en</strong>tes operaciones que nos permit<strong>en</strong> trabajar <strong>en</strong> las sigui<strong>en</strong>tes fases,<br />
estas operaciones compon<strong>en</strong> la etapa <strong>de</strong>l procesado <strong>de</strong> la señal. El diseño <strong>de</strong> esta fase se<br />
pue<strong>de</strong> observar <strong>en</strong> la figura 4.2.<br />
Si estamos <strong>en</strong> el modo <strong>de</strong> registro <strong>de</strong> un movimi<strong>en</strong>to ejemplo, que más a<strong>de</strong>lante<br />
queremos <strong>de</strong>tectar, una vez que se han recogido los datos <strong>de</strong>l ví<strong>de</strong>o frame a frame, como<br />
particularidad <strong>de</strong> este modo <strong>en</strong> esta fase, se guarda como tamaño <strong>de</strong> la v<strong>en</strong>tana, para<br />
luego analizar las sigui<strong>en</strong>tes secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, el número <strong>de</strong> frames <strong>de</strong>l ví<strong>de</strong>o <strong>de</strong>l<br />
movimi<strong>en</strong>to ejemplo.<br />
Una vez que se han introducido los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que se pret<strong>en</strong><strong>de</strong><br />
analizar <strong>en</strong> el sistema pasamos a la etapa <strong>de</strong> procesado <strong>de</strong> la señal, esta etapa se pue<strong>de</strong><br />
dividir <strong>en</strong> dos operaciones fundam<strong>en</strong>tales, i) es la segm<strong>en</strong>tación <strong>de</strong>l foreground y <strong>de</strong>l<br />
background y ii) realizar una pirámi<strong>de</strong> temporal <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o introducida.<br />
Por un lado mediante la segm<strong>en</strong>tación obt<strong>en</strong>emos una media <strong>de</strong>l fondo que luego<br />
utilizaremos para separar correctam<strong>en</strong>te el foreground <strong>de</strong>l backgruond. Y por otro lado<br />
<strong>en</strong> cada iteración escogemos una v<strong>en</strong>tana <strong>de</strong> frames <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, a la cual<br />
aplicamos una serie <strong>de</strong> operaciones para obt<strong>en</strong>er una pirámi<strong>de</strong> temporal <strong>de</strong> tres niveles,<br />
para más a<strong>de</strong>lante po<strong>de</strong>r obt<strong>en</strong>er medidas <strong>de</strong> la secu<strong>en</strong>cia <strong>en</strong> difer<strong>en</strong>tes escalas<br />
temporales.<br />
Secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
Procesado <strong>de</strong> la señal<br />
Segm<strong>en</strong>tación<br />
Pirámi<strong>de</strong> temporal<br />
Figura 4.2: Esquema <strong>de</strong> la fase captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 50
4. Diseño<br />
4.3.2. Extracción <strong>de</strong> características<br />
Esta segunda fase <strong>en</strong>globa la mayor parte <strong>de</strong> las operaciones que se realizan <strong>en</strong> el<br />
algoritmo, la tarea principal que se int<strong>en</strong>ta <strong>de</strong>sarrollar <strong>en</strong> esta etapa consiste <strong>en</strong> extraer<br />
únicam<strong>en</strong>te las características que son más discriminantes <strong>en</strong>tre los distintitos tipos <strong>de</strong><br />
acciones humanas, procurando que estas características permanezcan invariantes para<br />
distintas personas que realizan el mismo movimi<strong>en</strong>to. Al mismo tiempo se elimina la<br />
información <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que no sea interesante ni útil para el proceso <strong>de</strong><br />
reconocimi<strong>en</strong>to <strong>de</strong> movimi<strong>en</strong>tos, como por ejemplo reduci<strong>en</strong>do la zona <strong>en</strong> cada frame<br />
don<strong>de</strong> se buscan los pixeles que conti<strong>en</strong><strong>en</strong> las características que necesitamos para<br />
caracterizar un movimi<strong>en</strong>to, el hecho <strong>de</strong> eliminar esta información que no nos es útil<br />
provoca que se reduzca la duración <strong>de</strong>l proceso y el coste computacional. El esquema<br />
<strong>de</strong> esta fase lo po<strong>de</strong>mos <strong>en</strong>contrar <strong>en</strong> la figura 4.3.<br />
En esta fase se trabaja fundam<strong>en</strong>talm<strong>en</strong>te sobre los tres ví<strong>de</strong>os que correspon<strong>de</strong>n a cada<br />
uno <strong>de</strong> los tres niveles <strong>de</strong> la pirámi<strong>de</strong> temporal que hemos obt<strong>en</strong>ido <strong>en</strong> la fase anterior<br />
operando sobre la v<strong>en</strong>tana correspondi<strong>en</strong>te <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o inicial. El primer<br />
paso consiste <strong>en</strong> calcular los gradi<strong>en</strong>tes <strong>en</strong> los ejes ‘x’, ‘y’ y tiempo <strong>de</strong> los ví<strong>de</strong>os <strong>de</strong> la<br />
pirámi<strong>de</strong> temporal, para a continuación obt<strong>en</strong>er así nueve conjuntos <strong>de</strong> matrices que<br />
seguidam<strong>en</strong>te pasamos a normalizar.<br />
En el sigui<strong>en</strong>te paso se utiliza la media <strong>de</strong>l fondo, obt<strong>en</strong>ida <strong>en</strong> la etapa <strong>de</strong> procesado <strong>de</strong><br />
la señal <strong>de</strong> la primera fase <strong>de</strong>l algoritmo, para realizar una segm<strong>en</strong>tación <strong>de</strong> los tres<br />
ví<strong>de</strong>os <strong>de</strong> la pirámi<strong>de</strong> temporal mediante la cual separamos el foreground <strong>de</strong>l<br />
background. Una vez hemos conseguido saber <strong>en</strong> qué zonas <strong>de</strong> cada frame se produce el<br />
movimi<strong>en</strong>to po<strong>de</strong>mos in<strong>de</strong>p<strong>en</strong>dizar y hacer el seguimi<strong>en</strong>to <strong>de</strong> los movimi<strong>en</strong>tos <strong>de</strong><br />
difer<strong>en</strong>tes personas que aparezcan <strong>en</strong> la secu<strong>en</strong>cia, también conseguimos reducir el área<br />
<strong>de</strong> cada frame <strong>en</strong> la que vamos a buscar los pixeles que nos interesan para caracterizar<br />
cada acción, lo que como ya hemos com<strong>en</strong>tado nos va a permitir ahorrar tiempo y coste<br />
computacional.<br />
Una vez t<strong>en</strong>emos los gradi<strong>en</strong>tes <strong>en</strong> los tres ejes y su normalización junto con la<br />
segm<strong>en</strong>tación <strong>de</strong>l foreground llegamos a la etapa <strong>en</strong> la que introducimos los datos <strong>en</strong><br />
los histogramas que van a caracterizar el movimi<strong>en</strong>to. Para ello lo que hacemos es<br />
utilizar un umbral para <strong>de</strong>tectar <strong>en</strong> el conjunto <strong>de</strong> matrices <strong>de</strong>l gradi<strong>en</strong>te <strong>de</strong>l eje <strong>de</strong>l<br />
tiempo los pixeles <strong>de</strong> cada frame <strong>en</strong> los que se produce el movimi<strong>en</strong>to, una vez t<strong>en</strong>emos<br />
estos pixeles escogemos sólo los que coinci<strong>de</strong>n con los pixeles <strong>de</strong>l foreground que<br />
hemos extraído con la segm<strong>en</strong>tación. Por último introducimos <strong>en</strong> los histogramas los<br />
valores <strong>de</strong> los difer<strong>en</strong>tes conjuntos <strong>de</strong> matrices <strong>de</strong> los gradi<strong>en</strong>tes normalizados que<br />
correspon<strong>de</strong>n con la posición <strong>de</strong> los pixeles que hemos escogido. Para conseguir<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 51
4. Diseño<br />
caracterizar correctam<strong>en</strong>te un movimi<strong>en</strong>to usamos nueve histogramas uno por cada uno<br />
<strong>de</strong> los tres gradi<strong>en</strong>tes <strong>de</strong> los tres ví<strong>de</strong>os <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />
Segm<strong>en</strong>tación foreground<br />
Gradi<strong>en</strong>tes (x, y, t)<br />
In<strong>de</strong>p<strong>en</strong>dizar movimi<strong>en</strong>tos<br />
Normalización<br />
Histogramas<br />
Figura 4.3: Esquema <strong>de</strong> la fase extracción <strong>de</strong> características.<br />
4.3.3. Comparador y <strong>de</strong>cisor<br />
En esta última fase <strong>de</strong>l algoritmo una vez que mediante los histogramas hemos extraído<br />
las características más significativas con las que se <strong>de</strong>fine un movimi<strong>en</strong>to que aparece<br />
<strong>en</strong> la secu<strong>en</strong>cia que estamos estudiando, estos histogramas se comparan con el conjunto<br />
<strong>de</strong> histogramas <strong>de</strong> la acción o acciones ejemplo que hemos almac<strong>en</strong>ado con anterioridad<br />
<strong>en</strong> la base <strong>de</strong> datos <strong>de</strong>l sistema, para po<strong>de</strong>r así <strong>de</strong>terminar si se trata <strong>de</strong>l mismo<br />
movimi<strong>en</strong>to o no. Esta comparación se realiza mediante una operación que nos da como<br />
resultado la “distancia <strong>de</strong> comportami<strong>en</strong>to”, D 2 <strong>en</strong>tre dos secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, la<br />
fórmula utilizada es la sigui<strong>en</strong>te:<br />
∑<br />
,,<br />
<br />
<br />
<br />
<br />
K € {x, y, t}<br />
l= 1,…, L (niveles <strong>de</strong> pirámi<strong>de</strong> temporal)<br />
i= 1,…, nº <strong>de</strong> divisiones histograma<br />
(4.1)<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 52
4. Diseño<br />
Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> que estamos usando, k el eje con el que estamos<br />
trabajando e i el número <strong>de</strong> bin <strong>de</strong>l histograma <strong>en</strong> el que nos <strong>en</strong>contramos; h 1 y h 2<br />
repres<strong>en</strong>tan los histogramas correspondi<strong>en</strong>tes a la acción ejemplo y al movimi<strong>en</strong>to<br />
estudiado respectivam<strong>en</strong>te.<br />
Ya con esta medida <strong>de</strong> similitud <strong>en</strong>tre dos secu<strong>en</strong>cias lo único que falta por hacer es,<br />
utilizando un umbral, <strong>de</strong>cidir si la acción que aparece el ví<strong>de</strong>o analizado correspon<strong>de</strong><br />
con nuestra acción ejemplo y esta <strong>de</strong>cisión sería nuestro resultado.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 53
4. Diseño<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 54
5. Desarrollo<br />
5. Desarrollo<br />
5.1. Introducción<br />
A lo largo <strong>de</strong> este capítulo se <strong>de</strong>talla <strong>en</strong> profundidad como se ha llevado a cabo la<br />
implem<strong>en</strong>tación <strong>de</strong>l algoritmo <strong>de</strong>scrito <strong>en</strong> esta memoria cuyo objetivo principal,<br />
consiste <strong>en</strong> el reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> vi<strong>de</strong>os basándose <strong>en</strong> acciones ejemplo.<br />
Como recordatorio <strong>de</strong>cir que para <strong>de</strong>sarrollar este algoritmo nos hemos <strong>basado</strong><br />
inicialm<strong>en</strong>te <strong>en</strong> el trabajo <strong>de</strong> Zelnik-Manor e Irani, <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical<br />
Analysis of Dynamic Actions”[1].<br />
Es por ello que a continuación se explicarán las <strong>de</strong>cisiones que hemos tomado <strong>en</strong> cada<br />
una <strong>de</strong> las fases <strong>en</strong> base a que técnica es mejor, <strong>de</strong>scribi<strong>en</strong>do los criterios<br />
discriminatorios elegidos y explicando <strong>en</strong> <strong>de</strong>talle cada una <strong>de</strong> las fases <strong>de</strong>l sistema <strong>de</strong><br />
reconocimi<strong>en</strong>to <strong>de</strong> acciones <strong>en</strong> vi<strong>de</strong>o. Las tres fases principales que hemos<br />
implem<strong>en</strong>tado <strong>en</strong> el algoritmo son: i) <strong>en</strong> la primera fase se capturan los datos <strong>de</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o, se realiza la segm<strong>en</strong>tación para así conseguir <strong>en</strong>contrar las regiones<br />
<strong>de</strong> fondo y se crea la pirámi<strong>de</strong> temporal, ii) <strong>en</strong> la fase <strong>de</strong> extracción <strong>de</strong> características se<br />
g<strong>en</strong>eran los gradi<strong>en</strong>tes, se in<strong>de</strong>p<strong>en</strong>dizan los difer<strong>en</strong>tes movimi<strong>en</strong>tos que se produc<strong>en</strong> <strong>en</strong><br />
la esc<strong>en</strong>a y se crean los histogramas que caracterizan las distintas acciones y iii) <strong>en</strong> la<br />
última la fase <strong>en</strong> la que se realiza la comparación y la <strong>de</strong>cisión final. Como se pue<strong>de</strong><br />
observar estas tres fases son equival<strong>en</strong>tes a las que hemos com<strong>en</strong>tado <strong>de</strong> forma<br />
superficial <strong>en</strong> el capítulo anterior. En la figura 5.1 po<strong>de</strong>mos ver un ejemplo <strong>de</strong> lo que<br />
queremos conseguir con este sistema.<br />
(a)<br />
(b)<br />
(a)<br />
(c)<br />
Figura 5.1: En las tres<br />
primeras imág<strong>en</strong>es se observan<br />
las acciones puñetazo, patada y<br />
agacharse, que son los tres<br />
movimi<strong>en</strong>tos que po<strong>de</strong>mos ver<br />
<strong>en</strong> el ví<strong>de</strong>o. La gráfica muestra<br />
la medida <strong>de</strong> distancia <strong>en</strong>tre un<br />
ejemplo <strong>de</strong> la acción puñetazo y<br />
el resto <strong>de</strong> subsecu<strong>en</strong>cias.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 55
5. Desarrollo<br />
5.2. Captura <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
5.2.1. Captura <strong>de</strong> los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
Al com<strong>en</strong>zar el algoritmo lo primero que hacemos es obt<strong>en</strong>er la información g<strong>en</strong>eral<br />
que <strong>de</strong>scribe cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, concretam<strong>en</strong>te la información que se busca es la<br />
sigui<strong>en</strong>te (Figura 5.2):<br />
• Nombre <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o: se<br />
utilizara para saber con que ví<strong>de</strong>o estamos<br />
trabajando y para dar nombre a los ficheros y<br />
ví<strong>de</strong>os <strong>de</strong> los correspondi<strong>en</strong>tes resultados.<br />
• Número <strong>de</strong> frames: Este dato se<br />
utilizara para g<strong>en</strong>erar los gradi<strong>en</strong>tes, para<br />
realizar la segm<strong>en</strong>tación, para el cálculo <strong>de</strong><br />
los histogramas, etc. En g<strong>en</strong>eral <strong>en</strong> casi todo<br />
el sistema.<br />
• Alto y ancho <strong>de</strong> cada frame: Cada<br />
una <strong>de</strong> las matrices que utilizaremos más<br />
a<strong>de</strong>lante t<strong>en</strong>drán los mismos valores <strong>de</strong> acho<br />
y alto que los <strong>de</strong> la secu<strong>en</strong>cia inicial.<br />
• La tasa <strong>de</strong> frames: Los ví<strong>de</strong>os<br />
resultado t<strong>en</strong>drán la misma tasa <strong>de</strong> frames.<br />
• Código <strong>de</strong> có<strong>de</strong>c: Los ví<strong>de</strong>os<br />
resultado se guardaran con la misma<br />
codificación.<br />
Figura 5.2: Ejemplo <strong>de</strong> la información que obt<strong>en</strong>emos <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />
introducimos <strong>en</strong> el sistema. En este ejemplo se muestra <strong>en</strong> los dos primeros bloques la<br />
información <strong>de</strong> dos secu<strong>en</strong>cias que conti<strong>en</strong><strong>en</strong> movimi<strong>en</strong>tos ejemplo y <strong>en</strong> el tercer bloque la<br />
información <strong>de</strong> la secu<strong>en</strong>cia que queremos analizar.<br />
Justo <strong>de</strong>spués <strong>de</strong> obt<strong>en</strong>er esta información <strong>de</strong>l ví<strong>de</strong>o que queremos analizar, pasamos a<br />
capturar los datos <strong>de</strong> todos los frames <strong>de</strong> la secu<strong>en</strong>cia, guardándolos <strong>en</strong> difer<strong>en</strong>tes<br />
conjuntos <strong>de</strong> matrices para su posterior utilización durante el algoritmo. Para esta tarea<br />
necesitamos cuatro conjuntos <strong>de</strong> matrices.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 56
5. Desarrollo<br />
Para rell<strong>en</strong>ar el primer conjunto <strong>de</strong> matrices guardamos los datos <strong>de</strong> la secu<strong>en</strong>cia una<br />
vez que es convertida a escala <strong>de</strong> grises, este conjunto lo usaremos más a<strong>de</strong>lante para la<br />
segm<strong>en</strong>tación <strong>de</strong>l fondo, para in<strong>de</strong>p<strong>en</strong>dizar los movimi<strong>en</strong>tos y para g<strong>en</strong>erar el ví<strong>de</strong>o<br />
resultado. En los tres conjuntos <strong>de</strong> matrices restantes guardamos los datos <strong>de</strong> cada una<br />
<strong>de</strong> las tres compon<strong>en</strong>tes primarias <strong>de</strong> color (RGB) <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, es <strong>de</strong>cir <strong>en</strong><br />
un conjunto se guardan los datos que correspon<strong>de</strong>n a los rojos, <strong>en</strong> otro los datos que<br />
correspon<strong>de</strong>n a los ver<strong>de</strong>s y <strong>en</strong> el tercero los que correspon<strong>de</strong>n a los azules, estos tres<br />
conjuntos <strong>de</strong> matrices se usaran posteriorm<strong>en</strong>te para g<strong>en</strong>erar las difer<strong>en</strong>tes escalas<br />
temporales <strong>de</strong> la secu<strong>en</strong>cia con las que vamos a trabajar y para calcular los gradi<strong>en</strong>tes.<br />
5.2.2 Segm<strong>en</strong>tación para la substracción <strong>de</strong>l fondo<br />
Un punto importante <strong>en</strong> el procesado <strong>de</strong> la señal es el <strong>de</strong> la segm<strong>en</strong>tación para la<br />
substracción <strong>de</strong>l fondo, ya que nos va a ser muy útil <strong>en</strong> los pasos posteriores <strong>de</strong>l<br />
algoritmo. En esta etapa inicializamos y repres<strong>en</strong>tamos un mo<strong>de</strong>lo <strong>de</strong> fondo robusto <strong>de</strong><br />
la secu<strong>en</strong>cia <strong>de</strong> vi<strong>de</strong>o analizada, para conseguir esto el fondo se <strong>de</strong>scribe mediante un<br />
mo<strong>de</strong>lo matemático para cada píxel <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> cada instante <strong>de</strong> tiempo.<br />
El mo<strong>de</strong>lo o método que hemos escogido para repres<strong>en</strong>tar el fondo consiste <strong>en</strong> el<br />
método <strong>de</strong> la media o mediana, calculamos el fondo como la media <strong>de</strong> ‘n’ frames<br />
(normalm<strong>en</strong>te escogemos <strong>en</strong>tre 100-150 frames) <strong>de</strong> la secu<strong>en</strong>cia, cada ‘n’ frames<br />
volvemos a calcular una nueva media <strong>de</strong>l fondo. Si el número <strong>de</strong> frames totales <strong>de</strong> la<br />
secu<strong>en</strong>cia no es superior a ‘2n’ frames o es inferior a ‘n’ frames se calcula la media <strong>de</strong>l<br />
fondo con la totalidad <strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o. Si a<strong>de</strong>más <strong>de</strong>spués <strong>de</strong> hacer la última<br />
media <strong>de</strong>l fondo el número <strong>de</strong> frames que restan <strong>de</strong> la secu<strong>en</strong>cia es inferior a ‘n’ frames,<br />
estos frames restantes también se usaran para hacer la última media <strong>de</strong>l fondo. En la<br />
figura 5.3 se muestra algunos <strong>de</strong> los resultados que obt<strong>en</strong>emos al usar este método <strong>de</strong><br />
substracción <strong>de</strong>l fondo.<br />
<br />
, ∑ , <br />
(5.1)<br />
La utilización <strong>de</strong> este método <strong>en</strong> concreto se <strong>de</strong>be a que normalm<strong>en</strong>te <strong>en</strong> la mayoría <strong>de</strong><br />
los ví<strong>de</strong>os que vamos a analizar con este sistema el tipo <strong>de</strong> fondo que aparece es<br />
unimodal (Figura 5.3 a) y b)), <strong>en</strong> este tipo <strong>de</strong> fondo los valores <strong>de</strong> los pixeles <strong>de</strong>l fondo<br />
no cambian a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia, la cámara suele ser estática y no se produc<strong>en</strong><br />
variaciones <strong>en</strong> la iluminación. Aunque también el sistema funciona con algunos fondos<br />
multimodales (Figura 5.3 c)) <strong>en</strong> los que la cámara permanece estática y no hay cambios<br />
<strong>en</strong> la iluminación, pero si exist<strong>en</strong> objetos que pert<strong>en</strong>ec<strong>en</strong> al fondo que están <strong>en</strong> leve<br />
movimi<strong>en</strong>to (como olas <strong>de</strong> mar) o hay cambios <strong>en</strong> la geometría <strong>de</strong>l fondo (aparición <strong>de</strong><br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 57
5. Desarrollo<br />
nuevos objetos estáticos), este último problema se soluciona gracias a que vamos<br />
actualizando el fondo cada ‘n’ frames.<br />
(a)<br />
(b) (c)<br />
Figura 5.3: Tres <strong>ejemplos</strong> <strong>de</strong> substracción <strong>de</strong> fondo <strong>en</strong> tres secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o difer<strong>en</strong>tes <strong>en</strong><br />
las que trabajamos con distintos <strong>en</strong>tornos.<br />
En esta misma etapa a<strong>de</strong>más <strong>de</strong> la media <strong>de</strong>l fondo también aprovechamos para calcular<br />
cada ‘n’ frames la <strong>de</strong>sviación típica <strong>de</strong>l fondo, la cual almac<strong>en</strong>aremos para usarla <strong>en</strong> una<br />
etapa futura <strong>en</strong> la que <strong>de</strong>bemos hacer la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te, ya que para <strong>de</strong>tectar las<br />
zonas <strong>en</strong> las que se produce el movimi<strong>en</strong>to utilizaremos técnicas basadas <strong>en</strong> gaussiana y<br />
para ello necesitaremos tanto la media <strong>de</strong>l fondo como su <strong>de</strong>sviación típica.<br />
5.2.3. Creación <strong>de</strong> la pirámi<strong>de</strong> temporal<br />
Por otro lado para po<strong>de</strong>r comparar nuestra secu<strong>en</strong>cia con los difer<strong>en</strong>tes movimi<strong>en</strong>tos<br />
ejemplo <strong>de</strong>bemos ir analizando el ví<strong>de</strong>o escogi<strong>en</strong>do una v<strong>en</strong>tana <strong>de</strong> ‘M’ frames <strong>en</strong> cada<br />
iteración. Estos ‘M’ frames correspon<strong>de</strong>n al número <strong>de</strong> frames que compon<strong>en</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e el movimi<strong>en</strong>to ejemplo que estemos estudiando. En<br />
cada nueva iteración para conseguir la sigui<strong>en</strong>te v<strong>en</strong>tana <strong>de</strong>sechamos el primer frame<br />
<strong>de</strong>l conjunto anterior y añadimos un nuevo frame al final. Vamos a trabajar con cada<br />
una <strong>de</strong> las subsecu<strong>en</strong>cias que obt<strong>en</strong>emos y sobre cada una <strong>de</strong> ellas vamos a crear una<br />
pirámi<strong>de</strong> temporal.<br />
El hecho <strong>de</strong> crear la pirámi<strong>de</strong> temporal <strong>de</strong> cada a subsecu<strong>en</strong>cia se <strong>de</strong>be a que nos permite<br />
comparar una misma acción <strong>en</strong> difer<strong>en</strong>tes escalas temporales. Normalm<strong>en</strong>te una acción<br />
específica se ejecuta con aproximadam<strong>en</strong>te la misma velocidad, por lo tanto para ví<strong>de</strong>os<br />
con la misma tasa <strong>de</strong> frames y sin t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta el resto <strong>de</strong> parámetros, una misma<br />
acción que realizan dos personas distintas o es realizada por una persona pero captada<br />
por dos cámaras distintas se ext<strong>en</strong><strong>de</strong>rá <strong>de</strong> forma aproximada por el mismo número <strong>de</strong><br />
frames. Esto nos indica que normalm<strong>en</strong>te podremos difer<strong>en</strong>ciar dos activida<strong>de</strong>s sin t<strong>en</strong>er<br />
que utilizar difer<strong>en</strong>tes escalas temporales, aunque el hecho <strong>de</strong> utilizar difer<strong>en</strong>tes escalas<br />
temporales nos favorece a la hora <strong>de</strong> obt<strong>en</strong>er una mejor medida <strong>de</strong> similitud <strong>en</strong>tre dos<br />
acciones. Sin embargo, la comparación a través <strong>de</strong> escalas temporales es imprescindible<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
58
5. Desarrollo<br />
si queremos po<strong>de</strong>r difer<strong>en</strong>ciar acciones cuando estas son capturadas <strong>en</strong> múltiples escalas<br />
temporales, es <strong>de</strong>cir, si una misma actividad se realiza con velocida<strong>de</strong>s<br />
significativam<strong>en</strong>te difer<strong>en</strong>tes. <strong>en</strong>tes. También es posible que aún ayudándonos <strong>de</strong>l uso <strong>de</strong><br />
difer<strong>en</strong>tes escalas temporales no consigamos distinguir correctam<strong>en</strong>te dos acciones<br />
distintas <strong>de</strong>bido a su similitud tanto <strong>en</strong> velocidad como <strong>en</strong> movimi<strong>en</strong>to, como por<br />
ejemplo distinguir <strong>en</strong>tre marchar (andar rápidam<strong>en</strong>te) y hacer footing.<br />
Para obt<strong>en</strong>er las múltiples escalas temporales que constituy<strong>en</strong> la pirámi<strong>de</strong> temporal el<br />
proceso que utilizamos consiste <strong>en</strong> hacer un muestreo <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o<br />
inicial y seguidam<strong>en</strong>te hacer un filtrado paso-bajo a lo largo <strong>de</strong> la dirección temporal.<br />
La pirámi<strong>de</strong> temporal (Figura 5.4) <strong>de</strong> una secu<strong>en</strong>cia S es una pirámi<strong>de</strong> <strong>de</strong> secu<strong>en</strong>cias<br />
S 1 (=S); S 2 ;...; S L , don<strong>de</strong> los frames <strong>de</strong> imag<strong>en</strong> <strong>en</strong> todos los niveles (secu<strong>en</strong>cias) <strong>de</strong>ntro<br />
<strong>de</strong> la pirámi<strong>de</strong> son <strong>de</strong>l mismo tamaño, y cada secu<strong>en</strong>cia S l ti<strong>en</strong>e la mitad <strong>de</strong>l número <strong>de</strong><br />
frames <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> resolución inmediatam<strong>en</strong>te anterior S l-1 .<br />
L=3<br />
S 3<br />
m/4 frames<br />
S 2<br />
m/2 frames<br />
S 1 m frames<br />
Figura 5.4: Esquema <strong>de</strong> la pirámi<strong>de</strong> temporal que vamos a utilizar durante el algoritmo.<br />
5.3. . Extracción <strong>de</strong> características<br />
5.3.1. Cálculo <strong>de</strong> los gradi<strong>en</strong>tes<br />
En este apartado vamos a explicar el proceso por el cual calculamos los gradi<strong>en</strong>tes <strong>en</strong><br />
los ejes ‘x’, ‘y’ y ‘t’ <strong>de</strong> los conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan la secu<strong>en</strong>cia. El<br />
gradi<strong>en</strong>te <strong>de</strong>nota una dirección <strong>en</strong> la que se aprecia una variación <strong>de</strong> una <strong>de</strong>terminada<br />
propiedad o magnitud física, <strong>en</strong> nuestro caso el gradi<strong>en</strong>te <strong>en</strong> los ejes ‘x’ e ‘y' nos servirá<br />
para i<strong>de</strong>ntificar los cambios <strong>de</strong> los valores <strong>de</strong> los píxeles <strong>de</strong> un mismo frame <strong>en</strong> el<br />
espacio, y el gradi<strong>en</strong>te <strong>en</strong> el tiempo nos aportará información <strong>de</strong> cómo varían los píxeles<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
59
5. Desarrollo<br />
a lo largo <strong>de</strong> difer<strong>en</strong>tes frame, con lo que podremos <strong>de</strong>tectar el movimi<strong>en</strong>to que se<br />
produce <strong>en</strong> la secu<strong>en</strong>cia. Esta etapa es fundam<strong>en</strong>tal <strong>de</strong>ntro <strong>de</strong> nuestro sistema ya que <strong>de</strong><br />
ella obt<strong>en</strong>dremos la mayor parte <strong>de</strong> los datos que nos van a ayudar a caracterizar las<br />
difer<strong>en</strong>tes acciones y movimi<strong>en</strong>tos.<br />
En este punto vamos a trabajar con los tres conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan las<br />
tres compon<strong>en</strong>tes primarias <strong>de</strong> color (rojo, ver<strong>de</strong>, azul) <strong>de</strong> la subsecu<strong>en</strong>cia <strong>de</strong> tamaño<br />
‘M’ frames que estamos analizando, a las cuales hemos aplicado un proceso para<br />
g<strong>en</strong>erar una pirámi<strong>de</strong> temporal <strong>de</strong> cada uno <strong>de</strong> los tres conjuntos. Por lo tanto usaremos<br />
nueve ví<strong>de</strong>os, tres por cada nivel <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />
Para cada nivel (la secu<strong>en</strong>cia) S l <strong>de</strong> la pirámi<strong>de</strong> temporal, estimamos los gradi<strong>en</strong>tes <strong>de</strong><br />
int<strong>en</strong>sidad espacio-temporal local (S l x; S l y; S l t) <strong>en</strong> todos los puntos espacio-temporales.<br />
Para conseguir esto aplicamos a cada uno <strong>de</strong> los tres conjuntos <strong>de</strong> matrices, que<br />
repres<strong>en</strong>tan las compon<strong>en</strong>tes primarias <strong>de</strong> color <strong>de</strong> un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal, tres<br />
filtros <strong>de</strong> Sobel <strong>de</strong> tres dim<strong>en</strong>siones <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te, uno por cada eje (eje ‘x’,<br />
eje ‘y’ y eje tiempo), los filtros son los sigui<strong>en</strong>tes (Figura 5.5):<br />
Filtro <strong>de</strong> Sobel para el eje X: Filtro <strong>de</strong> Sobel para el eje Y:<br />
Filtro <strong>de</strong> Sobel para el eje T:<br />
1 0 1<br />
2 0 2<br />
1 0 1<br />
2 0 2<br />
4 0 4<br />
2 0 2<br />
1 0 1<br />
2 0 2<br />
1 0 1<br />
1 2 1<br />
0 0 0 <br />
1 2 1<br />
2 4 2<br />
0 0 0 <br />
2 4 2<br />
1 2 1<br />
0 0 0 <br />
1 2 1<br />
1 2 1<br />
2 4 2<br />
1 2 1<br />
0 0 0<br />
0 0 0<br />
0 0 0<br />
1 2 1<br />
2 4 2<br />
1 2 1<br />
Figura 5.5: Filtros <strong>de</strong> Sobel.<br />
Inmediatam<strong>en</strong>te <strong>de</strong>spués <strong>de</strong> aplicar los filtros <strong>de</strong> Sobel obt<strong>en</strong>dremos como resultado tres<br />
conjuntos <strong>de</strong> matrices uno por cada compon<strong>en</strong>te primaria <strong>de</strong> color por cada uno <strong>de</strong> los<br />
ejes <strong>de</strong> gradi<strong>en</strong>te, <strong>en</strong>tonces para rell<strong>en</strong>ar cada valor <strong>de</strong>l conjunto <strong>de</strong> matrices que<br />
repres<strong>en</strong>tan cada gradi<strong>en</strong>te <strong>de</strong> un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal (Figura 5.6) hacemos la<br />
sigui<strong>en</strong>te selección: escogemos para cada uno <strong>de</strong> los valores <strong>de</strong> gradi<strong>en</strong>te, que<br />
repres<strong>en</strong>taría cada pixel <strong>de</strong> los frames <strong>de</strong> un gradi<strong>en</strong>te, el valor correspondi<strong>en</strong>te que sea<br />
mayor <strong>en</strong>tre los tres conjuntos <strong>de</strong> matrices <strong>de</strong> compon<strong>en</strong>te <strong>de</strong> color primaria que hemos<br />
obt<strong>en</strong>ido por cada gradi<strong>en</strong>te. Esto nos da como v<strong>en</strong>taja t<strong>en</strong>er un mayor contraste <strong>en</strong>tre el<br />
primer plano y el fondo logrando una mayor información conductual.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 60
5. Desarrollo<br />
Figura 5.6: Volum<strong>en</strong> espacio-temporal<br />
S correspondi<strong>en</strong>te a una persona<br />
caminando. El gradi<strong>en</strong>te espaciotemporal<br />
(S x , S y , S t )se estima <strong>en</strong> cada<br />
punto espacio-temporal (x, y, t).<br />
El gradi<strong>en</strong>te es normal a la superficie espacio-temporal local g<strong>en</strong>erada según el<br />
movimi<strong>en</strong>to <strong>en</strong> el volum<strong>en</strong> espacio-temporal <strong>de</strong> la secu<strong>en</strong>cia (<strong>en</strong> la resolución temporal<br />
l). Así, la dirección <strong>de</strong> gradi<strong>en</strong>te captura la ori<strong>en</strong>tación superficial local, que <strong>de</strong>p<strong>en</strong><strong>de</strong><br />
sobre todo <strong>de</strong> las propieda<strong>de</strong>s conductuales locales <strong>de</strong>l objeto móvil, mi<strong>en</strong>tras su<br />
magnitud <strong>de</strong>p<strong>en</strong><strong>de</strong> principalm<strong>en</strong>te <strong>de</strong> las propieda<strong>de</strong>s fotométricas locales <strong>de</strong>l objeto<br />
móvil y es afectada por su aspecto espacial (p.ej., el contraste, el color, la textura <strong>de</strong> la<br />
ropa, la iluminación, etc.).<br />
(i)<br />
(a) (b) (c)<br />
(d)<br />
(e)<br />
(f)<br />
(g)<br />
(h)<br />
(i)<br />
Figura 5.7: En (a), (b) y (c) muestran <strong>ejemplos</strong> <strong>de</strong> un frame <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje ‘x’, cada<br />
imag<strong>en</strong> correspon<strong>de</strong> a un nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la acción <strong>de</strong> caminar. En (d), (e) y<br />
(f) se muestra el mismo ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje ’y’. Por último (g), (h) y (i)<br />
muestran el mismo ejemplo pero <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje <strong>de</strong>l tiempo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 61
5. Desarrollo<br />
Una vez hemos obt<strong>en</strong>ido los nueve conjuntos <strong>de</strong> matrices que correspon<strong>de</strong>n a los<br />
gradi<strong>en</strong>tes <strong>de</strong> int<strong>en</strong>sidad espacio-temporal (figura 5.7) con los que po<strong>de</strong>mos repres<strong>en</strong>tar<br />
un movimi<strong>en</strong>to, pasamos a normalizarlos para int<strong>en</strong>tar conseguir conservar solam<strong>en</strong>te la<br />
información conductual (ori<strong>en</strong>tación) y eliminar tanta compon<strong>en</strong>te fotométrica como<br />
sea posible (la magnitud). Para que el mo<strong>de</strong>lo sea invariante a la dirección <strong>de</strong> la acción<br />
(por ejemplo <strong>de</strong> <strong>de</strong>recha a izquierda o <strong>de</strong> izquierda a <strong>de</strong>recha), tomamos el valor<br />
absoluto <strong>de</strong> los gradi<strong>en</strong>tes normalizados. En la fórmula 5.2 se <strong>de</strong>scribe la normalización<br />
<strong>de</strong> la que haremos uso.<br />
N <br />
, N , N <br />
, , <br />
l=1,…, L<br />
(5.2)<br />
L=3<br />
Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> temporal, S l x; S l y; S l t son los gradi<strong>en</strong>tes <strong>de</strong> int<strong>en</strong>sidad<br />
espacio-temporal <strong>en</strong> cada uno <strong>de</strong> los posibles niveles <strong>de</strong> la pirámi<strong>de</strong> temporal y N l x; N l y;<br />
N l t correspon<strong>de</strong>n a los gradi<strong>en</strong>tes espacio-temporales normalizados.<br />
Nuestra repres<strong>en</strong>tación <strong>de</strong> acción consiste <strong>en</strong> una distribución 3L-dim<strong>en</strong>sional <strong>de</strong>l<br />
conjunto <strong>de</strong> medidas <strong>de</strong> cada punto espacio-temporal a través <strong>de</strong> todas las escalas<br />
temporales. Por lo tanto cada punto espacio-temporal es asociado con vector 9-<br />
dim<strong>en</strong>sional: [N1x; N1y; N1t; N2x; N2y; N2t; N3x; N3y; N3t].<br />
5.3.2. Segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />
En este punto se explicará <strong>de</strong> forma <strong>de</strong>tallada los pasos <strong>de</strong>l proceso por el cual<br />
conseguimos <strong>de</strong>tectar las zonas <strong>de</strong> la imag<strong>en</strong> <strong>en</strong> don<strong>de</strong> se produce el movimi<strong>en</strong>to,<br />
pudi<strong>en</strong>do así in<strong>de</strong>p<strong>en</strong>dizar las activida<strong>de</strong>s que realiza cada persona que aparece <strong>en</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, para que más a<strong>de</strong>lante podamos estudiar su similitud con las<br />
acciones ejemplo.<br />
Para la consecución <strong>de</strong> esta tarea necesitamos recuperar la media y la <strong>de</strong>sviación típica<br />
que hemos obt<strong>en</strong>ido <strong>en</strong> la primera etapa <strong>de</strong>l algoritmo y trabajaremos sobre el conjunto<br />
<strong>de</strong> matrices <strong>en</strong> el que hemos guardado los datos <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong><br />
grises.<br />
La técnica que utilizamos para lograr localizar las zonas pert<strong>en</strong>eci<strong>en</strong>tes al fr<strong>en</strong>te es el<br />
método <strong>basado</strong> <strong>en</strong> Gaussiana, por el cual comparamos cada matriz, que repres<strong>en</strong>ta un<br />
frame <strong>de</strong> la subsecu<strong>en</strong>cia que estamos analizando, con el mo<strong>de</strong>lo <strong>de</strong> fondo <strong>de</strong><br />
distribución Gaussiana, que obt<strong>en</strong>emos gracias a la media y a la <strong>de</strong>sviación típica <strong>de</strong>l<br />
fondo (µ, σ2), midi<strong>en</strong>do así la probabilidad <strong>en</strong> luminancia. Una vez hecha esta<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 62
5. Desarrollo<br />
comparación po<strong>de</strong>mos <strong>de</strong>cidir que pixeles correspon<strong>de</strong>n al fondo, a los cuales le damos<br />
el valor 255 (negro), y que pixeles pert<strong>en</strong>ec<strong>en</strong> al fr<strong>en</strong>te a los que les daremos el valor 0<br />
(blanco) (Figura 5.8). Para que podamos clasificar un pixel como integrante <strong>de</strong>l fr<strong>en</strong>te<br />
<strong>de</strong>be cumplir la sigui<strong>en</strong>te condición <strong>de</strong>scrita a continuación <strong>en</strong> la fórmula 5.3:<br />
, , , , , , 0 (5.3)<br />
(a)<br />
(b)<br />
(c)<br />
(d)<br />
Figura 5.8: En (a) y (b) se muestra un ejemplo <strong>de</strong> una persona corri<strong>en</strong>do y su respectivo<br />
resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te. En (c) y (d) se muestra un ejemplo <strong>en</strong> el que aparec<strong>en</strong> dos<br />
personas simultáneam<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia una caminando y otra gateando y el<br />
correspondi<strong>en</strong>te resultado <strong>de</strong> la <strong>de</strong>tección <strong>de</strong> fr<strong>en</strong>te.<br />
El sigui<strong>en</strong>te paso que <strong>de</strong>bemos realizar <strong>en</strong> este proceso una vez hemos <strong>de</strong>tectado las<br />
zonas <strong>en</strong> las que se produce el movimi<strong>en</strong>to es el seguimi<strong>en</strong>to <strong>de</strong> las difer<strong>en</strong>tes personas<br />
que se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> la secu<strong>en</strong>cia, <strong>de</strong> esta forma podremos observar <strong>de</strong> manera<br />
in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te las distintas activida<strong>de</strong>s <strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> cuestión.<br />
Lo primero que hemos hecho para efectuar esta tarea es crear una función que nos<br />
permite hallar los contornos <strong>de</strong> las figuras que forman los pixeles blancos unidos y<br />
luego g<strong>en</strong>eramos por cada figura un rectángulo que la conti<strong>en</strong>e Una vez g<strong>en</strong>erados estos<br />
rectángulos escogemos solam<strong>en</strong>te los que son sufici<strong>en</strong>tem<strong>en</strong>te gran<strong>de</strong>s como para<br />
cont<strong>en</strong>er una silueta <strong>de</strong> una persona (<strong>en</strong> este caso se ha <strong>de</strong>cidido que sean rectángulos<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 63
5. Desarrollo<br />
mayores <strong>de</strong> 30 pixeles <strong>de</strong> ancho y 40 pixeles <strong>de</strong> alto), estos rectángulos que se elig<strong>en</strong><br />
como útiles se guardan <strong>en</strong> un array <strong>de</strong> rectángulos. En la figura 5.9 se observa un<br />
ejemplo <strong>de</strong> cómo in<strong>de</strong>p<strong>en</strong>dizamos los movimi<strong>en</strong>tos <strong>de</strong>ntro <strong>de</strong> la misma esc<strong>en</strong>a.<br />
Figura 5.9: Se muestra un ejemplo <strong>de</strong> cómo se consigue in<strong>de</strong>p<strong>en</strong>dizar cada acción <strong>de</strong> la esc<strong>en</strong>a<br />
acotando las zonas don<strong>de</strong> se produce el movimi<strong>en</strong>to mediante estos rectángulos.<br />
Con el conjunto <strong>de</strong> rectángulos que aparec<strong>en</strong> por cada frame vamos rell<strong>en</strong>ando un array<br />
<strong>de</strong> una estructura que se ha creado específicam<strong>en</strong>te para po<strong>de</strong>r guardar y clasificar estos<br />
rectángulos, para así po<strong>de</strong>r i<strong>de</strong>ntificar con que grupo <strong>de</strong> rectángulos se correspon<strong>de</strong> cada<br />
movimi<strong>en</strong>to <strong>de</strong>ntro <strong>de</strong>l vi<strong>de</strong>o. La estructura <strong>en</strong> la que guardamos dichos rectángulos<br />
obt<strong>en</strong>idos se compone <strong>de</strong> los sigui<strong>en</strong>tes campos:<br />
type<strong>de</strong>f struct {<br />
int num_frames; -> número total <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia <strong>en</strong> los<br />
que se da <strong>de</strong>terminado movimi<strong>en</strong>to.<br />
int *NF; -> guardo el número <strong>de</strong> frame que correspon<strong>de</strong> a cada<br />
rectángulo <strong>de</strong>l grupo.<br />
int *x; -> coor<strong>de</strong>nada inicial x <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />
int *y; -> coor<strong>de</strong>nada inicial y <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />
int *ancho; -> ancho <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />
int *alto; -> alto <strong>de</strong> cada rectángulo <strong>de</strong>l grupo.<br />
int flag_libre; -> indica si ha sido guardado algún rectángulo <strong>en</strong><br />
este grupo (0= no hay ningún rectángulo, grupo libre; 1= grupo <strong>en</strong> el<br />
que ya ha sido guardado algún rectángulo).<br />
int distancia; -> el valor <strong>de</strong> la distancia que obt<strong>en</strong>go más a<strong>de</strong>lante<br />
con respecto al movimi<strong>en</strong>to que repres<strong>en</strong>ta este grupo <strong>de</strong> rectángulos.<br />
} GRUPO_RECT;<br />
En principio hemos <strong>de</strong>cidido que este array<br />
t<strong>en</strong>ga capacidad para guardar diez<br />
estructuras <strong>de</strong> este tipo, es <strong>de</strong>cir, diez movimi<strong>en</strong>tos distintos como máximo, esto se ha<br />
hecho <strong>de</strong> esta forma porque por ahora <strong>en</strong> los vi<strong>de</strong>os con los que trabajamos el número<br />
<strong>de</strong> activida<strong>de</strong>s distintas que aparec<strong>en</strong> a la vez es bastante bajo, normalm<strong>en</strong>te <strong>en</strong>tre una y<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
64
5. Desarrollo<br />
cinco. Como aclaración <strong>de</strong>cir que <strong>en</strong> cada grupo <strong>de</strong> rectángulos se guarda como mucho<br />
un rectángulo por cada frame <strong>de</strong> la secu<strong>en</strong>cia.<br />
Para rell<strong>en</strong>ar correctam<strong>en</strong>te el array <strong>de</strong> grupos <strong>de</strong> rectángulos lo primero que hacemos<br />
con cada uno <strong>de</strong> los rectángulos <strong>de</strong> cada frame es ver si pert<strong>en</strong>ece a alguno <strong>de</strong> los<br />
grupos <strong>de</strong> rectángulos que ya estén iniciados, es <strong>de</strong>cir, los grupos <strong>en</strong> los que ya se haya<br />
guardado algún rectángulo. Un rectángulo pert<strong>en</strong>ece a un grupo ya iniciado si cumple la<br />
condición <strong>de</strong> que su c<strong>en</strong>tro este próximo al c<strong>en</strong>tro <strong>de</strong>l último rectángulo que se haya<br />
guardado <strong>en</strong> el grupo. Si el nuevo rectángulo no cumple esta condición con ninguno <strong>de</strong><br />
los grupos iniciados quiere <strong>de</strong>cir que correspon<strong>de</strong> a un grupo nuevo y se introduce <strong>en</strong> un<br />
grupo con el flag libre a cero, que indica que es un grupo vacio.<br />
Después <strong>de</strong> ubicar cada uno <strong>de</strong> los rectángulos <strong>en</strong> su respectivo grupo, <strong>de</strong>scartamos<br />
aquellos grupos que ti<strong>en</strong><strong>en</strong> rectángulos <strong>en</strong> m<strong>en</strong>os <strong>de</strong> tres frames <strong>de</strong>l vi<strong>de</strong>o, porque<br />
suel<strong>en</strong> indicar zonas <strong>en</strong> las que aparec<strong>en</strong> siluetas <strong>de</strong>bido a una mala segm<strong>en</strong>tación, o<br />
porque hay un cambio <strong>en</strong> el fondo <strong>de</strong>l vi<strong>de</strong>o, y como aún no se ha actualizado <strong>de</strong> nuevo<br />
la media <strong>de</strong>l fondo, aparec<strong>en</strong> rectángulos no <strong>de</strong>seados, o porque un movimi<strong>en</strong>to <strong>en</strong><br />
m<strong>en</strong>os <strong>de</strong> tres frames es tan rápido y ti<strong>en</strong>e tan poca información que se <strong>de</strong>scarta.<br />
Gracias a este proceso logramos in<strong>de</strong>p<strong>en</strong>dizar las activida<strong>de</strong>s <strong>de</strong> las difer<strong>en</strong>tes personas<br />
que aparec<strong>en</strong> <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o con la que estamos trabajando, lo que nos<br />
permite <strong>en</strong> los pasos posteriores conseguir para cada acción un conjunto <strong>de</strong> histogramas<br />
que la caracteric<strong>en</strong>, con los que podremos realizar la comparación con las acciones<br />
mo<strong>de</strong>lo <strong>de</strong> nuestra base <strong>de</strong> datos.<br />
5.3.3. Cálculo <strong>de</strong> los histogramas<br />
Ahora pasaremos a <strong>de</strong>scribir otra <strong>de</strong> las fases fundam<strong>en</strong>tales <strong>de</strong> este algoritmo, <strong>en</strong> este<br />
caso vamos a hablar <strong>de</strong> cuál es el método que aplicamos para introducir los datos que<br />
nos interesan para caracterizar un movimi<strong>en</strong>to <strong>en</strong> un conjunto <strong>de</strong> histogramas, que<br />
usaremos más a<strong>de</strong>lante para examinar el grado <strong>de</strong> similitud <strong>en</strong>tre dos activida<strong>de</strong>s. De<br />
esta etapa <strong>de</strong>bemos obt<strong>en</strong>er como resultado un grupo <strong>de</strong> nueve histogramas uno por<br />
cada eje <strong>de</strong> coor<strong>de</strong>nadas <strong>en</strong> cada uno <strong>de</strong> los tres niveles <strong>de</strong> la pirámi<strong>de</strong> temporal que<br />
t<strong>en</strong>emos <strong>de</strong> cada subsecu<strong>en</strong>cia <strong>de</strong>l vi<strong>de</strong>o que hemos introducido <strong>en</strong> el sistema.<br />
En esta fase trabajaremos sobre los resultados que hemos obt<strong>en</strong>ido <strong>en</strong> las fases<br />
anteriores, tanto sobre los nueve conjuntos <strong>de</strong> matrices que repres<strong>en</strong>tan a los gradi<strong>en</strong>tes<br />
y sus respectivas normalizaciones, como sobre los resultados que hemos obt<strong>en</strong>ido al<br />
in<strong>de</strong>p<strong>en</strong>dizar las distintas acciones que aparec<strong>en</strong> <strong>en</strong> la secu<strong>en</strong>cia.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 65
5. Desarrollo<br />
Inicialm<strong>en</strong>te para repres<strong>en</strong>tar un movimi<strong>en</strong>to in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te introducimos un único<br />
grupo <strong>de</strong> rectángulos <strong>en</strong> la función que calcula los histogramas. A continuación<br />
buscamos <strong>en</strong> cada frame <strong>de</strong>l gradi<strong>en</strong>te <strong>de</strong>l eje <strong>de</strong> tiempo <strong>en</strong> las zonas que nos indican los<br />
rectángulos la posición <strong>de</strong> los pixeles <strong>en</strong> los que se produce el movimi<strong>en</strong>to. Para escoger<br />
los pixeles que nos interesan utilizamos dos umbrales, <strong>de</strong> esta forma seleccionamos<br />
como pixeles válidos aquellos que sean mayores que el primer umbral o los que sean<br />
m<strong>en</strong>ores que el segundo umbral. El hecho <strong>de</strong> buscar las posiciones <strong>de</strong> los pixeles útiles<br />
<strong>en</strong> las zonas acotadas por los rectángulos obt<strong>en</strong>idos <strong>en</strong> la fase anterior <strong>de</strong>l algoritmo, nos<br />
permite reducir el ruido que po<strong>de</strong>mos introducir <strong>en</strong> los histogramas y reducir también<br />
tanto el coste computacional como el tiempo <strong>de</strong> ejecución. Por último, para que un pixel<br />
sea válido a<strong>de</strong>más <strong>de</strong> pert<strong>en</strong>ecer al conjunto <strong>de</strong> pixeles que indican movimi<strong>en</strong>to <strong>de</strong>ntro<br />
<strong>de</strong> los frames <strong>de</strong>l gradi<strong>en</strong>te <strong>en</strong> el eje temporal, <strong>de</strong>be coincidir con un pixel blanco que<br />
indique que pert<strong>en</strong>ece al fr<strong>en</strong>te <strong>en</strong> el frame correspondi<strong>en</strong>te <strong>de</strong> la segm<strong>en</strong>tación que<br />
realizada <strong>en</strong> el apartado anterior. En la figura 5.10 se muestra un diagrama <strong>en</strong> el que<br />
observamos la manera <strong>en</strong> la que obt<strong>en</strong>emos los píxeles que nos interesan.<br />
(a)<br />
(b)<br />
(c)<br />
(d)<br />
Figura 5.10: Diagrama <strong>de</strong> flujo que nos <strong>en</strong>seña cómo obt<strong>en</strong>emos la posición <strong>de</strong> los pixeles que<br />
nos interesan para una secu<strong>en</strong>cia <strong>en</strong> la que aparece una persona caminando.(a)Frame sobre el<br />
que estamos trabajando. (b) Resultado <strong>de</strong> calcular el gradi<strong>en</strong>te temporal sobre el frame inicial.<br />
(c)Resultado <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong>l frame inicial. (d) Obt<strong>en</strong>ción <strong>de</strong> los pixiles útiles.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 66
5. Desarrollo<br />
Tras finalizar la tarea <strong>de</strong> extarción e in<strong>de</strong>ntificación <strong>de</strong> las posiciones <strong>de</strong> los pixeles <strong>de</strong><br />
cada frame <strong>de</strong> la secu<strong>en</strong>cia que nos interesan para caracterizar un movimi<strong>en</strong>to,<br />
buscamos a partir <strong>de</strong> las mismas el valor correspondi<strong>en</strong>te <strong>en</strong> el conjunto <strong>de</strong> matrices que<br />
repres<strong>en</strong>tan a los gradi<strong>en</strong>tes normalizados (Nx, Ny, Nt), y finalm<strong>en</strong>te estos valores los<br />
introducimos <strong>en</strong> su respectivo histograma, uno <strong>de</strong> los tres posibles que exist<strong>en</strong> por<br />
cada escala temporal <strong>de</strong> la subsecu<strong>en</strong>cia. De esta forma logramos obt<strong>en</strong>er los nueve<br />
histogramas con los que po<strong>de</strong>mos caracterizar correctam<strong>en</strong>te una acción humana<br />
concreta (h1x; h1y; h1t; h2 x; h2y; h2t; h3x; h3y; h3t).<br />
Los datos <strong>de</strong> los histogramas que caracterizan cada movimi<strong>en</strong>to son guardados <strong>en</strong> la<br />
sigui<strong>en</strong>te estructura:<br />
type<strong>de</strong>f struct {<br />
int hist_bins_x1[256];<br />
int hist_bins_y1[256];<br />
int hist_bins_t1[256];<br />
int hist_bins_x2[256];<br />
int hist_bins_y2[256];<br />
int hist_bins_t2[256];<br />
int hist_bins_x3[256];<br />
int hist_bins_y3[256];<br />
int hist_bins_t3[256];<br />
} HISTOGRAMAS;<br />
El hecho <strong>de</strong> que repres<strong>en</strong>temos una acción usando estos nueve histogramas se <strong>de</strong>be a<br />
que <strong>en</strong> una etapa previa <strong>de</strong>l proyecto se <strong>de</strong>scartó repres<strong>en</strong>tar las distintas acciones<br />
mediante histogramas multidim<strong>en</strong>sionales, ya que son computacionalm<strong>en</strong>te costosos y<br />
consum<strong>en</strong> mucha memoria. Así que <strong>de</strong>cidimos asumir que todos los compon<strong>en</strong>tes <strong>de</strong> un<br />
punto espacio-temporal son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes el uno <strong>de</strong>l otro. Repres<strong>en</strong>tamos<br />
cada acción<br />
con un conjunto <strong>de</strong> 3L distribuciones unidim<strong>en</strong>sionales, una para cada compon<strong>en</strong>te <strong>de</strong><br />
las medidas espacio-temporales (x,y,t) <strong>en</strong> cada uno <strong>de</strong> los niveles <strong>de</strong> la pirámi<strong>de</strong><br />
temporal. En la figura 5.11 se muestra un ejemplo <strong>de</strong> los histogramas s que logramos <strong>en</strong><br />
el primer nivel <strong>de</strong> la pirámi<strong>de</strong> temporal para la acción <strong>de</strong>l tipo correr.<br />
Figura 5.11: Histogramas <strong>en</strong> cada una <strong>de</strong> las compon<strong>en</strong>tes ‘x’, ‘y’ y ‘t’ <strong>de</strong>l primer nivel <strong>de</strong> la<br />
pirámi<strong>de</strong> temporal para un ejemplo <strong>de</strong> la acción <strong>de</strong>l tipo correr.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
67
5. Desarrollo<br />
5.4. Comparación y <strong>de</strong>cisión<br />
5.4.1. Comparación<br />
Esta sección se <strong>de</strong>scribe la fase <strong>de</strong>finitiva <strong>de</strong> nuestro algoritmo <strong>en</strong> la que apoyándonos<br />
sobre el conjunto <strong>de</strong> histogramas que repres<strong>en</strong>tan cada actividad humana, vamos a<br />
conseguir estudiar su similitud conductual con respecto a las acciones que hemos<br />
escogido como ejemplo o mo<strong>de</strong>lo. En la figura 5.12 po<strong>de</strong>mos comprobar las difer<strong>en</strong>cias<br />
que exist<strong>en</strong> <strong>en</strong>tre los histogramas pert<strong>en</strong>eci<strong>en</strong>tes a distintos movimi<strong>en</strong>tos<br />
Una vez que hemos recogido las características que <strong>de</strong>fin<strong>en</strong> un movimi<strong>en</strong>to, que está<br />
pres<strong>en</strong>te <strong>en</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que estamos analizando, <strong>de</strong>ntro <strong>de</strong> su respectivo<br />
conjunto <strong>de</strong> nueve histogramas, pasamos a realizar una comparativa con la actividad o<br />
activida<strong>de</strong>s humanas ejemplo que hemos guardado con anterioridad <strong>en</strong> nuestra base <strong>de</strong><br />
datos mediante sus respectivos conjuntos <strong>de</strong> histogramas que las caracterizan. Para<br />
realizar esta comparativa <strong>en</strong>tre dos acciones vamos a utilizar la sigui<strong>en</strong>te fórmula 5.4,<br />
que nos da como resultado la distancia <strong>de</strong> “comportami<strong>en</strong>to” <strong>en</strong>tre dos secu<strong>en</strong>cias.<br />
∑<br />
,,<br />
<br />
<br />
<br />
<br />
K € {x, y, t}<br />
l= 1,…, L (niveles <strong>de</strong> pirámi<strong>de</strong> temporal)<br />
i= 1,…, nº <strong>de</strong> divisiones histograma<br />
(5.4)<br />
Don<strong>de</strong> l es el nivel <strong>de</strong> la pirámi<strong>de</strong> que estamos usando, k el eje con el que estamos<br />
trabajando e i el número <strong>de</strong> bin <strong>de</strong>l histograma <strong>en</strong> el que nos <strong>en</strong>contramos; h 1 y h 2<br />
repres<strong>en</strong>tan los histogramas correspondi<strong>en</strong>tes a la acción ejemplo y al movimi<strong>en</strong>to<br />
estudiado respectivam<strong>en</strong>te.<br />
Figura 5.12: Comparativa <strong>de</strong> los histogramas <strong>de</strong> 4 acciones distintas, que son correr, caminar,<br />
agitar los brazos y rodar. (a)h 1 x, (b)h 1 y, (c)h 1 t, (d)h 2 x, (e)h 2 y y (f)h 2 t.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 68
5. Desarrollo<br />
5.4.2. Decisión<br />
Una vez calculada esta medida <strong>de</strong> distancia <strong>en</strong>tre las acciones que aparec<strong>en</strong> <strong>en</strong> dos<br />
secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o distintas, el último paso que <strong>de</strong>bemos dar <strong>en</strong> este algoritmo consiste<br />
<strong>en</strong> tomar la <strong>de</strong>cisión <strong>de</strong> si se trata <strong>de</strong> la misma acción o no, para conseguir esto<br />
empleamos un umbral. Si la distancia <strong>en</strong>tre nuestra actividad y la actividad ejemplo es<br />
m<strong>en</strong>or o igual al umbral que estamos usando tomaremos la <strong>de</strong>cisión <strong>de</strong> que nuestra<br />
actividad pue<strong>de</strong> consi<strong>de</strong>rarse similar a la acción ejemplo, <strong>en</strong> caso contrario tomaremos<br />
la <strong>de</strong>cisión opuesta.<br />
Como nuestra repres<strong>en</strong>tación está basada <strong>en</strong> distribuciones, se comporta <strong>de</strong> la misma<br />
forma para secu<strong>en</strong>cias que muestran la misma acción, incluso cuando los tamaños <strong>de</strong> los<br />
frames son distintos o cuando se muestra un número difer<strong>en</strong>te <strong>de</strong> repeticiones por<br />
acción.<br />
En la sigui<strong>en</strong>te sección <strong>de</strong>mostraremos que un movimi<strong>en</strong>to se pue<strong>de</strong> caracterizar por un<br />
conjunto <strong>de</strong> distribuciones unidim<strong>en</strong>sionales, y que la difer<strong>en</strong>cia <strong>en</strong>tre dos <strong>de</strong> estos<br />
conjuntos es sufici<strong>en</strong>te como para discernir dos tipos <strong>de</strong> acción humana.<br />
Figura 5.13: Ejemplo <strong>de</strong> un frame <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong><br />
ví<strong>de</strong>o analizada por el sistema para el caso <strong>en</strong> el que la<br />
acción mo<strong>de</strong>lo es caminar.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 69
5. Desarrollo<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 70
6. Experim<strong>en</strong>tos y resultados<br />
6. Experim<strong>en</strong>tos y resultados<br />
6.1. Modo <strong>de</strong> evaluación <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to<br />
Para evaluar <strong>de</strong> forma correcta los resultados obt<strong>en</strong>idos <strong>de</strong> nuestro sistema reconocedor<br />
<strong>de</strong> activida<strong>de</strong>s humanas <strong>en</strong> ví<strong>de</strong>o, necesitamos una serie <strong>de</strong> herrami<strong>en</strong>tas y<br />
procedimi<strong>en</strong>tos que nos permitan evaluar su r<strong>en</strong>dimi<strong>en</strong>to. Para ello utilizaremos una<br />
serie <strong>de</strong> valores y curvas que nos permitan analizar diversos aspectos <strong>de</strong>l algoritmo.<br />
Des<strong>de</strong> el primer mom<strong>en</strong>to <strong>de</strong>bemos t<strong>en</strong>er <strong>en</strong> consi<strong>de</strong>ración que dos muestras <strong>de</strong> un<br />
mismo movimi<strong>en</strong>to realizado por distintas personas (cambios <strong>en</strong> el comportami<strong>en</strong>to) o<br />
<strong>en</strong> distintas condiciones ambi<strong>en</strong>tales (iluminación, condiciones <strong>de</strong> cámara, etc.) no son<br />
exactam<strong>en</strong>te iguales y pres<strong>en</strong>tan una serie <strong>de</strong> difer<strong>en</strong>cias. Por ello la respuesta <strong>de</strong>l<br />
comparador <strong>de</strong> nuestro sistema se basa <strong>en</strong> cuantificar la distancia conductual <strong>en</strong>tre la<br />
secu<strong>en</strong>cia introducida y el patrón <strong>de</strong> la base <strong>de</strong> datos con el que se está comparando.<br />
Cuanto mayor sea la similitud <strong>en</strong>tre muestras, m<strong>en</strong>or será la puntuación <strong>de</strong> distancia<br />
<strong>de</strong>vuelta por el comparador y más seguro estará el sistema <strong>de</strong> que dos movimi<strong>en</strong>tos son<br />
iguales.<br />
La <strong>de</strong>cisión <strong>de</strong>l algoritmo vi<strong>en</strong>e dada mediante un umbral, las activida<strong>de</strong>s que nos <strong>de</strong>n<br />
como resultado <strong>de</strong> la comparación una distancia m<strong>en</strong>or que el umbral se consi<strong>de</strong>raran<br />
que son iguales a las <strong>de</strong>l correspondi<strong>en</strong>te ejemplo que estemos usando, mi<strong>en</strong>tras si la<br />
distancia es superior al umbral, consi<strong>de</strong>raremos estas activida<strong>de</strong>s como distintas a la<br />
actividad ejemplo correspondi<strong>en</strong>te.<br />
6.1.1. Métodos <strong>de</strong> evaluación <strong>de</strong> sistemas<br />
Si estuviésemos trabajando con un sistema i<strong>de</strong>al, los rangos <strong>de</strong> variación <strong>de</strong> las medidas<br />
<strong>de</strong> distancia obt<strong>en</strong>idas para las acciones <strong>de</strong>berían estar sufici<strong>en</strong>tem<strong>en</strong>te separadas, <strong>de</strong><br />
forma que no haya ningún tipo <strong>de</strong> solapami<strong>en</strong>to <strong>en</strong>tre las distribuciones <strong>de</strong> las distintas<br />
activida<strong>de</strong>s. De esta forma po<strong>de</strong>mos establecer un umbral <strong>de</strong> <strong>de</strong>cisión que discrimine<br />
perfectam<strong>en</strong>te cada acción. Sin embargo, pue<strong>de</strong> darse el caso <strong>en</strong> que exista una región<br />
<strong>en</strong> la que se solap<strong>en</strong> las distribuciones, interpretando toda medida <strong>de</strong> distancia bajo el<br />
umbral como movimi<strong>en</strong>tos iguales a los <strong>de</strong> la base <strong>de</strong> datos. Esto nos lleva a <strong>de</strong>ducir<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 71
6. Experim<strong>en</strong>tos y resultados<br />
que el área bajo la curva <strong>de</strong> acciones incorrectas que queda por <strong>de</strong>bajo <strong>de</strong>l umbral es la<br />
probabilidad <strong>de</strong> que tomemos una acción incorrecta como válida, lo que <strong>de</strong>nominaremos<br />
tasa <strong>de</strong> falsa aceptación (FAR, False Acceptance Rate). De la misma manera el área<br />
bajo la curva <strong>de</strong> movimi<strong>en</strong>tos correctos que queda por <strong>en</strong>cima <strong>de</strong>l umbral es la<br />
probabilidad <strong>de</strong> que tomemos una acción correcta como no válida, es <strong>de</strong>ir, tasa <strong>de</strong> falso<br />
rechazo (FRR, False Rejection Rate). Según coloquemos el umbral la FAR y la FRR<br />
varían <strong>en</strong> s<strong>en</strong>tido opuesto (Figura 6.1), si el umbral es alto nuestro sistema será muy<br />
permisivo, <strong>en</strong> caso contrario si el umbral es bajo el sistema pasará a ser muy restrictivo.<br />
Figura 6.1: Ejemplos <strong>de</strong> FAR y FRR.<br />
Un punto <strong>de</strong> dichas graficas que nos permite caracterizar <strong>de</strong> forma directa el<br />
funcionami<strong>en</strong>to <strong>de</strong>l sistema es el punto <strong>de</strong> igual error, EER (Equal Error Rate) (Figura<br />
6.2). Punto <strong>en</strong> que las curvas <strong>de</strong> falsa aceptación (FA) y falso rechazo (FR) se cruzan, es<br />
por ello la tasa <strong>de</strong> igual error (EER) suele usarse para caracterizar con un único número<br />
el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un sistema.<br />
A pesar <strong>de</strong> que el punto <strong>de</strong> EER correspon<strong>de</strong> al umbral don<strong>de</strong> se igualan FA y FR, esto<br />
no implica que el sistema <strong>de</strong>ba trabajar <strong>en</strong> ese punto. Para conseguir una bu<strong>en</strong>a<br />
comparación <strong>en</strong>tre sistemas se suele emplear la repres<strong>en</strong>tación <strong>en</strong> forma <strong>de</strong> curvas DET<br />
(Detection Error Tra<strong>de</strong>off), que consiste <strong>en</strong> la pres<strong>en</strong>tación <strong>de</strong> un error fr<strong>en</strong>te al otro <strong>en</strong><br />
un eje normalizado, obt<strong>en</strong>iéndose así una única curva para ambos tipos <strong>de</strong> error <strong>de</strong>finida<br />
por todos los posibles puntos <strong>de</strong> trabajo <strong>de</strong>l sistema. En esta curva cualquier punto está<br />
dado por un valor <strong>de</strong> FA y otro <strong>de</strong> FR, <strong>de</strong> modo que no es necesario estar manejando<br />
varias curvas para <strong>de</strong>terminar el punto <strong>de</strong> trabajo. Por contra, per<strong>de</strong>mos facilidad para<br />
<strong>en</strong>contrar el EER, que se localiza <strong>en</strong> la bisectriz <strong>de</strong>l ángulo formado por la parte positiva<br />
<strong>de</strong>l eje <strong>de</strong> FA y FR (Figura 6.3).<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 72
6. Experim<strong>en</strong>tos y resultados<br />
Figura 6.2: Ejemplo <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s y distribuciones <strong>de</strong> probabilidad <strong>de</strong> acciones correctas e<br />
incorrectas.<br />
Figura 6.3: Ejemplo <strong>de</strong> curva DET.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
73
6. Experim<strong>en</strong>tos y resultados<br />
6.1.2. Establecimi<strong>en</strong>to <strong>de</strong>l umbral<br />
Los valores <strong>de</strong>l umbral influy<strong>en</strong> <strong>de</strong> forma directa <strong>en</strong> las tasas <strong>de</strong> falsa aceptación y falso<br />
rechazo. Si el umbral es alto, pocos movimi<strong>en</strong>tos válidos serán rechazados, pero un<br />
número mayor <strong>de</strong> movimi<strong>en</strong>tos incorrectos serán aceptados <strong>de</strong> forma errónea, por el<br />
contrario, si disminuimos el valor <strong>de</strong>l umbral, <strong>de</strong>crecerán las falsas aceptaciones a costa<br />
<strong>de</strong> increm<strong>en</strong>tar los falsos rechazos. Por tanto, el establecimi<strong>en</strong>to <strong>de</strong> umbrales estará<br />
condicionado a una especificación <strong>de</strong> un punto <strong>de</strong> trabajo que guar<strong>de</strong> un compromiso<br />
<strong>en</strong>tre ambos tipos <strong>de</strong> error.<br />
Exist<strong>en</strong> dos procedimi<strong>en</strong>tos clásicos para establecer los umbrales, ya se realice este<br />
proceso a priori o a posteriori.<br />
Establecimi<strong>en</strong>to <strong>de</strong> umbrales a priori: El umbral se establece a partir <strong>de</strong> un<br />
conjunto <strong>de</strong> datos <strong>de</strong> estimación, que pue<strong>de</strong>n ser: bi<strong>en</strong> los propios datos <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>l sistema, o bi<strong>en</strong> un conjunto nuevo <strong>de</strong> datos no observados<br />
hasta el mom<strong>en</strong>to. Una vez establecidos los umbrales, las tasas <strong>de</strong> falso rechazo<br />
y falsa aceptación, se estiman a partir <strong>de</strong> un conjunto <strong>de</strong> prueba distinto <strong>de</strong>l<br />
conjunto usado para la estimación <strong>de</strong>l umbral.<br />
Establecimi<strong>en</strong>to <strong>de</strong> umbrales a posteriori: El umbral se calcula a partir <strong>de</strong> los<br />
datos <strong>de</strong>l conjunto <strong>de</strong> prueba. En este caso, las tasas <strong>de</strong> falso rechazo y falsa<br />
aceptación, <strong>de</strong>b<strong>en</strong> ser interpretadas como los mejores resultados posibles <strong>de</strong>l<br />
sistema, o lo que es lo mismo, el funcionami<strong>en</strong>to <strong>de</strong>l sistema con un umbral<br />
i<strong>de</strong>al.<br />
Debido a que no existe un estándar a la hora <strong>de</strong> establecer un umbral <strong>en</strong> sistemas <strong>de</strong><br />
reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s, para concretar el umbral <strong>de</strong> <strong>de</strong>cisión <strong>en</strong> nuestro<br />
algoritmo hemos optado por ayudarnos <strong>de</strong> los resultados <strong>de</strong> las tasas FA y FR. Haci<strong>en</strong>do<br />
un barrido por todos los valores posibles <strong>de</strong> umbral obt<strong>en</strong>emos difer<strong>en</strong>tes porc<strong>en</strong>tajes <strong>de</strong><br />
falsos aciertos y falsos rechazos y según estos resultados <strong>de</strong>terminamos el valor más<br />
óptimo para el umbral <strong>de</strong> <strong>de</strong>cisión <strong>en</strong> cada caso.<br />
6.2. Resultados<br />
Para realizar los experim<strong>en</strong>tos expuestos a continuación hemos contado con un conjunto<br />
<strong>de</strong> ví<strong>de</strong>os <strong>en</strong> los que se muestran diversas activida<strong>de</strong>s humanas que han sido<br />
proporcionados por Ivana Mikic, también expondremos posteriorm<strong>en</strong>te experim<strong>en</strong>tos<br />
realizados sobre un set <strong>de</strong> ví<strong>de</strong>os creados exclusivam<strong>en</strong>te para este proyecto (Anexo B).<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 74
6. Experim<strong>en</strong>tos y resultados<br />
6.2.1. Experim<strong>en</strong>to A: condiciones idénticas<br />
Empezaremos <strong>de</strong>sarrollando el caso más simple que pres<strong>en</strong>ta m<strong>en</strong>os dificulta<strong>de</strong>s a la<br />
hora <strong>de</strong> reconocer las activida<strong>de</strong>s que aparec<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias que vamos a analizar.<br />
Para este caso las condiciones g<strong>en</strong>erales <strong>de</strong> la secu<strong>en</strong>cia ejemplo y <strong>de</strong> la secu<strong>en</strong>cia<br />
estudiada serán idénticas. Esto implica que el fondo a<strong>de</strong>más <strong>de</strong> ser el mismo para ambas<br />
secu<strong>en</strong>cias, será unimodal y los valores <strong>de</strong> sus pixeles no variaran, tampoco habrá<br />
cambios significativos <strong>en</strong> la iluminación ni <strong>en</strong> las condiciones <strong>de</strong> cámara la cual<br />
permanecerá <strong>en</strong> todo mom<strong>en</strong>to estática.<br />
A partir <strong>de</strong> este punto los resultados inmediatos <strong>de</strong> distancias <strong>en</strong>tre los distintos<br />
movimi<strong>en</strong>tos, los repres<strong>en</strong>taremos mediante una serie <strong>de</strong> gráficas que relacionaran cada<br />
frame <strong>en</strong> los que aparece una <strong>de</strong>terminada actividad con su correspondi<strong>en</strong>te valor <strong>de</strong><br />
distancia conductual con respecto <strong>de</strong> la actividad ejemplo que esta almac<strong>en</strong>ada <strong>en</strong><br />
nuestra base <strong>de</strong> datos.<br />
A continuación expondremos los resultados obt<strong>en</strong>idos, bajo las condiciones <strong>de</strong>scritas<br />
anteriorm<strong>en</strong>te, <strong>de</strong> los movimi<strong>en</strong>tos caminar, correr y pasos laterales. Primero<br />
emplearemos como acción ejemplo caminar (Figura 6.4) y seguidam<strong>en</strong>te utilizaremos<br />
como acción ejemplo correr (Figura 6.5).<br />
7000<br />
6000<br />
caminar<br />
correr<br />
lateral<br />
5000<br />
dis tanc ia<br />
4000<br />
3000<br />
2000<br />
Acción ejemplo<br />
caminar<br />
1000<br />
0<br />
0 50 100 150 200 250<br />
frame<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 75
6. Experim<strong>en</strong>tos y resultados<br />
(a) (b) (c)<br />
Figura 6.4: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral fr<strong>en</strong>te a la actividad ejemplo<br />
caminar.<br />
8000<br />
7000<br />
caminar<br />
correr<br />
lateral<br />
6000<br />
5000<br />
distancia<br />
4000<br />
3000<br />
2000<br />
Acción ejemplo<br />
correr<br />
1000<br />
0<br />
0 50 100 150 200 250<br />
frame<br />
(a) (b) (c)<br />
Figura 6.5: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones a) caminar, b) correr y c) paso lateral fr<strong>en</strong>te a la actividad ejemplo<br />
correr.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 76
6. Experim<strong>en</strong>tos y resultados<br />
De los resultados que conseguimos <strong>en</strong> este experim<strong>en</strong>to, <strong>en</strong> el que las condiciones son<br />
i<strong>de</strong>ales, po<strong>de</strong>mos obt<strong>en</strong>er como conclusión que el sistema consigue discernir con una<br />
tasa <strong>de</strong> error <strong>de</strong> cero o muy cercana a cero los posibles movimi<strong>en</strong>tos que aparec<strong>en</strong> <strong>en</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o estudiada. Los resultados <strong>de</strong> las tasas FA y FR se expon<strong>en</strong> <strong>en</strong> las<br />
tablas sigui<strong>en</strong>tes.<br />
Caminar<br />
Correr<br />
Pasos laterales<br />
Umbral<br />
Tasas<br />
950 960-1410 1420<br />
FA(%) 0 0 0<br />
FR(%) 0.4000 0 0<br />
FA(%) 0 0 1.0000<br />
FR(%) 0 0 0<br />
FA(%) 0 0 0<br />
FR(%) 0 0 0<br />
Tabla 6.1: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar, correr y<br />
pasos laterales con respecto <strong>de</strong> la actividad ejemplo caminar.<br />
Caminar<br />
Correr<br />
Pasos laterales<br />
Umbral<br />
Tasas<br />
880 890-1270 1280<br />
FA(%) 0 0 0.4000<br />
FR(%) 0 0 0<br />
FA(%) 0 0 0<br />
FR(%) 1.0000 0 0<br />
FA(%) 0 0 0<br />
FR(%) 0 0 0<br />
Tabla 6.2: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to A <strong>de</strong> las acciones caminar, correr y<br />
pasos laterales con respecto <strong>de</strong> la actividad ejemplo correr.<br />
Conforme a estos resultados hemos optado por poner el umbral <strong>de</strong> <strong>de</strong>cisión para ambos<br />
<strong>ejemplos</strong> <strong>en</strong> 1100, ya que <strong>en</strong> este caso se da que <strong>en</strong> este punto se pue<strong>de</strong> conseguir<br />
perfectam<strong>en</strong>te que las tasas <strong>de</strong> falsa aceptación y falso rechazo sean cero.<br />
Para realizar esta primera prueba hemos escogido movimi<strong>en</strong>tos que son parecidos<br />
conductualm<strong>en</strong>te, ya que son este tipo <strong>de</strong> movimi<strong>en</strong>tos los que nos ofrec<strong>en</strong> una mayor<br />
dificultad a la hora <strong>de</strong> difer<strong>en</strong>ciarlos, los movimi<strong>en</strong>tos escogidos para este experim<strong>en</strong>to<br />
son los antes m<strong>en</strong>cionados caminar, correr y hacer pasos laterales.<br />
En ambas gráficas (Figuras 6.4 y 6.5) po<strong>de</strong>mos observar que las medidas <strong>de</strong> distancia<br />
que surg<strong>en</strong> al comparar los pasos laterales con las activida<strong>de</strong>s ejemplo <strong>de</strong> caminar o<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 77
6. Experim<strong>en</strong>tos y resultados<br />
correr se separan <strong>de</strong> forma significativa <strong>de</strong>l umbral propuesto, lo que nos indica que no<br />
t<strong>en</strong>dríamos ninguna dificultad <strong>en</strong> difer<strong>en</strong>ciar este tipo acción <strong>de</strong> las acciones ejemplo<br />
dadas. Esto también nos lleva a p<strong>en</strong>sar que acciones que se difer<strong>en</strong>cian <strong>en</strong> su realización<br />
aun más que esta acción estudiada (por ejemplo gatear), nos darán como resultado un<br />
conjunto <strong>de</strong> valores <strong>de</strong> distancia que estarán todavía más alejados <strong>de</strong>l umbral.<br />
Un caso distinto y más interesante se da a la hora <strong>de</strong> analizar las activida<strong>de</strong>s <strong>de</strong> caminar<br />
y correr, al ser dos movimi<strong>en</strong>tos significativam<strong>en</strong>te parecidos al compararlos <strong>en</strong>tre si<br />
obt<strong>en</strong>emos medidas <strong>de</strong> distancia relativam<strong>en</strong>te cercanas, lo que hace que a la hora <strong>de</strong><br />
distinguir una acción <strong>de</strong> otra se pueda cometer algún tipo <strong>de</strong> error. En este caso<br />
po<strong>de</strong>mos conseguir que el error sea nulo <strong>de</strong>bido a que las condiciones sobre las que<br />
trabajamos están muy controladas. Como veremos <strong>en</strong> los sigui<strong>en</strong>tes experim<strong>en</strong>tos, estos<br />
dos movimi<strong>en</strong>tos serán los que nos ofrecerán una mayor dificultad a la hora <strong>de</strong> discernir<br />
uno <strong>de</strong>l otro, a causa <strong>de</strong> posibles f<strong>en</strong>óm<strong>en</strong>os como por ejemplo: oclusiones( zonas <strong>en</strong> las<br />
que se produce efecto camuflaje <strong>de</strong>bido al poco contraste <strong>en</strong>tre el fr<strong>en</strong>te y el fondo),<br />
cambios significativos <strong>de</strong> iluminación, etc.<br />
6.2.2. Experim<strong>en</strong>to B: condiciones no idénticas<br />
En este apartado hablaremos <strong>de</strong> la segunda posibilidad que nos po<strong>de</strong>mos <strong>en</strong>contrar a la<br />
hora <strong>de</strong> utilizar este sistema. En esta ocasión las condiciones que se dan <strong>en</strong> el ejemplo<br />
no son idénticas a las <strong>de</strong> las secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que posteriorm<strong>en</strong>te analizaremos, sino<br />
que esta vez las condiciones serán parecidas, ya que el ejemplo lo extraeremos <strong>de</strong> un<br />
ví<strong>de</strong>o <strong>en</strong> el que el fondo será similar al <strong>de</strong> los ví<strong>de</strong>os estudiados, pero <strong>en</strong> el que puedan<br />
aparecer algunas difer<strong>en</strong>cias. Este caso lo po<strong>de</strong>mos calificar como el más habitual,<br />
<strong>de</strong>bido a que si aplicásemos este algoritmo a un sistema <strong>en</strong> la vida real serían estas<br />
circunstancias las que se darían con más frecu<strong>en</strong>cia, ya que lo más lógico sería <strong>en</strong>tr<strong>en</strong>ar<br />
el sistema con <strong>ejemplos</strong> sacados <strong>de</strong> las situaciones con las que nos vamos a <strong>en</strong>contrar.<br />
Este caso recoge situaciones como: ampliar o disminuir el plano <strong>de</strong> la cámara,<br />
condiciones <strong>de</strong> iluminación variables, (por ejemplo porque estuviese grabado <strong>en</strong><br />
exteriores) esc<strong>en</strong>arios con varias cámaras que abarcan toda una zona. La única<br />
condición que permanecerá constante siempre es que la cámara <strong>de</strong>be mant<strong>en</strong>erse<br />
estática.<br />
Las sigui<strong>en</strong>tes figuras muestran los resultados obt<strong>en</strong>idos para este experim<strong>en</strong>to <strong>de</strong> las<br />
acciones caminar, correr, paso lateral y gatear. Seguiremos el mismo esquema que el<br />
apartado anterior, analizando primero la actividad caminar como ejemplo y luego la<br />
actividad correr.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 78
6. Experim<strong>en</strong>tos y resultados<br />
6000<br />
5000<br />
caminar<br />
correr<br />
lateral<br />
gatear<br />
4000<br />
distancia<br />
3000<br />
2000<br />
Acción ejemplo<br />
caminar<br />
1000<br />
0<br />
0 50 100 150 200 250<br />
frame<br />
Figura 6.6: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral y d) gatear fr<strong>en</strong>te a la<br />
actividad ejemplo caminar.<br />
4500<br />
4000<br />
3500<br />
(a) (b) (c) (d)<br />
caminar<br />
correr<br />
lateral<br />
gatear<br />
3000<br />
distancia<br />
2500<br />
2000<br />
1500<br />
1000<br />
Acción ejemplo<br />
correr<br />
500<br />
0<br />
0 50 100 150 200 250<br />
frame<br />
(a) (b) (c) (d)<br />
Figura 6.7: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones a) caminar, b) correr, c) paso lateral y d) gatear fr<strong>en</strong>te a la<br />
actividad ejemplo correr.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 79
6. Experim<strong>en</strong>tos y resultados<br />
A simple vista observamos que los resultados no son tan óptimos como <strong>en</strong> el<br />
experim<strong>en</strong>to anterior, aunque las tasas <strong>de</strong> falsa aceptación y faso rechazo sigu<strong>en</strong> si<strong>en</strong>do<br />
sufici<strong>en</strong>tem<strong>en</strong>te bajas como para po<strong>de</strong>r i<strong>de</strong>ntificar los movimi<strong>en</strong>tos que puedan ocurrir<br />
<strong>en</strong> la secu<strong>en</strong>cia. Para t<strong>en</strong>er más datos veamos las tablas que conti<strong>en</strong><strong>en</strong> los resultados <strong>de</strong><br />
las tasas <strong>de</strong> falsa aceptación y falso rechazo.<br />
Caminar<br />
Correr<br />
Pasos<br />
laterales<br />
Gatear<br />
Umbral<br />
Tasas<br />
400 445-463 464-473 500<br />
FA(%) 0 0 0 0<br />
FR(%) 26.8817 22.5806 21.5054 20.4301<br />
FA(%) 0 0 0.7813 5.4688<br />
FR(%) 0 0 0 0<br />
FA(%) 0 0 0 0<br />
FR(%) 0 0 0 0<br />
FA(%) 0 0 0 0<br />
FR(%) 0 0 0 0<br />
Tabla 6.3: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar, correr,<br />
pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo caminar.<br />
Caminar<br />
Correr<br />
Pasos<br />
laterales<br />
Gatear<br />
Umbral<br />
Tasas<br />
400 460-465 476-482 500<br />
FA(%) 0 0 0.5155 2.5773<br />
FR(%) 0 0 0 0<br />
FA(%) 0 0 0 0<br />
FR(%) 26.4706 14.7059 14.4861 12.5000<br />
FA(%) 0 0 0 0<br />
FR(%) 0 0 0 0<br />
FA(%) 0 0 0 0<br />
FR(%) 0 0 0 0<br />
Tabla 6.4: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las acciones caminar, correr,<br />
pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo correr.<br />
Sigui<strong>en</strong>do el resultado mostrado <strong>en</strong> estas tablas hemos <strong>de</strong>cidido colocar el umbral <strong>de</strong><br />
<strong>de</strong>cisión para el primer ejemplo <strong>en</strong> 450 y para el segundo ejemplo <strong>en</strong> 460, ya que <strong>en</strong><br />
estos dos puntos conseguimos un bu<strong>en</strong> equilibrio <strong>en</strong>tre las tasas <strong>de</strong> falso rechazo y falsa<br />
aceptación respectivam<strong>en</strong>te. El hecho <strong>de</strong> que la tasa <strong>de</strong> falso rechazo sea tan elevada se<br />
<strong>de</strong>be a los altos valores <strong>de</strong> las distancias que aparec<strong>en</strong> <strong>en</strong> la parte izquierda <strong>de</strong> las<br />
gráficas, más a<strong>de</strong>lante se explicará el porqué <strong>de</strong> dicha causa.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 80
6. Experim<strong>en</strong>tos y resultados<br />
El primer movimi<strong>en</strong>to que vamos a analizar es el <strong>de</strong> gatear, como po<strong>de</strong>mos ver, una vez<br />
hemos recopilado todos los datos, es el movimi<strong>en</strong>to cuya distancias conductuales se<br />
alejan más <strong>de</strong> las acciones ejemplo propuestas, lo que nos lleva a concluir que nuestro<br />
algoritmo trabaja perfectam<strong>en</strong>te <strong>en</strong> este tipo <strong>de</strong> casos, ya que cuanto mayor sean las<br />
difer<strong>en</strong>cias a la hora <strong>de</strong> realizar un movimi<strong>en</strong>to con respecto a la actividad ejemplo<br />
mayor es la distancia que obt<strong>en</strong>emos como resultado. Por lo tanto a la hora <strong>de</strong> distinguir<br />
dos acciones muy difer<strong>en</strong>tes la tasa <strong>de</strong> error que conseguimos es nula, <strong>de</strong>bido a que las<br />
medidas <strong>de</strong> distancia que resultan están muy separadas <strong>de</strong>l umbral <strong>de</strong> <strong>de</strong>cisión.<br />
Por otro lado cuando estudiamos el movimi<strong>en</strong>to <strong>de</strong> pasos laterales con respecto <strong>de</strong> las<br />
activida<strong>de</strong>s ejemplo caminar y correr, po<strong>de</strong>mos sacar unas conclusiones parecidas a las<br />
que hemos <strong>de</strong>ducido <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong> gatear, porque también este movimi<strong>en</strong>to dista<br />
<strong>en</strong> su realización <strong>de</strong> las acciones ejemplo, aunque po<strong>de</strong>mos incluir algunos matices.<br />
Inicialm<strong>en</strong>te observamos que los valores <strong>de</strong>l conjunto <strong>de</strong> distancias conductuales son<br />
sufici<strong>en</strong>tem<strong>en</strong>te altos como para conseguir también unas tasas <strong>de</strong> falso rechazo y falsa<br />
aceptación nulas, por lo que conseguimos difer<strong>en</strong>ciar este movimi<strong>en</strong>to <strong>de</strong> los dos<br />
<strong>ejemplos</strong> sin cometer errores. De los resultados <strong>de</strong> este movimi<strong>en</strong>to <strong>de</strong>stacaremos que<br />
los valores <strong>de</strong> distancias que conseguimos son m<strong>en</strong>ores <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> si el<br />
movimi<strong>en</strong>to se parece más o m<strong>en</strong>os al ejemplo, si comparamos las dos gráficas (Figura<br />
6.6 y 6.7) vemos que las medidas <strong>de</strong> distancia con respecto a caminar son m<strong>en</strong>ores que<br />
con respecto a correr, esto se <strong>de</strong>be a que la acción <strong>de</strong> pasos laterales más correlacionada<br />
con la acción caminar que con la acción correr.<br />
Por último analizaremos los resultados que hemos adquirido <strong>de</strong> los movimi<strong>en</strong>tos <strong>de</strong><br />
caminar y correr, como sucedía <strong>en</strong> el experim<strong>en</strong>to anterior, estos dos movimi<strong>en</strong>tos al ser<br />
los que más se asemejan el uno <strong>de</strong>l otro, son los que al compararlos obt<strong>en</strong>emos como<br />
resultado unas distancias conductuales próximas, esto nos hace más complicado la tarea<br />
<strong>de</strong> i<strong>de</strong>ntificar estas dos acciones. En este experim<strong>en</strong>to, a causa <strong>de</strong> que no controlamos<br />
todas las condiciones <strong>de</strong> la esc<strong>en</strong>a, no po<strong>de</strong>mos evitar que se produzca algún tipo <strong>de</strong><br />
error a la hora <strong>de</strong> comparar estas dos acciones. Algunos errores son inevitables a priori,<br />
porque se produc<strong>en</strong> <strong>en</strong> zonas don<strong>de</strong> hay efecto camuflaje u oclusiones, pero otros se<br />
<strong>de</strong>b<strong>en</strong> simplem<strong>en</strong>te a que la cercanía <strong>en</strong>tre dos acciones, haci<strong>en</strong>do que el sistema no<br />
pueda conseguir difer<strong>en</strong>ciarlas.<br />
A continuación analizaremos la proce<strong>de</strong>ncia <strong>de</strong> dichos errores y porque se produc<strong>en</strong>,<br />
haci<strong>en</strong>do uso <strong>de</strong> gráficas como las mostradas <strong>en</strong> la figura 6.8.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 81
6. Experim<strong>en</strong>tos y resultados<br />
4500<br />
4000<br />
Acción ejemplo caminar<br />
caminar<br />
correr<br />
4000<br />
3500<br />
Acción ejemplo correr<br />
caminar<br />
correr<br />
3500<br />
3000<br />
3000<br />
2500<br />
dis tanc ia<br />
2500<br />
2000<br />
dis ta nc ia<br />
2000<br />
1500<br />
1500<br />
1000<br />
1000<br />
500<br />
500<br />
0<br />
0<br />
0 50 100 150 200 250 0 50 100 150 200 250<br />
frame<br />
frame<br />
Figura 6.8: Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones caminar y correr con respecto a las actividad ejemplo caminar y<br />
correr.<br />
Figura 6.9: Imag<strong>en</strong> <strong>de</strong>l fondo <strong>en</strong> el<br />
que están <strong>de</strong>stacadas distintas zonas<br />
afectan <strong>de</strong> forma distinta al<br />
resultado.<br />
Primero aclararemos que los resultados <strong>de</strong> las dos<br />
gráficas (Fig. 6.8) están or<strong>de</strong>nados <strong>de</strong> tal forma<br />
que la primera mitad se correspon<strong>de</strong> con el<br />
movimi<strong>en</strong>to que transcurre <strong>de</strong>s<strong>de</strong> la parte<br />
<strong>de</strong>recha hacia la parte izquierda <strong>de</strong> la pantalla y la<br />
segunda mitad el movimi<strong>en</strong>to transcurre <strong>de</strong> forma<br />
opuesta.<br />
Empezaremos explicando la razón por la que obt<strong>en</strong>emos unas medidas <strong>de</strong> distancia tan<br />
altas sobre todo <strong>en</strong> la parte izquierda <strong>de</strong> las dos gráficas (Figura 6.8) y el porqué<br />
también <strong>en</strong>contramos una pequeña elevación <strong>de</strong> los valores para ambos movimi<strong>en</strong>tos <strong>en</strong><br />
la parte final. Estos valores altos <strong>de</strong> distancias se correspon<strong>de</strong>n con la zona <strong>de</strong>l fondo<br />
que hemos marcado <strong>en</strong> rojo (Figura 6.9), <strong>en</strong> esta zona, como es tan oscura, se produce<br />
efecto camuflaje, lo que hace que se pierda <strong>de</strong> forma casi total la información que<br />
necesitamos para caracterizar el movimi<strong>en</strong>to. Este error es mucho más ac<strong>en</strong>tuado <strong>en</strong> la<br />
parte izquierda <strong>de</strong> las gráficas, <strong>de</strong>bido a que cuando un movimi<strong>en</strong>to se inicia<br />
específicam<strong>en</strong>te <strong>en</strong> esa zona no t<strong>en</strong>emos información previa <strong>de</strong>l mismo, por lo que es<br />
mucho más difícil <strong>en</strong>m<strong>en</strong>dar dicho error.<br />
La zona marcada <strong>en</strong> amarillo también es un punto <strong>de</strong> conflicto aunque <strong>en</strong> m<strong>en</strong>or<br />
medida, los resultados que correspon<strong>de</strong>n a esta zona se pue<strong>de</strong>n observar sobre todo <strong>en</strong> la<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong><br />
82
6. Experim<strong>en</strong>tos y resultados<br />
parte c<strong>en</strong>tral <strong>de</strong> las gráficas (Figura. 6.8), don<strong>de</strong> se produce claram<strong>en</strong>te un pico <strong>en</strong> los<br />
valores <strong>de</strong> distancia. En esta zona también se da el efecto camuflaje, pero <strong>en</strong> esta<br />
ocasión sólo afecta a la parte inferior <strong>de</strong>l cuerpo (extremida<strong>de</strong>s inferiores), esto hace que<br />
perdamos información <strong>de</strong> forma parcial. Este error es significativo para las acciones <strong>de</strong><br />
andar y correr, ya que para estas activida<strong>de</strong>s extraemos bastante información <strong>de</strong> esa<br />
zona <strong>de</strong>l cuerpo. Como <strong>en</strong> el caso anterior, el error es más acusado cuando<br />
interactuamos <strong>en</strong> esa zona al inicio <strong>de</strong>l movimi<strong>en</strong>to, aunque también se pue<strong>de</strong> apreciar<br />
una subida <strong>en</strong> lo valores, <strong>en</strong> la zona justo anterior al pico <strong>de</strong>l c<strong>en</strong>tro <strong>de</strong> las curvas, que<br />
correspon<strong>de</strong>ría a la finalización <strong>de</strong>l movimi<strong>en</strong>to <strong>de</strong> izquierda a <strong>de</strong>recha.<br />
En el resto <strong>de</strong>l fondo, marcado <strong>en</strong> ver<strong>de</strong>, no t<strong>en</strong>emos ningún problema a la hora <strong>de</strong><br />
po<strong>de</strong>r difer<strong>en</strong>ciar dos acciones, ya que <strong>en</strong> esta zona po<strong>de</strong>mos afirmar que el error es casi<br />
nulo.<br />
Seguidam<strong>en</strong>te mostraremos algunos datos recogidos <strong>de</strong> otras secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o que<br />
hemos analizado, <strong>en</strong> los que aparec<strong>en</strong> varias personas <strong>en</strong> la secu<strong>en</strong>cia o hay<br />
movimi<strong>en</strong>tos distintos <strong>de</strong> los que ya nos hemos referido. Esto nos aportará un mayor<br />
conocimi<strong>en</strong>to <strong>de</strong> las capacida<strong>de</strong>s <strong>de</strong> nuestro algoritmo.<br />
6000<br />
5000<br />
4000<br />
distancia<br />
3000<br />
2000<br />
1000<br />
Acción ejemplo<br />
caminar<br />
(a)<br />
0<br />
0 50 100 150 200 250 300 350 400 450<br />
frame<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 83
6. Experim<strong>en</strong>tos y resultados<br />
1800<br />
1600<br />
1400<br />
distancia<br />
1200<br />
1000<br />
800<br />
Acción ejemplo<br />
saltar<br />
(b)<br />
600<br />
400<br />
0 10 20 30 40 50 60 70<br />
frame<br />
5000<br />
4500<br />
4000<br />
3500<br />
distancia<br />
3000<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
Acción ejemplo<br />
correr<br />
(c)<br />
0<br />
0 20 40 60 80 100 120 140<br />
frame<br />
Figura 6.10: (a), (b) y (c) Gráficas con los resultados <strong>en</strong> el experim<strong>en</strong>to B <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones que <strong>en</strong>contramos <strong>en</strong> distintas secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o con<br />
respecto a difer<strong>en</strong>tes activida<strong>de</strong>s ejemplo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 84
6. Experim<strong>en</strong>tos y resultados<br />
6.2.2. Experim<strong>en</strong>to C: condiciones in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />
Por último explicaremos el caso más complejo con el que po<strong>de</strong>mos trabajar <strong>en</strong> este<br />
sistema, que consiste <strong>en</strong> que las condiciones <strong>de</strong> la secu<strong>en</strong>cia ejemplo y la secu<strong>en</strong>cia que<br />
queremos analizar son totalm<strong>en</strong>te in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes, es <strong>de</strong>cir, la acción ejemplo la<br />
extraeremos <strong>de</strong> un ví<strong>de</strong>o que no t<strong>en</strong>drá relación con los ví<strong>de</strong>os con los que trabajaremos<br />
posteriorm<strong>en</strong>te, por lo que <strong>en</strong> esta ocasión el fondo, la iluminación y el resto <strong>de</strong><br />
características <strong>de</strong> la esc<strong>en</strong>a serán distintas. La única condición que sigue permaneci<strong>en</strong>do<br />
constante es que la cámara <strong>de</strong>be mant<strong>en</strong>erse estática.<br />
Este modo <strong>de</strong> trabajar es una <strong>de</strong> las opciones <strong>de</strong>stacables <strong>de</strong> este algoritmo, ya que nos<br />
permite reconocer las activida<strong>de</strong>s <strong>de</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o usando una actividad<br />
ejemplo estándar, lo que nos ahorraría t<strong>en</strong>er que <strong>en</strong>tr<strong>en</strong>ar cada sistema al que<br />
aplicásemos nuestro algoritmo. El hecho <strong>de</strong> que podamos reconocer acciones <strong>de</strong> esta<br />
manera se <strong>de</strong>be a la forma con la que recogemos las características <strong>de</strong> los movimi<strong>en</strong>tos<br />
ayudándonos <strong>de</strong> los gradi<strong>en</strong>tes (x, y, t), con lo que conseguimos eliminar la mayor parte<br />
<strong>de</strong> información que nos pue<strong>de</strong> aportar el fondo <strong>de</strong> la esc<strong>en</strong>a, pudi<strong>en</strong>do discriminar <strong>de</strong><br />
esta forma la información que nos aporta el movimi<strong>en</strong>to <strong>en</strong> cuestión.<br />
3500<br />
3000<br />
caminar<br />
correr<br />
lateral<br />
gatear<br />
2500<br />
distancia<br />
2000<br />
1500<br />
Acción ejemplo<br />
caminar<br />
1000<br />
500<br />
0 50 100 150 200 250<br />
frame<br />
Figura 6.11: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong><br />
distancia conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear fr<strong>en</strong>te a la<br />
actividad ejemplo caminar.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 85
6. Experim<strong>en</strong>tos y resultados<br />
2000<br />
1800<br />
1600<br />
caminar<br />
correr<br />
lateral<br />
gatear<br />
distancia<br />
1400<br />
1200<br />
1000<br />
Acción ejemplo<br />
correr<br />
800<br />
600<br />
0 50 100 150 200 250<br />
frame<br />
Figura 6.12: Gráfica con los resultados <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> las acciones caminar, correr, paso lateral y gatear fr<strong>en</strong>te a la actividad ejemplo<br />
correr.<br />
Como hemos repres<strong>en</strong>tado <strong>en</strong> los anteriores experim<strong>en</strong>tos, la figuras 6.11 y 6.12<br />
muestran los resultados <strong>de</strong> los movimi<strong>en</strong>tos caminar, correr, pasos laterales y gatear que<br />
hemos conseguido bajo las condiciones <strong>de</strong> este experim<strong>en</strong>to. Inicialm<strong>en</strong>te hemos usado<br />
como acción ejemplo caminar y a continuación correr, esta elección se <strong>de</strong>be a que son<br />
los más repres<strong>en</strong>tativos <strong>en</strong> la vida real.<br />
Según estos datos es evi<strong>de</strong>nte que el error que se com<strong>en</strong>te <strong>en</strong> este experim<strong>en</strong>to es mayor<br />
que <strong>en</strong> los dos experim<strong>en</strong>tos anteriores, sin embargo aun t<strong>en</strong>i<strong>en</strong>do más dificulta<strong>de</strong>s<br />
seguimos pudi<strong>en</strong>do <strong>de</strong>tectar el movimi<strong>en</strong>to que nos interesa <strong>de</strong>ntro <strong>de</strong> una esc<strong>en</strong>a.<br />
Seguidam<strong>en</strong>te expondremos las tablas con los datos <strong>de</strong> las tasas <strong>de</strong> falsa aceptación y<br />
falso rechazo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 86
6. Experim<strong>en</strong>tos y resultados<br />
Umbral<br />
Tasas<br />
1024 1031 1053 1084 1150<br />
Caminar<br />
Correr<br />
Pasos<br />
laterales<br />
Gatear<br />
FA(%) 0 0 0 0 0<br />
FR(%) 44.0217 41.3043 35.8696 27.7174 9.2391<br />
FA(%) 0 2.1277 15.6028 27.6596 41.8440<br />
FR(%) 0 0 0 0 0<br />
FA(%) 0 0 0 0 0<br />
FR(%) 0 0 0 0 0<br />
FA(%) 0 0 0 0 0<br />
FR(%) 0 0 0 0 0<br />
Tabla 6.5: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar, correr,<br />
pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo caminar.<br />
Umbral<br />
Tasas<br />
810 815 840 856 950<br />
Caminar<br />
Correr<br />
Pasos<br />
laterales<br />
Gatear<br />
FA(%) 0 2.0408 13.2653 28.5714 60.2041<br />
FR(%) 0 0 0 0 0<br />
FA(%) 0 0 0 0 0<br />
FR(%) 47.1429 45.7143 37.1429 28.5714 12.1429<br />
FA(%) 0 0 0 0 0<br />
FR(%) 0 0 0 0 0<br />
FA(%) 0 0 0 0 0<br />
FR(%) 0 0 0 0 0<br />
Tabla 6.6: Tasas FA y FR obt<strong>en</strong>idas <strong>en</strong> el experim<strong>en</strong>to C <strong>de</strong> las acciones caminar, correr,<br />
pasos laterales y gatear con respecto <strong>de</strong> la actividad ejemplo correr.<br />
Conforme a los resultados <strong>de</strong> estas tablas hemos colocado el umbral <strong>de</strong> <strong>de</strong>cisión para el<br />
primer ejemplo <strong>en</strong> 1053 y para el segundo ejemplo <strong>en</strong> 840, pese a que los puntos ERR<br />
para el primer y el segundo ejemplo están <strong>en</strong> 1084 y 856 respectivam<strong>en</strong>te, no los hemos<br />
escogido como umbral <strong>de</strong>bido a que bu<strong>en</strong>a parte <strong>de</strong>l porc<strong>en</strong>taje <strong>de</strong> error por falso<br />
rechazo es provocado por las zonas <strong>en</strong> las que se dan oclusiones o efecto camuflaje, que<br />
no po<strong>de</strong>mos evitar, por lo que preferimos no subir el umbral para no aum<strong>en</strong>tar las falsas<br />
aceptaciones <strong>de</strong> forma innecesaria.<br />
Al igual que suce<strong>de</strong> <strong>en</strong> los experim<strong>en</strong>tos previos con los movimi<strong>en</strong>tos gatear y pasos<br />
laterales, obt<strong>en</strong>emos un conjunto <strong>de</strong> distancias conductuales que se alejan lo sufici<strong>en</strong>te<br />
<strong>de</strong>l umbral <strong>de</strong> <strong>de</strong>cisión como para que tanto la tasa <strong>de</strong> falsos rechazos como la tasa <strong>de</strong><br />
falsas aceptaciones sean nulas, esto nos lleva a que siempre consigamos distinguir<br />
ambos movimi<strong>en</strong>tos <strong>de</strong> acciones como caminar y correr. Las altas distancias<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 87
6. Experim<strong>en</strong>tos y resultados<br />
conseguidas nos indican que estas acciones se difer<strong>en</strong>cian bastante <strong>en</strong> la forma <strong>de</strong><br />
ejecutarse <strong>de</strong> las activida<strong>de</strong>s mo<strong>de</strong>lo que buscamos. También se da el hecho <strong>de</strong> que la<br />
acción <strong>de</strong> gatear, al ser la m<strong>en</strong>os parecida a las activida<strong>de</strong>s ejemplo, normalm<strong>en</strong>te<br />
resulta que obti<strong>en</strong>e puntuaciones <strong>de</strong> distancia superiores a las obt<strong>en</strong>idas con el<br />
movimi<strong>en</strong>to <strong>de</strong> pasos laterales.<br />
Finalm<strong>en</strong>te pasamos a estudiar los resultados <strong>de</strong> distancias conductuales para los<br />
movimi<strong>en</strong>tos <strong>de</strong> caminar y correr, al ser dos movimi<strong>en</strong>tos similares, las curvas que<br />
repres<strong>en</strong>tan las medidas <strong>de</strong> distancia <strong>de</strong> estas dos acciones son bastante cercanas, lo que<br />
provoca que <strong>en</strong> algunas ocasiones el algoritmo pueda cometer errores a la hora <strong>de</strong><br />
int<strong>en</strong>tar distinguir ambos movimi<strong>en</strong>tos. En este caso como las condiciones <strong>de</strong> la<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o que conti<strong>en</strong>e la acción ejemplo son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y difer<strong>en</strong>tes <strong>de</strong><br />
las <strong>de</strong>l ví<strong>de</strong>o analizado, los errores que com<strong>en</strong>te nuestro sistema son más ac<strong>en</strong>tuados.<br />
Las zonas <strong>de</strong>l ví<strong>de</strong>o analizado <strong>en</strong> las que se produzcan oclusiones o que se dé el efecto<br />
camuflaje sigu<strong>en</strong> ocasionando un error inevitable, ya que se pier<strong>de</strong> información<br />
necesaria para la correcta comparación <strong>de</strong> movimi<strong>en</strong>tos. En este experim<strong>en</strong>to por el<br />
contrario se com<strong>en</strong>t<strong>en</strong> un número superior <strong>de</strong> errores <strong>en</strong> zonas <strong>de</strong> la esc<strong>en</strong>a <strong>en</strong> las que no<br />
sufrimos efectos negativos, esto pue<strong>de</strong> provocar que <strong>en</strong> <strong>de</strong>terminadas ocasiones el<br />
algoritmo no consiga discernir la acción caminar <strong>de</strong> la acción correr y viceversa.<br />
6.3. Evaluación <strong>de</strong> la robustez<br />
En este apartado evaluamos la robustez <strong>de</strong>l sistema <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> acción, que<br />
pres<strong>en</strong>tamos <strong>en</strong> esta memoria, analizando como afectan a nuestra <strong>de</strong>tección<br />
<strong>de</strong>terminados parámetros.<br />
6.3.1. Cambio <strong>de</strong> la longitud <strong>de</strong> v<strong>en</strong>tana temporal<br />
Para analizar cada secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o introducida <strong>en</strong> el sistema, como ya hemos<br />
explicado <strong>en</strong> secciones anteriores, vamos dividi<strong>en</strong>do la secu<strong>en</strong>cia <strong>en</strong> subsecu<strong>en</strong>cicas <strong>de</strong><br />
longitud ‘M’ frames, <strong>de</strong> estas subsecu<strong>en</strong>cias extraemos la información necesaria para<br />
más a<strong>de</strong>lante compararla con la información <strong>de</strong> la acción ejemplo buscada y tomar la<br />
<strong>de</strong>cisión que corresponda. ‘M’ es el número <strong>de</strong> frames <strong>de</strong> los que consta la secu<strong>en</strong>cia <strong>de</strong><br />
nuestra actividad ejemplo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 88
6. Experim<strong>en</strong>tos y resultados<br />
Escogi<strong>en</strong>do subsecu<strong>en</strong>cais <strong>de</strong> tamaño ‘M’ logramos que t<strong>en</strong>gan la misma longitud que<br />
la secu<strong>en</strong>cia que conti<strong>en</strong>e la actividad ejemplo, aunque esto es recom<strong>en</strong>dable para<br />
asegurarnos el bu<strong>en</strong> funcionami<strong>en</strong>to <strong>de</strong>l sistema, no implica que sea estrictam<strong>en</strong>te<br />
necesario que la subsecu<strong>en</strong>cia t<strong>en</strong>ga que t<strong>en</strong>er el mismo tamaño que la secu<strong>en</strong>cia <strong>de</strong>l<br />
ejemplo o que cont<strong>en</strong>ga información <strong>de</strong> un movimi<strong>en</strong>to <strong>en</strong> todos y cada uno <strong>de</strong> los ‘M’<br />
frames que la compon<strong>en</strong>.<br />
El tamaño <strong>de</strong> la v<strong>en</strong>tana que escogemos para dividir la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o analizada<br />
pue<strong>de</strong> variar, pudi<strong>en</strong>do mant<strong>en</strong>er un reconocimi<strong>en</strong>to <strong>de</strong> calidad <strong>de</strong> los movimi<strong>en</strong>tos que<br />
aparec<strong>en</strong> <strong>en</strong> el ví<strong>de</strong>o. Según las pruebas y observaciones realizadas, si la longitud <strong>de</strong><br />
nuestra v<strong>en</strong>tana temporal, que marca el tamaño <strong>de</strong> cada subsecu<strong>en</strong>cias, es superior a las<br />
tres cuartas partes <strong>de</strong> ‘M’ nuestro algoritmo seguirá reconoci<strong>en</strong>do perfectam<strong>en</strong>te las<br />
acciones buscadas. Por otro lado si el tamaño <strong>de</strong> la subsecu<strong>en</strong>cia está compr<strong>en</strong>dido <strong>en</strong>tre<br />
‘M/2’ frames y ‘3M/4’ frames el algoritmo sigue reconoci<strong>en</strong>do las acciones iguales al<br />
ejemplo, pero con mayor dificultad, lo que hace disminuir la calidad <strong>de</strong> nuestro sistema.<br />
En cambio si la longitud <strong>de</strong> la subsecu<strong>en</strong>ia es inferior a la mitad <strong>de</strong>l número total <strong>de</strong> los<br />
frames <strong>de</strong> la secu<strong>en</strong>cia ejemplo, po<strong>de</strong>mos <strong>de</strong>cir que no conseguiríamos sufici<strong>en</strong>te<br />
información para lograr un reconocimi<strong>en</strong>to fiable.<br />
Esto es aplicable a las zonas <strong>de</strong> las distintas esc<strong>en</strong>as <strong>en</strong> las que se produc<strong>en</strong> oclusiones o<br />
se da el efecto camuflaje, ya que esto nos hace que perdamos información sobre un<br />
movimi<strong>en</strong>to <strong>en</strong> cierto número <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia. Si per<strong>de</strong>mos información<br />
<strong>en</strong> un número reducido <strong>de</strong> frames <strong>de</strong> la subsecu<strong>en</strong>cia nuestro sistema conseguirá<br />
<strong>de</strong>tectar <strong>de</strong> forma óptima la actividad buscada, si por el contrario el número <strong>de</strong> frames<br />
<strong>en</strong> los que per<strong>de</strong>mos información es superior a la mitad <strong>de</strong> ‘M’ nuestro sistema no<br />
lograría <strong>en</strong> la mayoría <strong>de</strong> los casos reconocer el movimi<strong>en</strong>to.<br />
6.3.2. Fondo multimodal<br />
Exist<strong>en</strong> dos tipos <strong>de</strong> fondo los fondos unimodales y los fondos multimodales, la<br />
característica principal <strong>de</strong> los primeros consiste <strong>en</strong> que los pixeles <strong>de</strong>l fondo a lo largo<br />
<strong>de</strong> toda una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o permanec<strong>en</strong> constantes, <strong>en</strong> cambio <strong>en</strong> los fondos<br />
multimodales los pixeles <strong>de</strong>l fondo pue<strong>de</strong>n sufrir alguna variación a lo largo <strong>de</strong> la<br />
secu<strong>en</strong>cia.<br />
Hasta ahora hemos <strong>de</strong>mostrado la eficacia <strong>de</strong> nuestro sistema trabajando sobre fondos<br />
unimodales, pero este algoritmo también ti<strong>en</strong>e la capacidad <strong>de</strong> trabajar con secu<strong>en</strong>cias<br />
<strong>en</strong> las que se dé un fondo multimodal, como por ejemplo <strong>en</strong> esc<strong>en</strong>as <strong>en</strong> las que el fondo<br />
se mueva <strong>de</strong> forma l<strong>en</strong>ta y periódica (olas <strong>de</strong>l mar, hojas agitándose).<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 89
6. Experim<strong>en</strong>tos y resultados<br />
En la figura 6.13 po<strong>de</strong>mos ver algunas imág<strong>en</strong>es extraídas <strong>de</strong> pruebas realizadas sobre<br />
una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o grabada <strong>en</strong> una playa, es <strong>de</strong>cir, una secu<strong>en</strong>cia con un fondo<br />
multimodal. La actividad ejemplo que hemos utilizado <strong>en</strong> esta prueba es caminar.<br />
Figura 6.13: Ejemplo <strong>de</strong>l reconocimi<strong>en</strong>to <strong>de</strong> acciones con una secu<strong>en</strong>cia con fondo multimodal.<br />
Como se pue<strong>de</strong> ver <strong>en</strong> las imág<strong>en</strong>es nuestro sistema consigue reconocer acciones <strong>en</strong> una<br />
secu<strong>en</strong>cia con un fondo <strong>en</strong> el que los pixeles varían <strong>de</strong> forma periódica, para ello<br />
a<strong>de</strong>más necesitamos que la cámara permanezca estática. Sin embrago si los pixeles <strong>de</strong>l<br />
fondo varias<strong>en</strong> constantem<strong>en</strong>te <strong>de</strong> forma no periódica o la cámara no permaneciese<br />
estática nuestro algoritmo fallaría y no podríamos reconocer correctam<strong>en</strong>te las<br />
activida<strong>de</strong>s que buscamos.<br />
6.3.3. Cambios <strong>en</strong> la vestim<strong>en</strong>ta<br />
El sistema es robusto a los cambios <strong>en</strong> el color <strong>de</strong> la vestim<strong>en</strong>ta infligidos por difer<strong>en</strong>tes<br />
pr<strong>en</strong>das <strong>de</strong> vestir, esto <strong>de</strong>ja <strong>de</strong> ser así cuando intervi<strong>en</strong><strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a personas con<br />
pr<strong>en</strong>das con difer<strong>en</strong>tes texturas, ya que si la vestim<strong>en</strong>ta que lleva la persona que realiza<br />
el movimi<strong>en</strong>to que estamos analizando incluye una pr<strong>en</strong>da a rayas, pue<strong>de</strong> provocar que<br />
los gradi<strong>en</strong>tes <strong>en</strong> los ejes ‘x’ o ‘y’ varí<strong>en</strong>, esto nos llevaría a introducir información<br />
errónea <strong>en</strong> los histogramas, lo que pue<strong>de</strong> hacer que el reconocimi<strong>en</strong>to <strong>de</strong> la actividad <strong>en</strong><br />
cuestión falle.<br />
distancia<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
Acción ejemplo caminar<br />
caminar ropa rayas<br />
caminar<br />
correr<br />
0<br />
0 20 40 60 80 100 120<br />
frame<br />
Figura 6.14: Gráfica<br />
que muestra las<br />
medidas <strong>de</strong> distancia<br />
conductual <strong>de</strong> una<br />
persona caminando y<br />
corri<strong>en</strong>do, con ropa <strong>de</strong><br />
un color homogéneo,<br />
y una persona<br />
caminando con una<br />
pr<strong>en</strong>da <strong>de</strong> vestir a<br />
rayas fr<strong>en</strong>te a la<br />
actividad ejemplo<br />
caminar.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 90
6. Experim<strong>en</strong>tos y resultados<br />
Mediante los datos que nos aporta la gráfica (Figura 6.14) po<strong>de</strong>mos comprobar que si<br />
incluimos una pr<strong>en</strong>da a rayas, <strong>en</strong> la vestim<strong>en</strong>ta <strong>de</strong> la persona que realiza el movimi<strong>en</strong>to<br />
que estamos estudiando, la distancia que obt<strong>en</strong>emos es bastante mayor que la que<br />
<strong>de</strong>beríamos conseguir, lo que provoca que la tarea <strong>de</strong> reconocer la acción que buscamos<br />
pueda fallar. En este ejemplo <strong>en</strong> concreto, la acción <strong>de</strong> caminar portando una pr<strong>en</strong>da a<br />
rayas consigue valores <strong>de</strong> distancia similares a los <strong>de</strong> la acción correr.<br />
Para solucionar este contratiempo t<strong>en</strong>dríamos que utilizar un método que nos <strong>en</strong>turbie y<br />
nos mezcle los distintos colores <strong>de</strong> la pr<strong>en</strong>da rayada, así el sistema tomaría esa pr<strong>en</strong>da<br />
como si fuese <strong>de</strong> un único color y <strong>de</strong> esta forma conseguiríamos que la pr<strong>en</strong>da no<br />
tuviese influ<strong>en</strong>cia sobre los gradi<strong>en</strong>tes espaciales.<br />
6.3.4. Variación <strong>de</strong> las escalas temporales<br />
Para realizar este sistema hemos t<strong>en</strong>ido <strong>en</strong> cu<strong>en</strong>ta que una misma acción humana pue<strong>de</strong><br />
ocurrir a difer<strong>en</strong>tes velocida<strong>de</strong>s, por eso hemos construido nuestro algoritmo para que<br />
sea robusto fr<strong>en</strong>te a estos cambios <strong>de</strong> velocidad. Esto lo conseguimos gracias a la<br />
utilización <strong>de</strong> la pirámi<strong>de</strong> temporal que creamos <strong>en</strong> la primera parte <strong>de</strong>l algoritmo,<br />
consigui<strong>en</strong>do así replicar los datos <strong>de</strong>l mismo movimi<strong>en</strong>to <strong>en</strong> distintas escalas<br />
temporales, lo que nos resulta <strong>de</strong> gran ayuda a la hora reconocer un <strong>de</strong>terminado<br />
movimi<strong>en</strong>to si este se ejecuta <strong>en</strong> una escala temporal distinta que la <strong>de</strong> la actividad<br />
ejemplo.<br />
6.3.5. Variación <strong>de</strong> las escalas espaciales<br />
Las variaciones <strong>en</strong> el tamaño espacial <strong>de</strong>bido a cambios mo<strong>de</strong>rados <strong>de</strong> zoom o <strong>de</strong> la<br />
distancia <strong>de</strong> la persona con respecto <strong>de</strong> la cámara <strong>de</strong> ví<strong>de</strong>o provocan únicam<strong>en</strong>te un<br />
efecto pequeño sobre el conjunto <strong>de</strong> gradi<strong>en</strong>tes, por lo tanto, po<strong>de</strong>mos asegurar que<br />
nuestro sistema maneja correctam<strong>en</strong>te estos pequeños cambios. Por otra parte, si se dan<br />
cambios gran<strong>de</strong>s <strong>en</strong> el zoom o <strong>en</strong> la distancia <strong>de</strong> la persona con respecto a la cámara,<br />
estos si afectaran <strong>de</strong> forma más clara a los gradi<strong>en</strong>tes, lo que acarreara consecu<strong>en</strong>cias<br />
negativas a nuestro reconocedor <strong>de</strong> activida<strong>de</strong>s humanas.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 91
6. Experim<strong>en</strong>tos y resultados<br />
Figura 6.15: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />
caminando a distintas distancias con respecto a la cámara fr<strong>en</strong>te a la actividad ejemplo<br />
caminar.<br />
Si observamos los resultados <strong>de</strong> la gráfica (Figura 6.15)<br />
po<strong>de</strong>mos corroborar<br />
perfectam<strong>en</strong>te, que los cambios significativos <strong>de</strong> la distancia que existe <strong>en</strong>tre la persona<br />
que aparece <strong>en</strong> la esc<strong>en</strong>a y la cámara afectan directam<strong>en</strong>te a los valores <strong>de</strong> distancia<br />
conductual. Po<strong>de</strong>mos concluir, que aunque se realice el mismo movimi<strong>en</strong>to las<br />
variaciones <strong>de</strong> las escalas espaciales hac<strong>en</strong> que nuestro sistema no consiga i<strong>de</strong>ntificar<br />
correctam<strong>en</strong>te las acciones que pueda cont<strong>en</strong>er una secu<strong>en</strong>cia. También po<strong>de</strong>mos ver<br />
que cuanto mayor sea el cambio <strong>de</strong> zoom o el cambio <strong>de</strong> distancia <strong>de</strong> la persona con<br />
respecto a la cámara, mayor será el efecto sobre la ori<strong>en</strong>tación <strong>de</strong> los gradi<strong>en</strong>tes y m<strong>en</strong>or<br />
será la posibilidad <strong>de</strong> reconocimi<strong>en</strong>to.<br />
Para v<strong>en</strong>cer este problema <strong>de</strong>bemos utilizar una solución parecida a la usada para evitar<br />
las variaciones <strong>de</strong> las escalas temporales, t<strong>en</strong>emos que construir para cada acción que<br />
queramos <strong>de</strong>tectar una repres<strong>en</strong>tación <strong>en</strong> múltiples escalas espaciales. Para ello<br />
po<strong>de</strong>mos introducir varios <strong>ejemplos</strong> para cada acción que se difer<strong>en</strong>ci<strong>en</strong> únicam<strong>en</strong>te <strong>en</strong><br />
el zoom utilizado o <strong>en</strong> la distancia con respecto a la cámara.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 92
6. Experim<strong>en</strong>tos y resultados<br />
6.3.6. Cambios <strong>en</strong> la dirección <strong>de</strong> visión<br />
Los cambios significativos <strong>en</strong> la dirección <strong>de</strong> la visión <strong>de</strong> la cámara o cambios <strong>en</strong> la<br />
dirección <strong>de</strong>l movimi<strong>en</strong>to que realiza una persona con respecto a la cámara influy<strong>en</strong><br />
directam<strong>en</strong>te <strong>en</strong> el conjunto <strong>de</strong> gradi<strong>en</strong>tes espacio-temporales. T<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta que<br />
una persona pue<strong>de</strong> estar realizando un mismo movimi<strong>en</strong>to fr<strong>en</strong>te a una cámara <strong>de</strong> ví<strong>de</strong>o<br />
y <strong>en</strong> cualquier mom<strong>en</strong>to pue<strong>de</strong> cambiar el ángulo <strong>de</strong> la dirección <strong>de</strong>l movimi<strong>en</strong>to con<br />
respecto a la cámara, hemos realizado un estudio para conocer cómo afectan estos<br />
cambios al sistema, los resultados se expon<strong>en</strong> a continuación.<br />
Figura 6.16: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />
caminando con difer<strong>en</strong>tes direcciones <strong>de</strong> movimi<strong>en</strong>to con respecto a la cámara fr<strong>en</strong>te a la<br />
actividad ejemplo caminar.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 93
6. Experim<strong>en</strong>tos y resultados<br />
Figura 6.17: Gráfica que muestra las medidas <strong>de</strong> distancia conductual <strong>de</strong> una persona<br />
caminando, <strong>en</strong> un primer mom<strong>en</strong>to paralelo a la cámara y seguidam<strong>en</strong>te cambiando su<br />
dirección <strong>de</strong> movimi<strong>en</strong>to 90º, com<strong>en</strong>zando así a caminar perp<strong>en</strong>dicular a la cámara fr<strong>en</strong>te a la<br />
actividad ejemplo caminar.<br />
Los datos que nos ofrec<strong>en</strong> estas gráficas (Figura 6.16 y 6.17) nos sirv<strong>en</strong> <strong>de</strong> gran ayuda<br />
para conocer como actúa nuestro sistema a cambios <strong>en</strong> la dirección <strong>de</strong> una persona o<br />
cambios <strong>en</strong> la dirección <strong>de</strong> visión <strong>de</strong> la cámara. Si observamos las gráficas po<strong>de</strong>mos<br />
<strong>de</strong>cir que cuanto mayor sea el cambio <strong>de</strong> dirección, más afecta a los gradi<strong>en</strong>tes y por lo<br />
tanto a la tarea <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s. Si el cambio <strong>de</strong> dirección es <strong>de</strong> 90º<br />
con respecto a la dirección <strong>de</strong>l movimi<strong>en</strong>to ejemplo, aunque se trate <strong>de</strong> la acción que<br />
queremos <strong>de</strong>tectar, el sistema asigna a este movimi<strong>en</strong>to unos valores <strong>de</strong> distancia muy<br />
altos por lo que será imposible reconocer esa acción. Por otro lado, si el cambio <strong>de</strong><br />
dirección es <strong>de</strong> 60º el efecto se reduce consi<strong>de</strong>rablem<strong>en</strong>te, pero los valores <strong>de</strong> distancia<br />
que obt<strong>en</strong>emos pue<strong>de</strong>n hacer que nos confundamos con otros movimi<strong>en</strong>tos, como por<br />
ejemplo, como ocurre <strong>en</strong> este caso, con la acción correr. Sin embargo, vemos que si el<br />
cambio <strong>de</strong> dirección <strong>de</strong>l movimi<strong>en</strong>to con respecto a la cámara es <strong>de</strong> 30º o m<strong>en</strong>or el<br />
sistema no se ve afectado y por lo tanto manejaría esta situación reconoci<strong>en</strong>do<br />
correctam<strong>en</strong>te la actividad incluida <strong>en</strong> el ejemplo.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 94
6. Experim<strong>en</strong>tos y resultados<br />
Para contrarrestar este problema <strong>de</strong>bemos introducir <strong>en</strong> el sistema, para cada acción<br />
buscada, varios <strong>ejemplos</strong> cuyas direcciones <strong>de</strong> realización con respecto a la cámara sean<br />
distintas.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 95
6. Experim<strong>en</strong>tos y resultados<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 96
7. Conclusiones y trabajo futuro<br />
7. Conclusiones y trabajo<br />
futuro<br />
En el pres<strong>en</strong>te proyecto se ha estudiado, <strong>de</strong>sarrollado, implem<strong>en</strong>tado y docum<strong>en</strong>tado un<br />
sistema reconocedor <strong>de</strong> activida<strong>de</strong>s humanas <strong>en</strong> ví<strong>de</strong>o, nuestro algoritmo es capaz <strong>de</strong><br />
<strong>de</strong>tectar y reconocer las difer<strong>en</strong>tes acciones que aparec<strong>en</strong> <strong>en</strong> una secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o<br />
sirviéndose sólo <strong>de</strong> una simple medida <strong>de</strong> distancia estadística, con la que po<strong>de</strong>mos<br />
medir la semejanza conductual <strong>en</strong>tre dos movimi<strong>en</strong>tos.<br />
Como po<strong>de</strong>mos comprobar, gracias a los resultados obt<strong>en</strong>idos expuestos <strong>en</strong> esta<br />
memoria, hemos logrado cumplir los objetivos propuestos <strong>en</strong> un principio para<br />
<strong>de</strong>sarrollar un sistema óptimo que consigue manejar múltiples activida<strong>de</strong>s humanas<br />
pres<strong>en</strong>tes <strong>en</strong> difer<strong>en</strong>tes secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o, para ello nos hemos <strong>basado</strong> <strong>en</strong> el trabajo<br />
previo <strong>de</strong> Zelnik-Manor e Irani <strong>de</strong>scrito <strong>en</strong> el docum<strong>en</strong>to “Statistical Analysis of<br />
Dynamic Actions” [1].<br />
El primer objetivo que se ha conseguido es que el sistema sea capaz <strong>de</strong> trabajar con todo<br />
tipo <strong>de</strong> acciones dinámicas, esto se <strong>de</strong>be a la forma con la que se extra<strong>en</strong> las<br />
características <strong>de</strong> los movimi<strong>en</strong>tos que surg<strong>en</strong> <strong>en</strong> las secu<strong>en</strong>cias con las que trabajamos,<br />
ya que solam<strong>en</strong>te nos c<strong>en</strong>tramos <strong>en</strong> escoger los rasgos espacio-temporales <strong>en</strong> múltiples<br />
escalas temporales, conservando así las peculiarida<strong>de</strong>s conductuales <strong>de</strong> las acciones y<br />
<strong>de</strong>sechando cambios <strong>en</strong> el fondo, iluminación, aspecto, etc. Por otro lado, esto también<br />
nos ha ayudado a disminuir consi<strong>de</strong>rablem<strong>en</strong>te la duración <strong>de</strong> la etapa <strong>de</strong> estudio <strong>de</strong> las<br />
activida<strong>de</strong>s que vamos a tomar como ejemplo con respecto <strong>de</strong> otros sistemas similares,<br />
<strong>de</strong>bido a que para caracterizar las acciones necesitamos un número reducido <strong>de</strong><br />
parámetros.<br />
El segundo objetivo que hemos logrado satisfactoriam<strong>en</strong>te es simplificar el método<br />
mediante el cual se comparan dos activida<strong>de</strong>s que aparec<strong>en</strong> <strong>en</strong> dos secu<strong>en</strong>cias <strong>de</strong> ví<strong>de</strong>o<br />
distintas. Para ello nos ayudamos <strong>de</strong> una medida <strong>de</strong> distancia no paramétrica que está<br />
basada únicam<strong>en</strong>te <strong>en</strong> el comportami<strong>en</strong>to, con esta medida <strong>de</strong> distancia conductual<br />
logramos <strong>de</strong>cidir si las acciones humanas apr<strong>en</strong>didas anteriorm<strong>en</strong>te están o no pres<strong>en</strong>tes<br />
<strong>en</strong> el ví<strong>de</strong>o estudiado.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 97
7. Conclusiones y trabajo futuro<br />
Concluy<strong>en</strong>do, el sistema <strong>de</strong>sarrollado: reconocimi<strong>en</strong>to <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong><br />
<strong>en</strong> <strong>ejemplos</strong>, es muy versátil y que está capacitado para po<strong>de</strong>r trabajar con una amplia<br />
gama <strong>de</strong> acciones y ví<strong>de</strong>os, ya que no es necesario que las condiciones <strong>de</strong> la secu<strong>en</strong>cia o<br />
secu<strong>en</strong>cias que conti<strong>en</strong>e la actividad ejemplo sean iguales o similares a las <strong>de</strong>l ví<strong>de</strong>o que<br />
queremos analizar.<br />
A lo largo <strong>de</strong> la elaboración <strong>de</strong> este proyecto hemos podido comprobar que la tarea <strong>de</strong><br />
reconocimi<strong>en</strong>to <strong>de</strong> acciones <strong>en</strong> vi<strong>de</strong>o es bastante difícil. Actualm<strong>en</strong>te es un aspecto<br />
p<strong>en</strong>di<strong>en</strong>te <strong>en</strong> el mundo <strong>de</strong>l procesami<strong>en</strong>to imag<strong>en</strong> y ví<strong>de</strong>o. Muchos sistemas están<br />
<strong>en</strong>focados al reconocimi<strong>en</strong>to <strong>de</strong> un conjunto altam<strong>en</strong>te limitado <strong>de</strong> acciones, sin<br />
embargo, los sistemas reales t<strong>en</strong>drán que ext<strong>en</strong><strong>de</strong>rse <strong>en</strong> variedad y número <strong>de</strong> acciones<br />
para po<strong>de</strong>r manejarse, es por esto que <strong>en</strong> este proyecto se int<strong>en</strong>ta seguir esa dirección,<br />
aunque este sistema que pres<strong>en</strong>tamos aún está muy lejos <strong>de</strong> ser <strong>de</strong>finitivo. Mejores<br />
métodos han ser <strong>de</strong>sarrollados todavía, para conseguir la invariancia ante cambios <strong>en</strong> la<br />
dirección <strong>de</strong> visión, apari<strong>en</strong>cia, distancia a la cámara, etc.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 98
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 99
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 100
Refer<strong>en</strong>cias<br />
[1] L. Zelnik-Manor and M. Irani, “Statistical analysis of dynamic actions”, IEEE<br />
Transactions on Pattern Analysis and Machine Intellig<strong>en</strong>ce, pp.1530-1535, 2006.<br />
[2] Y. Tsaig and A. Averbuch, “Automatic Segm<strong>en</strong>tation of Moving Objects in Vi<strong>de</strong>o<br />
Sequ<strong>en</strong>ces: A Region Labeling Approach”, IEEE Transactions on Circuits and Systems<br />
for Vi<strong>de</strong>o Technology, pp. 597-612, Dec. 2002.<br />
[3] H. Dias, J. Rocha, P. Silva, C. Leao, “Distributed Surveillance System", Confer<strong>en</strong>ce on<br />
Artificial Intellig<strong>en</strong>ce, pp 257-261, 2005.<br />
[4] M. Valera and S.A. Velastin, “Intellig<strong>en</strong>t Distributed Surveillance Systems”, IEEE<br />
Proc.-Vis. Image Signal Processing., vol. 152, no. 2, Apr. 2005.<br />
[5] M. M. Chang, M. I. Sezan, and A. M. Tekalp, “An algorithm for simultaneous motion<br />
estimation and sc<strong>en</strong>e segm<strong>en</strong>tation,” IEEE International Confer<strong>en</strong>ce on Acoustics,<br />
Speech, and Signal Processing, vol. V, pp. 221–224, A<strong>de</strong>lai<strong>de</strong>, Australia, Apr. 1994.<br />
[6] R.Li<strong>en</strong>hart, C.Kuhmunch, W. Effelsberg, “On the <strong>de</strong>tection and recognition of<br />
television commercials”, International Confer<strong>en</strong>ce on Multimedia Computing and<br />
Systems, pp. 509–516, 1997.<br />
[7] O. Sukmarg, K.R. Rao, “Fast object <strong>de</strong>tection and segm<strong>en</strong>tation in MPEG compressed<br />
domain”, IEEE TENCON, vol. 3, pp. 364–368, Kuala Lumpur, Malaysia, 2000.<br />
[8] K. Toyama, J. Krumm, B. Brumitt, B. Meyers, “Principles and Practice of Background<br />
Maint<strong>en</strong>ance”, ICCV, Sev<strong>en</strong>th International Confer<strong>en</strong>ce on Computer Vision, vol.1, pp.<br />
255-261, 1999.<br />
[9] A. Elgammal, R. Duraiswami, D. Harwood, LS. Davis. “Background and foreground<br />
mo<strong>de</strong>ling using nonparametric kernel <strong>de</strong>nsity estimation for visual surveillance”, IEEE,<br />
pp. 1151-1163 Jul. 2002.<br />
[10] M. Harville, G. Gordon, J. Woodfill “Foreground Segm<strong>en</strong>tation Using Adaptive<br />
Mixture Mo<strong>de</strong>ls in Color and Depth”, IEEE Workshop on Detection and Recog of<br />
Ev<strong>en</strong>ts in Vi<strong>de</strong>o, pp. 3-12, 2001.<br />
[11] R Ewerth, B Freisleb<strong>en</strong>, “Frame differ<strong>en</strong>ce normalization: an approach to reduce error<br />
rates of cut <strong>de</strong>tection algorithms for MPEG vi<strong>de</strong>os” ICIP, pp. 1009-1012, 2003.<br />
[12] B.P.L. Lo and S.A. Velastin, “Automatic congestion <strong>de</strong>tection system for un<strong>de</strong>rground<br />
platforms”, International Symposium on Intellig<strong>en</strong>ce Multimedia, Vi<strong>de</strong>o and Speech<br />
Processing, pp. 158-161, 2000.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 101
[13] R. Cucchiara, C. Grana, M. Piccardi, and A. Prati, “Detecting moving objects, ghosts<br />
and shadows in vi<strong>de</strong>o streams”, IEEE Trans. Patter Analysis and Machine Intellig<strong>en</strong>t,<br />
vol. 25, no. 10, pp. 1337-1342, Oct. 2003.<br />
[14] C. Wr<strong>en</strong>, A. Azarbayejani, T. Darrell, and A. P<strong>en</strong>tland, “Pfin<strong>de</strong>r:Real-time Tracking of<br />
the Human Body,” IEEE Trans. Patter Analysis and Machine Intellig<strong>en</strong>t, vol. 19, no. 7,<br />
pp. 780-785, 1997.<br />
[15] C. Stauffer, W.E.L. Grimson, “Adaptive background mixture mo<strong>de</strong>lsfor real-time<br />
tracking”, CVPR, pp. 246-252, 1999.<br />
[16] A, Elgammal, D. Harwood, and L.S. Davis, “Non-parametric Mo<strong>de</strong>l for Background<br />
Subtraction”, ICCV '99 FRAME-RATE Workshop, 1999.<br />
[17] D. Butler, S. Sridharan, VMJr. Bove, “Real-time Adaptive Background Segm<strong>en</strong>tation.<br />
Acoustics, Speech, and Signal Processing”,2003. Proceedings. (ICASSP '03). 2003<br />
IEEE, pp.349-52, Apr. 2003.<br />
[18] A. Cavallaro, T. Ebrahimi, “Change <strong>de</strong>tection based on color edges, circuits and<br />
systems”, IEEE International Symposium, pp. 141-144, May, 2001.<br />
[19] L.Fu<strong>en</strong>tes, S.Velastin, “From tracking to advanced surveillance”, IEEE International.<br />
Confer<strong>en</strong>ce on Image Processing, Barcelona, Spain, Sept 2003.<br />
[20] T. Boult, R. Micheals, X. Gao, M. Eckmann, “Into the woods: Visual surveillance of<br />
oncooperative camouflaged targets in complex outdoor settings”, IEEE, pp. 1382- 1402,<br />
Oct. 2001.<br />
[21] R. J. Schalkoff, “Digital Image Processing and Computer Vision” Editorial John Wiley<br />
& Sons pp. 213-218, 1989.<br />
[22] B.K.P. Horn, “Robot Vision”, MIT Press, Cambridge, MA, & McGrawn-Hill Book<br />
Company, New York, 1986.<br />
[23] M. Wessler, L.A. Stein, “Robust Active Vision from Simple Symbiotic Subsystems”,<br />
Technical Report, MIT, 1997.<br />
[24] P. Anandan, “A computacional cuadrowork and an algorithm for the measurem<strong>en</strong>t of<br />
visual motion”, International Journal of Computer Vision, pp.283-310, Jan., 1989.<br />
[25] S. A. Brock-Gunn, G.R. Dowling, T. J. Ellis. “Tracking using colour information”,<br />
Technical Report TCU/CS/1994/7, City Univ. London, 1994.<br />
[26] M. Kass, A. Witkin and Terzopoulos. “Snakes: Active contour mo<strong>de</strong>ls”, International<br />
Journal of Computer Vision, pp-133-144, 1987.<br />
[27] S. Gil, R. Milanese, T. Pun. “Feature selection for object tracking in traffic sc<strong>en</strong>es”,<br />
SPIE International Symposium on Smart Highways, Boston, Massachusetts, Oct. 31-<br />
Nov. 4, 1994.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 102
[28] J.C. Niebles, F.F. Li, “A Hierarchical Mo<strong>de</strong>l of Shape and Appearance for Human<br />
Action Classification”, CVPR07(1-8), IEEE, 2007.<br />
[29] M. Blank, L. Gorelick, E. Shechtman, M. Irani, and R. Basri. “Actions as space-time<br />
shapes”, ICCV, 2005.<br />
[30] C. Fanti, L. Zelnik-Manor, and P. Perona. Hybrid mo<strong>de</strong>ls for human motion<br />
recognition. In CVPR, 2005.<br />
[31] N. Dalal, B. Triggs, and C. Schmid. “Human <strong>de</strong>tection usingori<strong>en</strong>ted histograms of flow<br />
and appearance”. ECCV, 2006.<br />
[32] A. A. Efros, A. C. Berg, G. Mori, and J. Malik. “Recognizing action at a distance”. In<br />
ICCV, 2003.<br />
[33] V. Cheung, B. J. Frey, and N. Jojic. “Vi<strong>de</strong>o epitomes”. InCVPR, 2005.<br />
[34] J. C. Niebles, Hongch<strong>en</strong>g Wang and Li Fei-Fei. “Unsupervised Learning of Human<br />
Action Categories Using Spatial-Temporal Words”. International Journal of Computer<br />
Vision (IJCV). Sep., 2008.<br />
[35] L. Fei-Fei, & P.Perona, “A Bayesian hierarchical mo<strong>de</strong>l for learning natural sc<strong>en</strong>e<br />
categories2, IEEE computer society confer<strong>en</strong>ce on computer vision and pattern<br />
recognition, pp. 524–531, 2005.<br />
[36] T. Hofmann, “Probabilistic lat<strong>en</strong>t semantic in<strong>de</strong>xing”, 22nd annual international ACM<br />
SIGIR confer<strong>en</strong>ce on research and <strong>de</strong>velopm<strong>en</strong>t in information retrieval pp. 50–57,<br />
Aug. 1999.<br />
[37] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Lat<strong>en</strong>t Dirichlet allocation Journal of Machine<br />
Learning Research”, vol. 3, pp. 993–1022, 2003.<br />
[38] M. Marsza lek, I. Laptev and C. Schmid. “Actions in context”, IEEE Confer<strong>en</strong>ce on<br />
Computer Vision and Pattern Recognition, 2009.<br />
[39] B. Sch¨olkopf and A. Smola. “Learning with Kernels: Support Vector Machines,<br />
Regularization, Optimization and Beyond”, MIT Press, Cambridge, MA, 2002.<br />
[40] A. A. Efros, A. C. Berg, G. J. Mori, and Malik, “Recognizing action at a distance”.<br />
IEEE international confer<strong>en</strong>ce on computer visión, Vol. 2, pp. 726–733, 2003.<br />
[41] E. Shechtman, and M. Irani, “Space-time behavior based correlation”. IEEE computer<br />
society confer<strong>en</strong>ce on computer vision and pattern recognition, Vol. 1, pp. 405– 412),<br />
2005.<br />
[42] D. Ramanan, D. A. and Forsyth, “Automatic annotation of everyday movem<strong>en</strong>ts”. In<br />
Thrun, S., Saul, L., & Schölkopf, B. (Eds.), Advances in neural information processing<br />
systems, Vol. 16, Cambridge: MIT Press, 2004.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 103
[43] A. Yilmaz, and M. Shah, “Recognizing human actions in vi<strong>de</strong>os acquired by<br />
uncalibrated moving cameras”, IEEE international confer<strong>en</strong>ce on computer vision Vol.<br />
1, pp. 150–157, 2005.<br />
[44] M. Blank, L. Gorelick, E. Shechtman, M. Irani, R.& Basri, “Actions as space-time<br />
shapes”, IEEE international confer<strong>en</strong>ce on computer visión, Vol. 2, pp. 1395– 1402,<br />
2005.<br />
[45] H. Zhong, J. Shi, & M. Visontai, “Detecting unusual activity in vi<strong>de</strong>o”. IEEE computer<br />
society confer<strong>en</strong>ce on computer vision and pattern recognition pp. 819–826, 2004.<br />
[46] Y. Ke, R. Sukthankar, & M. Hebert, “Effici<strong>en</strong>t visual ev<strong>en</strong>t <strong>de</strong>tection using volumetric<br />
features”. IEEE international confer<strong>en</strong>ce on computer visión, pp. 166–173, 2005.<br />
[47] C. Schuldt, I. Laptev, and B. Caputo, “Recognizing human actions: a local svm<br />
approach”. ICPR, pp. 32–36, 2004.<br />
[48] P. Dollár, V. Rabaud, G. Cottrell, and S. Belongie, “Behavior recognition via sparse<br />
spatio-temporal features”. IEEE international workshop on visual surveillance and<br />
performanc., 2005.<br />
[49] A. Oikonomopoulos, I. Patras, and M. Pantic, “Human action recognition with<br />
spatiotemporal sali<strong>en</strong>t points”, IEEE Transactions on Systems, Man, and Cybernetics,<br />
Part B: Cybernetics, pp. 710–719, 2006.<br />
[50] J. Sivic, B. C. Russell, A. A. Efros, A. Zisserman, and W. T. Freeman, “Discovering<br />
objects and their location in images”, IEEE international confer<strong>en</strong>ce on computer vision<br />
pp. 370–377 Oct. 2005.<br />
[51] A. K. Jain, A. Ross, and S. Prabhakar. “An introduction to biometric recognition”. IEEE<br />
Transactions on Circuits and Systems for Vi<strong>de</strong>o Technology, pp.125_143, 2006.<br />
[52] A. Bobick and J. Davis, “The Repres<strong>en</strong>tation and Recognition of Action Using<br />
Temporal Templates,” IEEE Transactions Pattern Analysis and Machine Intellig<strong>en</strong>ce,<br />
vol. 23, no. 3, pp. 257-267, Mar. 2001.<br />
[53] G. Bradski and J. Davis, “Motion Segm<strong>en</strong>tation and Pose Recognition with Motion<br />
History Gradi<strong>en</strong>ts,” Int’l J. Machine Vision and Applications, vol. 13, no. 3, pp. 174-<br />
184, 2002.<br />
[54] O. Chomat and J.L. Crowley, “Probabilistic Recognition of Activity Using Local<br />
Appearance,” IEEE Confer<strong>en</strong>ce Computer Vision and Pattern Recognition, June 1999.<br />
[55] A. Efros, A. Berg, G. Mori, and J. Malik, “Recognizing Action at a Distance,” Int’l<br />
Conf. Computer Vision, vol. 2, pp. 726-733, Oct. 2003.<br />
[56] D.M. Gavrila and L.S. Davis, “3-D Mo<strong>de</strong>l-Based Tracking of Humans in Action: A<br />
Multi-View Approach,” Proc. IEEE Confefer<strong>en</strong>ce Computer Vision and Pattern<br />
Recognition, 1996.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 104
[57] M. Irani, B. Rousso, and S. Peleg, “Computing Occluding and Transpar<strong>en</strong>t Motions,”<br />
Int’l J. Computer Vision, vol. 12, pp. 5-16, Feb. 1994.<br />
[58] S.X. Ju, M.J. Black, and Y. Yacoob, “Cardboard People: A Parametrized Mo<strong>de</strong>l of<br />
Articulated Image Motion,” Second Int’l Confer<strong>en</strong>ce. Automatic Face and Gesture<br />
Recognition, pp. 38-44, Oct. 1996.<br />
[59] Y. Yacoob and M.J. Black, “Parametrized Mo<strong>de</strong>ling and Recognition of Activities,”<br />
Computer Vision and Image Un<strong>de</strong>rstanding, vol. 73, no. 2, pp. 232- 247, 1999.<br />
[60] R. Polana and R. Nelson, “Detecting Activities,” IEEE Conf. Computer Vision and<br />
Pattern Recognition, June 1993.<br />
[61] R. O. Duda, Peter E. Hart y D. G. Stork. “Pattern Classi_cation, da. edici_on”. New<br />
York, Wiley-Intersci<strong>en</strong>ce, Nov. 2001.<br />
[62] M. Everingham and B. Thomas. S”upervised Segm<strong>en</strong>tation and Tracking of Nonrigid<br />
Objects Using a “Mixture of Histograms" Mo<strong>de</strong>l”. IEEE International confer<strong>en</strong>ce on<br />
Image Processing, vol. 1 pp. 62-65, Oct. 2001.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 105
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 106
Anexos<br />
A. Manual <strong>de</strong>l programador<br />
Fución vi<strong>de</strong>o_info:<br />
void vi<strong>de</strong>o_info(CvCapture* <strong>en</strong>trada, char* cad )<br />
/*********************************************************************<br />
Función: Muestra por pantalla la información concerni<strong>en</strong>te al ví<strong>de</strong>o.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvCapture* <strong>en</strong>trada -Puntero a la captura <strong>de</strong>l vi<strong>de</strong>o.<br />
char* cad –Nombre <strong>de</strong>l ví<strong>de</strong>o.<br />
Retorno:<br />
*********************************************************************/<br />
Fución matriz_frames:<br />
void matriz_frames(CvCapture* <strong>en</strong>trada, CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_R,<br />
CvMat** vi<strong>de</strong>o_G, CvMat** vi<strong>de</strong>o_B, double num_frames, char *cad, int<br />
flag )<br />
/*********************************************************************<br />
Función: Devuelve cuatro conjuntos <strong>de</strong> matrices que conti<strong>en</strong>e los datos<br />
<strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o. El 1º conjunto conti<strong>en</strong>e el ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong><br />
grises. El 2º conjunto conti<strong>en</strong>e la compon<strong>en</strong>te primaria <strong>de</strong> color Rojo<br />
<strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. El 3º conjunto conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color azul <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o. El 4º conjunto<br />
conti<strong>en</strong>e la compon<strong>en</strong>te primaria <strong>de</strong> color ver<strong>de</strong> <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong><br />
ví<strong>de</strong>o.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvCapture* <strong>en</strong>trada - puntero a la captura <strong>de</strong>l vi<strong>de</strong>o.<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
char* cad – Nombre <strong>de</strong>l ví<strong>de</strong>o.<br />
int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />
algoritmo.<br />
Retorno:<br />
CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e el ví<strong>de</strong>o <strong>en</strong> escala<br />
<strong>de</strong> grises.<br />
CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 107
*********************************************************************/<br />
Fución moving_window:<br />
void moving_window(CvCapture* <strong>en</strong>trada, CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_R,<br />
CvMat** vi<strong>de</strong>o_G, CvMat** vi<strong>de</strong>o_B, double num_frames, int flag)<br />
/*********************************************************************<br />
Función: Devuelve cuatro conjuntos <strong>de</strong> matrices que conti<strong>en</strong>e los datos<br />
<strong>de</strong> los frames <strong>de</strong>l ví<strong>de</strong>o, <strong>de</strong>spués <strong>de</strong> <strong>de</strong>scartar el primer frame <strong>de</strong>l<br />
cunjunto pert<strong>en</strong>eci<strong>en</strong>te a la iteración anterior y añadir un nuevo frame<br />
al final <strong>de</strong>l conjunto <strong>de</strong> matrices. El 1º conjunto conti<strong>en</strong>e una<br />
subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises. El 2º conjunto compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o. El 3º conjunto<br />
compon<strong>en</strong>te primaria <strong>de</strong> color azul <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o. El 4º<br />
conjunto compon<strong>en</strong>te primaria <strong>de</strong> color ver<strong>de</strong> <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l<br />
ví<strong>de</strong>o.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvCapture* <strong>en</strong>trada - puntero que apunta la captura <strong>de</strong>l vi<strong>de</strong>o.<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />
algoritmo.<br />
Retorno:<br />
CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />
<strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises.<br />
CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
*********************************************************************/<br />
Fución media_y_<strong>de</strong>sviacion_tipica_fondo:<br />
void media_y_<strong>de</strong>sviacion_tipica_fondo(CvCapture* <strong>en</strong>trada, double<br />
num_frames, CvMat* mediafondo,CvMat* <strong>de</strong>sv_tipica_fonfo )<br />
/*********************************************************************<br />
Función: Devuelve una matriz que repres<strong>en</strong>ta la media <strong>de</strong>l fondo y otra<br />
matriz que nos da la <strong>de</strong>sviacion típica <strong>de</strong>l fondo.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvCapture* <strong>en</strong>trada - puntero que apunta la captura <strong>de</strong>l vi<strong>de</strong>o.<br />
double num_frames - número <strong>de</strong> frames con los que vamos a<br />
trabajar para conseguir la media y la <strong>de</strong>sviación típica.<br />
Retorno:<br />
CvMat* mediafondo - Matriz CvMat media <strong>de</strong>l fondo.<br />
<strong>de</strong>sv_tipica_fonfo - Matriz CvMat <strong>de</strong>sviación típica <strong>de</strong>l fondo.<br />
*********************************************************************/<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 108
Fución vi<strong>de</strong>o_pasobajo:<br />
void vi<strong>de</strong>o_pasobajo(CvMat** vi<strong>de</strong>o, CvMat** vi<strong>de</strong>o_pb, double<br />
num_frames)<br />
/*********************************************************************<br />
Función: Muestrea la secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o y seguidam<strong>en</strong>te pasa un filtro<br />
paso baja obt<strong>en</strong>i<strong>en</strong>do así el sigui<strong>en</strong>te escalón <strong>de</strong> la pirámi<strong>de</strong> temporal.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />
<strong>de</strong>l ví<strong>de</strong>o.<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
Retorno:<br />
CvMat** vi<strong>de</strong>o_pb - set <strong>de</strong> matrices que conti<strong>en</strong>e el sigui<strong>en</strong>te<br />
nivel <strong>de</strong> la pirámi<strong>de</strong> temporal <strong>de</strong> una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
*********************************************************************/<br />
Fución gradi<strong>en</strong>te_ejes_xyt:<br />
void gradi<strong>en</strong>te_ejes_xyt(CvMat** vi<strong>de</strong>o_R, CvMat** vi<strong>de</strong>o_G, CvMat**<br />
vi<strong>de</strong>o_B, double num_frames, IplImage** gradi<strong>en</strong>te_t, CvMat** Nx,<br />
CvMat** Ny, CvMat** Nt, int flag)<br />
/*********************************************************************<br />
Función: Calcula los gradi<strong>en</strong>te <strong>en</strong> los ejes ‘x, ‘y’ y tiempo para una<br />
secu<strong>en</strong>cia <strong>de</strong> ví<strong>de</strong>o, <strong>de</strong>volvi<strong>en</strong>do el array <strong>de</strong> imág<strong>en</strong>es que forman el<br />
gradi<strong>en</strong>te temporal y los tres conjuntos <strong>de</strong> matrices que conti<strong>en</strong><strong>en</strong> los<br />
gradi<strong>en</strong>tes espacio-temporales normalizados.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
CvMat** vi<strong>de</strong>o_R – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_G – set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
CvMat** vi<strong>de</strong>o_B - set <strong>de</strong> matrices que conti<strong>en</strong>e la compon<strong>en</strong>te<br />
primaria <strong>de</strong> color Rojo una subsecu<strong>en</strong>cia <strong>de</strong>l ví<strong>de</strong>o.<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />
algoritmo.<br />
Retorno:<br />
IplImage** gradi<strong>en</strong>te_t – array <strong>de</strong> estructura IplImage que<br />
conti<strong>en</strong>e la información <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />
CvMat** Nx – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te espacial x.<br />
CvMat** Ny – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te espacial y.<br />
CvMat** Nt - set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />
*********************************************************************/<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 109
Fución movimi<strong>en</strong>tos_in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes:<br />
void movimi<strong>en</strong>tos_in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes(doublé num_frames, CvMat* mediafondo,<br />
CvMat* <strong>de</strong>sv_tipica_fonfo, CvMat** vi<strong>de</strong>o, GRUPO_RECT<br />
grupos_rectangulos[], IplImage** seg_BN )<br />
/*********************************************************************<br />
Función: Realiza una segm<strong>en</strong>tación <strong>en</strong> blanco y negro para la <strong>de</strong>tección<br />
<strong>de</strong>l fr<strong>en</strong>te <strong>de</strong> <strong>de</strong> los frames <strong>de</strong> un ví<strong>de</strong>o, a continuación in<strong>de</strong>p<strong>en</strong>diza<br />
los distintos movimi<strong>en</strong>tos que aparec<strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a y <strong>de</strong>vuelve un<br />
array con los distintos grupos <strong>de</strong> rectángulos que repres<strong>en</strong>tan cada una<br />
<strong>de</strong> las acciones que suce<strong>de</strong>n <strong>en</strong> la secu<strong>en</strong>cia.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
CvMat* mediafondo - Matriz CvMat media <strong>de</strong>l fondo.<br />
CvMat* <strong>de</strong>sv_tipica_fonfo - Matriz CvMat <strong>de</strong>sviación típica <strong>de</strong>l<br />
fondo.<br />
CvMat** vi<strong>de</strong>o – set <strong>de</strong> matrices que conti<strong>en</strong>e una subsecu<strong>en</strong>cia<br />
<strong>de</strong>l ví<strong>de</strong>o <strong>en</strong> escala <strong>de</strong> grises.<br />
Retorno:<br />
GRUPO_RECT grupos_rectangulos[] – array <strong>de</strong> estructura GRUPO_RECT<br />
que conti<strong>en</strong>e <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te los distintos movimi<strong>en</strong>tos<br />
que aparec<strong>en</strong> <strong>en</strong> la esc<strong>en</strong>a.<br />
IplImage** seg_BN - array <strong>de</strong> estructura IplImage que conti<strong>en</strong>e la<br />
información <strong>de</strong> la segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />
realizada sobre el ví<strong>de</strong>o.<br />
*********************************************************************/<br />
Fución histograma:<br />
void histograma (IplImage** gradi<strong>en</strong>te_t, CvMat** Nx, CvMat** Ny,<br />
CvMat** Nt, double num_frames,int* hist_bins_x,int* hist_bins_y,int*<br />
hist_bins_t, GRUPO_RECT *grupos_rectangulos, int flag, IplImage**<br />
seg_BN)<br />
/*********************************************************************<br />
Función: Calcula los histogramas que conti<strong>en</strong><strong>en</strong> los datos que<br />
caracterizan <strong>en</strong> movimi<strong>en</strong>to.<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
IplImage** gradi<strong>en</strong>te_t – array <strong>de</strong> estructura IplImage que<br />
conti<strong>en</strong>e la información <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />
CvMat** Nx – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te espacial x.<br />
CvMat** Ny – set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te espacial y.<br />
CvMat** Nt - set <strong>de</strong> matrices que conti<strong>en</strong>e los datos <strong>de</strong> la<br />
normalización <strong>de</strong>l gradi<strong>en</strong>te temporal.<br />
double num_frames - número <strong>de</strong> frames <strong>de</strong>l vi<strong>de</strong>o que conti<strong>en</strong>e la<br />
acción ejemplo.<br />
int flag – falg indicador <strong>de</strong> la etapa <strong>en</strong> la que se <strong>en</strong>cu<strong>en</strong>tra el<br />
algoritmo.<br />
IplImage** seg_BN - array <strong>de</strong> estructura IplImage que conti<strong>en</strong>e la<br />
información <strong>de</strong> la segm<strong>en</strong>tación para la <strong>de</strong>tección <strong>de</strong>l fr<strong>en</strong>te<br />
realizada sobre el ví<strong>de</strong>o.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 110
GRUPO_RECT *grupos_rectangulos – Coti<strong>en</strong> un conjunto <strong>de</strong><br />
rectángulos con los datos <strong>de</strong> un únco movimi<strong>en</strong>to.<br />
Retorno:<br />
int hist_bins_x - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />
histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘x’.<br />
int hist_bins_y - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />
histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘y’.<br />
int hist_bins_t - array <strong>de</strong> int[256] que repres<strong>en</strong>ta el<br />
histograma <strong>de</strong> los datos que se refier<strong>en</strong> al eje ‘t’.<br />
*********************************************************************/<br />
Fución distancia2:<br />
double distancia2(int* hist_bins_x1_1,int* hist_bins_y1_1,int*<br />
hist_bins_t1_1, int* hist_bins_x1_2,int* hist_bins_y1_2,int*<br />
hist_bins_t1_2, int* hist_bins_x2_1,int* hist_bins_y2_1,int*<br />
hist_bins_t2_1, int* hist_bins_x2_2,int* hist_bins_y2_2,int*<br />
hist_bins_t2_2, int* hist_bins_x3_1,int* hist_bins_y3_1,int*<br />
hist_bins_t3_1, int* hist_bins_x3_2,int* hist_bins_y3_2,int*<br />
hist_bins_t3_2)<br />
/*********************************************************************<br />
Función Recibe 9 histogramas por cada acción, uno por cada una <strong>de</strong> las<br />
dim<strong>en</strong>siones y escalas temporales y <strong>de</strong>vuelve el valor <strong>de</strong> la distancia<br />
<strong>de</strong> comportami<strong>en</strong>to <strong>en</strong>tre las dos activida<strong>de</strong>s analizadas<br />
Parámetros <strong>de</strong> <strong>en</strong>trada:<br />
Conjunto e 9 histogramas <strong>de</strong> la acción ejemplo.<br />
Conjunto <strong>de</strong> 9 histogramas <strong>de</strong> la acción estudiada.<br />
Retorno:<br />
double Distancia – distancia conductual <strong>en</strong>tre dos movimi<strong>en</strong>tos.<br />
*********************************************************************/<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 111
B. Conjunto <strong>de</strong> ví<strong>de</strong>os<br />
Vi<strong>de</strong>os actividad ejemplo<br />
Nombre<br />
Caminar_ej1<br />
Caminar_ej2<br />
Caminar_ej3<br />
Correr_ej1<br />
Correr_ej2<br />
Saltar_ej1<br />
Descripción<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
una persona realizando la acción caminar una vez con cada pierna.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción caminar una vez con cada pierna.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te (experim<strong>en</strong>to C), <strong>en</strong> el que aparece una<br />
persona realizando la acción caminar una vez con cada pierna.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
una persona realizando la acción correr una vez con cada pierna.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción correr una vez con cada pierna.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción saltar.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 112
Vi<strong>de</strong>os Analizados<br />
Nombre<br />
Caminar1_expA<br />
Caminar2_expA<br />
Correr1_expA<br />
Correr2_expA<br />
Lateral1_expA<br />
Lateral2_expA<br />
Caminar1_expB<br />
Correr1_expB<br />
Lateral1_expB<br />
Gatear1_expB<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_1<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_2<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_3<br />
Descripción<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_1 realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_2 realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_1 realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_2 realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_1 realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />
esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_2 realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />
esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción caminar <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción correr <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción pasos laterales <strong>de</strong> una lado a otro <strong>de</strong> la<br />
esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción gatear <strong>de</strong> una lado a otro <strong>de</strong> la esc<strong>en</strong>a.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />
aparec<strong>en</strong> dos personas caminando y una apunta con un arma a la otra.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />
aparec<strong>en</strong> dos personas caminando una <strong>de</strong>trás <strong>de</strong> otra.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />
aparec<strong>en</strong> dos personas una realizando pasos laterales y otra persona<br />
simultáneam<strong>en</strong>te está gateando.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 113
Vi<strong>de</strong>os Analizados<br />
Nombre<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_4<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_5<br />
Secu<strong>en</strong>cia<br />
g<strong>en</strong>eral_5<br />
Fondo<br />
multimodal_1<br />
Fondo<br />
multimodal_2<br />
Caminar<br />
Zoom_x1_1<br />
Caminar<br />
Zoom_x1_2<br />
Caminar<br />
Zoom_x1_1<br />
Caminar<br />
Zoom_x1_2<br />
Caminar<br />
30º<br />
Caminar<br />
60º<br />
Caminar<br />
90º<br />
Descripción<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que<br />
aparec<strong>en</strong> <strong>de</strong> inicio dos personas una realizando la acción gatear y una <strong>de</strong><br />
ellas cambia <strong>en</strong> la mitad <strong>de</strong>l esc<strong>en</strong>ario la acción gatear por la acción<br />
caminar, mi<strong>en</strong>tras que la otra persona continua gateando.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona realizando la acción correr, <strong>en</strong> la mitad <strong>de</strong> la secu<strong>en</strong>cia<br />
tropieza, se cae, se levanta y continua corri<strong>en</strong>do.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to B, <strong>en</strong> el que aparece<br />
una persona alternando la acción correr y saltar.<br />
Ví<strong>de</strong>o <strong>en</strong> un esc<strong>en</strong>ario multimodal (playa), <strong>en</strong> el que aparece una persona<br />
realizando la acción caminar.<br />
Ví<strong>de</strong>o <strong>en</strong> un esc<strong>en</strong>ario multimodal (playa), <strong>en</strong> el que aparec<strong>en</strong> varias<br />
personas realizando la acción caminar.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_1 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />
modificando la distancia con respecto 5m.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_2 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />
modificando la distancia con respecto 5m.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_1 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />
modificando la distancia con respecto 10m.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
la persona_2 realizando la acción caminar <strong>de</strong> un lado a otro <strong>de</strong> la esc<strong>en</strong>a,<br />
modificando la distancia con respecto 10m.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
una persona caminando con un ángulo <strong>de</strong> 30º con respecto la cámara.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
una persona caminando con un ángulo <strong>de</strong> 60º con respecto la cámara.<br />
Ví<strong>de</strong>o <strong>en</strong> el esc<strong>en</strong>ario correspondi<strong>en</strong>te al experim<strong>en</strong>to A, <strong>en</strong> el que aparece<br />
una persona caminando con un ángulo <strong>de</strong> 90º con respecto la cámara.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 114
Presupuesto:<br />
1) Ejecución Material<br />
• Compra <strong>de</strong> or<strong>de</strong>nador personal (Software incluido) ....................................... 1.950 €<br />
• Material <strong>de</strong> oficina................................................................................... 200 €<br />
• Total <strong>de</strong> ejecución material ................................................................. 2.150 €<br />
2) Gastos g<strong>en</strong>erales<br />
• 16 % sobre Ejecución Material ............................................................... 344 €<br />
3) B<strong>en</strong>eficio Industrial<br />
• 6 % sobre Ejecución Material ................................................................ 129 €<br />
4) Honorarios Proyecto<br />
• 1.200 horas a 15 € / hora ................................................................... 18.000 €<br />
5) Material fungible<br />
• Gastos <strong>de</strong> impresión ............................................................................................. 85 €<br />
• Encua<strong>de</strong>rnación .................................................................................................. 200 €<br />
6) Subtotal <strong>de</strong>l presupuesto<br />
• Subtotal Presupuesto .......................................................................... 20.908 €<br />
7) I.V.A. aplicable<br />
• 16% Subtotal Presupuesto .............................................................. 3.345,28 €<br />
8) Total presupuesto<br />
• Total Presupuesto ......................................................................... 24.253,28 €<br />
Madrid, Febrero 2010<br />
El Ing<strong>en</strong>iero Jefe <strong>de</strong> Proyecto<br />
Fdo.: Pablo Manuel Herranz Fernán<strong>de</strong>z<br />
Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 115
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 116
PLIEGO DE CONDICIONES<br />
Este docum<strong>en</strong>to conti<strong>en</strong>e las condiciones legales que guiarán la realización, <strong>en</strong> este<br />
proyecto, <strong>de</strong> un reconocedor <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> vi<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong>. En lo que<br />
sigue, se supondrá que el proyecto ha sido <strong>en</strong>cargado por una empresa cli<strong>en</strong>te a una<br />
empresa consultora con la finalidad <strong>de</strong> realizar dicho sistema. Dicha empresa ha <strong>de</strong>bido<br />
<strong>de</strong>sarrollar una línea <strong>de</strong> investigación con objeto <strong>de</strong> elaborar el proyecto. Esta línea <strong>de</strong><br />
investigación, junto con el posterior <strong>de</strong>sarrollo <strong>de</strong> los programas está amparada por las<br />
condiciones particulares <strong>de</strong>l sigui<strong>en</strong>te pliego.<br />
Supuesto que la utilización industrial <strong>de</strong> los métodos recogidos <strong>en</strong> el pres<strong>en</strong>te proyecto<br />
ha sido <strong>de</strong>cidida por parte <strong>de</strong> la empresa cli<strong>en</strong>te o <strong>de</strong> otras, la obra a realizar se regulará<br />
por las sigui<strong>en</strong>tes:<br />
Condiciones g<strong>en</strong>erales<br />
1. La modalidad <strong>de</strong> contratación será el concurso. La adjudicación se hará, por<br />
tanto, a la proposición más favorable sin at<strong>en</strong><strong>de</strong>r exclusivam<strong>en</strong>te al valor económico,<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> las mayores garantías ofrecidas. La empresa que somete el proyecto a<br />
concurso se reserva el <strong>de</strong>recho a <strong>de</strong>clararlo <strong>de</strong>sierto.<br />
2. El montaje y mecanización completa <strong>de</strong> los equipos que interv<strong>en</strong>gan será<br />
realizado totalm<strong>en</strong>te por la empresa licitadora.<br />
3. En la oferta, se hará constar el precio total por el que se compromete a realizar<br />
la obra y el tanto por ci<strong>en</strong>to <strong>de</strong> baja que supone este precio <strong>en</strong> relación con un importe<br />
límite si este se hubiera fijado.<br />
4. La obra se realizará bajo la dirección técnica <strong>de</strong> un Ing<strong>en</strong>iero Superior <strong>de</strong><br />
Telecomunicación, auxiliado por el número <strong>de</strong> Ing<strong>en</strong>ieros Técnicos y Programadores<br />
que se estime preciso para el <strong>de</strong>sarrollo <strong>de</strong> la misma.<br />
5. Aparte <strong>de</strong>l Ing<strong>en</strong>iero Director, el contratista t<strong>en</strong>drá <strong>de</strong>recho a contratar al resto<br />
<strong>de</strong>l personal, pudi<strong>en</strong>do ce<strong>de</strong>r esta prerrogativa a favor <strong>de</strong>l Ing<strong>en</strong>iero Director, qui<strong>en</strong> no<br />
estará obligado a aceptarla.<br />
6. El contratista ti<strong>en</strong>e <strong>de</strong>recho a sacar copias a su costa <strong>de</strong> los planos, pliego <strong>de</strong><br />
condiciones y presupuestos. El Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto autorizará con su firma las<br />
copias solicitadas por el contratista <strong>de</strong>spués <strong>de</strong> confrontarlas.<br />
7. Se abonará al contratista la obra que realm<strong>en</strong>te ejecute con sujeción al<br />
proyecto que sirvió <strong>de</strong> base para la contratación, a las modificaciones autorizadas por la<br />
superioridad o a las ór<strong>de</strong>nes que con arreglo a sus faculta<strong>de</strong>s le hayan comunicado por<br />
escrito al Ing<strong>en</strong>iero Director <strong>de</strong> obras siempre que dicha obra se haya ajustado a los<br />
preceptos <strong>de</strong> los pliegos <strong>de</strong> condiciones, con arreglo a los cuales, se harán las<br />
modificaciones y la valoración <strong>de</strong> las diversas unida<strong>de</strong>s sin que el importe total pueda<br />
exce<strong>de</strong>r <strong>de</strong> los presupuestos aprobados. Por consigui<strong>en</strong>te, el número <strong>de</strong> unida<strong>de</strong>s que se<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 117
consignan <strong>en</strong> el proyecto o <strong>en</strong> el presupuesto, no podrá servirle <strong>de</strong> fundam<strong>en</strong>to para<br />
<strong>en</strong>tablar reclamaciones <strong>de</strong> ninguna clase, salvo <strong>en</strong> los casos <strong>de</strong> rescisión.<br />
8. Tanto <strong>en</strong> las certificaciones <strong>de</strong> obras como <strong>en</strong> la liquidación final, se abonarán<br />
los trabajos realizados por el contratista a los precios <strong>de</strong> ejecución material que figuran<br />
<strong>en</strong> el presupuesto para cada unidad <strong>de</strong> la obra.<br />
9. Si excepcionalm<strong>en</strong>te se hubiera ejecutado algún trabajo que no se ajustase a<br />
las condiciones <strong>de</strong> la contrata pero que sin embargo es admisible a juicio <strong>de</strong>l Ing<strong>en</strong>iero<br />
Director <strong>de</strong> obras, se dará conocimi<strong>en</strong>to a la Dirección, proponi<strong>en</strong>do a la vez la rebaja<br />
<strong>de</strong> precios que el Ing<strong>en</strong>iero estime justa y si la Dirección resolviera aceptar la obra,<br />
quedará el contratista obligado a conformarse con la rebaja acordada.<br />
10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no<br />
figur<strong>en</strong> <strong>en</strong> el presupuesto <strong>de</strong> la contrata, se evaluará su importe a los precios asignados<br />
a otras obras o materiales análogos si los hubiere y cuando no, se discutirán <strong>en</strong>tre el<br />
Ing<strong>en</strong>iero Director y el contratista, sometiéndolos a la aprobación <strong>de</strong> la Dirección. Los<br />
nuevos precios conv<strong>en</strong>idos por uno u otro procedimi<strong>en</strong>to, se sujetarán siempre al<br />
establecido <strong>en</strong> el punto anterior.<br />
11. Cuando el contratista, con autorización <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />
emplee materiales <strong>de</strong> calidad más elevada o <strong>de</strong> mayores dim<strong>en</strong>siones <strong>de</strong> lo estipulado <strong>en</strong><br />
el proyecto, o sustituya una clase <strong>de</strong> fabricación por otra que t<strong>en</strong>ga asignado mayor<br />
precio o ejecute con mayores dim<strong>en</strong>siones cualquier otra parte <strong>de</strong> las obras, o <strong>en</strong><br />
g<strong>en</strong>eral, introduzca <strong>en</strong> ellas cualquier modificación que sea b<strong>en</strong>eficiosa a juicio <strong>de</strong>l<br />
Ing<strong>en</strong>iero Director <strong>de</strong> obras, no t<strong>en</strong>drá <strong>de</strong>recho sin embargo, sino a lo que le<br />
correspon<strong>de</strong>ría si hubiera realizado la obra con estricta sujeción a lo proyectado y<br />
contratado.<br />
12. Las cantida<strong>de</strong>s calculadas para obras accesorias, aunque figur<strong>en</strong> por partida<br />
alzada <strong>en</strong> el presupuesto final (g<strong>en</strong>eral), no serán abonadas sino a los precios <strong>de</strong> la<br />
contrata, según las condiciones <strong>de</strong> la misma y los proyectos particulares que para ellas<br />
se form<strong>en</strong>, o <strong>en</strong> su <strong>de</strong>fecto, por lo que resulte <strong>de</strong> su medición final.<br />
13. El contratista queda obligado a abonar al Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto y<br />
director <strong>de</strong> obras así como a los Ing<strong>en</strong>ieros Técnicos, el importe <strong>de</strong> sus respectivos<br />
honorarios facultativos por formación <strong>de</strong>l proyecto, dirección técnica y administración<br />
<strong>en</strong> su caso, con arreglo a las tarifas y honorarios vig<strong>en</strong>tes.<br />
14. Concluida la ejecución <strong>de</strong> la obra, será reconocida por el Ing<strong>en</strong>iero Director<br />
que a tal efecto <strong>de</strong>signe la empresa.<br />
15. La garantía <strong>de</strong>finitiva será <strong>de</strong>l 4% <strong>de</strong>l presupuesto y la provisional <strong>de</strong>l 2%.<br />
16. La forma <strong>de</strong> pago será por certificaciones m<strong>en</strong>suales <strong>de</strong> la obra ejecutada, <strong>de</strong><br />
acuerdo con los precios <strong>de</strong>l presupuesto, <strong>de</strong>ducida la baja si la hubiera.<br />
17. La fecha <strong>de</strong> comi<strong>en</strong>zo <strong>de</strong> las obras será a partir <strong>de</strong> los 15 días naturales <strong>de</strong>l<br />
replanteo oficial <strong>de</strong> las mismas y la <strong>de</strong>finitiva, al año <strong>de</strong> haber ejecutado la provisional,<br />
procediéndose si no existe reclamación alguna, a la reclamación <strong>de</strong> la fianza.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 118
18. Si el contratista al efectuar el replanteo, observase algún error <strong>en</strong> el proyecto,<br />
<strong>de</strong>berá comunicarlo <strong>en</strong> el plazo <strong>de</strong> quince días al Ing<strong>en</strong>iero Director <strong>de</strong> obras, pues<br />
transcurrido ese plazo será responsable <strong>de</strong> la exactitud <strong>de</strong>l proyecto.<br />
19. El contratista está obligado a <strong>de</strong>signar una persona responsable que se<br />
<strong>en</strong>t<strong>en</strong><strong>de</strong>rá con el Ing<strong>en</strong>iero Director <strong>de</strong> obras, o con el <strong>de</strong>legado que éste <strong>de</strong>signe, para<br />
todo relacionado con ella. Al ser el Ing<strong>en</strong>iero Director <strong>de</strong> obras el que interpreta el<br />
proyecto, el contratista <strong>de</strong>berá consultarle cualquier duda que surja <strong>en</strong> su realización.<br />
20. Durante la realización <strong>de</strong> la obra, se girarán visitas <strong>de</strong> inspección por<br />
personal facultativo <strong>de</strong> la empresa cli<strong>en</strong>te, para hacer las comprobaciones que se crean<br />
oportunas. Es obligación <strong>de</strong>l contratista, la conservación <strong>de</strong> la obra ya ejecutada hasta la<br />
recepción <strong>de</strong> la misma, por lo que el <strong>de</strong>terioro parcial o total <strong>de</strong> ella, aunque sea por<br />
ag<strong>en</strong>tes atmosféricos u otras causas, <strong>de</strong>berá ser reparado o reconstruido por su cu<strong>en</strong>ta.<br />
21. El contratista, <strong>de</strong>berá realizar la obra <strong>en</strong> el plazo m<strong>en</strong>cionado a partir <strong>de</strong> la<br />
fecha <strong>de</strong>l contrato, incurri<strong>en</strong>do <strong>en</strong> multa, por retraso <strong>de</strong> la ejecución siempre que éste no<br />
sea <strong>de</strong>bido a causas <strong>de</strong> fuerza mayor. A la terminación <strong>de</strong> la obra, se hará una recepción<br />
provisional previo reconocimi<strong>en</strong>to y exam<strong>en</strong> por la dirección técnica, el <strong>de</strong>positario <strong>de</strong><br />
efectos, el interv<strong>en</strong>tor y el jefe <strong>de</strong> servicio o un repres<strong>en</strong>tante, estampando su<br />
conformidad el contratista.<br />
22. Hecha la recepción provisional, se certificará al contratista el resto <strong>de</strong> la<br />
obra, reservándose la administración el importe <strong>de</strong> los gastos <strong>de</strong> conservación <strong>de</strong> la<br />
misma hasta su recepción <strong>de</strong>finitiva y la fianza durante el tiempo señalado como plazo<br />
<strong>de</strong> garantía. La recepción <strong>de</strong>finitiva se hará <strong>en</strong> las mismas condiciones que la<br />
provisional, ext<strong>en</strong>diéndose el acta correspondi<strong>en</strong>te. El Director Técnico propondrá a la<br />
Junta Económica la <strong>de</strong>volución <strong>de</strong> la fianza al contratista <strong>de</strong> acuerdo con las<br />
condiciones económicas legales establecidas.<br />
23. Las tarifas para la <strong>de</strong>terminación <strong>de</strong> honorarios, reguladas por or<strong>de</strong>n <strong>de</strong> la<br />
Presi<strong>de</strong>ncia <strong>de</strong>l Gobierno el 19 <strong>de</strong> Octubre <strong>de</strong> 1961, se aplicarán sobre el <strong>de</strong>nominado<br />
<strong>en</strong> la actualidad “Presupuesto <strong>de</strong> Ejecución <strong>de</strong> Contrata” y anteriorm<strong>en</strong>te llamado<br />
”Presupuesto <strong>de</strong> Ejecución Material” que hoy <strong>de</strong>signa otro concepto.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 119
Condiciones particulares<br />
La empresa consultora, que ha <strong>de</strong>sarrollado el pres<strong>en</strong>te proyecto, lo <strong>en</strong>tregará a la<br />
empresa cli<strong>en</strong>te bajo las condiciones g<strong>en</strong>erales ya formuladas, <strong>de</strong>bi<strong>en</strong>do añadirse las<br />
sigui<strong>en</strong>tes condiciones particulares:<br />
1. La propiedad intelectual <strong>de</strong> los procesos <strong>de</strong>scritos y analizados <strong>en</strong> el pres<strong>en</strong>te<br />
trabajo, pert<strong>en</strong>ece por <strong>en</strong>tero a la empresa consultora repres<strong>en</strong>tada por el Ing<strong>en</strong>iero<br />
Director <strong>de</strong>l Proyecto.<br />
2. La empresa consultora se reserva el <strong>de</strong>recho a la utilización total o parcial <strong>de</strong><br />
los resultados <strong>de</strong> la investigación realizada para <strong>de</strong>sarrollar el sigui<strong>en</strong>te proyecto, bi<strong>en</strong><br />
para su publicación o bi<strong>en</strong> para su uso <strong>en</strong> trabajos o proyectos posteriores, para la<br />
misma empresa cli<strong>en</strong>te o para otra.<br />
3. Cualquier tipo <strong>de</strong> reproducción aparte <strong>de</strong> las reseñadas <strong>en</strong> las condiciones<br />
g<strong>en</strong>erales, bi<strong>en</strong> sea para uso particular <strong>de</strong> la empresa cli<strong>en</strong>te, o para cualquier otra<br />
aplicación, contará con autorización expresa y por escrito <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong>l<br />
Proyecto, que actuará <strong>en</strong> repres<strong>en</strong>tación <strong>de</strong> la empresa consultora.<br />
4. En la autorización se ha <strong>de</strong> hacer constar la aplicación a que se <strong>de</strong>stinan sus<br />
reproducciones así como su cantidad.<br />
5. En todas las reproducciones se indicará su proce<strong>de</strong>ncia, explicitando el<br />
nombre <strong>de</strong>l proyecto, nombre <strong>de</strong>l Ing<strong>en</strong>iero Director y <strong>de</strong> la empresa consultora.<br />
6. Si el proyecto pasa la etapa <strong>de</strong> <strong>de</strong>sarrollo, cualquier modificación que se<br />
realice sobre él, <strong>de</strong>berá ser notificada al Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto y a criterio <strong>de</strong><br />
éste, la empresa consultora <strong>de</strong>cidirá aceptar o no la modificación propuesta.<br />
7. Si la modificación se acepta, la empresa consultora se hará responsable al<br />
mismo nivel que el proyecto inicial <strong>de</strong>l que resulta el añadirla.<br />
8. Si la modificación no es aceptada, por el contrario, la empresa consultora<br />
<strong>de</strong>clinará toda responsabilidad que se <strong>de</strong>rive <strong>de</strong> la aplicación o influ<strong>en</strong>cia <strong>de</strong> la misma.<br />
9. Si la empresa cli<strong>en</strong>te <strong>de</strong>ci<strong>de</strong> <strong>de</strong>sarrollar industrialm<strong>en</strong>te uno o varios<br />
productos <strong>en</strong> los que resulte parcial o totalm<strong>en</strong>te aplicable el estudio <strong>de</strong> este proyecto,<br />
<strong>de</strong>berá comunicarlo a la empresa consultora.<br />
10. La empresa consultora no se responsabiliza <strong>de</strong> los efectos laterales que se<br />
puedan producir <strong>en</strong> el mom<strong>en</strong>to <strong>en</strong> que se utilice la herrami<strong>en</strong>ta objeto <strong>de</strong>l pres<strong>en</strong>te<br />
proyecto para la realización <strong>de</strong> otras aplicaciones.<br />
11. La empresa consultora t<strong>en</strong>drá prioridad respecto a otras <strong>en</strong> la elaboración <strong>de</strong><br />
los proyectos auxiliares que fuese necesario <strong>de</strong>sarrollar para dicha aplicación industrial,<br />
siempre que no haga explícita r<strong>en</strong>uncia a este hecho. En este caso, <strong>de</strong>berá autorizar<br />
expresam<strong>en</strong>te los proyectos pres<strong>en</strong>tados por otros.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 120
12. El Ing<strong>en</strong>iero Director <strong>de</strong>l pres<strong>en</strong>te proyecto, será el responsable <strong>de</strong> la<br />
dirección <strong>de</strong> la aplicación industrial siempre que la empresa consultora lo estime<br />
oportuno. En caso contrario, la persona <strong>de</strong>signada <strong>de</strong>berá contar con la autorización <strong>de</strong>l<br />
mismo, qui<strong>en</strong> <strong>de</strong>legará <strong>en</strong> él las responsabilida<strong>de</strong>s que ost<strong>en</strong>te.<br />
<strong>Reconocimi<strong>en</strong>to</strong> <strong>de</strong> activida<strong>de</strong>s <strong>en</strong> ví<strong>de</strong>o <strong>basado</strong> <strong>en</strong> <strong>ejemplos</strong> 121