09.02.2014 Views

Universidad Nacional de Ingeniería - Wiphala.net

Universidad Nacional de Ingeniería - Wiphala.net

Universidad Nacional de Ingeniería - Wiphala.net

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Universidad</strong> <strong>Nacional</strong> <strong>de</strong> Ingeniería<br />

Facultad <strong>de</strong> Ingeniería Industrial y <strong>de</strong> Sistemas<br />

Escuela Profesional <strong>de</strong> Ingeniería <strong>de</strong> Sistemas<br />

Pre-Tesis presentada para obtener el grado <strong>de</strong><br />

Ingeniero <strong>de</strong> Sistemas<br />

Reconstrucción <strong>de</strong>l medio ambiente utilizando visión<br />

estereoscópica<br />

Por<br />

Morales Ortega Lucio<br />

Minaya Jaqui, Lucía<br />

Lima - Lima<br />

Marzo <strong>de</strong> 2009


Índice General<br />

1. PLANTEAMIENTO DEL PROBLEMA ................................................................ 3<br />

1.1. Definición <strong>de</strong>l Problema ........................................................................................ 3<br />

1.2. Objetivo Especifico ............................................................................................... 3<br />

1.3. Alcance .................................................................................................................. 4<br />

2. MARCO TEORICO .................................................................................................. 5<br />

2.1. Concepto Visión estereoscópica ............................................................................ 6<br />

2.1.1 El problema <strong>de</strong> la correspon<strong>de</strong>ncia. ......................................................................... 6<br />

2.2. Visión Computacional (Dentro <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> Solución) ................................... 11<br />

2.3. Antece<strong>de</strong>ntes De Otros Trabajos Similares ......................................................... 11<br />

3. DESCRIPCION DE LOS DATOS ......................................................................... 13<br />

4. PLANTEAMIENTO DE LA SOLUCION ............................................................. 14<br />

5. PROCESO DE TRANSFORMACION DE LA IMAGEN ..................................... 15<br />

6. DESCRIPCION DEL MODELO DE SOLUCION ................................................ 15<br />

6.1. Adquisición De Imágenes .................................................................................... 15<br />

6.2. Geometría <strong>de</strong>l Sistema. ........................................................................................ 17<br />

6.3. Extracción <strong>de</strong> las características. ......................................................................... 19<br />

6.4. Correspon<strong>de</strong>ncia. ................................................................................................. 19<br />

6.5. Obtención <strong>de</strong> la distancia. .................................................................................... 20<br />

7. PLAN DE TRABAJO ............................................................................................. 23<br />

8. CRONOGRAMA DE ACTIVIDADES .................................................................. 24


1. PLANTEAMIENTO DEL PROBLEMA<br />

1.1. Definición <strong>de</strong>l Problema<br />

Como reconstruir un espacio 3D <strong>de</strong>s<strong>de</strong> dos imágenes 2D separadas en una cierta<br />

distancia dado que los focos son paralelos en tiempo real.<br />

La dificultad <strong>de</strong>l problema se basa en el estudio minucioso <strong>de</strong> cierta parte <strong>de</strong> la<br />

metodología que es la correspon<strong>de</strong>ncia estereoscópica, en la cual se utiliza una<br />

matemática compleja, a<strong>de</strong>más se tiene que elegir un método a<strong>de</strong>cuado el cual tiene que<br />

ser implementado en un lenguaje <strong>de</strong> programación; para nuestro caso C++.<br />

Cabe mencionar que existe otra dificultad en la solución <strong>de</strong>l problema y esta es la<br />

obtención <strong>de</strong> la imagen en 3D; pues el método usado para <strong>de</strong>scribir los objetos y<br />

mo<strong>de</strong>los y las correspon<strong>de</strong>ncias entre objetos y mo<strong>de</strong>los nos manifiestan la<br />

representación final <strong>de</strong> los objetos y las características que se <strong>de</strong>ben extraer <strong>de</strong> los<br />

mismos. Sin embargo estos métodos son muy difíciles <strong>de</strong> obtener e implementar [1] ,<br />

[2].<br />

1.2. Objetivo Especifico<br />

El objetivo principal <strong>de</strong> este trabajo es implementar un sistema completo <strong>de</strong><br />

reconocimiento <strong>de</strong> imágenes en tiempo real. Esto incluye distintos componentes, tanto<br />

<strong>de</strong> hardware como <strong>de</strong> software. Para esto será necesario implementar cada una <strong>de</strong> las<br />

etapas <strong>de</strong>l proceso <strong>de</strong> reconocimiento, <strong>de</strong>s<strong>de</strong> la captura <strong>de</strong> una imagen <strong>de</strong>l objeto hasta<br />

la transformación <strong>de</strong> la misma.<br />

Se analizara también el estado <strong>de</strong>l arte y se aportaran i<strong>de</strong>as con el objetivo <strong>de</strong> que el<br />

sistema funcione eficientemente y en la forma más automática posible.<br />

Para la solución <strong>de</strong>l presente problema hemos planteado los siguientes pasos para po<strong>de</strong>r<br />

llegar a la solución <strong>de</strong>seada [3]:


Organización:<br />

Se analizaran los requerimientos que <strong>de</strong>be tener un sistema <strong>de</strong> captura que permita<br />

tomar imágenes <strong>de</strong>l objeto con suficiente calidad para la i<strong>de</strong>ntificación. Se presentara<br />

también la solución <strong>de</strong> hardware implementada en este trabajo.<br />

Se analizara el problema <strong>de</strong> la segmentación, es <strong>de</strong>cir, el problema <strong>de</strong> localizar<br />

correctamente el objeto en la imagen. Se verán algunas soluciones existentes y<br />

finalmente.<br />

Se presentara un método optimizado <strong>de</strong> segmentación <strong>de</strong>sarrollado para funcionar en un<br />

entorno en tiempo real.<br />

Se presentara un algoritmo <strong>de</strong>stinado a analizar la secuencia <strong>de</strong> vi<strong>de</strong>o obtenida <strong>de</strong>l<br />

sistema <strong>de</strong> captura para conseguir una imagen <strong>de</strong>l objeto con la máxima calidad posible.<br />

Se hará un repaso <strong>de</strong> las distintas técnicas <strong>de</strong> codificación <strong>de</strong> la textura <strong>de</strong>l objeto, y <strong>de</strong><br />

los métodos <strong>de</strong> Matching asociados. Se <strong>de</strong>scribirá el método <strong>de</strong> codificación y Matching<br />

implementado en el sistema.<br />

Se <strong>de</strong>scribirán en <strong>de</strong>talle los componentes <strong>de</strong>l sistema implementado.<br />

Se analizaran los resultados <strong>de</strong> los algoritmos implementados para segmentación,<br />

codificación y Matching.<br />

Se hará una <strong>de</strong>scripción <strong>de</strong>l marco teórico para medir los resultados y finalmente se<br />

presentaran los resultados en dicho marco.<br />

Se analizara el problema <strong>de</strong> la resistencia <strong>de</strong>l sistema frente a posibles intentos <strong>de</strong><br />

falsificación, y se presentara un método.<br />

Finalmente, Se verán las conclusiones <strong>de</strong>l trabajo, se analizaran los distintos aportes<br />

realizados y se presentaran i<strong>de</strong>as para trabajo futuro.<br />

1.3. Alcance<br />

En este proyecto <strong>de</strong> tesis solo nos enfocaremos en reconstruir objetos sólidos,<br />

basándonos en los siguientes supuestos:


• Los objetos serán un cubo y una esfera.<br />

• Los colores <strong>de</strong> los objetos serán oscuros.<br />

• El foco <strong>de</strong> luz será frontal a los objetos<br />

• El fondo será <strong>de</strong> color blanco.<br />

• Las cámaras serán estáticas, eso quiere <strong>de</strong>cir que no se moverán.<br />

Hemos consi<strong>de</strong>rado por <strong>de</strong>finido el planteamiento <strong>de</strong>l problema, ya que forma parte <strong>de</strong><br />

un proyecto y nuestro aporte está referido a la i<strong>de</strong>ntificación <strong>de</strong> imágenes <strong>de</strong>l proyecto<br />

en cuestión, por medio <strong>de</strong> dos fuentes que en este caso serian cámaras digitales.<br />

2. MARCO TEORICO<br />

Mo<strong>de</strong>lling stereoscopic visión systems for robotic applications (Sistemas <strong>de</strong> visión<br />

estereoscópica <strong>de</strong> mo<strong>de</strong>los para aplicaciones robóticas)<br />

Autor: Armangué Quintana, Xavier<br />

Department of Electronics, Computer Science and Automatic Control<br />

Universitat <strong>de</strong> Girona<br />

Reconstrucción <strong>de</strong> mapas 3D a partir <strong>de</strong> información estéreo utilizando un enfoque <strong>de</strong><br />

minimización <strong>de</strong> energía<br />

Autores:<br />

o J. M. Sáez<br />

o F. Escolano<br />

o E. Hernán<strong>de</strong>z<br />

Grupo <strong>de</strong> Visión, Gráficos e Inteligencia Artificial<br />

Departamento <strong>de</strong> Ciencia <strong>de</strong> la Computación e Inteligencia Artificial<br />

<strong>Universidad</strong> <strong>de</strong> Alicante


2.1. Concepto Visión estereoscópica<br />

Se <strong>de</strong>fine visión estéreo o estereoscópica como aquella en la que se emplea más <strong>de</strong> una<br />

imagen para obtener una i<strong>de</strong>a <strong>de</strong> tridimensionalidad. Según el número <strong>de</strong> imágenes que<br />

se emplee, se habla <strong>de</strong> visión bifocal dos imágenes o vistas, trifocal - tres imágenes o<br />

vistas, cuadrifocal -cuatro imágenes o vistas- o n-focal -n imágenes o vistas, y en cada<br />

uno <strong>de</strong> los casos se aplica una serie <strong>de</strong> restricciones basadas en la geometría.<br />

La i<strong>de</strong>a básica <strong>de</strong> las imágenes estereoscópicas es que partiendo <strong>de</strong> dos imágenes <strong>de</strong>s<strong>de</strong><br />

el mismo punto <strong>de</strong> vista, pero con una pequeña diferencia <strong>de</strong> ángulo entre ellas, el<br />

cerebro se encarga <strong>de</strong> unir esas dos imágenes, formando una sola que es la que nos<br />

produce la visión tridimensional.<br />

Para obtener la visión tridimensional se emplea el estereoscopio que facilita la visión<br />

estereoscópica, con la ayuda <strong>de</strong> este material se pue<strong>de</strong> <strong>de</strong>mostrar esta hipótesis;<br />

diferenciando su profundidad y su altura.<br />

La información que se encuentra en una fotografía, no nos proporciona la profundidad<br />

<strong>de</strong> un punto en una escena esto no pue<strong>de</strong> ser directamente accesible con una sola<br />

imagen. Con, al menos, dos imágenes la profundidad pue<strong>de</strong> ser medida a través <strong>de</strong> la<br />

triangulación.<br />

2.1.1 El problema <strong>de</strong> la correspon<strong>de</strong>ncia.<br />

Para obtener esta i<strong>de</strong>a <strong>de</strong> tridimensionalidad hay que resolver un problema importante:<br />

Determinar que parejas <strong>de</strong> puntos <strong>de</strong> ambas imágenes se correspon<strong>de</strong>n con un mismo<br />

punto <strong>de</strong> la escena correspon<strong>de</strong>ncia.<br />

Problema mal condicionado.<br />

o Infinitas soluciones.<br />

o No exista solución: oclusión.<br />

o Ilusiones ópticas: falsas correspon<strong>de</strong>ncias.<br />

2.1.2 Restricciones aplicadas a la correspon<strong>de</strong>ncia.<br />

o Restricciones geométricas <strong>de</strong> las cámaras.<br />

o Restricción epipolar.


o Restricción trifocal.<br />

o Restricciones fotométricas.<br />

o Restricción <strong>de</strong> compatibilidad diferencial<br />

Restricciones geométricas <strong>de</strong> la escena.<br />

Restricciones geométricas:<br />

Son impuestas por el sistema <strong>de</strong> captación <strong>de</strong> las imágenes.<br />

Probablemente la restricción más importante sea la restricción epipolar, gracias a la cual<br />

po<strong>de</strong>mos transformar una búsqueda en 2 dimensiones en otra <strong>de</strong> 1 dimensión<br />

Restricción epipolar:<br />

Es la geometría generada por dos vistas; y se basa en dos conceptos fundamentales, que<br />

son la línea epipolar y el epipolo.<br />

Restricción trifocal: tensor trifocal.<br />

Tres imágenes <strong>de</strong> la misma línea aña<strong>de</strong>n una restricción diferente: la<br />

intersección <strong>de</strong> los planos formados por las imágenes es <strong>de</strong>generado. De<br />

forma algebraica, esta relación geométrica es representada por el tensor trifocal<br />

(trifocal sensor). El tensor trifocal (trifocal tensor) juega una papel análogo en tres<br />

vistas que el que juega la matriz fundamental en dos. Así, encapsula las relaciones


geométricas entre tres vistas, que son in<strong>de</strong>pendientes <strong>de</strong> la estructura <strong>de</strong> la escena.<br />

Solo <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l movimiento <strong>de</strong> las vistas y <strong>de</strong> los parámetros internos <strong>de</strong> las<br />

cámaras y está <strong>de</strong>finido únicamente por las matrices <strong>de</strong> las cámaras <strong>de</strong> las vistas.<br />

También se pue<strong>de</strong> utilizar para dadas tres vistas <strong>de</strong> una escena y un<br />

par <strong>de</strong> puntos emparejados en dos vistas, conocer la posición <strong>de</strong>l punto en la<br />

tercera vista.<br />

Restricciones fotométricas.<br />

o Restricción <strong>de</strong> reflectancia superficial: la intensidad <strong>de</strong> la proyección <strong>de</strong> un<br />

punto 3D no <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l punto <strong>de</strong> vista. La distribución <strong>de</strong> intensida<strong>de</strong>s entre<br />

puntos homólogos <strong>de</strong>be ser similar.<br />

o Restricción <strong>de</strong> compatibilidad diferencial: dados dos puntos <strong>de</strong> una imagen<br />

cercanos (continuidad <strong>de</strong> superficie), la diferencia <strong>de</strong> intensida<strong>de</strong>s entre ambos<br />

puntos <strong>de</strong>be ser similar a la diferencia <strong>de</strong> intensida<strong>de</strong>s <strong>de</strong> sus homólogos.<br />

2.1.3 Técnicas <strong>de</strong> correspon<strong>de</strong>ncia<br />

• Técnicas globales vs. Técnicas locales.<br />

o Métodos locales.- Se aplican restricciones a un pequeño número <strong>de</strong> puntos<br />

alre<strong>de</strong>dor <strong>de</strong>l punto <strong>de</strong> estudio. Son muy eficientes pero sensitivos a las<br />

ambigüeda<strong>de</strong>s locales <strong>de</strong> las regiones (por ejemplo, regiones <strong>de</strong> oclusión o<br />

regiones con texturas uniformes). Cuenta con métodos basado en área y<br />

basados en características, así como los basados en la optimización <strong>de</strong>l<br />

gradiente.<br />

o Métodos globales.- Se aplican restricciones a líneas <strong>de</strong> la imagen o a la<br />

imagen completa en sí. Son menos sensitivos a las peculiarida<strong>de</strong>s locales<br />

puesto que aña<strong>de</strong>n soporte a las regiones <strong>de</strong> difícil estudio <strong>de</strong> manera local.<br />

Son computacionalmente caros y cuenta con métodos <strong>de</strong> programación<br />

dinámica y los métodos <strong>de</strong>l vecino más próximo.<br />

• Técnicas basadas en área.


o Correlación <strong>de</strong> área.- Para cada punto <strong>de</strong> una imagen se calcula la<br />

correlación entre la distribución <strong>de</strong> disparidad <strong>de</strong> una ventana centrada en<br />

dicho punto y una ventana <strong>de</strong>l mismo tamaño centrada en el punto a analizar<br />

<strong>de</strong> la otra imagen.<br />

El problema consiste en encontrar el punto que se ajusta <strong>de</strong> manera<br />

a<strong>de</strong>cuada al primero minimizando algún funcional. La<br />

reduce la búsqueda a un problema <strong>de</strong> búsqueda a una dimensión.<br />

restricción epipolar<br />

Se trata <strong>de</strong> una estrategia utilizada con diferentes técnicas <strong>de</strong><br />

correspon<strong>de</strong>ncia junto con el uso <strong>de</strong> ventanas adaptativas. También se emplea<br />

con técnicas basadas en primitivas dispersas. La información obtenida en una<br />

escala grosera se utiliza para guiar y limitar la búsqueda <strong>de</strong><br />

correspon<strong>de</strong>ncias a una escala más fina.<br />

• Técnicas basadas en características.<br />

Obtienen primitivas <strong>de</strong> alto nivel (puntos <strong>de</strong> bor<strong>de</strong>, segmentos, curvas, regiones,<br />

etc.) que atesoran un conjunto <strong>de</strong> características invariantes a la proyección en<br />

mayor o menor medida.<br />

o Ventajas<br />

o Las primitivas <strong>de</strong> alto nivel atesoran información más rica que los<br />

niveles <strong>de</strong> intensidad.<br />

o Permiten utilizar restricciones geométricas entre las primitivas.<br />

o Son robustas.<br />

o Inconvenientes<br />

• Técnicas jerárquicas.<br />

o Proporcionan información dispersa.


Integran las etapas <strong>de</strong> correspon<strong>de</strong>ncia estéreo y la interpolación <strong>de</strong> superficies<br />

en un único proceso. La corrección en la elección <strong>de</strong> las correspon<strong>de</strong>ncias<br />

pueda ser juzgada por el tipo <strong>de</strong> superficie que produce. Consi<strong>de</strong>ra una pareja<br />

estéreo <strong>de</strong> 4nx4n imágenes<br />

• Programación dinámica.<br />

Plantea el problema como el trazado <strong>de</strong> un camino sobre un espacio <strong>de</strong><br />

búsqueda bidimensional, que minimiza algún tipo <strong>de</strong> funcional. La búsqueda<br />

<strong>de</strong>nsa <strong>de</strong> correspon<strong>de</strong>ncias se plantea como un problema <strong>de</strong> optimización,<br />

<strong>de</strong>scomponiendo el problema <strong>de</strong> maneras más sencillas. Para un sistema<br />

estereoscópico <strong>de</strong> imágenes <strong>de</strong> ejes alineados, los puntos correspondientes<br />

<strong>de</strong>ben ser buscados <strong>de</strong>ntro <strong>de</strong> la misma línea horizontal, pudiendo <strong>de</strong>finir<br />

un espacio bidimensional cuyos ejes son las líneas <strong>de</strong> rastreo <strong>de</strong> las imágenes<br />

izquierda y <strong>de</strong>recha. Los algoritmos se basan en la asunción <strong>de</strong><br />

preservación <strong>de</strong> or<strong>de</strong>n en los bor<strong>de</strong>s <strong>de</strong> un par estereoscópico <strong>de</strong> imágenes.<br />

Se busca un camino sobre un punto <strong>de</strong> la línea <strong>de</strong> la imagen izquierda con un<br />

punto <strong>de</strong> la imagen <strong>de</strong>recha. Están basadas en aumentar el número <strong>de</strong> cámaras<br />

y vistas para eliminar ambigüeda<strong>de</strong>s:<br />

o Tres cámaras: estéreo trinocular.<br />

o Cuatro cámaras: estéreo cuatricular.<br />

o N-cámaras: estéreo n-focal.<br />

Se aplica geometrías distintas: tensor trifocal, tensor cuadrifocal...etc. tensor <strong>de</strong><br />

múltiples vistas a vista.<br />

Una tercera cámara elimina las ambigüeda<strong>de</strong>s inherentes a la correspon<strong>de</strong>ncia <strong>de</strong> dos<br />

cámaras.<br />

Algoritmos basados en puntos y segmentos bor<strong>de</strong>.


Las ecuaciones satisfechas por múltiples imágenes <strong>de</strong> la misma escena pue<strong>de</strong>n ser<br />

resueltas sin ningún conocimiento <strong>de</strong> las cámaras o <strong>de</strong> la escena.<br />

Método multicámara don<strong>de</strong> las correspon<strong>de</strong>ncias se encuentran usando todas las<br />

imágenes al mismo tiempo. Se asume que todas las imágenes han sido rectificadas,<br />

y la búsqueda <strong>de</strong> las disparida<strong>de</strong>s correctas se reemplaza por la búsqueda <strong>de</strong> la<br />

profundidad correcta o, más bien, su inversa [4].<br />

2.2. Visión Computacional (Dentro <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> Solución)<br />

Para resolver el problema utilizaremos lo siguiente:<br />

• Dos webcam, mo<strong>de</strong>los por <strong>de</strong>finir.<br />

• Una laptop, con las características a<strong>de</strong>cuadas para po<strong>de</strong>r soportar los<br />

programas a utilizar.<br />

2.3. Antece<strong>de</strong>ntes De Otros Trabajos Similares<br />

Implementación <strong>de</strong> un Sistema <strong>de</strong> I<strong>de</strong>ntificacion <strong>de</strong> Personas en Tiempo Real por<br />

Reconocimiento <strong>de</strong> Iris.<br />

<strong>Universidad</strong> <strong>de</strong> Buenos Aires<br />

Facultad <strong>de</strong> Ciencias Exactas y Naturales<br />

Departamento <strong>de</strong> Computación<br />

Marcelo Luis Mottalli<br />

Directora <strong>de</strong> tesis: Dra. Marta Estela Mejail


El reconocimiento <strong>de</strong> personas mediante el iris es aceptado como uno <strong>de</strong> los métodos<br />

biométricos más eficientes para la i<strong>de</strong>ntificacion, con el objetivo <strong>de</strong> controlar el acceso<br />

<strong>de</strong> individuos a edificios, oficinas, equipos y otros recursos protegidos.<br />

Los métodos usuales <strong>de</strong> control <strong>de</strong> acceso involucran el recordar claves o códigos<br />

alfanum ericos, los cuales pue<strong>de</strong>n ser olvidados fácilmente o, en el peor <strong>de</strong> los casos,<br />

robados. Es por esto que los sistemas biométricos basados en características<br />

morfológicas <strong>de</strong> la persona son cada vez mas consi<strong>de</strong>rados como una solución para<br />

diferentes aplicaciones.<br />

En particular, el reconocimiento mediante el iris presenta las ventajas <strong>de</strong> ser no<br />

invasivo, no requerir el contacto físico con ningún dispositivo y poseer una altísima<br />

confiabilidad.<br />

El patrón <strong>de</strong>l iris es único para cada individuo, altamente diferenciable entre individuos<br />

(baja cantidad <strong>de</strong> falsos positivos) y altamente repetible (baja cantidad <strong>de</strong> falsos<br />

negativos), a diferencia <strong>de</strong> otras características biométricas como por ejemplo el rostro.<br />

El objetivo general <strong>de</strong> esta tesis es construir un sistema completo <strong>de</strong> i<strong>de</strong>ntificacion<br />

automática <strong>de</strong> personas basado en el reconocimiento <strong>de</strong>l iris, probando algoritmos<br />

existentes y <strong>de</strong>sarrollando algoritmos nuevos <strong>de</strong> procesamiento <strong>de</strong> imágenes,<br />

optimizados para el funcionamiento en tiempo real. El sistema estará compuesto por una<br />

cámara <strong>de</strong> vi<strong>de</strong>o que se utilizara para capturar imágenes <strong>de</strong>l ojo <strong>de</strong> las personas y el<br />

software necesario para procesar dichas imágenes. El sistema funcionar´ a en tiempo<br />

real, con un mínimo <strong>de</strong> interacción entre el operador y el sistema.


3. DESCRIPCION DE LOS DATOS<br />

Descripción <strong>de</strong>l medio ambiente.<br />

Para el medio ambiente contamos con:<br />

• Dos cámaras webcam<br />

• Dos objetos a analizar, para nuestro caso como mencionamos anteriormente los<br />

objetos son unas cajas con formas geométricas.<br />

Características <strong>de</strong>l medio ambiente.<br />

• El medio en don<strong>de</strong> se realiza el análisis es en luz natural.<br />

• Escogemos analizar uno por uno los objetos ya que así po<strong>de</strong>mos extraer mejor<br />

las características e estos.<br />

• También ubicamos estos objetos en un fondo que sea igual al contraste <strong>de</strong>l color<br />

<strong>de</strong>l mismo con el fin <strong>de</strong> po<strong>de</strong>r <strong>de</strong>tectar mejor sus características.


4. PLANTEAMIENTO DE LA SOLUCION<br />

En el presente proyecto <strong>de</strong> tesis II nos hemos basado en la terminología <strong>de</strong> Barnard y<br />

Fischler con el fin <strong>de</strong> automatizar el proceso <strong>de</strong> la percepción visual mediante el<br />

tratamiento <strong>de</strong> imágenes digitales la cual en función a la visión estereoscópica toma los<br />

siguientes pasos [5]:<br />

• Adquisición <strong>de</strong> imágenes<br />

• Geometría <strong>de</strong>l Sistema<br />

• Extracción <strong>de</strong> características<br />

• Correspon<strong>de</strong>ncia<br />

• Obtención <strong>de</strong> la distancia


5. PROCESO DE TRANSFORMACION DE LA IMAGEN<br />

Imagen 1 : Proceso De Transformación De La Imagen<br />

6. DESCRIPCION DEL MODELO DE SOLUCION<br />

6.1. Adquisición De Imágenes<br />

Este proceso tiene como finalidad el capturar las imágenes <strong>de</strong>s<strong>de</strong> dos web cam,<br />

separadas una distancia dm, al ser conectadas estas cámaras a la computadora se correrá<br />

el algoritmo capturar[CamI,CamD], este algoritmo recibe como parámetros las dos<br />

fuentes <strong>de</strong> emisión <strong>de</strong> imagen, en este caso las dos cámaras web, pasamos a <strong>de</strong>scribir los<br />

parámetros:<br />

1. CamD: Este parámetro representa la cámara Derecha.<br />

2. CamI: Este parámetro representa la cámara Izquierda.


La salida <strong>de</strong> este algoritmo son las imágenes producto <strong>de</strong> la toma <strong>de</strong> las fuentes <strong>de</strong><br />

imágenes, estas fotos serán representadas por las variables ImgI, ImgD.<br />

En esta grafica po<strong>de</strong>mos representar el ingreso <strong>de</strong> las fuentes <strong>de</strong> imagen representadas<br />

por CamD y CamI el proceso <strong>de</strong> Adquisición <strong>de</strong> la imagen tendrá como salidas a las<br />

imágenes ImgD y ImgI, la <strong>de</strong>scripción <strong>de</strong>l algoritmo será <strong>de</strong>scrita continuación:<br />

Algoritmo para la adquisición <strong>de</strong> imágenes: [ImgD,ImgI] = Capturar[CamI,CamD]


Algoritmo capturar.<br />

El algoritmo capturar se inicia creando una conexión con las webcam por el método<br />

conexionWebCam, luego <strong>de</strong> eso se crea las variables Imagen ImgD y ImgI, luego se<br />

captura y almacena las imágenes, para finalizar se elimina <strong>de</strong> memoria las referencias y<br />

se <strong>de</strong>struye las conexiones.<br />

6.2. Geometría <strong>de</strong>l Sistema.<br />

En este proceso explicaremos la conformación <strong>de</strong>l ambiente en don<strong>de</strong> se realizara la<br />

toma.<br />

El sistema está conformado por los siguientes elementos:<br />

Dos cámaras web <strong>de</strong> marca Micronics mo<strong>de</strong>lo Mic W305, <strong>de</strong> 1.3 Mpixeles <strong>de</strong><br />

resolución con un formato <strong>de</strong> vi<strong>de</strong>o <strong>de</strong> 24 bit.<br />

Dos objetos geométricos, una esfera y un cubo, a continuación <strong>de</strong>scribiremos cada una:<br />

La esfera será <strong>de</strong> un diámetro <strong>de</strong> 4 cm, <strong>de</strong> color negro.


Imagen <strong>de</strong> la esfera<br />

El cubo <strong>de</strong> 2 cm <strong>de</strong> largo, 3 cm <strong>de</strong> ancho y 4 <strong>de</strong> altura, <strong>de</strong> color blanco<br />

Imagen <strong>de</strong>l cubo<br />

Se utilizara un sistema <strong>de</strong> ejes ópticos paralelos, (d) será el <strong>de</strong>splazamiento horizontal<br />

entre los centros ópticos <strong>de</strong> las dos cámaras web, y estarán oscilando entre [-]. Esto se<br />

traduce en el hecho que las imágenes difieren solamente en la componente horizontal.<br />

Imagen 2 Geometría <strong>de</strong> un par <strong>de</strong> cámaras en estéreo con ejes ópticos paralelos <strong>de</strong>s<strong>de</strong> una<br />

perspectiva superior.


En esta fórmula po<strong>de</strong>mos <strong>de</strong>scribir las siguientes variables:<br />

d = distancia entre las cámaras.<br />

f= longitud focal <strong>de</strong> cada cámara.<br />

6.3. Extracción <strong>de</strong> las características.<br />

La finalidad <strong>de</strong> este proceso es <strong>de</strong> obtener las características <strong>de</strong> las imágenes obtenidas,<br />

ya sea por un método u otro, o lo mejor por los dos y ver cual nos conviene más,<br />

tenemos dos imágenes, una izquierda y <strong>de</strong>recha (ImgD, ImgI).<br />

Existen dos clases <strong>de</strong> técnicas para establecer correspon<strong>de</strong>ncia a partir <strong>de</strong> dos imágenes<br />

estereoscópicas la primera se conoce como técnicas basadas en el área y la segunda<br />

como técnicas basadas en las características<br />

Técnicas <strong>de</strong> estéreo basadas en el área, utilizan correlación cruzada entre patrones <strong>de</strong><br />

intensidad en la vecindad local <strong>de</strong> un pixel en una imagen con patrones también <strong>de</strong><br />

intensidad en una vecindad correspondiente <strong>de</strong> un pixel en la otra imagen <strong>de</strong>l par<br />

estereoscópico.<br />

Técnicas <strong>de</strong> estéreo basadas en las características, utilizan representaciones<br />

simbólicas obtenidas <strong>de</strong> las imágenes <strong>de</strong> intensidad en lugar <strong>de</strong> las intensida<strong>de</strong>s<br />

directamente. Las características utilizadas normalmente son: Puntos <strong>de</strong> bor<strong>de</strong> aislados,<br />

ca<strong>de</strong>nas <strong>de</strong> puntos <strong>de</strong> bor<strong>de</strong>s, regiones <strong>de</strong>limitadas por bor<strong>de</strong>s.<br />

6.4. Correspon<strong>de</strong>ncia.<br />

Proceso mediante el cual dado un punto en la escena 3-D se llega a <strong>de</strong>terminar cual es<br />

su proyección en sendas imágenes <strong>de</strong>l par estereoscópico.


El proceso <strong>de</strong> correspon<strong>de</strong>ncia consi<strong>de</strong>ra los valores <strong>de</strong> los atributos <strong>de</strong>l par <strong>de</strong><br />

características para establecer una correspon<strong>de</strong>ncia local, mediante alguna métrica que<br />

<strong>de</strong>termine cuál es el grado <strong>de</strong> semejanza entre los vectores <strong>de</strong> atributos <strong>de</strong> ambas<br />

características.<br />

La dificultad para establecer la correspon<strong>de</strong>ncia entre los puntos o características <strong>de</strong> un<br />

par <strong>de</strong> imágenes estereoscópicas proviene <strong>de</strong> la naturaleza <strong>de</strong>l propio sistema<br />

Las imágenes izquierda y <strong>de</strong>recha captadas por un sistema <strong>de</strong> visión estereoscópica son<br />

obtenidas <strong>de</strong>s<strong>de</strong> diferentes posiciones o ángulos <strong>de</strong> tal forma que las condiciones <strong>de</strong><br />

iluminación pue<strong>de</strong>n ser ligeramente diferentes o incluso con la posibilidad <strong>de</strong> la<br />

aparición <strong>de</strong> reflejos en una imagen ausentes en la otra.<br />

6.5. Obtención <strong>de</strong> la distancia.<br />

Se obtienen primitivas y mapas <strong>de</strong> profundidad estos últimos necesitan un<br />

procedimiento <strong>de</strong> interpolación adicional para extraer la profundidad <strong>de</strong> la escena


RESUMEN DE LECTURA:<br />

Reconstrucción <strong>de</strong> mapas 3D a partir <strong>de</strong> información estereo<br />

utilizando un enfoque <strong>de</strong> minimización.<br />

Departamento <strong>de</strong> Ciencia <strong>de</strong> la comunicación e Inteligencia Artificial<br />

En este artículo se presenta una técnica <strong>de</strong> extracción <strong>de</strong>l mapa 3D <strong>de</strong> un entorno a<br />

partir <strong>de</strong> la información estereo obtenida por un robot explorando dicho entorno.<br />

Asumiendo que se <strong>de</strong>sconoce la geometría <strong>de</strong>l terreno y el movimiento realizado por la<br />

cámara durante la exploración, se plantea un método para estimar dicho movimiento<br />

entre cada par <strong>de</strong> vistas consecutivas, siguiendo un criterio <strong>de</strong> minimización <strong>de</strong> energía.<br />

Dicha estimación se utiliza para componer el mapa 3D <strong>de</strong>l entorno .<br />

El montaje dispone <strong>de</strong> un sistema triangular <strong>de</strong> cámaras junto con un algoritmo <strong>de</strong><br />

correlación.<br />

El problema básico <strong>de</strong>l mapeado consiste en estimar el movimiento sufrido por la<br />

cámara a partir <strong>de</strong> dos vistas consecutivas <strong>de</strong> la misma.<br />

Para la reconstrucción <strong>de</strong> la imagen en 3D el origen <strong>de</strong> coor<strong>de</strong>nadas <strong>de</strong>l mapa coinci<strong>de</strong><br />

con el origen <strong>de</strong> coor<strong>de</strong>nadas <strong>de</strong> la primera cámara y al procesar las imágenes solo se<br />

consi<strong>de</strong>ra una nube <strong>de</strong> puntos la cual es suficiente para el asegurar el emparejamiento.


Referencias<br />

• [1] Técnicas y algoritmos para la adquisición, transmisión y visualización <strong>de</strong><br />

escenas 3D -Diana Beltrán Guerrero, Luis Basañez Villaluenga.<br />

• [2] Correspon<strong>de</strong>ncia Estereoscópica - Dpto. Automática, Ingeniería Electrónica<br />

e Informática Industrial<br />

• [3] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. <strong>de</strong> la Cruz<br />

García.<br />

• [4] Visión Computacional – Carlos Ruiz Moreno<br />

• [5] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. <strong>de</strong> la Cruz<br />

García (Capítulo 17, paginas 503.- 528).


UNIVERSIDAD NACIONAL DE INGENIERIA<br />

PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II<br />

7. PLAN DE TRABAJO<br />

Reconstrucción <strong>de</strong>l Medio Ambiente utilizando visión estereoscópica<br />

Base <strong>de</strong><br />

Conocimiento<br />

Preparación <strong>de</strong>l<br />

ambiente <strong>de</strong><br />

Experimentación<br />

Investigación<br />

Procedimiento <strong>de</strong><br />

Experimentación<br />

Instalacion <strong>de</strong><br />

DevC++ openCv<br />

Elaboración<br />

Montaje<br />

Adquisición <strong>de</strong><br />

imágenes<br />

Experimentación<br />

Geometría <strong>de</strong><br />

características<br />

Extracción <strong>de</strong><br />

características<br />

Obtención <strong>de</strong> la<br />

distancia


UNIVERSIDAD NACIONAL DE INGENIERIA<br />

PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II<br />

8. CRONOGRAMA DE ACTIVIDADES

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!