Universidad Nacional de IngenierÃƒÂa - Wiphala.net

Universidad Nacional de Ingeniería 

Facultad de Ingeniería Industrial y de Sistemas 

Escuela Profesional de Ingeniería de Sistemas 

Pre-Tesis presentada para obtener el grado de 

Ingeniero de Sistemas 

Reconstrucción del medio ambiente utilizando visión 

estereoscópica 

Por 

Morales Ortega Lucio 

Minaya Jaqui, Lucía 

Lima - Lima 

Marzo de 2009

Índice General 

1. PLANTEAMIENTO DEL PROBLEMA ................................................................ 3 

1.1. Definición del Problema ........................................................................................ 3 

1.2. Objetivo Especifico ............................................................................................... 3 

1.3. Alcance .................................................................................................................. 4 

2. MARCO TEORICO .................................................................................................. 5 

2.1. Concepto Visión estereoscópica ............................................................................ 6 

2.1.1 El problema de la correspondencia. ......................................................................... 6 

2.2. Visión Computacional (Dentro del modelo de Solución) ................................... 11 

2.3. Antecedentes De Otros Trabajos Similares ......................................................... 11 

3. DESCRIPCION DE LOS DATOS ......................................................................... 13 

4. PLANTEAMIENTO DE LA SOLUCION ............................................................. 14 

5. PROCESO DE TRANSFORMACION DE LA IMAGEN ..................................... 15 

6. DESCRIPCION DEL MODELO DE SOLUCION ................................................ 15 

6.1. Adquisición De Imágenes .................................................................................... 15 

6.2. Geometría del Sistema. ........................................................................................ 17 

6.3. Extracción de las características. ......................................................................... 19 

6.4. Correspondencia. ................................................................................................. 19 

6.5. Obtención de la distancia. .................................................................................... 20 

7. PLAN DE TRABAJO ............................................................................................. 23 

8. CRONOGRAMA DE ACTIVIDADES .................................................................. 24

1. PLANTEAMIENTO DEL PROBLEMA 

1.1. Definición del Problema 

Como reconstruir un espacio 3D desde dos imágenes 2D separadas en una cierta 

distancia dado que los focos son paralelos en tiempo real. 

La dificultad del problema se basa en el estudio minucioso de cierta parte de la 

metodología que es la correspondencia estereoscópica, en la cual se utiliza una 

matemática compleja, además se tiene que elegir un método adecuado el cual tiene que 

ser implementado en un lenguaje de programación; para nuestro caso C++. 

Cabe mencionar que existe otra dificultad en la solución del problema y esta es la 

obtención de la imagen en 3D; pues el método usado para describir los objetos y 

modelos y las correspondencias entre objetos y modelos nos manifiestan la 

representación final de los objetos y las características que se deben extraer de los 

mismos. Sin embargo estos métodos son muy difíciles de obtener e implementar [1] , 

[2]. 

1.2. Objetivo Especifico 

El objetivo principal de este trabajo es implementar un sistema completo de 

reconocimiento de imágenes en tiempo real. Esto incluye distintos componentes, tanto 

de hardware como de software. Para esto será necesario implementar cada una de las 

etapas del proceso de reconocimiento, desde la captura de una imagen del objeto hasta 

la transformación de la misma. 

Se analizara también el estado del arte y se aportaran ideas con el objetivo de que el 

sistema funcione eficientemente y en la forma más automática posible. 

Para la solución del presente problema hemos planteado los siguientes pasos para poder 

llegar a la solución deseada [3]:

Organización: 

Se analizaran los requerimientos que debe tener un sistema de captura que permita 

tomar imágenes del objeto con suficiente calidad para la identificación. Se presentara 

también la solución de hardware implementada en este trabajo. 

Se analizara el problema de la segmentación, es decir, el problema de localizar 

correctamente el objeto en la imagen. Se verán algunas soluciones existentes y 

finalmente. 

Se presentara un método optimizado de segmentación desarrollado para funcionar en un 

entorno en tiempo real. 

Se presentara un algoritmo destinado a analizar la secuencia de video obtenida del 

sistema de captura para conseguir una imagen del objeto con la máxima calidad posible. 

Se hará un repaso de las distintas técnicas de codificación de la textura del objeto, y de 

los métodos de Matching asociados. Se describirá el método de codificación y Matching 

implementado en el sistema. 

Se describirán en detalle los componentes del sistema implementado. 

Se analizaran los resultados de los algoritmos implementados para segmentación, 

codificación y Matching. 

Se hará una descripción del marco teórico para medir los resultados y finalmente se 

presentaran los resultados en dicho marco. 

Se analizara el problema de la resistencia del sistema frente a posibles intentos de 

falsificación, y se presentara un método. 

Finalmente, Se verán las conclusiones del trabajo, se analizaran los distintos aportes 

realizados y se presentaran ideas para trabajo futuro. 

1.3. Alcance 

En este proyecto de tesis solo nos enfocaremos en reconstruir objetos sólidos, 

basándonos en los siguientes supuestos:

• Los objetos serán un cubo y una esfera. 

• Los colores de los objetos serán oscuros. 

• El foco de luz será frontal a los objetos 

• El fondo será de color blanco. 

• Las cámaras serán estáticas, eso quiere decir que no se moverán. 

Hemos considerado por definido el planteamiento del problema, ya que forma parte de 

un proyecto y nuestro aporte está referido a la identificación de imágenes del proyecto 

en cuestión, por medio de dos fuentes que en este caso serian cámaras digitales. 

2. MARCO TEORICO 

Modelling stereoscopic visión systems for robotic applications (Sistemas de visión 

estereoscópica de modelos para aplicaciones robóticas) 

Autor: Armangué Quintana, Xavier 

Department of Electronics, Computer Science and Automatic Control 

Universitat de Girona 

Reconstrucción de mapas 3D a partir de información estéreo utilizando un enfoque de 

minimización de energía 

Autores: 

o J. M. Sáez 

o F. Escolano 

o E. Hernández 

Grupo de Visión, Gráficos e Inteligencia Artificial 

Departamento de Ciencia de la Computación e Inteligencia Artificial 

Universidad de Alicante

2.1. Concepto Visión estereoscópica 

Se define visión estéreo o estereoscópica como aquella en la que se emplea más de una 

imagen para obtener una idea de tridimensionalidad. Según el número de imágenes que 

se emplee, se habla de visión bifocal dos imágenes o vistas, trifocal - tres imágenes o 

vistas, cuadrifocal -cuatro imágenes o vistas- o n-focal -n imágenes o vistas, y en cada 

uno de los casos se aplica una serie de restricciones basadas en la geometría. 

La idea básica de las imágenes estereoscópicas es que partiendo de dos imágenes desde 

el mismo punto de vista, pero con una pequeña diferencia de ángulo entre ellas, el 

cerebro se encarga de unir esas dos imágenes, formando una sola que es la que nos 

produce la visión tridimensional. 

Para obtener la visión tridimensional se emplea el estereoscopio que facilita la visión 

estereoscópica, con la ayuda de este material se puede demostrar esta hipótesis; 

diferenciando su profundidad y su altura. 

La información que se encuentra en una fotografía, no nos proporciona la profundidad 

de un punto en una escena esto no puede ser directamente accesible con una sola 

imagen. Con, al menos, dos imágenes la profundidad puede ser medida a través de la 

triangulación. 

2.1.1 El problema de la correspondencia. 

Para obtener esta idea de tridimensionalidad hay que resolver un problema importante: 

Determinar que parejas de puntos de ambas imágenes se corresponden con un mismo 

punto de la escena correspondencia. 

Problema mal condicionado. 

o Infinitas soluciones. 

o No exista solución: oclusión. 

o Ilusiones ópticas: falsas correspondencias. 

2.1.2 Restricciones aplicadas a la correspondencia. 

o Restricciones geométricas de las cámaras. 

o Restricción epipolar.

o Restricción trifocal. 

o Restricciones fotométricas. 

o Restricción de compatibilidad diferencial 

Restricciones geométricas de la escena. 

Restricciones geométricas: 

Son impuestas por el sistema de captación de las imágenes. 

Probablemente la restricción más importante sea la restricción epipolar, gracias a la cual 

podemos transformar una búsqueda en 2 dimensiones en otra de 1 dimensión 

Restricción epipolar: 

Es la geometría generada por dos vistas; y se basa en dos conceptos fundamentales, que 

son la línea epipolar y el epipolo. 

Restricción trifocal: tensor trifocal. 

Tres imágenes de la misma línea añaden una restricción diferente: la 

intersección de los planos formados por las imágenes es degenerado. De 

forma algebraica, esta relación geométrica es representada por el tensor trifocal 

(trifocal sensor). El tensor trifocal (trifocal tensor) juega una papel análogo en tres 

vistas que el que juega la matriz fundamental en dos. Así, encapsula las relaciones

geométricas entre tres vistas, que son independientes de la estructura de la escena. 

Solo depende del movimiento de las vistas y de los parámetros internos de las 

cámaras y está definido únicamente por las matrices de las cámaras de las vistas. 

También se puede utilizar para dadas tres vistas de una escena y un 

par de puntos emparejados en dos vistas, conocer la posición del punto en la 

tercera vista. 

Restricciones fotométricas. 

o Restricción de reflectancia superficial: la intensidad de la proyección de un 

punto 3D no depende del punto de vista. La distribución de intensidades entre 

puntos homólogos debe ser similar. 

o Restricción de compatibilidad diferencial: dados dos puntos de una imagen 

cercanos (continuidad de superficie), la diferencia de intensidades entre ambos 

puntos debe ser similar a la diferencia de intensidades de sus homólogos. 

2.1.3 Técnicas de correspondencia 

• Técnicas globales vs. Técnicas locales. 

o Métodos locales.- Se aplican restricciones a un pequeño número de puntos 

alrededor del punto de estudio. Son muy eficientes pero sensitivos a las 

ambigüedades locales de las regiones (por ejemplo, regiones de oclusión o 

regiones con texturas uniformes). Cuenta con métodos basado en área y 

basados en características, así como los basados en la optimización del 

gradiente. 

o Métodos globales.- Se aplican restricciones a líneas de la imagen o a la 

imagen completa en sí. Son menos sensitivos a las peculiaridades locales 

puesto que añaden soporte a las regiones de difícil estudio de manera local. 

Son computacionalmente caros y cuenta con métodos de programación 

dinámica y los métodos del vecino más próximo. 

• Técnicas basadas en área.

o Correlación de área.- Para cada punto de una imagen se calcula la 

correlación entre la distribución de disparidad de una ventana centrada en 

dicho punto y una ventana del mismo tamaño centrada en el punto a analizar 

de la otra imagen. 

El problema consiste en encontrar el punto que se ajusta de manera 

adecuada al primero minimizando algún funcional. La 

reduce la búsqueda a un problema de búsqueda a una dimensión. 

restricción epipolar 

Se trata de una estrategia utilizada con diferentes técnicas de 

correspondencia junto con el uso de ventanas adaptativas. También se emplea 

con técnicas basadas en primitivas dispersas. La información obtenida en una 

escala grosera se utiliza para guiar y limitar la búsqueda de 

correspondencias a una escala más fina. 

• Técnicas basadas en características. 

Obtienen primitivas de alto nivel (puntos de borde, segmentos, curvas, regiones, 

etc.) que atesoran un conjunto de características invariantes a la proyección en 

mayor o menor medida. 

o Ventajas 

o Las primitivas de alto nivel atesoran información más rica que los 

niveles de intensidad. 

o Permiten utilizar restricciones geométricas entre las primitivas. 

o Son robustas. 

o Inconvenientes 

• Técnicas jerárquicas. 

o Proporcionan información dispersa.

Integran las etapas de correspondencia estéreo y la interpolación de superficies 

en un único proceso. La corrección en la elección de las correspondencias 

pueda ser juzgada por el tipo de superficie que produce. Considera una pareja 

estéreo de 4nx4n imágenes 

• Programación dinámica. 

Plantea el problema como el trazado de un camino sobre un espacio de 

búsqueda bidimensional, que minimiza algún tipo de funcional. La búsqueda 

densa de correspondencias se plantea como un problema de optimización, 

descomponiendo el problema de maneras más sencillas. Para un sistema 

estereoscópico de imágenes de ejes alineados, los puntos correspondientes 

deben ser buscados dentro de la misma línea horizontal, pudiendo definir 

un espacio bidimensional cuyos ejes son las líneas de rastreo de las imágenes 

izquierda y derecha. Los algoritmos se basan en la asunción de 

preservación de orden en los bordes de un par estereoscópico de imágenes. 

Se busca un camino sobre un punto de la línea de la imagen izquierda con un 

punto de la imagen derecha. Están basadas en aumentar el número de cámaras 

y vistas para eliminar ambigüedades: 

o Tres cámaras: estéreo trinocular. 

o Cuatro cámaras: estéreo cuatricular. 

o N-cámaras: estéreo n-focal. 

Se aplica geometrías distintas: tensor trifocal, tensor cuadrifocal...etc. tensor de 

múltiples vistas a vista. 

Una tercera cámara elimina las ambigüedades inherentes a la correspondencia de dos 

cámaras. 

Algoritmos basados en puntos y segmentos borde.

Las ecuaciones satisfechas por múltiples imágenes de la misma escena pueden ser 

resueltas sin ningún conocimiento de las cámaras o de la escena. 

Método multicámara donde las correspondencias se encuentran usando todas las 

imágenes al mismo tiempo. Se asume que todas las imágenes han sido rectificadas, 

y la búsqueda de las disparidades correctas se reemplaza por la búsqueda de la 

profundidad correcta o, más bien, su inversa [4]. 

2.2. Visión Computacional (Dentro del modelo de Solución) 

Para resolver el problema utilizaremos lo siguiente: 

• Dos webcam, modelos por definir. 

• Una laptop, con las características adecuadas para poder soportar los 

programas a utilizar. 

2.3. Antecedentes De Otros Trabajos Similares 

Implementación de un Sistema de Identificacion de Personas en Tiempo Real por 

Reconocimiento de Iris. 

Universidad de Buenos Aires 

Facultad de Ciencias Exactas y Naturales 

Departamento de Computación 

Marcelo Luis Mottalli 

Directora de tesis: Dra. Marta Estela Mejail

El reconocimiento de personas mediante el iris es aceptado como uno de los métodos 

biométricos más eficientes para la identificacion, con el objetivo de controlar el acceso 

de individuos a edificios, oficinas, equipos y otros recursos protegidos. 

Los métodos usuales de control de acceso involucran el recordar claves o códigos 

alfanum ericos, los cuales pueden ser olvidados fácilmente o, en el peor de los casos, 

robados. Es por esto que los sistemas biométricos basados en características 

morfológicas de la persona son cada vez mas considerados como una solución para 

diferentes aplicaciones. 

En particular, el reconocimiento mediante el iris presenta las ventajas de ser no 

invasivo, no requerir el contacto físico con ningún dispositivo y poseer una altísima 

confiabilidad. 

El patrón del iris es único para cada individuo, altamente diferenciable entre individuos 

(baja cantidad de falsos positivos) y altamente repetible (baja cantidad de falsos 

negativos), a diferencia de otras características biométricas como por ejemplo el rostro. 

El objetivo general de esta tesis es construir un sistema completo de identificacion 

automática de personas basado en el reconocimiento del iris, probando algoritmos 

existentes y desarrollando algoritmos nuevos de procesamiento de imágenes, 

optimizados para el funcionamiento en tiempo real. El sistema estará compuesto por una 

cámara de video que se utilizara para capturar imágenes del ojo de las personas y el 

software necesario para procesar dichas imágenes. El sistema funcionar´ a en tiempo 

real, con un mínimo de interacción entre el operador y el sistema.

3. DESCRIPCION DE LOS DATOS 

Descripción del medio ambiente. 

Para el medio ambiente contamos con: 

• Dos cámaras webcam 

• Dos objetos a analizar, para nuestro caso como mencionamos anteriormente los 

objetos son unas cajas con formas geométricas. 

Características del medio ambiente. 

• El medio en donde se realiza el análisis es en luz natural. 

• Escogemos analizar uno por uno los objetos ya que así podemos extraer mejor 

las características e estos. 

• También ubicamos estos objetos en un fondo que sea igual al contraste del color 

del mismo con el fin de poder detectar mejor sus características.

4. PLANTEAMIENTO DE LA SOLUCION 

En el presente proyecto de tesis II nos hemos basado en la terminología de Barnard y 

Fischler con el fin de automatizar el proceso de la percepción visual mediante el 

tratamiento de imágenes digitales la cual en función a la visión estereoscópica toma los 

siguientes pasos [5]: 

• Adquisición de imágenes 

• Geometría del Sistema 

• Extracción de características 

• Correspondencia 

• Obtención de la distancia

5. PROCESO DE TRANSFORMACION DE LA IMAGEN 

Imagen 1 : Proceso De Transformación De La Imagen 

6. DESCRIPCION DEL MODELO DE SOLUCION 

6.1. Adquisición De Imágenes 

Este proceso tiene como finalidad el capturar las imágenes desde dos web cam, 

separadas una distancia dm, al ser conectadas estas cámaras a la computadora se correrá 

el algoritmo capturar[CamI,CamD], este algoritmo recibe como parámetros las dos 

fuentes de emisión de imagen, en este caso las dos cámaras web, pasamos a describir los 

parámetros: 

1. CamD: Este parámetro representa la cámara Derecha. 

2. CamI: Este parámetro representa la cámara Izquierda.

La salida de este algoritmo son las imágenes producto de la toma de las fuentes de 

imágenes, estas fotos serán representadas por las variables ImgI, ImgD. 

En esta grafica podemos representar el ingreso de las fuentes de imagen representadas 

por CamD y CamI el proceso de Adquisición de la imagen tendrá como salidas a las 

imágenes ImgD y ImgI, la descripción del algoritmo será descrita continuación: 

Algoritmo para la adquisición de imágenes: [ImgD,ImgI] = Capturar[CamI,CamD]

Algoritmo capturar. 

El algoritmo capturar se inicia creando una conexión con las webcam por el método 

conexionWebCam, luego de eso se crea las variables Imagen ImgD y ImgI, luego se 

captura y almacena las imágenes, para finalizar se elimina de memoria las referencias y 

se destruye las conexiones. 

6.2. Geometría del Sistema. 

En este proceso explicaremos la conformación del ambiente en donde se realizara la 

toma. 

El sistema está conformado por los siguientes elementos: 

Dos cámaras web de marca Micronics modelo Mic W305, de 1.3 Mpixeles de 

resolución con un formato de video de 24 bit. 

Dos objetos geométricos, una esfera y un cubo, a continuación describiremos cada una: 

La esfera será de un diámetro de 4 cm, de color negro.

Imagen de la esfera 

El cubo de 2 cm de largo, 3 cm de ancho y 4 de altura, de color blanco 

Imagen del cubo 

Se utilizara un sistema de ejes ópticos paralelos, (d) será el desplazamiento horizontal 

entre los centros ópticos de las dos cámaras web, y estarán oscilando entre [-]. Esto se 

traduce en el hecho que las imágenes difieren solamente en la componente horizontal. 

Imagen 2 Geometría de un par de cámaras en estéreo con ejes ópticos paralelos desde una 

perspectiva superior.

En esta fórmula podemos describir las siguientes variables: 

d = distancia entre las cámaras. 

f= longitud focal de cada cámara. 

6.3. Extracción de las características. 

La finalidad de este proceso es de obtener las características de las imágenes obtenidas, 

ya sea por un método u otro, o lo mejor por los dos y ver cual nos conviene más, 

tenemos dos imágenes, una izquierda y derecha (ImgD, ImgI). 

Existen dos clases de técnicas para establecer correspondencia a partir de dos imágenes 

estereoscópicas la primera se conoce como técnicas basadas en el área y la segunda 

como técnicas basadas en las características 

Técnicas de estéreo basadas en el área, utilizan correlación cruzada entre patrones de 

intensidad en la vecindad local de un pixel en una imagen con patrones también de 

intensidad en una vecindad correspondiente de un pixel en la otra imagen del par 

estereoscópico. 

Técnicas de estéreo basadas en las características, utilizan representaciones 

simbólicas obtenidas de las imágenes de intensidad en lugar de las intensidades 

directamente. Las características utilizadas normalmente son: Puntos de borde aislados, 

cadenas de puntos de bordes, regiones delimitadas por bordes. 

6.4. Correspondencia. 

Proceso mediante el cual dado un punto en la escena 3-D se llega a determinar cual es 

su proyección en sendas imágenes del par estereoscópico.

El proceso de correspondencia considera los valores de los atributos del par de 

características para establecer una correspondencia local, mediante alguna métrica que 

determine cuál es el grado de semejanza entre los vectores de atributos de ambas 

características. 

La dificultad para establecer la correspondencia entre los puntos o características de un 

par de imágenes estereoscópicas proviene de la naturaleza del propio sistema 

Las imágenes izquierda y derecha captadas por un sistema de visión estereoscópica son 

obtenidas desde diferentes posiciones o ángulos de tal forma que las condiciones de 

iluminación pueden ser ligeramente diferentes o incluso con la posibilidad de la 

aparición de reflejos en una imagen ausentes en la otra. 

6.5. Obtención de la distancia. 

Se obtienen primitivas y mapas de profundidad estos últimos necesitan un 

procedimiento de interpolación adicional para extraer la profundidad de la escena

RESUMEN DE LECTURA: 

Reconstrucción de mapas 3D a partir de información estereo 

utilizando un enfoque de minimización. 

Departamento de Ciencia de la comunicación e Inteligencia Artificial 

En este artículo se presenta una técnica de extracción del mapa 3D de un entorno a 

partir de la información estereo obtenida por un robot explorando dicho entorno. 

Asumiendo que se desconoce la geometría del terreno y el movimiento realizado por la 

cámara durante la exploración, se plantea un método para estimar dicho movimiento 

entre cada par de vistas consecutivas, siguiendo un criterio de minimización de energía. 

Dicha estimación se utiliza para componer el mapa 3D del entorno . 

El montaje dispone de un sistema triangular de cámaras junto con un algoritmo de 

correlación. 

El problema básico del mapeado consiste en estimar el movimiento sufrido por la 

cámara a partir de dos vistas consecutivas de la misma. 

Para la reconstrucción de la imagen en 3D el origen de coordenadas del mapa coincide 

con el origen de coordenadas de la primera cámara y al procesar las imágenes solo se 

considera una nube de puntos la cual es suficiente para el asegurar el emparejamiento.

Referencias 

• [1] Técnicas y algoritmos para la adquisición, transmisión y visualización de 

escenas 3D -Diana Beltrán Guerrero, Luis Basañez Villaluenga. 

• [2] Correspondencia Estereoscópica - Dpto. Automática, Ingeniería Electrónica 

e Informática Industrial 

• [3] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. de la Cruz 

García. 

• [4] Visión Computacional – Carlos Ruiz Moreno 

• [5] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. de la Cruz 

García (Capítulo 17, paginas 503.- 528).

UNIVERSIDAD NACIONAL DE INGENIERIA 

PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II 

7. PLAN DE TRABAJO 

Reconstrucción del Medio Ambiente utilizando visión estereoscópica 

Base de 

Conocimiento 

Preparación del 

ambiente de 

Experimentación 

Investigación 

Procedimiento de 


Instalacion de 

DevC++ openCv 

Elaboración 

Montaje 

Adquisición de 

imágenes 


Geometría de 

características 

Extracción de 

características 

Obtención de la 

distancia

UNIVERSIDAD NACIONAL DE INGENIERIA 

PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II 

8. CRONOGRAMA DE ACTIVIDADES

Universidad Nacional de IngenierÃƒÂ­a - Wiphala.net

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

Universidad Nacional de IngenierÃƒÂa - Wiphala.net