Una aplicaciÃ³n alternativa para personas discapacitadas

CENTRO DE INVESTIGACIONES Y DESARROLLO – FACULTAD DE INGENIERÍA 

Las tecnologías del reconocimiento de voz y su 

implementación en software libre 

Una aplicación alternativa para personas 

discapacitadas 1 

Coca Bedoya, Óscar Julián 2 y Ramírez Rendón, Carlos Alberto 3 . GLEC. 

Resumen 

Este documento, presenta una introducción general de las tecnologías del 

reconocimiento de voz y cómo éstas pueden ayudar a que las personas con 

alteraciones motoras utilicen, de una manera amigable y dinámica, las 

tecnologías de la información (TIC's). El sistema operativo GNU/Linux, una 

tecnología moderna de la información, puede usarse para la creación de 

nuevas utilerías y la personalización, según las necesidades de los 

programadores y usuarios, para diseñar e implementar una interfaz 

Hombre/Máquina a través de comandos orales. 

Palabras clave: Comandos orales, Gnome, Interfaz hombre máquina, 

Software Libre. 

I. Introducción 

El reconocimiento de voz es un campo disciplinal muy nuevo, surgido en los 

inicios de la década de los años cincuenta, que presenta una evolución 

significativa, debido al uso de diferentes enfoques de reconocimiento de 

patrones, tales como: el estadístico, que emplea los modelos ocultos de 

Markov (HMM); el sintáctico, que se basa en encontrar las relaciones 

estructurales que guardan los objetos de estudio utilizando la teoría de los 

lenguajes formales; el lógico combinatorio, que se fundamenta en la idea de 

que la modelación del problema debe ser lo más cercano posible a la 

realidad; las redes neuronales artificiales (RNA's), fundamentadas en la 

simulación del comportamiento neuronal del cerebro humano; y en los 

últimos años, algunos híbridos como el Branch and Bounds, que combina las 

1 Basado en el trabajo de grado “Acceso al escritorio Gnome del Sistema Operativo GNU/Linux 

utilizando la voz: una ayuda a las personas discapacitadas”, realizado como requisito parcial para optar 

al título de Pregrado en Ingeniería de Sistemas y Telecomunicaciones, Facultad de Ingeniería, 

Universidad de Manizales, 2005. 

2 Estudiante Ingeniería de Sistemas y Telecomunicaciones, Facultad de Ingeniería, Universidad de 

Manizales. E-mail: juliancoca@athenea.umanizales.edu.co 

3 Estudiante Ingeniería de Sistemas y Telecomunicaciones, Facultad de Ingeniería, Universidad de 

Manizales. E-mail: karlox@linuxmail.org 

VENTANA INFORMÁTICA No. 12 – Universidad de Manizales, enero – junio / 2005 – pp 203-209

- Universidad de Manizales, enero – junio / 2005 

RNA's y los HMM. 

Los avances logrados con el uso de los enfoques mencionados, han 

evolucionado desde el reconocimiento de palabras aisladas dependientes del 

hablante, hasta el discurso continuo independiente del mismo, pasando por 

la edición de texto a través de comandos orales, la autenticación de usuarios 

en sistemas de seguridad, la administración de sistemas informáticos a 

través de comandos orales y los sistemas de comunicación móvil con 

marcado automático por voz. 

Debido a lo nuevo de este campo disciplinal, los actuales motores de 

reconocimiento de voz presentan falencias en su rendimiento, situación que 

lo convierte en un medio de cultivo atractivo para investigación pionera por 

parte de inquietos profesionales y estudiantes. 

A. Obstáculos de la Vida Moderna 

Actualmente, las personas discapacitadas o con alteraciones motoras de los 

miembros superiores, están buscando con urgencia soluciones tecnológicas 

que les permitan una interfaz, amigable y flexible, para desarrollar sus 

actividades relacionadas con un computador. 

En el medio latinoamericano, muchos aplicativos de software para 

reconocimiento de voz tienen un alto valor comercial y, en algunos casos, no 

suplen las necesidades de este grupo social. Es más, la mayoría de las 

aplicaciones comerciales están enfocadas a la creación de documentos y 

envío de correos, pero para acceder a ellos es necesario entrar en el menú 

de aplicaciones, buscar el programa de reconocimiento de voz y ejecutarlo 

manualmente. 

Otros aplicativos de reconocimiento de voz, por el contrario, se cargan al 

iniciar el equipo; sin embargo presentan algunas limitaciones, como: la 

configuración del volumen del micrófono o de la multimedia no es 

automática; la configuración de algunas aplicaciones es difícil y dispendiosa; 

y requiere de los archivos de entrenamiento para su correcto funcionamiento. 

Además de lo anterior, los costos de aplicativos de reconocimiento de voz y 

los requerimientos mínimos de hardware y software, implican que el acceso a 

ellos está limitado a un pequeño y privilegiado grupo de personas. 

II. Una alternativa para la integración social 

Permitir a las personas discapacitadas o con alteraciones motoras de los 

miembros superiores, o a cualquier otro tipo de usuario, la utilización de 

herramientas de reconocimiento de voz para la realización de sus labores 

periódicas que involucren la interacción con un computador, es un gran reto, 

dada la diversidad de las características que se deben tener en cuenta para 

2


la obtención de patrones en el reconocimiento de voz. 

Así pues, se pretende construir una aplicación que permita la navegación de 

algunos submenús del escritorio Gnome, que se instale fácilmente, y que 

sea independiente del hablante, teniendo en cuenta el compromiso social; 

éstas características la convierten en una herramienta útil y ambiciosa para 

los usuarios que no cuentan con los recursos económicos, y que quieran 

utilizarla para sacar el mayor provecho de las aplicaciones que los sistemas 

operativos les proporcionan. 

Este trabajo implica, de manera adicional, crear un espacio virtual dentro del 

servidor del GLEC (Grupo Linux Eje Cafetero), donde todos los interesados 

en el tema podrán consultar nuestros avances, documentos relacionados, 

enlaces de interés, foros de discusión, hacer sus preguntas y sugerencias. 

Logrando con esto la unificación de islas de conocimiento. 

III. El reconocimiento de voz en la 

plataforma GNU/Linux 

GNU/Linux es un sistema operativo de laboratorio concebido bajo una 

Licencia Pública General (GPL), la cual establece que todos los desarrollos 

bajo los términos de ésta, deben liberar su código fuente, contener la 

documentación, dar permisos para que cualquier persona que quiera realizar 

cambios al código fuente lo pueda hacer, siempre y cuando éstas personas 

respeten los derechos morales y patrimoniales del autor, y que además siga 

manteniendo los términos de ésta licencia. 

El software libre ha nacido con la filosofía de permitir a cualquier persona 

natural acceder a él con un bajo costo y así incrementar la participación de 

los mismos en el desarrollo y utilización de las tecnologías de la información. 

La gran bondad de GNU/Linux radica en su implementación a nivel mundial 

por programadores de toda clase y, por tanto, se puede tener una respuesta 

rápida ante cualquier dificultad que se presente, lo que se refleja también en 

una gran comunidad que permite alta disponibilidad de la información y 

actualización del sistema operativo. 

Inicialmente GNU/Linux se diseñó e implementó como un sistema operativo 

orientado a servidores, esto aclara por qué a pesar de su trascendencia y 

robustez, GNU/Linux no era en un principio un sistema operativo utilizado por 

los usuarios en sus computadores de escritorio, debido a la falta de 

aplicaciones orientadas a suplir sus necesidades. 

Con la aparición de los escritorios gráficos como Gnome y casas de 

desarrollo de las diferentes distribuciones de GNU/Linux como son: Debian, 

Suse, Fedora y otras, se logró darle una orientación a GNU/Linux hacia los 

3


usuarios finales, esto gracias a la inclusión de aplicaciones de multimedia, 

paquetes de ofimática y otros. 

A.Avances y Retrocesos de una larga Búsqueda 

En la actualidad los diseñadores y desarrolladores de las distribuciones de 

GNU/Linux, se han preocupado por crear interfaces amigables para acceder 

a las aplicaciones y permitir su uso para una gran variedad de usuarios, 

como es el caso de la distribución BLINDUX. 

Dentro del tipo de interfaces interactivas están las consolas Braille y su 

integración con las aplicaciones orientadas a las personas invidentes, 

aplicaciones que utilizan los sintetizadores de voz para guiar a los usuarios, y 

otras aplicaciones que están orientadas a la administración del sistema 

operativo a través de comandos hablados, como lo hace el paquete 

CvoiceControl. 

CvoiceControl fue desarrollado por Daniel Kiecza y básicamente es un 

sistema de reconocimiento de voz dependiente del hablante, basado en 

HMM; su objetivo es permitir al usuario ejecutar comandos de Unix/Linux a 

través de comandos orales. 

El lenguaje de programación utilizado para la implementación de 

CvoiceControl es C. Es de aclarar, que la codificación realizada presenta 

falencias de programación, reflejadas en la ausencia de identación del 

código fuente y el uso de punteros globales, por lo cual la lectura y estudio 

del código son tareas difíciles de implementar. El CvoiceControl, permitió 

grabar los segmentos de voz correspondientes a los comandos orales, pero 

no su ejecución. 

Dadas las razones anteriores, se planteo la necesidad de contactar a Daniel 

Kiecza con el fin de obtener mayor información sobre el análisis y diseño de 

CvoiceControl; el autor nunca dió respuesta, por tal motivo, se buscaron 

otras alternativas para utilizar o implementar otro motor de reconocimiento de 

voz. 

En esta búsqueda continua de otros sistemas de reconocimiento de voz 

implementados con software libre, se encontró el Perlbox-Voice; ésta 

aplicación transforma texto en voz utilizando el sintetizador Festival, permite 

además ejecutar comandos orales que se encuentran asociados a una 

aplicación específica de GNU/Linux y responde con mensajes de voz a 

ciertos comandos orales (por ejemplo un saludo) guiando al usuario. El 

idioma predeterminando para el reconocimiento de los comandos orales, es 

el inglés. 

La principal característica de Perlbox-Voice es su independencia del 

4


hablante, debido al uso de Sphinx-II como motor de reconocimiento, el cual 

permite la identificación tanto de palabras aisladas como del discurso 

continuo, dando resultados favorables de respuesta de reconocimiento de 

voz. 

El Sphinx-II fue desarrollado por el grupo CMU-Sphinx de la Universidad de 

Carnegie Mellon, el cual se ha preocupado por las falencias de los motores 

de reconocimiento de voz existentes, y el resultado de esto es el desarrollo 

Sphinx-II, que utiliza los modelos ocultos de Markov y un diccionario de 

lenguaje orientado al idioma inglés. 

El Sphinx-II, se puede utilizar a través de una API de funciones que permite 

desarrollar aplicaciones que integran el reconocimiento de voz. Esta API fue 

desarrollada bajo el lenguaje C, su código fuente está bien documentado, y 

en comparación con otras herramientas de reconocimiento de voz 

disponibles para GNU/Linux, tiene buena estética en su codificación. 

La primera fase consistió en la descarga e instalación del código fuente del 

Sphinx-II en las distribuciones de GNU/Linux que se tenían a disposición: 

Debian Woody, SUSE 9.1 y Red Hat 8. Posteriormente se realizaron pruebas 

utilizando un micrófono de baja calidad y una tarjeta de sonido genérica, para 

capturar voz utilizando las funciones de la API de Sphinx-II, que permiten el 

acceso y grabación en modo crudo (a nivel de hardware). Los resultados 

obtenidos fueron satisfactorios. 

Lo anterior garantiza que los requerimientos de hardware son mínimos, 

bajando así los costos para el usuario que utilice una aplicación que integre 

la API Sphinx-II, lo que beneficiará a un mayor grupo social en el que se 

encuentran las entidades de ayuda a discapacitados, las personas 

discapacitadas y cualquier persona que necesite este tipo de aplicaciones 

implantadas sobre un computador con pocas exigencias de hardware. 

La siguiente fase fue la traducción de los manuales técnicos y de usuario del 

Sphinx-II, lo cual ha permitido una mayor apropiación de la estructura y 

funcionamiento de la API. 

IV. Conclusiones 

La técnica más utilizada para el reconocimiento de voz son los modelos 

ocultos de Markov, dado su buen rendimiento para el reconocimiento del 

discurso continuo e independiente del hablante, como se puede notar en los 

sistemas de reconocimiento de voz referenciados en este documento. 

El Sphinx-II es un sistema de reconocimiento de voz muy robusto y es 

recomendable su uso para integrarlo en aplicaciones que lo necesiten. 

5


El uso de ingeniería de software en el desarrollo de aplicaciones, permite que 

éstas tengan características como escalabilidad, calidad, facilidad de 

mantenimiento y reutilización de código. Pues el software es un producto no 

terminado. 

El desarrollo de proyectos con software libre, permite un mayor alcance de 

las aplicaciones informáticas que solucionan los problemas cotidianos a las 

comunidades menos favorecidas, permitiendo así trascender en los campos 

social y científico. 

Bibliografía 

[1] CMU SPHIX. [en 

linea]. Estados Unidos: Carnigie Mellon University. Disponible En: 

http://www.speech.cs.cmu.edu / sphinx/Sphinx.html. Consultado en 

13.08.03. 

[2] GOLOMB, Josh. Speech Recognition History. Leland Stanford Junior 

University. (en línea) Disponible En: 

http://florin.stanford.edu/~t361/Fall2000/jgolomb/YYSpeechHistoryWB.ht 

m. 2001. Consultado en 13.08.03. 

[3] GRASSO, Michael y FININ, Tim. Integración de Tareas en Ambientes de 

Reconocimiento de Voz Multimodales. (en línea) Disponible En: URL: 

http://www.acm.org/crossroads/crew/michael_grasso.html. Consultado en 

07.08.03. 

[4] LOPEZ MORENO, J. Desarrollo de un reconocedor de dígitos con 

distintos énfasis. Universidad de las Américas, (en línea) Disponible En: 

http://mailweb.udlap.mx/ ~tesis/lis/lopez_m_j/ seccion_1_5.pdf. 

Consultado en 07.04.03. 

[5] PMXSHOP. Reconocimiento de voz. (en línea) Disponible En: 

http://www.pmx-shop.com/Reconocimiento de voz.htm. Consultado en 

07.08.03. 

[6] FREE SOFTWARE FUNDATION. GNU Operating System - Free 

Software Fundation. Disponible En: . Consultado en 

08.11.04. 

[7] KIECZA, Daniel. DANIEL KIECZA. Disponible En: 

URL:. Consultado en 

08.08.04. 

6

Una aplicaciÃ³n alternativa para personas discapacitadas

Create successful ePaper yourself

Delete template?

Save as template?