13.07.2015 Views

Estado del arte en el reconocimiento Automático de voz

Estado del arte en el reconocimiento Automático de voz

Estado del arte en el reconocimiento Automático de voz

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005<strong>Estado</strong> <strong>d<strong>el</strong></strong> <strong>arte</strong> <strong>en</strong> <strong>el</strong> reconocimi<strong>en</strong>toAutomático <strong>de</strong> <strong>voz</strong>Deiby Alexan<strong>de</strong>r Fandiño RodríguezUniversidad Nacional <strong>de</strong> ColombiaResum<strong>en</strong>El Reconocimi<strong>en</strong>to Automático <strong>de</strong> Voz (ASR AutomaticSpeech Recognition) es un campo <strong>de</strong> investigación <strong>de</strong>creci<strong>en</strong>te r<strong>el</strong>evancia que día a día se gana más a<strong>de</strong>ptos.El <strong>de</strong>sarrollo <strong>de</strong> mejores algoritmos y <strong>de</strong> mo<strong>d<strong>el</strong></strong>ados masprecisos, junto con la aparición <strong>de</strong> sistemas informáticosmas pot<strong>en</strong>tes y adsequibles, posibilita la integración <strong>d<strong>el</strong></strong>os sistemas <strong>de</strong> dialogo hombre-máquina a través <strong>de</strong> la<strong>voz</strong> <strong>en</strong> numerosos ámbitos <strong>de</strong> la sociedad actual. Estossistemas <strong>de</strong> dialogo permit<strong>en</strong> <strong>el</strong> acceso a una grancantidad <strong>de</strong> información a través <strong>de</strong> una forma <strong>de</strong>comunicación tan natural como es <strong>el</strong> habla, facilitandoun <strong>el</strong>evado numero <strong>de</strong> servicios interactivos utilizando <strong>el</strong>t<strong>el</strong>éfono, la t<strong>el</strong>evisión o <strong>el</strong> ord<strong>en</strong>ador como <strong>el</strong>em<strong>en</strong>tos <strong>de</strong>acceso.El objetivo g<strong>en</strong>eral <strong>de</strong> este artículo es pres<strong>en</strong>tar losprincipales avances obt<strong>en</strong>idos <strong>en</strong> los últimos años <strong>en</strong> <strong>el</strong>ámbito <strong>d<strong>el</strong></strong> reconocimi<strong>en</strong>to automático <strong>de</strong> <strong>voz</strong>. Se prestaespecial at<strong>en</strong>ción a las principales líneas <strong>de</strong> trabajoori<strong>en</strong>tadas hacia <strong>el</strong> diseño <strong>de</strong> sistemas <strong>de</strong>Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla.I. INTRODUCCIÓNHace ya tiempo que se estudia la posibilidad <strong>de</strong> <strong>de</strong>sarrollarinterfaces hombre-máquina controlados por la <strong>voz</strong> parasustituir <strong>en</strong> ciertas aplicaciones a los interfaces tradicionalesbasados <strong>en</strong> teclados, pan<strong>el</strong>es y dispositivos similares. Est<strong>en</strong>uevo tipo <strong>de</strong> interfaz constaría <strong>de</strong> dos módulos <strong>de</strong><strong>en</strong>trada/salida: uno <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> habla, mediante <strong>el</strong>cual <strong>el</strong> ord<strong>en</strong>ador sería capaz <strong>de</strong> extraer información <strong>de</strong> loscomandos orales <strong>d<strong>el</strong></strong> operador o usuario, y otro <strong>de</strong> síntesis<strong>de</strong> <strong>voz</strong>, que podría ser una <strong>de</strong> las vías <strong>de</strong> pres<strong>en</strong>tación <strong>de</strong>resultados.La utilización <strong>de</strong> la <strong>voz</strong>, y <strong>en</strong> <strong>el</strong> caso que nos ocupa, <strong>el</strong>Reconocimi<strong>en</strong>to <strong>de</strong> Habla, como vía <strong>de</strong> dar órd<strong>en</strong>es a losord<strong>en</strong>adores ofrece varias v<strong>en</strong>tajas respecto al métodotradicional <strong>de</strong> comunicación <strong>en</strong>tre <strong>el</strong> usuario y la máquina:Hace esta comunicación más rápida, y más agradable paralos nuevos usuarios, ya que al ser la forma natural <strong>de</strong>comunicarse no se necesita ninguna habilidad especial.Permite <strong>el</strong> t<strong>en</strong>er las manos libres para utilizarlas <strong>en</strong> algunaotra actividad, a la vez que se van dando órd<strong>en</strong>es por medio<strong>de</strong> la <strong>voz</strong>.Permite movilidad, ya que la <strong>voz</strong> se pue<strong>de</strong> <strong>en</strong>viar adistancia y ser recogida por un micrófono, por oposición aun teclado que no se pue<strong>de</strong> mover <strong>de</strong> la mesa <strong>de</strong> trabajo.Permite acceso remoto, al po<strong>de</strong>r acce<strong>de</strong>r a un ord<strong>en</strong>adorusando la red t<strong>el</strong>efónica, que es la red <strong>de</strong> comunicacionesmás ext<strong>en</strong>dida.Permite la disminución <strong>d<strong>el</strong></strong> tamaño <strong>de</strong> los pan<strong>el</strong>es <strong>de</strong>control. Piénsese <strong>en</strong> <strong>el</strong> pan<strong>el</strong> <strong>de</strong> un avión, cuantosconmutadores manuales podrían suprimirse si se utilizara la<strong>voz</strong> como forma <strong>de</strong> comunicación con <strong>el</strong> sistema <strong>de</strong> controlA lo largo <strong>d<strong>el</strong></strong> pres<strong>en</strong>te artículo se pret<strong>en</strong><strong>de</strong> pres<strong>en</strong>tar unapanorámica <strong>d<strong>el</strong></strong> problema <strong>d<strong>el</strong></strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla,así como <strong>de</strong> las soluciones técnicas que hasta ahora se han<strong>de</strong>sarrollado, acabando con una revisión <strong>de</strong> las posiblesaplicaciones que pueda servir para <strong>de</strong>spertar <strong>en</strong> aqu<strong>el</strong>laspersonas que no estén al corri<strong>en</strong>te <strong>d<strong>el</strong></strong> <strong>de</strong>sarrollo <strong>de</strong> estatecnología, interés por la misma así como vislumbrarposibles aplicaciones <strong>en</strong> sus propios campos <strong>de</strong> actividad.II. JUSTIFICACIÓNDurante la <strong>de</strong>clinación <strong>d<strong>el</strong></strong> ya finalizado siglo XX y, porsupuesto, continuando tras <strong>el</strong> nacimi<strong>en</strong>to <strong>d<strong>el</strong></strong> tan esperadosiglo XXI, la utilización cada vez mayor <strong>de</strong> la <strong>voz</strong> comointerfaz <strong>de</strong> comunicación <strong>en</strong>tre los hombres y las máquinaspermite aum<strong>en</strong>tar la cooperación con los sistemasinformáticos, aprovechando al máximo las prestaciones <strong>de</strong>estos <strong>en</strong> cuanto a rapi<strong>de</strong>z y efici<strong>en</strong>cia.Los avances que se produc<strong>en</strong> <strong>en</strong> <strong>el</strong> ámbito <strong>de</strong> lastecnologías <strong>d<strong>el</strong></strong> habla son día a día más significativos. En <strong>el</strong>campo <strong>d<strong>el</strong></strong> reconocimi<strong>en</strong>to automático <strong>de</strong> <strong>voz</strong>, losreconocedores actuales manejan cada vez vocabularios másgran<strong>de</strong>s y logran m<strong>en</strong>ores tasas <strong>de</strong> error gracias al uso <strong>de</strong>algoritmos más efici<strong>en</strong>tes, a la aparición <strong>de</strong> equipos más


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005pot<strong>en</strong>tes y baratos, y al aum<strong>en</strong>to <strong>de</strong> complejidad <strong>de</strong> estossistemas, al emplearse mo<strong>d<strong>el</strong></strong>ados mas sofisticados yrefinados.Los sistemas <strong>de</strong> reconocimi<strong>en</strong>to automático <strong>de</strong> <strong>voz</strong> o habla,fr<strong>en</strong>te a otros sistemas <strong>de</strong> interacción hombre-máquinacomo teclados, pan<strong>el</strong>es, etc., proporcionan una mayornaturalidad, así como un amplio rango <strong>de</strong> utilización porp<strong>arte</strong> <strong>de</strong> difer<strong>en</strong>tes tipos <strong>de</strong> usuarios <strong>en</strong> distintos <strong>en</strong>tornos <strong>de</strong>operación.No obstante, a pesar <strong>de</strong> los gran<strong>de</strong>s avances realizados, seestá todavía muy lejos <strong>de</strong> un sistema <strong>de</strong> reconocimi<strong>en</strong>toautomático <strong>de</strong> <strong>voz</strong> universal que funcione bi<strong>en</strong> <strong>en</strong> cualquieraplicación a la que sea <strong>de</strong>stinado. En g<strong>en</strong>eral, <strong>el</strong> diseño y lascaracterísticas <strong>de</strong> los actuales sistemas <strong>de</strong> reconocimi<strong>en</strong>toautomático <strong>de</strong> <strong>voz</strong> <strong>de</strong>p<strong>en</strong>d<strong>en</strong> fuertem<strong>en</strong>te <strong>de</strong> la aplicación ala que van a ser <strong>de</strong>stinados y a las condiciones <strong>de</strong>funcionami<strong>en</strong>to.III. DEFINICIÓN DEL PROBLEMAEl Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla parece tan natural y s<strong>en</strong>cillopara las personas que se p<strong>en</strong>só que podría ser fácilm<strong>en</strong>terealizado por las máquinas. Sin embargo, cuando se empezóa profundizar <strong>en</strong> <strong>el</strong> tema, se comprobó que esto no es así.De hecho, es un tema que se ha rev<strong>el</strong>ado más complicadoque la producción automática <strong>de</strong> <strong>voz</strong>.Ya la historia lo ha <strong>de</strong>mostrado: las primeras yrudim<strong>en</strong>tarias máquinas parlantes aparecieron <strong>en</strong> la segundamitad <strong>d<strong>el</strong></strong> siglo XVIII, mi<strong>en</strong>tras que los primeros int<strong>en</strong>tos <strong>en</strong>máquinas capaces <strong>de</strong> reconocer la <strong>voz</strong> no aparecieron hastaprincipios <strong>d<strong>el</strong></strong> siglo XX, con la máquina <strong>de</strong> Flower, capaz<strong>de</strong> escribir <strong>el</strong> alfabeto fonográfico pronunciado por unapersona. Cinco son los factores que <strong>de</strong>terminan lacomplejidad <strong>d<strong>el</strong></strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla:A. El LocutorEs quizás <strong>el</strong> aspecto que introduce mayor variabilidad <strong>en</strong> laforma <strong>de</strong> onda <strong>en</strong>trante, y por tanto requiere que <strong>el</strong> sistema<strong>de</strong> reconocimi<strong>en</strong>to sea altam<strong>en</strong>te robusto. Una persona nopronuncia siempre <strong>de</strong> la misma forma, <strong>de</strong>bido a distintassituaciones físicas y psicológicas (es la llamada variabilidadintra-locutor). Existe a<strong>de</strong>más gran variedad <strong>en</strong>tre distintoslocutores (hombres, mujeres, niños), difer<strong>en</strong>cias según laedad o la región <strong>de</strong> orig<strong>en</strong> (variabilidad interlocutor). Esmucho más s<strong>en</strong>cillo que un sistema funcione para un<strong>de</strong>terminado locutor y que este lo haya <strong>en</strong>tr<strong>en</strong>adopreviam<strong>en</strong>te (se dice que <strong>el</strong> sistema es <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong>locutor), a que un sistema funcione para cualquier locutor(sistema in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong> locutor).B. La forma <strong>de</strong> hablarEs <strong>el</strong> segundo factor que <strong>de</strong>termina la complejidad <strong>de</strong> unreconocedor <strong>de</strong> habla. El hombre pronuncia las palabras <strong>de</strong>una forma continua, y <strong>de</strong>bido a la inercia <strong>de</strong> los órganosarticulatorios, que no pued<strong>en</strong> moverse instantáneam<strong>en</strong>te, seproduc<strong>en</strong> efectos coarticulatorios. Ello, unido a lasvariaciones introducidas por la prosodia, hace que unapalabra al principio <strong>de</strong> una frase sea difer<strong>en</strong>te que cuando sedice <strong>en</strong> medio, o que sea difer<strong>en</strong>te <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> que es loque le proce<strong>de</strong> o le sigue. Un reconocedor es r<strong>el</strong>ativam<strong>en</strong>tes<strong>en</strong>cillo si sólo ti<strong>en</strong>e que reconocer una palabra dicha <strong>de</strong>forma aislada (reconocedor <strong>de</strong> palabras aisladas) y es máscomplejo si <strong>de</strong>be reconocer las palabras <strong>de</strong> una frase, perointroduci<strong>en</strong>do una pausa <strong>en</strong>tre cada dos <strong>de</strong> <strong>el</strong>las (hablaconectada). El sistema más complicado es aqu<strong>el</strong> que <strong>de</strong>befuncionar reconoci<strong>en</strong>do habla continua, que es la formanatural <strong>de</strong> hablar.C. El VocabularioSe conoce por tal <strong>el</strong> número <strong>de</strong> palabras difer<strong>en</strong>tes que <strong>de</strong>bereconocer <strong>el</strong> sistema. Mi<strong>en</strong>tras mayor es <strong>el</strong> número <strong>de</strong>palabras más difícil es <strong>el</strong> reconocedor, por dos motivos. Elprimero porque al aum<strong>en</strong>tar <strong>el</strong> número <strong>de</strong> palabras es másfácil que aparezcan palabras parecidas <strong>en</strong>tre sí, y <strong>el</strong> segundoporque <strong>el</strong> tiempo <strong>de</strong> tratami<strong>en</strong>to aum<strong>en</strong>ta al aum<strong>en</strong>tar <strong>el</strong>número <strong>de</strong> palabras con las que comparar. Una soluciónposible a este problema sería <strong>el</strong> utilizar unida<strong>de</strong>slingüísticas inferiores a la palabra (alófonos, sílabas,etc.)que <strong>en</strong> principio ti<strong>en</strong><strong>en</strong> un número limitado, e inferior al <strong>de</strong>posibles palabras. Sin embargo, la dificultad <strong>de</strong> reconocerestas unida<strong>de</strong>s es aun mayor <strong>de</strong>bido a que su duración esmuy corta, la frontera <strong>en</strong>tre dos unida<strong>de</strong>s sucesivas es muydifícil <strong>de</strong> establecer y los efectos coarticulatorios sonmucho más fuertes que <strong>en</strong>tre palabras.D. La GramáticaEs <strong>el</strong> conjunto <strong>de</strong> reglas que limita <strong>el</strong> número <strong>de</strong>combinaciones permitidas <strong>de</strong> las palabras <strong>d<strong>el</strong></strong> vocabulario.En g<strong>en</strong>eral la exist<strong>en</strong>cia <strong>de</strong> una gramática <strong>en</strong> unreconocedor ayuda a mejorar la tasa <strong>de</strong> reconocimi<strong>en</strong>to, al<strong>el</strong>iminar ambigüeda<strong>de</strong>s y pue<strong>de</strong> ayudar a disminuir lanecesidad <strong>de</strong> cálculo, al limitar <strong>el</strong> número <strong>de</strong> palabras <strong>en</strong>una <strong>de</strong>terminada fase <strong>d<strong>el</strong></strong> reconocimi<strong>en</strong>to ("perplejidad" <strong>d<strong>el</strong></strong>a gramática). En sistemas <strong>de</strong> palabras aisladas <strong>en</strong> los qu<strong>en</strong>o existe una gramática <strong>en</strong> <strong>el</strong> s<strong>en</strong>tido estricto <strong>d<strong>el</strong></strong> término, sepue<strong>de</strong> <strong>en</strong>t<strong>en</strong><strong>de</strong>r por tal <strong>el</strong> número <strong>de</strong> palabras a reconocer.Si, por ejemplo, <strong>el</strong> sistema <strong>de</strong>be reconocer un númerot<strong>el</strong>efónico urbano, la gramática <strong>de</strong> este sistema dice que <strong>el</strong>vocabulario son los diez dígitos, y <strong>de</strong>be reconocer unconjunto <strong>de</strong> siete dígitos, <strong>de</strong> forma que si <strong>el</strong> sistemareconoce más o m<strong>en</strong>os, es que hay algún error.E. El Entorno físicoEs una p<strong>arte</strong> tan importante como las anteriores para <strong>de</strong>finir<strong>el</strong> reconocedor. No es lo mismo un sistema que funciona <strong>en</strong>un ambi<strong>en</strong>te poco ruidoso, como pue<strong>de</strong> ser <strong>el</strong> <strong>de</strong>spacho <strong>de</strong>un medico, o <strong>el</strong> que ti<strong>en</strong>e que funcionar <strong>en</strong> un coche o <strong>en</strong>una fabrica. 0 por ejemplo, <strong>el</strong> que <strong>de</strong>be <strong>de</strong> funcionar através <strong>de</strong> la línea t<strong>el</strong>efónica, con la consigui<strong>en</strong>te reducción<strong>de</strong> banda o <strong>el</strong> que recibe la <strong>voz</strong> a través <strong>de</strong> un micrófono,que ti<strong>en</strong>e mayor ancho <strong>de</strong> banda que la línea t<strong>el</strong>efónica.IV. EN QUE CONSISTE EL RECONOCIMIENTO DE VOZPodríamos afirmar que, g<strong>en</strong>éricam<strong>en</strong>te, <strong>el</strong> principal objetivoque <strong>el</strong> Reconocimi<strong>en</strong>to <strong>de</strong> Habla persigue es proporcionar


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005una "apropiada" interacción hombre-máquina a través <strong>de</strong>órd<strong>en</strong>es habladas. Así, los resultados que esta tecnologíaproporcione <strong>de</strong>berán contrastarse con los <strong>de</strong>rivados <strong>de</strong> otrasalternativas como son: teclados, pan<strong>el</strong>es, ratones, etc., <strong>en</strong>cuanto a si proporcionan un control <strong>de</strong> procesos <strong>de</strong>interacción hombre-máquina más o m<strong>en</strong>os "apropiado". Lasprincipales características que difer<strong>en</strong>cian a los sistemasbasados <strong>en</strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla fr<strong>en</strong>te a otrasalternativas son: la naturalidad que supone utilizar <strong>el</strong> habla<strong>en</strong> las operaciones <strong>de</strong> comando y control, y la precisión yrobustez <strong>en</strong> la comunicación para difer<strong>en</strong>tes usuarios ydifer<strong>en</strong>tes <strong>en</strong>tornos. La primera <strong>de</strong> <strong>el</strong>las <strong>de</strong>bería repres<strong>en</strong>tarla v<strong>en</strong>taja natural <strong>de</strong> los sistemas basados <strong>en</strong> la Tecnología<strong>d<strong>el</strong></strong> Habla. Aunque la experi<strong>en</strong>cia nos ha <strong>en</strong>señado que, sibi<strong>en</strong> <strong>el</strong> habla es la forma natural <strong>de</strong> comunicación <strong>en</strong>trepersonas, <strong>en</strong> <strong>el</strong> diálogo hombre-máquina esto no pareceobvio; piénsese, por ejemplo, <strong>en</strong> los diversos estudios quereflejan <strong>el</strong> <strong>el</strong>evado número <strong>de</strong> personas incapaces <strong>de</strong>respon<strong>de</strong>r fr<strong>en</strong>te a una máquina. Si bi<strong>en</strong> es cierto que estetipo <strong>de</strong> rechazos va disminuy<strong>en</strong>do paulatinam<strong>en</strong>te. Es lasegunda <strong>de</strong> las características anteriores la que se muestramás crítica <strong>en</strong> las aplicaciones <strong>d<strong>el</strong></strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong>Habla. El estado actual <strong>de</strong> la investigación <strong>en</strong>Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla nos muestra exc<strong>el</strong><strong>en</strong>tesresultados <strong>de</strong> sistemas trabajando <strong>en</strong> <strong>en</strong>tornos controlados<strong>de</strong> laboratorio. Sin embargo, una aplicación real <strong>de</strong> estatecnología exige un funcionami<strong>en</strong>to <strong>en</strong> <strong>el</strong> mundo real don<strong>de</strong><strong>el</strong> grado <strong>de</strong> dificultad <strong>de</strong> los problemas es un ord<strong>en</strong> <strong>de</strong>magnitud mayor.Bajo esa premisa <strong>de</strong> buscar una aplicación real, <strong>el</strong> mo<strong>d<strong>el</strong></strong>og<strong>en</strong>érico <strong>de</strong> comunicación que <strong>el</strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Hablapropone para <strong>el</strong> diálogo hombre-máquina pue<strong>de</strong>repres<strong>en</strong>tarse, <strong>de</strong> forma simplificada, tal y como muestra <strong>el</strong>diagrama <strong>de</strong> la figura 1, para un caso <strong>de</strong> acceso a una base<strong>de</strong> datos.Figura 1. Mo<strong>d<strong>el</strong></strong>o g<strong>en</strong>érico <strong>de</strong> comunicación paraReconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla.En este diagrama, <strong>el</strong> acceso a la información cont<strong>en</strong>ida <strong>en</strong>una base <strong>de</strong> datos comi<strong>en</strong>za con la producción <strong>de</strong> unm<strong>en</strong>saje hablado por <strong>el</strong> usuario, pero utilizando una forma oestilo <strong>de</strong> habla restringido; por ejemplo, utilizando palabras<strong>de</strong> un vocabulario reducido pronunciadas <strong>de</strong> forma aislada(como los dígitos), frases tipo, etc. A partir <strong>de</strong> la señal <strong>de</strong><strong>voz</strong>, un proceso <strong>de</strong> clasificación, basado <strong>en</strong> reconocimi<strong>en</strong>to<strong>de</strong> patrones asociados a difer<strong>en</strong>tes unida<strong>de</strong>s lingüísticas(palabras, fonemas, sílabas, etc.), permite a una interfaz <strong>de</strong>comunicaciones extraer <strong>de</strong> la base <strong>de</strong> datos la informaciónsolicitada por <strong>el</strong> usuario.Sigui<strong>en</strong>do <strong>el</strong> mo<strong>d<strong>el</strong></strong>o <strong>de</strong> la figura 1 po<strong>de</strong>mos pres<strong>en</strong>tar lasprincipales áreas <strong>de</strong> trabajo que intervi<strong>en</strong><strong>en</strong> <strong>en</strong> <strong>el</strong> diseño yespecificación <strong>de</strong> sistemas <strong>de</strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Hablaactuales. Estas áreas serían las sigui<strong>en</strong>tes:Proceso <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.Técnicas <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patrones.Difer<strong>en</strong>tes estilos <strong>de</strong> habla.Dep<strong>en</strong>d<strong>en</strong>cia <strong>d<strong>el</strong></strong> locutor.Vocabulario <strong>de</strong> reconocimi<strong>en</strong>to.Tarea <strong>de</strong> reconocimi<strong>en</strong>to.Bases <strong>de</strong> datos para <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y reconocimi<strong>en</strong>to.A. proceso <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>La primera operación que <strong>de</strong>be realizar un reconocedor esprocesar la señal <strong>de</strong> <strong>voz</strong> <strong>de</strong> <strong>en</strong>trada al sistema, con objeto <strong>de</strong>extraer la información acústica r<strong>el</strong>evante para la tarea que<strong>de</strong>bemos realizar. En este primer niv<strong>el</strong> <strong>d<strong>el</strong></strong> sistema son doslos interrogantes a resolver:¿Qué rasgos o características extraer?¿Qué efectos perturbadores pued<strong>en</strong> acompañar a la <strong>voz</strong>? y¿cómo <strong>el</strong>iminarlos?La respuesta a la primera cuestión ha v<strong>en</strong>ido precedida <strong>de</strong>un largo proceso <strong>de</strong> investigación sobre difer<strong>en</strong>tesprocedimi<strong>en</strong>tos <strong>de</strong> parametrización <strong>de</strong> la <strong>voz</strong>. Planteándosecomo solución actual más ext<strong>en</strong>dida una parametrización <strong>d<strong>el</strong></strong>a <strong>en</strong>volv<strong>en</strong>te espectral que incluya consi<strong>de</strong>racionespreceptúales a partir <strong>d<strong>el</strong></strong> funcionami<strong>en</strong>to <strong>d<strong>el</strong></strong> oído. Parareducir <strong>el</strong> número <strong>de</strong> parámetros posibles, laparametrización se combina con la utilización <strong>de</strong> técnicasdiscriminativas, s<strong>el</strong>eccionándose <strong>el</strong> subconjunto con losparámetros más efici<strong>en</strong>tes o distintivos [1].En cuanto a la segunda <strong>de</strong> las preguntas planteadas, lapres<strong>en</strong>cia <strong>de</strong> efectos perturbadores <strong>en</strong> la señal <strong>de</strong> <strong>en</strong>trada, hag<strong>en</strong>erado tres líneas <strong>de</strong> trabajo principales:1) Detección robusta <strong>de</strong> <strong>voz</strong>: Apareci<strong>en</strong>do innumerablesprocedimi<strong>en</strong>tos <strong>de</strong> discriminación <strong>en</strong>tre <strong>voz</strong> o ruido(sil<strong>en</strong>cio) para difer<strong>en</strong>tes tipos <strong>de</strong> ruido [2].2) Reducción <strong>de</strong> ruido: Distinguiéndose procedimi<strong>en</strong>tosque actúan directam<strong>en</strong>te sobre la señal <strong>de</strong> <strong>voz</strong> yprocedimi<strong>en</strong>tos que buscan comp<strong>en</strong>sar <strong>el</strong> efecto <strong>d<strong>el</strong></strong>ruido sobre la parametrización <strong>de</strong> la <strong>voz</strong> [3].3) Canc<strong>el</strong>ación <strong>de</strong> ecos: Incorporando técnicas <strong>de</strong> filtradoadaptativo que permitan al usuario com<strong>en</strong>zar a hablarmi<strong>en</strong>tras, <strong>de</strong>s<strong>de</strong> <strong>el</strong> terminal remoto, se le estácomunicando un m<strong>en</strong>saje que pue<strong>de</strong> provocar un eco<strong>en</strong> la <strong>voz</strong> que <strong>en</strong>tra al reconocedor [4].


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005B. técnicas <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patronesEl reconocimi<strong>en</strong>to <strong>de</strong> patrones es la técnica más específica<strong>de</strong> todo sistema <strong>de</strong> reconocimi<strong>en</strong>to. De ahí que muchosreconocedores se id<strong>en</strong>tifiqu<strong>en</strong> a partir <strong>de</strong> la técnica <strong>de</strong>reconocimi<strong>en</strong>to <strong>de</strong> patrones que incorporan. A partir <strong>de</strong> larepres<strong>en</strong>tación paramétrica <strong>de</strong> la <strong>voz</strong>, este módulo realizaun proceso <strong>de</strong> clasificación utilizando una serie <strong>de</strong> patrones.Estos patrones se obti<strong>en</strong><strong>en</strong> <strong>en</strong> una fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>d<strong>el</strong></strong>sistema y son repres<strong>en</strong>tativos <strong>de</strong> un conjunto <strong>de</strong> unida<strong>de</strong>slingüísticas (palabras, sílabas, sonidos, fonemas). Lapeculiaridad más característica <strong>de</strong> este proceso, que marcasu dificultad, es la variabilidad temporal que pue<strong>de</strong>pres<strong>en</strong>tar una misma unidad lingüística al ser producida pordifer<strong>en</strong>tes modos y/o v<strong>el</strong>ocida<strong>de</strong>s <strong>de</strong> habla. Así pues, lasprimeras técnicas <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patrones utilizadasfueron las basadas <strong>en</strong> un Alineami<strong>en</strong>to Temporal a través <strong>de</strong>algoritmos <strong>de</strong> Programación Dinámica, técnicas DTW [5].Posteriorm<strong>en</strong>te se recurrió a la mayor flexibilidad que <strong>el</strong>mo<strong>d<strong>el</strong></strong>ado <strong>de</strong> procesos estocásticos permite para repres<strong>en</strong>tarsecu<strong>en</strong>cias <strong>de</strong> duración variable. Concretam<strong>en</strong>te laalternativa a las técnicas DTW fueron los Mo<strong>d<strong>el</strong></strong>os Ocultos<strong>de</strong> Markov [6], (HMM), que pued<strong>en</strong> verse como unag<strong>en</strong>eralización <strong>de</strong> algoritmos DTW y han <strong>de</strong>mostradomejores prestaciones <strong>en</strong> multitud <strong>de</strong> sistemas <strong>de</strong>reconocimi<strong>en</strong>to. También hay que m<strong>en</strong>cionar que,reci<strong>en</strong>tem<strong>en</strong>te, la pot<strong>en</strong>cia y exc<strong>el</strong><strong>en</strong>tes capacida<strong>de</strong>s <strong>de</strong>clasificación mostradas por las d<strong>en</strong>ominadas Re<strong>de</strong>sNeuronales Artificiales (RN) las sitúa como posiblealternativa fr<strong>en</strong>te a los HMM [7]. Hasta <strong>el</strong> mom<strong>en</strong>to lasRe<strong>de</strong>s Neuronales han permitido obt<strong>en</strong>er los mejoresresultados <strong>en</strong> Reconocimi<strong>en</strong>to <strong>de</strong> Locutores, sin embargo <strong>en</strong>Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla <strong>en</strong>cu<strong>en</strong>tran como mayordificultad la forma <strong>de</strong> afrontar la variabilidad temporal <strong>d<strong>el</strong></strong>habla.Más a<strong>d<strong>el</strong></strong>ante se explicaran con <strong>de</strong>t<strong>en</strong>imi<strong>en</strong>to estos métodos.C. Mo<strong>d<strong>el</strong></strong>ado <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong> estilo <strong>de</strong> hablaSe distingu<strong>en</strong> tres modos fundam<strong>en</strong>tales <strong>de</strong> hablar fr<strong>en</strong>te aun sistema <strong>de</strong> reconocimi<strong>en</strong>to:Palabras aisladasSupone que <strong>el</strong> usuario pronuncia una sola palabra ocomando que <strong>el</strong> sistema <strong>de</strong>berá reconocer.Habla conectadaEl usuario pronuncia <strong>de</strong> forma fluida un m<strong>en</strong>saje utilizandoun vocabulario muy restringido; <strong>el</strong> ejemplo más típico seríala pronunciación <strong>de</strong> un número t<strong>el</strong>efónico.Habla continuaCorrespon<strong>de</strong> al modo más avanzado <strong>de</strong> funcionami<strong>en</strong>to <strong>de</strong>un reconocedor, y supone la pronunciación <strong>de</strong> frases <strong>de</strong>forma natural para un vocabulario amplio <strong>de</strong> palabras.A<strong>de</strong>más <strong>de</strong> los tres modos fundam<strong>en</strong>tales anteriores, losreconocedores <strong>de</strong> <strong>voz</strong> ti<strong>en</strong><strong>en</strong> que afrontar, para un mo<strong>d<strong>el</strong></strong>adorobusto <strong>d<strong>el</strong></strong> habla, los tres aspectos sigui<strong>en</strong>tes:1) Reconocimi<strong>en</strong>to <strong>en</strong> contexto o "word spotting"Técnica especialm<strong>en</strong>te utilizada <strong>en</strong> reconocimi<strong>en</strong>to <strong>de</strong>palabras aisladas, <strong>en</strong>caminada a <strong>de</strong>tectar la pres<strong>en</strong>cia <strong>de</strong>palabras <strong>d<strong>el</strong></strong> vocabulario a reconocer <strong>en</strong> <strong>el</strong> contexto <strong>de</strong> otraspalabras o pronunciaciones. La mayoría <strong>de</strong> las veces <strong>el</strong>contexto es resultado <strong>de</strong> la dificultad que <strong>en</strong>cu<strong>en</strong>tra <strong>el</strong>usuario para ceñirse a la pronunciación <strong>de</strong> una única palabraaislada. En otras ocasiones, <strong>el</strong> reconocimi<strong>en</strong>to <strong>en</strong> contextoes la solución apropiada para robustecer <strong>el</strong> reconocimi<strong>en</strong>to<strong>en</strong> ambi<strong>en</strong>tes acústicam<strong>en</strong>te hostiles; por ejemplo, cuandola palabra que pronuncia <strong>el</strong> usuario vi<strong>en</strong>e acompañada <strong>de</strong>ruidos t<strong>el</strong>efónicos, urbanos, etc. En cualquier caso, se trata<strong>de</strong> una técnica importante para robustecer los sistemas <strong>en</strong>aplicaciones reales.2) RechazoOtro efecto <strong>de</strong> la pres<strong>en</strong>cia <strong>de</strong> sonidos in<strong>de</strong>seados (ruidos,sonidos o palabras fuera <strong>d<strong>el</strong></strong> vocabulario), es provocar <strong>el</strong>reconocimi<strong>en</strong>to <strong>de</strong> palabras que realm<strong>en</strong>te no han sidopronunciadas. Los procedimi<strong>en</strong>tos conocidos como técnicas<strong>de</strong> rechazo ti<strong>en</strong><strong>en</strong> como objetivo permitir incluir <strong>en</strong>tre losresultados <strong>de</strong> reconocimi<strong>en</strong>to la id<strong>en</strong>tificación <strong>de</strong> esossonidos in<strong>de</strong>seados. Nos <strong>en</strong>contramos ante un problema <strong>de</strong>gran importancia <strong>de</strong> cara a la operatividad <strong>de</strong> un sistema <strong>de</strong>reconocimi<strong>en</strong>to, que aún hoy por hoy no cu<strong>en</strong>ta con unaclara solución.3) Múltiples candidatosEl proceso <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> patrones que realiza unreconocedor se basa <strong>en</strong> id<strong>en</strong>tificar <strong>el</strong> patrón que ofrezca lapuntuación más alta para <strong>de</strong>cidir cuál es la mejor palabra osecu<strong>en</strong>cia <strong>de</strong> palabras reconocida. Este proceso se basa <strong>en</strong>información exclusivam<strong>en</strong>te acústica, sin t<strong>en</strong>er <strong>en</strong>consi<strong>de</strong>ración otras posibles fu<strong>en</strong>tes <strong>de</strong> conocimi<strong>en</strong>to quepodrían utilizarse para completar las puntuaciones <strong>de</strong> lasdifer<strong>en</strong>tes palabras o secu<strong>en</strong>cias candidatas. En la mayoría<strong>de</strong> los casos, la aplicación <strong>en</strong> que se <strong>en</strong>cu<strong>en</strong>tra <strong>el</strong>reconocedor es la que posee la información necesaria quepermitiría s<strong>el</strong>eccionar <strong>en</strong>tre varias hipótesis <strong>de</strong>reconocimi<strong>en</strong>to. P<strong>en</strong>semos, por ejemplo, <strong>en</strong> una aplicaciónbasada <strong>en</strong> <strong>el</strong> reconocimi<strong>en</strong>to <strong>de</strong> números t<strong>el</strong>efónicos; <strong>en</strong> esasituación, ante las dos hipótesis mejores <strong>de</strong> reconocimi<strong>en</strong>to,una compuesta <strong>de</strong> cinco dígitos y otra <strong>de</strong> siete, la aplicacións<strong>el</strong>eccionaría esta última in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te <strong>de</strong> quiénobtuviese la mayor puntuación "acústica" <strong>en</strong> <strong>el</strong> proceso <strong>de</strong>clasificación. Los procedimi<strong>en</strong>tos que permit<strong>en</strong> a unreconocedor disponer <strong>de</strong> la flexibilidad que supone manejarN hipótesis <strong>de</strong> reconocimi<strong>en</strong>to se d<strong>en</strong>ominan N-best [8].D. <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cia <strong>d<strong>el</strong></strong> locutorEl grado <strong>de</strong> <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cia <strong>d<strong>el</strong></strong> locutor <strong>de</strong>fine si <strong>el</strong> sistemaincorpora patrones <strong>de</strong> unida<strong>de</strong>s lingüísticas adaptados a unlocutor <strong>de</strong>terminado, y, por tanto, sólo funcionarácorrectam<strong>en</strong>te para él, o si los patrones pret<strong>en</strong>d<strong>en</strong> serválidos para cualquier hablante. En <strong>el</strong> primer caso se habla<strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong> locutor, mi<strong>en</strong>tras que <strong>en</strong><strong>el</strong> segundo <strong>de</strong> reconocimi<strong>en</strong>to in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong> locutor. Ap<strong>arte</strong> <strong>de</strong> las activida<strong>de</strong>s específicas que se <strong>de</strong>sarrollan parasistemas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes e in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>d<strong>el</strong></strong> locutor, existeun importante número <strong>de</strong> esfuerzos dirigidos a conseguir la


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005adaptación <strong>de</strong> un reconocedor a un locutor específico con lam<strong>en</strong>or cantidad <strong>de</strong> <strong>voz</strong> posible [9].E. <strong>de</strong>p<strong>en</strong>d<strong>en</strong>cia <strong>d<strong>el</strong></strong> vocabularioLas prestaciones <strong>de</strong> un reconocedor <strong>de</strong>p<strong>en</strong>d<strong>en</strong> fuertem<strong>en</strong>te<strong>d<strong>el</strong></strong> tamaño y grado <strong>de</strong> dificultad <strong>d<strong>el</strong></strong> vocabulario. Es <strong>de</strong>cir,<strong>d<strong>el</strong></strong> número <strong>de</strong> palabras que <strong>el</strong> sistema es capaz <strong>de</strong>reconocer, y <strong>de</strong> la mayor o m<strong>en</strong>or dificultad <strong>de</strong> sureconocimi<strong>en</strong>to <strong>en</strong> base a las r<strong>el</strong>aciones <strong>de</strong> similitudfonética <strong>en</strong>tre palabras. En la actualidad se diseñan sistemastanto para vocabularios pequeños (m<strong>en</strong>os <strong>de</strong> 50 palabras) ymedios (<strong>en</strong>tre 50 y 500 palabras), como para gran<strong>de</strong>svocabularios (más <strong>de</strong> 500 palabras), llegándose hasta50.000 palabras para aplicaciones <strong>de</strong> dictado o acceso abases <strong>de</strong> datos mediante l<strong>en</strong>guaje natural.Otra importante dim<strong>en</strong>sión, <strong>en</strong> r<strong>el</strong>ación con <strong>el</strong> vocabulario,es la que afecta a la distinción <strong>en</strong>tre vocabularios fijos yflexibles. Una <strong>de</strong>terminada aplicación, cuando estéreconoci<strong>en</strong>do, siempre actuará sobre un vocabulario fijo.Pero <strong>en</strong> muchos casos ese vocabulario <strong>de</strong>berá variarse oactualizarse para <strong>el</strong>iminar y/o dar cabida a nuevas palabras.Tradicionalm<strong>en</strong>te, una variación <strong>d<strong>el</strong></strong> vocabulario suponíacom<strong>en</strong>zar un largo y costoso proceso <strong>de</strong> recogida <strong>de</strong> unanueva base <strong>de</strong> datos y re-<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los patrones <strong>d<strong>el</strong></strong>sistema. En la actualidad hay diversas aproximaciones paraconseguir un sistema con vocabulario flexible, que nonecesite re-<strong>en</strong>tr<strong>en</strong>arse para cada nuevo vocabulario [10].F. gramáticas <strong>de</strong> reconocimi<strong>en</strong>toSegún aum<strong>en</strong>ta <strong>el</strong> número <strong>de</strong> palabras <strong>d<strong>el</strong></strong> vocabulario, <strong>el</strong>número <strong>de</strong> posibles combinaciones creceexpon<strong>en</strong>cialm<strong>en</strong>te. Por tanto, se hace imprescindible laincorporación <strong>de</strong> restricciones, <strong>en</strong> cuanto al número <strong>de</strong>combinaciones válidas, según la tarea <strong>en</strong> que se inserte <strong>el</strong>sistema. Restricciones que su<strong>el</strong><strong>en</strong> incorporarse <strong>en</strong> forma <strong>de</strong>gramáticas basadas <strong>en</strong> reglas sintácticas y/o semánticas<strong>de</strong>stinadas a reducir <strong>el</strong> número <strong>de</strong> palabras susceptibles <strong>de</strong>ser reconocidas <strong>en</strong> cada mom<strong>en</strong>to. La medida utilizada para<strong>de</strong>finir <strong>el</strong> grado <strong>de</strong> dificultad que supone una <strong>de</strong>terminadatarea es la d<strong>en</strong>ominada perplejidad [11], <strong>de</strong> modo que unniv<strong>el</strong> <strong>de</strong> perplejidad bajo supone que <strong>en</strong> cada mom<strong>en</strong>to <strong>el</strong>número <strong>de</strong> posibles palabras candidatas es bajo, mi<strong>en</strong>trasque una perplejidad alta supone que ese número es alto, yconsigui<strong>en</strong>tem<strong>en</strong>te <strong>el</strong> reconocimi<strong>en</strong>to será más difícil.V. TÉCNICAS DE DISEÑOSe van a estudiar a continuación cuatro técnicas distintasque se utilizan o se han utilizado para <strong>el</strong> diseño <strong>de</strong>reconocedores <strong>de</strong> habla. De ahora <strong>en</strong> a<strong>d<strong>el</strong></strong>ante se llamara"palabra" a la unidad básica <strong>en</strong> la que se base <strong>el</strong>reconocedor (<strong>en</strong> la realidad pued<strong>en</strong> ser sílabas, <strong>de</strong>misilabas,f<strong>en</strong>ones, morfemas, palabras, conjuntos <strong>de</strong> palabras etc.).Las técnicas son:Técnicas topológicas: Dynamic Time Warping (DTW),basado <strong>en</strong> <strong>el</strong> cálculo y comparación <strong>de</strong> distancias.Técnicas probabilísticas: Mo<strong>d<strong>el</strong></strong>os ocultos <strong>de</strong> Markov(HMM), que son mo<strong>d<strong>el</strong></strong>os g<strong>en</strong>erativos <strong>de</strong> las palabras <strong>d<strong>el</strong></strong>vocabulario.Re<strong>de</strong>s neuronales.Sistemas basados <strong>en</strong> <strong>el</strong> conocimi<strong>en</strong>to: reconocedores porreglas o sistemas expertos.En los cuatro casos se pue<strong>de</strong> hablar <strong>de</strong> una fase <strong>de</strong>"<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to" (cálculo <strong>de</strong> los patrones <strong>de</strong> refer<strong>en</strong>cia,cálculo <strong>de</strong> los parámetros <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os <strong>de</strong> Markov,<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> las re<strong>de</strong>s neuronales o creación <strong>de</strong>estructuras <strong>de</strong> datos para los sistemas expertos) y <strong>de</strong> otrafase <strong>de</strong> "reconocimi<strong>en</strong>to" propiam<strong>en</strong>te dicho. Y también <strong>en</strong>los cuatro casos <strong>el</strong> primer proceso necesario es la"parametrización" o transformación <strong>de</strong> la forma <strong>de</strong> onda <strong>d<strong>el</strong></strong>a señal <strong>en</strong>trante <strong>en</strong> un conjunto <strong>de</strong> parámetros ocaracterísticas a<strong>de</strong>cuadas a cada reconocedor.A.Dynamic Time WarpingLos reconocedores <strong>de</strong> habla basados <strong>en</strong> técnicas <strong>de</strong>Dynamic Time Warping (DTW) han sido los primeros quehan alcanzado un niv<strong>el</strong> <strong>de</strong> fiabilidad sufici<strong>en</strong>tem<strong>en</strong>te altocomo para dar lugar al <strong>de</strong>sarrollo <strong>de</strong> productos comerciales.Los sistemas <strong>de</strong> reconocimi<strong>en</strong>to basados <strong>en</strong> DTWfuncionan <strong>de</strong> la sigui<strong>en</strong>te manera: Primero se parametriza laseñal <strong>de</strong> <strong>voz</strong> a reconocer; para <strong>el</strong>lo se divi<strong>de</strong> <strong>en</strong> pequeñasv<strong>en</strong>tanas <strong>de</strong> análisis (unos 20 mseg), y sobre cada una <strong>de</strong>esas v<strong>en</strong>tanas se realiza un proceso <strong>de</strong> análisis que extrae unconjunto <strong>de</strong> parámetros (que pued<strong>en</strong> ser acústicos ocoefici<strong>en</strong>tes espectrales). Ese conjunto o vector <strong>de</strong>parámetros se pue<strong>de</strong> ver como un punto <strong>en</strong> un espacio n-dim<strong>en</strong>sional. El conjunto <strong>de</strong> todas las v<strong>en</strong>tanas <strong>de</strong> análisisse convertirá así <strong>en</strong> una secu<strong>en</strong>cia <strong>de</strong> puntos <strong>en</strong> ese espacio,y esa secu<strong>en</strong>cia <strong>de</strong> puntos es lo que se llama "patrón" o"plantilla".El sistema reconocedor dispone <strong>de</strong> un conjunto <strong>de</strong> patrones<strong>de</strong> "refer<strong>en</strong>cia" que se hayan calculado <strong>en</strong> la fase <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, y que repres<strong>en</strong>tan al conjunto <strong>de</strong> palabras<strong>d<strong>el</strong></strong> vocabulario que <strong>el</strong> sistema pue<strong>de</strong> reconocer. De estaforma, una vez obt<strong>en</strong>ida la plantilla <strong>de</strong> la palabra, la tarea<strong>d<strong>el</strong></strong> reconocedor consiste <strong>en</strong> compararla con todos lospatrones <strong>de</strong> refer<strong>en</strong>cia que <strong>el</strong> sistema ti<strong>en</strong>e, calculando la"distancia" que la separa <strong>de</strong> las refer<strong>en</strong>cias, y <strong>el</strong>egir comopalabra reconocida aqu<strong>el</strong>la cuya plantilla <strong>de</strong> refer<strong>en</strong>cia <strong>de</strong> lam<strong>en</strong>or distancia <strong>en</strong> la comparación.Normalm<strong>en</strong>te esas distancias se calcularían como la suma:Don<strong>de</strong> X es la plantilla <strong>de</strong> <strong>en</strong>trada, formada por m vectores<strong>de</strong> dim<strong>en</strong>sión n, e Y es la refer<strong>en</strong>cia, también formada porm vectores <strong>de</strong> dim<strong>en</strong>sión n.El problema surge cuando X e Y ti<strong>en</strong><strong>en</strong> distinto número <strong>de</strong>vectores (lo cual se <strong>de</strong>berá a la distinta duración <strong>de</strong> lapronunciación <strong>de</strong> las palabras X e Y): ¿Qué hacer con los


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005vectores que sobran <strong>d<strong>el</strong></strong> patrón más largo?. Las técnicas <strong>de</strong>programación dinámica resu<strong>el</strong>v<strong>en</strong> este problema: si X ti<strong>en</strong>em2 vectores e Y ti<strong>en</strong>e m2 vectores, lo que se hace es"<strong>de</strong>formar" <strong>el</strong> eje <strong>de</strong> tiempos, estirándolo o <strong>en</strong>cogiéndolo avoluntad para alinear ambos patrones <strong>de</strong> forma que vectoresque repres<strong>en</strong>t<strong>en</strong> sonidos iguales (o lo más parecidosposible) qued<strong>en</strong> <strong>en</strong>fr<strong>en</strong>tados a la hora <strong>de</strong> calcular lasdistancias. Así la distancia <strong>en</strong>tre las dos plantillas se calculasigui<strong>en</strong>do estos pasos:1) Se calcula la matriz <strong>de</strong> distancias locales d(i,j) <strong>en</strong>trecada vector i <strong>d<strong>el</strong></strong> patrón <strong>de</strong> <strong>en</strong>trada X y cada vector j <strong>d<strong>el</strong></strong><strong>de</strong> refer<strong>en</strong>cia Y, obt<strong>en</strong>i<strong>en</strong>do una matriz <strong>de</strong> dim<strong>en</strong>siones[ml x m2].2) Se calcula la matriz <strong>de</strong> distancias acumuladas g(i,j),utilizando las distancias locales d(i,j) según la formularecursiva:3) g(i,j) = d(i,j) t mintg(i-l,j), g(i- I ,j- I ), g(i,j-l)4) Es <strong>de</strong>cir, la distancia acumulada <strong>en</strong>tre dosvectores es la suma <strong>en</strong>tre su distancia local yla distancia acumulada mínima <strong>de</strong> los puntosvecinos anteriores <strong>en</strong> <strong>el</strong> tiempo.5) La distancia total <strong>en</strong>tre X e Y es la distanciaacumulada <strong>en</strong>tre los últimos vectores <strong>de</strong>ambas plantillas: g(m1,m2). La figura 2muestra como podría quedar la alineación<strong>en</strong>tre dos patrones <strong>de</strong> longitu<strong>de</strong>s m1 y m2.Figura 2: Alineami<strong>en</strong>to temporal <strong>en</strong>tre la "Refer<strong>en</strong>cia" y la"Palabra a reconocerEl algoritmo que se acaba <strong>de</strong> <strong>de</strong>scribir es una versión muysimple df DTW.Esta técnica ha sido la primera que ha permitido sacarproductos a mercado, por las tasas <strong>de</strong> reconocimi<strong>en</strong>to tan<strong>el</strong>evadas que produce (por <strong>en</strong>cima <strong>d<strong>el</strong></strong> 98%, según laliteratura). Hoy <strong>en</strong> día se ha abandonado, <strong>de</strong>jando paso aotras más mo<strong>de</strong>rnas que, con tasas <strong>de</strong> error equival<strong>en</strong>tes,precisan m<strong>en</strong>or volum<strong>en</strong> <strong>de</strong> cómputo <strong>en</strong> la tarea <strong>de</strong> reconocimi<strong>en</strong>to, y m<strong>en</strong>or necesidad <strong>de</strong> memoria.B. Mo<strong>d<strong>el</strong></strong>os ocultos <strong>de</strong> MarkovOtro <strong>en</strong>foque alternativo al <strong>de</strong> medir distancias <strong>en</strong>trepatrones (<strong>en</strong>foque topográfico) es <strong>el</strong> <strong>de</strong> adoptar un mo<strong>d<strong>el</strong></strong>oestadístico (paramétrico) para cada una <strong>de</strong> las palabras <strong>d<strong>el</strong></strong>vocabulario <strong>de</strong> reconocimi<strong>en</strong>to, como son los mo<strong>d<strong>el</strong></strong>osocultos <strong>de</strong> Markov (HMM, <strong>d<strong>el</strong></strong> ingles 'Hid<strong>de</strong>r MarkovMo<strong>d<strong>el</strong></strong>s') [12].Estos sistemas han sido posteriores <strong>en</strong> <strong>el</strong> tiempo, y hoy díala mayoría <strong>de</strong> los reconocedores <strong>en</strong> funcionami<strong>en</strong>to sebasan <strong>en</strong> esta técnica estadística, ya que aunque susprestaciones son similares a las <strong>de</strong> loa sistemas basados <strong>en</strong>DTW, requier<strong>en</strong> m<strong>en</strong>os memoria física y ofrec<strong>en</strong> un mejortiempo <strong>de</strong> respuesta. Ti<strong>en</strong><strong>en</strong> como contrapartida una fase <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to mucho más l<strong>en</strong>ta y costosa, pero como estatarea se realiza una única vez, y se lleva a cabo <strong>en</strong> loslaboratorios. Es un precio que parece valer la p<strong>en</strong>a pagar.Un HMM se pue<strong>de</strong> ver como una máquina <strong>de</strong> estadosfinitos <strong>en</strong> que <strong>el</strong> sigui<strong>en</strong>te estado <strong>de</strong>p<strong>en</strong><strong>de</strong> únicam<strong>en</strong>te <strong>d<strong>el</strong></strong>estado actual, y asociado a cada transición <strong>en</strong>tre estados seproduce un vector <strong>de</strong> observaciones o parámetros(correspondi<strong>en</strong>te a un punto <strong>d<strong>el</strong></strong> espacio n-dim<strong>en</strong>sional <strong>d<strong>el</strong></strong>que se hablaba <strong>en</strong> <strong>el</strong> apartado anterior). Se pue<strong>de</strong> así <strong>de</strong>cirque un mo<strong>d<strong>el</strong></strong>o <strong>de</strong> Markov lleva asociados dos procesos:uno oculto (no observable directam<strong>en</strong>te) correspondi<strong>en</strong>te alas transiciones <strong>en</strong>tre estados, y otro observable (ydirectam<strong>en</strong>te r<strong>el</strong>acionado con <strong>el</strong> primero), cuyasrealizaciones son los vectores <strong>de</strong> parámetros que seproduc<strong>en</strong> <strong>de</strong>s<strong>de</strong> cada estado y que forman la plantilla areconocer.Para aplicar la teoría <strong>de</strong> los HMM <strong>en</strong> reconocimi<strong>en</strong>to <strong>de</strong><strong>voz</strong>, se repres<strong>en</strong>ta cada palabra <strong>d<strong>el</strong></strong> vocabulario <strong>d<strong>el</strong></strong>reconocedor con un mo<strong>d<strong>el</strong></strong>o g<strong>en</strong>erativo (que se calculara <strong>en</strong>la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to) y posteriorm<strong>en</strong>te, se calcula laprobabilidad <strong>de</strong> que la palabra a reconocer haya sidoproducida por cada uno <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os <strong>de</strong> la base <strong>de</strong> datos<strong>d<strong>el</strong></strong> reconocedor. Para <strong>el</strong>lo, se asume que durante lapronunciación <strong>de</strong> una palabra, <strong>el</strong> aparato fonador pue<strong>de</strong>adoptar sólo un número(finito <strong>de</strong> configuracionesarticulatorias (o estados), y que <strong>de</strong>s<strong>de</strong> cada uno <strong>de</strong> esosestados se produc<strong>en</strong> uno o. varios vectores <strong>de</strong> observación(puntos <strong>de</strong> la plantilla), cuyas características espectrales<strong>de</strong>p<strong>en</strong><strong>de</strong>rán (probabilisticam<strong>en</strong>te) <strong>d<strong>el</strong></strong> estado <strong>en</strong> <strong>el</strong> que sehayan g<strong>en</strong>erado Así vista la g<strong>en</strong>eración <strong>de</strong> la palabra, lascaracterísticas espectrales <strong>de</strong> cada fragm<strong>en</strong>to <strong>de</strong> señal<strong>de</strong>p<strong>en</strong>d<strong>en</strong> <strong>d<strong>el</strong></strong> estado activo <strong>en</strong> cada instante, y la evolución<strong>d<strong>el</strong></strong> espectro <strong>de</strong> la señal durante la pronunciación <strong>de</strong> unapalabra <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la ley <strong>de</strong> transición <strong>en</strong>tre estados.La repres<strong>en</strong>tación más usual <strong>de</strong> un HMM es la utilizadapara máquinas <strong>de</strong> estados finitos, es <strong>de</strong>cir, conjuntos d<strong>en</strong>odos (que repres<strong>en</strong>tar a los estados) y arcos (transicionespermitidas <strong>en</strong>tre los estados). Un tipo <strong>de</strong> HMMsespecialm<strong>en</strong>te apropiado para reconocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> sonlos mo<strong>d<strong>el</strong></strong>os "<strong>de</strong> izquierda a <strong>de</strong>recha"; mo<strong>d<strong>el</strong></strong>os <strong>en</strong> los queuna vez que se ha abandonado un estado, ya no se pue<strong>de</strong>volver a él. La figura 3 repres<strong>en</strong>ta un mo<strong>d<strong>el</strong></strong>o con 'n' estados<strong>en</strong> <strong>el</strong> que <strong>de</strong>s<strong>de</strong> cada estado sólo se permit<strong>en</strong> tres tipos <strong>de</strong>transición: al propio estado, al estado vecino y a dos estadosmás allá (este tipo <strong>de</strong> saltos que da recogido <strong>en</strong> una matriz<strong>de</strong> transiciones tridiagonal).


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005Figura 3:Mo<strong>d<strong>el</strong></strong>o <strong>de</strong> Markov con 'n' estadosEn cuanto a la g<strong>en</strong>eración <strong>de</strong> puntos <strong>de</strong> la plantilla, <strong>en</strong> estosmo<strong>d<strong>el</strong></strong>os se asume que <strong>el</strong> primer vector <strong>de</strong> observaciones seproduce <strong>de</strong>s<strong>de</strong> <strong>el</strong> primer estado, y <strong>el</strong> último se emite <strong>de</strong>s<strong>de</strong><strong>el</strong> último estado. Recuér<strong>de</strong>se que la secu<strong>en</strong>cia <strong>de</strong> estados esla p<strong>arte</strong> oculta <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o: se conoc<strong>en</strong> los vectores <strong>de</strong>parámetros, pero no <strong>de</strong>s<strong>de</strong> que estado se han producido.1). <strong>de</strong>finición formal <strong>de</strong> un hmmUn mo<strong>d<strong>el</strong></strong>o M vi<strong>en</strong>e <strong>de</strong>terminado por los sigui<strong>en</strong>tesparámetros:a) N- Número <strong>de</strong> estados <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o.b) Matriz <strong>de</strong> transiciones, <strong>de</strong> dim<strong>en</strong>sión (N x N). Define laestructura <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o: cada uno <strong>de</strong> sus <strong>el</strong>em<strong>en</strong>tos, aij,<strong>de</strong>fine la probabilidad <strong>de</strong> pasar <strong>d<strong>el</strong></strong> estado i al estado j.Normalm<strong>en</strong>te A será bidiagonal o tridiagonal,significando que <strong>de</strong>s<strong>de</strong> cada estado se pued<strong>en</strong> producirdos o tres tipos distintos <strong>de</strong> transición.c) Conjunto <strong>de</strong> funciones <strong>de</strong> d<strong>en</strong>sidad <strong>de</strong> probabilidad(fdp) que mo<strong>d<strong>el</strong></strong>an estadísticam<strong>en</strong>te las observacionesproducidas <strong>de</strong>s<strong>de</strong> cada estado. Habrá pues tantas fdpscomo estados.d) P- Vector <strong>de</strong> dim<strong>en</strong>sión N. Cada uno <strong>de</strong> sus <strong>el</strong>em<strong>en</strong>tos,Pi indica la probabilidad <strong>de</strong> <strong>en</strong>contrarse inicialm<strong>en</strong>te <strong>en</strong><strong>el</strong> estado i. Para mo<strong>d<strong>el</strong></strong>os <strong>de</strong> izquierda a <strong>de</strong>recha, Pl = I,y Pj=0 para los <strong>de</strong>más estados.Como <strong>en</strong> <strong>el</strong> caso <strong>de</strong> DTW, la señal <strong>de</strong> <strong>voz</strong> vi<strong>en</strong>erepres<strong>en</strong>tada por una plantilla o secu<strong>en</strong>cia <strong>de</strong> vectores <strong>de</strong>características O=[Og, O2,...OT}, don<strong>de</strong> cada Oj es unconjunto <strong>de</strong> parámetros (coefici<strong>en</strong>tes LPC, Cepstrum, logarearatios...) que caracteriza la señal <strong>de</strong> <strong>voz</strong> <strong>en</strong> una v<strong>en</strong>tana<strong>de</strong> tiempo c<strong>en</strong>trada <strong>en</strong> t= i, y T es <strong>el</strong> número total <strong>de</strong> puntos<strong>de</strong> la plantilla. Los mo<strong>d<strong>el</strong></strong>os HMM basados <strong>en</strong> este tipo dobservaciones se llaman HMM continuos[26], y B será unconjunto <strong>de</strong> fdps continuas. Si, para simplificar las cosas, sehace pasar esa secu<strong>en</strong>cia <strong>de</strong> observaciones O = {° I,O2,...OT} a través <strong>de</strong> un cuantificador vectorial (<strong>en</strong> quecada vector <strong>de</strong> parámetros Oi es codificado como u número<strong>en</strong>tero [13]), la señal <strong>de</strong> <strong>voz</strong> quedara repres<strong>en</strong>tada por unasecu<strong>en</strong>cia <strong>de</strong> c<strong>en</strong>troi<strong>de</strong>s <strong>d<strong>el</strong></strong> cuantificador. Los HMMs quetrabajan sobre este tipo <strong>de</strong> datos se conoc<strong>en</strong> como HMMdiscretos, y B ser una matriz con tantas filas como estadost<strong>en</strong>ga <strong>el</strong> mo<strong>d<strong>el</strong></strong>o y tantas columnas como c<strong>en</strong>troi<strong>de</strong>s t<strong>en</strong>ga <strong>el</strong>codificador vectorial, <strong>en</strong> que cada <strong>el</strong>em<strong>en</strong>to bjk es laprobabilidad <strong>de</strong> que, estando <strong>en</strong> <strong>el</strong> estado i. s produzca <strong>el</strong>c<strong>en</strong>troi<strong>de</strong> k.2). reconocedor <strong>de</strong> palabras basado <strong>en</strong> hmmsUna vez <strong>de</strong>finido lo que es un mo<strong>d<strong>el</strong></strong>o <strong>de</strong> Markov, se<strong>de</strong>scribe a continuación como se aplica a un problema real:<strong>el</strong> <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> palabras (la metodología a usarsería la misma si se utilizas<strong>en</strong> otras unida<strong>de</strong>s acústicas:fonemas, <strong>de</strong>misilabas, frases cortas, etc.).El reconocedor dispondrá <strong>de</strong> un mo<strong>d<strong>el</strong></strong>o por cada palabra<strong>d<strong>el</strong></strong> vocabulario <strong>de</strong> reconocimi<strong>en</strong>to, y la estructura <strong>de</strong> esosmo<strong>d<strong>el</strong></strong>os se <strong>de</strong>fine <strong>en</strong> la fase <strong>de</strong> diseño: <strong>el</strong> número <strong>de</strong>estados (N) se <strong>el</strong>ige "a priori' según la complejidad que sepueda permitir y la calidad <strong>de</strong>seada. Valores típicos <strong>de</strong> Nson <strong>en</strong>tre 5 y 15 estados. Lo mismo ocurre con <strong>el</strong> tipo <strong>de</strong>transiciones: la matriz A t<strong>en</strong>drá sólo ciertas compon<strong>en</strong>tesdistintas <strong>de</strong> cero, y su número es un parámetro <strong>de</strong> diseño. Eltipo <strong>de</strong> funciones estadísticas que se utilizaran para mo<strong>d<strong>el</strong></strong>arlas probabilida<strong>de</strong>s <strong>de</strong> observación <strong>de</strong> los puntos <strong>de</strong> laplantilla <strong>de</strong>s<strong>de</strong> cada estado, también se fija antes <strong>de</strong> <strong>en</strong>trar<strong>en</strong> la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os. Su<strong>el</strong><strong>en</strong> sergaussianas multivariables, combinaciones lineales <strong>de</strong>gaussianas multivariables, funciones gamma, etc.Una vez fija la estructura <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os se lanza la fase <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, con <strong>el</strong> fin <strong>de</strong> calcular los valores óptimos <strong>de</strong>todos los parámetros que se han m<strong>en</strong>cionado. Para <strong>el</strong>lo, seusa un cierto número <strong>de</strong> repeticiones <strong>de</strong> cada palabra <strong>d<strong>el</strong></strong>vocabulario, que <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>d<strong>el</strong></strong> tipo <strong>de</strong> reconocedor que sequiera construir (<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te o in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>d<strong>el</strong></strong> locutor),<strong>de</strong> las prestaciones esperadas <strong>d<strong>el</strong></strong> sistema y <strong>d<strong>el</strong></strong> tipo <strong>de</strong>unida<strong>de</strong>s que form<strong>en</strong> <strong>el</strong> vocabulario. Se pue<strong>de</strong> <strong>de</strong>cir que es<strong>en</strong>úmero <strong>de</strong> repeticiones varia <strong>en</strong>tre 4 o 5 y unos cuantosc<strong>en</strong>t<strong>en</strong>ares, lo que da i<strong>de</strong>a <strong>d<strong>el</strong></strong> volum<strong>en</strong> <strong>de</strong> datos y <strong>de</strong>cálculos necesario. D<strong>el</strong> análisis <strong>de</strong> todas esas repeticionessaldrá <strong>el</strong> conjunto <strong>de</strong> parámetros que <strong>de</strong>fine cada mo<strong>d<strong>el</strong></strong>o <strong>de</strong>Markov, y que formara la base <strong>de</strong> datos <strong>d<strong>el</strong></strong> reconocedor.En los sigui<strong>en</strong>tes apartados, se explica como calcular losparámetros <strong>de</strong> cada mo<strong>d<strong>el</strong></strong>o (<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to) y comocalcular la probabilidad P(0/M) <strong>de</strong> que una secu<strong>en</strong>cia [Ot]<strong>de</strong> observaciones correspondi<strong>en</strong>tes a alguna palabra<strong>de</strong>sconocida haya sido producida por cada uno <strong>de</strong> losmo<strong>d<strong>el</strong></strong>os <strong>de</strong> la base <strong>de</strong> datos (reconocimi<strong>en</strong>to propiam<strong>en</strong>tedicho)[14].3). <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> un hmmYa se ha dicho que un mo<strong>d<strong>el</strong></strong>o M <strong>de</strong> Markov queda <strong>de</strong>finidopor tres matrices: A, B y P. Los mo<strong>d<strong>el</strong></strong>os que se utilizan <strong>en</strong><strong>el</strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla (los d<strong>en</strong>ominados "<strong>de</strong>izquierda a <strong>de</strong>recha")[27] ti<strong>en</strong><strong>en</strong> un vector P fijo (=(1,0,0,...0)), por lo que no es preciso reestimar suscompon<strong>en</strong>tes.


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005Para simplificar las cosas, supóngase que cada repetición <strong>de</strong>una palabra produce una secu<strong>en</strong>cia <strong>de</strong> vectores <strong>de</strong>características O(j)= {O1,O2,...0T}, y que se dispone <strong>de</strong> kpronunciaciones <strong>de</strong> cada palabra [O( 1).. .O(k)}.Entr<strong>en</strong>ar <strong>el</strong> mo<strong>d<strong>el</strong></strong>o es calcular los valores ajj y bj (0t) <strong>de</strong>ese mo<strong>d<strong>el</strong></strong>o usando las k secu<strong>en</strong>cias <strong>de</strong> observacionesO(1),O(2).. F0(k) correspondi<strong>en</strong>tes a las k repeticiones <strong>de</strong> lapalabra a mo<strong>d<strong>el</strong></strong>ar, y <strong>de</strong> forma que la probabilidad <strong>de</strong> que <strong>el</strong>mo<strong>d<strong>el</strong></strong>o calculado haya producido esas k secu<strong>en</strong>cias seamáxima. El procedimi<strong>en</strong>to que se sigue para <strong>en</strong>tr<strong>en</strong>a losmo<strong>d<strong>el</strong></strong>os se indica <strong>en</strong> <strong>el</strong> diagrama <strong>de</strong> bloques <strong>de</strong> la figura 4:usando las k repeticiones <strong>de</strong> la palabra, se g<strong>en</strong>era un mo<strong>d<strong>el</strong></strong>oinicial segm<strong>en</strong>tando uniformem<strong>en</strong>te todas las plantillas<strong>en</strong>tre los estados <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o, y extray<strong>en</strong>do unos estadísticos<strong>de</strong> esa primera segm<strong>en</strong>tación se calculan los parámetros <strong>de</strong>un mo<strong>d<strong>el</strong></strong>o inicial que será utilizado para una nuevasegm<strong>en</strong>tación, y así sucesivam<strong>en</strong>te hasta que se consi<strong>de</strong>reque <strong>el</strong> mo<strong>d<strong>el</strong></strong>o es sufici<strong>en</strong>tem<strong>en</strong>te bu<strong>en</strong>o.Una vez disponible esa segm<strong>en</strong>tación para las krepeticiones <strong>de</strong> la palabra que se quiere mo<strong>d<strong>el</strong></strong>ar, las reestimaciones<strong>de</strong> los parámetros <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o correspondi<strong>en</strong>tese hac<strong>en</strong> según las formulas:Para la matriz B, <strong>en</strong> <strong>el</strong> caso <strong>de</strong> HMM continuos (funciones<strong>de</strong> d<strong>en</strong>sidad <strong>de</strong> probabilidad continuas: gaussianas, porejemplo), los vectores <strong>de</strong> medias i y <strong>de</strong> varianzas i paracada estado i, se calculan promediando los vectores <strong>de</strong>observaciones Oj asignados al estado:Figura 4: Entr<strong>en</strong>ami<strong>en</strong>to HMMsEl algoritmo <strong>de</strong> Viterbi estima (usando <strong>el</strong> criterio <strong>de</strong>maximización a posteriori <strong>de</strong> P(0/M)) la secu<strong>en</strong>cia másprobable <strong>de</strong> estados durante la producción <strong>de</strong> la palabra, yla probabilidad final para esa secu<strong>en</strong>cia <strong>de</strong> estados. Así, sise aplica Viterbi a cada una <strong>de</strong> las repeticiones <strong>de</strong> lapalabra, se obti<strong>en</strong>e (usando las secu<strong>en</strong>cias <strong>de</strong> estados) unapartición <strong>de</strong> las observaciones, y se sabe <strong>de</strong>s<strong>de</strong> que estadose ha producido cada una <strong>de</strong> <strong>el</strong>las. Con estos datos, serecalculan los parámetros <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o tal y como se indica<strong>en</strong> <strong>el</strong> sigui<strong>en</strong>te ejemplo:Supóngase que la secu<strong>en</strong>cia <strong>de</strong> estados para lapronunciación <strong>de</strong> una palabra <strong>de</strong>terminada es:Esto es, <strong>de</strong>spués <strong>de</strong> la segm<strong>en</strong>tación a cada estado se leasigna una partición <strong>d<strong>el</strong></strong> conjunto <strong>de</strong> las observaciones <strong>d<strong>el</strong></strong>as k repeticiones <strong>de</strong> la palabra; <strong>el</strong> valor medio <strong>de</strong> losvectores asignados al estado i será ,i, y la varianza serái, calculada utilizando las difer<strong>en</strong>cias <strong>en</strong>tre <strong>el</strong> vector <strong>de</strong>medias y todas las observaciones asignadas al estado.A continuación se <strong>de</strong>scribe <strong>el</strong> algoritmo <strong>de</strong> Viterbi.4). Algoritmo <strong>de</strong> ViterbiEste algoritmo [14], aplicado <strong>en</strong> reconocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> seutiliza para <strong>en</strong>contrar la secu<strong>en</strong>cia <strong>de</strong> estados optimaasociada a una secu<strong>en</strong>cia <strong>de</strong> observaciones dada. Se basa, aligual que <strong>el</strong> algoritmo <strong>de</strong> Dynamic Time Warping <strong>en</strong> lastécnicas <strong>de</strong> programación dinámica, y su formulación es:Para <strong>en</strong>contrar la mejor secu<strong>en</strong>cia <strong>de</strong> estados Q asociada ala secu<strong>en</strong>cia <strong>de</strong> vectores <strong>de</strong> observación O dados por losvectores:Se <strong>de</strong>fine <strong>el</strong> conjunto <strong>de</strong> probabilida<strong>de</strong>s acumuladas:Si<strong>en</strong>do:nj = n° <strong>de</strong> veces que se ha visitado <strong>el</strong> estado i = n° <strong>de</strong>observaciones producidas <strong>de</strong>s<strong>de</strong> <strong>el</strong> estado i.Es <strong>de</strong>cir, las nI primeras observaciones <strong>de</strong> la palabra seasignan al estado 1, las observaciones numeradas <strong>de</strong> nI + 1a n1+n2 al estado 2, y así sucesivam<strong>en</strong>te.Que son las probabilida<strong>de</strong>s <strong>de</strong> las secu<strong>en</strong>cias óptimas <strong>de</strong>estados hasta <strong>el</strong> instante "t" y que terminan <strong>en</strong> <strong>el</strong> estado i.Se pued<strong>en</strong> expresar también como:


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005El procedimi<strong>en</strong>to completo para <strong>en</strong>contrar la mejorsecu<strong>en</strong>cia <strong>de</strong> estados es:• Iniciación• Finalización• Obt<strong>en</strong>ción <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> estados5). etapa <strong>de</strong> reconocimi<strong>en</strong>toDada una secu<strong>en</strong>cia <strong>de</strong> observaciones O = (O1,O2,...Ot)l secalcula P(O/Mi), para I < i < Nw, si<strong>en</strong>do Nw <strong>el</strong> número <strong>de</strong>palabras <strong>d<strong>el</strong></strong> vocabulario, y se <strong>de</strong>ci<strong>de</strong> que O es la palabrarepres<strong>en</strong>tada por <strong>el</strong> mo<strong>d<strong>el</strong></strong>o Mi que produjo la máximaprobabilidad P(O/Mi). Esas probabilida<strong>de</strong>s se calcularantambién utilizando <strong>el</strong> algoritmo <strong>de</strong> Viterbi [15].6). inclusión <strong>de</strong> mo<strong>d<strong>el</strong></strong>os duracionalesExperim<strong>en</strong>talm<strong>en</strong>te se ha comprobado la utilidad <strong>de</strong>modificar las probabilida<strong>de</strong>s dadas por <strong>el</strong> algoritmo <strong>de</strong>Viterbi (P(O/M)) sumando otra cantidad directam<strong>en</strong>ter<strong>el</strong>acionada con la distribución temporal <strong>de</strong> la plantilla <strong>en</strong>tr<strong>el</strong>os estados <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o. Esta modificación se hace a modoposproceso, <strong>en</strong> <strong>el</strong> s<strong>en</strong>tido <strong>de</strong> que <strong>el</strong> algoritmo básico <strong>de</strong>reconocimi<strong>en</strong>to no se ve afectado, únicam<strong>en</strong>te la regla <strong>de</strong><strong>de</strong>cisión que <strong>de</strong>termina la palabra <strong>d<strong>el</strong></strong> vocabulario <strong>el</strong>egidacomo palabra reconocida. La justificación teórica <strong>de</strong> lainclusión <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os temporales se pue<strong>de</strong> <strong>en</strong>contrar <strong>en</strong>[16].Durante la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>d<strong>el</strong></strong>os, y una vezque se ha <strong>de</strong>terminado que esos mo<strong>d<strong>el</strong></strong>os sonsufici<strong>en</strong>tem<strong>en</strong>te bu<strong>en</strong>os, <strong>de</strong> la segm<strong>en</strong>tación <strong>de</strong> todas lasrepeticiones <strong>de</strong> una misma palabra dada por Viterbi sepued<strong>en</strong> sacar estadísticas <strong>de</strong> la distribución temporal <strong>de</strong> laspalabras <strong>en</strong>tre los estados <strong>d<strong>el</strong></strong> mo<strong>d<strong>el</strong></strong>o. Esas estadísticas (semo<strong>d<strong>el</strong></strong>ara <strong>el</strong> tiempo transcurrido <strong>en</strong> cada estado como unagaussiana <strong>de</strong> media yj y <strong>de</strong>sviación aj) se usaran <strong>en</strong> la etapa<strong>de</strong> reconocimi<strong>en</strong>to para modificar las probabilida<strong>de</strong>s dadaspor Viterbi, <strong>en</strong> <strong>el</strong> s<strong>en</strong>tido <strong>de</strong> favorecer al mo<strong>d<strong>el</strong></strong>o que mejorse ajuste a la distribución temporal <strong>de</strong> la palabra areconocer.En la práctica se ha visto que la mejora que supone <strong>el</strong> uso<strong>de</strong> este tipo <strong>de</strong> posproceso es quizás insufici<strong>en</strong>te parajustificar <strong>el</strong> increm<strong>en</strong>to <strong>de</strong> carga computacional y <strong>de</strong> tiempo<strong>de</strong> ejecución que conlleva, <strong>en</strong> especial si <strong>el</strong> sistemareconocedor utiliza un bloque <strong>de</strong>tector <strong>de</strong> extremos ytrabaja <strong>en</strong> ambi<strong>en</strong>tes "no limpios".C. Re<strong>de</strong>s neuronalesLos mo<strong>d<strong>el</strong></strong>os computacionales basados <strong>en</strong> re<strong>de</strong>s neuronalessurgieron hace ya r<strong>el</strong>ativam<strong>en</strong>te bastante tiempo, pero seabandono su estudio por no disponer <strong>de</strong> algoritmosefici<strong>en</strong>tes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Ahora ya no existe esadificultad, y se ha <strong>de</strong>mostrado ampliam<strong>en</strong>te su <strong>en</strong>ormepot<strong>en</strong>cia computacional.Los sistemas <strong>de</strong> reconocimi<strong>en</strong>to basados <strong>en</strong> re<strong>de</strong>sneuronales pret<strong>en</strong>d<strong>en</strong>, interconectando un conjunto <strong>de</strong>unida<strong>de</strong>s <strong>de</strong> proceso (o neuronas) <strong>en</strong> paral<strong>el</strong>o (<strong>de</strong> formasimilar que <strong>en</strong> la m<strong>en</strong>te humana), obt<strong>en</strong>er prestaciones <strong>de</strong>reconocimi<strong>en</strong>to similares a las humanas, tanto <strong>en</strong> tiempo <strong>de</strong>respuesta como <strong>en</strong> tasa <strong>de</strong> error. Esa forma <strong>de</strong> interconexión<strong>de</strong> las unida<strong>de</strong>s <strong>de</strong> proceso es especialm<strong>en</strong>te útil <strong>en</strong>aplicaciones que requier<strong>en</strong> una gran pot<strong>en</strong>cia <strong>de</strong> cálculopara evaluar varias hipótesis <strong>en</strong> paral<strong>el</strong>o, como suce<strong>de</strong> <strong>en</strong>los problemas <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong>.Las unida<strong>de</strong>s <strong>de</strong> proceso pued<strong>en</strong> ser <strong>de</strong> varios tipos; las mássimples (y utilizadas) dispon<strong>en</strong> <strong>de</strong> varias <strong>en</strong>tradas, y lasalida es <strong>el</strong> resultado <strong>de</strong> aplicar alguna transformación nolineal a la combinación lineal <strong>de</strong> todas las <strong>en</strong>tradas. Otrotipo <strong>de</strong> neuronas un poco más <strong>el</strong>aborado se caracteriza pordisponer <strong>de</strong> memoria; <strong>en</strong> <strong>el</strong>las la salida <strong>en</strong> cada mom<strong>en</strong>to<strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>en</strong>tradas anteriores <strong>en</strong> <strong>el</strong> tiempo.La forma <strong>en</strong> que las neuronas se conectan <strong>en</strong>tre si <strong>de</strong>fine latopología <strong>de</strong> la red, y se pue<strong>de</strong> <strong>de</strong>cir que <strong>el</strong> tipo <strong>de</strong>problemas que una red neuronal particular soluciona <strong>de</strong>forma efici<strong>en</strong>te, <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la topología <strong>de</strong> la red, <strong>d<strong>el</strong></strong> tipo<strong>de</strong> neuronas que la forman, y la forma concreta <strong>en</strong> que se<strong>en</strong>tr<strong>en</strong>a la red.Igual que se dijo para las técnicas anteriores, una red neural<strong>de</strong>be ser <strong>en</strong>tr<strong>en</strong>ada para resolver un tipo <strong>de</strong>terminado <strong>de</strong>problemas. El algoritmo particular <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> la estructura interna <strong>de</strong> las neuronas [17],pero, <strong>en</strong> cualquier caso, <strong>el</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se llevara a cabo apartir <strong>de</strong> una base <strong>de</strong> datos etiquetada, como sucedía con losmo<strong>d<strong>el</strong></strong>os <strong>de</strong> Markov, y será un proceso iterativo <strong>en</strong> <strong>el</strong> que semodifican los parámetros <strong>de</strong> la red para que ante unconjunto <strong>de</strong>terminado <strong>de</strong> estímulos (plantillas), produzcauna respuesta <strong>de</strong>terminada: la palabra <strong>d<strong>el</strong></strong> vocabulariorepres<strong>en</strong>tada por esas plantillasLa red neural que mejores resultados está dando hasta estemom<strong>en</strong>to <strong>en</strong> reconocimi<strong>en</strong>to automático <strong>d<strong>el</strong></strong> habla es lad<strong>en</strong>ominada "perceptrón multicapa". La figura 5 muestra sutopología: las neuronas se dispon<strong>en</strong> por "capas"; hay unacapa <strong>de</strong> <strong>en</strong>trada, que opera directam<strong>en</strong>te sobre los vectores<strong>de</strong> observación o puntos <strong>de</strong> las plantillas, una capa <strong>de</strong> salidaque apunta la palabra reconocida, y una o más capasintermedias. Cada capa está compuesta por varias unida<strong>de</strong>s<strong>de</strong> proceso, que se conectan con la sigui<strong>en</strong>te capa por unaserie <strong>de</strong> <strong>en</strong>laces a los que se da un cierto peso especificowij.


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005Figura 5: Neurona. Red NeuronalFigura 6: Red NeuronalEl conjunto <strong>de</strong> vectores <strong>de</strong> características <strong>en</strong>tra <strong>en</strong> la capa<strong>de</strong> neuronas <strong>de</strong> <strong>en</strong>trada, y posteriorm<strong>en</strong>te es propagado a lascapas sigui<strong>en</strong>tes. En cada célula <strong>de</strong> proceso se calcula lasuma pon<strong>de</strong>rada (por los pesos wij) <strong>de</strong> las señales <strong>de</strong><strong>en</strong>trada, y posteriorm<strong>en</strong>te se procesa <strong>en</strong> la neurona con susistema no lineal. Si <strong>el</strong> resultado <strong>de</strong> esta operación superaun cierto umbral, la neurona reacciona, transmiti<strong>en</strong>do señala las neuronas sigui<strong>en</strong>tes <strong>de</strong> la capa superior.En la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, dada una <strong>en</strong>trada conocida(p.ej. un conjunto <strong>de</strong> vectores que repres<strong>en</strong>ta <strong>el</strong> dígito 1), lasalida <strong>de</strong> la red es comparada con la salida esperada (yconocida <strong>de</strong> antemano), calculándose un error. Ese error sepropaga hacia abajo, ajustándose <strong>de</strong> esta manera los pesos<strong>de</strong> las conexiones <strong>en</strong>tre neuronas. Efectuándose esteproceso varias veces se consigue que la red "apr<strong>en</strong>da" querespuesta <strong>de</strong>be dar para cada <strong>en</strong>trada <strong>en</strong> la fase <strong>de</strong>reconocimi<strong>en</strong>to.D. Reconocimi<strong>en</strong>to basado <strong>en</strong> <strong>el</strong> conocimi<strong>en</strong>toLos métodos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong>scritos hasta ahorafuncionan bastante bi<strong>en</strong> cuando se trata <strong>de</strong> reconocerpalabras aisladas. Cuando <strong>el</strong> sistema <strong>de</strong>be reconocer fraseso habla continua, es necesario acudir a otras fu<strong>en</strong>tes <strong>de</strong>conocimi<strong>en</strong>to a<strong>de</strong>más <strong>de</strong> las puram<strong>en</strong>te matemáticas yacústicas. Estas son por lo g<strong>en</strong>eral reglas <strong>de</strong> tipo lingüístico,como se va a ver a continuación. Con este tipo <strong>de</strong> sistemasse llegara a t<strong>en</strong>er no solo un reconocedor <strong>de</strong> habla sino unsistema <strong>de</strong> "compr<strong>en</strong>sión" <strong>de</strong> habla.La razón por la que a estos sistemas avanzados <strong>de</strong>reconocimi<strong>en</strong>to se les llama Sistemas basados <strong>en</strong> <strong>el</strong>Conocimi<strong>en</strong>to, se <strong>de</strong>be al uso <strong>de</strong> otras fu<strong>en</strong>tes, otrasdisciplinas, otros conocimi<strong>en</strong>tos para llegar al<strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> la frase. En <strong>de</strong>finitiva lo que se trata esque una máquina llegue a t<strong>en</strong>er y utilizar los conocimi<strong>en</strong>tosque ti<strong>en</strong>e una persona humana, para <strong>en</strong>t<strong>en</strong><strong>de</strong>r un m<strong>en</strong>saje.1). Módulos básicos <strong>d<strong>el</strong></strong> sistema <strong>de</strong> reconocimi<strong>en</strong>toA continuación se <strong>de</strong>scrib<strong>en</strong> los distintos niv<strong>el</strong>es, o módulosbásicos <strong>en</strong> que se podría subdividir un Sistema <strong>de</strong>Reconocimi<strong>en</strong>to basado <strong>en</strong> <strong>el</strong> conocimi<strong>en</strong>to.a). Módulo <strong>de</strong> procesado acústicoEn este módulo se extra<strong>en</strong>, a partir <strong>de</strong> la forma <strong>de</strong> onda <strong>d<strong>el</strong></strong>a señal <strong>de</strong> <strong>voz</strong>, un conjunto <strong>de</strong> parámetros repres<strong>en</strong>tativos<strong>de</strong> la misma, que luego serán tratados <strong>en</strong> módulosposteriores. Para <strong>el</strong> cálculo <strong>de</strong> esos parámetros, se realiza unproceso <strong>de</strong> segm<strong>en</strong>tación <strong>de</strong> la señal <strong>de</strong> <strong>en</strong>trada <strong>en</strong> pequeñasv<strong>en</strong>tanas <strong>de</strong> análisis, y para cada una <strong>de</strong> las v<strong>en</strong>tanasresultantes se calcula ese conjunto <strong>de</strong> parámetros, quepued<strong>en</strong> ser <strong>de</strong>s<strong>de</strong> valores <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal,<strong>en</strong>ergía, d<strong>en</strong>sidad <strong>de</strong> cruces por cero y posición <strong>de</strong> losformantes, hasta otros parámetros que aport<strong>en</strong> informaciónútil para compr<strong>en</strong><strong>de</strong>r <strong>el</strong> s<strong>en</strong>tido <strong>de</strong> la frase, como lavariación <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal, la duración <strong>de</strong> losalófonos, etc[24].b). Módulo <strong>de</strong> análisis fonéticoCalcula, a partir <strong>de</strong> los parámetros obt<strong>en</strong>idos <strong>en</strong> <strong>el</strong> móduloanterior, la repres<strong>en</strong>tación fonética más probable (o <strong>el</strong>conjunto <strong>de</strong> las más probables) correspondi<strong>en</strong>te a la señal<strong>de</strong> <strong>voz</strong>. Esta transformación se basa <strong>en</strong> un proceso <strong>de</strong>etiquetado <strong>de</strong> los segm<strong>en</strong>tos <strong>de</strong> análisis <strong>en</strong> que se divi<strong>de</strong> lafrase pronunciada, asignando a cada tramo <strong>de</strong> <strong>voz</strong> una


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005unidad lingüística abstracta, como pued<strong>en</strong> ser los alófonos.La v<strong>en</strong>taja <strong>de</strong> utilizar estas unida<strong>de</strong>s para <strong>el</strong> sigui<strong>en</strong>tetratami<strong>en</strong>to es que <strong>el</strong> número <strong>de</strong> datos a manejar es muchom<strong>en</strong>or, y a<strong>de</strong>más, <strong>de</strong>bido a su naturaleza fonética, pres<strong>en</strong>tanuna correspond<strong>en</strong>cia bastante fuerte con la repres<strong>en</strong>taciónléxica.Este proceso se d<strong>en</strong>omina "categorización", y normalm<strong>en</strong>tese realiza <strong>de</strong> acuerdo con un conjunto <strong>de</strong> reglas <strong>de</strong>producción. Por ejemplo:IF < señal es cuasi_periódica .AND. frecu<strong>en</strong>cia <strong>d<strong>el</strong></strong> primerformante baja.AND. frecu<strong>en</strong>cia <strong>d<strong>el</strong></strong> segundo formante esalta>[18].THEN .c). Módulo <strong>de</strong> análisis fonológicoEl área <strong>de</strong> la fonología estudia la estructura o función <strong>de</strong> lossonidos d<strong>en</strong>tro <strong>d<strong>el</strong></strong> l<strong>en</strong>guaje. El conocimi<strong>en</strong>to fonológicopermite la adaptación <strong>de</strong> los datos obt<strong>en</strong>idos <strong>en</strong> los niv<strong>el</strong>esanteriores a una <strong>de</strong>terminada l<strong>en</strong>gua. Es necesario <strong>de</strong>finircuales son las unida<strong>de</strong>s fonológicas que van a serreconocidas <strong>en</strong> <strong>el</strong> Sistema <strong>de</strong> Reconocimi<strong>en</strong>to: pued<strong>en</strong> seralófonos, fonemas, difonemas, sílabas, palabras, etc. Estasunida<strong>de</strong>s abstractas <strong>d<strong>el</strong></strong> l<strong>en</strong>guaje son estudiadas porseparado y d<strong>en</strong>tro <strong>de</strong> una secu<strong>en</strong>cia para cada l<strong>en</strong>gua <strong>en</strong>concreto.Las reglas fonológicas aportan información <strong>de</strong> cómo variala pronunciación <strong>de</strong> los fonemas, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>d<strong>el</strong></strong> contexto.Con estas reglas se mejora o complem<strong>en</strong>ta la salida <strong>d<strong>el</strong></strong>Procesador Acústico-Fonético.Para la realización <strong>de</strong> estas reglas, y un ajuste correcto <strong>d<strong>el</strong></strong>os parámetros, es necesario t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta la Prosodia <strong>d<strong>el</strong></strong>a frase. Los valores <strong>de</strong> los parámetros obt<strong>en</strong>idos <strong>en</strong> <strong>el</strong>análisis acústico-fonético ayudaran a <strong>de</strong>terminar las sílabastónicas o átonas, si la frase es <strong>en</strong>unciativa o interrogativa,etc.d). Módulo <strong>de</strong> análisis morfológicoEs importante conocer, para cada l<strong>en</strong>guaje, las reglas <strong>de</strong>formación <strong>de</strong> las palabras a partir <strong>de</strong> los morfemas<strong>el</strong>em<strong>en</strong>tales. Esta es una <strong>de</strong> las facetas que estudia lamorfología. Por ejemplo, hay combinaciones <strong>de</strong> sonidos o<strong>de</strong> letras que están permitidas <strong>en</strong> unos l<strong>en</strong>guajes y <strong>en</strong> otrosno, por lo que es necesario conocer esas reglas <strong>de</strong>formación especificas. También hay reglas <strong>de</strong> formación <strong>de</strong>palabras a base <strong>de</strong> utilizar prefijos o sufijos. Ladisponibilidad <strong>de</strong> estas reglas, o incluso <strong>de</strong> un diccionario,ayudara a la <strong>de</strong>terminación <strong>de</strong> palabras d<strong>en</strong>tro <strong>de</strong> la cad<strong>en</strong>a<strong>de</strong> unida<strong>de</strong>s fonéticas que han salido <strong>d<strong>el</strong></strong> módulo acústicofonético.La sintaxis estudia como combinar las palabras paraconstruir frases <strong>de</strong> forma correcta <strong>en</strong> un <strong>de</strong>terminadol<strong>en</strong>guaje. En cada idioma existe una serie <strong>de</strong> reglas <strong>de</strong>concat<strong>en</strong>ación <strong>de</strong> palabras, constituy<strong>en</strong>do la Gramática <strong>d<strong>el</strong></strong>L<strong>en</strong>guaje.Un ejemplo <strong>de</strong> frase sintácticam<strong>en</strong>te correcta sería: "Elperro come la manzana". Un ejemplo <strong>de</strong> frasesintácticam<strong>en</strong>te incorrecta sería. "El come manzana perrola".Un sistema <strong>de</strong> reconocimi<strong>en</strong>to que conozca y aplique lasreglas <strong>de</strong> la sintaxis, ayudara bastante a <strong>de</strong>cidir unasecu<strong>en</strong>cia lógica <strong>de</strong> palabras, y <strong>en</strong> caso <strong>de</strong> dudas <strong>en</strong>tre losmódulos anteriores, <strong>el</strong>egirá aqu<strong>el</strong>la que sintácticam<strong>en</strong>te seacorrecta.Si un sistema <strong>de</strong>be reconocer una frase como "Los perroscorr<strong>en</strong> por <strong>el</strong> campo", ha podido t<strong>en</strong>er dudas si "perros" va<strong>en</strong> singular o plural, dado que la terminación <strong>de</strong> la palabraes difícil <strong>de</strong> reconocer por <strong>el</strong> sistema y quizás <strong>el</strong> locutor nola ha dicho muy bi<strong>en</strong> Sin embargo, si ha reconocido conbastante seguridad <strong>el</strong> artículo previo "Los", estarátotalm<strong>en</strong>te seguro que la palabra sigui<strong>en</strong>te es "perros".f). Módulo <strong>de</strong> análisis semánticoEl conocimi<strong>en</strong>to semántico está r<strong>el</strong>acionado con cómo se<strong>en</strong>cad<strong>en</strong>an las palabras para dar significado a una frase.Toma como partida <strong>el</strong> significado individual <strong>de</strong> laspalabras, para <strong>de</strong>ducir si una frase <strong>de</strong>terminada ti<strong>en</strong>e o nosignificado[19].Una frase correcta <strong>de</strong>s<strong>de</strong> <strong>el</strong> punto <strong>de</strong> vista semántico sería:"El pájaro está <strong>en</strong> <strong>el</strong> árbol". Sin embargo, la frase "El árbolestá <strong>en</strong> <strong>el</strong> pájaro" es semánticam<strong>en</strong>te incorrecta. Obsérveseque esta última frase es correcta sintácticam<strong>en</strong>te.En este módulo y los sigui<strong>en</strong>tes es don<strong>de</strong> empiezan losgraves problemas <strong>de</strong> reconocimi<strong>en</strong>to, ya que no se disponeaun <strong>de</strong> una forma efici<strong>en</strong>te <strong>de</strong> introducir este conocimi<strong>en</strong>to<strong>en</strong> las máquinas.Piénsese que hay muchas frases o palabras que ti<strong>en</strong><strong>en</strong>significado <strong>en</strong> un contexto y no lo ti<strong>en</strong><strong>en</strong> <strong>en</strong> otro, o lo ti<strong>en</strong><strong>en</strong>pero difer<strong>en</strong>te. Esto es mucho más acusado <strong>en</strong> <strong>el</strong> l<strong>en</strong>guajecoloquial. Si por ejemplo se dice la frase "El pájaro estabaley<strong>en</strong>do un libro", a nadie se le pue<strong>de</strong> ocurrir que un pájaropueda leer. Sin embargo si "El pájaro" es una d<strong>en</strong>ominaciónpeyorativa <strong>de</strong> una persona, si que t<strong>en</strong>dría s<strong>en</strong>tido. ¿Cómopue<strong>de</strong> distinguir una máquina una opción <strong>de</strong> la otra?g). Módulo <strong>de</strong> análisis pragmáticoEl niv<strong>el</strong> <strong>de</strong> conocimi<strong>en</strong>to pragmático está r<strong>el</strong>acionado con<strong>el</strong> contexto don<strong>de</strong> se están <strong>de</strong>sarrollando las i<strong>de</strong>as.Las reglas morfológicas ayudan también a la categorizacióngramatical <strong>de</strong> las palabras, lo que podrá ser usado por otrosmódulos.e). Módulo <strong>de</strong> análisis sintácticoSi se hubiera <strong>en</strong>cabezado este artículo con la frase " Lalluvia <strong>en</strong> Sevilla es una maravilla", nadie sabría la r<strong>el</strong>acióncon <strong>el</strong> cont<strong>en</strong>ido <strong>d<strong>el</strong></strong> artículo. Sin embargo una frase como"El hablar con los ord<strong>en</strong>adores es un su<strong>en</strong>o que algún día sehará realidad", está r<strong>el</strong>acionada con <strong>el</strong> tema <strong>d<strong>el</strong></strong> que luego sehabla. La primera ti<strong>en</strong>e un cont<strong>en</strong>ido sintáctico y semántico


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005correctos, pero pragmáticam<strong>en</strong>te está fuera <strong>de</strong> contexto. Noasí la segunda. La utilización <strong>de</strong> este conocimi<strong>en</strong>to estámuy r<strong>el</strong>acionado con <strong>el</strong> módulo <strong>de</strong> análisis semántico.Pue<strong>de</strong> darse <strong>el</strong> caso <strong>en</strong> que frases, sintácticam<strong>en</strong>te malformadas, t<strong>en</strong>gan un cont<strong>en</strong>ido pragmático correcto. Esto esnecesario t<strong>en</strong>erlo <strong>en</strong> cu<strong>en</strong>ta, sobre todo <strong>en</strong> <strong>el</strong> contexto <strong>en</strong>que estamos <strong>de</strong> los Reconocedores <strong>de</strong> Habla, ya que suce<strong>de</strong>más veces <strong>en</strong> <strong>el</strong> l<strong>en</strong>guaje hablado que <strong>en</strong> <strong>el</strong> escrito[20].h). Módulo <strong>de</strong> análisis <strong>d<strong>el</strong></strong> conocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> mundoEste apartado incluye <strong>el</strong> conocimi<strong>en</strong>to g<strong>en</strong>eral que <strong>de</strong>bet<strong>en</strong>er <strong>el</strong> usuario <strong>d<strong>el</strong></strong> l<strong>en</strong>guaje, con vistas, por ejemplo amant<strong>en</strong>er una conversación. Es necesario que se conozca <strong>el</strong>niv<strong>el</strong> <strong>de</strong> conocimi<strong>en</strong>tos <strong>d<strong>el</strong></strong> interlocutor <strong>en</strong> <strong>el</strong> tema <strong>de</strong> que sehable para que haya una transmisión <strong>de</strong> i<strong>de</strong>as.Es totalm<strong>en</strong>te ilógico que un premio Nób<strong>el</strong> <strong>de</strong> medicina <strong>de</strong>una charla <strong>de</strong> bioquímica a un grupo <strong>de</strong> amas <strong>de</strong> casautilizando un l<strong>en</strong>guaje totalm<strong>en</strong>te técnico. Aunque todas lasfrases sean sintáctica, semántica y pragmáticam<strong>en</strong>tecorrectas no habrá transmisión <strong>de</strong> i<strong>de</strong>as.D<strong>en</strong>tro <strong>d<strong>el</strong></strong> tratami<strong>en</strong>to <strong>d<strong>el</strong></strong> l<strong>en</strong>guaje <strong>en</strong> los reconocedores <strong>de</strong>habla se pue<strong>de</strong> utilizar para <strong>de</strong>scartar hipótesis <strong>de</strong> palabrasreconocidas, que por su complejidad técnica, estén fuera <strong>d<strong>el</strong></strong>alcance <strong>de</strong> la persona que está utilizando <strong>el</strong> reconocedor, opara incluirla si la situación es la contraria[25].2). Estructura <strong>d<strong>el</strong></strong> sistema expertoLa forma <strong>en</strong> que todas las fu<strong>en</strong>tes <strong>de</strong> conocimi<strong>en</strong>to que sehan revisado se integran <strong>en</strong> <strong>el</strong> sistema reconocedor es unfactor que influye <strong>de</strong>cisivam<strong>en</strong>te <strong>en</strong> la dificultad <strong>de</strong>implem<strong>en</strong>tación <strong>d<strong>el</strong></strong> sistema experto, y también <strong>en</strong> susprestaciones finales.La forma más simple <strong>de</strong> organizar todas esas estructuras <strong>de</strong>datos es <strong>de</strong> forma jerárquica (figura 7), dividi<strong>en</strong>do <strong>el</strong> trabajo<strong>en</strong>tre varios bloques <strong>de</strong> proceso concat<strong>en</strong>ados, cada uno <strong>d<strong>el</strong></strong>os cuales ti<strong>en</strong>e como <strong>en</strong>trada la salida <strong>d<strong>el</strong></strong> procesadoranterior <strong>en</strong> la cad<strong>en</strong>a. Así, <strong>el</strong> procesador acústico-fonéticoanalizando la forma <strong>de</strong> onda produce varias secu<strong>en</strong>cias <strong>de</strong>fonemas, cada una <strong>de</strong> <strong>el</strong>las correspondi<strong>en</strong>te con un grado <strong>de</strong>probabilidad <strong>de</strong>terminado a la trascripción fonética <strong>de</strong> laseñal <strong>de</strong> <strong>en</strong>trada al sistema[21]. El procesador morfológicog<strong>en</strong>era una red con las palabras más probables, y esa redpasa al procesador sintáctico, que la <strong>de</strong>pura y recorta,<strong>de</strong>jando sólo las secu<strong>en</strong>cias <strong>de</strong> palabras gramaticalm<strong>en</strong>tecorrectas. El procesador semántico sigue limpiando esa red,<strong>el</strong>iminando las frases sin s<strong>en</strong>tido. Por ultimo, y <strong>en</strong> <strong>el</strong>supuesto caso <strong>de</strong> que que<strong>de</strong> más <strong>de</strong> un candidato, será <strong>el</strong>procesador pragmático qui<strong>en</strong> tome la ultima <strong>de</strong>cisión.aprovechar, por ejemplo, la información <strong>d<strong>el</strong></strong> procesadorpragmático (modulada por informaciones <strong>de</strong> tipo sintácticoy semántico) [22] para disminuir <strong>el</strong> número <strong>de</strong> posibilida<strong>de</strong>sque los procesadores acústico-fonético y morfológico ti<strong>en</strong><strong>en</strong>que explorar. Este tipo <strong>de</strong> flujo "inverso" <strong>de</strong> información sinduda aum<strong>en</strong>tara <strong>el</strong> tiempo <strong>de</strong> respuesta <strong>d<strong>el</strong></strong> sistema, asícomo la tasa <strong>de</strong> reconocimi<strong>en</strong>to. La figura 8 muestra unaestructura <strong>de</strong> interconexión que refleja esta i<strong>de</strong>a.Figura 8: Sociedad <strong>de</strong> expertosOtra organización difer<strong>en</strong>te conectarla a todos losprocesadores con cada uno <strong>de</strong> los <strong>de</strong>más utilizando <strong>el</strong>recurso <strong>de</strong> memoria compartida (por ejemplo). Esto quedareflejado <strong>en</strong> la figura 9. Es una estructura <strong>de</strong> máscomplicada implem<strong>en</strong>tación y mucho más versátil queofrece más posibilida<strong>de</strong>s <strong>de</strong> interacción que las anteriores.Sin embargo, parece que <strong>de</strong>sborda un poco las necesida<strong>de</strong>s<strong>de</strong> los sistemas expertos para reconocimi<strong>en</strong>to tal y comoestán si<strong>en</strong>do concebidos hasta <strong>el</strong> mom<strong>en</strong>to[28].Figura 9: Organización con memoria compartidaFigura 7: Organización jerárquicaEse sistema <strong>de</strong> organización permite <strong>el</strong> flujo <strong>de</strong> información<strong>en</strong> sólo un s<strong>en</strong>tido, sin ningún tipo <strong>de</strong> realim<strong>en</strong>tación quepueda aum<strong>en</strong>ta la efici<strong>en</strong>cia <strong>d<strong>el</strong></strong> sistema. Se pue<strong>de</strong> p<strong>en</strong>sar <strong>en</strong>VI. CONCLUSIONESEn este artículo se resume los últimos avances obt<strong>en</strong>idos <strong>en</strong>los principales ámbitos <strong>d<strong>el</strong></strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla, se harealizado una pres<strong>en</strong>tación <strong>de</strong> la problemática, las


Universidad Nacional <strong>de</strong> Colombia, Seminario <strong>de</strong> InvestigaciónAbril <strong>de</strong> 2005principales líneas <strong>de</strong> trabajo y las características particulares<strong>de</strong> los sistemas exist<strong>en</strong>tes. Se ha puesto especial énfasis <strong>en</strong><strong>de</strong>stacar los aspectos <strong>de</strong> innovación que incorporan lossistemas <strong>de</strong> Reconocimi<strong>en</strong>to <strong>d<strong>el</strong></strong> Habla.VII. BIBLIOGRAFÍA[1] Guarasa, M. Arquitecturas y métodos <strong>en</strong> sistemas <strong>de</strong> reconocimi<strong>en</strong>toautomático <strong>de</strong> habla <strong>de</strong> gran vocabulario universidad politécnica <strong>de</strong>madrid escu<strong>el</strong>a técnica superior <strong>de</strong> ing<strong>en</strong>ieros <strong>de</strong> t<strong>el</strong>ecomunicación,2001[2] Toledano, D. Segm<strong>en</strong>tación y etiquetado fonéticos automáticos: un<strong>en</strong>foque basado <strong>en</strong> mo<strong>d<strong>el</strong></strong>os ocultos <strong>de</strong> markov y refinami<strong>en</strong>toposterior <strong>de</strong> las fronteras fonéticasseñales, sistemas y radiocomunicaciones, escu<strong>el</strong>a técnica superior <strong>de</strong>ing<strong>en</strong>ieros <strong>de</strong> t<strong>el</strong>ecomunicación, universidad politécnica <strong>de</strong> madrid.,2000[3] Fernan<strong>de</strong>z, D, Aportaciones a la mejora <strong>de</strong> los sistemas <strong>de</strong>reconocimi<strong>en</strong>to universida<strong>de</strong> <strong>de</strong> vigo, 2001[4] H. SAKOE and S. CHIBA: Dynamic Programming Optimization forSpok<strong>en</strong> Word Recognition. IEEE Trans. Acoust. Speech and SignalProc., ASSP-26(1): 43-49 (1978).[5] L. R. RAINER: A Tutorial on Hidd<strong>en</strong> Markov Mo<strong>d<strong>el</strong></strong>s and S<strong>el</strong>ectedApplications in Speech Recognition. Proc. IEEE 77(2), 257-286(1989).[6] GROIN and R. MAMMON: Introduction to the Special Issue onNeural Networks for Speech Processing. Speech and Audio Proc.,vol. 1: 113-114 (1994).[7] SONG and E. HUANG: A tree-tr<strong>el</strong>lis based fast search for findingthe N best s<strong>en</strong>t<strong>en</strong>ce hypotheses in continuous speech recognition. InProc. CASS 91, pp. 537-540 (1991).[8] L. RAINER and B-H JUAN: Fundam<strong>en</strong>tals of Speech Recognition.Pr<strong>en</strong>tice Hall, pp. 449-450, New York (1993).[9] E. BURKE, R. CARDIN, Y. NORMAN DIN, M. ROHM, J. WILSON:Application of Vector Quantized Hidd<strong>en</strong> Markov Mo<strong>d<strong>el</strong></strong>ing toT<strong>el</strong>ephone Network based Connected Digit Recognition. Proc. CASS(1994).[10] R. M. SCHWARTZ, et al., Improved hidd<strong>en</strong> Markov mo<strong>d<strong>el</strong></strong>ing ofphonemes for continuous speech recognition. In Proc. CASS 84, vol.3, paper 35.6, (1984).[11] L. R. BAH, et al.: Acoustic Markov mo<strong>d<strong>el</strong></strong>s used in the ANGORAspeech recognition system. In Proc. CASS 88, vol. 1, pp. 497-500(1988).[12] X. HUANG, et al.: The SPHINX-II Speech Recognition System: AnOverview. Tech. Report no. CMU-CS-92-112, CMU, Pittsburg(1992).[13] HOW. HON: Vocabulary-In<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t Speech Recognition: theVOICED System. Ph. D. Dissertation, CMU, Pittsburgh (1992).[14] M.A. COHEN, et al.: The DECIPHER speech recognition system. InProc. ICASSP-90 vol. 1, pp. 77-80 (1990).[15] K. KITA, F. ANABATIC and H. SAITO: HMM continuous speechrecognition using predictive OR parsing. In Proc. CASS 89, vol. 2,pp. 703-706 (1989).[16] L. FISSURE, et al.: A word hypothesizer for a large vocabularycontinuous speech un<strong>de</strong>rstanding system. In Proc. CASS 89, vol. 1,pp. 453-456 (1989).[17] R. NAY, et al.: Improvem<strong>en</strong>ts in beam search for 10.000-wordcontinuous speech recognition. In Proc. CASS 92, vol. I, pp. 9-12(1992).[18] J. G. WILSON and D. ROE: Applications of Speech RecognitionTechnology in T<strong>el</strong>ecommunications. In Proc. ICSLP-94, pp. 667-670(1994).[19] S. FRUIT: Speaker In<strong>de</strong>p<strong>en</strong>d<strong>en</strong>t Isolated Word Recognition UsingDynamic Features of Speech Spectrum. IEEE Trans. Acoust. Speechand Signal Proc., ASSP-34(1): 52-59, Feb. 1986.[20] José A. Brito, JRH. Id<strong>en</strong>tificación <strong>de</strong> Señales Verbales <strong>en</strong> <strong>el</strong> Espacio<strong>de</strong> Fase Reconstruido Universidad <strong>de</strong> Los An<strong>de</strong>s, Postgrado <strong>en</strong>Computación,, 1999[21] Nicolas Pecan, DOFF. Hams and OWE Neural Network forContinuous Speech Recognition 2001[22] Jordá Adén, a.C.Análisis <strong>de</strong> la Segm<strong>en</strong>tación Automática <strong>de</strong> Fonemas para la Síntesis<strong>de</strong> Voz.2001[23] Isma<strong>el</strong> Cortázar Múgica, AMARC. Últimos <strong>de</strong>sarrollos <strong>en</strong>tecnologías <strong>de</strong> <strong>voz</strong> y <strong>d<strong>el</strong></strong> l<strong>en</strong>guaje 2002[24] Eduardo Clem<strong>en</strong>te, a.C. Entr<strong>en</strong>ami<strong>en</strong>to y Evaluación <strong>de</strong>reconocedores <strong>de</strong> Voz <strong>de</strong> Propósito G<strong>en</strong>eral basados <strong>en</strong> Re<strong>de</strong>sNeuronales feedforward y Mo<strong>d<strong>el</strong></strong>os Ocultos <strong>de</strong> Harkov TALOTA-SENTÍA, 1999 , 15[25] Taylor, J.F.K.R.S.K.P. an automatic speech recognition system usingneural networks and linear dynamic mo<strong>d<strong>el</strong></strong>s to recover and mo<strong>d<strong>el</strong></strong>articulatory traces.[26] Ahuactzin, I.K.N.A.A. Aplicación <strong>de</strong> Tecnología <strong>de</strong> Voz <strong>en</strong> laEnseñanza <strong>d<strong>el</strong></strong> Español Universidad <strong>de</strong> las Américas- Puebla., 2001[27] J.L. Gauvain, L.L. conversational t<strong>el</strong>ephone speech recognitionIEEE International Confer<strong>en</strong>ce on Acoustics Speech and SignalProcessing (ICASSP), 2003 , 212-215[28] Ries, K. hmm and neural network based speech act <strong>de</strong>tection 1999

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!