Estado del arte en el reconocimiento AutomÃ¡tico de voz

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005Estado del arte en el reconocimientoAutomático de vozDeiby Alexander Fandiño RodríguezUniversidad Nacional de ColombiaResumenEl Reconocimiento Automático de Voz (ASR AutomaticSpeech Recognition) es un campo de investigación decreciente relevancia que día a día se gana más adeptos.El desarrollo de mejores algoritmos y de modelados masprecisos, junto con la aparición de sistemas informáticosmas potentes y adsequibles, posibilita la integración delos sistemas de dialogo hombre-máquina a través de lavoz en numerosos ámbitos de la sociedad actual. Estossistemas de dialogo permiten el acceso a una grancantidad de información a través de una forma decomunicación tan natural como es el habla, facilitandoun elevado numero de servicios interactivos utilizando elteléfono, la televisión o el ordenador como elementos deacceso.El objetivo general de este artículo es presentar losprincipales avances obtenidos en los últimos años en elámbito del reconocimiento automático de voz. Se prestaespecial atención a las principales líneas de trabajoorientadas hacia el diseño de sistemas deReconocimiento del Habla.I. INTRODUCCIÓNHace ya tiempo que se estudia la posibilidad de desarrollarinterfaces hombre-máquina controlados por la voz parasustituir en ciertas aplicaciones a los interfaces tradicionalesbasados en teclados, paneles y dispositivos similares. Estenuevo tipo de interfaz constaría de dos módulos deentrada/salida: uno de reconocimiento de habla, mediante elcual el ordenador sería capaz de extraer información de loscomandos orales del operador o usuario, y otro de síntesisde voz, que podría ser una de las vías de presentación deresultados.La utilización de la voz, y en el caso que nos ocupa, elReconocimiento de Habla, como vía de dar órdenes a losordenadores ofrece varias ventajas respecto al métodotradicional de comunicación entre el usuario y la máquina:Hace esta comunicación más rápida, y más agradable paralos nuevos usuarios, ya que al ser la forma natural decomunicarse no se necesita ninguna habilidad especial.Permite el tener las manos libres para utilizarlas en algunaotra actividad, a la vez que se van dando órdenes por mediode la voz.Permite movilidad, ya que la voz se puede enviar adistancia y ser recogida por un micrófono, por oposición aun teclado que no se puede mover de la mesa de trabajo.Permite acceso remoto, al poder acceder a un ordenadorusando la red telefónica, que es la red de comunicacionesmás extendida.Permite la disminución del tamaño de los paneles decontrol. Piénsese en el panel de un avión, cuantosconmutadores manuales podrían suprimirse si se utilizara lavoz como forma de comunicación con el sistema de controlA lo largo del presente artículo se pretende presentar unapanorámica del problema del Reconocimiento del Habla,así como de las soluciones técnicas que hasta ahora se handesarrollado, acabando con una revisión de las posiblesaplicaciones que pueda servir para despertar en aquellaspersonas que no estén al corriente del desarrollo de estatecnología, interés por la misma así como vislumbrarposibles aplicaciones en sus propios campos de actividad.II. JUSTIFICACIÓNDurante la declinación del ya finalizado siglo XX y, porsupuesto, continuando tras el nacimiento del tan esperadosiglo XXI, la utilización cada vez mayor de la voz comointerfaz de comunicación entre los hombres y las máquinaspermite aumentar la cooperación con los sistemasinformáticos, aprovechando al máximo las prestaciones deestos en cuanto a rapidez y eficiencia.Los avances que se producen en el ámbito de lastecnologías del habla son día a día más significativos. En elcampo del reconocimiento automático de voz, losreconocedores actuales manejan cada vez vocabularios másgrandes y logran menores tasas de error gracias al uso dealgoritmos más eficientes, a la aparición de equipos más

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005potentes y baratos, y al aumento de complejidad de estossistemas, al emplearse modelados mas sofisticados yrefinados.Los sistemas de reconocimiento automático de voz o habla,frente a otros sistemas de interacción hombre-máquinacomo teclados, paneles, etc., proporcionan una mayornaturalidad, así como un amplio rango de utilización porparte de diferentes tipos de usuarios en distintos entornos deoperación.No obstante, a pesar de los grandes avances realizados, seestá todavía muy lejos de un sistema de reconocimientoautomático de voz universal que funcione bien en cualquieraplicación a la que sea destinado. En general, el diseño y lascaracterísticas de los actuales sistemas de reconocimientoautomático de voz dependen fuertemente de la aplicación ala que van a ser destinados y a las condiciones defuncionamiento.III. DEFINICIÓN DEL PROBLEMAEl Reconocimiento del Habla parece tan natural y sencillopara las personas que se pensó que podría ser fácilmenterealizado por las máquinas. Sin embargo, cuando se empezóa profundizar en el tema, se comprobó que esto no es así.De hecho, es un tema que se ha revelado más complicadoque la producción automática de voz.Ya la historia lo ha demostrado: las primeras yrudimentarias máquinas parlantes aparecieron en la segundamitad del siglo XVIII, mientras que los primeros intentos enmáquinas capaces de reconocer la voz no aparecieron hastaprincipios del siglo XX, con la máquina de Flower, capazde escribir el alfabeto fonográfico pronunciado por unapersona. Cinco son los factores que determinan lacomplejidad del Reconocimiento del Habla:A. El LocutorEs quizás el aspecto que introduce mayor variabilidad en laforma de onda entrante, y por tanto requiere que el sistemade reconocimiento sea altamente robusto. Una persona nopronuncia siempre de la misma forma, debido a distintassituaciones físicas y psicológicas (es la llamada variabilidadintra-locutor). Existe además gran variedad entre distintoslocutores (hombres, mujeres, niños), diferencias según laedad o la región de origen (variabilidad interlocutor). Esmucho más sencillo que un sistema funcione para undeterminado locutor y que este lo haya entrenadopreviamente (se dice que el sistema es dependiente dellocutor), a que un sistema funcione para cualquier locutor(sistema independiente del locutor).B. La forma de hablarEs el segundo factor que determina la complejidad de unreconocedor de habla. El hombre pronuncia las palabras deuna forma continua, y debido a la inercia de los órganosarticulatorios, que no pueden moverse instantáneamente, seproducen efectos coarticulatorios. Ello, unido a lasvariaciones introducidas por la prosodia, hace que unapalabra al principio de una frase sea diferente que cuando sedice en medio, o que sea diferente dependiendo de que es loque le procede o le sigue. Un reconocedor es relativamentesencillo si sólo tiene que reconocer una palabra dicha deforma aislada (reconocedor de palabras aisladas) y es máscomplejo si debe reconocer las palabras de una frase, perointroduciendo una pausa entre cada dos de ellas (hablaconectada). El sistema más complicado es aquel que debefuncionar reconociendo habla continua, que es la formanatural de hablar.C. El VocabularioSe conoce por tal el número de palabras diferentes que debereconocer el sistema. Mientras mayor es el número depalabras más difícil es el reconocedor, por dos motivos. Elprimero porque al aumentar el número de palabras es másfácil que aparezcan palabras parecidas entre sí, y el segundoporque el tiempo de tratamiento aumenta al aumentar elnúmero de palabras con las que comparar. Una soluciónposible a este problema sería el utilizar unidadeslingüísticas inferiores a la palabra (alófonos, sílabas,etc.)que en principio tienen un número limitado, e inferior al deposibles palabras. Sin embargo, la dificultad de reconocerestas unidades es aun mayor debido a que su duración esmuy corta, la frontera entre dos unidades sucesivas es muydifícil de establecer y los efectos coarticulatorios sonmucho más fuertes que entre palabras.D. La GramáticaEs el conjunto de reglas que limita el número decombinaciones permitidas de las palabras del vocabulario.En general la existencia de una gramática en unreconocedor ayuda a mejorar la tasa de reconocimiento, aleliminar ambigüedades y puede ayudar a disminuir lanecesidad de cálculo, al limitar el número de palabras enuna determinada fase del reconocimiento ("perplejidad" dela gramática). En sistemas de palabras aisladas en los queno existe una gramática en el sentido estricto del término, sepuede entender por tal el número de palabras a reconocer.Si, por ejemplo, el sistema debe reconocer un númerotelefónico urbano, la gramática de este sistema dice que elvocabulario son los diez dígitos, y debe reconocer unconjunto de siete dígitos, de forma que si el sistemareconoce más o menos, es que hay algún error.E. El Entorno físicoEs una parte tan importante como las anteriores para definirel reconocedor. No es lo mismo un sistema que funciona enun ambiente poco ruidoso, como puede ser el despacho deun medico, o el que tiene que funcionar en un coche o enuna fabrica. 0 por ejemplo, el que debe de funcionar através de la línea telefónica, con la consiguiente reducciónde banda o el que recibe la voz a través de un micrófono,que tiene mayor ancho de banda que la línea telefónica.IV. EN QUE CONSISTE EL RECONOCIMIENTO DE VOZPodríamos afirmar que, genéricamente, el principal objetivoque el Reconocimiento de Habla persigue es proporcionar

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005una "apropiada" interacción hombre-máquina a través deórdenes habladas. Así, los resultados que esta tecnologíaproporcione deberán contrastarse con los derivados de otrasalternativas como son: teclados, paneles, ratones, etc., encuanto a si proporcionan un control de procesos deinteracción hombre-máquina más o menos "apropiado". Lasprincipales características que diferencian a los sistemasbasados en Reconocimiento del Habla frente a otrasalternativas son: la naturalidad que supone utilizar el hablaen las operaciones de comando y control, y la precisión yrobustez en la comunicación para diferentes usuarios ydiferentes entornos. La primera de ellas debería representarla ventaja natural de los sistemas basados en la Tecnologíadel Habla. Aunque la experiencia nos ha enseñado que, sibien el habla es la forma natural de comunicación entrepersonas, en el diálogo hombre-máquina esto no pareceobvio; piénsese, por ejemplo, en los diversos estudios quereflejan el elevado número de personas incapaces deresponder frente a una máquina. Si bien es cierto que estetipo de rechazos va disminuyendo paulatinamente. Es lasegunda de las características anteriores la que se muestramás crítica en las aplicaciones del Reconocimiento delHabla. El estado actual de la investigación enReconocimiento del Habla nos muestra excelentesresultados de sistemas trabajando en entornos controladosde laboratorio. Sin embargo, una aplicación real de estatecnología exige un funcionamiento en el mundo real dondeel grado de dificultad de los problemas es un orden demagnitud mayor.Bajo esa premisa de buscar una aplicación real, el modelogenérico de comunicación que el Reconocimiento del Hablapropone para el diálogo hombre-máquina puederepresentarse, de forma simplificada, tal y como muestra eldiagrama de la figura 1, para un caso de acceso a una basede datos.Figura 1. Modelo genérico de comunicación paraReconocimiento del Habla.En este diagrama, el acceso a la información contenida enuna base de datos comienza con la producción de unmensaje hablado por el usuario, pero utilizando una forma oestilo de habla restringido; por ejemplo, utilizando palabrasde un vocabulario reducido pronunciadas de forma aislada(como los dígitos), frases tipo, etc. A partir de la señal devoz, un proceso de clasificación, basado en reconocimientode patrones asociados a diferentes unidades lingüísticas(palabras, fonemas, sílabas, etc.), permite a una interfaz decomunicaciones extraer de la base de datos la informaciónsolicitada por el usuario.Siguiendo el modelo de la figura 1 podemos presentar lasprincipales áreas de trabajo que intervienen en el diseño yespecificación de sistemas de Reconocimiento del Hablaactuales. Estas áreas serían las siguientes:Proceso de la señal de voz.Técnicas de reconocimiento de patrones.Diferentes estilos de habla.Dependencia del locutor.Vocabulario de reconocimiento.Tarea de reconocimiento.Bases de datos para entrenamiento y reconocimiento.A. proceso de la señal de vozLa primera operación que debe realizar un reconocedor esprocesar la señal de voz de entrada al sistema, con objeto deextraer la información acústica relevante para la tarea quedebemos realizar. En este primer nivel del sistema son doslos interrogantes a resolver:¿Qué rasgos o características extraer?¿Qué efectos perturbadores pueden acompañar a la voz? y¿cómo eliminarlos?La respuesta a la primera cuestión ha venido precedida deun largo proceso de investigación sobre diferentesprocedimientos de parametrización de la voz. Planteándosecomo solución actual más extendida una parametrización dela envolvente espectral que incluya consideracionespreceptúales a partir del funcionamiento del oído. Parareducir el número de parámetros posibles, laparametrización se combina con la utilización de técnicasdiscriminativas, seleccionándose el subconjunto con losparámetros más eficientes o distintivos [1].En cuanto a la segunda de las preguntas planteadas, lapresencia de efectos perturbadores en la señal de entrada, hagenerado tres líneas de trabajo principales:1) Detección robusta de voz: Apareciendo innumerablesprocedimientos de discriminación entre voz o ruido(silencio) para diferentes tipos de ruido [2].2) Reducción de ruido: Distinguiéndose procedimientosque actúan directamente sobre la señal de voz yprocedimientos que buscan compensar el efecto delruido sobre la parametrización de la voz [3].3) Cancelación de ecos: Incorporando técnicas de filtradoadaptativo que permitan al usuario comenzar a hablarmientras, desde el terminal remoto, se le estácomunicando un mensaje que puede provocar un ecoen la voz que entra al reconocedor [4].

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005B. técnicas de reconocimiento de patronesEl reconocimiento de patrones es la técnica más específicade todo sistema de reconocimiento. De ahí que muchosreconocedores se identifiquen a partir de la técnica dereconocimiento de patrones que incorporan. A partir de larepresentación paramétrica de la voz, este módulo realizaun proceso de clasificación utilizando una serie de patrones.Estos patrones se obtienen en una fase de entrenamiento delsistema y son representativos de un conjunto de unidadeslingüísticas (palabras, sílabas, sonidos, fonemas). Lapeculiaridad más característica de este proceso, que marcasu dificultad, es la variabilidad temporal que puedepresentar una misma unidad lingüística al ser producida pordiferentes modos y/o velocidades de habla. Así pues, lasprimeras técnicas de reconocimiento de patrones utilizadasfueron las basadas en un Alineamiento Temporal a través dealgoritmos de Programación Dinámica, técnicas DTW [5].Posteriormente se recurrió a la mayor flexibilidad que elmodelado de procesos estocásticos permite para representarsecuencias de duración variable. Concretamente laalternativa a las técnicas DTW fueron los Modelos Ocultosde Markov [6], (HMM), que pueden verse como unageneralización de algoritmos DTW y han demostradomejores prestaciones en multitud de sistemas dereconocimiento. También hay que mencionar que,recientemente, la potencia y excelentes capacidades declasificación mostradas por las denominadas RedesNeuronales Artificiales (RN) las sitúa como posiblealternativa frente a los HMM [7]. Hasta el momento lasRedes Neuronales han permitido obtener los mejoresresultados en Reconocimiento de Locutores, sin embargo enReconocimiento del Habla encuentran como mayordificultad la forma de afrontar la variabilidad temporal delhabla.Más adelante se explicaran con detenimiento estos métodos.C. Modelado dependiente del estilo de hablaSe distinguen tres modos fundamentales de hablar frente aun sistema de reconocimiento:Palabras aisladasSupone que el usuario pronuncia una sola palabra ocomando que el sistema deberá reconocer.Habla conectadaEl usuario pronuncia de forma fluida un mensaje utilizandoun vocabulario muy restringido; el ejemplo más típico seríala pronunciación de un número telefónico.Habla continuaCorresponde al modo más avanzado de funcionamiento deun reconocedor, y supone la pronunciación de frases deforma natural para un vocabulario amplio de palabras.Además de los tres modos fundamentales anteriores, losreconocedores de voz tienen que afrontar, para un modeladorobusto del habla, los tres aspectos siguientes:1) Reconocimiento en contexto o "word spotting"Técnica especialmente utilizada en reconocimiento depalabras aisladas, encaminada a detectar la presencia depalabras del vocabulario a reconocer en el contexto de otraspalabras o pronunciaciones. La mayoría de las veces elcontexto es resultado de la dificultad que encuentra elusuario para ceñirse a la pronunciación de una única palabraaislada. En otras ocasiones, el reconocimiento en contextoes la solución apropiada para robustecer el reconocimientoen ambientes acústicamente hostiles; por ejemplo, cuandola palabra que pronuncia el usuario viene acompañada deruidos telefónicos, urbanos, etc. En cualquier caso, se tratade una técnica importante para robustecer los sistemas enaplicaciones reales.2) RechazoOtro efecto de la presencia de sonidos indeseados (ruidos,sonidos o palabras fuera del vocabulario), es provocar elreconocimiento de palabras que realmente no han sidopronunciadas. Los procedimientos conocidos como técnicasde rechazo tienen como objetivo permitir incluir entre losresultados de reconocimiento la identificación de esossonidos indeseados. Nos encontramos ante un problema degran importancia de cara a la operatividad de un sistema dereconocimiento, que aún hoy por hoy no cuenta con unaclara solución.3) Múltiples candidatosEl proceso de reconocimiento de patrones que realiza unreconocedor se basa en identificar el patrón que ofrezca lapuntuación más alta para decidir cuál es la mejor palabra osecuencia de palabras reconocida. Este proceso se basa eninformación exclusivamente acústica, sin tener enconsideración otras posibles fuentes de conocimiento quepodrían utilizarse para completar las puntuaciones de lasdiferentes palabras o secuencias candidatas. En la mayoríade los casos, la aplicación en que se encuentra elreconocedor es la que posee la información necesaria quepermitiría seleccionar entre varias hipótesis dereconocimiento. Pensemos, por ejemplo, en una aplicaciónbasada en el reconocimiento de números telefónicos; en esasituación, ante las dos hipótesis mejores de reconocimiento,una compuesta de cinco dígitos y otra de siete, la aplicaciónseleccionaría esta última independientemente de quiénobtuviese la mayor puntuación "acústica" en el proceso declasificación. Los procedimientos que permiten a unreconocedor disponer de la flexibilidad que supone manejarN hipótesis de reconocimiento se denominan N-best [8].D. dependencia del locutorEl grado de dependencia del locutor define si el sistemaincorpora patrones de unidades lingüísticas adaptados a unlocutor determinado, y, por tanto, sólo funcionarácorrectamente para él, o si los patrones pretenden serválidos para cualquier hablante. En el primer caso se hablade reconocimiento dependiente del locutor, mientras que enel segundo de reconocimiento independiente del locutor. Aparte de las actividades específicas que se desarrollan parasistemas dependientes e independientes del locutor, existeun importante número de esfuerzos dirigidos a conseguir la

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005adaptación de un reconocedor a un locutor específico con lamenor cantidad de voz posible [9].E. dependencia del vocabularioLas prestaciones de un reconocedor dependen fuertementedel tamaño y grado de dificultad del vocabulario. Es decir,del número de palabras que el sistema es capaz dereconocer, y de la mayor o menor dificultad de sureconocimiento en base a las relaciones de similitudfonética entre palabras. En la actualidad se diseñan sistemastanto para vocabularios pequeños (menos de 50 palabras) ymedios (entre 50 y 500 palabras), como para grandesvocabularios (más de 500 palabras), llegándose hasta50.000 palabras para aplicaciones de dictado o acceso abases de datos mediante lenguaje natural.Otra importante dimensión, en relación con el vocabulario,es la que afecta a la distinción entre vocabularios fijos yflexibles. Una determinada aplicación, cuando estéreconociendo, siempre actuará sobre un vocabulario fijo.Pero en muchos casos ese vocabulario deberá variarse oactualizarse para eliminar y/o dar cabida a nuevas palabras.Tradicionalmente, una variación del vocabulario suponíacomenzar un largo y costoso proceso de recogida de unanueva base de datos y re-entrenamiento de los patrones delsistema. En la actualidad hay diversas aproximaciones paraconseguir un sistema con vocabulario flexible, que nonecesite re-entrenarse para cada nuevo vocabulario [10].F. gramáticas de reconocimientoSegún aumenta el número de palabras del vocabulario, elnúmero de posibles combinaciones creceexponencialmente. Por tanto, se hace imprescindible laincorporación de restricciones, en cuanto al número decombinaciones válidas, según la tarea en que se inserte elsistema. Restricciones que suelen incorporarse en forma degramáticas basadas en reglas sintácticas y/o semánticasdestinadas a reducir el número de palabras susceptibles deser reconocidas en cada momento. La medida utilizada paradefinir el grado de dificultad que supone una determinadatarea es la denominada perplejidad [11], de modo que unnivel de perplejidad bajo supone que en cada momento elnúmero de posibles palabras candidatas es bajo, mientrasque una perplejidad alta supone que ese número es alto, yconsiguientemente el reconocimiento será más difícil.V. TÉCNICAS DE DISEÑOSe van a estudiar a continuación cuatro técnicas distintasque se utilizan o se han utilizado para el diseño dereconocedores de habla. De ahora en adelante se llamara"palabra" a la unidad básica en la que se base elreconocedor (en la realidad pueden ser sílabas, demisilabas,fenones, morfemas, palabras, conjuntos de palabras etc.).Las técnicas son:Técnicas topológicas: Dynamic Time Warping (DTW),basado en el cálculo y comparación de distancias.Técnicas probabilísticas: Modelos ocultos de Markov(HMM), que son modelos generativos de las palabras delvocabulario.Redes neuronales.Sistemas basados en el conocimiento: reconocedores porreglas o sistemas expertos.En los cuatro casos se puede hablar de una fase de"entrenamiento" (cálculo de los patrones de referencia,cálculo de los parámetros de los modelos de Markov,entrenamiento de las redes neuronales o creación deestructuras de datos para los sistemas expertos) y de otrafase de "reconocimiento" propiamente dicho. Y también enlos cuatro casos el primer proceso necesario es la"parametrización" o transformación de la forma de onda dela señal entrante en un conjunto de parámetros ocaracterísticas adecuadas a cada reconocedor.A.Dynamic Time WarpingLos reconocedores de habla basados en técnicas deDynamic Time Warping (DTW) han sido los primeros quehan alcanzado un nivel de fiabilidad suficientemente altocomo para dar lugar al desarrollo de productos comerciales.Los sistemas de reconocimiento basados en DTWfuncionan de la siguiente manera: Primero se parametriza laseñal de voz a reconocer; para ello se divide en pequeñasventanas de análisis (unos 20 mseg), y sobre cada una deesas ventanas se realiza un proceso de análisis que extrae unconjunto de parámetros (que pueden ser acústicos ocoeficientes espectrales). Ese conjunto o vector deparámetros se puede ver como un punto en un espacio n-dimensional. El conjunto de todas las ventanas de análisisse convertirá así en una secuencia de puntos en ese espacio,y esa secuencia de puntos es lo que se llama "patrón" o"plantilla".El sistema reconocedor dispone de un conjunto de patronesde "referencia" que se hayan calculado en la fase deentrenamiento, y que representan al conjunto de palabrasdel vocabulario que el sistema puede reconocer. De estaforma, una vez obtenida la plantilla de la palabra, la tareadel reconocedor consiste en compararla con todos lospatrones de referencia que el sistema tiene, calculando la"distancia" que la separa de las referencias, y elegir comopalabra reconocida aquella cuya plantilla de referencia de lamenor distancia en la comparación.Normalmente esas distancias se calcularían como la suma:Donde X es la plantilla de entrada, formada por m vectoresde dimensión n, e Y es la referencia, también formada porm vectores de dimensión n.El problema surge cuando X e Y tienen distinto número devectores (lo cual se deberá a la distinta duración de lapronunciación de las palabras X e Y): ¿Qué hacer con los

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005vectores que sobran del patrón más largo?. Las técnicas deprogramación dinámica resuelven este problema: si X tienem2 vectores e Y tiene m2 vectores, lo que se hace es"deformar" el eje de tiempos, estirándolo o encogiéndolo avoluntad para alinear ambos patrones de forma que vectoresque representen sonidos iguales (o lo más parecidosposible) queden enfrentados a la hora de calcular lasdistancias. Así la distancia entre las dos plantillas se calculasiguiendo estos pasos:1) Se calcula la matriz de distancias locales d(i,j) entrecada vector i del patrón de entrada X y cada vector j delde referencia Y, obteniendo una matriz de dimensiones[ml x m2].2) Se calcula la matriz de distancias acumuladas g(i,j),utilizando las distancias locales d(i,j) según la formularecursiva:3) g(i,j) = d(i,j) t mintg(i-l,j), g(i- I ,j- I ), g(i,j-l)4) Es decir, la distancia acumulada entre dosvectores es la suma entre su distancia local yla distancia acumulada mínima de los puntosvecinos anteriores en el tiempo.5) La distancia total entre X e Y es la distanciaacumulada entre los últimos vectores deambas plantillas: g(m1,m2). La figura 2muestra como podría quedar la alineaciónentre dos patrones de longitudes m1 y m2.Figura 2: Alineamiento temporal entre la "Referencia" y la"Palabra a reconocerEl algoritmo que se acaba de describir es una versión muysimple df DTW.Esta técnica ha sido la primera que ha permitido sacarproductos a mercado, por las tasas de reconocimiento tanelevadas que produce (por encima del 98%, según laliteratura). Hoy en día se ha abandonado, dejando paso aotras más modernas que, con tasas de error equivalentes,precisan menor volumen de cómputo en la tarea de reconocimiento, y menor necesidad de memoria.B. Modelos ocultos de MarkovOtro enfoque alternativo al de medir distancias entrepatrones (enfoque topográfico) es el de adoptar un modeloestadístico (paramétrico) para cada una de las palabras delvocabulario de reconocimiento, como son los modelosocultos de Markov (HMM, del ingles 'Hidder MarkovModels') [12].Estos sistemas han sido posteriores en el tiempo, y hoy díala mayoría de los reconocedores en funcionamiento sebasan en esta técnica estadística, ya que aunque susprestaciones son similares a las de loa sistemas basados enDTW, requieren menos memoria física y ofrecen un mejortiempo de respuesta. Tienen como contrapartida una fase deentrenamiento mucho más lenta y costosa, pero como estatarea se realiza una única vez, y se lleva a cabo en loslaboratorios. Es un precio que parece valer la pena pagar.Un HMM se puede ver como una máquina de estadosfinitos en que el siguiente estado depende únicamente delestado actual, y asociado a cada transición entre estados seproduce un vector de observaciones o parámetros(correspondiente a un punto del espacio n-dimensional delque se hablaba en el apartado anterior). Se puede así decirque un modelo de Markov lleva asociados dos procesos:uno oculto (no observable directamente) correspondiente alas transiciones entre estados, y otro observable (ydirectamente relacionado con el primero), cuyasrealizaciones son los vectores de parámetros que seproducen desde cada estado y que forman la plantilla areconocer.Para aplicar la teoría de los HMM en reconocimiento devoz, se representa cada palabra del vocabulario delreconocedor con un modelo generativo (que se calculara enla fase de entrenamiento) y posteriormente, se calcula laprobabilidad de que la palabra a reconocer haya sidoproducida por cada uno de los modelos de la base de datosdel reconocedor. Para ello, se asume que durante lapronunciación de una palabra, el aparato fonador puedeadoptar sólo un número(finito de configuracionesarticulatorias (o estados), y que desde cada uno de esosestados se producen uno o. varios vectores de observación(puntos de la plantilla), cuyas características espectralesdependerán (probabilisticamente) del estado en el que sehayan generado Así vista la generación de la palabra, lascaracterísticas espectrales de cada fragmento de señaldependen del estado activo en cada instante, y la evolucióndel espectro de la señal durante la pronunciación de unapalabra depende de la ley de transición entre estados.La representación más usual de un HMM es la utilizadapara máquinas de estados finitos, es decir, conjuntos denodos (que representar a los estados) y arcos (transicionespermitidas entre los estados). Un tipo de HMMsespecialmente apropiado para reconocimiento de voz sonlos modelos "de izquierda a derecha"; modelos en los queuna vez que se ha abandonado un estado, ya no se puedevolver a él. La figura 3 representa un modelo con 'n' estadosen el que desde cada estado sólo se permiten tres tipos detransición: al propio estado, al estado vecino y a dos estadosmás allá (este tipo de saltos que da recogido en una matrizde transiciones tridiagonal).

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005Figura 3:Modelo de Markov con 'n' estadosEn cuanto a la generación de puntos de la plantilla, en estosmodelos se asume que el primer vector de observaciones seproduce desde el primer estado, y el último se emite desdeel último estado. Recuérdese que la secuencia de estados esla parte oculta del modelo: se conocen los vectores deparámetros, pero no desde que estado se han producido.1). definición formal de un hmmUn modelo M viene determinado por los siguientesparámetros:a) N- Número de estados del modelo.b) Matriz de transiciones, de dimensión (N x N). Define laestructura del modelo: cada uno de sus elementos, aij,define la probabilidad de pasar del estado i al estado j.Normalmente A será bidiagonal o tridiagonal,significando que desde cada estado se pueden producirdos o tres tipos distintos de transición.c) Conjunto de funciones de densidad de probabilidad(fdp) que modelan estadísticamente las observacionesproducidas desde cada estado. Habrá pues tantas fdpscomo estados.d) P- Vector de dimensión N. Cada uno de sus elementos,Pi indica la probabilidad de encontrarse inicialmente enel estado i. Para modelos de izquierda a derecha, Pl = I,y Pj=0 para los demás estados.Como en el caso de DTW, la señal de voz vienerepresentada por una plantilla o secuencia de vectores decaracterísticas O=[Og, O2,...OT}, donde cada Oj es unconjunto de parámetros (coeficientes LPC, Cepstrum, logarearatios...) que caracteriza la señal de voz en una ventanade tiempo centrada en t= i, y T es el número total de puntosde la plantilla. Los modelos HMM basados en este tipo dobservaciones se llaman HMM continuos[26], y B será unconjunto de fdps continuas. Si, para simplificar las cosas, sehace pasar esa secuencia de observaciones O = {° I,O2,...OT} a través de un cuantificador vectorial (en quecada vector de parámetros Oi es codificado como u númeroentero [13]), la señal de voz quedara representada por unasecuencia de centroides del cuantificador. Los HMMs quetrabajan sobre este tipo de datos se conocen como HMMdiscretos, y B ser una matriz con tantas filas como estadostenga el modelo y tantas columnas como centroides tenga elcodificador vectorial, en que cada elemento bjk es laprobabilidad de que, estando en el estado i. s produzca elcentroide k.2). reconocedor de palabras basado en hmmsUna vez definido lo que es un modelo de Markov, sedescribe a continuación como se aplica a un problema real:el de reconocimiento de palabras (la metodología a usarsería la misma si se utilizasen otras unidades acústicas:fonemas, demisilabas, frases cortas, etc.).El reconocedor dispondrá de un modelo por cada palabradel vocabulario de reconocimiento, y la estructura de esosmodelos se define en la fase de diseño: el número deestados (N) se elige "a priori' según la complejidad que sepueda permitir y la calidad deseada. Valores típicos de Nson entre 5 y 15 estados. Lo mismo ocurre con el tipo detransiciones: la matriz A tendrá sólo ciertas componentesdistintas de cero, y su número es un parámetro de diseño. Eltipo de funciones estadísticas que se utilizaran para modelarlas probabilidades de observación de los puntos de laplantilla desde cada estado, también se fija antes de entraren la fase de entrenamiento de los modelos. Suelen sergaussianas multivariables, combinaciones lineales degaussianas multivariables, funciones gamma, etc.Una vez fija la estructura de los modelos se lanza la fase deentrenamiento, con el fin de calcular los valores óptimos detodos los parámetros que se han mencionado. Para ello, seusa un cierto número de repeticiones de cada palabra delvocabulario, que depende del tipo de reconocedor que sequiera construir (dependiente o independiente del locutor),de las prestaciones esperadas del sistema y del tipo deunidades que formen el vocabulario. Se puede decir que esenúmero de repeticiones varia entre 4 o 5 y unos cuantoscentenares, lo que da idea del volumen de datos y decálculos necesario. Del análisis de todas esas repeticionessaldrá el conjunto de parámetros que define cada modelo deMarkov, y que formara la base de datos del reconocedor.En los siguientes apartados, se explica como calcular losparámetros de cada modelo (entrenamiento) y comocalcular la probabilidad P(0/M) de que una secuencia [Ot]de observaciones correspondientes a alguna palabradesconocida haya sido producida por cada uno de losmodelos de la base de datos (reconocimiento propiamentedicho)[14].3). entrenamiento de un hmmYa se ha dicho que un modelo M de Markov queda definidopor tres matrices: A, B y P. Los modelos que se utilizan enel Reconocimiento del Habla (los denominados "deizquierda a derecha")[27] tienen un vector P fijo (=(1,0,0,...0)), por lo que no es preciso reestimar suscomponentes.

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005Para simplificar las cosas, supóngase que cada repetición deuna palabra produce una secuencia de vectores decaracterísticas O(j)= {O1,O2,...0T}, y que se dispone de kpronunciaciones de cada palabra [O( 1).. .O(k)}.Entrenar el modelo es calcular los valores ajj y bj (0t) deese modelo usando las k secuencias de observacionesO(1),O(2).. F0(k) correspondientes a las k repeticiones de lapalabra a modelar, y de forma que la probabilidad de que elmodelo calculado haya producido esas k secuencias seamáxima. El procedimiento que se sigue para entrena losmodelos se indica en el diagrama de bloques de la figura 4:usando las k repeticiones de la palabra, se genera un modeloinicial segmentando uniformemente todas las plantillasentre los estados del modelo, y extrayendo unos estadísticosde esa primera segmentación se calculan los parámetros deun modelo inicial que será utilizado para una nuevasegmentación, y así sucesivamente hasta que se considereque el modelo es suficientemente bueno.Una vez disponible esa segmentación para las krepeticiones de la palabra que se quiere modelar, las reestimacionesde los parámetros del modelo correspondientese hacen según las formulas:Para la matriz B, en el caso de HMM continuos (funcionesde densidad de probabilidad continuas: gaussianas, porejemplo), los vectores de medias i y de varianzas i paracada estado i, se calculan promediando los vectores deobservaciones Oj asignados al estado:Figura 4: Entrenamiento HMMsEl algoritmo de Viterbi estima (usando el criterio demaximización a posteriori de P(0/M)) la secuencia másprobable de estados durante la producción de la palabra, yla probabilidad final para esa secuencia de estados. Así, sise aplica Viterbi a cada una de las repeticiones de lapalabra, se obtiene (usando las secuencias de estados) unapartición de las observaciones, y se sabe desde que estadose ha producido cada una de ellas. Con estos datos, serecalculan los parámetros del modelo tal y como se indicaen el siguiente ejemplo:Supóngase que la secuencia de estados para lapronunciación de una palabra determinada es:Esto es, después de la segmentación a cada estado se leasigna una partición del conjunto de las observaciones delas k repeticiones de la palabra; el valor medio de losvectores asignados al estado i será ,i, y la varianza serái, calculada utilizando las diferencias entre el vector demedias y todas las observaciones asignadas al estado.A continuación se describe el algoritmo de Viterbi.4). Algoritmo de ViterbiEste algoritmo [14], aplicado en reconocimiento de voz seutiliza para encontrar la secuencia de estados optimaasociada a una secuencia de observaciones dada. Se basa, aligual que el algoritmo de Dynamic Time Warping en lastécnicas de programación dinámica, y su formulación es:Para encontrar la mejor secuencia de estados Q asociada ala secuencia de vectores de observación O dados por losvectores:Se define el conjunto de probabilidades acumuladas:Siendo:nj = n° de veces que se ha visitado el estado i = n° deobservaciones producidas desde el estado i.Es decir, las nI primeras observaciones de la palabra seasignan al estado 1, las observaciones numeradas de nI + 1a n1+n2 al estado 2, y así sucesivamente.Que son las probabilidades de las secuencias óptimas deestados hasta el instante "t" y que terminan en el estado i.Se pueden expresar también como:

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005El procedimiento completo para encontrar la mejorsecuencia de estados es:• Iniciación• Finalización• Obtención de la secuencia de estados5). etapa de reconocimientoDada una secuencia de observaciones O = (O1,O2,...Ot)l secalcula P(O/Mi), para I endo Nw el número depalabras del vocabulario, y se decide que O es la palabrarepresentada por el modelo Mi que produjo la máximaprobabilidad P(O/Mi). Esas probabilidades se calcularantambién utilizando el algoritmo de Viterbi [15].6). inclusión de modelos duracionalesExperimentalmente se ha comprobado la utilidad demodificar las probabilidades dadas por el algoritmo deViterbi (P(O/M)) sumando otra cantidad directamenterelacionada con la distribución temporal de la plantilla entrelos estados del modelo. Esta modificación se hace a modoposproceso, en el sentido de que el algoritmo básico dereconocimiento no se ve afectado, únicamente la regla dedecisión que determina la palabra del vocabulario elegidacomo palabra reconocida. La justificación teórica de lainclusión de los modelos temporales se puede encontrar en[16].Durante la fase de entrenamiento de los modelos, y una vezque se ha determinado que esos modelos sonsuficientemente buenos, de la segmentación de todas lasrepeticiones de una misma palabra dada por Viterbi sepueden sacar estadísticas de la distribución temporal de laspalabras entre los estados del modelo. Esas estadísticas (semodelara el tiempo transcurrido en cada estado como unagaussiana de media yj y desviación aj) se usaran en la etapade reconocimiento para modificar las probabilidades dadaspor Viterbi, en el sentido de favorecer al modelo que mejorse ajuste a la distribución temporal de la palabra areconocer.En la práctica se ha visto que la mejora que supone el usode este tipo de posproceso es quizás insuficiente parajustificar el incremento de carga computacional y de tiempode ejecución que conlleva, en especial si el sistemareconocedor utiliza un bloque detector de extremos ytrabaja en ambientes "no limpios".C. Redes neuronalesLos modelos computacionales basados en redes neuronalessurgieron hace ya relativamente bastante tiempo, pero seabandono su estudio por no disponer de algoritmoseficientes de entrenamiento. Ahora ya no existe esadificultad, y se ha demostrado ampliamente su enormepotencia computacional.Los sistemas de reconocimiento basados en redesneuronales pretenden, interconectando un conjunto deunidades de proceso (o neuronas) en paralelo (de formasimilar que en la mente humana), obtener prestaciones dereconocimiento similares a las humanas, tanto en tiempo derespuesta como en tasa de error. Esa forma de interconexiónde las unidades de proceso es especialmente útil enaplicaciones que requieren una gran potencia de cálculopara evaluar varias hipótesis en paralelo, como sucede enlos problemas de reconocimiento de voz.Las unidades de proceso pueden ser de varios tipos; las mássimples (y utilizadas) disponen de varias entradas, y lasalida es el resultado de aplicar alguna transformación nolineal a la combinación lineal de todas las entradas. Otrotipo de neuronas un poco más elaborado se caracteriza pordisponer de memoria; en ellas la salida en cada momentodepende de entradas anteriores en el tiempo.La forma en que las neuronas se conectan entre si define latopología de la red, y se puede decir que el tipo deproblemas que una red neuronal particular soluciona deforma eficiente, depende de la topología de la red, del tipode neuronas que la forman, y la forma concreta en que seentrena la red.Igual que se dijo para las técnicas anteriores, una red neuraldebe ser entrenada para resolver un tipo determinado deproblemas. El algoritmo particular de entrenamientodependerá de la estructura interna de las neuronas [17],pero, en cualquier caso, el entrenamiento se llevara a cabo apartir de una base de datos etiquetada, como sucedía con losmodelos de Markov, y será un proceso iterativo en el que semodifican los parámetros de la red para que ante unconjunto determinado de estímulos (plantillas), produzcauna respuesta determinada: la palabra del vocabulariorepresentada por esas plantillasLa red neural que mejores resultados está dando hasta estemomento en reconocimiento automático del habla es ladenominada "perceptrón multicapa". La figura 5 muestra sutopología: las neuronas se disponen por "capas"; hay unacapa de entrada, que opera directamente sobre los vectoresde observación o puntos de las plantillas, una capa de salidaque apunta la palabra reconocida, y una o más capasintermedias. Cada capa está compuesta por varias unidadesde proceso, que se conectan con la siguiente capa por unaserie de enlaces a los que se da un cierto peso especificowij.

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005Figura 5: Neurona. Red NeuronalFigura 6: Red NeuronalEl conjunto de vectores de características entra en la capade neuronas de entrada, y posteriormente es propagado a lascapas siguientes. En cada célula de proceso se calcula lasuma ponderada (por los pesos wij) de las señales deentrada, y posteriormente se procesa en la neurona con susistema no lineal. Si el resultado de esta operación superaun cierto umbral, la neurona reacciona, transmitiendo señala las neuronas siguientes de la capa superior.En la fase de entrenamiento, dada una entrada conocida(p.ej. un conjunto de vectores que representa el dígito 1), lasalida de la red es comparada con la salida esperada (yconocida de antemano), calculándose un error. Ese error sepropaga hacia abajo, ajustándose de esta manera los pesosde las conexiones entre neuronas. Efectuándose esteproceso varias veces se consigue que la red "aprenda" querespuesta debe dar para cada entrada en la fase dereconocimiento.D. Reconocimiento basado en el conocimientoLos métodos de reconocimiento descritos hasta ahorafuncionan bastante bien cuando se trata de reconocerpalabras aisladas. Cuando el sistema debe reconocer fraseso habla continua, es necesario acudir a otras fuentes deconocimiento además de las puramente matemáticas yacústicas. Estas son por lo general reglas de tipo lingüístico,como se va a ver a continuación. Con este tipo de sistemasse llegara a tener no solo un reconocedor de habla sino unsistema de "comprensión" de habla.La razón por la que a estos sistemas avanzados dereconocimiento se les llama Sistemas basados en elConocimiento, se debe al uso de otras fuentes, otrasdisciplinas, otros conocimientos para llegar alentendimiento de la frase. En definitiva lo que se trata esque una máquina llegue a tener y utilizar los conocimientosque tiene una persona humana, para entender un mensaje.1). Módulos básicos del sistema de reconocimientoA continuación se describen los distintos niveles, o módulosbásicos en que se podría subdividir un Sistema deReconocimiento basado en el conocimiento.a). Módulo de procesado acústicoEn este módulo se extraen, a partir de la forma de onda dela señal de voz, un conjunto de parámetros representativosde la misma, que luego serán tratados en módulosposteriores. Para el cálculo de esos parámetros, se realiza unproceso de segmentación de la señal de entrada en pequeñasventanas de análisis, y para cada una de las ventanasresultantes se calcula ese conjunto de parámetros, quepueden ser desde valores de la frecuencia fundamental,energía, densidad de cruces por cero y posición de losformantes, hasta otros parámetros que aporten informaciónútil para comprender el sentido de la frase, como lavariación de la frecuencia fundamental, la duración de losalófonos, etc[24].b). Módulo de análisis fonéticoCalcula, a partir de los parámetros obtenidos en el móduloanterior, la representación fonética más probable (o elconjunto de las más probables) correspondiente a la señalde voz. Esta transformación se basa en un proceso deetiquetado de los segmentos de análisis en que se divide lafrase pronunciada, asignando a cada tramo de voz una

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005unidad lingüística abstracta, como pueden ser los alófonos.La ventaja de utilizar estas unidades para el siguientetratamiento es que el número de datos a manejar es muchomenor, y además, debido a su naturaleza fonética, presentanuna correspondencia bastante fuerte con la representaciónléxica.Este proceso se denomina "categorización", y normalmentese realiza de acuerdo con un conjunto de reglas deproducción. Por ejemplo:IF < señal es cuasi_periódica .AND. frecuencia del primerformante baja.AND. frecuencia del segundo formante esalta>[18].THEN .c). Módulo de análisis fonológicoEl área de la fonología estudia la estructura o función de lossonidos dentro del lenguaje. El conocimiento fonológicopermite la adaptación de los datos obtenidos en los nivelesanteriores a una determinada lengua. Es necesario definircuales son las unidades fonológicas que van a serreconocidas en el Sistema de Reconocimiento: pueden seralófonos, fonemas, difonemas, sílabas, palabras, etc. Estasunidades abstractas del lenguaje son estudiadas porseparado y dentro de una secuencia para cada lengua enconcreto.Las reglas fonológicas aportan información de cómo variala pronunciación de los fonemas, dependiendo del contexto.Con estas reglas se mejora o complementa la salida delProcesador Acústico-Fonético.Para la realización de estas reglas, y un ajuste correcto delos parámetros, es necesario tener en cuenta la Prosodia dela frase. Los valores de los parámetros obtenidos en elanálisis acústico-fonético ayudaran a determinar las sílabastónicas o átonas, si la frase es enunciativa o interrogativa,etc.d). Módulo de análisis morfológicoEs importante conocer, para cada lenguaje, las reglas deformación de las palabras a partir de los morfemaselementales. Esta es una de las facetas que estudia lamorfología. Por ejemplo, hay combinaciones de sonidos ode letras que están permitidas en unos lenguajes y en otrosno, por lo que es necesario conocer esas reglas deformación especificas. También hay reglas de formación depalabras a base de utilizar prefijos o sufijos. Ladisponibilidad de estas reglas, o incluso de un diccionario,ayudara a la determinación de palabras dentro de la cadenade unidades fonéticas que han salido del módulo acústicofonético.La sintaxis estudia como combinar las palabras paraconstruir frases de forma correcta en un determinadolenguaje. En cada idioma existe una serie de reglas deconcatenación de palabras, constituyendo la Gramática delLenguaje.Un ejemplo de frase sintácticamente correcta sería: "Elperro come la manzana". Un ejemplo de frasesintácticamente incorrecta sería. "El come manzana perrola".Un sistema de reconocimiento que conozca y aplique lasreglas de la sintaxis, ayudara bastante a decidir unasecuencia lógica de palabras, y en caso de dudas entre losmódulos anteriores, elegirá aquella que sintácticamente seacorrecta.Si un sistema debe reconocer una frase como "Los perroscorren por el campo", ha podido tener dudas si "perros" vaen singular o plural, dado que la terminación de la palabraes difícil de reconocer por el sistema y quizás el locutor nola ha dicho muy bien Sin embargo, si ha reconocido conbastante seguridad el artículo previo "Los", estarátotalmente seguro que la palabra siguiente es "perros".f). Módulo de análisis semánticoEl conocimiento semántico está relacionado con cómo seencadenan las palabras para dar significado a una frase.Toma como partida el significado individual de laspalabras, para deducir si una frase determinada tiene o nosignificado[19].Una frase correcta desde el punto de vista semántico sería:"El pájaro está en el árbol". Sin embargo, la frase "El árbolestá en el pájaro" es semánticamente incorrecta. Obsérveseque esta última frase es correcta sintácticamente.En este módulo y los siguientes es donde empiezan losgraves problemas de reconocimiento, ya que no se disponeaun de una forma eficiente de introducir este conocimientoen las máquinas.Piénsese que hay muchas frases o palabras que tienensignificado en un contexto y no lo tienen en otro, o lo tienenpero diferente. Esto es mucho más acusado en el lenguajecoloquial. Si por ejemplo se dice la frase "El pájaro estabaleyendo un libro", a nadie se le puede ocurrir que un pájaropueda leer. Sin embargo si "El pájaro" es una denominaciónpeyorativa de una persona, si que tendría sentido. ¿Cómopuede distinguir una máquina una opción de la otra?g). Módulo de análisis pragmáticoEl nivel de conocimiento pragmático está relacionado conel contexto donde se están desarrollando las ideas.Las reglas morfológicas ayudan también a la categorizacióngramatical de las palabras, lo que podrá ser usado por otrosmódulos.e). Módulo de análisis sintácticoSi se hubiera encabezado este artículo con la frase " Lalluvia en Sevilla es una maravilla", nadie sabría la relacióncon el contenido del artículo. Sin embargo una frase como"El hablar con los ordenadores es un sueno que algún día sehará realidad", está relacionada con el tema del que luego sehabla. La primera tiene un contenido sintáctico y semántico

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005correctos, pero pragmáticamente está fuera de contexto. Noasí la segunda. La utilización de este conocimiento estámuy relacionado con el módulo de análisis semántico.Puede darse el caso en que frases, sintácticamente malformadas, tengan un contenido pragmático correcto. Esto esnecesario tenerlo en cuenta, sobre todo en el contexto enque estamos de los Reconocedores de Habla, ya que sucedemás veces en el lenguaje hablado que en el escrito[20].h). Módulo de análisis del conocimiento del mundoEste apartado incluye el conocimiento general que debetener el usuario del lenguaje, con vistas, por ejemplo amantener una conversación. Es necesario que se conozca elnivel de conocimientos del interlocutor en el tema de que sehable para que haya una transmisión de ideas.Es totalmente ilógico que un premio Nóbel de medicina deuna charla de bioquímica a un grupo de amas de casautilizando un lenguaje totalmente técnico. Aunque todas lasfrases sean sintáctica, semántica y pragmáticamentecorrectas no habrá transmisión de ideas.Dentro del tratamiento del lenguaje en los reconocedores dehabla se puede utilizar para descartar hipótesis de palabrasreconocidas, que por su complejidad técnica, estén fuera delalcance de la persona que está utilizando el reconocedor, opara incluirla si la situación es la contraria[25].2). Estructura del sistema expertoLa forma en que todas las fuentes de conocimiento que sehan revisado se integran en el sistema reconocedor es unfactor que influye decisivamente en la dificultad deimplementación del sistema experto, y también en susprestaciones finales.La forma más simple de organizar todas esas estructuras dedatos es de forma jerárquica (figura 7), dividiendo el trabajoentre varios bloques de proceso concatenados, cada uno delos cuales tiene como entrada la salida del procesadoranterior en la cadena. Así, el procesador acústico-fonéticoanalizando la forma de onda produce varias secuencias defonemas, cada una de ellas correspondiente con un grado deprobabilidad determinado a la trascripción fonética de laseñal de entrada al sistema[21]. El procesador morfológicogenera una red con las palabras más probables, y esa redpasa al procesador sintáctico, que la depura y recorta,dejando sólo las secuencias de palabras gramaticalmentecorrectas. El procesador semántico sigue limpiando esa red,eliminando las frases sin sentido. Por ultimo, y en elsupuesto caso de que quede más de un candidato, será elprocesador pragmático quien tome la ultima decisión.aprovechar, por ejemplo, la información del procesadorpragmático (modulada por informaciones de tipo sintácticoy semántico) [22] para disminuir el número de posibilidadesque los procesadores acústico-fonético y morfológico tienenque explorar. Este tipo de flujo "inverso" de información sinduda aumentara el tiempo de respuesta del sistema, asícomo la tasa de reconocimiento. La figura 8 muestra unaestructura de interconexión que refleja esta idea.Figura 8: Sociedad de expertosOtra organización diferente conectarla a todos losprocesadores con cada uno de los demás utilizando elrecurso de memoria compartida (por ejemplo). Esto quedareflejado en la figura 9. Es una estructura de máscomplicada implementación y mucho más versátil queofrece más posibilidades de interacción que las anteriores.Sin embargo, parece que desborda un poco las necesidadesde los sistemas expertos para reconocimiento tal y comoestán siendo concebidos hasta el momento[28].Figura 9: Organización con memoria compartidaFigura 7: Organización jerárquicaEse sistema de organización permite el flujo de informaciónen sólo un sentido, sin ningún tipo de realimentación quepueda aumenta la eficiencia del sistema. Se puede pensar enVI. CONCLUSIONESEn este artículo se resume los últimos avances obtenidos enlos principales ámbitos del Reconocimiento del Habla, se harealizado una presentación de la problemática, las

Universidad Nacional de Colombia, Seminario de InvestigaciónAbril de 2005principales líneas de trabajo y las características particularesde los sistemas existentes. Se ha puesto especial énfasis endestacar los aspectos de innovación que incorporan lossistemas de Reconocimiento del Habla.VII. BIBLIOGRAFÍA[1] Guarasa, M. Arquitecturas y métodos en sistemas de reconocimientoautomático de habla de gran vocabulario universidad politécnica demadrid escuela técnica superior de ingenieros de telecomunicación,2001[2] Toledano, D. Segmentación y etiquetado fonéticos automáticos: unenfoque basado en modelos ocultos de markov y refinamientoposterior de las fronteras fonéticasseñales, sistemas y radiocomunicaciones, escuela técnica superior deingenieros de telecomunicación, universidad politécnica de madrid.,2000[3] Fernandez, D, Aportaciones a la mejora de los sistemas dereconocimiento universidade de vigo, 2001[4] H. SAKOE and S. CHIBA: Dynamic Programming Optimization forSpoken Word Recognition. IEEE Trans. Acoust. Speech and SignalProc., ASSP-26(1): 43-49 (1978).[5] L. R. RAINER: A Tutorial on Hidden Markov Models and SelectedApplications in Speech Recognition. Proc. IEEE 77(2), 257-286(1989).[6] GROIN and R. MAMMON: Introduction to the Special Issue onNeural Networks for Speech Processing. Speech and Audio Proc.,vol. 1: 113-114 (1994).[7] SONG and E. HUANG: A tree-trellis based fast search for findingthe N best sentence hypotheses in continuous speech recognition. InProc. CASS 91, pp. 537-540 (1991).[8] L. RAINER and B-H JUAN: Fundamentals of Speech Recognition.Prentice Hall, pp. 449-450, New York (1993).[9] E. BURKE, R. CARDIN, Y. NORMAN DIN, M. ROHM, J. WILSON:Application of Vector Quantized Hidden Markov Modeling toTelephone Network based Connected Digit Recognition. Proc. CASS(1994).[10] R. M. SCHWARTZ, et al., Improved hidden Markov modeling ofphonemes for continuous speech recognition. In Proc. CASS 84, vol.3, paper 35.6, (1984).[11] L. R. BAH, et al.: Acoustic Markov models used in the ANGORAspeech recognition system. In Proc. CASS 88, vol. 1, pp. 497-500(1988).[12] X. HUANG, et al.: The SPHINX-II Speech Recognition System: AnOverview. Tech. Report no. CMU-CS-92-112, CMU, Pittsburg(1992).[13] HOW. HON: Vocabulary-Independent Speech Recognition: theVOICED System. Ph. D. Dissertation, CMU, Pittsburgh (1992).[14] M.A. COHEN, et al.: The DECIPHER speech recognition system. InProc. ICASSP-90 vol. 1, pp. 77-80 (1990).[15] K. KITA, F. ANABATIC and H. SAITO: HMM continuous speechrecognition using predictive OR parsing. In Proc. CASS 89, vol. 2,pp. 703-706 (1989).[16] L. FISSURE, et al.: A word hypothesizer for a large vocabularycontinuous speech understanding system. In Proc. CASS 89, vol. 1,pp. 453-456 (1989).[17] R. NAY, et al.: Improvements in beam search for 10.000-wordcontinuous speech recognition. In Proc. CASS 92, vol. I, pp. 9-12(1992).[18] J. G. WILSON and D. ROE: Applications of Speech RecognitionTechnology in Telecommunications. In Proc. ICSLP-94, pp. 667-670(1994).[19] S. FRUIT: Speaker Independent Isolated Word Recognition UsingDynamic Features of Speech Spectrum. IEEE Trans. Acoust. Speechand Signal Proc., ASSP-34(1): 52-59, Feb. 1986.[20] José A. Brito, JRH. Identificación de Señales Verbales en el Espaciode Fase Reconstruido Universidad de Los Andes, Postgrado enComputación,, 1999[21] Nicolas Pecan, DOFF. Hams and OWE Neural Network forContinuous Speech Recognition 2001[22] Jordá Adén, a.C.Análisis de la Segmentación Automática de Fonemas para la Síntesisde Voz.2001[23] Ismael Cortázar Múgica, AMARC. Últimos desarrollos entecnologías de voz y del lenguaje 2002[24] Eduardo Clemente, a.C. Entrenamiento y Evaluación dereconocedores de Voz de Propósito General basados en RedesNeuronales feedforward y Modelos Ocultos de Harkov TALOTA-SENTÍA, 1999 , 15[25] Taylor, J.F.K.R.S.K.P. an automatic speech recognition system usingneural networks and linear dynamic models to recover and modelarticulatory traces.[26] Ahuactzin, I.K.N.A.A. Aplicación de Tecnología de Voz en laEnseñanza del Español Universidad de las Américas- Puebla., 2001[27] J.L. Gauvain, L.L. conversational telephone speech recognitionIEEE International Conference on Acoustics Speech and SignalProcessing (ICASSP), 2003 , 212-215[28] Ries, K. hmm and neural network based speech act detection 1999

Estado del arte en el reconocimiento AutomÃ¡tico de voz

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?