Sistema Incremental Generador de Oraciones y de DescodificaciÃ³n ...

tanto para el reconocimiento como para lageneración de las oraciones.Vocabulario: el vocabulario comprende elconjunto de palabras distintas que seencuentran en el corpus de entrenamiento.Entrenamiento: proceso mediante el cual secrean los modelos de los contextos.Historias: conjuntos de palabras queaparecen en forma contigua en el corpus deentrenamiento, [1].Ejemplo de historias: sea la siguiente, unaoración presente en el corpus deentrenamiento:“tres razones parecen ser el origen de estehecho”.Una historia de dos palabras sería: “elorigen”.Una historia de tres palabras sería: “el origende”.Contexto: área del conocimiento a la cualpertenecen las oraciones y párrafos quecomponen el corpus de entrenamiento.Reconocimiento: el proceso dedescodificación de secuencias de palabrasque se le presentan al sistema, a través delcual se determina si dicha secuencia es unaoración válida respecto a las reglasgramaticales presentes en el contexto que semodela.Generación de oraciones: procesomediante el cual se crea una oración a partirdel modelo del contexto.Oración gramáticalmente válida: oraciónque tiene una estructura que sigue las reglasgramaticales encontradas en el corpus deentrenamiento.Hipótesis de oraciones: conjunto deposibles oraciones a las que podríacorresponder una secuencia de palabras areconocer o a generar.3.- Generador de modelos de contextos.En la figura 1 se muestran los elementosprincipales del sistema, sus entradas ysalidas, y se da una idea gráfica de cómointeractuan dichos elementos.Secuencia de palabrasDescodificadorLinguísticoOración reconocidaCorpus deentrenamientoModelo delcontextoVocabularioGenerador deoracionesFigura 1. Estructura del sistema.Oración generadaPara crear un modelo partimos de unconjunto gramaticalmente correcto deoraciones y párrafos propio del contexto quese quiere modelar. Se modela el contexto,aunque creemos que si se alimenta elmodelo en forma incremental se podrá llegara modelar en buena forma el lenguaje al cualpertenece el corpus de entrenamiento. Elentrenamiento o modelado del contextoconsiste básicamente en la búsqueda,codificación y almacenamiento de laocurrencia de historias de palabras contiguasdentro de las oraciones y párrafos del corpusde entrenamiento. Creamos bloquescodificados de historias de palabras. Laspalabras presentes en las historias secodifican a través de números enteros. En lafigura 2, se da una idea de cómo se ubicanlas historias presentes en el corpus deentrenamiento. Allí, podemos ver que lahistoria “el origen” se codifica como lasecuencia de enteros “ 5 6” y la historia “elorigen de” se codifica como la secuencia deenteros “5 6 7”. El número entero loasignamos de acuerdo a la posición que tiene

cada una de las palabras en el vocabularioobtenido del corpus.A la primera palabra que aparece en elprimer corpus de entrenamiento (tengamospresente que se puede trabajar de maneraincremental con varios corpus) se le asignael número 1, luego, a la siguiente palabradistinta a la primera, se le asigna el número2 y así sucesivamente. Entonces, a la n-ésima palabra distinta del corpus, se leasigna el número n.Se forman los bloques siguientes:Un bloque que contiene una lista codificadade las palabras que en el corpus inician lasoraciones; éste bloque es usado por elgenerador de oraciones y lo llamaremosbloque1.Un bloque que contiene una lista de historiasde dos palabras. Este bloque puede ser usadotanto por el generador de oraciones comopor el descodificador linguístico. A éste lollamaremos bloque2.Un bloque que contiene una lista de historiasde tres de palabras, igual que el bloque2,puede ser usado tanto por el generador comopor el descodificador. Este bloquecomprende las tripletas de palabraspresentes en el corpus de entrenamiento. Lollamaremos, bloque3.historias de 2 palabras codificadas de texto a enterosel origen................................................................................................................................................................................el origen de................................................................................................................................................................................5 6........................................................................................5 6 7........................................................................................historias de 3 palabras codificadas de texto a enterosFigura 2: Ejemplos de bloques de historias tomadas del corpus de entrenamiento .Un bloque que contiene una lista de historiasde tres palabras como el bloque3, pero adiferencia de aquel, cada historia contienelas tres últimas palabras de cada oración ypárrafo del corpus de entrenamiento. Estebloque le permite al generador de oracionesdarse cuenta de cuando ha de finalizar laproducción de una oración. Este es elbloque4.La codificación del corpus de entrenamientoen los bloques 1, 2, 3 y 4, se hace parafacilitar la creación de las hipótesis de lasoraciones para el reconocimiento linguístico,para la generación de oraciones y paraagilizar el manejo de los datos.Una vez que se crean y se codifican losbloques antes mencionados se desechanciertas historias para bajar un poco laredundancia en la codificación, y paraagilizar el trabajo de los programas quereconocen y generan oraciones. Laeliminación de historias es un tantoarbitraria; por ejemplo, se hicieron pruebasdonde se eliminan por un lado, las historiasde dos palabras cuya frecuencia de apariciónen el corpus es baja, y por otro lado,almacenamos las historias de tres palabrasque se inician con las historias de dospalabras eliminadas.Por ejemplo, supongamos que en el corpusel par de palabras "la linguística" aparece 7veces y el par "sujeto a" aparece 1 vez.Entonces, almacenamos el primer par,mientras que el segundo par no, pero en su

lugar almacenamos tripletas como "sujeto acondiciones".Trabajando de esta manera, esperamosasegurar que aquellas historias que aparecencon baja frecuencia también sean tomadas encuenta a la hora de hacer reconocimiento ygeneración de oraciones. Está claro que aldejar por fuera muchas historias de trespalabras el rendimiento del sistemadisminuye. Sin embargo, pensamos quetenemos varias alternativas: una seríacodificar y almacenar cada una de lashistorias que aparecen en el corpus, otrasería agregar más oraciones al corpus dondeaparezcan con más frecuencia las historiasantes rechazadas, es decir re-entrenando elmodelo. La segunda alternativa es la quehemos usado, puesto que el modelo que secrea de esta manera es adaptativo eincremental debido a que se puede repetir elprocedimiento con otro conjunto deentrenamiento del contexto, y re-ajustar elmodelo sin perder la información obtenidaen un ajuste previo. Esto permite que enforma incremental se pueda enriquecer nosólo el vocabulario del módelo, sino que sepuede aumentar también su capacidad paragenerar oraciones y para hacer elreconocimiento.El proceso de re-entrenamiento o re-ajusteconsiste en que una vez que tenemos unmodelo creado a partir de un corpus quellamaremos Corpus1, podemos seleccionarotras oraciones del mismo contexto, perodiferentes a las de dicho corpus, y elaborarcon éstas un Corpus2. Utilizando este nuevocorpus codificamos todas sus historias ysumamos la frecuencia de aparición deaquellas que aparecen tanto en el Corpus1como en Corpus2, por lo que tendremos unafrecuencia acumulada para esas historias.Finalmente se almacena en los bloquesmencionados 1, 2, 3 y 4, las historias paresde mayor frecuencia, junto con las historiastriples que contienen como sus dos palabrasiniciales aquellas que constituyen lashistorias pares eliminadas. Podemos ver quese trata de una extensión del modelo creadocon el Corpus1, al que estamos agregandonuevas historias y hasta nuevas palabras a suvocabulario, puesto que en el segundocorpus, pueden aparecer no sólo historiasque no estaban presentes en el primero sinotambién nuevas palabras. Este proceso sepuede repetir con tantos corpus comoconsideremos necesario para nuestrasaplicaciones.4.- Generador de oraciones.A partir del modelo codificado como seexplicó en la sección anterior, el sistema escapaz de producir aleatoriamente oracionesdentro del contexto que se modela.El algorítmo para generar una oración es elsiguiente:1.- Se escoge en forma aleatoriauna palabra de la lista delbloque1, digamos w 1 , y lamostramos en la pantalla delsistema.Por ejemplo, se escoge delbloque1, la palabra "Esta".2.- Del bloque3, se agrupanaquellas historias que se iniciancon la palabra w 1 en un bloquenuevo, el sub-bloque31.Por ejemplo, "Estaespecificación debe", "Estaoración declarativa", "Estaoración corresponde", "Estadistinción permite", "Esta juegaun", etc.3.- Si el sub-bloque31 no estávacío, se escoge aleatoriamenteuna de las historias quecontiene y se muestran en lapantalla las dos palabras quesiguen a w 1 en esa historia.Por ejemplo, se escoge lahistoria "Esta oracióncorresponde" y se muestra enpantalla las palabras "oracióncorresponde".4.- Se continúa la búsqueda dehistorias en el bloque2. Lashistorias que interesan de estebloque son aquellas que tienencomo palabra inicial la últimaque aparece en la historiaseleccionada del sub-bloque31cuando este bloque no estávacío, digamos historias quecomiencen con w 3 . Cuando elsub-bloque31 está vacío lashistorias que interesan sonaquellas que tienen comopalabra inicial a w 1 . Se formaasí un nuevo bloque, el subbloque21.

Por ejemplo, "corresponde a".En este ejemplo, el subbloque21está constituido poruna sola historia.5.- Si el sub-bloque21 es novacío, se seleccionaaleatoriamente una de sushistorias y se muestra lasegunda palabra de esa historia.Por ejemplo, se selecciona lahistoria "corresponde a" porquees la única, pero en caso dehaber más de una, se seleccionauna de ellas aleatoriamente. Semuestra la segunda palabra, "a".Hasta este momento tenemos lafrase "ESTA ORACIONCORRESPONDE A".6.- Se continua la búsqueda enel bloque4 que contienehistorias que finalizanoraciones. Las historias queinteresan de este bloque sonaquellas que comienzan con laúltima palabra de la últimahistoria seleccionada en lospasos previos. Se forma el subbloque41.Por ejemplo, las historias queinteresan de este bloque seríanlas tripletas que comienzan con"a". En este ejemplo, noencontramos en el bloque4historias que comiencen con"a". Es decir que el subbloque41es vacío.7.- Si el sub-bloque41 es novacío, entonces se seleccionaaleatoriamente una historia y semuestran sus dos últimaspalabras. Aquí finaliza lageneración de una oración.8.- Se actualiza w 1 con elcódigo de la palabra con la quefinaliza la última historiaseleccionada.Para el ejemplo, que se presentaaquí, w 1 tomaría el índice de"a".9.- Volvemos al paso 2.Para el ejemplo, después de volver al paso 2y encontrar una historia en el bloque4, seobtiene la oración "ESTA ORACIONCORRESPONDE A UN RITMOSILABICO".La mayoría de las oraciones que se generande esta manera no aparecen en el (los)corpus de entrenamiento, es decir, se formana través de la conexión adecuada de lashistorias codificadas.La oración que mostramos en el ejemplo noaparece en el corpus, pero si aparecen lasoraciones que mostramos a continuación yque por sus componentes podemos darnoscuenta que intervienen mucho en laproducción de la oración mencionada.a.- ESTE TIPO DE ORACIONCORRESPONDE A UN ENUNCIADONEUTRO DESPROVISTO DE ASPECTOSEXPRESIVOS Y APELATIVOSESPECIALES.b.- CORRESPONDE A LA ULTIMASILABA PORTADORA DE ACENTOLEXICO EN EL GRUPO MELODICO.c.- ESTA ORACION DECLARATIVAESTA CONSTITUIDA POR TRESUNIDADES TONALES.En resumen, la generación de una oración,se hace entonces con una búsqueda sucesivade palabras en las historias de los bloque3,bloque2 y bloque4.El proceso finaliza cuando se encuentra almenos una historia en el bloque final(bloque4) o cuando no aparece ningunahistoria en ninguno de los tres bloques quepueda continuar a una precedente. Este casose puede presentar cuando se selecciona unahistoria que en el corpus está ubicada al finalde una oración, estas historias confrecuencia finalizan con palabras que noforman otras historias por lo tanto ningunahistoria las podrá seguir.En este trabajo, se diseñó y construyó (porprogramación) el generador de oracionesdescrito, con el fin de tener una idea de lassecuencias de palabras que podría reconocerel descodificador linguístico queposteriormente desarrollaríamos y quedescribiremos en la próxima sección. En estemomento podemos suponer que el modelode contexto es una red de historiascodificadas que contiene las oraciones quepueden ser reconocidas por el descodificadorlinguístico. La utilidad del generador deoraciones en este trabajo fue prevista sólopara mostrar las oraciones presentes en elmodelo y que por lo tanto pueden serreconocidas.

5.- Reconocedor o descodificadorlinguístico.La parte de un reconocedor del hablaque convierte los datos acústicos de unapronunciación en una secuencia de símboloslinguísticos (por ejemplo, una secuencia defonos, una secuencia de palabras, etc.) sellama Descodificador Acústico, mientras queel Descodificador Linguístico es la parte delreconocedor del habla que determina si esasecuencia de símbolos corresponde a unaoración válida de un lenguaje [2].Tal como se aprecia en la figura 1, en estetrabajo sólo se desarrolla el descodificadorlinguístico por lo que sus pruebas se realizansuponiendo que de existir un descodificadoracústico, recibiría de éste una secuencia depalabras.El procedimiento a través del cual el sistemapuede reconocer una secuencia de palabras(w 1 , w 2 , ..., w n ) [2] como gramaticalmentecorrecta a partir del modelo de contexto, sepresenta a continuación:1.- Recibe la primera palabra dela secuencia, w 1 .2.- Averigua si w 1 está presenteen el vocabulario. Si w 1 noforma parte del vocabulario, larechaza y por lo tanto a lasecuencia por estar fuera delcontexto. Si pertenece alvocabulario muestra w 1 en lapantalla.3.-Busca historias que seinicien con w 1 en bloque2 ybloque3. De esta manera segeneran dos nuevos bloques deposibles partes de oracionesque de acuerdo al lenguaje quemodelan, podrían formarsepartiendo de w 1 . Uno de esosbloques es producto de labúsqueda en bloque2,llamémoslo bloque21 y otro,producto de la búsqueda enbloque3, el bloque31. Segeneran de esta manera,hipótesis parciales deoraciones. Esto constituye,creemos, una forma paraagilizar el proceso, puesto quela búsqueda de la palabrasiguiente, w 2 , de la secuencia areconocer se haría solo enbloque21 y bloque31.Puede ocurrir que no seencuentren historias que seinicien con w 1 , es decir, puedeocurrir que el bloque21 y elbloque31 resulten vacíos. Eneste caso, en el modelo no haypalabras que puedan seguir a w 1por lo que el reconocedor noadmitirá la oración (lasecuencia de palabras) yfinalizará el reconocimiento.4.- Se recibe la siguientepalabra de la secuencia, w 2 . Siforma parte del vocabulario,entonces se busca su ocurrenciaen las historias presentes en elbloque21 y en el bloque31, encaso contrario se rechaza lasecuencia.5.- Si el bloque21 ó el bloque31son no vacíos, se descartan deestos bloques aquellas historiasque no contengan a w 2 despuésde w 1 . Si quedan historias quecontengan a w 2 siguiendo a w 1se muestra w 2 en pantalla, encaso contrario se rechaza lasecuencia y se termina sureconocimiento. Esto puedeocurrir, debido a que el par (w 1w 2 ) no aparece en el corpus deentrenamiento.6.- Se vuelve al punto 3,trabajando con w 2 en lugar dew 1 , es decir, cada vez que ladescodificación llega a estepunto, se re-inicia el recorridotrabajando con la últimapalabra tratada en el recorridoprevio.El reconocimiento de la secuencia depalabras tiene dos formas de finalización:una cuando el descodificador la rechazadebido a que según el modelo no es válida oporque no pertenece al contexto y otra,cuando se recibe el símbolo $ que es elindicador de fin de oración, en este últimocaso tendremos una oración gramaticalmentecorrecta.Por ejemplo, el descodificador linguísticoreconocería como válida la secuencia "estaoración corresponde a un rítmo silábico $"(suponiendo que dicha secuencia la recibedesde un descodificador acústico cuya salida

sean palabras), puesto que hemos visto queel generador puede producir dicha oración.Se puede dar el caso de que se rechacensecuencias que pertenezcan al contexto yque sean gramaticalmente válidas. Esto sepuede superar re-entrenando el modelo connuevos corpus del mismo contexto.Se puede apreciar que el reconocedor revisasi la secuencia de palabras que recibe escorrecta desde el punto de vista de las reglasgramaticales del lenguaje al cual estáasociado el contexto y determina también,si forma parte del contexto que se modela.Aunque los modelos de contextos descritospueden pensarse como una combinación deBigramas y Trigramas, en este trabajo nopodemos hablar de modelos n-gramasestocásticos, ni de autómatas de estadosfinitos estocásticos[2], puesto que para laforma como se hace la descodificación no seutilizan las probabilidades. De hecho, estedescodificador no mide la probabilidad deque las secuencias estén modeladas o no,simplemente si puede formar una oraciónque esté en el modelo la acepta de locontrario la rechaza.6.- Pruebas.Los ensayos que se hicieron consistieronen:1.- Se realizó una prueba inicial con uncorpus formado por 160 oraciones y párrafosde distintas longitudes. Se trabajó conlongitudes de entre tres y sesenta y trespalabras. Las oraciones fueron tomadas deun texto propio de la lingüística. El corpuscompleto comprendía 2563 palabras.2.- Se obtuvo el vocabulario que manejaríantanto el módulo reconocedor como elmódulo generador. El vocabulario alprincipio fue de 816 palabras.3.- Se buscaron en el texto, el bloque1, elbloque2, el bloque3 y el bloque4 queconstituyen el modelo del contexto. Esteproceso tuvo una duración aproximada dedos horas en una máquina PC Pentium a 133Mhz.4.- Se generaron bloques de oraciones. Esteproceso se repitió unas 30 veces. Cadabloque generado comprendía diez oraciones.5.- Se realizó el reconocimiento deoraciones. La prueba consistió en que dadassecuencias de palabras, se averiguaba sidicha secuencias podían ser reconocidasusando el modelo del contexto.6.- Se tomaron de nuevo, pequeños corpusde 10 y 20 oraciones y se repitió elprocedimiento.7.- Resultados.1.- Se pueden utilizar nuevos corpus enforma incremental sin que se pierda lainformación codificada en ensayosanteriores.2.- Las oraciones generadas, son en general,más pequeñas en longitud respecto a lascontenidas en el corpus de entrenamiento.3.- El número de oraciones generadasdepende de la longitud del corpus deentrenamiento.4.- El número de oraciones generadas queson válidas en cuanto a la gramática y alcontexto supera el 70% del total de las quese generaron en los ensayos.5.- El número de oraciones reconocidas queson gramaticalmente correctas y quepertenecen al contexto es cercano al 90%,cuando esas oraciones se escogen muyparecidas a las del corpus de entrenamiento.6.- Cerca del 90% de las oracionesgeneradas no pertenecen al corpus deentrenamiento, a excepción de algunasoraciones cortas, de tres, cuatro y hastacinco palabras.7.- No es posible reconocer todas lasoraciones y párrafos, tal como aparecen en elcorpus de entrenamiento.8.- Conclusiones.En forma incremental se puede lograrcada vez mejor robustés tanto del móduloreconocedor como del generador deoraciones. Claro está, esto conlleva lentituddurante el re-ajuste del modelo, quedependerá de la aplicación y de la máquina.Como se pueden generar grandes cantidadesde oraciones, se puede también reconocer unnúmero grande de frases y oraciones.Debido a la gran cantidad de oraciones quese pueden generar y que no pertenecen alcorpus de entrenamiento, es posible, tambiénreconocer una gran cantidad de oraciones yfrases no necesariamente propias delcontexto que se modela, pero si propias dellenguaje en el que está escrito el corpus.No es posible reconocer todas las oracionesy párrafos, tal como aparecen en el corpusde entrenamiento debido a que en lamemoria del sistema no aparecen todas lashistorias presentes en el corpus. Lo que

podría superarse si se almacenan todas lashistorias que aparecen en el texto, pero estoconllevaría a que la búsqueda tanto enreconocimiento como en generación fuesemás lenta.Trabajando con la codificación y lostamaños de las historias que hemos indicado,se puede crear modelos aceptables decontextos.Se trata de un reconocedor, un generador deoraciones y un modelador de lenguaje,altamente determinístico.Se puede hablar de modelar un lenguaje,porque creemos que el modelado decontextos, de esta manera, puedeextrapolarse al lenguaje al cual estánasociados los contextos.Este tipo de descodificador linguísticopodría funcionar en aplicaciones dereconocimiento donde el tamaño delvocabulario abarca varios miles de palabras.9.- Referencias.1.- A. Bonafonte and J. Mariño, "LanguageModeling using X-Grams", InternationalConference on Spoken LanguageProcessing, ICSLP-96.2.- J. Deller, J. Proakis and J. Hansen,Discrete-Time Processing of Speech Signals.Macmillan Publishing Company.

Sistema Incremental Generador de Oraciones y de DescodificaciÃ³n ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?