A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

More documents

Recommendations

Info

estudian la distribución de los erroresortográficos de varios tipos de paginas web eninglés y alemán y, entre otras conclusionescalculan los umbrales de las tasas de error paraclasificar los documentos como excelentes,buenos, malos y descartables. Distinguen dostipos de corpus (generales y específicos), dostipos de documentos (HTML y pdf) y estudiancuatro tipos de errores: tipográficos, decodificación, cognitivos y OCR.Tras diseñar y poner en marcha un sistemade crawling para obtener las muestras que lesinteresan para cada tipo de textos, tokenizan yeliminan palabras conflictivas (palabras conmayúsculas, cifras, palabras cortas...).Paralelamente generan diccionarios de errorespara cada tipo de error, trabajo que hacen deforma semiautomática. Finalmente cuentan elnúmero de errores de cada tipo que aparecen encada documento, hacen estadísticas y obtienenlas características de cada clase de documento.Tomando como referencia esta metodologíahemos diseñado un sistema con los mismosobjetivos para la web en euskera, pero conciertas diferencias remarcables:• El trabajo de crawling se evitareutilizando trabajos anteriores (Leturiaet al., 2008). A partir de esos corpus seobtiene una muestra al azar para cadatipo de corpus y documento (versección 3).• No se utiliza una lista de errores sinocorrectores basados en estados finitosque se habían desarrolladoanteriormente (sección 2). Al tratar unidioma de gran riqueza morfológicacreemos que esta opción es másadecuada, aunque en ciertos casostomaremos como errores algunaspalabras correctas que no sonreconocidas como tales (p. ej.neologismos que se parecen a errores depalabras existentes). Sobre esto sediscute en la sección 3.2.• Se quieren estimar los errorestipográficos, cognitivos y OCR, perolos de codificación quedan fuera denuestros objetivos ya que no se handetectado problemas especiales en esesentido.• En un futuro se quiere completar elestudio con la detección de textos eneuskera dialectal y diacrónico.Otro tema relacionado interesante es usar laweb para detectar y corregir errores (Whitelawet al., 2009).A continuación, en la sección 2,introducimos la morfología de estados finitos ysu utilización para generar correctores.Posteriormente, en la sección 3, se describen elentorno experimental y los resultadosobtenidos, y finalmente en la sección 4 sepresentan las conclusiones y los trabajosplanificados para el futuro.2 Morfología de estados finitos ycorrectoresEn esta sección se presentan los distintosanalizadores/verificadores utilizados precedidospor una revisión de la tecnología en que estánbasados y de la herramienta utilizada.2.1 TecnologíaUn procesador morfológico es una herramientabásica para el PLN. Si el idioma es de flexiónrica una lista de palabras con su análisiscorrespondiente (como la que se usa en ciertasaplicaciones para ciertos idiomas) no es unasolución adecuada.La tecnología de estados finitos ha sidoaplicada exitosamente para el desarrollo deanalizadores y generadores morfológicos. Lamorfología se describe por medio de dosficheros, (1) el léxico, donde se describen losmorfemas y los conjuntos de morfemas que lespueden seguir (morfotáctica); (2) las reglasfonológicas, que describen los cambiosproducidos al encadenar los morfemas (Beesley& Karttunen, 2009). Todos los elementos secompilan en transductores que puedencomponerse en uno solo y tanto el análisiscomo la generación de palabras se realiza agran velocidad.Las reglas fonológicas pueden ser paralelaso secuenciales (Alegria et al., 2009). Lasparalelas tienen la ventaja de que el orden no essignificativo y que no hace falta definirlenguajes intermedios entre las palabras deltexto (nivel superficial) y la representaciónléxica (nivel léxico). Sin embargo estas reglasdeben tener en cuenta en sus contextos losefectos de las reglas relacionadas, y estomuchas veces es fuente de errores. Ambos tiposde reglas pueden ser compiladas y convertidas atransductores muy eficientes. Estos
transductores son los datos de los procesadoresmorfológicos correspondientes, que sirven tantopara análisis como para generación.Se han desarrollado procesadoresmorfológicos basados en esta tecnología paragran cantidad de idiomas, incluyendo finés,euskera, turco, zulú e inglés. Esta tecnología seha aplicado especialmente a los idiomasmorfológicamente ricos, ya que las solucionesmás simples que se utilizaban anteriormente noeran adecuadas para ellos.Si se dispone de un procesador morfológicola construcción de un corrector ortográfico escasi inmediata: las palabras correctas son lasque pueden ser analizadas (Kukich, 1992)(Alegria et al., 2002).2.2 HerramientasEl toolkit de Xerox (Beesley & Karttunen,2009) proporciona herramientas para reglasparalelas (twolc) y reglas secuenciales (xfst),además de para el léxico (lexc). Su experienciaindica que el uso de reglas secuenciales resultaa la larga más cómodo, tendencia que se havisto confirmada en posterioresimplementaciones.Las herramientas de Xerox son de grancalidad y consiguen transductores muycompactos, pero tienen un gran inconveniente;la licencia es muy restrictiva y, salvoexcepciones, no puede ser usada paraaplicaciones comerciales. Ante ello se handesarrollado en software libre herramientas quepueden sustituir las de Xerox. Queremosdestacar dos: hunspell y foma.hunspell no trabaja con transductores, peroes una solución mejor que sus predecesoresispell, aspell y myspell, ya que permite mayornúmero de paradigmas y doble encadenamientode sufijos. No acepta reglas paralelas nisecuenciales independientes del léxico, ya quelos cambios deben ser explicitados en ladescripción del léxico. Su mayor interés es queestá aceptado por las últimas versiones deOOffice y Mozilla, por lo que una descripciónpara un idioma usando hunspell devieneautomáticamente en un corrector ortográficopara estas herramientas.foma (Hulden, 2009) es un toolkit que quiereser equivalente a las herramientas xfst y lexc deXerox pero con una implementaciónindependiente y licenciado bajo GPL(http://foma.sourceforge.net/). Por lo tanto esadecuado para descripciones de morfología deestados finitos usando reglas secuenciales.Según su autor las descripciones para Xeroxfuncionan directamente, y la compilación esmás eficiente. Tiene una ventaja adicional, y esque las descripciones preparadas para lexc yxfst de Xerox se compilan directamente enfoma (salvo alguna excepción y siempre que losdatos estén en Unicode); ya que esta nuevaherramienta integra los mismos comandos y lamisma sintaxis que las herramientas citadas.Esto hace que el libro citado (Beesley &Karttunen, 2009) pueda ser usado en su mayorparte como un manual de foma.2.3 Verificador ortográfico ydetectores/correctores de erroresPara detectar las palabras correctas y losdistintos tipos de errores (tipográficos,cognitivos y OCR) se han utilizado lossiguientes recursos:1. transductor del euskera estándar. Sirvepara identificar las palabras correctas.2. transductor para detección de errores decompetencia3. función med de foma sobre eltransductor estándar. Sirve para obtenerposibles errores tipográficos de adición,sustitución y eliminación.4. transductor para detección detransposiciones5. transductor para detección de erroresOCRLos vamos a describir uno a uno.Transductor del euskera estándarUsando tanto las herramientas de Xerox(Alegria et al., 2002), como foma (Alegria etal., 2009) se ha desarrollado un procesador parael euskera estándar y varios correctores.El léxico contiene más de 80.000 entradas,la morfotáctica y la correspondienteinformación morfológica relacionada.Alrededor de 23 reglas complejas describen loscambios fonológicos usando reglas paralelas(Alegria et al., 2002) o secuenciales (Alegria etal., 2009). En el segundo artículo se describe elproceso de migración de unas a otras.Transductor para errores de competenciaAdemás del transductor estándar se hadesarrollado uno ampliado (enhanced
Page 1: Errores ortográficos y de competen
Page 7 and 8: 3.52.51.50.5Fig 3.- Tasa de error O

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

Create successful ePaper yourself

Delete template?

Save as template?