12.07.2015 Views

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

estudian la distribución de los erroresor<strong>to</strong>gráficos de varios tipos de paginas web eninglés y alemán y, entre otras conclusionescalculan los umbrales de las tasas de error paraclasificar los documen<strong>to</strong>s como excelentes,buenos, malos y descartables. Distinguen dostipos de corpus (generales y específicos), dostipos de documen<strong>to</strong>s (HTML y pdf) y estudiancuatro tipos de errores: tipográficos, decodificación, cognitivos y OCR.Tras diseñar y poner en marcha un sistemade crawling para obtener las muestras que lesinteresan para cada tipo de tex<strong>to</strong>s, <strong>to</strong>kenizan yeliminan palabras conflictivas (palabras conmayúsculas, cifras, palabras cortas...).Paralelamente generan diccionarios de errorespara cada tipo de error, trabajo que hacen deforma semiau<strong>to</strong>mática. Finalmente cuentan elnúmero de errores de cada tipo que aparecen encada documen<strong>to</strong>, hacen estadísticas y obtienenlas características de cada clase de documen<strong>to</strong>.Tomando como referencia esta me<strong>to</strong>dologíahemos diseñado un sistema con los mismosobjetivos para la web en euskera, pero conciertas diferencias remarcables:• El trabajo de crawling se evitareutilizando trabajos anteriores (Leturiaet al., 2008). A partir de esos corpus seobtiene una muestra al azar para cadatipo de corpus y documen<strong>to</strong> (versección 3).• No se utiliza una lista de errores sinocorrec<strong>to</strong>res basados en estados fini<strong>to</strong>sque se habían desarrolladoanteriormente (sección 2). Al tratar unidioma de gran riqueza morfológicacreemos que esta opción es másadecuada, aunque en cier<strong>to</strong>s casos<strong>to</strong>maremos como errores algunaspalabras correctas que no sonreconocidas como tales (p. ej.neologismos que se parecen a errores depalabras existentes). Sobre es<strong>to</strong> sediscute en la sección 3.2.• Se quieren estimar los errorestipográficos, cognitivos y OCR, perolos de codificación quedan fuera denuestros objetivos ya que no se handetectado problemas especiales en esesentido.• En un futuro se quiere completar elestudio con la detección de tex<strong>to</strong>s eneuskera dialectal y diacrónico.Otro tema relacionado interesante es usar laweb para detectar y corregir errores (Whitelawet al., 2009).A continuación, en la sección 2,introducimos la morfología de estados fini<strong>to</strong>s ysu utilización para generar correc<strong>to</strong>res.Posteriormente, en la sección 3, se describen elen<strong>to</strong>rno experimental y los resultadosobtenidos, y finalmente en la sección 4 sepresentan las conclusiones y los trabajosplanificados para el futuro.2 Morfología de estados fini<strong>to</strong>s ycorrec<strong>to</strong>resEn esta sección se presentan los distin<strong>to</strong>sanalizadores/verificadores utilizados precedidospor una revisión de la tecnología en que estánbasados y de la herramienta utilizada.2.1 TecnologíaUn procesador morfológico es una herramientabásica para el PLN. Si el idioma es de flexiónrica una lista de palabras con su análisiscorrespondiente (como la que se usa en ciertasaplicaciones para cier<strong>to</strong>s idiomas) no es unasolución adecuada.La tecnología de estados fini<strong>to</strong>s ha sidoaplicada exi<strong>to</strong>samente para el desarrollo deanalizadores y generadores morfológicos. Lamorfología se describe por medio de dosficheros, (1) el léxico, donde se describen losmorfemas y los conjun<strong>to</strong>s de morfemas que lespueden seguir (morfotáctica); (2) las reglasfonológicas, que describen los cambiosproducidos al encadenar los morfemas (Beesley& Karttunen, 2009). Todos los elemen<strong>to</strong>s secompilan en transduc<strong>to</strong>res que puedencomponerse en uno solo y tan<strong>to</strong> el análisiscomo la generación de palabras se realiza agran velocidad.Las reglas fonológicas pueden ser paralelaso secuenciales (Alegria et al., 2009). Lasparalelas tienen la ventaja de que el orden no essignificativo y que no hace falta definirlenguajes intermedios entre las palabras deltex<strong>to</strong> (nivel superficial) y la representaciónléxica (nivel léxico). Sin embargo estas reglasdeben tener en cuenta en sus contex<strong>to</strong>s losefec<strong>to</strong>s de las reglas relacionadas, y es<strong>to</strong>muchas veces es fuente de errores. Ambos tiposde reglas pueden ser compiladas y convertidas atransduc<strong>to</strong>res muy eficientes. Es<strong>to</strong>s

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!