A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

Errores ortográficos y de competencia en textos de la web en euskeraOrthographic and competence errors in the Basque WebIñaki Alegria, Izaskun EtxeberriaIXA taldea. Euskal Herriko Unibertsitatea649 Postakutxa. 20080 Donostiaizaskun.etxeberria@ehu.esIgor LeturiaElhuyar FundazioaZelai Haundi kalea 3. 20170 Usurbii.leturia@elhuyar.comResumen: En este trabajo se estima la calidad de los corpus en euskera obtenidos de laWeb siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para elinglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar unidioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficospara reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor delos errores que se estudian, además de la reutilización de recursos previamentedesarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajomanual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de graninterés para detectar los distintos tipos de textos obtenidos de la Web en euskera según sucorrección, y filtrar aquellos que pueden generar problemas o no tienen una calidadmínima.Palabras clave: web as a corpus, errores ortográficos y de competencia, OCR, euskeraAbstract: The objective of the work presented in this paper is to estimate the quality ofcorpora retrieved from the Basque Web. The methodology i followed is similar to thatused for English and Germany by Ringlstetter et al. (2006). The main difference lies in thefact that we reuse spelling checkers for detecting errors. We think that by this way weobtain a higher error coverage and that the method can be applied to other languages withpractically no manual work provided such tools are available for them. The resultsobtained can be useful for improving the quality of corpora obtained from the web,eliminating documents containing errors over a given threshold.Keywords: web as a corpus, spelling, competence errors, OCR, Basque1 Introducción, objetivos y trabajosrelacionadosEl análisis de errores de grandes corpus tienemuchas utilidades. Entre las más destacadasestá la selección de corpus de calidad suficientecuando se usa la web como un corpus (web as acorpus - WAC) para extraer evidenciaslingüísticas, colocaciones, terminología, etc.; yaque si la calidad de los corpus no estágarantizada los resultados pueden no ser loadecuados que se esperaba.Cuando se obtienen automáticamentegrandes cantidades de texto siempre hay unaparte de los mismos que da problemas pordistintas razones: formateado, conversión,transcripción, uso dialectal, coloquial oincorrecto, intercalación de textos en otrosidiomas o de distinto registros, identificaciónincorrecta del idioma, etc. En la sección 4.4 deltrabajo de Kilgarriff y Grefenstette (2009) hayejemplos de algunos de estos problemas.Este trabajo se enmarca en las tareas de usarla web como una fuente de datos abundantes yactuales para el estudio y desarrollo deherramientas para, en este caso, el euskera. Losdatos de experimentación se basan en lostrabajos anteriores de Leturia et al. (2008). Elobjetivo es poder detectar los distintos tipos detextos según su corrección y filtrar aquellos quepueden generar problemas.La metodología que utilizamos es similar ala utilizada por Ringlstetter et al. (2006) en suinteresante aportación. En este trabajo ellos

estudian la distribución de los erroresortográficos de varios tipos de paginas web eninglés y alemán y, entre otras conclusionescalculan los umbrales de las tasas de error paraclasificar los documentos como excelentes,buenos, malos y descartables. Distinguen dostipos de corpus (generales y específicos), dostipos de documentos (HTML y pdf) y estudiancuatro tipos de errores: tipográficos, decodificación, cognitivos y OCR.Tras diseñar y poner en marcha un sistemade crawling para obtener las muestras que lesinteresan para cada tipo de textos, tokenizan yeliminan palabras conflictivas (palabras conmayúsculas, cifras, palabras cortas...).Paralelamente generan diccionarios de errorespara cada tipo de error, trabajo que hacen deforma semiautomática. Finalmente cuentan elnúmero de errores de cada tipo que aparecen encada documento, hacen estadísticas y obtienenlas características de cada clase de documento.Tomando como referencia esta metodologíahemos diseñado un sistema con los mismosobjetivos para la web en euskera, pero conciertas diferencias remarcables:• El trabajo de crawling se evitareutilizando trabajos anteriores (Leturiaet al., 2008). A partir de esos corpus seobtiene una muestra al azar para cadatipo de corpus y documento (versección 3).• No se utiliza una lista de errores sinocorrectores basados en estados finitosque se habían desarrolladoanteriormente (sección 2). Al tratar unidioma de gran riqueza morfológicacreemos que esta opción es másadecuada, aunque en ciertos casostomaremos como errores algunaspalabras correctas que no sonreconocidas como tales (p. ej.neologismos que se parecen a errores depalabras existentes). Sobre esto sediscute en la sección 3.2.• Se quieren estimar los errorestipográficos, cognitivos y OCR, perolos de codificación quedan fuera denuestros objetivos ya que no se handetectado problemas especiales en esesentido.• En un futuro se quiere completar elestudio con la detección de textos eneuskera dialectal y diacrónico.Otro tema relacionado interesante es usar laweb para detectar y corregir errores (Whitelawet al., 2009).A continuación, en la sección 2,introducimos la morfología de estados finitos ysu utilización para generar correctores.Posteriormente, en la sección 3, se describen elentorno experimental y los resultadosobtenidos, y finalmente en la sección 4 sepresentan las conclusiones y los trabajosplanificados para el futuro.2 Morfología de estados finitos ycorrectoresEn esta sección se presentan los distintosanalizadores/verificadores utilizados precedidospor una revisión de la tecnología en que estánbasados y de la herramienta utilizada.2.1 TecnologíaUn procesador morfológico es una herramientabásica para el PLN. Si el idioma es de flexiónrica una lista de palabras con su análisiscorrespondiente (como la que se usa en ciertasaplicaciones para ciertos idiomas) no es unasolución adecuada.La tecnología de estados finitos ha sidoaplicada exitosamente para el desarrollo deanalizadores y generadores morfológicos. Lamorfología se describe por medio de dosficheros, (1) el léxico, donde se describen losmorfemas y los conjuntos de morfemas que lespueden seguir (morfotáctica); (2) las reglasfonológicas, que describen los cambiosproducidos al encadenar los morfemas (Beesley& Karttunen, 2009). Todos los elementos secompilan en transductores que puedencomponerse en uno solo y tanto el análisiscomo la generación de palabras se realiza agran velocidad.Las reglas fonológicas pueden ser paralelaso secuenciales (Alegria et al., 2009). Lasparalelas tienen la ventaja de que el orden no essignificativo y que no hace falta definirlenguajes intermedios entre las palabras deltexto (nivel superficial) y la representaciónléxica (nivel léxico). Sin embargo estas reglasdeben tener en cuenta en sus contextos losefectos de las reglas relacionadas, y estomuchas veces es fuente de errores. Ambos tiposde reglas pueden ser compiladas y convertidas atransductores muy eficientes. Estos

transductores son los datos de los procesadoresmorfológicos correspondientes, que sirven tantopara análisis como para generación.Se han desarrollado procesadoresmorfológicos basados en esta tecnología paragran cantidad de idiomas, incluyendo finés,euskera, turco, zulú e inglés. Esta tecnología seha aplicado especialmente a los idiomasmorfológicamente ricos, ya que las solucionesmás simples que se utilizaban anteriormente noeran adecuadas para ellos.Si se dispone de un procesador morfológicola construcción de un corrector ortográfico escasi inmediata: las palabras correctas son lasque pueden ser analizadas (Kukich, 1992)(Alegria et al., 2002).2.2 HerramientasEl toolkit de Xerox (Beesley & Karttunen,2009) proporciona herramientas para reglasparalelas (twolc) y reglas secuenciales (xfst),además de para el léxico (lexc). Su experienciaindica que el uso de reglas secuenciales resultaa la larga más cómodo, tendencia que se havisto confirmada en posterioresimplementaciones.Las herramientas de Xerox son de grancalidad y consiguen transductores muycompactos, pero tienen un gran inconveniente;la licencia es muy restrictiva y, salvoexcepciones, no puede ser usada paraaplicaciones comerciales. Ante ello se handesarrollado en software libre herramientas quepueden sustituir las de Xerox. Queremosdestacar dos: hunspell y foma.hunspell no trabaja con transductores, peroes una solución mejor que sus predecesoresispell, aspell y myspell, ya que permite mayornúmero de paradigmas y doble encadenamientode sufijos. No acepta reglas paralelas nisecuenciales independientes del léxico, ya quelos cambios deben ser explicitados en ladescripción del léxico. Su mayor interés es queestá aceptado por las últimas versiones deOOffice y Mozilla, por lo que una descripciónpara un idioma usando hunspell devieneautomáticamente en un corrector ortográficopara estas herramientas.foma (Hulden, 2009) es un toolkit que quiereser equivalente a las herramientas xfst y lexc deXerox pero con una implementaciónindependiente y licenciado bajo GPL(http://foma.sourceforge.net/). Por lo tanto esadecuado para descripciones de morfología deestados finitos usando reglas secuenciales.Según su autor las descripciones para Xeroxfuncionan directamente, y la compilación esmás eficiente. Tiene una ventaja adicional, y esque las descripciones preparadas para lexc yxfst de Xerox se compilan directamente enfoma (salvo alguna excepción y siempre que losdatos estén en Unicode); ya que esta nuevaherramienta integra los mismos comandos y lamisma sintaxis que las herramientas citadas.Esto hace que el libro citado (Beesley &Karttunen, 2009) pueda ser usado en su mayorparte como un manual de foma.2.3 Verificador ortográfico ydetectores/correctores de erroresPara detectar las palabras correctas y losdistintos tipos de errores (tipográficos,cognitivos y OCR) se han utilizado lossiguientes recursos:1. transductor del euskera estándar. Sirvepara identificar las palabras correctas.2. transductor para detección de errores decompetencia3. función med de foma sobre eltransductor estándar. Sirve para obtenerposibles errores tipográficos de adición,sustitución y eliminación.4. transductor para detección detransposiciones5. transductor para detección de erroresOCRLos vamos a describir uno a uno.Transductor del euskera estándarUsando tanto las herramientas de Xerox(Alegria et al., 2002), como foma (Alegria etal., 2009) se ha desarrollado un procesador parael euskera estándar y varios correctores.El léxico contiene más de 80.000 entradas,la morfotáctica y la correspondienteinformación morfológica relacionada.Alrededor de 23 reglas complejas describen loscambios fonológicos usando reglas paralelas(Alegria et al., 2002) o secuenciales (Alegria etal., 2009). En el segundo artículo se describe elproceso de migración de unas a otras.Transductor para errores de competenciaAdemás del transductor estándar se hadesarrollado uno ampliado (enhanced

Se debe resaltar que ciertas palabras listadascomo errores no son tales, sobre todo en el casode los errores tipográficos, donde puede serbastante habitual que ciertas palabras correctasque no están en el léxico difieran en un carácterde otras que existen. Por ejemplo la formablogean (en el blog) no es reconocida comoforma correcta y se interpreta como un errortipográfico de la palabra blokean (en el bloque).Este problema también es estudiado en(Ringlstetter et al., 2006). Otro problema amencionar es el que ciertas palabras escritas enotros idiomas se interpretan también comoerrores ortográficos, tanto por aparecer en elpropio texto como por ser etiquetas HTML queno se han podido filtrar adecuadamente. Estopodría ser tratado por medio de un filtro alefecto, pero siendo el objetivo detectar corpusde una calidad mínima nos parece queconsiderarlos como errores también cumple sufunción.Por lo dicho anteriormente se concluye quelos llamados real-word errors (errores quegeneran palabras correctas) (Kukich, 1992) nose tendrán en cuenta, ni tampoco lostipográficos con más de un error en cadapalabra, pero esto es lo habitual en este tipo deestudios.3.2 ResultadosLos resultados para los distintos tipos de corpusy de documentos se presentan a continuación.El la figura 1 y en la figura 2 se muestran losresultados de los tres tipos de errores(competencia, tipográficos y OCR) para lamuestra del corpus general.2520151050err. Conoc err. Tipog. err. OCR0 500 1000 1500 2000Fig 1.- Tasa de error en documentos HTML2520151050err.Conocim.err. Tipog.err. OCR0 200 400 600 800 1000Fig 2.- Tasa de error en documentos PDFEn la figura 1 se reflejan los resultados paralos documentos HTML y en la figura 2 para losde tipo PDF.Examinando ambas gráficas podemosobservar que los resultados son similares:• Más de la mitad de los documentos nocontienen prácticamente errores. Loserrores se concentran en un 10% de losdocumentos.• Los errores de competencia soncomparables a los tipográficos. A laespera de un análisis máspormenorizado de los resultados estoconfirma nuestra hipótesis de lainfluencia del uso dialectal y otrasvariantes de las formas estándaresactuales.• Los errores OCR son mucho menosnumerosos que los de otro tipo.Contrariamente a lo que esperábamos latasa de errores OCR es similar enambos tipos de formatos, lo que sepuede observar con más detalle en lafigura 3. Esto parece indicar (y así lohemos comprobado en una análisisprevio buscando desviaciones OCR delas palabras más habituales en euskera)la mínima presencia de documentosescaneados sin verificar.Reflejamos los datos obtenidos para elcorpus de informática que son similares a losdel corpus de biotecnología (menosrepresentativo por el tamaño del corpus).

3.52.51.50.5Fig 3.- Tasa de error OCR en documentosHTML y PDFEn la figura 4 se reflejan los mismos datosque en las figuras 1 y 2 pero para textosespecializados.98765432103210HTMLPDF1 2 3 4 5 6 7 8 9 1011121314151617181920err.Conocim.err. Tipog.err. OCR0 100 200 300 400 500Fig 4.- Tasa de error en documentos deinformáticaLos de turismo tienen un comportamientomás similar al corpus general, lo que es normalya que no se puede considerar un dominiotécnico.Comparando los errores en el corpus generalcon los de los documentos técnicos se confirmaque los documentos técnicos contienen menoserrores.Sin embargo comparando los resultados parael euskera con los obtenidos para el inglés yalemán en (Ringlstetter et al., 2006) se detectauna mayor tasa de errores para el conjunto delos documentos, debido a la utilización dereconocedores/ analizadores genéricos y no delistas preparadas al efecto. A la espera de unestudio manual de los resultados, podemosdecir que en el trabajo de referencia seconseguía más precisión en la detección deerrores y en nuestro sistema se consigue mayorcobertura.Antes de establecer una clasificación similara la propuesta por Ringlstetter et al. (2006) (conporcentajes de textos clasificados comoexcelentes, buenos, regulares y malos) esnecesario un estudio manual más detallado delos resultados obtenidos. Un problema quehemos detectado es la aparición de textosdialectales y diacrónicos que no encajan enninguna de las categorías previstas (correcto,tipográfico, competencia y OCR). Estamospreparando un detector de textos escritos eneuskera dialectal.4 Conclusiones y trabajo futuroEn nuestro trabajo hemos tomado como base eltrabajo de Ringlstetter et al. (2006) y comoobjeto de estudio y experimentación unamuestra de los corpus recuperados en lostrabajos de Leturia et al. (2008). Sin embargonuestro trabajo difiere del mencionado en que altratar un idioma de gran riqueza morfológicahemos optado por transductores para reconocererrores en lugar de listas de errores. Esto traeconsigo, en nuestra opinión, una coberturamayor de los errores que se estudian, además dela reutilización de recursos previamentedesarrollados, lo que hace el método interesantepara aplicarlo, sin prácticamente trabajomanual, a lenguas que tienen disponibles estosrecursos.Los resultados van a ser de gran interés paradetectar los distintos tipos de textos obtenidosde la Web en euskera según su corrección, yfiltrar aquellos que pueden generar problemas ono tienen una calidad mínima.AgradecimientosProyecto parcialmente subvencionado por losproyectos OpenMT2 (Ministerio de Ciencia eInnovación, TIN2009-14675-C03-01) yBerbatek (Eusko Jaurlaritza, IE09-262). Graciasa Mans Hulden por su ayuda en la construcciónde los transductores usando foma.

BibliografíaAlegria I., Aranzabe M., Ezeiza A., Ezeiza N.,Urizar R. 2002. Using Finite State Technology inNatural Language Processing of Basque. LNCS:Implementation and Application of Automata.2002. Springer.Alegria I., Etxeberria I., Hulden H., Maritxalar M.2009. Porting Basque Morphological Grammarsto foma, an Open-Source Tool. FSMNLP2009.Pretoria. South Africa.Beesley K. R. and Karttunen L. 2003. Finite StateMorphology. CSLI Publications, Palo Alto, CA.Hulden M. 2009. Foma: a Finite-State Compiler andLibrary. EACL 2009. Demo session. pp 29-32.Kilgarriff, A. and Grefenstette, G. 2003.Introduction to the special issue on the web ascorpus. Computational linguistics, 29(3): 333-347. MIT Press.Kukich K. 1992. Techniques for AutomaticallyCorrec-ting Words in Text. ACM Comput. Surv.24(4): 377-439.Leturia I., San Vicente I., Saralegi X. and Lopez deLacalle M. 2008. Collecting Basque specializedcorpora from the web: language-specificperformance tweaks and improving topicprecision. Proc. of the 4th. Web as CorpusWorkshop. LREC 2008.Ringlstetter, C. and Schulz, K.U. and Mihov, S.2006. Orthographic errors in web pages: Towardcleaner web corpora. Computational Linguistics,32(3): 295-340. MIT Press.Sharoff, S. 2006. Creating General-Purpose CorporaUsing Automated Search Engine Queries.WaCky! Working Papers on the Web as Corpus,63-98. Ed. Marco Baroni and Silvia Bernardini.Bologna.Whitelaw C., Hutchinson B., Chung, G.Y. and EllisG. 2009. Using the web for languageindependent spellchecking and autocorrection.Proceedings of the 2009 Conference onEmpirical Methods in Natural LanguageProcessing: Volume 2, 890-899.

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

Create successful ePaper yourself

Delete template?

Save as template?