12.07.2015 Views

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Errores or<strong>to</strong>gráficos y de competencia en tex<strong>to</strong>s de la web en euskeraOrthographic and competence errors in the Basque WebIñaki Alegria, Izaskun EtxeberriaIXA taldea. Euskal Herriko Unibertsitatea649 Postakutxa. 20080 Donostiaizaskun.etxeberria@ehu.esIgor Leturia<strong>Elhuyar</strong> <strong>Fundazioa</strong>Zelai Haundi kalea 3. 20170 Usurbii.leturia@elhuyar.comResumen: En este trabajo se estima la calidad de los corpus en euskera obtenidos de laWeb siguiendo una me<strong>to</strong>dología similar a la propuesta por Ringlstetter et al. (2006) para elinglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar unidioma de gran riqueza morfológica hemos optado por reutilizar verificadores or<strong>to</strong>gráficospara reconocer los errores. Es<strong>to</strong> trae consigo, en nuestra opinión, una cobertura mayor delos errores que se estudian, además de la reutilización de recursos previamentedesarrollados, lo que hace el mé<strong>to</strong>do interesante para aplicarlo, sin prácticamente trabajomanual, a lenguas que tienen disponibles es<strong>to</strong>s recursos. Los resultados van a ser de graninterés para detectar los distin<strong>to</strong>s tipos de tex<strong>to</strong>s obtenidos de la Web en euskera según sucorrección, y filtrar aquellos que pueden generar problemas o no tienen una calidadmínima.Palabras clave: web as a corpus, errores or<strong>to</strong>gráficos y de competencia, OCR, euskeraAbstract: The objective of the work presented in this paper is <strong>to</strong> estimate the quality ofcorpora retrieved from the Basque Web. The methodology i followed is similar <strong>to</strong> thatused for English and Germany by Ringlstetter et al. (2006). The main difference lies in thefact that we reuse spelling checkers for detecting errors. We think that by this way weobtain a higher error coverage and that the method can be applied <strong>to</strong> other languages withpractically no manual work provided such <strong>to</strong>ols are available for them. The resultsobtained can be useful for improving the quality of corpora obtained from the web,eliminating documents containing errors over a given threshold.Keywords: web as a corpus, spelling, competence errors, OCR, Basque1 Introducción, objetivos y trabajosrelacionadosEl análisis de errores de grandes corpus tienemuchas utilidades. Entre las más destacadasestá la selección de corpus de calidad suficientecuando se usa la web como un corpus (web as acorpus - WAC) para extraer evidenciaslingüísticas, colocaciones, terminología, etc.; yaque si la calidad de los corpus no estágarantizada los resultados pueden no ser loadecuados que se esperaba.Cuando se obtienen au<strong>to</strong>máticamentegrandes cantidades de tex<strong>to</strong> siempre hay unaparte de los mismos que da problemas pordistintas razones: formateado, conversión,transcripción, uso dialectal, coloquial oincorrec<strong>to</strong>, intercalación de tex<strong>to</strong>s en otrosidiomas o de distin<strong>to</strong> registros, identificaciónincorrecta del idioma, etc. En la sección 4.4 deltrabajo de Kilgarriff y Grefenstette (2009) hayejemplos de algunos de es<strong>to</strong>s problemas.Este trabajo se enmarca en las tareas de usarla web como una fuente de da<strong>to</strong>s abundantes yactuales para el estudio y desarrollo deherramientas para, en este caso, el euskera. Losda<strong>to</strong>s de experimentación se basan en lostrabajos anteriores de Leturia et al. (2008). Elobjetivo es poder detectar los distin<strong>to</strong>s tipos detex<strong>to</strong>s según su corrección y filtrar aquellos quepueden generar problemas.La me<strong>to</strong>dología que utilizamos es similar ala utilizada por Ringlstetter et al. (2006) en suinteresante aportación. En este trabajo ellos


estudian la distribución de los erroresor<strong>to</strong>gráficos de varios tipos de paginas web eninglés y alemán y, entre otras conclusionescalculan los umbrales de las tasas de error paraclasificar los documen<strong>to</strong>s como excelentes,buenos, malos y descartables. Distinguen dostipos de corpus (generales y específicos), dostipos de documen<strong>to</strong>s (HTML y pdf) y estudiancuatro tipos de errores: tipográficos, decodificación, cognitivos y OCR.Tras diseñar y poner en marcha un sistemade crawling para obtener las muestras que lesinteresan para cada tipo de tex<strong>to</strong>s, <strong>to</strong>kenizan yeliminan palabras conflictivas (palabras conmayúsculas, cifras, palabras cortas...).Paralelamente generan diccionarios de errorespara cada tipo de error, trabajo que hacen deforma semiau<strong>to</strong>mática. Finalmente cuentan elnúmero de errores de cada tipo que aparecen encada documen<strong>to</strong>, hacen estadísticas y obtienenlas características de cada clase de documen<strong>to</strong>.Tomando como referencia esta me<strong>to</strong>dologíahemos diseñado un sistema con los mismosobjetivos para la web en euskera, pero conciertas diferencias remarcables:• El trabajo de crawling se evitareutilizando trabajos anteriores (Leturiaet al., 2008). A partir de esos corpus seobtiene una muestra al azar para cadatipo de corpus y documen<strong>to</strong> (versección 3).• No se utiliza una lista de errores sinocorrec<strong>to</strong>res basados en estados fini<strong>to</strong>sque se habían desarrolladoanteriormente (sección 2). Al tratar unidioma de gran riqueza morfológicacreemos que esta opción es másadecuada, aunque en cier<strong>to</strong>s casos<strong>to</strong>maremos como errores algunaspalabras correctas que no sonreconocidas como tales (p. ej.neologismos que se parecen a errores depalabras existentes). Sobre es<strong>to</strong> sediscute en la sección 3.2.• Se quieren estimar los errorestipográficos, cognitivos y OCR, perolos de codificación quedan fuera denuestros objetivos ya que no se handetectado problemas especiales en esesentido.• En un futuro se quiere completar elestudio con la detección de tex<strong>to</strong>s eneuskera dialectal y diacrónico.Otro tema relacionado interesante es usar laweb para detectar y corregir errores (Whitelawet al., 2009).A continuación, en la sección 2,introducimos la morfología de estados fini<strong>to</strong>s ysu utilización para generar correc<strong>to</strong>res.Posteriormente, en la sección 3, se describen elen<strong>to</strong>rno experimental y los resultadosobtenidos, y finalmente en la sección 4 sepresentan las conclusiones y los trabajosplanificados para el futuro.2 Morfología de estados fini<strong>to</strong>s ycorrec<strong>to</strong>resEn esta sección se presentan los distin<strong>to</strong>sanalizadores/verificadores utilizados precedidospor una revisión de la tecnología en que estánbasados y de la herramienta utilizada.2.1 TecnologíaUn procesador morfológico es una herramientabásica para el PLN. Si el idioma es de flexiónrica una lista de palabras con su análisiscorrespondiente (como la que se usa en ciertasaplicaciones para cier<strong>to</strong>s idiomas) no es unasolución adecuada.La tecnología de estados fini<strong>to</strong>s ha sidoaplicada exi<strong>to</strong>samente para el desarrollo deanalizadores y generadores morfológicos. Lamorfología se describe por medio de dosficheros, (1) el léxico, donde se describen losmorfemas y los conjun<strong>to</strong>s de morfemas que lespueden seguir (morfotáctica); (2) las reglasfonológicas, que describen los cambiosproducidos al encadenar los morfemas (Beesley& Karttunen, 2009). Todos los elemen<strong>to</strong>s secompilan en transduc<strong>to</strong>res que puedencomponerse en uno solo y tan<strong>to</strong> el análisiscomo la generación de palabras se realiza agran velocidad.Las reglas fonológicas pueden ser paralelaso secuenciales (Alegria et al., 2009). Lasparalelas tienen la ventaja de que el orden no essignificativo y que no hace falta definirlenguajes intermedios entre las palabras deltex<strong>to</strong> (nivel superficial) y la representaciónléxica (nivel léxico). Sin embargo estas reglasdeben tener en cuenta en sus contex<strong>to</strong>s losefec<strong>to</strong>s de las reglas relacionadas, y es<strong>to</strong>muchas veces es fuente de errores. Ambos tiposde reglas pueden ser compiladas y convertidas atransduc<strong>to</strong>res muy eficientes. Es<strong>to</strong>s


transduc<strong>to</strong>res son los da<strong>to</strong>s de los procesadoresmorfológicos correspondientes, que sirven tan<strong>to</strong>para análisis como para generación.Se han desarrollado procesadoresmorfológicos basados en esta tecnología paragran cantidad de idiomas, incluyendo finés,euskera, turco, zulú e inglés. Esta tecnología seha aplicado especialmente a los idiomasmorfológicamente ricos, ya que las solucionesmás simples que se utilizaban anteriormente noeran adecuadas para ellos.Si se dispone de un procesador morfológicola construcción de un correc<strong>to</strong>r or<strong>to</strong>gráfico escasi inmediata: las palabras correctas son lasque pueden ser analizadas (Kukich, 1992)(Alegria et al., 2002).2.2 HerramientasEl <strong>to</strong>olkit de Xerox (Beesley & Karttunen,2009) proporciona herramientas para reglasparalelas (twolc) y reglas secuenciales (xfst),además de para el léxico (lexc). Su experienciaindica que el uso de reglas secuenciales resultaa la larga más cómodo, tendencia que se havis<strong>to</strong> confirmada en posterioresimplementaciones.Las herramientas de Xerox son de grancalidad y consiguen transduc<strong>to</strong>res muycompac<strong>to</strong>s, pero tienen un gran inconveniente;la licencia es muy restrictiva y, salvoexcepciones, no puede ser usada paraaplicaciones comerciales. Ante ello se handesarrollado en software libre herramientas quepueden sustituir las de Xerox. Queremosdestacar dos: hunspell y foma.hunspell no trabaja con transduc<strong>to</strong>res, peroes una solución mejor que sus predecesoresispell, aspell y myspell, ya que permite mayornúmero de paradigmas y doble encadenamien<strong>to</strong>de sufijos. No acepta reglas paralelas nisecuenciales independientes del léxico, ya quelos cambios deben ser explicitados en ladescripción del léxico. Su mayor interés es queestá aceptado por las últimas versiones deOOffice y Mozilla, por lo que una descripciónpara un idioma usando hunspell devieneau<strong>to</strong>máticamente en un correc<strong>to</strong>r or<strong>to</strong>gráficopara estas herramientas.foma (Hulden, 2009) es un <strong>to</strong>olkit que quiereser equivalente a las herramientas xfst y lexc deXerox pero con una implementaciónindependiente y licenciado bajo GPL(http://foma.sourceforge.net/). Por lo tan<strong>to</strong> esadecuado para descripciones de morfología deestados fini<strong>to</strong>s usando reglas secuenciales.Según su au<strong>to</strong>r las descripciones para Xeroxfuncionan directamente, y la compilación esmás eficiente. Tiene una ventaja adicional, y esque las descripciones preparadas para lexc yxfst de Xerox se compilan directamente enfoma (salvo alguna excepción y siempre que losda<strong>to</strong>s estén en Unicode); ya que esta nuevaherramienta integra los mismos comandos y lamisma sintaxis que las herramientas citadas.Es<strong>to</strong> hace que el libro citado (Beesley &Karttunen, 2009) pueda ser usado en su mayorparte como un manual de foma.2.3 Verificador or<strong>to</strong>gráfico ydetec<strong>to</strong>res/correc<strong>to</strong>res de erroresPara detectar las palabras correctas y losdistin<strong>to</strong>s tipos de errores (tipográficos,cognitivos y OCR) se han utilizado lossiguientes recursos:1. transduc<strong>to</strong>r del euskera estándar. Sirvepara identificar las palabras correctas.2. transduc<strong>to</strong>r para detección de errores decompetencia3. función med de foma sobre eltransduc<strong>to</strong>r estándar. Sirve para obtenerposibles errores tipográficos de adición,sustitución y eliminación.4. transduc<strong>to</strong>r para detección detransposiciones5. transduc<strong>to</strong>r para detección de erroresOCRLos vamos a describir uno a uno.Transduc<strong>to</strong>r del euskera estándarUsando tan<strong>to</strong> las herramientas de Xerox(Alegria et al., 2002), como foma (Alegria etal., 2009) se ha desarrollado un procesador parael euskera estándar y varios correc<strong>to</strong>res.El léxico contiene más de 80.000 entradas,la morfotáctica y la correspondienteinformación morfológica relacionada.Alrededor de 23 reglas complejas describen loscambios fonológicos usando reglas paralelas(Alegria et al., 2002) o secuenciales (Alegria etal., 2009). En el segundo artículo se describe elproceso de migración de unas a otras.Transduc<strong>to</strong>r para errores de competenciaAdemás del transduc<strong>to</strong>r estándar se hadesarrollado uno ampliado (enhanced


Se debe resaltar que ciertas palabras listadascomo errores no son tales, sobre <strong>to</strong>do en el casode los errores tipográficos, donde puede serbastante habitual que ciertas palabras correctasque no están en el léxico difieran en un carácterde otras que existen. Por ejemplo la formablogean (en el blog) no es reconocida comoforma correcta y se interpreta como un errortipográfico de la palabra blokean (en el bloque).Este problema también es estudiado en(Ringlstetter et al., 2006). Otro problema amencionar es el que ciertas palabras escritas enotros idiomas se interpretan también comoerrores or<strong>to</strong>gráficos, tan<strong>to</strong> por aparecer en elpropio tex<strong>to</strong> como por ser etiquetas HTML queno se han podido filtrar adecuadamente. Es<strong>to</strong>podría ser tratado por medio de un filtro alefec<strong>to</strong>, pero siendo el objetivo detectar corpusde una calidad mínima nos parece queconsiderarlos como errores también cumple sufunción.Por lo dicho anteriormente se concluye quelos llamados real-word errors (errores quegeneran palabras correctas) (Kukich, 1992) nose tendrán en cuenta, ni tampoco lostipográficos con más de un error en cadapalabra, pero es<strong>to</strong> es lo habitual en este tipo deestudios.3.2 ResultadosLos resultados para los distin<strong>to</strong>s tipos de corpusy de documen<strong>to</strong>s se presentan a continuación.El la figura 1 y en la figura 2 se muestran losresultados de los tres tipos de errores(competencia, tipográficos y OCR) para lamuestra del corpus general.2520151050err. Conoc err. Tipog. err. OCR0 500 1000 1500 2000Fig 1.- Tasa de error en documen<strong>to</strong>s HTML2520151050err.Conocim.err. Tipog.err. OCR0 200 400 600 800 1000Fig 2.- Tasa de error en documen<strong>to</strong>s PDFEn la figura 1 se reflejan los resultados paralos documen<strong>to</strong>s HTML y en la figura 2 para losde tipo PDF.Examinando ambas gráficas podemosobservar que los resultados son similares:• Más de la mitad de los documen<strong>to</strong>s nocontienen prácticamente errores. Loserrores se concentran en un 10% de losdocumen<strong>to</strong>s.• Los errores de competencia soncomparables a los tipográficos. A laespera de un análisis máspormenorizado de los resultados es<strong>to</strong>confirma nuestra hipótesis de lainfluencia del uso dialectal y otrasvariantes de las formas estándaresactuales.• Los errores OCR son mucho menosnumerosos que los de otro tipo.Contrariamente a lo que esperábamos latasa de errores OCR es similar enambos tipos de forma<strong>to</strong>s, lo que sepuede observar con más detalle en lafigura 3. Es<strong>to</strong> parece indicar (y así lohemos comprobado en una análisisprevio buscando desviaciones OCR delas palabras más habituales en euskera)la mínima presencia de documen<strong>to</strong>sescaneados sin verificar.Reflejamos los da<strong>to</strong>s obtenidos para elcorpus de informática que son similares a losdel corpus de biotecnología (menosrepresentativo por el tamaño del corpus).


3.52.51.50.5Fig 3.- Tasa de error OCR en documen<strong>to</strong>sHTML y PDFEn la figura 4 se reflejan los mismos da<strong>to</strong>sque en las figuras 1 y 2 pero para tex<strong>to</strong>sespecializados.98765432103210HTMLPDF1 2 3 4 5 6 7 8 9 1011121314151617181920err.Conocim.err. Tipog.err. OCR0 100 200 300 400 500Fig 4.- Tasa de error en documen<strong>to</strong>s deinformáticaLos de turismo tienen un comportamien<strong>to</strong>más similar al corpus general, lo que es normalya que no se puede considerar un dominiotécnico.Comparando los errores en el corpus generalcon los de los documen<strong>to</strong>s técnicos se confirmaque los documen<strong>to</strong>s técnicos contienen menoserrores.Sin embargo comparando los resultados parael euskera con los obtenidos para el inglés yalemán en (Ringlstetter et al., 2006) se detectauna mayor tasa de errores para el conjun<strong>to</strong> delos documen<strong>to</strong>s, debido a la utilización dereconocedores/ analizadores genéricos y no delistas preparadas al efec<strong>to</strong>. A la espera de unestudio manual de los resultados, podemosdecir que en el trabajo de referencia seconseguía más precisión en la detección deerrores y en nuestro sistema se consigue mayorcobertura.Antes de establecer una clasificación similara la propuesta por Ringlstetter et al. (2006) (conporcentajes de tex<strong>to</strong>s clasificados comoexcelentes, buenos, regulares y malos) esnecesario un estudio manual más detallado delos resultados obtenidos. Un problema quehemos detectado es la aparición de tex<strong>to</strong>sdialectales y diacrónicos que no encajan enninguna de las categorías previstas (correc<strong>to</strong>,tipográfico, competencia y OCR). Estamospreparando un detec<strong>to</strong>r de tex<strong>to</strong>s escri<strong>to</strong>s eneuskera dialectal.4 Conclusiones y trabajo futuroEn nuestro trabajo hemos <strong>to</strong>mado como base eltrabajo de Ringlstetter et al. (2006) y comoobje<strong>to</strong> de estudio y experimentación unamuestra de los corpus recuperados en lostrabajos de Leturia et al. (2008). Sin embargonuestro trabajo difiere del mencionado en que altratar un idioma de gran riqueza morfológicahemos optado por transduc<strong>to</strong>res para reconocererrores en lugar de listas de errores. Es<strong>to</strong> traeconsigo, en nuestra opinión, una coberturamayor de los errores que se estudian, además dela reutilización de recursos previamentedesarrollados, lo que hace el mé<strong>to</strong>do interesantepara aplicarlo, sin prácticamente trabajomanual, a lenguas que tienen disponibles es<strong>to</strong>srecursos.Los resultados van a ser de gran interés paradetectar los distin<strong>to</strong>s tipos de tex<strong>to</strong>s obtenidosde la Web en euskera según su corrección, yfiltrar aquellos que pueden generar problemas ono tienen una calidad mínima.Agradecimien<strong>to</strong>sProyec<strong>to</strong> parcialmente subvencionado por losproyec<strong>to</strong>s OpenMT2 (Ministerio de Ciencia eInnovación, TIN2009-14675-C03-01) yBerbatek (Eusko Jaurlaritza, IE09-262). Graciasa Mans Hulden por su ayuda en la construcciónde los transduc<strong>to</strong>res usando foma.


BibliografíaAlegria I., Aranzabe M., Ezeiza A., Ezeiza N.,Urizar R. 2002. Using Finite State Technology inNatural Language Processing of Basque. LNCS:Implementation and Application of Au<strong>to</strong>mata.2002. Springer.Alegria I., Etxeberria I., Hulden H., Maritxalar M.2009. Porting Basque Morphological Grammars<strong>to</strong> foma, an Open-Source Tool. FSMNLP2009.Pre<strong>to</strong>ria. South Africa.Beesley K. R. and Karttunen L. 2003. Finite StateMorphology. CSLI Publications, Palo Al<strong>to</strong>, CA.Hulden M. 2009. Foma: a Finite-State Compiler andLibrary. EACL 2009. Demo session. pp 29-32.Kilgarriff, A. and Grefenstette, G. 2003.Introduction <strong>to</strong> the special issue on the web ascorpus. Computational linguistics, 29(3): 333-347. MIT Press.Kukich K. 1992. Techniques for Au<strong>to</strong>maticallyCorrec-ting Words in Text. ACM Comput. Surv.24(4): 377-439.Leturia I., San Vicente I., Saralegi X. and Lopez deLacalle M. 2008. Collecting Basque specializedcorpora from the web: language-specificperformance tweaks and improving <strong>to</strong>picprecision. Proc. of the 4th. Web as CorpusWorkshop. LREC 2008.Ringlstetter, C. and Schulz, K.U. and Mihov, S.2006. Orthographic errors in web pages: Towardcleaner web corpora. Computational Linguistics,32(3): 295-340. MIT Press.Sharoff, S. 2006. Creating General-Purpose CorporaUsing Au<strong>to</strong>mated Search Engine Queries.WaCky! Working Papers on the Web as Corpus,63-98. Ed. Marco Baroni and Silvia Bernardini.Bologna.Whitelaw C., Hutchinson B., Chung, G.Y. and EllisG. 2009. Using the web for languageindependent spellchecking and au<strong>to</strong>correction.Proceedings of the 2009 Conference onEmpirical Methods in Natural LanguageProcessing: Volume 2, 890-899.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!