A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

More documents

Recommendations

Info

Se debe resaltar que ciertas palabras listadascomo errores no son tales, sobre todo en el casode los errores tipográficos, donde puede serbastante habitual que ciertas palabras correctasque no están en el léxico difieran en un carácterde otras que existen. Por ejemplo la formablogean (en el blog) no es reconocida comoforma correcta y se interpreta como un errortipográfico de la palabra blokean (en el bloque).Este problema también es estudiado en(Ringlstetter et al., 2006). Otro problema amencionar es el que ciertas palabras escritas enotros idiomas se interpretan también comoerrores ortográficos, tanto por aparecer en elpropio texto como por ser etiquetas HTML queno se han podido filtrar adecuadamente. Estopodría ser tratado por medio de un filtro alefecto, pero siendo el objetivo detectar corpusde una calidad mínima nos parece queconsiderarlos como errores también cumple sufunción.Por lo dicho anteriormente se concluye quelos llamados real-word errors (errores quegeneran palabras correctas) (Kukich, 1992) nose tendrán en cuenta, ni tampoco lostipográficos con más de un error en cadapalabra, pero esto es lo habitual en este tipo deestudios.3.2 ResultadosLos resultados para los distintos tipos de corpusy de documentos se presentan a continuación.El la figura 1 y en la figura 2 se muestran losresultados de los tres tipos de errores(competencia, tipográficos y OCR) para lamuestra del corpus general.2520151050err. Conoc err. Tipog. err. OCR0 500 1000 1500 2000Fig 1.- Tasa de error en documentos HTML2520151050err.Conocim.err. Tipog.err. OCR0 200 400 600 800 1000Fig 2.- Tasa de error en documentos PDFEn la figura 1 se reflejan los resultados paralos documentos HTML y en la figura 2 para losde tipo PDF.Examinando ambas gráficas podemosobservar que los resultados son similares:• Más de la mitad de los documentos nocontienen prácticamente errores. Loserrores se concentran en un 10% de losdocumentos.• Los errores de competencia soncomparables a los tipográficos. A laespera de un análisis máspormenorizado de los resultados estoconfirma nuestra hipótesis de lainfluencia del uso dialectal y otrasvariantes de las formas estándaresactuales.• Los errores OCR son mucho menosnumerosos que los de otro tipo.Contrariamente a lo que esperábamos latasa de errores OCR es similar enambos tipos de formatos, lo que sepuede observar con más detalle en lafigura 3. Esto parece indicar (y así lohemos comprobado en una análisisprevio buscando desviaciones OCR delas palabras más habituales en euskera)la mínima presencia de documentosescaneados sin verificar.Reflejamos los datos obtenidos para elcorpus de informática que son similares a losdel corpus de biotecnología (menosrepresentativo por el tamaño del corpus).
3.52.51.50.5Fig 3.- Tasa de error OCR en documentosHTML y PDFEn la figura 4 se reflejan los mismos datosque en las figuras 1 y 2 pero para textosespecializados.98765432103210HTMLPDF1 2 3 4 5 6 7 8 9 1011121314151617181920err.Conocim.err. Tipog.err. OCR0 100 200 300 400 500Fig 4.- Tasa de error en documentos deinformáticaLos de turismo tienen un comportamientomás similar al corpus general, lo que es normalya que no se puede considerar un dominiotécnico.Comparando los errores en el corpus generalcon los de los documentos técnicos se confirmaque los documentos técnicos contienen menoserrores.Sin embargo comparando los resultados parael euskera con los obtenidos para el inglés yalemán en (Ringlstetter et al., 2006) se detectauna mayor tasa de errores para el conjunto delos documentos, debido a la utilización dereconocedores/ analizadores genéricos y no delistas preparadas al efecto. A la espera de unestudio manual de los resultados, podemosdecir que en el trabajo de referencia seconseguía más precisión en la detección deerrores y en nuestro sistema se consigue mayorcobertura.Antes de establecer una clasificación similara la propuesta por Ringlstetter et al. (2006) (conporcentajes de textos clasificados comoexcelentes, buenos, regulares y malos) esnecesario un estudio manual más detallado delos resultados obtenidos. Un problema quehemos detectado es la aparición de textosdialectales y diacrónicos que no encajan enninguna de las categorías previstas (correcto,tipográfico, competencia y OCR). Estamospreparando un detector de textos escritos eneuskera dialectal.4 Conclusiones y trabajo futuroEn nuestro trabajo hemos tomado como base eltrabajo de Ringlstetter et al. (2006) y comoobjeto de estudio y experimentación unamuestra de los corpus recuperados en lostrabajos de Leturia et al. (2008). Sin embargonuestro trabajo difiere del mencionado en que altratar un idioma de gran riqueza morfológicahemos optado por transductores para reconocererrores en lugar de listas de errores. Esto traeconsigo, en nuestra opinión, una coberturamayor de los errores que se estudian, además dela reutilización de recursos previamentedesarrollados, lo que hace el método interesantepara aplicarlo, sin prácticamente trabajomanual, a lenguas que tienen disponibles estosrecursos.Los resultados van a ser de gran interés paradetectar los distintos tipos de textos obtenidosde la Web en euskera según su corrección, yfiltrar aquellos que pueden generar problemas ono tienen una calidad mínima.AgradecimientosProyecto parcialmente subvencionado por losproyectos OpenMT2 (Ministerio de Ciencia eInnovación, TIN2009-14675-C03-01) yBerbatek (Eusko Jaurlaritza, IE09-262). Graciasa Mans Hulden por su ayuda en la construcciónde los transductores usando foma.
Page 1 and 2: Errores ortográficos y de competen
Page 3: transductores son los datos de los

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

Create successful ePaper yourself

Delete template?

Save as template?