12.07.2015 Views

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

A new grammatical formalism to solve ellipsis: - Elhuyar Fundazioa

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

transduc<strong>to</strong>res son los da<strong>to</strong>s de los procesadoresmorfológicos correspondientes, que sirven tan<strong>to</strong>para análisis como para generación.Se han desarrollado procesadoresmorfológicos basados en esta tecnología paragran cantidad de idiomas, incluyendo finés,euskera, turco, zulú e inglés. Esta tecnología seha aplicado especialmente a los idiomasmorfológicamente ricos, ya que las solucionesmás simples que se utilizaban anteriormente noeran adecuadas para ellos.Si se dispone de un procesador morfológicola construcción de un correc<strong>to</strong>r or<strong>to</strong>gráfico escasi inmediata: las palabras correctas son lasque pueden ser analizadas (Kukich, 1992)(Alegria et al., 2002).2.2 HerramientasEl <strong>to</strong>olkit de Xerox (Beesley & Karttunen,2009) proporciona herramientas para reglasparalelas (twolc) y reglas secuenciales (xfst),además de para el léxico (lexc). Su experienciaindica que el uso de reglas secuenciales resultaa la larga más cómodo, tendencia que se havis<strong>to</strong> confirmada en posterioresimplementaciones.Las herramientas de Xerox son de grancalidad y consiguen transduc<strong>to</strong>res muycompac<strong>to</strong>s, pero tienen un gran inconveniente;la licencia es muy restrictiva y, salvoexcepciones, no puede ser usada paraaplicaciones comerciales. Ante ello se handesarrollado en software libre herramientas quepueden sustituir las de Xerox. Queremosdestacar dos: hunspell y foma.hunspell no trabaja con transduc<strong>to</strong>res, peroes una solución mejor que sus predecesoresispell, aspell y myspell, ya que permite mayornúmero de paradigmas y doble encadenamien<strong>to</strong>de sufijos. No acepta reglas paralelas nisecuenciales independientes del léxico, ya quelos cambios deben ser explicitados en ladescripción del léxico. Su mayor interés es queestá aceptado por las últimas versiones deOOffice y Mozilla, por lo que una descripciónpara un idioma usando hunspell devieneau<strong>to</strong>máticamente en un correc<strong>to</strong>r or<strong>to</strong>gráficopara estas herramientas.foma (Hulden, 2009) es un <strong>to</strong>olkit que quiereser equivalente a las herramientas xfst y lexc deXerox pero con una implementaciónindependiente y licenciado bajo GPL(http://foma.sourceforge.net/). Por lo tan<strong>to</strong> esadecuado para descripciones de morfología deestados fini<strong>to</strong>s usando reglas secuenciales.Según su au<strong>to</strong>r las descripciones para Xeroxfuncionan directamente, y la compilación esmás eficiente. Tiene una ventaja adicional, y esque las descripciones preparadas para lexc yxfst de Xerox se compilan directamente enfoma (salvo alguna excepción y siempre que losda<strong>to</strong>s estén en Unicode); ya que esta nuevaherramienta integra los mismos comandos y lamisma sintaxis que las herramientas citadas.Es<strong>to</strong> hace que el libro citado (Beesley &Karttunen, 2009) pueda ser usado en su mayorparte como un manual de foma.2.3 Verificador or<strong>to</strong>gráfico ydetec<strong>to</strong>res/correc<strong>to</strong>res de erroresPara detectar las palabras correctas y losdistin<strong>to</strong>s tipos de errores (tipográficos,cognitivos y OCR) se han utilizado lossiguientes recursos:1. transduc<strong>to</strong>r del euskera estándar. Sirvepara identificar las palabras correctas.2. transduc<strong>to</strong>r para detección de errores decompetencia3. función med de foma sobre eltransduc<strong>to</strong>r estándar. Sirve para obtenerposibles errores tipográficos de adición,sustitución y eliminación.4. transduc<strong>to</strong>r para detección detransposiciones5. transduc<strong>to</strong>r para detección de erroresOCRLos vamos a describir uno a uno.Transduc<strong>to</strong>r del euskera estándarUsando tan<strong>to</strong> las herramientas de Xerox(Alegria et al., 2002), como foma (Alegria etal., 2009) se ha desarrollado un procesador parael euskera estándar y varios correc<strong>to</strong>res.El léxico contiene más de 80.000 entradas,la morfotáctica y la correspondienteinformación morfológica relacionada.Alrededor de 23 reglas complejas describen loscambios fonológicos usando reglas paralelas(Alegria et al., 2002) o secuenciales (Alegria etal., 2009). En el segundo artículo se describe elproceso de migración de unas a otras.Transduc<strong>to</strong>r para errores de competenciaAdemás del transduc<strong>to</strong>r estándar se hadesarrollado uno ampliado (enhanced

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!