06.08.2013 Views

Andrés Osvaldo Porta - CCT CONICET Mendoza

Andrés Osvaldo Porta - CCT CONICET Mendoza

Andrés Osvaldo Porta - CCT CONICET Mendoza

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Capítulo 130: 1049-1055<br />

Un parser para la morfología del quichua<br />

santiagueño con PC-KIMMO<br />

<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong><br />

En Víctor M. Castel y Liliana Cubo de Severino, Editores (2010)<br />

La renovación de la palabra en el bicentenario de la Argentina.<br />

Los colores de la mirada lingüística.<br />

<strong>Mendoza</strong>: Editorial FFyL, UNCuyo.<br />

ISBN 978-950-774-193-7


La renovación de la palabra / 1050<br />

Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />

<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong><br />

Universidad de Buenos Aires<br />

Buenos Aires, Argentina<br />

hugporta@yahoo.com.ar<br />

Resumen<br />

Se presenta una implementación en PC-KIMMO® de la morfología del quichua santiagueño. La<br />

simpleza justifica la afirmación de que morfofonología de esta lengua es modelable naturalmente en<br />

términos de lenguajes regulares.<br />

Introducción<br />

Chomsky (1957) demostró que la sintaxis de lenguajes naturales no puede ser modelada por medio<br />

de los autómatas que aceptan los lenguajes regulares. Se puede, sin embargo, intentar modelar<br />

eficientemente la morfología de gran cantidad de lenguas utilizando estos autómatas. Johnson (1972)<br />

y Kaplan y Kay (1994) demostraron, independientemente, que los formalismos fonológicos generativos<br />

usuales para componentes no cíclicos de la morfofonología de las lenguas naturales tienen una<br />

potencia expresiva equivalente a la de traductores de estados finitos. En lo que sigue supondremos<br />

que el lector tiene un conocimiento básico de la teoría de lenguajes regulares y automatas finitos1. En estos modelos, a nivel de la morfología, la implementación del orden de aglutinación de los<br />

morfemas se hace por medio de autómatas finitos de manera tal que el lenguaje obtenido a este nivel<br />

es regular. Es decir las formas subyacentes forman un lenguaje regular.<br />

Las reglas fonológicas se implementan por medio de transducers regulares. Las formas de<br />

superficie se obtienen aplicando de diversas formas estos transducers regulares que implementan las<br />

reglas fonológicas de manera tal que por el teorema de Kay y Kaplan, estas formas sean regulares. Es<br />

cononcido, desde Schützemberger (1961), que un problema que surge de esta metodología es que los<br />

traductores compuestos pueden tener un número prohibitivo de estados. Para solucionar este<br />

problema Koskenniemi (1983), inspirado en una presentación de Kaplan y Kay, propuso que las reglas<br />

fonológicas pueden ser implementadas por un conjunto de traductores finitos operado en paralelo más<br />

que en serie. En este sistema, todos los transducers ven simultáneamente las cintas de superficie y<br />

léxica. Estas cintas son la únicas dos que usa el sistema y de allí el nombre de morfología de dos<br />

niveles (Two level morphology).<br />

Las reglas del modelo de morfología de dos niveles utilizan una notación similar a la de las de SPE,<br />

Chomsky (1968), con algunas modificaciones. Una regla del modelo de dos niveles esta compuesta<br />

por tres partes:<br />

1. La correspondencia (Co).<br />

2. El operador (Op).<br />

3. Los contextos a izquierda y derecha (CxI y CxD).<br />

Una regla de dos niveles tiene la forma general:<br />

Co Op CxI___CxD<br />

Estas descripciones con morfología de dos niveles utilizan cuatro operadores para especificar<br />

reglas:<br />

1. el operador de reglas de Restricción:⇒ (la correspondencia implica la presencia del contexto).<br />

2. el operador de Coerción ⇐ (el contexto implica la presencia de la correspondencia).<br />

3. el operador bicondicional.⇔ (la correspondencia es permitida si y solo si esta presente el contexto<br />

de la regla en cuestión).<br />

4. el operador de Prohibición / ⇐ (indica que la correspondencia especificada esta prohibida en el<br />

contexto de la regla).<br />

Como ejemplo, en (1), se enuncia una regla de dos niveles para la formación del plural en<br />

castellano suponiendo que existe un E, que aparece solo en el sufijo de plural, que se elide cuando<br />

este sufijo se aglutina a una palabra terminada en vocal.<br />

(1) E:0 ⇔ V:V +:0 __ s:s +:0<br />

Las reglas son implementadas por transducers que actúan en paralelo como aceptores de pares de<br />

strings. La de (1), se puede modelar, suponiendo la forma subyacente +Es, utilizando dos transducers<br />

T1 y T2 que actúan en paralelo.<br />

Castel y Cubo, Editores (2010)


1051 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />

Por medio de T1 asignamos por default E a e (suponemos que E forma parte solamente de este<br />

sufijo)y @ es el carácter comodín.<br />

Fig1: Transducer T1<br />

En la Fig2 se ilustra T2 que modela la elisión de E para nombres terminados en vocal, V indica una<br />

vocal cualquiera<br />

Fig2: Transducer T2<br />

Luego, como estos traductores actúan en paralelo, la elisión E:0 se hará solo en el contexto<br />

especificado por la regla.<br />

PC KIMMO ® es un sitema desarrollado por Lauri Karttunen (1983) y otros en el que se implementa<br />

el modelo de morfología de dos niveles. Este programa tiene dos componentes de análisis principales:<br />

el componente de reglas y el lexicón. El primer componente contiene las reglas de dos niveles. El<br />

segundo, el lexicón, contiene todos los morfemas es su forma léxica junto con las reglas de formación<br />

de palabras. Estos dos componentes son utilizados sincronizadamente por las funciones de análisis<br />

(Recognizer) y generación (Generator).<br />

El quichua santiagueño<br />

El quechua es considerado como una familia de lenguas debido a que las variedades regionales<br />

difieren suficientemente como para no ser considerados dialectos (Adelaar:2004). Tipológicamente, el<br />

quechua es una lengua aglutinante. Su estructura está casi enteramente basada en el uso de sufijos y<br />

es extremadamente regular. Las alteraciones vocálicas están limitadas a una parte de los dialectos. No<br />

existen prefijos y los compuestos son excepcionales. Es una lengua de tipo nominativo-acusativo, con<br />

las marcas de caso realizadas por una clase especial de sufijos que se adjuntan al final de la frase<br />

nominal. La morfología juega un papel dominante en esta lengua, muchas funciones que son<br />

asignadas en otras lenguas a la entonación, orden de palabras o expresiones léxicas tiene en el<br />

quechua marcación morfológica, por ejemplo está muy extendido el uso de sufijos validativos. El uso<br />

exclusivo de sufijos, productividad y regularidad de los procesos morfológicos y pocas alteraciones<br />

fonológicas) hacen que resulte natural una descripción de la morfología de esta lengua utilizando el<br />

sistema KIMMO.<br />

El quichua de Santiago del Estero pertenece, según la clasificación de los dialectos de Alfredo<br />

Torero al grupo QII C. Este grupo esta integrado además por los dialectos cuzqueño-boliviano, el de<br />

Ayacucho. Algunos autores como Domingo Bravo (1965) consideran que el dialecto fue introducido en<br />

tiempos post-hispánicos de la mano de los indios que acompañaban a los conquistadores.<br />

Los scripts y la base fueron desarrollados a partir del vocabulario de Alderete [1997].<br />

La implementación en PC-KIMMO de la morfología del quichua santiagueño.<br />

El orden de aglutinación de sufijos se implementa por medio de un conjunto de reglas regulares<br />

que se exponen, para mejor comprensión, por medio de los autómatas finitos que aceptan el lenguaje<br />

que las reglas generan 2.<br />

<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>


La renovación de la palabra / 1052<br />

Fig3: Autómata finito que modela del orden de aglutinación de sufijos nominales en quichua<br />

santiagueño. Los subíndices indicando posibles transiciones vacías.<br />

Consideraremos (2) como ejemplo para mostrar como se acepta, por medio de un autómata, la<br />

forma subyacente:<br />

(2) perrosniyta<br />

perro+-Es+ ni+ y +ta + chu<br />

N +PlC + Ø +Pos+Caso+ Sgen<br />

Lit: “¿ a mis perros ?”<br />

Este string, aquí cada morfema es un simbolo atómico, es aceptado por medio de la sucesión de<br />

estados: q1 q2 q9 q3 q4 q5 q6 q7 q8:<br />

A nivel de PC-KIMMO las reglas se implementan en el archivo quichua.GRM por medio de<br />

sentencias regulares:<br />

(3) RULE<br />

Word5Word6 SUFFIXCaso<br />

RULE<br />

Word6Word7SUFFIX Pos<br />

Este conjunto de reglas indica el orden relativo de aglutinación de los sufijos posesivos y de caso.<br />

En (3) Word_i indica un símbolo no terminal. Por otra parte a nivel del léxico, en los archivos con la<br />

extensión .LEX se especifica para cada ítem, en el campo \alt las clases de morfemas que se pueden<br />

aglutinar al ítem en cuestión.<br />

En la Fig4 se muestra el autómata finito que modela la morfología verbal, sin considerar los<br />

procesos de derivación nominales:<br />

Castel y Cubo, Editores (2010)<br />

Fig4: Autómata que modela la morfologia verbal finita del quichua santiagueño.


1053 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />

Implementación de la fonología del quichua santiagueño en PC-KIMMO<br />

Fonemas<br />

En nuestra formulación de la morfología verbal finita del quichua la representación de los fonemas<br />

sigue la de Alderetes [2001]. Estos fonemas se introducen a nivel de la implementación en el archivo<br />

quichua.RUL. En este archivo además de declararse los fonemas que se utilizarán a nivel subyacente y<br />

de superficie se definen mediante la declaración subsets diferentes subconjuntos de fonemas que<br />

permiten implementar de manera más sencilla las reglas fonológicas. Para implementar las reglas de<br />

medialización del quichua santiagueño se definen un conjunto CPos formado por todas las<br />

consonantes posvelares de cualquiera de los dos niveles y un conjunto de fonemas transparentes Ftr<br />

que no bloquean los procesos de medialización. Por otra parte se definen también con caracteres<br />

especiales algunas vocales para modelar modelos de epéntesis y elisión de vocales<br />

Reglas fonológicas<br />

Fig5: Script del alfabeto en quichua.RUL<br />

Las reglas de dos niveles se implementan a nivel de PC_KIMMO por medio de transducers.<br />

Se debe tener en cuenta en el diseño de los mismos que en el sistema todos los traductores actúan<br />

en paralelo. Como ejemplo, en (4) consideramos la regla de de medialización de la u. Esta regla se<br />

enuncia prohibiendo que en el contexto especificado por la regla a una [u] subyacente corresponde<br />

una [u] a nivel de superficie<br />

(4) “Medialización de vocal u por posvelar contigua a izquierda, u:u /⇐ Cpos:@__”<br />

Para constuir el transducer que modela esta regla, en la Fig6, se muestra un primer acercamiento<br />

que consiste en definir un estado con el que se detecta la presencia una consonante posvelar<br />

subyacente (Cpos:@)<br />

Fig6<br />

En una segunda instancia se define el resto de las transiciones teniendo en cuenta el resto de las<br />

reglas que formaran el sistema, de lo que resulta el transducer que se muestra en la Fig7<br />

<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>


Fig7<br />

La renovación de la palabra / 1054<br />

A nivel de la implementación los transducers se declaran en el archivo quichua.RUL (el mismo que<br />

contiene el alfabeto y los pares por default) por medio de la matriz de transiciones del transducer. Los<br />

pares de numeros que acompañan la declaranción indican la cantidad de estados y de transiciones del<br />

automata (en el ejemplo: 3 4)<br />

RULE "6 Medialización de vocale u por postvelar a contigua a izquierda, u:u /⇐ Cpos:@ __" 3 4<br />

u u Cpos @<br />

o u @ @<br />

1: 1 1 2 1<br />

2: 3 0 2 1<br />

3: 0 1 2 1<br />

Para la regla<br />

(5) RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5<br />

El transducer correspondiente se muestra en la figura 8:<br />

Fig8: Transducer que modela la medialización retrograda.<br />

Elisión y epéntesis de vocales en la aglutinación de sufijos<br />

Algunos sufijos presentan varios alomorfos cuya presencia está determinada por el contexto. Para<br />

modelar este tipo de procesos marcamos en primer lugar al fonema que se elidirá o será epentético<br />

utilizando mayúsculas.<br />

En la regla de (7) la marca de primera persona objeto se aglutina como −wa luego de secuencia aa y<br />

como a en cualquier otro contexto. En este caso del sufijo en cuestión la marca subyacente será −Wa.<br />

En segundo lugar definimos una regla que impone la epéntesis (W:w) si y sólo si se presenta el<br />

contexto especificado.<br />

(7) R7: W : w ⇔ a : a a : a + : 0__ a:a +:0<br />

En la Fig9 se muestra un esquema del traductor que implementa esta regla.<br />

Castel y Cubo, Editores (2010)


1055 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />

Fig9: epéntesis de w en la primera persona objeto<br />

El conjunto final de reglas fonológicas para el quichua santiagueño es (no se incluyen las<br />

asignaciones por default):<br />

RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5<br />

RULE " 4 i:i /⇐ CPos:@ __ " 3 4<br />

RULE " 5 u:u /⇐ __ Ftr:Ftr CPos:@ " 6 5<br />

RULE " 6 u:u /⇐ CPos:@ __" 3 4<br />

RULE " 7 W:w⇔ W : w ⇔ a : a a : a + : 0__ a:a +:0 " 9 5<br />

RULE " 8 U:0⇔ ___+:0 p:p u:u +:0 " 10 5<br />

RULE " 9 N:0⇔ ___+:0 r:r a:a + " 11 7<br />

RULE "10 E:0 ⇔ V:V +:0 __ s:s +:0" 3 4<br />

RULE "11 Ø:0 ⇔ ___ #:0 " 4 3<br />

Notas<br />

1 Una buena introducción es Hopcroft (1979).<br />

2 Abreviaturas: Ag: sufijo de agente, en este caso, por ejemplo, Ag1, indica la 1ª persona agente. Ag12 es una abrev. para A1 ∪<br />

A2; Caso: sufijo de caso; Caus: Causativo; Cond :condicional; Deriv:: sufijo de derivación; Fut: futuro; Gen: sufijo general; ModI/II:<br />

Modal I/II; N: nombre; O2: objeto de segunda persona; Pas: pasado; PlC: plural castellano; PLO2: plural del objeto de segunda<br />

persona; PlQ: plural quichua; Pos:posesivo; SGen: sufijo de caso; Top :topicalizador; Tri:transición a la i-ésima persona..<br />

Referencias<br />

Adelaar, Willem and Muysken, Pieter(2004) The Languages of the Andes. Cambridge:Cambridge University Press.<br />

Albarracín, Lelia Inés, Mario C. Tebes y Jorge Alderetes (eds.)(2002) Introducción al quichua santiagueño por Ricardo<br />

L.J. Nardi. Buenos Aires: Editorial DUNKEN.<br />

Alderetes, Jorge Ricardo (1997) Vocabulario quichua-castellano.<br />

http://webs.satlink.com/usuarios/r/rory/vocabu.htm.<br />

Alderetes, Jorge Ricardo (2001) El quichua de Santiago del Estero.Gramática y vocabulario. Tucumán: Facultad de<br />

Filosofía y Letras, UNT.<br />

Antworth, Evan L.(1990) PC-KIMMO: a two-level processor for morphological analysis. No.16 in Occasional<br />

publications in academic computing. Dallas: Summer Institute of Linguistics.<br />

Bravo Domingo A. (1965) Estado actual del quichua santiagueño. Tucumán, Argentina: Universidad Nacional de<br />

Tucumán.<br />

Chomsky, Noam(1957) Syntactic structures. The Hague: Mouton.<br />

Chomsky, Noam and Morris Halle (1968) The sound pattern of English. New York: Harper and Row.<br />

Hopcroft J. and Ullman J.(1979) Introduction to Automata Theory, Languages and Computation. Addison-Wesley.<br />

Johnson, C. Douglas(1972) Formal Aspects of Phonological Description. The Hague: Mouton.<br />

Kaplan, Ronald M. and Martin Kay(1994) “Regular models of phonological rule systems”. Computational Linguistics<br />

20(3):331-378<br />

Koskenniemi K.(1983) Two-level Morphology: A general Computational Model for Word-Form Recognition and<br />

Production. Ph.D. thesis, University of Helsinki.Publications nº 11. 1983.<br />

Schützenberger, Marcel-Paul(1961) “A remark on finite transducers”. Information and Control 4:185-196.<br />

Sproat, R.(1992) .Morphology and Computation. The MIT Press.<br />

<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!