Andrés Osvaldo Porta - CCT CONICET Mendoza

Capítulo 130: 1049-1055 

Un parser para la morfología del quichua 

santiagueño con PC-KIMMO 

Andrés Osvaldo Porta 

En Víctor M. Castel y Liliana Cubo de Severino, Editores (2010) 

La renovación de la palabra en el bicentenario de la Argentina. 

Los colores de la mirada lingüística. 

Mendoza: Editorial FFyL, UNCuyo. 

ISBN 978-950-774-193-7

La renovación de la palabra / 1050 

Un parser para la morfología del quichua santiagueño con PC-KIMMO 

Andrés Osvaldo Porta 

Universidad de Buenos Aires 

Buenos Aires, Argentina 

hugporta@yahoo.com.ar 

Resumen 

Se presenta una implementación en PC-KIMMO® de la morfología del quichua santiagueño. La 

simpleza justifica la afirmación de que morfofonología de esta lengua es modelable naturalmente en 

términos de lenguajes regulares. 

Introducción 

Chomsky (1957) demostró que la sintaxis de lenguajes naturales no puede ser modelada por medio 

de los autómatas que aceptan los lenguajes regulares. Se puede, sin embargo, intentar modelar 

eficientemente la morfología de gran cantidad de lenguas utilizando estos autómatas. Johnson (1972) 

y Kaplan y Kay (1994) demostraron, independientemente, que los formalismos fonológicos generativos 

usuales para componentes no cíclicos de la morfofonología de las lenguas naturales tienen una 

potencia expresiva equivalente a la de traductores de estados finitos. En lo que sigue supondremos 

que el lector tiene un conocimiento básico de la teoría de lenguajes regulares y automatas finitos1. En estos modelos, a nivel de la morfología, la implementación del orden de aglutinación de los 

morfemas se hace por medio de autómatas finitos de manera tal que el lenguaje obtenido a este nivel 

es regular. Es decir las formas subyacentes forman un lenguaje regular. 

Las reglas fonológicas se implementan por medio de transducers regulares. Las formas de 

superficie se obtienen aplicando de diversas formas estos transducers regulares que implementan las 

reglas fonológicas de manera tal que por el teorema de Kay y Kaplan, estas formas sean regulares. Es 

cononcido, desde Schützemberger (1961), que un problema que surge de esta metodología es que los 

traductores compuestos pueden tener un número prohibitivo de estados. Para solucionar este 

problema Koskenniemi (1983), inspirado en una presentación de Kaplan y Kay, propuso que las reglas 

fonológicas pueden ser implementadas por un conjunto de traductores finitos operado en paralelo más 

que en serie. En este sistema, todos los transducers ven simultáneamente las cintas de superficie y 

léxica. Estas cintas son la únicas dos que usa el sistema y de allí el nombre de morfología de dos 

niveles (Two level morphology). 

Las reglas del modelo de morfología de dos niveles utilizan una notación similar a la de las de SPE, 

Chomsky (1968), con algunas modificaciones. Una regla del modelo de dos niveles esta compuesta 

por tres partes: 

1. La correspondencia (Co). 

2. El operador (Op). 

3. Los contextos a izquierda y derecha (CxI y CxD). 

Una regla de dos niveles tiene la forma general: 

Co Op CxI___CxD 

Estas descripciones con morfología de dos niveles utilizan cuatro operadores para especificar 

reglas: 

1. el operador de reglas de Restricción:⇒ (la correspondencia implica la presencia del contexto). 

2. el operador de Coerción ⇐ (el contexto implica la presencia de la correspondencia). 

3. el operador bicondicional.⇔ (la correspondencia es permitida si y solo si esta presente el contexto 

de la regla en cuestión). 

4. el operador de Prohibición / ⇐ (indica que la correspondencia especificada esta prohibida en el 

contexto de la regla). 

Como ejemplo, en (1), se enuncia una regla de dos niveles para la formación del plural en 

castellano suponiendo que existe un E, que aparece solo en el sufijo de plural, que se elide cuando 

este sufijo se aglutina a una palabra terminada en vocal. 

(1) E:0 ⇔ V:V +:0 __ s:s +:0 

Las reglas son implementadas por transducers que actúan en paralelo como aceptores de pares de 

strings. La de (1), se puede modelar, suponiendo la forma subyacente +Es, utilizando dos transducers 

T1 y T2 que actúan en paralelo. 

Castel y Cubo, Editores (2010)

1051 / Un parser para la morfología del quichua santiagueño con PC-KIMMO 

Por medio de T1 asignamos por default E a e (suponemos que E forma parte solamente de este 

sufijo)y @ es el carácter comodín. 

Fig1: Transducer T1 

En la Fig2 se ilustra T2 que modela la elisión de E para nombres terminados en vocal, V indica una 

vocal cualquiera 

Fig2: Transducer T2 

Luego, como estos traductores actúan en paralelo, la elisión E:0 se hará solo en el contexto 

especificado por la regla. 

PC KIMMO ® es un sitema desarrollado por Lauri Karttunen (1983) y otros en el que se implementa 

el modelo de morfología de dos niveles. Este programa tiene dos componentes de análisis principales: 

el componente de reglas y el lexicón. El primer componente contiene las reglas de dos niveles. El 

segundo, el lexicón, contiene todos los morfemas es su forma léxica junto con las reglas de formación 

de palabras. Estos dos componentes son utilizados sincronizadamente por las funciones de análisis 

(Recognizer) y generación (Generator). 

El quichua santiagueño 

El quechua es considerado como una familia de lenguas debido a que las variedades regionales 

difieren suficientemente como para no ser considerados dialectos (Adelaar:2004). Tipológicamente, el 

quechua es una lengua aglutinante. Su estructura está casi enteramente basada en el uso de sufijos y 

es extremadamente regular. Las alteraciones vocálicas están limitadas a una parte de los dialectos. No 

existen prefijos y los compuestos son excepcionales. Es una lengua de tipo nominativo-acusativo, con 

las marcas de caso realizadas por una clase especial de sufijos que se adjuntan al final de la frase 

nominal. La morfología juega un papel dominante en esta lengua, muchas funciones que son 

asignadas en otras lenguas a la entonación, orden de palabras o expresiones léxicas tiene en el 

quechua marcación morfológica, por ejemplo está muy extendido el uso de sufijos validativos. El uso 

exclusivo de sufijos, productividad y regularidad de los procesos morfológicos y pocas alteraciones 

fonológicas) hacen que resulte natural una descripción de la morfología de esta lengua utilizando el 

sistema KIMMO. 

El quichua de Santiago del Estero pertenece, según la clasificación de los dialectos de Alfredo 

Torero al grupo QII C. Este grupo esta integrado además por los dialectos cuzqueño-boliviano, el de 

Ayacucho. Algunos autores como Domingo Bravo (1965) consideran que el dialecto fue introducido en 

tiempos post-hispánicos de la mano de los indios que acompañaban a los conquistadores. 

Los scripts y la base fueron desarrollados a partir del vocabulario de Alderete [1997]. 

La implementación en PC-KIMMO de la morfología del quichua santiagueño. 

El orden de aglutinación de sufijos se implementa por medio de un conjunto de reglas regulares 

que se exponen, para mejor comprensión, por medio de los autómatas finitos que aceptan el lenguaje 

que las reglas generan 2. 

Andrés Osvaldo Porta


Fig3: Autómata finito que modela del orden de aglutinación de sufijos nominales en quichua 

santiagueño. Los subíndices indicando posibles transiciones vacías. 

Consideraremos (2) como ejemplo para mostrar como se acepta, por medio de un autómata, la 

forma subyacente: 

(2) perrosniyta 

perro+-Es+ ni+ y +ta + chu 

N +PlC + Ø +Pos+Caso+ Sgen 

Lit: “¿ a mis perros ?” 

Este string, aquí cada morfema es un simbolo atómico, es aceptado por medio de la sucesión de 

estados: q1 q2 q9 q3 q4 q5 q6 q7 q8: 

A nivel de PC-KIMMO las reglas se implementan en el archivo quichua.GRM por medio de 

sentencias regulares: 

(3) RULE 

Word5Word6 SUFFIXCaso 

RULE 

Word6Word7SUFFIX Pos 

Este conjunto de reglas indica el orden relativo de aglutinación de los sufijos posesivos y de caso. 

En (3) Word_i indica un símbolo no terminal. Por otra parte a nivel del léxico, en los archivos con la 

extensión .LEX se especifica para cada ítem, en el campo \alt las clases de morfemas que se pueden 

aglutinar al ítem en cuestión. 

En la Fig4 se muestra el autómata finito que modela la morfología verbal, sin considerar los 

procesos de derivación nominales: 

Castel y Cubo, Editores (2010) 

Fig4: Autómata que modela la morfologia verbal finita del quichua santiagueño.


Implementación de la fonología del quichua santiagueño en PC-KIMMO 

Fonemas 

En nuestra formulación de la morfología verbal finita del quichua la representación de los fonemas 

sigue la de Alderetes [2001]. Estos fonemas se introducen a nivel de la implementación en el archivo 

quichua.RUL. En este archivo además de declararse los fonemas que se utilizarán a nivel subyacente y 

de superficie se definen mediante la declaración subsets diferentes subconjuntos de fonemas que 

permiten implementar de manera más sencilla las reglas fonológicas. Para implementar las reglas de 

medialización del quichua santiagueño se definen un conjunto CPos formado por todas las 

consonantes posvelares de cualquiera de los dos niveles y un conjunto de fonemas transparentes Ftr 

que no bloquean los procesos de medialización. Por otra parte se definen también con caracteres 

especiales algunas vocales para modelar modelos de epéntesis y elisión de vocales 

Reglas fonológicas 

Fig5: Script del alfabeto en quichua.RUL 

Las reglas de dos niveles se implementan a nivel de PC_KIMMO por medio de transducers. 

Se debe tener en cuenta en el diseño de los mismos que en el sistema todos los traductores actúan 

en paralelo. Como ejemplo, en (4) consideramos la regla de de medialización de la u. Esta regla se 

enuncia prohibiendo que en el contexto especificado por la regla a una [u] subyacente corresponde 

una [u] a nivel de superficie 

(4) “Medialización de vocal u por posvelar contigua a izquierda, u:u /⇐ Cpos:@__” 

Para constuir el transducer que modela esta regla, en la Fig6, se muestra un primer acercamiento 

que consiste en definir un estado con el que se detecta la presencia una consonante posvelar 

subyacente (Cpos:@) 

Fig6 

En una segunda instancia se define el resto de las transiciones teniendo en cuenta el resto de las 

reglas que formaran el sistema, de lo que resulta el transducer que se muestra en la Fig7 


Fig7 


A nivel de la implementación los transducers se declaran en el archivo quichua.RUL (el mismo que 

contiene el alfabeto y los pares por default) por medio de la matriz de transiciones del transducer. Los 

pares de numeros que acompañan la declaranción indican la cantidad de estados y de transiciones del 

automata (en el ejemplo: 3 4) 

RULE "6 Medialización de vocale u por postvelar a contigua a izquierda, u:u /⇐ Cpos:@ __" 3 4 

u u Cpos @ 

o u @ @ 

1: 1 1 2 1 

2: 3 0 2 1 

3: 0 1 2 1 

Para la regla 

(5) RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5 

El transducer correspondiente se muestra en la figura 8: 

Fig8: Transducer que modela la medialización retrograda. 

Elisión y epéntesis de vocales en la aglutinación de sufijos 

Algunos sufijos presentan varios alomorfos cuya presencia está determinada por el contexto. Para 

modelar este tipo de procesos marcamos en primer lugar al fonema que se elidirá o será epentético 

utilizando mayúsculas. 

En la regla de (7) la marca de primera persona objeto se aglutina como −wa luego de secuencia aa y 

como a en cualquier otro contexto. En este caso del sufijo en cuestión la marca subyacente será −Wa. 

En segundo lugar definimos una regla que impone la epéntesis (W:w) si y sólo si se presenta el 

contexto especificado. 

(7) R7: W : w ⇔ a : a a : a + : 0__ a:a +:0 

En la Fig9 se muestra un esquema del traductor que implementa esta regla. 

Castel y Cubo, Editores (2010)


Fig9: epéntesis de w en la primera persona objeto 

El conjunto final de reglas fonológicas para el quichua santiagueño es (no se incluyen las 

asignaciones por default): 

RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5 

RULE " 4 i:i /⇐ CPos:@ __ " 3 4 

RULE " 5 u:u /⇐ __ Ftr:Ftr CPos:@ " 6 5 

RULE " 6 u:u /⇐ CPos:@ __" 3 4 

RULE " 7 W:w⇔ W : w ⇔ a : a a : a + : 0__ a:a +:0 " 9 5 

RULE " 8 U:0⇔ ___+:0 p:p u:u +:0 " 10 5 

RULE " 9 N:0⇔ ___+:0 r:r a:a + " 11 7 

RULE "10 E:0 ⇔ V:V +:0 __ s:s +:0" 3 4 

RULE "11 Ø:0 ⇔ ___ #:0 " 4 3 

Notas 

1 Una buena introducción es Hopcroft (1979). 

2 Abreviaturas: Ag: sufijo de agente, en este caso, por ejemplo, Ag1, indica la 1ª persona agente. Ag12 es una abrev. para A1 ∪ 

A2; Caso: sufijo de caso; Caus: Causativo; Cond :condicional; Deriv:: sufijo de derivación; Fut: futuro; Gen: sufijo general; ModI/II: 

Modal I/II; N: nombre; O2: objeto de segunda persona; Pas: pasado; PlC: plural castellano; PLO2: plural del objeto de segunda 

persona; PlQ: plural quichua; Pos:posesivo; SGen: sufijo de caso; Top :topicalizador; Tri:transición a la i-ésima persona.. 

Referencias 

Adelaar, Willem and Muysken, Pieter(2004) The Languages of the Andes. Cambridge:Cambridge University Press. 

Albarracín, Lelia Inés, Mario C. Tebes y Jorge Alderetes (eds.)(2002) Introducción al quichua santiagueño por Ricardo 

L.J. Nardi. Buenos Aires: Editorial DUNKEN. 

Alderetes, Jorge Ricardo (1997) Vocabulario quichua-castellano. 

http://webs.satlink.com/usuarios/r/rory/vocabu.htm. 

Alderetes, Jorge Ricardo (2001) El quichua de Santiago del Estero.Gramática y vocabulario. Tucumán: Facultad de 

Filosofía y Letras, UNT. 

Antworth, Evan L.(1990) PC-KIMMO: a two-level processor for morphological analysis. No.16 in Occasional 

publications in academic computing. Dallas: Summer Institute of Linguistics. 

Bravo Domingo A. (1965) Estado actual del quichua santiagueño. Tucumán, Argentina: Universidad Nacional de 

Tucumán. 

Chomsky, Noam(1957) Syntactic structures. The Hague: Mouton. 

Chomsky, Noam and Morris Halle (1968) The sound pattern of English. New York: Harper and Row. 

Hopcroft J. and Ullman J.(1979) Introduction to Automata Theory, Languages and Computation. Addison-Wesley. 

Johnson, C. Douglas(1972) Formal Aspects of Phonological Description. The Hague: Mouton. 

Kaplan, Ronald M. and Martin Kay(1994) “Regular models of phonological rule systems”. Computational Linguistics 

20(3):331-378 

Koskenniemi K.(1983) Two-level Morphology: A general Computational Model for Word-Form Recognition and 

Production. Ph.D. thesis, University of Helsinki.Publications nº 11. 1983. 

Schützenberger, Marcel-Paul(1961) “A remark on finite transducers”. Information and Control 4:185-196. 

Sproat, R.(1992) .Morphology and Computation. The MIT Press.

Andrés Osvaldo Porta - CCT CONICET Mendoza

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?