Andrés Osvaldo Porta - CCT CONICET Mendoza
Andrés Osvaldo Porta - CCT CONICET Mendoza
Andrés Osvaldo Porta - CCT CONICET Mendoza
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Capítulo 130: 1049-1055<br />
Un parser para la morfología del quichua<br />
santiagueño con PC-KIMMO<br />
<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong><br />
En Víctor M. Castel y Liliana Cubo de Severino, Editores (2010)<br />
La renovación de la palabra en el bicentenario de la Argentina.<br />
Los colores de la mirada lingüística.<br />
<strong>Mendoza</strong>: Editorial FFyL, UNCuyo.<br />
ISBN 978-950-774-193-7
La renovación de la palabra / 1050<br />
Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />
<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong><br />
Universidad de Buenos Aires<br />
Buenos Aires, Argentina<br />
hugporta@yahoo.com.ar<br />
Resumen<br />
Se presenta una implementación en PC-KIMMO® de la morfología del quichua santiagueño. La<br />
simpleza justifica la afirmación de que morfofonología de esta lengua es modelable naturalmente en<br />
términos de lenguajes regulares.<br />
Introducción<br />
Chomsky (1957) demostró que la sintaxis de lenguajes naturales no puede ser modelada por medio<br />
de los autómatas que aceptan los lenguajes regulares. Se puede, sin embargo, intentar modelar<br />
eficientemente la morfología de gran cantidad de lenguas utilizando estos autómatas. Johnson (1972)<br />
y Kaplan y Kay (1994) demostraron, independientemente, que los formalismos fonológicos generativos<br />
usuales para componentes no cíclicos de la morfofonología de las lenguas naturales tienen una<br />
potencia expresiva equivalente a la de traductores de estados finitos. En lo que sigue supondremos<br />
que el lector tiene un conocimiento básico de la teoría de lenguajes regulares y automatas finitos1. En estos modelos, a nivel de la morfología, la implementación del orden de aglutinación de los<br />
morfemas se hace por medio de autómatas finitos de manera tal que el lenguaje obtenido a este nivel<br />
es regular. Es decir las formas subyacentes forman un lenguaje regular.<br />
Las reglas fonológicas se implementan por medio de transducers regulares. Las formas de<br />
superficie se obtienen aplicando de diversas formas estos transducers regulares que implementan las<br />
reglas fonológicas de manera tal que por el teorema de Kay y Kaplan, estas formas sean regulares. Es<br />
cononcido, desde Schützemberger (1961), que un problema que surge de esta metodología es que los<br />
traductores compuestos pueden tener un número prohibitivo de estados. Para solucionar este<br />
problema Koskenniemi (1983), inspirado en una presentación de Kaplan y Kay, propuso que las reglas<br />
fonológicas pueden ser implementadas por un conjunto de traductores finitos operado en paralelo más<br />
que en serie. En este sistema, todos los transducers ven simultáneamente las cintas de superficie y<br />
léxica. Estas cintas son la únicas dos que usa el sistema y de allí el nombre de morfología de dos<br />
niveles (Two level morphology).<br />
Las reglas del modelo de morfología de dos niveles utilizan una notación similar a la de las de SPE,<br />
Chomsky (1968), con algunas modificaciones. Una regla del modelo de dos niveles esta compuesta<br />
por tres partes:<br />
1. La correspondencia (Co).<br />
2. El operador (Op).<br />
3. Los contextos a izquierda y derecha (CxI y CxD).<br />
Una regla de dos niveles tiene la forma general:<br />
Co Op CxI___CxD<br />
Estas descripciones con morfología de dos niveles utilizan cuatro operadores para especificar<br />
reglas:<br />
1. el operador de reglas de Restricción:⇒ (la correspondencia implica la presencia del contexto).<br />
2. el operador de Coerción ⇐ (el contexto implica la presencia de la correspondencia).<br />
3. el operador bicondicional.⇔ (la correspondencia es permitida si y solo si esta presente el contexto<br />
de la regla en cuestión).<br />
4. el operador de Prohibición / ⇐ (indica que la correspondencia especificada esta prohibida en el<br />
contexto de la regla).<br />
Como ejemplo, en (1), se enuncia una regla de dos niveles para la formación del plural en<br />
castellano suponiendo que existe un E, que aparece solo en el sufijo de plural, que se elide cuando<br />
este sufijo se aglutina a una palabra terminada en vocal.<br />
(1) E:0 ⇔ V:V +:0 __ s:s +:0<br />
Las reglas son implementadas por transducers que actúan en paralelo como aceptores de pares de<br />
strings. La de (1), se puede modelar, suponiendo la forma subyacente +Es, utilizando dos transducers<br />
T1 y T2 que actúan en paralelo.<br />
Castel y Cubo, Editores (2010)
1051 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />
Por medio de T1 asignamos por default E a e (suponemos que E forma parte solamente de este<br />
sufijo)y @ es el carácter comodín.<br />
Fig1: Transducer T1<br />
En la Fig2 se ilustra T2 que modela la elisión de E para nombres terminados en vocal, V indica una<br />
vocal cualquiera<br />
Fig2: Transducer T2<br />
Luego, como estos traductores actúan en paralelo, la elisión E:0 se hará solo en el contexto<br />
especificado por la regla.<br />
PC KIMMO ® es un sitema desarrollado por Lauri Karttunen (1983) y otros en el que se implementa<br />
el modelo de morfología de dos niveles. Este programa tiene dos componentes de análisis principales:<br />
el componente de reglas y el lexicón. El primer componente contiene las reglas de dos niveles. El<br />
segundo, el lexicón, contiene todos los morfemas es su forma léxica junto con las reglas de formación<br />
de palabras. Estos dos componentes son utilizados sincronizadamente por las funciones de análisis<br />
(Recognizer) y generación (Generator).<br />
El quichua santiagueño<br />
El quechua es considerado como una familia de lenguas debido a que las variedades regionales<br />
difieren suficientemente como para no ser considerados dialectos (Adelaar:2004). Tipológicamente, el<br />
quechua es una lengua aglutinante. Su estructura está casi enteramente basada en el uso de sufijos y<br />
es extremadamente regular. Las alteraciones vocálicas están limitadas a una parte de los dialectos. No<br />
existen prefijos y los compuestos son excepcionales. Es una lengua de tipo nominativo-acusativo, con<br />
las marcas de caso realizadas por una clase especial de sufijos que se adjuntan al final de la frase<br />
nominal. La morfología juega un papel dominante en esta lengua, muchas funciones que son<br />
asignadas en otras lenguas a la entonación, orden de palabras o expresiones léxicas tiene en el<br />
quechua marcación morfológica, por ejemplo está muy extendido el uso de sufijos validativos. El uso<br />
exclusivo de sufijos, productividad y regularidad de los procesos morfológicos y pocas alteraciones<br />
fonológicas) hacen que resulte natural una descripción de la morfología de esta lengua utilizando el<br />
sistema KIMMO.<br />
El quichua de Santiago del Estero pertenece, según la clasificación de los dialectos de Alfredo<br />
Torero al grupo QII C. Este grupo esta integrado además por los dialectos cuzqueño-boliviano, el de<br />
Ayacucho. Algunos autores como Domingo Bravo (1965) consideran que el dialecto fue introducido en<br />
tiempos post-hispánicos de la mano de los indios que acompañaban a los conquistadores.<br />
Los scripts y la base fueron desarrollados a partir del vocabulario de Alderete [1997].<br />
La implementación en PC-KIMMO de la morfología del quichua santiagueño.<br />
El orden de aglutinación de sufijos se implementa por medio de un conjunto de reglas regulares<br />
que se exponen, para mejor comprensión, por medio de los autómatas finitos que aceptan el lenguaje<br />
que las reglas generan 2.<br />
<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>
La renovación de la palabra / 1052<br />
Fig3: Autómata finito que modela del orden de aglutinación de sufijos nominales en quichua<br />
santiagueño. Los subíndices indicando posibles transiciones vacías.<br />
Consideraremos (2) como ejemplo para mostrar como se acepta, por medio de un autómata, la<br />
forma subyacente:<br />
(2) perrosniyta<br />
perro+-Es+ ni+ y +ta + chu<br />
N +PlC + Ø +Pos+Caso+ Sgen<br />
Lit: “¿ a mis perros ?”<br />
Este string, aquí cada morfema es un simbolo atómico, es aceptado por medio de la sucesión de<br />
estados: q1 q2 q9 q3 q4 q5 q6 q7 q8:<br />
A nivel de PC-KIMMO las reglas se implementan en el archivo quichua.GRM por medio de<br />
sentencias regulares:<br />
(3) RULE<br />
Word5Word6 SUFFIXCaso<br />
RULE<br />
Word6Word7SUFFIX Pos<br />
Este conjunto de reglas indica el orden relativo de aglutinación de los sufijos posesivos y de caso.<br />
En (3) Word_i indica un símbolo no terminal. Por otra parte a nivel del léxico, en los archivos con la<br />
extensión .LEX se especifica para cada ítem, en el campo \alt las clases de morfemas que se pueden<br />
aglutinar al ítem en cuestión.<br />
En la Fig4 se muestra el autómata finito que modela la morfología verbal, sin considerar los<br />
procesos de derivación nominales:<br />
Castel y Cubo, Editores (2010)<br />
Fig4: Autómata que modela la morfologia verbal finita del quichua santiagueño.
1053 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />
Implementación de la fonología del quichua santiagueño en PC-KIMMO<br />
Fonemas<br />
En nuestra formulación de la morfología verbal finita del quichua la representación de los fonemas<br />
sigue la de Alderetes [2001]. Estos fonemas se introducen a nivel de la implementación en el archivo<br />
quichua.RUL. En este archivo además de declararse los fonemas que se utilizarán a nivel subyacente y<br />
de superficie se definen mediante la declaración subsets diferentes subconjuntos de fonemas que<br />
permiten implementar de manera más sencilla las reglas fonológicas. Para implementar las reglas de<br />
medialización del quichua santiagueño se definen un conjunto CPos formado por todas las<br />
consonantes posvelares de cualquiera de los dos niveles y un conjunto de fonemas transparentes Ftr<br />
que no bloquean los procesos de medialización. Por otra parte se definen también con caracteres<br />
especiales algunas vocales para modelar modelos de epéntesis y elisión de vocales<br />
Reglas fonológicas<br />
Fig5: Script del alfabeto en quichua.RUL<br />
Las reglas de dos niveles se implementan a nivel de PC_KIMMO por medio de transducers.<br />
Se debe tener en cuenta en el diseño de los mismos que en el sistema todos los traductores actúan<br />
en paralelo. Como ejemplo, en (4) consideramos la regla de de medialización de la u. Esta regla se<br />
enuncia prohibiendo que en el contexto especificado por la regla a una [u] subyacente corresponde<br />
una [u] a nivel de superficie<br />
(4) “Medialización de vocal u por posvelar contigua a izquierda, u:u /⇐ Cpos:@__”<br />
Para constuir el transducer que modela esta regla, en la Fig6, se muestra un primer acercamiento<br />
que consiste en definir un estado con el que se detecta la presencia una consonante posvelar<br />
subyacente (Cpos:@)<br />
Fig6<br />
En una segunda instancia se define el resto de las transiciones teniendo en cuenta el resto de las<br />
reglas que formaran el sistema, de lo que resulta el transducer que se muestra en la Fig7<br />
<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>
Fig7<br />
La renovación de la palabra / 1054<br />
A nivel de la implementación los transducers se declaran en el archivo quichua.RUL (el mismo que<br />
contiene el alfabeto y los pares por default) por medio de la matriz de transiciones del transducer. Los<br />
pares de numeros que acompañan la declaranción indican la cantidad de estados y de transiciones del<br />
automata (en el ejemplo: 3 4)<br />
RULE "6 Medialización de vocale u por postvelar a contigua a izquierda, u:u /⇐ Cpos:@ __" 3 4<br />
u u Cpos @<br />
o u @ @<br />
1: 1 1 2 1<br />
2: 3 0 2 1<br />
3: 0 1 2 1<br />
Para la regla<br />
(5) RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5<br />
El transducer correspondiente se muestra en la figura 8:<br />
Fig8: Transducer que modela la medialización retrograda.<br />
Elisión y epéntesis de vocales en la aglutinación de sufijos<br />
Algunos sufijos presentan varios alomorfos cuya presencia está determinada por el contexto. Para<br />
modelar este tipo de procesos marcamos en primer lugar al fonema que se elidirá o será epentético<br />
utilizando mayúsculas.<br />
En la regla de (7) la marca de primera persona objeto se aglutina como −wa luego de secuencia aa y<br />
como a en cualquier otro contexto. En este caso del sufijo en cuestión la marca subyacente será −Wa.<br />
En segundo lugar definimos una regla que impone la epéntesis (W:w) si y sólo si se presenta el<br />
contexto especificado.<br />
(7) R7: W : w ⇔ a : a a : a + : 0__ a:a +:0<br />
En la Fig9 se muestra un esquema del traductor que implementa esta regla.<br />
Castel y Cubo, Editores (2010)
1055 / Un parser para la morfología del quichua santiagueño con PC-KIMMO<br />
Fig9: epéntesis de w en la primera persona objeto<br />
El conjunto final de reglas fonológicas para el quichua santiagueño es (no se incluyen las<br />
asignaciones por default):<br />
RULE " 3 i:i /⇐ __ Ftr:Ftr CPos:@" 6 5<br />
RULE " 4 i:i /⇐ CPos:@ __ " 3 4<br />
RULE " 5 u:u /⇐ __ Ftr:Ftr CPos:@ " 6 5<br />
RULE " 6 u:u /⇐ CPos:@ __" 3 4<br />
RULE " 7 W:w⇔ W : w ⇔ a : a a : a + : 0__ a:a +:0 " 9 5<br />
RULE " 8 U:0⇔ ___+:0 p:p u:u +:0 " 10 5<br />
RULE " 9 N:0⇔ ___+:0 r:r a:a + " 11 7<br />
RULE "10 E:0 ⇔ V:V +:0 __ s:s +:0" 3 4<br />
RULE "11 Ø:0 ⇔ ___ #:0 " 4 3<br />
Notas<br />
1 Una buena introducción es Hopcroft (1979).<br />
2 Abreviaturas: Ag: sufijo de agente, en este caso, por ejemplo, Ag1, indica la 1ª persona agente. Ag12 es una abrev. para A1 ∪<br />
A2; Caso: sufijo de caso; Caus: Causativo; Cond :condicional; Deriv:: sufijo de derivación; Fut: futuro; Gen: sufijo general; ModI/II:<br />
Modal I/II; N: nombre; O2: objeto de segunda persona; Pas: pasado; PlC: plural castellano; PLO2: plural del objeto de segunda<br />
persona; PlQ: plural quichua; Pos:posesivo; SGen: sufijo de caso; Top :topicalizador; Tri:transición a la i-ésima persona..<br />
Referencias<br />
Adelaar, Willem and Muysken, Pieter(2004) The Languages of the Andes. Cambridge:Cambridge University Press.<br />
Albarracín, Lelia Inés, Mario C. Tebes y Jorge Alderetes (eds.)(2002) Introducción al quichua santiagueño por Ricardo<br />
L.J. Nardi. Buenos Aires: Editorial DUNKEN.<br />
Alderetes, Jorge Ricardo (1997) Vocabulario quichua-castellano.<br />
http://webs.satlink.com/usuarios/r/rory/vocabu.htm.<br />
Alderetes, Jorge Ricardo (2001) El quichua de Santiago del Estero.Gramática y vocabulario. Tucumán: Facultad de<br />
Filosofía y Letras, UNT.<br />
Antworth, Evan L.(1990) PC-KIMMO: a two-level processor for morphological analysis. No.16 in Occasional<br />
publications in academic computing. Dallas: Summer Institute of Linguistics.<br />
Bravo Domingo A. (1965) Estado actual del quichua santiagueño. Tucumán, Argentina: Universidad Nacional de<br />
Tucumán.<br />
Chomsky, Noam(1957) Syntactic structures. The Hague: Mouton.<br />
Chomsky, Noam and Morris Halle (1968) The sound pattern of English. New York: Harper and Row.<br />
Hopcroft J. and Ullman J.(1979) Introduction to Automata Theory, Languages and Computation. Addison-Wesley.<br />
Johnson, C. Douglas(1972) Formal Aspects of Phonological Description. The Hague: Mouton.<br />
Kaplan, Ronald M. and Martin Kay(1994) “Regular models of phonological rule systems”. Computational Linguistics<br />
20(3):331-378<br />
Koskenniemi K.(1983) Two-level Morphology: A general Computational Model for Word-Form Recognition and<br />
Production. Ph.D. thesis, University of Helsinki.Publications nº 11. 1983.<br />
Schützenberger, Marcel-Paul(1961) “A remark on finite transducers”. Information and Control 4:185-196.<br />
Sproat, R.(1992) .Morphology and Computation. The MIT Press.<br />
<strong>Andrés</strong> <strong>Osvaldo</strong> <strong>Porta</strong>