15.11.2013 Views

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Capítulo 1. Retrospectiva histórica <strong>de</strong> los formalismos gramaticales y alg<strong>un</strong>as<br />

herramientas en lingüística computacional<br />

consi<strong>de</strong>rar la variedad <strong>de</strong> observaciones lingüísticas y com<strong>por</strong>tamiento cognitivo<br />

inherente en la producción <strong>de</strong> <strong>patrones</strong> <strong>de</strong> secuencias <strong>de</strong> palabras en el lenguaje.<br />

Ejemplos <strong>de</strong> mo<strong>de</strong>los estadísticos <strong>de</strong>l lenguaje son los <strong>de</strong> [Markov, 16], predicción<br />

estocástica <strong>de</strong> secuencias, el <strong>de</strong> [Shannon, 49], red<strong>un</strong>dancia <strong>de</strong>l inglés, y el <strong>de</strong> [Zipf,<br />

35], distribución <strong>de</strong> rangos <strong>de</strong> frecuencias.<br />

En esta sección presentamos la distribución <strong>de</strong> rangos <strong>de</strong> frecuencias, la<br />

predicción estadística <strong>de</strong> secuencias, y la reestimación.<br />

Distribución <strong>de</strong> rangos <strong>de</strong> frecuencias<br />

Entre los mo<strong>de</strong>los predictivos, la ley <strong>de</strong> Zipf trata <strong>de</strong> explicar el<br />

com<strong>por</strong>tamiento futuro. De acuerdo a la distribución Zipf [Zipf, 49], <strong>un</strong>a variable<br />

aleatoria tiene <strong>un</strong>a distribución Zipf si la probabilidad <strong>de</strong> su f<strong>un</strong>ción masa esta dada<br />

<strong>por</strong> la siguiente fórmula para algún valor <strong>de</strong> α>0.<br />

P<br />

C<br />

{ X = k } = , k = 1, 2, ...<br />

k<br />

α + 1<br />

Puesto que la sumatoria <strong>de</strong> las probabilida<strong>de</strong>s anteriores <strong>de</strong>be ser igual a 1,<br />

entonces:<br />

⎡ ∞ ⎛ 1 ⎞<br />

C = ⎢ ∑ ⎜ ⎟<br />

⎢k=<br />

1<br />

⎣ ⎝ k ⎠<br />

α + 1<br />

−1<br />

⎤<br />

⎥<br />

⎥⎦<br />

La ley <strong>de</strong> Zipf dice que para la mayoría <strong>de</strong> los países, la distribución <strong>de</strong>l<br />

tamaño <strong>de</strong> las ciuda<strong>de</strong>s se ajusta impresionantemente a <strong>un</strong>a ley po<strong>de</strong>rosa: el número<br />

<strong>de</strong> ciuda<strong>de</strong>s con poblaciones mayores que S es pro<strong>por</strong>cional a 1/S. Suponiendo que, al<br />

menos en la última parte, todas las ciuda<strong>de</strong>s siguen algún proceso <strong>de</strong> crecimiento<br />

pro<strong>por</strong>cional (esto parece verificarse empíricamente). Esto lleva su distribución,<br />

automáticamente, a converger a la ley <strong>de</strong> Zipf.<br />

De acuerdo a la ley <strong>de</strong> Zipf, el rango <strong>de</strong> <strong>un</strong>a palabra en <strong>un</strong>a lista <strong>de</strong> frecuencias<br />

<strong>de</strong> palabras, or<strong>de</strong>nada <strong>por</strong> frecuencias <strong>de</strong> aparición en forma <strong>de</strong>scen<strong>de</strong>nte, está<br />

relacionada inversamente a su frecuencia. Se pue<strong>de</strong> pre<strong>de</strong>cir la frecuencia <strong>de</strong> <strong>un</strong>a<br />

palabra a partir <strong>de</strong> su rango usando la fórmula:<br />

frecuencia = k ×<br />

rango<br />

−γ<br />

, k y γ<br />

son<br />

constantes<br />

empíricamente<br />

<strong>de</strong>terminadas<br />

La ley <strong>de</strong> Zipf es <strong>un</strong>a observación empírica <strong>de</strong> que en muchos dominios, el<br />

rango <strong>de</strong> <strong>un</strong> elemento dividido <strong>por</strong> la frecuencia <strong>de</strong> ocurrencia <strong>de</strong> ese elemento es<br />

constante. Por ejemplo, si las poblaciones <strong>de</strong> ciuda<strong>de</strong>s obe<strong>de</strong>cen la ley Zipf,<br />

significaría que si la más populosa tiene <strong>un</strong>a población n, entonces la seg<strong>un</strong>da ciudad<br />

más gran<strong>de</strong> tiene n/2 y la tercera n/3, etc. Zipf observó que esta ley se aplica en<br />

muchas áreas diversas, incluyendo frecuencias <strong>de</strong> palabras en textos, escritas en<br />

diversos lenguajes. Publicaciones posteriores <strong>de</strong>mostraron que la ley <strong>de</strong> Zipf es <strong>un</strong>a<br />

110

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!