15.11.2013 Views

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Bases <strong>de</strong>l método <strong>de</strong> obtención y evaluación <strong>de</strong> estadísticas <strong>de</strong> opciones <strong>de</strong> análisis<br />

<strong>sintáctico</strong><br />

frecuencias <strong>de</strong> las combinaciones en frases <strong>de</strong> textos particulares como en los errores<br />

<strong>de</strong>l analizador <strong>sintáctico</strong> específico, es <strong>de</strong>cir, en los árboles generados <strong>por</strong> el<br />

analizador <strong>sintáctico</strong> y en las estructuras que serían rechazadas ya sea <strong>por</strong> hablantes<br />

nativos o <strong>por</strong> otro tipo <strong>de</strong> procedimiento. En este método, para cada frase, se<br />

<strong>de</strong>termina <strong>un</strong> peso (o probabilidad) para cada variante <strong>de</strong> estructura sintáctica. Este<br />

peso se basa en las estadísticas <strong>de</strong> las combinaciones en el lenguaje y en las<br />

estadísticas <strong>de</strong> variantes erróneas generadas <strong>por</strong> el analizador <strong>sintáctico</strong> específico.<br />

Como ejemplo <strong>de</strong> este razonamiento presentamos <strong>un</strong> caso <strong>de</strong> <strong>de</strong>sambiguación<br />

<strong>de</strong> POS. Supongamos que las frecuencias <strong>de</strong> diferentes POS en los textos bajo<br />

investigación son:<br />

+<br />

sus<br />

p tan = 0.4,<br />

tivo<br />

+<br />

p<br />

adjetivo<br />

= 0.4,<br />

+<br />

p<br />

verbo<br />

= 0.2.<br />

Cada variante consiste <strong>de</strong> solamente <strong>un</strong>a característica: V 1 = {adjetivo}, V 2 =<br />

{verbo}, V 3 = {sustantivo}. Si esta es toda la información que tenemos, entonces dado<br />

el resultado <strong>de</strong>l análisis V = {{adjetivo}, {verbo}} para <strong>un</strong>a palabra dada,<br />

razonaríamos que puesto que<br />

+<br />

p<br />

adjetivo<br />

> p<br />

+ verbo<br />

entonces la variante correcta <strong>de</strong>bería ser adjetivo, ya que su peso es P ({adjetivo}) =<br />

0.4 / (0.4 + 0.2) ≈ 0.66 mientras que el peso P ({verbo}) = 0.2 / (0.4 + 0.2) ≈ 0.33.<br />

En otro resultado tenemos que V = {{sustantivo}, {adjetivo}}, y entonces no pue<strong>de</strong><br />

hacerse ning<strong>un</strong>a <strong>de</strong>cisión <strong>por</strong>que los pesos son iguales: P ({sustantivo}) =<br />

P ({adjetivo}) = 0.5.<br />

Supongamos ahora, como usualmente suce<strong>de</strong>, que el marcador <strong>de</strong> POS<br />

empleado re<strong>por</strong>ta a veces erróneamente alg<strong>un</strong>as variantes para las palabras, y que lo<br />

hace con la frecuencia 0.9 para <strong>un</strong> sustantivo, con la frecuencia 0.1 para <strong>un</strong> adjetivo, y<br />

que n<strong>un</strong>ca ha re<strong>por</strong>tado <strong>un</strong> verbo erróneamente 39 . Entonces para el resultado<br />

V = {{adjetivo}, {sustantivo}} po<strong>de</strong>mos <strong>de</strong>cir que la respuesta correcta es adjetivo ya<br />

que ambos tienen la misma probabilidad y el analizador comete <strong>un</strong> error menor al<br />

marcar <strong>un</strong> adjetivo.<br />

Entonces con este razonamiento, en nuestro método introducimos dos tipos <strong>de</strong><br />

pesos estadísticos: p + y p – . El peso p + significa la probabilidad, es <strong>de</strong>cir, la frecuencia<br />

<strong>de</strong> ocurrencia <strong>de</strong> <strong>un</strong>a combinación particular con la palabra rectora específica en el<br />

texto, en <strong>un</strong>a estructura sintáctica correcta. Por ejemplo, en la Figura 28 la<br />

combinación trasladar-<strong>de</strong>s<strong>de</strong>-hasta ocurre <strong>un</strong>a vez en la estructura correcta.<br />

El peso p – es más interesante que el anterior, y hasta don<strong>de</strong> hemos investigado<br />

su uso no ha sido <strong>de</strong>scrito en otros trabajos en el área, previamente; <strong>por</strong> lo que su<br />

39 La diferencia pue<strong>de</strong> resultar <strong>de</strong> algún análisis <strong>de</strong> contexto que realiza.<br />

247

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!