15.11.2013 Views

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Capítulo 4. Colección <strong>de</strong> estadísticas <strong>de</strong> las combinaciones <strong>de</strong> subcategorización como<br />

método práctico<br />

repite el proceso (ver Figura 34).<br />

El proceso comienza con <strong>un</strong> <strong>diccionario</strong> <strong>de</strong> combinaciones vacío. En la<br />

primera iteración, para cada frase, todas las variantes producidas <strong>por</strong> el analizador<br />

<strong>sintáctico</strong> tienen los mismos pesos. Enseguida, se <strong>de</strong>terminan las frecuencias p i<br />

+ y<br />

p i<br />

−<br />

para cada combinación encontrada al menos <strong>un</strong>a vez en cualquiera <strong>de</strong> las<br />

variantes producidas <strong>por</strong> el analizador <strong>sintáctico</strong> para todas las frases <strong>de</strong>l corpus.<br />

Puesto que en esta etapa se <strong>de</strong>sconoce cuáles variantes son las correctas, para<br />

<strong>de</strong>terminar el número <strong>de</strong> ocurrencias <strong>de</strong> la combinación en las variantes correctas<br />

sumamos los pesos w j <strong>de</strong> cada variante j don<strong>de</strong> se encontró la combinación, a p<br />

+<br />

i .<br />

Similarmente, para <strong>de</strong>terminar p<br />

−<br />

i le sumamos el valor ( 1− w j ) que representa la<br />

probabilidad <strong>de</strong> que la variante dada sea incorrecta. Entonces, po<strong>de</strong>mos consi<strong>de</strong>rar<br />

todo el proceso <strong>de</strong> cálculo <strong>de</strong> los pesos como el proceso iterativo <strong>de</strong> solución <strong>de</strong> <strong>un</strong><br />

solo sistema <strong>de</strong> ecuaciones, consi<strong>de</strong>rando la fórmula (9):<br />

p<br />

p<br />

w<br />

∑<br />

+<br />

i<br />

−<br />

i<br />

j<br />

=<br />

=<br />

∑<br />

∑<br />

= C<br />

w<br />

k<br />

= 1<br />

w j<br />

,<br />

S<br />

(1 − w<br />

×<br />

V<br />

∏<br />

−<br />

j<br />

S<br />

( p<br />

( p<br />

) + λ<br />

+<br />

i<br />

−<br />

i<br />

,<br />

+ λ )( q<br />

+ λ )( q<br />

−<br />

i<br />

+<br />

i<br />

+ λ )<br />

+ λ )<br />

don<strong>de</strong> S es el número total <strong>de</strong> oraciones, V es el número total <strong>de</strong> variantes en<br />

el corpus. En las primeras dos líneas, la suma sólo se realiza para las variantes don<strong>de</strong><br />

la combinación i aparece. El significado <strong>de</strong> λ, como ya lo presentamos en la sección<br />

anterior, está relacionado con las palabras ausentes en el corpus.<br />

En la tercera línea, la multiplicación se hace para todas las combinaciones que<br />

aparecen en la variante j, para obtener su peso. En la cuarta línea la suma se hace para<br />

todas las variantes <strong>de</strong> la estructura <strong>de</strong> la frase específica bajo análisis, para<br />

normalizar. Los divisores en las dos primeras líneas y la constante C <strong>de</strong> la tercera<br />

línea solamente se introducen para normalización: S es el número total <strong>de</strong> variantes<br />

V − S son las incorrectas. Así que los coeficientes los<br />

correctas supuestas y ( )<br />

pro<strong>por</strong>cionan el analizador <strong>sintáctico</strong> y el corpus <strong>de</strong> textos.<br />

combinaciones con el mejor peso hasta las variantes o combinaciones con los peores pesos.<br />

268

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!