11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Le principal intérêt de cette modification consiste à faciliter la comparaison de notre travailavec d’autres travaux. En effet, dans la plupart des travaux sur l’extraction d’information,on ne distingue que deux catégories de texte –les bons et les mauvais –et non troiscatégories.D’autre part, cette modification permet de substituer la définition 3 par la définition 1 quiest à notre sens plus simple. En effet, ces deux formules sont équivalentes comme nousallons le montrer dans ce qui suit.La présence de deux catégories seulement permet d’écrire N = n + n'. D’où, après calculS' = 2 S - 1 où S' désigne la spécificité définie par PILLET, et S la spécificité que nousproposons. On en déduit IVI' = 2 IVI - 1 où IVI' désigne l’index de vraisemblanced’interaction calculé grâce aux spécificité S'. Les deux versions de l’IVI sont identiques à lacomposition par une fonction affine près. Ainsi, quand IVI' prend ses valeurs entre -1 et 1,IVI varie entre 0 et 1. Imposer une condition du type IVI > s revient exactement à imposerune condition du type IVI' > s' où s' est un seuil choisi en fonction du seuil s. Nouspouvons donc dire que les deux statistiques IVI et IVI' sont équivalentes. Nous utiliseronsla définition 3 dans les calculs de l’IVI car elle a l’avantage de conduire à une quantité quichange de signe, ce qui est plus lisible dans les graphiques.2. Calcul de l’IVI par la somme des spécificitésUne variante pour calculer l’IVI consiste à faire la somme à la place de la moyenne desspécificités, comme explicité ci-dessous.Définition 4 Une variante pour la définition de l’IVIIVI = Spécificit∑phraseé termeterme dans la phraseCette formule a donné des résultats moins bons, comme illustré dans le tableau 3, où l’onvoit qu’à précision égale, la méthode de la somme ne permet pas un aussi bon rappel.Tableau 3 Prise en compte de la spécificité de chaque terme : somme ou moyenneLe tableau donne la performance de la méthode d’extraction d’information. La performance estévaluée en terme de précision et de rappel. Deux méthodes existent pour prendre en compte laspécificité de chaque terme du texte pour obtenir chiffre global pour le texte considéré. La premièreconsiste à faire la moyenne des spécificités, la seconde consiste à faire la somme.Méthode Précision RappelMoyenne 81% 87%Somme 81% 62%Par ailleurs, la méthode de la somme a l’inconvénient de fournir un IVI qui n’est pas borné.En effet, la spécificité est comprise entre 0 et 1 ; quand on fait la moyenne, la quantité restecomprise entre ces deux bornes. En revanche si l’on fait la somme, on peut avoir desnombres beaucoup plus grands. Cela trahit le fait que l’IVI calculé par la méthode de lasomme est une statistique, qui n’est pas indépendante de la taille du texte. En effet, si letexte est long, il comptera en moyenne plus de termes spécifiques que si le texte est court.Dans ce cas, l’IVI risque d’être plus grand. Cette non-indépendance de l’IVI par rapport àla taille du texte n’est pas pertinente car il n’y a pas lieu de penser que les grandes phrasesont plus de chance de décrire une interaction. Nous pensons que c’est la raison pourlaquelle l’IVI calculé par la méthode de la somme donne de moins bons résultats.47

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!