11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Définition 1 Spécificité d’un lemmeN lemme est le nombre de phrases qui utilisent le lemme, et n lemme est le nombre de phrases décrivant uneinteraction qui utilisent le lemme.Spécificit é = n / Nlemmelemmelemme2. Sélectionner les textes qui décrivent une interactionL’idée la plus simple consiste à sélectionner un certain nombre de termes parmi les plusspécifiques et à exiger pour retenir une phrase que l’un au moins de ces termes soit présent.Cette technique ne prend malheureusement pas en compte le fait éventuel que plusieurstermes spécifiques peuvent être présents et elle s’est révélée avoir de faibles performances.Ainsi, la présence d’un terme, est à lui seul un indice insuffisant pour établir un diagnosticsur une phrase. Des méthodes, exigeant la présence simultanée de plusieurs termesparticuliers, ont été testées par PILLET sous l’appellation méthode des requêtes bi-termes ou pluritermes.Elles ont donné de moins bons résultats en terme de performances que la méthodedite des IVI qui va être détaillée ci-après.Pour prendre en compte le concours que peut apporter chaque terme au diagnostic quenous cherchons à établir, nous pouvons imaginer faire la moyenne des spécificités pourchaque terme présent dans la phrase à analyser. On obtient alors pour la phrase un indiceglobal que PILLET a nommé IVI pour Index de Vraisemblance d’Interaction. L’IVI estdonc calculé selon la formule ci-dessous.Définition 2 IVI d’une phraseN phrase est le nombre d’occurrences de termes spécifiques que compte la phrase.IVI = ∑Spécificitéphraseterme dans laphrasetermeNphraseLes phrases sont ensuite comparées entre elles et les premières (par ordre l’IVI) sontsélectionnées. Autrement dit, on se donne un seuil et on sélectionne les phrases qui ont unIVI supérieur à ce seuil. Le choix de ce seuil est arbitraire. Cependant il est clair que lesdernières sélectionnées, ayant un IVI moins favorable, ont plus de chance d’êtresélectionnées à tort. Ainsi, plus on sélectionne de phrases, plus mauvaise est la qualité de lasélection.Le principe de l’extraction d’information peut alors se résumer par l’équation ci-dessous oùs est un seuil fixé au départ.Équation 2 Principe de l’analyse par utilisation des IVIUne interaction est décrite quand les partenaires sont cités et que l’IVI est supérieur à un certain seuilInteraction = partenaires + IVI > s3. Performance de la méthode des IVILa méthode mise en œuvre par PILLET permet effectivement d’enrichir le corpus en phrasesqui décrivent une interaction. En effet, avant application du critère de l’IVI, le taux dephrases qui décrivent une interaction est de 55%. Il passe à 81% après application du critèrede l’IVI –le seuil choisi étant zéro. Cependant, cet enrichissement se fait moyennant uneperte d’informations : 13 % des phrases qui décrivent une interaction sont écartées parerreur. Ceci est illustré par la figure 1.45

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!