05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

Nous allons premièrement commenter les résultats quantitatifs obtenus puis nous<br />

analyserons d’une manière qualitative les phénomènes <strong>de</strong> silence et <strong>de</strong> bruit (par rapport<br />

aux valeurs <strong>de</strong> rappel et <strong>de</strong> précision).<br />

Nous obtenons <strong>de</strong>s résultats majoritairement satisfaisants dans le rappel comme<br />

dans la précision. La majorité <strong>de</strong>s catégories ont un rappel supérieur à 70% et une<br />

précision supérieure à 75%, <strong>de</strong>ux catégories ont un rappel inférieur à 50% (40%) et<br />

seulement trois sont inférieures à 70% pour la précision (aucune n’est inférieure à 60%).<br />

Ces résultats sont à juger en fonction <strong>de</strong>s problèmes linguistiques et <strong>de</strong> traitements<br />

auxquels nous sommes confrontés et que nous considérerons dans la suite <strong>de</strong> cette<br />

partie. Cela montre toutefois bien la difficulté, même en présence <strong>de</strong> marques <strong>de</strong><br />

surface, <strong>de</strong> pouvoir annoter <strong>automatique</strong>ment avec fiabilité <strong>de</strong>s <strong>textes</strong>, que pourtant<br />

nous, humains, nous analysons assez aisément.<br />

Dans le cadre <strong>de</strong> la fouille <strong>de</strong> <strong>textes</strong>, l’objectif n’est pas d’annoter la totalité du<br />

texte, seulement une partie pouvant être pertinente. On cherche à fournir aux utilisateurs<br />

<strong>de</strong>s segments, bien sûr pertinents par rapport à leurs requêtes, mais aussi fiables quant à<br />

leur annotation. Par conséquent, la qualité <strong>de</strong>s valeurs <strong>de</strong> précision nous semble ici plus<br />

fondamentale que celle du rappel. Toutefois, en prenant en compte ce choix en faveur<br />

<strong>de</strong> la précision dans la construction préalable <strong>de</strong>s ressources (par l’élimination <strong>de</strong><br />

marqueurs peu fiables par exemple), les valeurs <strong>de</strong> précision pour l’ensemble <strong>de</strong>s <strong>textes</strong><br />

sont accompagnées <strong>de</strong> valeurs assez proches pour le rappel (malgré tout un peu plus<br />

faible en moyenne). Ceci montre que le choix <strong>de</strong> l’une ne semble pas avoir altéré<br />

significativement les résultats <strong>de</strong> l’autre même si ce choix a agi comme même (nous<br />

allons l’expliquer).<br />

En ce qui concerne les catégories prises séparément, <strong>de</strong>s variations significatives<br />

entre les valeurs expriment la nature différente <strong>de</strong>s marques linguistiques appartenant à<br />

chacune d’elles. Certaines catégories, comme les reformulations, les conclusions, ou<br />

encore les hypothèses, disposent <strong>de</strong> marques relativement fiables et en nombre limité<br />

(par exemple l’indicateur nous supposons renvoie avec une gran<strong>de</strong> certitu<strong>de</strong> à une<br />

hypothèse <strong>de</strong> l’auteur), tandis que d’autres catégories, comme les métho<strong>de</strong>s ou même<br />

les présentations thématiques, renferment <strong>de</strong>s marques plus indéterminées et plus<br />

dépendantes du contexte textuel ce qui rend plus difficile la constitution <strong>de</strong>s ensembles<br />

<strong>de</strong> marques <strong>de</strong> ces catégories (par exemple, nous allons voir est un indicateur faible<br />

dans le cas <strong>de</strong>s présentations thématiques et nécessitent une exploration contextuelle, or<br />

250

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!