05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

discipline ce document est relatif. » Ontologies pour le Web Semantique et le e-<br />

<strong>Le</strong>arning, Marie-Helene Abel et al., AFIA.<br />

En ce qui concerne le bruit maintenant, on peut constater qu’il apparaît en premier<br />

lieu avec l’annotation <strong>de</strong> segments à partir d’indicateurs peu fiables car trop<br />

polysémiques. Suivant certains con<strong>textes</strong>, ces marques se trouvent avoir <strong>de</strong>s fonctions<br />

discursives ne correspondant pas à celles que l’on attend. Cela varie considérablement<br />

suivant les marques linguistiques utilisées comme indicateur, certaines se trouvant dans<br />

un contexte particulièrement rare n’ont pas exceptionnellement la même valeur<br />

sémantique, tandis que d’autres marques, elles, sont trop variables suivant les con<strong>textes</strong><br />

et apportent continuellement du bruit dans les <strong>textes</strong>. Pour ces <strong>de</strong>rnières, la solution<br />

actuelle est donc <strong>de</strong> les repérer et <strong>de</strong> les retirer. Cependant pour les marques<br />

linguistiques qui provoquent du bruit en raison d’un contexte exceptionnel où elles se<br />

situent, ce phénomène étant plutôt peu fréquent, on admet qu’elles peuvent être<br />

globalement fiables et nous pouvons ainsi les conserver. La présence <strong>de</strong> con<strong>textes</strong> très<br />

particuliers faisant changer la fonction <strong>de</strong> marqueurs relativement fiables est un<br />

phénomène complexe à traiter. Prenons un exemple tiré <strong>de</strong> notre corpus d’évaluation,<br />

légèrement différent mais qui traduit ce problème <strong>de</strong> contexte dans lequel se situe<br />

l’indicateur :<br />

« Nous aurions ainsi <strong>de</strong>ux formes <strong>de</strong> l'épreuve autobiographique : (i) je dispose<br />

<strong>de</strong> beaucoup <strong>de</strong> temps, je produis un texte ample (= 100 pages), je recours massivement<br />

au traitement scénographique ;(ii) je dispose <strong>de</strong> peu <strong>de</strong> temps, je ne peux (ou ne dois)<br />

que produire un texte au format mo<strong>de</strong>ste (= 20 pages), et je recours massivement au<br />

summury. » Economie cinétique et formes <strong>de</strong> mimesis : le cas <strong>de</strong>s histoires <strong>de</strong> vie, Jean-<br />

Michel Baudoin & Juan Pita, CALS2006.<br />

Ce segment textuel a été annoté par nos règles comme étant une métho<strong>de</strong> <strong>de</strong><br />

l’auteur grâce à la présence <strong>de</strong> l’indicateur fort (dans les articles scientifiques) je<br />

recours et <strong>de</strong> l’indice au traitement dans le contexte textuel <strong>de</strong> l’indicateur. Cependant,<br />

on voit bien que le je ne renvoie pas à l’auteur et que donc ce segment je recours<br />

massivement au traitement n’a pas le même rôle qu’il <strong>de</strong>vrait avoir normalement, c’està-dire<br />

<strong>de</strong> métho<strong>de</strong> <strong>de</strong> l’auteur. Ici, le problème est principalement lié à l’anaphore<br />

252

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!