05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

linguistiques dans un segment textuel, c’est-à-dire sans indices ou justification<br />

matérielle, est beaucoup plus soumise à l’appréciation du sujet qui annote. Ici,<br />

l’évaluation consiste effectivement à évaluer notre approche <strong>de</strong> l’annotation qui repose<br />

uniquement sur le repérage <strong>de</strong> traces en surface dans les <strong>textes</strong>. Nous évaluons bien ce<br />

que le système annote par rapport à ce qu’il pourrait annoter théoriquement par une<br />

analyse <strong>de</strong> surface, c’est-à-dire par rapport à <strong>de</strong>s segments où il y a la présence <strong>de</strong><br />

marques linguistiques plus ou moins ambiguës et associées aux catégories discursives<br />

que nous recherchons. La prise en compte <strong>de</strong>s segments ne comportant pas d’indices<br />

matériels pour justifier leurs valeurs discursives serait intéressante dans le cadre d’une<br />

évaluation plus générale <strong>de</strong>s systèmes reposant sur la recherche <strong>de</strong> marques, car elle<br />

permettrait <strong>de</strong> montrer les limites <strong>de</strong> leur approche. Cependant ceci sort du cadre <strong>de</strong><br />

notre travail, et nous ne cherchons pas à montrer <strong>de</strong> telles limites qui dépen<strong>de</strong>nt <strong>de</strong> trop<br />

nombreux paramètres.<br />

5.2. Résultats<br />

Nous présentons dans les tableaux 4 et 5 qui suivent les taux <strong>de</strong> rappel et <strong>de</strong><br />

précision calculés sur l’ensemble <strong>de</strong>s <strong>textes</strong> et en fonction <strong>de</strong>s catégories discursives<br />

(nous renvoyons à l’annexe 2 pour le détail <strong>de</strong>s valeurs <strong>de</strong> chaque texte ; par ailleurs, la<br />

catégorie <strong>de</strong>s conséquences n’a pas été retenue ici à cause <strong>de</strong> sa trop gran<strong>de</strong> fréquence,<br />

ce qui n’avait plus <strong>de</strong> pertinence 50 ). Notons que ce sont <strong>de</strong>s moyennes générales sur le<br />

nombre d’occurrences totales dans les 20 <strong>textes</strong>.<br />

La variation <strong>de</strong>s valeurs <strong>de</strong> rappel et <strong>de</strong> précision d’un texte à un autre est dans<br />

certains cas relativement importante. En effet, ceci traduit la très gran<strong>de</strong> variabilité <strong>de</strong><br />

formes que prennent les <strong>textes</strong> même dans un corpus commun. Chaque texte étant<br />

différent (par son thème, son style, sa stratégie discursive et argumentative, etc.), les<br />

marques <strong>de</strong> surface sont rarement les mêmes d’un texte à un autre, et on ne peut<br />

observer dans aucun cas une convergence <strong>de</strong>s valeurs d’un texte à un autre autour <strong>de</strong><br />

seuils.<br />

50 Il aurait fallu ne prendre en compte que certains types <strong>de</strong> conséquences moins fréquentes (et plus<br />

pertinentes dans notre étu<strong>de</strong>) comme celles en rapport direct avec le document en cours (En conséquence,<br />

cet article…), cependant cela aurait compliqué la validation.<br />

248

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!