05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 5 : Evaluation et bilan <strong>de</strong> la tâche <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

1.2. 1 ère évaluation<br />

1.2.1. Présentation du protocole<br />

Dans cette première évaluation <strong>de</strong> notre système, nous emploierons une<br />

métho<strong>de</strong> intrinsèque <strong>de</strong> nature quantitative. L’objectif est <strong>de</strong> comparer <strong>de</strong>s <strong>résumé</strong>s<br />

produits <strong>automatique</strong>ment par notre système, ainsi que par d’autres logiciels, en<br />

fonction d’extraits construits par <strong>de</strong>s sujets humains à partir <strong>de</strong>s mêmes <strong>textes</strong>.<br />

L’évaluation s’effectuera ici plus précisément avec la comparaison <strong>de</strong>s contenus <strong>de</strong><br />

chaque <strong>résumé</strong> logiciel à partir <strong>de</strong> i<strong>de</strong>ntification <strong>de</strong> leurs phrases communes avec les<br />

<strong>résumé</strong>s humains. Notre évaluation porte sur <strong>de</strong>s <strong>textes</strong> choisis au hasard dans un corpus<br />

constitué d’articles provenant <strong>de</strong>s revues ou colloques suivants : AFIA, RECITAL<br />

2001, CALS 2006, TALN 2001, ALSIC (voir l’annexe 2 et 3 pour les références <strong>de</strong><br />

chaque texte). <strong>Le</strong>s domaines traités dans ces <strong>textes</strong> sont l’intelligence artificielle, les<br />

sciences du langage, le traitement <strong>automatique</strong> <strong>de</strong>s langues, et les sciences <strong>de</strong><br />

l’éducation. Nous voulons montrer que notre approche utilisant l’annotation discursive<br />

et la sélection <strong>de</strong>s segments annotés les plus pertinents à partir d’une stratégie précise<br />

s’avère efficace sur ces types <strong>de</strong> <strong>textes</strong>, particulièrement face à d’autres logiciels <strong>de</strong><br />

<strong>résumé</strong> <strong>automatique</strong> qui utilisent d’autres techniques.<br />

La construction <strong>de</strong>s <strong>résumé</strong>s <strong>de</strong> référence par extraction est effectuée par <strong>de</strong>s<br />

étudiants <strong>de</strong> <strong>de</strong>uxième année <strong>de</strong> Master <strong>de</strong> l’université <strong>Paris</strong> IV-<strong>Sorbonne</strong>. Chaque<br />

étudiant reçoit un texte dont il doit sélectionner les phrases les plus pertinentes, selon<br />

lui, pour la construction d’un <strong>résumé</strong> <strong>de</strong> type indicatif. Il lui est <strong>de</strong>mandé <strong>de</strong> constituer<br />

un ensemble <strong>de</strong> phrases correspondant à 10% du total <strong>de</strong>s phrases du texte sur lequel il<br />

travaille. Pour construire ce <strong>résumé</strong>, ils disposent d’une heure et <strong>de</strong>mi pour <strong>de</strong>s <strong>textes</strong><br />

d’une dizaine <strong>de</strong> pages en moyenne. <strong>Le</strong> nombre d’étudiants étant <strong>de</strong> douze, nous<br />

distribuons six <strong>textes</strong> afin <strong>de</strong> bien percevoir et <strong>de</strong> traiter dans notre évaluation le<br />

phénomène <strong>de</strong> recouvrement entre les sujets humains (ici, nous pourrons pour chaque<br />

texte calculer le taux <strong>de</strong> recouvrement à partir <strong>de</strong>s <strong>de</strong>ux extraits). En effet, lors d’une<br />

évaluation comparative, l’utilisation d’un unique extrait <strong>de</strong> référence ne suffit pas du<br />

fait <strong>de</strong> l’importance considérable <strong>de</strong> la diversité <strong>de</strong>s extraits produits par <strong>de</strong>s sujets sur<br />

un même texte.<br />

301

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!