05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 5 : Evaluation et bilan <strong>de</strong> la tâche <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

évalués, notre stratégie offre ainsi une meilleure constance sur la qualité <strong>de</strong>s<br />

<strong>résumé</strong>s produits.<br />

Cette première évaluation quantitative et comparative par rapport à <strong>de</strong>s extraits <strong>de</strong><br />

sujets humains, nous a permis <strong>de</strong> montrer une réelle capacité <strong>de</strong> notre approche à<br />

construire efficacement <strong>de</strong>s <strong>résumé</strong>s, ceci relativement à d’autres systèmes logiciels<br />

professionnels. Cependant, une seule évaluation n’est pas toujours suffisante pour se<br />

rendre compte <strong>de</strong> l’efficacité d’une application <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong> 63 . Par<br />

conséquent, nous allons décrire dans la partie suivante une autre évaluation, dont le<br />

principe est différent, afin <strong>de</strong> confirmer ce que nous venons <strong>de</strong> constater dans cette<br />

première évaluation.<br />

1.3. 2 ème évaluation<br />

1.3.1. Présentation du protocole<br />

Lors <strong>de</strong> la première évaluation, les sujets humains ont eu pour rôle d’élaborer les<br />

<strong>résumé</strong>s <strong>de</strong> référence qui nous ont servi <strong>de</strong> base pour le calcul <strong>de</strong>s valeurs <strong>de</strong> précision<br />

et <strong>de</strong> rappel. Maintenant, on désire qu’un autre groupe <strong>de</strong> sujets humains évalue<br />

directement différents <strong>résumé</strong>s d’un même texte dans l’objectif <strong>de</strong> pouvoir confirmer ou<br />

non les tendances qui se dégageaient dans l’évaluation précé<strong>de</strong>nte. Cette nouvelle<br />

évaluation nous permettra aussi, dans une certaine mesure, <strong>de</strong> voir si les sujets humains<br />

sont aptes à différencier les <strong>résumé</strong>s logiciels et humains.<br />

Nous donnons alors à douze sujets humains (étudiants <strong>de</strong> première année <strong>de</strong><br />

Master à l’université <strong>Paris</strong> IV-<strong>Sorbonne</strong>) cinq <strong>résumé</strong>s d’un texte (<strong>de</strong> type indicatif et<br />

construits à un taux <strong>de</strong> 10%) qu’ils doivent noter chacun. Nous divisons le groupe <strong>de</strong><br />

sujets en <strong>de</strong>ux, avec pour chaque groupe un texte différent. Pour un <strong>résumé</strong>, un étudiant<br />

a le choix <strong>de</strong> lui attribuer une note parmi mauvais, moyen et bon, cela en rapport avec<br />

les qualités générales du <strong>résumé</strong> (fonction indicative, cohérence, cohésion, etc.). <strong>Le</strong>s<br />

étudiants n’ont pas accès aux documents originaux et ne sont pas considérés comme<br />

étant experts <strong>de</strong>s domaines traités dans les <strong>de</strong>ux <strong>textes</strong>. Dans les cinq <strong>résumé</strong>s fournis à<br />

63 Cf. partie 1.1 <strong>de</strong> ce chapitre<br />

306

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!