05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 5 : Evaluation et bilan <strong>de</strong> la tâche <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

toutefois <strong>de</strong>ux <strong>résumé</strong>s logiciels se placent <strong>de</strong>vant l’autre <strong>résumé</strong> humain (le<br />

notre et Copernic Summarizer). Cela montre déjà que, dans la notation effectuée<br />

par les étudiants, les <strong>résumé</strong>s humains ne se dégagent pas aussi facilement<br />

comparativement à d’autres <strong>résumé</strong>s logiciels.<br />

• Sur 10 <strong>résumé</strong>s au total, seulement <strong>de</strong>ux sont notés <strong>de</strong> la même manière par 6<br />

étudiants (1 pour le <strong>résumé</strong> EXCOM et 2 pour le <strong>résumé</strong> humain1 du premier<br />

texte). <strong>Le</strong>s 8 autres <strong>résumé</strong>s ont <strong>de</strong>s notes variant <strong>de</strong> mauvais à bon, aussi bien<br />

pour les <strong>résumé</strong>s humains que machines (avec <strong>de</strong>s fréquences différentes<br />

évi<strong>de</strong>mment). Là aussi, aucune distinction nette n’apparaît entre les <strong>résumé</strong>s<br />

humains et logiciels.<br />

• Si l’on prend alors les valeurs d’écart-type moyen, on voit que les sujets<br />

humains ne sont pas dans leur ensemble plus en accord dans la notation d’un<br />

<strong>résumé</strong> humain que d’un <strong>résumé</strong> logiciel (sauf dans le premier texte pour le<br />

<strong>résumé</strong> humain1 et le nôtre).<br />

• <strong>Le</strong>s <strong>résumé</strong>s issus <strong>de</strong> notre application et <strong>de</strong> Copernic Summarizer ne sont pas<br />

vraiment distinguables par les étudiants <strong>de</strong>s <strong>résumé</strong>s humains (si l’on prend les<br />

valeurs moyennes <strong>de</strong> humain1-2 du tableau 8). L’avantage va plutôt pour notre<br />

application à cause d’une variation plus faible entre les appréciations (écart-type<br />

moyen <strong>de</strong> 0,4) pour une note moyenne <strong>de</strong> 1. Enfin, AutoSummarize <strong>de</strong><br />

Microsoft offre <strong>de</strong>s résultats plus médiocres avec la note la plus basse et un<br />

écart-type moyen assez élevé. Il se dégage ainsi légèrement <strong>de</strong>s autres par ses<br />

performantes plus médiocres.<br />

Nous convenons qu’il est difficile <strong>de</strong> généraliser ces résultats en raison du nombre<br />

réduit <strong>de</strong> <strong>textes</strong> et <strong>de</strong> sujets qui ont pu participer à cette évaluation. Idéalement, il<br />

faudrait pouvoir effectuer une telle évaluation sur un très grand nombre <strong>de</strong> <strong>textes</strong> et<br />

éventuellement sur plus <strong>de</strong> sujets pour s’assurer <strong>de</strong> résultats totalement fiables. Mais<br />

comme nous faisons cette évaluation à la suite d’une autre, elle nous permet toutefois <strong>de</strong><br />

continuer à observer certaines tendances qui ont pu être exprimées dans la première<br />

évaluation. Rappelons ces principales tendances dans le contexte <strong>de</strong> cette nouvelle<br />

évaluation :<br />

309

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!