05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

comparaison entre leur valeur numérique. Dans un traitement automatisable, on<br />

comprend clairement l’avantage <strong>de</strong> telles techniques. De plus, il <strong>de</strong>vient plus aisé <strong>de</strong><br />

combiner un ensemble <strong>de</strong> critères <strong>de</strong> nature différentes pour exprimer la valeur <strong>de</strong><br />

pertinence globale d’une phrase (mais aussi d’un paragraphe, etc.) puisqu’on affecte à<br />

partir <strong>de</strong> chaque critère une valeur numérique sur la phrase. Il suffit seulement <strong>de</strong><br />

combiner toutes ces valeurs ensemble, classiquement par une fonction linéaire<br />

employant <strong>de</strong>s coefficients pour différencier l’importance <strong>de</strong> certains critères par<br />

rapport à d’autres. Pour formaliser cela, on dit que pour un segment textuel S (phrase,<br />

groupe <strong>de</strong> phrases, paragraphe…) d’un texte T, on a un score <strong>de</strong> pertinence qui peut lui<br />

être calculé <strong>de</strong> la sorte :<br />

Score ( S ) = α 1 . c 1 ( S ) + α 2 . c 2 ( S ) + ... + α k-1 . c k-1 ( S ) + α k . c k ( S )<br />

Où :<br />

• c 1 , c 2 ,… c k-1 , c k sont <strong>de</strong>s fonctions calculant la valeur numérique d’un critère<br />

appliqué à un segment textuel ;<br />

• k étant le nombre total <strong>de</strong> critères retenus pour calculer le score <strong>de</strong> pertinence<br />

<strong>de</strong>s segments du texte ;<br />

• α 1 , α 2 ,..., α k-1 , α k sont <strong>de</strong>s coefficients associés à chaque critère suivant si<br />

certains doivent peser plus dans le score que d’autres.<br />

Ainsi, les segments qui ont les scores <strong>de</strong> pertinence les plus élevés sont ceux qui<br />

seront extraits les premiers pour construire le <strong>résumé</strong>.<br />

Evi<strong>de</strong>mment ces techniques ont <strong>de</strong> nombreux désavantages qu’on peut leur<br />

attribuer. Comment bien choisir les valeurs numériques à affecter à un segment à partir<br />

d’un critère non numérique (linguistique, etc.) qui s’y applique ? Par exemple, si l’on<br />

prend la position <strong>de</strong> la phrase comme critère, doit-on mettre 1 si elle est en début <strong>de</strong><br />

document ou en fin, et 0 pour le reste ? La combinaison numérique <strong>de</strong> critères si<br />

différents dans leur nature a-t-elle réellement un sens ? Peut on associer la position<br />

d’une phrase avec le nombre <strong>de</strong> termes thématiques dans celle-ci, la présence <strong>de</strong> cue<br />

phrases, sa longueur ou encore la présence ou pas dans celle-ci d’anaphore en début ?<br />

Comment choisir le bon ensemble <strong>de</strong> critères ? Effectivement certaines combinaisons <strong>de</strong><br />

critères peuvent être meilleures que d’autres, voir l’article [Teufel et Moens 1999] par<br />

66

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!