05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

l’attribut <strong>de</strong> localisation la valeur <strong>de</strong>but si le segment est uniquement dans le premier<br />

paragraphe du texte, mais ceci nécessite un traitement plus compliqué, puisqu’il faut<br />

alors vérifier le nombre <strong>de</strong> paragraphes du texte et la taille <strong>de</strong> chaque paragraphe pour<br />

voir si la valeur est réellement adéquate. Enfin, il est aussi possible <strong>de</strong> donner <strong>de</strong>s<br />

valeurs relatives à une partie <strong>de</strong> la structure textuelle. En effet, nos valeurs sont ici<br />

relatives au texte dans sa totalité, mais on peut aussi donner ces trois valeurs<br />

relativement à une section, ou un paragraphe, en désignant si le segment est en leur<br />

début, fin, etc. Cela peut <strong>de</strong>venir intéressant lorsque l’on souhaite par exemple connaître<br />

la position d’une récapitulation dans un paragraphe afin <strong>de</strong> déterminer la portée <strong>de</strong><br />

celle-ci sur le paragraphe : si elle se trouve en fin <strong>de</strong> paragraphe alors elle sera traitée<br />

comme une récapitulation <strong>de</strong> paragraphe plutôt qu’une récapitulation quelconque.<br />

Intéressons-nous maintenant à décrire la tâche centrale <strong>de</strong> ce traitement qui<br />

consiste à sélectionner et extraire les segments pertinents. Dans un premier temps, un<br />

nouveau document XML est créé, et celui-ci contient uniquement les phrases annotées<br />

du texte puisque l’annotation est une condition nécessaire pour l’extraction d’une<br />

phrase. <strong>Le</strong>s <strong>de</strong>ux autres critères (position textuelle et termes thématiques) ne sont, selon<br />

nous, pas suffisants à eux-seuls pour évaluer la pertinence <strong>de</strong>s phrases non annotées.<br />

Ensuite sur ce texte composé uniquement <strong>de</strong> phrases annotées, on va évaluer chacune<br />

<strong>de</strong>s phrases en les ordonnant entre elles d’après une certaine stratégie rapportée à un<br />

type <strong>de</strong> <strong>résumé</strong>. A la suite <strong>de</strong> cela, on va sélectionner les phrases les plus pertinentes en<br />

partant <strong>de</strong> celles situées en haut <strong>de</strong> notre hiérarchie, puis en <strong>de</strong>scendant progressivement<br />

jusqu’à obtenir le nombre suffisant <strong>de</strong> phrases pour construire le <strong>résumé</strong>.<br />

Informatiquement, toutes ces opérations d’évaluation, <strong>de</strong> hiérarchisation et d’extraction<br />

opérant sur <strong>de</strong>s éléments XML (les phrases balisées, les attributs correspondants aux<br />

annotations, à la position textuelle, etc.) ont été programmées sous la forme <strong>de</strong> règles<br />

XSLT déclenchées sur le document XML à partir du programme <strong>de</strong> base.<br />

288

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!