05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

…<br />

<br />

<br />

La conquête <strong>de</strong> la lune jusqu’à nos jours<br />

<br />

<br />

…<br />

Application règle Titre SEGATEX<br />

…<br />

<br />

La conquête <strong>de</strong> la lune jusqu’à nos jours<br />

<br />

…<br />

Figure 24 : Repérage <strong>de</strong>s titres avec SEGATEX<br />

Comme le contenu <strong>de</strong>s titres nous est accessible par le balisage XML construit par<br />

SEGATEX, nous pouvons alors extraire les termes thématiques <strong>de</strong> ceux-ci. <strong>Le</strong>s termes<br />

thématiques qui nous intéressent correspon<strong>de</strong>nt aux noms renfermés dans les titres.<br />

Nous avons expliqué l’importance qu’ils pouvaient avoir du fait qu’ils sont fortement<br />

représentatifs du thème traité dans le document, et qu’ils peuvent apparaître comme <strong>de</strong>s<br />

référents introduits préalablement dans le titre avant leur <strong>de</strong>scription ou leur<br />

manipulation dans le texte qui suit. Avant tout, il nous faut pouvoir repérer<br />

<strong>automatique</strong>ment les noms contenus dans un titre afin <strong>de</strong> les extraire, et nous <strong>de</strong>vons<br />

pour cela procé<strong>de</strong>r à une analyse morphosyntaxique du segment textuel correspondant<br />

au titre. Dans notre application informatique, nous avons décidé d’utiliser l’analyseur<br />

TREETAGGER qui permet d’attribuer à chaque mot (token) une étiquette<br />

morphosyntaxique nous donnant alors la possibilité <strong>de</strong> reconnaître les noms d’un<br />

segment textuel. Nous extrayons ainsi <strong>de</strong>s titres les termes thématiques <strong>de</strong> cette manière<br />

en constituant une liste <strong>de</strong> termes qui sera utilisable par la suite pour les repérer dans le<br />

texte, <strong>de</strong> la même manière que nos listes <strong>de</strong> marqueurs linguistiques. Cependant, comme<br />

TREETAGGER différencie les noms communs <strong>de</strong>s noms propres, dans le cas <strong>de</strong>s<br />

premiers nous extrayons les formes <strong>de</strong> bases <strong>de</strong>s noms communs que le logiciel sépare,<br />

et nous produisons les formes dérivées possibles comme le pluriel (lorsqu’elles sont<br />

278

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!