05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

1.2. Quelques exemples d’annotations <strong>automatique</strong>s <strong>de</strong> <strong>textes</strong> d’un<br />

point <strong>de</strong> vue linguistique<br />

L’annotation textuelle cherche à décrire un contenu verbal à partir d’un certain<br />

niveau <strong>de</strong> <strong>de</strong>scription (linguistique ou pas) bien défini. Une telle annotation peut<br />

chercher à exprimer la mise en forme physique <strong>de</strong> ce contenu, à exposer certaines <strong>de</strong> ces<br />

propriétés syntaxiques, sémantiques, etc. Tous les types <strong>de</strong> <strong>de</strong>scription sur le texte, et<br />

plus particulièrement ceux <strong>de</strong> nature linguistique, peuvent se faire sous forme<br />

d’annotations, et cela suivant les besoins <strong>de</strong> <strong>de</strong>scription du texte pour une activité<br />

précise (mise en forme, étiquetage morphosyntaxique d’un texte, etc.). Nous prendrons,<br />

pour illustrer notre propos, trois exemples d’applications qui proposent une annotation<br />

<strong>automatique</strong> <strong>de</strong> contenus textuels ayant pour tâche <strong>de</strong> décrire sur celui-ci un type<br />

particulier d’information : <strong>de</strong> type morphosyntaxique pour le premier (TreeTagger), et<br />

<strong>de</strong> type sémantique pour le second et le troisième (GATE-ANNIE et KIM).<br />

TreeTagger est un outil informatique développé à l’université <strong>de</strong> Stuttgart<br />

(http://www.ims.uni-stuttgart.<strong>de</strong>/projekte/corplex/TreeTagger/) qui permet d’annoter un<br />

texte en fournissant <strong>de</strong>s informations morphosyntaxiques sur les éléments qui le<br />

composent. En effet, pour chaque mot du texte, TreeTagger fournit <strong>automatique</strong>ment la<br />

catégorie morphosyntaxiques (déterminant, nom, verbe, etc.) et le lemme<br />

correspondant. TreeTagger utilise une métho<strong>de</strong> probabiliste, il évalue la probabilité <strong>de</strong><br />

transition d’un élément à annoter vers un autre à partir d’arbres <strong>de</strong> décision (voir<br />

[Schmid 1994] et [Schmid 1995]). <strong>Le</strong> paramétrage initial <strong>de</strong>s valeurs, qu’utilise<br />

TreeTagger pour les différentes langues, a été effectué par un apprentissage sur <strong>de</strong>s<br />

corpus propres à chacune <strong>de</strong>s langues.<br />

Prenons un exemple dans le cas où l’on annote la phrase suivante avec TreeTagger :<br />

« <strong>Le</strong>s maisons en France sont très belles. »<br />

Nous obtenons alors la sortie suivante :<br />

<strong>Le</strong>s DET:ART le<br />

maisons NOM maison<br />

en PRP en<br />

France NAM France<br />

99

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!