05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

<strong>de</strong> MOXCE pour la recherche d’informations à partir <strong>de</strong> l’in<strong>de</strong>xation <strong>de</strong>s annotations<br />

sémantiques [Djioua et Desclés 2007], en projet avec France Télécom.<br />

Du point <strong>de</strong> vue technologique, le système EXCOM est élaboré en langage PERL,<br />

et la représentation <strong>de</strong>s <strong>textes</strong> traités dans le processus <strong>automatique</strong> d’annotation est<br />

sous format XML. <strong>Le</strong> système consiste en l’exécution <strong>de</strong> différents traitements (figure<br />

11), auxquels sont associés <strong>de</strong>s ressources particulières, permettant au final d’annoter<br />

<strong>automatique</strong>ment le texte pour qu’il puisse être traitable par une autre application ou<br />

bien visualisable dans une interface. EXCOM prend en entrée <strong>de</strong>s fichiers <strong>de</strong> type<br />

HTML, XML ou TXT dont certaines informations, pouvant être ultérieurement<br />

importantes, sont conservées, comme la taille <strong>de</strong>s caractères, l’apparence du contenu<br />

textuel (italique, gras, souligné), <strong>de</strong>s liens vers <strong>de</strong>s images, etc. En sortie finale,<br />

EXCOM renvoie plusieurs fichiers XML contenant le texte annoté avec diverses<br />

nouvelles méta-données portant sur lui, que nous décrirons plus loin.<br />

Règles<br />

typographiques<br />

Ressources<br />

linguistiques :<br />

marqueurs + règles<br />

Document<br />

XML<br />

<strong>textes</strong> +<br />

annotations<br />

TEXTES<br />

(Txt,<br />

html,<br />

xml…)<br />

Prétraitement<br />

+<br />

Segmentation<br />

SEGATEX<br />

Annotation<br />

sémantique<br />

<strong>automatique</strong><br />

Moteur<br />

Document<br />

XML<br />

<strong>textes</strong><br />

d’annotation<br />

EXCOM<br />

Document<br />

XML<br />

annotations<br />

Figure 11 : Architecture générale <strong>de</strong> la plate-forme EXCOM<br />

106

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!