05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3 : L’annotation discursive à partir d’EXCOM<br />

2. <strong>Le</strong> projet EXCOM d’annotation <strong>automatique</strong><br />

2.1. Introduction et présentation du système EXCOM<br />

<strong>Le</strong> système EXCOM (EXploration COntextuelle Multilingue) a été conçu dans le<br />

cadre <strong>de</strong> l’annotation <strong>automatique</strong> <strong>de</strong> <strong>textes</strong> à travers <strong>de</strong>s catégories sémantiques 42<br />

dégagées par <strong>de</strong>s linguistes, et ceci dans l’objectif <strong>de</strong> répondre à certains types <strong>de</strong> tâches<br />

comme la fouille <strong>de</strong> <strong>textes</strong>, la recherche d’informations, le <strong>résumé</strong> <strong>automatique</strong>, la<br />

construction <strong>de</strong> fiches <strong>de</strong> synthèse, etc. Sa particularité est qu’il repose entièrement sur<br />

l’utilisation <strong>de</strong> ressources linguistiques (marqueurs et règles d’annotation) développées<br />

par l’homme à partir d’analyses sur corpus. <strong>Le</strong> principe d’annotation <strong>automatique</strong><br />

repose sur la métho<strong>de</strong> d’exploration contextuelle qui exploite ces ressources<br />

linguistiques mises à disposition dans le système.<br />

Dès sa conception, et par les principes mêmes qui sont utilisés, EXCOM a eu pour<br />

but <strong>de</strong> s’appliquer à plusieurs langues. Plusieurs travaux sur l’annotation <strong>automatique</strong><br />

<strong>de</strong> <strong>textes</strong> dans d’autres langues ont été intégrés dans certaines tâches du système<br />

(<strong>résumé</strong> en bulgare [Atanassova 2006] et en chinois [Zhang 2006] par exemple). En<br />

effet, l’architecture d’EXCOM n’a pas été conçue à partir du traitement d’une seule<br />

langue, chaque module intervenant dans le traitement du texte (segmentation en phrases,<br />

annotation sémantique, etc.) doit pouvoir fonctionner pour toutes les langues en<br />

employant les ressources développées pour chacune.<br />

Au sein du laboratoire <strong>LaLIC</strong>, le système EXCOM s’inscrit dans la suite <strong>de</strong> la<br />

plate-forme d’annotation ContextO qui utilisait également la métho<strong>de</strong> d’exploration<br />

contextuelle. La plate-forme ContextO était développée en langage JAVA [Crispino<br />

2003], et s’employait seulement pour le français dans différentes applications comme le<br />

<strong>résumé</strong> <strong>automatique</strong> [Minel et Desclés 2000]. Cependant, l’objectif d’EXCOM est plus<br />

ambitieux, parce que <strong>de</strong>s applications sur plusieurs langues ont été intégrées (<strong>résumé</strong> en<br />

français, en bulgare, en coréen, et en chinois), ensuite parce que l’annotation<br />

sémantique est également amenée à s’insérer dans <strong>de</strong>s projets plus larges tels que celui<br />

42 On emploie la notion <strong>de</strong> catégorie sémantique au sens large, les catégories discursives que nous<br />

emploierons dans la suite en sont <strong>de</strong>s sous-catégories spécifiques pour un certain niveau <strong>de</strong> <strong>de</strong>scription.<br />

105

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!