22.06.2013 Views

Analyse syntaxique à l'aide des tables du Lexique ... - Accueil

Analyse syntaxique à l'aide des tables du Lexique ... - Accueil

Analyse syntaxique à l'aide des tables du Lexique ... - Accueil

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 1 Intro<strong>du</strong>ction<br />

1999, sa dernière version datant de 2001.<br />

FrameNet (Baker et al., 1998) est un projet fondé sur la sémantique <strong>des</strong> cadres. Il a<br />

pour objectif de documenter la combinatoire <strong>syntaxique</strong> et sémantique pour chacun<br />

<strong>des</strong> sens d’une entrée lexicale <strong>à</strong> travers une annotation manuelle d’exemples choisis<br />

dans <strong>des</strong> corpus sur <strong>des</strong> critères de représentativité lexicographique. Il a débuté en<br />

1997 et se poursuit actuellement.<br />

Citons pour terminer, VerbNet (Kipper et al., 2000), un lexique <strong>des</strong> classes de<br />

verbes anglais, qui est la ressource la plus proche <strong>du</strong> <strong>Lexique</strong>-Grammaire. VerbNet<br />

regroupe par classe les verbes partageant les mêmes comportements <strong>syntaxique</strong>s<br />

et sémantiques. C’est un prolongement <strong>des</strong> travaux de Levin (1993). De nouvelles<br />

versions sortent régulièrement, la version actuelle datant de 2009.<br />

Les <strong>tables</strong> <strong>du</strong> <strong>Lexique</strong>-Grammaire <strong>du</strong> français (Gross, 1975) constituent une base<br />

de données riche et détaillée contenant <strong>des</strong> informations lexicales, <strong>syntaxique</strong>s et<br />

sémantiques. Elles couvrent diverses catégories lexicales telles que les verbes, les<br />

noms, les adjectifs et les adverbes. Chaque table regroupe les éléments lexicaux d’une<br />

catégorie lexicale donnée, partageant certaines propriétés syntaxico-sémantiques.<br />

Leur développement a été initié depuis plus de quarante ans par M. Gross, au<br />

sein <strong>du</strong> Laboratoire d’Automatique Documentaire et Linguistique (LADL), puis<br />

<strong>du</strong> Laboratoire d’Informatique Gaspard-Monge (LIGM) de l’Université Paris-Est.<br />

Mais elles n’ont pas été créées en un format permettant directement leur utilisation<br />

dans un programme informatique tel qu’un analyseur <strong>syntaxique</strong>.<br />

1.2 Objectif<br />

L’objectif de cette thèse est de permettre aux données linguistiques codées dans<br />

les <strong>tables</strong> <strong>du</strong> <strong>Lexique</strong>-Grammaire de servir de base de données lexicales pour diverses<br />

applications de Traitement Automatique <strong>des</strong> Langues (TAL), notamment un analyseur<br />

<strong>syntaxique</strong> automatique <strong>du</strong> français. Pour cela, nous avons converti les <strong>tables</strong><br />

au format Alexina, qui est celui <strong>du</strong> lexique Lefff, un lexique <strong>syntaxique</strong> <strong>à</strong> large couverture<br />

pour le français (Sagot et Danlos, 2007; Sagot, 2010), présenté au chapitre 8.<br />

En effet, ce format est directement utilisable dans les applications de TAL de haut<br />

niveau, y compris celles qui nécessitent une analyse <strong>syntaxique</strong> profonde.<br />

Parmi les analyseurs qui prennent en entrée un lexique au format Alexina, nous<br />

avons choisi l’analyseur frmg, un analyseur profond <strong>à</strong> large couverture pour le<br />

français (Thomasset et de La Clergerie, 2005), avec une <strong>des</strong>cription grammaticale de<br />

haut niveau sous la forme de méta-grammaire. Nous avons donc réalisé l’intégration<br />

<strong>des</strong> <strong>tables</strong> dans cet analyseur, afin d’évaluer leur impact lors d’une l’analyse au<br />

chapitre 10.<br />

Avant d’être converties au format Lefff, nous avons converti les <strong>tables</strong> en un<br />

format d’échange, reposant sur les mêmes concepts linguistiques que ceux qui sont<br />

manipulés dans les <strong>tables</strong>. Nous proposons l’outil générique, nommé LGExtract,<br />

qui permet de générer un lexique <strong>syntaxique</strong> pour le TAL <strong>à</strong> partir <strong>des</strong> <strong>tables</strong> <strong>du</strong><br />

<strong>Lexique</strong>-Grammaire. Il est relié <strong>à</strong> une table globale, appelée table <strong>des</strong> classes,<br />

14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!