Analyse syntaxique à l'aide des tables du Lexique ... - Accueil
Analyse syntaxique à l'aide des tables du Lexique ... - Accueil
Analyse syntaxique à l'aide des tables du Lexique ... - Accueil
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 1 Intro<strong>du</strong>ction<br />
1999, sa dernière version datant de 2001.<br />
FrameNet (Baker et al., 1998) est un projet fondé sur la sémantique <strong>des</strong> cadres. Il a<br />
pour objectif de documenter la combinatoire <strong>syntaxique</strong> et sémantique pour chacun<br />
<strong>des</strong> sens d’une entrée lexicale <strong>à</strong> travers une annotation manuelle d’exemples choisis<br />
dans <strong>des</strong> corpus sur <strong>des</strong> critères de représentativité lexicographique. Il a débuté en<br />
1997 et se poursuit actuellement.<br />
Citons pour terminer, VerbNet (Kipper et al., 2000), un lexique <strong>des</strong> classes de<br />
verbes anglais, qui est la ressource la plus proche <strong>du</strong> <strong>Lexique</strong>-Grammaire. VerbNet<br />
regroupe par classe les verbes partageant les mêmes comportements <strong>syntaxique</strong>s<br />
et sémantiques. C’est un prolongement <strong>des</strong> travaux de Levin (1993). De nouvelles<br />
versions sortent régulièrement, la version actuelle datant de 2009.<br />
Les <strong>tables</strong> <strong>du</strong> <strong>Lexique</strong>-Grammaire <strong>du</strong> français (Gross, 1975) constituent une base<br />
de données riche et détaillée contenant <strong>des</strong> informations lexicales, <strong>syntaxique</strong>s et<br />
sémantiques. Elles couvrent diverses catégories lexicales telles que les verbes, les<br />
noms, les adjectifs et les adverbes. Chaque table regroupe les éléments lexicaux d’une<br />
catégorie lexicale donnée, partageant certaines propriétés syntaxico-sémantiques.<br />
Leur développement a été initié depuis plus de quarante ans par M. Gross, au<br />
sein <strong>du</strong> Laboratoire d’Automatique Documentaire et Linguistique (LADL), puis<br />
<strong>du</strong> Laboratoire d’Informatique Gaspard-Monge (LIGM) de l’Université Paris-Est.<br />
Mais elles n’ont pas été créées en un format permettant directement leur utilisation<br />
dans un programme informatique tel qu’un analyseur <strong>syntaxique</strong>.<br />
1.2 Objectif<br />
L’objectif de cette thèse est de permettre aux données linguistiques codées dans<br />
les <strong>tables</strong> <strong>du</strong> <strong>Lexique</strong>-Grammaire de servir de base de données lexicales pour diverses<br />
applications de Traitement Automatique <strong>des</strong> Langues (TAL), notamment un analyseur<br />
<strong>syntaxique</strong> automatique <strong>du</strong> français. Pour cela, nous avons converti les <strong>tables</strong><br />
au format Alexina, qui est celui <strong>du</strong> lexique Lefff, un lexique <strong>syntaxique</strong> <strong>à</strong> large couverture<br />
pour le français (Sagot et Danlos, 2007; Sagot, 2010), présenté au chapitre 8.<br />
En effet, ce format est directement utilisable dans les applications de TAL de haut<br />
niveau, y compris celles qui nécessitent une analyse <strong>syntaxique</strong> profonde.<br />
Parmi les analyseurs qui prennent en entrée un lexique au format Alexina, nous<br />
avons choisi l’analyseur frmg, un analyseur profond <strong>à</strong> large couverture pour le<br />
français (Thomasset et de La Clergerie, 2005), avec une <strong>des</strong>cription grammaticale de<br />
haut niveau sous la forme de méta-grammaire. Nous avons donc réalisé l’intégration<br />
<strong>des</strong> <strong>tables</strong> dans cet analyseur, afin d’évaluer leur impact lors d’une l’analyse au<br />
chapitre 10.<br />
Avant d’être converties au format Lefff, nous avons converti les <strong>tables</strong> en un<br />
format d’échange, reposant sur les mêmes concepts linguistiques que ceux qui sont<br />
manipulés dans les <strong>tables</strong>. Nous proposons l’outil générique, nommé LGExtract,<br />
qui permet de générer un lexique <strong>syntaxique</strong> pour le TAL <strong>à</strong> partir <strong>des</strong> <strong>tables</strong> <strong>du</strong><br />
<strong>Lexique</strong>-Grammaire. Il est relié <strong>à</strong> une table globale, appelée table <strong>des</strong> classes,<br />
14