Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé<br />
automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles,<br />
extraites de textes de biochimie. Ce programme est le précurseur du programme de la<br />
grammaire de chaînes que développera N. Sager à l’université de New-York (Sager,<br />
1970), qui donnera lieu aux <strong>analyseur</strong>s développés par R. Grishman et L. Hirschman.<br />
2.3.4. L’<strong>analyseur</strong> de F. Debili<br />
Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une<br />
acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche<br />
dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement<br />
Automatique des Langues sont orientés vers la recherche documentaire dans des bases<br />
textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la<br />
détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un<br />
système documentaire devrait fournir des documents contenant les phrases « Le premier<br />
ministre est nommé par le président de la république. » ou « La nomination du premier<br />
ministre par le président de la république a été (…) ». L’<strong>analyseur</strong> <strong>syntaxique</strong> développé<br />
par F. Debili est un <strong>analyseur</strong> en dépendance, qui s’appuie sur les résultats d’un<br />
étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai<br />
qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER<br />
(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique,<br />
<strong>syntaxique</strong>, sémantique. La composante morphologique repose sur un découpage des<br />
mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper<br />
les mots du corpus en familles morphologiques. La composante <strong>syntaxique</strong> segmente<br />
d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de<br />
dépendance potentielles entre les mots. La composante sémantique a pour fonction de<br />
résoudre les ambiguïtés de rattachement laissées par le module <strong>syntaxique</strong>, à l’aide d’un<br />
raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La<br />
nomination par le ministre des membres du conseil supérieur … », la composante<br />
<strong>syntaxique</strong> a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre<br />
et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont<br />
nommés … », et si la composante morphologique a acquis le lien morphologique entre<br />
nomination et nommer, et si la composante <strong>syntaxique</strong> a identifié sans ambiguïté la<br />
relation sujet entre le nom membres et le verbe nommer au passif, alors la composante<br />
sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom<br />
nomination comme gouverneur de membres. C’est ce principe de désambiguïsation<br />
endogène qui fait la principale originalité du système de F. Debili. Le système prend en<br />
entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des<br />
caractéristiques lexico-<strong>syntaxique</strong>s pour que des propriétés morpho<strong>syntaxique</strong>s des mots<br />
considérés comme types soient acquises sur l’ensemble de ce corpus et propagées<br />
rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types.<br />
Dans le module <strong>syntaxique</strong>, le traitement se déroule en deux étapes : une étape de<br />
segmentation, une étape de mise en relation. Lors de la première étape, le système<br />
48