23.06.2013 Views

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé<br />

automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles,<br />

extraites de textes de biochimie. Ce programme est le précurseur du programme de la<br />

grammaire de chaînes que développera N. Sager à l’université de New-York (Sager,<br />

1970), qui donnera lieu aux <strong>analyseur</strong>s développés par R. Grishman et L. Hirschman.<br />

2.3.4. L’<strong>analyseur</strong> de F. Debili<br />

Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une<br />

acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche<br />

dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement<br />

Automatique des Langues sont orientés vers la recherche documentaire dans des bases<br />

textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la<br />

détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un<br />

système documentaire devrait fournir des documents contenant les phrases « Le premier<br />

ministre est nommé par le président de la république. » ou « La nomination du premier<br />

ministre par le président de la république a été (…) ». L’<strong>analyseur</strong> <strong>syntaxique</strong> développé<br />

par F. Debili est un <strong>analyseur</strong> en dépendance, qui s’appuie sur les résultats d’un<br />

étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai<br />

qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER<br />

(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique,<br />

<strong>syntaxique</strong>, sémantique. La composante morphologique repose sur un découpage des<br />

mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper<br />

les mots du corpus en familles morphologiques. La composante <strong>syntaxique</strong> segmente<br />

d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de<br />

dépendance potentielles entre les mots. La composante sémantique a pour fonction de<br />

résoudre les ambiguïtés de rattachement laissées par le module <strong>syntaxique</strong>, à l’aide d’un<br />

raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La<br />

nomination par le ministre des membres du conseil supérieur … », la composante<br />

<strong>syntaxique</strong> a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre<br />

et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont<br />

nommés … », et si la composante morphologique a acquis le lien morphologique entre<br />

nomination et nommer, et si la composante <strong>syntaxique</strong> a identifié sans ambiguïté la<br />

relation sujet entre le nom membres et le verbe nommer au passif, alors la composante<br />

sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom<br />

nomination comme gouverneur de membres. C’est ce principe de désambiguïsation<br />

endogène qui fait la principale originalité du système de F. Debili. Le système prend en<br />

entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des<br />

caractéristiques lexico-<strong>syntaxique</strong>s pour que des propriétés morpho<strong>syntaxique</strong>s des mots<br />

considérés comme types soient acquises sur l’ensemble de ce corpus et propagées<br />

rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types.<br />

Dans le module <strong>syntaxique</strong>, le traitement se déroule en deux étapes : une étape de<br />

segmentation, une étape de mise en relation. Lors de la première étape, le système<br />

48

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!