Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
des liens 14 . Surtout, les nœuds présentent des profils de répartition des liens entrants T,<br />
E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La<br />
productivité en T d’un nœud est le nombre de lien T qui pointent vers ce nœud, c’est-àdire<br />
le nombre de termes qui ont le terme pivot en position T, de même pour la<br />
productivité en E, en T’ et en E’. <strong>Un</strong> simple calcul sur les profils de répartition des<br />
productivités permet d’isoler certains noms du corpus qui ont un comportement marqué :<br />
par exemple, les noms qui sont proportionnellement beaucoup plus productifs en<br />
position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres<br />
positions désignent très probablement des actions importantes dans le domaine. Dans<br />
(Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées<br />
dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement<br />
un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire<br />
l’analyse <strong>syntaxique</strong> binaire en tête et expansion des candidats termes complexes devient<br />
une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux<br />
aussi à l’aide à la modélisation des connaissances à partir de textes.<br />
Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD<br />
d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances<br />
à partir de textes. Dès les premières expériences de modélisation, menées dans le<br />
domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs<br />
extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le<br />
cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des<br />
candidats termes tels que réseau, poste, hypothèse de consommation, alors que les<br />
candidats termes adjectivaux comme national, admissible ou fort lui posent plus de<br />
problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte,<br />
puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible,<br />
puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible<br />
et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des<br />
connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les<br />
attributs et leurs domaines de variation est une condition essentielle pour la construction<br />
de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes<br />
automatiques de classification d’adjectifs apparaissant dans les mêmes contextes<br />
<strong>syntaxique</strong>s, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La<br />
méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des<br />
3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et<br />
Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque<br />
ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce<br />
tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette<br />
matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs<br />
sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des<br />
classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire<br />
l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la<br />
14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées<br />
justement depuis cette époque.<br />
20