11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

n’est pas le cas des noms complets et des synonymes. Ainsi ce travail n’est pas directementtransposable aux textes issus de Medline.PROUX et alii sont néanmoins confrontés à un problème intéressant qui est celui des labelsambigus. Ce sont des labels qui peuvent éventuellement désigner autre chose que des gènes.Ils font une distinction entre différents types de labels ambigus. Les labels ambigus hors dudomaine (out of scope) sont des termes qui peuvent être caractérisés comme ambigus engénéral mais ne le sont pas dans le contexte des textes étudiés ici. Par exemple gypsy, quisignifie bohémien, n’est pas ambigu dans des textes de génétique sur la drosophile. Leslabels ambigus dans le domaine (in scope) sont des termes qui peuvent prêter à confusionavec des termes du domaine. Il s’agit par exemple de dorsal qui est le nom d’un gène connumais est aussi un terme anatomique. La dernière catégorie de label (in conflict) rassemble lesnoms de gènes qui prêtent à confusion avec un mot d’une autre catégorie grammaticale. Ils’agit par exemple de is, a , by, red, can. Ces termes, quand ils sont employés dans leurs sensde gènes, risquent de perturber l’analyse grammaticale de la phrase.L’analyse grammaticale des phrases apporte néanmoins des informations pertinentespuisque les performances calculées par PROUX et alii sont intéressantes pour un systèmesans dictionnaire de gène. Le taux de précision atteint 91,4 % pour un taux de rappel de 94,4 %.A notre avis, ces techniques gagneraient à intégrer malgré tout un dictionnaire des gènes ;d’autant plus que la construction de tel dictionnaire à partir de corpus est possible. Lestravaux décrits dans la section suivante le montrent.RINDFLESCH et alii adoptent une stratégie dans laquelle les termes sont trouvés par analysegrammaticale de la phrase, puis éventuellement associés à des entrées d’une ressourceterminologique (1999). Le travail porte sur l’extraction d’informations sur les affinités deliaisons moléculaires entre macro-molécules. Les termes recherchés sont tous les syntagmesnominaux qui peuvent éventuellement être sujets à une liaison moléculaire. Il peut doncs’agir d’une molécule, d’une partie d’une molécule, d’une cellule, d’une partie d’une celluleou d’une structure génomique. Pour identifier ces entités, les auteurs utilisent des ressourcesterminologiques variées. Il s’agit en particulier du thésaurus biomédical UMLSMetathesaurus, du dictionnaire biomédical SPECIALIST et de Genbank. Quand il n’y apas de correspondance, le terme est laissé non interprété et le processus d’extractiond’informations suit son cours normalement. Il s’agit donc d’une démarche intermédiaireentre le ‘tout lexique’ et le ‘sans lexique’.C. TRAVAUX SUR LA CRÉATION AUTOMATIQUE OU ASSISTÉE DE DICTIONNAIRE DESGÈNES OU DE LEURS PRODUITS À PARTIR DE TEXTESLes travaux que nous décrivons ici concernent la création de dictionnaire de gènes ou deprotéines à partir de l’analyse de corpus de publications. Tous ces travaux proviennent del’université de Tokyo.Le premier travail concerne la création de base de connaissances à partir de publicationsscientifiques (OHTA et alii, 1997). Il a conduit à la réalisation d’un système qui combinerecherche d’informations, extraction d’informations et construction de dictionnairesspécifiques. Le logiciel s’appelle IFBP pour Information Finding from Biological Paper. Ledictionnaire spécialisé utilisé par le système contient entre autres des noms de protéines. Cedictionnaire sert à analyser les textes pour la recherche et l’extraction d’informations. Unintéressant mécanisme de rétroaction est mis en place. Le résultat de la recherched’informations permise par le dictionnaire sert à améliorer le dictionnaire lui-même. Le29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!