11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

nomenclature des gènes humains ont été obtenues par compilation de données provenantde différentes bases de données. Les bases de données utilisées sont : la base de donnée duHUGO Gene Nomenclature Committee, GDB, GENATLAS et LocusLink 14 . Cettedernière est une base de données sur la localisation chromosomique des gènes.STEPHENS et alii proposent un système analogue (2001). Il s’agit d’extraction d’informationssur les relations qu’entretiennent les gènes. Le système utilise aussi un lexique défini avanttoute expérience de nom de gènes ou de protéines.Cependant la tâche d’identification des gènes dans les textes n’a pas été évaluée en tant quetelle. C’est le résultat final, à savoir le réseau des gènes co-occurrents qui est évalué. Ceréseau est évalué du point de vue de sa pertinence pour le biologiste.RINDFLECH et alii, dans leur travail en recherche d’informations sur les liaisons moléculairesentre macro-molécules, détectent les noms des objets en interactions grâce à leur fonctiongrammaticale dans la phrase et les identifient à des entrées de GenBank quand cela estpossible (1999). Dans son travail sur l’extraction de relations entre médicaments, gènes etcellules, les noms de gènes sont reconnus comme tels grâce à l’utilisation d’un thésaurus(RINDFLESCH et alii, 2000). Ce thésaurus, l’UMLS Metathesaurus (HUMPHREYS et alii,1998), est spécialisé dans le domaine médical. Il lui permet de reconnaître des objets de typecellule, médicament ou gène et de faire la distinction entre ces trois types d’objets. Pour lesgènes, une liste de noms synonymes est adjointe à l’aide de GeneCards.L’université de Tokyo développe un système d’extraction d’informations sur les interactionsprotéine-protéine (ONO et alii, 2001). Dans ce système, la reconnaissance des noms deprotéines se fait par l’utilisation d’un dictionnaire sur les protéines. Ce dictionnaire a étécréé semi-automatiquement par une analyse de la littérature sur laquelle nous reviendronsdans la partie réservée à l’étude de la bibliographie sur la création automatique dedictionnaire à partir de textes (YOSHIDA et alii, 2000).En France, on peut noter le travail de TURNER et alii sur la création de liens entre SwissProtet Medline (2000). Dans ce travail, les résumés sont indexés avec des mots clefs extraits deSwissProt. Cette indexation permet de créer des liens d’un résumé vers des donnéesfactuelles contenues dans SwissProt. Les noms de protéines sont utilisés comme mots clefspour indexer les résumés Medline. Le système est évalué du point de vue de la représentationdocumentaire. La question est de savoir si l’indexation des résumés est pertinente du pointde vue d’une interrogation documentaire. Les auteurs n’ont pas évalué, en terme de rappelet de précision, leur technique de reconnaissance des protéines.B. TRAVAUX SUR LA RECONNAISSANCE DES GÈNES OU DE LEURS PRODUITSN’UTILISANT PAS DE LEXIQUESPour éviter d’avoir à construire des dictionnaires ou des lexiques spécifiques au domaine, uncertain nombre d’auteurs mettent au point des méthodes qui n’en nécessitent pas. Cesméthodes sont basées sur le fait que les noms de gènes ont une place spécifique dans laconstruction grammaticale de la phrase. Elles utilisent aussi les propriétés morphologiquesdes noms de gènes ou de protéines.L’argument utilisé pour ne pas utiliser de dictionnaire est le suivant : les dictionnairesappropriés n’existent pas toujours. Une méthode générale doit donc pouvoir s’en passer.14 Accessible sur http://www.ncbi.nlm.nih.gov/LocusLink/27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!