11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

nomenclature utilisée n’est pas extrêmement rigoureuse. Cela est dû au fait que levocabulaire n’est pas contrôlé. Les auteurs sont libres dans la description des séquencesqu’ils soumettent. Chacun va utiliser son propre vocabulaire pour énumérer gènes etprotéines associés à la séquence. Le résultat est qu’un gène ou une protéine peut avoir étédésigné par différents noms. Inversement un même nom peut désigner des gènes ou desprotéines qui n’ont rien à voir. Les auteurs distinguent deux causes dans l’inconsistance dela terminologie. La première est biologique. Une même protéine pourra être désignée dedifférentes façons selon le contexte biologique. La seconde est sémantique. Il existeplusieurs orthographes possibles pour le nom complet d’une protéine et plusieurs façonsd’abréger ce nom.Ce manque de rigueur dans la description des séquences par des mots clefs rendl’information disponible plus difficilement exploitable. L’auteur propose des solutions à ceproblème. Il procède par classification des mots clefs. Cette classification va rassembler desmots clefs associés à des séquences identiques ou impliquées dans des fonctions similaires.La navigation dans cette classification doit permettre à l’utilisateur de mieux connaître laterminologie utilisée pour désigner les gènes qui l’intéressent. Ce type de recherche est doncexploitable pour construire des dictionnaires de gènes, mais cette construction n’est pasautomatique, elle est simplement assistée par l’informatique.D. CONCLUSION SUR LES TRAVAUX CONCERNANT LA RECHERCHE DE GÈNES OU DELEURS PRODUITS DANS DES TEXTESLa majeure partie des travaux sur la reconnaissance de labels porte sur les protéines. Uneoriginalité de notre travail consiste à s’intéresser aux noms des gènes et de leurs produits.Les études faites sur la reconnaissance des gènes ou de leurs produits permettent d’isoler uncertain nombre de problèmes. Premièrement, la présence de nombreux noms synonymes vientcompliquer l’identification d’un gène précis dans une liste préalablement définie.Deuxièmement, l’existence de gènes homonymes peut constituer une source d’erreurs.Troisièmement, la présence de labels ambigus pose le problème d’une reconnaissancecontextuelle.Rares sont les systèmes qui prennent intégralement en charge le phénomène de synonymie.La plupart des systèmes se contentent de poser une marque à chaque occurrence d’un label.Ils ne se préoccupent pas d’associer le label à un gène unique en prenant en compte le faitque plusieurs labels puissent renvoyer à un même gène.Les systèmes proposés utilisent des listes de noms synonymes extraites de base de donnéesmais nous n’avons pas trouvé d’études quantitatives sur les carences de ces listes.Les conséquences de l’homonymie dans la nomenclature et de l’ambiguïté de certains labelsne semblent pas non plus avoir été quantitativement évaluées.Ainsi, il manque une étude sur la possibilité d’utiliser une base de données pour identifierles gènes dans les textes. Cette base de données devrait contenir les divers noms synonymes desgènes et de leurs produits.Cette étude doit permettre de montrer qu’il est possible d’identifier des gènes dans destextes sans faire appel à des techniques linguistiques infiniment plus sophistiquées quel’utilisation d’un dictionnaire.31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!