11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

associés sont définis avant toute expérience, contrairement aux méthodes présentéesprécédemment. Ce sont donc toujours les mêmes, alors que dans AbXtract les mots clefssont différents pour chaque famille de protéines. Un des thèmes pris en charge correspondà l’interaction moléculaire et les mots clefs associés sont : bind*, cataly*, cleav* et transcri*, oùl’astérisque représente une troncature. Un autre thème correspond à l’inhibition et les motsclefs associés sont : Downregulat*, block*, deplet*, deficien*, decreas*, inhibit*, reduc* et absen*.Comme on peut le constater, les mots clefs sont souvent des verbes. L’utilisateur a lapossibilité d’interroger le système avec des noms de gènes ou de protéines. Le système estadapté à l’étude des relations que peuvent entretenir deux gènes entre eux grâce à lapossibilité qui est offerte d’effectuer une interrogation avec un couple de labels. Dans cecas, une phrase va être considérée comme pertinente si elle contient un des deux labels et siun mot clef est utilisé. Un résumé sera considéré comme pertinent s’il contient une phrasepertinente et si les deux labels sont cités. Le résultat d’une interrogation est consultable enhypertexte.B. MÉTHODES BASÉES SUR DES ÉTUDES STATISTIQUES D’APPARITION DE MOTS CLEFSPOUR EXTRAIRE DES INFORMATIONS SUR LES INTERACTIONS GÉNÉTIQUES OUMOLÉCULAIRESUn autre courant de recherche utilise la statistique textuelle pour obtenir des informationssynthétiques sur la fonction des gènes. Les statistiques sont effectuées sur des mots du texteou sur des descripteurs.SHATKAY et alii proposent un système pour caractériser des ensembles de gènes par desmots clefs (2000). Les auteurs font appel à des modèles statistiques qui décrivent lafréquence des mots dans les documents. Les documents sont représentés par les mots qu’ilsutilisent. La question qui est posée est celle de trouver les termes qui représentent le mieuxun ensemble de documents donnés. Le système est utilisé pour interpréter des donnéesd’expression issues de puces à ADN.MASYS et alii proposent un système analogue d’interprétation de données d’expressions(2001). Il s’agit aussi d’interpréter les résultats d’expériences issues de puces à ADN. Lesgroupes de gènes, ayant des profils similaires, sont caractérisés grâce à des données issuesde Medline. Les informations extraites de Medline sont les termes MeSH qui servent àl’indexation des résumés. Ainsi les profils d’expressions sont associés à des termes MeSH.Les auteurs utilisent en particulier la classification hiérarchique des enzymes que propose leMeSH. Nous avons là un exemple très intéressant de liens établis entre des donnéesd’expériences et des données de type encyclopédique. Ces liens sont établis parl’intermédiaire des publications. Il s’agit de composer deux liens. Le premier lien va desdonnées d’expérience vers les données de publications. Il s’agit de trouver les publicationsqui donnent des informations sur les gènes dont on a des données d’expressions. Ledeuxième lien va des publications vers des données de classification. Il s’agit d’unedescription des documents faite par Medline. Le résultat est une description très riche desdonnées d’expériences.Biobibliometrics 19 est un système d’extraction d’informations sur les fonctions des gènesbasé sur des statistiques de cooccurrences des labels (STAPLEY et alii, 2000). Le système estbasé sur le fait que les gènes n’apparaissent pas « au hasard » dans les textes. Il y a descorrélations. Le traitement statistique vise à découvrir ces corrélations. Des couples de19 Accessible sur http://www.bmm.icnet.uk/~stapleyb/biobib/35

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!