11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

exactement à la requête. Ce système est très largement utilisé, aussi bien pour les bases dedonnées bibliographiques que pour les moteurs de recherche sur internet.Dans le cas du modèle vectoriel, on recherche une similitude entre document et requêteplutôt qu’une correspondance exacte. Cette similitude est une quantité qui prend des valeursentre zéro et un. Elle est d’autant plus grande que document et requête ont des mots encommuns. Dans ce modèle, les documents et les requêtes sont représentés par des vecteursdans un espace vectoriel. La similitude entre document et requête est calculée par le cosinusde l’angle que font les deux vecteurs.Les méthodes de recherche documentaires doivent être évaluées sur la quantité et la qualitédes réponses qu’elles fournissent. Deux indicateurs sont utilisés pour cela. Il s’agit du tauxde rappel et du taux de précision (SALTON et alii, 1983). Le premier correspond à laproportion des documents trouvés (parmi les documents cherchés). Le second correspondà la proportion de documents pertinents (parmi les documents ramenés).Pour améliorer la performance du système de recherche, des traitements sont nécessaires. Ils’agit de simplifier la représentation des documents afin d’éviter que des documentssimilaires soient considérés comme trop différents (FALOUTSOS et alii, 1995). Une despremières étapes consiste à éliminer les mots qui à eux seuls n’apportent pas d’informationsur le document (VAN-RIJSBERGEN et alii, 1979). Ces mots sont appelés mots vides 7 . Ce prétraitementa été utilisé lors de la détermination du vocabulaire spécifique de l’interactiongénétique ou moléculaire. Une seconde étape dans le traitement classique des documents,consiste à lemmatiser les textes (SALTON, 1989). Il s’agit de faire disparaître les différencesmorphologiques, par exemple les marques de pluriel, de féminin ou de conjugaison. Toutesles formes fléchies sont ramenées à une forme unique qui est appelée le lemme. Cettetechnique a été utilisée une première fois pour déterminer le vocabulaire spécifique et uneseconde fois pour détecter les phrases qui par leur vocabulaire semblent décrire desinteractions génétiques ou moléculaires.D’autres directions de recherche existent en recherche d’information. Il y a notamment lestechniques visant à organiser automatiquement les documents. Ces techniques permettentde faciliter la consultation et donc d’accéder plus facilement aux documents et àl’information. Cette organisation peut consister en des opérations de sélection dedocuments selon un thème, de tris des documents selon leur pertinence par rapport à uneproblématique, de classement en différentes rubriques, etc. A titre d’exemple, USUSAKA etalii proposent une méthode basée sur l’apprentissage de cas pour sélectionner des résuméstraitant d’un thème particulier (1998).Dans le domaine de la veille technologique et de l’intelligence économique, GOUJONpropose un système d’analyse de texte qui met en évidence des segments de textes ayant destraits particuliers (2000). Cette technique permet, d’après son auteur, d’analyser le contenud’un ensemble de documents tels que des brevets sans avoir à les lire intégralement.Voyons maintenant dans quelle mesure notre travail s’inscrit dans la recherched’informations et comment il s’en distingue.7 Les termes de l’index sont en italique. Là où ils sont définis, ils sont aussi en gras. La consultation de l’index permet detrouver la page où ils sont définis (numéro de page en gras) et les pages où ils sont utilisés.19

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!