La recherche et la collecte d’informations sur les sources traditionnelles - bases dedonnées structurées sur les serveurs internationaux, bases de données internes, journaux,colloques et séminaires, etc. - ont été abondamment décrites dans la littérature. Nous nereviendrons pas dessus, bien que ces sources représentent aujourd’hui la principalecomposante de l’ensemble de la masse d’information traitée. Nous allons nous attacher toutparticulièrement aux sources en provenance du réseau Internet. En effet, par l’intermédiairede ce réseau sont diffusées des masses considérables d’informations. Internet est devenu unmedia incontournable qu’il est indispensable de maîtriser.1- La recherche et l’identification des sourcesLa pertinence des sources sélectionnées doit naturellement être la plus grande possible. Poursélectionner ces sources, les outils de recherche d’informations sur Internet sont devenusindispensables face à la somme considérable et toujours croissante de ressources accessiblessur ce réseau.A cette étape, il est surtout question d’éviter les « silences », c’est à dire les manquesd’informations. Il peut y avoir beaucoup de « bruit » (information non pertinente). Nousverrons comment le supprimer à la dernière étape.Sélectionner rapidement sur Internet les sources d’information pertinentes passenécessairement par une bonne connaissance des moteurs de recherche comme Altavista, Exciteou Dejanews.En effet, ils sont quasiment toujours le point de départ des recherches, mais leur utilisationest rarement optimisée. De par la diversité de leurs caractéristiques, une sélection fine de cesmoteurs influera fortement sur la qualité des résultats obtenus.Ainsi, Altavista indexe et restitue les ressources en donnant un poids d’autant plus fort auxmots clefs rencontrés qu’ils sont en tête de page. A moins que des « meta-tags » (systèmes quipermettent au propriétaire de la ressource de contrôler, dans une certaine mesure, les motsclefs qui seront indexés) ne soient utilisés.Typiquement, les réponses obtenues seront des pages dans lesquelles les mots clefs requisapparaîtront en entête, ou plus encore les pages de sites parfaitement au courant des méthodesd’indexation d’Altavista. Il est ainsi fréquent de trouver des pages où le même mot clef estrépété de nombreuses fois.Excite crée un résumé des pages avant de les indexer. Les phrases importantes, selonl’algorithme utilisé, sont sélectionnées afin de créer ce résumé automatique.Sur Excite toujours, la recherche d’information se fait par mot clef ou d’une façon qui seveut « conceptuelle » (association de mots clefs). L’intégration de l’outil « More Like This »permet de relancer la recherche en extrayant les mots clefs des résultats pertinents précédents.Altavista quand à lui met à disposition des utilisateurs « Live Topics », qui permet unesélection / désélection de mots clefs extraits de la recherche précédente et qui permet d’affinerou d’élargir sa recherche.Ces exemples illustrent les différences entre les moteurs. Il y a cependant de nombreusesquestions auxquelles il faut tenter de répondre dès lors que l’on veut exploiter au mieux lesmoteurs de recherches :
• Qu’est-ce qui est indexé ?♦ Quelles ressources ?(web, news, ... / texte, images, ... )♦ Combien de mots sont indexés pour chaque ressource ?♦ Comment ces mots sont-ils sélectionnés ?♦ Quel « poids » leur est attribué et en fonction de quel critère ?♦ Est-ce que les capitales, les accents, la ponctuation sont pris en compte ?• Quelle est la fréquence de mise à jour des données ?• Quelles sont les méthodes d’interrogation proposées ?♦ Mots clefs, concepts, thèmes, cartes, ...• Comment sont restitués les résultats ?♦ Calculs de pertinence (premiers mots, résumé, proximité des mots clefs, ...)♦ Intégration d’outils «évolués» (More Like This - Excite, Live Topics -AltaVista, ...)Connaître les moteurs de recherche pour mieux optimiser leur utilisation est un premierpoint. Il existe d’autres outils et notamment les agents intelligents qui vont rechercherl’information avec des techniques élaborées.S’il faut naturellement intégrer ces agents dans sa panoplie d’outils de recherchesd’information, il faut tout de même le faire avec une certaine prudence.En effet, certains échangent des informations avec leur site central ou avec d’autres agentset remettent en cause la confidentialité des recherches. Vos domaines d’intérêts peuvent êtreainsi parfaitement identifiés. Lorsque l’on parle d’intelligence économique, on sait l’importanceque cela prend.On peut citer Autonomy, Webfilter, Surfbot et un français : DigOut4U. Ce dernierintègre une analyse sémantique des réponses et, lorsqu’il est bien paramètré, fourni desrésultats dignes d’intérêt.A cette étape, la station Atlas dispose d’un intégrateur, c’est à dire d’un moteur derecherche qui s’appuie lui-même sur d’autres moteurs de recherche (voir fig. 2).Dans la démarche générale, il y a constitution, à cette étape, d’un « bookmark », d’unesuite d’adresses de sites Internet ou de sources pertinentes.Afin d’éviter de dévoiler trop précisément ses domaines d’intérêts, il faut rester très généraldans les questions posées sur les moteurs de recherche et au moyen des agents intelligents.Une solution consiste alors à créer une base de donnée thématique locale, que l’on vainterroger ensuite plus finement, sans laisser circuler sur Internet des questions trop précises.La multiplication des outils de recherche pour la constitution de cette base localepersonnalisée permet d ‘éviter à la fois les « silences » (absence ou manque d’information) etd’être « suivi à la trace ».