Les logiciels de statistique textuelle - CRRM Ã
Les logiciels de statistique textuelle - CRRM Ã
Les logiciels de statistique textuelle - CRRM Ã
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Sommaire<br />
I - L’analyse <strong>de</strong>s données en bibliométrie<br />
II - L’application <strong>de</strong> la bibliométrie aux brevets<br />
III – L’analyse <strong>de</strong> données <strong>textuelle</strong>s<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
<strong>Les</strong> acteurs français (1)<br />
Approche Bibliométrie-Analyse <strong>de</strong> Données<br />
• <strong>CRRM</strong> (H Dou, Univ. Aix-Marseille) Dataview, Datalist, DataCIB, Matrisme<br />
http://crrm.u-3mrs.fr<br />
• Département Hypermédias (A Lelu, Diatopie) Neuronav+<br />
http://www.info.unicaen.fr/bnum/jelec/Solaris/d02/2lelu.html<br />
http://www.sesame-ouvre-toi.com/Atome.aspsociete=DIATOPIE<br />
• TEMIS (C Huot – P Coupet, Paris) Oneline Miner, Extractor,Clusterer, Classifier<br />
http://www.temis-group.com<br />
• IRIT (B Dousset, Univ. Toulouse Paul Sabatier) Tetralogie<br />
http://atlas.irit.fr<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
<strong>Les</strong> acteurs français (2)<br />
Ecole <strong>de</strong> pensée Analyse <strong>de</strong>s mots-associées<br />
• CERESI (W Turner, CNRS Meudon) Candi<strong>de</strong>, Dynatools<br />
http://www.upmf-grenoble.fr/a<strong>de</strong>st/seminaires/mdsl.html<br />
• Leximine (O Jouve, Lexiquest) Sampler (CISI)<br />
http://www.upmf-grenoble.fr/a<strong>de</strong>st/seminaires/jouve.htm<br />
• Leximine (Lexiquest)<br />
http://www.lexiquest.com/products/leximine.html<br />
• CRIN/LORIA (J Duclois, CNRS Nancy) DILIB<br />
http://www.loria.fr/DILIB<br />
• CSI (J-P Courtial, Ecoles <strong>de</strong>s Mines Paris) Leximappe<br />
http://www.info.unicaen.fr/bnum/jelec/Solaris/d02/2grivel.html<br />
• URI (X Polanco, INIST Nancy) Sdoc, NeuroDoc, Henoch, Miriad<br />
http://www.inist.fr/uri/uri.htm<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
<strong>Les</strong> acteurs français (3)<br />
Approche analyse <strong>de</strong>s données <strong>textuelle</strong>s<br />
• ACETIC Tropes<br />
http://www.acetic.fr<br />
• Image (M Reinert, Univ. Toulouse Le Mirail) Alceste<br />
http://www.image.cict.fr<br />
• Sphinx-Dev. (J Moscarola, Univ. <strong>de</strong> Savoie) Sphinx-Lexica<br />
http://www.lesphinx-<strong>de</strong>veloppement.fr<br />
• CISIA (L Lebart, Saint-Mandé) SPAD<br />
http://www.cisia.com/<br />
• Grimmersoft (Grimmer) Wordmapper<br />
http://www.grimmersoft.com/Fr/produits/wdmap.htm<br />
• Lexicométrie (A Salem, ENS Fontenay St Cloud) Lexico<br />
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/in<strong>de</strong>x.htm<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
<strong>Les</strong> acteurs français (4)<br />
Approche traitement <strong>de</strong>s données d’Internet<br />
• Exalead<br />
http://www.exalead.com<br />
• DATOPS Pericles<br />
http://www.datops.fr<br />
• Trivium Umap, Gingo<br />
http://www.trivium.fr<br />
• ARISEM DigOut4U, InformationMiner4U, MoreSense4U, Portal4U, Watch4U, Class4U<br />
http://www.arisem.fr<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Acteurs étrangers<br />
• Aurigin Aureka<br />
http://www.aurigin.com<br />
• Semio Semiomap<br />
http://www.semio.com<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Résultats bibliométriques (Dataview + Matrisme)<br />
remontés en ASP sur l’Intranet Danone<br />
Menu déroulant<br />
pour chaque<br />
type<br />
d ’informations<br />
Hervé Rostaing<br />
Cliquer sur un auteur pour<br />
visualiser son tableau <strong>de</strong><br />
bord<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Résultats bibliométriques (Dataview + Matrisme)<br />
remontés en ASP sur l’Intranet Danone<br />
Sélectionner un co-auteur<br />
et cliquer sur « Voir les<br />
titres » pour voir la liste<br />
<strong>de</strong>s publis<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Résultats bibliométriques (Dataview + Matrisme)<br />
remontés en ASP sur l’Intranet Danone<br />
Cliquer sur un titre <strong>de</strong><br />
publi pour voir l ’abstract<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
NeuroNav (Datopie)<br />
Neuronav<br />
• Extraction <strong>de</strong>s groupes nominaux pour <strong>de</strong>s textes non structurés (Nomino)<br />
• Matrice <strong>de</strong> Références x mots-clés<br />
• Algorithme <strong>de</strong> partition <strong>de</strong>s K-means axiales (partitions recouvrantes -> estimation <strong>de</strong>s<br />
relations entre classes)<br />
• Projection <strong>de</strong> cette matrice <strong>de</strong> relations sur le premier plan d’une ACP<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> pages Internet<br />
Le mon<strong>de</strong> <strong>de</strong> la veille et <strong>de</strong> l’Intelligence Économique<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> pages Internet<br />
Inci<strong>de</strong>nce du commerce électronique sur l’ensemble <strong>de</strong>s thèmes <strong>de</strong> l’IE<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> 800 articles<br />
parus dans la presse : <strong>Les</strong> PME-PMI dans leur environnement<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Extractor, Skill Cartridges,<br />
Categorizer, Clusterer, Oneline Miner<br />
http://www.temis-group.com<br />
– Conception et développement : Temis<br />
– Données<br />
• Textes non structurés ou structurés ou site Web, news…<br />
– Traitements<br />
• Pour les textes en local: les transformer en fichiers au format XML<br />
• Agents <strong>de</strong> collecte <strong>de</strong>s données sur Internet (crawler <strong>de</strong> sites ou <strong>de</strong> news groups)<br />
• Extracteur -> lemmatisation + étiquetage grammatical -> conserve Noms et Verbes<br />
-> taggage <strong>de</strong>s textes selon <strong>de</strong>s règles linguistiques (Skill Cartridges)<br />
• Importation <strong>de</strong>s textes et <strong>de</strong> l’extraction dans un moteur <strong>de</strong> recherche (Fulcrum,<br />
MySQL)<br />
• Soit : Catégorisation automatique <strong>de</strong>s textes (organisation connue a priori) et<br />
consultation sous une Navigateur Exemple: http://<strong>de</strong>mo.temis-group.com/CI_Pharma<br />
• Soit : Recherche, classification à la volée, cartographie et navigation sous Oneline<br />
Miner Exemple: http://<strong>de</strong>mo.temis-group.com/DEMO (userid: <strong>de</strong>mo pwd= TEMIS_<strong>de</strong>mo)<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Partition <strong>de</strong> Temis :<br />
Hiérarchie <strong>de</strong> 10 classes <strong>de</strong> documents max par niveau (1er niveau)<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
Partition <strong>de</strong> Temis :<br />
Hiérarchie <strong>de</strong> 10 classes <strong>de</strong> documents max par niveau (2ème niveau)<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Partition <strong>de</strong> Temis :<br />
Représentation sous forme <strong>de</strong> réseau <strong>de</strong>s relations entre clases<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
LEXIMINE<br />
http://www.lexiquest.com<br />
– Conception : Olivier Jouve (ex Compagnie <strong>de</strong>s Signaux)<br />
– Développement : Société Lexiquest<br />
– Prix : ~ 100 KF<br />
– Données<br />
• Textes structurés ou non (découpé en fichiers) – Anglais/Français<br />
– Traitements<br />
• Extraction terminologique -> « Concepts »<br />
• Réseaux centrés sur un « Concept » représentant trois indices d’association<br />
– « organize » = Co-occurrence (relations fortes)<br />
– « discover » = relations exclusives<br />
– « track » = relations rares<br />
• Tendance : Évolution temporelle <strong>de</strong>s « concpets »<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
LEXIMINE – Exemple Réseau<br />
http://www.lexiquest.com<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
LEXIMINE – Exemple Tendance<br />
http://www.lexiquest.com<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
Miriad & Henoch (INIST – URI)<br />
http://www.inist.fr/uri/miriad.htm<br />
http://www.inist.fr/uri/henoch.htm<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
SDOC et Neurodoc (INIST – URI)<br />
http://www.inist.fr/uri/sdoc.htm<br />
http://www.inist.fr/uri/neurodoc.htm<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>
ALCEST<br />
http://www.image.cict.fr<br />
– Conception : Max Reinert (Univ Toulouse Le Mirail)<br />
– Développement : Société Image Prix : 1450 € H.T.<br />
– Données<br />
• Présenter les textes découpés en UCE (unités <strong>de</strong> contexte élémentaires) +<br />
Variables Signalétiques<br />
– Traitements<br />
• Lemmatisation<br />
• Tris simples<br />
• Concordance (environnement <strong>de</strong>s mots)<br />
• Analyse <strong>de</strong> Données<br />
– Classif. Desc. Hiérarch. sur les UCE en fonctions <strong>de</strong>s mots qui les composent<br />
– AFC <strong>de</strong>s Mots caractéristiques <strong>de</strong>s classes & Variables Signalétiques<br />
Exemple<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />
AUREKA (Aurigin)<br />
http://www.aurigin.com<br />
– Conception : <br />
– Développement : Société Aurigin<br />
– Prix: Abonn. client/serveur<br />
– Données<br />
• Réf. brevets US, EP et Japonais (+ images textes complets) - Anglais<br />
– Traitements<br />
• Carte topographique <strong>de</strong>s thèmes (mots <strong>de</strong>s titres, revendications, résumés ou textes<br />
complets)<br />
• Arbre <strong>de</strong>s citations<br />
• Tableaux et graphes <strong>de</strong> tris simples<br />
Exemple<br />
Hervé Rostaing<br />
IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>