22.01.2015 Views

Les logiciels de statistique textuelle - CRRM à

Les logiciels de statistique textuelle - CRRM à

Les logiciels de statistique textuelle - CRRM à

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Sommaire<br />

I - L’analyse <strong>de</strong>s données en bibliométrie<br />

II - L’application <strong>de</strong> la bibliométrie aux brevets<br />

III – L’analyse <strong>de</strong> données <strong>textuelle</strong>s<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

<strong>Les</strong> acteurs français (1)<br />

Approche Bibliométrie-Analyse <strong>de</strong> Données<br />

• <strong>CRRM</strong> (H Dou, Univ. Aix-Marseille) Dataview, Datalist, DataCIB, Matrisme<br />

http://crrm.u-3mrs.fr<br />

• Département Hypermédias (A Lelu, Diatopie) Neuronav+<br />

http://www.info.unicaen.fr/bnum/jelec/Solaris/d02/2lelu.html<br />

http://www.sesame-ouvre-toi.com/Atome.aspsociete=DIATOPIE<br />

• TEMIS (C Huot – P Coupet, Paris) Oneline Miner, Extractor,Clusterer, Classifier<br />

http://www.temis-group.com<br />

• IRIT (B Dousset, Univ. Toulouse Paul Sabatier) Tetralogie<br />

http://atlas.irit.fr<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


<strong>Les</strong> acteurs français (2)<br />

Ecole <strong>de</strong> pensée Analyse <strong>de</strong>s mots-associées<br />

• CERESI (W Turner, CNRS Meudon) Candi<strong>de</strong>, Dynatools<br />

http://www.upmf-grenoble.fr/a<strong>de</strong>st/seminaires/mdsl.html<br />

• Leximine (O Jouve, Lexiquest) Sampler (CISI)<br />

http://www.upmf-grenoble.fr/a<strong>de</strong>st/seminaires/jouve.htm<br />

• Leximine (Lexiquest)<br />

http://www.lexiquest.com/products/leximine.html<br />

• CRIN/LORIA (J Duclois, CNRS Nancy) DILIB<br />

http://www.loria.fr/DILIB<br />

• CSI (J-P Courtial, Ecoles <strong>de</strong>s Mines Paris) Leximappe<br />

http://www.info.unicaen.fr/bnum/jelec/Solaris/d02/2grivel.html<br />

• URI (X Polanco, INIST Nancy) Sdoc, NeuroDoc, Henoch, Miriad<br />

http://www.inist.fr/uri/uri.htm<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

<strong>Les</strong> acteurs français (3)<br />

Approche analyse <strong>de</strong>s données <strong>textuelle</strong>s<br />

• ACETIC Tropes<br />

http://www.acetic.fr<br />

• Image (M Reinert, Univ. Toulouse Le Mirail) Alceste<br />

http://www.image.cict.fr<br />

• Sphinx-Dev. (J Moscarola, Univ. <strong>de</strong> Savoie) Sphinx-Lexica<br />

http://www.lesphinx-<strong>de</strong>veloppement.fr<br />

• CISIA (L Lebart, Saint-Mandé) SPAD<br />

http://www.cisia.com/<br />

• Grimmersoft (Grimmer) Wordmapper<br />

http://www.grimmersoft.com/Fr/produits/wdmap.htm<br />

• Lexicométrie (A Salem, ENS Fontenay St Cloud) Lexico<br />

http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/in<strong>de</strong>x.htm<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


<strong>Les</strong> acteurs français (4)<br />

Approche traitement <strong>de</strong>s données d’Internet<br />

• Exalead<br />

http://www.exalead.com<br />

• DATOPS Pericles<br />

http://www.datops.fr<br />

• Trivium Umap, Gingo<br />

http://www.trivium.fr<br />

• ARISEM DigOut4U, InformationMiner4U, MoreSense4U, Portal4U, Watch4U, Class4U<br />

http://www.arisem.fr<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Acteurs étrangers<br />

• Aurigin Aureka<br />

http://www.aurigin.com<br />

• Semio Semiomap<br />

http://www.semio.com<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Résultats bibliométriques (Dataview + Matrisme)<br />

remontés en ASP sur l’Intranet Danone<br />

Menu déroulant<br />

pour chaque<br />

type<br />

d ’informations<br />

Hervé Rostaing<br />

Cliquer sur un auteur pour<br />

visualiser son tableau <strong>de</strong><br />

bord<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Résultats bibliométriques (Dataview + Matrisme)<br />

remontés en ASP sur l’Intranet Danone<br />

Sélectionner un co-auteur<br />

et cliquer sur « Voir les<br />

titres » pour voir la liste<br />

<strong>de</strong>s publis<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Résultats bibliométriques (Dataview + Matrisme)<br />

remontés en ASP sur l’Intranet Danone<br />

Cliquer sur un titre <strong>de</strong><br />

publi pour voir l ’abstract<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

NeuroNav (Datopie)<br />

Neuronav<br />

• Extraction <strong>de</strong>s groupes nominaux pour <strong>de</strong>s textes non structurés (Nomino)<br />

• Matrice <strong>de</strong> Références x mots-clés<br />

• Algorithme <strong>de</strong> partition <strong>de</strong>s K-means axiales (partitions recouvrantes -> estimation <strong>de</strong>s<br />

relations entre classes)<br />

• Projection <strong>de</strong> cette matrice <strong>de</strong> relations sur le premier plan d’une ACP<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> pages Internet<br />

Le mon<strong>de</strong> <strong>de</strong> la veille et <strong>de</strong> l’Intelligence Économique<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> pages Internet<br />

Inci<strong>de</strong>nce du commerce électronique sur l’ensemble <strong>de</strong>s thèmes <strong>de</strong> l’IE<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Application <strong>de</strong> Neuronav à la cartographie <strong>de</strong> 800 articles<br />

parus dans la presse : <strong>Les</strong> PME-PMI dans leur environnement<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Extractor, Skill Cartridges,<br />

Categorizer, Clusterer, Oneline Miner<br />

http://www.temis-group.com<br />

– Conception et développement : Temis<br />

– Données<br />

• Textes non structurés ou structurés ou site Web, news…<br />

– Traitements<br />

• Pour les textes en local: les transformer en fichiers au format XML<br />

• Agents <strong>de</strong> collecte <strong>de</strong>s données sur Internet (crawler <strong>de</strong> sites ou <strong>de</strong> news groups)<br />

• Extracteur -> lemmatisation + étiquetage grammatical -> conserve Noms et Verbes<br />

-> taggage <strong>de</strong>s textes selon <strong>de</strong>s règles linguistiques (Skill Cartridges)<br />

• Importation <strong>de</strong>s textes et <strong>de</strong> l’extraction dans un moteur <strong>de</strong> recherche (Fulcrum,<br />

MySQL)<br />

• Soit : Catégorisation automatique <strong>de</strong>s textes (organisation connue a priori) et<br />

consultation sous une Navigateur Exemple: http://<strong>de</strong>mo.temis-group.com/CI_Pharma<br />

• Soit : Recherche, classification à la volée, cartographie et navigation sous Oneline<br />

Miner Exemple: http://<strong>de</strong>mo.temis-group.com/DEMO (userid: <strong>de</strong>mo pwd= TEMIS_<strong>de</strong>mo)<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Partition <strong>de</strong> Temis :<br />

Hiérarchie <strong>de</strong> 10 classes <strong>de</strong> documents max par niveau (1er niveau)<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

Partition <strong>de</strong> Temis :<br />

Hiérarchie <strong>de</strong> 10 classes <strong>de</strong> documents max par niveau (2ème niveau)<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Partition <strong>de</strong> Temis :<br />

Représentation sous forme <strong>de</strong> réseau <strong>de</strong>s relations entre clases<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

LEXIMINE<br />

http://www.lexiquest.com<br />

– Conception : Olivier Jouve (ex Compagnie <strong>de</strong>s Signaux)<br />

– Développement : Société Lexiquest<br />

– Prix : ~ 100 KF<br />

– Données<br />

• Textes structurés ou non (découpé en fichiers) – Anglais/Français<br />

– Traitements<br />

• Extraction terminologique -> « Concepts »<br />

• Réseaux centrés sur un « Concept » représentant trois indices d’association<br />

– « organize » = Co-occurrence (relations fortes)<br />

– « discover » = relations exclusives<br />

– « track » = relations rares<br />

• Tendance : Évolution temporelle <strong>de</strong>s « concpets »<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


LEXIMINE – Exemple Réseau<br />

http://www.lexiquest.com<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

LEXIMINE – Exemple Tendance<br />

http://www.lexiquest.com<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


Miriad & Henoch (INIST – URI)<br />

http://www.inist.fr/uri/miriad.htm<br />

http://www.inist.fr/uri/henoch.htm<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

SDOC et Neurodoc (INIST – URI)<br />

http://www.inist.fr/uri/sdoc.htm<br />

http://www.inist.fr/uri/neurodoc.htm<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>


ALCEST<br />

http://www.image.cict.fr<br />

– Conception : Max Reinert (Univ Toulouse Le Mirail)<br />

– Développement : Société Image Prix : 1450 € H.T.<br />

– Données<br />

• Présenter les textes découpés en UCE (unités <strong>de</strong> contexte élémentaires) +<br />

Variables Signalétiques<br />

– Traitements<br />

• Lemmatisation<br />

• Tris simples<br />

• Concordance (environnement <strong>de</strong>s mots)<br />

• Analyse <strong>de</strong> Données<br />

– Classif. Desc. Hiérarch. sur les UCE en fonctions <strong>de</strong>s mots qui les composent<br />

– AFC <strong>de</strong>s Mots caractéristiques <strong>de</strong>s classes & Variables Signalétiques<br />

Exemple<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong><br />

AUREKA (Aurigin)<br />

http://www.aurigin.com<br />

– Conception : <br />

– Développement : Société Aurigin<br />

– Prix: Abonn. client/serveur<br />

– Données<br />

• Réf. brevets US, EP et Japonais (+ images textes complets) - Anglais<br />

– Traitements<br />

• Carte topographique <strong>de</strong>s thèmes (mots <strong>de</strong>s titres, revendications, résumés ou textes<br />

complets)<br />

• Arbre <strong>de</strong>s citations<br />

• Tableaux et graphes <strong>de</strong> tris simples<br />

Exemple<br />

Hervé Rostaing<br />

IV - <strong>Les</strong> <strong>logiciels</strong> <strong>de</strong> <strong>statistique</strong> <strong>textuelle</strong>

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!