11.07.2015 Views

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

33<strong>en</strong>tre le problème posé <strong>et</strong> les données qui seront disponibles, est nécessaire. Cesconsidérations r<strong>en</strong>d<strong>en</strong>t la démarche impérativem<strong>en</strong>t itérative.Choisir comme problèmatique l’information pour décision laisse de nombreusespossibilités quant au suj<strong>et</strong> de l’information traitée. Ce suj<strong>et</strong> peut aller de la physiqu<strong>et</strong>héorique à la chimie appliquée <strong>en</strong> passant par la propriété industrielle ou par lasci<strong>en</strong>tométrie. La diversité des suj<strong>et</strong>s pot<strong>en</strong>tiellem<strong>en</strong>t abordables est telle qu’il n’estpas <strong>en</strong>visageable de travailler seul, mais <strong>en</strong> collaboration avec des experts dudomaine étudié. La démarche interactive est indisp<strong>en</strong>sable. L’autre conséqu<strong>en</strong>cede ce choix sera de ne s’intéresser qu’aux méthodes qui ne dép<strong>en</strong>d<strong>en</strong>t pas dudomaine étudié. Plus particulièrem<strong>en</strong>t, les traitem<strong>en</strong>ts doiv<strong>en</strong>t être indép<strong>en</strong>dants dela langue autant que faire se peut <strong>et</strong>, dans une langue donnée, indép<strong>en</strong>dant desspécificités dues au domaine technique étudié.C'est la raison de notre approche "statistici<strong>en</strong>ne" qui passe par ledénombrem<strong>en</strong>t des formes graphiques, une fois le texte segm<strong>en</strong>té.Pour réaliser une segm<strong>en</strong>tation automatique du texte <strong>en</strong> occurr<strong>en</strong>ces de formesgraphiques, il faut choisir parmi l’<strong>en</strong>semble des caractères un sous-<strong>en</strong>semble quel’on désignera sous le nom d’<strong>en</strong>semble des caractères délimiteurs (les autrescaractères seront de ce seul fait considérés comme caractères non délimiteurs).Une suite de caractères non-délimiteurs bornée à ses deux extrémités par decaractères délimiteurs est une occurr<strong>en</strong>ce. Deux suites id<strong>en</strong>tiques de caractèresnon-délimiteurs constitu<strong>en</strong>t deux occurr<strong>en</strong>ces d’une même forme graphique.Lebart, dans son livre ( 19 ), rappelle:"Répétons-le, la forme graphique ne constitue <strong>en</strong> aucun cas une unité naturellepour le dépouillem<strong>en</strong>t des textes; L'avantage des décomptes <strong>en</strong> formes graphiquesréside avant tout dans la facilité incomparable qu'il y a à les automatiser."Auparavant le même auteur signale à propos de l’adaptation de ces techniquesà différ<strong>en</strong>tes langues:"<strong>Les</strong> expéri<strong>en</strong>ces que nous avons pu réaliser à partir de textes rédigés dansdiffér<strong>en</strong>tes langues ont montré que, la plupart du temps, les particularités morphosyntaxiquesde chacune des langues concernées ne constituai<strong>en</strong>t pas un obstaclemajeur à l'approche des textes par les méthodes de la statistique textuelle. (...), les

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!