11.07.2015 Views

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

Les productions scientifiques en bibliométrie et ... - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

37La non-mutuelle-exclusivité des données est ess<strong>en</strong>tielle à la compréh<strong>en</strong>siondes relations <strong>en</strong>tre données. En <strong>en</strong>quête, lors de la constitution des questionsfermées ou de leurs saisies, on cherche à r<strong>en</strong>dre les modalités mutuellem<strong>en</strong>texclusives. L’exemple le plus simple est constitué par les réponses de type“ oui-non ”: L'<strong>en</strong>quêté donne l’attribut oui ou l’attribut non, jamais les deux à la fois.Dit autrem<strong>en</strong>t l’espace des modalités est orthogonal. Dans les bases de donnéesbibliographiques, l’auteur d’un laboratoire donné n’exclut pas les autres auteurs dece même laboratoire. Il <strong>en</strong> est de même pour les affiliations, les mots-clés. Seul lejournal de publication, la date de publication <strong>et</strong> quelques autres informationsrespect<strong>en</strong>t le principe d’orthogonalité.Ce phénomène oblige à s’intéresser aux relations <strong>en</strong>tre les formes graphiquesdans chacun des champs (intrachamp) avant de s’intéresser aux relations <strong>en</strong>tre lesformes graphiques d’un champ à l’autre (interchamp).(c) Variété des formes graphiquesLa plupart des bases de données disponibles ont une qualité de saisie desdonnées non-normalisée. Cela implique que, pour un même s<strong>en</strong>s de mots, nouspouvons r<strong>en</strong>contrer plusieurs formes graphiques. L’exemple le plus classique estconstitué par les noms d’auteurs qui sont souv<strong>en</strong>t orthographiés différemm<strong>en</strong>t d’uneréfér<strong>en</strong>ce à l’autre. <strong>Les</strong> mots-clés ne sont pas épargnés avec des erreurs de saisie<strong>et</strong> même des variantes d’un même terme (par exemple singulier <strong>et</strong> pluriel). <strong>Les</strong>adresses des auteurs ne sont jamais normalisées. La faute <strong>en</strong> incombe souv<strong>en</strong>t auxauteurs qui ne normalis<strong>en</strong>t pas leur propre adresse dans leurs articles. <strong>Les</strong> nomsdes journaux de publications ne sont pas épargnés. Il est souv<strong>en</strong>t indisp<strong>en</strong>sable deprétraiter les données. Nous <strong>en</strong> parlons maint<strong>en</strong>ant car ce phénomène influ<strong>en</strong>celargem<strong>en</strong>t les traitem<strong>en</strong>ts. Ce prétraitem<strong>en</strong>t doit être fait au maximum de façonautomatique, mais de nombreux cas ne sont traitables que manuellem<strong>en</strong>t. Dansl’analyse que nous prés<strong>en</strong>tons, nous n’avons accompli que des traitem<strong>en</strong>tsautomatiques afin d’<strong>en</strong> montrer les limites <strong>et</strong> les pot<strong>en</strong>tialités.(d) Grande masse des donnéesL’étude des formes graphiques <strong>et</strong> de leurs associations génère de grandesmasses de données. Ce phénomène est à pr<strong>en</strong>dre <strong>en</strong> compte surtout quand untravail sur micro-ordinateur est indisp<strong>en</strong>sable pour une portabilité plus grande <strong>en</strong>

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!