30.01.2013 Views

OEST - DGAC - base TEMIS

OEST - DGAC - base TEMIS

OEST - DGAC - base TEMIS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

II - Préparation de la <strong>base</strong> de données<br />

II s'agit de préparer la <strong>base</strong> de données de manière à ce qu'elle soit utilisable pour<br />

les études statistiques, c'est à dire qu'il ne faut retenir que les lignes susceptibles a priori (c'est<br />

à dire sans considérations statistiques de représentativité) d'être sélectionnées dans le modèle.<br />

Ce filtrage des données de la <strong>base</strong> s'orientera autour de trois axes:<br />

7 stabilité du trafic de la ligne<br />

>/ problèmes de données manquantes<br />

>/ fiabilité des sources<br />

II-l- Stabilité de la ligne<br />

II est certainement intéressant d'éliminer les lignes pour lesquelles le poids<br />

de l'aléatoire est trop fort, c'est-à-dire les lignes à faible trafic. L'évolution du<br />

transport aérien ou de la situation économique ont moins d'effet sur les variations de<br />

trafic de telles lignes que des phénomènes ponctuels que l'on peut qualifier<br />

d'aléatoires. (Ces considérations ne sont pas sans lien avec la loi des grands nombres:<br />

pour déterminer si un dé est ou non pipé, il faut procéder à un grand nombre de jets.<br />

Comme l'exprime Albert Jacquard: " Ainsi, paradoxalement, l'accumulation<br />

d'événements "au hasard" aboutit [...] à une répartition parfaitement prévisible des<br />

divers résultats possibles. Le "hasard" n'est capricieux que coup par coup; à long<br />

terme, ses interventions répétées créent un certain ordre, ou du moins un désordre<br />

suffisamment organisé [...].")<br />

Nous avons choisi dans un premier temps un seuil bas de 1000 passagers par<br />

mois. Plus précisément nous avons sélectionné dans la <strong>base</strong> de données les lignes<br />

pour lesquelles une des deux sources au moins possède une moyenne de trafic<br />

mensuel (moyenne calculée sur 96 mois moins les mois manquants) supérieure ou<br />

égale à 1000 passagers. Ne sont retenues alors que 127 lignes (dont 6 ne possèdent<br />

qu'une seule source sur les 8 ans.)<br />

II-2- Données manquantes<br />

Pour des raisons de simplicité, nous avons ensuite sélectionné les lignes pour<br />

lesquelles l'une au moins des deux sources est complète (c'est-à-dire qu'aucun mois ne<br />

manque ou n'a un trafic nul; remarquons qu'après la sélection effectuée à l'étape<br />

précédente, on est à peu près assuré qu'un mois non renseigné correspond à une<br />

donnée manquante et non à un trafic nul).<br />

On peut se consoler de l'élimination éventuelle de lignes importantes (c'est le<br />

cas par exemple de la ligne BÂLE-MULHOUSE PARIS ORLY), en considérant que<br />

les lignes éliminées sont celles pour lesquelles l'obtention des données pose des<br />

problèmes; gardons à l'esprit le but pratique de notre étude.<br />

page9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!