04.07.2013 Views

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

tel-00744768, version 1 - 23 Oct 2012<br />

2 CHAPITRE 1. INTRODUCTION<br />

délaissés par <strong>le</strong>s praticiens et <strong>de</strong> se retrouver réduits au statut d’algorithmes jouets.<br />

En statistiques comme ail<strong>le</strong>urs, <strong>le</strong> lien avec l’informatique se resserre donc, ouvrant<br />

<strong>de</strong>s enjeux inter-disciplinaires en partie mésestimés il y a encore quelques<br />

années. Sur un plan théorique, cette multi-disciplinarité est déjà représentée en statistiques<br />

par <strong>de</strong>s branches comme l’apprentissage statistique (machine-<strong>le</strong>arning)<br />

ou <strong>le</strong>s statistiques bayésiennes. Sur un plan pratique, el<strong>le</strong> était jusqu’à récemment<br />

la chasse gardée <strong>de</strong> géants tels que Goog<strong>le</strong> (20 Pétaoctets <strong>de</strong> données analysées<br />

par jour en 2008 selon [48]), <strong>de</strong> Youtube (2 milliards <strong>de</strong> vidéos visionnées par jour<br />

dès 2010 selon [17]), ou encore <strong>le</strong> projet européen du Large Hadron Colli<strong>de</strong>r (15<br />

Pétaoctets par an). El<strong>le</strong> s’est démocratisée et touche aujourd’hui un public bien<br />

plus large et se retrouve même au coeur <strong>de</strong>s enjeux technologiques <strong>de</strong> nombreuses<br />

startups.<br />

Comment gérer ces quantités phénoména<strong>le</strong>s <strong>de</strong> données et <strong>de</strong> calculs ? Une réponse<br />

possib<strong>le</strong> est cel<strong>le</strong> <strong>de</strong> répartir <strong>le</strong>s tâches <strong>sur</strong> un ensemb<strong>le</strong> d’unités <strong>de</strong> calcul<br />

et <strong>de</strong> stockage plutôt que <strong>de</strong> se restreindre à une seu<strong>le</strong> machine. Comme expliqué<br />

dans l’ouvrage <strong>de</strong> Lin et Dyer ([81]), cette idée n’est pas nouvel<strong>le</strong> : en<br />

1990, Leslie Valiant dans [107] faisait déjà <strong>le</strong> constat que l’avènement annoncé<br />

du calcul parallè<strong>le</strong> n’avait pas encore eu lieu. Bien que la démocratisation <strong>de</strong>s<br />

algorithmes <strong>répartis</strong> soit annoncée partiel<strong>le</strong>ment en vain <strong>de</strong>puis <strong>de</strong>s décennies,<br />

certains éléments portent à croire que s’entame actuel<strong>le</strong>ment ce phénomène. Tout<br />

d’abord, l’affaiblissement sensib<strong>le</strong> <strong>de</strong>s progrès dans la ca<strong>de</strong>nce <strong>de</strong>s processeurs<br />

ne permet plus <strong>de</strong> résoudre <strong>le</strong>s problèmes logiciels par l’attente <strong>de</strong> dispositifs<br />

matériels plus performants. Ensuite, la volonté <strong>de</strong> diminuer <strong>le</strong>s consommations<br />

énergétiques <strong>de</strong>s unités <strong>de</strong> calcul (pour améliorer l’autonomie mais aussi diminuer<br />

<strong>le</strong>s coûts) tend à multiplier <strong>le</strong>s coeurs <strong>de</strong>s processeurs plutôt que <strong>le</strong>ur ca<strong>de</strong>nce (on<br />

retrouvait déjà ce phénomène par exemp<strong>le</strong> dans l’Amiga ou plus récemment dans<br />

<strong>de</strong> nombreux smartphones qui multiplient <strong>le</strong>s processeurs dédiés). D’un point<br />

<strong>de</strong> vue pratique, la solution du calcul réparti <strong>sur</strong> <strong>de</strong> nombreuses machines est<br />

d’ail<strong>le</strong>urs cel<strong>le</strong> retenue <strong>le</strong> plus souvent par <strong>le</strong>s géants cités précé<strong>de</strong>mment.<br />

La recherche et l’enseignement en statistiques <strong>de</strong>vraient donc offrir une place<br />

toujours plus gran<strong>de</strong> à l’étu<strong>de</strong> d’algorithmes <strong>répartis</strong> dans <strong>le</strong>s années à venir. Cette<br />

thèse s’inscrit dans cette thématique et a pour objet l’étu<strong>de</strong> <strong>de</strong> la parallélisation<br />

<strong>de</strong> certains algorithmes <strong>de</strong> <strong>classification</strong> non-supervisée (clustering) 1 .<br />

1. Par la suite, nous désignerons ces problèmes par <strong>le</strong> simp<strong>le</strong> terme <strong>de</strong> <strong>classification</strong>.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!