04.07.2013 Views

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

Thèse de doctorat: Algorithmes de classification répartis sur le cloud

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

tel-00744768, version 1 - 23 Oct 2012<br />

6 CHAPITRE 1. INTRODUCTION<br />

<strong>le</strong>squels nous avons fait tourner nos algorithmes représentent environ 50 Gigaoctets.<br />

Nous avons choisi <strong>de</strong> concentrer nos travaux <strong>sur</strong> ces ordres <strong>de</strong> gran<strong>de</strong>ur<br />

qui reflètent la tail<strong>le</strong> <strong>de</strong>s données <strong>de</strong>s clients <strong>le</strong>s plus importants actuel<strong>le</strong>ment <strong>de</strong><br />

Lokad.<br />

La suite <strong>de</strong> cette partie introductive présente succinctement <strong>le</strong> contenu <strong>de</strong> chaque<br />

chapitre <strong>de</strong> ce manuscrit.<br />

1.3 Présentation <strong>de</strong>s travaux<br />

1.3.1 Chapitre 2 - Introduction au Cloud Computing<br />

Les progrès importants <strong>de</strong>s mécanismes <strong>de</strong> col<strong>le</strong>cte <strong>de</strong>s données n’ont pas été<br />

accompagnés <strong>de</strong> progrès aussi rapi<strong>de</strong>s dans <strong>le</strong> développement <strong>de</strong>s processeurs.<br />

Cette réalité a incité au développement <strong>de</strong> systèmes physiques et logiciels permettant<br />

<strong>de</strong> répartir <strong>de</strong>s charges <strong>de</strong> travail <strong>sur</strong> <strong>de</strong> multip<strong>le</strong>s unités <strong>de</strong> calcul. Ces<br />

calculs intensifs ont tout d’abord été portés <strong>sur</strong> <strong>de</strong>s architectures physiques dédiées,<br />

communément appelées super-calculateurs. Ces super-calculateurs étaient<br />

<strong>de</strong>s dispositifs physiques conçus en faib<strong>le</strong> quantité, spécifiquement pour réaliser<br />

<strong>de</strong>s calculs intensifs. L’explosion du marché <strong>de</strong>s ordinateurs personnels dans <strong>le</strong>s<br />

années 80, puis d’Internet à la fin <strong>de</strong>s années 90 a ouvert <strong>de</strong>s perspectives nouvel<strong>le</strong>s<br />

quant à la manière <strong>de</strong> répartir <strong>de</strong>s calculs. De nouveaux systèmes sont alors<br />

apparus, reposant <strong>sur</strong> la collaboration <strong>de</strong> plusieurs agents administrativement<br />

distincts et mettant en commun une partie <strong>de</strong> <strong>le</strong>urs ressources. Parmi ces systèmes,<br />

on trouve <strong>de</strong>s infrastructures <strong>de</strong> Grid Computing, comme Condor ([105]),<br />

ou <strong>de</strong>s systèmes plus récents, par exemp<strong>le</strong> <strong>de</strong> Peer-To-Peer, comme Napster ou<br />

Folding@Home.<br />

La parallélisation <strong>de</strong> calculs <strong>sur</strong> une vaste quantité <strong>de</strong> machines soulève <strong>de</strong> nombreuses<br />

difficultés, qu’el<strong>le</strong>s aient trait à la communication entre <strong>le</strong>s machines, à<br />

l’accès en écriture ou <strong>le</strong>cture à une mémoire partagée efficace, ou à la répartition<br />

<strong>de</strong> la charge <strong>de</strong> calcul <strong>sur</strong> <strong>le</strong>s différentes unités disponib<strong>le</strong>s. Les années 2000<br />

ont vu l’émergence d’applications Internet consommant d’immenses ressources :<br />

c’est <strong>le</strong> cas par exemp<strong>le</strong> <strong>de</strong> Goog<strong>le</strong> Search, <strong>de</strong> Bing, <strong>de</strong> Facebook, <strong>de</strong> Youtube,<br />

d’Amazon, etc. Les entreprises à la tête <strong>de</strong> ces applications ont développé <strong>de</strong>s<br />

environnements logiciels (frameworks) mais aussi physiques (via la construction<br />

<strong>de</strong> centres <strong>de</strong> calcul spécifiques ou data centers) pour proposer <strong>de</strong>s solutions aux<br />

difficultées susnommées.<br />

Certaines <strong>de</strong> ces entreprises, rejointes par d’autres acteurs économiques, ont alors

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!