Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

2 Hoofdstuk 1. Inleiding 1.1 Parallelle algoritmen ontwerpen en analyseren Een vraag die zich onmiddellijk stelt is: Hoe kan een algoritme geëvalueerd worden op zijn geschiktheid voor parallelliseren? Net zoals in het geval van sequentiële algoritmen zijn er meerdere belangrijke criteria, zoals uitvoeringstijd, geheugengebruik en programmeerbaarheid. Maar de situatie bij parallelle algoritmen wordt nog ingewikkelder, door de aanwezigheid van bijkomende factoren, zoals het aantal processoren, de capaciteit van lokale geheugens van de processoren, de communicatieschema tussen processoren, en de gebruikte protocols voor synchronisatie tussen processoren. Voorbeeld 1.1.1. Veronderstel dat we n exemplaren van een rapport moeten uitprinten en dat het printen van één exemplaar één tijdseenheid vereist. Wanneer we slechts één printer ter beschikking hebben, duurt het uitprinten van alle rapporten T ∗ (n) = n tijdseenheden. Wanneer we twee printers ter beschikking hebben, kan het uitprinten gebeuren in ⌈n/2⌉ tijd, door ⌈n/2⌉ printaanvragen naar de ene printer te sturen en ⌊n/2⌋ naar de andere. Algemeen, wanneer we p printers hebben, kan het printen gebeuren in Tp(n) = ⌈n/p⌉ tijd. Het uitprinten van meerdere exemplaren van een rapport is een voorbeeld van een taak die gemakkelijk efficiënt kan worden uitgevoerd door meerdere machines. Verschillende instanties van de taak hangen niet van elkaar af, zodat ze eenvoudigweg aan p verschillende machines (hier printers) kunnen worden toegekend. Als we evenveel printers ter beschikking hebben als er exemplaren te printen zijn, m.a.w. p = n, dan kunnen we het probleem oplossen in parallelle tijd Tp(n) = Θ(1), de tijd nodig om één enkel rapport te printen op één enkele printer. Wanneer we de uitvoeringstijd van de twee oplossingen vergelijken: T ∗ (n) = n stappen op één printer (voor de sequentiële oplossing) en Tp(n) = ⌈n/p⌉ stappen op p printers (voor de parallelle oplossing), dan zien we dat de parallelle oplossing een factor p sneller is. Men zegt dat de parallelle oplossing een versnelling Sp(n) = p over de sequentiële oplossing heeft. We noemen Tp(n) de parallelle uitvoeringstijd van een algoritme op p processoren voor een probleem van grootte n. Merk op dat we de sequentiële uitvoeringstijd noteren als T ∗ (n), d.i. de uitvoeringstijd van het beste sequentiële algoritme voor het gegeven probleem. De versnelling (of speed-up) geeft een maat voor de winst in uitvoeringstijd van het parallelle algoritme t.o.v. het sequentiële algoritme, en wordt gedefinieerd als Sp(n) = T ∗ (n) Tp(n) . In dit deel bestuderen we in welke mate computationele problemen kunnen worden versneld door meer dan één processor of machine te gebruiken, m.a.w. in welke mate we een gegeven taak kunnen parallelliseren. In het bovenstaande voorbeeld, hadden we een sequentieel algoritme dat het probleem oploste in f(n) tijd, en een parallel algoritme dat p machines gebruikte en het probleem oploste in ⌈ f(n)/p⌉ tijd. We kunnen niet hopen dat p processoren het probleem sneller dan dat kunnen oplossen, omdat we anders het sequentiële algoritme zouden kunnen verbeteren tot een uitvoeringstijd kleiner dan f(n), nl. door de parallelle processen een na een op één enkele Algoritmen en Datastructuren III Veerle.Fack@UGent.be
1.1. Parallelle algoritmen ontwerpen en analyseren 3 Algoritme 1.1 Zoeken van het grootste element in een array (sequentieel algoritme) Input: array (a1,...,an), lengte n Output: de waarde van het grootste element in a 1: Stel m ← a1 2: for i from 2 to n do 3: if ai > m then 4: Stel m ← ai 5: return m processor te laten lopen. De beste versnelling die we kunnen verwachten bij het gebruik van p processoren is dus een factor p. Bij het ontwerpen van een parallel algoritme moet een compromis worden gezocht tussen de twee resources hardware en uitvoeringstijd. Meer hardware gebruiken kan leiden tot een vermindering van de uitvoeringstijd met een factor p, voor p processoren. Wanneer uitvoeringstijd een hoge prioriteit heeft en we de middelen voor bijkomende hardware hebben, dan is het nuttig naar parallelle algoritmen te zoeken. Een mogelijke benadering bij het ontwerpen van een parallel algoritme is te starten met een sequentieel algoritme voor het probleem en te onderzoeken of dit algoritme, of gedeelten ervan, kan worden geparallelliseerd. In het algemene geval zullen we geen zo’n spectaculaire versnelling als bij het printervoorbeeld kunnen bekomen. Voorbeeld 1.1.2. Als voorbeeld behandelen we het probleem van het berekenen van het grootste element in een array. Een eenvoudig sequentieel algoritme hiervoor wordt gegeven in Algoritme 1.1. Merk op dat dit algoritme inherent sequentieel is, want elke vergelijking hangt af van alle voorafgaande vergelijkingen. Veronderstel dat we een onbeperkt aantal processoren ter beschikking hebben. Hoe kan Algoritme 1.1 worden geparallelliseerd? In stap 1 van het algoritme gebruiken we één processor om het maximum van twee elementen te vinden. Gebruik makend van ⌊n/2⌋ processoren kunnen we van ⌊n/2⌋ paren van elementen de maxima bepalen. In de volgende stap kunnen we met behulp van ⌊n/4⌋ processoren de maxima van ⌊n/4⌋ paren bepalen, enzovoort. Hoeveel tijd kost dit parallelle algoritme? In elke stap wordt het aantal elementen waarvan het maximum moet worden bepaald, gehalveerd. Het algoritme voert dus ten hoogste ⌈log 2 n⌉ stappen uit, hetgeen een substantiële verbetering is tegenover het Θ(n) sequentiële algoritme. Bovendien hebben we enkel ⌈n/2⌉ processoren nodig om het algoritme in parallelle tijd O(logn) uit te voeren. Op het eerste gezicht ziet het algoritme er goed uit: met een lineair aantal processoren kunnen we een probleem dat lineaire sequentiële tijd vereist, oplossen in logaritmische parallelle tijd. Maar er is ook duidelijke inefficiëntie in het algoritme: in de eerste stap worden ongeveer n/2 processoren effectief gebruikt, in de tweede stap nog slechts ongeveer n/4, in de k-de stap nog slechts ongeveer n/2 k . Het overgrote deel van de processoren doet dus geen werk gedurende het algoritme. Dit is duidelijk een verspilling van hardware. Het bovenstaande voorbeeld geeft aan dat we parallelle algoritmen niet alleen moeten beoordelen Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5: Hoofdstuk 1 Inleiding In dit gedeel
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13 and 14: 2.1. Het gedeelde-geheugenmodel 9 A
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45 and 46: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58:
5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60:
5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62:
5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64:
5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66:
5.2. Sorteren op interconnectienetw
Page 67:
5.3. PRAM-varianten van klassieke s
show all

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

Create successful ePaper yourself

Delete template?

Save as template?