Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

10 Hoofdstuk 2. Het gedeelde-geheugenmodel de som z (1) + ···+ z (r) vooraleer gegarandeerd is dat alle processoren de berekening van hun z (i) beëindigd hebben. Er is m.a.w. een expliciete synchronisatie nodig: het programma van elke processor moet een synchronisatiepunt bevatten na de berekening van z (i) = A (i) x (i) , om ervoor te zorgen dat de processoren synchroniseren vooraleer verder te gaan met de uitvoering van het programma. 2.2 De Parallel Random-Access Machine (PRAM) In deze paragraaf concentreren we ons op de Parallel Access-Random Machine (PRAM), die zowat het standaardmodel voor parallelle algoritmen in het gedeelde-geheugenmodel geworden is. Dit model veralgemeent de Random-Access Machine (RAM), het model dat voor sequentiële algoritmen gebruikt wordt. We beschrijven beide modellen hier, zonder echter een precieze formele definitie te geven. 2.2.1 Het PRAM-model Het RAM-model bestaat uit een centrale verwerkingseenheid (CPU) met een random-accessgeheugen eraan verbonden. De CPU kan rekenkundige en logische bewerkingen uitvoeren op een set registers, waarvan de inhoud kan worden geladen uit en geschreven naar het geheugen via random-access-adressering. Elke bewerking vereist één tijdseenheid. Het PRAM-model bestaat uit meerdere RAM-processoren, met één extra gedeeld random-accessgeheugen, waartoe alle processoren toegang hebben. De processoren zijn gesynchroniseerd door een globale klok, en elke processor voert één stap uit tijdens elke klokcyclus. Algoritmen ontwikkeld in het PRAM-model zijn meestal van het type single instruction multiple data (SIMD). Dit betekent dat alle processoren hetzelfde programma uitvoeren, zodanig dat, op elke tijdseenheid, de actieve processoren dezelfde instructie uitvoeren, doorgaans wel op verschillende data. Merk echter op dat deze beperking niet inherent door het PRAM-model zelf opgelegd wordt. Het PRAM-model laat toe om verschillende programma’s op verschillende processoren uit te voeren, uiteraard op voorwaarde dat de processoren synchroon kunnen werken. Aan de pseudocode voegen we nu ook een parallelle lus toe, die zal toelaten om een blok code in parallel op meerdere processoren uit te voeren: for i from 1 to n pardo {Blok code} Hierbij wordt het aantal gebruikte processoren niet nader gespecificeerd, en wordt impliciet verondersteld dat hun aantal onbeperkt is. De parallelle tijd nodig om deze lus uit te voeren is het maximum van de tijd gebruikt in één van de n stappen (in plaats van de som, zoals het op een sequentiële machine zou zijn). De kost is het aantal stappen in de lus, maal de kost van één stap. Voorbeeld 2.2.1. Beschouw het initialiseren van elk element van een array met een waarde. Gebruik makend van p = n processoren kan dit met een factor n worden versneld: Algoritmen en Datastructuren III Veerle.Fack@UGent.be
2.2. De Parallel Random-Access Machine (PRAM) 11 Algoritme 2.3 Parallel zoeken van een element in een niet-gesorteerde array Input: waarde x, array (a1,...,an), lengte n Output: true als er een i bestaat waarvoor x = ai, anders false 1: Stel f ← false 2: for i from 1 to n pardo 3: if x = ai then 4: Stel f ← true 5: return f for i from 1 to n pardo Stel a[i] ← 0 De parallelle tijd van dit stuk code is Tn(n) = Θ(1). De kost is Cn(n) = Θ(n), zodat dit stuk code kost-optimaal is. 2.2.2 Geheugenmodellen voor PRAM Voorbeeld 2.2.2. Beschouw het parallel zoeken van een element in een niet-gesorteerde array. Het sequentiële algoritme neemt tijd Θ(n). Algoritme 2.3 geeft de pseudocode voor het parallelle algoritme. Dit algoritme loopt op n processoren in constante parallelle tijd. De kost is Θ(n), hetgeen optimaal is. Merk op dat het algoritme veronderstelt dat de processoren gelijktijdig toegang tot het geheugen hebben. In eerste instantie wordt de vergelijking x = ai op alle processoren gelijktijdig uitgevoerd, hetgeen vereist dat alle processoren gelijktijdig toegang moeten hebben tot de variabele x. Verder moeten alle processoren waarvoor de vergelijking x = ai als resultaat true geeft, gelijktijdig kunnen schrijven naar de variabele f . We kunnen er niet zomaar van uitgaan dat gelijktijdige activiteiten zoals in Algoritme 2.3 in de praktijk mogelijk zijn. Het implementeren van gelijktijdig lezen en schrijven in hardware is een dure aangelegenheid. Bovendien kunnen in het geval van gelijktijdig schrijven ook logische conflicten optreden. Immers, wat gebeurt er wanneer meerdere processoren verschillende waarden in dezelfde geheugenplaats proberen te schrijven? Om dit soort situaties te modelleren, bestaan er meerdere varianten van het PRAM-model: • Exclusive Read (ER): de waarde van een variabele kan maar door één processor gelijktijdig worden gelezen; • Concurrent Read (CR): de waarde van een variabele kan door meerdere processoren gelijktijdig worden gelezen; • Exclusive Write (EW): de waarde van een variabele kan maar door één processor gelijktijdig worden geschreven; Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13: 2.1. Het gedeelde-geheugenmodel 9 A
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45 and 46: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64: 5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66:
5.2. Sorteren op interconnectienetw
Page 67:
5.3. PRAM-varianten van klassieke s
show all

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

Create successful ePaper yourself

Delete template?

Save as template?