Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

40 Hoofdstuk 4. Ontwerptechnieken voor parallelle algoritmen Algoritme 4.5 Berekening van prefixsommen op PRAM (recursieve formulering) Input: rij (a1,...,an) met n = 2 ℓ , p = n processoren Output: sk = ∑ k i=1 ai, voor 1 ≤ k ≤ n 1: if n = 1 then 2: Stel s1 ← a1 3: return 4: for i from 1 to n/2 pardo 5: Stel bi ← a2i−1 ⊕ a2i 6: Bereken recursief prefixsommen (c1...,c n/2) van (b1,...,b n/2) 7: for i from 1 to n pardo 8: case i = 1: Stel s1 ← a1 9: case i even: Stel si ← c i/2 10: case i oneven: Stel si ← c (i−1)/2 ⊕ ai We bewijzen de correctheid van het algoritme door inductie, waarbij we veronderstellen dat de inputgrootte n = 2 ℓ is. Het basisgeval k = 0 wordt correct behandeld door de eerste if-opdracht van het algoritme. Onderstel nu dat het algoritme correct werkt voor alle rijen van lengte 2 k met k > 0. We bewijzen dat het algoritme correct werkt voor alle rijen van lengte n = 2 k+1 . Wegens de inductiehypothese bevatten de variabelen (c1...,c n/2), berekend in de recursieve stap van het algoritme, de prefixsommen van de rij (b1,...,b n/2), waarbij bi ← a2i−1 ⊕ a2i, voor 1 ≤ i ≤ n/2. Meer bepaald is c j = c1 ⊕ c2 ⊕ ··· ⊕ c j, en dus c j = a1 ⊕ a2 ⊕ ··· ⊕ a2 j−1 ⊕ a2 j. M.a.w. c j bevat precies de prefixsommen s2 j, voor 1 ≤ j ≤ n/2. Dus, voor i even, zij i = 2 j, hebben we dat si = c i/2. Anders is ofwel i = 1, ofwel i = 2 j+ 1, voor zekere 1 ≤ j ≤ n/2 − 1. Het geval i = 1 is triviaal. Voor het geval i = 2 j+ 1, hebben we dat si = s2 j+1 = s2 j ⊕ a2 j+1 = c (i−1)/2 ⊕ ai. M.a.w. alle gevallen worden correct afgehandeld in de case-opdracht van het algoritme. Hieruit volgt dat het algoritme correct werkt. Vervolgens bespreken we de complexiteit van het algoritme. De if-opdracht en de twee parallelle for-lussen nemen elk Θ(1) parallelle tijd en vragen Θ(n) bewerkingen. De parallelle uitvoeringstijd T(n) en het werk W(n) van het algoritme worden dus bepaald voor de volgende recurrente betrekkingen: T(n) = T(n/2)+Θ(1) W(n) = W(n/2)+Θ(n) De oplossingen van deze recurrente betrekkingen zijn: Het algoritme is dus werk-optimaal. T(n) = Θ(logn) W(n) = Θ(n) Algoritmen en Datastructuren III Veerle.Fack@UGent.be
4.2. Gebalanceerde bomen / Prefixsommen 41 Algoritme 4.6 Berekening van prefixsommen op PRAM (niet-recursieve formulering) Input: rij (a1,...,an) met n = 2 ℓ Output: tabel C: c0,k = sk = ∑ k j=1 a j (1 ≤ k ≤ n) 1: for i from 1 to n pardo 2: Stel b0,i ← ai 3: for h from 1 to log 2 n do 4: for j from 1 to n/2 h pardo 5: Stel bh, j ← bh−1,2 j ⊕ bh−1,2 j+1 6: for h from log 2 n to 0 do 7: for j from 1 to n/2 h pardo 8: case j = 1: Stel ch,0 ← bh,0 9: case j even: Stel ch, j ← c h+1, j/2 10: case j oneven: Stel ch, j ← c h+1,( j−1)/2 ⊕ bh, j Tot slot bespreken we een niet-recursieve versie van Algoritme 4.5. Daarbij gebruiken we twee hulpvariabelen voor het bijhouden van de gebalanceerde boom. De tabel (bh, j), met 0 ≤ h ≤ log 2 n en 1 ≤ j ≤ n/2 h , wordt opgebouwd tijdens het voorwaarts doorlopen van de boom. De tabel (ch, j) met 0 ≤ h ≤ log 2 n en 1 ≤ j < n/2 h , wordt opgebouwd tijdens het achterwaarts doorlopen van de boom. Merk op dat deze hulpvariabelen niet echt nodig zijn en dat het algoritme in-place kan worden uitgevoerd. 4.2.4 Berekenen van prefixsommen op een rooster We veronderstellen dat de rij getallen verdeeld is over de rijen van het rooster. Dan kunnen de prefixsommen als volgt berekend worden. Elke rij van het rooster doet een rijrotatie; hierdoor bevat elke rechtse processor van een rij de som van de getallen op zijn rij. Vervolgens doet de rechterkolom van het rooster een kolomrotatie, hetgeen ervoor zorgt dat deze processoren de correcte prefixsom bevatten. Dan stuurt elke rechtse processor van een rij zijn prefixsom naar zijn onderbuur. Tot slot doet elke rij (behalve de eerste) weer een rijrotatie. Hierdoor bevat uiteindelijk elke processor de correcte prefixsom. Beschouwen we de performantie van dit algoritme. Zij p = n. De parallelle uitvoeringstijd is Tp(n) = Θ( √ p) = Θ( √ n). De kost is Cp(n) = Θ(p 3/2 ) = Θ(n 3/2 ). M.a.w. het algoritme is niet kost-optimaal. Om het algoritme te optimaliseren bepalen we de waarde van p waarvoor p 3/2 = n, of m.a.w. p = n 2/3 . Dan hebben we een rooster van n 1/3 × n 1/3 processoren, en elke processor verwerkt n 1/3 elementen sequentieel. De parallelle uitvoeringstijd van dit aangepaste algoritme is Tp(n) = Θ( √ p+n 1/3 ) = Θ(n 1/3 ). De kost is Cp(n) = Θ(p × n 1/3 ) = Θ(n), en het aangepaste algoritme is dus kost-optimaal. Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13 and 14: 2.1. Het gedeelde-geheugenmodel 9 A
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64: 5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66: 5.2. Sorteren op interconnectienetw
Page 67: 5.3. PRAM-varianten van klassieke s

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

Create successful ePaper yourself

Delete template?

Save as template?