Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

42 Hoofdstuk 4. Ontwerptechnieken voor parallelle algoritmen 4.2.5 Berekenen van prefixsommen op een hyperkubus Zij gegeven een rij (a0,...,an−1) met n = 2 d elementen, waarbij elke ak opgeslagen is in het lokale geheugen van processor Pk van een hyperkubus Qd. Gevraagd is de prefixsom sk = ∑ k i=0 ai te berekenen en op te slaan in Pk, voor alle 0 ≤ k < n. Het algoritme volgt de gebruikelijke werkwijze op de hyperkubus, nl. via communicatie in elke dimensie, gaande van de laagste naar de hoogste dimensie. Elke processor Pk houdt twee waarden xk en yk bij. Initieel krijgen xk en yk beiden de waarde ak. Beschouwen we nu stap i uit het algoritme. Zij processoren Pk en Pℓ buren in dimensie i, k < ℓ. Dan wisselen Pk en Pℓ hun waarden yk en yℓ uit. Processor Pk houdt zijn oorspronkelijke waarde van xk en vervangt yk door yk ⊕yℓ. Processor Pℓ vervangt zijn waarde van xℓ door xℓ ⊕yk en vervangt ook yℓ door yk ⊕yℓ. Na d = log 2 n stappen, een in elke dimensie, bevat elke xk uiteindelijk de gevraagde prefixsom sk. 4.3 Partitionering / Merge 4.3.1 Techniek van partitioneren De techniek van partitioneren bestaat in (1) het opsplitsen van het gegeven probleem in p onafhankelijke deelproblemen die ongeveer even groot zijn, waarbij p het aantal beschikbare processoren is, en (2) het oplossen in parallel van deze deelproblemen. In zijn eenvoudigste vorm bestaat deze strategie in het opsplitsen van de inputgegevens in p nietoverlappende stukken, gevolgd door het in parallel oplossen van de deelproblemen geassocieerd met deze p stukken. In de meeste gevallen zal het opsplitsen van het probleem in onafhankelijke deelproblemen echter niet zo eenvoudig zijn. We illustreren deze techniek bij het mergen van twee gesorteerde rijen. Zij A = (a1,...,an) en B = (b1,...,bn) twee niet-dalende rijen van elementen uit een geordend universum S. We beschouwen het probleem van het samenvoegen van deze twee rijen tot één enkele gesorteerde rij C = (c1,...,c2n). Er zijn eenvoudige sequentiële algoritmen voor dit probleem die lineaire tijd vereisen. Onze bedoeling hier is het opstellen van een parallelle oplossing die gebaseerd is op het partitioneren van rijen A en B in meerdere paren van deelrijen op zodanige manier dat we de gesorteerde rij C kunnen bekomen door in parallel de paren van deelrijen te mergen. 4.3.2 Een eenvoudig merge-algoritme We beginnen met enkele definities. Zij X = (x1,...,xn) een rij elementen uit het universum S. Zij x ∈ S. De rank van x in X, genoteerd als rank(x : X) is het aantal elementen van X dat Algoritmen en Datastructuren III Veerle.Fack@UGent.be
4.3. Partitionering / Merge 43 kleiner dan of gelijk is aan x. Zij Y = (y1,...,yk) een willekeurige rij van elementen uit S. Het ranken van Y in X is het probleem van het bepalen van de rij rank(Y : X) = (r1,...,rk), waarbij ri = rank(yi : X). Zonder verlies van algemeenheid kunnen we veronderstellen dat alle elementen die in de gegeven rijen A en B optreden, verschillend zijn. Meer bepaald komt geen enkele element van A voor in B. Het probleem van mergen kan worden beschouwd als het bepalen van de rank van elk element x uit A en B in de rij A ∪ B. Als rank(x : A ∪ B) = i, dan is ci = x, waarbij ci het i-de element van de gewenste gesorteerde rij is. Aangezien rank(x : A ∪ B) = rank(x : A)+rank(x : B), kunnen we het probleem van mergen oplossen door de twee gehele rijen rank(A : B) en rank(B : A) te bepalen. We beschrijven nu een algoritme om rank(B : A) te bepalen. Hetzelfde algoritme kan gebruikt worden om rank(A : B) te bepalen. Zijn bi een willekeurig element van B. Aangezien A gesorteerd is, kunnen we de rank van bi in A vinden door gebruik te maken van de binaire zoekmethode. We vergelijken bi met het middelste element van A. Afhankelijk van de uitkomst van deze vergelijking kunnen we het zoeken beperken tot de onderste of de bovenste helft van A. Dit proces wordt herhaald totdat bi geïsoleerd is tussen twee opeenvolgende elementen van A, m.a.w. a j(i) < bi < a j(i)+1, waarbij rank(bi : A) = j(i). Merk op dat we hier gebruik maken van het feit dat de elementen van A en B allemaal verschillend zijn. Dit algoritme bepaalt de rank van een willekeurig element van B in A in sequentiële tijd Θ(logn). Het is onmiddellijk duidelijk dat we deze methode in parallel kunnen uitvoeren voor alle elementen van B. Dit levert een parallel algoritme voor het bepalen van rank(B : A) met parallelle uitvoeringstijd Θ(logn). Dit impliceert een parallel algoritme met uitvoeringstijd Θ(logn) voor het mergen van twee rijen van lengte n. Het totaal aantal bewerkingen gebruikt door dit algoritme is echter W(n) = Θ(nlogn), zodat het algoritme dus niet werk-optimaal is (aangezien sequentiële algoritmen met lineaire uitvoeringstijd bestaan). 4.3.3 Parallel algoritme voor merge via partitioneren Een werk-optimaal parallel algoritme kan als volgt bekomen worden. Kies ongeveer n/log 2 n elementen elk uit A en B die A en B partitioneren in blokken van ongeveer gelijke grootte. Pas de binaire zoekmethode toe om elk van de gekozen elementen te ranken in de andere rij. Deze stap reduceert het probleem tot het mergen van een aantal paren van deelrijen, die elk Θ(logn) elementen hebben. Dan kunnen we een optimaal sequentieel algoritme gebruiken om elk paar deelrijen te mergen tot een gesorteerde deelrij, die deel uitmaakt van van de uiteindelijk gewenste gesorteerde rij. Bij het uitwerken van de details beperken we ons voor de eenvoud tot een lichtjes ander algoritme. Algoritme 4.7 geeft de pseudocode voor het partitioneringsalgoritme, dat de belangrijkste component van het gehele merge-algoritme zal uitmaken. In deze beschrijving veronderstellen we niet dat de lengte van de twee deelrijen noodzakelijk gelijk zal zijn. Volgende stelling bewijst de correctheid en de complexiteit van dit algoritme. Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13 and 14: 2.1. Het gedeelde-geheugenmodel 9 A
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45: 4.2. Gebalanceerde bomen / Prefixso
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64: 5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66: 5.2. Sorteren op interconnectienetw
Page 67: 5.3. PRAM-varianten van klassieke s

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

Create successful ePaper yourself

Delete template?

Save as template?