Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

26 Hoofdstuk 3. Het netwerkmodel dingsproces. Hieruit blijkt dat er in de tweede stap twee boodschappen op 11010 zijn, die over dezelfde boog moeten verdergestuurd worden. Wanneer we zoals gebruikelijk veronderstellen dat slechts één boodschap tegelijk over een kanaal kan verstuurd worden, wordt een van de boodschappen hier vertraagd. Meer geavanceerde algoritmen zijn nodig om dergelijke problemen te verhelpen. De hyperkubus is een populaire topologie omwille van zijn regulariteit, zijn kleine diameter, zijn verscheidene interessante graaf-theoretische eigenschappen, en het feit dat vele berekeningen snel en eenvoudig op een hyperkubus kunnen worden uitgevoerd. Een bijkomende reden is het feit dat andere netwerken er eenvoudig kunnen op gesimuleerd worden. Bepaalde netwerken, zoals rijen, kunnen ingebed worden als deelgrafen van de hyperkubus. Andere netwerken, zoals bomen, kunnen efficiënt gesimuleerd worden op de hyperkubus, als we toelaten dat bogen ‘verwijd’ worden en dat toppen van de hyperkubus meerdere toppen uit het oorspronkelijke netwerk simuleren. Algoritmen voor de hyperkubus kunnen dus dikwijls aangepast worden om ook op andere architecturen te werken. Een nadeel van het hyperkubusnetwerk is dat het duur is om het uit te breiden, omdat nieuwe connecties aan elke processor moeten worden toegevoegd wanneer we de dimensie van de hyperkubus verhogen. Hyperkubussen worden dus op hun beurt ingebed in netwerken die eenvoudiger in hardware te realiseren zijn. In de onderstaande voorbeelden ontwerpen we synchrone algoritmen voor enkele eenvoudige problemen op de hyperkubus. Voorbeeld 3.3.3 (Sommeren van een rij op de hyperkubus). Zij gegeven een rij (a0,...,an−1) met n = 2d elementen, waarbij elke ai opgeslagen is in het lokale geheugen van processor Pi van een (synchrone) d-dimensionale hyperkubus Qd. Gevraagd is de som s = ∑ n−1 i=0 ai te berekenen en op te slaan op processor P0. Het algoritme voor de berekening van s is rechtlijnig. Het bestaat uit d iteraties. De eerste iteratie berekent de sommen van paren elementen tussen processoren waarvan de indices in de meest significante bitpositie verschillen. Deze sommen worden opgeslagen in de (d − 1)-dimensionale deelhyperkubus waarvan de meest significante adresbit gelijk aan 0 is. De andere iteraties gebeuren op gelijkaardige wijze. Algoritme 3.2 geeft de pseudocode voor processor Pi. Daarbij noteren we door i (ℓ) de index i waarbij van bit ℓ het complement genomen werd. De instructie ai ← ai + a i (ℓ) vereist twee deelstappen. In de eerste deelstap kopieert processor Pi de waarde a i (ℓ) van processor P i (ℓ) via de link tussen Pi en P i (ℓ). In de tweede deelstap berekent processor Pi de waarde ai + a i (ℓ) en slaat het resultaat op in ai. Dit algoritme vereist d = log 2 n parallelle stappen. Voorbeeld 3.3.4 (Broadcast op de hyperkubus). Beschouw het probleem van het doorsturen van een item x van processor P0 naar alle andere processoren Pi van een hyperkubus met p processoren, waarbij p = 2 d . Algoritmen en Datastructuren III Veerle.Fack@UGent.be
3.4. Communicatie-algoritmen 27 Algoritme 3.2 Sommeren van een rij op een synchrone hyperkubus Input: rij (a0,...,an−1; n = 2d ; elke ai is opgesplagen op processor Pi van een synchrone hyperkubus Qd Output: som s = ∑ n−1 i=0 ai op P0 1: for ℓ from d − 1 to 0 do 2: if 0 ≤ i ≤ 2ℓ − 1 then 3: Stel ai ← ai + ai (ℓ) Algoritme 3.3 Broadcast op een synchrone hyperkubus Input: synchrone hyperkubus Qd met p = 2 d processoren; processor P0 heeft een item x in zijn register d0 Output: elke processor Pi heeft een kopie van item x in zijn register di 1: for ℓ from 0 to d − 1 do 2: if 0 ≤ i ≤ 2 ℓ − 1 then 3: Stel d i (ℓ) ← di Een eenvoudige strategie kan gevolgd worden om dit probleem op te lossen. We werken opwaarts vanaf de laagste dimensie naar de hoogste dimensie in de hyperkubus, in d iteraties, als volgt. Tijdens de eerste iteratie zendt P0 een kopie van x naar P1. Tijdens de tweede iteratie zenden P0 en P1 kopies van x naar P2 en P3 respectievelijk, gebruik makend van de links tussen P0 en P2 en tussen P1 en P3. Algoritme 3.3 geeft de pseudocode voor dit algoritme. Net zoals in Algoritme 3.2 heeft de instructie d i (ℓ) ← di twee deelstappen. In de eerste deelstap wordt een kopie van het register di van processor Pi naar processor P i (ℓ) gekopieerd via de link tussen Pi en P i (ℓ). In de tweede deelstap ontvangt processor P i (ℓ) de kopie en slaat ze op in zijn register d i (ℓ). Ook dit algoritme vereist d = log 2 p parallelle stappen. Bovenstaande algoritmen voor de hyperkubus behoren tot de klasse van genormaliseerde algoritmen. De hyperkubusalgoritmen in deze klasse gebruiken in elke tijdseenheid één dimensie van de hyperkubus, zodanig dat opeenvolgende dimensies in opeenvolgende tijdseenheden gebruikt worden. Bovenstaande algoritmen behoren zelfs tot de meer gespecialiseerde klassen van volledig genormaliseerde algoritmen, dit zijn genormaliseerde algoritmen met de bijkomende voorwaarde dat elk van de d dimensies van de hyperkubus in sequentie gebruikt wordt (ofwel in stijgende volgorde, zoals bij het voorbeeld van broadcasting, ofwel in dalende volgorde, zoals bij het voorbeeld van het sommeren van een rij). 3.4 Communicatie-algoritmen Zoals reeds vermeld wisselen processoren in het netwerkmodel gegevens uit door onderlinge communicatie via verbindingen. Deze communicatie heeft een grote invloed op de efficiëntie van Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13 and 14: 2.1. Het gedeelde-geheugenmodel 9 A
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29: 3.3. Interconnectienetwerken 25 010
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45 and 46: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64: 5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66: 5.2. Sorteren op interconnectienetw
Page 67: 5.3. PRAM-varianten van klassieke s

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?