Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

30 Hoofdstuk 3. Het netwerkmodel 3.4.2 All-to-all broadcast Een all-to-all broadcast of multinode broadcast is een veralgemening van de one-to-all broadcast, waarbij elke processor gelijktijdig een one-to-all broadcast uitvoert. Een processor stuurt dezelfde boodschap van grootte m naar alle andere processoren, maar verschillende processoren sturen verschillende boodschappen. De duale bewerking is multinode accumulation, waarbij elke processor de bestemming is van een single-node accumulation. Deze communicatiepatronen worden o.m. gebruikt bij parallelle algoritmen voor matrixbewerkingen, zoals matrixvermenigvuldiging, en bij reductie en het bepalen van prefixsommen. Een eenvoudige manier om een all-to-all broadcast uit te voeren bestaat in het uitvoeren van p one-to-all broadcasts, één die in elke processor start. Wanneer dit eenvoudigweg rechtlijnig geïmplementeerd wordt, leidt deze benadering op sommige architecturen tot een communicatietijd van p maal de tijd voor een one-to-all broadcast. Maar dikwijls is het mogelijk om de communicatieverbindingen van het netwerk efficiënter te gebruiken en de one-to-all broadcasts gelijktijdig te laten uitvoeren. Daarbij probeert men ook om boodschappen die over hetzelfde pad gestuurd worden, samen te voegen tot één enkele boodschap (met als grootte de som van groottes van de individuele boodschappen) en dus tegelijkertijd te sturen. All-to-all broadcast op een ring In het eerder geziene algoritme voor one-to-all broadcast op een ring zijn slechts twee communicatieverbindingen terzelfdertijd actief tijdens elke stap. Bij all-to-all broadcast kunnen alle verbindingen de ganse tijd actief gehouden worden, omdat we er voor kunnen zorgen dat elke processor op elk moment informatie heeft die hij kan doorgeven. Dit werkt als volgt. In de eerste stap stuurt elke processor Pi zijn eigen boodschap door naar zijn buur Pi+1. In de volgende stappen stuurt processor Pi alle binnenkomende boodschappen van zijn andere buur Pi−1 door naar Pi+1. Dit duurt totdat alle boodschappen overal verspreid zijn. Dit algoritme is te beschouwen als een soort pipelining van meerdere one-to-all broadcasts. Doordat de communicatie circulair in één richting verloopt, ontvangt elke processor de p − 1 vereiste boodschappen van de andere processoren in p − 1 stappen. De totale communicatietijd is dus Θ(mp). All-to-all broadcast op een rooster met wraparound Ook hier is het algoritme gebaseerd op het algoritme voor all-to-all broadcast op een ring en werkt het in twee fasen. In fase 1 doet elke processor Pi, j een all-to-all broadcast van zijn eigen boodschap op rij i. Op die manier verzamelt elke processor de √ p boodschappen van grootte m van zijn eigen rij. Vervolgens worden op elke processor de binnengekomen boodschappen samengesteld tot een boodschap van m √ p lang. In fase 2 doet elke processor Pi, j dan een all-to-all broadcast van zijn Algoritmen en Datastructuren III Veerle.Fack@UGent.be
3.4. Communicatie-algoritmen 31 samengestelde boodschap op kolom j. Hierdoor verzamelt elke processor alle p boodschappen die zich oorspronkelijk elk op hun eigen processor bevonden. Het aantal stappen in fase 1 is Θ( √ p) en de totale communicatietijd van fase 1 is Θ(m √ p). Ook in fase 2 is het aantal stappen Θ( √ p), maar aangezien de boodschappen nu grootte m √ p hebben, is de totale communicatietijd van fase 2 Θ(m √ p × √ p). De totale communicatietijd van beide fasen samen is dus Θ(mp). Merk op dat het algoritme ook te veralgemenen is voor een d-dimensionaal rooster of voor een hyperkubus (als oefening). 3.4.3 Single-node scatter In een one-to-all personalized communication of single-node scatter zendt één enkele processor een gepersonaliseerde boodschap van grootte m naar elke andere processor. Deze bewerking verschilt van een one-to-all broadcast in de zin dat de bronprocessor hier aanvankelijk p verschillende boodschappen heeft, nl. een unieke boodschap bestemd voor elke processor. Bovendien wordt bij single-node scatter geen data gedupliceerd. De duale bewerking is single-node gather, waarbij één enkele processor een unieke boodschap van elke andere processor ontvangt. Voor elke netwerktopologie kan de procedure voor singlenode gather bekomen worden uit die voor single-node scatter door de richting en de volgorde van de boodschappen om te keren. Merk ook op dat een gather-bewerking verschilt van een accumulation-bewerking doordat ze de ontvangen data niet combineert of reduceert. De complexiteit van single-node scatter op de verschillende topologieën is gelijkaardig aan die van all-to-all broadcast. In all-to-all broadcast ontvangt elke processor een boodschap van m(p− 1), terwijl in single-node scatter de bronprocessor p−1 boodschappen van grootte m doorstuurt. Omwille van deze grote gelijkenis tussen we single-node scatter en all-to-all broadcast bespreken we hier enkel een algoritme voor een hyperkubus, en laten de algoritmen voor een ring en een rooster met wraparound als oefening. Single-node scatter op een hyperkubus Het achterliggende idee van het algoritme is als volgt. Oorspronkelijk heeft de bronprocessor alle p boodschappen. In de eerste communicatiestap stuurt de bronprocessor de helft van zijn boodschappen door naar een van zijn buren. In de volgende communicatiestappen stuurt elke processor die reeds gegevens heeft, de helft ervan door naar een van zijn buren. Merk op dat de links in een hyperkubus met p processoren in een zekere dimensie twee deelhyperkubussen met p/2 processoren verbinden. In elke communicatiestap beweegt data van de ene deelhyperkubus naar de andere. De gegevens die een processor heeft vooraleer de communicatie in een zekere dimensie te starten, bestaan voor de helft uit gegevens die bedoeld zijn voor een processor uit de andere deelhyperkubus. In elke stap houdt een communicerende processor de Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11 and 12: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 13 and 14: 2.1. Het gedeelde-geheugenmodel 9 A
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33: 3.4. Communicatie-algoritmen 29 Dit
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45 and 46: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64: 5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66: 5.2. Sorteren op interconnectienetw
Page 67: 5.3. PRAM-varianten van klassieke s

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?