Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

More documents

Recommendations

Info

8 Hoofdstuk 2. Het gedeelde-geheugenmodel 2.1 Het gedeelde-geheugenmodel In het gedeelde-geheugenmodel hebben meerdere processoren toegang tot één enkele gedeelde geheugeneenheid. Meer bepaald bestaat het gedeelde-geheugenmodel uit een aantal processoren, die elk hun lokaal geheugen hebben en die elk een lokaal programma kunnen uitvoeren, waarbij communicatie tussen de processoren gebeurt door het uitwisselen van gegevens via een gedeeld geheugen. Elke processor wordt eenduidig geïdentificeerd door een index, het processornummer of processor-id genoemd, die lokaal beschikbaar is en waarnaar in het programma van de processor dus kan verwezen worden. Het gedeelde geheugen wordt soms ook het globale geheugen genoemd. Er zijn twee verschillende manieren van werken in het gedeelde-geheugenmodel. De eerste manier wordt synchroon genoemd en hierbij werken alle processoren synchroon, m.a.w. gestuurd door een gemeenschappelijke klok. Dit model wordt ook de parallel random-access machine (PRAM) genoemd; we bespreken ze verder in de volgende paragraaf. De tweede manier wordt asynchroon genoemd en hierbij werken de processoren elk gestuurd door hun eigen klok. In dit model is het de verantwoordelijkheid van de programmeur om waar nodig voor synchronisatiepunten te zorgen. Meer bepaald, wanneer bepaalde data nodig is voor de berekening door een bepaalde processor, dan moet de programmeur er voor zorgen dat de correcte waarden beschikbaar zijn – merk immers op dat de waarde van een gedeelde variabele dynamisch wordt bepaald tijdens de uitvoering van de programma’s van de verschillende processoren. Aangezien elke processor zijn eigen lokale programma kan uitvoeren, is het asynchrone gedeeldegeheugenmodel van het type multiple instruction multiple data (MIMD). Dit betekent dat elke processor een andere instructie kan uitvoeren, of een berekening op andere data kan uitvoeren, en dit op elk willekeurig moment in de uitvoering van het programma. Voor een gegeven algoritme, geeft de omvang van de gegevens die getransfereerd worden tussen het gedeelde geheugen en de lokale geheugens van de processoren, een maat voor de communicatie vereist door het algoritme. We schrijven parallelle algoritmen in het gedeelde-geheugenmodel zoals we dat voor een sequentieel algoritme doen, met als bijkomende bewerkingen: • global read(x,y): het inlezen van een gegeven x uit het globale geheugen naar de lokale variabele y; • global write(u,v): het wegschrijven van de inhoud van de lokale variabele u naar de variabele v in het globale geheugen. In vele gevallen zullen we echter de volgende verkorte notatie gebruiken: stel c ← a+b die staat voor: global read (a,x); global read (b,y) Algoritmen en Datastructuren III Veerle.Fack@UGent.be
2.1. Het gedeelde-geheugenmodel 9 Algoritme 2.1 Berekenen van matrix-vector-vermenigvuldiging Input: n×n matrix A en vector x; aantal processoren p met r = n/p geheel; processornummer i; Output: componenten y (i−1)r+1,...,yir van y = Ax in globale variabele 1: global read (x, z) 2: global read (A (i−1)r+1:ir,1:n, B) 3: Bereken w ← Bz 4: global write (w, y (i−1)r+1:ir) Algoritme 2.2 Berekenen van matrix-vector-vermenigvuldiging (met verkorte notatie) Input: n×n matrix A en vector x; aantal processoren p met r = n/p geheel; processornummer i; Output: componenten y (i−1)r+1,...,yir van y = Ax in globale variabele 1: Bereken y (i−1)r+1:ir ← A (i−1)r+1:ir,1:nx stel z ← x+y global write (z, c) met a,b,c gedeelde variabelen, en x,y,z lokale variabelen. Voorbeeld 2.1.1 (Matrix-vector-vermenigvuldiging). Beschouw het vermenigvuldigen van een n×n matrix A met een vector x van orde n, die beiden in het gedeelde geheugen opgeslagen zijn. Veronderstel dat we over p processoren Pi beschikken, met p ≤ n en r = n/p geheel, en dat we in het asynchroon model werken. Een eenvoudig parallel algoritme bestaat in het opsplitsen van A in p blokken A (i) van r rijen, waarbij elke processor Pi de vector x en een blok A (i) uit het gedeeld geheugen leest en het product A (i) x berekent. Dit levert r componenten van de resultaatvector. Algoritme 2.1 geeft de pseudocode voor processor Pi. Merk op dat alle processoren in stap 1 tegelijkertijd toegang moeten hebben tot de globale variabele x. Daarentegen zullen twee processoren nooit tegelijkertijd naar dezelfde globale geheugenplaats proberen te schrijven. Met de eerder vermelde verkorte notatie bekomen we de pseudocode zoals getoond in Algoritme 2.2. De parallelle tijd van dit algoritme is Tp(n) = Θ(n 2 /p). De kost is Cp(n) = pΘ(n 2 /p) = Θ(n 2 ), hetgeen precies de tijd van het sequentiële algoritme is. Het algoritme is dus kost-optimaal. Een belangrijk aspect van dit algoritme is het feit dat de processoren hun activiteiten niet hoeven te synchroniseren – dit is te danken aan de manier waarop de berekeningen gepartitioneerd werden. Door de matrix op te splitsen in blokken van rijen zijn de berekeningen die door de verschillende processoren gebeuren, onafhankelijk van elkaar. Als we daarentegen de matrix zouden opsplitsen in blokken van kolommen, m.a.w. als A = (A (1) ,...,A (r) ) en x = (x (1) ,...,x (r) ), dan wordt het product y = Ax gegeven door y = A (1) x (1) + ···+A (r) x (r) . Elke processor Pi kan dus z (i) = A (i) x (i) berekenen, na het inlezen van A (i) en x (i) uit het gedeelde geheugen. Maar geen enkele processor mag beginnen met het berekenen van Algoritmen en Datastructuren III Veerle.Fack@UGent.be
Page 1 and 2: Algoritmen en Datastructuren III Pa
Page 3 and 4: ii INHOUDSOPGAVE 3.4.1 One-to-all b
Page 5 and 6: Hoofdstuk 1 Inleiding In dit gedeel
Page 7 and 8: 1.1. Parallelle algoritmen ontwerpe
Page 9 and 10: 1.2. Modellen van parallelle comput
Page 11: Hoofdstuk 2 Het gedeelde-geheugenmo
Page 15 and 16: 2.2. De Parallel Random-Access Mach
Page 17 and 18: 2.2. De Parallel Random-Access Mach
Page 19 and 20: 2.3. Het werk-tijd-paradigma 15 ren
Page 21 and 22: 2.3. Het werk-tijd-paradigma 17 Alg
Page 23 and 24: Hoofdstuk 3 Het netwerkmodel In dit
Page 25 and 26: 3.3. Interconnectienetwerken 21 van
Page 27 and 28: 3.3. Interconnectienetwerken 23 Alg
Page 29 and 30: 3.3. Interconnectienetwerken 25 010
Page 31 and 32: 3.4. Communicatie-algoritmen 27 Alg
Page 33 and 34: 3.4. Communicatie-algoritmen 29 Dit
Page 35 and 36: 3.4. Communicatie-algoritmen 31 sam
Page 37 and 38: 3.5. Gedistribueerde algoritmen 33
Page 39 and 40: Hoofdstuk 4 Ontwerptechnieken voor
Page 41 and 42: 4.1. Pipelining / Sorteren & Priemz
Page 43 and 44: 4.2. Gebalanceerde bomen / Prefixso
Page 45 and 46: 4.2. Gebalanceerde bomen / Prefixso
Page 47 and 48: 4.3. Partitionering / Merge 43 klei
Page 49 and 50: 4.4. Accelerated cascading / Maximu
Page 51 and 52: 4.4. Accelerated cascading / Maximu
Page 53 and 54: Hoofdstuk 5 Parallelle sorteeralgor
Page 55 and 56: 5.1. Sorteernetwerken 51 (a) Een so
Page 57 and 58: 5.1. Sorteernetwerken 53 Figuur 5.5
Page 59 and 60: 5.1. Sorteernetwerken 55 bestaan zo
Page 61 and 62: 5.1. Sorteernetwerken 57 S2 S2 Figu
Page 63 and 64:
5.1. Sorteernetwerken 59 1 1 1 1 0
Page 65 and 66:
5.2. Sorteren op interconnectienetw
Page 67:
5.3. PRAM-varianten van klassieke s
show all

Algoritmen en Datastructuren III Partim: Parallelle algoritmen - caagt

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?