Parallele Algorithmen - Ra.informatik.tu-darmstadt.de - Technische ...

Weitere Magazine

Empfehlungen

Info

Prozessoren in zwei Schritten erledigt werden (ein Schritt den Wert lesen und ein Schritt den Wert in die neue Variable schreiben). Die Zuweisung des vierten Schritts ist mit n Prozessoren in O(1) möglich, allerdings muss die Anweisung log(n) mal wiederholt werden, was sich auch mit mehr Prozessoren nicht vermeiden lässt. Der Zeitaufwand des vierten Schritts ist also O(log(n)) und kann nicht optimiert werden. Das bedeutet, dass auch die Laufzeit des Gesamtalgorithmus nicht mehr verbessert werden kann. Der fünfte Schritt ist wieder mit n Prozessoren in O(1) realisierbar. Da alle Schritte in maximal O(log(n)) ausführbar sind und der vierte Schritt minimal O(log(n)) Schritte benötigt, ist anschaulich dargelegt, weshalb der Algorithmus eine Laufzeitkomplexität von O(log(n) 2 ) hat. Die Anzahl der Prozessoren lässt sich noch auf O( n2 log 2 n) ) reduzieren, wie in [CLC82] dargestellt ist. 3.1.3.3. Modellierung auf dem GCA Da der Algorithmus von Hirschberg schon so konstruiert ist, dass er die parallelen Möglichkeiten der P-RAM ausnutzt, ist es nicht mehr nötig, zu überprüfen, an welchen Stellen er sich parallelisieren lässt. Die eigentliche Aufgabe bei diesem Algorithmus liegt nunmehr darin, zu überprüfen, ob alle parallelen Möglichkeiten der P-RAM, die hier genutzt werden, sich auch auf dem GCA nutzen lassen. Allerdings wird hier zunächst einmal ein Ansatz der Modellierung verfolgt, der verständlich ist, auch wenn dadurch die Laufzeitkomplexität schlechter wird. Nachdem die Modellierung veranschaulicht wurde, wird darauf eingegangen, wie die Laufzeit optimiert werden kann. Auf die erste Abweichung trifft man bei den Vektoren T,B und C. Diese werden im Algorithmus von Hirschberg als globale Variablen genutzt, auf die alle Prozessoren sowohl lesend als auch schreibend zugreifen dürfen. Da der GCA über keinen globalen Speicher verfügt und auch auf die Zellinhalte fremder Zellen nicht schreibend zugegriffen werden darf, ist das ein Problem. Diese Problematik lässt sich mit dem GCA jedoch elegant umgehen, indem man die Vektoren auf die Prozessoren aufteilt. Mit diesem Lösungsansatz hält dann jede Zelle i die Werte T[i],B[i] und C[i]. Da jede Zelle i nur auf den i-ten Wert schreibend zugreift, ist damit bereits das Problem des Schreibens auf Zellinhalte fremder Zellen gelöst. Ein Nachteil dieses Lösungansatzes ist allerdings, dass der Kommunikationsaufwand recht hoch wird. Allein im vierten Schritt ist es sehr wahrscheinlich, dass auf den Zellinhalt anderer Zellen zugegriffen werden muss. Der Kommunikationsaufwand ist dabei weniger das Problem, als vielmehr die Tatsache, dass viele Verbindungen am Anfang hergestellt werden müssen, die im weiteren Verlauf eventuell ungenutzt bleiben. Um auch diese Problematik zu umgehen, wird eine Zelle als Speicherzelle ausgezeichnet, auf die alle Zellen lesend zugreifen. Damit diese Zelle aber immer die korrekten Variableninhalte bereit hält, muss sie am Ende jedes Schritts bei jeder Zelle den aktuellen Stand der entsprechenden Variable abfragen. Das heißt, die Speicherzelle fragt nach 46
Abbildung 3.16.: Schematischer Aufbau des GCA, welcher den Hirschberg-Algorithmus bearbeitet. Es existieren sowohl von der Speicherzelle“ zu jeder Rechenzelle“ Verbindungen als auch von jeder Rechenzelle“ zu der ” ” ” ” Speicherzelle“. Jede Rechenzelle“ beinhaltet neben den Variablen T, ” B und C auch noch eine Zeile der Matrix. Schritt eins bei allen Zellen an, welchen Wert sie in ihrer Variable T halten (da nur T geändert wurde, ist es nicht nötig, die anderen Variablen abzufragen). Die Antwort der Zelle i wird dann an die i-te Stelle des Vektors T der Speicherzelle geschrieben. In jedem Schritt des Algorithmus sind also k+1 Takte nötig; k Takte um die Aufgabe des Schritts zu lösen und ein Takt, um die Variablen in die Speicherzelle zu übertragen. Zusätzlich muss jede Zelle, außer der Speicherzelle, noch eine Zeile der Matrix halten, so dass Zelle i die i-te Zeile der Matrix bearbeitet. Der Aufbau wird in Abbildung 3.16 noch einmal veranschaulicht. Nachdem der Aufbau der Zellen festgelegt wurde, muss überlegt werden, wie die einzelnen Schritte des Algorithmus damit abgearbeitet werden können. Hier wird o. B. d. A. davon ausgegangen, dass es kein Problem ist, den Ablauf log(n)-mal zu wiederholen, d.h. wenn es gelingt, die einzelnen Schritte auf dem GCA lauffähig zu modellieren, wird der gesamte Algorithmus auf dem GCA lauffähig sein. • Erster Schritt: Im ersten Schritt muss für jede Zelle jeweils der Nachbar mit dem kleinsten Index gesucht werden. Dies geschieht einfach, indem jede Zelle die Matrixzeile, die sie beinhaltet, von vorne durchläuft und bei der ersten gefundenen Eins stoppt. Nun muss noch gesucht werden, ob dieser Nachbar j gewählt werden darf. Dazu wird eine Anfrage an die Speicherzelle gestellt, wobei der Eintrag C(j) angefragt wird. Daraufhin testet die Zelle, ob der zurückgelieferte Wert gleich dem Wert in der eigenen C Variable ist. Ist dies der Fall, so muss die Zeile so lange weiter durchlaufen werden, bis ein j gefunden wird, das beide Bedingungen erfüllt. Kommt die Zelle an das Ende der Zeile ohne ein passendes j gefunden zu haben, wird der Wert der C Variable in T gespeichert. 47
Seite 1 und 2: Globaler Zellularautomat: Parallele
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 10
Seite 5 und 6: C.4. Modifizierter Hirschberg-Algor
Seite 7 und 8: 3.30. Beispiel des parallel ablaufe
Seite 9 und 10: Tabellenverzeichnis 3.1. Laufzeit d
Seite 11 und 12: Natürlich kann man die Algorithmen
Seite 13 und 14: 2. Zellularautomaten und andere Mod
Seite 15 und 16: Aufgrund solcher Schreibkonflikte k
Seite 17 und 18: 2.2.1.3. Knuths Linking Automat Die
Seite 19 und 20: Im Folgenden wird zuerst der klassi
Seite 21 und 22: vorstellen, dass jede Zelle über e
Seite 23 und 24: 2.3.2.2. Das Labeled Link Modell In
Seite 25 und 26: Da der GCA dynamisch ist, können s
Seite 27 und 28: 3. Die Modellierung von Graphenalgo
Seite 29 und 30: welcher rein die transitive Hülle
Seite 31 und 32: zum Transitknoten repräsentiert, u
Seite 33 und 34: In Abbildung 3.4 entspricht der Gra
Seite 35 und 36: Da sowohl Warshall-Algorithmus als
Seite 37 und 38: Um diese Aufgabe zu erfüllen, muss
Seite 39 und 40: Abbildung 3.7.: Ergebnis nach dem e
Seite 41 und 42: Abbildung 3.11.: Ergebnis nach dem
Seite 43 und 44: 1(a) bis 1(c) aufgeteilt und für j
Seite 45: Abbildung 3.15.: Die Balanced-Binar
Seite 49 und 50: Abbildung 3.17.: Erster Ansatz zur
Seite 51 und 52: Abbildung 3.19.: Realisierung durch
Seite 53 und 54: abhängig. Die einzige Verbindung d
Seite 55 und 56: dass die Kanten nicht parallel übe
Seite 57 und 58: Abbildung 3.23.: Der kleinste Wert
Seite 59 und 60: Abbildung 3.26.: Die Heap-Zellen de
Seite 61 und 62: Abbildung 3.30.: Die Wurzel wurde v
Seite 63 und 64: Abbildung 3.34.: Jede Zelle repräs
Seite 65 und 66: 3.2.1.3. Der Kruskal auf dem GCA Di
Seite 67 und 68: Abbildung 3.36.: Die rechnende Zell
Seite 69 und 70: geschieht noch nicht nach der minim
Seite 71 und 72: Abbildung 3.38.: Dieser ungerichtet
Seite 73 und 74: aufspannende Baum gefunden wurde. D
Seite 75 und 76: Bei beiden Algorithmen ist die Anga
Seite 77 und 78: Knoten aus V 1 werden in einer geme
Seite 79 und 80: Kanten mit der Beschriftung 0 sind
Seite 81 und 82: Deswegen wird hier festgelegt, dass
Seite 83 und 84: Abbildung 3.49.: Die Kanten wurden
Seite 85 und 86: Abbildung 3.51.: Nachdem die Doubli
Seite 87 und 88: Zustand kodiert. Die Kanten-Zellen
Seite 89 und 90: Algorithmus Sequentiell Zeit P-RAM
Seite 91 und 92: 4. Die Modellierung von Krypto-Algo
Seite 93 und 94: 1 mod b = ggT(a,b) mod b = (a × x
Seite 95 und 96: Für die Anwendung des Chinesischen
Seite 97 und 98:
Abbildung 4.3.: Alle Zellen haben e
Seite 99 und 100:
5. Implementierungseigenheiten Die
Seite 101 und 102:
6. Zusammenfassung und Ausblick In
Seite 103 und 104:
A. Traversierungsstrategien Im folg
Seite 105 und 106:
Abbildung A.4.: Die vierte Dame wur
Seite 107 und 108:
Abbildung A.8.: Die Startinitialisi
Seite 109 und 110:
B. Parallele Algorithmische Technik
Seite 111 und 112:
Abbildung B.2.: Jeder Prozessor rep
Seite 113 und 114:
67 void main () { 68 struct handle
Seite 115 und 116:
114 int complete [N]={0 ,0 ,0 ,0 ,0
Seite 117 und 118:
141 number++; 142 in = 1; 143 144 /
Seite 119 und 120:
146 /∗ Abschliessen der Zeitmessu
Seite 121 und 122:
140 if (( actual −>key . points [
Seite 123 und 124:
315 struct list element ∗help ; 3
Seite 125 und 126:
495 EDGES= Euler colour (EDGES) ; 4
Seite 127 und 128:
Literaturverzeichnis [ARS71] Alvy R
Seite 129:
[Sch01] [Sig89] Schöning, Uwe: The
Alle anzeigen

Parallele Algorithmen - Ra.informatik.tu-darmstadt.de - Technische ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?