Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

4.2 Auswerten der Anfragen Abb. 4.3 veranschaulicht diesen Sachverhalt in einem Cluster mit 9 Knoten. 8 der 9 Knoten sind nach wenigen Sekunden fertig, während der letzte Knoten sehr lange rechnet. Der Kreis in der Grafik verdeutlicht, dass der 9. Map-Task noch nicht fertiggestellt worden ist. Bei der Auswertung der Anfrage Q3A auf 25 Millionen Tripel dauerte der Verbund 39 Minuten, da eine Teilung des Rechenaufwands nicht stattfand. Beim Zugriff auf Cassandra wird die Spaltenfamilie so gewählt, dass der Zeilenschlüssel festgelegt werden kann. Ändert man das Verfahren so ab, dass der Zeilenschlüssel nicht festgelegt wird und somit eine andere Spaltenfamilie festgelegt wird, werden alle Knoten am Verbund beteiligt. Bei dem obigen Beispiel wird auf die Spaltenfamilie „OSP“ zugegriffen. Es wird ein SlicePredicate mit dem Namen „ex:Thomas“ festgelegt und außerdem ein Subspaltenname „ex:userknows“. Es wird auf allen Knoten über alle Objekte iteriert. Abbildung 4.4: Zustand der Mapper nach der Optimierung (Bildschirmaufnahme) Abb. 4.4 zeigt den Zustand der Mapper wenige Sekunden nach Programmstart und illustriert die Optimierung. Alle Knoten führen Map-Tasks aus, deren Anzahl kann außerdem vom ColumnFamilyInputFormat erhöht werden (von 9 auf 117). Die Ausführung verbesserte sich durch diese Optimierung bei 25 Millionen Tripeln von 39 auf 2 Minuten. Für die acht möglichen Tripelmuster ergeben sich die Spaltenfamilien, die in Tab. 4.1 aufgeführt sind. Enthält ein Tripelmuster zwei Variablen, werden diese auf den Zeilenschlüssel und Subspaltenname abgebildet, um ein Slicepredicate definieren zu können. Sonst würden alle Subspalten geladen werden und anschließend gefiltert. Dies liegt daran, dass es kein SubSlicepredicate gibt. Es ist daher unvorteilhafter einen Zeilenschlüssel und 31
4.2 Auswerten der Anfragen Triple Pattern Index (s, p, o) SPO, POS, OSP (s, p, ?) OSP (?, p, o) SPO (s, ?, o) POS (?, p, ?) SPO (s, ?, ?) OSP (?, ?, o) POS (?, ?, ?) nicht unterstützt Tabelle 4.1: Tripelmuster mit zu verwendender Spaltenfamilie für ColumnFamily- Inputformat beim ersten Verbund Subspaltennamen zu definieren und den Superspaltennamen undefiniert zu lassen. Da die Zwischenergebnisse vom HDFS gelesen werden, sodass eine gute Skalierung gegeben ist, gilt diese Optimierung nur für den ersten Verbund. Alle weiteren Zugriffe auf Cassandra via Hector Client erfolgen nach dem Schema, das in [14] vorgestellt wird. 32
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?