Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

3.1 Speicherstrategie Prädikat ein Index gespeichert werden, der alle Keyspace-Namen enthält. Mit dessen Hilfe würde dann über alle Keyspaces iteriert. Bei der Implementierung wurde festgestellt, dass die Verteilung der Daten auf die Knoten im Cluster mit Hadoop nicht optimal ist. Die Rechenlast wird nicht ausgeglichen verteilt, sondern wird nur einem Knoten zugewiesen. Dies liegt an den ausgewählten Spaltenfamilien, sowie dem frühzeitigen Festlegen des Zeilenschlüssels. Daher werden für den ersten Verbund, bei dem die Daten von Hadoop geladen werden, andere Spaltenfamilien verwendet. Details zur Optimierung werden in Kap. 4.2.4 erläutert. 21
3.2 Auswertungsstrategie 3.2 Auswertungsstrategie Die vorgestellte Implementierung unterstützt Anfragen, die aus Basic Graph Patterns mit bis zu 2 Variablen pro Tripelmuster bestehen. Zur Auswertung wird für jedes konsekutive Paar an Tripelmustern ein Verbund (engl. join) über die gemeinsamen Variablen dieser Tripel durchgeführt. Pro Verbund wird ein MapReduce-Job generiert, der die Daten aus Cassandra lädt und das Zwischen- oder Endergebnis auf das HDFS schreibt. Für n Tripel sind also n-1 MapReduce-Jobs nötig, um die Anfrage zu beantworten. Abb. 3.2 zeigt den Datenfluss der MapReduce-Jobs. Der erste der insgesamt n-1 Join- Jobs lädt den ersten und zweiten Datensatz aus Cassandra. Die Zwischenergebnisse werden auf das HDFS in einem temporären Ordner gespeichert. Der zweite Job erhält die Zwischenergebnisse vom HDFS, sowie den zweiten Datensatz aus Cassandra. Der Job speichert die Zwischenergebnisse auf das HDFS. Dieser Vorgang wiederholt sich bis zum letzten Job, der das Endergebnis auf das HDFS schreibt. Das Endergbnis enthält alle resultierenden Abbildungen der Variablen auf einen der Anfrage entsprechenden Wert. Cassandra 1.Input laden 2.Input laden 2.Input Join 1 Join 2 Join n-1 ... Zwischenergebnisse laden Zwischenergebnisse speichern Zwischenergebnisse speichern Zwischenergebnisse laden Endergebnis speichern HDFS Abbildung 3.2: Job-Sequenz mit Datenfluss 22
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?