Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

4.2 Auswerten der Anfragen jeweils einen eigenen Mapper zuzuweisen. Dies funktioniert problemlos, wenn die Daten vom HDFS und Cassandra geladen werden sollen, was ab dem zweiten Join der Fall ist. Der erste Join, bei dem aus zwei Spaltenfamilien die Daten geladen werden, bereitet jedoch Probleme. Die Ursache befindet sich hauptsächlich in den Klassen ColumnFamilyInputformat und JoinConfigHelper. Diese Klassen sind so ausgelegt, dass nur eine Spaltenfamilie und SlicePredicate pro Job ausgewählt werden kann. Es wurde versucht die Klassen um diese Funktionalität zu erweitern. Dies gelang auch für kleinere Inputdateien. Ab einer bestimmten Größe der Input-Dateien schlugen die Jobs mit einer OutOfMemory-Ausnahme fehl. Eine Implementierung gestaltete sich somit schwierig und konnte aus Zeitgründen nicht fertiggestellt werden, da tiefgreifendere Änderungen am bereitgestellten Quellcode nötig gewesen wären. Ein Map-Side-Merge-Join hat viele Gemeinsamkeiten mit dem implementierten Map- Side-Join. Bei einem solchen Verbund wird ebenfalls auf die Reduce-Phase verzichtet. Allerdings wird versucht durch gezieltes Partitionieren und Sortieren der Daten den Verbund schon beim Laden der Daten in den Mapper zu sortieren. Es gibt verschiedene Vorraussetzungen für einen Map-Side-Merge-Join [15]: 1. Beide Datensätze müssen identisch partitioniert und sortiert sein. Ist dies der Fall muss der Verbund der ersten Partition des ersten Datensatzes mit der ersten Partition des zweiten Datensatzes berechnet werden. Anschließend wird der Verbund der weiteren Partitionen berechnet bis schließlich der gesamte Verbund berechnet worden ist. 2. Der Typ der Input- und Output-Schlüssel muss identisch sein, da sonst die Daten nicht identisch partitioniert würden. Das Hadoop-Framework stellt zu diesem Zweck die Klasse CompositeInputformat bereit. Zunächst trat das gleiche Problem wie beim Reduce-Side-Join auf, da die Daten aus mehreren Spaltenfamilien geladen werden müssen. Ein weiteres Problem betraf die Ordnung und Partitionierung. Datensätze werden in Cassandra prinzipiell so geordnet, wie sie geschrieben werden. In der Regel erfolgt also keine Ordnung der Schlüssel. Verwendet man den OrderPreservingPartitioner, ist zwar eine Ordnung gegeben, die Daten werden aber dann nicht mehr gleichmäßig im Cluster verteilt. Außerdem werden nicht alle Datensätze über den Zeilenschlüssel verbunden. Insgesamt wären sowohl tiefgreifendere Änderungen am Quelltext vorzunehmen, als auch das Speicherverfahren soweit abzuändern, damit die Daten richtig partitioniert würden. 29
4.2 Auswerten der Anfragen 4.2.4 Optimierung für Hadoop Für den ersten Verbund wird das ColumnFamilyInputFormat für Hadoop, das von Cassandra zur Verfügung gestellt wird, verwendet. Ist der Cluster richtig konfiguriert, greift der Mapper auf die Daten zu, die lokal auf seinem Knoten in Cassandra gespeichert werden. Folglich wird Lokalität ausgenutzt und die Daten können verteilt ausgewertet werden. Es wird am folgenden Beispiel (Listing 4.1) erläutert, warum das verwendete Nachschlageverfahren für den ersten Verbund nicht sinnvoll ist: ex : Thomas ex : userKnows ? person Listing 4.1: Tripelmuster einer SPARQL-BGP-Anfrage Nach dem oben beschriebenen Nachschlageverfahren sollte die ColumnFamily „SPO“ verwendet werden. Zeilenschlüssel und Spaltenname sind bekannt und es muss nur über alle Subspalten itereriert werden, die mit Daten, die aus einem weiteren Tripel gewonnen werden, verbunden werden. Es ergibt sich jedoch ein entscheidender Nachteil. Die Daten werden auf die Knoten per Random-Partitioner verteilt, indem der Zeilenschlüssel verwendet wird. Eine Zeile wird komplett auf einem Knoten abgespeichert. Je nach Replikationsfaktor gibt es weitere Kopien, die aber bei der Verwendung des ColumnFamilyInputformat nicht ausreichend verwendet werden. Da der Schlüssel im Beispiel mit “ex:Thomas” festgelegt wurde, werden die Daten nur auf einem Knoten lokal verfügbar sein und auch nur hier verarbeitet. Dies hat zur Folge, dass nur ein Knoten den Verbund ausführt, während die anderen Knoten schnell ihre Map-Tasks abarbeiten und untätig für die weitere Job-Ausführung bleiben. Abbildung 4.3: Zustand der Mapper ohne Optimierung (Bildschirmaufnahme) 30
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31: 4.2 Auswerten der Anfragen Die Klas
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?