Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

4.2 Auswerten der Anfragen 4.2 Auswerten der Anfragen Abb. 4.2 zeigt den Datenfluss der ersten Anwendung. Nach dem Parsen werden aus den Tripelmustern die MapReduce Jobs erzeugt. Anschließend wird die Sequenz dieser Jobs ausgeführt. Anfrage ARQ Parser ● Parsen der Anfrage ● Aufteilung in Tripelmuster Tripelmuster JobCreator JoinConfigHelper ● Erzeugung der MapReduce-Jobs ● Festlegung von Spaltenfamilien und Prädikaten in der Konfiguration MapReduce-Jobs mit Konfigurationen ● Ausführung der Jobs auf dem Cluster ● Zugriff auf Cassandra ● Verbund erfolgt als Map-Side-Join ● Ausgabe auf HDFS Ergebnis Abbildung 4.2: Übersicht des Programmverlaufs 4.2.1 Generieren der Jobs Die Anfrage wird zuerst an den ARQ-Parser des Jena-Frameworks 3 übergeben und wird in Tripelmuster aufgeteilt. Diese werden an die Klasse JobCreator übergeben. 3 http://jena.sourceforge.net/ARQ/ 27
4.2 Auswerten der Anfragen Die Klasse JobCreator erstellt anhand dieser Eingabe eine Liste von MapReduce- Jobs mit jeweils eigener Konfiguration. Zum Erstellen der Konfiguration wird die Klasse JoinConfigHelper verwendet, die Funktionen zum Lesen und Schreiben der Programm-Parameter bereitstellt. Für jeden Job wird nun die Eingabe, Ausgabe, Mapper-Klasse, sowie weitere Parameter, die vom Hector Client benötigt werden, festgelegt. Die Ausgabe ist eine Liste ausführbarer MapReduce-Jobs, die einen im Folgenden beschriebenen Map-Side-Join durchführen. 4.2.2 Map-Side Join Der Verbund (engl. join), der zur Auswertung mehrerer Tripelmuster notwendig ist, wurde wie in Kap. 3.2 beschrieben als Map-Side-Join implementiert. Die Daten werden beim ersten Verbund per ColumnFamilyInputFormat für Hadoop in die Mapper geladen. In jedem weiteren Verbund wird das FileInputFormat verwendet, um die Zwischenergebnisse vom HDFS zu laden. Werden die Daten vom HDFS geladen, liegen sie bereits als Mapping vor. Werden sie aus Cassandra geladen, muss daraus zunächst ein Mapping erzeugt werden. Zu jedem Verbund gibt es ein linkes und ein rechtes Tripelmuster. Aus jedem Tripelmuster der Anfrage ergibt sich gemäß der vorgestellten Speicherstrategie eine Spaltenfamilie. Außerdem werden, je nach Anzahl der Variablen, Namen für Zeilenschlüssel, Super- und Subspalten anhand der Konfiguration festgelegt. Jeder Mapper lädt die Daten, die lokal auf seinem Cassandra-Knoten zur Verfügung stehen. Da jeweils zwei Mapper-Klassen, für das Laden der Daten aus Cassandra oder dem HDFS, benötigt werden, wurde die Durchführung des Verbunds ausgelagert. Die Berechnung des Verbunds erfolgt stattdessen mit der Klasse JoinPerformer, um redundanten Code zu vermeiden. 4.2.3 Alternativen zum Map-Side Join Alternativ zum vorgestellten Map-Side Join gibt es Map-Side-Merge-Joins und Reduce- Side-Joins. Im Folgenden werden die Funktionsweisen kurz vorgestellt und begründet, warum eine Implementierung dieser Verbünde nicht möglich war. Ein Reduce-Side-Join markiert die Daten während der Map-Phase, sodass in der Reduce-Phase alle Daten so gruppiert sind, dass ein Reducer alle Datensätze hat, die verbunden werden müssen. Um die Daten zu laden, wird die MultipleInputs-Klasse verwendet, die es erlaubt verschiedene Datenquellen als Input festzulegen und ihnen 28
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29: 4.1 Einlesen der Daten Abbildung 4.
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?