Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

4 Implementierung und Optimierungen Insgesamt wurden zwei Anwendungen implementiert. Die erste Anwendung dient zum Speichern von RDF-Daten in Cassandra. Sie erhält eine im N3-Format vorliegende RDF-Datei als Eingabe und speichert die Daten in die drei Spaltenfamilien „SPO“, „POS“ und „OSP“ (siehe Kap. 3.1). Der Benutzer kann den Keyspace festlegen, sowie die Anzahl der Tripel, die pro Batch in die Datenbank geschrieben werden, um die Schreibgeschwindigkeit zu regulieren. Die Anwendung wird auf einem Knoten des Clusters geladen und dort ausgeführt. Die zweite Anwendung, die der Auswertung der SPARQL-BGP Anfragen dient, wird mit Hadoop gestartet und läuft verteilt auf dem Cluster. Als Eingabe erhält das Programm die Anfrage, sowie den Namen des Keyspace, auf dem die Auswertung durchgeführt werden soll. Die Ausgabe erfolgt auf dem HDFS. Abb. 4.1 zeigt die Systemarchitektur. Links ist die Anwendung zur Auswertung der SPARQL-BGP- Anfragen zu sehen, während rechts das Einleseprogramm dargestellt wird. Beide Anwendungen wurden in der Programmiersprache Java implementiert. Der Hector Client 1 ermöglicht den Zugriff auf Cassandra in Java-Programmen und wird in beiden Anwendungen verwendet. Das selbsternannte Ziel von Hector ist es, dem Entwickler Funktionen zur Verfügung zu stellen, um einfacher auf Cassandra zuzugreifen. Dabei greift der Client selbst per Thrift-API auf Cassandra zu und ist somit ein Wrapper dieser Funktionen. Die MapReduce-Jobs greifen per ColumnFamilyInputFormat und Hector-Client auf die Datenbank zu. Das ColumnFamilyInputFormat wird vom Cassandra-Projekt zur Verfügung gestellt, um Daten aus Cassandra mit MapReduce zu verarbeiten. 1 http://prettyprint.me/2010/02/23/hector-a-java-cassandra-client/ 25
4.1 Einlesen der Daten Abbildung 4.1: Systemarchitektur der Implementierung 4.1 Einlesen der Daten Die Daten liegen im N3-Format auf dem Server vor. Zum Einlesen wurde ein Programm implementiert, das die Daten mit dem Parser des Sesame-Frameworks 2 in Aussagen unterteilt. Die Präfixe werden vom Parser automatisch erweitert, sodass die URIs in voller Länge abgespeichert werden. Zum Schreiben der Daten in die Cassandra-Datenbank wird der Hector-Client eingesetzt. Die Laufzeit wird verbessert, wenn die Funktion addInsertion statt insert verwendet wird. Auf diese Weise werden die Daten zunächst als sogenannter Batch gesammelt und dann gleichzeitig in die Datenbank geladen. Batchgrößen zwischen 500 und 2000 lieferten gute Ergebnisse. Die Laufzeit verbessert sich bei größeren Batchgrößen wenig, aber das Risiko einer OutOfMemory-Exception steigt, da die Daten auf den Heap der Java Virtual Machine zwischengespeichert werden. 2 http://www.openrdf.org/ 26
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27: 3.2 Auswertungsstrategie bilden jew
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?