Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

7 Zusammenfassung Die vorliegende Arbeit untersuchte, ob eine effiziente Speicherung und Auswertung von RDF-Daten mit der Kombination aus dem quelloffenen Apache Hadoop Framework und und der NoSQL-Datenbank Apache Cassandra möglich ist. Das hierfür entwickelte System ermöglicht die Speicherung von RDF-Daten, sowie die Auswertung von SPARQL Basic Graph Pattern-Anfragen auf diesen Daten. Um einen schnellen Zugriff auf die gewünschten RDF-Daten zu erhalten, werden die RDF-Daten dreimal in verschiedene Spaltenfamilien abgespeichert. Bei der Auswertung wird die Anfrage zunächst in Tripelmuster unterteilt. Anschließend wird eine Sequenz von MapReduce-Jobs erzeugt, die Verbünde zwischen den Tripelmustern berechnen. Der Verbund selbst ist ein Map-Side-Join, bei dem die Daten während der Map-Phase für jedes Tripel dynamisch geladen und verbunden werden. Die Zwischenergebnisse und das Endergebnis werden auf das verteilte Dateisystem HDFS geschrieben. Die Evaluation der Anwendung mit dem SPARQL-Benchmark SP 2 Bench zeigte einerseits vielversprechende Laufzeiten der Anwendung auf größeren Datensätze, andererseits Probleme bei der Ausführung auf dem Cluster. Zusammenfassend kann die Implementierung als „Proof-of-Concept“ betrachtet werden, dessen Erkenntnisse bei der Implementierung als Grundlage weiterer Projekte in diesem Bereich dienen können. 7.1 Ausblick Über die Implementierung der Anwendung und der vorliegenden Arbeit hinausgehend sollten verschiedene Einstellungen bei der Konfiguration von Hadoop und Cassandra betrachtet werden. Insbesondere der parallele Einsatz im Rechner-Cluster 45
7.1 Ausblick kann weiter untersucht und dokumentiert werden. Ebenfalls ist es vorstellbar verschiedene Joins zu implementieren und deren Effizienz zu untersuchen, was aufgrund der aufgeführten Limitierung seitens des ColumnFamilyInputFormat noch nicht möglich ist. Die Implementierung unterstützt nur einen Teil des SPARQL- Standards und könnte zur Unterstützung des gesamten SPARQL-Standards erweitert werden. Außerdem hat die Reihenfolge der Tripelmuster einen großen Einfluss auf die Laufzeit der Verbünde und bietet somit Möglichkeiten der Optimierung. Abschließend könnte das Gesamtsystem mit einem ähnlichen System, z.B. auf HBase aufbauend, verglichen werden, um die Gesamtleistung einordnen zu können. 46
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47: Verwandte Arbeiten Implementierung.
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?