02.11.2013 Aufrufe

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

7 Zusammenfassung<br />

Die vorliegende Arbeit untersuchte, ob eine effiziente Speicherung <strong>und</strong> <strong>Auswertung</strong><br />

<strong>von</strong> <strong>RDF</strong>-Daten <strong>mit</strong> der Kombination aus dem quelloffenen Apache Hadoop Framework<br />

<strong>und</strong> <strong>und</strong> der NoSQL-Datenbank Apache Cassandra möglich ist. Das hierfür<br />

entwickelte System ermöglicht die Speicherung <strong>von</strong> <strong>RDF</strong>-Daten, sowie die <strong>Auswertung</strong><br />

<strong>von</strong> SPARQL Basic Graph Pattern-Anfragen auf diesen Daten.<br />

Um einen schnellen Zugriff auf die gewünschten <strong>RDF</strong>-Daten zu erhalten, werden die<br />

<strong>RDF</strong>-Daten dreimal in verschiedene Spaltenfamilien abgespeichert. Bei der <strong>Auswertung</strong><br />

wird die Anfrage zunächst in Tripelmuster unterteilt. Anschließend wird eine<br />

Sequenz <strong>von</strong> <strong>MapReduce</strong>-Jobs erzeugt, die Verbünde zwischen den Tripelmustern<br />

berechnen. Der Verb<strong>und</strong> selbst ist ein Map-Side-Join, bei dem die Daten während<br />

der Map-Phase für jedes Tripel dynamisch geladen <strong>und</strong> verb<strong>und</strong>en werden. Die Zwischenergebnisse<br />

<strong>und</strong> das Endergebnis werden auf das verteilte Dateisystem HDFS<br />

geschrieben.<br />

Die Evaluation der Anwendung <strong>mit</strong> dem SPARQL-Benchmark SP 2 Bench zeigte einerseits<br />

vielversprechende Laufzeiten der Anwendung auf größeren Datensätze, andererseits<br />

Probleme bei der Ausführung auf dem Cluster.<br />

Zusammenfassend kann die Implementierung als „Proof-of-Concept“ betrachtet werden,<br />

dessen Erkenntnisse bei der Implementierung als Gr<strong>und</strong>lage weiterer Projekte<br />

in diesem Bereich dienen können.<br />

7.1 Ausblick<br />

Über die Implementierung der Anwendung <strong>und</strong> der vorliegenden Arbeit hinausgehend<br />

sollten verschiedene Einstellungen bei der Konfiguration <strong>von</strong> Hadoop <strong>und</strong> Cassandra<br />

betrachtet werden. Insbesondere der parallele Einsatz im Rechner-Cluster<br />

45

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!