Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
6 Verwandte Arbeiten<br />
In diesem Kapitel werden Arbeiten <strong>und</strong> Projekte, die <strong>mit</strong> dieser Arbeit verwandt<br />
sind vorgestellt. Dabei werden die Gemeinsamkeiten <strong>und</strong> Unterschiede aufgezeigt.<br />
Das Heart-Projekt 1<br />
(Highly Extensible & Accumulative <strong>RDF</strong> Table) kombiniert<br />
Apache Hadoop <strong>und</strong> die NoSQL-Datenbank HBase zur effizienten Speicherung <strong>und</strong><br />
<strong>Auswertung</strong> <strong>von</strong> <strong>RDF</strong>-Daten. Ähnlich zur der in dieser Arbeit vorgestellten Implementierung<br />
werden die Daten in HBase so abgespeichert, dass Verbünde berechnet<br />
werden können. Das Projekt befindet sich im Anfangsstadium <strong>und</strong> scheint noch keine<br />
Implementierung aufzuweisen.<br />
Die Kombination aus Hadoop <strong>und</strong> HBase lässt sich ebenfalls in [2] wiederfinden.<br />
Die Autoren Sun <strong>und</strong> Jin präsentieren einen skalierbaren <strong>RDF</strong>-Store, der HBase zur<br />
Speicherung der Daten verwendet. Die Daten werden ähnlich zu der in Kap. 3.1 vorgestellten<br />
Speicherstrategie mehrfach abgespeichert, um eine effiziente <strong>Auswertung</strong><br />
aller Tripelmuster zu gewährleisten. Außerdem wird ein Greeedy-Algorithmus zur<br />
<strong>Auswertung</strong> <strong>von</strong> SPARQL Basic Graph Pattern <strong>mit</strong> Hadoop vorgestellt.<br />
Der in [14] beschriebene <strong>RDF</strong>-Triple-Store Cumulus<strong>RDF</strong> speichert <strong>RDF</strong>-Daten in<br />
Cassandra, um effizientes Nachschlagen einzelner Tripelmuster zu gewährleisten . Eine<br />
<strong>Auswertung</strong> komplexerer Anfragen, wie etwa SPARQL-BGP-Anfragen, ist jedoch<br />
nicht möglich. Die Speicherstrategie <strong>von</strong> Cumulus<strong>RDF</strong> wurde in der vorgestellten<br />
Implementierung übernommen <strong>und</strong> zur <strong>Auswertung</strong> angepasst. Eine konkrete Implementierung<br />
des beschrieben <strong>RDF</strong>-Triple-Stores ist vorhanden <strong>und</strong> frei zugänglich 2 .<br />
Ein weiteres Projekt, das sich <strong>mit</strong> der Speicherung <strong>von</strong> <strong>RDF</strong>-Daten <strong>mit</strong> Cassandra<br />
befasst, ist rdf-cassandra 3 . Das Projekt stellt einen StorageAdapter für die Programmiersprache<br />
Ruby bereit. Die Daten werden nur einfach abgespeichert <strong>und</strong> entsprechen<br />
demnach ungefähr dem Schema der Spaltenfamilie „SPO“ in der vorliegenden<br />
1 http://wiki.apache.org/incubator/HeartProposal<br />
2 http://code.google.com/p/cumulusrdf/<br />
3 https://github.com/bendiken/rdf-cassandra<br />
43