Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

6 Verwandte Arbeiten In diesem Kapitel werden Arbeiten und Projekte, die mit dieser Arbeit verwandt sind vorgestellt. Dabei werden die Gemeinsamkeiten und Unterschiede aufgezeigt. Das Heart-Projekt 1 (Highly Extensible & Accumulative RDF Table) kombiniert Apache Hadoop und die NoSQL-Datenbank HBase zur effizienten Speicherung und Auswertung von RDF-Daten. Ähnlich zur der in dieser Arbeit vorgestellten Implementierung werden die Daten in HBase so abgespeichert, dass Verbünde berechnet werden können. Das Projekt befindet sich im Anfangsstadium und scheint noch keine Implementierung aufzuweisen. Die Kombination aus Hadoop und HBase lässt sich ebenfalls in [2] wiederfinden. Die Autoren Sun und Jin präsentieren einen skalierbaren RDF-Store, der HBase zur Speicherung der Daten verwendet. Die Daten werden ähnlich zu der in Kap. 3.1 vorgestellten Speicherstrategie mehrfach abgespeichert, um eine effiziente Auswertung aller Tripelmuster zu gewährleisten. Außerdem wird ein Greeedy-Algorithmus zur Auswertung von SPARQL Basic Graph Pattern mit Hadoop vorgestellt. Der in [14] beschriebene RDF-Triple-Store CumulusRDF speichert RDF-Daten in Cassandra, um effizientes Nachschlagen einzelner Tripelmuster zu gewährleisten . Eine Auswertung komplexerer Anfragen, wie etwa SPARQL-BGP-Anfragen, ist jedoch nicht möglich. Die Speicherstrategie von CumulusRDF wurde in der vorgestellten Implementierung übernommen und zur Auswertung angepasst. Eine konkrete Implementierung des beschrieben RDF-Triple-Stores ist vorhanden und frei zugänglich 2 . Ein weiteres Projekt, das sich mit der Speicherung von RDF-Daten mit Cassandra befasst, ist rdf-cassandra 3 . Das Projekt stellt einen StorageAdapter für die Programmiersprache Ruby bereit. Die Daten werden nur einfach abgespeichert und entsprechen demnach ungefähr dem Schema der Spaltenfamilie „SPO“ in der vorliegenden 1 http://wiki.apache.org/incubator/HeartProposal 2 http://code.google.com/p/cumulusrdf/ 3 https://github.com/bendiken/rdf-cassandra 43
Verwandte Arbeiten Implementierung. Die von dem Unternehmen Datastax entwickelte Hadoop-Distribution Brisk 4 kombiniert Hadoop und Cassandra. Es handelt sich dabei zwar nicht um einen RDF- Triple-Store, jedoch wird auch hier das Potenzial der Kombination beider Technologien deutlich. Das HDFS wird durch ein auf Cassandra basierendes Dateisystem, CassandraFS, ersetzt. Die Distribution stellt außerdem die Kernfunktionalitäten MapReduce, Hive, sowie Job- und Tasktracker zur Verfügung. Aus der Kombination ergibt sich die Möglichkeit sowohl Echtzeit-Anwendungen zu realisieren als auch die zeitintensivere Analyse mit MapReduce durchzuführen. 4 http://www.datastax.com/products/brisk 44
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45: 5.3 Probleme und mögliche Ursachen
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?