Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

2.3 Apache Cassandra auf die Daten zu, die ihm lokal zur Verfügung stehen. Dadurch werden weniger Daten über das Netzwerk ausgetauscht und im Idealfall haben alle Knoten die gleiche Größe an Daten zu verarbeiten. Damit dies möglich ist, müssen die Anwendungen dem Map-Reduce-Paradigma folgen. Das Paradigma besagt, dass jedes Programm, ein sogenannter Job, aus einer Map- und einer Reduce-Phase besteht. Ein Knoten verarbeitet zunächst mehrere Map-Tasks, die eine Teilmenge der Daten (Inputsplits) als Eingabe erhalten. Die Inputsplits sind lokal auf dem Knoten gespeichert. Eine Eingabe besteht immer aus einem Schlüssel und einem Wert, ebenso die Ausgabe der Mapper (MapInputKey, MapInputValue, MapOutputKey und MapOutputValue). Nach der Map-Phase werden die Daten anhand des MapOutputKey sortiert und zusammengefasst. Sie werden dann an Reduce-Tasks, die auf anderen Knoten laufen können, geschickt. Ein Reduce-Task erhält einen Schlüssel (ReduceInputKey) und eine Menge von Werten (ReduceInputValues) als Eingabe. Die Ausgabe der Reducer ist ebenfalls ein Schlüssel und ein zugehöriger Wert. Das Format des ReduceInputKey ist identisch mit dem Format des MapOutputKey. Die Eingabewerte sind die Werte, die sortiert und zusammengefasst worden sind, und den gleichen MapOutputKey haben. Es ist also gewährleistet, dass allen Reduce-Tasks jeweils alle diejenigen Werte zur Verfügung stehen, die mit dem gleichen MapOutputKey versehen worden sind. Schließlich werden nach der Verarbeitung in der Reduce-Phase ReduceOutputKey und ReduceOutputValue auf das HDFS geschrieben. Abb. 2.2 visualisiert den Workflow einer MapReduce-Anwendung[9, 10]. Setzt man die Anzahl der Reduce-Tasks auf null, so erfolgt weder eine Sortierung noch eine weitere Verarbeitung durch den Reducer. Die Ergebnisse der Map-Phase werden direkt in das HDFS geschrieben. Das bedeutet, dass auch kein Austausch der Daten über das Netzwerk erfolgt, wie es beim Sortieren und Zusammenfassen vor der Reduce-Phase der Fall wäre. 2.3 Apache Cassandra Klassiche SQL-Datenbanken haben sich in allen Bereichen der Informatik fest etabliert. Wachsende Datenmengen erfordern jedoch eine Möglichkeit der Skalierung bei der Analyse der Daten. Um dieser Nachfrage gerecht zu werden, entstanden die sogenannten NoSQL-Datenbanken („not only SQL“ oder „no SQL“). Eine Gemeinsam- 11
2.3 Apache Cassandra Abbildung 2.2: MapReduce Workflow. Quelle: [10] keit aller NoSQL-Datenbanken, ist der Verzicht auf fixe Schemata zu Gunsten einer besseren horizontalen Skalierung. Weitere Gemeinsamkeiten sind die verteilte Speicherung der Daten, dynamische Anpassung der gespeicherten Daten und der Verzicht auf ACID-Eigenschaften wie sie bei SQL-Systemen üblich sind. Momentan gibt es mehr als hundert verschiedene NoSQL-Datenbanken 5 mit verschiedenen Datenmodellen. Sie lassen sich u. a. in dokumentenorientierte Datenbanken (CouchDB 6 ), Graphendatenbanken (Neo4J 7 ) oder Objektdatenbanken (ZODB 8 ) einteilen. Cassandra fällt in die Kategorie Key-Value-Store [11, 12]. Cassandras Datenmodell basiert auf der NoSQL-Datenbank Google Bigtable, während die Verteilung der Daten Gemeinsamkeiten mit Amazon Dynamo aufweist. Ursprünglich wurde es von Facebook entwickelt, um das Durchsuchen des Nachrichtensystems zu realisieren. Seit 2010 ist das Projekt ein Top-Level-Projekt der Apache Foundation. 5 http://nosql-database.org/ 6 http://couchdb.apache.org/ 7 http://neo4j.org/ 8 http://www.zodb.org/ 12
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?