Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

2.3 Apache Cassandra bank entsprechend aufzubauen. Hewitt empfiehlt eine Spaltenfamilie pro möglicher Art der Anfrage. 2.3.2 Verteilung der Daten im Cluster Cassandra bietet verschiedene Möglichkeiten der Partitionierung. Es werden vordefinierte Partitionierer (engl. Partitioners) mitgeliefert, die um eigene Partitionierer, die das IPartitioner Interface implementieren, erweitert werden können [11]. Grundsätzlich werden zur Bestimmung des Knotens, auf dem die Daten gespeichert werden sollen, der Zeilenschlüssel, der Replikationsfaktor (engl. replication factor) und die Replikationsstrategie verwendet 9 . Der Replikationsfaktor gibt an, wieviele Kopien der Daten im Cluster existieren. Ein Replikationsfaktor von 3 bedeutet beispielsweise, dass ein Datensatz dreimal im Cluster abgespeichert wird. Der Randompartitioner erlaubt es, die Daten gleichmäßig über den Cluster zu verteilen, da als Schlüssel der MD5-Hashwert des Zeilenschlüssels verwendet wird. Allerdings bedeutet dies auch, dass die Daten unsortiert vom System ausgegeben werden und Anfragen, die gezielte Zeilenbereiche auswählen, ineffizient ausgeführt werden. Der OrderPreservingPartitioner verwendet die UTF8-Repräsentation des Zeilenschlüssels als Schlüssel. Folglich werden die Daten anhand des Zeilenschlüssels physisch abgespeichert. Je nach Zeilenschlüssel kann dies bedeuten, dass die Daten unregelmäßig über den Cluster verteilt werden, da die zu speichernden Daten oftmals nicht gleichverteilt sind. Wird als Zeilenschlüssel zum Beispiel der Nachname einer Person verwendet, so gäbe es eine Häufung bei den Knoten, die die Nachnamen, die mit „S“ beginnen, abspeichern. Die Last wäre also nicht regelmäßig verteilt. Vorteilhaft ist allerdings das Ausgeben sortierter Daten und die Möglichkeit, effizient Zeilenbereichsanfragen auszuwerten [11, 13]. 2.3.3 Datenzugriff Die Speicherung der Daten weist erhebliche Unterschiede zu relationalen Datenbanksystemen auf, folglich erfolgt der Datenzugriff ebenfalls auf eine andere Art. Cassandra ermöglicht den Zugriff der gespeicherten Daten per Thrift 10 und stellt hierfür eine API zur Verfügung. Die Entwickler von Cassandra empfehlen jedoch, 9 http://wiki.apache.org/cassandra/FAQ#replicaplacement 10 http://thrift.apache.org/ 15
2.3 Apache Cassandra nicht direkt per Thrift auf Cassandra zuzugreifen, sondern auf einen Client in der gewünschten Programmiersprache zurückzugreifen[11, 13]. Der Konsistenzgrad (engl. consistency level) wird pro Schreib- oder Leseanfrage angegeben und definiert die Dauerhaftigkeit (engl. durability) der Anfrage. Die möglichen Konsistenzgrade bei einer Leseanfrage werden nachfolgend aufgelistet[11, 13]: ONE: Die Anfrage wird sofort vom ersten Knoten, an den die Anfrage gestellt wird, beantwortet. Dabei ist es möglich, dass das Ergebnis veraltet ist. Im Hintergrund wird ein Prozess gestartet, der überprüft, ob die Daten auf den Knoten identisch sind, die gemäß Replikationsfaktor Kopien der Daten speichern. Ist dies nicht der Fall, wird das Datum verwendet, dessen Zeitstempel aktueller ist. Dieser Vorgang wird als „read repair“ bezeichnet. QUORUM: Die Anfrage wird erst beantwortet, wenn n + 1 Knoten die Daten auf 2 Konsistenz überprüft haben, wobei n der Replikationsfaktor ist. Im Hintergrund wird ein „read repair“-Prozess gestartet, der alle Kopien im Cluster überprüft. ALL : Alle n Knoten, auf denen sich eine Kopie der Daten befindet, müssen die Konsistenz bestätigen. Die Anfrage schlägt fehl, wenn einer der Knoten nicht verfügbar ist. Werden die Konsistenzgrade „ONE“ oder „QUORUM“ verwendet, ist es möglich, dass die Anfrage einen veralteten Wert zurückliefert. Das Reparieren der Daten erfolgt in diesem Falle erst, nachdem der Wert zurückgegeben worden ist. Da alle weiteren Anfragen nach der Reparatur konsistent sind, wird die Konsistenz von Cassandra als „eventually consistent“ bezeichnet. Beim Schreiben stehen weitere Konsistenzgrade zur Verfügung: ANY : Der Schreibvorgang muss nur von einem Knoten bestätigt werden, unabhängig vom Replikationsfaktor. Dabei wird ein sogenannter Hint als Bestätigung akzeptiert. Ein Hint wird dann zurückgeliefert, wenn ein Knoten, auf dem die Daten als Kopie vorliegen, nicht verfügbar ist. Cassandra speichert den Schreibvorgang zwischen und schreibt die Daten, sobald der Knoten wieder erreichbar ist. ONE : Dieser Konsistenzgrad verhält sich wie „ANY“, jedoch reicht ein Hint als Bestätigung nicht aus. 16
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17: 2.3 Apache Cassandra Student (Super
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35 und 36: 4.2 Auswerten der Anfragen Triple P
Seite 37 und 38: 5.2 Laufzeiten und Beobachtungen au
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?