Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Empfehlungen

Info

5 Evaluation In diesem Kapitel wird geprüft, wie sich die Implementierung bei unterschiedlichen Datensätzen verhält. Es soll überprüft werden, ob die Kombination aus Hadoop und Cassandra effizient im Hinblick auf die Laufzeit ist. Dafür werden die Laufzeiten verglichen, die sich bei der Anwendung auf unterschiedlichen Datensatzgrößen ergeben. Außerdem werden verschiedene Cassandra-spezifische Einstellungen variiert, um deren Einfluss auf die Laufzeit zu untersuchen. Es werden zunächst die Rahmenbedingen der Evaluation betrachtet, anschließend werden die Laufzeiten präsentiert und interpretiert. Abschließend werden Probleme aufgezeigt, die während der Evaluation auftraten und mögliche Ursachen benannt. 5.1 Allgemeine Rahmenbedingunen Zur Evaluation wird ein Cluster bestehend aus 10 Servern verwendet. Jeder Server hat einen Intel Xeon Prozessor 3,16 GHZ, 4GB Arbeitsspeicher und 3 TeraByte Festplattenkapazität. Die einzelnen Server, fortan Knoten genannt, kommunizieren über ein Gigabit-Lan miteinander. Das Betriebssystem ist die 64-Bit Version der Ubuntu-Distribution in der Version 9.10. Als MapReduce-Framework wurde „Cloudera’s Distribution for Hadoop 3“ (CDH3) 1 verwendet. Java ist in Version 1.6.0_26 installiert. Cassandra ist zur Zeit der Auswertung in Version 0.8.2 installiert. Einer der Knoten fungiert ausschließlich als Jobtracker und Namenode und ist somit an der Berechnung nicht direkt beteiligt. Die Datenbank läuft ebenfalls nur auf 9 der 10 Knoten, um Störungen mit dem Hadoop Jobtracker zu vermeiden. Die Grundlage der Evaluation bilden Daten, die mit dem Benchmark SP 2 Bench generiert worden sind. Der Benchmark generiert Semantic Web Daten im RDF-Format, die auf der Verteilung echter Daten basieren. Als Referenz dient die Literaturdatenbank DBLP. Als Benchmark für SPARQL-Anfragen entwickelt, stellt SP 2 Bench 1 http://www.cloudera.com/hadoop/ 33
5.2 Laufzeiten und Beobachtungen außerdem ausgewählte Anfragen zum Testen bereit [16]. Es wurden insgesamt Daten zwischen 1 Millionen und 50 Millionen Tripel evaluiert. Größere Datensätze konnten leider aufgrund wiederholter Ausfälle des Clusters nicht eingespielt werden. Die Ausfälle sind höchstwahrscheinlich auf eine suboptimale Konfiguration der Speicherzuweisung zurückzuführen. Aus zeitlichen Gründen war eine Optimierung der entsprechenden Konfigurationsparameter leider nicht möglich. Allerdings ist davon auszugehen, dass weitere Optimierungen die Ausfälle beheben würden. 5.2 Laufzeiten und Beobachtungen Die Zeitmessung erfolgt mit dem Java-Befehl System.nanoTime(). Dieser wird als erster und letzter Befehl des Programms aufgerufen. Insgesamt wurden 4 Anfragen an das System gerichtet, die auf den von SP 2 Bench bereitgestellten Anfragen basieren. Es wurden eine kurze Anfrage (Q10), zwei Anfragen mittlerer Länge (Q1, Q3a) und eine lange Anfrage (Q2) ausgewählt. Bei einigen Anfragen mussten Teile der Anfrage weggelassen oder umgeschrieben werden, da es sich nicht bei allen Anfragen um reine BGP-Anfragen handelt. Der Replikationsfaktor der Cassandra-Datenbank wurde auf 3 gesetzt. Dies entspricht dem Replikationsfaktor des HDFS. 5.2.1 Q1 SELECT * WHERE { } ?journal rdf:type bench:Journal . ?journal dc:title "Journal 1 (1940)"^^xsd:string . ?journal dcterms:issued ?yr . Listing 5.1: Anfrage Q1 Die Anfrage Q1 aus Listing 5.1 besteht aus drei Tripelmustern und wird mit zwei Verbünden ausgewertet. Die Laufzeiten (Tab. 5.1, Abb. 5.1) wachsen wie erwartet annähernd linear für unterschiedliche Datensatzgrößen. 34
Seite 1 und 2: Bachelorarbeit Verteilte Auswertung
Seite 3 und 4: Bearbeitungszeitraum 26. 05. 2011 -
Seite 5 und 6: Inhaltsverzeichnis Kurzfassung 1 1
Seite 7 und 8: 1 Einführung Die Idee des Semantic
Seite 9 und 10: 2 Grundlagen 2.1 Semantic Web Im Ja
Seite 11 und 12: 2.1 Semantic Web @prefix r d f : .
Seite 13 und 14: 2.2 Apache Hadoop PREFIX p1 PREFIX
Seite 15 und 16: 2.3 Apache Cassandra Abbildung 2.2:
Seite 17 und 18: 2.3 Apache Cassandra Student (Super
Seite 19 und 20: 2.3 Apache Cassandra nicht direkt p
Seite 21 und 22: 3 Strategien zur Auswertung und Spe
Seite 23 und 24: 3.1 Speicherstrategie Tab. 3.1 füh
Seite 25 und 26: 3.2 Auswertungsstrategie 3.2 Auswer
Seite 27 und 28: 3.2 Auswertungsstrategie bilden jew
Seite 29 und 30: 4.1 Einlesen der Daten Abbildung 4.
Seite 31 und 32: 4.2 Auswerten der Anfragen Die Klas
Seite 33 und 34: 4.2 Auswerten der Anfragen 4.2.4 Op
Seite 35: 4.2 Auswerten der Anfragen Triple P
Seite 39 und 40: 5.2 Laufzeiten und Beobachtungen 5.
Seite 41 und 42: 5.2 Laufzeiten und Beobachtungen 00
Seite 43 und 44: 5.2 Laufzeiten und Beobachtungen 5.
Seite 45 und 46: 5.3 Probleme und mögliche Ursachen
Seite 47 und 48: Verwandte Arbeiten Implementierung.
Seite 49 und 50: 7.1 Ausblick kann weiter untersucht
Seite 51 und 52: [14] G. Ladwig and A. Harth, “An

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?