02.11.2013 Aufrufe

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

Verteilte Auswertung von RDF-Graphen mit MapReduce und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5 Evaluation<br />

In diesem Kapitel wird geprüft, wie sich die Implementierung bei unterschiedlichen<br />

Datensätzen verhält. Es soll überprüft werden, ob die Kombination aus Hadoop <strong>und</strong><br />

Cassandra effizient im Hinblick auf die Laufzeit ist. Dafür werden die Laufzeiten verglichen,<br />

die sich bei der Anwendung auf unterschiedlichen Datensatzgrößen ergeben.<br />

Außerdem werden verschiedene Cassandra-spezifische Einstellungen variiert, um deren<br />

Einfluss auf die Laufzeit zu untersuchen. Es werden zunächst die Rahmenbedingen<br />

der Evaluation betrachtet, anschließend werden die Laufzeiten präsentiert <strong>und</strong><br />

interpretiert. Abschließend werden Probleme aufgezeigt, die während der Evaluation<br />

auftraten <strong>und</strong> mögliche Ursachen benannt.<br />

5.1 Allgemeine Rahmenbedingunen<br />

Zur Evaluation wird ein Cluster bestehend aus 10 Servern verwendet. Jeder Server<br />

hat einen Intel Xeon Prozessor 3,16 GHZ, 4GB Arbeitsspeicher <strong>und</strong> 3 TeraByte<br />

Festplattenkapazität. Die einzelnen Server, fortan Knoten genannt, kommunizieren<br />

über ein Gigabit-Lan <strong>mit</strong>einander. Das Betriebssystem ist die 64-Bit Version der<br />

Ubuntu-Distribution in der Version 9.10. Als <strong>MapReduce</strong>-Framework wurde „Cloudera’s<br />

Distribution for Hadoop 3“ (CDH3) 1 verwendet. Java ist in Version 1.6.0_26<br />

installiert. Cassandra ist zur Zeit der <strong>Auswertung</strong> in Version 0.8.2 installiert. Einer<br />

der Knoten fungiert ausschließlich als Jobtracker <strong>und</strong> Namenode <strong>und</strong> ist so<strong>mit</strong> an<br />

der Berechnung nicht direkt beteiligt. Die Datenbank läuft ebenfalls nur auf 9 der<br />

10 Knoten, um Störungen <strong>mit</strong> dem Hadoop Jobtracker zu vermeiden.<br />

Die Gr<strong>und</strong>lage der Evaluation bilden Daten, die <strong>mit</strong> dem Benchmark SP 2 Bench generiert<br />

worden sind. Der Benchmark generiert Semantic Web Daten im <strong>RDF</strong>-Format,<br />

die auf der Verteilung echter Daten basieren. Als Referenz dient die Literaturdatenbank<br />

DBLP. Als Benchmark für SPARQL-Anfragen entwickelt, stellt SP 2 Bench<br />

1 http://www.cloudera.com/hadoop/<br />

33

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!