Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Verteilte Auswertung von RDF-Graphen mit MapReduce und ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
5 Evaluation<br />
In diesem Kapitel wird geprüft, wie sich die Implementierung bei unterschiedlichen<br />
Datensätzen verhält. Es soll überprüft werden, ob die Kombination aus Hadoop <strong>und</strong><br />
Cassandra effizient im Hinblick auf die Laufzeit ist. Dafür werden die Laufzeiten verglichen,<br />
die sich bei der Anwendung auf unterschiedlichen Datensatzgrößen ergeben.<br />
Außerdem werden verschiedene Cassandra-spezifische Einstellungen variiert, um deren<br />
Einfluss auf die Laufzeit zu untersuchen. Es werden zunächst die Rahmenbedingen<br />
der Evaluation betrachtet, anschließend werden die Laufzeiten präsentiert <strong>und</strong><br />
interpretiert. Abschließend werden Probleme aufgezeigt, die während der Evaluation<br />
auftraten <strong>und</strong> mögliche Ursachen benannt.<br />
5.1 Allgemeine Rahmenbedingunen<br />
Zur Evaluation wird ein Cluster bestehend aus 10 Servern verwendet. Jeder Server<br />
hat einen Intel Xeon Prozessor 3,16 GHZ, 4GB Arbeitsspeicher <strong>und</strong> 3 TeraByte<br />
Festplattenkapazität. Die einzelnen Server, fortan Knoten genannt, kommunizieren<br />
über ein Gigabit-Lan <strong>mit</strong>einander. Das Betriebssystem ist die 64-Bit Version der<br />
Ubuntu-Distribution in der Version 9.10. Als <strong>MapReduce</strong>-Framework wurde „Cloudera’s<br />
Distribution for Hadoop 3“ (CDH3) 1 verwendet. Java ist in Version 1.6.0_26<br />
installiert. Cassandra ist zur Zeit der <strong>Auswertung</strong> in Version 0.8.2 installiert. Einer<br />
der Knoten fungiert ausschließlich als Jobtracker <strong>und</strong> Namenode <strong>und</strong> ist so<strong>mit</strong> an<br />
der Berechnung nicht direkt beteiligt. Die Datenbank läuft ebenfalls nur auf 9 der<br />
10 Knoten, um Störungen <strong>mit</strong> dem Hadoop Jobtracker zu vermeiden.<br />
Die Gr<strong>und</strong>lage der Evaluation bilden Daten, die <strong>mit</strong> dem Benchmark SP 2 Bench generiert<br />
worden sind. Der Benchmark generiert Semantic Web Daten im <strong>RDF</strong>-Format,<br />
die auf der Verteilung echter Daten basieren. Als Referenz dient die Literaturdatenbank<br />
DBLP. Als Benchmark für SPARQL-Anfragen entwickelt, stellt SP 2 Bench<br />
1 http://www.cloudera.com/hadoop/<br />
33