17.11.2014 Aufrufe

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3. Vorbetrachtungen e<strong>in</strong>er hochperformanten Lösung<br />

und Constra<strong>in</strong>ts macht das relationale Konzept sehr langsam. Da<strong>durch</strong> haben<br />

relationale Datenbanken bei sehr großen Datenmengen performancebed<strong>in</strong>gt<br />

ke<strong>in</strong>e praktische Bedeutung mehr. Allerd<strong>in</strong>gs s<strong>in</strong>d da<strong>durch</strong> auch die Anfragen<br />

an die Daten komplizierter. Es kann ke<strong>in</strong> SQL o<strong>der</strong> nur noch e<strong>in</strong>e sehr e<strong>in</strong>geschränkte<br />

Form von SQL verwendet werden. Derartige mo<strong>der</strong>ne Datenbanken<br />

werden auch als NoSQL-Datenbanken bezeichnet.<br />

Aufgrund <strong>der</strong> Datenmengen ist e<strong>in</strong> Wechsel von MySQL auf e<strong>in</strong>e dokumentbasierte<br />

Datenbank <strong>der</strong>zeit nicht nötig, da die gespeicherten Daten nur etwa<br />

40 Gigabytes (<strong>in</strong> MySQL) belegen. Die textuelle Repräsentation <strong>der</strong> Daten <strong>in</strong><br />

e<strong>in</strong>er e<strong>in</strong>fachen CSV-Datei ist 15,3 Gigabytes groß. Der Import dieser Daten<br />

<strong>in</strong> e<strong>in</strong>e PostgreSQL-Tabelle mit den tatsächlichen Datentypen (und nicht ihrer<br />

textuelle Form) ist 16 Gigabytes groß. Jonathan Ellis (e<strong>in</strong> Entwickler des dokumentbasierten<br />

Datenbanksystems Cassandra [1]) gibt <strong>in</strong> e<strong>in</strong>em Vortrag [12]<br />

an, dass es für die Performance ke<strong>in</strong>en Unterschied macht, ob man Cassandra<br />

o<strong>der</strong> e<strong>in</strong>e relationale Datenbank e<strong>in</strong>setzt, wenn man ke<strong>in</strong>e verteilte Datenbank<br />

benutzt und ke<strong>in</strong>e Jo<strong>in</strong>s und Constra<strong>in</strong>ts verwendet. Da im Rahmen dieser Arbeit<br />

nur e<strong>in</strong>e Tabelle von Datenaufzeichnungen verwendet wird, die <strong>durch</strong>aus<br />

Fehler <strong>in</strong> <strong>der</strong> Konsistenz und redundante Informationen enthält (vgl. Abschnitt<br />

1.3), ist <strong>der</strong> Umstieg auf e<strong>in</strong> dokumentbasiertes DBMS nicht nötig.<br />

Hierarchische Speicherung<br />

Die Speicherung <strong>in</strong> e<strong>in</strong>em hierarchischen Datenbankmodell ist für diese Daten<br />

nicht s<strong>in</strong>nvoll, da sie ke<strong>in</strong>e s<strong>in</strong>nvolle hierarchische Repräsentation haben.<br />

Zusammenfassung<br />

Abschließend ist zu bemerken, dass im Rahmen dieser Arbeit die Speicherung<br />

<strong>der</strong> Daten <strong>in</strong> relationaler Form beibehalten wurde. Der Hauptgrund dafür ist,<br />

dass das Programm für die Datenaufzeichung nicht geän<strong>der</strong>t werden muss.<br />

Beim Wechsel auf e<strong>in</strong> an<strong>der</strong>es relationales DBMS würde sich auch <strong>der</strong> Import<br />

und Export <strong>der</strong> Daten e<strong>in</strong>facher gestalten, als bei e<strong>in</strong>em Wechsel des Datenbankmodells.<br />

Im folgenden Abschnitt soll deshalb untersucht werden, ob e<strong>in</strong><br />

Wechsel auf e<strong>in</strong> an<strong>der</strong>es relationales DBMS s<strong>in</strong>nvoll ist und welche Vor- und<br />

Nachteile dieser hätte.<br />

© Andreas Redmer — 29. September 2011 25

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!