Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Weitere Magazine

Empfehlungen

Info

3. Vorbetrachtungen einer hochperformanten Lösung und Constraints macht das relationale Konzept sehr langsam. Dadurch haben relationale Datenbanken bei sehr großen Datenmengen performancebedingt keine praktische Bedeutung mehr. Allerdings sind dadurch auch die Anfragen an die Daten komplizierter. Es kann kein SQL oder nur noch eine sehr eingeschränkte Form von SQL verwendet werden. Derartige moderne Datenbanken werden auch als NoSQL-Datenbanken bezeichnet. Aufgrund der Datenmengen ist ein Wechsel von MySQL auf eine dokumentbasierte Datenbank derzeit nicht nötig, da die gespeicherten Daten nur etwa 40 Gigabytes (in MySQL) belegen. Die textuelle Repräsentation der Daten in einer einfachen CSV-Datei ist 15,3 Gigabytes groß. Der Import dieser Daten in eine PostgreSQL-Tabelle mit den tatsächlichen Datentypen (und nicht ihrer textuelle Form) ist 16 Gigabytes groß. Jonathan Ellis (ein Entwickler des dokumentbasierten Datenbanksystems Cassandra [1]) gibt in einem Vortrag [12] an, dass es für die Performance keinen Unterschied macht, ob man Cassandra oder eine relationale Datenbank einsetzt, wenn man keine verteilte Datenbank benutzt und keine Joins und Constraints verwendet. Da im Rahmen dieser Arbeit nur eine Tabelle von Datenaufzeichnungen verwendet wird, die durchaus Fehler in der Konsistenz und redundante Informationen enthält (vgl. Abschnitt 1.3), ist der Umstieg auf ein dokumentbasiertes DBMS nicht nötig. Hierarchische Speicherung Die Speicherung in einem hierarchischen Datenbankmodell ist für diese Daten nicht sinnvoll, da sie keine sinnvolle hierarchische Repräsentation haben. Zusammenfassung Abschließend ist zu bemerken, dass im Rahmen dieser Arbeit die Speicherung der Daten in relationaler Form beibehalten wurde. Der Hauptgrund dafür ist, dass das Programm für die Datenaufzeichung nicht geändert werden muss. Beim Wechsel auf ein anderes relationales DBMS würde sich auch der Import und Export der Daten einfacher gestalten, als bei einem Wechsel des Datenbankmodells. Im folgenden Abschnitt soll deshalb untersucht werden, ob ein Wechsel auf ein anderes relationales DBMS sinnvoll ist und welche Vor- und Nachteile dieser hätte. © Andreas Redmer — 29. September 2011 25
3. Vorbetrachtungen einer hochperformanten Lösung 3.1.2. Wahl des DBMS Als populärste Vertreter von relationalen DBMS sind Oracle, DB2, MS SQL Server, PostgreSQL und MySQL zu nennen. An das gesuchte System sind jedoch folgende Bedingungen zu stellen: 1. Das DBMS sollte kostenlos oder sehr kostengünstig verwendbar sein, da es später nur für die Datenanalyse beim Opennet e.V. verwendet werden soll. 2. Das DBMS sollte plattformunabhängig sein, um eine Installation auf dem aufzeichnenden Opennet-Knoten zu ermöglichen. 3. Wenn es eine Lizenz, die für Forschungszwecke o. ä. frei verwendbar ist, darf diese nicht so weit eingeschränkt sein, dass sie mit den Voraussetzungen für dieses Projekt kollidiert. So bietet Oracle beispielsweise eine Version an, die für studentische Forschungen frei ist, diese kann jedoch nur Daten bis zu zwei Gigabytes verwalten. Nach Beachtung dieser Kriterien bleibt letztlich nur die Wahl, bei dem bestehenden MySQL-Server zu bleiben oder zu einem PostgreSQL-Server zu wechseln. Dazu ist zu sagen, dass PostgreSQL das einzige völlig kostenlos verwendbare der genannten Systeme ist. MySQL hat ein relativ komplexes Lizenzmodell und ist unter gewissen Umständen auch kostenpflichtig. Generell ist PostgreSQL funktionaler und kann größere Datenmengen besser handhaben als MySQL [20] [30] [31]. Dafür ist die Installation und Bedienung von MySQL deutlich einfacher. Bei MySQL gibt es lediglich zwei Möglichkeiten User Defined Functions (UDF) anzulegen. Die eine ist, das Anlegen von sogenannten Stored Procedures, wobei es sich um eine Abfolge von SQL-Anweisungen handelt. Diese sind nicht turingvollständig und lassen dadurch unter Umständen die Implementierung der benötigten Graphenalgorithmen nicht zu. Die zweite Möglichkeit ist die C++ Schnittstelle für UDF bei MySQL zu verwenden. Diese werden dann kompiliert und als Teil des Datenbankservers geladen. Die Programmierung solcher C++ UDF ist sehr rudimentär und aufwändig. Dabei können viele Fehler entstehen, die mit moderneren Programmiersprachen ausgeschlossen sind. Da MySQL selbst auch in C++ entwickelt ist, muss bei der Verwendung von Bibliotheken (wie z. B. stdlib) auf die richtige Version geachtet werden. Das Debugging solcher UDF gestaltet sich schwierig und es entsteht ein recht hoher Entwicklungsaufwand. Gleichzeitig wurde PostgreSQL als DBMS betrachtet, für das es verschiedene Konzepte zum Erstellen von UDF in verschiedenen Programmiersprachen gibt. Die beiden für MySQL genannten Möglichkeiten existieren in PostgreSQL © Andreas Redmer — 29. September 2011 26
Seite 1 und 2: Performanceoptimierung der Datenana
Seite 3 und 4: Abstract In link-state computer net
Seite 5 und 6: Inhaltsverzeichnis 4.2. Performance
Seite 7 und 8: Tabellenverzeichnis Tabellenverzeic
Seite 9 und 10: Verzeichnis der Listings A.6. Floyd
Seite 11 und 12: 1. Einleitung Datenanalyse in der C
Seite 13 und 14: 1. Einleitung Timestamp 07.04.2010
Seite 15 und 16: 1. Einleitung Exaktheit Die Tabelle
Seite 17 und 18: 1. Einleitung und am Ende die gerin
Seite 19 und 20: 1. Einleitung Problems, das Yen in
Seite 21 und 22: 2. Stand der Technik 2. Stand der T
Seite 23 und 24: 2. Stand der Technik mathematischen
Seite 25 und 26: 2. Stand der Technik n + log(n) + n
Seite 27 und 28: 2. Stand der Technik 1 FUNCTION dij
Seite 29 und 30: 2. Stand der Technik Beschleunigung
Seite 31 und 32: 3. Vorbetrachtungen einer hochperfo
Seite 33: 3. Vorbetrachtungen einer hochperfo
Seite 49 und 50: 4. Optimierungen in der Implementie
Seite 77 und 78: 5. Testläufe - Beispiele für Date
Seite 85 und 86:
5. Testläufe - Beispiele für Date
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
6. Zusammenfassung und Ausblick 6.
Seite 101 und 102:
6. Zusammenfassung und Ausblick Jed
Seite 103 und 104:
Literaturverzeichnis Literaturverze
Seite 105 und 106:
Literaturverzeichnis 24 Opennet: Op
Seite 107 und 108:
A. Anhang: SQL Anfragen A.2. Prüfu
Seite 109 und 110:
A. Anhang: SQL Anfragen A.3. Prüfu
Seite 111 und 112:
A. Anhang: SQL Anfragen N (1,1) N (
Seite 113 und 114:
A. Anhang: SQL Anfragen A.6. Floyd-
Seite 115 und 116:
A. Anhang: SQL Anfragen A.8. Implem
Seite 117 und 118:
B. Anhang: Suche nach einer Partiti
Seite 119 und 120:
Seite 121:
Alle anzeigen

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?