17.11.2014 Aufrufe

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

Performanceoptimierung der Datenanalyse in Netzwerkgraphen durch

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

1. E<strong>in</strong>leitung<br />

sie tatsächlich erfüllt wurden, listet die Spalte ”<br />

erfüllt“ auf. Die dafür verwendeten<br />

SQL-Anfragen und <strong>der</strong>en Ergebnisse f<strong>in</strong>den sich im Anhang A.2.<br />

Constra<strong>in</strong>t Fälle korrekte Fälle erfüllt<br />

44 ≤ E<strong>in</strong>träge < 1600 334960 334829 99,96%<br />

Timestamp<br />

Timestamps<br />

Stunde<br />

= 60 5586 5570 99,71%<br />

Timestamps<br />

Tag<br />

= 1440 235 223 94,89%<br />

Timestamps<br />

Woche<br />

= 10080 35 25 71,43%<br />

Tabelle 1.3.: Constra<strong>in</strong>ts für Vollständigkeit<br />

Das Contra<strong>in</strong>t <strong>in</strong> Zeile 1 <strong>in</strong> Tabelle 1.3 prüft ob die Anzahl <strong>der</strong> m<strong>in</strong>ütlich<br />

aufgezeichneten Daten <strong>in</strong> e<strong>in</strong>em s<strong>in</strong>nvollen Rahmen liegt. Es ist sehr schwierig<br />

festzustellen, die Aufzeichnung zu e<strong>in</strong>em Zeitpunkt abgebrochen ist o<strong>der</strong><br />

tatsächlich nur sehr wenige E<strong>in</strong>träge enthält. E<strong>in</strong>fache statistische Mittel wie<br />

z. B. das Suchen von Ausreißern <strong>durch</strong> Rangbildung, führten nicht zum Erfolg.<br />

Es ist also e<strong>in</strong>e komplexere Analyse notwendig. An dieser Stelle wurde<br />

letztlich empirisch ermittelt, dass alle Aufzeichnungen, die weniger als 44 Datensätze<br />

be<strong>in</strong>halten def<strong>in</strong>itiv falsch s<strong>in</strong>d. Weiterh<strong>in</strong> wurde festgestellt, dass am<br />

31.10.2010 zwischen 2 Uhr und 3 Uhr mehr als 1600 Datensätze pro M<strong>in</strong>ute<br />

aufgezeichnet wurden, während es normalerweise nie mehr als 1000 Datensätze<br />

waren. Dies geschah aufgrund <strong>der</strong> Umstellung von Sommerzeit auf W<strong>in</strong>terzeit.<br />

In den weiteren Zeilen <strong>der</strong> Tabelle 1.3 wird die Vollständigkeit nach Stunden,<br />

Tagen und Wochen gruppiert 3 . Es s<strong>in</strong>d fast alle aufgezeichneten Stunden<br />

vollständig. Weiterh<strong>in</strong> s<strong>in</strong>d ca. 95% <strong>der</strong> aufgezeichneten Tage vollständig<br />

aufgezeichnet. Jedoch s<strong>in</strong>d nur 25 von <strong>in</strong>sgesamt 35 aufgezeichneten Wochen<br />

vollständig.<br />

Unabhängig von unvollständig aufgezeichneten Zeitpunkten gibt es auch<br />

zwischen den Zeitpunkten e<strong>in</strong>ige Lücken <strong>in</strong> den Aufzeichnungen. Die SQL-<br />

Anfragen zur Ermittlung dieser Lücken f<strong>in</strong>den sich ebenfalls im Anhang A.2.<br />

Es handelt sich als meist um kle<strong>in</strong>e Aussetzer, bei denen nur für e<strong>in</strong>ige M<strong>in</strong>uten<br />

ke<strong>in</strong>e Aufzeichnungen gemacht wurden. Allerd<strong>in</strong>gs gibt es mit mehr als<br />

108 Tagen auch e<strong>in</strong>e sehr große Lücke <strong>in</strong> den Aufzeichnungen. So wurden vom<br />

24.05.2010 bis zum 09.09.2010 ke<strong>in</strong>e Aufzeichnungen gemacht.<br />

3 Unvollständige Tage/Wochen wie z. B. <strong>der</strong>/die erste und letzte aufgezeichnete Tag/Woche<br />

wurden nicht beachtet<br />

© Andreas Redmer — 29. September 2011 5

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!