28.12.2013 Aufrufe

Projektgruppe Business Intelligence Applications and Evaluation ...

Projektgruppe Business Intelligence Applications and Evaluation ...

Projektgruppe Business Intelligence Applications and Evaluation ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Projektgruppe</strong> Cuberunner<br />

Jinengo - DV Konzept<br />

Umschreibung des Anwender-Fremdschlüssels (UserHistoric)<br />

Tabelle 3.4: Beschreibung der Schritte des ETL-Prozess<br />

3.3.3 Aggregation von Daten im Data Warehouse<br />

Zusätzlich zu den historisierten Tabellen verfügt das Data Warehouse auch über drei aggregierte Tabellen,<br />

die den Zugriff auf eine verdichtete Sicht der Reisedaten vereinfachen. Die Verdichtung erfolgt<br />

dabei gemäß der in Tabelle 3.2 dargestellten Ebenen.<br />

Der Prozess zur Aktualisierung der drei Tabellen erfolgt durch die folgenden Schritte:<br />

1. Bestimmung der Jahr-Monat-Konstellationen, bei denen Routen noch nicht in die Aggregation<br />

einbezogen wurden (Attribut isAggregatedInDW), da sie seit der letzten Verdichtung<br />

hinzugekommen sind. Für diese Konstellationen müssen die aggregierten Daten neu berechnet<br />

werden.<br />

2. Löschung der veralteten Jahr-Monat-Konstellationen in den drei Aggregationstabellen.<br />

3. Erneute Datenaggregation und Einfügung der entsprechenden Datensätze in die drei Aggregationstabellen.<br />

Die Verdichtung erfolgt dabei für jede Tabelle spezifisch entsprechend ihrer<br />

Aggregationsebene.<br />

4. Kennzeichnung der aggregierten Routen mithilfe des Attributs isAggregatedInDW.<br />

Der Prozess wird zunächst manuell nach Abschluss des ETL-Prozesses angestoßen. Auf längere Sicht<br />

ist jedoch analog zum ETL-Prozess eine regelmäßig automatische Einplanung des Prozesses denkbar.<br />

3.4 Data Mining<br />

Ziel des Data Mining ist es, aus den Daten des Data Warehouse neue Erkenntnisse zu ziehen und Zusammenhänge<br />

in den Daten zu entdecken. Um diese Aufgabe bewerkstelligen zu können wird es zwischen<br />

der operativen Datenbank und dem Data Warehouse eingeordnet (siehe Abbildung 3.1).<br />

Das Data Mining wird im Projekt mit dem SPSS Modeler 15 umgesetzt. Das Tool bietet umfangreiche<br />

Modellierungsmöglichkeiten. Daten lassen sich sowohl aus dem SQL Server als auch, falls notwendig,<br />

aus CSV-Dateien auslesen. Im Modeler können die Daten so vorbereitet werden, wie sie für das Data<br />

Mining benötigt werden. Die alternative Lösung mit den Data-Mining-Tools von SSAS bietet nicht<br />

denselben Umfang und Komfort. Der SPSS Modeler ist sowohl in der Datenintegration, -extraktion<br />

und Data-Mining-Fähigkeit umfangreicher und komfortabler als SSAS.<br />

Der in den einzelnen Methoden angew<strong>and</strong>te Algorithmus hat sich während der Tests als am stabilsten<br />

herausgestellt. Es ist allerdings nicht aus zu schließen, dass sich dieser mit einer realen Datenbasis<br />

ändern könnte.<br />

68

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!