31.07.2013 Views

BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet

BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet

BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Daarnaast kunnen de ETL jobs ook zorgen voor het vullen/bijwerken van de SANDBOX. De SANDBOX (of “SQL LAB”) is de<br />

werkomgeving voor Data Mining activiteiten en optimaliseert het hergebruik van informatie.<br />

Als Reporting en OLAP tool is er voor Microsoft tools gekozen. Microsoft Analysis services zal geënt zijn op het DB2 Data<br />

Warehouse en de Data Mart databases en een semantische laag leveren voor de Microsoft client componenten (MS Office,<br />

Reporting Services, etc).<br />

Bij wijze van tool voor datamining werd SPSS gekozen voor dit project.<br />

Al deze basis componenten zijn geïntegreerd met volgende beheerstools:<br />

• de scheduling tool VTOM<br />

• de configuration/versioning tool StarTeam<br />

• de monitoring tool HP Openview<br />

• de Back-up toepassing Legato<br />

• Identity Management<br />

Het project laat reeds toe de specifieke kenmerken van elke entiteit en elke pijler van de groep der pijlers in acht te nemen<br />

voor de entiteiten en pijlers die behandeld worden in de eerste twee releases. Het project komt dus tegemoet aan de vierde<br />

prioriteit beschreven in het vijfjarenplan, te weten het beantwoorden aan de interne behoeften van het departement.<br />

De voorgestelde datamining-oplossing moet worden geïntegreerd in het kader van de architectuur van het Datawarehouse<br />

Risicoanalyse.<br />

2.1.2.2 DATAMINING-PROJECTEN<br />

De diverse voorgestelde diensten hebben allemaal lopende datamining-projecten, en dit naargelang hun opdrachten.<br />

Deze zullen niet worden gedetailleerd, omwille van de vertrouwelijkheid van de bestudeerde materie.<br />

Men kan evenwel een raming geven van het aantal modellen dat momenteel wordt gebruikt:<br />

2.1.2.2.1 CEL DATAMINING BTW<br />

Momenteel worden 11 modellen gebruikt, een aantal dat in de komende maanden tot 12 zal worden uitgebreid.<br />

De complexiteit van deze modellen kan erg groot zijn ; hierbij bijvoorbeeld enkele kwantitatieve gegevens voor wat betreft<br />

een DM BTW-herhaling (elk jaar is er een herhaling) :<br />

• ong. 600 nodes in de streams<br />

• ong. 80 tabellen<br />

• de grootste tabel bevat bijna 40 miljoen records<br />

• ong. 100 streams (met inbegrip van de streams, vermeld voor PHP en Reporting)<br />

• enkele streams (Clementine) gebruiken scripts<br />

• 15 bronbestanden<br />

• ongeveer 90 onafhankelijke variabelen<br />

58

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!