BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet
BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet
BIJZONDER LASTENBOEK “Datamining Tools” - SeniorenNet
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Daarnaast kunnen de ETL jobs ook zorgen voor het vullen/bijwerken van de SANDBOX. De SANDBOX (of “SQL LAB”) is de<br />
werkomgeving voor Data Mining activiteiten en optimaliseert het hergebruik van informatie.<br />
Als Reporting en OLAP tool is er voor Microsoft tools gekozen. Microsoft Analysis services zal geënt zijn op het DB2 Data<br />
Warehouse en de Data Mart databases en een semantische laag leveren voor de Microsoft client componenten (MS Office,<br />
Reporting Services, etc).<br />
Bij wijze van tool voor datamining werd SPSS gekozen voor dit project.<br />
Al deze basis componenten zijn geïntegreerd met volgende beheerstools:<br />
• de scheduling tool VTOM<br />
• de configuration/versioning tool StarTeam<br />
• de monitoring tool HP Openview<br />
• de Back-up toepassing Legato<br />
• Identity Management<br />
Het project laat reeds toe de specifieke kenmerken van elke entiteit en elke pijler van de groep der pijlers in acht te nemen<br />
voor de entiteiten en pijlers die behandeld worden in de eerste twee releases. Het project komt dus tegemoet aan de vierde<br />
prioriteit beschreven in het vijfjarenplan, te weten het beantwoorden aan de interne behoeften van het departement.<br />
De voorgestelde datamining-oplossing moet worden geïntegreerd in het kader van de architectuur van het Datawarehouse<br />
Risicoanalyse.<br />
2.1.2.2 DATAMINING-PROJECTEN<br />
De diverse voorgestelde diensten hebben allemaal lopende datamining-projecten, en dit naargelang hun opdrachten.<br />
Deze zullen niet worden gedetailleerd, omwille van de vertrouwelijkheid van de bestudeerde materie.<br />
Men kan evenwel een raming geven van het aantal modellen dat momenteel wordt gebruikt:<br />
2.1.2.2.1 CEL DATAMINING BTW<br />
Momenteel worden 11 modellen gebruikt, een aantal dat in de komende maanden tot 12 zal worden uitgebreid.<br />
De complexiteit van deze modellen kan erg groot zijn ; hierbij bijvoorbeeld enkele kwantitatieve gegevens voor wat betreft<br />
een DM BTW-herhaling (elk jaar is er een herhaling) :<br />
• ong. 600 nodes in de streams<br />
• ong. 80 tabellen<br />
• de grootste tabel bevat bijna 40 miljoen records<br />
• ong. 100 streams (met inbegrip van de streams, vermeld voor PHP en Reporting)<br />
• enkele streams (Clementine) gebruiken scripts<br />
• 15 bronbestanden<br />
• ongeveer 90 onafhankelijke variabelen<br />
58