Business Intelligence: un caso di studio nel settore cosmetico

iiiA Elena, che mi è stata vicinodurante questi anni di studio.

vRingraziamentiDesidero innanzitutto ringraziare la mia famiglia, Anna, Daniele, Francesco e Veronicaper avermi sempre sostenuto durante il mio percorso di studio.Ringrazio l’azienda Sinfo-One s.p.a. per avermi permesso di effettuare lo stage aziendalesu cui si basa questo lavoro di tesi.Un particolare ringraziamento al Dott. Fabio Morsiani che è stato il mio tutor aziendalee grazie al quale ho conosciuto il mondo della Business Intelligence.Desidero inoltre ringraziare Leonardo Barbato, Sara Cangini, Emanuele Marchesi, AndreaMessetti, Sara Saccò e Antonio Viscomi per il supporto e la formazione aziendale.Ringrazio il Prof. Giulio Destri per il tempo dedicatomi durante questi mesi di lavoroe per i suggerimenti che ha saputo darmi.Infine un grazie a tutti i pagliacci del dipartimento: Fede Ferretti, Fede Bacchi, Gando,Leo, Matte, Marti, Paolo, Ali, Tocci, Ila, Jessica, Bea, Ponz e, perché no, anche ilDisa.

viiPresentazione dell’aziendaSinfo One S.p.A. nasce il 1 ◦ settembre 2007, dalla Divisione Industria di Sinfo Pragmae si rivolge, in particolare, alle medie aziende italiane fornendo soluzioni ERP estese,consulenza direzionale, organizzativa, di processo e tecnologica nonché servizi di systemintegration.Flessibilità, continui investimenti in ricerca e formazione e attenzione alle esigenze deiclienti costituiscono le basi del suo progetto di sviluppo.L’offerta ERP è basata sulla piattaforma proprietaria Si Fides e sulla piattaforma OracleJD Edwards Enterprise One che Sinfo One completa con il proprio verticale per il Food& Beverage.Sinfo One opera su tutto il territorio nazionale attraverso un team di oltre 100 professionisticon esperienze nei diversi settori di mercato e profonde competenze sui relativiprocessi specifici.Grazie alla specifica conoscenza della piattaforma Oracle JDEdwards ed alle competenzeed esperienze dei propri team di professionisti è in grado di offrire soluzioni verticalizzatee integrate a Enterprise Content Managemet, Enterprise Performance Management eBusiness Intelligence.Sinfo One e OracleSinfo One è Platinum Partner di Oracle e Oracle Accelerate Partner per il Food & Beverage.Si è inoltre aggiudicata l’edizione 2010 degli Oracle Partner Specialization Awardsper la regione Europa, Medio Oriente e Africa. Un grande successo per l’azienda che hacosì superato la concorrenza di altre 87 società provenienti da 22 Paesi, tutte candidatealla conquista del riconoscimento.

viiiEsperienza e competenzaI professionisti Sinfo One hanno competenze estese e specializzate, sono attenti ai bisognidei clienti e abituati a lavorare con obiettivi ambiziosi. Particolare attenzione, condivisioni e laboratori di ricerca (Isi Lab) dedicati, è data a tematiche di ECM, EPM, BIe SCM.Sul fronte del Supply Chain Planning il team di esperti Sinfo One ha messo a puntouna metodologia proprietaria: Step (Sistemi Tecnologici di Pianificazione) che nasce daknow-how, esperienza, efficienza e selezione delle migliori tecnologie.Sinfo One numeriSinfo One ha chiuso il 2010 con un fatturato di 9,5 milioni (nel 2009 il fatturato è statodi 9 milioni di euro), risultato buono se si tiene conto della particolare situazione di crisiche attraversa l’economia mondiale.Il budget 2011 prevede un fatturato di 10,5 milioni e i dati dei primi mesi sono in lineacon il budget.Sinfo One SPA: Via Benedetta 77/a - 43122 Parma - Tel. 0521.9371, Fax 0521.775824info@sinfo-one.it - www.sinfo-one.it

ixSommarioL’aumento esponenziale del volume dei dati operazionali ha reso il calcolatore l’unico supportoadatto al processo decisionale, inoltre l’utilizzo massiccio di tecniche di analisi deidati aziendali ha reso il sistema informativo un elemento strategico per la realizzazionedel business. Per questi motivi il ruolo dell’informatica è passato da passivo strumentoper la registrazione delle operazioni, a fattore decisivo per l’individuazione di elementicritici dell’organizzazione e di potenziali aree di business.Il termine Business Intelligence (BI) venne introdotto nel 1989 da Howard Dresner, perindicare un insieme di strumenti e procedure che consentono a un’azienda di trasformare ipropri dati di business in informazioni utili al processo decisionale, da rendere disponibilialla persona giusta e nel formato idoneo. Le informazioni ottenute sono utilizzate daidecisori aziendali (decision maker) per definire e supportare le strategie di business.Lo strumento principe per la BI è stato fino a oggi il data warehouse (DW), al qualevanno riconosciuti meriti come la capacità di gestire serie storiche dei dati o di effettuareanalisi multidimensionali, basandosi su un modello semplice e che può essere facilmenteassimilato dai manager. Caratteristiche come queste hanno facilitato l’ampia diffusionedei sistemi di data warehousing e hanno favorito la maturazione degli utenti che, una voltasfruttate appieno le sue potenzialità, cominciano a percepirne i limiti e di conseguenzarichiedono nuove soluzioni in grado di soddisfare l’accresciuta richiesta di informazioni.In particolare sorge la necessità di soluzioni che consentano analisi su dati provenienti dasorgenti informative eterogenee, con aggiornamenti più rapidi rispetto a quelli del DW,che difficilmente hanno una periodicità inferiore al giorno, e che consentano ai decionmaker la possibilità di “prevedere il futuro”.Il data mining, le analisi what-if e le attività di Business Performance Management(BPM), sono alcune delle tecniche che vengono utilizzate per soddisfare i limiti che isistemi di data warehousing presentano.La tecnologia Oracle BI 11g fornisce una gamma completa di soluzioni per la businessintelligence. Tuttavia nel caso di studio realizzato utilizzeremo le sole funzionalità dianalisi su dati provenienti da un data warehouse.

INDICE1 I dati e l’azienda 11.1 Processi e catena del valore . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.1 La catena del valore di Porter . . . . . . . . . . . . . . . . . . . . 31.1.2 La piramide di Anthony . . . . . . . . . . . . . . . . . . . . . . . 41.2 I principali tipi di sistemi usati nelle aziende . . . . . . . . . . . . . . . . 61.3 I DBMS ed il loro ruolo . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.1 DBMS transazionali (OLTP) . . . . . . . . . . . . . . . . . . . . . 101.3.2 DBMS per l’analisi (OLAP) . . . . . . . . . . . . . . . . . . . . . 121.3.3 Perché è necessario distinguere . . . . . . . . . . . . . . . . . . . . 132 Introduzione alla Business Intelligence 152.1 Data warehousing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.1 Componenti di un data warehouse . . . . . . . . . . . . . . . . . . 182.1.2 Architetture per il data warehousing . . . . . . . . . . . . . . . . 202.1.3 Gli strumenti ETL . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2 Il modello multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 262.2.1 Modellazione concettuale: il Dimensional Fact Model . . . . . . . 282.2.2 Modellazione logica . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.2.1 I sistemi ROLAP . . . . . . . . . . . . . . . . . . . . . . 312.2.2.2 I sistemi MOLAP . . . . . . . . . . . . . . . . . . . . . . 342.2.2.3 Slowly Changing Dimensions (SCD) . . . . . . . . . . . 35

xiiINDICE2.3 La Business Intelligence (BI) . . . . . . . . . . . . . . . . . . . . . . . . . 372.3.1 Accedere al data warehouse . . . . . . . . . . . . . . . . . . . . . 402.3.2 Business Intelligence: oltre il data warehouse . . . . . . . . . . . . 442.3.2.1 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . 452.3.2.2 Analisi what-if . . . . . . . . . . . . . . . . . . . . . . . 482.3.2.3 Business Performance Management (BPM) . . . . . . . 492.3.3 Ciclo delle analisi di Business Intelligence . . . . . . . . . . . . . . 503 La tecnologia Oracle BI 11g 533.1 Oracle e la business intelligence . . . . . . . . . . . . . . . . . . . . . . . 543.2 Architettura logica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3 Installazione del prodotto . . . . . . . . . . . . . . . . . . . . . . . . . . 633.4 Componenti di front-end . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.4.1 Analisi e reportistica . . . . . . . . . . . . . . . . . . . . . . . . . 663.4.2 Dashboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.4.3 Scorecard e Strategy Management . . . . . . . . . . . . . . . . . . 693.4.4 BI Publisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.4.5 Actionable Intelligence . . . . . . . . . . . . . . . . . . . . . . . . 703.4.6 BI Mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.5 L’Administration Tool . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.6 Comparazione con gli altri competitor . . . . . . . . . . . . . . . . . . . . 753.6.1 Prodotti open source . . . . . . . . . . . . . . . . . . . . . . . . . 794 Il caso di studio: Realizzazione di una soluzione di Business Intelligenceper l’azienda Cadey 814.1 Presentazione dell’azienda . . . . . . . . . . . . . . . . . . . . . . . . . . 814.2 Struttura data center Cadey . . . . . . . . . . . . . . . . . . . . . . . . . 834.3 Struttura del data mart vendite . . . . . . . . . . . . . . . . . . . . . . . 854.4 Costruzione dei metadati . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.4.1 Livello fisico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.4.2 Livello logico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.4.3 Livello di presentazione . . . . . . . . . . . . . . . . . . . . . . . . 924.4.4 Validazione del repository . . . . . . . . . . . . . . . . . . . . . . 924.5 Costruzione della reportistica . . . . . . . . . . . . . . . . . . . . . . . . 93Conclusioni 95

CAPITOLO 1I dati e l’aziendaUn’azienda è una struttura sociale stabile e formale che trae risorse dall’ambiente e leelabora per produrre un risultato. Il capitale e la forza lavoro sono i principali fattori diproduzione forniti dall’ambiente. L’azienda trasforma questi input in prodotti e servizitramite la funzione di produzione. I prodotti e i servizi vengono poi consumati dall’ambiente.Molte aziende operano in un contesto complesso ed in continua trasformazione: le nuoveopportunità che si vengono a creare devono essere valutate rapidamente con sempre maggiorfrequenza per non rischiare di perdere la propria competitività. In questo contesto,le tecnologie dell’informazione e della comunicazione (ICT) stanno contribuendo a modificareil modo di lavorare e di vivere dell’azienda, attraverso nuove e sofisticate soluzionidi elaborazione e trasmissione dell’informazione. La disponibilità, a costi sempre minori,di tali soluzioni sta provocando significativi cambiamenti soprattutto per quelle attività,sempre più numerose, che comportano gestione di informazione.La costruzione dell’informazione ed il suo uso entro l’azienda, a partire da dati “grezzi”di ingresso, può avvenire attraverso quattro stadi successivi qui di seguito riportati:• Dati: sono l’insieme di fatti, il risultato di una misurazione, la materia prima dell’informazionein relazione agli oggetti del mondo reale. Non possiedono significatoal di là della loro esistenza. Possono essere scoperti, ricercati, raccolti e prodotti.

2 I dati e l’azienda• Informazione: l’informazione conferisce un significato ai dati, grazie al fatto che lipone in una relazione reciproca e li organizza secondo dei modelli. Per trasformare idati in utili informazioni, un’impresa deve impegnare risorse per organizzare i datiin categorie di comprensione, come rapporti relativi ai totali di vendita mensili,giornalieri, regionali o per negozio.• Conoscenza: la conoscenza è informazione rielaborata ed applicata. È un eventocognitivo e persino fisiologico che ha luogo nella mente delle persone, ma allo stessotempo viene conservato in librerie e registrazioni, condiviso, ad esempio, per mezzodi conferenze, e conservato dalle aziende sotto forma di processi gestionali codificatie documentati e know-how dei dipendenti. La conoscenza presente nella mente deidipendenti e che non sia documentata prende il nome di conoscenza tacita, mentrequella documentata viene definita conoscenza esplicita.• Saggezza: la saggezza è l’esperienza collettiva ed individuale dell’applicazione dellaconoscenza alla soluzione di problemi. Essa implica il dove, come e quando applicarela conoscenza. Non è possibile creare la saggezza allo stesso modo di come vengonocreati i dati e le informazioni, e non è possibile condividerla con gli altri, comeinvece avviene per la conoscenza.Per l’impresa la conoscenza è un tipo di bene diverso, per esempio, dagli edifici o dai benifinanziari; inoltre la conoscenza è un fenomeno complesso e il processo di gestione chela riguarda ha molti aspetti. Possiamo inoltre riconoscere che il nucleo delle competenzebasate sulla conoscenza di un’impresa, ossia le due o tre cose che un’azienda fa meglio,sono beni organizzativi fondamentali. Sapere come fare le cose in modo efficiente adottandosoluzioni che le altre organizzazioni non possono riprodurre è una fonte primariadi profitto e di vantaggio competitivo che i concorrenti non possono facilmente acquistaresul mercato.La collaborazione e la comunicazione con professionisti ed esperti, la creazione di nuovaconoscenza, l’agevolazione dell’accesso alla conoscenza e l’uso di quest’ultima per migliorarei processi gestionali e direzionali sono diventati elementi vitali per l’innovazione e lasopravvivenza delle imprese [LL06].

1.1 Processi e catena del valore 31.1 Processi e catena del valoreCon il termine “processo” si fa riferimento a un insieme di attività attraverso le qualile risorse di un’impresa o, più in generale, di un’organizzazione (individui e mezzi) realizzanola mission organizzativa trasformando input (materiali o immateriali) in output,ossia in prodotti/servizi che trasferiscono valore al fruitore dei prodotti/servizi stessi. Ilconcetto di valore è fondamentale, in quanto uno degli scopi fondamentali della modellazionetramite processi delle attività aziendali è proprio un ausilio alla misurazione delvalore prodotto. In ciascun processo vengono tipicamente coinvolte competenze e unitàorganizzative diverse che rispondono al responsabile del processo (process owner), figuraalla quale sono stati affidati la responsabilità e il coordinamento del processo stesso.Figura 1.1: Rappresentazione di un processo aziendale1.1.1 La catena del valore di PorterIn ogni organizzazione è possibile individuare alcuni processi fondamentali. La catenadel valore di Porter rappresenta una classificazione dei processi, modellizzando il funzionamentodell’intera azienda come una successione di processi. I processi sono suddivisiin: [Des07]

4 I dati e l’azienda• Buy side: come acquisti/approvvigionamenti, ossia processi il cui output provienedai fornitori;• Inside: ossia aventi sia input sia output interni all’azienda, che possono essere ulteriormentesuddivisi tra processi primari, che sono direttamente legati alla produzionedel valore del core business dell’azienda e processi ausiliari, che non generanodirettamente un valore, ma producono quei servizi senza i quali l’organizzazionenon potrebbe operare;• Sell side: il cui output è rivolto direttamente ai clienti esterni dell’azienda.1.1.2 La piramide di AnthonyLa piramide di Anthony, illustrata in Figura 1.2 è una modalità di rappresentazione dell’organizzazione,introdotta con l’obiettivo specifico di classificare le attività tipicamentesvolte nell’organizzazione stessa e identificare il ruolo dei sistemi informatici a supportodi tali attività e la progettazione del loro sviluppo. Nonostante l’inarrestabile e radicaleinnovazione delle ICT questo modello ha sostanzialmente mantenuto intatta la validitàdella sua formulazione originaria nel corso del tempo.Il modello di Anthony, sviluppato nel 1965, distingue tre diverse tipologie di attività,ognuna delle quali interagisce con quella adiacente realizzando cicli di pianificazione econtrollo attraverso i quali verificare risultati e decidere azioni correttive. Tali attivitàsono: [PM05]• Attività strategiche: concorrono all’identificazione degli obiettivi primari dell’aziendanei confronti del mercato e della concorrenza;• Attività tattiche: traducono gli obiettivi strategici in obiettivi economici, definendole previsioni a medio termine e verificandone periodicamente l’attuazione;• Attività operative: attuano i piani definiti occupandosi dello svolgimento delleattività correnti.

1.1 Processi e catena del valore 5Figura 1.2: Le attività aziendali secondo AnthonyUna tale classificazione è dovuta al fatto che attività appartenenti a ciascuna tipologiapossiedono caratteristiche comuni per quanto riguarda il fabbisogno informativo che richiedonoper supportare in modo adeguato il loro svolgimento. I criteri per identificaretali caratteristiche sono: [TRS03]• Orizzonte temporale di riferimento: è l’intervallo di tempo che intercorre tradue esecuzioni successive di una determinata attività. Le attività strategiche hannoeffetto nel “lungo termine”, mentre le attività operative solitamente hanno effettoimmediato;• Orientamento all’esterno: è l’entità dell’impatto che le attività hanno al di fuoridei confini dell’organizzazione. Le attività strategiche hanno effetto sul contestocompetitivo in cui l’organizzazione opera, mentre le attività operative sono confinatenell’interno dell’organizzazione;• Discrezionalità: è il grado di arbitrio con il quale si può decidere come e quandosvolgere un’attività. È massima a livello strategico e diminuisce progressivamentenelle attività di più basso livello. Nelle attività operative le procedure di esecuzionesono il più possibile precise;

6 I dati e l’azienda• Ripetitività: è la frequenza con cui un’attività viene svolta. Un’alta ripetitivitàcaratterizza le attività operative;• Prevedibilità: è correlata alla ripetitività. È tipica delle attività operative, poichéproducono risultati prevedibili a priori e la loro esecuzione è prevista a priori neitempi e nella modalità;• Ruoli organizzativi coinvolti: Le attività strategiche sono di competenza delladirezione aziendale. Le attività di programmazione e controllo sono assegnate alledirezioni funzionali o di divisione. Le attività operative sono condotte dal personaleesecutivo.In particolare questo ultimo criterio è alla base della scomposizione dell’organizzazione,che secondo un approccio di tipo gerarchico può essere rappresentata con la piramideindicata.1.2 I principali tipi di sistemi usati nelle aziendePoiché in un’azienda esistono interessi, specializzazioni e livelli differenti, esistono anchetipi di sistemi diversi. Non esiste un sistema in grado di fornire tutte le informazioni dicui ha bisogno un’azienda.Come abbiamo visto prima, secondo il modello di Anthony un’azienda può essere scompostain tre livelli, ad ognuno dei quali corrispondono differenti tipologie di attività:strategiche, tattiche ed operative. È inoltre possibile osservare un’ulteriore suddivisionein aree funzionali, come per esempio vendite e marketing, produzione, gestione finanziariae contabilità e risorse umane. I sistemi informativi hanno lo scopo di servire questi diversiinteressi nell’azienda.I sistemi informativi a supporto delle attività strategiche aiutano i senior managerad affrontare i problemi strategici e a valutare le tendenze a lungo termine sia nell’aziendasia nell’ambiente esterno. La loro principale preoccupazione è far corrispondere i cambiamentinell’ambiente esterno con le capacità organizzative dell’azienda. “Quali saranno itassi di occupazione tra cinque anni?”. “Quali saranno le tendenze dei costi in questocampo a lungo termine e come si posizionerà la nostra azienda?”. “Quali prodotti dovremoprodurre nei prossimi cinque anni?”.

1.2 I principali tipi di sistemi usati nelle aziende 7I sistemi informativi a supporto dell’attività manageriale favoriscono le attivitàdi monitoraggio, di controllo, decisionali e amministrative dei middle manager. La principaledomanda a cui devono rispondere questi sistemi è: “Le cose funzionano bene?”. Ingenere i sistemi a livello manageriale forniscono report periodici piuttosto che informazioniistantanee sulle operazioni.I sistemi informativi operativi supportano i manager per la registrazione delle attivitàelementari e delle transazioni che si svolgono nell’azienda. Lo scopo principale deisistemi a questo livello è quello di supportare le attività di routine e registrare il flussodelle transazioni all’interno dell’azienda.Normalmente in un’azienda esistono sistemi informativi operativi, di supporto alle attivitàmanageriali e di supporto alle attività strategiche per ognuna delle aree funzionali(alcuni esempi sono stati riportati sopra).Per esempio la funzione vendite sarà in generale dotata di:• un sistema operativo per registrare i dati di vendita quotidiani e per elaborare gliordini;• un sistema informativo di supporto all’attività manageriale avrà un sistema perregistrare i dati di vendita mensili suddivisi per area geografica e indicare i luoghiin cui le vendite hanno superato o non hanno raggiunto i livelli previsti;• un sistema informativo di supporto alle attività strategiche che prevede le tendenzedi vendita nell’arco di cinque anni.I principali tipi di sistemi informativi sono:TPS (Transaction Processing System):I sistemi di elaborazione delle transazioni sono i sistemi operativi di base che servono illivello operativo dell’azienda. Un sistema di elaborazione delle transazioni è un sistemacomputerizzato che svolge e registra le transazioni di routine necessarie quotidianamenteper condurre le attività aziendali. Per esempio, può trattarsi di sistemi per l’inserimentodi ordini, di prenotazione alberghiera, di calcolo degli stipendi, di archiviazione della documentazionerelativa ai dipendenti e delle spedizioni.I sistemi di elaborazione delle transazioni sono talvolta così importanti per un’azienda

8 I dati e l’aziendache un guasto di qualche ora può sancire la sua fine e talvolta anche di altre aziende ad essaconnesse. I TPS sono anche i principali produttori di informazioni per altri tipi sistemi.MIS (Management Information System):Il termine sistemi di gestione dell’informazione designa una specifica categoria di sistemiinformativi che servono le funzioni di livello manageriale. Generalmente adempiono aquesto compito offrendo ai manager report e spesso un accesso online alle prestazionicorrenti e ai dati storici dell’azienda. In genere questi sistemi sono orientati quasi esclusivamentea eventi interni.Il sistema di gestione delle informazioni normalmente risponde alle necessità dei managerinteressati a risultati settimanali, mensili e annuali, benché alcuni di essi consentano lorodi approfondire fino a vedere i dati su base giornaliera o persino oraria.DSS (Decision Support System):Anche i sistemi di supporto alle decisioni rispondono alle esigenze del livello managerialedell’azienda. Aiutano i manager a prendere decisioni che sono uniche, in rapido cambiamentoe difficilmente specificate in anticipo. Questi sistemi riguardano problemi incui la procedura per arrivare ad una soluzione può non essere nota completamente inanticipo. Sebbene i sistemi di supporto alle decisioni usino le informazioni interne fornitedai sistemi di elaborazione delle transazioni e dai sistemi di gestione delle informazioni,spesso impiegano anche informazioni tratte da fonti esterne.Per definizione i DSS hanno una maggiore potenza analitica rispetto agli altri sistemi.Essi utilizzano vari modelli di analisi dei dati o condensano grandi quantità di dati in unformato utile per prendere decisioni.Sono sistemi progettati in modo che gli utenti possano lavorare direttamente sui dati;questi sistemi sono costituiti da software di facile uso; sono interattivi e l’utente puòcambiare le premesse, porre nuove domande e includere nuovi dati.ESS (Executive Support System):Sono sistemi informativi per il livello strategico. Per prendere le loro decisioni i seniormanager utilizzano sistemi di supporto direzionale. Essi riguardano decisioni non diroutine che richiedono giudizi, valutazioni e conoscenze approfondite, poiché non esistenessuna procedura standard per giungere a una soluzione.

1.2 I principali tipi di sistemi usati nelle aziende 9I sistemi di supporto direzionale sono progettati per incorporare i dati legati a eventiesterni, ma traggono anche informazioni dai MIS e dai DSS. Essi filtrano, comprimono,estraggono ed individuano i dati critici, mettendo in luce quelli della massima importanzaper i senior manager.Il sistema ESS utilizza software di grafica avanzato ed è in grado di presentare grafici edati provenienti da molte fonti.La Figura 1.3 illustra il modo in cui i vari sistemi servono i vari livelli di un’aziendae le relazioni tra di essi.Figura 1.3: Relazioni tra i sistemiI sistemi di elaborazione delle transazioni rappresentano la fonte principale dei dati pergli altri sistemi, mentre i sistemi di supporto direzionale fondamentalmente ricevono idati dai sistemi di livello inferiore. È sostanzialmente vantaggioso avere una certa integrazionetra questi sistemi in modo che le informazioni possano fluire con facilità trale varie parti dell’azienda e offrire al management una visione delle prestazioni aziendaliche abbracci l’intera impresa. Ma l’integrazione costa. L’integrazione di tanti sistemidifferenti richiede molto tempo e impegno [LL06].La Tabella 1.1 riassume le principali caratteristiche dei sistemi appena descritti.

10 I dati e l’aziendaTipo di sistema Informazioni di input Elaborazioni svolte Informazioni di output UtentiESS Dati aggregati, esterni e Grafici, simulazioni; interattivitàProiezioni; risposte alle interrogazioniSenior managerinterniDSSBassi volumi di dati o grossi Interattività; simulazionidatabase ottimizzati per l’analisidei dati; modelli analiticie strumenti di analisidei datianalisiMISRiepilogo dei dati sulle transazioni,alti volumi di dati,semplici modelliReport di routine, modellisemplici; analisi di bassolivelloTPS Transazioni; eventi Ordinamento, produzioneelenchi, unioni eaggiornamentiReport speciali; analisi delleProfessionisti; manager didecisioni; risposte alle staffinterrogazioniRiepiloghi e report delle Middle managereccezioniReport dettagliati, liste; riepiloghiPersonale operativo, supervisoriTabella 1.1: Caratteristiche dei diversi tipi di sistemi informativi.1.3 I DBMS ed il loro ruoloNel primo capitolo abbiamo osservato quanto siano importanti i dati per un’azienda alfine di produrre in successione informazione, conoscenza e saggezza.L’attenzione ai dati ha caratterizzato le applicazioni dell’informatica fin dalle sue origini,ma sistemi software specificamente dedicati alla gestione dei dati sono stati realizzatisolo a partire dalla fine degli anni Settanta. I DBMS (Data Base Management System)rientrano in questi sistemi software; sono infatti in grado di gestire collezioni di dati chesiano grandi, condivise e persistenti, assicurando la loro affidabilità e privatezza. Comeogni prodotto informatico, un DBMS deve essere efficiente ed efficace. Una base di datiè una collezione di datigestita da un DBMS [ACPT06].In un’azienda i vari tipi di sistemi utilizzano gli stessi dati ma con finalità e modalitàdiverse. In base a questa osservazione, possiamo suddividere i sistemi in sistemi operazionalio transazionali, ovvero sistemi a supporto di attività operative e gestionali e sistemidi analisi, ovvero sistemi a supporto delle attività decisionali-strategici.1.3.1 DBMS transazionali (OLTP)Si definisce transazione un’unità logica di elaborazione, cioè una sequenza di operazioniche hanno un effetto globale sul database, vista come un insieme atomico, che completacon successo o fallisce, senza nessuna possibilità intermedia. Un sistema che mette adisposizione un meccanismo per la definizione e l’esecuzione di transazioni viene dettosistema transazionale. Il loro scopo principale è quello di supportare attività routinarie

1.3 I DBMS ed il loro ruolo 11e registrare il flusso delle transazioni entro l’azienda, al livello operativo; mentre il lorocomponente principale sono i sistemi OLTP (On-Line Transaction Process), che svolgonoe registrano le transazioni di routine necessarie per le attività quotidiane dell’azienda.In un DBMS transazionale, tutto il codice che viene eseguito all’interno di una transazionegode di proprietà particolari, le cosiddette proprietà acide delle transazioni: atomicità,consistenza, isolamento e persistenza; il termine deriva dall’acronimo ACID (Atomicity,Consistency, Isolation, Durability) [ACPT06].• Atomicità: rappresenta il fatto che una transazione è un’unità indivisibile di esecuzione.Tutte le operazioni della sequenza terminano con successo (commit) oppure,se anche una sola di esse fallisce, l’intera transazione viene abortita (abort); siapplica quindi un approccio “tutto o niente”;• Consistenza: richiede che l’esecuzione della transazione non violi i vincoli di integritàdefinita sulla base dati. Una transazione è una trasformazione corretta dellostato del database, vale a dire, al termine di ogni transazione il database devetrovarsi in uno stato consistente. Nel caso di un’eventuale violazione il sistemainterviene per annullare la transazione o per correggere la violazione del vincolo.• Isolamento: richiede che l’esecuzione di una transazione sia indipendente dallacontemporanea esecuzione di altre transazioni. In particolare si richiede che il risultatodell’esecuzione concorrente di un insieme di transazioni sia analogo al risultatoche le stesse transazioni otterrebbero qualora ciascuna di esse fosse seguita da sola;• Persistenza: richiede che l’effetto di una transazione che ha eseguito il commitcorrettamente non venga più perso. In pratica, una base di dati deve garantire chenessun dato venga perso per nessun motivo.Data la sua natura esecutiva, il sistema transazionale ha la tendenza a strutturare i flussie a standardizzare il contenuto informativo per minimizzare la possibilità di commettereerrori e, nello stesso tempo, rendere le operazioni fluide e rapide. La sua strutturaè ottimizzata per sostenere l’attività di un numero potenzialmente elevato di personeche interagiscono puntualmente con la base dati in attività di ricerca, di creazione e diaggiornamento delle informazioni.

12 I dati e l’azienda1.3.2 DBMS per l’analisi (OLAP)Mentre i dati operazionali coprono un arco temporale di solito piuttosto limitato, poichéla maggior parte delle transazioni coinvolge i dati più recenti, i sistemi di analisi devonopermettere analisi che spazino sulla prospettiva di alcuni anni. Per questo motivo questiultimi sistemi devono essere aggiornati a intervalli regolari a partire dai dati operazionalie sono in crescita continua. Volendo fare un paragone possiamo supporre che, a intervalliregolari, venga scattata una fotografia istantanea dei dati operazionali. La progressionedelle fotografie scattate viene immagazzinata, generando un film che documenti la situazioneaziendale da un istante zero fino al tempo attuale.I processi decisionali non sono standardizzabili né riconducibili a procedure automatizzate,perché sono influenzati dai modelli di realtà che le persone utilizzano per effettuarele scelte. I sistemi di analisi devono pertanto supportare il processo decisionale seguendoi passaggi logici del decisore e dandogli la possibilità di avere visioni diversamente organizzatedai dati.L’On-Line Analytical Processing (OLAP) è l’insieme dei sottosistemi informativi aziendalipensati per l’analisi interattiva dei dati, ottimizzati per garantire la massima efficienzanell’elaborazione dei dati di sintesi e la massima flessibilità nelle interrogazioni.Solitamente si basano su sistemi in sola lettura, o comunque articolati in modo tale daprivilegiare operazioni di lettura e di aggregazione dei dati, con strutture orientate aglioggetti di analisi.Il database per il processo di analisi ha le seguenti caratteristiche: [Des07]• Entità denormalizzate;• Disegno del database più semplice (meno tabelle e meno associazioni) per unacomprensione più facile da parte dell’utente;• I dati memorizzati possono essere aggregati (riassuntivi);• Le interrogazioni richiedono poche join;• Ottimizzato per la consultazione di grandi moli di dati.Dal momento che i sistemi di analisi, come già detto, accedono ai dati quasi solamentein sola lettura, le proprietà acide osservate precedentemente per i DBMS transazionalipossono essere tralasciate.

1.3 I DBMS ed il loro ruolo 131.3.3 Perché è necessario distinguereL’elevata discrepanza tra le esigenze informative dei diversi livelli operativi e decisionaliaziendali impone, come abbiamo visto in precedenza, l’adozione di sistemi differenziati. Isistemi informativi aziendali devono guidare sia l’attività operativa che quella decisionale.Fino a tempi recenti lo facevano tramite il solo sistema operazionale. Al crescere dellacriticità del processo decisionale e della quantità di dati da elaborare, l’uso di un unicosistema centralizzato come supporto sia operativo che informazionale ha manifestato numerosilimiti.In particolare, il sistema operazionale, strutturato sul concetto di transazione e di processo,si è rilevato carente:• Nella produzione di dati di sintesi, presentati tramite reportistica solitamente rigida,modificabile solo con costi elevati;• Nella possibilità di interrogare interattivamente la base dati, solitamente articolatain modo complesso e accessibile ai soli addetti ai lavori:• Nella disponibilità di dati fondamentali per il processo decisionale, ma non sempreutilizzati o presenti a livello operativo;• Nella velocità di risposta dal momento che la struttura dati è ottimizzata per ilsupporto alle transazioni e non per l’elaborazione di informazioni di sintesi;• Nella copertura temporale, solitamente ridotta per motivi di prestazioni e di occupazionedi memoria di massa , che potrebbe rivelarsi insufficiente per condurreanalisi di tendenza sul medio/lungo periodo.Uno schema delle differenze tra OLTP e OLAP , tra sistemi operazionali e sistemi dianalisi, è mostrato in Tabella 1.2 [PM05].

14 I dati e l’aziendaOLTPOLAPFinalità Supporto all’operatività Supporto al processo decisionaleUtenti Molti, livello operativo Pochi, livello direzionaleDatiElementari, numerici e alfanumericiSintetici, solitamente numericiModalità di utilizzoGuidata, per processi e stati Interrogazioni ad hocsuccessiviQuantità di datiper operazioneBassa: centinaia di record perogni transazioneAlta: milioni di record per ogniqueryelementareQualità In termini di integrità In termini di consistenzaOrientamento Per processo/applicazione Per soggettoFrequenza di aggiornamentoContinua, tramite azioni Sporadica, tramite funzioniespliciteCopertura temporaleDati correntiStoricaOttimizzazione Per accessi in lettura e scritturasu una porzione della basePer accessi in sola lettura sututta la base di datidi datiTabella 1.2: Differenze tra sistemi OLTP e sistemi OLAP.

CAPITOLO 2Introduzione alla Business Intelligence2.1 Data warehousingTra i sistemi di supporto alle decisioni, i sistemi di data warehousing sono probabilmentequelli su cui negli ultimi anni si è maggiormente focalizzata l’attenzione sia nel mondoaccademico sia in quello industriale. È possibile definire in modo informale il data warehousingcome segue:Data warehousing: È una collezione di metodi, tecnologie e strumenti di ausilioal cosiddetto “lavoratore della conoscenza” per condurre analisi dei dati finalizzateall’attuazione di processi decisionali ed al miglioramento del patrimonio informativo.Per capire a fondo il ruolo e l’utilità del data warehousing occorre analizzare le esigenzeche ne hanno decretato la nascita. Kimball riassume efficacemente tali esigenze,evidenziando le lamentele più frequenti mosse dagli utenti.“Abbiamo montagne di dati ma non possiamo accedervi!”. Questa frase esprime la frustrazioneda parte di chi ha il ruolo e la competenza per decidere del futuro aziendale,ma non possiede gli strumenti tecnici per ottenere, nella forma desiderata, i dati necessari.

16 Introduzione alla Business Intelligence“Come è possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmentediversi?”. In un contesto aziendale medio-grande sono tipicamente presentipiù basi di dati, ciascuna relativa a una diversa area del business, spesso memorizzatesu piattaforme logico-fisiche differenti e non integrate dal punto di vista concettuale. Irisultati prodotti all’interno delle diverse aree saranno allora, molto probabilmente, inconsistentitra loro.“Vogliamo selezionare, raggruppare e manipolare i dati in ogni modo possibile!”. Il processodecisionale è difficilmente pianificabile a priori. L’utente finale vorrebbe disporredi uno strumento sufficientemente amichevole e flessibile da consentirgli di condurre l’analisiin modo estemporaneo, lasciandosi guidare dalle informazioni via via ottenute perdecidere sul momento quali nuove correlazioni ricercare.“Mostrami solo ciò che è importante!”. Esaminare i dati al massimo livello di dettaglio ènon solo inutile per il processo decisionale, ma addirittura controproducente, perché nonconsente di focalizzare l’attenzione sulle informazioni veramente significative.“Tutti sanno che alcuni dati non sono corretti!”. Questo è un altro punto dolente. Unapercentuale non trascurabile dei dati transazionali è non corretta, o addirittura assente.Evidentemente, basare il procedimento analitico su dati errati e incompleti non permettedi raggiungere risultati validi.Da questo elenco di difficoltà e problemi possiamo facilmente estrarre un elenco di parolechiave che diventano fattori distintivi e requisiti indispensabili del processo di data warehousing,ossia del complesso di attività che consentono di trasformare i dati operazionaliin conoscenza a supporto delle decisioni:• Accessibilità a utenti con conoscenze limitate di informatica e strutture dati;• Integrazione dei dati sulla base di un modello standard dell’impresa;• Flessibilità di integrazione per trarre il massimo vantaggio dal patrimonio informativoesistente;• Sintesi per permettere analisi mirate ed efficaci;

2.1 Data warehousing 17• Rappresentazione multidimensionale per offrire all’utente una visione intuitivaed efficacemente manipolabile delle informazioni;• Correttezza e completezza dei dati integrati.Al centro del processo vi è il data warehouse, un contenitore di dati che diventa garantedei requisiti esposti. Inmon ne diede una definizione nel 1996.Data warehouse. Un Data Warehouse (DW) è una collezione di dati di supportoper il processo decisionale che presenta le seguenti caratteristiche:• È orientata ai soggetti di interesse;• È integrata e consistente;• È rappresentativa dell’evoluzione temporale e non volatile.Il DW è orientato ai soggetti in quanto in quanto si incentra sui concetti di interessedell’azienda, quali clienti, i prodotti, le vendite, gli ordini. Viceversa, i database operazionalisono organizzati intorno alle differenti applicazioni del dominio aziendale.La condizione di integrità e consistenza è molto importante, in quanto il DW si appoggiaa più fonti di dati eterogenee: dati estratti dall’ambiente di produzione, e quindioriginariamente archiviati in basi di dati aziendali, o addirittura provenienti da sistemiinformativi esterni all’azienda. Di tutti questi dati il DW si impegna a restituire unavisione unificata. La costruzione di un sistema di data warehousing non comporta l’inserimentodi nuove informazioni bensì la riorganizzazione di quelle esistenti, e implicapertanto l’esistenza di un sistema informativo.Infine nel data warehouse i dati non vengono mai rimossi ma solo aggiunti, questa caratteristicaconsente di avere a disposizione sia dati storici che recenti.Un data warehouse può essere consultato direttamente, ma anche essere usato comesorgente per costruirne delle parziali repliche orientate verso specifiche aree dell’impresa.Tali repliche vengono dette data mart.

18 Introduzione alla Business IntelligenceData mart. Con il termine data mart si intende un sottoinsieme o un aggregazionedei dati presenti nel DW primario, contenente l’insieme delle informazioni rilevantiper una particolare area del business, una particolare divisione dell’azienda, unaparticolare categoria di soggetti2.1.1 Componenti di un data warehouseOra che abbiamo compreso gli obiettivi di un sistema di data warehousing, possiamoosservare quali sono i componenti che ne fanno parte. Se ne possono individuare quattro(Figura 2.1), ognuno dei quali ha le proprie funzionalità e il proprio ruolo all’interno delsistema [KRT + 07].Figura 2.1: Componenti di un sistema di data warehousingSistemi Sorgente:Sono costituiti dai sistemi gestionali e amministrativo-contabili di tipo tradizionale o ERP,dai sistemi che interfacciano il mercato (sistemi di CRM), dai sistemi Web e da tutti glialtri sistemi informativi di tipo operativo e/o transazionali [Pas04]. Devono essere visticome parti esterne rispetto al sistema di data warehousing, poiché probabilmente si avràpoco o nessun controllo sul contenuto e la forma dei dati che essi contengono. Questisistemi solitamente mantengono pochi dati storici. Avere a disposizione un buon data

2.1 Data warehousing 19warehouse solleva la gran parte della responsabilità di rappresentare il passato ai sistemisorgente.Staging Area:La staging area di un data warehouse è composta da due parti: un’area di memorizzazionedei dati e un insieme di procedure comunemente dette extraction-transformation-loading(ETL). Si colloca tra i sistemi sorgente e l’area di presentazione. Kimball paragona lastaging area alla cucina di un ristorante, nella quale gli ingredienti vengono trasformatiper un buon pasto. I dati operazionali vengono infatti trasformati e consegnati al datawarehouse in una forma appropriata per il loro consumo, ossia la loro elaborazione perprodurre informazioni utili all’azienda. Come per la cucina di un ristorante anche lastaging area sarà accessibile solamente da professionisti qualificati e per tanto risulteràessere off-limits per gli utenti business. Inoltre non sarà predisposta per servizi di interrogazionee di presentazione, così come i clienti di un ristorante non sono invitati amangiare in cucina.La presenza e l’utilizzo di questo componente dipende dall’architettura adottata perrealizzare il sistema di data warehousing, come verrà esposto in seguito.Area di presentazione:L’area di presentazione è la parte dove i dati sono organizzati, conservati, e resi disponibiliper l’interrogazione diretta da parte di utenti, autori di report, e altre applicazionianalitiche. Per la comunità imprenditoriale l’area di presentazione coincide con il datawarehouse, in quanto è tutto quello che possono vedere e toccare mediante gli appositistrumenti in loro possesso. È fortemente consigliabile che i dati vengano presentati,memorizzati e siano accessibili in schema dimensionali (il modello multidimensionale èdescritto nel capitolo 4), in quanto risultano essere di più facile uso per gli utenti di datawarehouse.Strumenti di accesso ai dati:È l’insieme degli strumenti di front-end che gli utenti business hanno a loro disposizioneper consultare l’area di presentazione. Possono essere semplici strumenti per eseguirequery ad hoc oppure strumenti che eseguono analisi più complesse, come verrà illustrato

20 Introduzione alla Business Intelligencenel paragrafo 2.3.1. Tuttavia nell’80-90 per cento dei casi gli utenti utilizzano applicazioniche forniscono automaticamente e ad intervalli di tempo prestabiliti informazioni strutturatein modo pressoché invariabile e che quindi non implicano la costruzione direttadi query. In ogni caso questi strumenti dovranno possedere un motore di ottimizzazionedelle interrogazioni, a prescindere dal fatto che esse vengano o meno costruite dell’utente.2.1.2 Architetture per il data warehousingCome accennato nel paragrafo precedente la presenza e le modalità di utilizzo della stagingarea definiscono l’architettura del sistema di data warehousing. La scelta dell’architetturada utilizzare dipende delle esigenze e dal tipo dell’organizzazione entro la quale il progettodovrà essere realizzato, tuttavia esistono caratteristiche irrinunciabili per un sistema didata warehousing che possono essere così enunciate: [GR06]• Separazione: l’elaborazione analitica e quella transazionale devono essere mantenuteil più possibile separate;• Scalabilità: l’architettura hardware e software deve poter essere facilmente ridimensionataa fronte della crescita nel tempo dei volumi di dati da gestire ed elaboraree del numero di utenti da soddisfare;• Estendibilità: deve essere possibile accogliere nuove applicazioni e tecnologie senzariprogettare integralmente il sistema;• Sicurezza: il controllo sugli accessi è essenziale a causa della natura strategica deidati memorizzati;• Amministrabilità: la complessità dell’attività di amministrazione non deve risultareeccessiva.In seguito vengono presentati alcuni modelli architetturali.Architettura a un livelloÈ un’architettura scarsamente utilizzata nella pratica. Ha come obiettivo quello di minimizzarela quantità di dati memorizzati eliminando le ridondanze. Come mostrato inFigura 2.2 il data warehouse in questo caso è virtuale, poiché viene implementato comeuna vista multidimensionale dei dati operazionali da un apposito middleware.

2.1 Data warehousing 21Figura 2.2: Architettura ad un livello per un sistema di data warehousingUna tale architettura presenta i seguenti punti deboli:• Non rispetta il requisito di separazione dell’elaborazione analitica da quella transazionale.Le interrogazioni di analisi vengono infatti ridirette sui dati operazionalidopo essere state reinterpretate dal middleware, interferendo così con il normalecarico di lavoro transazionale;• I requisiti di integrazione e correttezza dei dati possono essere soddisfatti, ma conun’elevata complessità;• È impossibile avere un livello di storicizzazione superiore a quello delle sorgenti.Architettura a due livelliCon questa architettura si riesce a soddisfare il requisito di separazione, come si evincedalla Figura 2.3. Nonostante si articoli su quattro livelli distinti viene chiamata architetturaa due livelli per evidenziare la separazione tra le sorgenti e il data warehouse. I datiche il data warehouse utilizzerà sono contenuti in database aziendali relazionali o legacy,oppure provenienti da sistemi informativi esterni all’azienda (livello delle sorgenti). Talidati saranno estratti, ripuliti per eliminare le inconsistenze e completare eventuali parti

22 Introduzione alla Business IntelligenceFigura 2.3: Architettura a due livelli per un sistema di data warehousingmancanti, integrati per fondere sorgenti eterogenee secondo uno schema comune, mediantegli strumenti ETL accennati precedentemente ed approfonditi nel paragrafo 2.1.3(livello di alimentazione). Le informazioni vengono raccolte nel data warehouse che potràessere direttamente consultato o usato come sorgente per costruire data mart (livello delwarehouse). Accanto al DW, il contenitore dei metadati mantiene informazioni sulle sorgenti,sui meccanismi di accesso, sulle procedure di pulitura e alimentazione, sugli utenti,sugli schemi dei data mart ecc. Infine si potranno consultare in modo efficiente e flessibilei dati integrati a fini di stesura di report, di analisi e di simulazione (livello di analisi).Architettura a tre livelliAl livello delle sorgenti e quello del data warehouse, viene aggiunto un terzo livello cheviene chiamato livello dei dati riconciliati. Questo livello materializza i dati operazionaliottenuti a valle del processo di integrazione e ripulitura dei dati sorgente: quindi datiintegrati, consistenti, corretti, volatili, correnti e dettagliati. Il data warehouse non verràquindi più alimentato direttamente dalle sorgenti, ma dai dati riconciliati.

2.1 Data warehousing 23Un vantaggio di questa architettura, mostrata in Figura 2.4, è che il livello dei dati riconciliaticrea un modello di dati comune e di riferimento per l’intera azienda, introducendoal contempo una separazione netta tra le problematiche legate all’estrazione e integrazionedei dati dalle sorgenti e quelle inerenti l’alimentazione del DW. Tuttavia presenta losvantaggio di introdurre un’ulteriore ridondanza rispetto ai dati operazionali sorgente.Figura 2.4: Architettura a tre livelli per un sistema di data warehousing

24 Introduzione alla Business Intelligence2.1.3 Gli strumenti ETLIl ruolo degli strumenti di extraction-trasformation-loading è quello di alimentare unasorgente dati singola, dettagliata, esauriente e di alta qualità che possa a sua volta alimentareil data warehouse. Le procedure di popolamento del data warehouse possonoraggiungere elevati livelli di complessità, in relazione alle discrepanze esistenti tra le sorgenti,al loro livello di correttezza e al livello di precisione rappresentativa nel tempo chesi desidera mantenere nel sistema informazionale. Sono caratterizzate da una sequenza difasi che dipende dalle politiche di aggiornamento che si è deciso di adottare, politiche cheprevedono azioni più o meno articolate da parte delle procedure di popolamento. La complessitàdi queste procedure è tale che sul mercato sono presenti diversi prodotti softwareorientati specificamente al supporto delle fasi di estrazione, pulizia, trasformazionee caricamento dei dati nel processo di alimentazione del data warehouse.Occorre precisare che, nella letteratura, i confini tra pulitura e trasformazione sono spessosfumati dal punto di vista terminologico, per cui è spesso poco chiara l’attribuzione diuna specifica operazione all’uno o all’altro processo.EstrazioneLe operazioni di estrazione sono eseguite all’atto dell’inizializzazione del livello riconciliatoper essere poi ripetute periodicamente, in base all’intervallo di aggiornamento stabilitodal progettista, al fine di acquisire informazioni relative agli eventi verificatisi durantela vita del sistema. I dati che andranno a popolare il data warehouse sono solo quelliessenziali all’analisi e non tutti i dati ospitati sui sistemi di origine. Esistono due tipologiedi approcci all’estrazione:• Estrazione statica: vengono trattati tutti i dati presenti nelle sorgenti operazionali.È l’unica soluzione possibile all’atto dell’inizializzazione, ma può essere impiegataogni qual volta la quantità ridotta dei dati lo permetta;• Estrazione incrementale: con questo approccio vengono presi in considerazione isoli dati prodotti o modificati dalle sorgenti nell’intervallo di tempo intercorso dall’ultimoaggiornamento del data warehouse. Può essere suddiviso ulteriormentein immediato e ritardato. Nel primo caso ogni modifica ai dati viene registrataimmediatamente, mentre nel secondo caso posticipano tale operazione.

2.1 Data warehousing 25L’estrazione incrementale generalmente si basa sui log mantenuti dal DBMS transazionale.Inoltre l’estrazione può anche essere guidata dalle sorgenti in quei casi in cui è possibilericevere, in modo asincrono, le notifiche delle modifiche dalle applicazioni operazionali.PuliziaSpesso i dati provenienti dalle sorgenti non sono di qualità adeguata agli standard richiestiper il sistema informazionale. Devono quindi essere applicate analisi in grado di rilevaree possibilmente correggere le situazioni che potrebbero essere critiche o condurre a errori.Tra gli errori e le inconsistenze tipiche che rendono “sporchi” i dati segnaliamo: [GR06]• Dati duplicati (per esempio, un cliente che compare più volte nell’anagrafica);• Inconsistenza tra valori logicamente associati (per esempio, tra i dati della personaed il suo codice fiscale);• Dati mancanti (per esempio, la professione di un cliente);• Uso non previsto di un campo (per esempio il campo destinato al codice fiscaleusato per memorizzare il numero di telefono d’ufficio);• Valori impossibili o errati (per esempio, 30/02/2011);• Valori inconsistenti per la stessa entità dovuti a differenti convenzioni (per esempio,la nazione indicata mediante sigla piuttosto che con il nome completo) eabbreviazioni (per esempio, ‘Piazza Garibaldi’ e ‘P.za Garibaldi’);• Valori inconsistenti per la stessa entità dovuti a errori di battitura (per esempio,‘Piazza Garibaldi’ e ‘Piazza Gribaldi’).Per correggere errori di scrittura e riconoscere sinonimi vengono utilizzati degli appositidizionari, mentre per stabilire le corrette corrispondenze tra valori vengono applicateregole proprie del dominio applicativo.TrasformazioneDurante questa fase vengono eseguite le trasformazioni necessarie a conformare i dati dellesorgenti alla struttura del data warehouse; in caso di architettura a tre livelli l’output diquesta fase è il livello dei dati riconciliati. La presenza di più fonti eterogenee complica

26 Introduzione alla Business Intelligencenotevolmente questa fase, in quanto viene richiesta una complessa fase di integrazione.Nella fase di trasformazione possono essere effettuate molte operazioni, tra cui:• Conversione e normalizzazione: operano a livello di formato di memorizzazione edi unità di misura per uniformare i dati;• Matching: Stabilisce le corrispondenze tra campi equivalenti in sorgenti diverse;• Selezione: riduce il numero di campi e di record rispetto alle sorgenti.Negli strumenti ETL le attività di pulitura e trasformazione sono spesso allacciate esovrapposte.CaricamentoAl termine, si procede al caricamento vero e proprio dei dati sul data warehouse. Questaprocedura può avvenire in due modalità.Refresh. I dati vengono completamente riscritti all’interno del DW. Viene solitamenteutilizzata insieme all’estrazione statica durante la fase di inizializzazione.Update. Vengono aggiunti al DW i soli cambiamenti verificatisi nelle sorgenti operazionali.Questa tecnica viene solitamente utilizzata in abbinamento all’estrazione incrementaleal fine di ottenere un aggiornamento periodico del DW.2.2 Il modello multidimensionaleLa progettazione di data warehouse e data mart si basa su un paradigma di rappresentazionemultidimensionale dei dati, in grado di offrire un duplice vantaggio: sotto il profilofunzionale, risulta efficace per garantire tempi di risposta rapidi a fronte di interrogazionicomplesse; sul piano logico, le dimensioni corrispondono in modo naturale ai criteri dianalisi utilizzati dai knowledge worker [Ver06].Il modello multidimensionale si basa sul fatto che gli oggetti che influenzano il processodecisionale sono fatti del mondo aziendale come ad esempio le vendite o le spedizioni. Leoccorrenze di un fatto vengono dette eventi: ogni singola vendita o spedizione effettuataè un evento. Per ciascun fatto, interessano in particolare i valori di un insieme di misureche descrivono quantitativamente gli eventi.

2.2 Il modello multidimensionale 27La quantità degli eventi all’interno di una azienda è troppo elevata per poter analizzareogni singolo evento singolarmente. Per questo motivo per poterli agevolmente selezionaree raggruppare (come vedremo nel capitolo 5) si immagina di collocarli in uno spazion-dimensionale, i cui assi vengono chiamati appunto dimensioni di analisi. Per esempionel caso in cui il fatto in questione siano le vendite, le dimensioni di analisi potrebberoessere: i prodotti, i negozi e le date.Il concetto di dimensione genera la metafora del cubo.Cubo multidimensionale. Un cubo multidimensionale è incentrato su un fattodi interesse per il processo decisionale. Esso rappresenta un insieme di eventi, descrittiquantitativamente da misure numeriche. Ogni asse del cubo rappresenta unapossibile dimensione di analisi.Figura 2.5: Cubo multidimensionale che modella le vendite in una catena di negoziOvviamente se le dimensioni sono più di tre, si tratta più propriamente di un ipercubo.

28 Introduzione alla Business IntelligenceNormalmente ciascuna dimensione è associata ad una gerarchia di livelli di aggregazioneche ne raggruppa i valori in diversi modi. I livelli che compaiono nella gerarchia vengonodetti attributi dimensionaliFigura 2.6: Una possibile gerarchia per la dimensione negozi2.2.1 Modellazione concettuale: il Dimensional Fact ModelUn modello concettuale deve per definizione fornire una serie di strutture, dette costrutti,atte a descrivere la realtà di interesse in una maniera facile da comprendere e che prescindedai criteri di organizzazione dei dati nei calcolatori [ACPT06]. Il modello Entity/Relationship è un modello concettuale molto diffuso nelle imprese per la progettazione edocumentazione di basi di dati relazionali.Mentre è ormai universalmente riconosciuto che un data mart si appoggia su una visionemultidimensionale dei dati, non c’è ancora accordo su come portare a termine laprogettazione concettuale a partire dai requisiti utente. Non esiste infatti un modelloconcettuale adottato universalmente per la progettazione e documentazione di basi didati per il data warehousing. Il modello Entity/Relationship non risulta essere adatto atale scopo in quanto non è in grado di mettere correttamente in luce gli aspetti peculiari

2.2 Il modello multidimensionale 29del modello multidimensionale, senza contare che risulterebbe poco economico dal puntodi vista grafico-notazionale.Il Dimensional Fact Model (DFM), proposto da Golfarelli nel 1998, è un modello concettualespecificamente concepito per fungere da supporto alla progettazione di data mart;è essenzialmente di tipo grafico, e può essere considerato come una specializzazione delmodello multidimensionale per applicazioni di data warehousing. La rappresentazioneconcettuale generata dal DFM consiste in un insieme di schemi di fatto. Gli elementi dibase modellati dagli schemi di fatto sono i fatti, le misure, le dimensioni, le gerarchie egli attributi dimensionali. In questa sede non saranno trattati gli aspetti di modellazioneavanzata.Nelle Figure 2.7 e 2.8 sono riportati lo schema di fatto e lo schema Entity/Relationshiprelativi alle vendite.Figura 2.7: Semplice schema di fatto delle venditeFigura 2.8: Schema Entity/Relationship corrispondente allo schema di fatto di Figura 2.7

30 Introduzione alla Business IntelligenceCome si può evincere dalla figura, un fatto è raffigurato da un rettangolo che ne riporta ilnome insieme ai nomi delle eventuali misure; le dimensioni sono rappresentati da piccolicerchi collegati al fatto tramite linee. È importante evidenziare come un fatto esprimeun’associazione molti-a-molti tra le dimensioni. Per tale motivo lo schema Entity/Relationshipcorrispondente ad uno schema di fatto consiste in un’associazione n-aria traentità che modellano le dimensioni.Le gerarchie vengono rappresentate da alberi direzionati i cui nodi sono attributi dimensionalie i cui archi modellano associazioni molti-a-uno tra coppie di attribuiti dimensionali.La Figura 2.9 ne fornisce una rappresentazione.Figura 2.9: Schema di fatto delle vendite arricchitoSe si volesse tradurre questo schema di fatto nel corrispondente schema E/R si avrebbeun’esplosione in termini grafico-notazionali, come già si era accennato in precedenza.Tutti gli attributi dimensionali all’interno di uno schema di fatto devono avere nomidiversi tra loro. Nomi uguali possono essere differenziati qualificandoli con il nome diun attributo dimensionale che li precede nella gerarchia (per esempio, citta negozio ecitta marca).

2.2 Il modello multidimensionale 312.2.2 Modellazione logicaMentre per la fase di modellazione concettuale non ci si deve preoccupare delle scelte chesi dovranno fare durante la fase di modellazione logica, per quest’ultima non si può direla stessa cosa. Sarà infatti in questa fase che si dovrà scegliere il DBMS da utilizzaredurante la progettazione fisica. I dati soggetti ad analisi possono essere rappresentatisecondo due modelli logici: quello relazionale, che dà luogo ai cosiddetti sistemi ROLAP(Relational OLAP), e quello multidimensionale, per il quale i sistemi utilizzati vengonodetti MOLAP (Multidimensional OLAP).Esiste anche una terza soluzione, intermedia alle due appena menzionate ed è il cosiddettoHOLAP (Hybrid OLAP).2.2.2.1 I sistemi ROLAPAdottare una soluzione di questo genere implica il dover modellare i concetti multidimensionaliosservati fin ora in elementi bidimensionali, ovvero le tabelle del modellorelazionale. Una tale operazione viene effettuata mediante il cosiddetto star schema(Figura 2.10).Figura 2.10: Star schema per le vendite

32 Introduzione alla Business IntelligenceUno schema a stella è composto da:• Un insieme di tabelle, chiamate tabelle delle dimensioni (dimension table). Ciascunadi queste tabelle è caratterizzata da una chiave primaria e da un insieme diattributi che descrivono le dimensioni di analisi a diversi livelli di aggregazione;• Una tabella chiamata tabella dei fatti (fact table) in cui sono presenti le chiavi ditutte le tabelle delle dimensioni. La chiave primaria di questa tabella sarà datadall’insieme delle chiavi esterne delle dimension table. La tabella dei fatti contieneinoltre un attributo per ogni misura.La visione multidimensionale si ottiene eseguendo il join tra la fact table e le dimensiontable.La seguente query SQL fornisce la quantità e l’incasso totale delle vendite di surgelatirelative all’anno 2010 per la regione Emilia Romagna, raggruppata per responsabili.1 SELECT DT2. r e s p o n s a b i l e , SUM(FT. quantita ) , SUM(FT. i n c a s s o )2 FROM Vendite FT, Prodotto DT1, Negozio DT2, Data DT33 WHERE FT. prodotto = DT1. prodotto ID AND4 FT. negozio = DT2. negozio ID AND5 FT. data = DT3. data ID AND6 DT1. c a t e g o r i a = ’ s u r g e l a t i ’ AND7 DT2. r e g i o n e = ’ Emilia Romagna ’ AND8 DT3. anno = 20109 GROUP BY DT2. r e s p o n s a b i l eSi noti come le dimension table violino la terza forma normale, ovvero contengono attributiche dipendono transitivamente da una chiave. Una tale situazione introduce unaridondanza e per tanto richiede più spazio per la memorizzazione dei dati, ma allo stessotempo richiede un minor numero di join per reperire le informazioni. Si potrebbe peròessere interessati ad avere uno schema logico più vicino agli enunciati della teoria relazionale;lo snowflake schema (Figura 2.11) lo permette in quanto caratterizzato da unaparziale normalizzazione delle dimension table.

2.2 Il modello multidimensionale 33Uno schema snowflake è ottenibile da uno schema a stella scomponendo una o più dimensiontable in più tabelle, in modo tale da eliminare alcune delle dipendenze funzionalitransitive in esse presenti. Le tabelle delle dimensioni le cui chiavi sono importate nellafact table vengono dette primarie, mentre chiameremo secondarie le rimanenti.In questo modo è possibile trovare il giusto compromesso tra spazio in memoria utilizzatoe numero di join da effettuare per ricavare l’informazione desiderata. Si noti come a ognipasso di normalizzazione corrisponda un arco nello schema di fatto e una sotto-gerarchiache invece verrà memorizzata in una tabella a parte.Affinchè lo snowflaking sia efficace, tutti gli attributi del sottoalbero dell’attributo da cuiha origine la normalizzazione devono essere spostati nella nuova relazione.La scelta di mappare elementi del mondo multidimensionale nel modello relazionale potrebbeapparire una forzatura. Tuttavia una tale scelta è giustificata da un insieme dimotivazioni di varia natura, prima fra tutte la constatazione che il modello relazionaleè di fatto lo standard nel settore dei database. Inoltre, l’evoluzione subita dai DBMSrelazionali nell’arco degli anni della loro presenza sul mercato ne fa degli strumenti estremamenteraffinati ed ottimizzati.Figura 2.11: Snowflake schema ottenuto mediante una parziale normalizzazione dello starschema di Figura 2.10

34 Introduzione alla Business Intelligence2.2.2.2 I sistemi MOLAPNell’approccio MOLAP il data warehouse memorizza i dati usando strutture intrinsecamentemultidimensionali: i dati vengono fisicamente memorizzati in vettori e l’accesso èdi tipo posizionale. Il sistema alloca una cella per ogni possibile combinazione dei valoridelle dimensioni e l’accesso ad un fatto avviene in modo diretto, sulla base delle coordinatefornite.L’utilizzo di una tale soluzione rappresenta la soluzione naturale per un sistema di datawarehousing e può fornire prestazioni ottimali, in quanto le operazioni di query multidimensionalenon devono essere simulate mediante complesse istruzioni SQL. Il principaleproblema a cui però è soggetta la soluzione MOLAP, è la sparsità dei dati, rappresentatain Figura 2.12.Figura 2.12: Rappresentazione del fenomeno di sparsità dei dati: in bianco le celle relativead eventi effettivamente accadutiMediamente in un cubo multidimensionale meno del 20% delle celle contiene effettivamentedelle informazioni, mentre le restanti celle risultano essere vuote poiché corrispondonoad eventi non accaduti. La memorizzazione di celle non informative provoca uno sprecodello spazio su disco.Il fenomeno della sparsità dei dati viene affrontato partizionando il cubo n-dimensionalein questione, in più sottocubi n-dimensionali che vengono detti chunk. Si parla di chunkdensi, se la maggior parte delle celle contengono dati, chunk sparsi altrimenti [GR06].Un tale approccio permette di operare su blocchi di dati di dimensione inferiore e chequindi potranno essere caricati agevolmente in memoria.

2.2 Il modello multidimensionale 35Figura 2.13: Suddivisione del cubo multidimensionale in chunk: in bianco i chunk densiSi osserva però che la memorizzazione diretta di chunk sparsi comporta un notevole sprecodi spazio dovuto alla rappresentazione delle celle che non contengono informazioni. Perquesto motivo i chunk sparsi vengono utilizzati mediante un indice che riporta l’offsetdelle sole celle che contengono informazioni.Oltre al problema relativo allo spreco di memoria, un altro fattore debilitante per ladiffusione dei sistemi MOLAP è costituito dalla mancanza di standard. I diversi strumentidisponibili sul mercato sono accomunati dai soli principi di base (come può essere lagestione della sparsità), mentre non si è a conoscenza dei dettagli implementativi. Nonesiste infatti uno standard di interrogazione che svolga il ruolo che l’SQL svolge nei sistemirelazionali.2.2.2.3 Slowly Changing Dimensions (SCD)Per quanto è stato detto fino ad ora si potrebbe pensare che l’unica componente dinamicadel modello multidimensionale siano i fatti e i relativi eventi che lo instanziano, portandocia pensare che le dimensioni, e di conseguenza le gerarchie, siano caratterizzate da unanatura statica. Ciò non sempre è vero. Può infatti capitare che la categoria di un prodottovenga cambiata, oppure che un negozio venga spostato da un distretto all’altro, o ancorache un cliente cambi agente. Kimball (1996) chiama questo fenomeno slowly changingdimensions. Un tale fenomeno richiede modifiche, seppur minime, alle dimensioni ed èda considerarsi come un evento straordinario legato alla manutenzione del data mart.Per far fronte allo slowly changing dimensions, durante la fase di modellazione logica saràpossibile scegliere fra tre tipi di tecniche (più una ibrida): [KRT + 07]

36 Introduzione alla Business Intelligence• Tipo 1 : Sovrascrittura (Overwrite). È una tecnica che prevede la semplice sovrascritturadi uno o più attributi nelle dimensioni esistenti. Il vecchio valore andràperso, per tanto è bene utilizzare questa metodologia quando non si ha interesse nelmemorizzare lo storico per l’attributo dimensionale in questione. Si supponga diporsi nello scenario in cui una tale modifica debba essere effettuata su uno schemaa stella (ovvero uno scenario nel quale è stata adottata una soluzione ROLAP). Nelmomento in cui interverrà una modifica a un valore di una tupla della dimensiontable sarà sufficiente sovrascrivere il vecchio valore con il nuovo. Come conseguenzatutti i dati della fact table vengono associati al nuovo valore della dimension table.• Tipo 2 : Creazione di una nuova riga (Create new row). È la tecnica standardper registrare la verità storica, ovvero consente di modificare le dimensioni inmodo che esse vengano poi associate correttamente ai fatti. Nell’esempio di unostar schema gli eventi della fact table dovranno essere associati ai dati dimensionaliche erano validi quando si è verificato l’evento. Per realizzare questa tecnica basteràaggiungere una nuova riga nella dimension table appropriata, senza andare adeliminare quella vecchia. Al vecchio record non sarà più possibile associare nessunnuovo evento. Per il soddisfacimento di un tale vincolo è possibile aggiungere unacolonna contenente un flag che indichi la versione corrente, oppure assegnare adogni versione una data di inizio ed una data di fine, la versione in cui la data di finenon è stata settata sarà quella corrente.• Tipo 3 : Aggiunta di una nuova colonna (Add a new column). Questatecnica supporta variazioni degli attributi che avvengono in modo poco frequente.Essa infatti dimostra una minor flessibilità ai cambiamenti rispetto la tecnica ditipo 2. Mentre per quest’ultima ogni cambiamento richiedeva l’aggiunta di unanuova riga, per la tecnica di tipo 3 è richiesta la valorizzazione di apposite colonne.Il numero delle colonne a disposizione è stabilito in fase di progettazione e per tantoil livello di storicizzazione risulta essere limitato. Tuttavia rende possibile riferirsiad un attributo che conterrà sia il nuovo che il vecchio valore.• Tecnica ibrida. Si basa sulla combinazione delle tecniche viste fino ad ora eviene talvolta indicata come tecnica di tipo 6 (1+2+3 = 6). Per esempio, puòessere impiegata per avere la gestione dello storico offerto dalle soluzioni di tipo2, ma con la possibilità di raggiungere agevolmente il valore corrente dell’attributo

2.3 La Business Intelligence (BI) 37partendo dai vecchi valori. Quest’ultima caratteristica può essere ottenuta mediantela tecnica di tipo 3 memorizzando per ogni vecchio valore anche il valore correntein un’apposita colonna.Prima di affrontare la scelta della tecnica con la quale si desidera fronteggiare lo slowlychanging dimensions occorre precisare che l’adozione di gerarchie dinamiche implica unsovraccosto in termini di spazio e può comportare una forte riduzione delle prestazioni.È quindi indispensabile valutare con attenzione i casi in cui impiegarle.2.3 La Business Intelligence (BI)L’aumento esponenziale del volume dei dati operazionali ha reso il calcolatore l’unico supportoadatto al processo decisionale, inoltre l’utilizzo massiccio di tecniche di analisi deidati aziendali ha reso il sistema informativo un elemento strategico per la realizzazionedel business. Per questi motivi il ruolo dell’informatica è passato da passivo strumentoper la registrazione delle operazioni, a fattore decisivo per l’individuazione di elementicritici dell’organizzazione e di potenziali aree di business.Il termine Business Intelligence venne introdotto nel 1989 da Howard Dresner, per indicareun insieme di strumenti e procedure che consentono a un’azienda di trasformare ipropri dati di business in informazioni utili al processo decisionale, da rendere disponibilialla persona giusta e nel formato idoneo. Le informazioni ottenute sono utilizzate daidecisori aziendali (decision maker) per definire e supportare le strategie di business.L’insieme delle applicazioni IT in un’azienda viene detto portafoglio applicativo (Figura2.14) e può essere diviso in tre segmenti principali:• Portafoglio direzionale: è l’insieme delle applicazioni utilizzate dai manageraziendali per analizzare lo stato dell’azienda e prendere le decisioni migliori nelminor tempo possibile;• Portafoglio operativo:primari dell’azienda;comprende le applicazioni informatiche per i processi• Portafoglio istituzionale: comprende le applicazioni informatiche per i processidi supporto, quali amministrazione, gestione delle risorse umane, contabilità.

38 Introduzione alla Business IntelligenceFigura 2.14: Rappresentazione del portafoglio applicativo aziendaleIl portafoglio direzionale viene anche detto piattaforma per la Business Intelligence. Essa,al fine di garantire ai manager analisi potenti e flessibili, deve possedere un’appositainfrastruttura hardware e software di supporto composta da:• Hardware dedicato;• Infrastrutture di rete;• DBMS;• Software di back-end;• Software di front-end.Il ruolo chiave di una piattaforma di business intelligence è la trasformazione dei datiaziendali in informazioni fruibili a diversi livelli di dettaglio e, quindi, in conoscenza.La Figura 2.15 rappresenta quella che viene chiamata piramide della Business Intelligence.Decisioni efficaci e tempestive:L’abilità individuale e collettiva dei decision maker, che possiamo indicare con il terminedi knowledge worker, rappresenta uno dei principali fattori che influenzano le prestazionie la competitività di un’organizzazione.

2.3 La Business Intelligence (BI) 39Figura 2.15: Piramide della Business Intelligence: dai dati alla conoscenzaLa maggior parte dei knowledge worker elabora le proprie decisioni utilizzando in modoprevalente metodologie semplici e intuitive, che tengono conto di elementi quali esperienzepassate, conoscenza del contesto, informazioni disponibili. Questa attitudine determinauno stile decisionale di indole statica, che trova difficoltà ad adattarsi a condizioni mutevolideterminate dai cambiamenti dell’ambiente economico. Nelle situazioni reali, iprocessi decisionali risultano troppo complessi e dinamici per essere affrontati con efficaciamediante analisi intuitive, e richiedono invece un ordinamento più rigoroso, basato sumetodologie analitiche e modelli matematici.Un ambiente di business intelligence si propone di offrire ai knowledge worker strumentie metodologie che permettono di individuare decisioni efficaci e tempestive.Decisioni efficaci. Se il decision maker dispone di informazioni e conoscenze più attendibili,ricavate sulla base di rigorose analisi quantitative, è in grado di formulare decisioni epiani d’azione che consentono di realizzare con maggiore efficacia gli obiettivi prefissati.In effetti, il ricorso a strumenti formali di indagine induce i decision maker a descrivere inmodo esplicito i criteri di valutazione delle scelte alternative e i meccanismi che regolano ilfenomeno analizzato. L’attività di studio e di riflessione che ne scaturisce determina unamaggiore consapevolezza e una comprensione più approfondita della logica che governail processo decisionale.

40 Introduzione alla Business IntelligenceDecisioni tempestive. Le imprese operano in contesti economici caratterizzati da un elevatolivello competitivo e da forte dinamicità. Di conseguenza, la capacità di reagirein modo tempestivo alle azioni dei competitori e alle nuove condizioni di mercato rappresentaun fattore decisivo per determinare il successo di un’impresa o addirittura perconsentire la sua sopravvivenza.Se il decision maker dispone di un ambiente di business intelligence in grado di facilitareil suo compito, ci possiamo attendere che la qualità del processo decisionale netragga un complessivo beneficio [Ver06].2.3.1 Accedere al data warehouseFino ad oggi lo strumento principe per la Business Intelligence è stato sicuramente il DataWarehouse, le cui installazioni si stanno rapidamente consolidando, oltre che nelle grandiaziende anche in quelle di media dimensione. In particolare possiamo elencare alcuni deimeriti che sono riconosciuti al DW: [GR06]• Consente di gestire serie storiche dei dati;• Permette di effettuare analisi multidimensionali;• Si basa su un modello semplice che può essere facilmente assimilato dai manager;• È alla base dei sistemi per il calcolo degli indicatori.Nel capitolo 3 abbiamo accennato a strumenti di accesso ai dati come una componentedei sistemi di data warehousing. Li avevamo definiti come degli strumenti di front-end chegli utenti business hanno a loro disposizione per consultare l’area di presentazione, ovveroil data warehouse. Di seguito presenteremo i due principali approcci all’interrogazione diun DW da parte degli utenti finali: la reportistica e l’analisi multidimensionale.ReportisticaÈ un approccio che permette agli utenti di accedere in modo tempestivo ai dati contenutinei DW e nei data mart. Solitamente l’accesso avviene a intervalli di tempo predefinitie le informazioni che si ricavano sono strutturate in modo invariabile. Proprio per quest’ultimoaspetto solitamente l’interrogazione viene definita a priori secondo quelle che

2.3 La Business Intelligence (BI) 41sono le necessità dell’utente e successivamente integrata in un’applicazione. In questomodo l’utilizzatore di tale applicazione potrà eseguire l’interrogazione quando più ne habisogno sui dati correnti.Un rapporto (o report) è scomponibile in due parti: interrogazione e presentazione. L’interrogazioneè la parte che andrà a reperire i dati di interesse dal DW o data mart, mentrela presentazione provvede a presentare i dati ottenuti in forma grafica o tabellare. Lavalidità di uno strumento di reportistica non è data solo dalla ricchezza nella presentazionedei rapporti, ma anche dalla flessibilità dei meccanismi per la loro distribuzione.Un rapporto infatti può essere sia generato manualmente dall’utente che automaticamenteper una distribuzione periodica agli utenti interessati, per esempio mediante postaelettronica.Analisi multidimensionaleL’analisi multidimensionale è la più nota modalità di reperimento di informazioni contenutein un data warehouse. Si differenzia dalla reportistica statica proprio grazie allasua dinamicità, permette infatti di soddisfare quegli utenti le cui necessità di analisi nonsono ben note a priori. Mentre con gli strumenti di reportistica l’utente era limitato adun ruolo passivo, con gli strumenti di analisi multidimensionale l’utente svolge un ruoloattivo durante tutta la sessione di analisi.Facendo riferimento al concetto di cubo multidimensionale, trattato nel capitolo 4, definiamoora le operazioni che vengono utilizzate durante l’analisi multidimensionale, lecosiddette operazioni OLAP. Come prima cosa osserviamo quegli operatori che permettonodi modellare la dimensione del cubo e quindi la quantità di dati che esso contiene.È possibile individuare due categorie distinte.Restrizione. La grandezza del cubo viene ridotta mediante l’imposizione di vincolisugli attributi dimensionali. Esistono sostanzialmente due operatori all’interno di questacategoria:• Slice: il cubo viene “tagliato a fettine”. La sua dimensionalità infatti viene ridottafissando un valore per una o più delle dimensioni originarie. Per esempio, per levendite potrebbe essere richiesto di osservare le sole vendite dell’anno 2010, in questomodo viene eliminata la dimensione tempo. Oppure si potrebbe voler osservare le

42 Introduzione alla Business Intelligencesole vendite del negozio x relativamente al prodotto y, in tal caso ad essere eliminatesaranno la dimensione negozio e prodotto;• Dice: il cubo viene “tagliato a cubetti”. Viene ridotto l’insieme dei dati attraversola formulazione di un criterio di selezione complesso. Tipicamente la dimensionalitàrimane invariata. Per esempio, per le vendite se si vuole visualizzare le sole venditetra il 2004 ed il 2010 per i soli prodotti che presentano un costo superiore ai 100 euro.Si osserva che con l’imposizioni di tali vincoli la dimensionalità rimane invariata.Figura 2.16: Operatori di slice-and-diceNella letteratura queste due operazioni vengono racchiuse nel termine slice-and-dice (letteralmente,tagliare a fettine e cubetti).Aggregazione. L’aggregazione è un meccanismo di fondamentale importanza nelle basidi dati multidimensionali. Si supponga di voler analizzare le vendite nel loro dettagliomensile, anziché a livello giornaliero; ciò significa dover raggruppare, per ciascun prodottoe negozio tutte le celle relative ai giorni di uno stesso mese in un’unica macro-cella.L’aggregazione può essere operata contemporaneamente su più dimensioni, ovvero si potrebbedecidere di aggregare le vendite per mese, tipo di prodotto e città del negozio.Anche in questo caso si possono individuare due operatori:• Roll-up: talvolta indicato col termine drill-up, significa letteralmente arrotolare oalzare. Con questa operazione si induce un aumento nell’aggregazione dei datieliminando un livello di dettaglio da una gerarchia. Può essere utilizzata anche perridurre la dimensionalità del risultato, qualora tutti i dettagli di una certa gerarchiavengano eliminati. Ad esempio, la rimozione della dimensione tempo conduce a

2.3 La Business Intelligence (BI) 43consolidare le misure tramite la somma su tutti i periodi temporali presenti nelcubo di dati;• Drill-down: talvolta indicato con il termine roll-down, significa letteralmente trivellare.È il duale dell’operatore roll-up, infatti esso diminuisce l’aggregazione dei datiintroducendo un ulteriore livello di dettaglio in una gerarchia. Per esempio, puòessere utilizzato per passare dall’aggregazione per regione del cliente a quella, piùfine, per città del cliente. Come il roll-up permette di ridurre la dimensionalità, ildrill-down, essendo il suo duale, permette di aumentarla. Potremo infatti visualizzaregli incassi annuali di ogni categoria di prodotto, aggiungendo le informazionisull’area geografica dei clienti.Figura 2.17: Effetti degli operatori di roll-up e drill-down sul cubo multidimensionaleAggregazione e restrizione possono essere combinate per permettere un processo di analisimirato con precisione alle esigenze dell’utente.Come osservato in precedenza, le operazioni descritte sin ora permettono di alterare laquantità di dati da analizzare secondo quelle che sono le specifiche dell’analisi. Esistonotuttavia altre operazioni che possono essere usate per manipolare il cubo, e sono:• Pivoting: talvolta chiamata rotazione, permette di ruotare gli assi scambiando traloro alcune dimensioni per ottenere una diversa vista sul cubo di dati;• Drill-across: permette di stabilire un collegamento tra due o più cubi correlati alfine di compararne i dati;• Drill-through: è disponibile solo in alcuni strumenti OLAP e consiste nel passaggiodai dati aggregati multidimensionali del data warehouse ai dati operazionali presentinelle sorgenti o nel livello riconciliato.

44 Introduzione alla Business Intelligence2.3.2 Business Intelligence: oltre il data warehouseNel precedente paragrafo abbiamo evidenziato le caratteristiche che hanno permesso ilsuccesso del data warehouse come strumento per la business intelligence. Tuttavia lasua ampia diffusione ha comportato una rapida maturazione degli utenti che, compreseappieno le sue potenzialità, cominciano a percepirne i limiti. Alcuni di queste limitazionisono:• I dati vengono aggiornati con una periodicità che difficilmente è inferiore allasettimana/giorno.• Quando vengono eseguite complesse interrogazioni, al di fuori del modello multidimensionale,il DW risulta essere poco efficiente;• Registra solo il passato e non offre scenari per la formulazione di previsioni.L’utente necessita di tecniche di analisi più potenti e non basate sul modello multidimensionale,analisi che gli permettano di operare su dati provenienti da fonti eterogenee econ aggiornamenti più rapidi. Inoltre sorge la necessità di poter “predire il futuro”.A tali scopi si propongono varie soluzioni: il data mining, un processo di esplorazione eanalisi di un insieme di dati, generalmente di grandi dimensioni, per individuare eventualiregolarità, estrarre conoscenza e ricavare regole ricorrenti significative; l’analisi what-ifche permette di formulare scenari di previsione basati su modelli di business e trendaziendale; il business-performance-management (BPM), inteso come un framework peril controllo della performance aziendale che permette di condividere la strategia scelta atutti i livelli dell’azienda. Il data mining e l’analisi what-if sono tecniche ben note nellaletteratura, ma che tuttavia, a causa della loro complessità, sono state quasi sempre ignoratein ambito aziendale, in favore del data warehousing, la cui complessità risulta esseredecisamente inferiore. Il BPM invece rappresenta una soluzione innovativa soprattuttodal punto di vista tecnologico.Al giorno d’oggi il panorama aziendale è da considerarsi pronto per utilizzare tecnicheall’avanguardia come quelle appena descritte.

2.3 La Business Intelligence (BI) 452.3.2.1 Data MiningLe attività di data mining costituiscono un processo di analisi di natura iterativa svolto suvoluminose basi di dati, con l’obiettivo di estrarre informazioni e conoscenze che risultinoaccurate e potenzialmente utili ai knowledge worker nel corso dei processi decisionali.Prendiamo in considerazione l’analisi multidimensionale e osserviamo come essa non permettaall’utente di individuare modelli significativi come sequenze ripetute, correlazionie associazioni tra i dati o raggruppamenti interessanti all’interno della grande mole didati che si vuole esaminare. I modelli appena citati sono solo alcuni esempi di quelli chevengono chiamati pattern, ovvero una rappresentazione sintetica e ricca di semantica diun insieme di dati (Rizzi, 2003). Il data mining raccoglie tutta una serie di metodologiedell’intelligenza artificiale e del pattern recognition come per esempio algoritmi genetici,logica fuzzy e reti neurali, con l’obiettivo di aiutare l’utente nel processo di estrazionedella conoscenza (knowledge discovery). Il processo di knowledge discovery, rappresentatoin Figura 2.18, è di tipo iterativo e prevede quattro fasi distinte: [GR06]• Selezione: vengono selezionati i dati da sottoporre al processo. Essi possonoprovenire da data base operazionale, dal data warehouse oppure da data streamalimentati per esempio dalle macchine di produzione;• Preparazione: i dati vengono ripuliti e trasformati nel formato richiesto dagli algoritmidel passo successivo;• Data mining: viene scelto ed eseguito l’algoritmo opportuno per generare i pattern;• Valutazione: I pattern individuati vengono visualizzati ed esaminati. Se i risultatinon sono soddisfacenti si innesca una retroazione verso le fasi precedenti.Vediamo ora alcune delle principali funzionalità di data mining ed i relativi pattern cheesse si prestano ad individuare.Caratterizzazione. È un processo che si focalizza su un attributo target e opera sudi esso con svariate finalità. Può infatti operare una caratterizzazione di tale attributoosservando il valore che esso assume per tutti i record che appartengono ad una determinataclasse, oppure evidenziare la distribuzione dei valori che l’attributo assume peri record appartenenti ad una medesima classe confrontandoli, per esempio, con quelli

46 Introduzione alla Business IntelligenceFigura 2.18: Il processo di knowledge discoverydi una classe diversa. È una tecnica molto semplice da realizzare e i risultati vengonovisualizzati all’utente in forma grafica.Serie storiche. Talvolta l’attributo target è soggetto ad un’evoluzione temporale checonsiste in una sequenza dei valori che tale attributo assume. Le serie storiche sono unafunzionalità di data mining che studiano fenomeni caratterizzati da una dinamica temporalee si propongono di predire il valore della variabile target per uno o più periodi futuri.

2.3 La Business Intelligence (BI) 47Regole associative. Consentono di determinare le regole di implicazione logica presentinella base di dati, ovvero regole della forma:X ⇒ YSe per esempio X e Y sono insiemi di prodotti , avremo che le transazioni che contengonoprodotti in X tendono a contenere anche quelli in Y. Ad ogni regola riscontrata vengonoattribuite due misure: il supporto e la confidenza. Con il supporto si indica la percentualedelle transazioni che contengono sia X che Y, mentre la confidenza indica in chepercentuale le transazioni che contengono X contengono anche Y.Le aziende della grande distribuzione ricorrono a regole di associazione per pianificare ladisposizione dei prodotti sugli scaffali o nei cataloghiClustering. Il termine cluster viene utilizzato per riferirsi ad un sottogruppo omogeneopresente all’interno di una popolazione. Le tecniche di clustering svolgono operazionidi segmentazione di una popolazione eterogenea. Solitamente è una tecnica che vieneutilizzata durante la fase preliminare di data mining, in quanto consente di individuarecategorie di dati tra loro omogenei, consentendo così alle successive attività di mining difocalizzarsi sul cluster in interesse.Alberi decisionali. Vengono utilizzate per comprendere un determinato fenomeno,permettono infatti di classificare, in ordine di importanza, le cause che portano al verificarsidi un evento. In prossimità di ciascun nodo dell’albero viene effettuata una scelta,solitamente attraverso il confronto di un attributo con una costante; gli archi che esconodal nodo rappresentano l’esito del confronto. Le decisioni finali sono contenute nellefoglie.

48 Introduzione alla Business Intelligence2.3.2.2 Analisi what-ifAssumendo un particolare insieme di condizioni iniziali l’analisi what-if consente di formularealcuni scenari di previsione al fine di valutare il comportamento di un sistemareale. È evidente come questo tipo di approccio superi quelli che sono i limiti delle analisiche si basano sulla semplice consultazione del data warehouse (ovvero reportistica edanalisi multidimensionale, osservate nel paragrafo precedente).Come prima cosa l’analista dovrà riprodurre un modello che sia in grado di simulare ilsistema in esame, ovviamente maggiore sarà l’accuratezza con il quale viene disegnato,più attendibili saranno i risultati che da esso si ricaveranno. In genere il modello vienecostruito mediante un processo iterativo, dove ad ogni passo viene verificato il suo comportamentoconfrontando i risultati in output con un insieme di dati di test. Le tecnichedi analisi what-if possono essere classificate in base al metodo utilizzato per la creazionedel modello. Esistono sostanzialmente due tipologie:• Tecniche induttive: Sono le soluzioni più semplici da realizzare in quanto vengonoosservati solo gli effetti del comportamento di un sistema, mentre le cause sonocompletamente ignorate. La costruzione del modello fa riferimento al principiodescritto sinteticamente dalla seguente frase: “se fino ad ora è andata così, andràcosì anche dopo!”. Le tecniche induttive si basano infatti sul comportamento che ilsistema ha avuto durante un certo intervallo temporale. Per questo motivo vengonotalvolta dette estensionali;• Tecniche deduttive: I problemi osservati nell’approccio induttivo vengono superatigrazie ad una approfondita conoscenza delle regole che governano il sistema. Ilmodello che verrà generato sarà caratterizzato da un insieme di rapporti del tipocausa-effetto. I limiti di queste tecniche emergono nel caso in cui i rapporti primacitati formino dei cicli di retroazione.Solitamente, indipendentemente dalla tecnica scelta, la modellazione viene effettuata suidati del data warehouse, poiché esso rappresenta il principale serbatoio che memorizza leserie storiche degli eventi verificatisi in azienda.

2.3 La Business Intelligence (BI) 492.3.2.3 Business Performance Management (BPM)Fusione e acquisizioni, cambiamenti nei modelli di business, nuovi requisiti industriali emutamenti nelle aspettative dei clienti pongono un grande numero di problemi a livellodi processi che le aziende devono continuamente affrontare. La gestione dei processi businessconsente alle aziende di gestire i cambiamenti incrementali dei processi che sonorichiesti simultaneamente in molte aree dell’azienda.Business Performance Management (BPM). Insieme di attività atte a misurarele proprie prestazioni incoraggiando l’efficacia dei processi aziendali e l’usoefficiente delle risorse umane, materiali ed economiche.La misurazione delle prestazioni dei processi aziendali può essere realizzata mediantedegli specifici indicatori detti Key Performance Indicator (KPI). Il punto di forzadei KPI è quello di permettere ai manager di fissare delle regole che non si prestino aequivoci o a interpretazioni personali, il che non accade quando si utilizzano allo stessotempo regole di comportamento e direttive aziendali.Il BPM richiede che i valori degli indicatori siano continuamente aggiornati e resi disponibilial momento giusto nella forma più adatta a supportare le attività decisionali.Si differenzia dalla classica soluzione di data warehousing per le seguenti caratteristiche:[GR06]• Utenti: il BPM interessa sempre i decisori, ma a livello operativo e tattico anzichéstrategico;• Tempo di risposta: dal momento che le decisioni dei livelli tattico e operativo devonoavvenire con maggior frequenza rispetto a quelle del livello strategico, i sistemi diBPM dovranno avere periodi di aggiornamento più brevi rispetto a quelli del datawarehouse;• Livello di dettaglio: poiché gli eventi di interesse dei BPM sono attività ben specifiche,il dettaglio delle informazioni che dovranno avere a disposizione è di conseguenzapiù elevato rispetto a quello del data warehouse;• Tempo di vita: a differenza del livello di dettaglio, il tempo di vita delle informazioniper il BPM sarà decisamente minore rispetto a quello che richiedono i sistemi di

50 Introduzione alla Business Intelligencedata warehousing. Questo perché gli utenti BPM sono interessati alle performanceattuali della propria attività;• Interfaccia utente: le informazioni verranno presentate all’utente sotto forma reporto tramite allarmi innescati automaticamente mediante il controllo di regole dibusiness.Alla luce di quanto appena detto risulta evidente come DW e BPM siano profondamentedifferenziati e allo stesso tempo complementari.Si noti come BPM sia anche l’acronimo utilizzato per il business process management cheperò è inerente alle modalità di gestione aziendale per processi.2.3.3 Ciclo delle analisi di Business IntelligenceCiascuna analisi di business intelligence si sviluppa secondo modalità autonome che risentonodel contesto, delle caratteristiche soggettive dei decision maker e degli strumentianalitici disponibili. Tuttavia è possibile identificare un percorso ideale che caratterizzal’evoluzione delle singole analisi di business intelligence, come rappresentato in Figura 2.19[Ver06].Figura 2.19: Fasi di un’analisi di business intelligenceAnalisi. In questa fase si deve comprendere in maniera precisa il problema da affrontare,un decision maker elabora un modello del fenomeno analizzato, selezionando i fattori cherisultano maggiormente rilevanti. La possibilità di esplorare secondo diverse viste logichei cubi di dati nel corso delle analisi multidimensionali, permette a un decision maker di

2.3 La Business Intelligence (BI) 51modificare con flessibilità e tempestività le sue ipotesi. Osserviamo quindi come le metodologiedi business intelligence permettano di sviluppare rapidamente diversi percorsidi analisi.Comprensione. In un secondo momento il decision maker dovrà approfondire ognicaratteristica del problema rilevato durante la fase di analisi. In pratica si tratta di trasformarele informazioni precedentemente identificate in conoscenza. Questo processo ditrasformazione può avvenire mediante l’intuizione e l’esperienza del decision maker oppuretramite eventuali informazioni non strutturate in suo possesso.Decisione. È la fase in cui le conoscenze vengono tradotte in decisioni e successivamentein azioni. La business intelligence permette di svolgere le fasi di analisi e comprensionein modo più rapido e di conseguenza anche decisioni più efficaci e tempestive.Misura. Durante la fase di misura ci si preoccupa di misurare le prestazioni, basatesu metriche comprendenti non solo indicatori finanziari ma anche prestazionali relativi aidiversi segmenti aziendali.Le metodologie di business intelligence riducono i tempi del ciclo analisi-decisione-azionerevisione,con un miglioramento della qualità dei processi decisionali.

CAPITOLO 3La tecnologia Oracle BI 11gIntroduzione al mondo OracleLa Oracle Corporation è una multinazionale americana specializzata nello sviluppo ecommercializzazione di sistemi hardware e prodotti software enterprise. Ha sede in California,nella Silicon Valley.Venne fondata nel 1977 da Larry Ellison, Bob Miner e Ed Oates con il nome “SoftwareDevelopment Laboratories” (SDL). Due anni dopo, nel 1979, la società venne rinominata“Relational Software Inc.”. Negli anni Ottanta, in seguito al successo del progetto Oracle,un database commissionato dalla CIA, la società assunse il suo nome attuale.Presente in oltre 145 paesi nel mondo, Oracle Corporation oggi produce, sviluppa, commercializzae offre servizi legati all’infrastruttura tecnologica, alle business applications eai sistemi hardware.Dal gennaio 2005 con l’acquisizione di PeopleSoft, e quindi della piattaforma ERP JDEdwards, Oracle ha lanciato la sua strategia di acquisizioni che fino ad ora l’ha portataad acquisire quasi 60 aziende e a raggiungere numerosi primati. In particolare, Peoplesoftha assicurato la leadership nelle applicazioni per la gestione delle Risorse Umane,Siebel Systems in area CRM, Hyperion in ambito Enterprise Performance Managemente Business Intelligence; mentre BEA Systems ha assicurato dei primati in alcune aree

54 La tecnologia Oracle BI 11gdel Middleware. Con Sun Microsystems, Oracle ha esteso la propria proposta anche aisistemi operativi e ai sistemi hardware oltre a diventare proprietario di Java.Nel nostro Paese, Oracle è presente dal 1993 con sedi principali a Milano e Roma e confiliali a Torino, Padova, Bologna e Vercelli.Oracle in Italia opera al fianco di circa 900 Business Partner e dedica loro uno specificoprogramma, denominato Oracle PartnerNetwork (OPN) Specialized, a garanzia di unsupporto continuativo ed efficiente [Oraa].3.1 Oracle e la business intelligenceIn questa sezione sono riportati gli aspetti del pensiero Oracle riguardo alla costruzionedi un business case per la business intelligence [Ora09].Business case.È la collezione di (buoni) motivi per dare il via ad un progetto.Il business case tipico per la BI è quello di aiutare a prendere decisioni migliori, tuttaviaavere le giuste informazioni è solo una parte del processo decisionale. I beneficidell’avere una soluzione di BI si realizzano quando si implementa una decisione e nondal processo decisionale in sé. Una soluzione di BI, aiuta a migliorare le funzionalità di:reportistica, analisi e previsioni (in ordine dalla meno importante alla più importante).Ogni business case inizia con una comprensione del livello di ambizione che l’aziendasceglie di avere. Esistono tre differenti livelli di ambizione:• Efficienza: Concentrarsi sul miglioramento dell’efficienza aiuta gli utenti a lavoraremeglio nell’ambito delle mansioni che già svolgono;• Efficacia: Curare l’aspetto dell’efficacia del business aiuta l’organizzazione adoperare le scelte giuste;• Cambiamento: Consente di avere la possibilità di fare nuove cose.I diversi incarichi che le persone ricoprono in azienda portano ciascuno ad avere unaprospettiva diversa del medesimo problema. Si noti, infatti, che i responsabili IT focalizzerannola loro attenzione sull’efficienza, mentre i dirigenti aziendali sono interessati agestire il cambiamento.

3.1 Oracle e la business intelligence 55Un business case per la business intelligence è disegnato su cinque distinti livelli:• Dati ed infrastruttura;• Strumenti di BI ed applicazioni di gestione delle prestazioni;• Uso, governance e BICC (BI Competency Center, coordina la gestione delle informazioni);• Processi gestionali ed operativi;• Strategia di business.I vari livelli si “appoggiano” uno all’altro. È quindi necessario coinvolgere tutti i livelli inmodo da creare un link diretto tra i requisiti di business del cliente e le varie componentiche costituiscono la struttura operativa che supporta i suddetti requisiti.I livelli di ambizione possono essere combinati con quelli appena descritti generando laTabella 3.1, nelle celle sono riportati degli esempi di attività che devono essere affrontatedurante la realizzazione del business case.Standardizzazione degli strumenti di BIRiportiamo al lettore i risultati di due ricerche relative all’impiego delle tecnologie dibusiness intelligence all’interno delle aziende:• il 40% delle organizzazioni utilizzano ancora dai 3 ai 5 strumenti di BI, ed oltre il20% almeno 6 o più strumenti di BI (Forrester Research, 2008);• le aziende che hanno implementato una soluzione di BI usando gli strumenti di ununico fornitore software sono aumentate dal 24% del 2005 al 42% del 2007. Dalsondaggio del 2007 è anche emerso che le aziende che hanno classificato la propriasoluzione BI come “di successo” implementavano un sistema realizzato utilizzandogli strumenti di un unico fornitore software.La Figura 3.1 illustra la situazione appena descritta

56 La tecnologia Oracle BI 11gEfficienza Efficacia CambiamentoStrategia di Eccellenza Eccellenza Nuovi modellibusiness operativa gestionale di businessProcessi Riduzione dei Creazione di un’ Nuovi processi dicosti, maggiori organizzazione business, integrazioneprestazioni, più che sia moderna, della catena per laqualitàagile ed allineata crezione del valoreUso e governance Il BICC Il BICC crea BICC esteso,supporta gli strumentiusatie condivide conoscenzaall’internodell’organizzazionecreazione e condivisionedella conoscenza all’internodi tutta lacatena della creazionedel valoreStrumenti di BI eapplicazioni di gestioneStandardizzazionedegli strumentiAggiunta di nuovefunzionalitàConverge con la gestionedei processi didelle presta-business, le applica-zionizioni business ed ilmiddlewareDati ed infrastrutturaConcentrarsi sul Fare il punto sul-ImplementazioneTCOla flessibilità di un’architetturaorientata ai servizi(SOA)Tabella 3.1: Matrice business case per la BI.

3.1 Oracle e la business intelligence 57Figura 3.1: Standardizzazione degli strumenti e successo della BILa proposta Oracle, per quanto riguarda gli strumenti di business intelligence, è datadalla suite Oracle Business Intelligence Foundation. Essa è composta da Oracle BusinessIntelligence Enterprise Edition, Oracle BI Publisher, Oracle Essbase, Oracle Scorecard eStrategy Management e Oracle Essbase Analytics Link (EAL) [Ora11a].Il componente di maggior rilievo è senza dubbio la suite Oracle Business Intelligence EnterpriseEdition (da ora in poi più semplicemente OBIEE), giunta alla versione 11.1.1.3.0,rilasciata il 13 agosto 2010. La Figura 3.2 fornisce una panoramica della sua architettura.Figura 3.2: Architettura di OBIEE 11g

58 La tecnologia Oracle BI 11gLa suite OBIEE 11g, è completamente integrata con il Fusion Middleware di Oracle.Questo, dal punto di vista architetturale, si traduce principalmente con l’adozione diOracle Web Logic Application Server come piattaforma per tutti i servizi JEE dellasuite, a cui si affiancano i servizi C++ e J2SE ereditati dalla precedente release.3.2 Architettura logicaL’architettura logica del sistema Oracle Business Intelligence è composta da un unico insiemeintegrato di componenti gestibili, detto dominio BI (BI domain). Tali componentipossono risiedere su di un unico host oppure essere separati in più host per ragioni diperformance, disponibilità e sicurezza.Figura 3.3: Architettura logica di OBIEE 11g su un singolo host

3.2 Architettura logica 59Un dominio BI è composto da: componenti Java, componenti di sistema e da un insiemedi altri componenti tra cui repository dei metadati e presentation catalog [Orad].Componenti JavaVengono distribuiti come applicazioni JEE per servizi SOAP, HTTP ed altre forme dirichiesta. Nell’architettura mostrata in Figura 3.3 possiamo notare la presenza di duecontenitori JEE: l’Administration Server ed il Managed Server.L’Administration Server contiene i componenti Java necessari per l’amministrazionedel sistema. Tali componenti sono:• JMX MBeans: provvede a schematizzare gli accessi per la gestione del dominio BI;• Fusion Middleware Control:gestire il dominio BI;è l’interfaccia utente di amministrazione usata per• WebLogic Server Administration Console: è l’interfaccia utente di amministrazioneper la gestione avanzata di WebLogic, componenti JEE e sicurezza.Figura 3.4: Architettura logica di OBIEE 11g su più host

60 La tecnologia Oracle BI 11gIl Managed Server fornisce l’ambiente di run-time per servizi Java-based e applicazioniinterne al sistema. Un dominio di BI può possedere più Managed Server che possonoessere distribuiti su uno o più host. I componenti Java gestiti sono:• Action Services: fornisce i servizi Web dedicati che vengono richiesti dall’ActionFramework (descritto nel paragrafo 3.4.5) e che consentono all’amministratore diconfigurare manualmente quali directory del servizio Web possono essere sfogliatedagli utenti quando questi eseguono una determinata azione;• SOA Services: fornisce servizi Web dedicati per gli oggetti nel presentation catalogper invocare analisi, agenti e condizioni;• BI Office: provvede all’integrazione tra OBIEE ed i prodotti Microsoft Office;• Real-Time Decisions (RTD): fornisce soluzioni software enterprise di analisi chepermettono alle aziende di prendere le migliori decisioni in tempo reale;• BI Plugin: è un’applicazione JEE che ha il compito di instradare le richieste SOAPe HTTP ai Presentation Services (che saranno descritti in seguito);• BI Publisher: fornisce una soluzione di reportistica per la creazione, gestione edistribuzione di report “pixel perfect” a dipendenti, clienti e fornitori;• Security Services: fornisce servizi Web dedicati che consentono l’integrazione del BIServer (che descriveremo in seguito) con la piattaforma di sicurezza Oracle FusionMiddleware.Sia l’Administration che il Managed Server vengono eseguiti su Java virtual machinededicate.Infine il Node Manager fornisce servizi per la gestione dei processi per l’Administrationed il Managed Server. Esso infatti permette di avviare, arrestare e riavviare le loro istanzein remoto.Componenti di sistemaI componenti di sistema forniscono i servizi base (C++ o J2SE) per poter eseguire OBIEE,e sono:

3.2 Architettura logica 61• BI Server: fornisce le funzionalità di query ed accesso ai dati che sono il cuore diOBIEE;• Presentation Services: forniscono il framework e l’interfaccia per la presentazionedei dati di business intelligence. È loro compito gestire il Presentation Catalog (chesarà trattato successivamente);• Scheduler: permette di schedulare la consegna di analisi agli utenti in momentispecifici. BI Publisher possiede uno scheduler proprio;• JavaHost: offre servizi che permettono al Presentation Server di supportare componenticome i task dello Scheduler, BI Publisher e la generazione dei grafici;• Cluster Controller: ha il compito di distribuire le richieste al BI Server ed assicurareche il carico di lavoro di tali richieste siano bilanciate su tutti i BI Server nel dominioBI.L’OPMN (Oracle Process Manager and Notification server) ha il compito di gestire icomponenti appena descritti.Repository dei metadatiIl repository dei metadati è un file con estensione rpd dalle dimensioni solitamente compresetra 0.5MB e 2MB. Ha il compito di memorizzare i metadati di cui necessita il BIServer per trasformare una query logica, ovvero una interrogazione che viene costruitadall’utente che non è a conoscenza della struttura delle sorgenti, nella relativa query fisicada eseguire sui dati sorgente. Un repository è suddiviso in tre livelli, come mostrato inFigura 3.5: [Orac]• Livello fisico: definisce gli oggetti e le loro relazioni, necessarie al BI Server percostruire le query native sui dati fisici. Può essere creato importando tabelle, cubie flat file dalle fonti dati. Il livello fisico ha il compito di separare il comportamentologico delle applicazioni dal modello fisico, dando quindi la possibilità di unire piùfonti dati fisiche in un unico oggetto logico. Una separazione di questo tipo assicurauna elevata portabilità;

62 La tecnologia Oracle BI 11gFigura 3.5: Traduzione di una query logica nella relativa query fisica attraverso i 3 livellidel repository• Livello logico: definisce il modello business dei dati e la mappatura con gli schemifisici. In questo livello si determina il comportamento analitico percepito dagli utentie viene definito l’insieme degli oggetti e delle relazioni a disposizione dell’utente;• Livello di presentazione: fornisce un modo sicuro e personalizzato per rappresentareil modello business. Nel livello di presentazione vengono create le cosiddettesubject area che permettono di suddividere il modello business in più parti.Il repository dei metadati viene gestito dall’Administration Tool, un’applicazione Windowsappartenente alla suite dei client tools, trattata nel paragrafo 3.5Come accennato in precedenza, il BI server si serve del repository per trasformare le querylogiche nelle query native che saranno poi eseguite sui dati sorgente. La Figura 3.6 mostracome il BI Server interagisce con le query dei client, le sorgenti dati, l’AdministrationTool e il repository.Presentation CatalogHa il compito di memorizzare in una struttura di directory gli oggetti creati dagli utenti.Tali oggetti possono essere: analisi, dashboard, filtri, prompt, ecc. Ogni qual volta unutente salva un oggetto come quelli appena indicati, esso verrà automaticamente memorizzatoall’interno del Presentation Catalog.

3.3 Installazione del prodotto 63Figura 3.6: Architettura del BI ServerCome per il repository esiste un’applicazione anche per la gestione del PresentationCatalog ed è il Catalog Manager.3.3 Installazione del prodottoRequisiti di sistemaOBIEE 11g offre senza dubbio un’architettura più scalabile e strumenti di gestione piùmaturi rispetto la release precedente. Per contro, la complessità di gestione è superioree sono richieste maggiori risorse di sistema. I requisiti di sistema consigliati da Oraclesono: [Ora11b]• Spazio su disco: 20GB o più;• Memoria RAM: 4GB o più;• Spazio temporaneo: 950MB o più;• Spazio di swap: 3GB o più;• CPU: dual-core Pentium, 1.5GHz o maggiore.

64 La tecnologia Oracle BI 11gDBMS supportati:• Oracle 10.2.0.4+ , 11.1.0.7+, 11.2.0.1+;• IBM DB2 9.1+, 9.5+, 9.7+;• MS SQL Server 2005, 2008;• Teradata 12, 13.Sistemi operativi supportati: [Orae]• Oracle/Red Hat Enterprise Linux 4 (Update 7+), 5 (Update 3+);• SUSE Linux Enterprise Server 10 (SP1+), 11;• Windows 2003 SP2/R2+;• Windows Server 2008 SP1+;• Windows Server 2008 R2.InstallazioneIl pacchetto di installazione di Oracle Business Intelligence, include i seguenti prodotti:[Orab]• OBIEE 11g (Answers, Dashboards, Delivers, Repository Administration Tool, Officee Oracle Business Intelligence Publisher);• Oracle Business Intelligence Publisher;• Oracle Real-Time Decisions.È possibile installare uno, due o tutti e tre i prodotti che condivideranno la stessastruttura Oracle Fusion Middleware all’interno del medesimo dominio WebLogic. Unatipica installazione di Oracle BI prevede una Fusion Middleware home e le seguentisottodirectory:• wlserver 10.3 : è la home del WebLogic server e contiene: i componenti Java, unAdministration Server e uno o più Managed Server;

3.3 Installazione del prodotto 65• user projects: contiene i domini dei prodotti, inclusi uno o più domini BI;• Oracle BI1 : contiene i file binari (in sola lettura) propri di Oracle Business Intelligence.Figura 3.7: Tipica struttura delle directory di Oracle BISono inoltre previste tre modalità di installazione:• Simple Install: l’installazione verrà eseguita con i settaggi di default, su un singolocomputer e nel minor numero di passi;• Enterprise Install: permette di effettuare una installazione enterprise distribuita.La configurazione non è quella di default, sarà possibile infatti specificare impostazionicome: percorsi delle directory, nomi degli host, numeri di porta e moltoaltro;• Software Only: con questa modalità di installazione vengono installati i soli filebinari, la configurazione dovrà per tanto essere eseguita separatamente. Per sistemia 64-bit costituisce l’unica modalità di installazione possibile.Non esiste un’unica procedura di installazione. Essa dipende dal sistema operativo (Windowso Linux) e dalla sua architettura (32 o 64 bit). Ciò che le accomuna è la necessità dicreare uno schema su un database mediante l’utility RCU (Repository Creation Utlity).Per installazioni su macchine a 64 bit o macchine Linux non è prevista l’installazionedei client tools, in quanto questi ultimi sono disponibili solo per macchine Windows 32-bit. È tuttavia possibile scaricare ed installare i soli client tools, facendoli poi collegare

66 La tecnologia Oracle BI 11gin remoto con il server sul quale è installato OBIEE.Per i sistemi a 64 bit è inoltre richiesto che l’installazione della JDK e di WebLogicvenga fatta separatamente prima di procedere all’installazione, che avverrà in modalità“Software Only”.3.4 Componenti di front-endOBIEE 11g fornisce una suite completamente integrata di prodotti complementari perfornire una gamma completa di funzionalità di analisi.I Presentation Services forniscono l’interfaccia utente che viene utilizzata per la visualizzazionedei dati provenienti dal BI Server. Tramite questa interfaccia gli utenti possonoaccedere agli strumenti di front end che verranno descritti di seguito [Ora11a].3.4.1 Analisi e reportisticaOBIEE 11g mette a disposizione dell’utente un ambiente web per la creazione di analisi,reportistica e query ad-hoc. Questo ambiente era conosciuto nella precedente versione conil nome di “BI Answers”, in OBIEE 11g si parlerà di “BI Analysis and Reporting”.Le funzionalità messe a disposizione dell’utente sono:• Indipendenza dai dati sorgente: gli utenti interagiscono con una vista logica delleinformazioni, che maschera completamente la complessità della struttura dei datisorgente. Inoltre non è richiesto che gli utenti siano a conoscenza di come le regolebusiness sono calcolate. Esse infatti vengono definite nel repository (come descrittoprecedentemente);• Condivisione online delle analisi: una volta salvata la propria analisi, l’utente potràcondividerla online pubblicandola all’interno di una Dashborad (trattate nelparagrafo 3.4.2);• Salvataggio delle analisi: misure, attributi descrittivi, filtri, pattern di ordinamento,grafici e viste in tabelle pivot possono essere aggiunte, eliminate e modificate in ognimomento. Al termine delle modifiche, la nuova analisi può essere salvata e condivisacon un gruppo di utenti;

3.4 Componenti di front-end 67• Potenti analisi ad-hoc: poiché il processo analitico è spesso iterativo, non vengonoimposti vincoli sull’ordine con il quale l’analisi viene costruita. Infatti, per esempio,la selezione delle misure, l’aggiunta o la modifica di filtri, l’aggiunta o la rimozionedi colonne e la possibilità di visualizzare il risultato, sono attività che possono essereeffettuate in un qualsiasi momento ed ordine durante la costruzione delle analisi;• Personalizzazione: le informazioni a cui accedono gli utenti vengono filtrate epersonalizzate automaticamente in base all’identità e al ruolo dell’utente stesso.Una sessione di analisi in OBIEE 11g comincia con la selezione della subject area, peresempio le vendite. Successivamente vengono mostrati all’utente tutti gli oggetti businessche avrà a disposizione per costruire l’analisi. Una volta terminato, il BI Analysis andReporting genera la relativa query in SQL logico e la invia al BI Server che provvede aconvertirla nella equivalente query fisica.La Figura 3.8 mostra l’interfaccia messa a disposizione dell’utente per la creazione delleanalisi. A sinistra possiamo notare la subject area, mentre al centro la visualizzazionedel risultato.Figura 3.8: Costruzione di un’analisi con BI Analysis and ReportingUna caratteristica fondamentale che un’analisi deve possedere è la chiarezza del risultato.OBIEE 11g offre svariate modalità di visualizzazione tra cui grafici e diagrammi, tabellepivot, viste geospaziali, ecc.

68 La tecnologia Oracle BI 11g3.4.2 DashboardUna dashboard (o cruscotto) è una collezione di oggetti che, raccolti per aree tematiche,mostrano un certo quadro della situazione. La maggior parte di tali oggetti vengonocreati mediante BI Analysis and Reporting. Le dashboard hanno il compito di facilitarel’accesso degli utenti ad analisi costruite in precedenza e offrono le seguenti funzionalità:• Potenza di analisi: le dashboard costituiscono un potente ambiente per l’analisiinterattiva dei dati, in quanto permettono la loro navigazione;• Condivisione online delle informazioni: la possibilità di pubblicare online le dashboardcostituisce un fondamentale metodo per la condivisione delle informazioni;• Personalizzazione: ogni cruscotto può essere personalizzato in modo tale da visualizzareautomaticamente i dati in base all’identità e al ruolo dell’utente che lirichiede;• Filtraggio dati: possono essere visualizzate analisi prefiltrate da valori di default oimmessi manualmente dagli utenti;• Condivisione offline delle informazioni: le dashboard possono essere salvate e distribuiteper un utilizzo di tipo offline come report o Briefing Book (decritti nelparagrafo 3.4.6). Inoltre il contenuto di un cruscotto può essere scaricato in fileExcel o PowerPoint;• Salvataggio personalizzazioni: gli utenti possono modificare analisi, filtri, layout,ecc. e salvare le modifiche sia per uso personale che condiviso;• Personalizzazione dello stile: Il look and feel delle dashboard può essere modificatoutilizzando i Cascading Style Sheet (CSS).Gli utenti interagiscono con le dashboard filtrando i dati mediante l’inserimento di valoriin un prompt, eseguendo operazioni di drill-down per accedere a informazioni più dettagliate,modificando l’ordinamento delle colonne, ecc.La creazione dei cruscotti, molto spesso, avviene per mano degli utenti stessi senza nessuncoinvolgimento di specialisti IT.La Figura 3.9 mostra un esempio di dashboard.

3.4 Componenti di front-end 69Figura 3.9: Un esempio di dashboard interattiva3.4.3 Scorecard e Strategy ManagementOracle Scorecard e Strategy Management estende la suite Oracle BI con funzionalità destinatea comunicare gli obiettivi strategici in tutta l’organizzazione e il monitoraggio deiloro progressi nel tempo. Permette di stabilire obiettivi specifici, definire le modalità permisurare il loro successo, e comunicare informazioni a tutta l’organizzazione. I dipendentipossono quindi capire il loro impatto sul raggiungimento del successo e allineare le loroazioni di conseguenza.Figura 3.10: Un esempio di scorecard

70 La tecnologia Oracle BI 11g3.4.4 BI PublisherBI Publisher viene utilizzato per la realizzazione di report statici con personalizzazioneavanzata del layout grafico (“pixel perfect”). Permette inoltre, l’estrazione di dati da piùsorgenti e la loro pubblicazione in svariati formati, consentendo di pianificare la consegnadei report alle destinazioni.Gli utenti finali possono creare facilmente il layout grafico utilizzando strumenti desktopfamiliari come Microsoft Word, Microsoft Excel o Adobe Acrobat, oppure mediante unnuovo strumento WYSIWYG di layout designer utilizzabile direttamente nel browser, ilBI Publisher Layout Editor. Gli sviluppatori invece, possono scegliere di utilizzare AdobeFlex Builder o un qualsiasi IDE XML.Figura 3.11: Costruzione di un report pixel perfect mediante BI Publisher Layout Editor3.4.5 Actionable IntelligenceOBIEE 11g estende le funzionalità di reporting tradizionali appena descritte, offrendo lapossibilità di:

3.4 Componenti di front-end 71• rilevare il verificarsi di determinate condizioni e di inviare degli alert agli utentiinteressati;• avviare direttamente processi esterni.Queste funzionalità vengono offerte rispettivamente dal BI Delivers e dall’Action Frameworkche saranno brevemente descritti di seguito.BI DeliversBI Delivers, attraverso la creazione di Agenti, offre la possibilità di monitorare proattivamentele informazioni di business, allertare gli utenti tramite mail, dashboard e dispositivimobili come telefoni cellulari e permette di prendere decisioni rapide in funzione degli alertche sono stati ricevuti.Gli agenti possono essere concatenati, ovvero possono scambiarsi informazioni tra loro.Essi vengono creati mediante un’apposita interfaccia, mostrata in Figura 3.12, nella qualel’utente può specificare le opzioni di consegna degli alert, definire profili, programmarel’esecuzione automatica di un report e molto altro ancora.Figura 3.12: Creazione di un agente tramite BI Delivers

72 La tecnologia Oracle BI 11gAction FrameworkÈ una particolare funzione altamente innovativa che agisce da collegamento fra l’analisie l’azione dando agli utenti la possibilità di attivare un processo di business o un Webservice direttamente dal proprio cruscotto.3.4.6 BI MobileSempre più frequentemente gli utenti manifestano il desiderio di avere a disposizione odi poter reperire le informazioni business anche quando non sono in ufficio. OBIEE offretre possibili soluzioni a questo problema.Briefing BooksUn Briefing Book è un documento che cattura il contenuto di una dashboard e ne consentela visualizzazione in modalità disconnessa, da parte di chiunque disponga del softwareBriefing Book reader. Offrono un metodo per creare istantanee delle dashboard, visualizzarleoffline, o condividerle con gli altri e ne possiedono lo stesso “look and feel”. IBriefing Book forniscono anche un metodo per archiviare le informazioni di una dashboardpoiché possono essere salvati localmente sul PC di un utente. I Briefing Bookpersonalizzati possono essere distribuiti automaticamente (via e-mail) tramite Oracle BIDelivers a gruppi di utenti.BI MobileLe aziende richiedono che le informazioni possano essere reperibili in qualsiasi momento.I dispositivi mobili svolgono un ruolo chiave in questo contesto, per tanto OBIEE offrela possibilità di accedere a tutti i contenuti delle dashboard tramite dispositivi mobili.Si noti come un tale approccio renda ancora più efficace il ruolo giocato dagli agenti chehanno il compito di inviare gli alert.Plug-in OfficeL’Add-In di Microsoft Office integra le informazioni di Business Intelligence provenientidal BI Server, BI Analysis and Reporting, dashboards e BI Publisher con l’ambientedi Microsoft Office. Questo permette di incorporare dati aziendali aggiornatissimi nei

3.5 L’Administration Tool 73documenti di Microsoft Word, Excel e PowerPoint. Gli utenti possono quindi condividerequesti documenti sul Web per attuare un processo decisionale veramente collaborativo.3.5 L’Administration ToolÈ uno strumento facente parte dei client tool che permette di operare con efficienza suimetadati contenuti nel repository. La Figura 3.13 mostra l’interfaccia dell’AdministrationTool; si noti la netta separazione dei tre livelli del repository.Figura 3.13: Suddivisione dei tre livelli del repository nell’Administration ToolL’Administration Tool aiuta gli amministratori a preparare le formule (per esempio unapercentuale rispetto a un totale) e ne assicura la correttezza, oppure consente di crearecentinaia di misure di confronto per le serie temporali (per esempio, vendite dell’annoprecedente, percentuale di modifica rispetto all’anno precedente, rapporto di venditarispetto all’anno precedente, e così via) in pochi secondi. Funzionalità sofisticate digestione del progetto permettono inoltre a più amministratori di operare simultaneamentesui repository dei metadati.Ecco alcune delle principali funzionalità offerte dall’Administration Tool:• Gestione delle modifiche: fornisce numerosi servizi per facilitare la gestione dellemodifiche. Per esempio, un wizard di rinomina semplifica il cambiamento dei nomi

74 La tecnologia Oracle BI 11gdi più oggetti simultaneamente, la sostituzione di testo, la modifica di maiuscole/-minuscole e l’aggiunta di prefissi o suffissi. Questo, a sua volta, semplifica il trascinamentoe il rilascio di colonne fisiche nel livello della modellazione e mappaturabusiness e consente di attribuire loro nomi logici più leggibili e significativi;• Amministrazione dei metadati: per semplificare le operazioni con i repository digrandi dimensioni, il tool di amministrazione permette all’amministratore di strutturaree organizzare i metadati, per esempio utilizzando cartelle, per organizzare glioggetti. L’amministratore può inserire tutte le tabelle dimensionali in una singolacartella e tutte le gerarchie in una cartella differente o, alternativamente, inserireuna tabella dimensionale e le gerarchie correlate nella stessa cartella e utilizzareicone grafiche per contrassegnare gli oggetti per finalità specifiche;• Dipendenza e analisi degli impatti: una utility consente all’amministratore di cercarenei metadati oggetti per tipo, pur filtrando le proprietà e le relazioni con glialtri oggetti. Per esempio, un amministratore può trovare tutte le colonne logicheche dipendono da una specifica tabella o colonna fisica per determinare quali oggettidi business vengano influenzati dall’eventuale eliminazione dal database di unaspecifica colonna fisica;• Esportazione/importazione: il tool di amministrazione offre funzionalità di esportazionee importazione dei metadati per spostare i sistemi dagli ambienti di staginga quelli di produzione e per esportare i metadati su file a scopo di documentazione.Una utility di documentazione del repository genera un elenco di colonne di presentazione,colonne del modello di business loro corrispondenti, formule e sorgentifisiche mappate;• Collaborazione multi-utente per l’amministrazione: l’Administration Tool può essereutilizzato sia in modalità offline che online. Le modifiche online hanno effettoimmediatamente, senza dover riavviare il server. La modalità offline permette adiversi amministratori di operare modifiche in modo concomitante su uno stessorepository di metadati. Quando gli oggetti sono selezionati per la modifica, questi egli oggetti da cui dipendono sono disponibili agli altri amministratori esclusivamentein formato di sola lettura;

3.6 Comparazione con gli altri competitor 75• Amministrazione degli utenti: il tool di amministrazione offre inoltre un modo pervisualizzare (e terminare) le sessioni utente correnti; per vedere le variabili utilizzatein ciascuna sessione; per elencare le voci cache disponibili per area tematica, utente,o tabella fisica; per riferire sulla storia recente dell’uso della cache.3.6 Comparazione con gli altri competitorIn questo paragrafo osserviamo le caratteristiche dei prodotti dei principali vendor disoftware per la business intelligence, caratteristiche che devono essere considerate dalleorganizzazioni che vogliono adottare soluzioni di business intelligence che soddisfino leloro richieste.Riportiamo ora alcune considerazioni fatte da Gartner, una delle più importanti aziendedi analisi del mercato IT. La Figura 3.14 mostra il Magic Quadrant pubblicato da Gartnernel gennaio 2011 [Gar11].Figura 3.14:Quadrante magico di Gartner relativo alle piattaforme di BusinessIntelligence del mese di gennaio 2011

76 La tecnologia Oracle BI 11gI criteri di valutazione adottati dal Magic Quadrant sono: la completezza di visionee la capacità di esecuzione. Chi eccelle in entrambe fa parte dei leader. Chi habuona completezza di visione ma non ha una solida capacità di esecuzione fa parte deivisionari. Chi ha buona capacità di esecuzione ma ha una visione incompleta fa partedegli sfidanti, mentre, per concludere, chi ha una visione incompleta e al tempo stessoha scarsa capacità di esecuzione viene definito come player di nicchia.Osserviamo ora le caratteristiche dei maggiori vendor di prodotti per la business intelligence.OraclePro: la piattaforma OBIEE è considerata lo standard di riferimento per la BI nella maggiorparte delle aziende che la utilizzano. Inoltre permette un alto livello di integrazionecon le applicazioni aziendali e con l’infrastruttura informativa e supporta un elevato numerodi utenti contemporaneamente.Contro: la release 11g ha avuto un ciclo di sviluppo e rilascio relativamente lungo. Lefunzionalità di data mining ed analisi what-if vengono offerte come parte di Oracle databasee del prodotto Oracle Real-Time Decision, entrambi i quali sono separati dallapiattaforma OBIEE.MicrostrategyPro: Microstrategy ha costruito la sua piattaforma da zero ed è specializzata nelle implementazionidi BI che girano su grandi data warehouse. È stata una dei primi produttoriad investire pesantemente in applicazioni BI per dispositivi mobili. Fornisce un eccellentesupporto del prodotto che consente agli amministratori di risolvere in breve tempo iproblemi riscontrati. Si pone al primo posto per livello di integrazione dei componentidella piattaforma.Contro: nonostante l’ambiente di sviluppo Microstrategy sia uno dei più potenti e flessibili,presenta una ripida curva di apprendimento. La creazione di dashboard e reportad-hoc non è particolarmente user-frendly per gli utenti business. Inoltre, i clientiMicrostrategy indicano come limitazione più grande il costo del software.

3.6 Comparazione con gli altri competitor 77MicrosoftPro: Microsoft ha sempre investito nella costruzione e miglioramento delle sue funzionalitàdi BI in tre dei suoi prodotti: Microsoft Office, Microsoft SQL Server e MicrosoftSharePoint, al fine di aumentare il loro valore. I costi delle licenze sono tra i più bassi ela possibilità di poter utilizzare funzionalità di business intelligence integrate in prodottigià presenti nelle aziende, conferisce ai prodotti Microsoft il più alto grado di “capacitàdi esecuzione” tra tutti i prodotti di BI presenti sul mercato.Contro: la scelta di offrire funzionalità di BI in una soluzione multi prodotto, soprattuttoconsiderando che tali prodotti svolgono anche funzionalità non-BI, presenta per certiversi una limitazione rispetto alle soluzioni di altri vendor, che integrano tutte (o quasitutte) le funzionalità di business intelligence all’interno di un unico prodotto. Un’altralimitazione è data dalla scarsa disponibilità di strumenti orientati agli utenti business,facendo dei prodotti Microsoft BI delle soluzioni destinate agli sviluppatori. Infine, nonesiste un unico livello per i metadati e le funzionalità offerte per la loro modellazione sonomolto limitate.SAPPro: la combinazione di SAP e Business Object rappresenta la piattaforma più installatain assoluto. Il volume di dati e di utenti dei clienti SAP sono tra i maggiori sul mercato(quasi il doppio della media). Le sue funzionalità di reporting e di costruzione di queryad-hoc vengono definite dai suoi clienti come i maggiori punti di forza del prodotto. Lapiattaforma SAP/BO viene completata nelle aree della collaborazione e nel supporto alledecisioni dai prodotti: StreamWork, Text-Analysis ed altri prodotti di gestione dell’informazionecon integrazione dei dati.Contro: tra le più frequenti lamentele mosse dai clienti fanno parte le basse performancee l’alto livello di difficoltà delle implementazioni. L’esperienza dei clienti e la qualità delsoftware e del supporto tecnico sono tra i più bassi rilevati nel sondaggio Gartner.IBMPro: IBM detiene la leadership per quanto riguarda la “completezza di visione”. Il prodottoofferto per la business intelligence da IBM è IBM Cognos che offre la possibilità dieffettuare sia analisi statiche sia di tipo predittivo. In particolare, quest’ultima tipologia

78 La tecnologia Oracle BI 11gdi analisi costituisce uno dei maggiori punti di forza del prodotto.Contro: Uno dei maggiori punti deboli del prodotto IBM è dato dalle performance, anchese la versione 10.1 di IBM Cognos dispone di funzionalità specifiche per affrontareproblemi di performance. La scarsa diffusione del prodotto può essere ricercata nellaelevata difficoltà dell’implementazione dei progetti di business intelligence e dalla scarsausabilità del prodotto stesso. Infine, i costi elevati delle licenze (ben sopra alla media)costituiscono un ulteriore motivo di angoscia per i clienti.In cinque anni, il mercato delle piattaforme software di Business Intelligence ha subitonotevoli trasformazioni, sopratutto per il susseguirsi di importanti acquisizioni. Diseguito vengono messe a confronto due istantanee con le posizioni occupate dai principaliplayer sul quadrante magico.Figura 3.15: Confronto delle posizioni occupate dai maggiori vendor di piattaforme diBusiness Intelligence nel quadrante magico di Gartner nel 2006 e nel 2011

3.6 Comparazione con gli altri competitor 79Nel 2006 i due principali leader del mercato erano Business Objects e Cognos. Adistanza di 5 anni il quadrante dei leader si è decisamente affollato. Le strategie che hannocontraddistinto l’evoluzione del mercato sono riconducibili a due modelli fondamentali:• l’acquisizione/fusione di più realtà per potenziare e completare l’offerta;• l’investimento interno finalizzato a sviluppare la propria vision che sia in grado dicontraddistinguere la propria offerta rispetto ai competitor.Oracle ha seguito la prima strategia e, in virtù dell’anticipo con cui ha effettuato le suemosse sul mercato, è quella che, avendo avuto il tempo necessario per realizzare un’offertacompleta, ha meglio capitalizzato gli investimenti in termini di posizionamento.3.6.1 Prodotti open sourceUn numero crescente di organizzazioni si dimostra sempre più attratto dalle promesse delsoftware open source. Sono soluzioni ricche di funzionalità che possono ridurre il costototale di proprietà dell’infrastruttura IT. Software come Linux, OpenOffice, MySQL eFirefox sono considerate soluzioni mainstream e vengono ampiamente adottate. Osserviamoora, se anche le soluzioni open source di business intelligence sono abbastanzamature per poter essere utilizzate dalle aziende.Non si deve guardare molto lontano per avere la prova della maturità raggiunta dalla BIopen source. Unionfidi, un’importante istituzione finanziaria italiana attiva nel credito apiccole e medie aziende, ha sostituito tutte le soluzioni BI esistenti, comprese quelle direporting, con una suite BI open source a partire dal 2006. Un altro esempio è quello delministero della Sanità che ha scelto una suite open source per sviluppare un nuovo sistemadi supporto decisionale. Molte organizzazioni, sia pubbliche sia private, stanno attualmenteimplementando soluzioni BI open source che rispondono al nome di JasperSoft,Pentaho o SpagoBI, suite che rendono disponibile un ampio spettro di funzionalità,dall’ETL a funzioni ad-hoc di analisi e reporting. Spago BI ha inoltre il vantaggio diessere un prodotto italiano, sviluppato e supportato da Engineering, un grande systemintegrator nazionale.Tuttavia è bene sottolineare che sia JasperSoft che Pentaho offrono versioni Communitye Professional. Mentre le prime sono completamente open source, le versioni Professionalincludono invece componenti aggiuntivi closed source.

80 La tecnologia Oracle BI 11gNonostante le tecnologie open source per la business intelligence non siano direttamenteconfrontabili con le suite proprietarie (le più importanti descritte precedentemente) èbene riportare un concetto fondamentale che Gartner ha espresso nel seguente modo:“mentre i vendor tradizionali possono ancora vantare una posizione di preminenzanell’offerta tecnologica complessiva, l’adozione dell’open source aumenta perchéconsiderata sufficientemente valida”ETL open sourceAnche nel campo dell’ETL il mondo open source offre una vasta gamma di prodotti.Kettle, per esempio, è un tool ETL facente parte della suite BI di Pentaho. E poi Talend(utilizzato all’interno di JasperSoft dove viene chiamato JasperETL), Jitterbit, Snaplogic,CloverETL. Non saranno comparabili a quelli offerti dai “megavendor”, ma vengonoritenuti sufficientemente validi per il loro basso costo e le adeguate funzionalità. Possonopertanto essere un’alternativa al software proprietario.La caratteristica che consente di implementare con successo un progetto BI fa comunqueriferimento alle prestazioni. In molte implementazioni di BI open source si è spesso sceltodi utilizzare MySQL, che può essere considerato un buon DBMS transazionale, ma cherivela tutte le sue limitazioni quando impiegato per la costruzione di data warehouse edata mart a livello enterprise. Per questo motivo alcuni vendor open source hanno sviluppatosoluzioni di database, basate su MySql, ma che prevedono un motore di storagecompletamente differente, adatto a supportare carichi di lavoro BI di tipo enterprise. Naturalmentela scelta di un database analitico open source non si limita a soluzioni basatesu MySql.L’importanza della query performance non deve essere sottovalutata durante la scelta delDBMS analitico. Le soluzioni Oracle e SQL Server, grazie anche alle loro tecniche di indicizzazionee compressione, si collocano tra le migliori per quanto riguarda le prestazioniper le attività di query.

CAPITOLO 4Il caso di studio: Realizzazione di unasoluzione di Business Intelligence perl’azienda Cadey4.1 Presentazione dell’aziendaCadey s.r.l nasce nel 1959 ed è tra le aziende leader nel panorama della cosmetica italiana.Ha sede a Piacenza e conta 54 dipendenti con un fatturato di 38,8 milioni.Cadey si vuole affermare come il marchio italiano di riferimento per la cura della persona,in grado di offrire ai consumatori prodotti innovativi dall’ottimo rapporto qualità prezzopresenti in tutti i canali distributivi: ipermercati, supermercati e profumerie.Famiglie di prodotti• Solari, marchio Bilboa (prodotti di punta dell’azienda).• Creme per il corpo, marchio Cambia Pelle e Staminaline.

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per82l’azienda Cadey• Depilazione, marchio Depilsoap.• Cura capelli, marchio Bilba e Luminose.Tipologia di clienti• Canale GDO.• Negozi specializzati casa toilette.• Grossisti.• Normal trade.Struttura organizzativaFigura 4.1: Struttura commerciale dell’azienda Cadey s.r.l.

4.2 Struttura data center Cadey 83Figura 4.2: Organigramma dell’azienda Cadey s.r.l.4.2 Struttura data center CadeyLa soluzione tecnologica adottata dall’azienda Cadey che andremo ad illustrare, è statascelta poiché in grado di:• fornire una solida piattaforma iniziale che potrà crescere nel tempo senza disperderegli investimenti di partenza;• fornire una soluzione in grado di fornire continuità d’esercizio anche a seguito dicrash di alcune componenti.Elemento centrale della soluzione proposta è la soluzione di virtualizzazione su piattaformaVMware implementata in questa fase su due nodi.VMware vSphere TM elimina la proliferazione dei server eseguendo le applicazioni all’internodi macchine virtuali installate su un numero inferiore di server e con un utilizzo

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per84l’azienda Cadeypiù efficiente delle risorse di rete e storage.Le organizzazioni che utilizzano una talesoluzione possono conseguire rapporti di consolidamento per singolo server elevatissimi,grazie a straordinarie funzionalità di gestione della memoria e ottimizzazione dinamica.La complessità di gestione dell’hardware viene ridotta mediante la virtualizzazione totaledi server, storage e hardware di rete.VMware vSphere TM aiuta quindi a realizzare una solida infrastruttura protetta, che garantiscela continuità aziendale anche in presenza di guasti hardware o di indisponibilitàdel data center. Grazie a queste sue funzionalità, la scelta di Cadey è stata VMwarevSphere Standard. Essa rappresenta una soluzione di fascia entry-level per il consolidamentoapplicativo di base, allo scopo di ridurre sensibilmente i costi hardware, accelerandonel contempo la distribuzione delle applicazioni.Configurazione hardwareServer:nodi VMware N ◦ 2 PRIMERGY RX300 S6. Caratteristiche tecniche:• doppio processore quad core;• 16GB di RAM;• scheda fibre channel;• N ◦ 2 hard disk 146GB SAS.Storage:Controller a 2 canali FC 4GB - N ◦ 4 hard disk da 450GB SAS 15k (3 hard disk raid 5 +1 hard disk spare)Soluzione e strategia di backup:Sono previsti due livelli di backup, il primo su disco mentre il secondo su nastro.Sul server è presente l’unità nastro LTO3 per l’esecuzione del secondo livello di copia.

4.3 Struttura del data mart vendite 854.3 Struttura del data mart venditeLa soluzione di business intelligence che l’azienda Cadey ha deciso di adottare, consistenella suite Oracle Business Intelligence fondata su un Enterprise Data Warehouse realizzatosu database Oracle 11g.Il processo ETL per la costruzione del data warehouse non rientra nelle attività da mesvolte presso il cliente durante l’esperienza di tirocinio. Tuttavia propongo la strutturadel data mart relativo alle vendite sul quale si basano le attività di sviluppo del progettoda me affrontato.Figura 4.3: Schema concettuale del data mart delle venditeNelle prossime sezioni vengono descritti i passi che consentono di presentare i dati all’internodel data mart all’utente finale, in una forma a lui comprensibile.

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per86l’azienda Cadey4.4 Costruzione dei metadatiIl repository dei metadati, come anticipato nella sezione 3.2, è un file che ha il compito dimemorizzare i metadati necessari al BI Server per trasformare una query logica, ovverouna interrogazione che viene costruita dall’utente che non è a conoscenza della strutturadelle sorgenti, nella relativa query fisica da eseguire sui dati sorgente.Lo strumento che Oracle BI mette a disposizione degli sviluppatori per la costruzionedei metadati è l’Administration Tool. Con esso è possibile mappare i dati presenti nellesorgenti fisiche nei dati di presentazione, utilizzabili dall’utente finale, passando per trelivelli distinti: livello fisico, livello logico e livello di presentazione.Di seguito vengono descritte le tre fasi, prendendo come riferimento il repository deimetadati utilizzato dall’azienda Cadey. Essendo le dimensioni del progetto troppo elevateper poterle esaminare in modo esaustivo, ho deciso di prendere in esame solo una facttable e una dimension table ed osservare il passaggio dei dati dalle sorgenti fisiche, finoalla loro visualizzazione in report utilizzabili dagli utenti business.4.4.1 Livello fisicoLa costruzione di questo livello inizia con l’importazione delle tabelle che andranno acostituire le sorgenti. Tali sorgenti possono essere eterogenee, tuttavia in questo casoproverranno dal medesimo data mart. La Figura 4.4 mostra il livello fisico costruito nelnostro caso di studio.Il database è l’oggetto collocato più in alto nel livello fisico e definisce la sorgente datialla quale il BI Server dovrà inviare le query. Il connection pool definisce le modalitàdi collegamento al database, mentre lo schema contiene le tabelle e le colonne delloschema fisico.Le tabelle importate sono le seguenti:• F SPED: fact table relativa alle vendite;• L CLI: dimension table relativa ai clienti, sulla quale viene eseguita una parziale normalizzazionecon le tabelle L GEO NAZIONE, L GEO REGIONE e L GEO PROVINCIAche contengono rispettivamente i dati relativi alla nazione, regione e provincia delcliente;

4.4 Costruzione dei metadati 87• L CLI NAZIONE, L CLI REGIONE e L CLI PROVINCIA: alias per le tabelleL GEO NAZIONE, L GEO REGIONE e L GEO PROVINCIA rispettivamente.Verranno utilizzate per riferisi alle tabelle appena elencate.Figura 4.4: Rappresentazione del livello fisico nell’Administration ToolDefinizione dei vincoli di integrità referenzialeUna volta importate le tabelle, occorre definire i vincoli di foreign key. Nel nostro casosaranno:F SPED.DOC CLI DM ID = L CLI.CLI IDL CLI.CLI PROVINCIA ID = L CLI PROVINCIA.PROVINCIA IDL CLI PROVINCIA.REGIONE ID = L CLI REGIONE.REGIONE IDL CLI REGIONE.NAZIONE ID = L CLI NAZIONE.NAZIONE ID

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per88l’azienda CadeyFigura 4.5: Rappresentazione dei vincoli di integrità referenziale delle tabelle del livellofisicoFigura 4.6: Diagramma completo del livello fisico relativo alle vendite

4.4 Costruzione dei metadati 894.4.2 Livello logicoÈ il livello dove gli schemi fisici vengono semplificati e riorganizzati per formare le basidella vista che l’utente avrà dei dati.La costruzione del livello logico inizia con l’importazione degli oggetti dal livello fisico econ la definizione delle relazioni tra di essi (Figura 4.7). Infatti, solo grazie a quest’ultimopassaggio si riescono a definire i ruoli degli oggetti stessi, ovvero quali sono le fact tablee quali le dimension table.Figura 4.7: Rappresentazione del livello logico e della relazione che lega la dimensiontable “ClienteDim” con la fact table “Spedito - Vendite”Per ogni tabella del livello logico, le source table identificano le relative tabelle sorgentinel livello fisico. Si noti che per la dimension table ClienteDim compare la solatabella L CLI come sorgente, mentre vengono omesse le tabelle L CLI NAZIONE,L CLI REGIONE e L CLI PROVINCIA. Questo perché è possibile mappare una sourcetable su più tabelle fisiche, a patto che siano in relazione tra loro nel modello fisico.

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per90l’azienda CadeyPer ognuna delle misure è possibile definire una regola di aggregazione. In questo modosi definisce il comportamento che tale misura dovrà avere ogni qualvolta si desideracambiare il livello di dettaglio con il quale analizzare i dati. Nel nostro caso ogni misurapossiede come regola di aggregazione la somma.Creazione di nuove colonne nel livello logicoAll’interno del livello logico è possibile creare nuove colonne, utilizzando colonne giàpresenti all’interno di una formula. Possono essere utilizzate:• Colonne logiche: vengono utilizzate colonne appartenenti al livello logico. La regoladi aggregazione della colonna creata viene automaticamente individuata sulla basedelle regole di aggregazione delle colonne logiche utilizzate nella formula;• Colonne fisiche: vengono utilizzate colonne appartenenti al livello fisico. In questocaso la regola di aggregazione deve essere specificata manualmente, in quanto lecolonne utilizzate nella formula non ne possiedono una.La differenza tra le due metodologie risiede nell’ordine con il quale le aggregazioni vengonoeseguite. Nel primo caso infatti saranno effettuate a livello di colonna, mentre nel secondoa livello di riga.Creazione delle gerarchieLa creazione di una gerarchia conferisce una organizzazione gerarchica alle colonne logicheappartenenti ad una dimension table. In questo modo si possono definire i percorsi didrill-down che l’utente potrà effettuare durante la fase di analisi. La struttura di unagerarchia e gestibile dal solo livello logico. La Figura 4.8 mostra la gerarchia utilizzatanel nostro caso di studio.L’introduzione di una gerarchia permette di definire:• Level-based measures: Sono misure che vengono calcolate ad uno specifico livellodi aggregazione e che per tanto non vengono influenzate dai drill-down su altri livelli;• Share measures: Sono misure che vengono calcolate facendo il rapporto tra lenormali misure e misure level-based. Vengono utilizzate per calcolare le percentuali.

4.4 Costruzione dei metadati 91Figura 4.8: Gerarchia relativa alla dimension table ClienteDimFigura 4.9: Diagramma completo del livello logico relativo alle vendite

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per92l’azienda Cadey4.4.3 Livello di presentazioneRappresenta la vista che ha l’utente dei dati. Ha il compito di semplificare il livello logico.Nel livello di presentazione è infatti possibile nascondere determinate colonne oppureriorganizzare i dati in cataloghi o cartelle separate. La Figura 4.10 fornisce una rappresentazionedel livello di presentazione.Figura 4.10: Rappresentazione del livello di presentazione nell’Administration ToolLe presentation table possono essere utilizzate per riorganizzare i dati. Esse possonocontenere colonne logiche provenienti da più tabelle logiche e risultano essere indipendentida queste ultime.La definizione delle subject area permette, come vedremo più avanti, la suddivisione inpiù ambiti di analisi negli strumenti di front end.4.4.4 Validazione del repositoryUna volta terminata la costruzione dei tre livelli occorre validare il repository appenacreato. Per essere considerato valido, un repository deve possedere i seguenti requisiti:

4.5 Costruzione della reportistica 93• Tutte le colonne logiche sono mappate direttamente o indirettamente su una o piùcolonne fisiche;• Tutte le dimension table del livello logico hanno una chiave logica;• Tutte le tabelle logiche sono in logical join con almeno un’altra tabella logica;• Devono essere presenti almeno due tabelle logiche: una fact table ed una dimensiontable. Eventualmente possono entrambe essere mappate sulla medesima tabellafisica.• Non ci devono essere cicli nelle relazioni definite nel modello logico;• Esiste almeno una subject area per ogni modello business (si noti che nell’esempiotrattato è presente un solo modello business, quello delle vendite).Una volta validato il repository è possibile caricarlo all’interno del BI Server attraversol’Enterprise Manager.4.5 Costruzione della reportisticaMentre la costruzione dei metadati è un compito strettamente riservato agli sviluppatori,la costruzione della reportistica può essere fatta anche dagli utenti business.Oracle BI mette infatti a disposizione una semplice GUI (Figura 4.11) per la creazionedi report e dashboard.Figura 4.11: Costruzione di un report tramite “Oracle BI Analysis and Reporting”

Il caso di studio: Realizzazione di una soluzione di Business Intelligence per94l’azienda CadeyNella parte sinistra è collocata la subject area. In essa si possono reperire gli oggettinecessari alla costruzione del report. OBIEE 11g permette la costruzione di analisi contenentioggetti provenienti da più subject area.Nella parte destra, invece, è possibile modellare il report modificando l’ordine e le proprietàdelle colonne (in alto), oppure definire opportuni filtri (in basso).Di seguito una dashboard e un report di tipo grafico, relativi alle vendite analizzateper famiglia dell’articolo.Figura 4.12: Dashboard relativa alle vendite analizzate per famiglia dell’articoloFigura 4.13:Figura 4.12Report grafico che descrive la situazione mostrata nella dashboard di

4.5 Costruzione della reportistica 95ConclusioniLa struttura di questo lavoro di tesi rappresenta il percorso seguito durante i mesi ditirocinio.Le prime settimane sono state infatti dedicate ad attività di studio individuale e a corsidi formazione, che mi hanno portato ad acquisire le nozioni di base dei sistemi di datawarehousing e business intelligence. I primi due capitoli riassumono il percorso formativointrapreso.La seconda parte del tirocinio è stata dedicata allo studio della tecnologia Oracle BI 11g,al fine di apprendere le caratteristiche tecniche del prodotto, descritte nel terzo capitolo,e le metodologie di sviluppo di un progetto di business intelligence.Quindi, solamente dopo aver seguito un percorso di formazione adeguato, sono statocoinvolto nello sviluppo di una soluzione di business intelligence presso l’azienda Cadeys.r.l di Piacenza. Durante questa esperienza ho potuto partecipare alle seguenti attività:• Installazione della piattaforma di business intelligence;• Costruzione dei metadati, ovvero il processo di mappatura dei dati fisici del datamart delle vendite nei dati di presentazione utilizzabili dall’utente;• Costruzione della reportistica, report e dashboard, in base alle esigenze mostratedal cliente.Il quarto capitolo descrive come sono state affrontate alcune di queste attività.L’esperienza di tirocinio mi ha permesso di maturare sotto l’aspetto professionale e diacquisire conoscenze che considero di fondamentale importanza per il mio futuro.

ELENCO DELLE FIGURE1.1 Rappresentazione di un processo aziendale . . . . . . . . . . . . . . . . . 31.2 Le attività aziendali secondo Anthony . . . . . . . . . . . . . . . . . . . . 51.3 Relazioni tra i sistemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1 Componenti di un sistema di data warehousing . . . . . . . . . . . . . . 182.2 Architettura ad un livello per un sistema di data warehousing . . . . . . 212.3 Architettura a due livelli per un sistema di data warehousing . . . . . . . 222.4 Architettura a tre livelli per un sistema di data warehousing . . . . . . . 232.5 Cubo multidimensionale che modella le vendite in una catena di negozi . 272.6 Una possibile gerarchia per la dimensione negozi . . . . . . . . . . . . . . 282.7 Semplice schema di fatto delle vendite . . . . . . . . . . . . . . . . . . . 292.8 Schema Entity/Relationship delle vendite . . . . . . . . . . . . . . . . . . 292.9 Schema di fatto delle vendite arricchito . . . . . . . . . . . . . . . . . . . 302.10 Star schema per le vendite . . . . . . . . . . . . . . . . . . . . . . . . . . 312.11 Snowflake schema per le vendite . . . . . . . . . . . . . . . . . . . . . . . 332.12 Rappresentazione del fenomeno di sparsità dei dati . . . . . . . . . . . . 342.13 Suddivisione del cubo multidimensionale in chunk . . . . . . . . . . . . . 352.14 Rappresentazione del portafoglio applicativo aziendale . . . . . . . . . . . 382.15 Piramide della Business Intelligence . . . . . . . . . . . . . . . . . . . . . 392.16 Operatori di slice-and-dice . . . . . . . . . . . . . . . . . . . . . . . . . . 422.17 Operatori di roll-up e drill-down . . . . . . . . . . . . . . . . . . . . . . . 43

98 ELENCO DELLE FIGURE2.18 Il processo di knowledge discovery . . . . . . . . . . . . . . . . . . . . . . 462.19 Fasi di un’analisi di business intelligence . . . . . . . . . . . . . . . . . . 503.1 Standardizzazione degli strumenti e successo della BI . . . . . . . . . . . 573.2 Architettura di OBIEE 11g . . . . . . . . . . . . . . . . . . . . . . . . . 573.3 Architettura logica di OBIEE 11g su un singolo host . . . . . . . . . . . 583.4 Architettura logica di OBIEE 11g su più host . . . . . . . . . . . . . . . 593.5 Traduzione di una query logica nella relativa query fisica attraverso i 3livelli del repository . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.6 Architettura del BI Server . . . . . . . . . . . . . . . . . . . . . . . . . . 633.7 Tipica struttura delle directory di Oracle BI . . . . . . . . . . . . . . . . 653.8 Costruzione di un’analisi con BI Analysis and Reporting . . . . . . . . . 673.9 Un esempio di dashboard interattiva . . . . . . . . . . . . . . . . . . . . 693.10 Un esempio di scorecard . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.11 Costruzione di un report pixel perfect mediante BI Publisher Layout Editor 703.12 Creazione di un agente tramite BI Delivers . . . . . . . . . . . . . . . . . 713.13 Suddivisione dei tre livelli del repository nell’Administration Tool . . . . 733.14 Quadrante magico di Gartner relativo alle piattaforme di Business Intelligencedel mese di gennaio 2011 . . . . . . . . . . . . . . . . . . . . . . . 753.15 Confronto delle posizioni occupate dai maggiori vendor di piattaforme diBusiness Intelligence nel quadrante magico di Gartner nel 2006 e nel 2011 784.1 Struttura commerciale dell’azienda Cadey s.r.l. . . . . . . . . . . . . . . . 824.2 Organigramma dell’azienda Cadey s.r.l. . . . . . . . . . . . . . . . . . . . 834.3 Schema concettuale del data mart delle vendite . . . . . . . . . . . . . . 854.4 Rappresentazione del livello fisico nell’Administration Tool . . . . . . . . 874.5 Rappresentazione dei vincoli di integrità referenziale delle tabelle del livellofisico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.6 Diagramma completo del livello fisico relativo alle vendite . . . . . . . . . 884.7 Rappresentazione del livello logico nell’Administration Tool . . . . . . . . 894.8 Rappresentazione di una gerarchia nell’Administration Tool . . . . . . . 914.9 Diagramma completo del livello logico relativo alle vendite . . . . . . . . 914.10 Rappresentazione del livello di presentazione nell’Administration Tool . . 924.11 Costruzione di un report tramite “Oracle BI Analysis and Reporting” . . 93

ELENCO DELLE FIGURE 994.12 Dashboard relativa alle vendite analizzate per famiglia dell’articolo . . . . 944.13 Un esempio di report grafico . . . . . . . . . . . . . . . . . . . . . . . . . 94

ELENCO DELLE TABELLE1.1 Caratteristiche dei diversi tipi di sistemi informativi. . . . . . . . . . . . 101.2 Differenze tra sistemi OLTP e sistemi OLAP. . . . . . . . . . . . . . . . . 143.1 Matrice business case per la BI. . . . . . . . . . . . . . . . . . . . . . . . 56

BIBLIOGRAFIA[ACPT06] Paolo Atzeni, Stefano Ceri, Stefano Paraboschi, and Riccardo Torlone. Basidi dati - modelli e linguaggi di interrogazione. McGraw-Hill, second edition,2006.[Des07]Giulio Destri. Introduzione ai sistemi informativi aziendali. Monte UniversitàParma, 2007.[Gar11] Gartner. Magic quadrant for business intelligence platform, January 2011.[GR06]Matteo Golfarelli and Stefano Rizzi. Data Warehouse - teoria e pratica dellaprogettazione. McGraw-Hill, second edition, 2006.[KRT + 07] Ralph Kimball, Margy Ross, Warren Thornthwaite, Joy Mundy, and BobBecker. The Datas Warehouse Lifecycle Toolkit. Wiley Publishing, secondedition, 2007.[LL06] Kenneth Laudon and Jane Laudon. Management dei sistemi informativi.Pearson Prentice Hall, second edition, 2006.[Oraa][Orab]Oracle. Company profile. http://www.oracle.com/global/it/corporate/company_profile.html.Oracle. Oracle business intelligence enterprise edition 11g - installation guide.[Orac] Oracle. Oracle business intelligence enterprise edition 11g - metadatarepository builder’s guide.

104 BIBLIOGRAFIA[Orad] Oracle. Oracle business intelligence enterprise edition 11g - systemadministrator’s guide.[Orae] Oracle. Oracle fusion middleware 11g - certification matrix.http://www.oracle.com/technetwork/middleware/downloads/fmw-11gr1certmatrix.xls.[Ora09] Oracle. Building a better business case for business intelligence, 2009.[Ora11a] Oracle. Oracle business intelligence foundation suite - technical overview.http://www.oracle.com/us/obiee-11g-technical-overview-078853.pdf, January 2011.[Ora11b][Pas04][PM05]Oracle. Oracle fusion middleware 11g - system requirements and specifications,January 2011.Paolo Pasini. I sistemi informativi direzionali - le tecnologie dell’informazionea supporto dei processi manageriali d’azienda. Egea, 2004.Maurizio Pighin and Anna Marzona. Sistemi informativi aziendali - strutturae applicazioni. Pearson Prentice Hall, 2005.[TRS03] Marco Tagliavini, Aurelio Ravarini, and Donatella Sciuto. Sistemi per lagestione dell’informazione. Apogeo, 2003.[Ver06]Carlo Vercellis. Business Intelligence - modelli matematici e sistemi per ledecisioni. McGraw-Hill, 2006.

Business Intelligence: un caso di studio nel settore cosmetico

Create successful ePaper yourself

Delete template?

Save as template?