10.07.2015 Views

bodega de datos - Oldemar Rodríguez Rojas

bodega de datos - Oldemar Rodríguez Rojas

bodega de datos - Oldemar Rodríguez Rojas

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

PF-3845 METODOS Y ALGORITMOSEN MINERIA DE DATOSDr. Ol<strong>de</strong>mar RodríguezPostgrado en Computación e InformáticaUniversidad <strong>de</strong> Costa Rica Capítulo 1Introducción 1


Introducción¿Qué es Minería <strong>de</strong> Datos?– Extracción <strong>de</strong> información o <strong>de</strong> patrones(no trivial, implícita, previamente<strong>de</strong>sconocida y potencialmente útil) <strong>de</strong>gran<strong>de</strong>s bases <strong>de</strong> <strong>datos</strong>. Introducción¿Qué es Minería <strong>de</strong> Datos?– Es analizar <strong>datos</strong> para encontrar patronesocultos usando medios automatizados. 2


Introducción¿Qué es Minería <strong>de</strong> Datos?– La Minería <strong>de</strong> Datos es un proceso no elemental <strong>de</strong>búsqueda <strong>de</strong> relaciones, correlaciones,<strong>de</strong>pen<strong>de</strong>ncias, asociaciones, mo<strong>de</strong>los, estructuras,ten<strong>de</strong>ncias, clases (clusters), segmentos, los cualesque se obtienen <strong>de</strong> gran<strong>de</strong>s juegos <strong>de</strong> <strong>datos</strong>, loscuales generalmente están almacenados en bases <strong>de</strong><strong>datos</strong> (relacionales o no).– Esta búsqueda se lleva a cabo utilizando métodosmatemáticos, estadísticos o algorítmicos. Introducción¿Qué es Minería <strong>de</strong> Datos?– Se consi<strong>de</strong>ra la Minería <strong>de</strong> Datos como un elproceso, lo más automatizado posible, qué va <strong>de</strong> los<strong>datos</strong> elementales disponibles en una Bo<strong>de</strong>ga <strong>de</strong>Datos a la <strong>de</strong>cisión.– El objetivo principal <strong>de</strong> la Minería <strong>de</strong> Datos es crearun proceso automatizado que toma como punto <strong>de</strong>partida los <strong>datos</strong> y cuya meta es la ayuda a la toma<strong>de</strong> <strong>de</strong>cisiones. 3


IntroducciónMinería <strong>de</strong> Datos versus KDD (KnowledgeDiscovery in Databases)– Usualmente ambos términos sonintercambiables.KDD (Knowledge Discovery in Databases): Esel proceso <strong>de</strong> encontrar información y/opatrones útiles en los <strong>datos</strong>.Minería <strong>de</strong> Datos: es el uso <strong>de</strong> algoritmos paraextraer información y/o patrones <strong>de</strong>rivados <strong>de</strong>lproceso KDD. Minería <strong>de</strong> Datos: A KDD Process• La Minería <strong>de</strong> Datos:Es el centro <strong>de</strong>l proceso <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>l conocimiento(KDD Process = Knowledge Discovery in Data Bases Process). 4


IntroducciónMinería <strong>de</strong> Datos versus EstadísticaLa estadística generalmente analiza muestras <strong>de</strong><strong>datos</strong> para luego hacer inferencia a toda la población,mientras que la minería <strong>de</strong> <strong>datos</strong> preten<strong>de</strong> buscarinformación útil usando toda la base <strong>datos</strong>.La estadística en la mayoría <strong>de</strong> los casos supone quelos <strong>datos</strong> se comportan <strong>de</strong> acuerdo a ciertasdistribuciones <strong>de</strong> probabilidad (normal, binomial,geométrica, Poisson, etc), mientras que la minería <strong>de</strong><strong>datos</strong> usa técnicas mucho más exploratorias quevienen <strong>de</strong> la IA, o <strong>de</strong>l “Analyse <strong>de</strong>s Données”. IntroducciónMinería <strong>de</strong> Datos versus Análisis <strong>de</strong> DatosCon el advenimiento <strong>de</strong> las computadoras, aproximadamente en1960, un nuevo concepto surgió <strong>de</strong>l “matrimonio” entre lainformática y la estadística: El Análisis <strong>de</strong> Datos (conocido encomo: Analyse <strong>de</strong>s Données - Exploratory Data Analysis).Esta nueva manera <strong>de</strong> analizar los <strong>datos</strong> con un objetivo<strong>de</strong>cisional usa mucho más la informática y los métodos analíticos(el análisis <strong>de</strong> factorial, la clasificación automática, ladiscriminación, etc.) que los métodos estadísticos clásicos, laspruebas <strong>de</strong> hipótesis, que parten <strong>de</strong> supuestos matemáticos muydifíciles <strong>de</strong> verificar en la práctica. (Ej. no se supone que los <strong>datos</strong>siguen cierta distribución <strong>de</strong> probabilidad – los <strong>datos</strong> se muestranpor si mismos).A diferencia <strong>de</strong> la minería <strong>de</strong> <strong>datos</strong>, el análisis <strong>de</strong> <strong>datos</strong>usualmente no es automatizado, ni trata con volúmenes <strong>de</strong> <strong>datos</strong>tan gran<strong>de</strong>s. 5


La Minería <strong>de</strong> Datos: Confluencia <strong>de</strong> Múltiples Disciplinas "$ %&'# !" # Aplicaciones <strong>de</strong> la Minería <strong>de</strong> Datos• Retención <strong>de</strong> Clientes ¿Cuáles clientes se van irpara la competencia?• Patrones <strong>de</strong> Compra ¿Cuándo un cliente compraun producto cuál otro le podría interesar?• Detección <strong>de</strong> Frau<strong>de</strong> ¿Cuáles transacciones sonfraudulentas?• Manejo <strong>de</strong>l Riesgo ¿A qué clientes les doy unpréstamo?• Segmentación <strong>de</strong> clientes ¿Quiénes son misclientes?• Predicción <strong>de</strong> Ventas ¿Cuánto voy a ven<strong>de</strong>r elpróximos mes? 7


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Descriptivas:– OLAP (visualización).– “Clustering”.– Métodos Factoriales como ACP, AFC.• Predictivas:– Series <strong>de</strong> Tiempo.– Análisis Discriminante.– Regresión.– Árboles <strong>de</strong> Decisión. Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• “Clustering”: (clasificación no supervisada, aprendizajeno supervizado): Es similar a la clasificación, excepto quelos grupos no son pre<strong>de</strong>finidos. El objetivo es particionaro segmentar un conjunto <strong>de</strong> <strong>datos</strong> o individuos en gruposque pue<strong>de</strong>n ser disjuntos o no. Los grupos se formanbasados en la similaridad <strong>de</strong> los <strong>datos</strong> o individuos enciertas variables. Como los grupos no son dados a prioriel experto <strong>de</strong>be dar una interpretación <strong>de</strong> los grupos quese forman.• Métodos:– Clasificación Jerárquica (grupos disjuntos).– Nubes Dinámicas (grupos disjuntos).– Clasificación Piramidal (grupos NO disjuntos). 8


Cluster Analysis The K-Means Clustering Method (nubes dinámicas)1098765432100 1 2 3 4 5 6 7 8 9 101098765432100 1 2 3 4 5 6 7 8 9 101098765432100 1 2 3 4 5 6 7 8 9 101098765432100 1 2 3 4 5 6 7 8 9 10 9


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Clasificación (discriminación): Mapea oasocia <strong>datos</strong> a grupos pre<strong>de</strong>finidos(aprendizaje supervisado).– Encuentra mo<strong>de</strong>los (funciones) que <strong>de</strong>scribeny distinguen clases o conceptos para futuraspredicciones.– Ejemplos: Credit scoring.– Métodos: Análisis discriminante, <strong>de</strong>cision-tree,classification rule, neural network v3v5v8v1v2v4v6 10


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Descubrimiento <strong>de</strong> Factores (Análisis Factorial):– El análisis factorial es un nombre genérico que se da a una clase <strong>de</strong> métodosmultivariantes cuyo propósito principal es encontrar la estructura subyacenteen una tabla <strong>de</strong> <strong>datos</strong> (factores ocultos).– Generalmente hablando, aborda el problema <strong>de</strong> cómo analizar la estructura<strong>de</strong> las interrelaciones (correlaciones) entre un gran número <strong>de</strong> variables con la<strong>de</strong>finición <strong>de</strong> una serie <strong>de</strong> dimensiones subyacentes comunes, conocidascomo factores.– Se pue<strong>de</strong> consi<strong>de</strong>rar cada factor como una variable <strong>de</strong>pendiente que esfunción <strong>de</strong>l conjunto entero <strong>de</strong> las variables observadas.– El objetivo central es el resumen y la reducción <strong>de</strong> <strong>datos</strong>.• Métodos:– Análisis en Componentes Principales (ACP).– Análisis Factorial <strong>de</strong> Correspon<strong>de</strong>ncias simples y múltiples (AFC).– Análisis Canónico (AC).– Análisis Discriminante (AD). Tabla <strong>de</strong> DatosComponentes100% <strong>de</strong> la información 80% 16% …… 0.02% 11


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Regresión: Se usa una regresión para pre<strong>de</strong>cirlos valores ausentes <strong>de</strong> una variable basándoseen su relación con otras variables <strong>de</strong>l conjunto <strong>de</strong><strong>datos</strong>.• Hay regresión lineal, no lineal, logística,logarítmica, univariada, multivariada, etc. 12


RegressionyY1Y1’y = x + 1X1x Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Series <strong>de</strong> Tiempo: 1. X t : Serie <strong>de</strong> tiempo.2. Corregir errores sistemáticos.3. Transformaciones matemáticas.4. X t =Ten<strong>de</strong>ncia+Estacionalidad+Ciclos+E t .5. Para E t (Si no es un ruido blanco)1. Elegir el mo<strong>de</strong>lo (Box-Jenkings).1. ARMA(p,q) (AutoRegressive Moving Average)2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)2. Estimar parámetros.6. Pronósticos. 13


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Sumarización:– Los métodos <strong>de</strong> sumarización asignan los <strong>datos</strong> aconjuntos (individuos <strong>de</strong> segundo or<strong>de</strong>n) que tienenasociadas <strong>de</strong>scripciones.– Estos métodos permiten extraer o <strong>de</strong>rivar <strong>datos</strong>representativos <strong>de</strong> una base <strong>de</strong> <strong>datos</strong>.– Permite el análisis <strong>de</strong> conceptos.• Métodos:– Análisis <strong>de</strong> <strong>datos</strong> simbólicos.– Lógica difusa.– Interval Analysis. 14


Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Asociación o Análisis <strong>de</strong> afinidad:– Conocido como “Link Analysis” se refiere aencontrar relaciones no evi<strong>de</strong>ntes en los <strong>datos</strong>.• Métodos:– Reglas <strong>de</strong> asociación (association rules) .– Análisis <strong>de</strong> Correlation y <strong>de</strong> Causalidad. Tareas <strong>de</strong> la Minería <strong>de</strong> Datos• Descubrimiento <strong>de</strong> secuencias:– “Secuential analysis” es usado para <strong>de</strong>scubrirsecuencias <strong>de</strong> patrones en los <strong>datos</strong>, estospatrones son similares a los encontrados conreglas <strong>de</strong> asociación pero tales relaciones sonbasadas en el tiempo.• Métodos:– Re<strong>de</strong>s neuronales.– Series <strong>de</strong> tiempo. 15


Data Mining: On What Kind of Data?• Relational databases• Data warehouses• Transactional databases• Advanced DB and information repositories– Object-oriented and symbolic databases– Spatial databases (location component, GeographicInformation Systems - GIS)– Time-series data and temporal data– Text databases and multimedia databases– Heterogeneous and legacy databases– www (web mining) Steps of a KDD Process1. Learning the application domain:– Relevant prior knowledge and goals of application2. Creating a target data set: data selection3. Data cleaning and preprocessing: (may take 60% of effort!)4. Data reduction and transformation:– Find useful features, dimensionality/variable reduction, invariantrepresentation.5. Choosing functions (methods) of data mining– Summarization, classification, regression, association, clustering.6. Choosing the mining algorithm(s)7. Data mining: search for patterns of interest8. Pattern evaluation and knowledge presentation– visualization, transformation, removing redundant patterns, etc.9. Use of discovered knowledge 16


Ciclo <strong>de</strong> un proyecto <strong>de</strong> minería <strong>de</strong> <strong>datos</strong>1. Recolectar los <strong>datos</strong>. Usualmente las compañiastienes muchas bases <strong>de</strong> <strong>datos</strong> que <strong>de</strong>ben sercentralizadas.2. Limpieza y transformación <strong>de</strong> <strong>datos</strong>.3. Definir la meta <strong>de</strong>l proyecto y así encontrar elmo<strong>de</strong>lo a<strong>de</strong>cuado.4. Escoger los algoritmos que permitan optimizar elmo<strong>de</strong>lo.5. Generar reportes.6. Generar predicciones y/o “Scoring”.7. Aplicación <strong>de</strong> los resultados en el negocio.8. Actualización <strong>de</strong> los mo<strong>de</strong>los. (calibraciónconstante <strong>de</strong> los mo<strong>de</strong>los) Data Mining and Business IntelligenceIncreasing potentialto supportbusiness <strong>de</strong>cisionsMakingDecisionsEnd UserData PresentationVisualization TechniquesData MiningInformation DiscoveryData ExplorationStatistical Analysis, Querying and ReportingBusinessAnalystDataAnalystData Warehouses / Data MartsOLAP, MDAData SourcesPaper, Files, Information Provi<strong>de</strong>rs, Database Systems, OLTPDBA 17


Architecture of a Typical Data Mining System+ * &! & " ( ) *&Data cleaning & data integrationFiltering,)(DatabasesDataWarehouse Estándares en Minería <strong>de</strong> Datos• En Minería <strong>de</strong> Datos estamos como en Base <strong>de</strong> Datos hace 20años, es <strong>de</strong>cir, se están haciendo esfuerzos por <strong>de</strong>finirestándares.• OLE DB for DM: <strong>de</strong>fine un nuevo lenguaje para la minería <strong>de</strong><strong>datos</strong> que permite la creación <strong>de</strong> mo<strong>de</strong>los, aprendizaje ypredicción. También <strong>de</strong>fine un mo<strong>de</strong>lo <strong>de</strong> <strong>datos</strong> para los métodosy algoritmos <strong>de</strong> minería <strong>de</strong> <strong>datos</strong>.• XML for Analysis: es otro estándar <strong>de</strong> la industria y está a cargo<strong>de</strong>l “XML / A Council”. Así surge el lenguaje <strong>de</strong> consultas “querylanguage Data Mining eXtensions” (DMX) que permite consultasbasadas en XML a los servidores <strong>de</strong> Minería <strong>de</strong> Datos.• SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto porIBM.• Java Data Mining API. Es un paquete JAVA para minería <strong>de</strong> <strong>datos</strong>propuesto por ORACLE. El objetivo es permitir a las aplicacionesJAVA con motores <strong>de</strong> minería <strong>de</strong> <strong>datos</strong>.• PMML, Crisp-DM, CMW (extensión <strong>de</strong> UML) y otros. 18


¿Qué es una Bo<strong>de</strong>ga <strong>de</strong> Datos?(Data Warehouse)• Una <strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong> es una base <strong>de</strong><strong>datos</strong> orientada a consultas, comoresultado <strong>de</strong> un análisis extenso y <strong>de</strong> latransformación <strong>de</strong> <strong>datos</strong> <strong>de</strong> la empresa.• La <strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong> se usa como punto<strong>de</strong> partida <strong>de</strong> un sistema <strong>de</strong> toma <strong>de</strong><strong>de</strong>cisiones (tales como OLAP, DataLab). ¿Qué es una Bo<strong>de</strong>ga <strong>de</strong> Datos?(Data Warehouse)• Una <strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong> tiene <strong>datos</strong>consolidados y consistentes, orientadoshacia un tema, históricos y solamente<strong>de</strong> lectura.• Una <strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong> podría ser elresumen un conjunto <strong>de</strong> bases <strong>de</strong> <strong>datos</strong><strong>de</strong> una empresa. 19


¿Qué es una Bo<strong>de</strong>ga <strong>de</strong> Datos?(Data Warehouse)SimbólicasoNuméricasProceso <strong>de</strong>Minería <strong>de</strong> Datos Bo<strong>de</strong>ga <strong>de</strong> Datos vrs BDR 20


¿Qué es un Mercado <strong>de</strong> Datos?(Data Mart)• Un Mercado <strong>de</strong> Datos (Data Mart) tienelas mismas características que una<strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong>, pero a un nivel másrefinado, pues contiene informaciónmás <strong>de</strong>tallada perteneciente a un solo<strong>de</strong>partamento <strong>de</strong> la empresa. ¿Cómo se construyen las Bo<strong>de</strong>gas <strong>de</strong>Datos y los Mercados <strong>de</strong> Datos?• Para esto se sigue el manual “The DataWarehouse Toolkit”.• El objetivo es evitar inconsistencias yerrores en los <strong>datos</strong>.• Este proceso en muy difícil <strong>de</strong>automatizar dada la gran cantidad <strong>de</strong>formatos <strong>de</strong> <strong>datos</strong> que existen en lasempresas. 21


Minería <strong>de</strong> Datos vrs OLAP¿Qué es Minería <strong>de</strong> Datos?• Son herramientas y técnicascuyo objetivo es extraerinformación valiosa <strong>de</strong> las<strong>bo<strong>de</strong>ga</strong>s <strong>de</strong> <strong>datos</strong> (DataWarehouse) y <strong>de</strong> losmercados <strong>de</strong> <strong>datos</strong> (DataMart).• Busca grupos <strong>de</strong> clientes,segmentos, patrones etc. Minería <strong>de</strong> Datos vrs OLAP¿Qué es OLAP?• OLAP (Online Analytical Processing)• OLAP es una tecnología que procesainformación <strong>de</strong> una <strong>bo<strong>de</strong>ga</strong> <strong>de</strong> <strong>datos</strong> enestructuras multidimensionales queproporcionan una respuesta rápida a consultascomplejas.• El objetivo <strong>de</strong> OLAP es resumir y organizargran<strong>de</strong>s cantida<strong>de</strong>s <strong>de</strong> <strong>datos</strong> para seanalizados y evaluados rápidamente. 22


¿Qué es OLAP? Mo<strong>de</strong>lo Estrella• Tabla <strong>de</strong> Hechos (fact table): Correspon<strong>de</strong> a loshechos <strong>de</strong>l negocio. En general son valoresnuméricos y sumables lo que permitirá sumarizarlos millones <strong>de</strong> registros haciendo agregados.Debe estar altamente normalizada.• Tablas <strong>de</strong> Dimensiones (dimensions tables):Permiten <strong>de</strong>scribir los hechos <strong>de</strong>s<strong>de</strong> diferentesángulos permitiendo análisis muy diversos. Engeneral, tienen una <strong>de</strong>scripción textual muy clara.Generalmente no están normalizadas. 23


Example of Star Schematimetime_keydayday_of_the_weekmonthquarteryearMeasuresSales Fact Tabletime_keyitem_keylocation_keyunits_solddollars_soldavg_salesitemitem_keyitem_namebrandtypesupplier_typelocationlocation_keystreetcityprovince_or_streetcountry 24


Example of Star Schematimetime_keydayday_of_the_weekmonthquarteryearSuppliersupplier_keysupplier_namesupplier_typeMeasuresSales Fact Tabletime_keyitem_keysupplier_keylocation_keyunits_solddollars_soldavg_salesitemitem_keyitem_namebrandtypesupplier_typelocationlocation_keystreetcityprovince_or_streetcountry 25


• OLAP (On Line Analytical Processing) fueintroducido por E.F.Codd, en creador <strong>de</strong>l mo<strong>de</strong>lorelacional <strong>de</strong> bases <strong>de</strong> <strong>datos</strong>, en un artículo queescribió en 1994.• El fuerte <strong>de</strong>l OLAP son los cálculos agregados osumarizados. Ej. ¿Cuáles son los 10 productosmás vendidos el último mes?• Mientras que el fuerte la Minería <strong>de</strong> Datos es labúsqueda <strong>de</strong> patrones ocultos. Ej. ¿Cuál es elperfil <strong>de</strong> los compradores <strong>de</strong> cámaras digitales? Una Bo<strong>de</strong>ga <strong>de</strong> Datos (Data Warehouse) es un sistema que toma los <strong>datos</strong><strong>de</strong> una compañía (<strong>de</strong> sus bases <strong>de</strong> <strong>datos</strong> y <strong>de</strong> otras fuentes <strong>de</strong> los <strong>datos</strong>) y lostransforma en una estructura a<strong>de</strong>cuada para el Análisis <strong>de</strong> Datos. Se realizan a menudo algoritmos matemáticos en los <strong>datos</strong> previamenteorganizados para llevar más allá su utilidad para la toma <strong>de</strong>cisiones en losnegocios. El análisis <strong>de</strong> los <strong>datos</strong> se ejecuta básicamente <strong>de</strong> dos formas. La primera requiere <strong>de</strong> una persona que investigue los <strong>datos</strong> paraencontrar las ten<strong>de</strong>ncias y patrones. Este método se conoce como “OnLine Analytical Processing” (OLAP.) La segunda forma utiliza algoritmos y métodos matemáticos paraescrudiñar los <strong>datos</strong> y buscar así las ten<strong>de</strong>ncias y patrones. Este métodose llama la Minería <strong>de</strong> Datos. Los Mercados <strong>de</strong> Datos (Data Mart) pue<strong>de</strong>n pensarse <strong>de</strong> cómo Bo<strong>de</strong>gas <strong>de</strong>mini-<strong>datos</strong> y usualmente son parte <strong>de</strong> una Bo<strong>de</strong>ga <strong>de</strong> Datos más gran<strong>de</strong>.Generalmente están orientados a un tema en particular. 26


Definiciones importantes en Bo<strong>de</strong>gas <strong>de</strong> Datos Dos tipos tablas conforman una Bo<strong>de</strong>ga <strong>de</strong> <strong>datos</strong>: las Tablas <strong>de</strong> Hechos ylas Tablas <strong>de</strong> Dimensión. Una Tablas <strong>de</strong> Hechos contiene típicamente los <strong>datos</strong> concernientes anegocios tales como las total <strong>de</strong> ventas, cantidad <strong>de</strong> las ventas, el número<strong>de</strong> clientes, y las llaves foráneas <strong>de</strong> las Tablas <strong>de</strong> Dimensión. Una llave foránea es un campo que liga la Tabla <strong>de</strong> Hechos con las Tablas<strong>de</strong> Dimensión Las Tablas <strong>de</strong> Dimensión contienen la información <strong>de</strong>tallada referente aun atributos específico <strong>de</strong> la Tabla <strong>de</strong> Hechos, como los <strong>de</strong>talles <strong>de</strong>lproducto, <strong>de</strong>l cliente, la información <strong>de</strong> la tienda, y así sucesivamente. 27


La Tabla <strong>de</strong> Hechos La Tabla <strong>de</strong> Hechos tiene como meta extraer los <strong>datos</strong> más importantes<strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista <strong>de</strong> la toma <strong>de</strong> <strong>de</strong>cisiones para el negocio. Esta tabla se estructura <strong>de</strong> manera tal que facilite la manipulación numérica<strong>de</strong> los <strong>datos</strong>. Así esta tabla usualmente NO será una tabla normalizada. Más bien, los <strong>datos</strong> muchas veces son agregaciones <strong>de</strong> otros por lo que setienen muchos <strong>datos</strong> pre-calculados con el objetivo <strong>de</strong> facilitar y optimizar laconsulta. Tablas <strong>de</strong> Dimensiones La Tabla <strong>de</strong> Hechos típicamente tiene <strong>datos</strong> cuantitativos; por ejemplo, los<strong>datos</strong> <strong>de</strong> transacción que muestran número <strong>de</strong> unida<strong>de</strong>s vendidas en cada laventa y cantidad cobrada al cliente por la unidad vendida. Mientras que las Tablas <strong>de</strong> Dimensión contienen la información <strong>de</strong>talladareferente a un atributos específico <strong>de</strong> la Tabla <strong>de</strong> Hechos, como los <strong>de</strong>talles <strong>de</strong>lproducto, <strong>de</strong>l cliente, la información <strong>de</strong> la tienda, y así sucesivamente. 28


Dimensiones Para Enten<strong>de</strong>r que significa un Cubo, que es el corazón <strong>de</strong> análisisOLAP, se <strong>de</strong>be enten<strong>de</strong>r la naturaleza <strong>de</strong> las dimensiones primero. Un OLAP está basado en las Bases <strong>de</strong> Datos Multidimensionales, porqueliteralmente se hace un análisis <strong>de</strong> <strong>datos</strong> observando las relaciones entrelas diferentes dimensiones tales como: Tiempo, Ventas, Productos,Clientes, Empleados, Ubicación Geográfica o Cuentas. Las dimensiones están basadas a menudo en jerarquías. Las jerarquíasson entida<strong>de</strong>s lógicas que un usuario podría querer analizar. Cadajerarquía pue<strong>de</strong> tener uno o más niveles. Cubos Un cubo es una estructura <strong>de</strong> <strong>datos</strong> multidimensional en el que se pue<strong>de</strong>consultar información para la toma <strong>de</strong> <strong>de</strong>cisiones. Se pue<strong>de</strong>n construir los cubos <strong>de</strong>s<strong>de</strong> una o más tablas <strong>de</strong> hechos y susdimensiones. Un cubo dado normalmente tiene un tema dominante bajo el cual se quierehacer el análisis. Por ejemplo, se podría construir un cubo <strong>de</strong> las Ventas con elque se analizan las ventas por la región, o un cubo <strong>de</strong> Proceso <strong>de</strong> Llamada conque se analiza longitud <strong>de</strong> llamada. 29


En la siguiente Figura se muestra un cubo <strong>de</strong> Ventas <strong>de</strong> Cerveza. Consi<strong>de</strong>rela cara <strong>de</strong>lantera <strong>de</strong>l cubo que muestra números positivos. Este cubo tienetres dimensiones: Tiempo, Línea <strong>de</strong>l Producto, y Estado dón<strong>de</strong> el producto fuevendido. Cada bloque <strong>de</strong>l cubo se llama una celda y se i<strong>de</strong>ntifica por un miembro encada dimensión. Por ejemplo, analice la celda <strong>de</strong> la esquina inferior-izquierda,la cual tiene los valores 4,784 y $98,399. Los valores indican el número <strong>de</strong>ventas y el monto <strong>de</strong> las ventas. Esta celda se refiere a las ventas <strong>de</strong> Cervezainglesa (Ale) en el estado <strong>de</strong> Washington (WA) durante julio <strong>de</strong>l 2005. Esto serepresenta como [WA, Ale, el Jul ' 05]. Si algunas celdas no tienen valor; esto es porque ningún dato está disponiblepara esas celdas en la tabla <strong>de</strong> hecho. 30


El esquema tipo EstrellaEste esquema se conoce así porque cuando se hace un diagrama entidadrelación<strong>de</strong> la tabla <strong>de</strong> hechos con las llaves foráneas más importantes <strong>de</strong>una o más tablas <strong>de</strong> dimensión se tiene un esquema que parece unaestrella ¿cierto? El esquema tipo Copo <strong>de</strong> Nieve (Snowflake)Hay que una extensión <strong>de</strong>l Esquema Estrella conocido como el esquema <strong>de</strong>l“Copo <strong>de</strong> Nieve”. Este tipo esquema es útil cuando una o más <strong>de</strong> tablas <strong>de</strong>dimensión son a su vez una tablas <strong>de</strong> hechos. 31


1. Cargar “SQL Server Business Intelligence Development Studio” 2. Crear un proyecto en BIDS (Business Intelligence Development Studio)File New Project 32


Carpetas <strong>de</strong> un proyecto: 3. Crear el “Data Source” (Conexión a la Base <strong>de</strong> Datos) 33


Adventureworks Sample DatabaseThe AdventureWorks sample databases are for the ficticious AdventureWorks-- a large, multinational manufacturing company. "The company manufacturesand sells metal and composite bicycles to North American, European and Asiancommercial markets. While its base operation is located in Bothell, Washingtonwith 290 employees, several regional sales teams are located throughout theirmarket base. In 2000, Adventure Works Cycles bought a small manufacturingplant, Importadores Neptuno, located in Mexico. Importadores Neptunomanufactures several critical subcomponents for the Adventure Works Cyclesproduct line. These subcomponents are shipped to the Bothell location for finalproduct assembly. In 2001, Importadores Neptuno became the solemanufacturer and distributor of the touring bicycle product group. Coming off asuccessful fiscal year, Adventure Works Cycles is looking to broa<strong>de</strong>n its marketshare by targeting their sales to their best customers, extending their productavailability through an external Web site, and reducing their cost of salesthrough lower production costs." 4. Crear el “Data Source View (DSV)” (Vistas Lógicas <strong>de</strong> las Tablas) 34


5. Crear un Cubo usando el “Cube Wizard” (Método Botton-up,es <strong>de</strong>cir se construye el cubo a partir <strong>de</strong> una base <strong>de</strong> <strong>datos</strong>) 35


6. Desplegando y visualizando un Cubo Introducción a MDX (Multi-Dimensional eXpressions) Así como SQL (Structured Query Language) es un lenguaje <strong>de</strong>consultas para recuperar <strong>datos</strong> <strong>de</strong> las bases <strong>de</strong> <strong>datos</strong> relacionales,MDX (Multi-Dimensional eXpressions) es es un lenguaje <strong>de</strong> consultaspara recuperar <strong>datos</strong> <strong>de</strong> las bases <strong>de</strong> <strong>datos</strong> multi-dimensionales(Cubos-OLAP). MDX fue diseñado por Microsoft e introducido por primera vez en elBIDS 7.0 en 1998. Members: Cada jerarquía <strong>de</strong> una dimensión contiene uno o más“Items” llamados los miembros. Ej.• [ Date ].[ Calendar ].[ Calendar Quarter ].[ Q1 CY 2004 ] 37


CelIs (Celdas): Una Celda es una entidad <strong>de</strong> la que se pue<strong>de</strong>n recuperar<strong>datos</strong> que correspon<strong>de</strong> a la intersección <strong>de</strong> los Miembros <strong>de</strong> dimensiones. Tuples (Tuplas): Una Tupla única i<strong>de</strong>ntifica una celda o una sección <strong>de</strong> uncubo. Ejemplos:• [Dim Product].[Large Photo].&[213]• [Dim Sales Territory].[Sales Territory Region].[Canada] Sets (Conjuntos): Un Set es una colección <strong>de</strong> tuplas unidas por “and”. Ejemplos:• ([ Date ].[ Calendar ].[ 2004 ].[ Hl CY 2004 ].[ Q1 CY 2004 ],[ Product ].[ Product Line ].[ Mountain ],[ Customer ].[ Country ].[ Australia ]) 38


¿Dón<strong>de</strong> ejecutar un Query MDX? SSMS: SQL Server Management Studio 39


Ejemplo 1:SELECT [Measures].[Sales Amount] on COLUMNSFROM [Adventure Works DW]WHERE ([Dim Sales Territory].[Sales Territory Group].[Pacific],[Dim Promotion].[English Promotion Category].[Reseller]) 40


Ejemplo 2:SELECT [Measures].[Discount Amount - Fact Reseller Sales] onCOLUMNSFROM [Adventure Works DW]WHERE ([Dim Product].[Large Photo].&[213],[Dim Sales Territory].[Sales Territory Region].[Canada]) Analizado Cuboscon Excel 2007 41


Paso 1: Establecer la conexión entre Excel y el BIDS 42


Paso 2: Creando el cubo en Excel a través <strong>de</strong> una tabla dinámica 43


Paso 3: Generando gráficos 44


Gracias…. 45

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!