LAD01147_Introduccion_Big_Data_U3_S3

Introducción al big data – Arquitecturas tecnológicas big data 

3. ECOSISTEMA HADOOP (III) 

3.1 Capa analítica y de visualización 

3.1.1. R 

R es un entorno y un lenguaje de programación con un enfoque al análisis 

estadístico. Parte de una implementación libre del lenguaje S, desarrollado por 

Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad 

de Auckland en 1993. 

Este lenguaje forma parte de GNU y se distribuye bajo licencia GNU GLP. 

Sus principales características son: 

• R al estar orientado a las estadísticas, proporciona un amplio abanico de 

herramientas. o Entre otras características de R, podemos nombrar su 

capacidad gráfica, que permite generar gráficos con alta calidad, con sólo 

utilizar las funciones para generar gráficos. 

• R también puede usarse como herramienta de cálculo numérico y a la vez 

ser útil para la minería de datos. 

R viene con su propio entorno de desarrollo interactivo que nos permiten ver los 

resultados a medida que vamos trabajando con los datos. 

27 © Structuralia


Figura 10: RStudio 

R contiene infinidad de paquetes estadísticos para identificar correlaciones, estimar 

predicciones, rankings, desviaciones, distribuciones etc. Cuenta además con un 

poderoso paquete de dibujo para visualizar nuestros resultados. 

© Structuralia 28


Figura 11: Ejemplo de gráfico en R 

R puede integrarse dentro de entornos BIG DATA a través de Spark o Hadoop. 

3.1.2. Python 

Python es un lenguaje de programación interpretado cuya filosofía hace hincapié en 

una sintaxis que favorezca un código legible. 

Python es un lenguaje de programación multiparadigma. Esto significa que más que 

forzar a los programadores a adoptar un estilo particular de programación, permite 

varios estilos: programación orientada a objetos, programación imperativa y 

programación funcional. Otros paradigmas están soportados mediante el uso de 

extensiones. 

No se trata de un lenguaje específico para estadística como es R, sino que es un 

lenguaje genérico que por su filosofía se ha hecho un hueco importante en el 

mundo analítico, por lo que se basa en herramientas específicas para realizar el 

trabajo analítico y estadístico, algunas de ellas son: 

29 © Structuralia


• Numpy 

Una extensión de Python, que le agrega mayor soporte para vectores y 

matrices, constituyendo una biblioteca de funciones matemáticas de alto 

nivel para operar con esos vectores o matrices. 

• Pandas 

Pandas es una librería open source que aporta a Python unas estructuras 

de datos fáciles de user y de alta performance, junto con un gran número 

de funciones esenciales para el análisis de datos. Con la ayuda de 

Pandas podemos trabajar con datos estructurados de una forma más 

rápida y expresiva. 

• Sci-py 

Conjunto de paquetes donde cada uno ellos ataca un problema distinto 

dentro de la computación científica y el análisis numérico. Algunos de los 

paquetes que incluye, son: 

o 

o 

o 

o 

o 

o 

scipy.integrate: que proporciona diferentes funciones 

para resolver problemas de integración numérica. 

scipy.linalg: que proporciona funciones para resolver 

problemas de álgebra lineal. 

scipy.optimize: para los problemas de optimización y 

minimización. 

scipy.signal: para el análisis y procesamiento de 

señales. 

scipy.sparse: para matrices dispersas y solucionar 

sistemas lineales dispersos 

scipy.stats: para el análisis de estadística y probabilidades. 

• Scikit-learn 

Librería especializada en algoritmos para data mining y machine learning. 

Algunos de los problemas que podemos resolver utilizando las 

herramientas de Scikit-learn, son: 

© Structuralia 30


o 

o 

o 

o 

o 

o 

Clasificaciones: Identificar las categorías a que cada 

observación del conjunto de datos pertenece. 

Regresiones: Predecir el valor continuo para cada nuevo 

ejemplo. 

Agrupaciones: Agrupación automática de objetos similares en 

un conjunto. 

Reducción de dimensiones: Reducir el número de 

variables aleatorias a considerar. 

Selección de Modelos: Comparar, validar y elegir parámetros 

y modelos. 

Preprocesamiento: Extracción de características a analizar 

y normalización de datos. 

• Maptolib 

La librería más popular en Python para visualizaciones y gráficos. 

Matplotlib puede producir gráficos de alta calidad dignos de cualquier 

publicación científica. 

• Ipython 

Entorno de trabajo interactivo en contraposición al tradicional modelo de 

desarrollo de software de editar-compilar-ejecutar 

• Tensorflow 

Biblioteca de código abierto para aprendizaje automático a través de un 

rango de tareas, y desarrollado por Google para satisfacer sus 

necesidades de sistemas capaces de construir y entrenar redes 

neuronales para detectar y descifrar patrones y correlaciones, análogos al 

aprendizaje y razonamiento usados por los humanos. 

Podemos trabajar en entornos BIG DATA con Python directamente con trabajos 

MapReduce o a través de Spark y su librería PySpark, con la que tendremos 

acceso a todos los algoritmos y la capacidad de computo de Spark. 

31 © Structuralia


3.1.3. Scala 

Scala es un lenguaje de programación multi-paradigma diseñado para expresar 

patrones comunes de programación en forma concisa, elegante y con tipos 

seguros. Integra sutilmente características de lenguajes funcionales y orientados a 

objetos. La implementación actual corre en la máquina virtual de Java y es 

compatible con las aplicaciones Java existentes. 

Scala no es un lenguaje tradicionalmente asociado a entornos estadísticos y/o 

analíticos, no obstante, su importancia es clave en el mundo BIG DATA porque 

muchas de las herramientas con las que vamos a trabajar están desarrolladas 

utilizando este lenguaje y por tanto se ejecutarán de forma más rápida y tendremos 

acceso a toda la funcionalidad si utilizamos este lenguaje. 

3.1.4. Notebooks 

El concepto de “notebook” fue introducido por iPython, que permitía trabajar sobre 

un interfaz web en lugar de sobre una Shell. 

© Structuralia 32


Figura 12: Ejemplo de notebook 

El notebook permite compartir tus procesos con otros, de modo que estos puedan 

entenderlos, modificarlos y adaptarlos a sus necesidades. 

Siguiendo con iPython, IPython 3 fue rearquitecturado y se creó Jupyter que ofrece 

una gran cantidad de lenguajes (Scala, R, Python, Spark, F#, …) 

Estos notebooks son entornos que permiten realizar un análisis / procesado de 

datos interactivo y visualizar los resultados utilizando librerías como maptolib 

(python) o ggplot2(R). 

33 © Structuralia


Dentro del ecosistema Hadoop podemos encontrar su propio notebook llamado 

Zeppelin. Zeppelin es una implementación del concepto de web notebook, centrado 

en la analítica de datos interactivo mediante lenguajes y tecnologías como Shell, 

Spark, SparkSQL, Hive, Elasticsearch, R, etc. 

Figura 13: Zeppelin 

Mientras que Jupyter surgió antes de Hadoop y necesita de cierta integración para 

poder trabajar con entornos Hadoop, Apache Zeppelin está completamente 

integrada, proporcionando, además: 

• Simplicidad 

• Agnóstico del lenguaje 

• Permite crear notebooks en varios lenguajes 

• Integrado a la perfección con Hadoop y Spark, por ejemplo 

© Structuralia 34


3.1.5. Herramientas comerciales 

Muchas de las herramientas analíticas del mercado permiten conectar con Hadoop 

y realizar analítica y visualización de datos, entre ellas destacan las siguientes: 

• SAS Visual Analytics 

SAS Visual Analytics ofrece una plataforma completa para la visualización 

analítica, lo que permite identificar los patrones y las relaciones de los 

datos que antes no eran evidentes. Las capacidades interactivas de 

Business Intelligence y reportes de autoservicio se combinan con la 

analítica avanzada para que todos puedan descubrir conocimientos de 

cualquier tamaño y tipo de datos, incluyendo texto. 

• Tableau 

Tableau es una herramienta de análisis perfecta para una empresa, fácil 

de usar y muy potente, convierte los datos de múltiples fuentes en 

información de valor para la toma de decisiones. Sus funcionalidades y 

características la convierten en una potente y versátil herramienta para las 

empresas. 

• Qlik 

QlikView y Qlik Sense estaban destinados a ser productos diferentes, 

aunque en este último se gana en versatilidad y funcionalidad de cara a 

los usuarios, consiguiendo que construyan cuadros de mando, informes, 

métricas, gráficas con un clic o arrastrando y soltando ítems determinados 

en la aplicación (tablas, mapas, embudos). 

3.1.6. Otras herramientas de visualización 

A parte de las anteriores herramientas ad-hoc, que tienen integraciones específicas 

para facilitar el acceso a los datos almacenados en Hadoop, siempre podremos 

realizar una integración propia con cualquier herramienta del mercado como, por 

ejemplo: 

35 © Structuralia


• D3js 

D3.js (o simplemente D3 por las siglas de Data-Driven Documents) es una 

librería de JavaScript para producir, a partir de datos, infogramas 

dinámicos e interactivos en navegadores web. Hace uso de tecnologías 

bien sustentadas como SVG, HTML5, y CSS. 

Figura 12: D3js 

• TimelineJS 

Timeline JS es una herramienta en abierto que nos permite crear líneas 

del tiempo muy atractivas e interactivas siguiendo unos pasos muy 

sencillos. 

Figura 13: Timelinejs 

© Structuralia 36


3.2 IA & Machine Learning 

Aunque en Hadoop podemos crear y utilizar algoritmos de machine learning / Deep 

learning a través de librerías de Python / R, debido al paralelismo de Hadoop puede 

que no tengamos disponible toda su potencia, por lo que Hadoop viene con sus 

propias herramientas de IA para aprovechar el paralelismo y su arquitectura. 

No obstante, y aunque nombraremos aquí alguna, en áreas como Machine / Deep 

Learning e Inteligencia Artificial las herramientas más potentes se desarrollan para 

arquitecturas Spark. 

3.2.1. Mahout 

Apache Mahout es una librería de software libre que ofrece implementaciones 

escalables de algoritmos de machine learning. Está desarrollada en Java, y se 

orienta a tres líneas principales: 

• Clasificación 

• Clustering 

• Sistemas de recomendación 

Mahout se apoya en Hadoop, implementación open-source del paradigma 

MapReduce que se ha convertido en una referencia en el ámbito de Big Data. El 

logo de Hadoop es un elefante amarillo. Y en la India, un mahout es la persona que 

maneja un elefante. Aunque la intención de Apache Mahout es la de soportar 

algoritmos escalables no necesariamente desarrollados sobre Hadoop. 

La lista de algoritmos soportados por esta librería hasta el momento incluye: 

• Clasificación: regresión logística (SGD), Bayes, random forests… 

• Clustering: k-means, LDA… 

• Búsqueda de conjuntos frecuentes y coocurrencias de términos 

• Factorización de matrices sparse para reducción de dimensionalidad: SVD, 

SSVD 

• Filtrado colaborativo 

• Algoritmos evolutivos 

37 © Structuralia


No obstante, desde 2014 Mahout trabaja intensamente en la integración con Spark 

por lo que el código que trabaja con MapReduce está bastante obsoleto. 

3.2.2. H2O 

H2O es una plataforma Machine Learning open-source desarrollada en Java. 

Ofrece un gran conjunto de algoritmos ML y un UI de procesamiento (H2o Flow). 

Permite desarrollar aplicaciones ML en diversos lenguajes: Java, Scala, Python y R 

y ofrece interfaces con Spark, HDFS, Amazon S3 y BD NoSQL. 

Figura 14: H2O 

© Structuralia 38

LAD01147_Introduccion_Big_Data_U3_S3

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?