UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Introducción 3<br />
Cloudera [16]. Actualmente, se utiliza en compañias como Yahoo, Facebook, Twitter,<br />
Last.FM, Amazón, LinkedIn, entre otras. De hecho, las compañias como Netteza,<br />
Teradata, Asterdata, Oracle, han integrado Hadoop en sus respectivas tecnologías.<br />
Las ventajas de MapReduce son [4]:<br />
Mayor escalabilidad (soporta miles de nodos).<br />
Tolerancia a fallas a gran escala.<br />
Flexibilidad en el manejo de datos no estructurados.<br />
Las desventajas de MapReduce son [4]:<br />
El desarrollo de programas en MapReduce no es fácil, especialmente para los<br />
usuarios que no están familiarizados con funciones map y reduce, por tal motivo,<br />
la productividad de los desarrolladores se ve disminuida.<br />
Los programas generados son dificiles de mantener y adaptar a otros proyectos.<br />
Por tal motivo en el 2010, Facebook desarrolló un framework que se ejecuta sobre<br />
Hadoop llamado Hive. Hive es un Datawarehouse distribuido de código abierto sin<br />
costo. Permite el procesamiento de datos estructurados y no estructurados a través de<br />
un lenguaje de consultas parecido al SQL llamado HiveQL, que además de soportar<br />
consultas SQL, permite incrustar código MapReduce como parte de la misma consulta<br />
HiveQL. Hive compila las sentencias HiveQL a una serie de trabajos mapreduce que<br />
se ejecutan en Hadoop.<br />
Sin embargo, el rendimiento de Hive aun no es óptimo. En el año 2010, se realizó un<br />
estudio donde se compara el rendimiento de Hive con Hadoop y Pig [17], otro<br />
framework desarrollado sobre Hadoop para el procesamiento de grandes volúmenes<br />
de datos.<br />
El estudio tuvó como propósito comparar tres consultas implementadas en<br />
Hadoop, Pig y Hive para procesar logs de un servidor web. Las consultas fueron:<br />
Primera consulta: Determinar la cantidad de veces que aparece cada dirección<br />
IP en el log.<br />
<strong>Cinvestav</strong> Departamento de Computación