07.05.2013 Views

UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Introducción 3<br />

Cloudera [16]. Actualmente, se utiliza en compañias como Yahoo, Facebook, Twitter,<br />

Last.FM, Amazón, LinkedIn, entre otras. De hecho, las compañias como Netteza,<br />

Teradata, Asterdata, Oracle, han integrado Hadoop en sus respectivas tecnologías.<br />

Las ventajas de MapReduce son [4]:<br />

Mayor escalabilidad (soporta miles de nodos).<br />

Tolerancia a fallas a gran escala.<br />

Flexibilidad en el manejo de datos no estructurados.<br />

Las desventajas de MapReduce son [4]:<br />

El desarrollo de programas en MapReduce no es fácil, especialmente para los<br />

usuarios que no están familiarizados con funciones map y reduce, por tal motivo,<br />

la productividad de los desarrolladores se ve disminuida.<br />

Los programas generados son dificiles de mantener y adaptar a otros proyectos.<br />

Por tal motivo en el 2010, Facebook desarrolló un framework que se ejecuta sobre<br />

Hadoop llamado Hive. Hive es un Datawarehouse distribuido de código abierto sin<br />

costo. Permite el procesamiento de datos estructurados y no estructurados a través de<br />

un lenguaje de consultas parecido al SQL llamado HiveQL, que además de soportar<br />

consultas SQL, permite incrustar código MapReduce como parte de la misma consulta<br />

HiveQL. Hive compila las sentencias HiveQL a una serie de trabajos mapreduce que<br />

se ejecutan en Hadoop.<br />

Sin embargo, el rendimiento de Hive aun no es óptimo. En el año 2010, se realizó un<br />

estudio donde se compara el rendimiento de Hive con Hadoop y Pig [17], otro<br />

framework desarrollado sobre Hadoop para el procesamiento de grandes volúmenes<br />

de datos.<br />

El estudio tuvó como propósito comparar tres consultas implementadas en<br />

Hadoop, Pig y Hive para procesar logs de un servidor web. Las consultas fueron:<br />

Primera consulta: Determinar la cantidad de veces que aparece cada dirección<br />

IP en el log.<br />

<strong>Cinvestav</strong> Departamento de Computación

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!