30.07.2015 Views

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Actas</strong> XXII Jornadas <strong>de</strong> Paralelismo (<strong>JP2011</strong>) , <strong>La</strong> <strong>La</strong>guna, Tenerife, 7-9 septiembre 2011Reduce se aplica sobre estas tuplas intermedias y hace laagrupación <strong>de</strong> los valores que tienen la misma clave.<strong>La</strong> Figura 2, representa un esquema <strong>de</strong>l flujo <strong>de</strong> datos,para la ejecución <strong>de</strong> una aplicación <strong>de</strong> contar palabras enun texto, utilizando el paradigma MapReduce.Fig.3 Framework Hadoop.Fig. 2. Esquema MapReduce para la aplicación WordCount en unCluster Hadoop.III.HADOOPHadoop es un framework altamente configurable<strong>de</strong>sarrollado en el proyecto Apache y que implementaMapReduce inspirado en la propuesta <strong>de</strong> Google [1] [3].Es un sistema <strong>de</strong> código abierto, e implementado enJava. Otras implementaciones <strong>de</strong>l paradigmaMapReduce, han aparecido en la literatura paradiferentes arquitecturas como Cell B.E [4], GPUs [5] yprocesadores multi-core [6].El framework Hadoop realiza <strong>de</strong> forma automática ladivisión y distribución <strong>de</strong> los archivos <strong>de</strong> entrada, laplanificación <strong>de</strong> los trabajos entre los nodos <strong>de</strong>l entornoparalelo, el control <strong>de</strong> fallos <strong>de</strong> los nodos y gestiona lanecesidad <strong>de</strong> comunicación entre los nodos <strong>de</strong>l cluster.Hadoop se ejecuta sobre un sistema <strong>de</strong> archivosdistribuidos, Hadoop Distributed File System – HDFS,que se soporta a su vez sobre el sistema <strong>de</strong> ficherosnativo, y don<strong>de</strong> la fiabilidad <strong>de</strong>l sistema es obtenida porla replicación <strong>de</strong> datos, y la posibilidad <strong>de</strong> po<strong>de</strong>r utilizarejecución especulativa <strong>de</strong> las tareas. Son utilizados dos<strong>de</strong>monios para hacer la gestión <strong>de</strong> los datos: nameno<strong>de</strong> ydatano<strong>de</strong>. <strong>La</strong> arquitectura <strong>de</strong> planificación <strong>de</strong> Hadoopobe<strong>de</strong>ce a un mo<strong>de</strong>lo master/worker: Job Tracker (en elnodo master) y Task Tracker (en los nodos Workers). Elplanificador <strong>de</strong> trabajos está diseñado en móduloscargables que permite la implementación <strong>de</strong> nuevaspolíticas <strong>de</strong> planificación <strong>de</strong> trabajos y la sustitución <strong>de</strong>estos módulos <strong>de</strong> planificación <strong>de</strong> manera sencilla. <strong>La</strong>Figura 3 muestra la distribución <strong>de</strong>l sistema en un nodo<strong>de</strong>l cluster.A. Hadoop Distributed File System – HDFSHDFS es el sistema <strong>de</strong> archivos distribuidosimplementado por Hadoop y se monta en el sistema <strong>de</strong>archivos <strong>de</strong> cada máquina <strong>de</strong>l cluster. Cuando se cargaun archivo en el sistema, HDFS hace la división <strong>de</strong>larchivo en bloques menores con tamaño <strong>de</strong>finido por elgestor <strong>de</strong>l sistema (por <strong>de</strong>fecto <strong>de</strong> 64 MB) bajo un factor<strong>de</strong> replicación, también <strong>de</strong>finido por el gestor <strong>de</strong>lsistema. Esta replicación <strong>de</strong> cada bloque <strong>de</strong> archivoa<strong>de</strong>más <strong>de</strong> permitir un mejor control <strong>de</strong> tolerancia afallos, aumenta la posibilidad <strong>de</strong> garantizar la localidad<strong>de</strong> datos, cuando Hadoop hace la distribución <strong>de</strong> tareasen el cluster. <strong>La</strong> Figura 4 presenta una distribución <strong>de</strong>bloques <strong>de</strong> un fichero <strong>de</strong> entrada, a lo largo <strong>de</strong> los nodos<strong>de</strong>l cluster.Fig. 4 Distribución <strong>de</strong> datos en HDFS.<strong>JP2011</strong>-502

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!