UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
muestra a continuación:<br />
map(k1,v1) -> list (k2, v2)<br />
reduce(k2,list(v2)) -> list (k3, v3)<br />
MapReduce 9<br />
Los datos de entrada se procesan por medio de una función map que lee el archivo<br />
de entrada de manera iterativa a través de un par de parámetros llamados clave y valor<br />
respectivamente (k1,v1 ). La clave y valor depende del tipo de archivo que se lee. Por<br />
ejemplo, para un archivo de texto, por cada invocación de la función map se lee una<br />
línea de datos y a la función se le envía como clave el desplazamiento en el archivo<br />
correspondiente a la línea leída, y como valor la línea misma. En la sección Input<br />
Formats del libro [2] se explican los diferentes tipos de clave y valor que se manejan<br />
según el tipo de archivo de entrada. Por cada invocación de la función map se realiza<br />
el procesamiento especificado y al final se puede emitir un par < clave, valor ><br />
que formará parte de la lista list (k2, v2). El ambiente MapReduce se encarga de<br />
agrupar en una lista todos los valores asociados con una misma clave (k2, list(v2)) e<br />
invoca la función reduce por cada clave diferente. Por cada invocación de la función<br />
reduce se realiza el procesamiento correspondiente y al final se puede emitir un par<br />
< clave, valor > formando la lista de pares list (k3,v3) que es el resultado final del<br />
procesamiento.<br />
Nótese, que el dominio de las claves y valores de entrada de la función map<br />
pueden ser de diferente al dominio de las claves y valores de salida de la función<br />
reduce. Así mismo, las claves y valores de salida de la función map son del mismo<br />
dominio que las claves y valores de entrada de la función reduce [1].<br />
2.2. Ambiente de ejecución<br />
Las funciones map y reduce se ejecutan de manera paralela y distribuida en un clúster.<br />
El ambiente MapReduce replica las funciones map y reduce en los nodos del clúster<br />
de tal manera, que las réplicas de ambas funciones se ejecutan al mismo tiempo en<br />
nodos distintos (ver figura 2.1). Los datos de entrada a las réplicas de la función map<br />
<strong>Cinvestav</strong> Departamento de Computación