UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

More documents

Recommendations

Info

2 gerencia para la toma de decisiones. Empresas como Netezza [9], Teradata [10], AsterData [11], Greenplum [12], Oracle [13], entre otras, ofrecen servicios y productos (hardware y software) Datawarehouse para procesar y analizar grandes volúmenes de datos con tiempo y detalle adecuado. Sin embargo, los costos de instalación y mantenimiento de este tipo de Datawarehouse son excesivos para pequeñas y medianas empresas por utilizar software privado y hardware de propósito específico. Otra manera de procesar grandes volúmenes de datos es a través de base de datos relacionales, de las cuales existen un tipo que opera en un solo nodo llamadas tradicionales y las que operan en un ambiente distribuido conformado por un clúster. Procesar grandes volúmenes de datos en base de datos tradicionales como MySQL y Postgres no es óptimo: el procesamiento puede tardar días. Además, las bases de datos tradicionales no son escalables. Por otra parte, las base de datos que operan en un clúster procesan los datos de manera paralela y distribuida logrando un mejor desempeño, alta disponibilidad, rendimiento y escalabilidad. Sin embargo, el costo de estas bases de datos es alto. Por ejemplo, la licencia anual de MySQL clúster cuesta 10,000 doláres [14]. Por tal motivo, Jeffrey Dean y Sanjay Ghemawat fundadores de la empresa Google desarrollaron MapReduce en el 2004. MapReduce es un modelo de programación y ambiente de ejecución para procesar grandes cantidades de datos de manera paralela y distribuida en un clúster conformado por nodos de propósito general. Los usuarios MapReduce solo tienen que especificar pares de funciones map y reduce secuenciales que constituyen un trabajo mapreduce, y el ambiente MapReduce replicá las funciones map y reduce en los nodos del clúster y las ejecuta en paralelo. Google utiliza MapReduce para ordenar datos, mineria de datos, aprendizaje de máquina, y en su servicio de búsqueda [1]. Hadoop es una implementación de software libre de MapReduce desarrollado por Doug Cutting en Yahoo. Se puede utilizar en un clúster propio o en la nube (por ejemplo, a través de servicios web de Amazon) [15]. Cuenta con el soporte técnico de <strong>Cinvestav</strong> Departamento de Computación
Introducción 3 Cloudera [16]. Actualmente, se utiliza en compañias como Yahoo, Facebook, Twitter, Last.FM, Amazón, LinkedIn, entre otras. De hecho, las compañias como Netteza, Teradata, Asterdata, Oracle, han integrado Hadoop en sus respectivas tecnologías. Las ventajas de MapReduce son [4]: Mayor escalabilidad (soporta miles de nodos). Tolerancia a fallas a gran escala. Flexibilidad en el manejo de datos no estructurados. Las desventajas de MapReduce son [4]: El desarrollo de programas en MapReduce no es fácil, especialmente para los usuarios que no están familiarizados con funciones map y reduce, por tal motivo, la productividad de los desarrolladores se ve disminuida. Los programas generados son dificiles de mantener y adaptar a otros proyectos. Por tal motivo en el 2010, Facebook desarrolló un framework que se ejecuta sobre Hadoop llamado Hive. Hive es un Datawarehouse distribuido de código abierto sin costo. Permite el procesamiento de datos estructurados y no estructurados a través de un lenguaje de consultas parecido al SQL llamado HiveQL, que además de soportar consultas SQL, permite incrustar código MapReduce como parte de la misma consulta HiveQL. Hive compila las sentencias HiveQL a una serie de trabajos mapreduce que se ejecutan en Hadoop. Sin embargo, el rendimiento de Hive aun no es óptimo. En el año 2010, se realizó un estudio donde se compara el rendimiento de Hive con Hadoop y Pig [17], otro framework desarrollado sobre Hadoop para el procesamiento de grandes volúmenes de datos. El estudio tuvó como propósito comparar tres consultas implementadas en Hadoop, Pig y Hive para procesar logs de un servidor web. Las consultas fueron: Primera consulta: Determinar la cantidad de veces que aparece cada dirección IP en el log. <strong>Cinvestav</strong> Departamento de Computación
Page 1: Centro de Investigación y de Estud
Page 5: Abstract MapReduce is a programming
Page 8 and 9: viii AGRADECIMIENTOS Granados, Cint
Page 10 and 11: x ÍNDICE GENERAL 3.3.1. Lenguaje d
Page 12 and 13: xii ÍNDICE GENERAL C. Número de t
Page 14 and 15: xiv ÍNDICE DE FIGURAS 3.8. Formas
Page 16 and 17: xvi ÍNDICE DE FIGURAS 6.3. Tiempo
Page 18 and 19: xviii ÍNDICE DE FIGURAS B.4. Diagr
Page 20 and 21: xx ÍNDICE DE TABLAS C.4. Número d
Page 24 and 25: 4 (a) Consulta 1 (b) Consulta 2 (c)
Page 26 and 27: 6 Capítulo 1 los problemas plantea
Page 28 and 29: 8 Capítulo 2 1 map ( S t r i n g c
Page 30 and 31: 10 Capítulo 2 Figura 2.1: Ambiente
Page 32 and 33: 12 Capítulo 2 llamado master (ver
Page 34 and 35: 14 Capítulo 2 HBase, es una base d
Page 36 and 37: 16 Capítulo 2 Figura 2.5: Interacc
Page 38 and 39: 18 Capítulo 2 1 2 3 nombre de l
Page 40 and 41: 20 Capítulo 2 1 2 3 d f s . blo
Page 42 and 43: 22 Capítulo 2 1 public class Count
Page 44 and 45: 24 Capítulo 2 1 public class Map e
Page 46 and 47: 26 Capítulo 2 1 #! / usr / bin /en
Page 48 and 49: 28 Capítulo 2 reduce. MapReduce se
Page 50 and 51: 30 Capítulo 3 escribe programas cu
Page 52 and 53: 32 Capítulo 3 Las interfaces de us
Page 54 and 55: 34 Capítulo 3 Una vista es una “
Page 56 and 57: 36 Capítulo 3 a la tabla. Estructu
Page 58 and 59: 38 Capítulo 3 operador HiveQL (sel
Page 60 and 61: 40 Capítulo 3 status profiles los
Page 62 and 63: 42 Capítulo 3 columna de la tabla,
Page 64 and 65: 44 Capítulo 3 que cada tarea map r
Page 66 and 67: 46 Capítulo 3 Por ejemplo, en la c
Page 68 and 69: 48 Capítulo 3 Para que esta optimi
Page 70 and 71: 50 Capítulo 3 a la regla. Si dos o
Page 72 and 73:
52 Capítulo 3 la figura 3.7 y cons
Page 74 and 75:
54 Capítulo 3 son: (a) (b) (c) (d)
Page 76 and 77:
56 Capítulo 3 operador RS y el ope
Page 78 and 79:
58 Capítulo 3 Cinvestav Departamen
Page 80 and 81:
60 Capítulo 4 superiores de un DAG
Page 82 and 83:
62 Capítulo 4 Figura 4.1: Esquema
Page 84 and 85:
64 Capítulo 4 1 CREATE VIEW Q1V1 a
Page 86 and 87:
66 Capítulo 4 Figura 4.3: Plan fí
Page 88 and 89:
68 Capítulo 4 1 CREATE VIEW Q2V1 A
Page 90 and 91:
Page 92 and 93:
72 Capítulo 4 trabajos mapreduce c
Page 94 and 95:
74 Capítulo 4 Figura 4.7: DAG de l
Page 96 and 97:
Page 98 and 99:
78 Capítulo 4 1 create table q11 (
Page 100 and 101:
80 Capítulo 4 Figura 4.11: Plan f
Page 102 and 103:
82 Capítulo 4 al 29 de la rama B,
Page 104 and 105:
Page 106 and 107:
86 Capítulo 4 4.5. Eliminación de
Page 108 and 109:
Page 110 and 111:
90 Capítulo 4 las tareas map. La o
Page 112 and 113:
92 Capítulo 5 permite recorrer un
Page 114 and 115:
94 Capítulo 5 conforman el segundo
Page 116 and 117:
96 Capítulo 5 Figura 5.1: DAG de l
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
102 Capítulo 5 Figura 5.4: Nuestra
Page 124 and 125:
104 Capítulo 5 Figura 5.5: DAG de
Page 126 and 127:
106 Capítulo 5 o complejas que pue
Page 128 and 129:
108 Capítulo 5 operador FilterOper
Page 130 and 131:
110 Capítulo 5 Figura 5.6: DAG de
Page 132 and 133:
112 Capítulo 5 En resumen, elimina
Page 134 and 135:
Page 136 and 137:
116 Capítulo 5 (b) Posible abstrac
Page 138 and 139:
118 Capítulo 5 misma correlación.
Page 140 and 141:
120 Capítulo 6 disco duro. Los nod
Page 142 and 143:
122 Capítulo 6 secciones visitadas
Page 144 and 145:
124 Capítulo 6 Está constituido p
Page 146 and 147:
126 Capítulo 6 1 create table q 3
Page 148 and 149:
128 Capítulo 6 objetivo, las condi
Page 150 and 151:
130 Capítulo 6 8GB de datos para c
Page 152 and 153:
132 Capítulo 6 Figura 6.4: Tiempo
Page 154 and 155:
134 Capítulo 6 en las consultas de
Page 156 and 157:
136 Capítulo 6 (a) Tiempos de ejec
Page 158 and 159:
138 Capítulo 6 8, 16 y 20 nodos. O
Page 160 and 161:
140 Capítulo 6 como se observa en
Page 162 and 163:
Page 164 and 165:
Page 166 and 167:
146 Capítulo 6 Cinvestav Departame
Page 168 and 169:
148 2) reducción de la escritura a
Page 170 and 171:
150 mapreduce, donde el primer trab
Page 172 and 173:
152 Capítulo 7 no son redundantes,
Page 174 and 175:
154 Capítulo A consulta 11 del est
Page 176 and 177:
156 Capítulo A listEqualNodes: Es
Page 178 and 179:
158 Capítulo A Figura A.1: DAG y p
Page 180 and 181:
Page 182 and 183:
162 Capítulo A paso 14 en el códi
Page 184 and 185:
164 Capítulo A 5 TS2 = l i s t T S
Page 186 and 187:
166 Capítulo A < clave, valor > qu
Page 188 and 189:
168 Capítulo A son iguales porqué
Page 190 and 191:
170 Capítulo A el caso, entonces s
Page 192 and 193:
172 Capítulo A Obsérvese que: 1.
Page 194 and 195:
Page 196 and 197:
Page 198 and 199:
178 Figura B.1: Diagrama de paquete
Page 200 and 201:
180 Figura B.3: Diagrama de clases
Page 202 and 203:
182 interfaz. Figura B.5: Diagrama
Page 204 and 205:
184 Cinvestav Departamento de Compu
Page 206 and 207:
186 5 trabajos mapreduce, donde el
Page 208 and 209:
188 Tabla C.4: Número de trabajos
Page 210 and 211:
190 Tabla C.6: Número de trabajos
Page 212 and 213:
192 BIBLIOGRAF ÍA [10] Teradata. H
Page 214:
194 BIBLIOGRAF ÍA [29] Damianos Ch
show all

UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

Create successful ePaper yourself

Delete template?

Save as template?