UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

More documents

Recommendations

Info

4 (a) Consulta 1 (b) Consulta 2 (c) Consulta 3 Figura 1.1: Resultados obtenidos de las consultas 1, 2 y 3 en Hadoop, Pig y Hive con un log de 1GB. Segunda consulta: Conocer la hora a la que se ha generado la mayor cantidad de errores en el servidor. Tercera consulta: Obtener la página o recurso que más veces ha generado errores en el servidor y saber a qué hora este ha producido la mayor cantidad de errores. El tamaño del log es de 1GB. Las versiones utilizadas fueron: Hadoop 0.18, Pig 0.5 y Hive 0.4.0. Se evaluaron en un cluster con el servicio EC2 (Elastic Computing Cloud) de Amazon Web Service con 2, 4, 6, 10, 15 y 20 nodos. Los resultados obtenidos se observan en las figuras 1.1a, 1.1b, 1.1c respectivamente. Como se observa en las figuras 1.1a, 1.1b, 1.1c el rendimiento de Hive en todas las consultas es menor con respecto a Hadoop y Pig. Esto se debe en parte a que las consultas HiveQL son consultas OLAP y en su mayoría involucran varias subconsultas. El problema es que el compilador de Hive compila cada subconsulta en un trabajo mapreduce y cuando la consulta involucra subconsultas idénticas o <strong>Cinvestav</strong> Departamento de Computación
Introducción 5 iguales, el compilador de Hive no se da cuenta y genera trabajos mapreduce similares o repetidos reduciendo el rendimiento de Hive. Además, en ocasiones el compilador está generando trabajos mapreduce innecesarios para otro tipo de consultas, por lo que se plantea el problema de ¿Cómo identificar y eliminar trabajos mapreduce innecesarios y repetidos generados para una consulta HiveQL?, con el objetivo de mejorar el desempeño de consultas OLAP en Hive. Una consulta HiveQL pasa por 4 fases para compilarse en una serie de trabajos mapreduce: Un análisis léxico donde se crea un Árbol Sintáctico Abstracto (AST) como representación gráfica de la sentencia HiveQL; después pasa por un análisis sintáctico y semántico donde se crea un DAG 2 como representación interna de la consulta HiveQL en Hive; después pasa por una fase de optimización del DAG; y por último se contruyen los trabajos mapreduce a partir del DAG optimizado. Esta tesis tuvó como objetivo mejorar el optimizador de consultas de Hive, para esto se hizó un análisis de los DAG’s que generaron un grupo de consultas OLAP utilizadas ampliamente en estudios de Datawarehouse y bases de datos. En base al análisis se llegó a la conclusión que las optimizaciones actuales de Hive están pensadas para optimizar la ejecución de una consulta en cada trabajo mapreduce que se construye, tomando en cuenta las condiciones del ambiente MapReduce. Sin embargo, cuando las consultas involucran subconsultas similares o iguales, Hive no se da cuenta de ello y duplica operaciones en el DAG de tal modo, que al transformarse el DAG a trabajos mapreduce se duplican trabajos mapreduce optimizados. Por supuesto, esto no es conveniente debido a que cada trabajos mapreduce implica un costo de lectura/escritura, un costo de red y un costo de procesamiento en cada nodo del clúster. Así mismo, nos dimos cuenta que en consultas que involucran funciones de agregación y agrupación (sum(), avg(), max(), entre otras), en algunas ocasiones están creando un trabajo mapreduce innecesario por cada función de agregación y agrupación implicada. Se realizó un análisis de como realiza las optimizaciones internamente Hive y se agregó dos optimizaciones al compilador de Hive que buscan solucionar 2 Un DAG es un grafo dirigido que no contiene ciclos. <strong>Cinvestav</strong> Departamento de Computación
Page 1: Centro de Investigación y de Estud
Page 5: Abstract MapReduce is a programming
Page 8 and 9: viii AGRADECIMIENTOS Granados, Cint
Page 10 and 11: x ÍNDICE GENERAL 3.3.1. Lenguaje d
Page 12 and 13: xii ÍNDICE GENERAL C. Número de t
Page 14 and 15: xiv ÍNDICE DE FIGURAS 3.8. Formas
Page 16 and 17: xvi ÍNDICE DE FIGURAS 6.3. Tiempo
Page 18 and 19: xviii ÍNDICE DE FIGURAS B.4. Diagr
Page 20 and 21: xx ÍNDICE DE TABLAS C.4. Número d
Page 22 and 23: 2 gerencia para la toma de decision
Page 26 and 27: 6 Capítulo 1 los problemas plantea
Page 28 and 29: 8 Capítulo 2 1 map ( S t r i n g c
Page 30 and 31: 10 Capítulo 2 Figura 2.1: Ambiente
Page 32 and 33: 12 Capítulo 2 llamado master (ver
Page 34 and 35: 14 Capítulo 2 HBase, es una base d
Page 36 and 37: 16 Capítulo 2 Figura 2.5: Interacc
Page 38 and 39: 18 Capítulo 2 1 2 3 nombre de l
Page 40 and 41: 20 Capítulo 2 1 2 3 d f s . blo
Page 42 and 43: 22 Capítulo 2 1 public class Count
Page 44 and 45: 24 Capítulo 2 1 public class Map e
Page 46 and 47: 26 Capítulo 2 1 #! / usr / bin /en
Page 48 and 49: 28 Capítulo 2 reduce. MapReduce se
Page 50 and 51: 30 Capítulo 3 escribe programas cu
Page 52 and 53: 32 Capítulo 3 Las interfaces de us
Page 54 and 55: 34 Capítulo 3 Una vista es una “
Page 56 and 57: 36 Capítulo 3 a la tabla. Estructu
Page 58 and 59: 38 Capítulo 3 operador HiveQL (sel
Page 60 and 61: 40 Capítulo 3 status profiles los
Page 62 and 63: 42 Capítulo 3 columna de la tabla,
Page 64 and 65: 44 Capítulo 3 que cada tarea map r
Page 66 and 67: 46 Capítulo 3 Por ejemplo, en la c
Page 68 and 69: 48 Capítulo 3 Para que esta optimi
Page 70 and 71: 50 Capítulo 3 a la regla. Si dos o
Page 72 and 73: 52 Capítulo 3 la figura 3.7 y cons
Page 74 and 75:
54 Capítulo 3 son: (a) (b) (c) (d)
Page 76 and 77:
56 Capítulo 3 operador RS y el ope
Page 78 and 79:
58 Capítulo 3 Cinvestav Departamen
Page 80 and 81:
60 Capítulo 4 superiores de un DAG
Page 82 and 83:
62 Capítulo 4 Figura 4.1: Esquema
Page 84 and 85:
64 Capítulo 4 1 CREATE VIEW Q1V1 a
Page 86 and 87:
66 Capítulo 4 Figura 4.3: Plan fí
Page 88 and 89:
68 Capítulo 4 1 CREATE VIEW Q2V1 A
Page 90 and 91:
Page 92 and 93:
72 Capítulo 4 trabajos mapreduce c
Page 94 and 95:
74 Capítulo 4 Figura 4.7: DAG de l
Page 96 and 97:
Page 98 and 99:
78 Capítulo 4 1 create table q11 (
Page 100 and 101:
80 Capítulo 4 Figura 4.11: Plan f
Page 102 and 103:
82 Capítulo 4 al 29 de la rama B,
Page 104 and 105:
Page 106 and 107:
86 Capítulo 4 4.5. Eliminación de
Page 108 and 109:
Page 110 and 111:
90 Capítulo 4 las tareas map. La o
Page 112 and 113:
92 Capítulo 5 permite recorrer un
Page 114 and 115:
94 Capítulo 5 conforman el segundo
Page 116 and 117:
96 Capítulo 5 Figura 5.1: DAG de l
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
102 Capítulo 5 Figura 5.4: Nuestra
Page 124 and 125:
104 Capítulo 5 Figura 5.5: DAG de
Page 126 and 127:
106 Capítulo 5 o complejas que pue
Page 128 and 129:
108 Capítulo 5 operador FilterOper
Page 130 and 131:
110 Capítulo 5 Figura 5.6: DAG de
Page 132 and 133:
112 Capítulo 5 En resumen, elimina
Page 134 and 135:
Page 136 and 137:
116 Capítulo 5 (b) Posible abstrac
Page 138 and 139:
118 Capítulo 5 misma correlación.
Page 140 and 141:
120 Capítulo 6 disco duro. Los nod
Page 142 and 143:
122 Capítulo 6 secciones visitadas
Page 144 and 145:
124 Capítulo 6 Está constituido p
Page 146 and 147:
126 Capítulo 6 1 create table q 3
Page 148 and 149:
128 Capítulo 6 objetivo, las condi
Page 150 and 151:
130 Capítulo 6 8GB de datos para c
Page 152 and 153:
132 Capítulo 6 Figura 6.4: Tiempo
Page 154 and 155:
134 Capítulo 6 en las consultas de
Page 156 and 157:
136 Capítulo 6 (a) Tiempos de ejec
Page 158 and 159:
138 Capítulo 6 8, 16 y 20 nodos. O
Page 160 and 161:
140 Capítulo 6 como se observa en
Page 162 and 163:
Page 164 and 165:
Page 166 and 167:
146 Capítulo 6 Cinvestav Departame
Page 168 and 169:
148 2) reducción de la escritura a
Page 170 and 171:
150 mapreduce, donde el primer trab
Page 172 and 173:
152 Capítulo 7 no son redundantes,
Page 174 and 175:
154 Capítulo A consulta 11 del est
Page 176 and 177:
156 Capítulo A listEqualNodes: Es
Page 178 and 179:
158 Capítulo A Figura A.1: DAG y p
Page 180 and 181:
Page 182 and 183:
162 Capítulo A paso 14 en el códi
Page 184 and 185:
164 Capítulo A 5 TS2 = l i s t T S
Page 186 and 187:
166 Capítulo A < clave, valor > qu
Page 188 and 189:
168 Capítulo A son iguales porqué
Page 190 and 191:
170 Capítulo A el caso, entonces s
Page 192 and 193:
172 Capítulo A Obsérvese que: 1.
Page 194 and 195:
Page 196 and 197:
Page 198 and 199:
178 Figura B.1: Diagrama de paquete
Page 200 and 201:
180 Figura B.3: Diagrama de clases
Page 202 and 203:
182 interfaz. Figura B.5: Diagrama
Page 204 and 205:
184 Cinvestav Departamento de Compu
Page 206 and 207:
186 5 trabajos mapreduce, donde el
Page 208 and 209:
188 Tabla C.4: Número de trabajos
Page 210 and 211:
190 Tabla C.6: Número de trabajos
Page 212 and 213:
192 BIBLIOGRAF ÍA [10] Teradata. H
Page 214:
194 BIBLIOGRAF ÍA [29] Damianos Ch
show all

UNIDAD ZACATENCO DEPARTAMENTO DE ... - Cinvestav

Create successful ePaper yourself

Delete template?

Save as template?