Procesadores Gráficos y Aplicaciones en Tiempo Real ... - DAC

TEMA 1.2 

MODELOS DE 

PROGRAMACIÓN 

PARALELA Y ESTRATEGIAS 

DE DISEÑO 

Curso 2012 / 13 

Procesadores Gráficos y Aplicaciones en Tiempo Real 

Profesores: David Miraut y Óscar D. Robles 

Material adaptado del curso de José Luís Bosque y Óscar D. Robles 

c○GMRV 2005-2013 – Enero 2013 

1 

/40 

c○GMRV 2013 Procesadores Gráficos y Aplicaciones en Tiempo Real 2012/13 1/40

¿Qué es la computación paralela? 

• Tradicionalmente, el software se ha escrito para computación 

serie (o secuencial): 

◦ Para su ejecución en un único computador con una sola CPU. 

◦ Un problema se descompone en una serie determinada de 

instrucciones. 

◦ Las instrucciones se ejecutan una tras otra. 

◦ Solamente una instrucción se puede ejecutar en cada instante en 

el tiempo. 

2 

/40 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Introducción 2/40


• En el caso más simple, la computación paralela es el uso 

simultáneo de múltiples recursos para resolver un problema 

computacional: 

◦ Para su ejecución en múltiples CPUs. 

◦ Un problema se descompone en partes discretas que se pueden 

resolver de forma concurrente. 

◦ Cada parte se puede descomponer en series de instrucciones. 

◦ Las instrucciones de cada parte se ejecutan de forma simultánea 

en diferentes CPUs. 

3 

/40 



La computación paralela 

es una forma efectiva de procesar información que favorece la 

explotación de eventos concurrentes durante el proceso de 

computación 

• Los recursos computacionales deberían ser “computadores 

paralelos”. 

• En cuanto al problema computacional a resolver se debería 

poder: 

◦ Descomponerlo en partes discretas de trabajo que se puedan 

resolver simultáneamente, aunque puedan cooperar y 

coordinarse para alcanzar un objetivo común. 

◦ Ejecutar múltiples instrucciones en cada instante en el tiempo. 

◦ Resolverlo con múltiples recursos computacionales en menos 

tiempo que en un único recurso computacional. 

4 

/40 


¿Por qué utilizar computación paralela? 

• Ahorrar tiempo y/o dinero 

◦ Utilizar más recursos en una tarea acorta el tiempo necesario 

para completarla, lo que potencialmente ahorra costes. 

◦ Los computadores paralelos se pueden construir a partir de 

componentes baratos y comunes. 

• Resolver problemas más grandes: 

◦ Muchos problemas son tan grandes y/o complejos que es poco 

práctico o incluso imposible resolverlos en un único computador. 

• Utilizar recursos no locales: 

◦ Utilizar recursos de una red de área extensa o incluso de 

Internet cuando los recursos locales son escasos: computación 

en grid o en la nube. 

• Límites de la computación secuencial: existen restricciones 

tanto de índole práctica como física que impiden construir 

computadores secuenciales más rápidos y potentes. 

5 

/40 


Uso de la computación paralela 

• Históricamente, la computación paralela se ha utilizado para 

resolver problemas de gran dificultad en diversas áreas de la 

ciencia y la ingeniería: 

◦ Meteorología, Medio ambiente, la Tierra. 

◦ Física aplicada, nuclear, de partículas, fusión, fotónica, alta 

presión. 

◦ Ingeniería mecánica, desde prótesis a naves espaciales. 

◦ Ingeniería eléctrica, diseño de circuitos, microelectrónica. 

• Biociencia, biotecnología, 

genética. 

• Química, ciencia molecular. 

• Geología, sismología. 

• Informática, Matemáticas. 

6 

/40 


Uso de la computación paralela 

• Actualmente, diferentes aplicaciones comerciales requieren 

procesar grandes cantidades de datos de formas sofisticadas. 

• Bases de datos, minería de datos, motores de búsqueda web, 

servicios comerciales basados en web. 

• Modelizado económico y financiero, exploración petrolífera. 

• Diagnóstico por imagen médica, diseño farmacéutico. 

• Gestión de corporaciones nacionales y multinacionales. 

• Tecnologías multimedia, vídeo en red, gráficos avanzados y 

realidad virtual. 

7 

/40 


¿Quién usa la computación paralela? 

www.top500.org 

8 

/40 


¿Quién usa la computación paralela? 

9 

/40 


Modelos de programación paralela 

• Idealizan las características que necesita un desarrollador para 

escribir programas paralelos eficientes. 

• Abstraer por encima de las arquitecturas de memoria y de 

hardware. 

• Existen diferentes modelos de programación paralela de uso 

común: 

• Memoria compartida: Threads. 

• Memoria distribuida / Paso de mensajes. 

• Datos paralelos 

• Híbrido 

• SPMD 

• MDMD 

10 

/40 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Modelos de programación paralela 10/40

Modelo de memoria compartida 

• Modelo de multiprocesador ideal 

◦ Computador paralelo consistente en “p” procesadores idénticos. 

◦ Comparten un único espacio/mapa de memoria. 

◦ Tiempo de acceso constante a cualquier dirección de memoria. 

◦ Ejecución síncrona 

11 

/40 


Modelo de memoria compartida 

• En este modelo de programación, la tareas comparten un 

único espacio de direcciones, en el que las tareas leen y 

escriben de forma asíncrona. 

• Cuando el programa comienza, tanto los datos como las 

instrucciones están en memoria. 

• Todos los procesadores corren el mismo programa ejecutable: 

◦ Particularizado de acuerdo a los índices. 

◦ Conjunto de datos con “envoltorio” diferenciado. 

• La comunicación entre procesadores se realiza modificando 

variables en la memoria compartida. 

• Reglas para acceder a variables compartidas: 

◦ Dos procesadores pueden acceder simultáneamente a una 

variable compartida en modo sólo lectura 

◦ Si un procesador trata de modificar (escribir) una variable, 

ningún otro procesador puede acceder a ella hasta que se ha 

completado la modificación. 

12 

/40 


Modelo de threads 

• En el modelo de programación paralela basado en threads, un 

proceso puede tener múltiples caminos de ejecución 

concurrente. 

• Un thread o hilo de ejecución es la unidad de ejecución más 

pequeña que puede planificar un sistema operativo. 

• Dentro de un mismo proceso pueden existir múltiples hilos y 

compartir recursos, mientras que procesos diferentes no 

comparten nada. 

◦ Los hilos de un proceso 

comparten: 

• El código de programa. 

• El contexto y la memoria global. 

• Los ficheros abiertos. 

◦ Cada hilo tiene en propiedad 

• La pila 

• Los valores de los registros, 

incluyendo el PC. 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Modelos de programación paralela 

13 

/40 

13/40

Modelo de threads 

• ¿Cómo funcionan los threads? 

◦ El programa principal realiza trabajo secuencial y crea un cierto 

número de hilos que se pueden ejecutar de forma concurrente. 

◦ Cada hilo tiene sus datos locales y comparte los recursos del 

programa principal. 

◦ La comunicación se hace a través de la memoria global. 

◦ Se requieren, por tanto, mecanismos de sincronización (cerrojos, 

semáforos, . . . ) para controlad el acceso a la memoria 

compartida: exclusión mutua. 

◦ Se pueden crear y destruir hilos durante la ejecución. 

14 

/40 


Modelo de paso de mensajes 

• Modelo de computador de memoria distribuida 

◦ Computador paralelo consistente en p procesadores (0...p − 1). 

◦ Cada uno tiene su propio espacio de direcciones de memoria: 

memoria local. 

◦ Tiempo de acceso constante a la memoria local. 

◦ La comunicación entre cualquier par de nodos se realiza a través 

de una red de interconexión. 

◦ Ejecución asíncrona. 

15 

/40 



• Programa: conjunto de tareas independientes que utilizan su 

propia memoria local durante el cómputo. 

• Múltiples tareas pueden residir en la misma máquina física y/o 

en un número arbitrario de máquinas. 

• Las tareas intercambian datos a través de comunicaciones 

explícitas mediante el envío y la recepción de mensajes. 

16 

/40 



• Cuando comienza el programa el código es accesible para 

todos los procesadores. 

• Todos los procesadores ejecutan el mismo código: 

◦ Se particulariza en función de un índice. 

◦ Conjunto de datos separados. 

• Dos tipos de instrucciones: 

◦ Instrucciones locales: se ejecutan sobre los datos del procesador. 

◦ Comunicación de usuario: información intercambiada mediante 

envío de mensajes. 

• Un programa consiste en una sucesión de instrucciones locales 

y directivas de comunicación. 

◦ Comunicaciones y cómputo son solapables. 

• MPI: Message Passing Interface: www.mpi-forum.org 

17 

/40 



Punto-punto: envío y recepción de datos entre dos procesadores. 

18 

/40 


Modelo de datos paralelos 

• Un conjunto de tareas trabajan colectivamente en la misma 

estructura de datos: 

◦ Sin embargo, cada tarea trabaja sobre una partición diferente de 

la estructura de datos. 

• Las tareas realizan la misma 

operación, cada una sobre su 

partición. 

• En arquitecturas de memoria 

compartida, todas las tareas 

acceden a los datos a través de 

la memoria global. 

• En arquitecturas de memoria 

distribuida los datos se parten y 

cada trozo reside en la memoria 

local de la tarea. 

19 

/40 


Modelo híbrido 

• Combinación de algunos de los modelos descritos previamente. 

• Modelo de paso de mensajes (MPI) con el modelo de threads 

(OpenMP) 

◦ Los hilos implementan kernels computacionalmente intensos 

utilizando datos locales situados en los nodos. 

◦ La comunicación entre procesos situados en diferentes nodos se 

realiza a través de la red utilizando MPI. 

• Programación con GPUs y MPI. 

◦ Las GPUs implementan kernels computacionalmente intensos 

utilizando datos locales situados en ellas. 

◦ La comunicación entre procesos situados en diferentes nodos se 

realiza a través de la red utilizando MPI. 

20 

/40 


Comprender el problema y el programa 

• Primer paso: comprender el problema que se quiere resolver en 

paralelo. 

◦ Si se parte de un programa secuencial, esto implica comprender 

el código existente. 

• Antes de invertir tiempo en intentar desarrollar una solución 

paralela a un problema, determinar si el problema se puede 

paralelizar o no. 

21 

/40 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Diseño de programas paralelos 21/40

Comprender el problema y el programa 

• Identificar los puntos calientes del programa: 

◦ Saber dónde se realiza la mayor parte del trabajo. 

◦ Pueden ayudar las herramientas de análisis de rendimiento o los 

profilers 

◦ Centrarse en paralelizar los puntos calientes e ignorar aquellas 

secciones del programa que suponen poco uso de la CPU. 

• Identificar los cuellos de botella en el programa: 

◦ Parte del código que ralentiza (o incluso convierte en 

secuencial) la ejecución del programa paralelo. Por ejemplo, las 

instrucciones de E/S. 

◦ Puede ser posible reestructurar el programa o utilizar un 

algoritmo diferente para reducir o eliminar zonas 

innecesariamente lentas. 

• Identificar los inhibidores del paralelismo. Ejemplos típicos 

son las dependencias de datos o las bifurcaciones. 

• Investigar algoritmos alternativos si es posible. 

22 

/40 


Partición 

• Uno de los primeros pasos en el diseño de un programa 

paralelo es su descomposición en “trozos” discretos de trabajo 

que se pueden distribuir en múltiples tareas. Esto se conoce 

como descomposición o partición. 

• Existen dos formas básicas de hacer una partición 

computacional de trabajo entre tareas paralelas: 

◦ Descomposición en función del dominio. 

◦ Descomposición funcional. 

• La combinación de ambos tipos de descomposición de un 

problema es muy común y natural. 

23 

/40 


Partición 

• Descomposición en función del dominio: 

◦ Se descomponen los datos asociados a un problema. 

◦ Cada tarea paralela trabaja entonces sobre una porción de los 

datos 

◦ Hay réplicas del mismo programa trabajando en porciones 

distintas de los datos. 

◦ El control puede ser centralizado o distribuido. 

◦ El grado de paralelismo es muy alto, pero no aparece en todas 

las aplicaciones. 

24 

/40 


Partición 

• Descomposición funcional: 

◦ Se descompone el problema de acuerdo al trabajo a realizar. 

◦ Cada tarea realiza una parte del trabajo total. 

◦ Generalmente cada tarea tiene un nivel de paralelismo bajo. 

◦ Inherente a todas las aplicaciones. 

25 

/40 


Comunicaciones 

• Algunos tipos de problemas se pueden descomponer y ejecutar 

en paralelo sin que virtualmente las tareas necesiten compartir 

datos: embarrassingly parallel 

• Coste de las comunicaciones 

◦ Las comunicaciones entre tareas siempre suponen una 

sobrecarga. 

◦ Las comunicaciones requieren da algún tipo de sincronización 

entre tareas, lo que puede suponer que haya tareas que pierden 

tiempo esperando en lugar de haciendo trabajo activo. 

• Comunicaciones síncronas vs. asíncronas 

◦ Comunicaciones síncronas (o bloqueantes ): otra tarea debe 

esperar hasta que las comunicaciones se han completado. 

◦ Comunicaciones asíncronas (o no bloqueantes ): se pueden 

realizar otros trabajos mientras las comunicaciones tienen lugar. 

◦ El gran beneficio de utilizar comunicaciones asíncronas es 

intercalar comunicaciones y cómputo. 

26 

/40 


Comunicaciones 

• Latencia frente a ancho de banda 

◦ Latencia: tiempo de una comunicación mínima punto a punto. 

◦ Ancho de banda es la cantidad de información transmitida por 

unidad de tiempo. 

◦ El envío de muchos mensajes muy pequeños puede causar que la 

latencia sea determinante en la sobrecarga de comunicaciones. 

◦ Muchas veces es más eficiente empaquetar varios mensajes pequeños 

en uno más grande, incrementando de esta forma el ancho de banda 

efectivo de las comunicaciones. 

• Ámbito de las comunicaciones 

◦ Punto a punto: involucran a 

dos tareas; una actúa como 

emisora y otra como receptora. 

◦ Colectivas: conllevan la 

compartición de datos entre 

más de dos tareas, que son 

miembros de un mismo grupo. 

27 

/40 


Sincronización 

• La sincronización es la aplicación de determinados mecanismos 

que aseguran que dos hilos que ejecutan de manera concurrente no 

ejecutan a la vez partes específicas de un programa. 

• Si un hilo a comenzado la ejecución de una parte secuencial 

(sección crítica), cualquier otro hilo debe esperar hasta que aquél 

ha terminado. 

• Barrera 

◦ Típicamente implica que todas las tareas están involucradas. 

◦ Las tareas trabajan hasta que alcanzan la barrera. Entonces se paran 

o bloquean. 

◦ Cuando la última tarea alcanza la barrera, todas las tareas están 

sincronizadas. 

28 

/40 


Sincronización 

• Cerrojo / Semáforo 

◦ Puede implicar a cualquier número de tareas. 

◦ Típicamente utilizado para hacer secuencial el acceso a datos globales 

o a una sección de código. 

◦ Sólo una tarea en cada momento utiliza el cerrojo/semáforo/señal 

◦ La primera tarea que obtiene el cerrojo lo “marca”. 

◦ Dicha tarea puede entonces acceder (secuencialmente) de forma 

segura al código o los datos protegidos. 

◦ El resto esperan hasta que la tarea que obtuvo el cerrojo lo libera. 

• Operaciones de comunicación síncronas 

◦ Cuando una tarea realizar una operación de comunicación, es 

necesaria alguna forma de coordinación con las otras tarea(s) 

implicada(s) en ella. 

29 

/40 


Dependencias de datos 

• Existe una dependencia entre acciones realizadas en un 

programa cuando el orden de ejecución de dichas acciones 

afecta al resultado del programa. 

• Si diferentes tareas hacen uso múltiple de la(s) misma(s) 

dirección(es) de almacenamiento aparece una dependencia 

de datos 

• Las dependencias son uno de los principales inhibidores del 

paralelismo. 

• Las dependencias que se acarrean dentro de los bucles son 

particularmente importantes, dado que los bucles son 

posiblemente uno de los principales objetivos de los trabajos de 

paralelización de un código. 

30 

/40 


Dependencias de datos 

Esta transparencia me gustaría hacerla como Dios manda 

31 

/40 


Equilibrio de carga 

• El equilibrio de carga se refiere a la práctica de distribuir el 

trabajo entre todas las tareas de forma que todas las tareas 

están ocupadas todo el tiempo 

• Se puede considerar como una minimización del tiempo que 

una tarea permanece ociosa. 

• El equilibrio de carga es importante en los programas paralelos 

por motivos relacionados con el rendimiento. 

Por ejemplo, si todas las tareas 

están sometidas a una barrera 

de sincronización, la tarea más 

lenta determinará el rendimiento 

global. 

32 

/40 


Cómo alcanzar el equilibrio de carga 

• Partición equitativa del trabajo que recibe cada tarea 

◦ En el caso de operaciones sobre vectores o matrices en los que cada 

tarea realiza un trabajo similar, se pueden repartir los datos entre las 

tareas de manera uniforme. 

◦ Cuando se trata de bucles en los que el trabajo realizado en cada 

iteración es similar, se pueden distribuir uniformemente las iteraciones 

sobre las tareas. 

◦ En entornos heterogéneos se deber realizar un análisis de rendimiento 

para detectar desequilibrios de carga de trabajo. Se podrán realizar 

ajustes de acuerdo a los resultados. 

• Asignación dinámica de trabajo 

◦ En algunos problemas aparecen desequilibrios de carga de trabajo 

incluso si se hace una distribución equitativa de los datos. 

◦ Cuando la carga de trabajo que realizará cada tarea es variable o 

impredecible, puede ser útil un enfoque basado en un planificador 

• Cuando una tarea completa su carga de trabajo asignada, queda encolada para 

obtener un nuevo paquete de trabajo. 

◦ Puede llegar a ser necesario diseñar un algoritmo que detecte y 

gestione desequilibrios locales según van apareciendo de forma 

dinámica en el código. 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Diseño de programas paralelos 

33 

/40 

33/40

Tamaño de grano (granularidad) 

• Ratio computación/comunicación 

◦ El tamaño de grano es una medida de la ratio 

computación/comunicación. 

◦ Los períodos de computación y los de comunicación están 

generalmente separados por eventos de sincronización. 

• Paralelismo de grano fino 

◦ Pequeñas cantidades de cómputo entre eventos de 

comunicación. 

◦ Baja ratio computación/comunicación y elevada sobrecarga de 

comunicaciones. 

◦ Facilita el equilibrio de carga. 

• Paralelismo de grano grueso 

◦ Gran cantidad de cómputo entre eventos de comunicación. 

◦ Elevada ratio computación/comunicación. 

◦ Supone una mayor oportunidad de mejorar el rendimiento. 

◦ Más difícil de conseguir eficientemente un equilibrio de carga. 

34 

/40 


Métricas de rendimiento 

• Objetivo del paralelismo: mejorar el rendimiento de los 

programas 

◦ Elapsed time: tiempo transcurrido desde que comienza la 

ejecución de la tarea hasta que se completa. 

◦ Tiempo de CPU: tiempo durante el que la tarea ejecuta en el 

procesador (no incluye E/S o tiempos de espera) 

• Tiempo de usuario: tiempo invertido en el programa en modo 

usuario. 

• Tiempo de sistema: tiempo invertido en el programa en modo 

kernel. La CPU ejecuta tareas del SO 

◦ Tiempo de comunicaciones: tiempo empleado por la aplicación 

en operaciones de comunicación. 

◦ Sobrecarga: tiempo total en el que la aplicación paralela no 

hace trabajo útil. 

35 

/40 

c○GMRV 2013 Tipos de paralelismo y su reflejo en las GPUs Métricas de rendimiento 35/40

Métricas de rendimiento 

• Speedup: ganancia del sistema paralelo, en oposición al 

secuencial. 

Speedup = Tsecuencial 

Tparalelo 

= T1 

TN 

• Eficiencia: % de tiempo invertido en el proceso actual. 

Eficiencia = 

Speedup 

Nmerodeprocesadores 

= T1 

TN · N 

36 

/40 


Ley de Amdahl 

• La Ley de Amdahl establece que el speedup de un programa 

queda definido por la fracción de código (P) que se puede 

paralelizar 

◦ P=fracción paralela; N=número de procesadores; S=fracción 

serie 

37 

/40 


Ley de Amdahl 

• Resulta obvio que la escalabilidad del paralelismo tiene límites. 

38 

/40 


Ley de Amdahl 

• Corolario a la ley de Amdahl: 

◦ Dada la fracción paralela p de un programa, el máximo speedup 

alcanzable es 1/(1 − p) 

Speedup = 

(1 − p) + p 

(1 − p) + p 

N 

= lim 

n→∞ 

= 

1 

(1 − p) + p 

N 

1 

(1 − p) + p 

N 

= 

1 

(1 − p) 

(0.0) 

39 

/40 


Ley de Gustafson 

• Determinados problemas incrementan el rendimiento 

aumentando el tamaño del problema. 

◦ Por ejemplo: cálculos en Grids 2D. 

◦ Los problemas que aumentan el porcentaje de tiempo paralelo 

con su tamaño son más escalables que los problemas que 

mantienen un tiempo paralelo fijo. 

40 

/40

Procesadores Gráficos y Aplicaciones en Tiempo Real ... - DAC

Create successful ePaper yourself

Delete template?

Save as template?