30.07.2015 Views

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Actas</strong> XXII Jornadas <strong>de</strong> Paralelismo (<strong>JP2011</strong>) , <strong>La</strong> <strong>La</strong>guna, Tenerife, 7-9 septiembre 2011TABLA IIIPorcentaje <strong>de</strong> fallos forzosos para cada aplicación <strong>de</strong> SPEC2000 en una cache <strong>de</strong> L2 <strong>de</strong> 1MB-16vías.ammp applu apsi art bzip2 crafty eon equake facerec fma3d galgel gap gcc0% 24% 75% 0% 5% 28% 100% 100% 4% 100% 2% 100% 12%gzip lucas mcf mesa mgrid parser perlbmk sixtrack swim twolf vortex vpr wupwise100% 30% 2% 63% 22% 16% 100% 15% 25% 1% 50% 34% 80%TABLA IIParámetros <strong>de</strong> la máquina.Política issuePredictor <strong>de</strong> saltosNúcleo <strong>de</strong>l microprocesadorPenalización predictorAncho fetch, issue y commitTamaño ROB (entradas) 256# Int. ALUs 4# FP ALUs 4Jerarquía <strong>de</strong> memoriaFuera <strong>de</strong> or<strong>de</strong>nHybrid gshare/bimodal:gshare: 14-bits <strong>de</strong> historiaglobal y 16K contadores<strong>de</strong> 2-bitsbimodal: 4K contadores<strong>de</strong> 2-bits y selector <strong>de</strong>predictor con 4Kcontadores <strong>de</strong> 2-bits10 ciclos4 instr/cicloPuertos memoria 4Cache datos/instr. L1 16KB-2vías, 64B-línea<strong>La</strong>tencia L11 cicloCache unificada L21MB-16vías, 128B-línea<strong>La</strong>tencia L26 ciclos<strong>La</strong>tencia memoria200 ciclosvuelve a ser el MRU y empieza otro pMRU. Esto seindica marcando su pMRU-bit a ’1’. De esta manerael bit indica que el bloque ha tenido varios pMRU.Este algoritmo tiene como objetivo seleccionarpara reemplazo aquellos bloques que han tenido unpMRU. Si un bloque exhibe buena localidad, acudirámás <strong>de</strong> una vez a la posición MRU y no será candidatoa reemplazo. Para que el hardware sea simple,la víctima se selecciona al azar entre aquellos bloquesque tienen un pMRU excepto el bloque MRU. Si nohay ningún candidato, la víctima se selecciona al azarentre todos los bloques <strong>de</strong>l conjunto excepto el MRU.Por otro lado, como se ha visto en la Figura 1, almacenarel or<strong>de</strong>n <strong>de</strong> los últimos bloques accedidospue<strong>de</strong> ser importante en términos <strong>de</strong> prestacionespara la mayoría <strong>de</strong> aplicaciones. Por ello se <strong>de</strong>finela familia <strong>de</strong> algoritmos pMRU-bX, que extien<strong>de</strong> lapropuesta original para explotar el comportamientopMRU y la recencia <strong>de</strong> información. En este caso,se mantiene el or<strong>de</strong>n <strong>de</strong> los últimos X bloques referenciadosy no son candidatos para reemplazo. Porejemplo, el algoritmo etiquetado como pMRU-b2 noconsi<strong>de</strong>ra como candidatos el bloque MRU y el inmediatamenteposterior. Nótese que pMRU-b1 se refiereal algoritmo original. <strong>La</strong> complejidad se reducerespecto a LRU porque estos algoritmos no necesitanguardar todo el or<strong>de</strong>n <strong>de</strong> la pila.V. Evaluación experimentalEsta sección presenta el entorno <strong>de</strong> simulación ylas aplicaciones utilizadas en la evaluación <strong>de</strong> losFig. 3. MPKI <strong>de</strong> los algoritmos pMRU, Bubble y LRU enuna cache <strong>de</strong> 1MB-16vías.algoritmos, los cuales han sido mo<strong>de</strong>lados en unaversión extendida <strong>de</strong>l simulador SimpleScalar [16].Los resultados experimentales han sido obtenidosconfigurando el simulador para el juego <strong>de</strong> instruccionesAlpha y lanzando las aplicaciones <strong>de</strong> SPEC2000,que se evalúan utilizando las entradas ref, ejecutando1000M <strong>de</strong> instrucciones antes <strong>de</strong> recolectarestadísticas y simulando posteriormente 500M <strong>de</strong>instrucciones con <strong>de</strong>talle. <strong>La</strong> Tabla II muestra losparámetros arquitectónicos utilizados en los experimentos.<strong>La</strong>s aplicaciones que no estresan la cache <strong>de</strong> L2 hansido eliminadas <strong>de</strong>l estudio. Para ello, se ha obtenidoel porcentaje <strong>de</strong> fallos forzosos <strong>de</strong> cada aplicación. <strong>La</strong>Tabla III muestra los resultados para una cache <strong>de</strong> L2<strong>de</strong> 1MB-16vías. Se ha prescindido <strong>de</strong> las aplicacionescon un porcentaje <strong>de</strong> fallos forzosos mayor que un75% o con un MPKI menor que uno 1 .A. Prestaciones <strong>de</strong>l algoritmo pMRUEsta sección evalúa las prestaciones <strong>de</strong>l algoritmopropuesto. Para ello, sus prestaciones han sido comparadascontra las obtenidas con el algoritmo LRUy la reciente propuesta <strong>de</strong>l algoritmo Bubble. <strong>La</strong>Figura 3 muestra el MPKI <strong>de</strong> las políticas analizadas.El algoritmo pMRU obtiene, en la media, losmejores resultados y reduce el MPKI en un 6% y 15%comparado con Bubble y LRU, respectivamente. Sepue<strong>de</strong> observar que la propuesta obtiene los mejoresresultados en aquellas aplicaciones que presentan unMPKI elevado.Cabe analizar con <strong>de</strong>talle los resultados obtenidoscon las aplicaciones ammp y art. En la primera, elMPKI es 68.7, 63.5 y 49.7 en los algoritmos LRU,Bubble y pMRU, respectivamente. En art, el algoritmopMRU reduce el MPKI en un 37% respectoa LRU. El MPKI tan elevado <strong>de</strong> LRU pue<strong>de</strong> expli-1 <strong>La</strong>s diferencias en MPKI observadas para todos los algoritmosanalizados en este trabajo son menores que 0.4 en lasaplicaciones eliminadas.<strong>JP2011</strong>-560

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!