30.07.2015 Views

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Actas</strong> XXII Jornadas <strong>de</strong> Paralelismo (<strong>JP2011</strong>) , <strong>La</strong> <strong>La</strong>guna, Tenerife, 7-9 septiembre 2011fallos que generan dichos datos es alto en comparacióncon otras aplicaciones, queda eclipsado por elgran número <strong>de</strong> fallos que producen los datos compartidos<strong>de</strong> lectura y escritura en dicha aplicación.V. ConclusionesHemos analizado la necesidad <strong>de</strong> memoria para datosprivados/compartidos en aplicaciones paralelassobre CMPs. A<strong>de</strong>más, hemos estudiado en profundidadlos datos compartidos <strong>de</strong> sólo lectura. Hemoscomprobado que a pesar <strong>de</strong> que estos datos ocupan<strong>de</strong> media un porcentaje pequeño <strong>de</strong>l espacio totalusado por la aplicación, inferior al 5 % en la mayoría<strong>de</strong> aplicaciones, estos bloques se acce<strong>de</strong>n frecuentementey tienen un peso muy importante en el tiempo<strong>de</strong> ejecución <strong>de</strong> las aplicaciones: en torno a un 15 %<strong>de</strong> media. Este porcentaje es incluso mayor en aplicacionescomo radiosity o blackscholes, don<strong>de</strong> superael 20 %, y totalmente <strong>de</strong>terminante en JBB, don<strong>de</strong>supone cerca <strong>de</strong>l 50 %.Por otro lado, hemos presentado una cota superior<strong>de</strong> la posible mejora <strong>de</strong>l tiempo <strong>de</strong> ejecución <strong>de</strong> lasaplicaciones suponiendo que los datos compartidos<strong>de</strong> sólo lectura no fallan en la caché L1, mostrandoque el margen <strong>de</strong> mejora es amplio. Hemos comprobadoque para las aplicaciones con un buen potencialse obtiene <strong>de</strong> media un 25 % <strong>de</strong> mejora como cotasuperior. Esto sugiere que con un buen manejo <strong>de</strong>estos datos se podría conseguir una mejora real enel tiempo <strong>de</strong> ejecución notable, aun sin acercarnos<strong>de</strong>masiado a la cota. A<strong>de</strong>más, aunque en las aplicacionescon un potencial más bajo se obtiene un 6 %medio <strong>de</strong> cota superior, hemos comprobado que elespacio ocupado para esos bloques no supera en ninguna<strong>de</strong> ellas el 3 %, lo que nos hace pensar que lamejora real podría acercarse bastante a la cota superior.Hemos visto a<strong>de</strong>más que, como cabía esperar,cuanto mayor es el peso en la tasa <strong>de</strong> fallos en L1<strong>de</strong> los datos compartidos <strong>de</strong> sólo lectura, mayor es elpotencial <strong>de</strong> mejora <strong>de</strong> la aplicación.Estos resultados nos permiten plantear varias lineas<strong>de</strong> investigación futuras entre las que se encuentran:El estudio <strong>de</strong>l patrón temporal <strong>de</strong> acceso a losdatos compartidos <strong>de</strong> sólo lectura para dar untratamiento especial a<strong>de</strong>cuado a dichos datos.<strong>La</strong> i<strong>de</strong>ntificación en el código <strong>de</strong> la aplicación<strong>de</strong> las estructuras <strong>de</strong> datos que correspon<strong>de</strong>n alos bloques compartidos <strong>de</strong> sólo lectura. De estaforma se podría evitar la necesidad <strong>de</strong> <strong>de</strong>tectardichos bloques en tiempo <strong>de</strong> ejecución, y en sulugar hacerlo en tiempo <strong>de</strong> compilación, o inclusodarle al programador la posibilidad <strong>de</strong> marcardichas estructuras <strong>de</strong> datos en el momento quesea consciente <strong>de</strong> que ya no se van a volver aescribir.El tratamiento especial en una estructura distintaa la caché L1 <strong>de</strong> los datos compartidos <strong>de</strong>sólo lectura.Agra<strong>de</strong>cimientosEste trabajo ha sido financiado por la FundaciónSéneca (Agencia Regional <strong>de</strong> Ciencia y Tecnología,Región <strong>de</strong> Murcia) mediante el proyecto00001/CS/2007, y por el MEC y la Comisión EuropeaFEDER mediante los proyectos “Consoli<strong>de</strong>rIngenio-2010 CSD2006-00046” y “TIN2009-14475-C04-02”. Alfonso Ramos Can<strong>de</strong>l es beneficiario <strong>de</strong>una beca <strong>de</strong> colaboración en el curso 2010/2011 (Or<strong>de</strong>nEDU/1799/2010 <strong>de</strong> 29 <strong>de</strong> junio <strong>de</strong> 2010) <strong>de</strong>lMinisterio <strong>de</strong> Educación (B.O.E. <strong>de</strong> 05 <strong>de</strong> julio <strong>de</strong>2010). Antonio García-Guirado también es beneficiario<strong>de</strong> una beca <strong>de</strong> investigación <strong>de</strong>l MEC bajoel Plan Nacional <strong>de</strong> Formación <strong>de</strong> Profesorado Universitario(FPU AP2008-04387).Referencias[1] N. Hardavellas, M. Ferdman, B. Falsafi, and A. Ailamaki,“Reactive nuca: near-optimal block placement and replicationin distributed caches,” in Proceedings of the 36thannual International Symposium on Computer Architecture,pp. 184–195, 2009.[2] S. H. Pugsley, J. B. Spjut, D. W. Nellans, and R. Balasubramonian,“Swel: hardware cache coherence protocolsto map shared data onto shared caches,” in Proceedings ofthe 19th international conference on Parallel Architecturesand Compilation Techniques, pp. 465–476, 2010.[3] Z. Guz, I. Keidar, A. Kolodny, and U. C. Weiser, “Utilizingshared data in chip multiprocessors with the Nahalalarchitecture,” in SPAA ’08: Proceedings of the twentiethannual Symposium on Parallelism in Algorithms and Architectures,pp. 1–10, 2008.[4] B. M. Beckmann, M. R. Marty, and D. A. Wood,“ASR: Adaptive selective replication for CMP caches,” inIEEE/ACM international Symposium on Microarchitecture,pp. 443–454, 2006.[5] P. S. Magnusson, M. Christensson, J. Eskilson, D. Forsgren,G. Hallberg, J. Hogberg, F. <strong>La</strong>rsson, A. Moestedt,B. Werner, and B. Werner, “Simics: A full system simulationplatform,” Computer, vol. 35, no. 2, pp. 50–58, 2002.[6] M. M. K. Martin, D. J. Sorin, B. M. Beckmann, M. R.Marty, M. Xu, A. R. Alamel<strong>de</strong>en, K. E. Moore, M. D.Hill, and D. A. Wood, “Multifacet’s general executiondrivenmultiprocessor simulator (GEMS) toolset,” SI-GARCH Comput. Archit. News, vol. 33, pp. 92–99, November2005.[7] S. C. Woo, M. Ohara, E. Torrie, J. P. Singh, and A. Gupta,“The SPLASH-2 Programs: Characterization and MethodologicalConsi<strong>de</strong>rations,” in Proceedings of the 22th InternationalSymposium on Computer Architecture, (SantaMargherita Ligure, Italy), pp. 24–36, 1995.[8] C. Bienia and K. Li, “Parsec 2.0: A new benchmark suitefor chip-multiprocessors,” in Proceedings of the 5th AnnualWorkshop on Mo<strong>de</strong>ling, Benchmarking and Simulation,2009.[9] C. Bienia, S. Kumar, and K. Li, “Parsec vs. splash-2: Aquantitative comparison of two multithrea<strong>de</strong>d benchmarksuites on chip-multiprocessors.,” in IISWC’08, pp. 47–56,2008.<strong>JP2011</strong>-260

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!