29.12.2014 Views

Magellan Final Report - Office of Science - U.S. Department of Energy

Magellan Final Report - Office of Science - U.S. Department of Energy

Magellan Final Report - Office of Science - U.S. Department of Energy

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Magellan</strong> <strong>Final</strong> <strong>Report</strong><br />

9.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

9.7.1 Interconnect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

9.7.2 I/O on Virtual Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

9.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

10 MapReduce Programming Model 83<br />

10.1 MapReduce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

10.2 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

10.3 Hadoop Ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

10.4 Hadoop Streaming Experiences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

10.4.1 Hadoop Templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

10.4.2 Application Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

10.5 Benchmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

10.5.1 Standard Hadoop Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

10.5.2 Data Intensive Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

10.5.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

10.6 Other Related Efforts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

10.6.1 Hadoop for Scientific Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

10.6.2 Comparison <strong>of</strong> MapReduce Implementations . . . . . . . . . . . . . . . . . . . . . . . 95<br />

10.6.3 MARIANE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />

10.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.7.1 Deployment Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.7.2 Programming in Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.7.3 File System. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.7.4 Data Formats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.7.5 Diverse Tasks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

10.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

11 Application Experiences 102<br />

11.1 Bare-Metal Provisioning Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />

11.1.1 JGI Hardware Provisioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />

11.1.2 Accelerating Proton Computed Tomography Project . . . . . . . . . . . . . . . . . . . 103<br />

11.1.3 Large and Complex Scientific Data Visualization Project (LCSDV) . . . . . . . . . . . 104<br />

11.1.4 Materials Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

11.1.5 E. coli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

11.2 Virtual Machine Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

11.2.1 STAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

11.2.2 Genome Sequencing <strong>of</strong> Soil Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

11.2.3 LIGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

11.2.4 ATLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110<br />

11.2.5 Integrated Metagenome Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

11.2.6 Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

11.2.7 RAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

11.2.8 QIIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

11.2.9 Climate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

11.3 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

11.3.1 BioPig . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

11.3.2 Bioinformatics and Biomedical Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

11.3.3 Numerical Linear Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

11.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

11.4.1 Setup and Maintenance Costs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

iii

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!