Cray XC30 vuodelta 2012, CSC:n Kajaanissa toimiva Sisu-klusteri 2013 lähtien.Sterling ja Donald Becker kytkivät useitatavallisia palvelimia lähiverkolla yhdeksiloogiseksi supertietokoneeksi. Tämän,aikanaan radikaalin prototyypin nimeksiannettiin Beowulf, joka on sittemminyleistynyt tarkoittamaan mitä tahansavastaavanlaiseen arkkitehtuuriin pohjautuvaasuperkonetta. 2000-luvun alussaBeowulf-klusterien suosio alkoi kasvaa:aluksi pienissä ja keskisuurissa järjestelmissämutta sittemmin myös tehokkaammissalaitteistoissa, aina Top 500 -listanterävimpään kärkeen asti.Nykyään suuri osa maailman supertietokoneistaon Beowulf-arkkitehtuuriinpohjautuvia klustereita, joiden käyttöjärjestelmänäon lähes poikkeuksetta Linuxja prosessorina yleensä Intel Xeon taiAMD Opteron.Eräs keskeinen komponentti on kytkentäverkko,jolla klusterin palvelimet elinoodit kytketään yhteen. Verkon toteutusriippuu pitkälti käyttötarkoituksesta. Joslaskenta on helposti hajautettavissa itsenäisiinosiin, voi yhden tai kymmenengigabitin Ethernet olla aivan riittävä. Joskyseessä on vaativampi hajautus, jokavaatii paljon tiedonsiirtoa ja useita tietokoneita,on ratkaisuna useimmiten Infiniband-verkko.Infinibandin tuoreimmanversion tiedonsiirtonopeus 56 Gbit/s, jasen viiveet ovat huomattavasti Ethernetiäpienemmät.Muutamat yritykset (Cray, NEC jaIBM) kehittävät edelleen superlaskentaantarkoitettuja tietokoneita, muttaniissäkin on yhä enemmän siirrytty massatuotettuihinkomponentteihin, Linuxiinsekä avoimen lähdekoodin työkaluihin.Myös arkkitehtuuri muistuttaa hyvinpaljon klustereita. Esimerkiksi CSC:nkinkäyttämä Cray XC30 on pohjimmiltaanx86 Linux -klusteri. Koneen tehoa lisääCrayn kehittämä Aries-kytkentäverkko,joka on suorituskyvyltään vielä Infinibandiakintehokkaampi.Muutos kuitenkin jatkuu. Viime vuonnaCray myi Aries-verkkoteknologiansaIntelille, eikä superkonekäyttöön suunnitellulleIBM:n Blue Gene -sarjalle oletiedossa ainakaan suoraa jatkoa.Standardeihin perustuvien klustereidensekä Linuxin ja avoimen lähdekoodinohjelmien yleistyminen on olluterinomaista ainakin supertietokonekeskustennäkökulmasta. Se vähentää riippuvuuttayksittäisestä laitevalmistajastaja mahdollistaa koneiden räätälöinninomiin tarpeisiin. Kolikon kääntöpuolenaon se, että vielä 90-luvulla vallinnut eksoottistenlaitearkkitehtuurien monimuotoisuuson pitkälti kadonnut.Joitakin oman tiensä kulkijoita vieläon. Esimerkiksi SGI (ent. SiliconGraphics) kehittää edelleen Ultravioletkoneita,joissa on erittäin suuri jaettumuistiavaruus. NEC puolestaan jatkaaperinteikästä SX-sarjaa, joka pohjautuuniin sanottuihin vektoriprosessoreihin.Craylla puolestaan on oma data-analyysiinsuunniteltu ja erikoisprosessoreillavarustettu Urika-järjestelmänsä.Kiihdyttimet tulevatViime vuosien aikana myös erilaiset kiihdytinprosessoritovat tarjonneet kaivatunpiristysruiskeen superkoneille. Tässäkiihdytinprosessoreilla tarkoitetaan erilaisialaskentaan suunniteltuja apuprosessoreja.Ajatus ei ole uusi: jo vuonna1980 Intel toi markkinoille 8087-prosessorin,joka toimii 8088-prosessorin apunaja keskittyy liukulukujen laskemiseen.Sittemmin ominaisuus sulautui itse prosessoriinja kiihdyttimet siirtyivät marginaaliin.Yrittäjiä on ollut paljon, muttamenestys on vaihdellut.Esimerkiksi IBM kokeili onneaan tekemälläsupertietokoneversion Cell-prosessorista,joka oli kehitetty Playstation3:a varten. Vuonna 2008 uusi prosessoriotettiin näyttävästi käyttöön silloisessatehokkaimmassa supertietokoneessa,Los Alamosin kansallislaboratorion Roadrunnerissa.Se oli ensimmäinen kone,joka ylsi suorituskyvyssään petaflopluokkaan.Cell oli kuitenkin erittäin hankalastiohjelmoitava, eikä se juurikaanyleistynyt.Todellinen läpimurto tuli kuitenkin yllättävästäsuunnasta: pelikäyttöön suunnatuistanäytönohjaimista. Grafiikkaprosessorien(Graphic Processing Unit,GPU) kehitys oli vuoteen 2005 mennessähuimaa, koska näytönohjainvalmistajienvälillä vallitsi kova kilpailu ja pelikansanlompakot olivat riittävän paksuja. Grafiikkaantarkoitetut suorittimet kehittyivätjopa nopeammin kuin tavalliset keskussuorittimet(Central Processing Unit,CPU).Supertietokoneiden kehittäjät alkoivatkinselvittää, miten GPU:t voitaisiinvaljastaa laskentaan. Syntyi GPGPU-konseptieli ”General Purpose Processing onGPU”. Alustavat tulokset olivat lupaavia,vaikka ohjelmointi olikin erittäin kömpelöä.Myös GPU-laskennan epätarkkuusaiheutti omat ongelmansa: peleissä pikselinsijaintia ei tarvitse määrittää miljardisosientarkkuudella.Eräät GPU-valmistajat, etupäässäNvidia ja ATI, huomasivat markkinamah-40 2014.1
NEC SX-9 vuodelta 2008, Japanin hallituksen Earth Simulator -projektissa. Käyttö avattiin 2012.dollisuudet ja alkoivat kilvan kehittääomia, erityisesti laskentaan soveltuviaversioita grafiikkasiruistaan. Niitä olivatNvidia Tesla ja ATI Firestream. Nykyäänmyös useimpia tavallisia kuluttajakäyttöönsuunnattuja GPU-piirejä voi käyttäälaskentaan. Ne ovat kuitenkin ominaisuuksiltaan,laskentateholtaan ja muisinmäärältään heikompia kuin nimenomaisestilaskentaan tarkoitetut suorittimet.Perusarkkitehtuuri on silti sama.GPU:t ovat kasvattaneet osuuttaanTop 500 -listalla ja vakiintuneet nykyäänosaksi supertietokoneiden valtavirtaa.Nvidia on selvä markkinajohtaja, mikäjohtuu pitkälti sitä, että se panostaa ohjelmointiympäristöönja kehittäjien tukemiseen.AMD:n ja ATI:n suorittimet ovatkilpailukykyisiä, mutta sekavat kehitystyökalutsekä suppea sovellus- ja kirjastotarjontaovat pitäneet ne marginaalissa.Molempien yritysten pääasialliset markkinatovat kuitenkin tavallisten kuluttajienraudassa.Grafiikan ehdoillaNykyään grafiikkaprosessoreissa on noinseitsemän miljardia transistoria, kuntaas tehokkaimmissa palvelinprosessoreissavain kolme miljardia. Ero on siisjo yli kaksinkertainen. Grafiikkasirujenteoreettinen suorituskyky on 5–10 kertaaCPU:ita parempi, ja energiankulutuksessane ovat 3–5 kertaa taloudellisempia.Tuoreimman Green 500 -listan kärkipäänkoneet hyödyntävätkin poikkeuksettaGPU-pohjaisia kiihdyttimiä.Suorituskyvyn ero selittyy muun muassasillä, että GPU:ssa ei ole läheskäänniin paljon ohjauslogiikkaa kuin CPU:ssaja lähes kaikki pinta-ala on omistettulaskentayksiköille. Tämä tosin aiheuttaasen, että prosessori ei voi suorituksenaikana yhtä älykkäästi peittää huonostioptimoidun koodin ongelmia. Niinpäohjelmoijalla ja kääntäjällä on suurempivastuu koodin optimoinnista.Siinä missä normaalissa CPU:ssa onyhtenäinen välimuisti, GPU:ssa se onhajautettu pieniin paikallismuisteihin.Tämä yksinkertaistaa prosessoria ja helpottaaarkkitehtuurin laajentamista yhäsuurempiin ydinmääriin. Tässäkin vastuuvälimuistin tehokkaasta käytöstä siirtyykääntäjälle ja ohjelmoijalle.GPU:n keskusmuisti on hyvin nopeaaGDDR-muistia, joka tarjoaa nykyään noinneljä kertaa suuremman kaistanleveydenkuin CPU:n DDR-muistit (vrt. 200 Gt/s ja50 Gt/s). GDDR-muisti on kuitenkin melkokallista ja sitä on vähemmän. Data pitäämyös siirtää ensin kortille käyttämällähitaampaa (8 Gt/s) PCI Express -väylää.AMD on kyllä suunnitellut Playstation4:ää varten mielenkiintoisen prosessorin,jossa sekä CPU että GPU käyttävätsamaa GDDR-muistia. Tuotteesta ei toistaiseksiole tiedossa ”avointa” versiota.Jotta ohjelma toimisi hyvin grafiikkasuorittimissa,koodin pitäisi olla sellaista,että se käsittelee suuria yhtenäisiä datamääriäja sisältää vain vähän if-ehtoja.Esimerkiksi Top 500 -listan matriisiratkaisusoveltuu hyvin GPU:ille, muttaesimerkiksi epäsäännöllisen verkostonkäsittely (esim. kielitieteissä) on vaikeampaa.GPU-laskenta on siis monissa tapauksissaerittäin tehokasta, mutta se ei sovellukaikkiin käyttötarkoituksiin. LisäksiGPU-ohjelmointi on edelleen melko vaativaa,vaikkakin se on helpottunut huomattavastiviime vuosina.Parhaat puolet molemmistaIntel on lähtenyt mukaan kiihdytinkilpailuunXeon Phi -prosessoreilla, jotkapohjautuvat Many Integrated Core(MIC) -arkkitehtuuriin. MICin juuretovat vuonna 2008 esitellyssä LarrabeenimisessäGPU-arkkitehtuurissa, jossasuuri osa GPU-logiikasta oli toteutettux86-ytimillä. Arkkitehtuurista ei koskaantullut kaupallista tuotetta GPU-käyttöön,mutta superkoneyhteisö heräsi: tässä olisimahdollisesti tuote, joka tarjoaa GPUtasoisensuorituskyvyn yhdistettynä x86-yhteensopivuuteen.Paria vuotta myöhemmin Intel esittelikinarkkitehtuurin uudestaan MICnimelläja hiottuna erityisesti laskentakäyttöön.Ensimmäiset Phit tulivatmarkkinoille vuonna 2013, ja ne ovat suorituskyvyltäänsamaa luokkaa GPU:idenkanssa.Fyysisesti Phi on PCI Express -kortti,joka asennetaan palvelimeen. Se poikkeaakuitenkin grafiikkakäyttöön tarkoitetuistakorkeista monin tavoin. Itseprosessorissa on 50–60 kappaletta x86-ydintä, jotka pohjautuvat alkuperäiseenPentium-arkkitehtuuriin (P54C). Ytimeenon kuitenkin tehty monia uudistuksia,merkittävimpänä 512-bittinen liukulu-41