El Capitan je novo najbrže superračunalo na svijetu. Upravljat će nuklearnim oružjem
SVAKIH nekoliko godina Nacionalni laboratorij Lawrence Livermore instalira najbrže superračunalo na svijetu.
I srećom, HPC centar obično izabire uređaj koji ne samo da ispunjava svoju misiju upravljanja zalihama nuklearnog oružja američke vojske, već također odabire kombinaciju tehnologija koje unapređuju najsuvremenije superračunarstvo.
To je ono što nas je povijest naučila očekivati od Lawrencea Livermorea, a sa sustavom El Capitan koji je nedavno predstavljen na konferenciji o superračunalima SC24, povijest se doista ponavlja. Ali ovaj put je malo drugačije jer se El Capitan pokreće usred najveće izgradnje superračunalnih kapaciteta u povijesti svijeta, piše The Next Platform.
Košta upola manje od superračunala koja koriste Microsoft, Meta, Muskov xAI i drugi...
Prema mnogim mjerilima El Capitan je ravnopravan ogromnoj mašineriji koju računalni stručnjaci koriste za treninge umjetne inteligencije. El Capitan je stroj koji je skrojen za pokretanje nekih od najsloženijih i najgušćih radnih opterećenja simulacije i modeliranja, a pritom je prilično dobar u novim velikim jezičnim modelima koji su u srcu GenAI revolucije.
A zahvaljujući interkonekciji Rosetta Slingshot 11 koju je dizajnirao Cray i temeljnoj komponenti EX linije sustava koje prodaje Hewlett Packard Enterprise, El Capitan već koristi HPC-poboljšan, skalabilni Ethernet po uzoru na ono što je Ultra Ethernet Consortium pokušava ponuditi dok se hiperskaleri i graditelji oblaka umaraju od plaćanja premije za InfiniBand mreže za svoje AI klastere.
Ali što je možda još važnije, Lawrence Livermore dobiva iznimno moćno HPC/AI superračunalo za puno manje novca nego što ovih dana plaćaju hiperskaleri, graditelji oblaka i veliki AI startupovi. Teško je s preciznošću reći u čemu je razlika, ali početne proračunske vrijednosti govore da El Capitan košta upola manje po jedinici performansi FP16 od velikih klastera Hopper H100 koje kreiraju Microsoft Azure, Meta Platforms, xAI i drugi.
Upravljat će nuklearnim oružjem
Postoje prednosti po stroj koji je ključan za nacionalnu sigurnost, u pomicanju arhitektonskih granica u dizajnu sustava kakav je El Capitan, kao i za AMD koji je željan dokazati svoju sposobnost u dizajniranju hibridnog CPU-GPU računalnog stroja s opako brzim HBM punjenjem memorije u zajednički memorijski prostor preko tih konvergiranih uređaja.
I konačno, postoji još jedna velika razlika između El Capitana i strojeva koje stvaraju hiperskaleri, graditelji oblaka i AI startupi. El Capitan će upravljati nuklearnim oružjem koje može izazvati izumiranje na našem planetu (ili ga izbjeći kroz doktrinu uzajamno osiguranog uništenja, ovisno o viđenju), dok su klasteri umjetne inteligencije sami po sebi strojevi koji mogu izazvati izumiranje.
Nuklearno oružje SAD-a treba simulirati kako bi se osiguralo da ispravno funkcionira – naime, sporazum o zabrani nuklearnih pokusa sprječava SAD da detonira oružje kako bismo bili sigurni da funkcionira.
Milijunski ugovor s američkom vladom
Također je potrebno redizajnirati nuklearno oružje u zalihama i ponovno upotrijebiti njegove eksplozive, ali zabrana testiranja znači da se to mora učiniti samo putem simulacija. Otuda veliki proračuni DOE-a za superračunala u SAD-u.
Milijunski ugovor za El Capitan dodijeljen je Hewlett Packard Enterpriseu još u kolovozu 2019. godine, a sve što smo tada znali je da će stroj koristiti Slingshot interkonekciju, koštati oko 500 milijuna dolara i isporučivati najmanje 1,5 exaflopsa održivih performansi.
Samo nekoliko mjeseci ranije, HPE je rekao da će kupiti Cray za 1,3 milijarde dolara, a relativno mala veličina Craya u usporedbi s veličinom popisa materijala za tri sustava eksaskale koje gradi američko Ministarstvo energetike jedan je od razloga zašto je HPE vjerojatno uopće bio ohrabren da kupi Cray.
U svakom slučaju, tada se očekivalo da će El Capitan imati najmanje 10 puta veću održivu izvedbu od Sierra hibridnog CPU-GPU sustava koji je izgradio IBM za laboratorij, te da stane u okvir snage od 30 megavata.
U ožujku 2020. godine Lawrence Livermore rekao je da koristi AMD za El Capitanove računalne strojeve i da će sustav imati više od dva exaflopsa vršne teorijske FP64 izvedbe - stvarni sustavi mogu računati u 64-bitnoj rezoluciji - i da će trošiti oko 40 megavata i neće koštati više od 600 milijuna dolara.
Brži i od očekivanog
Hibridni CPU-GPU sustav El Capitan instaliran je i radi gotovo punim kapacitetom u Lawrence Livermoreu, a postoji konsenzus da je ovo sustav s najboljim performansama za tradicionalne simulacije i radna opterećenja modeliranja na svijetu. To uključuje glasine o vrhunskoj izvedbi superračunala Tianhe-3 (2,05 exaflopsa) i OceanLight (1,5 exaflopsa) u Kini.
U lipnju 2022. Lawrence Livermore i AMD najavili su da će koristiti konvergentni CPU-GPU uređaj, koji AMD već desetljećima naziva ubrzanom procesorskom jedinicom ili APU, kao glavni računalni stroj u sustavu El Capitan. Od tada su svi nagađali kolika bi bila brzina Antares Instinct MI300A uređaja, koliko GPU računalnih jedinica ima u uređaju i na kojoj bi brzini radili.
Mislilo se da će taktovi MI300A biti viši i da će stoga biti potrebno manje vremena da se postigne izvedba. Čini se da Lawrence Livermore dobiva još brži stroj nego što se očekivalo, a time i bolju cijenu/izvedbu od očekivanog.
Bronis de Supinski, glavni tehnološki direktor Livermore Computinga u Nacionalnom laboratoriju Lawrence Livermore, kaže za The Next Platform da postoji 87 računalnih polica u sustavu El Capitan, a te police uključuju Rabbit NVM-Express nizove za brzu pohranu, kao i računalne čvorove.
El Capitan ima ukupno 11.136 čvorova u tekućinom hlađenim Cray EX policama, s četiri MI300A računalna motora po čvoru i ukupno 44.544 uređaja u cijelom sustavu. Svaki uređaj ima 128 GB HBM3 glavne memorije koja se dijeli između CPU i GPU čipleta, koja radi na 5,2 GHz i koja isporučuje ukupnih 5,3 TB/s ukupne propusnosti iz CPU i GPU čipleta.