Velmi výkonné počítače mají nového krále
Japonskému superpočítači Fugaku společnosti Fujitsu, který dosahuje výkonu 442 petaFLOPs, přebral v květnu letošního roku dosavadní prvenství v žebříčku nejvýkonnějších superpočítačů světa systém Frontier, nově spuštěný v americké Oak Ridge National Laboratory (ORNL).
Na veletrhu International Supercomputer (ISC 2022) demonstrovala společnost Hewlet Packard Enterprise (HPE) blade systémy, které pohánějí dva letos do provozu uváděné exascale superpočítače Frontier a Aurora. Oba jsou založeny na architektuře Cray EX, používají vysoce výkonné x86 CPU k řešení obecných úloh a výpočetní akcelerátory založené na grafických jednotkách (GPU) ke spouštění vysoce paralelních superpočítačů a pracovních zátěží umělé inteligence (AI). Frontier však využívá hardware AMD a Aurora procesory Intel.
Frontier dosahuje v FP64 reálného výkonu 1,1 exaFLOPS, Aurora, která by měla být zprovozněna ještě letos, bude zřejmě dosahovat přes 2 exaFLOPS. O něco později pořadím zamíchá ještě rozšiřující se El Capitan s čipy AMD, který by měl přesáhnout výkon 2 exaFLOP v roce 2023.
Trilion operací za sekundu
Nový superpočítač Frontier, zprovozněný v ORNL (Oak Ridge National Laboratory), má rozlohu 372 m2 a překonal jako samostatný systém magickou hranici 1 exaFLOP, tzn., že dokáže provést více než trilion (1 000 000 000 000 000 000) operací s plovoucí desetinnou čárkou za sekundu. Oproti svému z trůnu sesazenému soupeři Fugaku má dvojnásobný výkon. Frontier, nejnovější jednička ve světě superpočítačů, je založen na platformě HPE Cray EX235a (stejně jako Aurora a také finský LUMI, trojka v žebříčku TOP500) a postaven na nejvýkonnějších čipech a gigantickém množství paměti.
Jeho mohutnou výpočetní základnu tvoří 74 skříní obsahujících celkem 9408 uzlů HPE Cray EX235a osazených 64jádrovými procesory AMD 7A53 EPYC Trento s mikroarchitekturou Zen 3 vylepšenou o 3D V-Cache a optimalizovanou pro vysoké takty. Každý výpočetní uzel má k dispozici i čtyři grafické čipy AMD Instinct MI250X, s 14 080 stream procesory, 512 GB DDR4 paměti pro využití procesorem a 512 GB vysokorychlostní (HBM2e) paměti pro GPU.
Celkem tedy Frontier představuje monumentální komplex 37 632 GPU a 8 730 112 jader, to vše doprovázeno 9,2 petabajty paměti (polovina HBM, polovina DDR4) propojené síťovou infrastrukturou HPE Slingshot se 100 a 200 GbE rozhraním, což vyžaduje 145 km síťových kabelů. Má 37 petabajtů místního úložiště uzlů a 716 petabajtů (přes 700 000 000 GB) úložného prostoru v celém centru. Jako datový sklad je k dispozici 480 NVMe SSD pro metadata a 5400 NVMe SSD pro primární vysokorychlostní úložiště. Data, s nimiž se aktuálně nepracuje, jsou ukládána na 47 700 pevných discích s kolmým magnetickým zápisem.
Impozantní výkon je nutno uchladit
V hlavním benchmarku High-Performance Linpack (HPL) dosáhl Frontier 1,102 exaFLOPů trvalého výkonu. Má teoretický špičkový výkon 1,686 exaFLOPů, přičemž je připraven na další rozšíření. Podle Oak Ridge může časem dosáhnout dvou exaFLOPů. Frontier zatím nepracuje v plném rozsahu – po dalším testování a ověřování systému se raný vědecký přístup očekává později v letošním roce a úplné otevření pro vědeckou pracovní zátěž počátkem roku 2023.
K získání bezprecedentního výpočetního výkonu bylo nutné použít sofistikovaný a energeticky náročný hardware –¬ aktuální špičkový příkon superpočítače Frontier je 29 MW energie (ve špičce spotřebuje 40 MW), takže musí využívat výkonné kapalinové chlazení. O odvod tepla se zde stará vodní okruh obsahující přes 22 tisíc litrů 29,4 °C teplé tekutiny, kterou pohání kvarteto výkonných čerpadel, jež by během půlhodiny dokázala naplnit olympijský plavecký bazén.
Už se připravuje nástupce
Blade komponenty systému Aurora jsou založeny na čipech Intel a zatím nemají číselné označení modelu Cray EX firmy HPE. Využívají dva procesory Intel Xeon Scalable Sapphire Rapids s více než 40 jádry a 64 GB paměti HBM2E na patici (kromě paměti DDR5). Uzly také obsahují šest grafických akcelerátorů Intel Ponte Vecchio, přesnou specifikaci těchto bloků, z nichž každý obsahuje více než 100 mld. tranzistorů, Intel zatím neuvedl. Paměťové moduly DDR5, které používá blade Intel, přicházejí s impozantními rozptylovači tepla, což je dáno tím, že DDR5 RDIMM, obsahující také IC pro správu napájení a modul pro regulaci napětí, přirozeně potřebují lepší chlazení než paměti DDR4, zejména v prostorově omezených prostředích, jako jsou blade servery
Pro své CPU a GPU Aurora rovněž používá kapalinové chlazení, i když tento chladicí systém je odlišný od systému používaného u superpočítače Frontier – dostupné informace nasvědčují, že výpočetní GPU Ponte Vecchio pro Auroru používají jiné vodní bloky, než Intel předvedl u systému Frontier.
V exascale žebříčku vede ve skutečnosti Čína
Nicméně, i když je Frontier prezentován jako exascalový superpočítač, nejde o první systém, který překonal tento milník. Čína provozuje již více než rok hned dva exascale systémy, což z nich dělá nejvýkonnější superpočítače na světě – jen je relativně tajila a nepřihlásila do žebříčku TOP500, který je vyhlašován dvakrát ročně. Některé údaje o čínských exascale superpočítačích však přinesl loni server The Next Platform a zakladatel Asian Technology Information Program David Kahaner o nich informoval během prezentace na mezinárodní HPC konferenci SC21. Oba systémy byly schopny dosáhnout špičkového výkonu kolem 1,3 exaFLOPů s 1,05 exaFLOPů trvalého výkonu. Nový superpočítač Sunway má podle vědců z různých čínských univerzit 40 mil. heterogenních jader, tzn. téměř 4x více než nejvýkonnější oficiální čínský zástupce a dosavadní č. 4 v TOP500 Supercomputers Sunway Taihulight s 10,6 mil. výpočetních jader, a je schopen provádět např. kvantové simulace.
Využívá vylepšený model procesoru sw26010pro, který obsahuje 6 základních jádrových skupin (CG), z nichž každá je připojena ke kruhové síti a obsahuje jeden prvek řídicího procesu (MPE, řídicí jádro) a 64 prvků výpočetního procesu (CPE), uspořádaných do sítě 8 x 8, což by znamenalo, že jeden sw26010pro má zhruba 6 x 64 jader (384 jader), takže lze předpokládat, že nový superpočítač Sunway by vyžadoval asi 104 000 těchto procesorů.
Josef Vališka
Foto: ORNL, AMD, CNET