Tecnologia

Il primo supercomputer exascale più potente del mondo incontra difficoltà hardware

Il primo supercomputer exascale più potente del mondo incontra difficoltà hardware

Frontier, il supercomputer più potente del mondo, è online ma è ancora lontano dall’essere operativo al 100%. Il suo direttore ha confermato che si verifica un errore di sistema ogni poche ore, ma insiste sul fatto che è normale.

Frontier è in una classe a sé stante. Dispone di 9.408 nodi HPE Cray EX235a, ciascuno alimentato da una CPU AMD Trento 7A53 Epyc a 64 core dotata di 512 GB di DDR4 e quattro GPU/acceleratori AMD Instinct MI250X ciascuno dotato di 128 GB di HBM2e. Riassumendo, il sistema ha 602.112 core CPU e 8.138.240 core GPU in totale e 4,6 PB di DDR4 e HBM2e.

A maggio, Frontier è entrato a far parte del TOP500 come primo supercomputer a superare la barriera dell’exascale dopo aver completato il benchmark HPL con un punteggio di 1,102 ExaFlops/s.

Da allora, l’Oak Ridge National Laboratory nel Tennessee, che gestisce il supercomputer, lo sta preparando per la ricerca scientifica prevista per l’inizio di gennaio.

Tuttavia, ci sono state segnalazioni secondo cui il lancio di Frontier potrebbe essere ostacolato da errori hardware eccessivi. Alla ricerca di risposte, Inside HPC ha organizzato un’intervista con il direttore del programma di Oak Ridge, Justin Whitt. Nell’intervista, ha confermato che Frontier stava riscontrando guasti quotidiani del sistema, ma ha affermato che era inevitabile in un sistema così grande.

“Il tempo medio tra i guasti su un sistema di queste dimensioni è di ore, non di giorni”, ha affermato. “Quindi devi assicurarti di capire quali sono questi fallimenti e che non ci sono schemi per quei fallimenti di cui devi preoccuparti”. Whitt ha aggiunto che passare un giorno senza un fallimento “sarebbe eccezionale”.

afferma Justin Whitt, direttore del programma presso l’OLCF

Si diceva che i problemi hardware fossero causati dal nuovo AMD Instinct MI250X, ma Whitt li ha confutati. L’MI250X è la GPU/acceleratore più potente di AMD e la vende solo a partner selezionati. Dispone di 220 CU contenenti 14.080 core con clock a 1700 MHz in un pacchetto da 500 W.

Il supercomputer più potente del mondo e le difficoltà hardware

“I problemi abbracciano molte categorie diverse, le GPU sono solo una”, ha osservato Whitt. “È stata una buona diffusione tra i colpevoli comuni di guasti alle parti che ne sono stati una parte importante. Non credo che a questo punto abbiamo molte preoccupazioni per i prodotti AMD”, ha aggiunto.

“Abbiamo a che fare con molte delle cose della prima infanzia che abbiamo visto con altre macchine che abbiamo implementato, quindi non è niente di troppo fuori dall’ordinario”.

Whitt ha ammesso che la portata senza precedenti di Frontier ha reso la messa a punto “un po’ più difficile”, ma ha affermato che stavano ancora seguendo il programma fissato nel 2018-19 nonostante i ritardi causati dalla pandemia.

 

Playblog.it

Netflix        News        Serie TV        Film        Amine        

Apple        Android        Tecnologia        Prime Video        Offerte        Disney+

 

Seguici su Facebook      Twitter      Pinterest
Seguici su TelegramNetflixOfferte Amazon PrimePrime Video

POST CORRELATI

Realme 8i: porta i 120 Hz alla portata di tutti

Alessio PlayBlog.it

Nuove funzionalità su Pixel Watch e non solo. Ecco cosa c’è di nuovo

playblog.it

MacBook Pro: Apple emette una correzione software

Lascia un commento