今年6月,全球第一臺百億億次超算“Frontier”公開亮相,采用AMD Trento EPYC 7A53處理器、AMD Instinct MI250X GPU加速卡的組合,這也是AMD時隔十年重返超算之巔,性能相當(dāng)于其后第二到第七名的總和。
Frontier超算部署在美國能源部橡樹嶺國家實驗室,最初計劃2022年內(nèi)全面投入運行,后推遲到2023年1月1日,但現(xiàn)在卻被曝出自上線之初就存在嚴(yán)重的問題,每天都故障不斷。
據(jù)稱,F(xiàn)rontier超算規(guī)劃的FP64雙精度浮點性能為1.685EFlops(168.5億億次計算每秒),但目前只能勉強跑到1EFlops,也就是只能達到設(shè)計目標(biāo)的60%。
具體原因不詳,有一種說法是HPE Cray機柜使用的Slingshot網(wǎng)絡(luò)互連系統(tǒng)與HPE集群存在沖突,另一種說法是Slingshot互連系統(tǒng)與AMD計算平臺存在沖突,但究竟怎么回事兒不得而知。
美國能源部百億億次計算項目的一位對外聯(lián)絡(luò)發(fā)負責(zé)人Mike Bernhardt發(fā)布了一則簡單聲明,稱感謝HPE、AMD的努力,F(xiàn)rontier系統(tǒng)今年秋天提前交付,目前正在進行安裝和集成,這是一項繁重、復(fù)雜的任務(wù),但目前進展順利,將在明年按期想科學(xué)界開放。
為了沖擊百億億次超算,美國規(guī)劃了三條路線。
Intel Sapphire Rapids四代可擴展至強、Ponte Vecchio加速卡打造的“Aurora”進展也很不順,一直在推遲,主要是Intel的兩個新品遲遲無法規(guī)模交付。
AMD處理器、NVIDIA加速卡組成的“Polaris”消息非常少,不清楚目前具體進展如何。
文章來源:快科技