Aurora超級計(jì)算機(jī)是英特爾、慧與(HPE)和美國能源部(DOE)的合作項(xiàng)目,設(shè)計(jì)目標(biāo)是發(fā)揮高性能計(jì)算機(jī)在模擬、數(shù)據(jù)分析和人工智能方面的巨大潛力。

Aurora的各項(xiàng)參數(shù)都非常驚人。

2個(gè)至強(qiáng)CPU Max和6個(gè)英特爾數(shù)據(jù)中心Max GPU

Aurora擁有10624個(gè)刀片服務(wù)器節(jié)點(diǎn),每個(gè)刀片配備兩個(gè)具有HBM的英特爾至強(qiáng)CPU Max系列處理器,還有六個(gè)英特爾數(shù)據(jù)中心Max系列GPU。

也就是說,Aurora有21248 個(gè)英特爾至強(qiáng)CPU Max系列處理器,提供總計(jì)11萬個(gè)核心。還有63744個(gè)用于處理AI和HPC工作負(fù)載的英特爾數(shù)據(jù)中心Max 系列 GPU。

英特爾數(shù)據(jù)中心Max系列 GPU主要用于高性能計(jì)算和AI場景,測試結(jié)果顯示,它在實(shí)際的科學(xué)和工程工作負(fù)載上優(yōu)勢明顯,如在OpenMC上的性能是AMD MI250X GPU的2倍,并且,它還可以近乎線性地?cái)U(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。

英特爾Xeon Max系列CPU是唯一一款將HBM放到了x86處理器上的處理器,在許多實(shí)際的高性能計(jì)算工作負(fù)載上,比如地球系統(tǒng)建模、能源和制造領(lǐng)域 ,比競爭對手的性能高40%。

存儲方面。Aurora集成了超過1024個(gè)存儲節(jié)點(diǎn),存儲系統(tǒng)使用的是英特爾開源的分布式異步對象存儲(DAOS),提供220 PB的容量,31 TB/s的帶寬,并利用了HPE Slingshot高性能網(wǎng)絡(luò)。

高性能的存儲對于處理涉及大量數(shù)據(jù)集的工作負(fù)載,如核聚變研究、科學(xué)工程、物理模擬、天氣預(yù)測和其他任務(wù)都非常有用。

從應(yīng)對氣候變化,到研發(fā)治病藥物,科研人員都需要動用大量計(jì)算資源。Aurora可用于滿足高性能計(jì)算和AI的需求,作為推動科學(xué)技術(shù)突破的關(guān)鍵工具。

預(yù)計(jì)今年TOP500榜單,Aurora將占有重要的一個(gè)席位。

“在進(jìn)行驗(yàn)收測試時(shí),我們將使用Aurora來訓(xùn)練一些大規(guī)模的用于科學(xué)研究的開源生成AI模型,” 阿貢國家實(shí)驗(yàn)室副實(shí)驗(yàn)室主任Rick Stevens說道。”Aurora擁有超過60,000個(gè)英特爾Max GPU,一個(gè)非??斓腎/O系統(tǒng),還有一個(gè)全閃存的大規(guī)模存儲系統(tǒng),是訓(xùn)練模型的理想環(huán)境。”

Aurora所使用的刀片服務(wù)器各個(gè)部件,從處理器、內(nèi)存、網(wǎng)絡(luò)再到冷卻技術(shù),都非常先進(jìn)。每臺刀片包含兩個(gè)英特爾至強(qiáng)Max系列CPU和六個(gè)英特爾數(shù)據(jù)中心Max系列GPU。

此前,Xeon Max系列在Sunspot上展示出了很好的性能表現(xiàn),Sunspot是具有與Aurora相同架構(gòu)的測試和開發(fā)系統(tǒng)。開發(fā)者可以利用oneAPI和AI工具來加速HPC和AI工作負(fù)載,并提高代碼在多種架構(gòu)上的可移植性。

刀片服務(wù)器的安裝也是一個(gè)非常精細(xì)的活兒。

圖自Auora官網(wǎng):使用專門的機(jī)器來安裝刀片

每個(gè)重達(dá)70磅的刀片服務(wù)器都需要專用的機(jī)器吊裝到冰箱大小的機(jī)架中。Aurora有166個(gè)機(jī)架,每個(gè)機(jī)架可容納64個(gè)刀片,整套系統(tǒng)占地大約兩個(gè)專業(yè)籃球場的空間。

部署完成后,科研人員就能將應(yīng)用從測試平臺Sunspot上遷移進(jìn)來,將應(yīng)用放置到整個(gè)系統(tǒng)上來運(yùn)行。

隨著GPU在高性能計(jì)算和AI方面的優(yōu)勢逐步顯現(xiàn),英特爾開始發(fā)展GPU技術(shù)路線。

2022年底和2023年初,英特爾發(fā)布了數(shù)據(jù)中心 GPU Max系列,開始向阿貢國家實(shí)驗(yàn)室交付,如今正式完成了安裝。

Aurora貢獻(xiàn)了好幾個(gè)里程碑,它是工業(yè)界首臺性能超過2 ExaFLOPS的超級計(jì)算機(jī),也是第一臺基于英特爾的ExaFLOPS級別的超級計(jì)算機(jī),標(biāo)志著超算時(shí)代的一個(gè)重要里程碑。

分享到

zhupb

相關(guān)推薦