測(cè)試結(jié)果:
1、基于1個(gè)2U的存儲(chǔ)節(jié)點(diǎn)以及1個(gè)客戶端和2個(gè)客戶端的測(cè)試結(jié)果顯示,可以輕松滿足模型ResNet-50的訓(xùn)練需求,單客戶端能夠支持的GPU卡的數(shù)量最高達(dá)到240塊,帶寬23.6GiB/s,在存儲(chǔ)節(jié)點(diǎn)硬件采用DPU+JBOF, CPU和內(nèi)存都不是很強(qiáng)(AI 控成本)的前提下,依然領(lǐng)先參與測(cè)試的所有廠商方案,位居世界第一。具體的測(cè)試結(jié)果數(shù)據(jù)如下:
通過上述測(cè)試數(shù)據(jù)測(cè)算,ExponTech WADP使用一個(gè)2U的存儲(chǔ)節(jié)點(diǎn),在配置4個(gè)客戶端的場(chǎng)景下,可以支持超過700塊 A100 GPU訓(xùn)練卡和約400塊 H100 GPU訓(xùn)練卡的訓(xùn)練需求,穩(wěn)定提供70+GiB/s的帶寬,逼近存儲(chǔ)節(jié)點(diǎn)網(wǎng)絡(luò)帶寬極限。ExponTech WADP也可以支持?jǐn)U展到更多的2U存儲(chǔ)節(jié)點(diǎn),形成大規(guī)模高性能存儲(chǔ)集群,支持超大規(guī)模的AI訓(xùn)練場(chǎng)景。
2、MLPerf? Storage v2.0測(cè)試新推出的檢查點(diǎn)(Checkpoint)工作負(fù)載專門針對(duì)分布式擴(kuò)展系統(tǒng)中大型語言模型(LLM)的訓(xùn)練場(chǎng)景,重點(diǎn)優(yōu)化訓(xùn)練過程的備份與恢復(fù)速度。ExponTech WADP方案在Llama3-8B模型的實(shí)際測(cè)試數(shù)據(jù)位于全球領(lǐng)先水平。
ExponTech WADP方案的實(shí)測(cè)寫帶寬16.9GiB/s, 略低于JINIST(采用Huawei OceanStor A800方案)的19.4GiB/s以及ANL(采用開源DAOS方案)的18.1GiB/s, 位居世界第三。但是值得注意的是,ExponTech WADP方案采用的存儲(chǔ)硬件配置遠(yuǎn)低于前兩者,使用的物理盤容量?jī)H為前兩者的1/5, 展現(xiàn)了極為優(yōu)異的存儲(chǔ)軟件棧效率。如果以Checkpoint寫入帶寬/容量來計(jì)算寫入效率,ExponTech WADP排名將遙遙領(lǐng)先居第一。
亮點(diǎn)總結(jié):
超高密度與能效,僅使用單臺(tái)2U JBOF設(shè)備搭載DPU作為存儲(chǔ)節(jié)點(diǎn),硬件配置規(guī)格遠(yuǎn)低于其他的測(cè)試方案,展示出了超高的容量密度,性能密度和能效。
超高性能表現(xiàn),在硬件規(guī)格非常低的前提下,依然展示了超高性能表現(xiàn),在Resnet50模型訓(xùn)練測(cè)試中,單客戶端支持的GPU卡數(shù)和帶寬排世界第一,Llama3模型的Checkpoint寫入帶寬排世界第三,但使用了最少的SSD盤數(shù),以Checkpoint寫入帶寬/容量來計(jì)算寫入效率,ExponTech WADP方案排名將遙遙領(lǐng)先居第一,展示了WADP存儲(chǔ)軟件極為高效的硬件利用效率。
極致I/O效率,多輪測(cè)試均穩(wěn)定保持96%以上的GPU平均利用率(AU)。
彈性擴(kuò)展能力,WADP分布式軟件架構(gòu)可并行擴(kuò)展到1024個(gè)節(jié)點(diǎn),實(shí)現(xiàn)存儲(chǔ)容量,IOPS和帶寬的同步并行擴(kuò)展,同時(shí)保持穩(wěn)定的微秒級(jí)時(shí)延。
可擴(kuò)展網(wǎng)絡(luò)驗(yàn)證,四臺(tái)NVIDIA Spectrum-X交換機(jī)搭建兩層RoCE網(wǎng)絡(luò),擁塞控制表現(xiàn)優(yōu)異。結(jié)合ExponTech WADP分布式存儲(chǔ)軟件,方案可橫向擴(kuò)展至超大規(guī)模AI訓(xùn)練/推理場(chǎng)景。
存儲(chǔ)效率倍增,ScaleFlux CSD5000 SSD提供透明數(shù)據(jù)壓縮/解壓縮,在零性能損耗、無額外資源消耗前提下實(shí)現(xiàn)存儲(chǔ)容量與效率倍增。
首次參與即在MLPerf? Storage v2.0 AI Storage基準(zhǔn)測(cè)試中取得優(yōu)異成績(jī),這一成就不僅彰顯了華瑞指數(shù)云ExponTech存儲(chǔ)技術(shù)的強(qiáng)勁實(shí)力,更標(biāo)志著華瑞指數(shù)云ExponTech在業(yè)界又達(dá)成了一個(gè)關(guān)鍵里程碑。此次測(cè)試延續(xù)了WADP(以其子產(chǎn)品WDS名義)在2023年創(chuàng)下的SPC-1基準(zhǔn)測(cè)試世界紀(jì)錄,印證了其在企業(yè)關(guān)鍵業(yè)務(wù)(SPC-1:全球存儲(chǔ)性能委員會(huì))與AI工作負(fù)載(MLPerf Storage)領(lǐng)域的雙重競(jìng)爭(zhēng)力,是目前全球唯一的一個(gè)能夠在SPC-1和MLPerf Storage上都能夠測(cè)試出頂級(jí)成績(jī)的分布式存儲(chǔ)軟件,成為真正覆蓋全場(chǎng)景的企業(yè)級(jí)AI統(tǒng)一平臺(tái)。在未來企業(yè)把AI工作負(fù)載與企業(yè)關(guān)鍵業(yè)務(wù)進(jìn)行結(jié)合,實(shí)現(xiàn)AI能力在企業(yè)業(yè)務(wù)流程中全面落地的過程中,ExponTech WADP平臺(tái)將發(fā)揮出更加全面的價(jià)值。
未來,華瑞指數(shù)云ExponTech將在AI大模型領(lǐng)域持續(xù)深耕,不斷突破性能極限,打造全球領(lǐng)先的AI數(shù)據(jù)平臺(tái),為企業(yè)賦能新質(zhì)生產(chǎn)力。在統(tǒng)一的數(shù)據(jù)平臺(tái)產(chǎn)品上同時(shí)承載企業(yè)的核心生產(chǎn)系統(tǒng)和 AI 數(shù)據(jù)管道,幫助企業(yè)把核心生產(chǎn)數(shù)據(jù)與 AI 能力相結(jié)合,實(shí)現(xiàn) AI 在企業(yè)級(jí)場(chǎng)景的快捷落地。近期,華瑞指數(shù)云ExponTech將正式發(fā)布ExponTech WADP的最新版本,一款融合支持企業(yè)級(jí)生產(chǎn)業(yè)務(wù)和AI訓(xùn)練推理業(yè)務(wù),面向企業(yè)級(jí)AI的統(tǒng)一數(shù)據(jù)平臺(tái)底座產(chǎn)品,歡迎持續(xù)關(guān)注。
關(guān)于MLPerf?
MLPerf?是影響力最廣的國(guó)際AI 性能基準(zhǔn)評(píng)測(cè),由圖靈獎(jiǎng)得主大衛(wèi)?帕特森(David Patterson)聯(lián)合谷歌、斯坦福大學(xué)、哈佛大學(xué)等頂尖學(xué)術(shù)機(jī)構(gòu)共同發(fā)起成立,并于2023年推出 MLPerf? Storage 基準(zhǔn)性能測(cè)試,旨在公平公正且公開透明的統(tǒng)一基準(zhǔn)來衡量 AI 工作負(fù)載的存儲(chǔ)系統(tǒng)性能。目前,MLPerf? Storage 基準(zhǔn)測(cè)試的最新版本為 v2.0,包含2類工作負(fù)載的測(cè)試:訓(xùn)練(Training)和檢查點(diǎn)(Checkpointing),支持兩種模擬加速器(A100 和 H100),并涵蓋五種典型的模型訓(xùn)練負(fù)載:3D-UNet,ResNet-50,CosmoFlow和Llama3。這些負(fù)載覆蓋了順序讀取、隨機(jī)讀取、小文件讀取等多種 I/O 場(chǎng)景,能夠全面評(píng)估存儲(chǔ)系統(tǒng)在不同場(chǎng)景下的吞吐量和延遲性能。
關(guān)于SPC-1
SPC-1(全球存儲(chǔ)性能委員會(huì))是企業(yè)級(jí)存儲(chǔ)領(lǐng)域最權(quán)威的Benchmark評(píng)測(cè),是一個(gè)專注于存儲(chǔ)行業(yè)供應(yīng)商性能評(píng)測(cè)的中立機(jī)構(gòu)。旨在評(píng)估存儲(chǔ)系統(tǒng)處理復(fù)雜請(qǐng)求和大規(guī)模數(shù)據(jù)的能力,對(duì)IO吞吐量、讀寫響應(yīng)時(shí)間敏感度、工作負(fù)載動(dòng)態(tài)變化、存儲(chǔ)容量利用率、用戶多樣化、數(shù)據(jù)持久性等多種數(shù)據(jù)特征進(jìn)行嚴(yán)苛考量。