本次MLPerf? Storage v2.0參測企業(yè)(來源:MLCommons)

MLPerf? Storage v2.0在2023年0.5版本及2024年1.0版本6個訓練場景的基礎上,增加了4個基于不同規(guī)模llama3模型的checkpoint測試場景,覆蓋了從樣本加載、checkpoint保存與恢復等常見模型訓練場景的工作負載,全面測評圖像識別、科學計算等領域人工智能應用的存儲需求,確保評測結果具有廣泛的現實參考意義。

MLPerf? Storage v2.0 針對A100和H100兩種GPU分別定義了3D Unet 、ResNet50和CosmoFlow 3個模型下總計6類訓練測試場景,從下表中可以看到每個測試場景的模型簡介、訓練框架及測試條件等關鍵信息:

MLPerf? Storage v2.0中新增了4個Checkpoint測試場景,用于模擬 AI 模型訓練過程中的模型checkpoint保存與恢復工作負載。這些測試場景聚焦于checkpoint高帶寬寫入和讀取性能,覆蓋了不同規(guī)模模型訓練中常見的I/O模型,從下表中可以看到每個測試場景的參數規(guī)模、checkpoint測試數據量和典型場景等關鍵信息:

同時,為了保證測試結果的準確性和權威性,MLPerf? Storage v2.0制定了極其嚴格的測試準則,包括:

1. 高 GPU 利用率

·v2.0更加強調在訓練任務中存儲系統不應成為性能瓶頸:

  ·ResNet-503D UNet測試中,GPU利用率要求 >90%。

  ·CosmoFlow測試中,GPU利用率要求 >70%。

  ·在MLPerf? Storage v2.0中,允許使用更大規(guī)模的GPU模擬集群,進一步提高了對系統高帶寬與低延遲的要求。

2. 嚴禁緩存優(yōu)化

·主機側禁止任何數據緩存行為,以防影響存儲系統真實性能評估:

  ·測試前必須清空緩存(例如,使用 echo 3 > /proc/sys/vm/drop_caches命令清空緩存)。

  ·測試數據集至少5倍于主機內存容量,確保數據真實從存儲中讀取。

  ·每輪測試之間必須重新加載數據,防止隱性緩存。

3. 可重復性與審核機制

·多次執(zhí)行且連續(xù)成功(訓練任務5次、Checkpoint任務10次)。

·提交結果需附帶完整配置、日志與運行腳本。

·在MLCommons官網公開測試流程與硬件配置。

·所有測試結果均經過官方及參與測試廠家交叉檢視。

為了深入理解 MLPerf? Storage 2.0基準測試內容,我們先解釋幾個核心概念:

Accelerator Number(ACC NUM):模擬測試訓練GPU數量,衡量系統處理能力的規(guī)模;模擬測試訓練GPU數量越多,對存儲系統的讀寫帶寬和并發(fā)吞吐的壓力越大。

Accelerator Utilization(AU):測試過程中 GPU 的平均利用率(百分比),反映存儲系統是否能為GPU提供穩(wěn)定且持續(xù)的數據供給。如果利用率低,說明存儲性能可能成為瓶頸。

Accelerator Type: GPU類型,表示參與測試的GPU型號/架構,MLPerf? Storage v2.0測試目前支持模擬測試A100和H100兩種GPU類型。

Storage System Type:參與測試的存儲系統結構和介質類型。MLPerf? Storage v2.0測試中覆蓋了以下存儲系統類型:

Storage System RU:存儲系統所占的物理空間,單位為 RU(Rack Unit,1RU = 1.75 英寸)。注:由于部分Cloud類型的參測廠商未反饋實際使用的存儲系統RU數據,因此本文并未將這部分參測廠商的每存儲系統RU輸出帶寬納入對比。

基于上述指標維度,大家就可以對 MLPerf? Storage v2.0測試中各參測廠商的系統能力進行全面對比,例如:

·在滿足官方要求的GPU 利用率下,哪個存儲系統能支持更高的GPU數量及更高的業(yè)務帶寬?

·在相同訓練模型下,哪個存儲系統的性能密度更高,即存儲系統每RU輸出的讀、寫帶寬更高?

·在相同checkpoint模型下,哪個存儲系統的性能密度更高,即存儲系統每RU輸出的讀、寫帶寬更高?

·更高的性能密度,意味著相同節(jié)點數和機架空間下,系統可以支持更多 GPU 計算節(jié)點的訓練任務。

實力領跑!泛聯信息包攬MLPerf? Storage v2.0七項世界第一

泛聯信息(UBIX)作為國內唯一全面參與 MLPerf? Storage v2.0 全部10項測試場景的創(chuàng)新型AI存儲廠商,在眾多國際領先參測企業(yè)中脫穎而出,斬獲其中7項世界第一的卓越成績。同時,在所參與的測試項目中,泛聯信息(UBIX)相較于1.0版本的核心測試指標,普遍實現了兩倍以上的性能提升,充分展現了其在AI存儲領域的技術實力與持續(xù)創(chuàng)新能力。

泛聯信息(UBIX)使用自研獨立知識產權的UbiPower18000全閃存儲產品參與測試。本次測試環(huán)境基于泛聯信息戰(zhàn)略合作伙伴新疆銀豐智能算力技術有限公司提供的優(yōu)質AI算力、網絡平臺搭建。平臺整合高品質的AI算力資源與高速網絡架構,為本次測試提供了穩(wěn)定可靠的基礎測試環(huán)境。在存儲介質方面,泛聯信息選用了大普微 Roealsen? R6系列PCIe Gen5 NVMe SSD,該產品在整個測試過程中保持了超低的讀寫時延以及穩(wěn)定的讀寫帶寬,為高負載、密集型訓練場景提供了強有力的支撐。

本次UbiPower 18000測試環(huán)境包含3節(jié)點組成的UbiPower 18000分布式集群(每節(jié)點配置了16塊大普微Roealsen R6100 15.36TB NVMe SSD以及4張英偉達NVIDIA ConnectX-7 400Gbps IB網卡)、16臺GPU算力服務器以及一臺英偉達400G IB交換機,測試環(huán)境網絡拓撲如下圖所示:

UbiPower 18000測試拓撲圖

接下來,我們將對泛聯信息(UBIX)UbiPower 18000分布式全閃存在本次測試中的詳細性能數據進行深入解析,全面剖析其在智算訓練業(yè)務測試場景中的表現。讓我們一同見證這款面向智能計算場景全新設計的創(chuàng)新型 AI 分布式存儲系統所帶來的強勁性能沖擊與突破性價值。

ResNet50模型測試數據解析

在 ResNet-50 模型模擬測試中,測試系統模擬圖像分類任務,使用生成的 ImageNet 風格圖像數據集,并通過多并發(fā)讀取的 I/O 模型進行評估。在該測試場景下,僅由3個 2U存儲節(jié)點組成的UbiPower 18000分布式存儲系統,成功支撐了模擬訓練中多達 2160張H100 GPU的數據吞吐需求,GPU利用率持續(xù)保持在90%以上,系統穩(wěn)定帶寬達到374.57GiB/s,對應每存儲系統RU的帶寬高達62.43 GiB/s。同時,該系統成功支持了3120張A100 GPU的模擬訓練需求,依然保持GPU利用率超過 90%,系統穩(wěn)定帶寬為280.77GiB/s,對應每RU帶寬高達46.8GiB/s。

在本測試模型下,UbiPower 18000無論在支持的GPU數量、系統總帶寬,還是每存儲RU帶寬,均為所有參測廠商中的最高值,充分展現了其在處理大規(guī)模數據集場景中的卓越能力。同時,在緊湊的空間占用下,提供了更高的性能密度,證明UbiPower 18000能在相同節(jié)點數和機架空間下,支持更多 GPU 計算節(jié)點的高效訓練任務,具備極強的可擴展性與部署效率。

CosmoFlow模型測試數據解析

該測試模型模擬的是科學計算類AI工作負載,測試模型根據計算節(jié)點內存容量動態(tài)生成2.6MB大小的科學模擬數據文件,并采用并發(fā)讀取的I/O模型進行訓練評估。泛聯信息(UBIX)所使用的測試客戶端內存配置為512GB,在此基礎上,測試程序共生成約1500多萬個科學模擬數據文件,在本項測試中數據集規(guī)模在所有參測廠商中也是最大的。在如此大規(guī)模的數據集條件下,UbiPower 18000分布式存儲系統依然展現出強勁的性能表現:

·成功滿足了528張H100 GPU的模擬訓練帶寬需求,提供高達273.21 GiB/s 的穩(wěn)定帶寬,折合每存儲系統 RU 帶寬為45.54 GiB/s;

·成功滿足了608張A100 GPU的模擬訓練帶寬需求,穩(wěn)定帶寬達到226.44 GiB/s,每存儲系統 RU帶寬達37.74GiB/s。

在該測試模型下,UbiPower 18000在支持的GPU數量、系統總帶寬及每存儲系統 RU帶寬等核心指標方面,均為所有參測廠商中的最高水平。即便在更大規(guī)模的數據集和更高的 I/O 壓力下,該系統依然支持遠超其他廠商的GPU數量與集群帶寬,充分體現了UbiPower 18000在科學計算類AI訓練負載場景下的優(yōu)異性能和出色的可擴展能力。

3D U-Net模型測試數據解析

該測試模型模擬醫(yī)學影像分割任務的典型工作負載,主要用于評估存儲系統在混合讀取模式及中等文件大?。s140MB)場景下的性能表現。在本模型下,UbiPower 18000 存儲系統也展現出了卓越的性能能力:

·面向336張A100 GPU的模擬訓練任務,系統成功滿足了高強度的數據吞吐需求;

·在訓練過程中,GPU利用率穩(wěn)定保持在90%以上;

·系統實現了高達455.05 GiB/s的穩(wěn)定帶寬輸出;

·折合每存儲系統RU帶寬達到75.84GiB/s。

在該測試模型下,UbiPower 18000 所支持的 GPU 數量、總帶寬及每存儲系統 RU 帶寬均為所有參測廠商中的最高水平,充分展示了其在醫(yī)學影像類AI負載下的領先性能與強大適應性。

Llama3-405b模型測試數據解析

Llama3 405b模型模擬的是企業(yè)或高校在進行大規(guī)模模型訓練時,多個GPU服務器同時進行checkpoint數據讀寫的典型場景。在MLPerf? Storage v2.0測試中,該模型模擬了512路并發(fā)寫入、并發(fā)讀取,每輪總數據量達5.29TB的checkpoint數據,重點評估存儲系統的讀、寫帶寬能力以及大規(guī)模計算集群下的并發(fā)訪問性能。

在該測試模型中,由3個2U存儲節(jié)點組成的UbiPower 18000存儲系統表現出色,每個存儲系統RU穩(wěn)定輸出50.5GiB/s的讀帶寬和36GiB/s的寫帶寬,其讀、寫帶寬密度在所有參測廠商中均為最高。

Llama3-1t模型測試數據解析

Llama3-1t模型模擬的是超大規(guī)模AI基礎設施場景下,多個GPU服務器并發(fā)進行 checkpoint的讀寫操作。該模型模擬了1024 路并發(fā)寫入和讀取,每輪總量高達18TB的checkpoint數據,進一步提升了對存儲系統并發(fā)訪問能力和讀寫帶寬的考驗。

在此測試中,由 3 個2U存儲節(jié)點組成UbiPower 18000存儲系統,每個 RU 穩(wěn)定輸出54.7GiB/s的讀帶寬和36.3GiB/s的寫帶寬,再次刷新了參測廠商中的讀寫帶寬密度記錄。

從 Llama3-405b與Llama3-1t 兩個checkpoint模型的測試結果來看,在高并發(fā)讀寫業(yè)務場景下,UbiPower 18000存儲系統展現出強大的帶寬吞吐能力:

·系統讀帶寬突破328GiB/s,寫帶寬超過218GiB/s

·每節(jié)點穩(wěn)定提供 100 GiB/s以上的讀帶寬、72 GiB/s以上的寫帶寬

這些數據充分證明了UbiPower 18000在大模型訓練過程中checkpoint保存與加載場景下的優(yōu)異性能表現。同時,隨著節(jié)點數量的線性擴展,該系統還能夠持續(xù)提升集群的整體讀寫帶寬,全面滿足大規(guī)模 AI 訓練對存儲系統的極致帶寬需求。

泛聯信息(UBIX):面向智算時代的存儲創(chuàng)新者

作為一家專注于 AI 存儲產品與解決方案的新興廠商,深圳市泛聯信息科技有限公司(UBIX Technology Co., Ltd.) 通過在存儲介質應用、系統架構及軟件實現等方面的持續(xù)創(chuàng)新,成功研發(fā)出擁有自主知識產權的高性能分布式文件系統 UBIXFS。

其核心技術包括:

·全固態(tài)分層資源池架構

·高并發(fā)、低時延分布式元數據服務集群

·基于RDMA網絡的多鏈路動態(tài)聚合高速傳輸協議

·CSN資源虛擬化及統一調度

上述創(chuàng)新顯著提升了存儲系統整體性能,有效支撐智算、超算場景對存儲系統的嚴苛需求,成為推動 AI 技術發(fā)展與落地的關鍵支撐力量。

目前,泛聯信息(UBIX)創(chuàng)新AI存儲產品已在多個超算中心和智算中心實現商用部署,廣泛應用于數據預處理、海量數據訪問、大規(guī)模checkpoint讀寫等關鍵場景,并在科研、高性能計算(HPC)、以及文本、圖像、視頻、多模態(tài)大模型訓練等任務中展現出優(yōu)異的性能表現。

展望未來,泛聯信息將持續(xù)深耕 AI 存儲領域,圍繞高性能、高可靠性、智能化三大方向不斷加大研發(fā)投入,持續(xù)優(yōu)化系統架構與軟件能力,推出更多面向大模型訓練、智算與超算中心的領先產品與解決方案,助力全球用戶高效應對 AI 時代的存儲挑戰(zhàn)。

分享到

崔歡歡

相關推薦