11月8日,在DOIT傳媒主辦的2024中國數(shù)據(jù)與存儲峰會上,新華三集團副總裁、存儲產(chǎn)品線總經(jīng)理關天舒發(fā)表了”數(shù)智聚能 重構AI時代數(shù)據(jù)存儲平臺”的主題演講,分享了新華三對未來存儲技術發(fā)展趨勢的觀點,以及未來新華三存儲產(chǎn)品的演進路線。

新華三集團副總裁、存儲產(chǎn)品線總經(jīng)理關天舒

技術發(fā)展驅動存儲革新

談到數(shù)據(jù)存儲領域技術創(chuàng)新的發(fā)展方向,關天舒表示,從介質(zhì)層面來看,SSD已經(jīng)從TLC向QLC方向發(fā)展,今年有可能就是QLC的元年。閃存顆粒的密度越來越高,同時SSD硬盤的設計形態(tài)也在發(fā)生變化。依照EDSFF標準,這種像標尺一樣的硬盤形態(tài)能夠從整個存儲系統(tǒng)的設計上實現(xiàn)更高的性能密度,能夠實現(xiàn)更高的綠色環(huán)保。在存儲的協(xié)議方面,存儲系統(tǒng)已經(jīng)從傳統(tǒng)的SCSI協(xié)議全面進入了NVMe的時代,隨著NVMeOF的普遍應用,結合高速的RDMA的技術消除高速鏈路的瓶頸,閃存系統(tǒng)正在走向端到端的NVMe的連接。

AI智算的普遍應用,意味著GPU的工作負載越來越高。為了支持存儲系統(tǒng)和GPU更好的協(xié)同而問世的GDS技術,可以讓GPU繞過CPU的處理直接訪問存儲系統(tǒng)的數(shù)據(jù),從而實現(xiàn)整個智算系統(tǒng)更加的高效。

“這些技術創(chuàng)新的方向,為未來技術的發(fā)展帶來無限的想象空間?!?關天舒指出,擺在人們面前的新問題是,如何充分發(fā)揮這些新技術帶來的潛能——除了要在硬件上前瞻性地兼容這些新的技術標準,更重要的是如何在軟件上做全面的優(yōu)化,對整個系統(tǒng)和算法上進行協(xié)調(diào)設計,充分的釋放新的存儲系統(tǒng)的性能。

“技術的發(fā)展正在驅動數(shù)據(jù)存儲走向變革。”關天舒強調(diào)說。

智能應用給數(shù)據(jù)存儲帶來新的挑戰(zhàn)

智能算力正在成為驅動中國數(shù)字經(jīng)濟發(fā)展的新引擎。

中國信通院的數(shù)據(jù)顯示,截止到今年6月底,中國智能算力的規(guī)模已經(jīng)達到了76EFlops,同比增長65%;在算力總規(guī)模的投資中,GPU的占比不斷加大,很多企業(yè)IT開支都在向GPU傾斜,智算應用越來越普遍,成為存儲系統(tǒng)中最重要的核心應用負載。這些智算應用帶來了非結構化數(shù)據(jù)的爆發(fā)式增長,對存儲系統(tǒng)的廠商而言,既是新的商機,也是強大的挑戰(zhàn)。

關天舒將這些挑戰(zhàn)總結為以下三點:

首先是模型參數(shù)的挑戰(zhàn)。過去兩年,大模型的參數(shù)量以年均復合增長400%的速度增長,對AI算力的需求增長了15萬倍,與此同時,整個智算系統(tǒng)中GPU的平均利用率最高只有50%,大量的GPU空耗和等待。存儲系統(tǒng)如何以更高的性能,為智算應用提供更高效的數(shù)據(jù)供給,并提升智算系統(tǒng)的有效算力利用率?

其次是多樣化數(shù)據(jù)的挑戰(zhàn)。在智算應用數(shù)據(jù)的處理過程中,數(shù)據(jù)來源復雜,類型多樣,而且涉及文件、對象、大數(shù)據(jù)等多種應用,需要耗費大量時間頻繁進行數(shù)據(jù)拷貝和數(shù)據(jù)格式的轉換。存儲系統(tǒng)如何支持更高效的數(shù)據(jù)訪問、提升模型的訓練效率?

第三,智算應用對存儲系統(tǒng)要求更為苛刻的穩(wěn)定性。由于智算系統(tǒng)投資太高,任何中斷都是投資的損失。存儲系統(tǒng)如何支撐智算訓練的穩(wěn)定運行,減少重復訓練帶來的資源浪費?

應對上述智算應用的挑戰(zhàn),10月24日,新華三發(fā)布了全新的下一代高性能數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列。

重構 ? 下一代AI數(shù)據(jù)存儲平臺

H3C UniStor Polaris X20000全系列產(chǎn)品包括性能優(yōu)先的全閃節(jié)點(Polaris X28000/X20828)與容量優(yōu)先的混閃節(jié)點(Polaris X20516/X20536/X20360),可以滿足所有智算場景的應用的需求。相對于新華三上一代智算存儲產(chǎn)品,UniStor Polaris X20000最大帶寬提升了260%,最大IOPS提升了210%,容量密度也提升了300%。

據(jù)悉,UniStor Polaris X20000系列采用了新華三自主研發(fā)的傲擎存儲軟件平臺,通過在性能、融合、可用性三個方面的創(chuàng)新,為AI計算應用提供了高性能的數(shù)據(jù)存儲平臺,全面釋放智算生產(chǎn)力的創(chuàng)新價值。

UniStor Polaris X20000以重構展現(xiàn)其強大實力和應用價值。

1)重構性能體驗:最大程度釋放GPU有效算力

一次完整的模型訓練通常包含數(shù)據(jù)加載、模型加載、模型訓練、CheckPoint等不同階段,不同階段對于數(shù)據(jù)存儲的性能要求各不一樣,需要存儲系統(tǒng)能夠提供更加復雜的異構混合負載的工作方式。

在性能層面,H3C UniStor Polaris X20000提供了獨有的高性能EPC客戶端,可以同時支持MPI-IO和Posix IO兩種方式,以及支持并行文件系統(tǒng)的訪問,可以讓存儲系統(tǒng)實現(xiàn)IO級的負載均衡,最大程度釋放單個節(jié)點的性能。

同時,H3C UniStor Polaris X20000還支持智能的CPU分組,實現(xiàn)專核專用,避免各個應用在核間的搶占,減少核間調(diào)度,最大程度發(fā)揮單節(jié)點性能。UniStor Polaris X20000支持IO級的智能分組和流控調(diào)度,可以同時滿足混合負載情況下的大IO高帶寬、小IO高IOPS低時延的混合負載需求。

通過對底層存儲系統(tǒng)架構的優(yōu)化,H3C UniStor Polaris X20000單節(jié)點的性能實現(xiàn)了80GB帶寬和200萬IOPS,大幅度提升了不同的階段數(shù)據(jù)加載效率,加上對不同訓練階段的IO模型進行單獨的性能優(yōu)化,共減少30%的訓練等待時間,有效保證智能算力系統(tǒng)的算力供給。

2)重構數(shù)據(jù)管理體驗:一個資源池支持全流程智算應用

在整個模型的訓練中,同一份數(shù)據(jù)可能會被不同的應用同時訪問,所以需要在不同應用間去做數(shù)據(jù)的遷移和轉換,這個過程要占到整個數(shù)據(jù)處理的30%以上。

對此,新華三重新設計了全新的元數(shù)據(jù)的處理架構和處理流程,實現(xiàn)了文件、對象、大數(shù)據(jù)在存儲系統(tǒng)中只需要保存唯一的一份原數(shù)據(jù),就可以同時被不同的上層應用系統(tǒng)訪問,同時還支持不同的協(xié)議、數(shù)據(jù)并行處理,做到了協(xié)議無損、性能無損。整個系統(tǒng)架構的規(guī)劃時只需規(guī)劃一個統(tǒng)一的邏輯資源池,提升可用容量空間達40%,不僅大幅度簡化后續(xù)規(guī)劃配置運維工作,還可以對多樣化的數(shù)據(jù)做本地分析、免數(shù)據(jù)遷移,最大化提升數(shù)據(jù)的分析效率。

3)重構可用性體驗:秒級切換,訓練不中斷

在大模型的訓練過程中,最令人頭疼的就是各種意外的情況導致的訓練中斷,這會導致GPU空閑,降低利用率。

H3C UniStor Polaris X20000實現(xiàn)了多級可靠性方案,支持租戶間的隔離,每個租戶實現(xiàn)獨有的容量策略和性能策略,保證多個租戶在同時訓練中不受其他某個租戶訓練中斷的影響。H3C UniStor Polaris X20000所有組件,無論是硬件還是軟件均采用了冗余的多活系統(tǒng)設計架構,形成了一套完整的多層級可靠性的方案。

相對于傳統(tǒng)的分布式存儲系統(tǒng)采用節(jié)點間軟件的心跳探測方式,H3C UniStor Polaris X20000通過硬件級的SOM存儲管理平臺實現(xiàn)對存儲節(jié)點的健康監(jiān)測,此方法支持中斷式的上報以及主動輪詢上報等多種不同的監(jiān)控方案,對故障實現(xiàn)毫秒級的上報,最大化保障訓練的任務不間斷連續(xù)運行,無論是計劃內(nèi)的擴容升級還是計劃外的節(jié)點故障,業(yè)務都是弱感知。

價值重構:H3C UniStor Polaris X20000的行業(yè)實踐

H3C UniStor Polaris X20000已經(jīng)在行業(yè)應用測試中得到驗證。

AIGC文本大模型。新華三AIGC大模型團隊的主要工作之一是基于行業(yè)的數(shù)據(jù)去訓練垂直領域的行業(yè)模型,目前參數(shù)規(guī)模約70B,通常一個模型的訓練周期在10天左右,訓練過程中需要定期CheckPoint保存,以保證異常情況時可以重新加載、連續(xù)訓練。根據(jù)AIGC團隊實測數(shù)據(jù),H3C UniStor Polaris X20000將CheckPoint的保存和加載時間降低了50%以上,大幅度提升了GPU的資源利用率。

基因測序。一家客戶的基因測序每天產(chǎn)生約10TB的非結構化數(shù)據(jù)文件。實際測試數(shù)據(jù)顯示,應用H3C UniStor Polaris X20000后,分析處理周期可縮短57%,數(shù)據(jù)處理時間也從30小時降低到13小時。

自動駕駛。眾所周知,自動駕駛每天產(chǎn)生的數(shù)據(jù)量龐大,研發(fā)周期也很長。根據(jù)客戶提供的報告,每輛車每天產(chǎn)生60TB訓練數(shù)據(jù)。采用H3C UniStor Polaris X20000后,系統(tǒng)平均開發(fā)迭代周期從28個月縮短至13個月,節(jié)省了一半以上的時間。

毫無疑問,H3C UniStor Polaris X20000未來將全面助力動漫渲染、氣象預報、油氣勘探、芯片設計、地震預測、制造仿真等更多行的AI應用,釋放AI智算生產(chǎn)力的創(chuàng)新價值。

作為新華三整體智算方案最核心的底層存儲組件,X20000支持傲飛算力平臺的統(tǒng)一系統(tǒng)管理,面向AI的應用,可以對應用提供業(yè)務可靠、智能IO路徑優(yōu)化、數(shù)據(jù)全域管控、數(shù)據(jù)安全策略的功能,為AI智算基礎設施提供性能強勁、兼顧可靠的數(shù)據(jù)底座。

愿景:內(nèi)生智能?成就智慧存儲

回顧過去近20年的時間,新華三始終專注于最前沿的存儲市場,從傳統(tǒng)陣列到融合存儲,從軟件定義到全閃存儲。

如今,AI的發(fā)展正在深刻的改變存儲領域,一方面人工智能的深度應用使得存儲系統(tǒng)變得更加的智能可靠,另一方面,智算復雜異構的混合工作負載更需要存儲系統(tǒng)提供更高效的穩(wěn)定的性能。

迎合這一轉變,2023年8月,新華三發(fā)布了H3C/HPE Alletra MP全局解耦NVMe智能全閃存儲,借助AI in Storage理念讓存儲系統(tǒng)從應用模式中自我學習,進而進化存儲資源、提升性能。如今,新華三又推出了專為智算場景設計的全新一代高性能存儲H3C UniStor Polaris X20000,對AI智算數(shù)據(jù)存儲平臺進行全面的革新。

新華三全棧智算解決方案支持大模型的全棧能力,支持從模型開發(fā)到基礎設施的一站式的應用部署,支持行業(yè)數(shù)據(jù)的統(tǒng)一治理,通過對算力、存儲、網(wǎng)絡的協(xié)同感知,實現(xiàn)智算整個集群的最佳效率。

作為IT行業(yè)的領軍企業(yè),新華三存儲提出了“內(nèi)生智能?成就智慧存儲” 的發(fā)展戰(zhàn)略,借助多年的行業(yè)經(jīng)驗結合前瞻性的技術創(chuàng)新,不斷推動存儲產(chǎn)品的智慧進化,為AI時代注入新的發(fā)展動力。

展望未來,關天舒表示,新華三將繼續(xù)堅持研發(fā)創(chuàng)新發(fā)展理念,持續(xù)探索最前沿的存儲技術,持續(xù)推動產(chǎn)品的創(chuàng)新,持續(xù)發(fā)展AI時代的海量數(shù)據(jù)存儲。

分享到

xiesc

相關推薦