Solidigm(思得)亞太區(qū)應(yīng)用工程部總監(jiān) 翁昀

2025年3月27日,在2025人工智能基礎(chǔ)設(shè)施峰會(huì)上,Solidigm(思得)亞太區(qū)應(yīng)用工程部總監(jiān) 翁昀 分析了AI工作流對(duì)于存儲(chǔ)的具體需求,也介紹了AI數(shù)據(jù)中心層面面臨的挑戰(zhàn),這兩方面都推動(dòng)了對(duì)更大容量QLC SSD的迫切需求。

AI工作流為什么需要更大容量的SSD?

翁昀詳細(xì)分析了AI的典型工作流程,從最開(kāi)始的數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練,再到推理、以及最后的數(shù)據(jù)歸檔,每個(gè)環(huán)節(jié)都需要存儲(chǔ)的全力支持。

數(shù)據(jù)采集階段要從后端的存儲(chǔ),比如從對(duì)象存儲(chǔ)中把原始數(shù)據(jù)先讀出來(lái),這一過(guò)程可能涉及PB級(jí)別的順序?qū)懭氩僮?,?duì)存儲(chǔ)的寫(xiě)入速度要求很高。而在數(shù)據(jù)準(zhǔn)備階段,雖然數(shù)據(jù)規(guī)模變成了TB級(jí)別,但對(duì)順序讀取性能的要求非常高。

訓(xùn)練階段雖然涉及的數(shù)據(jù)規(guī)模更小了,但這一環(huán)節(jié)更為復(fù)雜和關(guān)鍵。除了要進(jìn)行模型訓(xùn)練,還要頻繁創(chuàng)建和恢復(fù)檢查點(diǎn)(Checkpoint),還要驗(yàn)證模型質(zhì)量,還可能需要量化來(lái)優(yōu)化模型性能。

這一環(huán)節(jié)涉及的數(shù)據(jù)進(jìn)一步縮小到了GB級(jí)別,但是讀寫(xiě)方式發(fā)生了變化。對(duì)于隨機(jī)讀的性能要求很高,在隨機(jī)讀場(chǎng)景中,SSD相較于HDD硬盤(pán)的優(yōu)勢(shì)非常明顯。HDD硬盤(pán)IOPS大概200,而SSD可以輕松做到百萬(wàn)IOPS。

推理過(guò)程涉及的數(shù)據(jù)提升到了TB級(jí),此時(shí)最需要的是隨機(jī)讀取的性能,這仍是SSD的強(qiáng)項(xiàng)。最后在歸檔時(shí),對(duì)隨機(jī)寫(xiě)入性能要求會(huì)比較高,從性能角度來(lái)講,SSD優(yōu)勢(shì)依然非常明顯。

從上述AI流程中可以看到,各個(gè)階段對(duì)于存儲(chǔ)性能的要求都比較高,而SSD的性能優(yōu)勢(shì)都非常明顯。但這只能說(shuō)明AI需要SSD的存儲(chǔ)性能,還不能說(shuō)明為什么需要大容量的SSD。

人們都說(shuō),更強(qiáng)的算力、更大的參數(shù)規(guī)模以及更大的訓(xùn)練數(shù)據(jù)量是提升AI模型性能的三條主要路徑。翁昀分享了來(lái)自MIT的數(shù)據(jù),為了提升模型表現(xiàn),數(shù)據(jù)集的規(guī)模正在爆炸性增長(zhǎng),如果SSD的容量不跟著增長(zhǎng),只增加更多機(jī)架是不行的。

AI數(shù)據(jù)中心為什么需要更大容量的企業(yè)級(jí)SSD

在AI迅猛發(fā)展的今天,電力已成為數(shù)據(jù)中心擴(kuò)展的關(guān)鍵瓶頸。一些國(guó)家和地區(qū)甚至由于電力預(yù)算不足,導(dǎo)致數(shù)據(jù)中心建設(shè)項(xiàng)目被擱置。

有一種說(shuō)法,AI算力的極限,最終不是由算力芯片性能決定的,而是由能提供多少電力來(lái)決定的。在這樣的背景下,SSD,特別是大容量SSD,成為緩解供電壓力的重要手段。

大容量SSD通過(guò)提升存儲(chǔ)密度來(lái)緩解供電壓力。比如,Solidigm的QLC SSD已經(jīng)從單盤(pán)61TB提升到了122TB,存儲(chǔ)密度的提升,意味著在相同的容量下,所需的機(jī)架空間和耗電量都將顯著減少,不僅可以緩解數(shù)據(jù)中心供電壓力,還能節(jié)省機(jī)架空間。

與此同時(shí),SSD還能通過(guò)提高GPU的利用率,提升現(xiàn)有數(shù)據(jù)中心計(jì)算資源的價(jià)值。SSD具備更高吞吐性能,能緩解I/O瓶頸,及時(shí)為GPU提供充足的數(shù)據(jù)。在GPU資源緊張的背景下,SSD能幫助GPU充分發(fā)揮其價(jià)值。

Ocient是一家數(shù)據(jù)分析解決方案服務(wù)商,原來(lái)該公司基于HDD硬盤(pán)打造了4.41PB的大數(shù)據(jù)存儲(chǔ)系統(tǒng),最大功耗超過(guò)200千瓦。而當(dāng)使用了Solidigm的大容量固態(tài)盤(pán)后,機(jī)架數(shù)減少到了3個(gè),功耗降低了77%以上,三年可節(jié)省高達(dá)160萬(wàn)美元的能源開(kāi)支。

翁昀提到,雖然不同地區(qū)的能源瓶頸問(wèn)題的程度會(huì)有差異,時(shí)間上可能有先后,但是各地區(qū)的能源、資源總是有限的,不可能無(wú)限制地往上增長(zhǎng)。但大容量SSD為數(shù)據(jù)中心帶來(lái)的價(jià)值是不會(huì)被磨滅的。

大容量QLC SSD在AI時(shí)代非常受歡迎

顯而易見(jiàn)的事實(shí)是,AI火的這兩年SSD容量在迅猛提升,去年一度出現(xiàn)了大容量SSD因供不應(yīng)求出現(xiàn)大幅漲價(jià)的情況。Solidigm是最早推出61TB以及122TB的企業(yè)級(jí)SSD廠商,隨后,市場(chǎng)上出現(xiàn)了多款提供這一容量規(guī)格的SSD,足見(jiàn)需求之大。

可以說(shuō),QLC SSD在AI時(shí)代迎來(lái)了絕佳的發(fā)展機(jī)遇。通過(guò)全面替代傳統(tǒng)的 TLC+HDD的存儲(chǔ)架構(gòu),不僅簡(jiǎn)化了存儲(chǔ)層級(jí),還能有效降低機(jī)架數(shù)量、減少存儲(chǔ)電力消耗,提升計(jì)算能力,打破了HDD面臨AI場(chǎng)景時(shí)的諸多問(wèn)題。

翁昀以Solidigm的產(chǎn)品組合為例,詳細(xì)介紹了在AI工作流當(dāng)中具體需要什么樣的企業(yè)級(jí)SSD,能清晰看出大容量QLC在其中的重要作用。

在數(shù)據(jù)攝取和歸檔階段階段,涉及的數(shù)據(jù)量比較大,且對(duì)性能要求也比較高。翁昀認(rèn)為,Solidigm D5-P5336就非常合適,它基于QLC提供了最高122TB的容量,是傳統(tǒng)大容量盤(pán)的4倍。

而在數(shù)據(jù)準(zhǔn)備、訓(xùn)練、檢查點(diǎn)以及推理階段,對(duì)容量密度要求不高,但對(duì)讀寫(xiě)性能有較高要求。翁昀認(rèn)為,基于TLC的Gen5接口的Solidigm D7-PS1010和Solidigm D7-P5520,或者基于QLC的Solidigm D5-5430也能很好地滿足需求。

Solidigm D7-PS1010和PS1030是去年發(fā)布的性能型SSD,DWPD分別為1和3,支持E3.S和U.2多種規(guī)格。相較于Gen4平臺(tái),不僅在性能方面實(shí)現(xiàn)“兩位數(shù)級(jí)”全面增長(zhǎng),在功耗比上也具備明顯優(yōu)勢(shì),已成為AI高性能計(jì)算平臺(tái)中不可或缺的核心部件之一。

剛剛提到的122TB的QLC盤(pán)就是Solidigm D5-P5336,它在U.2尺寸放入了一整塊晶元的產(chǎn)能,要做到這點(diǎn)對(duì)于生產(chǎn)良率和質(zhì)量控制都極為嚴(yán)苛。Solidigm作為第一家做QLC的企業(yè)級(jí)SSD廠商,憑借在QLC技術(shù)領(lǐng)域的深厚積累才做到了這點(diǎn)。

Solidigm大容量QLC在行業(yè)的幾個(gè)典型用例

德國(guó)IPC制造商INONET發(fā)布了針對(duì)ADAS數(shù)據(jù)記錄與分析的InoNet QuickTray快速更換存儲(chǔ)托架。該方案用Solidigm 31TB QLC SSD取代HDD,核心優(yōu)勢(shì)在于:延長(zhǎng)測(cè)試車(chē)行駛時(shí)間、增加數(shù)據(jù)收集量、減少返站頻率和停機(jī)時(shí)間。同時(shí),SSD的高抗震性確保了車(chē)輛在各種路況下數(shù)據(jù)記錄的穩(wěn)定性。

倫敦動(dòng)物學(xué)會(huì) (ZSL) 為應(yīng)對(duì)城市化對(duì)刺猬等野生動(dòng)物造成的生存挑戰(zhàn),利用攝像頭和 AI進(jìn)行監(jiān)測(cè),但每天超1500萬(wàn)張的圖像數(shù)據(jù)量使系統(tǒng)不堪重負(fù)。為此,ZSL與 PEAK:AIO合作,部署了結(jié)合61TB D5-P5336硬盤(pán)和英偉達(dá)DGX平臺(tái)的方案。該方案在ZSL倫敦動(dòng)物園提供了1.2PB存儲(chǔ),并將圖像預(yù)處理時(shí)間從3分鐘縮短至 30 秒,顯著加速了ZSL的保護(hù)研究工作。

正??萍际且患曳?wù)器和存儲(chǔ)硬件開(kāi)發(fā)商,該公司使用了Solidigm大容量QLC SSD打造了一套畜牧業(yè)生物基因數(shù)據(jù)存儲(chǔ)解決方案,解決了傳統(tǒng)分布式存儲(chǔ)痛點(diǎn),很好地滿足了研究所構(gòu)建單一、大容量數(shù)據(jù)湖的需求。

分享到

zhupb

相關(guān)推薦