AI給存儲(chǔ)帶來(lái)的挑戰(zhàn)
首先是AI帶來(lái)的數(shù)據(jù)規(guī)模挑戰(zhàn)。生成式AI模型的參數(shù)規(guī)模通常非常龐大,為了提高模型的實(shí)際表現(xiàn),經(jīng)常需要需要準(zhǔn)備大量訓(xùn)練數(shù)據(jù)。因此,存儲(chǔ)系統(tǒng)要處理的數(shù)據(jù)量會(huì)越來(lái)越多,需要存儲(chǔ)系統(tǒng)有足夠的擴(kuò)展性。
與此同時(shí),如今高性能GPU不僅價(jià)格昂貴而且供應(yīng)有限,如果不能將大量數(shù)據(jù)及時(shí)快速地傳輸給GPU,則會(huì)浪費(fèi)寶貴的GPU資源,這對(duì)存儲(chǔ)性能有了更高要求。當(dāng)有了高性能的存儲(chǔ)后,訓(xùn)練期間創(chuàng)建Ckeckpoint和從Ckeckpoint的速度也會(huì)大幅提高,也很有價(jià)值。
此外,AI還帶來(lái)的功耗和空間管理挑戰(zhàn)。來(lái)自Meta和斯坦福大學(xué)的研究表明,存儲(chǔ)組件可能占服務(wù)器總能耗的35%,而高密度存儲(chǔ)解決方案不僅能減少所需的服務(wù)器數(shù)量和機(jī)架空間,同時(shí),還能直接減少了維持設(shè)備運(yùn)行所需的能源以及散熱供電。
AI在邊緣場(chǎng)景中落地的挑戰(zhàn)。在去中心化的趨勢(shì)下,如果全把數(shù)據(jù)傳回?cái)?shù)據(jù)中心處理則會(huì)帶來(lái)很高的成本,所以,數(shù)據(jù)的處理需要在更靠近數(shù)據(jù)源的復(fù)雜環(huán)境中進(jìn)行,需要用盡可能少的空間和電力資源進(jìn)行處理。
理論上來(lái)講,閃存因?yàn)橛蟹浅8叩男阅鼙憩F(xiàn),更少的空間占用,較高的存儲(chǔ)密度和較低的功耗需求,在應(yīng)對(duì)上述挑戰(zhàn)中有不小優(yōu)勢(shì)。
在Solidigm看來(lái),對(duì)于人工智能全流程場(chǎng)景,從數(shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、Checkpoint創(chuàng)建和恢復(fù),以及推理場(chǎng)景,SSD相較于傳統(tǒng)的磁盤存儲(chǔ)都有明顯優(yōu)勢(shì),充分可以證明SSD對(duì)于AI的重要性。
Solidigm可以幫助企業(yè)構(gòu)建具有大型數(shù)據(jù)集的AI存儲(chǔ)解決方案
過(guò)去幾年以來(lái),Solidigm繼承自英特爾以來(lái)在企業(yè)級(jí)市場(chǎng)的積累,在市場(chǎng)上打造具有密度優(yōu)勢(shì)的SSD產(chǎn)品。作為最早在市場(chǎng)上力推QLC SSD的廠商,Solidigm在去年發(fā)布了61.44TB超大容量的SSD——D5-P5336,將業(yè)內(nèi)存儲(chǔ)密度提高到了新的水平。
Solidigm并非一味讓客戶接受QLC SSD,而是積極用CSAL讓QLC發(fā)揮容量、密度和成本優(yōu)勢(shì),配合高性能的SLC SSD作為寫入緩沖區(qū),將寫入負(fù)載轉(zhuǎn)換為對(duì)QLC更友好的順序?qū)懭?,減少寫放大的同時(shí),也優(yōu)化了存儲(chǔ)性能,最后提供高密度、高容量和高性能的存儲(chǔ)。
值得注意的是,CSAL(云存儲(chǔ)加速層)是Solidigm與Intel等合作伙伴聯(lián)合開(kāi)發(fā)的。最早是收費(fèi)的產(chǎn)品方案,現(xiàn)在是開(kāi)源的免費(fèi)方案。據(jù)倪錦峰介紹,CSAL目前已經(jīng)被成百上千家客戶所使用,甚至一些第三方SSD廠商也在使用這一方案。
如今,CSAL在AI場(chǎng)景也派上了用場(chǎng)。
Solidigm D7-5810是去年新發(fā)布的SLC固態(tài)盤,Solidigm D5-P5336是剛才提到的基于QLC的最高61.44TB的固態(tài)盤,兩者搭配構(gòu)建的CSAL方案在順序?qū)懞碗S機(jī)讀上的性能非常有優(yōu)勢(shì),可以最大化XPU的利用率。
當(dāng)然,用戶也可以選擇性能和成本比較平衡的方案,選擇采用TLC介質(zhì)的D7-P5520或者D5-P5430,雖然在提高XPU利用率方面不如此前的方案,但在p99隨機(jī)讀延遲上的表現(xiàn)有明顯提升。
如果用戶最在意的是成本,則可以索性選擇單盤最大容量高達(dá)61.44TB的D5-P5336,5年TCO成本表現(xiàn)最佳,但在提高XPU利用率方面的表現(xiàn)會(huì)比較差。
Solidigm在企業(yè)級(jí)SSD市場(chǎng)有非常完備的布局,既有強(qiáng)調(diào)性能和耐久性的SLC固態(tài)盤,也有強(qiáng)調(diào)大容量高密度優(yōu)勢(shì)的QLC固態(tài)盤,也有中間態(tài)的TLC,這使得用戶可以根據(jù)需求靈活選擇,構(gòu)建適合大型數(shù)據(jù)集AI的存儲(chǔ)解決方案。
AI正在推動(dòng)QLC閃存存儲(chǔ)普及
倪錦峰注意到,QLC在AI場(chǎng)景中的應(yīng)用越來(lái)越多。過(guò)去幾年中,倪錦峰的團(tuán)隊(duì)一直在打造用SSD替代磁盤的方案,但一直進(jìn)展緩慢。這倒不是因?yàn)閾?dān)心QLC耐久性的問(wèn)題,因?yàn)镼LC固態(tài)盤的大容量可以彌補(bǔ)擦寫次數(shù)上的不足?,F(xiàn)在隨著AI技術(shù)浪潮的到來(lái),QLC的方案?jìng)涫芮嗖A,很多用戶都在積極采用大容量QLC SSD,特別是在北美市場(chǎng)上。
相比之下,國(guó)內(nèi)用戶目前主要的關(guān)注點(diǎn)還在于GPU上。一方面是因?yàn)橐恍┤诉€沒(méi)意識(shí)到SSD的重要性。另一方面,因?yàn)閷?shí)際的軟件和硬件環(huán)境缺少對(duì)于大容量SSD的支持,使得國(guó)內(nèi)整體對(duì)于大容量存儲(chǔ)方案的采用相對(duì)落后。
之所以北美市場(chǎng)先知先覺(jué)地采用大容量QLC SSD,說(shuō)到底還是應(yīng)用需求在推動(dòng)的。隨著如今GPU性能越來(lái)越高,單臺(tái)服務(wù)器的功耗上限迅速攀升,為了減少功耗壓力,很多用戶都會(huì)積極嘗試功耗更低的閃存方案。倪錦峰預(yù)計(jì),中國(guó)用戶在未來(lái)一段時(shí)間也會(huì)逐漸意識(shí)到這一點(diǎn)。
從2023年年底到2024年年初,SSD漲價(jià)的趨勢(shì)已經(jīng)越發(fā)明顯。業(yè)內(nèi)專家表示,結(jié)合當(dāng)前公開(kāi)信息可以預(yù)測(cè),在未來(lái)幾個(gè)季度,SSD還會(huì)繼續(xù)漲價(jià),未來(lái)甚至?xí)媾R供應(yīng)不足的情況。隨著越來(lái)越多用戶意識(shí)到SSD在AI場(chǎng)景中的作用,這一情況可能更甚。
在國(guó)內(nèi)市場(chǎng),Solidigm也接觸到了一些因?yàn)锳I場(chǎng)景而升級(jí)閃存存儲(chǔ)的案例,比如金山云用SSD加速金山云對(duì)象存儲(chǔ)的案例。
金山辦公在WPS辦公軟件中加入了一些AI功能,為了提高響應(yīng)速度,金山云對(duì)對(duì)象存儲(chǔ)進(jìn)行了升級(jí)。在Solidigm的幫助下,金山云對(duì)象存儲(chǔ)從原本的硬盤加Cache的方案升級(jí)為純QLC SSD的配置,升級(jí)后,將加載40TB原始數(shù)據(jù)集的時(shí)間從535分鐘(約9小時(shí))縮短到了11分鐘。
隨著AI應(yīng)用越來(lái)越多,企業(yè)會(huì)面臨數(shù)據(jù)存儲(chǔ)方面的挑戰(zhàn),而這些挑戰(zhàn)大多都可以選擇用閃存方案來(lái)應(yīng)對(duì),也講推動(dòng)QLC閃存的普及。