AI技術(shù)的迅速發(fā)展正在推動(dòng)從自動(dòng)化到內(nèi)容生成等多領(lǐng)域?qū)崿F(xiàn)質(zhì)的飛躍。為了保障AI應(yīng)用的順利運(yùn)行,存儲(chǔ)作為AI基礎(chǔ)設(shè)施的核心組成部分,必須能夠滿足AI處理海量數(shù)據(jù)時(shí)的高要求。

AI工作負(fù)載通常分為訓(xùn)練、推理和應(yīng)用部署三階段。模型訓(xùn)練需要大量數(shù)據(jù)的輸入,推理過(guò)程產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)也非常龐大。為確保AI能夠高效地工作,對(duì)存儲(chǔ)系統(tǒng)的吞吐量、低延遲和大規(guī)模擴(kuò)展性支持又提出了更高的要求。

AI和ML工作負(fù)載在訓(xùn)練和推理過(guò)程中會(huì)使用大量并行處理。通常,這些工作由圖形處理單元(GPU)或類似硬件來(lái)完成,這意味著存儲(chǔ)系統(tǒng)的I/O性能和并行數(shù)據(jù)處理能力至關(guān)重要。AI處理的數(shù)據(jù)往往是非結(jié)構(gòu)化的,例如圖像、視頻或物聯(lián)網(wǎng)(IoT)傳感器生成的海量小文件,這對(duì)存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)提出了更高的要求。

AI工作負(fù)載的I/O需求通常是大規(guī)模并行處理,并且依賴于高性能存儲(chǔ)以支持訓(xùn)練和推理過(guò)程中的大數(shù)據(jù)吞吐量。存儲(chǔ)系統(tǒng)必須具備以下幾個(gè)特性:

1. 低延遲:AI模型訓(xùn)練過(guò)程中,存儲(chǔ)系統(tǒng)需要快速將數(shù)據(jù)傳輸給處理單元(如GPU),以確保硬件資源得到最佳利用。低延遲的存儲(chǔ)系統(tǒng)可以大幅提升模型訓(xùn)練速度。

2. 高吞吐量:AI工作負(fù)載產(chǎn)生的數(shù)據(jù)量通常是TB甚至PB級(jí)別,因此,存儲(chǔ)系統(tǒng)需要能夠支持高速的數(shù)據(jù)傳輸,確保數(shù)據(jù)能夠在短時(shí)間內(nèi)加載到AI處理器中。

3. 數(shù)據(jù)存儲(chǔ)類型多樣化:AI訓(xùn)練和推理使用的數(shù)據(jù)可能包括大量的小文件(如IoT數(shù)據(jù))或大型對(duì)象(如視頻、圖像)。因此,存儲(chǔ)系統(tǒng)需要能夠適應(yīng)各種不同的數(shù)據(jù)格式和大小,并確保數(shù)據(jù)的高效管理。

4.數(shù)據(jù)的長(zhǎng)期保存:在AI項(xiàng)目中,某些數(shù)據(jù)在初期階段可能并未被視為關(guān)鍵,但隨著項(xiàng)目的進(jìn)展,可能會(huì)變得至關(guān)重要。因此,存儲(chǔ)系統(tǒng)還需要能夠支持大規(guī)模的長(zhǎng)期數(shù)據(jù)存儲(chǔ)和歸檔。

當(dāng)然各色存儲(chǔ)廠商對(duì)于AI工作負(fù)載提供的存儲(chǔ)方案也是同而不同。

比如,戴爾則通過(guò)戴爾AI Factory硬件堆棧,包含臺(tái)式機(jī)、筆記本電腦和高性能服務(wù)器如PowerEdge XE9680擁有高計(jì)算能力,適合處理大模型和數(shù)據(jù)工作負(fù)載、PowerScale F710基于PowerEdge R660的1U機(jī)架式存儲(chǔ)設(shè)備,提供高性能和大容量,適用于AI、大數(shù)據(jù)分析、高性能計(jì)算、基因組學(xué)等現(xiàn)代工作負(fù)載,并通過(guò)英偉達(dá)的AI基礎(chǔ)架構(gòu)驗(yàn)證。戴爾還通過(guò)Apex服務(wù)計(jì)劃提供彈性的存儲(chǔ)服務(wù),滿足企業(yè)不同規(guī)模的AI存儲(chǔ)需求。

浪潮信息聚焦行業(yè)客戶的大模型落地需求,推出了新品分布式全閃存儲(chǔ)AS13000G7-N系列,還有發(fā)布基于AS13000G7的AIGC存儲(chǔ)解決方案,與上層的EPAI/AIStation調(diào)度軟件相結(jié)合,通過(guò)智能預(yù)讀和故障處理技術(shù)服務(wù)用戶。方案還通過(guò)全局命名空間和數(shù)據(jù)冷熱分層自動(dòng)流轉(zhuǎn),實(shí)現(xiàn)數(shù)據(jù)在不同介質(zhì)上的自由流動(dòng),提升存儲(chǔ)效率。

新華三在存儲(chǔ)方面,推出新一代AI存儲(chǔ)——Polaris系列,將Storage For AI和AI In Storage思路融合。Storage For AI通過(guò)全閃介質(zhì)(性能加速)、數(shù)據(jù)池化和AI智能管理特性滿足AI業(yè)務(wù)負(fù)載對(duì)存儲(chǔ)設(shè)備的性能和功能需求,AI In Storage融入AI技術(shù)在智能運(yùn)維、智能加速、智能助手等工具,大幅降低存儲(chǔ)設(shè)備在運(yùn)維、管理、排障、規(guī)劃、配置、優(yōu)化等方面的工作量和成本。并且傳統(tǒng)GPU和存儲(chǔ)架構(gòu)中,GPU訪問(wèn)存儲(chǔ)數(shù)據(jù)需要繞行CPU,存算融合方案支持GPU直聯(lián)。

IBM的Spectrum Storage for AI產(chǎn)品線與AI應(yīng)用深度融合,支持從訓(xùn)練到推理的全流程數(shù)據(jù)處理。IBM的存儲(chǔ)系統(tǒng)采用了智能化的存儲(chǔ)管理工具,能夠根據(jù)數(shù)據(jù)的使用頻率和類型動(dòng)態(tài)分配存儲(chǔ)資源,提升存儲(chǔ)性能的同時(shí),確保數(shù)據(jù)的安全性和可用性。此外,IBM還推出了專門(mén)針對(duì)AI項(xiàng)目的解決方案,能大規(guī)模擴(kuò)展存儲(chǔ)容量,支持海量非結(jié)構(gòu)化數(shù)據(jù)的高效存儲(chǔ)與管理。

西部數(shù)據(jù)今年推出一個(gè)六階段的數(shù)據(jù)處理框架,分別是原始數(shù)據(jù)存檔和內(nèi)容存儲(chǔ)、數(shù)據(jù)準(zhǔn)備和采集、AI模型訓(xùn)練、界面和提示、AI推理引擎、新內(nèi)容生成,可用于人工智能的數(shù)據(jù)處理周期。西部數(shù)據(jù)也戰(zhàn)略性地定制了其產(chǎn)品,以滿足人工智能數(shù)據(jù)處理周期每個(gè)關(guān)鍵階段的存儲(chǔ)需求,其中包括,用于人工智能訓(xùn)練和推理的強(qiáng)大 PCIe Gen5 SSD,用于快速 AI 數(shù)據(jù)湖的高容量 64TB SSD,全球容量最高的ePMR UltraSMR 32TB硬盤(pán),實(shí)現(xiàn)經(jīng)濟(jì)高效的存儲(chǔ)。

Pure Storage是提供Evergreen//One 解決方案能夠滿足能夠提供高性能和平臺(tái)整合,確保企業(yè)能夠優(yōu)化其AI存儲(chǔ)。并通過(guò)持續(xù)、無(wú)中斷的升級(jí),確保AI投資面向未來(lái),保持先進(jìn)的基礎(chǔ)設(shè)施。還有提供可預(yù)測(cè)的成本,消除大量資本支出,允許更好的預(yù)算分配。

總結(jié)

當(dāng)然還有更多的存儲(chǔ)廠商對(duì)AI存儲(chǔ)有不同的切入點(diǎn),大家都在不斷優(yōu)化自身解決方案滿足AI的需求,確保AI模型的訓(xùn)練和推理過(guò)程更加高效、智能。未來(lái),隨著AI技術(shù)的持續(xù)進(jìn)步,存儲(chǔ)與AI的協(xié)同將進(jìn)一步加深。歡迎大家參與11月8日2024中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì),走進(jìn)AI+存儲(chǔ)協(xié)同發(fā)展論壇,了解更多關(guān)于AI與存儲(chǔ)的故事。

分享到

崔歡歡

相關(guān)推薦