HPC向HPDA演進,“存儲墻”日益顯現(xiàn)

隨著5G、大數(shù)據(jù)和AI等新興數(shù)字化技術(shù)融入到傳統(tǒng)行業(yè),在數(shù)字化轉(zhuǎn)型和智能化升級過程中,企業(yè)數(shù)據(jù)量迎來了新一輪爆發(fā)式增長。企業(yè)依賴HPC提供大數(shù)據(jù)分析,以支撐高效的業(yè)務(wù)分析決策。同時,面對大量AI應(yīng)用場景落地,計算過程必須支撐低延時、高帶寬的應(yīng)用需求,對HPC存儲性能帶來了巨大考驗。

IDC 預(yù)計到2021年,全球HPC存儲市場空間可達(dá)148億美金,其中新興的HPDA和HPC-based AI場景將以年化17%、29.5%的增速快速增長。以HPDA、HPC-based AI為代表的HPC應(yīng)用新趨勢,既給HPC產(chǎn)業(yè)發(fā)展帶來了新的機遇,同時也帶來了新的挑戰(zhàn),總結(jié)來說,HPC存儲面臨四大“存儲墻”:

·首先,CPU計算能力仍然按照摩爾定律成倍提升,IB互聯(lián)技術(shù)通過不斷迭代更新,持續(xù)高效匹配算力增長帶來的傳輸需求。但這些年,存儲效率的提升并未跟上計算與網(wǎng)絡(luò)的步伐,多數(shù)存儲架構(gòu)還是面向一類負(fù)載打造,面對日益復(fù)雜的負(fù)載沖擊,顯得捉襟見肘。

·其次,傳統(tǒng)的HPC存儲主要基于文件協(xié)議打造,當(dāng)HPC開始與大數(shù)據(jù)、AI負(fù)載融合時,如何讓數(shù)據(jù)能在不同的分析應(yīng)用間更便捷的調(diào)用成為當(dāng)務(wù)之急。如何實現(xiàn)跨協(xié)議訪問,是構(gòu)建HPC必須解決的存儲問題。

·第三,隨著數(shù)字化轉(zhuǎn)型的持續(xù)深入,以及AI應(yīng)用場景的大量落地,很多企業(yè)現(xiàn)在一天產(chǎn)生的數(shù)據(jù)量就可能達(dá)到幾十TB,比如在自動駕駛系統(tǒng)研發(fā)過程中,每車每天產(chǎn)生的數(shù)據(jù)量就能達(dá)到64TB。海量的數(shù)據(jù)即需要存儲系統(tǒng)快速的分析處理,也需要消耗大量的存儲空間和機房空間。未來企業(yè)的數(shù)據(jù)量將不可避免的從PB向EB級跨越,而如何更好的控制存儲成本,實現(xiàn)最優(yōu)的TCO,將是HPC存儲應(yīng)用必須找到的解決方案。

·第四,在Hyperion Research最近進行了一項全球范圍的研究根據(jù)調(diào)查,高性能計算存儲系統(tǒng)的平均故障頻率為每年9.8次。從存儲系統(tǒng)故障中恢復(fù)的平均時間是1.7天,平均停工時間花費為每天12.7萬美元。因此,打造高可靠性的HPC存儲,是HPC產(chǎn)業(yè)發(fā)展的重要支撐。

歸納起來,HPC產(chǎn)業(yè)發(fā)展面臨存儲性能提升過慢、異構(gòu)存儲難以整合、海量數(shù)據(jù)的存儲優(yōu)化管理以及打造高可靠性存儲系統(tǒng)的四大瓶頸問題。

四面出擊,打破“存儲墻”

如何推倒HPC產(chǎn)業(yè)發(fā)展的四堵“存儲墻”,充分釋放數(shù)據(jù)潛能,成為了當(dāng)下HPC產(chǎn)業(yè)發(fā)展的重要課題,也是向HPDA演進升級的必由之路。

首先,最迫切需要打破的是混合負(fù)載的“性能墻”

通過筆者和不同行業(yè)客戶的溝通發(fā)現(xiàn),單純從帶寬或OPS的負(fù)載需求來說,當(dāng)前產(chǎn)業(yè)是有完善解決方案的。比如某油氣行業(yè)客戶在地震資料處理環(huán)節(jié),采用了Dell EMC的Isilon分布式文件產(chǎn)品,這個環(huán)節(jié)特點是數(shù)據(jù)量大,帶寬需求高,這是Isilon的強項;而在隨后的地震資料解釋環(huán)節(jié),數(shù)據(jù)量僅TB級,但OPS需求可達(dá)數(shù)十萬,Isilon就沒法應(yīng)對了,這時,他們則用了NetApp的FAS存儲。這樣帶來的一個問題就是,管理越來越復(fù)雜,還得做數(shù)據(jù)遷移也耗時費力。

這是一個比較典型的例子,其他行業(yè)還有很多,因此誰能先解決混合負(fù)載這個問題,對產(chǎn)業(yè)必然是一次大的推進。

其次,打破多應(yīng)用訪問時數(shù)據(jù)快速流轉(zhuǎn)的”效率墻”

前面講到了,HPDA、HPC-based AI應(yīng)用帶來了除文件以外的HDFS、S3等多種協(xié)議訪問需求,其實即便在傳統(tǒng)的HPC負(fù)載下,業(yè)務(wù)流程中數(shù)據(jù)匯聚、預(yù)處理、分析、發(fā)布所采用的訪問協(xié)議也不盡相同。因此??吹揭恍┯脩?系統(tǒng)中文件、對象、大數(shù)據(jù)多套存儲來承載不同的業(yè)務(wù),非結(jié)構(gòu)化數(shù)據(jù)Silo問題相比結(jié)構(gòu)化數(shù)據(jù)存儲更為突出,只是一直沒有好的方案。

怎么解決,我認(rèn)為多協(xié)議互通是一劑良藥。

第三,打破海量數(shù)據(jù)保存的“成本墻”

成本的構(gòu)成多種多樣,除了存儲本身的采購成本,還有維護運營的成本。前者,需要開發(fā)更高效的冗余算法,用更少的介質(zhì)存更多的數(shù)據(jù);此外,還需要根據(jù)數(shù)據(jù)熱度決定保存在什么介質(zhì)中,當(dāng)前這個動作通常是手動的,比如把海量基因數(shù)據(jù)定期從文件存儲導(dǎo)入到磁帶庫和藍(lán)光存儲中,未來,自動化的數(shù)據(jù)流動不可或缺。還有一個方向是更高密度的設(shè)備,由于機房空間租用成本的高昂,這一點在歐美市場的需求更加迫切

第四,打破系統(tǒng)長穩(wěn)運行的“穩(wěn)定墻”

隨著數(shù)據(jù)量的增長,單次數(shù)據(jù)分析的周期越來越長,一旦出現(xiàn)故障,輕則影響分析效率,重則導(dǎo)致數(shù)據(jù)丟失,影響分析結(jié)果的準(zhǔn)確性。并且,這些數(shù)據(jù)都非常珍貴,比如油氣勘探,需要人為制造一次小規(guī)模地震來獲取源數(shù)據(jù),自動駕駛場景,則是數(shù)十輛測試車輛持續(xù)不斷地在路上跑獲取數(shù)據(jù)。這些數(shù)據(jù)寶貴,且難以重復(fù)獲取。

為避免HPC存儲可靠性問題隨規(guī)模增長而加劇,存儲應(yīng)具備自動從故障中恢復(fù)的能力,排除單點故障。同時,人工調(diào)優(yōu)耗時、復(fù)雜且容易出錯,存儲系統(tǒng)需要具備自我調(diào)優(yōu)能力,系統(tǒng)一旦經(jīng)過調(diào)優(yōu),就可以優(yōu)化絕大多數(shù)HPC應(yīng)用的性能,而不需要隨著工作負(fù)載的變化而重新進行調(diào)整。

在服務(wù)器、網(wǎng)絡(luò)技術(shù)日趨同質(zhì)化的今天,存儲已經(jīng)成為構(gòu)建HPC平臺差異化競爭力的關(guān)鍵。作為HPC的數(shù)據(jù)底座,未來誰先解決這四大難題,誰就能在HPC存儲產(chǎn)業(yè)的下一波浪潮中,占據(jù)先機,并且加速推進HPC產(chǎn)業(yè)邁向新高度。

來源:網(wǎng)絡(luò)

分享到

xiesc

相關(guān)推薦