“2025人工智能基礎(chǔ)設(shè)施峰會(huì)”會(huì)場(chǎng)

在下午召開的數(shù)據(jù)智能技術(shù)應(yīng)用論壇上,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、博士生導(dǎo)師,國(guó)家級(jí)青年人才、國(guó)家重點(diǎn)研發(fā)計(jì)劃首席科學(xué)家、CCF體系結(jié)構(gòu)專委會(huì)常委,上海市計(jì)算機(jī)學(xué)會(huì)存儲(chǔ)專委會(huì)主任吳晨濤發(fā)表主題為“面向大模型應(yīng)用的內(nèi)存故障容錯(cuò)技術(shù)”的精彩報(bào)告,從內(nèi)存故障預(yù)測(cè)與檢查點(diǎn)等技術(shù)入手,介紹他和他的已經(jīng)研究團(tuán)隊(duì)如何通過(guò)主被動(dòng)容錯(cuò)方法,保障大模型系統(tǒng)的可靠性。發(fā)表主題為“面向大模型應(yīng)用的內(nèi)存故障容錯(cuò)技術(shù)”的精彩報(bào)告,從內(nèi)存故障預(yù)測(cè)與檢查點(diǎn)等技術(shù)入手,介紹他和他的已經(jīng)研究團(tuán)隊(duì)如何通過(guò)主被動(dòng)容錯(cuò)方法,保障大模型系統(tǒng)的可靠性。

數(shù)據(jù)智能技術(shù)應(yīng)用分論壇現(xiàn)場(chǎng)

以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。

上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、博士生導(dǎo)師,國(guó)家級(jí)青年人才、國(guó)家重點(diǎn)研發(fā)計(jì)劃首席科學(xué)家、CCF體系結(jié)構(gòu)專委會(huì)常委,上海市計(jì)算機(jī)學(xué)會(huì)存儲(chǔ)專委會(huì)主任吳晨濤

吳晨濤:

大家好,我是來(lái)自上海交通大學(xué)的吳晨濤。今天,我將圍繞“面向大模型應(yīng)用的內(nèi)存故障容錯(cuò)技術(shù)”這一主題,與大家分享我們?cè)趦?nèi)存故障預(yù)測(cè)與容錯(cuò)技術(shù)方面的最新研究成果。

研究背景與發(fā)現(xiàn)

隨著云計(jì)算、大數(shù)據(jù)等系統(tǒng)的快速擴(kuò)展和規(guī)模日益增大,內(nèi)存系統(tǒng)的可靠性已成為影響整個(gè)系統(tǒng)運(yùn)行的重要因素。京東云的調(diào)查表明,內(nèi)存故障占數(shù)據(jù)中心硬件故障的37%。在AIGC算力快速部署的當(dāng)下,內(nèi)存可靠性面臨著更為嚴(yán)峻的挑戰(zhàn)。

在大模型訓(xùn)練中,內(nèi)存故障問(wèn)題尤為突出。以Meta公司為例,其利用992張A100集群訓(xùn)練175B參數(shù)模型,在3個(gè)月的訓(xùn)練時(shí)長(zhǎng)中,系統(tǒng)重啟超過(guò)100次,最長(zhǎng)穩(wěn)定運(yùn)行時(shí)間僅為2.8天,最長(zhǎng)中斷達(dá)2天,平均中斷時(shí)長(zhǎng)12小時(shí),其中硬件故障占50%。若以ETTR(有效訓(xùn)練時(shí)間比率)衡量,GPU越多,ETTR值越低,萬(wàn)卡集群平均有效運(yùn)行時(shí)間僅占正常時(shí)間的70%。隨著DeepSeek等大模型應(yīng)用的廣泛使用,內(nèi)存可靠性的挑戰(zhàn)只會(huì)增多,不會(huì)減少。

內(nèi)存故障預(yù)測(cè)

內(nèi)存故障預(yù)測(cè)是智能運(yùn)維系統(tǒng)(AIOps)的重要組成部分,谷歌、微軟、華為、阿里等公司均致力于發(fā)展內(nèi)存故障預(yù)測(cè)技術(shù)。內(nèi)存故障模式多樣,包括單點(diǎn)錯(cuò)誤模式、行錯(cuò)誤模式、列錯(cuò)誤模式和無(wú)序錯(cuò)誤模式等。內(nèi)存一般配有ECC編碼,若錯(cuò)誤在編碼容忍范圍內(nèi),可糾正回來(lái),稱為CE(CorrectableError);若錯(cuò)誤超出編碼容錯(cuò)能力,則稱為UC/UCE(UncorrectableError)。

內(nèi)存故障模式種類繁多,故障原因多樣,給故障預(yù)測(cè)帶來(lái)了很大難度。我們與華為合作,從row、col、bank三個(gè)維度進(jìn)行三維空間分析,針對(duì)發(fā)生故障的所有內(nèi)存單元進(jìn)行跟蹤,分析三維模型。以24小時(shí)為周期劃分每個(gè)bank力度上的UE和CE信息,觀察其時(shí)間規(guī)律,并以紅、藍(lán)、綠三色進(jìn)行標(biāo)注,發(fā)現(xiàn)row、column、bank這三個(gè)維度的內(nèi)存故障均呈現(xiàn)非常明顯的時(shí)間和空間局部性。

影響內(nèi)存故障的主要因素包括DIMM架構(gòu)、DRAM光刻疊層工藝、系統(tǒng)負(fù)載和平臺(tái)架構(gòu)等。內(nèi)存故障與內(nèi)存介質(zhì)、內(nèi)存訪問(wèn)特性相關(guān)度極高,且內(nèi)存對(duì)延遲要求極為敏感,因此對(duì)故障預(yù)測(cè)的要求更高。

基于以上分析,我們與華為合作,針對(duì)大規(guī)模華為云集群環(huán)境中的內(nèi)存故障預(yù)測(cè)展開研究。通過(guò)對(duì)12萬(wàn)臺(tái)服務(wù)器、近200萬(wàn)條內(nèi)存故障日志的分析,我們發(fā)現(xiàn)不同架構(gòu)平臺(tái)的內(nèi)存故障特性存在顯著差異。例如,在x86架構(gòu)的服務(wù)器中,只發(fā)生UE的內(nèi)存比例約為11%,而在Arm架構(gòu)下則僅為4%,約為x86的1/3。進(jìn)一步研究發(fā)現(xiàn),Arm服務(wù)器在ECC編碼中保留了更多的奇偶校驗(yàn)位,使得其在4bit位寬時(shí)能達(dá)到Chipkill級(jí)性能,但在8bit位寬時(shí)難以應(yīng)對(duì)大量錯(cuò)誤,導(dǎo)致錯(cuò)誤率急劇上升。

此外,我們還分析了內(nèi)存故障的可預(yù)測(cè)性。研究發(fā)現(xiàn),Arm架構(gòu)在較短提前時(shí)間(如6小時(shí))內(nèi),可預(yù)測(cè)UE的生存函數(shù)概率值略高于x86服務(wù)器,但在較長(zhǎng)提前時(shí)間(如24小時(shí))內(nèi),x86架構(gòu)表現(xiàn)出更高比例的可預(yù)測(cè)UE。同時(shí),x86和Arm平臺(tái)之間CE與UE的關(guān)系也存在差異,x86服務(wù)器在出現(xiàn)不可糾正錯(cuò)誤前,通常會(huì)有大量可糾正錯(cuò)誤,而Arm服務(wù)器則表現(xiàn)不一致,這可能與其風(fēng)暴抑制功能有關(guān),該功能雖然增強(qiáng)了系統(tǒng)穩(wěn)定性,卻減少了用于故障預(yù)測(cè)的錯(cuò)誤數(shù)據(jù)量。

針對(duì)內(nèi)存故障成因復(fù)雜的特點(diǎn),我們采用了特征工程方法,兼顧時(shí)間局部性、空間局部性等多方面特征,包括靜態(tài)特征、空間特征、時(shí)間特征、類型特征、故障位特征等,構(gòu)建了統(tǒng)一的針對(duì)大規(guī)模異構(gòu)集群的內(nèi)存故障預(yù)測(cè)與分級(jí)容錯(cuò)架構(gòu)。該架構(gòu)從DIMM級(jí)、服務(wù)器級(jí)、頁(yè)面級(jí)、行級(jí)分別進(jìn)行粗粒度和細(xì)粒度的故障預(yù)測(cè),并針對(duì)故障預(yù)測(cè)結(jié)果設(shè)計(jì)了相應(yīng)的容錯(cuò)機(jī)制:一是針對(duì)服務(wù)器的虛擬機(jī)或容器進(jìn)行熱遷移;二是對(duì)對(duì)應(yīng)內(nèi)存的頁(yè)面進(jìn)行軟下線;三是對(duì)風(fēng)險(xiǎn)區(qū)域進(jìn)行數(shù)據(jù)保護(hù)和降級(jí)使用。

實(shí)驗(yàn)結(jié)果

我們?cè)谙到y(tǒng)中提供了針對(duì)DIMM級(jí)以及行級(jí)、頁(yè)級(jí)雙視角的內(nèi)存故障預(yù)測(cè)方法,結(jié)合XGBoost等算法,取得了較好的效果。在x86平臺(tái),實(shí)現(xiàn)了51%的精準(zhǔn)率和81%的覆蓋率;而在Arm平臺(tái),由于其風(fēng)暴抑制和奇偶校驗(yàn)位等功能導(dǎo)致缺少細(xì)粒度故障信息,內(nèi)存故障預(yù)測(cè)性能相對(duì)較低。

進(jìn)一步的實(shí)驗(yàn)分析了不同提前時(shí)間下預(yù)測(cè)性能的變化,發(fā)現(xiàn)無(wú)論是提前1秒、5秒、1分鐘、5分鐘、1小時(shí)還是6小時(shí)等,均能達(dá)到一定的預(yù)測(cè)效果。這些成果已在華為云中進(jìn)行了部分落地應(yīng)用。

針對(duì)x86和Arm架構(gòu)的差異,我們測(cè)試了不同因素對(duì)這兩個(gè)平臺(tái)內(nèi)存故障預(yù)測(cè)性能的影響。在x86架構(gòu)中,bitlevel的CE特征占主導(dǎo)地位,去除該特征會(huì)導(dǎo)致性能顯著下降;而在Arm架構(gòu)中,靜態(tài)特征、局部特征和空間特征等對(duì)預(yù)測(cè)性能均有不同程度的影響,其中空間特征的影響最大。整體而言,在Arm架構(gòu)上進(jìn)行內(nèi)存故障預(yù)測(cè)更具挑戰(zhàn)性。

我們將容錯(cuò)機(jī)制在華為云集群中進(jìn)行了大規(guī)模部署,取得了顯著收益。部署后,平均降低了上層虛擬機(jī)業(yè)務(wù)故障率27%;采用第二級(jí)容錯(cuò)時(shí),可多避免110.6%的內(nèi)存UE,但開銷僅為L(zhǎng)inux內(nèi)存默認(rèn)方案的92.4%;在集群運(yùn)行過(guò)程中,共有15.6%的內(nèi)存容量被軟下線,通過(guò)三級(jí)容錯(cuò)策略,重新釋放了其中78.65%的容量,剩余11.68%的重復(fù)出現(xiàn)UE的區(qū)域,皆被TierIII恢復(fù)數(shù)據(jù),避免了OS進(jìn)程掛死。

總結(jié)與展望

我們針對(duì)內(nèi)存故障預(yù)測(cè)問(wèn)題開展了深入研究,特別是針對(duì)大規(guī)模集群的硬件故障,通過(guò)特征工程方法構(gòu)建了DIMM/行列級(jí)分級(jí)容錯(cuò)機(jī)制,有效降低了上層虛擬機(jī)業(yè)務(wù)的故障率,保障了大規(guī)模系統(tǒng)的穩(wěn)定性,為AIGC技術(shù)的發(fā)展提供了有力支持。

未來(lái),我們將進(jìn)一步拓展研究方向。一方面,將故障預(yù)測(cè)與大模型的Checkpoint機(jī)制相結(jié)合,構(gòu)建主被動(dòng)分級(jí)容錯(cuò)技術(shù),以更好地保障AI應(yīng)用的可靠性;另一方面,深入研究存儲(chǔ)子系統(tǒng)容錯(cuò)技術(shù),探討DRAM、PM、SSD/HDD等設(shè)備故障之間的相關(guān)性,并進(jìn)一步探究?jī)?nèi)存故障對(duì)上層應(yīng)用業(yè)務(wù)的影響范圍。此外,隨著CXL等相關(guān)技術(shù)的實(shí)施,我們還將研究針對(duì)CXL-DRAM/PM等的故障預(yù)測(cè)技術(shù),為構(gòu)建大規(guī)模內(nèi)存池提供技術(shù)支持。

以上就是我的報(bào)告,謝謝大家!

分享到

xiesc

相關(guān)推薦