圖1 Prefill micro-batch雙流并行
02
Weight預(yù)取雙流并行:
訪存、通信并行,性能提升10%+
在推理的Decode階段,權(quán)重(Weight)加載耗時(shí)較長(zhǎng),主要原因是Weight需要頻繁訪問(wèn)高帶寬內(nèi)存(HBM),導(dǎo)致緩存帶寬開(kāi)銷(xiāo)較大。
針對(duì)該問(wèn)題,利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性,預(yù)取Weight并存儲(chǔ)到L2 Cache中,可以實(shí)現(xiàn)通信與Weight加載并行,從而加速后續(xù)的Cube運(yùn)算,顯著降低Weight加載時(shí)間,同時(shí)提升Matmul算子的性能,整網(wǎng)性能提升10%+。
圖2 Weight預(yù)取雙流并行
【使用方法】
以上優(yōu)化特性已在昇騰CANN最新版本中實(shí)現(xiàn),歡迎大家配套MindIE使用、體驗(yàn)。CANN包安裝過(guò)程可參考社區(qū)文檔:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/81RC1alpha001/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit
【昇騰未來(lái)演進(jìn)思考】
昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上多核并發(fā)能力,加速通信任務(wù)的下發(fā)和并發(fā)傳輸;同時(shí),探索通信算子與其他計(jì)算算子更細(xì)粒度的通算融合,減少或掩蓋啟動(dòng)和傳輸?shù)拈_(kāi)銷(xiāo),為更多的客戶(hù)、伙伴提供更強(qiáng)大的技術(shù)能力。