亚洲精品一区二区三区中文字幕 ,亚洲欧美v国产一区二区三区

圖1 Prefill micro-batch雙流并行

Weight預(yù)取雙流并行：

訪存、通信并行，性能提升10%+

在推理的Decode階段，權(quán)重（Weight）加載耗時(shí)較長(zhǎng)，主要原因是Weight需要頻繁訪問(wèn)高帶寬內(nèi)存（HBM），導(dǎo)致緩存帶寬開(kāi)銷(xiāo)較大。

針對(duì)該問(wèn)題，利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性，預(yù)取Weight并存儲(chǔ)到L2 Cache中，可以實(shí)現(xiàn)通信與Weight加載并行，從而加速后續(xù)的Cube運(yùn)算，顯著降低Weight加載時(shí)間，同時(shí)提升Matmul算子的性能，整網(wǎng)性能提升10%+。

圖2 Weight預(yù)取雙流并行

【使用方法】

以上優(yōu)化特性已在昇騰CANN最新版本中實(shí)現(xiàn)，歡迎大家配套MindIE使用、體驗(yàn)。CANN包安裝過(guò)程可參考社區(qū)文檔：https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/81RC1alpha001/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit

【昇騰未來(lái)演進(jìn)思考】

昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上多核并發(fā)能力，加速通信任務(wù)的下發(fā)和并發(fā)傳輸；同時(shí)，探索通信算子與其他計(jì)算算子更細(xì)粒度的通算融合，減少或掩蓋啟動(dòng)和傳輸?shù)拈_(kāi)銷(xiāo)，為更多的客戶(hù)、伙伴提供更強(qiáng)大的技術(shù)能力。

分享到

xiesc

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽