然而,設(shè)計(jì)高效的流水線并行算法方案仍然存在諸多挑戰(zhàn),例如深度學(xué)習(xí)模型各異,每層的訓(xùn)練時(shí)間也不相同,因此難以找到最優(yōu)的模型切分部署方案;當(dāng)前的流水線并行算法局限于同質(zhì)化的GPU間網(wǎng)絡(luò)拓?fù)洌F(xiàn)實(shí)機(jī)器學(xué)習(xí)集群具有復(fù)雜的混合GPU間網(wǎng)絡(luò)拓?fù)洌ɡ纾瑔蝹€(gè)機(jī)器上的GPU可以通過(guò)PCIe或者NVLink連接,跨機(jī)通信可以基于TCP或者RDMA),導(dǎo)致現(xiàn)有方案無(wú)法使用等,以上問(wèn)題導(dǎo)致實(shí)際訓(xùn)練中的GPU使用效率低。
針對(duì)以上難點(diǎn),團(tuán)隊(duì)提出了一個(gè)近似最優(yōu)的同步流水線并行訓(xùn)練算法。算法由三個(gè)主要模塊構(gòu)成:
1) 一個(gè)基于遞歸最小割的GPU排序算法,通過(guò)分析GPU間網(wǎng)絡(luò)拓?fù)浯_定GPU的模型部署順序,保證最大化利用GPU間帶寬;
2) 一個(gè)基于動(dòng)態(tài)規(guī)劃的模型切分部署算法,高效率找到最優(yōu)的模型分割與部署方案,平衡模型在每個(gè)GPU上的運(yùn)算時(shí)間與模型切片間的通信時(shí)間;
3) 一個(gè)近似最優(yōu)的列表排序算法,決策每個(gè)微批量在各個(gè)GPU上的執(zhí)行順序,最小化模型的訓(xùn)練時(shí)間。
從理論上對(duì)算法做出詳盡分析,給出了算法的最壞情況保證。同時(shí),在測(cè)試集群中實(shí)驗(yàn)證明團(tuán)隊(duì)的算法相對(duì)PipeDream,可以取得最高157%的訓(xùn)練加速比。
INFOCOM是計(jì)算機(jī)網(wǎng)絡(luò)三大頂級(jí)國(guó)際會(huì)議之一,涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域的各個(gè)方面,在國(guó)際上享有盛譽(yù)且有廣泛的學(xué)術(shù)影響力。此次入選意味著阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI在分布式深度學(xué)習(xí)模型訓(xùn)練優(yōu)化領(lǐng)域的工作獲得國(guó)際學(xué)界的廣泛認(rèn)可,進(jìn)一步彰顯了中國(guó)在分布式機(jī)器學(xué)習(xí)系統(tǒng)領(lǐng)域有著核心競(jìng)爭(zhēng)力。
阿里云機(jī)器學(xué)習(xí)PAI是面向企業(yè)及開(kāi)發(fā)者,提供輕量化、高性價(jià)比的云原生機(jī)器學(xué)習(xí)平臺(tái),一站式的機(jī)器學(xué)習(xí)解決方案,全面提升機(jī)器學(xué)習(xí)工程效率。