對此,西云算力CTO梁峰表示,在AI發(fā)展的現(xiàn)階段,更大的模型依然是驅動AI生態(tài)的基石,而更大的參數(shù)、算力和數(shù)據(jù)是關鍵因素。我們需要更大的集群能力,從千卡走向萬卡甚至更大,堅定致力于為大模型公司提供最佳集群服務,并在能源、算力和網絡方面持續(xù)優(yōu)化,面向應用,構建高效、綠色、安全的算力平臺,滿足各類應用的需求。
此外與英偉達類似,我們還要關注AI應用生態(tài)。西云算力在RAG和Agent方面加大研究投入,提高應用開發(fā)在平臺上的質量和效率,提供更好的工具鏈支持。另一方面還關注小型MoE模型的發(fā)展,為應用場景的推理提供更具性價比的算力方案。
西云算力正式推出丹摩智算平臺
2024年4月,西云算力正式推出了丹摩智算平臺,面向應用,打造全系列全場景的智算基礎設施。它不僅支持大模型的高效訓練,實現(xiàn)分鐘級斷點續(xù)訓,而且在并行效率上也進行了深度優(yōu)化,確保開發(fā)者可以在一個高度集成的環(huán)境中構建、測試和部署AI模型。
丹摩智算平臺通過西云智渲、西云智訓和西云智推三大核心組件,為各種專業(yè)場景提供強大高效的服務支持提供一站式服務。這些組件協(xié)同工作,支持AI項目從原型到生產的全生命周期。
其主要應用場景包括:
AI訓練。提供豐富的用于AI訓練的計算資源及訓練軟件,使得用戶可以快速構建、訓練和部署自己的人工智能模型。平臺支持 TensorFlow、PyTorch、Caffe等主流工具和框架,用戶可以根據(jù)具體需要選擇合適的工具來開發(fā)AI模型。
AI推理。平臺基于高性能算力集群為用戶AI推理服務提供強大的算力支持, 為AI推理服務的部署和發(fā)布提供便利的工具支持。具有針對AIGC、圖像識別、語音識別等多應用場景的解決方案。
高性能計算。專為AI、深度學習推出GPU云容器服務,提供專業(yè)、高效、經濟的 GPU加速云計算服務。無需復雜配置,快速接入強大的GPU資源,簡 化開發(fā)流程,即插即用。
圖像/視頻渲染。針對特效制作、影視動畫、建筑效果圖等場景的離線算力服務;通過高性能GPU服務器提供的實時渲染服務可用于直播渲染、游戲娛樂、 產品展示等場景。
通過丹摩智算平臺的發(fā)布,西云算力不僅強化了其在AI領域的技術領先地位,還為各行各業(yè)的企業(yè)提供強大的算力支持,使他們能夠更有效地利用AI技術推動業(yè)務發(fā)展和創(chuàng)新。
提升MFU,專注綠色節(jié)能
丹摩平臺的發(fā)布我認為有兩個點值得關注,一個是前面提到的最大限度降低能耗,另一個就是提升MFU(大模型浮點運算利用率)。
在綠色節(jié)能方面。西云算力在寧夏打造的智算中心是寧夏首個采用全自然風冷技術的30KW機柜人工智能數(shù)據(jù)中心(AIDC),建成于2023年12月,坐標中衛(wèi)市沙坡頭區(qū)。
該項目占地70畝,建筑面積近2.8萬平方米,包含三棟高規(guī)格自然風冷高密度機房,專業(yè)為支撐人工智能大模型產業(yè)的發(fā)展,構建綠色安全的算力基礎設施。西云算力還通過優(yōu)化選址和創(chuàng)新制冷、變配電技術,實現(xiàn)了綠色低碳和PUE、WUE的極致優(yōu)化,這是西云算力在實踐中的綠色節(jié)能。
另外就是大模型的訓練與推理場景,大模型開源加速了應用端以推理能力為中心的需求。在2024AIGC創(chuàng)新創(chuàng)業(yè)新趨勢專場技術沙龍上,算力專家黃新平在演講中稱訓練階段是建立模型的基礎,我們可以用訓練建立整個AI生態(tài),這種從源頭開始建立的生態(tài)可以確保數(shù)據(jù)的私密性、模型的定制化和業(yè)務的獨立性。
推理是使用已訓練好的模型進行預測的過程,可以快速上市,快速響應市場需求,但會依賴于預訓練模型的提供者。
這讓人聯(lián)想起劉慈欣科幻小說《贍養(yǎng)上帝》中提到的人類文明與上帝文明的差異,“你們只要花上一個世紀的時間,就可以應用我們最基礎的知識部分了?!钡讓硬罹嗤枰蟮臅r間差去彌補,因此,在AI領域,雖然技術發(fā)展迅速,但能力的培養(yǎng)仍需從基礎做起。
對于AI訓練則要關注MFU的提升。西云算力CTO梁峰在DOIT采訪中表示
計算資源購買后,軟件優(yōu)化方面,特別是MFU(大模型浮點運算利用率)指標尤為重要。
MFU代表訓練過程中算力的整體利用率。以千張卡組成的集群為例,如果一個月的訓練中算力利用率僅為30%,則意味著大部分時間資源處于閑置狀態(tài)。如果提升至60%,要么可以訓練更大的模型,要么可以讓訓練時間減半,從而提升產品迭代速度并降低單位訓練成本。而且MFU對推理階段的性能和效率也有影響,高效的浮點運算可以加快單次推理的處理速度。
提升MFU的方法多種多樣,國內已有優(yōu)秀團隊進行相關研究。首先,算法層面的優(yōu)化是關鍵,如改進Transformer等基礎算法模型,提升張量并行、數(shù)據(jù)并行或pipeline并行的效率。
其次,通過算子層面的優(yōu)化來提升MFU,通過優(yōu)化底層算子或引入新命令,提高計算效率并契合芯片能力。此外,通信層面的優(yōu)化同樣重要,針對現(xiàn)有算法和訓練框架中的大數(shù)據(jù)量傳輸問題,可以優(yōu)化交換設備和網絡設備中的路由協(xié)議,以應對單體單次大流量的數(shù)據(jù)傳輸,避免網絡擁堵導致的算力閑置。
第三、第四則聚焦整體運營與容災。在千卡乃至萬卡的大規(guī)模集群中,長期訓練過程中難免會出現(xiàn)設備單點故障,尤其是復雜的GPU設備。單點故障對集群訓練的影響顯著,可能導致整個集群訓練停止。修復故障無論耗時多久,都會降低算力利用率,造成資源浪費。
因此,我們需要在框架層面和維護層面探索規(guī)避或減少單點故障對集群影響的方法。一方面,提升故障自愈能力,提高MFU效率。另一方面,預測故障產生,通過經驗和AI預測能力,在預感到可能出現(xiàn)故障時提前規(guī)避,避免訓練中斷導致的效率下降。
這些問題正是制約我們算力利用率達到更高水平的瓶頸,特別是在大規(guī)模集群中,算力利用率往往只能達到50%左右。這也要求我們未來要進一步研究提升MFU的方法。
最后
西云算力的智算平臺發(fā)體現(xiàn)了一種前瞻性,不僅加強了其在技術上的領先地位,更為各行各業(yè)的企業(yè)開辟了利用AI技術進行創(chuàng)新的快速通道,這些企業(yè)得以在西云算力的幫助下,更有效地推動業(yè)務的發(fā)展和創(chuàng)新。在大模型和AI技術不斷進步的今天,這種平臺和服務的出現(xiàn)無疑為整個行業(yè)的發(fā)展注入了新的活力。