該成果聚焦通過算法優(yōu)化、架構(gòu)創(chuàng)新及軟硬件協(xié)同,減少對HBM的依賴。HBM作為AI計(jì)算核心組件,長期受海外技術(shù)壟斷和產(chǎn)能限制,華為的技術(shù)突破或緩解國內(nèi)AI產(chǎn)業(yè)供應(yīng)鏈壓力,降低算力成本。

文字編輯|宋雨涵

1

HBM芯片

萬億算力的內(nèi)存心臟

什么是HBM芯片?

HBM芯片,即High Bandwidth Memory的縮寫,意為高帶寬內(nèi)存芯片,是一種專為應(yīng)對數(shù)據(jù)密集型應(yīng)用對內(nèi)存帶寬的嚴(yán)苛需求而設(shè)計(jì)的新型存儲芯片,屬于DRAM(動態(tài)隨機(jī)存取存儲器)家族中的高端分支 。與傳統(tǒng)內(nèi)存芯片相比,HBM芯片最大的特點(diǎn)在于采用了先進(jìn)的3D堆疊技術(shù),通過硅通孔(TSV)將多個DRAM芯片垂直堆疊在一起,并與GPU或CPU等處理器封裝在同一模塊中,實(shí)現(xiàn)了大容量、高位寬的DDR組合陣列。

為什么HBM芯片這么重要?

從訓(xùn)練具備千億參數(shù)的Transformer模型,到部署實(shí)時推理的生成式AI應(yīng)用,算力需求正以指數(shù)級態(tài)勢迅猛增長。據(jù)IDC預(yù)測,到2025年,中國智能算力規(guī)模將達(dá)到1037.3 EFLOPS,同比增長43%。然而,傳統(tǒng)“存儲墻”問題——即存儲系統(tǒng)性能限制導(dǎo)致計(jì)算機(jī)整體性能無法有效提升的現(xiàn)象,正成為算力提升的重大瓶頸。具體表現(xiàn)為,數(shù)據(jù)在存儲器與處理器之間的傳輸速度遠(yuǎn)低于計(jì)算速度,進(jìn)而導(dǎo)致能效比低下。

在此形勢下,高帶寬存儲器(HBM)與先進(jìn)封裝技術(shù)成為突破瓶頸的關(guān)鍵所在。HBM借助3D堆疊與硅通孔(TSV)技術(shù),實(shí)現(xiàn)了單顆帶寬超過1TB/s,相比傳統(tǒng)GDDR6提升了5倍之多;而臺積電的CoWoS、英特爾的EMIB等先進(jìn)封裝技術(shù),則通過異構(gòu)集成方式,將CPU、GPU、NPU等芯片整合為“超級芯片”,有效突破了單芯片面積與功耗的限制。這兩項(xiàng)技術(shù)共同構(gòu)成了AI算力革命的“隱形戰(zhàn)場”,其發(fā)展不僅關(guān)乎技術(shù)路線的競爭,更牽涉到地緣政治與產(chǎn)業(yè)鏈話語權(quán)的激烈爭奪。

2

技術(shù)命脈:

HBM在核心領(lǐng)域的應(yīng)用實(shí)踐

1

高性能計(jì)算:加速科學(xué)發(fā)現(xiàn)

在氣候模擬、基因測序等HPC場景中,HBM的高帶寬特性使數(shù)據(jù)處理效率提升3-5倍。例如,英偉達(dá)H100 GPU搭載HBM3E內(nèi)存,可實(shí)現(xiàn)每秒4TB的內(nèi)存帶寬,使分子動力學(xué)模擬速度提升一個數(shù)量級。SK海力士預(yù)測,到2030年,HPC領(lǐng)域?qū)BM的需求將以年均30%的速度增長,成為推動HBM市場擴(kuò)張的核心動力。

2

人工智能與機(jī)器學(xué)習(xí):賦能大模型訓(xùn)練

深度學(xué)習(xí)訓(xùn)練對內(nèi)存帶寬和容量的需求呈指數(shù)級增長。以GPT-4為例,其1.8萬億參數(shù)需要TB級內(nèi)存支持。HBM4通過提供每堆棧1.5TB/s的帶寬,使AI加速器能夠?qū)崟r處理海量數(shù)據(jù),將訓(xùn)練周期從數(shù)月縮短至數(shù)周。谷歌TPU v5e采用HBM3技術(shù),使推薦系統(tǒng)模型推理延遲降低60%,顯著提升用戶體驗(yàn)。

3

數(shù)據(jù)中心與云計(jì)算:重構(gòu)能效比

隨著東數(shù)西算工程推進(jìn),數(shù)據(jù)中心對PUE(電源使用效率)的要求日益嚴(yán)苛。HBM的低功耗特性使其成為降低數(shù)據(jù)中心TCO(總擁有成本)的關(guān)鍵技術(shù)。英特爾Sapphire Rapids處理器集成HBM2E內(nèi)存,使內(nèi)存子系統(tǒng)功耗占比從25%降至15%,同時將每瓦特性能提升40%。這種能效優(yōu)勢使HBM在邊緣計(jì)算、實(shí)時分析等場景中具有不可替代性。

三、UCM推理創(chuàng)新技術(shù)降低對HBM依賴

在今天的2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)。作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時延的推理體驗(yàn),降低每Token推理成本。

據(jù)悉,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實(shí)現(xiàn)按需流動,同時融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2至22倍,從而降低每個Token的推理成本。

選擇金融領(lǐng)域作為發(fā)布場景,因金融行業(yè)對AI推理的實(shí)時性、穩(wěn)定性和安全性要求極高(如高頻交易、智能風(fēng)控)。華為此次成果已通過金融級嚴(yán)苛場景驗(yàn)證,未來可向醫(yī)療、工業(yè)、智慧城市等領(lǐng)域輻射,加速AI推理技術(shù)規(guī)?;涞亍HA為此次攜手中國銀聯(lián)共同發(fā)布AI推理的最新應(yīng)用成果,共同探索AI推理技術(shù)在金融領(lǐng)域的規(guī)模化落地路徑。

該技術(shù)突破將推動昇騰AI芯片、CANN異構(gòu)計(jì)算框架等核心生態(tài)組件的應(yīng)用,利好昇騰服務(wù)器代工、算力調(diào)度、垂直行業(yè)解決方案等產(chǎn)業(yè)鏈環(huán)節(jié),并促進(jìn)金融、政務(wù)、醫(yī)療等場景的AI商業(yè)化進(jìn)程。

為何能夠降低AI訓(xùn)推對HBM的依賴?

以存代算”技術(shù)核心解析:該技術(shù)通過將AI推理所需的矢量數(shù)據(jù)從DRAM內(nèi)存遷移至SSD閃存介質(zhì),以此優(yōu)化計(jì)算效率。其核心價(jià)值在于緩解先進(jìn)制程的限制(例如華為受7nm制程制約)、降低對HBM/GPU的過度依賴,并實(shí)現(xiàn)“存算一體”系統(tǒng)創(chuàng)新。該技術(shù)的本質(zhì)是存儲層的擴(kuò)展(從內(nèi)存擴(kuò)展到SSD),而非替代DRAM。

全球“以存代算”產(chǎn)業(yè)趨勢:這并非華為獨(dú)有的技術(shù),日本鎧俠正在推進(jìn)SSD賦能AI推理,美光推出了AI-SSD產(chǎn)品線,英偉達(dá)等巨頭也在同步布局。華為由于受到美國制裁,無法突破先進(jìn)制程,因此轉(zhuǎn)向系統(tǒng)級創(chuàng)新,這是其布局該技術(shù)的特殊動因。

華為“以存代算”硬件突破:華為采用DOB封裝技術(shù),突破了傳統(tǒng)16層的限制,實(shí)現(xiàn)了24/36層堆疊,單顆芯片容量達(dá)到36TB;推出了palm-SSD產(chǎn)品,2024年容量為128TB(巴掌大?。?025年將升級至256TB(密度較普通硬盤高1000倍)。其核心技術(shù)支撐包括采用長江存儲232層3D NAND顆粒(單顆粒1TB),以及在PCB板上集成8顆36TB或10顆24TB芯片。

華為關(guān)鍵芯片創(chuàng)新:SSD主控芯片負(fù)責(zé)數(shù)據(jù)尋址調(diào)度(類比電影院座位分配),解決了閃存顆粒讀寫不均導(dǎo)致的性能衰減問題。華為采用海思自研的Hi1812/Hi1822系列主控芯片,技術(shù)突破點(diǎn)在于維持長期讀寫速度(從物理層限制轉(zhuǎn)為數(shù)學(xué)優(yōu)化),并通過均衡磨損算法延長SSD壽命。

以存代算”核心邏輯與前景:該技術(shù)的哲學(xué)理念是“存即是算”(記憶能力是智能的組成部分),2024華為存儲精英大會已發(fā)布了相關(guān)技術(shù)路線,東北電子團(tuán)隊(duì)已連續(xù)兩年深度追蹤。在市場空間方面,AI推理需要非易失存儲來保存中間過程,2025華為全聯(lián)接大會將重點(diǎn)推廣此技術(shù)。華為AI的三大方向包括昇騰芯片、大規(guī)模組網(wǎng)、存儲賦能,AI推理帶動的SSD需求將持續(xù)超越傳統(tǒng)存儲的增長曲線。

結(jié)語:

這場博弈也揭示了一個顛覆性邏輯:存儲正在成為新的算力戰(zhàn)場。華為以“存即是算”的技術(shù)哲學(xué),通過系統(tǒng)級創(chuàng)新繞開制程限制,將存儲劣勢轉(zhuǎn)化為架構(gòu)優(yōu)勢。

分享到

lixiangjing

算力豹主編

相關(guān)推薦