在2025全球閃存峰會(huì)期間召開的“AI智能體與行業(yè)應(yīng)用”分論壇上,北京并行科技股份有限公司高級(jí)方案架構(gòu)師張小瓊基于用戶視角,對(duì)算力服務(wù)與算力網(wǎng)服務(wù)的實(shí)踐路徑展開了系統(tǒng)性闡述,為行業(yè)發(fā)展提供了重要參考。
算力服務(wù)的發(fā)展背景與行業(yè)現(xiàn)狀
算力需求的爆發(fā)并非偶然,而是技術(shù)革命與產(chǎn)業(yè)升級(jí)的必然結(jié)果。從應(yīng)用層面看,AI大模型的參數(shù)規(guī)模從百億級(jí)躍升至千億級(jí),訓(xùn)練一次需消耗數(shù)萬卡時(shí);工業(yè)仿真領(lǐng)域,車企的碰撞測(cè)試、氣動(dòng)分析需每秒數(shù)十億次的計(jì)算支撐;生命科學(xué)中,基因測(cè)序的數(shù)據(jù)處理量年均增長(zhǎng)50%,這些場(chǎng)景共同構(gòu)成了算力需求的“剛需池”。
IDC數(shù)據(jù)顯示,2021至2026年,中國(guó)智能算力規(guī)模的復(fù)合增長(zhǎng)率將達(dá)52.3%,到2026年將突破1271.4 EFLOPS,而通用算力的復(fù)合增長(zhǎng)率為18.5%,呈現(xiàn)出“智算領(lǐng)跑、通用跟進(jìn)”的格局。
面對(duì)激增的需求,不同類型的算力供應(yīng)商采取了差異化策略。國(guó)家超算中心聚焦尖端科研,服務(wù)于探月工程、氣象模擬等“國(guó)之重器”項(xiàng)目;云計(jì)算廠商則通過規(guī)?;渴穑瑵M足中小企業(yè)的通用算力需求;而并行科技等專業(yè)服務(wù)商則另辟蹊徑,以用戶視角重構(gòu)服務(wù)邏輯,將算力從“資源租賃”升級(jí)為“全流程服務(wù)”。這種轉(zhuǎn)型的核心在于,用戶需要的不僅是硬件資源,更是“能完成計(jì)算、能快速計(jì)算、能低成本計(jì)算”的解決方案——這也成為算力服務(wù)行業(yè)的發(fā)展共識(shí)。
值得注意的是,算力的本質(zhì)并非傳統(tǒng)意義上的資源業(yè),而是服務(wù)業(yè)。正如并行科技所提出的,早期的算力租賃類似“租車”,用戶需自行承擔(dān)閑置風(fēng)險(xiǎn);而成熟的算力服務(wù)則像“專車”,不僅提供硬件,還包含調(diào)試、優(yōu)化等增值服務(wù)。這種定位轉(zhuǎn)變,推動(dòng)行業(yè)從“賣資源”向“賣服務(wù)”轉(zhuǎn)型。
智算用戶需求的精準(zhǔn)滿足路徑
面向智算用戶的多元化需求,并行科技構(gòu)建了以“應(yīng)用運(yùn)行特征”為核心的服務(wù)體系,其關(guān)鍵在于解決三個(gè)問題:如何讓不同芯片適配應(yīng)用、如何通過實(shí)證增強(qiáng)信心、如何通過方法論實(shí)現(xiàn)降本增效。
智算芯片的生態(tài)適配存在顯著差異。英偉達(dá)憑借成熟的軟件棧,在移植、調(diào)試、優(yōu)化等環(huán)節(jié)的工作量最??;國(guó)產(chǎn)芯片如昇騰、海光雖在硬件性能上追趕迅速,但生態(tài)適配需投入更多精力——從“跑起來”到“跑得快”,再到“跑得劃算”,每個(gè)階段的工作量呈階梯式增長(zhǎng)。并行科技通過建立跨芯片測(cè)試矩陣,幫助用戶選擇最優(yōu)方案:例如某AI企業(yè)的推理場(chǎng)景,在4090與5090的對(duì)比中,后者性能提升1.5倍,性價(jià)比提高1.4倍,最終選擇5090實(shí)現(xiàn)成本優(yōu)化。
為增強(qiáng)用戶信心,并行科技以真實(shí)場(chǎng)景的優(yōu)化結(jié)果為依據(jù)。例如某1300億參數(shù)模型訓(xùn)練,優(yōu)化前GPU利用率僅75%,節(jié)點(diǎn)間通信帶寬未達(dá)瓶頸,存在明顯優(yōu)化空間。通過調(diào)整CPU負(fù)載分配、優(yōu)化GPU算子調(diào)度,最終GPU利用率提升至95%,性能提高40%,相當(dāng)于節(jié)省40%的成本。類似案例還包括B200與H200的對(duì)比:在13B Llama模型訓(xùn)練中,B200性能達(dá)H200的2.62倍,雖價(jià)格更高,但綜合性價(jià)比反而更優(yōu)。
超算應(yīng)用運(yùn)行特征方法論是服務(wù)的核心工具。該方法通過采集GPU利用率、顯存帶寬、NVLink通信等20余項(xiàng)指標(biāo),繪制“應(yīng)用運(yùn)行特征雷達(dá)圖”,快速定位瓶頸類型(計(jì)算密集型、訪存密集型等),再針對(duì)性優(yōu)化。目前已覆蓋計(jì)算化學(xué)、環(huán)境科學(xué)、影視動(dòng)漫等10余個(gè)行業(yè),形成可復(fù)用的“行業(yè)特征圖譜”。例如在工業(yè)仿真中,ANSYS應(yīng)用的瓶頸在于內(nèi)存帶寬,通過升級(jí)DDR5內(nèi)存,計(jì)算效率提升30%。
ParaSelect服務(wù):算力選型的智能解決方案
ParaSelect服務(wù)是并行科技基于應(yīng)用運(yùn)行特征的精準(zhǔn)選型工具,其核心價(jià)值在于讓用戶“用對(duì)算力、用好算力”。該服務(wù)通過四步流程實(shí)現(xiàn)閉環(huán):首先明確應(yīng)用場(chǎng)景(訓(xùn)練/推理、模型參數(shù)、精度要求等);其次采集關(guān)鍵特征(Tensor Core利用率、PCIe帶寬等);再通過回歸模型預(yù)測(cè)性能,誤差率可低至1.9%;最后輸出最高性能與最高性價(jià)比方案。
以某10B模型訓(xùn)練為例,ParaSelect預(yù)測(cè)其在H20平臺(tái)的性能為21.56 samples/s,實(shí)測(cè)值為21.2 samples/s,誤差僅1.7%。這種高精度預(yù)測(cè)源于特征設(shè)計(jì)的科學(xué)性——選取Tensor Core算力、顯存帶寬等4個(gè)核心參數(shù),通過均方根誤差最小化訓(xùn)練權(quán)重系數(shù),確保不同平臺(tái)的性能可比。
基于ParaSelect,并行科技打造了“算力買手模式”。該模式整合全國(guó)17個(gè)智算中心、12個(gè)超算中心的資源(2萬卡GPU、200萬核CPU),像“滴滴調(diào)度車輛”一樣匹配算力。用戶只需提供應(yīng)用描述,系統(tǒng)便會(huì)自動(dòng)推薦方案:例如千級(jí)卡訓(xùn)練需求,匹配某智算中心的B200集群,測(cè)試通過后直接調(diào)度資源;中小規(guī)模推理則推薦5090集群,平衡性能與成本。這種模式解決了用戶“找資源難、選資源盲”的痛點(diǎn),實(shí)現(xiàn)算力的“按需分配、即取即用”。
發(fā)展歷程與未來愿景
憑借18年的技術(shù)積累,并行科技在中國(guó)高性能計(jì)算市場(chǎng)已形成獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)沙利文報(bào)告,2021年并行科技在通用超算云業(yè)務(wù)的市場(chǎng)份額達(dá)20.3%,位列獨(dú)立服務(wù)商第一,服務(wù)覆蓋高校、科研院所、企業(yè)等全類型客戶,構(gòu)建了從“尖端科研”到“產(chǎn)業(yè)應(yīng)用”的全場(chǎng)景服務(wù)能力。
并行科技成立于2007年,十八年來專注于超算與智算服務(wù),2023年在北交所上市(股票代碼:BJ839493),是國(guó)家級(jí)專精特新“小巨人”企業(yè)。公司愿景是“助力科技強(qiáng)國(guó),讓計(jì)算更簡(jiǎn)單”。這一愿景的核心在于“普惠算力”——通過算力網(wǎng)整合分散資源,降低科研與企業(yè)的計(jì)算門檻。
從超算到智算,從資源到服務(wù),并行科技以用戶視角重新定義了算力服務(wù)的內(nèi)涵。在數(shù)字經(jīng)濟(jì)加速演進(jìn)的今天,這種“以用為核心”的理念,或許正是破解算力供需矛盾的關(guān)鍵所在。