阿里云彈性計算產品線負責人、阿里云無影產品線負責人 張獻濤

eRDMA能力可用于包括HPC、AI、數據庫、大數據等多個場景,將RDMA變成一種通用的網絡基礎設施。

阿里云彈性計算產品總監(jiān) 王志坤

隨后,在與阿里云彈性計算產品線負責人張獻濤和阿里云彈性計算產品總監(jiān)王志坤兩位負責人的采訪中,我發(fā)現了阿里云在基礎設施層面有許多值得稱道的地方。

為什么現在推出了eRDMA技術?

熟悉基礎架構的朋友都了解,RDMA不是什么新鮮的技術,只是現在對于RDMA的低延遲和高性能表現有了更迫切的需求。

說來也簡單,只要計算集群的網絡規(guī)模不斷提升,節(jié)點之間數據交互的效率會受影響,節(jié)點和節(jié)點之間的訪問延時會加劇,反映到應用上,會對業(yè)務應用的實時性帶來制約,長此以往,這顯然是無法接受的。

張獻濤在采訪中表示,對于大數據、AI以及高性能計算場景時,傳統的TCP/IP也大致上能滿足需求,只不過整體的通信效率會比較低,而隨著微服務、服務網格、Serverless等新型計算模式的流行,頻繁出現的RPC的調用對網絡通信延遲的要求也都越來越高。

eRDMA是什么?

eRDMA(e代表Elastic彈性)依托于阿里云的神龍架構MoC卡,結合通用的服務器以及交換機,再加上私有的協議來實現RDMA,由于替代了專用網絡交換機和網卡設備,所以,成本親民。

從張獻濤的介紹中了解到,用戶無需為eRDMA付出太多額外成本,eRDMA的出現更像是阿里云為所有用戶提供的一項福利,而這項福利將把原本高冷的RDMA變成一項普惠的服務。

眾所周知,傳統的RDMA對傳輸的可靠性要求很高,對網絡丟包非常敏感。有測試數據顯示,大于0.001的丟包率,RDMA網絡有效吞吐急劇下降,0.01的丟包率就會使RDMA吞吐率下降為0,所以,RDMA需要的是高可靠的網絡,最好是零丟包的那種。

因此,需要克服的技術挑戰(zhàn)還是挺多的。技術實現上,阿里云的eRDMA采用了自研的擁塞控制(CC)算法,可以容忍VPC網絡中的傳輸質量變化(延遲、丟包等),在有損的網絡環(huán)境中依然擁有良好的性能表現。

雖然TCP/IP也能做到RDMA要求的可靠性,但是它是以犧牲時延來達到的可靠,而eRDMA在技術上的突破點在于,既提供了類似于TCP/IP的可靠性,同時也有極佳的延遲表現。

eRDMA的性能表現如何?

eRDMA可提供最低5微秒的時延,延遲表現優(yōu)于同類技術方案(AWS的EFA為15.5微秒),雖然比基于Infiniband實現的RDMA方案高了幾微秒,但與原來25微秒的VPC相比,大約降低了80%,由此,數據庫、AI和大數據等應用獲得30%~130%的性能提升。

值得強調的是,eRDMA最低5微秒的時延表現是在單個可用區(qū)組網中的表現。當然,如果跨地域組網,則時延表現會增長,但實際上,跨區(qū)域組網部署應用的情況很少見。因此,5微秒的時延有比較實際的參考價值。

常見的RDMA實現方案有Infiniband和RoCE網絡兩種(iWarp比較少見了),這兩種方案雖然性能表現比eRDMA強,但都依賴于昂貴的專用網絡設備,特別是要有優(yōu)先級流量控制能力的交換機設備,運維成本也比較高,更重要的是,這兩種方案都無法實現大規(guī)模組網。

eRDMA具備很強的擴展性,eRDMA突破了傳統RDMA實現方案中無法大規(guī)模組網的問題,傳統組網方案中,一臺交換機只能支持三四百臺設備,而eRDMA則能通過大規(guī)模組網構建更大的計算集群。

eRDMA的應用表現與生態(tài)前景

eRDMA簡單易用,它一端對接的是用戶熟悉的VPC網絡,可以利用VPC提供的各種功能特性,能對接各種云上資源,獲得資源彈性能力。另一端,eRDMA為應用提供的ERI(Elastic RDMA Interface)接口也完全參照了RDMA上流行的驗證接口,對接開放生態(tài)。

從王志坤的介紹中了解到,eRDMA支持原生的Verbs接口的應用,實現對上層應用的無縫支持,來享受RDMA帶來的性能收益,在整體性能方面都有了非常明顯的提升, 即使是Spark和Redis這類數據庫應用,即使不用做過多的改造,它的性能也有非常明顯提升。

談到大規(guī)模集群的應用場景,不得不提機器學習訓練場景。

從阿里云過去幾年服務AI場景的實踐來看,主要都是從網絡加速層面優(yōu)化機器學習訓練過程,而非在機器學習框架和模型層面做優(yōu)化。通過利用AIACC加速引擎來優(yōu)化機器學習訓練集群的通信效率,從而提升在云上做機器學習訓練的效率。

在張獻濤看來,在應用需求的推動下,未來支持eRDMA或者是基于RDMA接口的應用會越來越多,以前主要是高性能計算相關應用,而現在,越來越多的大數據和AI應用也都在適配RDMA接口。目前看來,開源軟件步伐相對快一些,商業(yè)化的軟件則相對慢一點。

從eRDMA到神龍架構,將Offload進行到底

eRDMA本質上是一種CPU Offload(卸載)技術,如果沒有這種Offload,則需要浪費許多寶貴的CPU資源。有測試數據顯示,40Gbps的TCP/IP流能幾乎會耗盡主流服務器的所有CPU資源。如果沒有RDMA這種Offload,這將是計算集群技術的一場災難。

eRDMA的技術載體阿里神龍架構MoC本身也是一種DPU(Data Process Unit),目前,阿里神龍架構的MoC卡和AWS的Nitro卡是市場上最常見、也是最成熟的兩種DPU解決方案,DPU能為云服務商帶來巨大的成本效益和競爭優(yōu)勢。

有數據顯示,DPU每年能為IT產業(yè)節(jié)省高達60億美金的成本,除了云廠商自研DPU,市場上出現了多家第三方DPU解決方案,同樣是看中了DPU產業(yè)的巨大商業(yè)機遇,據了解,阿里云是業(yè)內最早自研DPU的云廠商,在許多性能參數上都達到了業(yè)內領先,甚至最佳水平。

從我的個人觀察來看,阿里云eRDMA技術與AWS EFA(Elastic Fabric Adapter)在功能定位上一致,對比兩種方案的技術參數能看到eRDMA的兩大優(yōu)勢,第一,支持數據保序,第二,延遲表現更好一些。

阿里云以神龍架構為主的技術創(chuàng)新為其帶來了許多明顯優(yōu)勢,依托于此的基礎設施也達到了業(yè)內領先水平。

最近,Gartner公布的阿里云版本的Gartner Solution ScoreCard 2021報告中對阿里云IaaS+PaaS九方面的能力進行打分,其中,計算、存儲、網絡以及安全部分得分都達到了業(yè)內領先水平,認可了阿里云在IaaS基礎設施層面的實力。

分享到

zhupb

相關推薦