6月6日,能效核版的英特爾至強6700E發(fā)布,最多核心數(shù)是144核,計劃于2025年Q1發(fā)布的英特爾至強6900E核心數(shù)量將會來到驚人的288核。

性能核版本的英特爾至強6900P也將于今年第三季度擇期發(fā)布,作為全性能核的處理器,其核心數(shù)量也將來到128核,與AMD第四代霄龍9754持平。

從上圖可見,6700E支持單路和雙路配置,最高350W的TDP設計,支持8個內(nèi)存通道,內(nèi)存速率從上一代的5600MT/s提高到了6400MT/s。它支持最多88個PCIe 5.0通道或者CXL 2.0通道。

全性能核的6700P,可以提供86個性能核,支持最高8路設計。默認支持8個內(nèi)存通道,如果遇到對內(nèi)存帶寬要求更多的場景,還能使用至強6的MCR技術把內(nèi)存速率提高到8000MT/s。

6900P則具有128個核心,比最多64核的第五代至強核心數(shù)翻倍。12通道的配置,搭配MCR技術提供的8800MT/s速率,其內(nèi)存總體帶寬達到上一代的2.36倍。

看來,至強6不只增加核心數(shù)量,其內(nèi)存帶寬的增加幅度更大,有助于解決內(nèi)存墻問題。

值得注意的是,6900系列支持最多雙路服務器配置,單臺服務器最多576核或者256核。6900系列的TDP來到了最高500瓦,支持最多96個PCIe 5.0通道或者CXL 2.0通道,支持6個UPI 2.0鏈路,最高達到24GT/s的速度。

性能核和能效核的主要區(qū)別

性能核主要面向需要高性能和復雜計算的場景,具備更強的單線程性能和更高的指令集支持,適合AI和HPC等場景。能效核則針對高效能和高密度的計算需求,優(yōu)化了每瓦性能,更適合微服務、網(wǎng)絡和媒體處理等場景。

性能核微架構代號為Redwood Cove,每個核心具有2MB L2緩存,支持超線程技術。指令集支持AVX-512(2×512)和英特爾AMX,可用于AI和向量運算。每核心擁有64KB指令緩存和48KB數(shù)據(jù)緩存。此外,它支持512指令亂序執(zhí)行引擎,能夠更好地優(yōu)化編程中的軟件指令。

能效核規(guī)格有裁剪,其微架構代號為Crestmont,每四個單線程核心共享4MB L2緩存。指令集方面,支持增強版的AVX2(2×128),也可用于AI和向量運算。每核心擁有64KB指令緩存和32KB ECC數(shù)據(jù)緩存。它只支持256指令亂序執(zhí)行引擎。

通過這些裁剪,每個能效核所占的面積大幅度降低,同時功耗也有所減少。這樣就可以在同樣的芯片面積或是功耗的框架下,提供更多的核心數(shù)量和更高的吞吐量。

英特爾至強6架構簡介

第五代至強處理器采用了EMIB(嵌入式多芯片互連橋接)技術,由兩個芯片組合而成。而英特爾至強6處理器的設計理念發(fā)生了變化,不再是簡單地將芯片一分為二,而是按功能塊進行劃分。

如圖所示,芯片中間是計算die,上下兩部分是I/O die。I/O die主要處理高速I/O相關事務,要求不高,因此采用了成熟的Intel 7工藝。計算die需要高計算密度和核心邏輯密度,因此采用了最新的Intel 3制程工藝。

至強6700能效核的版本采用一個計算die和兩個I/O die的設計。三個性能核產(chǎn)品,HCC(中核心數(shù))為46核,LCC(低核心數(shù))最少,只有16核。XCC(高核心數(shù))為86核,中間有兩個計算die。

至強6900的能效核版本也采用了2個計算die和兩個I/O die的設計,核心數(shù)來到了288個。性能核版本放了3個計算die,核心數(shù)來到了128個。

英特爾強調(diào),這種模塊化設計的關鍵在于Fabric技術,可以將計算die和I/O die有機結合,通過高密度的EMIB橋接技術,實現(xiàn)die之間1TB/s帶寬的無損通信,構建更強的通路系統(tǒng)。這種設計不僅優(yōu)化了數(shù)據(jù)傳輸效率,還大幅提升了處理器的功能和性能。

計算die的中間是核心部分(Core),包括L1和L2緩存,CHA(緩存和內(nèi)存訪問控制),LLC(L3緩存),以及橫向和縱向的Mesh Fabric。

另外,DDR或MCR內(nèi)存控制器位于die的兩側。這種設計使得每個計算die內(nèi)部的核心、緩存和內(nèi)存訪問都在較小延遲范圍內(nèi)完成。

I/O die的結構也通過Fabric和EMIB技術與計算die相連。所有芯片采用統(tǒng)一的I/O die架構,使得平臺驗證和軟件使能更加高效。這種設計通過可復用的投入,實現(xiàn)了整個產(chǎn)品系列的高效開發(fā)和驗證。

英特爾至強6正式支持內(nèi)存擴展

英特爾在其至強6處理器中引入了CXL 2.0技術,CXL 2.0提供對Type 3設備的支持,也就是大家期待已久的CXL內(nèi)存擴展設備,在具體實施層面,英特爾提供了三種內(nèi)存擴展模式:

在CXL Numa Node模式下,系統(tǒng)的標準DRAM內(nèi)存和通過CXL技術擴展的內(nèi)存被視為兩個獨立的Numa節(jié)點進行控制。每個Numa節(jié)點都有自己的內(nèi)存地址空間,系統(tǒng)軟件或應用程序可以將任務分配到不同的Numa節(jié)點,從而優(yōu)化內(nèi)存的使用。

CXL Numa Node模式適用于需要精細內(nèi)存管理的應用,可以通過操作系統(tǒng)、虛擬機管理程序(Hypervisor)或應用程序本身來輔助分層管理內(nèi)存。

異構交織模式(Hetero Interleaved Mode)通過以硬件為基礎的內(nèi)存交織技術,將系統(tǒng)的DRAM內(nèi)存和CXL內(nèi)存混合在一起,形成一個統(tǒng)一的Numa節(jié)點。每個內(nèi)存地址空間中的數(shù)據(jù)可以交替存儲在DRAM和CXL內(nèi)存中,從而均衡內(nèi)存帶寬,減少延遲。

異構交織模式適用于對內(nèi)存帶寬有高需求的應用,特別是當需要將DRAM和CXL內(nèi)存結合使用時。此模式只有在配備性能核(P-core)的至強6700和6900處理器上才支持。

在Flat Memory模式下,CXL內(nèi)存和DRAM內(nèi)存被視為單一的內(nèi)存層,操作系統(tǒng)可以直接訪問這一統(tǒng)一的內(nèi)存地址空間。硬件輔助的分層管理可以確保常用數(shù)據(jù)優(yōu)先存儲在DRAM中,次要數(shù)據(jù)存儲在CXL內(nèi)存中,從而最大限度地提升內(nèi)存使用效率。

Flat Memory模式適用于希望利用CXL內(nèi)存擴展而無需修改軟件的應用。這種模式適用于所有的至強6處理器。

通過這三種模式,英特爾至強6處理器為不同的應用場景提供了靈活且高效的內(nèi)存解決方案。

上圖展示的是至強6處理器運行在MongoDB數(shù)據(jù)庫時的性能差異,對比的變量是標準DDR5內(nèi)存與CXL 2.0平面存儲器模式。評估結果顯示,在數(shù)據(jù)容量為125GB、256GB和512GB時,兩者的性能差距分別僅為1%、2%和5%。

結束語

144核、288核,以及128核,更多的核心固然誘人,但內(nèi)存墻的問題不得不重視。

英特爾至強6處理器不僅支持MCR,最高內(nèi)存通道數(shù)也來到了12個,搭配用來解決內(nèi)存墻問題的CXL內(nèi)存擴展技術,內(nèi)存墻的問題得到了有效針對。

分享到

zhupb

相關推薦