UnifabriX 和 Panmnesia 是專注于 CXL 技術(shù)的最活躍的兩家初創(chuàng)公司。到 2023 年 4 月,UnifabriX公司已在 2RU 機箱中開發(fā)出具有 32TB DDR5 DRAM 的智能內(nèi)存節(jié)點,現(xiàn)在擁有基于 UnifabriX 軟件和半導(dǎo)體 IP 的 MAX(Memory Accelerator)可組合內(nèi)存設(shè)備。
UnifabriX 設(shè)備
MAX 提供了一個軟件定義的內(nèi)存架構(gòu)池,具有自適應(yīng)內(nèi)存共享功能,并使用 CXL 和 UALink 布線及相關(guān)概念,其中一些在上面的幻燈片中有所提及。我們將研究系統(tǒng)級架構(gòu),然后嘗試理清復(fù)雜的布線情況。
UnifabriX MAX: 系統(tǒng)級架構(gòu)
Hyatt 談到這張幻燈片時說:“在我們的 FabriX 內(nèi)存操作系統(tǒng)之上,這是一個強化的 Linux……我們有一個流處理器,它可以在數(shù)據(jù)流入內(nèi)存池時處理數(shù)據(jù)流和協(xié)議流。這是可編程硬件。你可以把它想象成在交換機和互聯(lián)網(wǎng)交換機中發(fā)展起來的 P4 概念,在那里你可以即時解析數(shù)據(jù),并在協(xié)議消息進出時對其進行編輯。
“所以你在這里看到前端端口,六個前端端口連接到主機。目前有 CXL 1.1 和 2.0。我們有板載和架構(gòu)端口,我們將那里的鏈路加速到 112G,比 CXL 目前支持的速度快得多。在速度方面,這相當于 NVLink 4,我們正在進行 224G 的原型設(shè)計,這相當于 NVLink 5。是的,這就是帶寬。當你連接多個 MAX 設(shè)備時,我們希望在后端、在架構(gòu)上獲得盡可能高的帶寬?!?/p>
CXL 布線情況
PCIe、CXL 和 UALink 的情況很復(fù)雜。我們應(yīng)該注意到,在 CXL 1 和 CXL 3.1 之間有五代 CXL 標準,現(xiàn)在還有第六代 CXL 3.2。CXL 3.2 增加了優(yōu)化的內(nèi)存設(shè)備監(jiān)控和管理、擴展的安全性、性能監(jiān)控,并且與之前的 CXL 規(guī)范向后兼容。
Hyatt 告訴我們:“PCIe 最初是為在平臺內(nèi)部使用而構(gòu)建的,作為一種短距離互連,取代了 CPU 和外圍設(shè)備之間的 PCI,因此它沒有成熟的布線生態(tài)系統(tǒng)。PCIe 的大規(guī)模用例后來才出現(xiàn),例如‘PCIe 架構(gòu)’,用于匯集和分解 NVMe 存儲、網(wǎng)卡和 GPU 等設(shè)備。
“那些用例不需要很大的帶寬,因此使用窄的 x4 交換機端口和 x4 SFF – 8644(mini – SAS)布線就足夠了。這里和這里有一些例子。
“CXL 在 PCIe Gen 5 之上的出現(xiàn)創(chuàng)造了對高性能 PCIe 布線的新需求,這種布線能夠為內(nèi)存事務(wù)提供更高的帶寬。由于 PCIe 沒有現(xiàn)成的此類解決方案,市場通過利用以太網(wǎng)領(lǐng)域的布線系統(tǒng)找到了臨時解決方案,例如:
QSFP – DD MSA(x8)——QSFP 的一種更密集的形式,最初是為以太網(wǎng)、光纖通道、InfiniBand 和 SONET/SDH 而創(chuàng)建的。一些人(現(xiàn)在仍然有人)將其用于 PCIe x8 連接。見這里。
CDFP MSA(x16)——最初是為 400G 以太網(wǎng)(16 x 25G 通道)開發(fā)的,但后來被事實上認證可用于 PCIe Gen 5。見這里和這里。
“如今,PCIe 生態(tài)系統(tǒng)正在圍繞 OSFP MSA 布線系統(tǒng)進行整合,OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號速率(例如,8 x 200G = 1.6 Tbps 以太網(wǎng)),因此也與 PCIe Gen 5/CXL 1.1、2.0(32G NRZ)、PCIe Gen 6/CXL 3.x(64G PAM4)和 PCIe Gen 7/CXL 4.x(128G PAM4)兼容。也就是說,這個 OSFP 布線系統(tǒng)在 PCIe 領(lǐng)域至少在未來兩代內(nèi)都具有前瞻性。它也為在電氣層面重用以太網(wǎng) I/O 的 UALink 做好了準備。一根線纜統(tǒng)御一切。”
Nvidia 在這里展示了一條前進的道路,Hyatt 解釋說:“將內(nèi)存架構(gòu)引入數(shù)據(jù)中心需要大量的市場教育。Nvidia 在推出帶有 NVLink 內(nèi)存架構(gòu)的 DGX GH200 系統(tǒng)時介入并提供了幫助,創(chuàng)建了一個 144TB 的大型分散內(nèi)存池。CXL 和 UALink 是 NVLink 的開放替代品。它們都支持原生的加載/存儲內(nèi)存語義。
“Nvidia 讓世界認識到內(nèi)存架構(gòu)(通過 NVLink)優(yōu)于網(wǎng)絡(luò)(通過 InfiniBand)。我們傾向于同意這一點?!?/p>
他說:“UnifabriX 開發(fā)了一個符合 CXL 3.2 FM API 的架構(gòu)管理器(FM),包括對 DCD(動態(tài)容量設(shè)備)的支持,即它能夠使用標準的、開放的 CXL API 按需動態(tài)地配置和取消配置內(nèi)存。我還沒有看到其他的 DCD 架構(gòu)管理器,所以這可能是你遇到的第一個真正能做到這一點的 FM?!?/p>
還有其他幾點。Hyatt 說:“我們能夠混合和匹配 CXL 端口和 UALink 端口,這意味著我們可以按需向 CPU 和 GPU 提供內(nèi)存。UALink 連接器基于以太網(wǎng) I/O,所以相同的連接器,即相同的 OSFP 和 OSFP XD,將用于 CXL 和 UALink。你只需改變端口的屬性。”
工作芯片
該公司展示了其內(nèi)存池能夠根據(jù)需求動態(tài)改變大小,并分配給主機處理器,然后再返回內(nèi)存池。UnifabriX 已經(jīng)開始盈利,其產(chǎn)品已部署在數(shù)據(jù)分析、高性能計算、公共和私有云等領(lǐng)域。
Hyatt 說:“我們有一些超大規(guī)模客戶,[在這些客戶那里]系統(tǒng)正在 Emerald Rapids 平臺上運行實際工作負載,并且很快將轉(zhuǎn)向使用 AMD 的 Granite Rapids 和 Turin 系統(tǒng)。
“我們在市場的不同細分領(lǐng)域有相當多的新客戶,不僅僅是超大規(guī)??蛻艉蛧覍嶒炇?。我們有藥物研發(fā)公司、DNA 測序公司。事實證明,在高性能計算的大范疇下有很多用例,人們在這些用例中需要大量內(nèi)存。有時他們需要帶寬,有時他們需要容量。但是能夠按需增長內(nèi)存并動態(tài)地做到這一點帶來了很大的價值,不僅僅是在總體擁有成本方面?!?/p>
他解釋說:“你看云,公共云,國家實驗室。我們從國家實驗室和動畫工作室開始。那里有很多數(shù)字資產(chǎn),你需要進行渲染和處理,如今他們都在使用快速存儲系統(tǒng),但對于他們的需求來說還不夠快。所以在中間有一個內(nèi)存池有助于加速整個過程。”
內(nèi)存內(nèi)處理
Hyatt 談到 MAX 能夠進行一些處理:“它具有處理能力,我們發(fā)現(xiàn)這對于高性能計算非常有用。所以我們有內(nèi)存內(nèi)處理或近內(nèi)存處理能力。這對于稀疏內(nèi)存模型非常有效,例如在高性能計算中,你有非常大的模型,可能達到 PB 級,你需要抽象內(nèi)存地址空間。所以你實際上在外部暴露了一個巨大的地址空間。
“但在內(nèi)部你進行映射。這是我們在這里進行的內(nèi)存處理的一部分。這是一個例子。我們有一個 APU,即應(yīng)用處理單元,向客戶開放,客戶可以在容器上運行他們自己的代碼。所以如果他們想在內(nèi)存上做一些事情,比如檢查惡意代碼,檢查內(nèi)存中的一些異常模式,他們可以在內(nèi)部運行這些操作。我們提供了這種能力?!?/p>
UnifabriX 如何進入市場?Hyatt 說:“目前,我們直接與終端客戶合作。我們這樣做的原因是因為這是產(chǎn)品定義的一部分,比如獲取客戶需求的反饋。所以你不希望有中間渠道,因為那樣你會失去很多反饋。
“但我們已經(jīng)與合作伙伴合作。其中一些是平臺原始設(shè)備制造商,他們希望將內(nèi)存池作為其產(chǎn)品組合的一部分。所以想想所有擁有存儲系統(tǒng)的大公司,把內(nèi)存池看作是一個存儲服務(wù)器,但它是用于內(nèi)存的。所以與存儲相關(guān)的大多數(shù)模式和語義將被復(fù)制到內(nèi)存領(lǐng)域,我們正在與他們合作。
“除此之外,我們還有幾個渠道,有些是專門針對高性能計算的。有一些原始設(shè)備制造商為高性能計算市場制造獨特的服務(wù)器和設(shè)備。高性能計算對 CXL 提供的內(nèi)存帶寬非常感興趣。有一些系統(tǒng)集成商建造整個機架,并將 GPU 和大量計算能力一起發(fā)貨。他們實際上將 GPU、服務(wù)器、存儲和內(nèi)存組裝在一起,并作為一個機架發(fā)貨?!?/p>
UnifabriX 計劃在 2025 年下半年進行新一輪融資。
在制造工藝方面,Hyatt 說:“目前,我們的芯片是 7 納米工藝,我們計劃在 2026 年、2027 年初采用臺積電的 5 納米工藝。”正如 Hyatt 指出的,這與 PCIe Gen 6 相契合:“CXL 本身正從 PCIe Gen 5 向 Gen 6 發(fā)展,所以我們必須升級工藝。Gen 6 涉及混合信號……需要 5 納米工藝才能在功耗方面高效?!?/p>
我們將跟進一篇關(guān)于 UnifabriX 的 MAX 設(shè)備的文章。
(腳注)
QSFP——四通道小型可插拔標準,指用于光纖或銅纜布線的收發(fā)器,速度是其對應(yīng)的 SFP(小型可插拔)標準的四倍。QSFP28 變體于 2014 年發(fā)布,允許的速度高達 100Gbps,而 QSFP56 變體于 2019 年標準化,將最高速度翻倍至 200Gbps。一個更大的變體八通道小型可插拔(OSFP)在 2022 年有產(chǎn)品發(fā)布,能夠在網(wǎng)絡(luò)設(shè)備之間實現(xiàn) 800Gbps 的鏈路。
OSFP MSA——八通道小型可插拔(OSFP)多源協(xié)議(MSA)。OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號速率(例如 8 x 200G = 1.6 Tbps 以太網(wǎng))。它們與 PCIe Gen5 / CXL 1.1、2.0(32G NRZ)、PCIe Gen6 / CXL 3.x(64G PAM4)和 PCIe Gen7 / CXL 4.x(128G PAM4)兼容。這個 OSFP 布線系統(tǒng)在 PCIe 領(lǐng)域至少在未來兩代內(nèi)都具有前瞻性。它也為在電氣層面重用以太網(wǎng) I/O 的 UALink 做好了準備。
CDFP——CDFP 是 400(羅馬數(shù)字 CD)形式可插拔的縮寫,旨在提供低成本、高密度的 400 千兆以太網(wǎng)連接。