北京中存超為科技有限公司創(chuàng)始人、CEO兼首席科學(xué)家 沈杰博士

以下為嘉賓演講內(nèi)容整理:

今天我給大家?guī)淼难葜v題目是《NVMe全閃存儲的產(chǎn)品和技術(shù)分析》。NVMe技術(shù)這幾年比較火,從這張圖我們可以看到十年間數(shù)據(jù)增長了10倍。右邊是IDC的報(bào)告,提到了熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù),現(xiàn)在也有人提出:快數(shù)據(jù)、大數(shù)據(jù)等新概念。這我想說兩點(diǎn),第一是數(shù)據(jù)本身的增長非???,第二,這些熱數(shù)據(jù)都是些關(guān)鍵數(shù)據(jù),比如說你的手機(jī)上的數(shù)據(jù),或者要求實(shí)時(shí)處理的數(shù)據(jù)。

  我們知道存儲的革命是閃存器件帶來的,現(xiàn)在已經(jīng)發(fā)展3D了。今年已經(jīng)推出了96層產(chǎn)品,而且預(yù)計(jì)最高可堆疊到512層。企業(yè)級存儲方面,有三種產(chǎn)品形態(tài),最上面的深藍(lán)色的是全閃存,這個(gè)是最快的。中間是混合型,基本占40%,而且基本變化不大。第三部分是硬件陣列,逐漸往第二級第三級走。

  性能方面,如果用SSD取代硬盤,IOPS可以達(dá)到兩三萬,這就是器件顆粒帶來的優(yōu)勢,因?yàn)樗褂昧薙SD接口,如果我們使用NVMe接口,那么則會帶來更高的并發(fā)。這就是說有的時(shí)候你從硬件、器件上帶來的一些革命性的東西,但是你的接口也要升級。NVMe接口大家都比較熟,它是專門為SSD開發(fā)的,指令級非常小,對TCO的占有率也非常小。

通過下面張圖片可以比較一下,上面是NVMe-oF,底下是普通的網(wǎng)絡(luò),那我們可以看到,在一般企業(yè)級存儲里要經(jīng)過一層網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)協(xié)議里有很大改善,尤其是RDMA,是現(xiàn)在最流行的做法??梢姡琋VMe跟RDMA是絕配。

這張圖實(shí)際上是說全閃存的發(fā)展階段,基本上1毫秒已經(jīng)是一個(gè)非常好的數(shù)字了,因?yàn)樗昧薙SD接口,整個(gè)陣列內(nèi)部可以使用NVMe,外部為了兼顧以前的客戶還是用的CPU。

現(xiàn)在比較一下,就是說這些年來一些全閃存的產(chǎn)品,我們分了三類,第一類叫傳統(tǒng)產(chǎn)品擴(kuò)展方案。這里我們看到廠家一般都是一些比較知名的老廠商,它的特點(diǎn)是它用傳統(tǒng)的存儲系統(tǒng),然后為閃存器械進(jìn)一步的優(yōu)化。最大的優(yōu)點(diǎn)是所有企業(yè)級的功能都具備,這個(gè)是比較厲害的。我們將注意力放在后兩個(gè),因?yàn)楹髢蓚€(gè)方案是真正為了閃存而設(shè)計(jì)的,里面分為硬件和軟件,我們叫閃存設(shè)備方案,這個(gè)全閃存方案無論從器件還是陣列,有沒有企業(yè)級功能都不是很重要,我們只是把它看做一個(gè)設(shè)備。

最后我想說的全閃存的原生方案,整個(gè)系統(tǒng)就是為全閃存設(shè)計(jì)的,因此你的軟件系統(tǒng)一定是重寫的,比如我們中存,以及所有的廠家都有自己的系統(tǒng),而且他們是以轉(zhuǎn)接為中心的,提供一個(gè)完整的解決方案。

第一個(gè)最大的特點(diǎn)是在線壓縮的功能,這是原生的,所以做的非常的好。而且這里頭我們看到,它不光有NVMe的接口也有SAS口。這個(gè)全閃存設(shè)備方案是說,陣列提供的是高性能存儲的東西,類似這種方案追求的網(wǎng)絡(luò)延遲是10到50μs,可以說是性能非常高的一款產(chǎn)品。

在這里我想提一款比較有名的EMC DSSD,以前是先驅(qū),現(xiàn)在算是先烈了,它做了很多想法非常新的東西。我們現(xiàn)在的標(biāo)準(zhǔn)就是當(dāng)時(shí)他們的內(nèi)部協(xié)議。在它的存儲中,有一個(gè)控制模塊,一個(gè)存儲模塊,存儲模塊里SSD卡,是雙端口的卡,這家公司內(nèi)部早就開發(fā)出來了。它也有跨設(shè)備的DMA,他們早就在做了,美國很多出廠公司可以說是提前三、五年就在做這些事情了,當(dāng)然他的代價(jià)是什么,就是成本,成本非常高?,F(xiàn)在這家公司已經(jīng)被收購了。

原生的系列一定有自己的系統(tǒng),一定也有文件系統(tǒng)的話。這一點(diǎn)做的比較好的是Pure strage,它可以提供機(jī)柜式的方案。整個(gè)硬件都是自己做的,所以我們說這是偏硬件的解決方案。

原生方案我還想講一下Kaminario K2,它支持scale-out,動態(tài)劃分私有存儲陣列(控制器+閃存),軟件定義,標(biāo)準(zhǔn)硬件。

第三個(gè)就是我們的中存光子3000,控制器是雙控,前端網(wǎng)絡(luò)40GB,當(dāng)然還可以向上升級,底下用NVMe接口,原生的文件系統(tǒng)。

這里我想跟大家分享一下,我們在做原生的文件系統(tǒng)時(shí)考慮的幾個(gè)問題。首先,我們找到幾個(gè)其他公司的產(chǎn)品,比如像Pure Storage。我們想到了個(gè)部分,第一是數(shù)據(jù)的組織,什么叫數(shù)據(jù)的組織呢?因?yàn)檫@是一個(gè)快設(shè)備,數(shù)據(jù)塊來了我放哪兒呢?其實(shí)很簡單,一般就是地址尋址和內(nèi)容尋址,一般的產(chǎn)品是這么做的。

中存用的是快速尋址的方法。通過計(jì)算,根據(jù)信息過來的塊地址以及它的內(nèi)容在兩方面做計(jì)算,有這塊以后目錄數(shù)得到大大的壓縮,一般目錄數(shù)是有一定深度的,比如你可能是五級、六級壓縮到兩級三級時(shí)間是不一樣的,有效的降低了時(shí)間,這是我們對數(shù)據(jù)的組織。

我們知道在SSD里對空間的回收非常的重要,它一般有兩種方式,一個(gè)是參考計(jì)數(shù),一個(gè)是參考驗(yàn)證,這兩個(gè)詞非常相近,就是你在做讀寫的同時(shí),我把跟它有聯(lián)系的數(shù)據(jù)塊記住。這樣,一定時(shí)間以后,如果沒有東西跟它有聯(lián)系,那么就清除掉它。還有一個(gè)叫標(biāo)記掃描,它是全局式的垃圾回收。在這種方式下,它的好處就是全局做的好一點(diǎn),壞處就是對系統(tǒng)資源占用非常大。

我們是怎么做的呢?我們參考這兩種方法,在寫數(shù)據(jù)的時(shí)候,我們提供一些參考信息,但是又不是完全的信息,我們的目就是減少對寫性能影響,但我們還要產(chǎn)生一些信息,在我做標(biāo)記掃描的時(shí)候就可以利用這樣的信息,大大的減少我們的資源占有,同時(shí)降低性能,這就是在空間回收中做的考慮。

我們知道SSD是一個(gè)盤,你需要對它做一些劃分,而且現(xiàn)在基本都是日志型的。中存也不例外,一種是一個(gè)區(qū)塊,這個(gè)我們認(rèn)為是中粒度的,細(xì)粒度的叫條帶,支持變長數(shù)據(jù)塊,數(shù)據(jù)聚合。我說的中粒度的區(qū)塊,實(shí)際就是我們考慮的原數(shù)據(jù),數(shù)據(jù)和日志數(shù)據(jù)實(shí)際上是分區(qū)的,有點(diǎn)像數(shù)據(jù)分層的感覺。首先,這樣的寫性能會比較高。其次,分區(qū)管理以后,內(nèi)部實(shí)際上還是一個(gè)反復(fù)的可以輪換的,且磨損技術(shù)做的非常好。

作為一個(gè)存儲系統(tǒng),企業(yè)級存儲都具備掉電保護(hù),很多都用NVRAM。中存在這里跟大家的系統(tǒng)都不一樣,我們有一個(gè)創(chuàng)新,但是還有待于系統(tǒng)驗(yàn)證。我們是直接落盤。省去中間過程,系統(tǒng)實(shí)際上更簡單,簡單就會帶來更穩(wěn)定。當(dāng)然,系統(tǒng)可以特別復(fù)雜,但是一般來說簡單跟穩(wěn)定是聯(lián)系在一起的。當(dāng)然,直接落盤帶來的直接好處就是,系統(tǒng)穩(wěn)定,低配置和低成本。因?yàn)槲覀兛吹?,目前全閃在中國占有率不到6%,而美國占有率已經(jīng)達(dá)到36%,因此最重要的還是成本。我們認(rèn)為在設(shè)計(jì)產(chǎn)品里,如果能進(jìn)一步壓縮成本。那么,在達(dá)到一定性能指標(biāo)的情況下,把成本壓縮下來對市場會有相當(dāng)大的市場。

這里比如你的掉電保護(hù),你得有一些東西是保證的,比如我們這里真雙控,這個(gè)很厲害。為什么要下那么高的工夫降低延時(shí)呢,我們是直接落盤的。最后數(shù)據(jù)保護(hù)大家用的都差不多,把你的力度減少,這樣會快。這里大家做法都比較一致了。

這張圖實(shí)際上是我們一個(gè)性能圖,因?yàn)樵谖覀兊恼古_上,現(xiàn)在就在演示著,右邊的這個(gè)是我們做的4K隨機(jī)讀隨機(jī)寫測試,4KB隨機(jī)讀IOPS可達(dá)1169081。

這個(gè)圖可能有些人比較熟悉,因?yàn)槿ツ甑臅r(shí)候我們給大家分享過,我們認(rèn)為本地的主存儲一般是混合型,我們也在這方面做了開發(fā),現(xiàn)在進(jìn)行市場推廣。今年我們帶來了全閃產(chǎn)品,而且明年會正式推出。

既然講全閃陣列,我也想提一提以后的趨勢,我們知道NVMe標(biāo)準(zhǔn),但是這個(gè)協(xié)議還沒有正式發(fā)展。RDMA是最火的,也可能還有其他的會繼續(xù)發(fā)展。開發(fā)平臺我認(rèn)為應(yīng)該是SPDK,在我們的應(yīng)用開發(fā)中,正在大量使用。器件方面,我們知道3D-NAND器件有很大的發(fā)展前景。像Intel Purley在芯片級方面都有對NVMe更好的支持,所以在系統(tǒng)設(shè)計(jì)的時(shí)候一定要考慮這個(gè)問題。

最后做個(gè)廣告,我們今天給大家?guī)砹斯庾?000 NVMe全閃存新品,明年就要正式推出了,歡迎大家去看一看,謝謝大家。

分享到

sunk

相關(guān)推薦