在閃存可靠性與測(cè)試技術(shù)分論壇中,論壇主席華中科技大學(xué)武漢光電國(guó)家實(shí)驗(yàn)室吳非博士在開場(chǎng)時(shí)指出,數(shù)據(jù)是基礎(chǔ),存儲(chǔ)是基石,閃存作為數(shù)據(jù)存儲(chǔ)的主流介質(zhì),其可靠性技術(shù)與測(cè)試技術(shù)不可或缺,同時(shí)為數(shù)據(jù)存儲(chǔ)的安全性和可靠性保駕護(hù)航?,F(xiàn)在我們來(lái)聽一聽學(xué)術(shù)界,國(guó)內(nèi)外測(cè)試機(jī)構(gòu)專家學(xué)者,以及企業(yè)代表為我們帶來(lái)的精彩內(nèi)容。

山東大學(xué)信息科學(xué)與工程學(xué)院陳杰智教授發(fā)表了題為《3D NAND閃存存儲(chǔ)器的可靠性》的主題演講。先介紹了后摩爾時(shí)代NAND閃存存儲(chǔ)器現(xiàn)狀,然后結(jié)合自身經(jīng)驗(yàn)梳理了從系統(tǒng),電路,到器件、材料等方面去考量3D NAND的高可靠性以及建立可靠性體系的重要性。陳教授指出,NAND從平面到立體的架構(gòu)確實(shí)是存儲(chǔ)密度與性能的巨大飛躍,但高可靠性3D閃存存儲(chǔ)器研發(fā)需要基于其特殊工藝和設(shè)計(jì)建立從材料到系統(tǒng)一整套體系,包括解決可靠性測(cè)量,器件仿真、TCAD仿真模型,控制可靠性缺陷等問(wèn)題。

關(guān)于NAND從2D到3D的可靠性話題。我們所關(guān)心的可靠性在兩個(gè)層面,用戶層面看的是價(jià)格、容量和壽命,性能,但這只是冰山一角。實(shí)際上從底層公司研發(fā)層面來(lái)看,最難的是工藝制程,雖然在工藝控制上3D NAND將平面光刻機(jī)技術(shù)核心環(huán)節(jié)去掉了,但成膜過(guò)程中很多環(huán)節(jié)難以把控,其中還涉及NAND良品率的問(wèn)題。高可靠性的的核心課題還包括:

Data Retention(數(shù)據(jù)保存特性):來(lái)源于TNL/IPD中存在缺陷相關(guān)的”導(dǎo)電通道”,能使閾值電壓降低,發(fā)生Vth負(fù)向偏移;

Program Disturb(編程干擾):第一部分發(fā)生于同一BL上的存儲(chǔ)單元,在VPASS電場(chǎng)下電子借由漏電流通過(guò)隧穿層進(jìn)入浮柵層,使閾值電壓發(fā)生正向偏移。另外一部分發(fā)生于同一WL上的存儲(chǔ)單元,低電場(chǎng)漏電流的誤寫入將帶來(lái)Vth正向偏移;

Read Disturb(寫入干擾):來(lái)源于VPASS下的TNL漏電流,能使閾值電壓發(fā)生正向偏移,VPASS電壓越大錯(cuò)誤率會(huì)越高;

Intel-cell interference:隨著存儲(chǔ)單元尺寸變小,單元之間的寄生電容耦合越來(lái)越強(qiáng),導(dǎo)致了存儲(chǔ)單元之間的干涉效應(yīng)ICI);

Random Telegraph Noise:電荷隧穿層中存在的缺陷會(huì)造成RTN噪聲,導(dǎo)致讀出數(shù)據(jù)的準(zhǔn)確率降低,并使存儲(chǔ)單元閾值電壓分布變寬。

國(guó)家計(jì)算機(jī)質(zhì)監(jiān)中心存儲(chǔ)測(cè)評(píng)實(shí)驗(yàn)室陽(yáng)小珊主任發(fā)表了《閃存的質(zhì)量特性及測(cè)試與評(píng)價(jià)》的主題演講,指出測(cè)試是保障產(chǎn)品質(zhì)量的重要手段,是發(fā)現(xiàn)產(chǎn)品問(wèn)題、提升產(chǎn)品質(zhì)量的重要方法。他還介紹了閃存質(zhì)量與產(chǎn)業(yè)鏈的關(guān)系,閃存及其測(cè)試的現(xiàn)狀,閃存的質(zhì)量特性,測(cè)試與評(píng)價(jià)。

在談及閃存產(chǎn)品的測(cè)試現(xiàn)狀時(shí),陽(yáng)小珊主任表示,國(guó)內(nèi)的重點(diǎn)是國(guó)家認(rèn)監(jiān)委和認(rèn)可委管理,標(biāo)準(zhǔn)化和專業(yè)化較強(qiáng),管控國(guó)內(nèi)數(shù)千家實(shí)驗(yàn)室。

而測(cè)試所需的人、機(jī)、料、法、環(huán)是主要的因素,但閃存領(lǐng)域相關(guān)產(chǎn)品測(cè)試還是不太樂(lè)觀。首先是測(cè)試人員稀缺,包括華中科技大學(xué)出來(lái)的學(xué)生做測(cè)試,或者企業(yè)里面做測(cè)試的,都非常少。再就是機(jī)器,目前的重點(diǎn)是國(guó)內(nèi)閃存的測(cè)試工具和設(shè)備不太完善。有相關(guān)包括芯片的專業(yè)底層設(shè)備都是非常昂貴的。而在環(huán)境方面,實(shí)驗(yàn)室服務(wù)平臺(tái)并未建立,國(guó)內(nèi)很多企業(yè)產(chǎn)品做出來(lái),可能需要送到國(guó)外去測(cè)試。

IOL實(shí)驗(yàn)室高級(jí)工程師, 數(shù)據(jù)中心技術(shù)專家David Woolf發(fā)表了《NVMe合規(guī)性和互操作性計(jì)劃》的主題演講。David首先介紹了與UNH(新罕布什爾大學(xué)

)-IOL(InterOperability Laboratory)的NVMe集成商項(xiàng)目,并指出了其測(cè)試要求,工具以及實(shí)驗(yàn)室未來(lái)發(fā)展。

目前IL互操作性和一致性相關(guān)要求如圖:

在這里David特別指出,近期UNH-IOL與華中科技大學(xué)合作,首次在中國(guó)落地NVMe互操作性測(cè)試,有15家企業(yè)參加了NVMe SSD測(cè)試。

Memblaze首席架構(gòu)師孫清濤分享了如何驗(yàn)證閃存特性并進(jìn)行協(xié)同設(shè)計(jì)保證閃存數(shù)據(jù)存儲(chǔ)的可靠性。孫總講述了NAND自身的特點(diǎn),而Memblaze針對(duì)這一問(wèn)題構(gòu)建了Memblaze NAND特性測(cè)試平臺(tái)。

Memblaze NAND特性測(cè)試包括性能,電壓分布,閾值電壓矯正,Read Retry優(yōu)選,Read Disturb,未滿Block問(wèn)題,NAND故障診斷工具以及固件協(xié)同設(shè)計(jì)。

Memblaze在固件設(shè)計(jì)過(guò)程中采用了多核處理器,每個(gè)處理器有自己的任務(wù),通過(guò)驗(yàn)證平臺(tái)發(fā)現(xiàn)了以上參數(shù)的重要性。受益有兩個(gè)方面,一是性能受益,二是壽命受益,也形成了硬判決,軟判決兩種能力。我們希望所有的錯(cuò)誤在硬判決區(qū)域搞定,這樣性能是最好的。而軟判決涉及到壽命,單純從控制性能來(lái)說(shuō)還是希望在這時(shí)候有壽命受益。基于這個(gè)驗(yàn)證平臺(tái)的測(cè)試結(jié)果,Memblaze得到了好的預(yù)期,也證實(shí)了測(cè)試平臺(tái)在項(xiàng)目初期完成的重要性。

紫光德瑞孫麗華博士分享了如何構(gòu)建可編程的閃存仿真系統(tǒng),圍繞閃存控制器,利用可編程的閃存系統(tǒng)驗(yàn)證閃存控制器,完善閃存控制器的設(shè)計(jì)。閃存仿真模塊是受主機(jī)控制中心控制的,主機(jī)控制中心通過(guò)發(fā)送相應(yīng)的配制,完成對(duì)接口的配制,以及閃存內(nèi)部異常狀態(tài)模擬,然后去完成相應(yīng)的命令執(zhí)行。由于需要模擬各種各樣的閃存,模擬閃存命令,執(zhí)行閃存的狀態(tài),閃存仿真模塊在后臺(tái)擁有強(qiáng)大的數(shù)據(jù)庫(kù)支持。

市場(chǎng)上主流SSD控制器從功能上分為前中后三部分,后端就是閃存控制器。閃存控制器的好壞,決定了整個(gè)SSD控制器的成敗,我們針對(duì)閃存控制器介紹可編程閃存仿真系統(tǒng),以及其中最重要的部分——基于仿真學(xué)習(xí)。

閃存仿真模塊中最為重要的是基于深度學(xué)習(xí)的比特翻轉(zhuǎn)發(fā)生器,這需要大量的原始數(shù)據(jù)去訓(xùn)練,比如收集不同廠商顆粒,在不同條件下包括不同PE,不同retention,不同配制類型,或不同read cell等條件下真實(shí)錯(cuò)誤分配情況,然后建立深度學(xué)習(xí)模型,通過(guò)數(shù)據(jù)調(diào)整參數(shù)反復(fù)訓(xùn)練模型,最終達(dá)到能夠預(yù)測(cè)結(jié)果的目的,能夠大大提高我們的驗(yàn)證效率,并降低驗(yàn)證成本。

Trust-tek公司技術(shù)支持經(jīng)理蔣伸億分享了新RWSW(真實(shí)世界存儲(chǔ)工作負(fù)載)測(cè)試方法論——通過(guò)軟硬件測(cè)試新方法探索負(fù)載測(cè)試的分析。

真實(shí)世界工作負(fù)載是在一個(gè)特定時(shí)間區(qū)間內(nèi),部署的服務(wù)器里,特定軟件堆棧級(jí)別上發(fā)生的IO流集合,是由許多IO流和隊(duì)列深度的不斷變化組合而成。IO流是通過(guò)實(shí)際應(yīng)用程序,操作系統(tǒng),抽象軟件以及使用者行為而產(chǎn)生,在經(jīng)過(guò)軟硬件堆棧時(shí)發(fā)生改變,因此真實(shí)工作負(fù)載每一秒都會(huì)有很大的變化。

我們先來(lái)了解一下真實(shí)工作負(fù)載的重要性。我們希望透過(guò)真實(shí)業(yè)務(wù)的獲取,了解真實(shí)業(yè)務(wù)的壓力如何發(fā)生,并分析出真實(shí)工作負(fù)載和合成的差異點(diǎn)在哪里,通過(guò)差異點(diǎn)的發(fā)現(xiàn)提升存儲(chǔ)系統(tǒng)的性能。

這是軟件的堆疊,這些IO在不斷改變,主要是因?yàn)樵谡w存儲(chǔ)系統(tǒng)服務(wù)器上的架構(gòu)有軟件堆疊。從上面的應(yīng)用層自上而下必須經(jīng)過(guò)很長(zhǎng)的路徑,包括通過(guò)軟件堆疊層,然后到達(dá)硬件層有HBA卡,再分配到存儲(chǔ)裝置(可能是固態(tài)盤或者PCI盤)。分包到固態(tài)盤的時(shí)候經(jīng)過(guò)的路徑很多,而為了讓系統(tǒng)做快速返回,我們會(huì)有分析壓縮率或者重復(fù)寫入的速率。

并且這么多路徑從單塊逐個(gè)分包下去,還有不同的軟件進(jìn)行功能處理。包括會(huì)做加密,或者是重復(fù)數(shù)據(jù)閃存,或者是壓縮,這些行為都會(huì)對(duì)模塊大小造成很大影響。所以真實(shí)工作負(fù)載非常復(fù)雜,這也是為什么盤在真實(shí)應(yīng)用執(zhí)行的時(shí)候會(huì)造成性能降低的問(wèn)題。

分享到

崔歡歡

相關(guān)推薦