Dostor總編?宋家雨(左)與Dostor客座技術(shù)顧問李炫輝(右)

宋家雨: 今天我們的話題是閃存顆粒跟企業(yè)級應用的關(guān)系,因為李總是我特邀的嘉賓,李總本人是Greenliant公司副總裁,是做控制器的公司,所以對閃存顆粒有非常深的研究。所以先請李總給我們介紹一下,閃存顆粒確實是比較底層的技術(shù),對企業(yè)來說我們要關(guān)心這么細的技術(shù)嗎?

李炫輝:閃存技術(shù)的應用從90年代發(fā)明之后,然后開始在消費市場里面使用,但是在企業(yè)級市場來使用的話,實際上只是在最近短短三四年時間里面,意味著什么?意味著這個技術(shù)并沒有完全得到企業(yè)級市場的成熟驗證。然后有句歇后語叫沙灘上蓋樓房——基礎(chǔ)不好。對企業(yè)級而言閃存顆粒就是它的地基,如果我們不了解地基的特性在上面搭建企業(yè)級的存儲架構(gòu)可能就會有一些風險。

宋家雨:能不能再稍微跟我們講講我們說來說去的這些顆粒到底指什么?因為我們在上層確實對底層缺乏了解。您也說到沙灘上蓋樓的問題,講講顆粒吧。

李炫輝:實際上閃存顆粒和沙子有關(guān)系。通過一些工藝手段,利用晶元把它變成非意識性的存儲的產(chǎn)品,這個產(chǎn)品我們看到最原始的是一個晶元,我們要在上面切割,切割出一個一個物理顆粒,就是我們俗稱的閃存顆粒。

宋家雨:陣列、盤,或者閃存卡,盤也好,卡也好,組成存儲的就是這些顆粒來組成的,構(gòu)成我們的產(chǎn)品,讓我們存儲我們的數(shù)據(jù)。關(guān)于閃存顆粒來講,因為我們一般可能關(guān)注的是最終的系統(tǒng)和應用。如果說我們還要關(guān)注顆粒那我們應該關(guān)注哪些特性?

李炫輝:對用戶而言不管最底層的顆?;蛘呦到y(tǒng)怎么樣,我只知道它能夠提供我所需要的特性就可以了。但是閃存和其他的介質(zhì)不太一樣,可能今天的很多友商都在談怎么樣利用閃存搭建自己的閃存系統(tǒng),或者說一些閃存的解決方案。但是由于閃存的特定的物理特性,因為閃存應用時間比較短,有沒有人碰到過閃存的性能衰減的問題?也就是說閃存性能是非常高,比現(xiàn)在的磁盤性能高很多,但是長期適用過程中它會帶來老化以及錯誤率增加,這都會帶來后期閃存產(chǎn)品的性能下降。那么這就給企業(yè)級應用帶來一個困惑,當我去做企業(yè)級應用的性能規(guī)劃的時候,我應該是按照最初的性能規(guī)劃還是按照衰減后的性能規(guī)劃?因為原來我的系統(tǒng)需要支持比如20萬人的并發(fā),如果說采用閃存也許用三四年,閃存性能只能支持到10人的并發(fā),這怎么辦?這對企業(yè)應用是一個致命的風險。

我再舉一個例子,我們還碰到一個用戶的案例,有一個用戶也用了一個閃存產(chǎn)品。但是突然有一天他們發(fā)現(xiàn)他們的系統(tǒng)重啟,沒有任何的原因。最后他們?nèi)ズ烷W存廠商溝通以后,對方提出的結(jié)果是什么?說由于太空輻射造成了閃存的電位翻轉(zhuǎn)引起的這個問題。當然這個在做系統(tǒng)的時候應該要考慮到,但是對企業(yè)級用戶來講這也是一個可能的風險。

宋家雨:磁介質(zhì)也有風險,各種各樣的風險。那怎么樣應對這些風險呢?您剛才提出的問題您按什么設(shè)計?按衰減后的設(shè)計還是最初的設(shè)計?您的觀點是什么?

李炫輝:我的觀點是從企業(yè)級產(chǎn)品的角度而言不同的產(chǎn)品設(shè)計的應用場景是不一樣的,這也就是為什么說我們作為企業(yè)級應用要去了解這種介質(zhì)的一些特性,然后它所對應的一些產(chǎn)品的一些需求。比如說我們是應該用TLC顆粒還是LBC的顆粒?我們要去做一些判斷。因為這個市場上系統(tǒng)級競爭過于激烈,這給系統(tǒng)廠商帶來了一個壓力,所謂壓力就是如果我價格比別人貴我可能賣不出去。因此他們可能更關(guān)注的在于經(jīng)濟性的角度,這可能會帶來說對企業(yè)級應用的適配的錯位。這也就是為什么大家在談海外購的問題,我們知道我們出國之后很多東西在國內(nèi)可以買到,為什么我們要買國外的東西?

宋家雨:因為便宜。剛才說到性能衰減,還有一種情況就是性能抖動這樣的一些事情,其實對企業(yè)級的應用的質(zhì)量帶來一些困擾和困惑。針對這些問題可能也有一些設(shè)計,在系統(tǒng)設(shè)計或者在盤或者卡的設(shè)計中有一些應用辦法,我們常聽的一個詞叫OP,它的含義和起到的作用是什么?

李炫輝:OP我們俗稱叫過度配置,當我們買一個閃存盤,它標成是400GB的閃存盤,但是它真實的裸容量可能是420GB,甚至是500GB五,但是用戶用到的可能是400GB,為什么有這樣的預留空間?其實有兩個考慮。第一個是閃存顆粒出廠就會有壞塊,它會有比如1%、2%的壞塊率,這些壞塊需要用好的顆粒替代,那么我們就要預留空間,使用過程中發(fā)現(xiàn)壞塊然后替代。并且使用過程中出現(xiàn)新的壞塊也要用這個替代,壞塊替代,OP的一個作用。

第二個作用是因為閃存本身的特性,它是4K的寫,但是一個模塊就是幾十照B的擦除,這里會存在放大的問題,會產(chǎn)生比如我只是一個IO寫入閃存,但是最后在閃存顆粒里面產(chǎn)生了幾十個IO。閃存特性是擦寫次數(shù)限制,我有足夠OP可以先把這些IO寫到空白區(qū),然后再回來擦寫,這樣可以延長它的壽命。

宋家雨:有人希望他自己來控制,他就把OP完全釋放了,這樣他能追求更好的性價比。

李炫輝:實際上這樣也是可以的。但是這對用戶的技術(shù)、能力有非常高的要求。并且還有一個前提就是它這個應用的數(shù)據(jù)訪問模型一定不能有任何變化,只要有一個變化可能就會造成一個災難。

宋家雨:我們希望我們作為企業(yè)用戶做系統(tǒng)的時候了解到的技術(shù)。還有一個話題想分享一下,實際上剛才講到抖動、性能、數(shù)據(jù)丟失等等。實際上很多人有疑惑,在消費端我們用的CF卡好象質(zhì)量非常好,企業(yè)級顆粒和消費級顆粒有什么區(qū)別?

287049

李炫輝:完全不一樣,因為質(zhì)量標準以及檢測手段,企業(yè)級要更加嚴格。原因是什么?消費類,比如我們有一個CF卡,比如U盤。大家可以想想你在這種設(shè)備上你究竟會做多少次讀寫?幾年可能也就是十幾次的擦寫。而到數(shù)據(jù)中心級是24小時連續(xù)的擦寫操作,這個實際上會有很大的差異性。并且我們也有一些人很好奇,拿了一個消費類盤進行連續(xù)擦寫,一個興趣就掛了,這是不同的應用場景,這也是由顆粒質(zhì)量所決定的。

宋家雨:我剛才說的寫是寫滿,如果是U盤的話把它寫滿看能寫多少次。咱們一般來講這樣的盤寫滿機會并不多,寫很多次也不多,但是企業(yè)級不是這樣的狀況,它是7×24小時不斷擦寫。所以關(guān)于顆粒這塊我們要了解到一個是顆粒特性,另外是顆粒的擦寫的方式。

李炫輝:另外我想補充一點,就是關(guān)于數(shù)據(jù)的持久性保存,因為當有一個磁盤系統(tǒng)上面存了數(shù)據(jù)之后我在斷電之后可以斷電一個月、兩個月甚至一年,我在重新啟動的時候上面的數(shù)據(jù)是不會錯誤的,我仍然還可以讀出,這是由磁介質(zhì)特性決定的。但是如果將一個設(shè)備存在現(xiàn)在的閃存盤上,長時間斷電情況下就有可能出現(xiàn)數(shù)據(jù)丟失的問題,因為閃存是靠電驅(qū)動,長時間沒有外部供電會出現(xiàn)電位丟失就會出錯。當我們應用的在企業(yè)級環(huán)境里邊,當存在這樣的特殊情況我們要考慮到數(shù)據(jù)的保持性。

宋家雨:說到顆粒很多用戶會關(guān)心耐讀、耐寫,關(guān)于寫壽命問題可能大家會很擔心。這方面應該怎么看?

李炫輝:顆粒的寫壽命也是一個物理性指標。這個也是一個統(tǒng)計出來的數(shù)據(jù),就是說每一個顆??刹翆懙拇螖?shù)實際上是有限的,大概是在什么范圍里?比如現(xiàn)在比較流行的MLC,它的擦寫范圍是35005000次。比如像SLC,從原來的10萬次衰減到大概89萬次,這個是擦寫次數(shù)物理的限制。因此這個里面還要考慮到我們在企業(yè)級應用里邊寫入的壓力大概會有多大,我們會希望這個設(shè)備能使用多久,也會要考慮到這樣的一些底層的顆粒的指標。

宋家雨:因為時間關(guān)系,我們還是準備了一些話題的。對于顆粒大家有什么話題想交流?

616764.jpg@600w_96Q_1x

嘉賓提問環(huán)節(jié)

嘉賓:當數(shù)據(jù)下到盤的時候,盤為了降低CATCH會不會把這個數(shù)據(jù)看起來?如果看起來這時候突然斷電了,這個數(shù)據(jù)會不會丟?會有什么技術(shù)保證這點?

李炫輝:這是做閃存技術(shù)里面首要要考慮的問題,所有的數(shù)據(jù)如果直接落到顆粒上對它的磨損很嚴重,如果用CATCH之后怎么保持數(shù)據(jù)在斷電情況下不丟失?;舅械钠髽I(yè)級產(chǎn)品都會用CATCH,因為要保證壽命問題,為了保證不丟失往往采用滿載電池供電方式進行持久化維持,并且不同廠商設(shè)置的機制不一樣。因為我們知道原來我們的CATCH控制器里也有CATCH,但是電池會支持24小時,超過24小時數(shù)據(jù)可能會丟了,因為它是在CATCH里面的。但是在閃存設(shè)計里面有的是采用這種方式,還是維持在CATCH里面,真的撐不住了可能會丟掉。還有當電路偵測到外部停止供電之后我會把CATCH的數(shù)據(jù)寫回到顆粒,當下一次再啟動的時候,會把原來的CATCH數(shù)據(jù)返回到CATCH里面。這個時候這里面不同的產(chǎn)品里面可能就會有一些感覺,你會發(fā)現(xiàn)有的閃存卡掉電之后,再加載啟動的時候過幾分鐘才可以用,不是馬上可用的,所以會帶來意外斷電的保護機制,這也是每個廠商都有自己的專門的設(shè)計的專利。

宋家雨:CATCH是不是越大越好?

李炫輝:因為64B或者8GB,小B的環(huán)境下CATCH的命中率和優(yōu)化空間其實都是在設(shè)計過程中要算的,并且我們知道CATCH都是LPDUR做的,如果CATCH大的,滿載功耗就會很大,散熱量很大,對穩(wěn)定性還會有反面影響。這個要通過計算,在芯片設(shè)計過程中就要考慮的。

嘉賓:如果對于寫操作來講,在SSD盤里面有沒有CATCH對性能影響多大,對SPD影響肯定會非常大。如果是只寫的情況,即便是SSD讀的時間也比寫的時候高很多,差別是來自于SSD盤的CATCH,如果CATCH可以關(guān)掉,對外宣傳延遲或者RPS會有很大差異。

李炫輝:一般來講存儲有一個關(guān)鍵指標叫延遲,如果說我們不要CATCH的話,它的延遲會好,因為它要在中間,在CATCH轉(zhuǎn)一層做合并,這時候它的延遲會長一些。但是如果把CATCH拿掉,直接寫,會看到你的延遲很好。但是長時間情況下你的耐久性會差,你對顆粒磨損很嚴重,會很快壞掉,產(chǎn)生大量壞塊,所以要做折中,究竟產(chǎn)品用在什么場景里。大塊IO也一樣會,因為大塊IO寫入,上層還是要根據(jù)空白塊來做你的IO分配,也就是早期你會看到它的性能很快,但是慢慢慢慢快充滿的時候,你的連續(xù)塊就會越來越少,這時候性能一下就掉下來了。

嘉賓:您剛才提到閃存顆粒用時間久了性能衰退會存在,衰退弧度是什么?

李炫輝:每個廠商都不一樣。

嘉賓:大概呢?

李炫輝:大的有一半以上的,這個衰退要從幾個層面設(shè)計的。第一個你是否考慮留更多的OP,OP越大性能差距越小,OP大了你的成本就高了。第二個問題你的架構(gòu)設(shè)計,因為性能衰減還有一塊是后期錯誤率搞了,你要矯驗做恢復,你的矯驗處理能力能不能達到?校驗一般用引擎處理,要么用很強大的引擎,或者用更多的矯驗引擎處理,這里也帶來發(fā)熱量、成本問題,所有設(shè)計都要考慮一個綜合的設(shè)計。有的時候真的是一分價錢一分貨?,F(xiàn)在出來閃存的系統(tǒng)廠商非常多,國內(nèi)就進入了低價競爭的態(tài)勢,而用戶又往往無法區(qū)分這個產(chǎn)品到底如何。因為剛開始的時候會覺得都一樣,但只有使用過一段時間才會有差異,那么那時候可能已經(jīng)晚了。

嘉賓:這個問題不見得只和介質(zhì)顆粒有關(guān)系,可能還可控制有問題。問題是這樣,比如我們拿著某一個廠商的SSD盤做一個只讀的測試,比如32K的,盤上的時間大概是0.2幾個毫秒,但是在這個系統(tǒng)里如果進行一些管理命令,還不知道哪些命令引起的,這些延遲有可能跳到200個毫秒的量級上來。哪種操作可能會引發(fā)這么大量的延遲增加?不確定哪種指令引發(fā)的,從您的觀點來看是不是哪些指令會引發(fā)?

?李炫輝:會。因為閃存底層有一些隊列機制,這個隊列機制實際上會影響到它的性能,比如我們知道我可以在我的硬件上生成16個隊列、34、62個隊列。我隊列越多我的好處是什么?我的好處是我可以在高并發(fā)情況下,整個上層應用的延遲比較少,我可以處理更多的任務(wù),但是隊列多也帶來一個問題,當我的并發(fā)不足的時候,你會產(chǎn)生一個隊列不能充滿,而下層閃存取數(shù)據(jù)的時候,當一個隊列被充滿的時候會有一個門鈴機制,到一個隊列滿了會按一下門鈴,下頭底層處理器就知道你的數(shù)據(jù)滿了,就取體的數(shù)據(jù),放在底層的顆粒上,但是不滿的情況下會出現(xiàn)一個等待超時,如果你一直不按門鈴,我底層去做了一個設(shè)計,說我要等到比如20毫秒,你沒按,那我就去看看,有沒有數(shù)據(jù)我都取走,這時候可能會存在突然高的延時。并且在閃存底層的設(shè)計往往比較專用的架構(gòu)每一家都不一樣,所以你就會看到在不同的場景里面,同樣大家都是閃存可能表現(xiàn)的現(xiàn)象就不一樣。

【更多行業(yè)資訊,請關(guān)注DOIT官方微信(微信號:doitmedia),關(guān)注科技與數(shù)據(jù)經(jīng)濟,洞察IT走向DT?!?/p>

分享到

zhangnn

相關(guān)推薦