磁頭、磁盤和空氣軸承共同構成了硬盤頭盤界面( Head Disk Interface, HDI),作為硬盤執(zhí)行讀寫數(shù)據的工作環(huán)境,其實時狀態(tài)的好壞決定了硬盤能否正常為用戶提供服務。頭盤空間和飛行高度不僅影響信號的強度和分辨率,而且與硬盤的磁存儲密度有著密切關系,隨著磁存儲密度的提高,頭盤空間和飛行高度也相應地減小, 如今通過TFC(Thermal Fly-height Control Technology, 熱飛高控制技術)已經能將頭盤空間控制在1nm 左右,在極小空間,磁頭磁盤難免會發(fā)生碰撞接觸。
機械硬盤由于具有結構精密、復雜性高、耦合性強及抗沖擊能力弱等特點,擁有多種潛在故障模式與機理,研究硬盤故障模式、原因、機理與可靠性試驗已成為提高機械硬盤可靠性、保障存儲系統(tǒng)穩(wěn)定、數(shù)據安全的重要基礎。
經過近十年的研究,硬盤頭盤界面相關研究逐漸成為硬盤故障機理研究的熱點方向,各硬盤廠商和國內外學者在硬盤故障機理方面進行了大量理論與試驗研究。三星公司研究結果表明頭盤界面故障是影響硬盤可靠性的主要因素,60%以上的故障與頭盤界面有關;香港城市大學對硬盤的故障模式和機理進行分級排序,確定了硬盤的主要故障模式和機理為頭盤間磨損、過應力和磁頭臂組件的共振。
實際上,產品故障或失效一般可以分為漸變失效和突變失效兩類,其中漸變失效在產品失效中占 70%~80%,是產品失效的主要形式。盡管機械硬盤擁有多種故障模式和機理,但統(tǒng)計發(fā)現(xiàn)超過 60%的故障是由機械故障導致的,而且機械故障是緩慢退化的過程,這對開展硬盤加速退化試驗、故障預警和剩余壽命預測具有重要參考意義。
從用戶層面上來看,無法找到數(shù)據或數(shù)據已損壞是硬盤完全失效前表現(xiàn)出來的主要故障形式,而這一問題一般就被歸結為硬盤頭盤界面問題。在硬盤故障機理研究領域,硬盤頭盤間的磨損、過應力和磁頭臂組件的共振這三種潛在故障機理風險最高,與之對應的頭盤界面和磁頭臂組件成了硬盤主要的故障源。
事實上,據三星公司統(tǒng)計,從硬盤加速壽命試驗、可靠性驗證試驗以及現(xiàn)場反饋數(shù)據中反映出,頭盤界面相關失效形式分別占到了各自總體失效的 64%、 77%和 64.6%,可以看出頭盤界面是影響硬盤可靠性的主要因素,而頭盤界面相關失效主要由頭盤接觸引起。
從介質和存儲系統(tǒng)多層次保障數(shù)據可靠與可用
隨著信息技術的快速發(fā)展,數(shù)據中心的數(shù)據越來越多,給存儲系統(tǒng)可靠性和可用性的巨大挑戰(zhàn)。為了構建高可靠、高可用的存儲系統(tǒng),系統(tǒng)設計者以及存儲領域研究者越來越關注存儲系統(tǒng)可靠性預測研究。
尤其存儲系統(tǒng)的架構演變,存儲組織和冗余布局也從設備(硬盤)視角變?yōu)閿?shù)據(文件、對象)視角。但現(xiàn)有硬盤故障預測方法只是一種設備視角的可靠性動態(tài)評價,即孤立地給出硬盤個體的健康或潛在故障的評級,并未考慮它對系統(tǒng)(數(shù)據)可靠性的影響,如對于一個預警硬盤,如果它所屬的某些校驗組已經處于降級模式,只要再發(fā)生一個故障就會出現(xiàn)數(shù)據丟失,那么該預警硬盤的健康狀況對系統(tǒng)可靠性的影響非常大;相反,如果它所屬的校驗組都處于完全健康的模式,可以容忍一個故障發(fā)生而不丟失數(shù)據,那么該預警盤的健康狀況對系統(tǒng)可靠性的影響較小。因此,有效保障存儲數(shù)據安全的故障預測,不僅要基于硬盤個體的實時健康度評價,更要結合硬盤在系統(tǒng)冗余布局中的角色,從存儲介質和存儲系統(tǒng)不同預測對象角度,綜合評價硬盤潛在故障對系統(tǒng)可靠性的影響,這就相當于給存儲系統(tǒng)帶了“健康手環(huán)”,為數(shù)據可靠性預警處理提供量化依據。
由于硬盤的TPI越來越高,飛高越來越低,軌道間距越來越窄,硬盤針對particle/contamination(顆粒/污染物)的敏感度越來越高。浪潮存儲在和硬盤廠商在產線引入特有的測試方法,通過改變HDA內部的空氣流動,將HDA腔體中散落在角落的particle/contamination攪動至磁碟表面,再通過磁臂的大幅擺動將盡可能多的污染顆粒吹至呼吸過濾器,減少頭碟接觸的風險;另外這種測試的引入也會盡可能在早期暴露因為游離顆粒產生的頭碟接觸風險,將因機械硬盤失效帶來的數(shù)據丟失隱患降到更低。
為了保證硬盤生命周期內的可靠應用,浪潮存儲通過上百次實驗摸排存儲系統(tǒng)的RV benchmark(旋轉振動基準)去確認外界振動對機械硬盤和系統(tǒng)性能的影響,通過優(yōu)化系統(tǒng)結構剛度,增加阻尼材料,吸震材料減少風扇振動對系統(tǒng)剛度的影響;同時從硬盤本體系統(tǒng)振型角度著手,通過檢測系統(tǒng)功率譜識別設計結構中比較脆弱的頻率段,通過和硬盤廠商技術合作,在伺服系統(tǒng)里增加前置反饋,notch filter(陷波濾波器)降低因為系統(tǒng)本身比較脆弱的抗沖擊能力,增加整個系統(tǒng)的魯棒性,改善硬盤的抗震性能,使硬盤在系統(tǒng)100%風扇轉速,測試4種不同讀寫模式的IOPS吞吐量均可以維持在97%以上,有效保障數(shù)據的可靠、可用。
浪潮存儲秉承“云存智用 運籌新數(shù)據”的存儲理念,和合作伙伴一起合作進行技術創(chuàng)新,從介質、系統(tǒng)、應用全面的保障數(shù)據生命周期內的可靠、可用;未來浪潮存儲從場景出發(fā),持續(xù)打造“安全、可靠、經濟、高效”的存儲平臺,加速企業(yè)數(shù)字化轉型。