圖 1) 主動(dòng)/主動(dòng)控制器配置中的多路徑 HA
即使在群集的 NetApp 存儲(chǔ)系統(tǒng)(主動(dòng)/主動(dòng)或 HA 配置)中,多路徑 HA 也可以降低故障轉(zhuǎn)移的發(fā)生機(jī)率,提高可用性。
通過(guò)提供通向存儲(chǔ)的雙倍帶寬,在光纖通道至磁盤架的路徑過(guò)載的情況下,多路徑 HA 還可提供潛在的性能優(yōu)勢(shì)。在需要重建的時(shí)候以及在使用 1Gbit/sec 光纖通道連接的舊系統(tǒng)中,這一性能優(yōu)勢(shì)尤其重要。
在許多情況下,存儲(chǔ)系統(tǒng)上的空閑 FC 端口已經(jīng)可用,因此新增一部分電纜費(fèi)用即可添加多路徑 HA。這是一筆很小的支出,但可帶來(lái)潛在的巨額彈性回報(bào)。
圖 1) 主動(dòng)/主動(dòng)控制器配置中的多路徑 HA
即使在群集的 NetApp 存儲(chǔ)系統(tǒng)(主動(dòng)/主動(dòng)或 HA 配置)中,多路徑 HA 也可以降低故障轉(zhuǎn)移的發(fā)生機(jī)率,提高可用性。
通過(guò)提供通向存儲(chǔ)的雙倍帶寬,在光纖通道至磁盤架的路徑過(guò)載的情況下,多路徑 HA 還可提供潛在的性能優(yōu)勢(shì)。在需要重建的時(shí)候以及在使用 1Gbit/sec 光纖通道連接的舊系統(tǒng)中,這一性能優(yōu)勢(shì)尤其重要。
在許多情況下,存儲(chǔ)系統(tǒng)上的空閑 FC 端口已經(jīng)可用,因此新增一部分電纜費(fèi)用即可添加多路徑 HA。這是一筆很小的支出,但可帶來(lái)潛在的巨額彈性回報(bào)。
技巧 2:提供合適的備用磁盤驅(qū)動(dòng)器數(shù)量
在 NetApp 存儲(chǔ)中,如果磁盤發(fā)生故障,則會(huì)自動(dòng)觸發(fā)將受影響的數(shù)據(jù)奇偶校驗(yàn)重建到熱備用磁盤中,前提是假設(shè)備用磁盤可用。如果沒(méi)有備用磁盤可用,則不可能執(zhí)行自我修復(fù)操作。系統(tǒng)將以降級(jí)模式運(yùn)行(通過(guò)使用奇偶校驗(yàn)信息重建數(shù)據(jù)的方式來(lái)滿足對(duì)故障磁盤上的數(shù)據(jù)請(qǐng)求),直至提供備用磁盤或更換了故障磁盤。在此期間,萬(wàn)一再次發(fā)生故障,您的數(shù)據(jù)丟失的風(fēng)險(xiǎn)大大增加。(如果采用 NetApp RAID-DP?,以降級(jí)模式運(yùn)行的 RAID 組可承受再次發(fā)生的磁盤故障,并且數(shù)據(jù)不會(huì)丟失。)
所需的備用盤數(shù)量隨連接到存儲(chǔ)系統(tǒng)的磁盤驅(qū)動(dòng)器數(shù)量而變化。對(duì)于使用單個(gè)磁盤架的較低端 FAS200 或 FAS2000,一個(gè)備用磁盤足以滿足要求(如果要使用維護(hù)中心,則配置兩個(gè))。在 FAS6080 上,在 1,176 個(gè)磁盤的最大盤數(shù)下,需要更多備用磁盤來(lái)確保最大的存儲(chǔ)彈性,尤其是對(duì)于重建時(shí)間更長(zhǎng)的更大容量的 SATA 磁盤,更是如此。
NetApp 建議為每個(gè)磁盤類型(每 100 個(gè)磁盤驅(qū)動(dòng)器)使用兩個(gè)備用磁盤,磁盤類型由唯一的接口類型(FC、SATA 或 SAS)、容量和轉(zhuǎn)速來(lái)確定。例如,您有一個(gè)系統(tǒng),系統(tǒng)中包含 28 個(gè) 300GB 15K FC 磁盤以及 28 個(gè) 144GB 15K FC 磁盤,則應(yīng)提供四個(gè)備用磁盤:兩個(gè) 300GB 容量,兩個(gè) 144GB 容量。
以后每添加 84 個(gè)磁盤,還應(yīng)當(dāng)再分配一個(gè)熱備盤到備用池。下表提供了一些附加示例來(lái)說(shuō)明此方案。(下表假設(shè)所有磁盤的類型相同。)
磁盤架數(shù) 磁盤數(shù) 建議的備用盤數(shù)
6 84 2
  8 112 3
  12 168 3
  24 336 4
  36 504 6
  72 1,008 12
  2 28 2
  表 1) 根據(jù)相同類型的給定磁盤數(shù)選擇合適的備用盤數(shù)。
  請(qǐng)注意,如果正在使用 NetApp 維護(hù)中心,則至少需要為系統(tǒng)中的每種磁盤類型提供兩個(gè)備用磁盤。維護(hù)中心會(huì)對(duì)磁盤驅(qū)動(dòng)器執(zhí)行主動(dòng)的運(yùn)行狀況監(jiān)控,當(dāng)達(dá)到某些事件閾值時(shí),它會(huì)嘗試對(duì)可疑磁盤驅(qū)動(dòng)器進(jìn)行預(yù)防性維護(hù)。需要兩個(gè)備用磁盤,可疑磁盤驅(qū)動(dòng)器才能進(jìn)入維護(hù)中心進(jìn)行診斷。
  技巧 3:使用 SyncMirror 提供可能的最大彈性
  如果需要的彈性級(jí)別甚至高于 HA 和 RAID-DP 提供的彈性級(jí)別,請(qǐng)考慮使用本地或 MetroCluster 配置的 SyncMirror。
  本地 SyncMirror 提供同一個(gè)存儲(chǔ)控制器上兩個(gè)不同傳統(tǒng)卷或聚合之間的同步鏡像,以確保數(shù)據(jù)的重復(fù)副本存在。自 Data ONTAP? 6.2 起此功能可用。SyncMirror 提供的鏡像在 RAID 層保護(hù)(V 系列中的 RAID 4、RAID-DP 或 RAID 0)之上。
  SyncMirror 在兩個(gè)鏡像的存儲(chǔ)池(稱為叢)之間條帶化數(shù)據(jù),這樣可以改善磁盤負(fù)荷的讀取性能。它可以在鏡像間的多個(gè)磁盤同時(shí)發(fā)生故障時(shí)提供更強(qiáng)保護(hù)。使用 RAID-DP 的 SyncMirror 的容錯(cuò)能力很強(qiáng),它可在鏡像的 RAID 組中有多達(dá)五個(gè)磁盤同時(shí)發(fā)生故障時(shí)仍確保數(shù)據(jù)的可用性。由于 SyncMirror 采用本機(jī) NetApp Snapshot? 技術(shù)來(lái)維護(hù)同步的檢查點(diǎn),在與一個(gè)叢的連接丟失之后重新同步所花費(fèi)的時(shí)間將更少。只有在最新的 Snapshot 檢查點(diǎn)之后更改過(guò)的數(shù)據(jù)才需要同步。
  如果與 MetroCluster 配合使用,SyncMirror 還提供地理災(zāi)害的容災(zāi)能力。SyncMirror 需要作為 MetroCluster 的一部分,才能確保在源數(shù)據(jù)中心不可用時(shí),遠(yuǎn)程數(shù)據(jù)中心中仍存在一份相同的數(shù)據(jù)副本。如果在主動(dòng)/主動(dòng)模式配置中使用,SyncMirror 可提供最高的彈性級(jí)別,以確保數(shù)據(jù)持續(xù)可用。
  技巧 4:有效使用 HA 配置,以實(shí)現(xiàn)不間斷升級(jí)
  配置存儲(chǔ)系統(tǒng)具有主動(dòng)/主動(dòng)存儲(chǔ)控制器的 HA 架構(gòu),是消除單點(diǎn)故障和提高彈性的好方法。除消除潛在的計(jì)劃外停機(jī)時(shí)間之外,這些配置還可以減少在不間斷升級(jí)期間的計(jì)劃停機(jī)時(shí)間。
  不間斷升級(jí) (NDU) 使您可以通過(guò)執(zhí)行滾動(dòng)升級(jí),在盡可能不中斷客戶端數(shù)據(jù)訪問(wèn)的情況下透明地升級(jí)主動(dòng)/主動(dòng)存儲(chǔ)系統(tǒng)中的任何組件(軟件、磁盤和磁盤架固件、硬件組件等)。為執(zhí)行不間斷升級(jí),開(kāi)始之時(shí)應(yīng)從各項(xiàng)因素(包括許可證、網(wǎng)絡(luò)訪問(wèn)和配置的協(xié)議)確定兩個(gè)存儲(chǔ)控制器是相同的。您可以從最新的技術(shù)報(bào)告中了解關(guān)于 NDU 的更多信息。
  確保升級(jí)順暢進(jìn)行的最佳做法是預(yù)先妥善檢查系統(tǒng),以確保系統(tǒng)符合 NDU 要求。如果符合這些要求,則還應(yīng)確保 HA 系統(tǒng)采用優(yōu)化配置,以提供可能的最大彈性和數(shù)據(jù)可用性。NetApp 提供了一組自動(dòng)化工具使此想法成為可能,如下節(jié)所述。
技巧 5:使用自動(dòng)化工具驗(yàn)證存儲(chǔ)配置
  不管是采用群集的 HA 存儲(chǔ)系統(tǒng)還是單控制器配置,特別是在升級(jí)之前,請(qǐng)務(wù)必確保安裝的硬件、固件和軟件是正確的。您可能有數(shù)十個(gè)磁盤架和數(shù)百或數(shù)千個(gè)磁盤,此任務(wù)可不是小菜一碟。幸運(yùn)的是,NetApp 全球服務(wù) (NGS) 開(kāi)發(fā)了一組工具以將這些流程自動(dòng)化,否則這可真是一件乏味而易出錯(cuò)的工作。定期運(yùn)行這些工具可以提高存儲(chǔ)系統(tǒng)的彈性并簡(jiǎn)化操作。
  群集配置檢查程序 (Cluster Configuration Checker)
  此工具將檢測(cè)并找出故障轉(zhuǎn)移問(wèn)題的最常見(jiàn)配置原因:
  • 許可證不一致
  • 選項(xiàng)設(shè)置不一致
  • 網(wǎng)絡(luò)接口配置不正確
  • 本地節(jié)點(diǎn)和合作伙伴節(jié)點(diǎn)上的 Data ONTAP 版本不同
  • 這兩個(gè)節(jié)點(diǎn)之間的 cfmode 配置設(shè)置不同
  群集配置檢查程序也可作為 NetApp Operations Manager 的一部分提供。
  升級(jí)顧問(wèn) (Upgrade Advisor)
  升級(jí)顧問(wèn)設(shè)計(jì)為一次性解決方案,以使存儲(chǔ)系統(tǒng)符合 Data ONTAP 升級(jí)要求。此工具使用實(shí)時(shí)的 AutoSupport 數(shù)據(jù),首先將確定系統(tǒng)合格相關(guān)的每條警告和要求的過(guò)程(通常是一個(gè)痛苦的手工過(guò)程)自動(dòng)化,然后生成逐步升級(jí)計(jì)劃,以在升級(jí)和停止升級(jí)時(shí)使用。
  升級(jí)顧問(wèn)的公共版本通過(guò) Premium AutoSupport 界面向客戶提供,后者在購(gòu)買 SupportEdge Premium 時(shí)已包括在內(nèi)。其他客戶可通過(guò) NGS 或 NetApp 專業(yè)服務(wù),間接使用升級(jí)顧問(wèn)讓他們的環(huán)境符合要求。

圖 2) 升級(jí)顧問(wèn)
  總結(jié)
  除非太遲,否則請(qǐng)勿認(rèn)為存儲(chǔ)系統(tǒng)理所當(dāng)然是有彈性的。采取本文所述的一些前瞻性步驟,可以進(jìn)一步提高存儲(chǔ)系統(tǒng)的彈性。多路徑 HA 消除了至后端存儲(chǔ)的單點(diǎn)故障,有助于改進(jìn)性能的一致性。配置合適的備用盤數(shù)可確保當(dāng)磁盤發(fā)生故障時(shí)立即開(kāi)始磁盤重建,限制無(wú)保護(hù)風(fēng)險(xiǎn)。SyncMirror 為關(guān)鍵數(shù)據(jù)操作提供可能的最大彈性。NDU 減少或消除了升級(jí)和增強(qiáng)期間的計(jì)劃停機(jī)時(shí)間,使用自動(dòng)化工具的定期系統(tǒng)驗(yàn)證可確保配置正確無(wú)誤,同時(shí)簡(jiǎn)化升級(jí)規(guī)劃。
分享到

hanrui

相關(guān)推薦