針對海量存儲系統(tǒng)的備份實現(xiàn),以下圖示(圖12-5)的是統(tǒng)一的實現(xiàn)架構。


圖12-5 統(tǒng)一實現(xiàn)架構


    12.2.1 遠程備份容災

    遠程備份(e-vaulting)級別容災滿足哪種需求

    針對對于恢復時間要求較高,而且有可能還沒有在本地實施備份系統(tǒng)的的部門,通過遠程網(wǎng)絡直接將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中,可以大大提高容災系統(tǒng)的RTO 和RPO,由于海量存儲系統(tǒng)具備最為妥善的介質保存措施,不但可以將這些備好數(shù)據(jù)的介質安全的保護起來,而且可以最大程度地保證介質的數(shù)據(jù)可恢復性。

    采用這種容災方式,一般要求恢復的數(shù)據(jù)時間點在災難發(fā)生前的幾十分鐘到幾個小時;而從災難發(fā)生后,需要完成從恢復系統(tǒng)、恢復數(shù)據(jù)、直到實現(xiàn)對外提供應用服務這么一整套的恢復工作,所需要時間大約為幾小時到一天。

    工作流程

    遠程備份級別容災的工作流程如下圖所示:


圖 12-6 遠程備份級別容災的工作流程


    首先海量存儲系統(tǒng)按照事先和各部門協(xié)商所制定的容災計劃,定期(每天的某個時刻)自動啟動各部門的備份工作,將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中。

    備份數(shù)據(jù)會按照部門、日期、保存時間、數(shù)據(jù)類型等關鍵信息分類地存放在存儲池中,同時會再空閑時備份到磁帶中,并被保存到溫濕環(huán)境適當、門禁嚴格、可防范多種災害(如火災、水災等)的安全區(qū)域,海量存儲系統(tǒng)還為這些數(shù)據(jù)建立了完善的數(shù)據(jù)庫及其應用管理系統(tǒng),以便快速的存取,并提供網(wǎng)上的數(shù)據(jù)備份查詢服務。

    而當出現(xiàn)故障或自然災害等災難時,在出現(xiàn)災難的部門的本地數(shù)據(jù)備份完全丟失的情況下,海量存儲系統(tǒng)可以按照該部門的要求將完成數(shù)據(jù)恢復所需的所有數(shù)據(jù)通過網(wǎng)絡恢復到該部門指定的備用服務器上,由該部門的技術人員(或在海量存儲系統(tǒng)技術人員的協(xié)助下)完成應用的重新啟動和對外開放;海量存儲系統(tǒng)也可以按照該部門的要求將將完成數(shù)據(jù)恢復所需的所有物理介質通過人工運輸?shù)皆摬块T指定的地點,由該部門的技術人員(或在海量存儲系統(tǒng)技術人員的協(xié)助下)完成數(shù)據(jù)恢復工作。

    整個備份恢復的過程如果完全采用網(wǎng)絡傳輸,甚至在本地不需要做備份;所以如果該部門技術人員甚至不需要掌握備份和恢復技術,在實施時可以大大加快進度。

    上述是一種原理性的容災實施步驟,簡化的標準可實施的流程如下:


  1. 和相關需要遠程備份級別容災的部門的技術及業(yè)務一起制定詳細的DRP 計劃,包括備份策略、恢復策略、雙方指定聯(lián)系人等;
  2. 必要的話,海量存儲系統(tǒng)可以對該部門人員(技術和業(yè)務)進行容災知識培訓,并幫助其完成DRP 計劃;
  3. 海量存儲系統(tǒng)協(xié)助該部門完成遠程備份系統(tǒng)客戶端及安全通信網(wǎng)絡的搭建;
  4. 海量存儲系統(tǒng)和遠程備份部門按照DRP 計劃,按期執(zhí)行遠程備份工作;
  5. 在海量存儲系統(tǒng)將數(shù)據(jù)保存在存儲池中的同時,制作一份磁帶拷貝副本,并將其分門別類地存放在具備良好存放條件的遠程備份區(qū),同時要建立完備的數(shù)據(jù)備份數(shù)據(jù)庫和管理系統(tǒng);
  6. 數(shù)據(jù)保存期間,海量存儲系統(tǒng)負責監(jiān)控數(shù)據(jù)的安全性;而備份的磁帶介質在存放期間,海量存儲系統(tǒng)一面要按照保存的時效完成介質的更換或歸檔;一面定期對介質進行倒帶、防霉等維護操作,
  7. 各遠程備份部門可以通過海量存儲系統(tǒng)對外開放的服務系統(tǒng),完成諸如查詢數(shù)據(jù)備份記錄,更改DRP 計劃等工作;
  8. 海量存儲系統(tǒng)應當配合遠程備份部門定期實施DR 演練,確保DRP 計劃在災難真正來臨是起到真正的作用;
  9. 當災難來臨時,按照預先制定的DRP 計劃,快速實施數(shù)據(jù)恢復工作。

    系統(tǒng)架構

    遠程備份/容災系統(tǒng)在海量存儲系統(tǒng)的總體邏輯拓撲結構如下圖所示:


圖12-7 遠程備份/容災邏輯圖


    整個系統(tǒng)主要由備份服務器、備份用磁盤陣列和磁帶庫三部分組成。此外備份客戶端安裝在遠程的各部門服務器上,而網(wǎng)絡主要完成數(shù)據(jù)的可靠和安全傳輸。

    為了保證7×24 的備份服務,無論是內(nèi)網(wǎng)、外網(wǎng)還是互聯(lián)網(wǎng)都是各由多臺服務器組成一個備份服務器集群,當集群中某臺服務器出現(xiàn)故障時,可以由其他服務器接替它的的工作。

    而備份服務器的主要工作有:

    在執(zhí)行遠程備份操作時,指引遠程傳輸過來的備份數(shù)據(jù)流向備份用磁盤陣列;而在空閑時(沒有遠程備份操作時),再將磁盤陣列的數(shù)據(jù)備份到磁帶庫中。

    磁盤陣列是遠程備份的近線存儲,主要是為了提高備份的速度,最好地利用網(wǎng)絡帶寬。

    磁帶庫負責最終保存?zhèn)浞莸臄?shù)據(jù)。

    而遠程備份管理應用系統(tǒng)主要負責遠程備份的自動化管理;在數(shù)據(jù)到備份到存儲池中時,海量存儲系統(tǒng)的遠程備份管理應用系統(tǒng)就會及時地將備份數(shù)據(jù)的相關信息保存起來。這樣遠程備份管理應用系統(tǒng)中就會保存有所有遠程備份的相關信息,一方面供海量存儲系統(tǒng)內(nèi)部管理使用,一方面可以允許用戶可以通過Web 瀏覽器查詢自己的相關容災信息。同樣為了安全起見,這里建立了內(nèi)網(wǎng)和外網(wǎng)兩套管理應用系統(tǒng)。

    遠程備份容災系統(tǒng)的特點


    遠程備份容災系統(tǒng)需要考慮的要素:

    為了有效的提供遠程備份服務,不能簡單的將現(xiàn)有的本地備份技術應用于遠程備份,因為這樣將使得遠程備份的成本、效率和服務質量非常低下,從而嚴重阻礙遠程備份服務的開展。因此在建設遠程備份系統(tǒng)時,需要在現(xiàn)有的備份技術基礎上著重考慮以下幾個因素:

    減少存儲投資

    一方面是解放硬件資源,降低實現(xiàn)同一任務所需要的設備要求;另外一方面是資源的充分利用,解決如何降低磁盤容量需求,提高磁盤利用率等因素,降低客戶在享受該服務時需要支付的設備成本。

    減少網(wǎng)絡帶寬需求

    帶寬對于本地備份而言不是關鍵問題,但如果需要實現(xiàn)異地備份,則是非常重要的一個成本因素,如果用戶為了享受該服務而必需支付昂貴的帶寬租用費的話,那將是一個非常高的成本。因此需要采取一切措施減少遠程備份所需要的帶寬資源。

    提高服務質量,保證服務級別

    提供遠程備份服務的目的是保證用戶系統(tǒng)在出現(xiàn)故障后能夠恢復、并且能夠在規(guī)定的時間內(nèi)恢復。

    降低管理費用

    對普通的存儲系統(tǒng)而言,按照Gartner Group 的報告,其管理費用是購置成本的8 倍。對幾種存儲系統(tǒng)而言,管理變得更復雜,對服務的要求更高,這一比例相應更大。管理費用分為兩個部分:對設備的維護管理和提供的服務。先進的技術,規(guī)劃良好的系統(tǒng)結構和專業(yè)人員隊伍能極大地降低維護費用。

    客戶端的多樣性和服務平臺的統(tǒng)一性

    由于備份客戶端會因為不同部門的不同應用而不同,但在海量存儲系統(tǒng)可以采用統(tǒng)一平臺的備份服務器為各種備份客戶端提供服務。

    外網(wǎng)/互聯(lián)網(wǎng)與內(nèi)的區(qū)別

    外網(wǎng)/互聯(lián)網(wǎng)的數(shù)據(jù)大、服務多,所以采用的服務器數(shù)量較多,內(nèi)網(wǎng)的服務器數(shù)量較少。

    12.2.2 存儲資源監(jiān)控

    存儲管理和監(jiān)控對于了解、監(jiān)控與管理規(guī)模較大的存儲網(wǎng)絡是十分必要的。對于容災系統(tǒng),這些管理可以有效的幫助位于數(shù)據(jù)中心與管理中心的管理人員從網(wǎng)絡、系統(tǒng)層面上進行全面集中的監(jiān)控,為將來的發(fā)展以及整個存儲網(wǎng)絡的管理搭建管理框架,并且進一步保證各子系統(tǒng)的管理與維護。

    存儲資源管理(SRM)是一組互為補充的產(chǎn)品、標準和進程,用來對物理及邏輯存儲在可用性、容量、配置和性能等方面進行報告,分析和自動管理. –引自 Gartner

    簡單地說,SRM 提供了一個有關存儲網(wǎng)絡中的存儲容量及其使用狀況的動態(tài)視圖,從而使管理員可以從一個中心管理控制臺監(jiān)控其所有存儲設備的狀態(tài)。即存儲資源管理負責管理存儲網(wǎng)絡上的各種系統(tǒng),包括數(shù)據(jù)庫、郵件系統(tǒng)、磁盤陣列、NAS、備份系統(tǒng)等對硬盤空間、磁帶庫空間的使用管理;監(jiān)控、預測、分析并以各種報表的方式呈現(xiàn)。其主要功能包括:


  1. 空間管理—-搜集空間的使用信息,監(jiān)控空間的使用,實現(xiàn)配額管理、預警、空間回收、數(shù)據(jù)遷移
  2. 容量規(guī)劃—-收集容量消耗的歷史信息,提供容量消耗速率報表,從而輔助完成容量的規(guī)劃
  3. 資產(chǎn)管理—-收集存儲資產(chǎn)信息,提供額外的元數(shù)據(jù)輸入
  4. 事件管理—-監(jiān)控、診斷以及在必要時修復存儲
  5. 性能管理—-收集存儲資源的性能數(shù)據(jù),提供性能分析報表,在物理的極限內(nèi)提高存儲資產(chǎn)的性能
  6. 配置管理—-決定如何對已有的物理存儲資源作出最好的安排

    用于將這些多種多樣的功能串接起來的公用線索是—-它們都是元數(shù)據(jù)驅動的。元數(shù)據(jù)(Metadata,關于數(shù)據(jù)的數(shù)據(jù))匯集了每個被管理的存儲對象的信息,包括數(shù)據(jù)文件(大小、創(chuàng)建日期和屬主)和物理存儲系統(tǒng)(容量和性能特征)。 這些信息可以被那些負責存儲的管理員、數(shù)據(jù)庫管理員,IS 規(guī)劃人員以及IS 執(zhí)行人員用來輔助決策。

    SRM 是對許多具體的存儲管理功能的新的分類方法—-例如容量規(guī)劃和空間管理(這些功能已經(jīng)出現(xiàn)很長時間了)。這種在SRM 下的重新分類簡化了自動化的任務并隱藏了這些管理任務的復雜性,因而可以幫助IS 向存儲公用設施方向發(fā)展。

    12.2.3 存儲網(wǎng)絡管理

    負責發(fā)現(xiàn)、監(jiān)控與管理整個存儲網(wǎng)絡,以及網(wǎng)絡的連接性、每個節(jié)點的狀態(tài)、網(wǎng)絡可用性、系統(tǒng)性能等等,完善的事件管理可以將事件及時地以各種方式報告給管理員。同時,還可以對光纖交換機等網(wǎng)絡設備進行配置管理。

    更具體地說,對各交換機經(jīng)常查看其所處 SAN 架構的運行狀況,及早發(fā)現(xiàn)潛在問題并自動向網(wǎng)絡管理員報警,從而消除了隱患,避免了故障的進一步升級。

    通過跟蹤廣泛的fabric 事件,為SAN 解決方案傳遞出了最有價值的信息。例如,它應該監(jiān)控:


    在監(jiān)控到各種要素發(fā)生規(guī)定范圍外的變化,應自動、及時地通知管理員,通知的方式應有如下幾種:


  1. 通過向指定e-mail 地址發(fā)送信息的方式提供事件通知
  2. 通過簡單網(wǎng)絡管理協(xié)議(SNMP)發(fā)通知
  3. 事件記錄(Event Log)條目記錄事件
  4. 通過鎖定端口記錄
  5. 通過UNIX 的標準系統(tǒng)記錄和事件接口集成在一起的SYSLOG 發(fā)通知

    同時,網(wǎng)絡監(jiān)控的參數(shù)應可快速配置,并可將監(jiān)控功能集成到一些企業(yè)級管理軟件中。

    12.2.4 系統(tǒng)監(jiān)控管理

    系統(tǒng)管理軟件能夠幫助IT 管理部門持續(xù)的監(jiān)控分布式的異構系統(tǒng)和網(wǎng)絡設備的運行狀態(tài),它可以支持OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS等幾十種操作系統(tǒng)確保管理的擴展性,并且提供非常靈活的體系架構從而有利于管理范圍的伸縮行。海量存儲系統(tǒng)系統(tǒng)要求系統(tǒng)管理軟件具有內(nèi)置的智能包括高級事件關聯(lián)Advanced Event Correlation (AEC)可以提供根源分析的能力,快速隔離非根源事件并迅速發(fā)現(xiàn)故障原因。

    12.2.5 服務管理

    服務水平管理

    海量存儲系統(tǒng)實際上是一個數(shù)據(jù)存儲,備份和再處理中心,為各種用戶提供高質量的IT 服務;為此需要海量存儲系統(tǒng)具有很高的服務水平(Service Level)。以往一般是依靠嚴密的數(shù)據(jù)中心管理制度等人為方法來保證,但多年的實踐經(jīng)驗說明需要采用可視化的、量化的管理方式和手段,所以容災在制定完善的服務水平管理規(guī)范的同時,也要采用高效的管理軟件實現(xiàn)計算機化的管理,提高服務響應速度和水平。

    服務水平要求是一個綜合的、基于Web 的解決方案,能夠管理跨越整個海量存儲系統(tǒng)基礎架構的預定義的服務目標。它能夠直接從各種不同來源包括基于SNMP 的應用程序和網(wǎng)絡服務如SMTP、POP、NNTP 和HTTP 等方面收集可用性和性能數(shù)據(jù),其高級配置工具應當允許管理員設置批量報告產(chǎn)生的時間間隔。服務報告基于這些數(shù)據(jù)產(chǎn)生。

    運維管理

    運維管理包括運維規(guī)范和輔助的運維管理系統(tǒng)。運維規(guī)范在《運行維護》一節(jié)做詳細闡述。

    運維管理系統(tǒng)是一個綜合的、集成的智能服務臺解決方案,它可以接受通過Call Center或Web 界面手工提交的問題,也可以自動接收事件管理平臺轉發(fā)的問題,并且按照規(guī)范的處理流程完成問題請求、變更管理以及服務水平管理,科學的自動的完成人力資源分配,確保每個問題及時解決。

    基于運維管理系統(tǒng)建設的IT 服務支持系統(tǒng)是整個系統(tǒng)管理體系的核心。它把用戶、各級支持人員、被管理IT 系統(tǒng)和監(jiān)控管理軟件有機的結合起來,通過服務臺提供的標準化管理模式協(xié)同工作,使整體IT 服務支持體系達到高效、有序、迅捷的預期目標,從IT 服務支持的基礎方面保障各項業(yè)務系統(tǒng)的高效運行。

分享到

多易

相關推薦