監(jiān)控數(shù)據(jù)中心要制定很多規(guī)劃,這是因為有許多不同的方面都需要進行監(jiān)控。你很容易將數(shù)據(jù)中心監(jiān)控看做是服務器上的制表工作,但實際上數(shù)據(jù)中心監(jiān)控比這要復雜的多。舉例來說,微軟出品的System Center Operations Manager可以在監(jiān)控Windows Servers上做大量工作,這樣所需的規(guī)劃配置就比較少。但如果你的服務器運行的不是Windows操作系統(tǒng),那么ystem Center Operations Manager就沒有用武之地。
除了服務器操作系統(tǒng)和應用軟件之外,還有其他的要素需要進行監(jiān)控。舉例來說,保持數(shù)據(jù)中心溫度恒定的監(jiān)控就很重要。多數(shù)服務器都有內置的安全裝置,如果服務器的溫度超出了特定的臨界值,安全裝置就會在危險發(fā)生之前關閉服務器。好的監(jiān)控解決方案應該能夠告訴你數(shù)據(jù)中心周圍環(huán)境的溫度,如果指定服務器的溫度開始接近臨界值時,監(jiān)控解決方案就會向你發(fā)出警報。
能量管理也是如此。如果電源發(fā)生故障,備份電池應該能讓服務器在線維系一定的時間。規(guī)格更高的數(shù)據(jù)中心可能還會配備備份發(fā)電機。無論如何,你都必須對電源故障提高警惕,你還需要有到位的解決方案來了解在某個指定時間能提供多少備份電源。
一項好的監(jiān)控解決方案必須向管理員發(fā)出有關服務器硬件,操作系統(tǒng)錯誤,應用軟件錯誤,網絡硬件和環(huán)境改變的各項警報。這是一項苛刻的要求,退一步說,這也是為什么說正確的規(guī)劃如此重要的原因。就筆者所知,沒有單一的監(jiān)控解決方案能執(zhí)行所有的這些功能。網絡架構師典型的做法是購買幾種監(jiān)控解決方案,對他們進行設置以統(tǒng)一的方式發(fā)出警報。這種警告可能是以文本信息的方式發(fā)送到管理員的移動設備或者電子郵箱,或者是以其他類型的警報形式發(fā)送到技術支持。重要的事情是所有的警報都到達同一地點。
虛擬化讓數(shù)據(jù)中心網絡監(jiān)控復雜化
當你采購監(jiān)控解決方案時,記住某些因素是很重要的,諸如虛擬化,它會讓監(jiān)控流程變得復雜。舉例來說,在市場上有各種監(jiān)控應用軟件能夠監(jiān)控服務器硬件的故障情況。這種應用軟件可能會對超標的服務器溫度,SMART磁盤警告或者服務器內的制冷風扇故障做出提示。問題是如果監(jiān)控解決方案無法獲知他們監(jiān)控的是虛擬機,它也不可能知道硬件系統(tǒng)會對服務器可用性存在潛在影響。
監(jiān)控軟件處理的應該是主服務器硬件出現(xiàn)的問題。但是如果主服務器處于危險之中,那么任何在主機上運行的虛擬機也面臨同樣的問題。因此如果你的企業(yè)想部署虛擬機,你就必須要辦法能區(qū)分物理服務器和虛擬服務器,了解那個虛擬機在那個主服務器上運行。在硬件發(fā)生故障時,你還必須具備將客戶端服務器快速遷移到不同主服務器上的能力。
最后,管理和監(jiān)控是息息相關的。只有企業(yè)具備完善的管理能力能才保證監(jiān)控發(fā)揮作用。舉例來說,如果管理員沒有辦法解決出現(xiàn)狀況的服務器發(fā)生的故障,監(jiān)控軟件又告訴你就要發(fā)生故障該如何是好呢?因此將監(jiān)控和將數(shù)據(jù)中心內每臺服務器與每個硬件的主要組件的遠程管理相結合是非常重要的。