(曙光星云Gridview集群監(jiān)控管理系統(tǒng)監(jiān)控界面)
“曙光星云”是國內(nèi)首臺實(shí)測性能超千萬億次的超級計(jì)算機(jī),其每秒系統(tǒng)峰值達(dá)三千萬億次(3PFlops),每秒實(shí)測Linpack值達(dá)1271萬億次。如此龐大的系統(tǒng),各節(jié)點(diǎn)的運(yùn)行狀況如果人工維護(hù)的話,將是一個(gè)很費(fèi)時(shí)費(fèi)力的工作。為了使整個(gè)系統(tǒng)高效運(yùn)行,曙光“星云”系統(tǒng)安裝了Gridview集群管理軟件來實(shí)現(xiàn)對機(jī)群進(jìn)行監(jiān)控管理。
四層邏輯 優(yōu)先管理
曙光Gridview是曙光公司自主研發(fā)的一款集作業(yè)調(diào)度、集群管理、集群監(jiān)控為一體的高效管理平臺,滿足大規(guī)模環(huán)境下的集群統(tǒng)一監(jiān)控、統(tǒng)一管理、統(tǒng)一報(bào)警、統(tǒng)一配置等諸多問題。
為保證超級計(jì)算機(jī)整個(gè)工作流程的通順安全,Gridview在每個(gè)計(jì)算機(jī)上實(shí)行四大邏輯層次,分別為:硬件信息采集層、資源整合共用平臺層、核心模塊層和服務(wù)交付層。四層邏輯有條不紊地對從各監(jiān)控節(jié)點(diǎn)系統(tǒng)采集來的信息資源進(jìn)行優(yōu)先管理。信息通過采集層向上層提供資源信息時(shí),數(shù)據(jù)信息被分類存儲在數(shù)據(jù)庫中,作為元數(shù)據(jù)向上層提供數(shù)據(jù)服務(wù)。各模塊之間獨(dú)立開發(fā),共享整合的公用平臺數(shù)據(jù)信息,可以對元數(shù)據(jù)進(jìn)行自由裁剪,以適應(yīng)模塊開發(fā)需求。并且可以按照需求,增加新的模塊到平臺中,做到各模塊之間的有效兼容,向用戶提供統(tǒng)一的web接口,實(shí)現(xiàn)對集群的管理和運(yùn)維,將整合的資源信息以Portal形式表現(xiàn),對歷史數(shù)據(jù)分析,為用戶提供統(tǒng)一的作業(yè)調(diào)度界面。曙光Gridview整個(gè)用戶界面統(tǒng)一集中,條理清晰。
(曙光Gridview 四層邏輯結(jié)構(gòu))
多功能管理護(hù)衛(wèi)“曙光星云”系統(tǒng)
在曙光Gridview系統(tǒng)中,采用了模塊化、可插拔的設(shè)計(jì)理念,產(chǎn)品具備很強(qiáng)的靈活性、可擴(kuò)展性,能夠充分滿足不同用戶的需求,而且對異構(gòu)集群具有完全監(jiān)控能力。
曙光Gridview擁有強(qiáng)大的集群管理功能和歷史運(yùn)行狀況記錄,在運(yùn)行時(shí),Gridview系統(tǒng)可以支持集群操作系統(tǒng)的整體部署、鏡像保存和恢復(fù)、指定節(jié)點(diǎn)的系統(tǒng)安裝和恢復(fù)、集群賬戶管理、文件管理、進(jìn)行管理、作業(yè)管理等各種集群管理功能。
在對敏感的風(fēng)險(xiǎn)點(diǎn)進(jìn)行閾值控制時(shí),一旦發(fā)現(xiàn)有異常狀況發(fā)生,曙光Gridview會迅速觸發(fā)預(yù)警機(jī)制,發(fā)出告警通知,第一時(shí)間迅速定位風(fēng)險(xiǎn)位置,為準(zhǔn)備處理突發(fā)事件提供參考信息。
與此同時(shí),曙光Gridview還擁有強(qiáng)大的作業(yè)調(diào)度功能,提供作業(yè)管理、隊(duì)列管理、策略配置等多個(gè)功能軟件系統(tǒng),可以在GPU和CPU異構(gòu)的集群環(huán)境中進(jìn)行作業(yè)調(diào)度。用戶可以通過界面提交作業(yè),同時(shí)也可以進(jìn)行多種管理操作。
(曙光Gridview遠(yuǎn)程VNC界面 )
Gridview系統(tǒng)的獨(dú)特功能優(yōu)勢——遠(yuǎn)程圖形界面更具魅力。通過“VNC”管理功能,用戶可在作業(yè)調(diào)度系統(tǒng)中實(shí)現(xiàn)圖形交互式操作,在作業(yè)系統(tǒng)自動(dòng)分配的計(jì)算節(jié)點(diǎn)上遠(yuǎn)程打開CAE等軟件的圖形界面,方便用戶操作。
(曙光Gridview的PORTAL界面)
曙光Gridview V2.6的升級過程,看似漫不經(jīng)心,實(shí)則精心錘煉。作為以高性能計(jì)算集群著稱的公司,曙光一直在探索如何通過進(jìn)一步提升系統(tǒng)性能,為用戶提供更好的集群管理系統(tǒng),曙光Gridview V2.6系統(tǒng)可以看作是其在管理軟件領(lǐng)域探索的又一山峰。有理由相信,曙光公司用領(lǐng)先的技術(shù)保障“曙光星云”系統(tǒng)穩(wěn)定運(yùn)行的同時(shí),其在管理軟件領(lǐng)域的市場地位也必將取得更大的突破。