IBM刀片服務(wù)器在降溫散熱上的特色設(shè)計(jì)
現(xiàn)在隨著服務(wù)器的集成密度越來(lái)越高,像刀片服務(wù)器和機(jī)架服務(wù)器等大量的普及使用,服務(wù)器的散熱受到廠商和用戶的高度重視。對(duì)于刀片服務(wù)器來(lái)說(shuō),高計(jì)算力需要多CPU,而CPU本身以及相關(guān)設(shè)備都需要刀片機(jī)柜具備強(qiáng)大的散熱降溫能力。IBM是采用類似“中央空調(diào)式”的整體散熱技術(shù),來(lái)幫助整個(gè)刀片中心進(jìn)行降溫。IBM刀片中心的散熱系統(tǒng)設(shè)計(jì),是用兩個(gè)冗余的風(fēng)扇對(duì)放置在刀片中心的14片刀片進(jìn)行散熱,就像大酒店的中央空調(diào)能夠?qū)Ω鱾€(gè)房間同時(shí)進(jìn)行散熱。而且刀片中心的散熱系統(tǒng)采用雙冗余設(shè)計(jì),如同配備了兩套酒店的“中央空調(diào)”。
相比之下,一些廠商在進(jìn)行刀片服務(wù)器設(shè)計(jì)改良時(shí),會(huì)做一些非常簡(jiǎn)單的改變??只是簡(jiǎn)單地把一個(gè)服務(wù)器壓扁,仍然為每個(gè)服務(wù)器采用類似“壁掛式空調(diào)”來(lái)幫助每個(gè)刀片單獨(dú)散熱,如同為房間中的每個(gè)人配備一個(gè)“電風(fēng)扇”。但這樣的設(shè)計(jì)可能會(huì)帶來(lái)兩個(gè)問(wèn)題:一、我們需要一個(gè)非常敬業(yè)勤勞的電工每天去檢修每個(gè)“壁掛式空調(diào)”、“電扇”是否正常,如果出現(xiàn)問(wèn)題需要對(duì)每個(gè)散熱設(shè)備進(jìn)行更換;二、僅僅保證了刀片服務(wù)器自身,而忽視了機(jī)柜空間內(nèi)的空氣流通和整體散熱。
IBM刀片中心采用整體散熱設(shè)計(jì)和雙冗余的高速風(fēng)扇配置,則另辟蹊徑、化繁為簡(jiǎn),保證了機(jī)柜散熱上的可靠、高效。不僅如此,IBM設(shè)計(jì)的這套雙冗余的“中央空調(diào)”風(fēng)扇還具有“變頻”功能,在平時(shí)標(biāo)準(zhǔn)使用的時(shí)候,每分鐘150立方英尺的散熱風(fēng)量。當(dāng)它出現(xiàn)溫度預(yù)警、部件故障時(shí),或者一個(gè)風(fēng)扇徹底壞掉,另外一個(gè)風(fēng)扇會(huì)開(kāi)足馬力進(jìn)行工作,每分鐘出風(fēng)量可以達(dá)到325立方英尺的散熱空氣流動(dòng)量。如果有人在這個(gè)時(shí)候站在運(yùn)行中的IBM刀片中心背面,會(huì)發(fā)現(xiàn)風(fēng)量非常大,這個(gè)道理和站在酒店中央空調(diào)的主出風(fēng)口一樣。因此,雙冗余的設(shè)計(jì)保證了不用擔(dān)心單個(gè)風(fēng)扇故障引起的服務(wù)器性能問(wèn)題。
在散熱系統(tǒng)中還設(shè)計(jì)了回流的主力器,空氣的流動(dòng)比較順暢。冷空氣從刀片中心前方進(jìn)入,對(duì)熱的兩個(gè)部件CPU進(jìn)行散熱,然后對(duì)其次的內(nèi)存、芯片、硬盤、直至這兩個(gè)電源的部分,然后由這兩個(gè)風(fēng)扇把變熱的空氣從刀片中抽出來(lái)。
IBM刀片服務(wù)器BladeCenter散熱系統(tǒng)詳細(xì)圖解
IBM的刀片服務(wù)器BladeCenter即為一個(gè)出色的例子。它可為用戶提供占據(jù)空間更小,電源消耗更小,散熱條件更好的服務(wù)器。特別是它大幅度減少了對(duì)電源耗能的需求,自然也減少了系統(tǒng)對(duì)于散熱和冷卻的需求。
1. 電源模塊
BladeCenter刀片服務(wù)器的底盤具有一對(duì)200-240伏的熱交換電源模塊,安裝在電源艙(Power Bays)1和2中,用于給所有刀片服務(wù)器模塊和刀片艙1-6提供電能。此外,BladeCenter服務(wù)器還可以在電源艙3和4中提供第二對(duì)電源模塊,從而為刀片艙7-14提供電能。作為熱插拔的子系統(tǒng),電源模塊可以為處理器刀片和其它電子部件提供直流電壓。兩個(gè)激活的電源模塊(在電源艙1和3)用于驅(qū)動(dòng)插滿14個(gè)處理器刀片的全配置底板、4個(gè)交換機(jī)模塊、2個(gè)風(fēng)扇以及2個(gè)管理模塊。如果要提供全冗余的后備能力,則需要4個(gè)電源模塊。
每一個(gè)電源模塊提供了+12V的輸出到刀片服務(wù)器的中間背板(mid-plane)上,BladeCenter刀片服務(wù)器所有的子系統(tǒng)都在該處獲得電源供應(yīng)。兩個(gè)+12V的中間背板電源總線可用于冗余,并在冗余電源模塊間對(duì)當(dāng)前工作的電源進(jìn)行輸出負(fù)載的共享。
2. 電源利用率和散熱
由于BladeCenter服務(wù)器近90%的電源負(fù)載都來(lái)自于處理器和內(nèi)存上,每個(gè)底盤上的CPU使用率便成為決定實(shí)際負(fù)載中最為關(guān)鍵的因素。在服務(wù)器開(kāi)機(jī)階段所需電量的峰值不會(huì)超過(guò)CPU在100%使用時(shí)刀片服務(wù)器所需的最大能耗??來(lái)自CPU的影響遠(yuǎn)遠(yuǎn)大于其它動(dòng)態(tài)負(fù)載。
電源需求和導(dǎo)致的散熱取決于多種因素??其中,關(guān)鍵因素為運(yùn)行溫度、處理器和刀片的數(shù)量和CPU的使用率。
雖然很多統(tǒng)計(jì)數(shù)據(jù)都來(lái)自于CPU 100%使用率的基準(zhǔn)下,但是大多數(shù)用戶并不需要使他們?nèi)康姆?wù)器運(yùn)行在這樣的滿載負(fù)荷之下。實(shí)際上,很多操作系統(tǒng)和應(yīng)用程序在這種情況下,運(yùn)行效率反而會(huì)有所降低。每一個(gè)客戶需要對(duì)其應(yīng)用程序、操作系統(tǒng)以及IT基礎(chǔ)架構(gòu)進(jìn)行評(píng)估,以確定使用率應(yīng)達(dá)到怎樣的程度。目前,IBM已制作一個(gè)有關(guān)配置的電子數(shù)據(jù)表格,它可根據(jù)客戶所指定的CPU占用率,計(jì)算出所需要的電源負(fù)載(基于實(shí)際測(cè)量結(jié)果)。
3. 內(nèi)置降溫系統(tǒng)
IBM BladeCenter服務(wù)器的刀片單元不只是一個(gè)電路板。它安裝在堅(jiān)固的底盤之上并全部被機(jī)殼封閉,盡可能地保證了堅(jiān)固和可靠性;此外,還可以改善空氣流通和確高質(zhì)量的連接。
冗余的矢量式冷卻系統(tǒng)是一項(xiàng)領(lǐng)先的尖端技術(shù)。無(wú)論目前或是以后插入更多強(qiáng)大的處理器時(shí),它可以把空氣從機(jī)箱前部帶至后部,確保安插全部刀片的底板達(dá)到足夠的冷卻效果。其主要的組成部分是兩個(gè)轉(zhuǎn)速達(dá)到 325 CFM的熱交換冗余風(fēng)扇、關(guān)鍵位置處的熱量監(jiān)控器以及管理模塊。
BladeCenter刀片服務(wù)器中的每個(gè)刀片HS20都擁有蜂窩結(jié)構(gòu)的前端外觀,使空氣從機(jī)架的前端流入;刀片服務(wù)器底板后部強(qiáng)大的雙模塊風(fēng)扇通過(guò)促使空氣從刀片的前端到后端流通來(lái)提供空氣的動(dòng)力冷卻。CPU位于刀片的前端位置,從而獲得不斷的干凈的冷空氣。
兩個(gè)彎曲葉輪散熱風(fēng)扇(配有百葉窗回流擋片)為刀片服務(wù)器底盤的所有部件提供了冗余冷卻。室狀蒸汽散熱水槽用來(lái)冷卻處理器。所有通過(guò)BladeCenter服務(wù)器底盤的空氣估計(jì)總量,在0.7英寸H2O靜態(tài)壓差下是325 CFM(立方英尺/分鐘)。由于帶空氣通過(guò)系統(tǒng),325CFM包括了20CFM到底板的空氣滲漏。
風(fēng)扇的速度通過(guò)管理模塊來(lái)控制, 而管理模塊接收位于關(guān)鍵部位的熱量監(jiān)控器發(fā)來(lái)的信號(hào)(入口處的空氣溫度,系統(tǒng)設(shè)備溫度等)。如果各個(gè)傳感器的溫度級(jí)別升高,風(fēng)扇速度將會(huì)自動(dòng)加快。在如下3種情況,兩個(gè)風(fēng)扇將都被設(shè)置到最大速度:
管理模塊故障(或被移除)同時(shí)配有的冗余模塊未能工作
在刀片或模塊上的熱量傳感器發(fā)出熱量警報(bào)
由控制模塊測(cè)量的外部環(huán)境氣溫達(dá)到35攝氏度
如果風(fēng)扇發(fā)生故障或被移去,剩下的一個(gè)風(fēng)扇會(huì)自動(dòng)提速以維持所需空氣流量直至更換部件被安裝好。如果一個(gè)風(fēng)扇失效,其上的4片百葉窗狀擋板將合上以封閉此單元,并通過(guò)另一個(gè)風(fēng)扇維持有效的空氣流通。此外,通過(guò)管理子系統(tǒng)所提供的告警,每個(gè)風(fēng)扇會(huì)通過(guò)LED指示燈在故障發(fā)生時(shí)給出提示。
4. 系統(tǒng)管理器
每個(gè)刀片上整合有一個(gè)系統(tǒng)管理處理器,在管理模塊上亦有一個(gè)服務(wù)處理器。通過(guò)它們之間的智能通訊,BladeCenter的自動(dòng)系統(tǒng)確保了其高可用性。
BladeCenter的管理模塊實(shí)施熱量監(jiān)控,包括:
機(jī)箱熱量監(jiān)控
處理器刀片熱量監(jiān)控
本地或遠(yuǎn)程熱量告警
BladeCenter的管理模塊實(shí)施風(fēng)扇狀態(tài)和控制,包括:
出現(xiàn)和故障檢測(cè)
故障指示器和告警
基于熱量的轉(zhuǎn)速控制
BladeCenter服務(wù)器的管理模塊監(jiān)控電源狀態(tài)并對(duì)電源模塊進(jìn)行控制,包括:
出現(xiàn)和故障檢測(cè)
故障指示器和告警
電源故障重起控制