劉 清
(中國移動通信集團山西分公司,山西 太原045000)
近年來,隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)中心的建設(shè)規(guī)模進入了快速增長期,平均每年保持20%以上的增長[1]?!霸朴嬎恪?、“云服務(wù)”的提出,更是進一步提高了互聯(lián)網(wǎng)企業(yè)對數(shù)據(jù)中心的投資力度?!霸朴嬎恪钡奶岢?,刀片服務(wù)器的使用,改變了傳統(tǒng)數(shù)據(jù)中心模式,呈現(xiàn)虛擬化、共享化的特征。數(shù)據(jù)中心IT設(shè)備向著小型化、高發(fā)熱密度方向發(fā)展,高密度的設(shè)備(例如刀片服務(wù)器)服務(wù)企業(yè)數(shù)據(jù)中心,在未來的年復(fù)合增長率將達到7.1%[2]。
“云”會替我們做存儲和計算的工作,刀片式服務(wù)器與虛擬化的結(jié)合正在迅速發(fā)展。而高功率密度機架服務(wù)器、刀片服務(wù)器等高熱密度設(shè)備的應(yīng)用,造成機房的單個機柜功耗不斷提高,單位面積熱量急劇上升,高發(fā)熱密度機房的散熱問題日益突出。
高發(fā)熱密度機房最突出的問題是局部熱點,目前解決高發(fā)熱密度機房局部熱點問題常用的解決方案有列間空調(diào)、吊頂式空調(diào)、熱管制冷背板等。列間空調(diào)需要改變現(xiàn)有機柜布局,吊頂式空調(diào)易產(chǎn)生冷凝水。熱管制冷背板既不需要改變現(xiàn)有機柜的布局情況,也不會產(chǎn)生冷凝水,是解決局部熱點問題的首選解決方案。本文將探討熱管制冷背板系統(tǒng)在數(shù)據(jù)機房中應(yīng)用的運行安全性問題。
該項目位于中國移動通信集團公司的樞紐樓,機房現(xiàn)有全部空調(diào)均全負荷運行,沒有冷量冗余。經(jīng)現(xiàn)場測定回風(fēng)溫度,IBM的P系列小型機出風(fēng)溫度明顯高于其他機組,且超出或接近IBM廠家規(guī)定的溫度,已達臨界。局部過熱時間過長,服務(wù)器甚至可能會出現(xiàn)宕機,這將會導(dǎo)致計費系統(tǒng)的嚴(yán)重事故。
針對上述問題,該項目選取了機房中局部過熱較為嚴(yán)重的功率較大的機架使用熱管制冷背板冷卻系統(tǒng),平均每個機架的發(fā)熱量在7 kW左右。熱管制冷背板系統(tǒng)流程圖如圖1所示,熱管制冷背板安裝位置如圖2所示(數(shù)字框)。
圖1 熱管制冷背板系統(tǒng)流程圖
圖2 熱管制冷背板安裝位置平面圖(數(shù)字框)
選取10#機柜做代表性測試,模擬風(fēng)機故障時機柜溫度的變化。
使用“溫度自記儀”(如圖3所示)測量機柜內(nèi)不同位置的溫度,找出溫度最高點,即機柜內(nèi)散熱效果最惡劣的點或者是發(fā)熱量最大的點。將“溫度自記儀”測點布置在機柜內(nèi)溫度最高處。
先后模擬熱管背板上兩個風(fēng)機上開下關(guān)、上關(guān)下開、都關(guān)、重啟四種情況。機柜內(nèi)溫度最高點的溫度變化情況。
實驗前,10#機柜兩個風(fēng)機正常運行下,測試各測點溫度如圖4所示,機柜內(nèi)溫度最高處位于機柜內(nèi)排風(fēng)機的風(fēng)口處,該處測點的溫度為44.8℃。
圖4 各測點溫度
根據(jù)測試的溫度分布情況,取機柜內(nèi)出風(fēng)溫度最高處的實時觀察測點,當(dāng)此測點溫度發(fā)生明顯上升時,表明機柜的冷卻效果變差。為保障實驗過程中IT設(shè)備的運行不受過多的影響,避免設(shè)備發(fā)生故障,在實驗過程中,如果機柜內(nèi)測點的溫度達到48℃,則應(yīng)立即恢復(fù)熱管背板原有的運行狀態(tài),或者立即打開機柜的柜門,恢復(fù)機柜的正常散熱狀態(tài)。
10#機柜關(guān)閉一個背板風(fēng)機時機柜的出風(fēng)溫度測試結(jié)果如表1所示。
表1 10#機柜關(guān)閉一個風(fēng)機時機柜的出風(fēng)溫度
可見,當(dāng)僅有一個背板風(fēng)機故障時,機柜出風(fēng)溫度最高點的溫度僅上升0.6~0.7℃,對機房安全影響不大。
兩臺風(fēng)機其中任何一個發(fā)生故障停轉(zhuǎn)時,對機柜內(nèi)溫度的影響程度非常接近,說明該熱管背板在設(shè)計時,兩個風(fēng)機是互相備份的冗余設(shè)計。
同時關(guān)閉10#機柜的兩個風(fēng)機,以測試當(dāng)熱管背板的電源被切斷時,機柜內(nèi)部溫度的變化情況。
當(dāng)熱管背板兩個風(fēng)機均關(guān)閉時,15 min后測點處的溫度上升到47.6℃,上升約2.2℃,為避免實驗對IT設(shè)備的運行帶來影響,此時迅速開啟風(fēng)機,測點處溫度先上升了約0.5℃,1 h后降低約2.0℃。
也就是說,當(dāng)兩臺風(fēng)機均故障無法運轉(zhuǎn)時,機柜內(nèi)的溫度不會突然上升,但呈現(xiàn)緩慢上升的趨勢,因此,運維人員在接到熱管背板風(fēng)機的報警信號后,需要盡快到故障現(xiàn)場采取處理措施。
進一步將所有機柜背板的風(fēng)機關(guān)停,以檢驗熱管系統(tǒng)配電柜電源被切斷的情況,觀察其它機柜出風(fēng)處最高溫度點的溫度變化,如圖5所示,隨著風(fēng)機關(guān)閉,機柜出風(fēng)溫度升高,不同機柜上升幅度不同,但均在18 min內(nèi)上升1~2℃。
圖5 關(guān)閉所有背板風(fēng)機時機柜出風(fēng)溫度變化(以8#、12#、13#為例)
通過以上測試,表明本項目的熱管背板系統(tǒng)具有較高的安全性:
(1)熱管背板的風(fēng)機采用了冗余設(shè)計,當(dāng)其中一個風(fēng)機發(fā)生故障停轉(zhuǎn)時,對機柜的散熱效果影響很小,僅有0.6~0.7℃,可忽略不計。
(2)當(dāng)單個機柜上的熱管背板的風(fēng)機全部關(guān)停時(即單個熱管背板掉電時),機柜的溫度不會發(fā)生突變,在15 min后,機柜的最高溫度點的溫度會逐漸上升1~3℃。
熱管背板的風(fēng)機都關(guān)停后,機柜內(nèi)的熱空調(diào)需要在IT設(shè)備自帶風(fēng)機的推動力下,穿越熱管背板,排放至機房的環(huán)境中,此時,熱管背板的風(fēng)阻越小,機柜內(nèi)的熱空氣越容易穿過熱管背板,機柜內(nèi)的溫度上升就越慢。
(3)當(dāng)整個熱管背板系統(tǒng)的風(fēng)機全部關(guān)停時(即熱管背板系統(tǒng)掉電時),各機柜內(nèi)的溫度變化與單個機柜的熱管背板風(fēng)機關(guān)停時的變化情況相同,在18 min內(nèi)上升1~3℃。
本文以中國移動某典型數(shù)據(jù)機房應(yīng)用項目為例,討論熱管制冷背板冷卻技術(shù)在數(shù)據(jù)機房應(yīng)用的安全性。
在實驗中分別模擬了:熱管背板上的一個風(fēng)機停轉(zhuǎn)時,對機柜柜內(nèi)散熱環(huán)境的影響;熱管背板的兩個風(fēng)機都停轉(zhuǎn)時,對機柜柜內(nèi)散熱環(huán)境的影響;熱管背板系統(tǒng)的所有風(fēng)機均停轉(zhuǎn)時,對機柜內(nèi)散熱環(huán)境的影響。結(jié)論如下:
(1)當(dāng)一個熱管背板僅有一個風(fēng)機停轉(zhuǎn)(模擬“熱管背板的單個風(fēng)機發(fā)生故障”),其他風(fēng)機均正常運行時,機柜出風(fēng)溫度最高點的溫度僅上升0.6~0.7℃,對機柜柜內(nèi)的散熱環(huán)境影響較小。
(2)當(dāng)一個熱管背板上的所有風(fēng)機均停轉(zhuǎn)時(模擬“一個熱管背板的供電電源被切斷”),15 min后測點處的溫度上升約2.2℃。雖然在一個背板上的所有風(fēng)機停轉(zhuǎn)時,機柜內(nèi)溫度上升的趨勢較為緩慢,但為了保證IT設(shè)備的正常運行,運維人員需要在接到熱管背板系統(tǒng)的報警信號后,及時到故障現(xiàn)場處理。
(3)當(dāng)熱管背板系統(tǒng)的所有風(fēng)機停轉(zhuǎn)(模擬“熱管背板系統(tǒng)配電單元的供電被切斷”),機柜內(nèi)溫度升高,在18 min內(nèi)上升1~3℃。
經(jīng)過試驗測試,本案例中的熱管背板系統(tǒng)的安全性能良好,是數(shù)據(jù)機房消除局部熱點的較好的解決方案。
數(shù)據(jù)機房對設(shè)備的安全性等級要求較高,每一項應(yīng)用于數(shù)據(jù)機房的技術(shù)都應(yīng)該經(jīng)過嚴(yán)格的安全性檢驗。
根據(jù)實驗結(jié)果,為使熱管制冷背板系統(tǒng)在數(shù)據(jù)機房的應(yīng)用中具有良好的安全性,需要對熱管背板系統(tǒng)的設(shè)計作如下要求:
(1)對于7 kW的熱管背板產(chǎn)品需要自帶風(fēng)機;
(2)熱管背板產(chǎn)品的風(fēng)機需要考慮冗余設(shè)計,至少為N+1冗余,即其中1個風(fēng)機停轉(zhuǎn)時,其他風(fēng)機的風(fēng)量必須能夠滿足機柜冷卻的循環(huán)風(fēng)量要求;
(3)熱管背板設(shè)計時,風(fēng)阻應(yīng)該盡量減小,熱管背板的風(fēng)阻越小,在熱管背板風(fēng)機全部停轉(zhuǎn)時,機柜內(nèi)部的溫度上升趨勢越緩慢,熱管背板的安全性越高;
(4)熱管背板系統(tǒng)必須具備高溫報警、風(fēng)機故障報警功能,以便系統(tǒng)發(fā)生故障時,運維人員能夠及時到達現(xiàn)場進行處理。
[1]全球數(shù)據(jù)中心市場現(xiàn)狀與趨勢[EB/OL].http://www.hyqb.sh.cn/tabid.
[2]中國數(shù)據(jù)中心建設(shè)市場保持穩(wěn)定增長——能耗和IT資源管理成為用戶最關(guān)心的問題[J].辦公自動化,2010,(11):09.