鐘志鯤
(中國電信上海公司電源空調(diào)中心)
云計算現(xiàn)在炙手可熱,但云計算的定義卻眾說紛紜。對于運營商來講,云計算是一種商用計算模型,它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算能力、存儲空間和信息服務(wù)。
云計算系統(tǒng)架構(gòu)分為服務(wù)系統(tǒng)和管理系統(tǒng)兩大部分。在服務(wù)方面,主要以提供用戶基于云的各種服務(wù)為主,共包含3個層次:基礎(chǔ)設(shè)施即服務(wù)IaaS、平臺即服務(wù)PaaS、軟件即服務(wù)SaaS。在管理方面,主要以云的管理層為主,它的功能是確保整個云計算中心能夠安全、穩(wěn)定地運行,并且能夠被有效管理。對于一個優(yōu)秀的云系統(tǒng),一定是從基礎(chǔ)設(shè)施開始的,而動力系統(tǒng),又是IaaS的重點,是可靠的高容量電源和良好的散熱途徑。
散熱問題一直是機房安全穩(wěn)定運行的關(guān)鍵和難點。對于目前應(yīng)用的空調(diào)系統(tǒng)而言,風(fēng)仍然是機房載冷的主體,因此問題就變得復(fù)雜,甚至?xí)蔀樵茩C房發(fā)展的瓶頸。
在云計算的潮流下,云計算數(shù)據(jù)中心具有超大規(guī)模和降低運維成本等特點。迫于市場競爭的壓力,云計算的機架必須是高密度。由于目前并沒有規(guī)范性的要求,因此各運營商所建設(shè)的云機房容量也不一致,就目前的實際情況看,8~10 k W/機架是起始點,32 k W甚至更高是目標點。
由此,云機架的熱密度已經(jīng)完全顛覆了傳統(tǒng)的觀念:例如,2 k W、3 k W、4 k W或2 k W、4 k W、6 k W等低、中、高密度的分法。熱密度不大于6 k W/機架、6~12 k W/機架、大于12 k W/機架將成為新的三段熱密度門限。
在十多年IDC機房的維護過程中,大量的經(jīng)驗和教訓(xùn)告訴我們,散熱是數(shù)據(jù)機房的一個難題,也是必須解決的問題,即使在低密度機房,問題都很突出。而高密度,會使問題變得更尖銳和難于解決。
傳統(tǒng)機房一般使用風(fēng)為直接載冷,這種情況目前還沒有很大的改觀,主要是服務(wù)器目前還是使用風(fēng)扇散熱的。但是,從輸送冷量的方式上分析,水輸送冷量還是有很大的優(yōu)勢的。以專用空調(diào)10KJ/KG的冷風(fēng)比計算,1個6 k W的機架,每小時需要2 160 kg的空氣,折合1 670 m3/h,以風(fēng)速3 m/s計,需要0.155 m2的通風(fēng)截面。若以水來載冷,6 k W冷量需要5℃溫差的水1.04噸,DN40的水管在2 m/s的流速下就可以滿足。因此水系統(tǒng)只需要風(fēng)系統(tǒng)的1%~1.5%的通道截面即可,可以節(jié)約大量機房空間。
而在載冷物質(zhì)驅(qū)動能耗方面,氣流是需要空調(diào)的風(fēng)機作為驅(qū)動源的,而水系統(tǒng)是水泵作為驅(qū)動。一般風(fēng)系統(tǒng),每輸送15 k W的冷量,就會需要1 k W的風(fēng)機功耗。水系統(tǒng)的輸送能耗會低一半,600 k W的冷量大約20 k W的電機驅(qū)動的水泵即可,折合30 k W/1 k W。并且,風(fēng)機馬達的熱量是耗散在室內(nèi)的,功率將全部需要冷量充抵,水泵的電機只是通過聯(lián)軸器把機械功傳遞給水系統(tǒng),電機的發(fā)熱是隔絕在冷水系統(tǒng)之外的。
在利用自然冷源方面,雖然直接利用室外空氣是最直接的、最高效的方法,但直接的質(zhì)交換使灰塵、濕度的控制難度比較大,而且需要對增加不少通風(fēng)設(shè)備、開鑿大面積的墻洞。而利用水系統(tǒng),只需要改變外圍管路,可以直接利用冷卻塔供冷,即使考慮水質(zhì)問題,也只需要增加干式冷卻塔即可,無需改動室內(nèi)機組,避免了灰塵、加濕等難題。
從奔騰5的CPU芯片應(yīng)用開始,計算機的愛好者就開始進行原始的DIY方式,解決CPU發(fā)熱量大且速度慢的問題,用水冷的散熱器替代原來的金屬鋁散熱片+風(fēng)扇的方式,取得了很好的效果,甚至可以將CPU的主頻提高30%以上,而工作溫度比設(shè)計問題還低(見圖1)。
后來,國外的一些廠商,研制了大量的高品質(zhì)的液冷散熱器,象 KOOLANCE、Heat Killer、Bitspower等(見圖2)。對于提高液冷系統(tǒng)的安全性,起到了很好的推動作用,也為在大型數(shù)據(jù)機架上使用奠定了基礎(chǔ)。多達數(shù)百萬臺的應(yīng)用表明,只要采用質(zhì)量可靠的部件,安裝(尤其是接頭部分)牢固,漏水的幾率非常小,并且由于系統(tǒng)水量小,漏水也很少造成嚴重傷害。
圖1 計算機的水冷系統(tǒng)
圖2 各種CPU冷卻頭
液冷是空氣冷卻能力的幾十到上百倍,而且由于液體的比熱容大,熱穩(wěn)定性很好,能對發(fā)熱部件提供相對恒定的溫度環(huán)境。因此,液冷衍生出幾種運用方式:
(1)冷凍水專用空調(diào)方式:集中制備冷凍水,專用空調(diào)利用表冷器冷卻機房回風(fēng),用專用空調(diào)風(fēng)機送風(fēng)冷卻設(shè)備。這種方式離熱源最遠。
(2)列間空調(diào)方式:在每列服務(wù)器機架中,夾雜幾個冷凍水列間空調(diào),機架排風(fēng)面為列間空調(diào)的進風(fēng)口,機架的前面板方向為列間空調(diào)的送風(fēng)口,列間空調(diào)使用多臺小風(fēng)機作為風(fēng)路循環(huán)驅(qū)動。這種方式使冷水更靠近熱源,依舊使用空氣載冷,但風(fēng)的方向要在很小的范圍2次轉(zhuǎn)向才能完成氣流循環(huán),因此不是很合理,容易形成亂流(見圖3)。
圖3 列間空調(diào)方式
(3)水冷背板方式:在機架背后直接懸掛水表冷器,無額外風(fēng)機驅(qū)動,僅靠服務(wù)器內(nèi)的風(fēng)扇驅(qū)動氣流,熱量幾乎是在產(chǎn)生點被直接對沖,機架總排風(fēng)已基本不含高熱。
(4)液體包方式:一般是液體包與機架整體設(shè)計,服務(wù)器處于液體冷卻板的包裹之中,對已經(jīng)在用的機架很難改造。液體包方式可以采用封閉式機柜,柜中有一套封閉的空氣循環(huán)系統(tǒng),這套空氣循環(huán)系統(tǒng)與機房內(nèi)環(huán)境相對獨立。
液體直接冷卻芯片:芯片的散熱翅片改為水冷頭,液體直接接入水冷頭。目前很少有服務(wù)器能直接使用液冷。
圖4為各種冷卻方式的適用情況,水冷背板的適用范圍廣,可以應(yīng)用于6~30 k W/機架的密度,而且無需外加風(fēng)扇。
圖4 各種冷卻方式適用情況
圖5 冷水機+冷水分配器方式
圖6 機架上改造的水冷背板
冷水機組制備冷凍水,供給冷水分配器(CDU)(見圖5~圖7)。冷水分配器需要起到3個主要作用:⑴將大系統(tǒng)的水壓降低,一般用板式換熱器,類似電源中的變壓器。⑵調(diào)節(jié)一次側(cè)和二次側(cè)的流量,以控制二次側(cè)的水溫高于機房露點溫度,防止結(jié)露。⑶合理分配二次側(cè)各支路的流量,適應(yīng)各機架的熱負荷。
圖7 冷水分配器CDU
設(shè)計優(yōu)良的CDU在進水、出水、水泵等都為雙路由,確保系統(tǒng)在使用期間可以進行在線維護、維修。在二次側(cè)管路全部使用高壓部件,但運行時保持低壓力、小水量的水系統(tǒng),同時具有完備的漏水檢測系統(tǒng),使機房免于水患。一般在二次側(cè)僅有幾十升的水量,一個標準背板的水容量只有2~3升。
在實驗環(huán)境中,服務(wù)器的排風(fēng)口最高溫度達43℃,即使與其他機位的氣流混合,在機架背后60 c m處,仍達到31℃。利用傳統(tǒng)專用空調(diào)方式制冷,空調(diào)機組就必須將31℃的回風(fēng)冷卻,再通過風(fēng)路送到機架進風(fēng)處(見圖8)。
圖8 實驗環(huán)境中機架排風(fēng)溫度
圖9 使用冷水背板后機架排風(fēng)溫度
而使用了冷水背板之后,機架排風(fēng)溫度明顯下降,實驗中得到了平均溫度下降到19℃,甚至低于機架的進風(fēng)溫度。此時機架已經(jīng)不是熱源,對機房而言,可以認為是一臺“小空調(diào)”(見圖9)。
隨著云機房的出現(xiàn)和發(fā)展,高熱密度將成為機房的潛在危險,在單機架的容量超過6 k W后,傳統(tǒng)的氣流冷卻方式很難解決散熱問題,水冷背板將是解決這一難題的最佳輔助方法之一。而且,水冷背板在現(xiàn)網(wǎng)的改造是非常方便的。