陶文銓,靳姝琦,李 楠,戴艷?。ㄎ靼步煌ù髮W(xué)數(shù)據(jù)中心節(jié)能與低碳技術(shù)重點實驗室,陜西西安 710049)
數(shù)據(jù)中心(Data center,DC)通常是指具備可實現(xiàn)數(shù)字信息的集中處理、傳輸、交換以及存儲管理硬件的物理空間,就像是數(shù)據(jù)集中存儲和運作的“圖書館”。數(shù)據(jù)中心中的核心設(shè)備為服務(wù)器及網(wǎng)絡(luò)交換設(shè)備,其他關(guān)鍵運營輔助設(shè)備有制冷、供電、消防、監(jiān)控等系統(tǒng)。數(shù)據(jù)中心中的服務(wù)器及其他各類電氣元件通常設(shè)置于機柜內(nèi),所以機柜是數(shù)據(jù)中心中最重要的部件。安置機柜的機房常稱為主機房。數(shù)據(jù)中心的建設(shè)包括基礎(chǔ)建筑的設(shè)計、電力能源的供給、機柜的布置、冷卻方式的選擇及運行中的管理、控制與操作,涉及到多個學(xué)科與專業(yè),它是一個交叉工程領(lǐng)域與行業(yè)。
隨著物聯(lián)網(wǎng)、人工智能和云計算等計算科學(xué)技術(shù)的迅猛發(fā)展,我國數(shù)據(jù)中心發(fā)展也十分迅速,一個數(shù)據(jù)中心中包含的機柜數(shù)目從早先的幾十個發(fā)展到目前的幾千乃至上萬個。與之相應(yīng)的數(shù)據(jù)中心的能耗問題日益嚴(yán)峻,逐漸成為了社會上的用電大戶。數(shù)據(jù)中心需要消耗大量電能的主要原因來自于對電子元器件的冷卻需求。數(shù)據(jù)中心中包含了大量的用于處理、傳輸、交換及存儲信息的電子元器件,它們在工作過程中都會產(chǎn)生熱量,使得其溫度升高。電子元器件的失效率隨著溫度升高呈指數(shù)式上升,圖1 所示為典型的電子器件失效率隨溫度升高的變化曲線[1]。數(shù)據(jù)中心冷卻技術(shù)的根本任務(wù)就是及時排走這些熱量以保證電子器件工作在允許的溫度下。
圖1 電子器件失效率與溫度的關(guān)系
冷卻數(shù)據(jù)中心的最方便及經(jīng)濟的方法就是空氣冷卻,從數(shù)據(jù)中心開始形成的早期直到現(xiàn)在仍然被廣泛采用,冷卻氣流組織的好壞對節(jié)約數(shù)據(jù)中心電能的消耗至關(guān)重要。近年來隨著芯片功率的不斷上升,單位面積的產(chǎn)熱量(熱流密度)不斷增加,空氣冷卻已經(jīng)無法滿足這些高熱流密度原件冷卻的需要,液體冷卻開始被較廣泛地采用,目前較多的是采用冷板冷卻的方式,此時高熱流密度的器件采用冷板冷卻,而低熱流密度的器件一般仍然采用空氣,業(yè)界稱為雙通道冷卻技術(shù)[2],對于這情形,機房氣流組織仍然是影響數(shù)據(jù)中心能耗的重要因素。即使到了數(shù)據(jù)中心廣泛采用浸沒冷卻的時候,空氣冷卻仍然不會失去其應(yīng)用。
《數(shù)據(jù)中心設(shè)計規(guī)范》(GB 50174?2017)[3]中指出,“在設(shè)計數(shù)據(jù)中心時,CFD 氣流模擬方法對主機房氣流組織進(jìn)行驗證,可以事先發(fā)現(xiàn)問題,減少局部熱點的發(fā)生,保證設(shè)計質(zhì)量”。氣流組織研究的根本目的是要使氣流中的冷量完全用于冷卻電子器件,盡量減少冷熱氣流間的摻混,如圖2 所示[4]。本文正是基于這樣的考慮,著重研究數(shù)據(jù)中心中空氣冷卻的數(shù)值仿真技術(shù)及其目前的研究方向。
圖2 冷熱氣流的摻混示意圖
為保證數(shù)據(jù)中心電子元器件在被冷卻過程中不受到氣流中的塵埃及水蒸氣的腐蝕,對主機房(即安置機柜的房間)空氣品質(zhì)有嚴(yán)格要求,例如按照《數(shù)據(jù)中心設(shè)計規(guī)范》(GB 50174?2017)[3],主機房空氣的進(jìn)口溫度需在18~27°C,而粒子的濃度,在靜態(tài)或動態(tài)條件下測試,每立方米空氣中粒徑大于或等于0.5μm 的懸浮粒子數(shù)應(yīng)少于17 600 000。因此這樣純潔的空氣在被電子器件加熱后必須循環(huán)使用。就是要把它冷卻到18~27 ℃再進(jìn)入主機房使用。我們把氣流在主機房冷卻電子元器件的過程稱為一次冷卻,而被加熱的氣體在主機房外被冷卻的過程稱為二次冷卻。圖3給出了一次冷卻與二次冷卻的示意。
圖3 一次冷卻與二次冷卻
從熱量傳遞的過程區(qū)分一次冷卻與二次冷卻具有重要意義。一次冷卻是空氣流與發(fā)熱的電子元器件之間的對流傳熱,即IT 設(shè)備的冷卻,旨在控制機房內(nèi)IT設(shè)備的溫度,包括空氣冷卻、液體冷卻(間接和直接)等;這部分本質(zhì)是對流熱傳遞問題,所謂的數(shù)據(jù)中心冷卻技術(shù)的進(jìn)步多指一次冷卻,它發(fā)生在機房內(nèi)(空調(diào)行業(yè)稱之為末端);而二次冷卻是一次冷卻介質(zhì)的再冷卻,一般是高溫流體(如被加熱了的空氣)與低溫流體之間的熱量傳遞過程(Overall heat transfer),即熱量從一種介質(zhì)通過壁面?zhèn)鬟f給另一種介質(zhì)。二次冷卻發(fā)生在主機房外。傳熱學(xué)中稱為“傳熱過程”[5]。為了減少能量的消耗,對流傳熱的強化與傳熱過程的強化既有相同的方面,也有不同的考慮。一次冷卻與二次冷卻的對比如表1所示。
表1 一次冷卻與二次冷卻的對比
本文著重研究數(shù)據(jù)中心主機房內(nèi)冷卻空氣的流動與傳熱問題的數(shù)值仿真有關(guān)問題,不涉及二次冷卻問題。
文獻(xiàn)[6]中對于空氣冷卻的數(shù)據(jù)中心的能耗做了如圖4 所示的分析,從圖4 可以看出,一次冷卻在冷卻功能模塊中約占1/3,二次冷卻占2/3。但值得指出的是,如果一次冷卻組織得好,相應(yīng)可減少二次冷卻的能耗,因此組織好一次冷卻氣流是數(shù)據(jù)中心節(jié)能的重要環(huán)節(jié)。
圖4 空氣冷卻數(shù)據(jù)中心能耗劃分
這里還要指出,數(shù)據(jù)中心中的冷卻是一個多尺度的傳熱過程[7?9]。多尺度問題廣泛存在于物理學(xué)和工程領(lǐng)域,從原子結(jié)構(gòu)到宏觀結(jié)構(gòu)物體幾何尺度變化十個尺度數(shù)量級;例如湍流,如果要同時研究各個尺度上的流動特性,就構(gòu)成一個多尺度問題。數(shù)據(jù)中心內(nèi)的冷卻空氣流動與傳熱是一個典型的多尺度系統(tǒng),圖5 清楚地顯示了數(shù)據(jù)中心冷卻過程的多尺度特性。數(shù)據(jù)中心中的氣流冷卻與傳熱過程的數(shù)值仿真課題在不同的尺度上進(jìn)行,下面本文還要進(jìn)行詳細(xì)的討論。
圖5 數(shù)據(jù)中心機房傳熱的多尺度特性
下面介紹對數(shù)據(jù)中心氣流流動與傳熱特性有重要影響的機柜數(shù)值模型問題。
機柜是機房中的熱源,其內(nèi)的電子元器件的溫度也是數(shù)據(jù)中心運行中必須確保的參數(shù);對機房氣流組織做數(shù)值模擬時機柜數(shù)值模型的構(gòu)建十分重要,既影響仿真結(jié)果的正確性,也與仿真所需的時間密切相關(guān)。
從對冷卻氣流流動的作用而言,機柜起到2 個作用。
a)阻擋氣流流動,是造成機房氣流流型的主要幾何結(jié)構(gòu)。
b)加熱冷卻氣流,是機房中最主要的熱源。
因此數(shù)值仿真軟件中如何處理機柜是影響仿真結(jié)果正確性的重要因素。根據(jù)作者所知,現(xiàn)有文獻(xiàn)中有6種機柜的數(shù)值模型,分別簡述如下。
a)開箱模型。將機柜各個表面作為絕熱表面,機柜前后表面用具有一定開孔度的表面來模擬,使空氣能夠流過,其內(nèi)設(shè)置有加熱板及風(fēng)扇板;加熱板按照服務(wù)器的功率設(shè)置均勻的熱源;風(fēng)扇板設(shè)定從進(jìn)風(fēng)到出風(fēng)面方向的風(fēng)速。機柜內(nèi)的流動是計算所得(見圖6)[10]。
圖6 開箱模型
b)黑箱模型。將機柜抽象為中空的矩形框架,不考慮其內(nèi)部的熱量交換及流動狀態(tài)(見圖7),僅對出口氣流的換熱和流速進(jìn)行簡單計算。給定機柜的尺寸、流量和內(nèi)部發(fā)熱量,機柜進(jìn)出口的氣體溫度等于對應(yīng)位置機柜進(jìn)口處的溫度加上流經(jīng)機柜溫度的增加量,后者可據(jù)氣流流量及給定的機柜功率得到[10?11]。
圖7 黑箱模型
c)多孔介質(zhì)模型。把服務(wù)器視為給定多孔度及導(dǎo)熱系數(shù)的多孔介質(zhì)(見圖8);服務(wù)器產(chǎn)生的熱量作為均布內(nèi)熱源,冷區(qū)氣流流經(jīng)機柜并被加熱,數(shù)值求解時一并進(jìn)行計算[12]。
圖8 多孔介質(zhì)模型
d)詳細(xì)模型。對機柜內(nèi)的服務(wù)器做網(wǎng)格劃分(見圖9),服務(wù)器簡化為不同大小的固體塊,具有內(nèi)熱源,服務(wù)器模型表面及服務(wù)器之間的間隙有氣流流過,所需網(wǎng)格數(shù)量大大增加[13]。
圖9 詳細(xì)模型
e)壓降模型。壓降模型將機柜整體抽象為具有一定壓降特性的平行直流道(不同流道之間沒有氣體交換)和一個位于機柜排風(fēng)口處的風(fēng)扇,服務(wù)器的熱量按照體熱源方式均布在整個流道內(nèi)部。將各服務(wù)器內(nèi)部風(fēng)扇視為整體,置于機柜排風(fēng)口處抽風(fēng)。服務(wù)器的風(fēng)扇特性曲線由實驗測得,匯總得到簡化風(fēng)扇墻風(fēng)機特性曲線如圖10 所示。從機柜阻力曲線與風(fēng)扇墻的風(fēng)機特性曲線交點可推導(dǎo)得到風(fēng)扇墻的實際工作點,決定了流經(jīng)機柜的風(fēng)量[14]。
圖10 機柜流量的確定
f)源?匯模型。Patankar[15]在其開發(fā)的Compact軟件中將機柜內(nèi)的組件分為兩大類,一類產(chǎn)生流動的阻力,另一類則產(chǎn)生流動的動力(例如小風(fēng)扇)。該軟件中把機柜的阻力部分在動量方程中用匯來表示(即負(fù)的源項),而產(chǎn)生動力的部分用源項表示。但文中對于具體如何表述未做介紹。顯然這種處理方式將機柜部分也作為計算區(qū)域。
值得指出的是,上述文獻(xiàn)中都沒有具體說明數(shù)值計算中如何實現(xiàn)所采納模型的細(xì)節(jié)。對這6 種現(xiàn)有機柜模型可做如下比較分析。
a)從機柜內(nèi)空間的流動是否進(jìn)行模擬的角度來看,6 種機柜模型可以分為兩大類:一類是開箱模型、多孔介質(zhì)模型、詳細(xì)模型及源?匯模型,均進(jìn)行計算;另一類是黑箱模型及壓降模型,不做具體計算。
b)對機柜內(nèi)的流場進(jìn)行計算大大增加了計算區(qū)域及計算工作量,不適用于具有大量機柜機房的氣流仿真;并且如何決定其中的參數(shù),如多孔介質(zhì)模型的多空度及有效導(dǎo)熱系數(shù),源?匯模型中的源項與匯項的確定,存在很大的不確定度
c)黑箱模型及壓降模型可以減少計算節(jié)點數(shù)目,其有效的結(jié)合有望成為合適的機柜模型。
對一個合適的機柜模型需要進(jìn)行如下考慮。
a)熱平衡正確:即機柜的功率散發(fā)的熱量要傳遞到冷卻氣流中去,上述模型都能滿足。
b)機房氣流的流動走向正確:機柜在機房級的模擬中除了是一個熱源外,在很大程度上還起到了流動的障礙物的作用,決定了機房氣流的總體走向。
c)不宜要求機柜的模型能正確分辨流經(jīng)機柜氣體的流動特性,這種氣流的特性應(yīng)該由機柜級的仿真來解決,機房級模擬結(jié)果要提供機柜附近正確的氣流流場。
數(shù)據(jù)中心多尺度模擬的概念在2003 年由Joshi 教授等提出[16],用來解決簡化模型造成的精度不足和詳細(xì)模型造成的計算資源巨大的矛盾。他提出的解決方法就是從頂?shù)降椎闹鸺壞M方法,基本思想是:先對機房級別冷卻氣流進(jìn)行仿真,網(wǎng)格尺度遠(yuǎn)遠(yuǎn)大于所感興趣的局部區(qū)域(例如焊點)的尺寸;從本級模擬中找出的溫度較高的機柜,對機柜內(nèi)的服務(wù)器再進(jìn)行較細(xì)密的網(wǎng)格仿真,直到最后進(jìn)行焊點溫度的預(yù)測。但至今未有公開發(fā)表的文獻(xiàn)給出從機房直到芯片級溫度預(yù)測的應(yīng)用實例。本文對船上的一個具有15 個機柜的微型數(shù)據(jù)中心進(jìn)行了從頂?shù)降椎睦鋮s過程模擬,主要目的在于查明機柜中溫度最高的電子器件(包括芯片的焊點)溫度是否超過允許溫度。在數(shù)值實施多尺度計算過程中,提出了子模型(Sub?model)的具體實施方法[17]。現(xiàn)將主要結(jié)果介紹如下。
首先是子模型的劃分,對于圖4所示情況,將其分為4 個子模型,每個子模型應(yīng)包括2~3 個尺度的物體;相鄰2 個子模型有一個共同的尺度的物體,進(jìn)行信息傳遞,如圖11所示。
其次為了驗證多尺度模擬方法的可靠性,對圖11所示具有15個機柜的小機房,對假定只有一個機柜的情形進(jìn)行了全場詳細(xì)網(wǎng)格模擬及多尺度模擬方法的對比(所有其他條件均保持一致)(見圖12)。
圖11 子模型的劃分
圖12 15個機柜的小機房
結(jié)果表明,整場模擬與多尺度模擬的最高溫度分別是74.78 ℃及76.35 ℃,相差1.57 ℃(2.1% 相對偏差),焊點最高溫度分別是61.96 ℃及62.16 ℃,僅相差0.2 ℃,而整場詳細(xì)模擬所需的時間是多尺度模擬的2.5 倍,充分驗證了多尺度模擬方法的可靠性及節(jié)省時間的優(yōu)點。
子模型?3 及子模型?4 的部分結(jié)果如圖13 所示。數(shù)值仿真發(fā)現(xiàn)編號為0101 的機柜中的IGBT01 的溫度最高,但其最高溫度低于允許溫度。
圖13 焊點最高溫度分布
數(shù)據(jù)中心機房氣流的數(shù)值仿真(CFD)技術(shù),計算一個工況一般需要幾個小時乃至幾十個小時,適應(yīng)不了數(shù)據(jù)中心控制與運行管理的需要。為了適應(yīng)機房氣流溫度的快速預(yù)測的需要,目前應(yīng)用較多的是本征正交分解方法(Proper orthogonal decomposition,POD)。
POD 的基本思想是對于一個給定的數(shù)據(jù)中心,在運行參數(shù)的一定變化范圍內(nèi),設(shè)計多個場景先進(jìn)行CFD 數(shù)據(jù)仿真,這樣的仿真結(jié)果稱為樣本(Snapshot)。然后利用數(shù)學(xué)工具從這多個樣本中提煉出對溫度場影響顯著的基本函數(shù),稱為基函數(shù),有多少個樣本就有多少個基函數(shù),但各個基函數(shù)對于溫度場影響的大小不同,通過一個系數(shù)(權(quán)因子),將各個樣本的溫度場表示成這些基函數(shù)的線性組合。
一個大型數(shù)據(jù)中心機房通常包括若干空調(diào)、機柜、服務(wù)器等設(shè)備,每臺空調(diào)的出口溫度、風(fēng)量等因素,在POD 技術(shù)中稱為因素數(shù);而每臺服務(wù)器功率、風(fēng)量、壓降等均可能在一定范圍內(nèi)變化,每個因素數(shù)變化的次數(shù)稱為水平數(shù);對機房的氣流組織及溫度分布產(chǎn)生影響的因素數(shù)可達(dá)上百個,每個因素數(shù)又有幾個水平數(shù),因此數(shù)據(jù)中心機房氣流流動與傳熱是一個多因素、多水平的過程,需要設(shè)計多個樣本。以一個有2個微模塊組成的行級送風(fēng)的數(shù)據(jù)中心機房為例,每個微模塊由27 個機柜,13 個空調(diào)(ACU)及5 個配電、消防系統(tǒng)柜體組成,冷熱通道均密封。則至少采用1 800多個樣本才能基本滿足POD 計算的需要。所以POD技術(shù)是預(yù)先以離線的方式用CFD 模擬所研究機房的氣流傳熱特性,在此基礎(chǔ)上提煉出基函數(shù),并獲得在所研究參數(shù)變化范圍內(nèi)任何一個工況溫度場的簡捷計算公式。
下面簡要介紹文獻(xiàn)[18]中用POD 技術(shù)的結(jié)果。該文中所研究的機房如圖14所示,占地面積102.2 m2,有15 個機柜,機房總功率為76 kW,仿真時的工況條件是:左端空調(diào)關(guān)閉,同時機柜A5 及C2(總功率為25 kW)被背板水冷,因此其功率不計入產(chǎn)熱量內(nèi)。在右端空調(diào)的6 個進(jìn)風(fēng)量下(96%,92%,88%,80%,76%,72%和65%)獲得了6 個樣本。同時用實驗測定了6個工況下的機房內(nèi)的溫度分布。
圖14 文獻(xiàn)[19]中的機房設(shè)置
在84%風(fēng)量下POD 得出的機房溫度分布與實驗測定值的對比如圖15 所示。平均溫度偏差為3.2%,0.68 ℃;最大局部誤差為8 ℃,但溫度偏差大于1 ℃以上的僅占6%。在由POD 技術(shù)獲得所研究數(shù)據(jù)中心的溫度場線性計算式后,獲得一個工況的溫度場計算只要幾秒鐘即可。
圖15 在84%風(fēng)量情況的POD及實驗測定值的對比
將POD 技術(shù)應(yīng)用于具有上百成千個機柜的數(shù)據(jù)中心,變量的數(shù)目及每個變量的變化次數(shù)十分可觀,需要解決如下3個問題。
a)如何設(shè)計樣本?現(xiàn)有的正交設(shè)計方法只能用于變量及變量的變化次數(shù)很少的情形。
b)對于樣本數(shù)目巨大的情形如何獲得基函數(shù)線性疊加中的插值系數(shù)?
c)對于樣本數(shù)目巨大的情形如何提高POD 技術(shù)的計算精度?
當(dāng)前我國數(shù)據(jù)中心機房氣流仿真軟件均為外國產(chǎn)品,如表2所示。
表2 當(dāng)前我國數(shù)據(jù)中心仿真的常用國外軟件
眾所周知,2020 年5 月美國突然宣布將包括哈爾濱工業(yè)大學(xué)在內(nèi)的33家中國企業(yè)與高校機構(gòu)列入“實體清單”,一些重要的工業(yè)軟件被限制使用。鑒于當(dāng)前的國際形勢,自主研發(fā)數(shù)據(jù)中心氣流組織軟件勢在必行。作者所在團隊正在進(jìn)行這方面的研究,待完成后將另文報道。
數(shù)據(jù)中心的氣流組織仿真無論在數(shù)據(jù)中心的設(shè)計階段還是運行階段都有重要意義。為了滿足運行中的數(shù)據(jù)中心對溫度場數(shù)據(jù)的快速需要,可以采用POD 技術(shù)來獲得溫度場計算的線性計算式,但對于機柜數(shù)量大及變量參數(shù)多的情形,如何有效實施POD 技術(shù)還需要進(jìn)一步的研究;目前我國用于數(shù)據(jù)中心氣流組織仿真的軟件均為外國產(chǎn)品,在當(dāng)前復(fù)雜的國際環(huán)境下很有必要開發(fā)具有自主知識產(chǎn)權(quán)的仿真軟件,構(gòu)建一個合適的機柜模型對仿真的正確性及經(jīng)濟性有重要影響。