許 俊,程 序,胡孝俊,姚貴策,祝 華,賀 曉(.中訊郵電咨詢設(shè)計(jì)院有限公司鄭州分公司,河南 鄭州 450007;.北京航空航天大學(xué),北京 009;.中國聯(lián)通上海分公司,上海 0008)
在過去的十幾年中,數(shù)據(jù)中心在能源效率、可靠性和可持續(xù)運(yùn)行方面做出了巨大的貢獻(xiàn)。特別是隨著信息技術(shù)(IT)產(chǎn)業(yè)的快速發(fā)展以及物聯(lián)網(wǎng)(IoT)和人工智能(AI)技術(shù)的出現(xiàn),計(jì)算和電力的需求呈爆發(fā)式持續(xù)增長[1]。促使數(shù)據(jù)中心必須在規(guī)模和穩(wěn)定性方面做出回應(yīng)并升級其設(shè)施。而隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)張,自身的能耗已不容忽視;2019 年全球數(shù)據(jù)中心的能耗為200 TWh,占全球總能耗的1%,合計(jì)占全球碳排放的0.3%[2]。目前,數(shù)據(jù)中心的能耗平均每4 年翻倍[3]。2020 年9 月,在75 屆聯(lián)合國大會一般性辯論上,我國明確要采取更加有利的政策和措施,力爭二氧化碳排放2030 年前達(dá)到峰值,努力爭取2060年前實(shí)現(xiàn)碳中和。為了促進(jìn)峰值目標(biāo)盡快實(shí)現(xiàn),2020年12月,《新時代的中國能源發(fā)展白皮書》提出新時代的中國能源清潔低碳發(fā)展的導(dǎo)向,加快能源綠色低碳轉(zhuǎn)型,貫徹“4個革命、1個合作”能源安全新戰(zhàn)略;在國家雙碳背景下,發(fā)展數(shù)據(jù)中心的節(jié)能低碳技術(shù),降低其PUE(Power Usage Effectiveness)及CUE(carbon Us?age Effectiveness)勢在必行。
典型的數(shù)據(jù)中心能耗結(jié)構(gòu)中,氣流冷卻系統(tǒng)占據(jù)了其總能耗的50%,而服務(wù)器和存儲則只占到26%[4]。因此,建立有效的數(shù)據(jù)中心節(jié)能措施的首要任務(wù)就是了解其冷卻方式,并采取相應(yīng)的措施。傳統(tǒng)的數(shù)據(jù)中心冷卻方式采用的是冷空氣對流冷卻:冷空氣自底部冷卻通道自下而上流經(jīng)服務(wù)器并將之冷卻,然后換熱后的熱空氣從頂部回到空調(diào)控制中心形成冷卻循環(huán)系統(tǒng)。由于數(shù)據(jù)中心布局復(fù)雜,氣流組織分布也不均勻,因此機(jī)房各服務(wù)器的冷卻效果也不盡相同。掌握數(shù)據(jù)中心機(jī)房溫度分布,特別是機(jī)柜周圍的溫度熱點(diǎn)有利于調(diào)整冷卻空調(diào)功率、風(fēng)速等參數(shù),從而在最有效的做功范圍內(nèi)保證數(shù)據(jù)中心正常運(yùn)轉(zhuǎn)。
限于現(xiàn)有的實(shí)驗(yàn)測量手段,數(shù)據(jù)中心機(jī)房整體的溫度分布難以捕捉;因此,對數(shù)據(jù)中心機(jī)房的溫度調(diào)控主要依賴于有限的傳感器溫度和傳感器的分布情況。一方面如果傳感器測量的局部溫度屬于非關(guān)鍵局部熱點(diǎn),此時依賴傳感器進(jìn)行整體數(shù)據(jù)機(jī)房的調(diào)控,勢必會導(dǎo)致其余各處冷卻效能過剩;另一方面,如果傳感器布局在溫度相對較低的位置,此時傳感器的測量溫度過低,無法真實(shí)反映機(jī)柜運(yùn)行的最高溫度,從而無法保證數(shù)據(jù)中心性能。利用計(jì)算流體力學(xué)的方法(Computation Fluid Dynamics,CFD)可有效地表征特定條件下的數(shù)據(jù)中心機(jī)房氣流組織流場、溫度場的分布,從而可進(jìn)一步對冷卻效能進(jìn)行分配[5?6]。事實(shí)上,數(shù)據(jù)中心運(yùn)行過程中,其負(fù)載功率計(jì)算任務(wù)等時刻在變,傳統(tǒng)的CFD 方法難以及時給出不同功率負(fù)荷下的溫度全局分布情況。因此,亟需建立快速溫度場的預(yù)測方法[7?10],從而可及時反映溫度分布情況,并為后期建立智能調(diào)控?cái)?shù)據(jù)中心提供數(shù)據(jù)支持。
基于此目的,本文采用機(jī)器學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),配合傳統(tǒng)CFD 數(shù)據(jù),實(shí)現(xiàn)了一種可以快速預(yù)測數(shù)據(jù)中心機(jī)房溫度分布的方法,即AI?CFD[11],希望可以為建造智能數(shù)據(jù)中心提供技術(shù)支持。
以圖1 所示的簡單數(shù)據(jù)中心機(jī)房為例,首先通過6SigmaDC 軟件計(jì)算了該機(jī)房不同空調(diào)設(shè)定溫度及服務(wù)器功率下數(shù)據(jù)中心的溫度分布,取圖1 中Y方向中心截面溫度數(shù)據(jù)為后續(xù)快速預(yù)測模型的輸入及輸出數(shù)據(jù)提供依據(jù)。該機(jī)房大小4.8 × 4.2 m2,共設(shè)有6 個服務(wù)器,每臺服務(wù)器功率設(shè)定可從4 kW 到12 kW 以2 kW 的功率間隔進(jìn)行調(diào)整;空調(diào)設(shè)定溫度可從12 ℃到20 ℃以2 ℃的溫度間隔進(jìn)行調(diào)整。通過每次改變一個參數(shù)變量,最終可獲得91 組不同服務(wù)器功率、不同空調(diào)設(shè)定溫度下機(jī)房的溫度分布數(shù)據(jù)。由于后面討論了數(shù)據(jù)庫數(shù)量對快速預(yù)測模型精確度的影響,因此,從91 組數(shù)據(jù)中取變量在中間的39 組數(shù)據(jù)單獨(dú)學(xué)習(xí)來探討數(shù)據(jù)庫尺寸的影響。
圖1 采用的數(shù)據(jù)中心機(jī)房布局及CFD模擬數(shù)據(jù)
需要指出的是,由于6SigmaDC 中的CFD 模擬只輸出網(wǎng)格節(jié)點(diǎn)上的溫度數(shù)據(jù)。因此需要進(jìn)一步處理,將這組離散的、非均勻的數(shù)據(jù)點(diǎn)轉(zhuǎn)化為均勻的網(wǎng)格,形成有效的訓(xùn)練集。通過使用最近鄰插值圖中的數(shù)據(jù)點(diǎn)填充3 次插值圖中的空白數(shù)據(jù),最終得到了插值的溫度場。
圖2所示為整個AI?CFD 預(yù)測模型的結(jié)構(gòu),它包含了3個模塊:輸入模塊、學(xué)習(xí)模塊以及輸出模塊。神經(jīng)網(wǎng)絡(luò)的輸入由3 個部分組成。前2 個部分分別定義了區(qū)域的物理坐標(biāo)和材料屬性。通過對控制2個部分的數(shù)組進(jìn)行賦值,可以有效地使預(yù)測模型判別流體區(qū)域和服務(wù)器及機(jī)房邊界。除了這2 個部分外,空調(diào)設(shè)定溫度和服務(wù)器功率也作為一個輸入導(dǎo)入到快速預(yù)測模型中。學(xué)習(xí)模塊采用卷積神經(jīng)網(wǎng)絡(luò)[12],對圖像進(jìn)行低維采樣,并在上采樣期間對其進(jìn)行重構(gòu)。下采樣和上采樣通過跳躍連接(Skip Connection)進(jìn)行通信。將尺寸相同的3個輸入陣列與輸出溫度場的陣列輸入網(wǎng)絡(luò),將其簡化為潛在幾何表示(LGR),然后通過解碼器中的轉(zhuǎn)置卷積層得到最終溫度場。
圖2 快速預(yù)測模型網(wǎng)絡(luò)架構(gòu)
對于卷積神經(jīng)網(wǎng)絡(luò),通常使用均方誤差(mean square error,MSE)的方式來計(jì)算預(yù)測溫度場與真實(shí)溫度值之間的偏差,其定義為:
其中,Tn(x,y,z)為樣本數(shù)為n點(diǎn)(x,y,z)的真實(shí)溫度值,為對應(yīng)的預(yù)測溫度。N是樣本的數(shù)量,可以是訓(xùn)練時的批次,也可以是測試時測試集中的樣本數(shù)量。X、Y和Z分別表示x?、y?和z?方向的數(shù)據(jù)點(diǎn)總數(shù)。
圖3所示為數(shù)據(jù)中心機(jī)房二維溫度場快速預(yù)測結(jié)果示例。從左至右依次是CFD 模擬真實(shí)溫度值,AI?CFD 快速預(yù)測溫度值以及誤差分布圖。從圖3可以看出,快速預(yù)測的結(jié)果與真實(shí)值趨勢相同且數(shù)值相近,由于插值原因,部分結(jié)果存在偏差。特別是在服務(wù)器位置,CFD 沒有流固耦合數(shù)據(jù),此部分?jǐn)?shù)據(jù)誤差主要由于插值引入,單純考慮機(jī)房溫度場分布誤差會大大縮小。值得一提的是,相比于傳統(tǒng)CFD 的設(shè)置,形成后的AI?CFD 模型,只需要輸入空調(diào)設(shè)定溫度和服務(wù)器運(yùn)行功率即可獲得數(shù)據(jù)中心機(jī)房氣流組織的溫度分布,計(jì)算時間也縮減到秒級。從時間和人力上都大大降低了計(jì)算成本。事實(shí)上,預(yù)測結(jié)果與學(xué)習(xí)率、數(shù)據(jù)集數(shù)量大小以及神經(jīng)網(wǎng)絡(luò)的架構(gòu)等參數(shù)息息相關(guān),在下面的章節(jié)中,著重探討了在基于現(xiàn)有學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)下,不同學(xué)習(xí)率和數(shù)據(jù)庫尺寸對預(yù)測結(jié)果的影響。
圖3 數(shù)據(jù)中心機(jī)房二維溫度場快速預(yù)測結(jié)果示例
通過設(shè)置學(xué)習(xí)率為0.000 06、0.000 1、0.000 3 和0.000 5,研究了不同學(xué)習(xí)率對快速預(yù)測結(jié)果的影響,結(jié)果如表1 所示。從表1 可以看出不同學(xué)習(xí)率下AI?CFD 預(yù)測模型精度及與真實(shí)溫度值的誤差。圖4 所示為不同學(xué)習(xí)次數(shù)下學(xué)習(xí)率對訓(xùn)練誤差的影響。從圖4可以看出,一味地增加或減小學(xué)習(xí)率并不能使預(yù)測結(jié)果更好。過度地增大學(xué)習(xí)率,會使學(xué)習(xí)的過程間隔太大,從而降低準(zhǔn)確性。而過小的學(xué)習(xí)率會導(dǎo)致數(shù)據(jù)之間的魯棒性降低,卷積網(wǎng)絡(luò)難以準(zhǔn)確追蹤數(shù)據(jù),從而導(dǎo)致預(yù)測失準(zhǔn);綜合考慮訓(xùn)練過程的誤差波動,選取0.000 1作為最優(yōu)學(xué)習(xí)率。事實(shí)上,從表1中可以看出,預(yù)測精度仍然不盡人意,這主要是和數(shù)據(jù)量有關(guān)。針對學(xué)習(xí)率的研究是建立在39個數(shù)據(jù)集的基礎(chǔ)上,數(shù)據(jù)的離散程度過高,不足以實(shí)現(xiàn)連續(xù)的精準(zhǔn)預(yù)測。
圖4 不同學(xué)習(xí)率對訓(xùn)練誤差的影響
表1 不同學(xué)習(xí)率對預(yù)測結(jié)果的影響
為了探究數(shù)據(jù)庫尺寸對模型預(yù)測精度的影響,在給定學(xué)習(xí)率為0.000 3 的情況下,將數(shù)據(jù)集擴(kuò)大到91組數(shù)據(jù),結(jié)果如表2 和圖5 所示。從表2 和圖5 中可以看出,增大數(shù)據(jù)集可使神經(jīng)網(wǎng)絡(luò)預(yù)測更準(zhǔn)確。這是因?yàn)閿?shù)據(jù)集的擴(kuò)充,彌補(bǔ)了數(shù)據(jù)離散情況下對未知點(diǎn)的近似值估算,使得預(yù)測精度更逼近真實(shí)值。在本研究中,僅考慮了2 組數(shù)據(jù)集的比較,如果繼續(xù)增大數(shù)據(jù)集,縮小數(shù)據(jù)的間隔,一定程度上會繼續(xù)提高預(yù)測精度。但值得指出的是,當(dāng)數(shù)據(jù)集過于密集,數(shù)據(jù)相似度高時,會出現(xiàn)“過學(xué)習(xí)”的現(xiàn)象,反而會降低預(yù)測精度。因此,在實(shí)際應(yīng)用過程中,應(yīng)該以實(shí)際模型、數(shù)據(jù)為基準(zhǔn),確定最佳的數(shù)據(jù)集數(shù)量。
表2 不同數(shù)據(jù)集尺寸對預(yù)測精度的影響
圖5 數(shù)據(jù)集尺寸對訓(xùn)練誤差的影響
通過利用卷積神經(jīng)網(wǎng)絡(luò),成功搭建了以空調(diào)設(shè)定溫度和服務(wù)器功率為輸入?yún)?shù)的AI?CFD 數(shù)據(jù)中心機(jī)房氣流組織二維溫度場的快速預(yù)測模型,無需再對服務(wù)器結(jié)構(gòu)布局相同的機(jī)房進(jìn)行重新劃分網(wǎng)格、設(shè)置參數(shù)等長時間的計(jì)算。該模型研究了學(xué)習(xí)率、數(shù)據(jù)集等相關(guān)參數(shù),其預(yù)測精確度需要根據(jù)實(shí)際模型需求選取最優(yōu)參數(shù)。
根據(jù)現(xiàn)有測試集上所有模型的預(yù)測精度,實(shí)際的預(yù)測誤差應(yīng)該略低于這個值,因?yàn)榉?wù)器的真實(shí)溫度值是通過插值生成的,這在CFD 計(jì)算中其實(shí)不存在。從圖3 中可以看到,大多數(shù)預(yù)測誤差較大的區(qū)域?qū)嶋H上都在服務(wù)器上,而服務(wù)器上的真實(shí)數(shù)據(jù)本身是有缺陷的。在某種程度上,甚至可以說服務(wù)器上的溫度預(yù)測比用6SigmaDC 中分散的地面真實(shí)溫度數(shù)據(jù)點(diǎn)插值得到的溫度預(yù)測更合理。
此外,這一工作也是建立智能數(shù)據(jù)中心的一環(huán),通過搭建智能決策網(wǎng)絡(luò)與此快速預(yù)測網(wǎng)絡(luò)結(jié)合,可以實(shí)現(xiàn)數(shù)據(jù)中心根據(jù)機(jī)房溫度分布的智能調(diào)控和參數(shù)調(diào)優(yōu),也是今后數(shù)據(jù)中心節(jié)能低碳的重要發(fā)展方向。