袁曉東,肖 瑋,盧乙彬
(1.雄安云網(wǎng)科技有限公司,河北 雄安 071000;2.廣東合一新材料研究院有限公司,廣東 廣州 510000)
目前,國內(nèi)外數(shù)據(jù)中心IT設(shè)備的散熱絕大多數(shù)采用風(fēng)冷技術(shù)??諝庾鳛槔涿降臒醾鲗?dǎo)效率很低,不僅導(dǎo)致散熱能耗居高不下,而且對大功率芯片和高密度圖形處理器(Graphics Processing Unit,GPU)板卡的散熱越來越力不從心。
隨著全球數(shù)字化應(yīng)用進程的快速擴展,大數(shù)據(jù)、云計算、5G移動通信和人工智能(Artificial Intelligent,AI)對數(shù)據(jù)中心、邊緣計算等數(shù)據(jù)處理基礎(chǔ)設(shè)施建設(shè)的需求越來越大。同時,由于數(shù)據(jù)處理技術(shù)向數(shù)字計算技術(shù)的全面轉(zhuǎn)移,高性能服務(wù)器、高性能芯片、高密度GPU板卡用量突飛猛進。傳統(tǒng)風(fēng)冷散熱已成為制約從信息智能化走向信息智慧化的“瓶頸”。
因此,近兩年來一些高性能數(shù)據(jù)中心、邊緣計算中心和超算中心,在一些大功率高密度IT設(shè)備上紛紛采用液冷技術(shù)。由于液體的比熱容和密度具有明顯優(yōu)勢,采用液體作為IT設(shè)備的冷媒,其冷卻效果比空氣強1 000~3 000倍[1-3]。風(fēng)冷技術(shù)所面臨的散熱能耗高和散熱性能低的問題,用液冷技術(shù)可以得到根本改善。
眾所周知,數(shù)據(jù)中心是典型的“高能耗”產(chǎn)業(yè)。儲能系統(tǒng)可以在一定程度上減少數(shù)據(jù)中心對柴油發(fā)電機的依賴,是數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展的一個重要方向。工信部印發(fā)《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》明確:支持探索利用鋰電池、儲氫和飛輪儲能等作為數(shù)據(jù)中心多元化儲能和備用電源裝置,推動新型數(shù)據(jù)中心高效利用清潔能源和可再生能源。但是,在安全性方面,鋰離子電池儲能系統(tǒng)一直存在一定的隱患。采用油劑單相液冷技術(shù)的儲能系統(tǒng)能夠很好地解決這一難題,為鋰電池進入數(shù)據(jù)中心打開了一扇安全之門。
綜合考慮冷卻液成本、設(shè)備工藝復(fù)雜度、應(yīng)用工況、儲能安全和維護便捷性,油劑單相液冷技術(shù)比相變液冷技術(shù)和非油劑液冷技術(shù)更適用于數(shù)據(jù)中心IT設(shè)備和鋰電池安全保障應(yīng)用場景。
液冷技術(shù)概覽如圖1所示[4]。液冷技術(shù)路線可分為直接接觸式液冷技術(shù)和間接接觸式液冷技術(shù)。直接接觸式液冷技術(shù)路線又可分為浸沒式液冷技術(shù)和噴淋式液冷技術(shù)兩大方向。其中:浸沒式液冷技術(shù)方向有單相浸沒式液冷技術(shù)和相變浸沒式液冷技術(shù)2種實現(xiàn)途徑;噴淋式液冷技術(shù)方向采用單相液冷實現(xiàn)途徑。間接接觸式液冷技術(shù)路線又可分為水冷冷板式液冷技術(shù)和非水冷板式液冷技術(shù)兩大方向。其中:水冷冷板式液冷技術(shù)方向有單相水冷板液冷技術(shù)和相變水冷板液冷技術(shù)2種實現(xiàn)途徑;非水冷板式液冷技術(shù)方向有單相非水冷板式液冷技術(shù)和相變非水冷板式液冷技術(shù)2種實現(xiàn)途徑。
圖1 液冷技術(shù)概覽
就其本質(zhì)而言,液冷技術(shù)利用液體將電子設(shè)備中芯片和器件產(chǎn)生的熱量散除。直接接觸式液冷技術(shù)路線由于液體與電子設(shè)備中的電路直接接觸,因此采用的液體一定是導(dǎo)熱不導(dǎo)電的,簡單的說液體必須是絕緣介質(zhì)。而間接接觸式液冷技術(shù)路線,可以采用非絕緣液體,比如水。利用絕緣液體可以對電子設(shè)備中全部芯片和器件實施散熱,因此電子設(shè)備的散熱無須風(fēng)冷輔助散熱。利用非絕緣液體一般只能對電子設(shè)備中芯片和大功率器件實施散熱,其他電路仍需風(fēng)冷輔助散熱。無論是絕緣液體還是非絕緣液體,對電子設(shè)備中的芯片和器件散熱后,溫度都會升高。由于絕緣液體直接和電路接觸而非絕緣液體間接和電路接觸,絕緣液體溫度升高比非絕緣液體要低很多,因此二次換熱時通常非絕緣液體需要制冷降溫,而絕緣液體無須制冷只需自然換熱降溫。非絕緣液體采用冷卻純凈水,而絕緣液體(簡稱冷卻液)分為氟化液和油類冷卻液,氟化液又分為單相和兩相??傮w來說:氟化液具有沸點低、密度大、成本高的特點,氟化液使用中有消耗,省電不省錢,經(jīng)濟成本性差,優(yōu)點是黏度小、無閃點、易清洗;油基冷卻液具有成本低、密度小、閃點高的優(yōu)點,更適合企業(yè)數(shù)據(jù)中心(Internet Data Center,IDC)和企業(yè)數(shù)據(jù)中心(Enterprose Date Center,EDC),缺點是黏度相對大、清洗相對復(fù)雜[5-8]。
目前常用的單相液冷技術(shù)有冷板式液冷技術(shù)、浸沒式液冷技術(shù)和噴淋式液冷技術(shù),如圖2所示。
圖2 3種常用的單相液冷技術(shù)
冷板式液冷技術(shù)。將服務(wù)器大功率發(fā)熱芯片和器件(CPU/GPU/DIMM等)貼近冷板,利用冷板中流動的介質(zhì)帶走熱量。工作介質(zhì)可以選擇去離子水、水溶液、氟化液等。液冷服務(wù)器安裝于機架,并設(shè)置風(fēng)冷空調(diào)輔助制冷。風(fēng)冷負責(zé)液冷冷板無法覆蓋的部件。由于去離子水密封工藝要求太高,而氟化液價格昂貴,因此冷板式液冷冷媒一般采用冷卻的純凈水溶液。
浸沒式液冷技術(shù)。將服務(wù)器完全浸沒在非導(dǎo)電性工作介質(zhì)中,工作介質(zhì)與功耗器件直接接觸換熱,通過工作介質(zhì)的蒸發(fā)冷凝或循環(huán)流動帶走熱量。介質(zhì)采用氟化液或普通油劑冷卻液等。
噴淋式液冷技術(shù)。將冷卻液通過設(shè)置在服務(wù)器中的噴淋頭精準噴灑到服務(wù)器中的芯片、器件和所有電路上,直接接觸式帶走熱功耗。升溫后的冷卻液通過自然風(fēng)或水換熱(無須制冷冷卻)后,再由壓力泵送入服務(wù)器中實現(xiàn)對芯片、器件和所有電路的循環(huán)散熱。系統(tǒng)通過噴淋頭的精準設(shè)計,不同熱功耗芯片、器件和各種電路可以獲得不同的冷卻液流量滿足各自不同的散熱要求。
流動浸沒式單相液冷工作原理是冷卻液直接將電池組完全浸沒,冷卻液與電芯表面接觸并流動,在流動過程中將電芯熱量帶走,通過熱控系統(tǒng)將熱量散發(fā)到空氣中,最終達到對電池控溫的目的。通過冷卻液的循環(huán),可以達到電池系統(tǒng)的區(qū)域溫差超低,整個電池系統(tǒng)的不同區(qū)域的電芯工作溫度差距在±2 ℃,從源頭上降低了電芯熱失控的風(fēng)險。
在3種液冷方式中,冷板式是液冷和風(fēng)冷相結(jié)合的散熱模式,熱功耗大的芯片貼上冷板散熱,其他電路散熱仍然需要風(fēng)扇通過空氣散熱,所以業(yè)內(nèi)戲稱為“貼膏藥止痛”模式。冷板式的突出優(yōu)點是:國外專利已過期,沒有專利壁壘;散熱冷媒介質(zhì)采用低成本的純凈水;服務(wù)器維修時不需要清洗。主要缺點是:節(jié)能效果不好(電源利用效率為1.4左右),需要對自然水制冷低至15 ℃的冷卻水;需要風(fēng)冷輔助,仍然需要建數(shù)據(jù)機房,建設(shè)成本高;冷板和冷管工藝要求高,確保冷水不泄漏外溢;服務(wù)器關(guān)閉再啟動,凝露水珠容易導(dǎo)致電路短路故障。
浸沒式有兩種散熱技術(shù)路線:相變散熱和流動浸沒散熱。相變散熱采用低沸點的氟化液作為冷媒介質(zhì)。浸泡在氟化液中的芯片和電路產(chǎn)生的熱功耗,通過氟化液氣化傳導(dǎo)至冷凝板,冷凝板利用冷卻水將氣化后的氟化液轉(zhuǎn)換回液態(tài)氟化液實現(xiàn)對芯片和電路的循環(huán)散熱。相變浸沒散熱的突出優(yōu)點是:散熱效率高,節(jié)能效果好(數(shù)據(jù)中心能源效率為1.1左右);氟化液換熱過程在同一箱體內(nèi),控制簡單;服務(wù)器維修時免清洗;無需建設(shè)數(shù)據(jù)機房。主要缺點是:國外核心專利仍在保護期內(nèi),存在專利壁壘;氟化液價格高,是普通冷卻液的10倍左右;氟化液有泄漏風(fēng)險,要求箱體密封工藝高;芯片和電路是浸泡在氟化液中,氟化液用量大;浸沒式機柜的承重要求是普通機房建設(shè)標準的2倍以上,常規(guī)只能放在地面一樓;需要改變傳統(tǒng)數(shù)據(jù)中心的維護規(guī)程和習(xí)慣。
流動浸沒散熱采用一種導(dǎo)熱不導(dǎo)電的冷卻液作為冷媒介質(zhì),浸泡在冷卻液中的芯片和電路產(chǎn)生的熱功耗通過冷卻液的溫度升高傳導(dǎo)至換熱單元。換熱單元利用風(fēng)或涼水對升溫后的冷卻液進行降溫,再將降溫后的冷卻液傳送至芯片和電路上,實現(xiàn)循環(huán)散熱。流動浸沒散熱的突出優(yōu)點是:節(jié)能效果好(數(shù)據(jù)中心能源效率為1.1左右);采用普通冷卻液,價格低廉;冷卻液不存在泄漏問題,無須密封,箱體工藝要求低;冷卻液換熱單元無須對水制冷,采用常溫水即可;無須建設(shè)數(shù)據(jù)機房。主要缺點是:國外核心專利仍在保護期內(nèi),存在專利壁壘;為了克服大功率芯片熱功耗聚集導(dǎo)致傳熱效率低的問題,需要在箱體中打入空氣促進冷卻液流動;由于芯片和電路是浸泡在冷卻液中,冷卻液用量大;浸沒式機柜的承重要求是普通機房建設(shè)標準的2倍以上,因此常規(guī)只能放在地面一樓;因冷卻液用量大,消防安全存在隱患;要改變傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的規(guī)程和習(xí)慣;服務(wù)器維修時需要清洗[9]。
噴淋式散熱模式的基本原理與流動浸沒式散熱相同,不同的是流動浸沒式散熱是將芯片和電路浸泡在冷卻液中,而噴淋式散熱模式是將冷卻液噴灑到芯片和電路上,實現(xiàn)散熱。簡單類比就是:流動浸沒式散熱模式是讓芯片、器件和電路“洗池浴”,噴淋式散熱模式是讓芯片、器件和電路“洗淋浴”。噴淋式散熱的突出優(yōu)點是:自主知識產(chǎn)權(quán),無專利壁壘(全部核心知識產(chǎn)權(quán)掌握在廣東合一新材料研究院);傳熱效率高,節(jié)能效果好(數(shù)據(jù)中心能源效率為1.1左右)(與相變浸沒散熱模式等同,優(yōu)于流動浸沒散熱模式);無須建設(shè)數(shù)據(jù)機房(與浸沒式相同);采用普通冷卻液,價格低廉(類比相變浸沒散熱模式);冷卻液用量少,約為浸沒式的1/4;冷卻液不存在泄漏問題,無須密封,箱體工藝要求低(類比相變浸沒散熱模式);承重要求與普通機房建設(shè)標準相同,僅為浸沒式散熱模式要求的一半;冷卻液用量少,便于解決消防隱患問題;冷卻液換熱單元無需制冷,采用自然風(fēng)或常溫水即可(類比相變浸沒散熱模式);不改變傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的維護規(guī)程和習(xí)慣。主要缺點是:各箱體按熱功耗不同需要進行冷卻液分配控制(類比流動浸沒散熱模式);普通冷卻液需要抗氧化稀釋處理(類比流動浸沒散熱模式);服務(wù)器維修前需要清洗。
雄安云網(wǎng)科技有限公司對國內(nèi)3種常用的單相液冷技術(shù)和實際應(yīng)用進行了充分的調(diào)研和深入的對比分析研究,并結(jié)合雄安城市計算(超算云)中心項目分別對冷板式液冷(氟劑)、浸沒式液冷(氟劑)、噴淋式液冷(油劑)和浸沒式液冷儲能(油劑、磷酸鐵鋰電池組)進行了試點應(yīng)用。盡管相變液冷技術(shù)本身優(yōu)點很多,但相變冷卻液價格昂貴、用量巨大、對機房承重超過常規(guī)要求、確保無泄漏工藝要求太高等制約了面向數(shù)據(jù)中心特別是中大規(guī)模數(shù)據(jù)中心的實際應(yīng)用。經(jīng)過技術(shù)特點、成本分析、應(yīng)用工況、適用場景、后續(xù)維護等方面綜合分析認為,單相液冷實際應(yīng)用于數(shù)據(jù)中心有11個大優(yōu)勢。
(1)總能耗節(jié)省1/2,數(shù)據(jù)中心能源效率小于1.10??偰芎闹笖?shù)據(jù)中心IT設(shè)備和確保IT設(shè)備安全穩(wěn)定工作的支撐設(shè)備能耗之和。單相液冷技術(shù)不再需要冷空氣,不再需要保持空氣濕度穩(wěn)定,不僅確保IT設(shè)備安全穩(wěn)定工作的支撐設(shè)備能耗大幅降低,而且傳統(tǒng)風(fēng)冷服務(wù)器中的風(fēng)扇完全拆除,數(shù)據(jù)中心IT設(shè)備自身的能耗也會降低20%左右。20個機架200 kW模塊綜合測試總能耗比傳統(tǒng)風(fēng)冷降低48.7%,數(shù)據(jù)中心能源效率達到1.09[10]。
(2)省空間。單個噴淋液冷機架可以承載4個風(fēng)冷機架的高性能服務(wù)器,占地面積節(jié)省3/4。從承載電功率的角度看,常規(guī)單個噴淋液冷機架可以承載20 kW的服務(wù)器電功率,而傳統(tǒng)風(fēng)冷機柜僅能承載不超過5 kW的服務(wù)器電功率,所以單個噴淋液冷機架可以承載的電功率是傳統(tǒng)風(fēng)冷的4倍。從另一個角度看,4U高性能服務(wù)器改裝成液冷服務(wù)器后高度降為2U,并且噴淋液冷機架可以依序堆疊放滿,而傳統(tǒng)風(fēng)冷機架需要在高性能服務(wù)器間留有1~2U空間隔開堆疊放滿。從實際空間占用情況來看,一個噴淋液冷機架相當于4個風(fēng)冷機架,節(jié)省了3/4的占地面積。
(3)無須建設(shè)標準專用機房,建設(shè)經(jīng)費節(jié)省1/3。一方面,采用單相液冷技術(shù)后,服務(wù)器芯片、器件和電路的工作環(huán)境實際上已與空氣無關(guān),僅取決于單相冷卻液的工況,因此傳統(tǒng)風(fēng)冷機房溫度、濕度、防靜電等問題無須考慮,即無須按照國際上T1/2/3標準建設(shè)專用機房。另一方面,由于總能耗節(jié)省一半,供電容量也會降低一半。這不僅大大降低了機房建設(shè)供電線路的成本,而且將為機房提供的應(yīng)急供電的柴油發(fā)電設(shè)備需求和不間斷電源的配置需求降低一半。同時,在同等規(guī)模和性能的條件下,機房面積會節(jié)省3/4。綜上所述各種因素,噴淋液冷數(shù)據(jù)中心一次性建設(shè)經(jīng)費投入將節(jié)省1/3左右。
(4)電費節(jié)省1/2,房租費節(jié)省3/4。以200 kW數(shù)據(jù)中心模塊為參考計算,每年電費節(jié)省約101萬元,房租費節(jié)省約9萬元,直接運行成本節(jié)省110余萬元。
(5)計算能力提高1/2。在風(fēng)冷的情況下,服務(wù)器不能長時間滿負荷工作,輕則大大降低芯片可靠工作壽命,重則損壞芯片導(dǎo)致服務(wù)器故障。在液冷情況下,由于液體熱轉(zhuǎn)換效率高,服務(wù)器可以長時間滿負荷工作,不會導(dǎo)致芯片故障。因此,風(fēng)冷條件下,服務(wù)器工作的平均負荷量只能按60%設(shè)計,而液冷條件下,服務(wù)器的平均負荷量可以按照90%設(shè)計,計算能力提高1/2。換句話說,2臺液冷條件下工作的服務(wù)器,實際計算能力等效為3臺風(fēng)冷條件下工作的服務(wù)器。對于價格昂貴的高性能服務(wù)器,計算能力的提升為用戶節(jié)省了大量服務(wù)器購置經(jīng)費。
(6)平均維護工作量比風(fēng)冷節(jié)省3/4。服務(wù)器產(chǎn)生故障有3大因素:一是風(fēng)扇震動,因為印制電路板(Printed Circuit Board,PCB)安裝到服務(wù)器機箱內(nèi)無法消除安裝點之間的力矩,震動會導(dǎo)致PCB電路板各層內(nèi)的連接發(fā)生斷裂;二是灰塵,空氣潮濕會引起電路短路擊穿,空氣干燥會引起芯片、器件和電路表面產(chǎn)生靜電導(dǎo)致電路短路;三是芯片溫度的抖動,風(fēng)冷條件下芯片隨負荷量變化溫度抖動達40 ℃,而液冷條件下,這一抖動范圍為20 ℃,因此大幅降低了芯片的故障情況。由于液冷服務(wù)器中沒有風(fēng)扇、沒有灰塵,同時芯片因業(yè)務(wù)負荷變化引起的故障率低,服務(wù)器工作的可靠性系數(shù)估測至少提高一個數(shù)量級,因此平均維護工作量比風(fēng)冷降低3/4。
(7)無噪聲污染。服務(wù)器運行處于靜音狀態(tài),噪聲系數(shù)低于50 dB,可以與人同處一室工作。風(fēng)冷數(shù)據(jù)中心的噪聲主要來源于服務(wù)器中的風(fēng)扇,特別是高性能服務(wù)器中的變頻風(fēng)扇。噴淋液冷條件下,服務(wù)器中所有風(fēng)扇被拆除,只有冷卻液流動的輕微且人耳不敏感的噪聲[11]。
(8)工作環(huán)境無要求,可以放置于車間、辦公室,甚至樓道和樓梯間內(nèi)。液冷條件下,服務(wù)器芯片、器件和電路的工況僅取決于噴入服務(wù)器中的冷卻液,與周圍環(huán)境無關(guān)。服務(wù)器盡管不是密封的但是密閉的,即使有微量灰塵進入冷卻液,也會被外部換熱單元設(shè)置的過濾器循環(huán)過濾掉。只要外部換熱單元將冷卻液的溫度控制在設(shè)置的范圍內(nèi),環(huán)境溫度高低對服務(wù)器工作不會產(chǎn)生任何影響。
(9)服務(wù)器壽命可以從6年延長至9年。從降低維護工作量方面分析,服務(wù)器工作的可靠性系數(shù)至少提高一個數(shù)量級,那么服務(wù)器的故障率就會降低一個數(shù)量級,因此服務(wù)器的使用壽命會延長1/2。
(10)工廠預(yù)制,組件化/模塊化安裝,交付快。在液冷條件下,無須按照國際上T1/2/3標準建設(shè)專用機房,所有設(shè)備分組件和模塊在工廠已標準化預(yù)制完畢,現(xiàn)場只是完成標準化組件/模塊的安裝和調(diào)試,將數(shù)據(jù)中心建設(shè)由傳統(tǒng)工程項目平滑過渡到產(chǎn)品安裝調(diào)試,縮短了2/3的交付周期。
(11)通過高效率安全儲能省電。將鋰電池系統(tǒng)整個浸沒到阻燃的冷卻液中,和空氣完全隔離。在前段預(yù)防措施失效的情況下,部分電芯熱失控時,一是加快循環(huán)把局部熱量帶走防止熱失控進一步擴大。二是和空氣完全隔離,不會發(fā)生明火燃燒,將熱失控風(fēng)險控制在局部范圍,只有部分電芯損壞,不影響系統(tǒng)和周邊環(huán)境。電芯在溫度可控且溫差極小的條件下,還可以有效延長電池的循環(huán)壽命[12]。
綜上所述,從現(xiàn)有數(shù)據(jù)中心工況的綜合適應(yīng)性分析,油劑單相液冷技術(shù)可廣泛應(yīng)用于數(shù)據(jù)中心。就目前常用的3種油劑單相技術(shù)研究現(xiàn)狀、實際應(yīng)用和試運行情況看:
(1)冷板式液冷技術(shù)由于需要經(jīng)過制冷的冷卻水,而且要確保大規(guī)模使用時冷水不外溢到電路上,工藝要求過高,作為數(shù)據(jù)中心主流選用技術(shù)不是很理想;
(2)浸沒式顛覆原有的機房體系架構(gòu),對機房布局、樓板承重、配電設(shè)施、管線系統(tǒng)及運維習(xí)慣變動較大,空間利用率相對較低;
(3)噴淋式保留了原有機房布局和運維習(xí)慣,空間利用率較高,而且用液量小成本較低,是值得推薦的數(shù)據(jù)中心特別是中大規(guī)模數(shù)據(jù)中心主流選用技術(shù)。