王 昀
(中國建筑設計研究院有限公司,北京 100044)
當今世界,人工智能與大數(shù)據(jù)成為經(jīng)濟發(fā)展的新動力。高性能計算為人工智能應用提供了強勁的計算力,大數(shù)據(jù)則為人工智能提供數(shù)據(jù)資源,反之,人工智能與大數(shù)據(jù)也在推動高性能計算機發(fā)展出各種新的形態(tài)。一個國家的超級計算機研制和應用的水平,既是國家科研實力的體現(xiàn),也是綜合國力的重要標志。
超級計算數(shù)據(jù)中心通常指業(yè)務既包含高性能計算,又涵蓋了對電子信息進行處理以及配套存儲、傳輸、交換、管理等功能和服務的物理空間,廣義上集合了高速數(shù)據(jù)計算、網(wǎng)絡、存儲而形成的集成應用環(huán)境。
未來科技創(chuàng)新的規(guī)模和復雜性將急劇增長,對數(shù)據(jù)采集、存儲、傳輸、處理,以及計算能力的需求將達到前所未有的高度。這也迫使科研信息化基礎設施性能和服務能力加速向更高量級和水平發(fā)展,加速微觀和宏觀雙向的科學發(fā)現(xiàn)與創(chuàng)新。
本文以某超級計算數(shù)據(jù)中心的規(guī)劃建設為例,對超級計算數(shù)據(jù)中心的電氣設計進行探討。該項目包含超算硬件資源建設、超算軟件環(huán)境建設和數(shù)據(jù)中心綜合樓建設。終期建設目標計算能力100Pflops,數(shù)據(jù)存儲能力不低于20PB,并通過高速網(wǎng)絡實現(xiàn)與國內(nèi)、國際各類信息化資源的互聯(lián)互通。
超級計算數(shù)據(jù)中心包含多種類電子信息設備及基礎設施設備,除常規(guī)數(shù)據(jù)中心所包含的主要IT設備外,該項目的超級計算設備具有某些特殊性,對用電設備進行梳理,以便進行用電負荷等級劃分及電氣系統(tǒng)搭建。
超級計算資源系統(tǒng)(圖1)主要包括先進計算分系統(tǒng)、數(shù)據(jù)存儲分系統(tǒng)、網(wǎng)絡交換分系統(tǒng)、支撐管理分系統(tǒng)等部分。
圖1 超級計算資源系統(tǒng)架構(gòu)
計算分系統(tǒng):包含高性能計算浸沒液冷單元、人工智能計算浸沒液冷節(jié)點等,支持科學和工程計算、人工智能、大數(shù)據(jù)等應用場景。
數(shù)據(jù)存儲分系統(tǒng):分布式并行存儲系統(tǒng)。
網(wǎng)絡交換分系統(tǒng):包含液冷IB交換機、風冷計算存儲交換機、風冷萬兆核心交換機等。
支撐管理分系統(tǒng):包含數(shù)據(jù)控制器、索引控制器等,提供系統(tǒng)登錄、管理、服務專用節(jié)點。
本次高性能計算項目采用業(yè)界先進的液冷技術(shù),結(jié)合冷凍水行間空調(diào)、精密空調(diào),為所有計算設備、高速網(wǎng)絡設備、存儲管理設備等制冷。與傳統(tǒng)的風冷技術(shù)相比,液體熱傳導的效率更高,換熱能力更強。采用液冷技術(shù)后,計算子系統(tǒng)的PUE將不高于1.05,達到業(yè)界領先水平。
計算分系統(tǒng)超算計算單元,采用全浸沒蒸發(fā)相變液冷冷卻,每兩臺計算機柜配置一臺浸沒液冷機柜。單臺液冷換熱柜制冷量為320kW,可滿足2臺計算機柜液冷散熱需求。液冷交換機柜采用冷板式液冷技術(shù)。
網(wǎng)絡分系統(tǒng),部分高速網(wǎng)絡設備采用冷板式液冷技術(shù),通過冷板式液冷與高溫冷源進行換熱;其余監(jiān)控設備熱負荷及高速網(wǎng)絡設備風冷部分負荷采用冷凍水行間空調(diào)進行散熱。
存儲分系統(tǒng)、管理分系統(tǒng)采用模塊化風冷。
本項目主要的電氣系統(tǒng)包含10kV配電系統(tǒng)、備用柴油發(fā)電機系統(tǒng)、10/0.4kV變配電系統(tǒng)、高壓直流配電系統(tǒng)、不間斷電源系統(tǒng)及低壓配電系統(tǒng)。本項目中的主要設備用電需求包括10kV供電(高壓冷機)、高壓直流380V供電、交流三相380V供電和交流單相220V供電。
(1)10kV配電系統(tǒng)
項目包含一級負荷中特別重要負荷,需雙重電源供電,由上級變電站引入相互獨立的10kV電源作為本項目的市電電源。
(2)備用柴油發(fā)電機系統(tǒng)
超級計算數(shù)據(jù)中心的所有一、二級負荷,除高性能浸沒液冷服務器外的IT設備,交換機柜、存儲機柜、管理機柜、網(wǎng)絡安全機柜、液冷換熱柜、冷凍水行間空調(diào),及配套冷源、冷卻塔、循環(huán)水泵、水冷自控系統(tǒng)等,包含IT負荷及為IT負荷提供制冷的負荷及消防負荷、事故風機、災后清空風機等,均需備用柴油發(fā)電機系統(tǒng)保障。
采用10kV快速自啟動柴油發(fā)電機組按N+1配置,雙母線輸出,保障負荷的可靠供電。
高性能浸沒液冷服務器采用高壓直流供電,單路380V市電接入高性能液冷服務器機柜單元的高壓直流柜,其設備功率較大,且服務器計算數(shù)據(jù)可短時間間隔自動保存,故無需設置柴油發(fā)電機保障供電。
(3)10/0.4kV變配電系統(tǒng)
交換機柜、存儲機柜、管理機柜、網(wǎng)絡安全機柜、液冷換熱柜、冷凍水行間空調(diào)、配套冷源、冷卻塔、循環(huán)水泵、水冷自控系統(tǒng)等IT設備和動力設備變壓器采用2N配置。
高性能浸沒液冷服務器設備功率較大,設置專用變壓器,末端采用高壓直流供電,單路380V市電接入高性能液冷服務器機柜單元的高壓直流柜,其供電變壓器采用單N配置。
(4)高壓直流配電系統(tǒng)
采用380V單路市電,接入高性能液冷服務器機柜單元的高壓直流柜,供高性能浸沒液冷服務器。
高性能液冷服務器單元及存儲交換機每兩臺為一組,需配置一臺高壓直流配電柜。高壓直流電源轉(zhuǎn)換損耗約為4.5%,直流配電線損約為1.5%。
(5)不間斷電源系統(tǒng)
存儲機柜、管理機柜、網(wǎng)絡安全機柜、網(wǎng)絡交換機及輔助設施設置按2N配置的UPS不間斷電源,蓄電池后備時間單機滿載15min。
冷源控制系統(tǒng)、液冷換熱柜、冷卻水循環(huán)泵、行間空調(diào)、精密空調(diào)等按N+1配置UPS不間斷電源,電池后備時間單機滿載15min。
(6)低壓配電系統(tǒng)
本項目除高性能浸沒液冷服務器外,其余IT設備及制冷設備均需雙電源供電,并按要求配置不間斷電源系統(tǒng)。事故風機、災后清空風機及消防負荷等均需雙電源供電,普通照明、普通動力等采用單電源供電。
超算計算單元采用高壓直流供電,每臺高壓直流柜輸出兩路DC 380V直流電源,可為2臺計算機柜提供電源。高壓直流配電柜采用單路AC 380V市電輸入,采用專設變壓器供電。系統(tǒng)架構(gòu)見圖2。
圖2 超算計算單元供電系統(tǒng)架構(gòu)圖
存儲及網(wǎng)絡單元配電系統(tǒng)采用容錯系統(tǒng)架構(gòu),變壓器及UPS均按2N配置,為配合建設方的分期建設需求,將UPS分期并機,以減少不必要的初期建設投資及設備損耗。其系統(tǒng)架構(gòu)見圖3。
圖3 超算存儲及網(wǎng)絡單元供電系統(tǒng)架構(gòu)圖。
為IT設備提供持續(xù)制冷設備采用不間斷電源供電按照N+1配置,普通動力、照明設備采用單路電源供電,其他動力和消防設備采用雙路市電電源供電。其系統(tǒng)架構(gòu)圖見圖4。
圖4 動力設備供配電架構(gòu)圖
本著靈活性和擴展性原則,本超級計算數(shù)據(jù)處理中心機房建筑平面和空間的布局應當具有相當?shù)撵`活性,各樓層的機房進行了合理的面積分割,按業(yè)務發(fā)展程度分步投入使用,機房精密空調(diào)的數(shù)量也根據(jù)需要分步配置。機房內(nèi)的隔斷墻結(jié)構(gòu)設計便于拆裝,既能相對獨立分割使用,又能適應擴容組合和面積擴充,各子系統(tǒng)也適應這種變化,符合自身和客戶的要求。在電氣系統(tǒng)的設計上,也與設備及平面的分期建設相協(xié)調(diào)。
因超算計算單元設備集成度高,用電功率較大,再包含網(wǎng)絡和存儲設備及動力設備,總的用電負荷達到約2萬kW,需申請四路市政10kV電源,同組兩路互為備用。
為配合分期建設需求,電氣系統(tǒng)設計過程中將超算計算單元、超算網(wǎng)絡及存儲設備、數(shù)據(jù)機房部分常規(guī)IT設備、動力及樓宇設備四大類用電設備的供電變壓器分開設置,同時,將用電設備按一期投入、二期投入進行劃分。
電氣系統(tǒng)分期建設需綜合考量:(1)總建設投資;(2)初期建設投資;(3)合理的變壓器容量選擇;(4)減少機房支持區(qū)的空間占用。
參照項目的終期建設目標一次性配置不間斷電源系統(tǒng)存在著諸多弊端,為減少項目建設初期不必要的投資,且縮減不必要設備投入帶來的設備和能源損耗,需合理規(guī)劃不間斷電源系統(tǒng)的配置。該項目采用的主要措施包含以下內(nèi)容。
(1)合理規(guī)劃UPS設備的分組并機
計算初期、中期、終期建設需不間斷電源系統(tǒng)保障供電的具體負荷容量,規(guī)劃選擇UPS容量及并機形式時結(jié)合變壓器的容量選擇,尋求分期投資、機房面積指標、系統(tǒng)架構(gòu)合理性、可靠性、運維便捷性等幾大因素結(jié)合的最優(yōu)解。
(2)針對場景選擇設備
電子信息設備采用高頻塔式UPS,并合理配置UPS并機方案,兼顧分期需求及可靠性原則。
持續(xù)制冷設備的UPS電源方案則推薦采用模塊化UPS,一方面避免設備建設初期因較小的用電設備容量選配小容量UPS,導致在后期建設過程中進行大的系統(tǒng)改造帶來的擴建周期長、需停電停運等問題。
另一方面避免過多的小容量UPS分組并機造成的總投資增加。
模塊化UPS的優(yōu)勢主要體現(xiàn)在部署更為靈活,以及后期更為簡易的運維。