上海郵電設計咨詢研究院有限公司 上海 200092
隨著國民經(jīng)濟的發(fā)展以及4G時代的到來,互聯(lián)網(wǎng)服務需求進一步得到釋放,中國通信產(chǎn)業(yè)正邁向新的歷史階段。業(yè)務應用多元化為數(shù)據(jù)中心的未來帶來更廣闊的前景,大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等新興技術(shù)的不斷創(chuàng)新,推進數(shù)據(jù)中心市場不斷發(fā)展。根據(jù)工業(yè)和信息化部在2014年7月發(fā)布的通報[1],2011年到2013年上半年,全國共規(guī)劃建設數(shù)據(jù)中心255個,已投入使用173個,總用地面積約713.2萬平方米,總機房面積約400萬平方米。2014年,中國數(shù)據(jù)中心市場仍在快速發(fā)展中,大型互聯(lián)網(wǎng)企業(yè)、通信運營商以及政府部門都在積極推進數(shù)據(jù)中心以及數(shù)據(jù)中心基地的建設。
隨著數(shù)據(jù)中心的大規(guī)模建設和運行,數(shù)據(jù)中心的關(guān)鍵質(zhì)量——安全可靠性,正受到普遍關(guān)注。數(shù)據(jù)中心承擔著各企事業(yè)單位的核心業(yè)務運營,尤其是通信運營商、金融行業(yè)、大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心,如果發(fā)生突發(fā)性故障,不僅會造成重大的經(jīng)濟損失,還會使企業(yè)信譽受損。
數(shù)據(jù)中心的建設通常只關(guān)注規(guī)劃、設計、施工等方面,施工完畢后經(jīng)過施工驗收就投入運行。其施工驗收往往都是參照土建類項目進行,一般都是孤立、靜態(tài)的,有些甚至是關(guān)鍵設施存在的問題,也無法被檢驗出來,造成數(shù)據(jù)中心投入運行后,不斷發(fā)生故障,甚至引起數(shù)據(jù)中心癱瘓,帶來重大經(jīng)濟損失和社會影響。為避免該情況的發(fā)生,近年來在施工完畢后,對數(shù)據(jù)中心有針對性地進行測試已經(jīng)逐步成為共識。
數(shù)據(jù)中心的建設是一項復雜的系統(tǒng)工程,它涉及到建筑、結(jié)構(gòu)、裝修、電源、空調(diào)、通信、消防等多個專業(yè)。且數(shù)據(jù)中心的建設具有施工時間集中、施工工藝復雜、施工專業(yè)能力要求比較高等特點,數(shù)據(jù)中心建設質(zhì)量將直接影響其運行的安全可靠性。尤其是電源、空調(diào)系統(tǒng)作為數(shù)據(jù)中心的關(guān)鍵設施,一旦出現(xiàn)故障往往都是災難性的,將直接導致數(shù)據(jù)中心癱瘓,影響巨大,所以要求更高,必須全年7×24小時不間斷運行。
數(shù)據(jù)中心可靠性是數(shù)據(jù)中心的關(guān)鍵指標,是數(shù)據(jù)中心評級的重要標準。對于高等級數(shù)據(jù)中心,在其建設的規(guī)劃、設計、施工各環(huán)節(jié)中都在追求高可靠性,而在施工驗收環(huán)節(jié)卻并未真正做好高可靠性的檢驗。目前,國內(nèi)的數(shù)據(jù)中心施工驗收規(guī)范常用的有國家標準“電子信息系統(tǒng)機房施工及驗收規(guī)范”[2]、通信行業(yè)標準“互聯(lián)網(wǎng)數(shù)據(jù)中心(數(shù)據(jù)中心)工程驗收規(guī)范”[3]以及各企業(yè)的數(shù)據(jù)中心施工驗收規(guī)范等。數(shù)據(jù)中心的施工驗收一般都參照這些驗收規(guī)范進行,對數(shù)據(jù)中心建筑、結(jié)構(gòu)、裝修、電源、空調(diào)、通信、消防等多個專業(yè)分別進行驗收。驗收時只是針對施工選用的設備、材料、施工工藝與設計進行核對和測量。對于設備也只是對單臺設備分別開啟,觀察是否運行正常,沒有一個系統(tǒng)的、有針對性的數(shù)據(jù)中心測試方案,因此,會導致很多數(shù)據(jù)中心在正式上線運行后問題不斷發(fā)生。這個現(xiàn)象已經(jīng)引起了數(shù)據(jù)中心建設和使用單位的高度重視。為解決這一問題,目前社會上逐漸涌現(xiàn)出一批數(shù)據(jù)中心測試和驗證機構(gòu),其作為專業(yè)的第三方機構(gòu)對建成后的數(shù)據(jù)中心做全面“體檢”,查出問題預先整改,整改通過后再投入正式運行,使數(shù)據(jù)中心在正式運行時能夠更好地實現(xiàn)設計所要求的高可靠性指標。在數(shù)據(jù)中心測試中,對電源、空調(diào)系統(tǒng)的測試尤為關(guān)鍵。
由于數(shù)據(jù)中心建設時往往只針對基礎配套設施,并沒有部署IT設備,在數(shù)據(jù)中心交付使用后才逐步進行安裝,這樣就會造成施工驗收時數(shù)據(jù)中心沒有負載,無法真正檢驗所建設的基礎配套設施能否長時間安全可靠地運行;而對于數(shù)據(jù)中心的關(guān)鍵設施如電源、空調(diào)系統(tǒng),因為有很多問題在空載狀態(tài)下無法暴露出來,所以單個測試電源、空調(diào)設備無法測試出正式上線后它們是否能夠滿足長時間運行的高可靠性要求;因此,采用假負載模擬數(shù)據(jù)中心的實際運行情況,對電源、空調(diào)系統(tǒng)的各個環(huán)節(jié)進行細致且系統(tǒng)的測試,是一個理想的測試方案。
數(shù)據(jù)中心假負載測試是指數(shù)據(jù)中心建設工程完工后,在機房機架內(nèi)安裝假負載設備并上電運行,模擬用戶在機房啟用服務器等設備后實際運行、發(fā)熱的情況,用以測試所有的配套系統(tǒng)。對機房范圍內(nèi)所涉及的設備設施、電氣連接點(含電源頭柜、工業(yè)連接器等全部電氣設備設施)進行假負載測試,以杜絕安全隱患的發(fā)生;對數(shù)據(jù)中心發(fā)電機系統(tǒng)、變配電系統(tǒng)、不間斷電源系統(tǒng)、機房配電系統(tǒng)、空調(diào)系統(tǒng)等進行滿載測試,以確保整體系統(tǒng)的安全性和可靠性。
數(shù)據(jù)中心假負載測試根據(jù)測試對象的不同,可分為數(shù)據(jù)中心機房機架假負載測試與數(shù)據(jù)中心(機房)滿載測試,可根據(jù)用戶需求的不同分別進行或者同時進行。數(shù)據(jù)中心機房機架假負載測試主要針對機房內(nèi)配電設備及前級配電屏,測試各配電屏狀態(tài)及各具體連接點的狀態(tài);數(shù)據(jù)中心滿載測試主要用于測試數(shù)據(jù)中心的各系統(tǒng)工作情況及其應對突發(fā)故障時的處置情況。兩類的測試具體內(nèi)容詳見表1。
表1 假負載測試各項內(nèi)容
針對數(shù)據(jù)中心進行假負載測試的主要工作包括:前期現(xiàn)場查勘、制定測試方案、測試方案論證、測試設備及工具籌集、測試人員培訓、現(xiàn)場測試、測試數(shù)據(jù)分析、現(xiàn)場問題整改、問題點復測、出具測試結(jié)論及報告等,以下將進行詳細敘述。
1) 測試設備:機架式假負載箱,如圖1所示。技術(shù)要求,如表2所示。
圖1 機架式假負載箱示例
表2 假負載箱技術(shù)要求
負載性質(zhì):要求測試用機架式假負載為純阻性負載,其目的是確保功率、電流穩(wěn)定,使得計算更加便捷、測試結(jié)果具有可比性。
設備功率:多檔可調(diào)的設備功率更能適應不同額定功率的機架需求。
加載方式:手動加載便于控制,以防止同時開啟較多假負載時因電流過大超過電源頭柜的額定電流引起斷路器動作。
工作電壓:數(shù)據(jù)中心機房機架的不間斷電源系統(tǒng)可能為UPS系統(tǒng)或者高壓直流系統(tǒng)。選擇兼容不同工作電壓的假負載箱可以適應不同條件的機房。
自動保護:要求機架式假負載具有自動保護功能,包含負載過流及短路保護,另需具有風機故障保護。當假負載的風機發(fā)生故障時,其內(nèi)部電阻絲持續(xù)發(fā)熱,負載箱喪失風冷功能。在此情況下,極易造成負載箱內(nèi)部線路、元器件損壞,產(chǎn)生煙霧,甚至發(fā)生火災,嚴重時可能觸動機房消防系統(tǒng),造成不必要的損失;因此,要求機架式假負載箱具有風機故障保護十分必要,即當負載箱內(nèi)的風機不啟動,或者風扇未轉(zhuǎn)動時,電阻絲停止通電。亦可根據(jù)負載箱內(nèi)溫度設置該故障保護,即當負載箱內(nèi)部環(huán)境溫度升高至一定溫度時,切斷電阻絲電源。
2) 測試工具,如表3所示。測試工具的數(shù)量應根據(jù)數(shù)據(jù)中心規(guī)模、機房內(nèi)機架數(shù)量、測試人員數(shù)量、測試進度等綜合考慮。
數(shù)據(jù)中心機房機架假負載測試旨在測試機房內(nèi)配電系統(tǒng)及前級配電屏的各電氣連接點狀態(tài)。數(shù)據(jù)中心配電系統(tǒng)中最難檢測的即電氣連接點狀態(tài),該狀態(tài)無法直接觀測出,電氣連接點的狀態(tài)往往以溫升的形式反應,故數(shù)據(jù)中心機房機架假負載測試的主要工作是測量各電氣連接點的溫升情況。
數(shù)據(jù)中心機房機架假負載測試前,需根據(jù)機房內(nèi)機架總數(shù)量、機架額定功率、每套不間斷電源系統(tǒng)對應的機架數(shù)量以及機房空調(diào)系統(tǒng)的制冷量、測試人員和工具的多少,來綜合確定測試方案,確保每臺機架的每路回路都完成測試。一般數(shù)據(jù)中心機房的測試步驟如下。
1) 根據(jù)機房實際情況制定測試方案。
2) 準備測試設備、工具、安排測試人員(包括設備廠家技術(shù)支持人員)。
3) 明確測試參數(shù),包括假負載功率、電流、每列頭柜允許的最大電流、不間斷電源系統(tǒng)的容量及允許最大負載率、機房空調(diào)系統(tǒng)允許的最大負載等。
4) 明確測試點,一般數(shù)據(jù)中心機房機架假負載測試的溫升測試點包括以下幾方面。①電源頭柜:電源頭柜總開關(guān)輸入輸出端金屬表面;電源頭柜金屬母排;電源頭柜分路開關(guān)輸入輸出端金屬表面。②機架:機柜接線柱輸入輸出端金屬表面;機柜PDU外殼表面;機柜PDU插孔。③電源頭柜前級配電屏:配電屏內(nèi)斷路器或者熔斷器輸入輸出端金屬表面。
5) 確定測試周期。經(jīng)驗表明,機架式假負載在上電運行半小時后,各電氣連接點的溫升情況即可基本穩(wěn)定,故障點的發(fā)熱速度則相對要快很多,基本在上電后的15分鐘內(nèi)就會明顯發(fā)熱,因此,將溫度測試周期定為上電半小時之后。
6) 測試步驟。
①準備工作:將假負載搬運入架,置于機柜層板上,螺絲不固定;檢查不間斷電源系統(tǒng)狀態(tài);檢查假負載及電源頭柜開關(guān),全部置為關(guān)閉檔;連接假負載電源線,保證每機架假負載電源插頭在PDU上的位置相同并且負載功率盡量均分;在測試記錄表上記錄環(huán)境溫度、機柜編號、A/B路信息等。
②上電步驟:先開啟電源頭柜輸入總開關(guān),再開啟電源頭柜分路開關(guān);開啟假負載開關(guān)(假負載開啟后電流可能會短暫升高,為確保每列機架總電流不超過額定電流,開啟假負載時應逐臺開啟并注意電流是否穩(wěn)定);用鉗形表測量電源頭柜每分路電流值并記錄,確保分路電流正常,記錄實際電壓值和電流總值;觀察電源頭柜及前級輸出配電屏的參數(shù)、狀態(tài)等。
③溫度測量:假負載正常運行30分鐘后,用紅外線熱成像儀分別測量電源頭柜總開關(guān)輸入輸出端金屬表面、電源頭柜母排、電源頭柜分路開關(guān)輸入輸出端金屬表面、機柜中接線柱輸入輸出端金屬表面、機柜PDU外殼表面、機柜PDU插孔的溫度,并將數(shù)據(jù)記錄在測試記錄表上;測量該電源頭柜對應的前級輸出屏分路斷路器或者熔斷器輸入輸出端金屬表面溫度,并將數(shù)據(jù)記錄在測試記錄表上。
④結(jié)束測試:關(guān)閉假負載開關(guān);先關(guān)閉電源頭柜分路開關(guān),再關(guān)閉電源頭柜輸入總開關(guān);測試人員檢查確認測試結(jié)果并簽字;將假負載電源線斷開;將假負載搬離機架。
注意事項:確保機房空調(diào)系統(tǒng)制冷量能滿足同時開啟的假負載功耗;確保一套不間斷電源系統(tǒng)所帶負載不超過運維允許最大負載;不能帶載開啟、關(guān)閉電源頭柜的開關(guān);機房內(nèi)需配備消防工具。
7) 對測試數(shù)據(jù)進行統(tǒng)計分析,統(tǒng)計問題點。
8) 由設備廠家或施工單位對問題及故障進行整改維修,并進行復測。
9) 完成測試,出具測試報告。
數(shù)據(jù)中心機房機架假負載測試能夠有效地對數(shù)據(jù)中心機房配電系統(tǒng)進行檢測,通過測試能夠發(fā)現(xiàn)配電設備可能存在的電氣連接點問題,如接觸不良、假焊、虛焊等,也能夠測試配電屏等設備的告警、顯示、測量功能等,從而在機房正式投入使用前對隱患問題進行整改。
數(shù)據(jù)中心假負載滿載測試即模擬數(shù)據(jù)中心中每個機房均按照設計負荷滿負荷運行,在此情況下對數(shù)據(jù)中心的發(fā)電機系統(tǒng)、變配電系統(tǒng)、不間斷電源系統(tǒng)、空調(diào)系統(tǒng)等進行檢測調(diào)試。在交付用戶前對隱患進行整改,避免后續(xù)安全事故的發(fā)生。
滿載測試前也應根據(jù)數(shù)據(jù)中心各系統(tǒng)的實際情況,結(jié)合運維要求及客戶需求制定詳細的測試方案。測試時,應遵照數(shù)據(jù)中心機房機架假負載測試的要求安裝開啟各機房的假負載設備,在數(shù)據(jù)中心各機房滿載運行的情況下,檢查各設備的運行狀態(tài),繼而進行系統(tǒng)測試與系統(tǒng)聯(lián)調(diào)等。
數(shù)據(jù)中心假負載滿載電源系統(tǒng)測試方法如表4所示。以水冷空調(diào)系統(tǒng)為例,數(shù)據(jù)中心假負載滿載水冷系統(tǒng)測試方法如表5所示。數(shù)據(jù)中心假負載滿載測試可使整個數(shù)據(jù)中心的發(fā)電機系統(tǒng)、變配電系統(tǒng)、不間斷電源系統(tǒng)、空調(diào)系統(tǒng)等故障應急響應系統(tǒng)的可靠性得到保障。
表4 數(shù)據(jù)中心假負載滿載電源系統(tǒng)測試聯(lián)調(diào)
表5 數(shù)據(jù)中心假負載滿載水冷空調(diào)系統(tǒng)測試
在數(shù)據(jù)中心電源系統(tǒng)中,電氣連接點往往是電路中的薄弱環(huán)節(jié),是發(fā)生過熱的一個重點部位。不可拆卸的接頭連接不牢、焊接不良或接頭處混有雜質(zhì),都會增加接觸電阻而導致接頭過熱??刹鹦兜慕宇^連接不緊密或由于震動而松動也會導致接頭發(fā)熱?;顒佑|頭,如刀開關(guān)的觸頭、接觸器的觸頭、插式熔斷器的觸頭等,如果沒有足夠的接觸壓力或接觸表面粗糙不平,亦會導致接頭過熱。
如因連接點接觸不良導致打火、短路、漏電等,會很容易引起系統(tǒng)跳電、設備宕機。如漏電電流集中在某一點,發(fā)熱量將非常大,很容易造成火災。判斷以上這些故障的重要依據(jù)就是假負載測試時的測試點溫升情況。
《中華人民共和國國家標準GB 7251.1—2005 低壓成套開關(guān)設備和控制設備》[4]及《中華人民共和國國家標準GBT 25840-2010 規(guī)定電氣設備部件(特別是接線端子)允許溫升的導則》[5]中對機房中各設備不同材質(zhì)的溫升提出了要求。
國家標準提出:用于連接外部絕緣導線的端子允許最大溫升為70K,可接近的外殼和覆板——絕緣表面允許最大溫升為40K。
實際測試中,當我們假定機房、電力室環(huán)境溫度為25℃左右,按照國家標準規(guī)定,數(shù)據(jù)中心機房電源頭柜內(nèi)總開關(guān)與分路開關(guān)的接線柱、機柜內(nèi)接線柱與電源系統(tǒng)配電屏內(nèi)開關(guān)接線柱或熔絲連接端可允許的最高溫度為95℃。機房機柜PDU表面可允許的最高溫度為65℃。
結(jié)合實際測試結(jié)果,我們發(fā)現(xiàn),國家標準中規(guī)定的允許最大溫升對數(shù)據(jù)中心機房機架假負載測試結(jié)果的指導意義并不大。實際測試時,各電氣連接點溫度達到50℃以上的,如經(jīng)重新緊固整改,復測溫度均能獲得明顯下降。而連接點溫度在60℃以上時,一般都不同程度存在連接點接觸不良的問題,經(jīng)整改復測后溫度均降至50℃以下。
綜合幾次實際測試的數(shù)據(jù)分析,本文認為,一般將數(shù)據(jù)中心機房電氣連接點允許最大溫升定為25K,絕緣表面允許最大溫升定為20K較為合理。
數(shù)據(jù)中心假負載測試在近兩年已經(jīng)逐步應用到數(shù)據(jù)中心的建設中,以下以某通信運營商數(shù)據(jù)中心假負載測試為例,對數(shù)據(jù)中心假負載測試的應用情況進行介紹。
通過對某通信運營商數(shù)據(jù)中心進行機房機架假負載測試,發(fā)現(xiàn)并整改的機房隱患問題如表6所示。圖2、圖3為數(shù)據(jù)中心機房機架假負載測試發(fā)現(xiàn)隱患圖示。
表6 數(shù)據(jù)中心機架假負載測試發(fā)現(xiàn)問題及整改方案
圖2顯示為在機架假負載測試中,發(fā)現(xiàn)前級高壓直流系統(tǒng)直流輸出屏內(nèi)熔斷器連接處溫度異常,高于正常溫度值。推測原因為熔斷器未安裝到位或者接觸面存在異物。經(jīng)過拆卸熔斷器并重新檢查安裝后,復測溫度恢復正常。圖3顯示為同一測試點復測溫度。
圖3 高壓直流系統(tǒng)直流配電屏內(nèi)熔斷器連接點更改后溫度
通過對數(shù)據(jù)中心進行機房機架假負載測試,基本上將機房內(nèi)存在的隱患盡數(shù)發(fā)現(xiàn)并進行了整改,使得用戶設備得以安全運行。
隨著數(shù)據(jù)中心的發(fā)展,用戶對數(shù)據(jù)中心機房安全可靠性日益重視,在數(shù)據(jù)中心交付使用前進行數(shù)據(jù)中心測試驗證已經(jīng)逐漸成為一種趨勢。尤其是對于數(shù)據(jù)中心關(guān)鍵設施如電源、空調(diào)系統(tǒng),只有通過假負載測試才能發(fā)現(xiàn)數(shù)據(jù)中心的潛在問題和隱患,從而進行整改,最大難度降低數(shù)據(jù)中心運行時的風險。假負載測試不僅能夠在數(shù)據(jù)中心建設完成后通過測試、整改提高數(shù)據(jù)中心的可靠性,而且能夠?qū)?shù)據(jù)中心實際運行時的事故處理預案進行評估和優(yōu)化,進一步提高數(shù)據(jù)中心的可靠性、可用性。隨著數(shù)據(jù)中心的不斷發(fā)展,數(shù)據(jù)中心假負載測試必將成為數(shù)據(jù)中心建設驗收的重要組成部分,并且會成為數(shù)據(jù)中心配套業(yè)務的又一新興市場。
參考文獻
[1]工信部通函〔2014〕225號.工業(yè)和信息化部關(guān)于2011年以來我國數(shù)據(jù)中心規(guī)劃建設情況的通報[R]
[2]中華人民共和國國家標準GB 50462-2008.電子信息系統(tǒng)機房施工及驗收規(guī)范[S]
[3]中華人民共和國通信行業(yè)標準YD 5194-2014.互聯(lián)網(wǎng)數(shù)據(jù)中心(數(shù)據(jù)中心)工程驗收規(guī)范[S]
[4]中華人民共和國國家標準GB 7251.1-2005.低壓成套開關(guān)設備和控制設備[S]
[5]中華人民共和國國家標準GBT 25840-2010.規(guī)定電氣設備部件(特別是接線端子)允許溫升的導則[S]