石 瑋, 張立林, 萬勁松
(北京中聯(lián)云服數(shù)據(jù)科技有限公司,北京 100101)
數(shù)據(jù)中心的安全性、可靠性和延展性是在立項階段規(guī)劃,在設計和建造階段落實,在竣工驗收階段驗證,在運行維護階段延續(xù)。獲得CQC(中國質(zhì)量認證中心)場地基礎設施等級增強型(A級)證書僅是數(shù)據(jù)中心安全性、可靠性里程的開始。數(shù)據(jù)中心A級能力得以保持需要一支技術完備的運維團隊,包括電氣、暖通、樓宇自控(弱電)、保養(yǎng)運維和消防安防五個主要專業(yè)的技術人才。其中,最重要的應該是電氣和暖通技術人才,電氣又是五大專業(yè)的支撐與保障。本文著重闡述兩個品牌的UPS在運行中發(fā)生的兩個故障案例及解決路徑,揭示故障根源,望對電氣運維人員有所幫助。
北京某數(shù)據(jù)中心P106機房中共有2臺A廠商100kVA UPS(每臺UPS有2個50kVA模塊)。在UPS設備進行假負載測試時發(fā)現(xiàn),其中一臺100kVA UPS B機柜內(nèi)存在異音問題,而另一臺100kVA UPS A異音要小很多。如果沒有很好的解決此問題,很可能會對UPS的正常使用壽命和公司客戶帶來不可估量的經(jīng)濟損失。下面是對此問題的現(xiàn)場排查及分析處理過程。
(1)排查問題一:模塊風扇工作異常導致
通過熱插拔UPS模塊,更換模塊風扇后發(fā)現(xiàn)此設備的異音仍然存在,且UPS模塊風扇運行正常,證明此臺UPS的異音不是來自模塊風扇。
(2)排查問題二:UPS輸入側(cè)電源存在的諧波干擾
查看圖紙與現(xiàn)場實際核查,發(fā)現(xiàn)UPS A和UPS B的輸入電源來自兩臺不同的變壓器(P202配電室T15和T16變壓器),說明兩臺UPS的輸入側(cè)電源的市電都有可能存在諧波干擾的問題,諧波干擾的大小不同,判定諧波的大小會導致5000E-100kVA UPS模塊機內(nèi)部電器元件出現(xiàn)一些問題(其中包括某些在市電正常穩(wěn)定供電情況下運行的電子元器件,一旦市電質(zhì)量不穩(wěn)定就會出現(xiàn)異常損壞設備)。
通過上述分析,異音UPS模塊可能是市電諧波干擾造成的。接下來對兩臺UPS的輸入電源進行互換測試。
1)將異音UPS B輸入從配電柜A引入,即UPS A與UPS B同時從配電柜A中引入電源,測試結(jié)果為UPS B聲音明顯變?nèi)酢?/p>
2)將正常UPS A輸入電源從配電柜B引入,即UPS A與UPS B同時從配電柜B中引入電源,測試結(jié)果為UPS A聲音明顯變強。
3)UPS B旁路供電狀態(tài),拔出所有功率模塊后,僅旁路模塊在位工作,異音消失,說明異音與旁路模塊無關。
4)UPS B轉(zhuǎn)外部維修旁路,拔出旁路模塊,僅功率模塊在機架運行,異音存在,說明主路接入時就有存在異音。
根據(jù)如上測試排查,初步判斷,UPS異音與UPS的輸入電源有關。
用示波器分別對兩臺UPS的輸入電壓波形進行測量,UPS A和UPS B的輸入電壓波形相比,異音較大的UPS B輸入電壓波形明顯呈現(xiàn)鋸齒狀,存在高頻諧波,而UPS A的輸入電壓高頻諧波較小。根據(jù)波形判斷,異音與輸入電壓的高頻諧波有關。
現(xiàn)場UPS處于正常工作模式,市電輸入經(jīng)過整流器由AC變換成DC電壓,再經(jīng)逆變器由DC變換成AC輸出,經(jīng)由兩級變換以后,能得到精度和質(zhì)量都較好的輸出電壓,可以防止輸入諧波、毛刺、電壓瞬變等干擾影響負載。UPS主路模式工作原理如圖1所示。
圖1 5000E-100kVA (UPS A)主路模式工作原理圖
根據(jù)現(xiàn)場試驗檢查,當UPS輸入電源加入高頻諧波后,與正常輸入電壓相比異音明顯變大,異音來自功率模塊內(nèi)部的輸入濾波薄膜電容。在電容的兩端加上純凈的直流電壓對電容進行充電,兩張金屬化薄膜會由于靜電庫侖力的作用而互相吸引;如果在電容器的兩端加上交流電壓或疊加有干擾雜波的直流電壓,電容上吸引的電荷就會隨著電壓的周期性變化而產(chǎn)生變化,相應的兩張金屬化薄膜間靜電庫侖力的作用也會產(chǎn)生變化,這就引起金屬化薄膜的振動,從而產(chǎn)生聲響。
根據(jù)如上分析,UPS輸入電壓含有高頻諧波導致功率模塊內(nèi)部濾波薄膜電容出現(xiàn)異音。薄膜電容器在交流電壓工況下都會有一定的異音存在。這會導致UPS模塊中的電子元件縮短使用壽命,其根本的解決辦法就是在UPS輸入端加裝濾波器從而降低諧波對電容造成的傷害,同時也可以解決異音的問題,經(jīng)過項目團隊的技術改造,有異音的UPS已經(jīng)恢復了正常運行。
在并機系統(tǒng)正常工作時,一臺UPS的客戶端輸出開關Q5N會出現(xiàn)誤報警“Customer Q5N斷開”的現(xiàn)象,而實際該開關未斷開,設備本身保護而退出運行。目前為止共有6臺UPS出現(xiàn)該現(xiàn)象。報警從出現(xiàn)到消失的時間為0~8s不等。
Customer Q5N的輔助觸點信號鏈路如圖2所示。
圖2 G7K UPS Customer Q5N的輔助觸點信號與UPS輸出并機柜(PDU柜)內(nèi)的主斷路器分合閘的輔助觸點鏈路圖
該信號取自UPS并機輸出柜(PDU柜)內(nèi)的輸出開關Customer Q5N的輔助觸點,經(jīng)過信號線接入UPS的并機板INTT/EXTT。
并機板內(nèi)產(chǎn)生Customer Q5N斷開報警的電路如圖3所示。
圖3 G7K UPSCustomer Q5N并機板內(nèi)斷開報警電路圖
這個電路的前端是脈動信號產(chǎn)生電路,信號的頻率是8.7kHz。該脈沖信號控制三極管VT5的工作,只要+15V有電,VT5就工作在開關狀態(tài),不受其他任何因素和信號的影響。當VT5導通時,在變壓器T2的原邊產(chǎn)生電流,原邊產(chǎn)生電壓,T2的兩個副邊的同名端產(chǎn)生電壓信號。由于Customer Q5N閉合,其觸點信號也處于閉合狀態(tài),b1繞組短路,原邊受到串聯(lián)電阻的限流作用,原邊的電壓基本降為0,這樣,副邊兩個繞組的電壓也為0,b2繞組無信號輸出。后邊的比較電路如圖4所示。
圖4 脈沖信號控制三極管VT5的比較電路圖
當VT5不工作時,變壓器T2原邊的儲能釋放,T2的兩個副邊的非同名端產(chǎn)生電平信號。B1繞組二極管反向截止,b2繞組會有反向的瞬時電壓信號,但由于受到后邊電路中二極管的反向截止作用,該信號不會對最后的輸出信號造成影響??梢姡擟ustomer Q5N閉合,其觸點信號閉合時,這個產(chǎn)生開關狀態(tài)信息的信號Inf_Q5是沒有輸出的。
當Customer Q5N斷開時,b1處于開路狀態(tài),沒有電流,b2送出的信號就是脈動信號,就會產(chǎn)生開關斷開的報警信號。
開關觸點給過來的是短接信號,由于受到觸點短接的鉗制作用,即使上面的電路(脈動信號產(chǎn)生電路和狀態(tài)信號產(chǎn)生電路)故障不工作的情況下都不會送出脈動信號。
而誤報警就是本來應該沒有信號的輸出點變成了有信號輸出。所以,產(chǎn)生這一變化的原因只能是短接的觸點信號發(fā)生了變化。而這一變化是來自信號線所受到的干擾(觸點本身的問題已經(jīng)被盤廠的工程師排除)。
(1)從UPS輸出并機柜(PDU柜)到UPS的Customer Q5N信號線布放不符合規(guī)范,現(xiàn)場情況為:信號線與功率線隨意布放,而且信號線的屏蔽層沒有接地。這樣很容易導致信號線受到功率線的電磁干擾。
(2)UPS輸出并機柜(PDU柜)內(nèi)的Customer Q5N觸點及其信號線問題每個Customer Q5N內(nèi)部有4個輔助接點,由圖5中可見有2個觸點信號是有交流電源電壓220V。
圖5 UPS輸出并機柜(PDU柜)內(nèi)的Customer Q5N觸點接線圖
該信號在UPS輸出并機柜(PDU柜)內(nèi)極易受到其他信號或者電源線的干擾。
所有UPS輸出并機柜(PDU柜)到UPS的Customer Q5N信號線進行分類布線整改,必須按照規(guī)范重新進行布放到UPS輸出并機柜(PDU柜)內(nèi),現(xiàn)場先對一套G7K 4臺并機系統(tǒng)P201-T14U-SA(SA1,SA2,SA3 曾誤報 Customer Q5N OPEN)的UPS進行整改工作。將該觸點連到UPS輸出并機柜(PDU柜)后,端子排的信號線重新布放一根屏蔽線并將屏蔽層的一端接地。就地使用儀表模擬對未接屏蔽線的G7K Customer Q5N觸點(UPS內(nèi)部觸點)進行電流測量實驗:電流約為7.9mA。然后現(xiàn)場在對整改后的G7K Customer Q5N觸點(UPS內(nèi)部觸點)進行電流測量:電流約為8.66mA?,F(xiàn)場未整改的UPS并機輸出柜內(nèi)Customer Q5N觸點進行電流測量:電流約為1mA。由測試結(jié)果可見,整改后的觸點電流明顯大于整改前的電流,與實驗室正常的開關觸點電流非常接近。說明整改后的觸點信號已經(jīng)正常。在前面對G7K Customer Q5N的報警機制電路圖分析中,流過觸點的電流就是線圈b1中的電流。當觸點信號正常閉合時,觸點輸入端的電勢為零,線圈中的電流最大;而當觸點信號受到干擾時,在觸點輸入端就會有干擾電勢存在,將會使線圈中的電流變小。上述測試數(shù)據(jù)說明,未整改時的電流較小,說明觸點的輸入端有干擾信號存在,而整改后觸點受到的干擾基本沒有。
現(xiàn)將所有UPS輸出并機柜(PDU柜)進行整改檢測工作并對全部整改完的34臺并機G7K UPS進行Customer Q5N觸點電流進行檢測(UPS正常運行情況下),以檢查整改效果是否達到使用要求。測量結(jié)果為:302房的一套UPS(用戶編號:P302-T24U-SB1,P302-T24U-SB2,P302-T24U-SB3)的G7K Customer Q5N觸點電流波形中有較大的干擾成分存在,其他UPS的G7K Customer Q5N觸點電流波形較為正常,最后重新對302配電室的UPS進行了檢測并查找干擾的原因。經(jīng)過排查干擾的主要來源是地線,在將從配電柜端子排到UPS的Customer Q5N信號線的屏蔽接地線斷開時,觸點的電流波形得到了非常明顯的改善。目前在用的所有并機UPS的Customer Q5N信號線所受到的干擾已經(jīng)降到最小,同時將SB1和SB2 UPS的Customer Q5N信號線進行了重新布放,目前滿足了數(shù)據(jù)中心的使用要求。如果將UPS側(cè)Customer Q5N信號輸入端直接短接來代替觸點閉合的信號,這樣可以將外部的所有干擾全部排出,是最理想的狀態(tài)。
綜合對G7K Customer Q5N的報警機制電路圖與現(xiàn)場勘查及整改前后的分析測試數(shù)據(jù)的分析,可以得出產(chǎn)生誤報警的原因就是G7K Customer Q5N的信號受到干擾所致。
此次UPS問題的處理,是通過多年的電氣工作經(jīng)驗和理論知識相結(jié)合,從實際工作經(jīng)驗中一步一步分析排查出來的結(jié)果。任何系統(tǒng)的可靠性都不是絕對性的,更不是一成不變的,數(shù)據(jù)中心IT用戶所關心的也不僅僅是供電系統(tǒng)是否會突然斷電、是否能在不影響設備安全運行的前提下迅速處理故障恢復設備運行這么簡單的層面上,他們更想知道的是斷電故障的原因是怎么發(fā)生的,為什么會發(fā)生此類事故,如何才能有效的避免控制故障和事故的再發(fā)生。在風險管控實際預案演練的基礎上如何安全、穩(wěn)定、可靠的保證人身以及設備正常的運行。