筆者所在的B級數(shù)據(jù)中心采用目前主流的“2+2”雙路供電模式,在2018年的某天當(dāng)完成UPS放電測試項目后,在恢復(fù)UPS主路運(yùn)行模式時,發(fā)現(xiàn)并機(jī)運(yùn)行的1#2#UPS產(chǎn)生焦糊氣味且有異常噪音。
運(yùn)維人員將1#2#UPS回退至電池供電狀態(tài),稍后將其切換到靜態(tài)旁路運(yùn)行,等待廠家工程師前來排查故障。等待期間發(fā)現(xiàn)1#2#UPS主機(jī)內(nèi)的旁路濾波板ETON燒紅,運(yùn)維人員立即操作將兩臺故障設(shè)備旁路隔離關(guān)機(jī)下電。
經(jīng)排查,在機(jī)房內(nèi)共有兩臺UPS的旁路濾波板燒壞,一臺精密空調(diào)壓縮機(jī)保險管燒壞,一臺有源濾波器的諧波治理模塊保險管燒壞,以及IT設(shè)備中有兩個電源模塊損壞。
圖1 市電輸入配電柜零線電流曲線
在本次故障中,精密空調(diào)和有源濾波器接入點與UPS并機(jī)系統(tǒng)接入點在同一配電柜中,因電路中零線電流匯集了三相電流所有的異常波動,故本文中根據(jù)零線電流曲線進(jìn)行故障分析。
查詢各故障設(shè)備運(yùn)行事件記錄,可以發(fā)現(xiàn)有源濾波器諧波治理模塊先于精密空調(diào)壓縮機(jī)保險管燒壞,有源濾波器故障后即出現(xiàn)零線電流的巨幅振蕩現(xiàn)象(時間:21時12分)。而有源濾波器并聯(lián)接入電路治理電流諧波,它的原理是通過實時監(jiān)視電路中的諧波電流變化,向電路注入與諧波電流幅值相等、極性相反的補(bǔ)償電流,對諧波電流進(jìn)行補(bǔ)償?shù)窒麃硐娏χC波的。
觀察圖1零線電流變化曲線,我們可以推斷零線電流的振蕩現(xiàn)象實際在17時40分時就已經(jīng)出現(xiàn),而有源濾波器的補(bǔ)償?shù)窒沟?7時40分至21時12分之間的電流振蕩未顯現(xiàn)出來,長時間的大電流補(bǔ)償最終導(dǎo)致有源濾波器過載保護(hù),之后振蕩電流使得精密空調(diào)壓縮機(jī)保險管和IT設(shè)備電源模塊損壞。再觀察兩臺UPS設(shè)備是同時發(fā)生的旁路濾波板燒壞,而在21:55分兩臺UPS隔離下電后振蕩電流消失等現(xiàn)象,可以看出本次機(jī)房配電系統(tǒng)故障的根源就是1#2#UPS并機(jī)系統(tǒng)發(fā)生某種共因失效并引起了電路震蕩。
共因失效是指在冗余系統(tǒng)中由于某種共同原因而引起冗余單元同時失效的故障現(xiàn)象,共因失效的存在顯著地降低了冗余系統(tǒng)的可靠性,是冗余系統(tǒng)失效的主要根源,它的存在使得部件之間相互獨(dú)立的假設(shè)不再存在,目前是工程應(yīng)用領(lǐng)域亟待研究的課題之一。根據(jù)部件失效的來源,一般可將其分為來自系統(tǒng)外部環(huán)境的影響和來自系統(tǒng)內(nèi)部部件的失效傳播兩大類。
在背景事件中,結(jié)合圖1零線電流曲線可以看到故障前后,UPS前端市電呈現(xiàn)的“沖擊(合閘)——周期振蕩(靜態(tài)旁路)——恢復(fù)(維修旁路)”三個階段波形,以及旁路濾波板的過載燒壞,可以推斷出本次為來自外部環(huán)境影響造成的共因失效。
外部環(huán)境引起UPS并機(jī)系統(tǒng)共因失效進(jìn)而產(chǎn)生電路振蕩的原因可以從并機(jī)系統(tǒng)的頻率控制原理來說起。在并機(jī)系統(tǒng)中每臺UPS的輸出頻率是由各自本機(jī)逆變器控制板上的振蕩器決定的,本機(jī)振蕩器頻率同步于并機(jī)板主振蕩器頻率,而主振蕩器頻率則由同步源選擇器來選擇,一般有3種選擇對象,即旁路頻率、并機(jī)總線頻率、強(qiáng)制基波頻率等,其選擇依據(jù)是旁路電源是否正常和并機(jī)UPS的啟動方式,UPS并機(jī)系統(tǒng)以此種方式實現(xiàn)輸出電流頻率相同。
以兩臺UPS并機(jī)為例,當(dāng)市電突然中斷或者大幅振蕩時,UPS監(jiān)測到旁路頻率越限后同步源選擇器立即指向基波頻率,并機(jī)板的主振蕩器以基波頻率運(yùn)行,通過并機(jī)總線通訊使兩臺UPS的振蕩器與主振蕩器同步,并機(jī)系統(tǒng)則以電池供電模式運(yùn)行,輸出頻率為基波正弦波。而當(dāng)兩臺UPS采用斷開Q1開關(guān)的方式運(yùn)行在電池供電模式時,并機(jī)系統(tǒng)監(jiān)測到的旁路電源是正常,并機(jī)板的同步源選擇器是指向旁路頻率的,并機(jī)UPS的輸出頻率與旁路頻率同步。當(dāng)其中一臺或者兩臺UPS閉合Q1輸入開關(guān)后,它的振蕩器輸出頻率也是與旁路頻率同步的。
在實際操作過程中,當(dāng)運(yùn)維人員完成放電測試閉合UPS輸入開關(guān)Q1時,此時UPS的實際帶載除了輸出端電子計算機(jī)設(shè)備外,還增加了給容性負(fù)載蓄電池組充電的負(fù)荷,Q1合閘時的瞬時電流達(dá)到了輸出電流與充電電流之和的4至7倍,觀察圖1中17:00在Q1閉合時零線電流瞬間值達(dá)到了200A,可見啟動沖擊是很大的。
如此巨大的沖擊電流極易造成UPS設(shè)備的電力電子器件損壞,同時沖擊電流會引起包括旁路的整個電路振蕩,正常情況下并機(jī)系統(tǒng)應(yīng)能監(jiān)測到頻率越限,然后同步源選擇器指令并機(jī)系統(tǒng)以基波頻率運(yùn)行,但在并機(jī)系統(tǒng)連續(xù)閉合兩臺設(shè)備的Q1開關(guān),連續(xù)兩次大電流沖擊之下同步源選擇器的這種邏輯機(jī)制很有可能被沖破,之后并機(jī)系統(tǒng)為了保持與旁路頻率同步,主振蕩器在修正信號指引下跟隨旁路頻率,兩臺UPS各自的振蕩器再與旁路頻率同步即產(chǎn)生電路振蕩。這種并機(jī)系統(tǒng)內(nèi)部產(chǎn)生的振蕩電流通過零線漫延泄放,在反饋回主路方向的零線電流與主路振蕩電流一旦形成諧振就會造成整條電路電流振蕩難以自行平復(fù),即是產(chǎn)生了圖1中17:40至21:12之間的振蕩電流。當(dāng)振蕩電流很劇烈時電路中的諧波治理設(shè)備就會誤判斷為電路中電流諧波含量很多幅值很大,進(jìn)而持續(xù)產(chǎn)生同值反向的抵消電流,最終造成濾波器類設(shè)備過載損壞。
觀察圖2中本次UPS設(shè)備燒壞的ETON板,它是一種電子濾波器,其中的三極管VT1起到濾波管作用,另有三個基極濾波電容和六個基極濾波電阻構(gòu)成三組RC濾波電路。而一般情況下諧波電流值很小且含量不大,觀察圖2可看到燒灼最嚴(yán)重的是六個濾波電阻,我們可以判斷出故障當(dāng)時濾波電路將電路中的的諧振電流當(dāng)做了電流值很大的諧波電流,而導(dǎo)致嚴(yán)重過載直至燒毀。
再查詢環(huán)境監(jiān)控系統(tǒng)市電輸入配電柜零線電流歷史數(shù)據(jù),系統(tǒng)正常運(yùn)行時零線電流15A左右,觀察圖1在并機(jī)系統(tǒng)切換到靜態(tài)旁路后,剔除濾波設(shè)備影響可以發(fā)現(xiàn)零線電流周期波動,其幅值達(dá)到在35至180A左右,以上數(shù)據(jù)加強(qiáng)了電路中發(fā)生了疊加振蕩的推斷。
圖2 UPS設(shè)備燒壞的旁路濾波板ETON
本次故障中,維護(hù)人員發(fā)現(xiàn)異常聲音和焦糊氣味后將設(shè)備回退到電池供電模式,然后采用長按灰鍵(MGE Galaxy 5000機(jī)型),將設(shè)備切換到靜態(tài)旁路等待維修的處置方式。而長按灰鍵只是關(guān)閉了逆變器,設(shè)備中的很多部件還是在運(yùn)行的,比如為了保證向靜態(tài)旁路切換正常,靜態(tài)開關(guān)前端的旁路濾波板會對旁路震蕩電流進(jìn)行濾波穩(wěn)壓。我們知道靜態(tài)旁路只是UPS設(shè)備切往維修旁路的一個過渡路徑,將UPS設(shè)備長時間置于靜態(tài)旁路的暫態(tài)環(huán)境下,并不能消除并機(jī)系統(tǒng)的共因失效故障,而在UPS的內(nèi)部復(fù)雜電路已經(jīng)產(chǎn)生紊亂電流的情況下,這種方式更會導(dǎo)致一些設(shè)備損壞事件的發(fā)生。
UPS并機(jī)冗余系統(tǒng)提高了配電系統(tǒng)的可靠性,但其基于電流電壓波形同步的并機(jī)模式控制原理,使得并機(jī)系統(tǒng)可能因電網(wǎng)沖擊而導(dǎo)致并機(jī)失敗,或者引發(fā)整個電路的諧振,而單臺UPS由于結(jié)構(gòu)簡單反而不容易出現(xiàn)上述故障。
外部環(huán)境造成的并機(jī)系統(tǒng)共因失效常出現(xiàn)于設(shè)備開機(jī)操作、有電網(wǎng)沖擊時,外觀現(xiàn)象是并機(jī)系統(tǒng)中每臺設(shè)備都出現(xiàn)了相同的異?,F(xiàn)象或故障告警信息。我們可以通過測量并機(jī)系統(tǒng)的環(huán)流情況,聽運(yùn)行聲音、嗅異常氣味等方式初步判斷,也可以通過查看運(yùn)行事件記錄,檢查輸出電能變化情況等方式最終確定并機(jī)系統(tǒng)運(yùn)行狀況。
在確認(rèn)異常狀況后,對于并機(jī)系統(tǒng)可以采用先關(guān)閉一臺UPS,斷開輸入輸出將其從電路隔離,使配電網(wǎng)絡(luò)從冗余復(fù)雜系統(tǒng)退出,簡化為單機(jī)簡單模式以提高配電網(wǎng)絡(luò)的抗擾能力,觀察配電網(wǎng)絡(luò)運(yùn)行參數(shù)再做進(jìn)一步的處置操作,甚至直接將并機(jī)系統(tǒng)全部隔離下電,再重新逐臺啟動并機(jī)。