宿 磊,車方毅,雷 楊,洪梅子,李 鵬
(國網(wǎng)湖北省電力公司電力科學(xué)研究院,湖北 武漢 430077)
一起配電自動(dòng)化系統(tǒng)主站雙機(jī)切換故障的分析及處理
宿 磊,車方毅,雷 楊,洪梅子,李 鵬
(國網(wǎng)湖北省電力公司電力科學(xué)研究院,湖北 武漢 430077)
圍繞某配電自動(dòng)化主站發(fā)生的一起前置服務(wù)器雙機(jī)切換失敗故障的分析及處理過程,從故障現(xiàn)象入手,剖析了故障產(chǎn)生的原因,給出了故障處理的方法和驗(yàn)證過程,并提出了針對(duì)性的預(yù)防措施。
配電自動(dòng)化;主站系統(tǒng);事故分析
配電自動(dòng)化是提高供電可靠性、擴(kuò)大供電能力、實(shí)現(xiàn)高效經(jīng)濟(jì)運(yùn)行的重要手段[1],自上個(gè)世紀(jì)末已經(jīng)推廣應(yīng)用[2-4]。本文針對(duì)某配電自動(dòng)化主站發(fā)生的一起前置服務(wù)器雙機(jī)切換失敗導(dǎo)致監(jiān)控功能喪失的故障,從故障現(xiàn)象入手,梳理了故障發(fā)生經(jīng)過,分析了故障產(chǎn)生的原因,給出了故障處理的方法和驗(yàn)證手段,并在最后提出了針對(duì)性的預(yù)防措施。
系統(tǒng)故障發(fā)生前,某配電自動(dòng)化系統(tǒng)SCADA 1號(hào)服務(wù)器為SCADA應(yīng)用主服務(wù)器,SCADA 2號(hào)服務(wù)器熱備用。兩臺(tái)前置服務(wù)器分別采集一半的終端信息,內(nèi)部應(yīng)用通過負(fù)載均衡的方式實(shí)現(xiàn)切換。
按照設(shè)計(jì),當(dāng)1臺(tái)SCADA服務(wù)器出現(xiàn)故障時(shí),備用的SCADA服務(wù)器會(huì)接管SCADA應(yīng)用成為主服務(wù)器,故障SCADA服務(wù)器重新上線后作為備用服務(wù)器。2臺(tái)SCADA服務(wù)器的主備關(guān)系既可以在故障時(shí)自動(dòng)切換,也可以在操作系統(tǒng)應(yīng)用中手動(dòng)切換。當(dāng)1臺(tái)前置服務(wù)器出現(xiàn)故障時(shí),配電終端與之TCP/IP鏈接中斷,需重新鏈接至另一臺(tái)前置服務(wù)器。
系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 配電自動(dòng)化系統(tǒng)主站SCADA與前置服務(wù)器拓?fù)銯ig.1 Topology of master station of distribution automation system SCADA and its front-end servers
某日早上8點(diǎn)配調(diào)監(jiān)控班人員在工作站操作時(shí)發(fā)現(xiàn)系統(tǒng)不能正常使用,并通知自動(dòng)化班技術(shù)人員。技術(shù)人員發(fā)現(xiàn)SCADA 1號(hào)服務(wù)器宕機(jī),電源燈顯黃燈,無法ping通SCADA 1號(hào)服務(wù)器的IP。技術(shù)人員冷啟動(dòng)SCADA 1號(hào)服務(wù)器,然后啟動(dòng)了SCA?DA 1號(hào)服務(wù)器應(yīng)用服務(wù),并在工作站上手動(dòng)進(jìn)行了應(yīng)用重啟動(dòng)操作sam_ctl stop,sam_ctl start fast,上述操作后,配電自動(dòng)化系統(tǒng)主站功能恢復(fù)正常。
故障期間,SCADA應(yīng)用未進(jìn)行主備切換,導(dǎo)致系統(tǒng)不能正常運(yùn)行,前置服務(wù)器采集的數(shù)據(jù)不能正常寫入數(shù)據(jù)庫,系統(tǒng)喪失監(jiān)控功能,造成0點(diǎn)57分至8點(diǎn)55分內(nèi)歷史數(shù)據(jù)丟失。
受SCADA應(yīng)用中斷的影響,故障期間系統(tǒng)喪失監(jiān)控功能,前置服務(wù)器采集的數(shù)據(jù)不能正常寫入數(shù)據(jù)庫,造成8 h的歷史數(shù)據(jù)丟失,如圖2所示。
圖2 終端歷史數(shù)據(jù)曲線Fig.2 Terminal historical data curve
SCADA 1號(hào)服務(wù)器共配置6組電源模塊,采用N-N冗余,即最多可失去3組電源模塊而不影響正常運(yùn)行。
現(xiàn)場觀察服務(wù)器面板狀態(tài)指示燈情況,發(fā)現(xiàn)其正面指示燈情況正常,背面電源模塊1、2、3、4指示燈熄滅,電源模塊5、6和6組散熱模塊指示燈正常,如圖3和圖4所示。
圖3 SCADA 1號(hào)服務(wù)器正面Fig.3 Front view of SCADA server No.1
圖4 SCADA 1號(hào)服務(wù)器背面Fig.4 Back view of SCADA server No.1
通過登陸服務(wù)器板載管理端進(jìn)行查看,發(fā)現(xiàn)系統(tǒng)狀態(tài)存在4項(xiàng)危急錯(cuò)誤,如圖5和圖6所示。
圖5 服務(wù)器板載管理端系統(tǒng)狀態(tài)Fig.5 Status of server onboard administrative system
圖6 故障電源模塊的狀態(tài)Fig.6 Status of malfunctional power supply
4項(xiàng)危急錯(cuò)誤分別為電源模塊1、2、3、4失效,導(dǎo)致服務(wù)器電源子系統(tǒng)降級(jí)運(yùn)行,服務(wù)器系統(tǒng)日志信息如下:
00:35:06 Kernel:Network link is down
00:35:19 OA:Time zone changed to CDT+5
00:35:20 OA:Blade in bay#1 status changed to Un?known
00:35:21 OA:LCD Status is:OK.
00:35:21 OA:A CD-ROM Drive was inserted into the Onboard Administrator.
00:35:21 OA:CD-ROM Drive has no media.
00:35:23 OA:Blade 1 is reporting nominal health sta?tus.
00:35:23 Enclosure-Link:Service started
00:35:24 OA:Blade in bay#1 status changed to OK
00:35:27 ebipa:DHCPD started successfully for IPv4.
00:35:27 OA:Redundant Onboard Administrator de?tected.
00:35:29 Enclosure-Link:Initial topology scan com?pleted successfully
00:35:34 OA:PS Subsystem N+N Redundancy-FAILED
00:35:34 OA:Enclosure Status changed from OK to Degraded.(Power Subsystem)
00:35:34 Redundancy:Service started(ACTIVE)
00:35:35 OA:HTTP server is up for IPv4
00:35:35 OA:Onboard Administrator booted success?fully
00:35:36 OA:DHCP Monitor:DHCPD is running for IPv4.
00:35:41 OA:PS Status Changed:Bay#1 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#2 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#3 From:un?known To:failed
00:35:41 OA:PS Status Changed:Bay#4 From:un?known To:failed
00:35:55 OA:Internal health status of interconnect in bay 1 changed to OK
00:35:59 OA:VLAN is disabled
08:26:56 OA:Blade in bay 1 has been powered on
08:26:56 OA:Blade 1 is properly cooled.
從日志文件可得出SCADA 1號(hào)服務(wù)器在0點(diǎn)35分因多路電源模塊故障導(dǎo)致服務(wù)器宕機(jī),8點(diǎn)26分冷啟動(dòng)成功。
按照該系統(tǒng)主備服務(wù)器切換的設(shè)計(jì)邏輯,每一臺(tái)服務(wù)器在需要切換前都需要判斷網(wǎng)絡(luò)鏈路是否完好。具體實(shí)現(xiàn)方式是通過在服務(wù)器內(nèi)配置一個(gè)“hosts”文件,在文件中除了設(shè)置本服務(wù)器A、B網(wǎng)IP地址外,還需要設(shè)置服務(wù)器所在網(wǎng)段的A、B交換機(jī)IP地址。若服務(wù)器能ping通相應(yīng)的交換機(jī),則判斷為網(wǎng)絡(luò)鏈路完好,然后再進(jìn)行相應(yīng)的切換邏輯判斷。典型的hosts文件結(jié)構(gòu)如下:
#Do not remove the following line,or various pro?grams
#that require network functionality will fail.
127.0.0.1 localhost loopback
∷1 localhost6.localdomain6 localhost6
192.100.11.172 cxgw1-1
192.100.12.172 cxgw1-2
192.100.11.156 cxsca1-1
192.100.12.156 cxsca1-2
192.100.11.158 cxfes4-1
192.100.12.158 cxfes4-2
200.10.1.1 cxfes4-3
192.100.11.252 switch-1
192.100.12.254 switch-2
200.10.1.252 switch-3
故障發(fā)生后,現(xiàn)場查閱SCADA 1號(hào)、2號(hào)服務(wù)器與前置1號(hào)、2號(hào)服務(wù)器的hosts文件,發(fā)現(xiàn)其交換機(jī)地址均配置為SCADA 1號(hào)服務(wù)器的IP地址,在SCADA 1號(hào)機(jī)宕機(jī)后,所有服務(wù)器均不能ping通SCADA1號(hào)服務(wù)器的IP地址,各服務(wù)器均判斷網(wǎng)絡(luò)離線,SCADA 2號(hào)服務(wù)器因誤判網(wǎng)絡(luò)離線未進(jìn)行切換,導(dǎo)致系統(tǒng)應(yīng)用離線。
通過修改受影響服務(wù)器中的hosts文件內(nèi)容,將判網(wǎng)絡(luò)鏈路狀態(tài)的IP地址改為各A、B網(wǎng)交換機(jī)的IP后,進(jìn)行SCADA服務(wù)器主備切換測(cè)試,通過斷開網(wǎng)絡(luò)鏈接等方式模擬SCADA服務(wù)器故障場景,測(cè)試過程中服務(wù)器能正確進(jìn)行主備切換,并未影響到SCADA業(yè)務(wù),經(jīng)測(cè)試證明結(jié)果正確。同時(shí),作為臨時(shí)措施,保證SCADA 1號(hào)服務(wù)器電源模塊至少有4組可用,并通知硬件維保廠商徹底處理服務(wù)器電源故障。
(1)此主站在工程驗(yàn)收時(shí)進(jìn)行過所有雙重化配置服務(wù)器的主備功能切換測(cè)試,本次故障因內(nèi)部配置文件設(shè)置錯(cuò)誤,導(dǎo)致SCADA功能喪失,應(yīng)加強(qiáng)現(xiàn)場維護(hù)工作的監(jiān)護(hù)管理。
(2)現(xiàn)場查看時(shí)發(fā)現(xiàn)部分服務(wù)器電源模塊的運(yùn)行燈均只有3組顯示正常,不滿足N-N的配置要求。應(yīng)加強(qiáng)日常巡視,排查其冗余電源模塊功能是否完好。
本文具體描述了一起配電自動(dòng)化系統(tǒng)主站雙機(jī)切換失敗故障的現(xiàn)象及分析處理過程,從故障現(xiàn)象入手,剖析了故障產(chǎn)生的原因,給出了故障處理的方法和驗(yàn)證過程,并提出了針對(duì)性的預(yù)防措施,對(duì)配電自動(dòng)化系統(tǒng)的調(diào)試及運(yùn)維工作的開展有一定的參考作用。
(References)
[1]鄭毅,劉天琪,洪行旅,等.中心城市大型配電自動(dòng)化設(shè)
計(jì)方案與應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2012,36(18):49-53.ZHENG Yi,LIU Tianqi,HONG Xinglv,et al.Design scheme and application of large-scale distribution automation project for central cities[J].Automation of Electric Power System,2012,36(18):49-53.
[2]陳堂,趙祖康,陳星鶯,等.配電系統(tǒng)及其自動(dòng)化技術(shù)[M].北京:中國電力出版社,2002.CHEN Tang,ZHAO Zukang,CHEN Xingying,et al.Distribution system and the automation technology[M].Beijing:China Electric Power Press,2002.
[3]劉健,趙樹仁,張小慶.中國配電自動(dòng)化的進(jìn)展及若干建議[J].電力系統(tǒng)自動(dòng)化,2012,36(19):12-16.LIU Jian,ZHAO Shuren,ZHANG Xiaoqing.Ad?vances of distribution automation in China and some suggestions[J].Automation of Electric Power Systems,2012,36(19):12-16.
[4]沈兵兵,吳琳,王鵬.配電自動(dòng)化試點(diǎn)工程技術(shù)特點(diǎn)及應(yīng)用成效分析[J].電力系統(tǒng)自動(dòng)化,2012,36(18):27-32.SHEN Bingbing,WU Lin,WANG Peng.Technologi?cal characteristics and application effects analysis of distribution automation pilot projects[J].Automation of Electric Power Systems,2012,36(18):27-32.
Fault Analysis and Treatment of Master Station of Distribution Automation System Hot Redundancy Failure
SU Lei,CHE Fangyi,LEI Yang,HONG Meizi,LI Peng
(State Grid Hubei Electric Power Research Institute,Wuhan Hubei430077,China)
This paper focuses on the fault analysis and treatment of the two front-end server hot redundancy failure.Cause of failure is investigated and verification method is presented along with corresponding precaution.
distribution automation system;master station;fault analysis
TM76
B
1006-3986(2016)11-0032-04
10.19308/j.hep.2016.11.007
2016-10-16
宿 磊(1989),男,湖北武漢人,碩士,工程師。