蘇豪育
摘 要:在對(duì)某長(zhǎng)輸管線SCADA系統(tǒng)進(jìn)行優(yōu)化升級(jí)工作時(shí),引發(fā)了服務(wù)器冗余故障,為了解決這一問(wèn)題。該文針對(duì)SCADA系統(tǒng)服務(wù)器,提出了重啟服務(wù)器網(wǎng)卡后,依據(jù)802.3協(xié)議將A、B服務(wù)器設(shè)定使用相同的工作方式、速率及master attribute中的配置,同時(shí)在數(shù)據(jù)庫(kù)中重新下載AB通道控制器,最終成功地解決了SCADA系統(tǒng)優(yōu)化升級(jí)中引發(fā)的服務(wù)器冗余故障。
關(guān)鍵詞:SCADA系統(tǒng) 服務(wù)器 冗余
中圖分類號(hào):TP333.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)03(c)-0033-02
1 故障描述
按照《某長(zhǎng)輸管線SCADA系統(tǒng)程序優(yōu)化升級(jí)》的工作計(jì)劃,工作人員到某站進(jìn)行程序升級(jí),升級(jí)進(jìn)行過(guò)程中發(fā)現(xiàn)STATION界面顯示A、B服務(wù)器出現(xiàn)不冗余(HMI系統(tǒng)配置頁(yè)面中,冗余服務(wù)器冗余狀態(tài)指示燈顯示:紅色,not synchronization),B服務(wù)器為停止?fàn)顟B(tài)(紅色,stoped),且link 0、link 1均為紅色failed狀態(tài)。
在進(jìn)行ping測(cè)試后發(fā)現(xiàn)B服務(wù)器的大小網(wǎng)段IP均不通,立即前往機(jī)柜間查看服務(wù)器狀態(tài),發(fā)現(xiàn)A、B服務(wù)器狀態(tài)均為primary狀態(tài)。在停止B服務(wù)器server服務(wù)后,更換B服務(wù)器的交換機(jī)端處網(wǎng)線網(wǎng)口,重啟B服務(wù)器后。此時(shí)兩塊網(wǎng)卡均正常的收發(fā)包。
程序升級(jí)完成后,此時(shí)進(jìn)行服務(wù)器同步,服務(wù)器能夠正常同步(A(primary)同步B(back up))。站上工作人員要求切換主備服務(wù)器,切換后再次出現(xiàn)問(wèn)題。發(fā)現(xiàn)此次同步過(guò)程中在發(fā)送文件的過(guò)程中左上角提示“synchronization error occurred”。B服務(wù)器的link 0(active link)出現(xiàn)紅色failed(網(wǎng)卡狀態(tài)只有發(fā)包沒(méi)有收包)狀態(tài)。確認(rèn)報(bào)警后再次同步,此時(shí)link 1正常(link active),同步過(guò)程中,出現(xiàn)與link 0類似的情況,即同步失敗。
此時(shí)北京中控電話告知該站通訊已中斷,將服務(wù)器A切為主時(shí),通訊數(shù)據(jù)恢復(fù);STATION報(bào)警中提示AB channel failed,且無(wú)論怎么使能,link A的錯(cuò)誤率都是100%。此時(shí)有3個(gè)故障:
(1)服務(wù)器A、B無(wú)法同步。
(2)備服務(wù)器為主時(shí),北調(diào)通訊中斷。
(3)AB的一個(gè)通道(channel)中斷。
2 故障排查
經(jīng)過(guò)仔細(xì)觀察發(fā)現(xiàn),服務(wù)器同步異??偸浅霈F(xiàn)于主服務(wù)器向備服務(wù)器發(fā)送文件“sending file 101-sending”至“sending file 104”的過(guò)程,且出現(xiàn)錯(cuò)誤后,B服務(wù)器處于active狀態(tài)的link 均會(huì)failed; failed后的網(wǎng)卡只有發(fā)包,無(wú)收包;此時(shí)重啟服務(wù)器網(wǎng)卡不能恢復(fù)正常,分別重啟大小網(wǎng)段的交換機(jī),B服務(wù)器的網(wǎng)卡才能正常。此時(shí)考慮原因可能為:交換機(jī)與服務(wù)器通信模式不對(duì)導(dǎo)致大量數(shù)據(jù)傳輸時(shí)出現(xiàn)問(wèn)題。此時(shí)交換機(jī)端口狀態(tài)見(jiàn)圖1。
服務(wù)器網(wǎng)卡對(duì)應(yīng)的交換機(jī)端口均為AUTO模式。查看A、B服務(wù)器網(wǎng)卡配置發(fā)現(xiàn):A服務(wù)器兩個(gè)網(wǎng)卡設(shè)置均為AUTO,而B(niǎo)服務(wù)器兩個(gè)網(wǎng)卡均為100M FULL。將B服務(wù)器的網(wǎng)卡設(shè)置改為與A服務(wù)器一致的設(shè)置,再次同步發(fā)現(xiàn)A、B服務(wù)器能通正常同步。
3 故障原因分析
(1)A、B服務(wù)器全半雙工不匹配。
只有A發(fā)送快速鏈路脈沖,B只發(fā)送發(fā)送FAST ETHERNET IDLE流,以檢測(cè)鏈路是否UP。B(強(qiáng)行設(shè)定的站點(diǎn))不會(huì)告訴A自己(B服務(wù)器)的速率和工作模式。由于B不進(jìn)行協(xié)商,A無(wú)法知道B的工作方式。根據(jù)802.3協(xié)議A必須與B使用相同的速率。工作在半雙工方式下。不管速率如何(除了10Gig),半雙工是以太網(wǎng)的默認(rèn)方式,這就造成了全半雙工不匹配的問(wèn)題。避免此類問(wèn)題有兩種方式:兩端均使用自動(dòng)協(xié)商模式(AUTO),或者雙方均進(jìn)行強(qiáng)行設(shè)定(100M,F(xiàn)ULL)。
(2)與北調(diào)備用鏈路通訊中斷。
與北調(diào)對(duì)ping均能夠正常ping通,無(wú)丟包。104協(xié)議升級(jí)前后,都不能正常通訊。查看104配置后發(fā)現(xiàn)Localhost IP Adress設(shè)置為:172.16.153.1。正常的服務(wù)器104配置應(yīng)該為A服務(wù)器為server小網(wǎng)段IP,B服務(wù)器server為大網(wǎng)段IP。對(duì)比master attribute中的配置將B改為與A一致。與北調(diào)通訊恢復(fù)。
(3)與AB通訊問(wèn)題。
AB兩塊網(wǎng)卡均能ping通,且都能夠上載程序,在線程序。在線后AB程序未提示異常。AB硬件應(yīng)該沒(méi)有問(wèn)題??紤]數(shù)據(jù)庫(kù)同步時(shí)出現(xiàn)錯(cuò)誤導(dǎo)致此問(wèn)題,在數(shù)據(jù)庫(kù)中重新下載AB通道控制器,再次使能AB的兩路通道恢復(fù)正常。
4 結(jié)語(yǔ)
(1)PKS數(shù)據(jù)庫(kù)同步時(shí)最好不要對(duì)數(shù)據(jù)庫(kù)有別的操作(不要遠(yuǎn)程桌面)。
(2)AB 的ENBT模塊的指示燈正常是OK綠色常亮,net綠色常亮,link(綠色閃爍:有數(shù)據(jù)傳輸;綠色常亮:數(shù)據(jù)準(zhǔn)備完畢,但無(wú)數(shù)據(jù)傳輸);但是實(shí)際發(fā)現(xiàn)中net燈綠色閃爍也是正常的。
(3)通道出現(xiàn)問(wèn)題,可以嘗試將數(shù)據(jù)庫(kù)中的重新下載通道控制器。
(4)與北調(diào)通信,采用冷備方式(一路通訊中斷,北調(diào)需手動(dòng)切換另外一路。)在104配置中,A服務(wù)器填寫(xiě)自己小網(wǎng)段網(wǎng)卡地址;B服務(wù)器填寫(xiě)大網(wǎng)段網(wǎng)卡的地址。
參考文獻(xiàn)
[1] 鄧?yán)?PLC編程基本教程[M].北京:機(jī)械工業(yè)出版社,2011.
[2] 王樹(shù)青,樂(lè)嘉謙.自動(dòng)化與儀表工程師手冊(cè)[M].北京:化學(xué)工業(yè)出版社,201l.
[3] 石油化工儀表自動(dòng)化培訓(xùn)教材編寫(xiě)組.自動(dòng)控帶1理論基礎(chǔ)[M].北京:中國(guó)石化出版社,2009.
[4] James A.Rehg,Glenn J.Sartori.Programmable Logic Contrllers[M].Prentice Hall,2006.
[5] 鄧?yán)?Control Logix系統(tǒng)實(shí)用手冊(cè)[M].北京:機(jī)械工業(yè)出版社,2011.
[6] 石油化工儀表自動(dòng)化培訓(xùn)教材編寫(xiě)組.可編程序控制器[M].北京:中國(guó)石化出版社,2009.