李正家,周奮強(qiáng)
(重慶大唐國(guó)際彭水水電開發(fā)有限公司,重慶 彭水 409600)
一起水電站監(jiān)控系統(tǒng)網(wǎng)絡(luò)故障的分析與處理
李正家,周奮強(qiáng)
(重慶大唐國(guó)際彭水水電開發(fā)有限公司,重慶 彭水 409600)
分析了彭水水電站計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)通訊故障的原因,糾正了其在施工和調(diào)試過程中由于疏忽而導(dǎo)致的接線錯(cuò)誤??晒┫嗨朴?jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)通訊故障時(shí)作為參考。
計(jì)算機(jī)監(jiān)控系統(tǒng);上位機(jī);網(wǎng)絡(luò);下位機(jī);H IPER-Ring
烏江彭水水電站單機(jī)容量為350MW,其計(jì)算機(jī)監(jiān)控系統(tǒng)采用100M光纖雙以太環(huán)網(wǎng)兩層結(jié)構(gòu),主交換機(jī)采用赫斯曼MACH 3002系列工業(yè)級(jí)以太網(wǎng)交換機(jī),其余現(xiàn)地LCU采用赫斯曼MICE MS20系列工業(yè)以太網(wǎng)交換機(jī)。上位機(jī)監(jiān)視終端的NC2000系統(tǒng)啟動(dòng)時(shí)數(shù)據(jù)接收緩慢,且有滯后;下位機(jī)PLC重啟時(shí)初始化速度較慢會(huì)導(dǎo)致其CPU出現(xiàn)主從切換。
彭水水電站機(jī)組檢修期間,對(duì)4號(hào)機(jī)組LCU進(jìn)行SOE分辨率測(cè)試時(shí)發(fā)現(xiàn),當(dāng)信號(hào)間隔為2ms時(shí),計(jì)算機(jī)監(jiān)控系統(tǒng)上位機(jī)一覽表中測(cè)試的SOE信息有丟失現(xiàn)象,且時(shí)間記錄不對(duì)。由于最初進(jìn)行SOE測(cè)試時(shí)發(fā)現(xiàn)現(xiàn)地LCU柜CPU模件的對(duì)時(shí)燈SYNC常亮,故對(duì)對(duì)時(shí)回路進(jìn)行檢查時(shí),計(jì)算機(jī)監(jiān)控系統(tǒng)上位機(jī)報(bào)“4號(hào)機(jī)組通信故障”,隨后其他運(yùn)行機(jī)組LCU等均報(bào)通信故障,接著計(jì)算機(jī)監(jiān)控系統(tǒng)上位機(jī)無任何數(shù)據(jù)。并發(fā)現(xiàn)4號(hào)機(jī)組LCU上的赫斯曼小交換機(jī)一個(gè)燈常亮,一個(gè)燈閃爍。
當(dāng)時(shí)臨時(shí)處理:
a)將4號(hào)機(jī)組LCU斷電,再上電,4號(hào)機(jī)組LCU赫斯曼交換機(jī)在初始化過程中,全廠通信恢復(fù);
b)當(dāng)4號(hào)機(jī)組LCU交換機(jī)初始化完成,剛參與網(wǎng)絡(luò)通信,全廠網(wǎng)絡(luò)通信再次故障;
c)將4號(hào)機(jī)組LCU斷電,其他LCU繼續(xù)工作,一段時(shí)間后全廠網(wǎng)絡(luò)又出現(xiàn)一次網(wǎng)絡(luò)通信故障;
d)拔掉4號(hào)機(jī)組LCU赫斯曼交換機(jī)上的網(wǎng)線,4號(hào)機(jī)組LCU上電,全廠通信恢復(fù)。
彭水水電站裝機(jī)容量為1750MW,電站各機(jī)組由重慶市調(diào)統(tǒng)一調(diào)度,擔(dān)當(dāng)著重慶電網(wǎng)的調(diào)峰、調(diào)頻、事故備用的功能,在電網(wǎng)中具有舉足輕重的作用。
計(jì)算機(jī)監(jiān)控系統(tǒng)發(fā)生網(wǎng)絡(luò)通訊故障時(shí),存在如下幾點(diǎn)問題:
a)各機(jī)組運(yùn)行參數(shù)不能在計(jì)算機(jī)監(jiān)控系統(tǒng)中查看;
b)各機(jī)組及公用設(shè)備的報(bào)警信息等不能及時(shí)地進(jìn)行監(jiān)視及發(fā)現(xiàn),一旦有異常情況,工作人員變得十分被動(dòng);
c)機(jī)組的有功功率、無功功率的調(diào)整必須在現(xiàn)地調(diào)速器及勵(lì)磁等盤柜旁由專人進(jìn)行調(diào)節(jié),且負(fù)荷調(diào)節(jié)需跟調(diào)度實(shí)時(shí)聯(lián)系;
d)由于網(wǎng)絡(luò)通訊故障,致使現(xiàn)地控制柜的PLC,CPU模件出現(xiàn)故障,萬一出現(xiàn)程序誤動(dòng)作、模件誤開出,輕則影響到設(shè)備運(yùn)行,重則影響到電網(wǎng)的安全;
e)電網(wǎng)調(diào)度不能對(duì)電站的實(shí)時(shí)負(fù)荷、機(jī)組狀態(tài)等重要參數(shù)進(jìn)行監(jiān)視。
由于為計(jì)算機(jī)監(jiān)控系統(tǒng)的網(wǎng)絡(luò)故障,故對(duì)計(jì)算機(jī)監(jiān)控系統(tǒng)內(nèi)的環(huán)網(wǎng)交換機(jī)、網(wǎng)路拓?fù)浣Y(jié)構(gòu)分析并作了如下處理:
(1)對(duì)計(jì)算機(jī)監(jiān)控系統(tǒng)進(jìn)行網(wǎng)絡(luò)故障檢查,發(fā)現(xiàn)A網(wǎng)(200網(wǎng)段)和B網(wǎng)(201網(wǎng)段)有貫通現(xiàn)象,決定對(duì)計(jì)算機(jī)監(jiān)控系統(tǒng)的全廠網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行檢查。彭水水電站計(jì)算機(jī)監(jiān)控系統(tǒng)為雙環(huán)網(wǎng)結(jié)構(gòu),正常時(shí)其雙環(huán)網(wǎng)應(yīng)該為獨(dú)立的、無物理連接的。
(2)記錄全廠各現(xiàn)地LCU柜上赫斯曼小交換機(jī)MAC地址,用網(wǎng)線連接調(diào)試終端和交換機(jī)任一空閑網(wǎng)口,用Hdiscovery 1.1軟件設(shè)置交換機(jī)IP地址。面對(duì)LCU背面,規(guī)定為右邊交換機(jī)為A網(wǎng),左邊交換機(jī)為B網(wǎng),如表1所示。
(3)在4號(hào)機(jī)組現(xiàn)地LCU柜內(nèi)的小交換機(jī)上,用網(wǎng)線連接調(diào)試終端和A網(wǎng)交換機(jī)空閑任一網(wǎng)口,用Industrial HiVision 3.10軟件,掃描網(wǎng)絡(luò),得到彭水電站計(jì)算機(jī)監(jiān)控系統(tǒng)A網(wǎng)(如圖1)和B網(wǎng)(如圖2)2個(gè)網(wǎng)段的拓?fù)浣Y(jié)構(gòu)。由如下兩個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖可以看出:其A網(wǎng)和B網(wǎng)并沒有直接相連的跡象,即只從單個(gè)計(jì)算機(jī)監(jiān)控系統(tǒng)來分析,A網(wǎng)與B網(wǎng)是沒有貫通的。
?
圖1 A網(wǎng)拓?fù)鋱D
圖2 B網(wǎng)拓?fù)鋱D
由于計(jì)算機(jī)監(jiān)控系統(tǒng)自身的雙環(huán)網(wǎng)之間沒有貫通,而唯一與計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)連接的就是二次安全防護(hù)系統(tǒng),故需進(jìn)一步檢查二次安全防護(hù)系統(tǒng)與計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)的連接情況。
(4)在計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)柜中,用網(wǎng)線連接調(diào)試終端和A網(wǎng)主交換機(jī)任一空閑網(wǎng)口,同時(shí)把二次安全防護(hù)系統(tǒng)連接至計(jì)算機(jī)監(jiān)控系統(tǒng)B網(wǎng)的網(wǎng)線拔掉,再用命令pingB網(wǎng)設(shè)備,發(fā)現(xiàn)A網(wǎng)和B網(wǎng)的貫通現(xiàn)象消失。
進(jìn)一步檢查發(fā)現(xiàn),計(jì)算機(jī)監(jiān)控系統(tǒng)A網(wǎng)主交換機(jī)一網(wǎng)口用網(wǎng)線接至二次安全防護(hù)系統(tǒng)的一區(qū)交換機(jī),計(jì)算機(jī)監(jiān)控系統(tǒng)B網(wǎng)主交換機(jī)一網(wǎng)口用網(wǎng)線接至二次安全防護(hù)系統(tǒng)的二區(qū)交換機(jī),如圖3。一區(qū)交換機(jī)可通過防火墻向二區(qū)交換機(jī)發(fā)送UDP數(shù)據(jù)包,且一區(qū)與二區(qū)之間允許ICMP數(shù)據(jù)包的流動(dòng),由此導(dǎo)致監(jiān)控A網(wǎng)和B網(wǎng)出現(xiàn)貫通現(xiàn)象。
圖3 雙環(huán)網(wǎng)與二次安全防護(hù)連接圖(改線前)
將各網(wǎng)線恢復(fù)至正常狀態(tài),即A網(wǎng)交換機(jī)連接至一區(qū)交換機(jī)的網(wǎng)線保持不變,B網(wǎng)交換機(jī)至二區(qū)交換機(jī)的網(wǎng)線改接在一區(qū)交換機(jī)上,這兩根網(wǎng)線對(duì)應(yīng)的網(wǎng)口通過交換機(jī)的配置將其劃分為兩個(gè)VLAN將它們隔離開來,且關(guān)閉了一區(qū)與二區(qū)之間的ICMP協(xié)議,保證生產(chǎn)控制區(qū)的絕對(duì)安全,如圖4。雙環(huán)網(wǎng)不再貫通。
圖4 雙環(huán)網(wǎng)與二次安全防護(hù)連接圖(改線后)
(5)采用HiVvision軟件檢測(cè)計(jì)算機(jī)監(jiān)控系統(tǒng)環(huán)網(wǎng)住交換機(jī)的通信負(fù)載率,記錄如表2。
?
在計(jì)算機(jī)監(jiān)控系統(tǒng)廠內(nèi)終端機(jī)上測(cè)試發(fā)現(xiàn),當(dāng)計(jì)算機(jī)監(jiān)控系統(tǒng)B網(wǎng)至二次安全防護(hù)二區(qū)交換機(jī)網(wǎng)線接上,在監(jiān)控系統(tǒng)廠內(nèi)終端機(jī)上重啟監(jiān)控應(yīng)用軟件NC2000,發(fā)現(xiàn)啟動(dòng)很慢,啟動(dòng)后畫面數(shù)據(jù)刷新滯后;斷開該網(wǎng)線后,NC2000啟動(dòng)很快,畫面數(shù)據(jù)能立即刷新。
(6)斷開監(jiān)控B網(wǎng)至二次安全防護(hù)二區(qū)交換機(jī)網(wǎng)線,恢復(fù)4號(hào)機(jī)組LCU上CPU的網(wǎng)線接至本機(jī)柜內(nèi)交換機(jī),通信正常,此時(shí)A網(wǎng)交換機(jī)為主,最高通信負(fù)荷率1.41%。
(7)進(jìn)行SOE分辨率測(cè)試,沒有出現(xiàn)報(bào)文丟失的現(xiàn)象。
在解決雙環(huán)網(wǎng)貫通問題后,一天后發(fā)生了第二次網(wǎng)絡(luò)通訊故障,上位機(jī)簡(jiǎn)報(bào)窗口出現(xiàn)主機(jī)1與所有現(xiàn)地LCU柜CPU1通信故障,接著出現(xiàn)主機(jī)1與所有現(xiàn)地LCU柜CPU2通信故障,之后與市調(diào)通信中斷;上位機(jī)畫面數(shù)據(jù)不刷新;除返回屏LCU外(返回屏LCU未接入環(huán)網(wǎng)),其余現(xiàn)地LCU的兩塊CPU的FAULT燈都亮,且A網(wǎng)交換機(jī)上的2個(gè)光口,一個(gè)燈閃爍,一個(gè)燈常亮,情況比第一次網(wǎng)絡(luò)通訊故障更為嚴(yán)重。
臨時(shí)恢復(fù)處理:
a)解開4號(hào)機(jī)組LCU交換機(jī)至PLCCPU網(wǎng)線。
b)將網(wǎng)絡(luò)柜上的A網(wǎng)主交換機(jī)斷電重啟,現(xiàn)地LCU網(wǎng)A網(wǎng)交換機(jī)2個(gè)光口正常閃爍;全廠網(wǎng)絡(luò)通信恢復(fù)。
c)依次按下各現(xiàn)地LCUCPU上Reset鍵,復(fù)位重啟;CPU FAULT燈熄滅,計(jì)算機(jī)監(jiān)控系統(tǒng)恢復(fù)正常,各參數(shù)顯示正常。
由于網(wǎng)絡(luò)貫通故障處理后并未徹底解決網(wǎng)絡(luò)通訊故障,故需從交換機(jī)的軟件配置、硬件設(shè)置上來檢查:
(1)利用IE WEB界面登錄到主交換機(jī),檢查發(fā)現(xiàn)主交換機(jī)構(gòu)成環(huán)網(wǎng)的2個(gè)光口在軟件配置中為光口1和光口2,如圖5可以看出,其RingPort1的Opertion為inactive(不活動(dòng)的),RingPort2的Opertion為 active,信息(information)中顯示為配置失?。╟onfiguration failure),而工程實(shí)施時(shí)光纖實(shí)際接到光口2和光口4,說明其HIPER-Ring未真正形成,所以需要按交換機(jī)軟件設(shè)置來更改光纖尾纖接線。
圖5 主機(jī)換機(jī)環(huán)網(wǎng)配置(改線前)
Information:
"Redundancy guaranteed"tells you that if one of the lines affected by the function fails,a redundant line will take over the function ofthe failed line.
"Configuration failure"tells you whether the function is configured completelyand correctly.
(2)檢查確認(rèn)主交換機(jī)設(shè)為環(huán)網(wǎng)中的主站,檢查確認(rèn)所有LCU小型交換機(jī)撥碼設(shè)置為環(huán)網(wǎng)中的從站。
(3)用IE WEB界面登錄到交換機(jī),將兩臺(tái)主交換機(jī)和2號(hào)機(jī)組、5號(hào)機(jī)組LCU交換機(jī)的日志信息和系統(tǒng)信息導(dǎo)出,發(fā)送給赫斯曼交換機(jī)廠家技術(shù)人員,請(qǐng)其協(xié)助分析交換機(jī)是否存在故障。
(4)制定好監(jiān)控網(wǎng)絡(luò)通信故障應(yīng)急預(yù)案后,先將B網(wǎng)主交換機(jī)電源關(guān)閉,將光口4上的光纖尾纖換接至其光口1上,然后將B網(wǎng)主交換機(jī)通電重啟。同樣,將A網(wǎng)交換機(jī)上的光口4上的光纖尾纖換至其光口1上。
(5)按實(shí)際光纖接線更改后,再次利用IEWEB界面登錄到主交換機(jī),檢查確認(rèn)主交換機(jī)構(gòu)成環(huán)網(wǎng)的2個(gè)光口在軟件設(shè)置中為光口1和光口2,如圖6可以看出,其RingPort1的Opertion為 active,RingPort2的 Opertion為active,且信息(information)中顯示為冗余可靠(Redundancyguaranteed),說明雙環(huán)網(wǎng)中的軟件配置光口與實(shí)際的接線一致,HIPER-Ring已形成。
圖6 主機(jī)換機(jī)環(huán)網(wǎng)配置(改線后)
(6)采用HiViSion軟件分別掃描A網(wǎng)和B網(wǎng)環(huán)網(wǎng)結(jié)構(gòu),得到拓?fù)浣Y(jié)構(gòu)如圖7、圖8。
圖7 A環(huán)網(wǎng)結(jié)構(gòu)圖
圖8 B環(huán)網(wǎng)結(jié)構(gòu)圖
(7)根據(jù)各交換機(jī)日志信息,分析出某些交換機(jī)上存在數(shù)據(jù)丟包現(xiàn)象。
經(jīng)過檢查、測(cè)試和分析,推斷彭水計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)故障原因有以下三點(diǎn):
分析計(jì)算機(jī)監(jiān)控系統(tǒng)環(huán)網(wǎng)上通信負(fù)載率發(fā)現(xiàn),A網(wǎng)和B網(wǎng)貫通后也會(huì)導(dǎo)致網(wǎng)絡(luò)負(fù)載加重,同時(shí),B網(wǎng)與二區(qū)交換機(jī)連接后,二區(qū)一些系統(tǒng)的數(shù)據(jù)流入計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò),此種情況下,計(jì)算機(jī)監(jiān)控系統(tǒng)軟件NC2000啟動(dòng)緩慢,畫面刷新滯后。赫斯曼交換機(jī)廠家技術(shù)人員指出,兩個(gè)網(wǎng)段的網(wǎng)絡(luò)貫通,會(huì)使網(wǎng)絡(luò)安全級(jí)別降低,某種條件下會(huì)出現(xiàn)網(wǎng)絡(luò)風(fēng)暴,不推薦在這種方式下運(yùn)行。A網(wǎng)和B網(wǎng)貫通后,本來在各自網(wǎng)絡(luò)上通行的信文會(huì)誤發(fā)到對(duì)方網(wǎng)絡(luò)上,應(yīng)該收到的信文得不到回應(yīng),信文丟失現(xiàn)象嚴(yán)重,此種情況下,SOE測(cè)試時(shí)會(huì)出現(xiàn)信文丟失的現(xiàn)象,操作員站雙機(jī)簡(jiǎn)報(bào)信息不一致,使用赫斯曼網(wǎng)管軟件掃描網(wǎng)絡(luò)時(shí)總得不到全部交換機(jī)信息。
雙環(huán)網(wǎng)主交換機(jī)軟件設(shè)置的光口1和光口2作為環(huán)網(wǎng)的管理接口,實(shí)際只使用了光口2,整個(gè)網(wǎng)絡(luò)只是物理意義上的環(huán)網(wǎng),沒有形成真正意義上的HIPER-Ring環(huán)網(wǎng),管理報(bào)文一直在尋找另外一個(gè)管理光口,當(dāng)報(bào)文在端口累積到一定程度時(shí),交換機(jī)環(huán)網(wǎng)端口故障。交換機(jī)實(shí)際工作在亞健康臨界狀態(tài),只要網(wǎng)絡(luò)負(fù)荷稍微上升,故障就會(huì)發(fā)生,計(jì)算機(jī)監(jiān)控系統(tǒng)主機(jī)與各現(xiàn)地LCU網(wǎng)絡(luò)通信中斷,現(xiàn)地LCU CPU頻繁切換主從,造成CPU模件故障。
現(xiàn)場(chǎng)檢查為網(wǎng)線與交換機(jī)網(wǎng)口接觸不良所致,重新拔插并緊固網(wǎng)線后,采用ping命令檢測(cè)其網(wǎng)絡(luò),丟包現(xiàn)象消失。
由于計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)在水電站的重要性,其故障時(shí)會(huì)對(duì)電站設(shè)備的運(yùn)行產(chǎn)生較大影響,鑒于此,采取如下措施:
(1)定期使用網(wǎng)管軟件掃描網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),監(jiān)視網(wǎng)絡(luò)結(jié)構(gòu)、端口負(fù)荷率,交換機(jī)自診斷信息和系統(tǒng)信息,分析網(wǎng)絡(luò)健康狀況;
(2)定期使用ping命令檢查A網(wǎng)和B網(wǎng)有無貫通現(xiàn)象;
(3)定期使用ping檢查設(shè)備端口,若有數(shù)據(jù)丟包現(xiàn)象,檢查相應(yīng)端口網(wǎng)線接觸狀況。
通過對(duì)計(jì)算機(jī)監(jiān)控系統(tǒng)各環(huán)網(wǎng)交換機(jī)的軟件配置、硬件設(shè)置的檢查,同時(shí)對(duì)二次安全防護(hù)設(shè)備的網(wǎng)絡(luò)設(shè)備進(jìn)行梳理,解決了計(jì)算機(jī)監(jiān)控系統(tǒng)網(wǎng)絡(luò)通訊故障。處理之后的計(jì)算機(jī)監(jiān)控系統(tǒng),其上位機(jī)的NC2000啟動(dòng)接受數(shù)據(jù)速度恢復(fù)至正常,不再滯后;現(xiàn)地LCUCPU重啟后不再主從切換,且初始化速度很快。
[1]計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及應(yīng)用[M].水利水電出版社,2005.
[2]現(xiàn)代水電廠計(jì)算機(jī)監(jiān)控技術(shù)與試驗(yàn)[M].中國(guó)電力出版社,2004.
TP393.07
B
1672-5387(2010)03-0026-04
2010-04-28
李正家(1980-),男,助理工程師,從事大型水電站自動(dòng)化設(shè)備管理工作。