莊義飛
(馬鞍山當(dāng)涂發(fā)電有限公司,安徽 馬鞍山 243000)
馬鞍山當(dāng)涂發(fā)電有限公司一期2×660MW機(jī)組主機(jī)部分采用美國Metso Automation(美卓)公司生產(chǎn)的maxDNA分散控制系統(tǒng)。該系統(tǒng)由高速切換以太網(wǎng)(maxNET)通訊和美卓公司特有的分散控制單元(DPU)組成。近年maxDNA控制系統(tǒng)在電力生產(chǎn)中被廣泛使用,而分散控制系統(tǒng)對(duì)機(jī)組運(yùn)行的安全性和經(jīng)濟(jì)性影響逐漸增大,因此分散控制系統(tǒng)的可靠性至關(guān)重要,本文通過對(duì)該控制系統(tǒng)在運(yùn)行過程中出現(xiàn)的故障現(xiàn)象和處理方法進(jìn)行分析,提出合理的優(yōu)化方案,以更好的發(fā)揮maxDNA控制系統(tǒng)的工作性能。
maxDNA分散控制系統(tǒng)采用一個(gè)高速數(shù)據(jù)通信網(wǎng)絡(luò)——maxNET連接工作站(maxSTATION)和分散處理單元(DPU)等設(shè)備。maxNET通信系統(tǒng)基于交換式快速以太網(wǎng)結(jié)構(gòu),對(duì)數(shù)據(jù)高速公路每個(gè)站點(diǎn)提供100Mbps冗余數(shù)據(jù)通信。此外,該控制系統(tǒng)采用軟件背板(SBP)處理分散控制通信問題,所有基本通信均基于預(yù)定服務(wù),而無需考慮客戶從何處、如何與信息源連接,客戶與信息源之間無專用的硬件服務(wù)器,由此帶來的控制系統(tǒng)優(yōu)越性就是克服了硬件服務(wù)器故障造成的性能瓶頸,SBP服務(wù)被設(shè)計(jì)在每一個(gè)DPU和maxSTATION中,采用直接DPU處理保證系統(tǒng)帶寬最大化。
2014年7月16日在對(duì)控制系統(tǒng)檢查過程中發(fā)現(xiàn)#1機(jī)組汽機(jī)側(cè)控制系統(tǒng)1T04主DPU在和其他DPU數(shù)據(jù)交換時(shí),部分控制邏輯程序存在通訊故障,該DPU無法正常接收其他DPU的實(shí)時(shí)數(shù)據(jù),造成部分通訊中斷,邏輯進(jìn)程無法正常執(zhí)行,對(duì)應(yīng)設(shè)備處于失控狀態(tài)。公司#1機(jī)組DCS系統(tǒng)汽機(jī)側(cè)配置7對(duì)控制單元,每對(duì)控制單元為1:1冗余,一對(duì)100%在線熱備DPU中任何一個(gè)都可以作為主DPU,主、備DPU之間的連接使兩個(gè)DPU內(nèi)保持相同的數(shù)據(jù)庫,檢測(cè)到一個(gè)重要故障時(shí),將自動(dòng)切換到備用DPU,切換時(shí)間以毫秒計(jì)。
但是,此時(shí)1T04主DPU只是少量通信存在故障現(xiàn)象,整個(gè)控制單元未被判斷為故障狀態(tài),依然保持該DPU為Active狀態(tài),故障現(xiàn)象較為隱秘,而1T04控制單元中包括B給水泵、輔助蒸汽系統(tǒng)、頂軸油泵、事故油泵等重要設(shè)備控制邏輯,DPU間的通信中斷將導(dǎo)致該控制單元內(nèi)的系統(tǒng)無法正常工作,甚至存在保護(hù)拒動(dòng)等風(fēng)險(xiǎn)。圖2是當(dāng)時(shí)通訊異常的一處,反映的現(xiàn)象是該DPU在調(diào)用1T02 DPU數(shù)據(jù)時(shí)發(fā)生通訊故障,InA、InB和InC 3個(gè)輸入項(xiàng)為紅色底紋,且數(shù)值被系統(tǒng)標(biāo)注為引用壞值(Bad Ref),對(duì)于引用壞值,系統(tǒng)默認(rèn)規(guī)則是不參與程序處理,真實(shí)數(shù)據(jù)丟失,控制邏輯進(jìn)程處于中斷狀態(tài),類似的通訊異常點(diǎn)一共有35處。
圖1 DCS系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 DCS system network structure
圖2 通訊故障現(xiàn)象Fig.2 Communication failure phenomenon
結(jié)合故障現(xiàn)象對(duì)整個(gè)控制單元進(jìn)行排查,發(fā)現(xiàn)該DPU不是所有訪問其他DPU的通訊都存在問題,且DCS控制系統(tǒng)的網(wǎng)絡(luò)狀態(tài)顯示正常,所以大致可以判定故障點(diǎn)集中在該DPU本身。將1T04輔DPU切換至Active狀態(tài),檢查確認(rèn)輔DPU工作正常,且未出現(xiàn)類似主DPU通訊異常的狀態(tài),由此斷定故障現(xiàn)象是1T04主DPU自身造成。此時(shí)原主DPU為Inactive狀態(tài),但是故障現(xiàn)象依然存在,采取重啟和更換DPU卡件等工作,也未能消除故障。最終將故障點(diǎn)鎖定在DPU的CF卡上。
CF卡內(nèi)存儲(chǔ)有核心處理器需要的WinCE操作系統(tǒng)和應(yīng)用固件、I/O管理器診斷代碼固件、組態(tài)文件以及DPU地址等配置文件,故障原因應(yīng)該是CF卡存在介質(zhì)故障或者組態(tài)文件出錯(cuò)導(dǎo)致和其他DPU間的個(gè)別數(shù)據(jù)通信故障,通信故障點(diǎn)不但自身存在問題,而且會(huì)不斷占用網(wǎng)絡(luò)通信資源,從而引發(fā)大面積通信故障。通過更換CF卡并重新寫入相應(yīng)的組態(tài)文件和配置文件后,1T04主DPU所有通信恢復(fù)正常。
圖3 多次訪問優(yōu)化前(左圖),多次訪問優(yōu)化后(右圖)Fig.3 Times before access optimization (left), multiple access after optimization (right)
MaxDNA控制系統(tǒng)采用軟件背板(SBP)處理分散控制通信問題,所有基本通信均基于預(yù)定服務(wù),所以在沒有硬件服務(wù)器的基礎(chǔ)上,DPU之間的通訊要受制于每個(gè)獨(dú)立的DPU硬件設(shè)備的工作能力,maxDNA控制系統(tǒng)中每只DPU在和其他DPU以及工作站的通訊數(shù)據(jù)都做了限定。硬件出廠時(shí)控制單元間通訊預(yù)定數(shù)量默認(rèn)限值為200,該限值可以通過在線組態(tài)查閱system文件夾下SBPLIMITS功能塊中HardLimConnLoop屬性獲取,在DPU間通訊數(shù)量低于該限值時(shí)能保證DPU工作的穩(wěn)定性和數(shù)據(jù)處理的快速性。然而DPU之間的通信在整個(gè)DCS系統(tǒng)中優(yōu)先級(jí)最高,配置的掃描周期最短,相應(yīng)的DPU間通信的數(shù)量限值也最少。
在本次故障排查過程中,該機(jī)組DCS控制系統(tǒng)暴露出關(guān)于忽略預(yù)定服務(wù)數(shù)量限制的重要問題。在對(duì)DCS系統(tǒng)進(jìn)行組態(tài)時(shí),沒能夠充分考慮到DPU的處理數(shù)據(jù)能力的局限性,各個(gè)分散控制單元之間沒能夠進(jìn)行充分合理優(yōu)化,出現(xiàn)個(gè)別DPU工作負(fù)荷繁重,另外部分工作負(fù)荷較輕的不平衡現(xiàn)象。同時(shí)在和其他DPU進(jìn)行通信時(shí),存在同一數(shù)據(jù)多次傳遞,重復(fù)占用網(wǎng)絡(luò)資源,影響整個(gè)控制系統(tǒng)的工作性能。
防范優(yōu)化措施:
1)嚴(yán)格制定涉及DCS組態(tài)內(nèi)容修改相關(guān)制度,不能隨意增減組態(tài)內(nèi)容。
2)優(yōu)化DPU間的通訊,避免同一點(diǎn)數(shù)據(jù)的多次訪問。如果A控制單元序需要多次調(diào)用B控制單元某個(gè)數(shù)據(jù),為了避免每次調(diào)用時(shí)讀(預(yù)定)數(shù)據(jù)引起的網(wǎng)絡(luò)通訊負(fù)荷增加,可以采取邏輯優(yōu)化,對(duì)B控制單元該數(shù)據(jù)調(diào)用一次后,將該數(shù)據(jù)保存為A控制單元中的一個(gè)內(nèi)部變量,然后在其他計(jì)算中使用該內(nèi)部變量,見圖3。
3)利用系統(tǒng)停運(yùn)機(jī)會(huì),合理分配各個(gè)分散控制單元的組態(tài)內(nèi)容,均衡各個(gè)單元的負(fù)載,刪除現(xiàn)有組態(tài)里的“垃圾”組態(tài)文件和“廢”組態(tài)文件。另外及時(shí)對(duì)CRT畫面和報(bào)警等內(nèi)容進(jìn)行合理優(yōu)化,降低DPU負(fù)荷。
4)做好離線組態(tài)的備份工作,避免誤動(dòng)備份離線組態(tài)文件內(nèi)容,或者損壞備份離線組態(tài)文件存檔,避免造成將損壞的離線組態(tài)文件下裝至控制器內(nèi)。下裝離線組態(tài)文件前將DPU中CF卡格式化,避免有殘留文件對(duì)新組態(tài)造成影響。
對(duì)DCS系統(tǒng)中重復(fù)訪問現(xiàn)象進(jìn)行優(yōu)化后,發(fā)現(xiàn)實(shí)際跨DPU訪問數(shù)量明顯減少。另外,DCS網(wǎng)絡(luò)是控制系統(tǒng)的核心部分,當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),往往故障點(diǎn)不易排查,后果影響相對(duì)比較嚴(yán)重。合理優(yōu)化使用DPU,能夠在提高機(jī)組運(yùn)行穩(wěn)定性和安全性的同時(shí)延長DPU的使用壽命。
[1]王永新.DCS數(shù)據(jù)通訊故障的分析[J].熱電技術(shù),2009(01):46-47.
[2]何滔.maxDNA集散控制系統(tǒng)故障分析[J].自動(dòng)化與傳動(dòng),2013(3):50-51.
[3]楊麗.maxDNA分散控制系統(tǒng)的分析與探討[J].儀器儀表用戶,2012,01:88-90.