上海天然氣管網(wǎng)有限公司 謝深
容錯技術(shù)的基本思想是由馮·諾依曼在1962年提出的。它要求系統(tǒng)具有自動修復(fù)及故障容錯能力在系統(tǒng)的某個部件出錯的情況下保證整個系統(tǒng)的可靠性運行,其目的就是使得系統(tǒng)能自動、適時地監(jiān)測并診斷出系統(tǒng)的故障,然后采取相應(yīng)的故障控制和處理方法。而達到這一要求可行方法有硬件的冗余,系統(tǒng)的同步性、系統(tǒng)的表決性、重構(gòu)性、故障監(jiān)測多方面。容錯控制系統(tǒng)的一般要求:
(1)每個安全相關(guān)功能,應(yīng)該冗余運行;
(2)應(yīng)用軟件有周期性檢查的功能;
(3)通過比較保證時鐘和定時器的正確性;
(4)有措施避免系統(tǒng)進入死循環(huán)或停止運行;
(5)保證通訊鏈路的正確;
(6)任何硬件故障必須立即得到反映,避免故障累積而發(fā)生的事故;
(7)和安全有關(guān)的數(shù)值不能人工輸入;
(8)保證CP指令執(zhí)行的完整性(針對多字節(jié)的指令)。
整個LNG站的控制系統(tǒng)按區(qū)域上可分為三大區(qū)域:中央控制室(NCR)、原有控制室(ECR)、碼頭控制室(JCR),由功能可分為三套系統(tǒng):分布式集成控制系統(tǒng)(DCS);火焰及氣體滅火系統(tǒng)(FGS);緊急停車系統(tǒng)(ESD)。
LNG站的控制系統(tǒng)采用霍尼韋爾(Honeywell)集成控制系統(tǒng),它是基于分布式服務(wù)器架構(gòu)與控制的以太網(wǎng)技術(shù)。該系統(tǒng)包括三處控制室(NCR、ECR、JCR),該系統(tǒng)架構(gòu)見圖1。
圖1 系統(tǒng)架構(gòu)示意
如圖所示:其中碼頭控制室包括基于霍尼韋爾C300系列的DCS分布式集散控制系統(tǒng)及FSC701系列的FGS火焰及氣體滅火系統(tǒng)1套;中央控制室包括基于霍尼韋爾C300系列的DCS系統(tǒng)(包括接入的第三方成套設(shè)備的 PLC控制系統(tǒng))及 FSC701系列的FGS系統(tǒng)和ESD緊急停車系統(tǒng)各1套;原有控制室則由基于AB(Allen-Bradley)PLC5系列的霍尼韋爾SCAN300系統(tǒng)和經(jīng)過升級后使用FSC701系列的FGS火焰及氣體滅火系統(tǒng)和ESD緊急停車系統(tǒng)各1套。而兩處分控制室(ECR、JCR)都通過光纖進行連接到中央控制室集成進行數(shù)據(jù)通訊。
1.2.1 連接網(wǎng)絡(luò)
此次擴建項目采用的是霍尼韋爾的控制網(wǎng)絡(luò)。它不僅提供容錯功能,而且反應(yīng)速度快,決定能力強,且安全性更高。在這個項目中,通過冗余的DCS服務(wù)器,將所有的操作員站和工程師站,集散控制系統(tǒng)控制器(DCS),緊急停車系統(tǒng),火氣系統(tǒng),以及各種第三方控制系統(tǒng)(通過 Modbus/TCP 或Modbus/RTU協(xié)議接入),都通過冗余光纖連接將NCR,ECR和JCR的各個系統(tǒng)將連接在同一個控制網(wǎng)絡(luò)中。
1.2.2 接口方式
基于霍尼韋爾C300系列DCS分布式集散控制系統(tǒng)和ECR的Allen-Bradley的PLC5之間的DH+網(wǎng)絡(luò)的連接,原有站區(qū)的SCAN3000系統(tǒng)采用的是AB PLC為控制器的控制系統(tǒng),需和新站的DCS相集成,PKS提供了與 Allen-Bradley PLC通訊的RSLinx接口與Allen-Bradley可編程控制器連接。在現(xiàn)有工廠,Allen-Bradley公司PLC5作為控制器,集散控制系統(tǒng)(與老站的ESD FGS系統(tǒng)通訊)會作為SCADA點通過在服務(wù)器上了一個監(jiān)控的PKS 1784 PKTXD適配器接入ECR的PKS監(jiān)控服務(wù)器。(PKS SCADA服務(wù)器可以與使用了ALLEN-BRADLEY PLC5通過DH+網(wǎng)絡(luò)的Allen-Bradley RSLinx接口。)接口方式如圖2。
圖2 接口方式示意
系統(tǒng)中的火氣系統(tǒng)/緊急停車系統(tǒng) FSC系列與PKS通過FSC的接口與系統(tǒng)集成。NCR的EPKS服務(wù)器可以訪問所有的 FSC控制器(ESD/FGS系統(tǒng)),如實時數(shù)據(jù),歷史,報警和事件,SOE(順序事件),診斷等,所有的報警和FSC的事件、順序在事件日志在PKS系統(tǒng)和操作員工作站(HMI)可視人機界面中均可查詢,使其成為完全整合的系統(tǒng)。而FSC系統(tǒng)和PKS系統(tǒng)統(tǒng)一,信息功能,時間同步,能有效幫助操作員找出工藝出現(xiàn)故障。
項目的網(wǎng)絡(luò)采用霍尼韋爾的控制網(wǎng)絡(luò),整個控制網(wǎng)絡(luò)提供了一個的100 Mbps的冗余總線的分布式控制系統(tǒng)(DCS)以太網(wǎng)網(wǎng)絡(luò),連接兩套(NCR、JCR各1套)冗余并同步系統(tǒng)控制器(C300系統(tǒng)Controller)及防火墻(C300控制系列防火墻)。一般情況下,傳統(tǒng)的以太網(wǎng)結(jié)構(gòu)通常采用兩個獨立的以太網(wǎng)網(wǎng)絡(luò),每個節(jié)點連接兩個相互獨立網(wǎng)絡(luò)。如果有一個網(wǎng)絡(luò)上的連接失敗,一個節(jié)點同時間切換到其它網(wǎng)絡(luò)的范圍可以從10 s到30 s以上,而項目采用的單一多路徑的網(wǎng)絡(luò),當出現(xiàn)故障時,重新建立網(wǎng)絡(luò)連接。將切換時間提高到只有1 s,并且通過提供更多的節(jié)點之間的通信路徑,整個控制網(wǎng)也容忍包括個別節(jié)點單故障和多故障的發(fā)生。該網(wǎng)絡(luò)提供了一種先進的網(wǎng)絡(luò)解決方案,使用集成通信技術(shù)方案提高了系統(tǒng)的可靠性,同時減少試運轉(zhuǎn)調(diào)試和維修成本。
2.2.1 基本原理
LNG站分布式系統(tǒng)的架構(gòu)(DSA)采用的是一套冗余的服務(wù)器并通過硬件同步(通過硬件時鐘信號來同步個信號的運行節(jié)拍)和軟件同步(采用網(wǎng)絡(luò)通訊的方法,通過傳輸同步幀實現(xiàn)模塊間的同步)使主服務(wù)器和備份服務(wù)器處于同步狀態(tài),它的選項中提供了外部接入功能,無需做任何服務(wù)器上重復(fù)配置。使系統(tǒng)中所有的服務(wù)器,PLC都能接入 DCS并獲得的數(shù)據(jù)(選項包括訪問系統(tǒng)的數(shù)據(jù)點、報警、信息、歷史、共享等)。每個服務(wù)器提供自動為所有客戶能夠遠程數(shù)據(jù)的動態(tài)緩存,以便客戶端訪問的本地服務(wù)器其所有的數(shù)據(jù)。這種機制可確保無論在服務(wù)器和在網(wǎng)絡(luò)上最高的效率。主 DCS終端服務(wù)器與現(xiàn)場設(shè)備服務(wù)器進行通信并通過其余服務(wù)器。如果主服務(wù)器發(fā)生故障,備份 DCS服務(wù)器將成為主服務(wù)器與現(xiàn)場設(shè)備進行通信。
2.2.2 服務(wù)器連接示意圖
圖3 服務(wù)器連接示意
軟件錯誤一般編碼和程序錯誤引起,PKS的軟件平臺通過軟件的時間冗余、信息冗余、系統(tǒng)的重構(gòu)性等功能有效避免這些錯誤的發(fā)生,保障了其穩(wěn)定性,并通過所具有的自檢性、SOE(事件順序)、EVENT故障報錯和存檔的能力以及自診斷和糾錯有效避免了故障的累積,使得軟件的可靠性得到了保障。是需要強調(diào)的是PKS軟件系統(tǒng)為保障系統(tǒng)的冗余及監(jiān)測所帶來的代價是占據(jù)的相當大系統(tǒng)資源,以及報錯、報警偏多的問題。
本文從各方面介紹了整個項目的容錯實現(xiàn),以及系統(tǒng)組成,容錯性能確保了系統(tǒng)的安全、穩(wěn)定和可靠性,但同時也考慮到各種冗余的實現(xiàn)及通過SOE事件順序、EVENT故障報錯及存檔的能力所帶來極大的占據(jù)系統(tǒng)資源的問題,以及報錯過于頻繁,易造成操作員警覺下降。因此容錯性的有效性和合理性才是要重點考慮的合理的容錯技術(shù)才能保證系統(tǒng)可靠性,否則會造成系統(tǒng)資源的浪費。