遲海龍,陳小松,龔傳利,袁平路,諶斐鳴,汪濤
基于安全分區(qū)的IT設(shè)備運維管理系統(tǒng)設(shè)計與實現(xiàn)
遲海龍1,陳小松1,龔傳利1,袁平路1,諶斐鳴2,汪濤2
(1.北京中水科水電科技開發(fā)有限公司,北京 100038;2.五凌電力公司,湖南 長沙 433000)
目前水電廠開發(fā)都是按照流域內(nèi)梯級開發(fā)的,常常設(shè)有梯級流域控制中心。在控制中心內(nèi)集成了眾多的自動化系統(tǒng),形成一個遠程控制系統(tǒng)群。在這個系統(tǒng)群中部署了眾多的服務(wù)器、網(wǎng)絡(luò)設(shè)備等等可管控的設(shè)備。龐大繁雜的系統(tǒng)軟、硬件維護工作,對集控中心有限的維護人員提出了極高的要求。本文就是討論一種可以分布式部署跨越不同網(wǎng)段及安全分區(qū)的管控方案。通過該平臺方案可以消滅信息孤島,提高工作效率,保證集控系統(tǒng)的安全穩(wěn)定運行,提升設(shè)備維護的自動化、信息化、智能化水平。
水電廠;IT設(shè)備;運行維護;安全分區(qū);計算機監(jiān)控系統(tǒng)
目前很多水電站控制中心內(nèi)集成了眾多的自動化系統(tǒng),形成一個遠程控制系統(tǒng)群。在這個系統(tǒng)群中部署了眾多的服務(wù)器、網(wǎng)絡(luò)設(shè)備等可管控的設(shè)備。龐大繁雜的系統(tǒng)軟硬件維護工作,對有限的維護人員提出了極高的要求。
日益龐大的系統(tǒng)設(shè)備及其紛繁復(fù)雜的缺陷成為當(dāng)下很多電站運行維護面臨的首要問題。如某水電公司控制中心里包括有計算機監(jiān)控系統(tǒng)、泄洪閘門監(jiān)控系統(tǒng)、流域梯級水調(diào)自動化系統(tǒng)、繼電保護及故障錄波管理信息系統(tǒng)。共有服務(wù)器網(wǎng)絡(luò)設(shè)備多達百余臺。傳統(tǒng)人工巡檢方式只能做到“亡羊補牢”屬于事后處理的方式,很難在故障前做出預(yù)判防患于未然。僅靠傳統(tǒng)的人工巡檢,不僅效率低下,而且也很難及時準(zhǔn)確的定位問題原因并找到解決方案。
眾多種類的自動化信息設(shè)備也對企業(yè)人員維護帶來不小挑戰(zhàn)。一個電站的自動化系統(tǒng)群里除了包含各種主機服務(wù)器外,還包括了網(wǎng)絡(luò)設(shè)備,信息安全設(shè)備,視頻音頻傳輸轉(zhuǎn)換設(shè)備,動力環(huán)境檢測設(shè)備眾多種類設(shè)備,對于不同種類的設(shè)備巡檢給企業(yè)生產(chǎn)人員也帶來不小的挑戰(zhàn)。這些問題都可能成為企業(yè)發(fā)展的掣肘因素。
為了消滅信息孤島,提高工作效率,保證自動化系統(tǒng)的安全穩(wěn)定運行,提升設(shè)備維護的自動化、信息化、智能化水平,急需建設(shè)一套跨安全分區(qū)的集控系統(tǒng)運行狀態(tài)集中智能監(jiān)管平臺,對控制中心各支撐系統(tǒng)的軟、硬件運行狀態(tài)實現(xiàn)智能監(jiān)管及分析。
2.1總體目標(biāo)
(1)強化主動尋找,扭轉(zhuǎn)被動服務(wù)局面。目前,維護工作主要由業(yè)務(wù)人員發(fā)現(xiàn)故障后提出維護請求,另一方式是技術(shù)人員巡檢發(fā)現(xiàn)故障。建成智能監(jiān)管平臺后,將采用設(shè)備主動向監(jiān)控中心報告故障與監(jiān)控中心向設(shè)備定時發(fā)巡檢指令兩種形式。以電子巡檢代替人工巡檢,可以大大縮短巡檢周期。技術(shù)人員可以搶在業(yè)務(wù)人員發(fā)現(xiàn)系統(tǒng)故障前知道系統(tǒng)故障并完成系統(tǒng)的維護任務(wù),改變被動服務(wù)的局面。
(2)幫助定位故障,迅速恢復(fù)系統(tǒng)運行。幫助定位故障是業(yè)務(wù)人員操作問題還是技術(shù)故障。如果是技術(shù)故障,系統(tǒng)能通過監(jiān)控到的指標(biāo)幫助定位故障,通過知識庫幫助技術(shù)人員解決。
(3)掌握運行效率,合理利用科技資源。采用智能監(jiān)管平臺后,可以實時了解全部IT資源的使用情況,根據(jù)需要從整體角度考慮資源的使用,甚至可以根據(jù)業(yè)務(wù)高峰期的不同來調(diào)劑業(yè)務(wù)系統(tǒng)對資源的使用。
(4)規(guī)范運行管理,有序開展科技維護。規(guī)范管理的目的是將管理數(shù)據(jù)電子化,管理過程規(guī)范化。在智能監(jiān)管平臺中根據(jù)科技制度、規(guī)范建立相應(yīng)的流程,辦事規(guī)定,如建立維護服務(wù)中心、實行維護問題的首問負責(zé)制、建立設(shè)備維護的登記制度,加強設(shè)備的巡檢任務(wù)督辦等。
(5)提供分析報表,保障系統(tǒng)穩(wěn)定運行。提供性能分析報表、資源統(tǒng)計報表、運維分析報表,如統(tǒng)計業(yè)務(wù)系統(tǒng)的平均無故障運行時間,運行維護的事件、發(fā)生故障的原因,技術(shù)人員根據(jù)報表及時將經(jīng)常發(fā)生的事件上升為問題。
(6)實行任務(wù)督辦,確保按期完成任務(wù)。智能監(jiān)管平臺中集成科技部門負責(zé)人布置科技項目、了解項目進展,督促項目工作、協(xié)調(diào)項目工作的一個窗口,對所有項目運行情況、資源使用情況進行總體監(jiān)控,及時發(fā)現(xiàn)問題并指導(dǎo)解決具體問題。
2.2設(shè)計原則
(1)良好的集成性。智能監(jiān)管平臺各模塊間能夠高度集成,能夠?qū)崿F(xiàn)信息自動流轉(zhuǎn)和傳遞;能夠提供一個集成的管理平臺對所收集到的信息進行分析、過濾及報警等處理,并能與第三方管理軟件或其他業(yè)務(wù)系統(tǒng)良好集成。
(2)開放性。智能監(jiān)管平臺系統(tǒng)結(jié)構(gòu),硬、軟件平臺的設(shè)計和開發(fā)工作都要遵循“標(biāo)準(zhǔn)和開放”的原則,遵循業(yè)界標(biāo)準(zhǔn),并提供開放、靈活的信息交互及管理接口,實現(xiàn)靈活的數(shù)據(jù)交換功能。當(dāng)引入新的子系統(tǒng)時,智能監(jiān)管平臺只需經(jīng)過少量配置,便可對其發(fā)揮管理作用,保護前期的開發(fā)投資。
(3)可用性。智能監(jiān)管平臺的部署不需對原有的系統(tǒng)結(jié)構(gòu)、安全策略等方面做出修改和調(diào)整,對原有系統(tǒng)性能影響最小化,盡量少地占用網(wǎng)絡(luò)資源。
(4)先進性。建立的智能監(jiān)管平臺和采用的技術(shù)應(yīng)在國內(nèi)外具有先進性,使用當(dāng)前主流技術(shù),符合當(dāng)前技術(shù)和管理發(fā)展方向。
(5)可維護性。智能監(jiān)管平臺應(yīng)結(jié)構(gòu)靈活,采用模塊化結(jié)構(gòu),具有較好的可維護性,可以根據(jù)需要修改某個模塊,增加新的功能。同時對相關(guān)安全產(chǎn)品的技術(shù)升級具有較好的適應(yīng)性,能夠通過相應(yīng)參數(shù)的簡單調(diào)整來進行對升級后的安全產(chǎn)品監(jiān)控和管理。
(6)實用性。智能監(jiān)管平臺應(yīng)掩蓋被管理系統(tǒng)的復(fù)雜性,以更為邏輯、更為直觀的方式組織管理信息,用戶界面直觀一致、方便易學(xué),適合于業(yè)務(wù)人員操作使用,功能實用。
(7)安全可靠性。智能監(jiān)管平臺要安全可靠,并要保護業(yè)務(wù)部門的數(shù)據(jù)安全和秘密,提供諸如口令保護,傳輸加密等安全手段。
(8)實時性。智能監(jiān)管平臺應(yīng)能動態(tài)、實時地反映各子系統(tǒng)的運行狀況,以便故障的及時處理,保證整個安全監(jiān)控管理系統(tǒng)的正常運行。
2.3管控對象
水電廠智能設(shè)備管控一體化平臺管控網(wǎng)絡(luò)中的幾乎所有的實體,并能夠給系統(tǒng)管理員提供一個全面系統(tǒng)的網(wǎng)絡(luò)視圖。能夠管控的對象包括:
各種主流網(wǎng)絡(luò)設(shè)備,包括思科、H3C、衛(wèi)士通、天融信、珠海鴻瑞等品牌的路由器、交換機、縱向加密裝置、防火墻、隔離裝置等。
HP、IBM、DELL等主流品牌的服務(wù)器硬件設(shè)備。
計算機監(jiān)控、泄洪閘門、水情水調(diào)、通信網(wǎng)絡(luò)、電能計量、保護子站、GPS對時、視頻監(jiān)控、生產(chǎn)管理、機房動環(huán)等系統(tǒng)應(yīng)用程序。
WINDOWS、AIX、HPUNIX、SOLARIS、REDHAT LINUX、SCOUNIX等操作系統(tǒng)。
WEBLOGIC、APACHE、IIS、TOMCAT、WEBSPH ERE等中間件。
ORACLE、SQLSERVER、MYSQL、INFORMIX、DB2、SYBASE等主流品牌的數(shù)據(jù)庫。
3.1總體框架圖
圖1 智能管理平臺總體結(jié)構(gòu)圖
本系統(tǒng)的總體框架是基于目前網(wǎng)絡(luò)管理平臺體系的主流分層次框架,按照業(yè)務(wù)的內(nèi)容劃分為前端發(fā)布層、數(shù)據(jù)處理層(中間件層)和后端的數(shù)據(jù)采集層(圖1)。整個系統(tǒng)前端基于EXTWEB前端發(fā)布框架。展示內(nèi)容主要通過PC端的瀏覽器和手機移動端APP的方式發(fā)布。也可以通過水電站的監(jiān)控系統(tǒng)界面或者ONCALL語音等接口發(fā)布數(shù)據(jù)。中間處理層主要是各個模塊系統(tǒng)數(shù)據(jù)處理的WEB服務(wù)接口層。數(shù)據(jù)中心采用主流大型商用數(shù)據(jù)庫Oracle進行整個系統(tǒng)節(jié)點的數(shù)據(jù)倉儲。后端采集模塊主要通過通用的snmp抓取方式和自定義的Agent的模式進行抓取,后者主要是作為前者細分業(yè)務(wù)層面的補充。智能管理平臺的總體軟件包括:普通主機服務(wù)器節(jié)點平臺軟件部分和主服務(wù)器平臺軟件部分。
管理服務(wù)器節(jié)點平臺軟件運行在各大分區(qū)的管理服務(wù)機器上,負責(zé)本分區(qū)內(nèi)智能管理設(shè)備的信息采集、匯總、重定向等工作。管理服務(wù)器節(jié)點平臺軟件除了普通節(jié)點軟件模塊以外還包括主采集輪詢模塊、數(shù)據(jù)記錄模塊、人機交互管理及數(shù)據(jù)展示模塊。
數(shù)據(jù)采集模塊:主要負責(zé)各個節(jié)點信息的收集、查詢、匯總等工作。同時非Ⅲ區(qū)的管理機器還要負責(zé)將自己分區(qū)的管理信息重定向到Ⅲ區(qū)管理服務(wù)器上做數(shù)據(jù)的匯總工作。
數(shù)據(jù)處理模塊:主要負責(zé)將匯總的信息進行各個主機內(nèi)文件方式的記錄。Ⅲ區(qū)總管理服務(wù)器同時還要將采集到的信息按照預(yù)定義好的分類方式寫入到歷史數(shù)據(jù)服務(wù)器當(dāng)中。
前端顯示模塊:主要是為專家系統(tǒng)服務(wù)。主要負責(zé)數(shù)據(jù)的整理、加工、展示等工作。
普通服務(wù)器節(jié)點平臺軟件中主要包括主機駐留服務(wù)進程、消息通訊交互模塊和數(shù)據(jù)同步更新模塊等幾部分。
3.2平臺部署
一種智能平臺管理系統(tǒng)結(jié)構(gòu)典型部署情況如圖2所示,從圖中可以看出,當(dāng)前水電站控制中心的常見計算機設(shè)備由各個調(diào)度及管理、控制等子系統(tǒng)構(gòu)成。每個子系統(tǒng)中設(shè)備主要分為:主機系統(tǒng)、可網(wǎng)管的網(wǎng)絡(luò)設(shè)備包括交換機路由器等,不可網(wǎng)關(guān)的網(wǎng)絡(luò)設(shè)備如:縱向加密、防火墻、物理隔離裝置等設(shè)備。圖中表示出各個生產(chǎn)分區(qū)內(nèi)部的各個子系統(tǒng)的連接關(guān)系,同時也表示出各個生產(chǎn)分區(qū)之間的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。
為了能夠進行前端智能設(shè)備的采集,在I區(qū)、II區(qū)、III區(qū)分別部署了相應(yīng)區(qū)域的平臺管理計算機用于信息的采集、分配和信息重新定向等工作。電站前端側(cè)的智能設(shè)備管理信息采集部署在電站側(cè)的前置通訊機上,負責(zé)采集本側(cè)的可管理的主機設(shè)備的信息采集、重定向工作。
圖2 水電廠典型智能管控系統(tǒng)部署結(jié)構(gòu)圖
3.3跨區(qū)域信息分發(fā)機制
(1)不同安全分區(qū)信息分發(fā)
在滿足國家電力系統(tǒng)二次安全防護相關(guān)條例的前提下,跨安全分區(qū)對集控中心系統(tǒng)側(cè)和廠站前端側(cè)設(shè)備的軟、硬件運行狀態(tài)進行集中智能監(jiān)管,包括:監(jiān)控、閘門、水情、通信、電能量、保護子站、GPS對時、視頻監(jiān)控、生產(chǎn)管理、機房環(huán)境監(jiān)測等系統(tǒng),并預(yù)留系統(tǒng)接口。
集控中心按照國家電力系統(tǒng)二次安全防護要求目前分為生產(chǎn)實時區(qū)(I)、生產(chǎn)非實時(II)、生產(chǎn)管理信息區(qū)(III)以及電站前置管理區(qū)(IV)等4個大區(qū)。如何在這4個區(qū)域內(nèi)對管理信息進行采集、分發(fā)、重定向是本課題研究的一個主要內(nèi)容。目的就是要能做到各個生產(chǎn)分區(qū)內(nèi)的需要管理的設(shè)備信息能夠透明無障礙地分發(fā)和查看。
(2)不同網(wǎng)段之間信息分發(fā)
在同一分區(qū),由于業(yè)務(wù)的需要都會劃分出多個子系統(tǒng)來完成不同的業(yè)務(wù)層面處理。各個子系統(tǒng)之間主要由網(wǎng)關(guān)機器上的網(wǎng)關(guān)進程進行守候?qū)π畔⑦M行分發(fā)。該網(wǎng)關(guān)機通過不同網(wǎng)段的網(wǎng)口收集本網(wǎng)段側(cè)的主機信息并向主網(wǎng)段發(fā)送,最終信息歸集到本區(qū)內(nèi)的管理服務(wù)主機內(nèi)。
為了做好管控信息的互聯(lián)和各子系統(tǒng)業(yè)務(wù)生產(chǎn)信息的橫向隔離,在生產(chǎn)大區(qū)網(wǎng)內(nèi)劃分多個管理VLAN和生產(chǎn)信息VLAN,用于管理的數(shù)據(jù)采集服務(wù)器可以通過各個VLAN的網(wǎng)關(guān),采集到本分區(qū)內(nèi)的所有設(shè)備的管理信息。同時又要保證各個子分區(qū)內(nèi)的不同業(yè)務(wù)分區(qū)機器之間彼此沒有網(wǎng)絡(luò)層面的互聯(lián)能力,進而保證了各個子系統(tǒng)的生產(chǎn)信息的相互獨立和分離。
3.4智能管理平臺數(shù)據(jù)流向
考慮到整個網(wǎng)絡(luò)分為4個大區(qū),即:生產(chǎn)實時區(qū)(I)、生產(chǎn)非實時(II)、生產(chǎn)管理信息區(qū)(III)以及電站前置管理區(qū)(Ⅳ)等4個大區(qū),各大區(qū)之間網(wǎng)絡(luò)互聯(lián)均由相關(guān)網(wǎng)絡(luò)設(shè)備進行連接,分別由防火墻、物理隔離裝置、路由器、縱向加密裝置等設(shè)備進行連接,具體連接方式見圖3。
由于管理信息系統(tǒng)跨越各大生產(chǎn)分區(qū)系統(tǒng),有的分區(qū)之間出于安全考慮,數(shù)據(jù)流向只能為由內(nèi)向外的單方向。所以整個管理系統(tǒng)的數(shù)據(jù)信息中心初步設(shè)定在生產(chǎn)信息查詢區(qū)(III區(qū)),其他各個區(qū)域都有分別對應(yīng)的管理中心服務(wù)器做本區(qū)域的主機設(shè)備信息的采集整理工作,然后通過重定向的方式將信息向III區(qū)匯總。
圖3 跨越分區(qū)的管理數(shù)據(jù)流向示意圖
4.1主機及網(wǎng)絡(luò)設(shè)備的監(jiān)控
(1)主機設(shè)備硬件管理
可以采集包括主機硬件、軟件在內(nèi)的眾多資源的描述信息并進行入庫登記,主要可采集的硬件信息包括CPU、磁盤、內(nèi)存、主板等描述及資源使用信息。
(2)網(wǎng)絡(luò)設(shè)備監(jiān)控
對網(wǎng)絡(luò)設(shè)備的性能參數(shù)進行采集,包括網(wǎng)絡(luò)設(shè)備的CPU、內(nèi)存等性能參數(shù)及端口利用率、丟包率、延時等網(wǎng)絡(luò)性能的統(tǒng)計。網(wǎng)絡(luò)管理系統(tǒng)收集數(shù)據(jù)應(yīng)占用較少的網(wǎng)絡(luò)帶寬,特別是對廣域網(wǎng)(含城域網(wǎng))的設(shè)備管理。
(3)網(wǎng)絡(luò)及拓撲管理
網(wǎng)絡(luò)拓撲功能能夠自動發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,并動態(tài)地顯示當(dāng)前網(wǎng)絡(luò)的拓撲狀況,持續(xù)監(jiān)測網(wǎng)絡(luò)節(jié)點狀態(tài);監(jiān)視網(wǎng)絡(luò)設(shè)備的故障,進行故障診斷及定位分析,告警信息可通過圖形方式對不同的運行狀態(tài)和告警級別進行顯示。
自動發(fā)現(xiàn)拓撲、可以實現(xiàn)拓撲過濾和定制。探測網(wǎng)絡(luò)層/鏈路層網(wǎng)絡(luò)拓撲結(jié)構(gòu),發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,并以可視化拓撲結(jié)構(gòu)表示其連接關(guān)系、運行狀態(tài);監(jiān)視網(wǎng)絡(luò)設(shè)備的在線、離線狀態(tài),同時可以查看可網(wǎng)管設(shè)備的網(wǎng)絡(luò)接口的狀態(tài)、網(wǎng)絡(luò)設(shè)備端口的負荷轉(zhuǎn)發(fā)率等使用參數(shù)。
4.2應(yīng)用系統(tǒng)的管理
目前的應(yīng)用系統(tǒng)包含了:核心業(yè)務(wù)系統(tǒng)、中間業(yè)務(wù)系統(tǒng)等,對其管理主要包括兩方面:
監(jiān)控業(yè)務(wù)系統(tǒng)進程,發(fā)現(xiàn)問題后及時報警并以適當(dāng)方式重新啟動該進程。其他各個系統(tǒng)進程的管理,能夠?qū)﹄娬緝?nèi)大多數(shù)系統(tǒng)進程進行管理,能夠產(chǎn)生相關(guān)報警信息并對進程進行必要合理的干預(yù)。能夠提供業(yè)務(wù)管理視圖,當(dāng)系統(tǒng)出現(xiàn)故障時,可以及時的反映到業(yè)務(wù)視圖上,標(biāo)識故障影響的業(yè)務(wù)及影響程度;并提供根源問題發(fā)現(xiàn)功能,快速定位影響業(yè)務(wù)的故障。
4.3數(shù)據(jù)庫系統(tǒng)監(jiān)控
支持ORACLE等商用數(shù)據(jù)庫??刹榭磾?shù)據(jù)庫使用情況,如表空間信息等。對總的歷史庫的性能綜合展示,如表空間的使用情況,內(nèi)存的劃分等數(shù)據(jù)庫的性能分析,數(shù)據(jù)庫表中碎片率,提交任務(wù)的工作情況,會話、語句等使用的空間,該模塊不僅可以監(jiān)控數(shù)據(jù)庫常見基本信息,還可以針對水電站監(jiān)控系統(tǒng)的一些專屬數(shù)據(jù)庫信息進行定制性監(jiān)控。
4.4數(shù)據(jù)文件管理
電廠內(nèi)所有需要同步的機器都需要安裝管理平臺軟件,并啟動服務(wù)端模塊。需要為電廠配置文件同步服務(wù)器,并為文件同步服務(wù)器建立一個網(wǎng)絡(luò)通道。采用TCP/IP點對點通道協(xié)議,支持跨越廣域網(wǎng)和不同安全分區(qū)的文件傳遞方式??梢詫﹄姀S內(nèi)主機系統(tǒng)上的數(shù)據(jù)文件進行發(fā)布和版本控制等常見管理。
4.5日志管理
日志管理系統(tǒng)提供對操作系統(tǒng)(windows,solaris,AIX)、計算機硬件、網(wǎng)絡(luò)設(shè)備(可管理交換機、路由器)數(shù)據(jù)庫(Oracle)、H9000監(jiān)控系統(tǒng)日志的收集、查看、搜索關(guān)鍵字等功能。
4.6故障管理
監(jiān)測收集各種網(wǎng)絡(luò)運行信息,當(dāng)發(fā)生故障時自動報警,實現(xiàn)故障檢測、發(fā)現(xiàn)、報告、診斷和處理。包括應(yīng)用程序故障、存儲設(shè)備故障、通訊故障、系統(tǒng)崩潰和周邊設(shè)備故障。當(dāng)故障發(fā)生時產(chǎn)生報警信息并推送至預(yù)定義的終端顯示中。
對發(fā)生的故障有手動和自動處理兩種方式。對發(fā)生的故障可以以系統(tǒng)命令、批處理程序、運用程序等來解決的采用自動方式;對不能采用自動方式解決的,啟動報警系統(tǒng)提示管理員以手動方式解決。
4.7機房動環(huán)管理
系統(tǒng)中預(yù)留有對機房動環(huán)系統(tǒng)的通訊接口,可以對機房監(jiān)控系統(tǒng)監(jiān)測:溫濕度、空調(diào)、UPS、防水。采用現(xiàn)代化的科技管理手段,配備機房環(huán)境監(jiān)控系統(tǒng),提高機房的運維管理能力,及時地發(fā)現(xiàn)和排除故障隱患,從而為各業(yè)務(wù)系統(tǒng)的穩(wěn)定運行提供強有力的保障。
4.8資產(chǎn)管理
實現(xiàn)在分布式多平臺環(huán)境下,從單點有效管理水電廠所有資產(chǎn)。自動地搜集、驗證、跟蹤和管理被管對象的資產(chǎn)信息,建立資產(chǎn)管理數(shù)據(jù)庫。在資產(chǎn)管理數(shù)據(jù)庫里包括有硬件,如CPU、Memory、硬盤、網(wǎng)卡等,以及應(yīng)用軟件的詳細信息。
4.9自動巡檢
自動巡檢提供一鍵式檢查特定設(shè)備的運行狀態(tài),提示異常狀態(tài),并輸出巡檢報告。巡檢內(nèi)容包括巡檢設(shè)備的設(shè)定,指定哪些設(shè)備參與自動巡檢,及指定設(shè)備巡檢內(nèi)容。包括服務(wù)器硬件使用狀態(tài)、服務(wù)進程運行狀態(tài)、進程運行統(tǒng)計、操作系統(tǒng)的報警及錯誤日志信息、應(yīng)用程序報警及錯誤日志信息、數(shù)據(jù)庫報警及錯誤日志信息、數(shù)據(jù)同步操作日志信息。
4.10信息發(fā)布
(1)桌面設(shè)備終端發(fā)布展示
在桌面系統(tǒng)中可以展示數(shù)據(jù)庫中記錄的各個職能設(shè)備狀態(tài)參量,后期數(shù)據(jù)可以通過多種方式進行展示,在本方案中應(yīng)該支持目前常見的多種圖形,如餅圖、柱狀圖、曲線、工況點分布圖等圖形。通過比較直觀的方式給維護人員清楚的展示出數(shù)據(jù)中所蘊含的意義、發(fā)展趨勢等信息表計。
(2)移動設(shè)備終端發(fā)布
支持對主流移動設(shè)備平臺上軟件運行,通過APP的方式預(yù)置安裝在手機、PAD等移動數(shù)據(jù)終端上。考慮到移動平臺處理能力及網(wǎng)絡(luò)帶寬的限制。在移動平臺上應(yīng)該主要實現(xiàn)對設(shè)備的監(jiān)視查看功能。
以上所述的功能都是基于數(shù)據(jù)庫的,是在信息采集后做簡單加工后做基本展示的功能。本系統(tǒng)中還設(shè)計和部署了基于規(guī)則庫和知識庫的智能化應(yīng)用。這些基于規(guī)則庫和知識庫的高級應(yīng)用部分可以為運維人員在故障診斷分析中起到輔助的作用,具有一定專家系統(tǒng)支持的功能。
圖4 專家系統(tǒng)
一般而言,基于數(shù)據(jù)庫的系統(tǒng)僅用于處理數(shù)據(jù)和輸出信息,常常導(dǎo)入信息數(shù)據(jù)泛濫。用戶不清楚哪些數(shù)據(jù)是真正的重要,他們甚至不清楚如果要做一個準(zhǔn)確的斷定,是否已經(jīng)有足夠的信息。有太多的選擇困擾著用戶,導(dǎo)致他們處理的速度放慢。前端展示系統(tǒng)下面有太多的重復(fù)冗余信息,運維人員想知道更多的深層次原因,而不僅僅是簡單信息羅列。
在該平臺的高級應(yīng)用功能中部署了基于規(guī)則庫的規(guī)則引擎和基于時序分析的工作流引擎。規(guī)則引擎可以在觸發(fā)啟動后,導(dǎo)入規(guī)則庫內(nèi)的規(guī)則知識信息,然后從數(shù)據(jù)庫中查看規(guī)則內(nèi)的數(shù)據(jù)點狀態(tài)信息。通過推理和模式匹配方法生成規(guī)則結(jié)論,該結(jié)論作為工作流引擎的節(jié)點的路由選擇依據(jù),按照規(guī)則產(chǎn)生結(jié)論尋找流程的相應(yīng)流程路由處理過程。通過規(guī)則的推理匹配及與設(shè)定的知識處理流程的流轉(zhuǎn)判斷完成整個專家知識系統(tǒng)推理判斷及推薦專家建議等工作。
規(guī)則庫及知識庫:
知識庫中存放著各種異常情況所致原因、解決方法與操作步驟等具體參考信息。當(dāng)異常發(fā)生時,在系統(tǒng)中只需點擊該異常信息的“幫助”鍵,即可自動關(guān)聯(lián)到系統(tǒng)的知識庫,并從中找到或匹配到與該異常相關(guān)的知識。從而幫助運維人員在處理故障時能有據(jù)可依,提高運維效率。另外,資深技術(shù)人員的運維經(jīng)驗和普通運維人員每次故障處理的過程,也可以通過知識錄入的方式添加到系統(tǒng)的知識庫中作為知識共享,當(dāng)其他運維人員再次遇到此類事件后能夠快速找到可供參考的解決方案,進一步提高故障恢復(fù)與解決的效率。
專家系統(tǒng)的問題求解過程是通過知識庫中的知識來模擬專家的思維方式,因此,知識庫是專家系統(tǒng)質(zhì)量是否優(yōu)越的關(guān)鍵所在,即知識庫中知識的質(zhì)量和數(shù)量決定著專家系統(tǒng)的質(zhì)量水平。用戶可以通過改變、完善知識庫中的知識內(nèi)容來提高專家系統(tǒng)的性能。
在本方案中,知識庫可以通過人為輸入的方式將智能設(shè)備運行工況的基本參數(shù),運行方式等常用的運行模式錄入到知識庫中,通過預(yù)定義的邏輯編程運算,通過對報警事件等信息加工提煉出設(shè)備運行中存在的問題和隱患,并按照知識庫中預(yù)定義的處理方案措施給出相關(guān)的處理意見和步驟。
故障智能分析預(yù)測系統(tǒng):
對于常見的故障可以進行編號整理,并給出預(yù)案處理信息,通過報警、生成報表等手段提供給設(shè)備的管理人員,供后期故障分析處理使用。通過數(shù)據(jù)的趨勢分析功能能夠?qū)\行當(dāng)中設(shè)備的工況給出預(yù)警提示信息。做到防患于未然。
本文從目前水電廠自動化系統(tǒng)規(guī)模日益增長與人力資源相對緊張的矛盾出發(fā),提出一種針對水電站及梯級流域開發(fā)中心所使用的基于安全分區(qū)的IT設(shè)備管控及實現(xiàn)方案。該方案可以跨越水電廠各大安全分區(qū)實時地分發(fā)和記錄IT設(shè)備的各個狀態(tài)分量,同時通過數(shù)據(jù)庫和預(yù)定義的知識庫對設(shè)備健康狀況進行跟蹤記錄及診斷預(yù)警處理。不僅能夠減輕系統(tǒng)運維人員的勞動強度,還可以盡量降低系統(tǒng)運行中的各種風(fēng)險。通過該管控方案可以消滅信息孤島,提高工作效率,提升設(shè)備維護的自動化、信息化、智能化水平。
[1]王德寬,袁宏,王崢瀛,等.H9000V4.0計算機監(jiān)控系統(tǒng)
技術(shù)特點概要[J].水電自動化與大壩監(jiān)測,2007,31(3):16-18.
TP315
A
1672-5387(2016)08-0047-06
10.13599/j.cnki.11-5130.2016.08.014
2016-06-29
遲海龍(1975-),男,高級工程師,研究方向:水電站自動化控制,水電站計算機監(jiān)控系統(tǒng)。