謝曉娜,常政威,陳亞軍
(1.成都信息工程學(xué)院控制工程學(xué)院,四川 成都 610225;
2.國網(wǎng)四川省電力公司電力科學(xué)研究院,四川 成都 610072;
3.華北電力大學(xué),河北 保定 071003)
電網(wǎng)信息系統(tǒng)狀態(tài)評價技術(shù)研究與應(yīng)用
謝曉娜1,常政威2,陳亞軍3
(1.成都信息工程學(xué)院控制工程學(xué)院,四川 成都610225;
2.國網(wǎng)四川省電力公司電力科學(xué)研究院,四川 成都610072;
3.華北電力大學(xué),河北 保定071003)
摘要:針對電網(wǎng)信息系統(tǒng)狀態(tài)檢修,提出了一種電網(wǎng)信息系統(tǒng)狀態(tài)評價及短期預(yù)測方法。通過充分探討建立了信息系統(tǒng)狀態(tài)評價指標(biāo)體系,并根據(jù)各級指標(biāo)重要程度賦予其相應(yīng)權(quán)重。實現(xiàn)對B/S構(gòu)架信息系統(tǒng)整體狀態(tài)的監(jiān)控和評價,并以信息系統(tǒng)歷史狀態(tài)作為訓(xùn)練樣本預(yù)測其短期狀態(tài),成果將作為重要部分應(yīng)用于電網(wǎng)信息系統(tǒng)狀態(tài)檢修。
關(guān)鍵詞:信息系統(tǒng);狀態(tài)評價;短期預(yù)測;狀態(tài)檢修
0引言
“十二五”期間,國家電網(wǎng)公司全面建設(shè)堅強智能電網(wǎng),推動公司和電網(wǎng)創(chuàng)新發(fā)展、集約發(fā)展、安全發(fā)展,信息化工作已成為國家電網(wǎng)公司實現(xiàn)戰(zhàn)略發(fā)展目標(biāo)的基礎(chǔ)工程和重要保障[1]。國家電網(wǎng)公司SG186信息系統(tǒng)、SG-ERP系統(tǒng)等業(yè)務(wù)信息系統(tǒng)[2]的大量投入運用,在對公司業(yè)務(wù)工作支撐力不斷提升和主營業(yè)務(wù)大幅度融合的同時,也使信息系統(tǒng)的規(guī)模急劇膨脹,而新系統(tǒng)、新技術(shù)的不斷應(yīng)用,使系統(tǒng)出現(xiàn)故障的可能性也隨之加大,對系統(tǒng)穩(wěn)定性和系統(tǒng)管理者的要求也隨之提高。如何提高信息系統(tǒng)檢修的工作效率、工作質(zhì)量、安全、穩(wěn)定等問題也隨之突顯。因此,采用創(chuàng)新的管理思想和現(xiàn)代計算機技術(shù)手段,保障信息系統(tǒng)的安全、降低生產(chǎn)成本、提高企業(yè)競爭力,成為電網(wǎng)企業(yè)的當(dāng)務(wù)之急。正是在這種背景下,信息系統(tǒng)狀態(tài)檢修已然成為電網(wǎng)檢修模式改變的一種必然趨勢。
信息系統(tǒng)狀態(tài)檢修的基礎(chǔ)是對于信息系統(tǒng)狀態(tài)的監(jiān)控與評價,國家電網(wǎng)公司企業(yè)信息系統(tǒng)現(xiàn)階段主要采用B/S構(gòu)架,B/S模式信息系統(tǒng)主要結(jié)構(gòu)包括應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器,因此對于應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器內(nèi)部狀態(tài)和外部狀態(tài)的監(jiān)控與評價成為信息系統(tǒng)狀態(tài)評價研究中最為重要的環(huán)節(jié)。
信息系統(tǒng)檢修是信息運維人員工作的重要內(nèi)容,信息系統(tǒng)的狀態(tài)檢修也是必然發(fā)展趨勢[3-4]。目前國內(nèi)對于信息系統(tǒng)狀態(tài)檢修的研究還處于起步階段,大部分研究者對于信息系統(tǒng)狀態(tài)的監(jiān)控和評價僅停留在整體的設(shè)計思路上面,并沒有繼續(xù)向下延伸到各具體部分狀態(tài)的研究。也正是基于此,給出了一種對于B/S信息系統(tǒng)狀態(tài)全面監(jiān)控與評價的方法,并給出對于信息系統(tǒng)狀態(tài)短期預(yù)測的方法,為信息系統(tǒng)狀態(tài)檢修提供更為具體的研究思路和實現(xiàn)技術(shù)參考。
1評價系統(tǒng)總體設(shè)計
國家電網(wǎng)公司企業(yè)信息系統(tǒng)現(xiàn)階段主要采用B/S構(gòu)架,下面主要針對WebLogic服務(wù)器和Oracle數(shù)據(jù)庫服務(wù)器搭配技術(shù)路線的大型信息系統(tǒng)開展研究。圖1為信息系統(tǒng)狀態(tài)評價系統(tǒng)的總體設(shè)計框架。
圖1 信息系統(tǒng)狀態(tài)評價系統(tǒng)的總體設(shè)計框架
由圖1可知,所述系統(tǒng)主要包括健康狀態(tài)劃分與測試、健康數(shù)據(jù)采集、狀態(tài)評價與預(yù)測和健康狀態(tài)存儲系統(tǒng)這4個部分。健康狀態(tài)劃分與測試主要是建立所述評價系統(tǒng)的評價指標(biāo)體系以及對于信息系統(tǒng)健康度的合理劃分;健康數(shù)據(jù)采集模塊是實現(xiàn)對WebLogic服務(wù)器和Oracle數(shù)據(jù)庫服務(wù)器內(nèi)在及外在狀態(tài)數(shù)據(jù)的監(jiān)控,并將監(jiān)控數(shù)據(jù)存儲于健康狀態(tài)存儲數(shù)據(jù)庫中,為狀態(tài)評價模塊提供實時數(shù)據(jù)來源;狀態(tài)評價與預(yù)測模塊實現(xiàn)對信息系統(tǒng)當(dāng)前狀態(tài)的評價,并結(jié)合信息系統(tǒng)歷史狀態(tài)數(shù)據(jù)給出對信息系統(tǒng)狀態(tài)的短期預(yù)測;健康狀態(tài)存儲系統(tǒng)即建立的存儲數(shù)據(jù)庫,負責(zé)所述評價系統(tǒng)涉及的所有數(shù)據(jù)的存儲。
2健康狀態(tài)劃分與測試
根據(jù)B/S架構(gòu)系統(tǒng)的特性,將整個系統(tǒng)狀態(tài)劃分成兩部分,即WebLogic服務(wù)器狀態(tài)和Oracle服務(wù)器狀態(tài)。這兩個服務(wù)器又有各自不同的子狀態(tài),這些狀態(tài)量,根據(jù)WebLogic 和Oracle數(shù)據(jù)庫的官方文檔、書籍介紹和運維人員的建議,對采集到的指標(biāo)進行了狀態(tài)劃分,每一種狀態(tài)有相應(yīng)的閾值,這些閾值也是參考的文檔、書籍以及運維人員的經(jīng)驗,得到每一個狀態(tài)量都劃分為4種狀態(tài):正常狀態(tài)、注意狀態(tài)、異常狀態(tài)、危險狀態(tài),各狀態(tài)對應(yīng)給出分數(shù)如表1所示。
表1 狀態(tài)劃分表
LoadRunner是一種預(yù)測系統(tǒng)行為和性能的負載測試工具[5]。測試分析是根據(jù)LoadRunner自動生成的各項指標(biāo)測試結(jié)果統(tǒng)計圖,如測試簡述圖、事務(wù)平均時間響應(yīng)圖、系統(tǒng)資源圖等,從中了解和判斷被測系統(tǒng)在不同壓力測試下的運行狀況以及系統(tǒng)資源的使用情況,對它們進行關(guān)聯(lián)分析,從而確定系統(tǒng)指標(biāo)不同狀態(tài)的閾值。通過模擬上千萬用戶實施并發(fā)負載和實時性監(jiān)測的方式來確認和查找問題,將測試得到的性能指標(biāo)值與定義的指標(biāo)狀態(tài)閾值進行對比,從而驗證閾值的正確性。同時,經(jīng)過測試實驗,定義了各級指標(biāo)權(quán)重如表2所示。
3狀態(tài)數(shù)據(jù)采集
根據(jù)B/S系統(tǒng)的分層,將狀態(tài)監(jiān)視采集系統(tǒng)也分成相應(yīng)的子模塊分別對每層進行監(jiān)視。狀態(tài)監(jiān)視采集系統(tǒng)由3個子狀態(tài)監(jiān)視采集系統(tǒng)構(gòu)成[6~7]。分別是Weblogic服務(wù)器數(shù)據(jù)采集程序、Oracle數(shù)據(jù)庫數(shù)據(jù)采集程序、Oracle宿主機數(shù)據(jù)采集程序。它們對相應(yīng)的模塊按照設(shè)定的頻率進行采集,將采集到的數(shù)據(jù)持久化后,由主程序進行讀取,然后按照狀態(tài)定義分別對數(shù)據(jù)進行相應(yīng)狀態(tài)的劃分,最后得出當(dāng)前系統(tǒng)狀態(tài)的評價。
Weblogic服務(wù)器數(shù)據(jù)采集程序[8]能夠獲得服務(wù)器內(nèi)JMS信息、進程信息、線程信息、JVM內(nèi)存信息、CPU使用率等一系列服務(wù)器數(shù)據(jù)。在獲得信息狀態(tài)數(shù)據(jù)之后,可以對數(shù)據(jù)進行分析,從而得出服務(wù)器現(xiàn)階段狀態(tài)。
邏輯流程如圖2所示。程序啟動后,首先檢測Weblogic服務(wù)器是否啟動,如果沒有啟動,則進行報錯,提示服務(wù)器沒有正常啟動。如果Weblogic服務(wù)器正常啟動后,則啟動系統(tǒng)數(shù)據(jù)采集子程序以及Weblogic服務(wù)器數(shù)據(jù)采集子程序,相應(yīng)的子程序按照相應(yīng)的時間頻率刷新重新采集相應(yīng)指標(biāo),主程序按照相應(yīng)的時間頻率獲得相應(yīng)數(shù)據(jù)后,程序?qū)?shù)據(jù)寫入到MySql數(shù)據(jù)庫中。
表2 指標(biāo)權(quán)重定義
圖2 Weblogic服務(wù)器數(shù)據(jù)采集程序運行流程
Oracle數(shù)據(jù)庫數(shù)據(jù)采集程序能夠獲得服務(wù)器內(nèi)執(zhí)行隊列、等待執(zhí)行隊列、數(shù)據(jù)庫命中率、SQL讀寫數(shù)、數(shù)據(jù)庫使用率等一系列數(shù)據(jù)庫服務(wù)器狀態(tài)。在獲得信息狀態(tài)數(shù)據(jù)之后,將數(shù)據(jù)寫入到MySql數(shù)據(jù)庫中。
流程邏輯如圖3所示。程序啟動后,首先實例化3個子數(shù)據(jù)采集程序,并設(shè)置相應(yīng)的采集頻率。設(shè)置完畢后,則按照相應(yīng)的頻率各子程序采集數(shù)據(jù),并將采集得到的數(shù)據(jù)存儲到數(shù)據(jù)庫中。
圖3 Oracle數(shù)據(jù)庫監(jiān)控程序運行流程
Oracle宿主機數(shù)據(jù)采集程序能夠獲得客戶端服務(wù)器的CPU狀態(tài)信息、交換區(qū)信息、內(nèi)存信息、硬盤信息等一系列客戶端服務(wù)器狀態(tài)信息。在獲得狀態(tài)信息數(shù)據(jù)之后,可以將數(shù)據(jù)儲存到MySql數(shù)據(jù)庫中。
流程邏輯如圖4所示。程序啟動后,首先實例化4個子程序監(jiān)控系統(tǒng),并設(shè)置相應(yīng)的采集頻率。設(shè)置完畢后,則按照相應(yīng)的頻率各子程序采集數(shù)據(jù),并將采集得到的數(shù)據(jù)反饋到服務(wù)器上。在獲得相應(yīng)數(shù)據(jù)后,程序?qū)?shù)據(jù)進行分析并進行相應(yīng)的狀態(tài)提醒。
圖4 Oracle宿主機數(shù)據(jù)采集程序運行流程
4狀態(tài)評價與預(yù)測
一般研究認為低負載的系統(tǒng)健康度高于高負載的系統(tǒng),然而在實際系統(tǒng)運行過程中,一個系統(tǒng)正常態(tài)可能是適中的負載,也可能是高負載的。正是考慮到這樣的情況存在,專門設(shè)計了一個基于系統(tǒng)歷史狀態(tài)聚類與回歸的評價模型。
實際系統(tǒng)運行過程中,對于穩(wěn)定運行的系統(tǒng)而言,可以認為多數(shù)情況下系統(tǒng)是正常的,因此利用聚類的方法,將訓(xùn)練集合或者采集到的歷史數(shù)據(jù)劃分成K類,取數(shù)量最多的前N類作為系統(tǒng)正常態(tài)的代表。選取每一個指標(biāo)中心點,各指標(biāo)偏離中心點一定范圍,依靠線性扣分,超出范圍,以指數(shù)扣分,分數(shù)扣完為止。依據(jù)指標(biāo)得分健康數(shù)目,劃分等級,每個指標(biāo)得分不到其分配得分的β(β默認取0.6),則認為指標(biāo)異常,結(jié)合利用M5Rules回歸模型,計算各個指標(biāo)相互間的回歸關(guān)系,以偏離回歸方程的4級指標(biāo)前n個,且偏離比例超過0.3(計算方式為(|實際值-回歸值|)/回歸值)的指標(biāo)作為異常指標(biāo)。如果有n個指標(biāo),所有指標(biāo)正常則為正常,如果超過0.1*n個指標(biāo)出現(xiàn)異常為整個系統(tǒng)為注意狀態(tài),超過0.2*n個指標(biāo)異常為異常狀態(tài),0.3*n個指標(biāo)出現(xiàn)異常則為危險狀態(tài)。
這種模型不僅可以避免對于本身就是高負載系統(tǒng)的狀態(tài)評價誤差,而且不僅是通過由低級指標(biāo)直接線性組合成為高級指標(biāo)判斷系統(tǒng)狀態(tài),其對每一個底層指標(biāo)聚類分析,指導(dǎo)判斷每一個指標(biāo)的健康度,充分考慮了影響信息系統(tǒng)狀態(tài)的因素,從指標(biāo)的健康度來度量系統(tǒng)整體的健康度,避免誤報、漏報。
隱馬爾可夫模型(hidden Markov model,HMM)是馬爾可夫鏈的一種,它的狀態(tài)不能直接觀察到,但能通過觀測向量序列觀察到,每一個觀測向量都是通過某些概率密度分布表現(xiàn)為各種狀態(tài),每一個觀測向量是由一個具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。所以,隱馬爾可夫模型是一個雙重隨機過程即具有一定狀態(tài)數(shù)的隱馬爾可夫鏈和顯示隨機函數(shù)集。在充分研究各經(jīng)典預(yù)測模型并結(jié)合電網(wǎng)信息系統(tǒng)狀態(tài)特性的基礎(chǔ)上,選擇引入隱馬爾科夫模型建立了信息系統(tǒng)狀態(tài)短期預(yù)測模型。
這種模型以大量系統(tǒng)狀態(tài)歷史數(shù)據(jù)作為訓(xùn)練樣本,對模型進行充分訓(xùn)練。對于當(dāng)評價模型正常運行一段時間后,按照時間順序記錄系統(tǒng)四級指標(biāo)的得分,便可以通過隱馬爾科夫模型預(yù)測將來的一次或多次得分,最終預(yù)測三級、二級和一級指標(biāo)狀態(tài)。為了保證預(yù)測的實時性和有效性,周期性更新隱馬爾科夫模型。
圖5 評價預(yù)測整體模型流程圖
5實驗驗證
將所述狀態(tài)評價系統(tǒng)應(yīng)用于四川省電力公司SG186安全監(jiān)督與管理業(yè)務(wù)應(yīng)用系統(tǒng),它的應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器分別是Weblogic和Oracle。為測試所述評價系統(tǒng)數(shù)據(jù)采集以及評價預(yù)測功能,設(shè)置如表3所示測試場景,可得到結(jié)果如表4、表5所示。
表3 測試場景
表4 數(shù)據(jù)采集功能測試結(jié)果示例
表5 評價預(yù)測功能測試結(jié)果示例
從表4數(shù)據(jù)分析可以看出,Oracle服務(wù)器采集程序能夠采集此宿主機的硬件的動態(tài)信息。從場景1到場景3,cpu、內(nèi)存、swap的使用率是遞增的,這與測試用戶數(shù)成倍增長相符,說明采集的數(shù)據(jù)是正確的,User Transaction Per Sec的最大值從場景1的1.8到場景2的1.96,再到場景3的2.1,依次遞增,與場景的用戶數(shù)遞增相符,說明采集程序的Oracle數(shù)據(jù)庫采集模塊能夠正常工作。同樣,Weblogic服務(wù)器采集程序正常工作。從表5數(shù)據(jù)分析可以看出,評價系統(tǒng)充分評價信息系統(tǒng)當(dāng)前狀態(tài),并能有效預(yù)測1 min后信息系統(tǒng)狀態(tài)。在充分訓(xùn)練預(yù)測模型的條件下,預(yù)測時間可以更長。
6總結(jié)與展望
提出了一種電網(wǎng)信息系統(tǒng)狀態(tài)評價方法。通過充分探討建立了信息系統(tǒng)狀態(tài)評價指標(biāo)體系,并根據(jù)各級指標(biāo)重要程度賦予其相應(yīng)權(quán)重。實現(xiàn)對B/S構(gòu)架信息系統(tǒng)整體狀態(tài)狀態(tài)的監(jiān)控和評價,并以信息系統(tǒng)歷史狀態(tài)作為訓(xùn)練樣本預(yù)測其短期狀態(tài),成果將作為重要部分應(yīng)用于電網(wǎng)信息系統(tǒng)狀態(tài)檢修。
參考文獻
[1]李向榮, 郝悍勇, 樊濤,等. 構(gòu)筑數(shù)字化電網(wǎng) 建設(shè)信息化企業(yè)[J].電網(wǎng)技術(shù), 2007(17):1-5.
[2]曾德君. SG186、ERP、IPSS三者關(guān)系論述[J]. 華東電力, 2009(9):1442-1444.
[3]劉賢杰,劉旭生. 信息通信狀態(tài)檢修系統(tǒng)中狀態(tài)評價體系的探索與實踐[J]. 電力信息化,2012(5):64-69.
[4]張涵. 開展信息系統(tǒng)狀態(tài)檢修提高系統(tǒng)運維水平[J]. 農(nóng)村電氣化,2014(6):32-34.
[5]Xiaojiao Yan, Fuan Wen, Chunmei Fan,et al. Performance Testing of Open Laboratory Management System Based on LoadRunner[C]. Proceedings of the IEEE International Workshop on Intelligent Motion Control, 2011.
[6]陳偉. 基于網(wǎng)絡(luò)的服務(wù)器狀態(tài)監(jiān)控系統(tǒng)的研究與實現(xiàn)[D].保定:華北電力大學(xué),2014.
[7]吳巖. 電力信息系統(tǒng)智能巡檢系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2012.
[8]周衛(wèi)華,馬如軍,譚成翔.WebLogic Server安全技術(shù)概述及其在電子政務(wù)應(yīng)用中的實現(xiàn)[J].計算機應(yīng)用研究,2003,20(9):79-81.
中圖分類號:TM764.1
文獻標(biāo)志碼:A
文章編號:1003-6954(2015)04-0024-05
基金項目:國網(wǎng)四川省電力公司研究開發(fā)項目(52199713504A)
(收稿日期:2015-05-14)
Abstract:Focusing on condition-based maintenance of grid information system, the state evaluation and short-term prediction methods for grid information system are proposed. The state evaluation index system of information system is established through full discussion, and the corresponding weight is given according to the important degree of each index. The monitoring and evaluation for the overall state of information system with B/S architecture are realized, and its short-term state is predicted taking the history of information system as training samples. The results will be served as an important part of condition-based maintenance for grid information system.
Key words:information system; state evaluation; short-term prediction; condition-based maintenance