◆劉 芬 張 科 王逸兮
(國網(wǎng)湖北省電力公司信息通信公司 湖北 430077)
面向中間件的智能化運維平臺設計與實現(xiàn)
◆劉 芬 張 科 王逸兮
(國網(wǎng)湖北省電力公司信息通信公司 湖北 430077)
中間件為應用軟件提供高效、靈活的開發(fā)運行環(huán)境,目前已在信息系統(tǒng)中被大量使用,因此中間件的健康與否對于系統(tǒng)的可靠穩(wěn)定運行至關重要?;诖?,本文給出了一種基于大數(shù)據(jù)的中間件智能化運維平臺,介紹了系統(tǒng)功能與關鍵功能的實現(xiàn)技術,對提升信息運維管理提供了一種經(jīng)驗和思路。
中間件;智能化;系統(tǒng)運維
國網(wǎng)公司SG186和SG-ERP兩大信息化工程的實施基本完成了公司信息系統(tǒng)支撐各大業(yè)務應用的布局,高效支撐著公司經(jīng)營管理業(yè)務的有序開展,進而對信息系統(tǒng)的運行可靠性要求達到了前所未有的高度,亦對信息系統(tǒng)運維管理工作提出了更高的要求。另一方面,隨著信息系統(tǒng)的大規(guī)模建設告一段落,現(xiàn)有信息系統(tǒng)的運行保障和消缺調(diào)優(yōu)等運維管理工作將逐步成為公司信息化部門(單位)的工作重點。
中間件目前被國網(wǎng)大量信息系統(tǒng)所使用,中間件問題是信息系統(tǒng)故障的高發(fā)地帶,因此中間件的健康與否對于系統(tǒng)的可靠穩(wěn)定運行至關重要。當前信息系統(tǒng)運維人員尚未有針對中間件的巡檢模板、規(guī)范及其相關工具,往往當系統(tǒng)出現(xiàn)故障后才能引起一線運維人員的重視?;谶@種被動救火的運維模式,迫切需要構建針對中間件的運維規(guī)范,同時引入相應的自動化監(jiān)控工具,深入系統(tǒng)內(nèi)部運行結構進行監(jiān)控預警,進行事故統(tǒng)計分析與數(shù)據(jù)挖掘?;诖吮疚脑O計了一套面向中間件的智能化運維管理平臺,實現(xiàn)了系統(tǒng)運維工作的標準化、規(guī)范化和自動化,進一步提升信息系統(tǒng)的運行穩(wěn)定。
面向中間件的智能化運維管理平臺包括八大模塊,分別是:運維首頁、實時監(jiān)測、智能分析、預警中心、歷史分析、數(shù)據(jù)抓取、系統(tǒng)配置和后臺管理,結構如下:
圖1 結構圖
八大模塊充分考慮到生產(chǎn)實際,其功能設計如下:
2.1 運維首頁
運維管理平臺的入口是運維首頁,通過登錄頁面輸入正確的用戶名和密碼即可登錄到運維平臺。運維管理平臺的首頁按照用戶角色分為三大部分:領導儀表盤、運維儀表盤和第三方儀表盤。儀表盤是項目的主頁和信息中心。
2.2 實時監(jiān)測
運維人員經(jīng)常會需要知道業(yè)務系統(tǒng)數(shù)據(jù)庫或是中間件的運行狀況,例如中間件節(jié)點數(shù)或是中間件集群情況等一些信息,面對這些問題,雖然可以通過一些其他渠道觀察到,但是卻不方便讓運維人員實時統(tǒng)計,也不能給運維人員直觀的統(tǒng)計數(shù)據(jù)。
運維管理平臺的實時監(jiān)測功能則是解決這一問題,實現(xiàn)數(shù)據(jù)的實時監(jiān)測。實時監(jiān)測功能又包括三部分:中間件集群監(jiān)測、中間件節(jié)點指標監(jiān)測和自動化巡檢。
2.3 智能分析
基于大數(shù)據(jù)的智能分析模塊,主要是根據(jù)對歷史樣本數(shù)據(jù)的機器學習、數(shù)據(jù)挖掘,結合專家經(jīng)驗固化的規(guī)則,形成中間件的健康模型,并最終利用中間件健康模型合并實時監(jiān)測數(shù)據(jù),形成對中間件未來運行狀態(tài)的趨勢預測。
2.4 預警中心
指標特征都有一個標準,超過此標準就會有可能對信息系統(tǒng)的正常使用造成一些嚴重的影響,基于這些特性,平臺設計了預警中心模塊,將超出一些指標標準的特性展現(xiàn)出來,提醒運維人員關注,同時也起到了預防的作用。預警中心的接口也有三部分:
(1)消息預警:平臺中的預警信息消息提示。
(2)郵件預警接口:提供預警信息的郵件提醒。
(3)短信預警接口:短信提醒預警信息。
2.5 歷史分析
平臺實現(xiàn)了實時性能監(jiān)測功能,監(jiān)測到的數(shù)據(jù)積累之后形成歷史數(shù)據(jù),該功能是根據(jù)歷史數(shù)據(jù)進行科學分析或是經(jīng)驗分析。
歷史數(shù)據(jù)對比分析:將產(chǎn)生的歷史數(shù)據(jù)進行科學的、多周期、多維度的對比分析,把分析結果展現(xiàn)出來,使運維人員一目了然的觀察到數(shù)據(jù)差異或是發(fā)現(xiàn)異常,同時也可以幫助運維人員回溯異常發(fā)生之前的系統(tǒng)變化,形成經(jīng)驗積累。
2.6 數(shù)據(jù)抓取
本系統(tǒng)的又一大功能模塊數(shù)據(jù)抓取,實現(xiàn)了無插件形式的中間件數(shù)據(jù)抓取、統(tǒng)一數(shù)據(jù)模型和調(diào)度任務。
中間件數(shù)據(jù)抓?。罕竟δ軐崿F(xiàn)了中間件數(shù)據(jù)抓取,通過對業(yè)務系統(tǒng)、主機和中間件進行要抓取中間件的必要配置,即可實現(xiàn)智能數(shù)據(jù)抓取。
統(tǒng)一數(shù)據(jù)模型:針對異構中間件歸納總結的統(tǒng)一數(shù)據(jù)模型,用于抓取到的性能數(shù)據(jù)的清洗、轉換等(ETL)。
調(diào)度任務監(jiān)控:實現(xiàn)對抓取調(diào)度任務的配置,調(diào)度任務配置主要包括調(diào)度任務IP配置、調(diào)度指標配置和調(diào)度頻率配置,數(shù)據(jù)抓取功能由調(diào)度任務進行發(fā)起。
2.7 系統(tǒng)配置
平臺基礎功能模塊,包括了平臺中基礎信息的配置,包括:信息系統(tǒng)管理、服務器管理、中間件管理等。
2.8 后臺管理
平臺基礎功能模塊,包括了平臺后臺自身的管理,用于控制平臺自身的健康運行,包括:調(diào)度任務管理、閥值管理、權限管理。
在上述功能中,最關鍵的是中間件運行狀態(tài)數(shù)據(jù)抓取與分析。眾所周知,目前市面上存在眾多中間件,比如商業(yè)用途國外的 Oracle WebLogic、IBM WebSphere等;國內(nèi)廠商方正飛鴻、普元EOS、金蝶AAS、中創(chuàng)InforSuite AS等;還有開源的Tomcat、JBoss等。如此眾多的中間件,每個都有自身特有的屬性,全部采集數(shù)據(jù)量極大也影響性能,而且很多數(shù)據(jù)對項目需求毫無意義,所以通過按需求分類挑選的方式來確定。
圖2 數(shù)據(jù)庫格式
3.1 抽取指標分類
根據(jù)項目需求,我們需要用到以下幾類的指標:
(1)資源消耗類:堆棧內(nèi)存使用量/使用率、CPU使用量/使用率、活動連接數(shù)、每秒IO等。
(2)負載類:總請求數(shù)、每秒請求數(shù)、總吞吐量、每秒吞吐量、當前活動連接計數(shù)、執(zhí)行線程總數(shù)、掛起線程等。
(3)性能效率類:每秒完成請求數(shù)、平均連接延遲時間。
(4)異常類:失敗請求數(shù)、連接失敗次數(shù)。
3.2 定義指標名稱與數(shù)據(jù)格式
對每個指標統(tǒng)一命名,不區(qū)分來源于哪種中間件,只在采集實現(xiàn)中區(qū)分各種中間件的不同,比如:
Resource.HeapSizeCurrent 代表資源消耗類中的堆棧內(nèi)存使用量
Resource.HeapRatioCurrent 代表資源消耗類中的堆棧內(nèi)存使用率
Resource.CPUUsagedCount 代表資源消耗類中的CPU使用量
Resource.CPUUsagedRatio 代表資源消耗類中的CPU使用率
Resource.TotalRequest 代表負載類中總請求數(shù)
例如Tomcat沒有對應的Resource.TotalRequest,那么可以使用接近次指標的其他指標替換;如果部分中間件沒有與其接近的,那么可以將做空白處理,只是后續(xù)分析、預測時缺少一個維度數(shù)據(jù),對結果不會產(chǎn)生決定性的影響。
在此基礎上,我們可以進一步定義每個指標的數(shù)據(jù)結構,以滿足異構中間件指標數(shù)據(jù)的統(tǒng)一處理。
隨著公司信息化建設的快速發(fā)展,信息系統(tǒng)運行維護工作效率問題更加突出,亦對信息系統(tǒng)運行保障和消缺調(diào)優(yōu)等運維管理工作提出了更高的要求。開展面向中間件的智能化運維平臺應用有助于提升運維工作效率,對保障信息系統(tǒng)穩(wěn)定運行意義重大。本文以大數(shù)據(jù)與中間件技術的發(fā)展為背景,給出了一種基于大數(shù)據(jù)的中間件應用系統(tǒng),該系統(tǒng)具備功能多樣、便捷實用、易用性好等特點,可有效引導用戶進行運維管理,給未來滿足公司經(jīng)營管理業(yè)務的不斷發(fā)展,規(guī)范完善現(xiàn)有信息系統(tǒng)運維體系,強化信息系統(tǒng)關鍵構件監(jiān)管,實現(xiàn)信息系統(tǒng)運維規(guī)范化、標準化、智能化,提升信息運維管理提供了一種經(jīng)驗和思路。
圖6 與設計人員交流
(2)設計人員針對自己具有權限的產(chǎn)品項目進行設計。設計完成后提交給系統(tǒng)管理員。然后設計人員仍可以進行其他產(chǎn)品的設計。
(3)系統(tǒng)管理員將該產(chǎn)品的相關圖紙傳給工藝項目中去,具體方法為將該設計產(chǎn)品的節(jié)點直接拖到工藝項目中去。
(4)工藝人員接收到后,對其進行工藝編制。根據(jù)工藝需要檢查設計圖紙是否合理,如果合理,則進行工藝編制。如果不合理,則通過在線消息或郵件的方式與設計人員進行交流,雙方也可以在設計圖紙上進行批注,直至合乎要求為止。
圖7 工藝的編制
(5)最后工藝人員利用PDM和CAPP集成環(huán)境完成工藝的編制。
通過基于PDM和CAPP集成環(huán)境,可以將設計數(shù)據(jù)和工藝數(shù)據(jù)集中到同一的產(chǎn)品結構下,有利于保持產(chǎn)品數(shù)據(jù)的統(tǒng)一管理,便于查閱,而且有利于產(chǎn)品研制過程的并行化和建立合理的數(shù)字化流程。并行設計工作模式,打破了廠所之間的地域和時間限制,可以大大縮短產(chǎn)品研制的生產(chǎn)周期。
[1]范文慧等.產(chǎn)品數(shù)據(jù)管理(AVIDM)的原理與實施.機械工業(yè)出版社,2004.
[2]李紅星.實施AVIDM掌控企業(yè)產(chǎn)品研發(fā).PLM???,2003.
[3]陳小云,唐志鋼.以數(shù)字化制造技術提升民用飛機研制水平[J].航空制造技術,2009.
[4]李敏軍.基于PDM的工藝信息化研究[D].西北工業(yè)大學碩士學位論文,2003.
[5]周世平.我國航天制造業(yè)數(shù)字化征程[J].金屬加工,2010.
[6]吳維江.基于DELMIA的飛行器虛擬裝配技術[D].南京航空航天大學碩士學位論文,2008.
[7]孫康.“TXZ”微小衛(wèi)星虛擬裝配關鍵技術研究[D].南京航空航天大學碩士學位論文,2007.