,,, ,
(國家信通產業(yè)集團 安徽繼遠軟件公司,合肥 230008)
基于管家式-集約化通信運維平臺的設計與實現
秦浩,夏同飛,王光發(fā),陳顥,吳金淦
(國家信通產業(yè)集團安徽繼遠軟件公司,合肥230008)
隨著國網信息化工程建設的推進,越來越多信息系統(tǒng)需要上線轉運行,在國網信息化水平踏上新臺階的同時,對于信息運維水平、標準化程度、規(guī)范性提出了更高的要求;因此,基于業(yè)務與運行保障為中心,研究采用跨平臺的J2EE技術結合B/S模式開發(fā)環(huán)境下的自動化運維平臺,設計“管家式-集約化”運維平臺整體的技術架構和功能模塊,集成了優(yōu)秀的開源運維工具,給出了部分典型流程并分析其應用成效,最后順利通過機理評估,該平臺實現既有成功整合目前現有分散的專業(yè)運維管理子系統(tǒng)的“管家”功能,又改變過去以設備為對象的監(jiān)控,打破過去各設備系統(tǒng)獨立管理的模式,起到“集約”監(jiān)控作用,形成統(tǒng)一的運維智能監(jiān)控一體化平臺,力圖為電企信息運維服務提供高效支撐平臺。
運維;自動化;Open Stack;平臺
隨著通信技術的迅速發(fā)展,社會和企業(yè)的信息化程度不斷深入。企業(yè)信息化水平和企業(yè)經營業(yè)務之間的關系越來越緊密,企業(yè)業(yè)務對信息技術的依賴程度也越來越高?,F有運維服務體系以人力投入為基礎,利用各類交換機、服務器等信息化產品傳輸和采集各類業(yè)務數據和監(jiān)控數據,利用各類軟件管理平臺進行數據的簡單處理分析,展現給用戶的是零散的業(yè)務信息和片面的業(yè)務監(jiān)控數據。如何有效地利用各類采集數據和告警信息有效的保障業(yè)務健康度,成為當下提升運維服務質量的發(fā)力點和增長點。本文基于管家式-集約化通信運維平臺的設計與實現,實行有效管理成為實現企業(yè)信息化的一個重要關鍵。
近年來,伴隨之科學技術提升,電力信息通信也得到史無前例活躍,不只在軟開發(fā)明顯進步了,而且硬件設備更日新月異。然而與此同時不可避免的是一系列通信系統(tǒng)運維問題,其催生了運維技術難度大、運維設備成本高、運維智能化滯后、運維檢測不全面等??v觀整個電力行業(yè)發(fā)展,其通信業(yè)務往來頻繁、規(guī)模龐大、交織網寬。如此一來滯后的運維方式,已成為電力通信行業(yè)內關注的焦點話題,它所面臨的問題是如何構建通信與信息一體化穩(wěn)定、安全任務,因而,國內外學者們紛紛圍繞“合理、科學、集約化”等作探討,如:學者Min Luo和Benjamin曾提出“設計和實現企業(yè)ServiceBus(Enterprise service bus,ESB)和SOA解決方案”,而國內學者桂林,也提出“數據中心自動化運維平臺建設方法”操作和保護零碎的建立是基于信息和通信的集成治理方法等,屬于一種粗放運維治理方式。筆者認為應當下需要博眾家之長,設計打造一個“管家式-集約化”運維平臺,在這個技術框架上,聯(lián)合當下電力信息通信網絡的理論情形,能對網絡操作、保護形式、網絡的狀況能夠合理化評估,評估成果能有效轉化為運維所需數據,以使其改善電力通信系統(tǒng)操作和維護效率。
往往單一追求使用超前,帶來的后果是運維管理的滯后,電力信息通信運維存在諸如下面的問題:
1)模式單一。分析電力通信網運行,不難看出缺乏信息與通信沒有行之有效的一套互通資源管理模式以致通信不穩(wěn)、不準,降低運維管理實效。
2)模式不科學。面對通信模式配置不科學,類別琳瑯滿目,運維方式各自為政,從而加大運維工作量與難度,進而降低電力通信效果。
3)監(jiān)測局限。整個電力通信運維系統(tǒng)存在一定的監(jiān)測局限性,盡管網絡信息和通信監(jiān)控兩者是聯(lián)合的,但在現實中兩者存在一定的孤立性,監(jiān)測面窄,數據共享與交互性差,其影響運維時數據集成和剖析,阻礙找到故障,使系統(tǒng)無法準確反饋,
開發(fā)一套基于管家式維護服務模型的國家電網公司信息通信基礎設施環(huán)境集約化運維智能監(jiān)控統(tǒng)一平臺,平臺以業(yè)務為主線,對跨廠家、跨專業(yè)的基礎設施環(huán)境數據進行集中實時監(jiān)測,對各項業(yè)務的健康程度進行評價,并根據變化趨勢分析存在的缺陷和預警;平臺可多級部署,在中心和分中心集中應用;通過系統(tǒng)建立,基于大數據分析,建立故障排錯數據庫體系,完善管理制度,為異常情況提供技術決策支撐。
3.1 邏輯架構設計
本研究平臺大致分為公共服務層、應用服務層、底層服務層、協(xié)議接入層4個層次,其中:
1)公共服務層:包含一些后臺告警模塊、外部接口模塊和管理員管理模塊內容;
2)應用服務層:是系統(tǒng)功能的實現層,完成監(jiān)控管理的所有業(yè)務邏輯,并且面向用戶進行信息呈現。本系統(tǒng)采用B/S模式呈現用戶界面,用戶端無需安裝任何專門的客戶端軟件,只需要在瀏覽器上即可使用全部功能;
3)底層服務層:完成采集數據、運算以及存儲功能,并且提供組態(tài)畫面供系統(tǒng)設計員設計界面;
4)協(xié)議接入層:根據實際情況,以靈活的方式接入各種被管設備的實時狀態(tài)與參數。
系統(tǒng)的層次結構如圖1所示。
圖1 平臺架構
3.2 系統(tǒng)部署
1)跨平臺:本系統(tǒng)軟件采用先進的跨平臺技術J2EE為開發(fā)平臺,服務端可以穩(wěn)定運行在Unix/Linux/ Windows等各種操作系統(tǒng)平臺下,用戶可以根據需要靈活選擇;
2)B/S架構:本系統(tǒng)軟件采用B/S模式開發(fā),用戶只需要有瀏覽器即可完成全部操作,無需安裝專門的客戶端軟件;
3)耦合設計:平臺采用模塊化松耦合設計方式,系統(tǒng)至少包含應用服務模塊(主程序服務)、采集服務(采集接入服務)、流媒體服務及web服務,各服務模塊可部署在不同的物理服務器上;
4)收集服務模塊和流媒體服務模塊都采用分布式體系結構,并且可以擴大水平依據數據的增加和支持Scare-out擴張模式;
5)實時性:實時數據采用push模式,提高系統(tǒng)實時性;
6)Flash動畫效果:本系統(tǒng)軟件以Flash動畫形式實現用戶界面,能以Flash動畫的形式形象的表現被監(jiān)控對象的實時狀態(tài)和參數;
7)組態(tài)功能:本系統(tǒng)軟件具有畫面組態(tài)功能,并且提供形象、豐富的動畫元件和圖元,用戶可以通過簡單的鼠標點拖動作和參數設定自由組合監(jiān)控畫面;
8)自動模板:對同一類型的設備可建立統(tǒng)一的設備模板,新增設備時可以直接套用此模板,生成相應的資源配置信息,提高資源錄入效率;同樣,對同一類型的設備可建立統(tǒng)一的畫面模板,新增設備時可以直接套用此模板直接生成監(jiān)管畫面;
9)歷史回放:系統(tǒng)能將歷史數據存入歷史數據庫,并能夠從任意時刻開始回放選定的歷史監(jiān)控畫面,回放時應具有自動播放、暫停、快進等功能,并且支持視頻系統(tǒng)與其它子系統(tǒng)間的聯(lián)動;
3.3 業(yè)務處理流程
以物聯(lián)網技術感知基礎設施環(huán)境數據,結合國家電網公司信息通信運維管理的實際需求和管理流程,對數據進行實時存儲與分析,根據各項數據的閾值進行判斷是否告警,如是則通過相應手段通知運維人員;以業(yè)務為主視角,結合實時數據/歷史數據進行分析,形成趨勢分析結果,深入挖掘趨勢背后所包含的預警、缺陷等信息;在此基礎上,實現共性故障分析共享,縮短共性故障響應速度和解決事件。
中心側以物聯(lián)網軟件平臺為核心,結合國家電網公司的行業(yè)特點和管理需求,開發(fā)相應軟件功能;軟件設計開發(fā)遵循軟件工程的方法,所有軟件都經過充分測試,程序運行穩(wěn)定可靠,系統(tǒng)軟件平臺通常選擇流行性和通用性強的可靠安全版本。
現場側物聯(lián)網數據網關為核心,結合基礎環(huán)境數據傳感器、執(zhí)行機構以及各種智能設備的通信協(xié)議,實現基礎設施環(huán)境數據實時采集與告警聯(lián)動。
3.4 軟件描述
平臺所采用的軟件描述如表1所示。
表1 平臺所采用的軟件描述
4.1 拓撲監(jiān)視
系統(tǒng)具有拓撲監(jiān)視功能,用戶可根據需要,自定義各種拓撲視圖,如總體分布圖、各分系統(tǒng)的系統(tǒng)圖、任一分系統(tǒng)內某一部分或設備的局部圖、以及其它各種自定義視圖,當分站點數量頗多,采取拓撲方式展示不失為一種整齊直觀的方式,并且對同一類型的設備可建立統(tǒng)一的畫面模板,新增設備時可以直接套用此模板直接生成監(jiān)管畫面。
整體拓撲監(jiān)視如圖2所示。
圖2 監(jiān)控首頁圖
4.2 告警聯(lián)動
當系統(tǒng)或設備中,某一節(jié)點或指標出現異常產生告警時,該系統(tǒng)或設備便會進入告警狀態(tài)。如在上圖監(jiān)控首頁中,機房動環(huán)系統(tǒng)呈現黃色閃爍告警,是由于該子系統(tǒng)中某一節(jié)點告警聯(lián)動的作用,點擊機房動環(huán)系統(tǒng)圖標,進入圖3所示的機房界面,便可發(fā)現具體的告警節(jié)點:
圖3 機房監(jiān)控圖
監(jiān)控數據/狀態(tài)的列表/圖表顯示系統(tǒng)具有監(jiān)控參數列表顯示功能,按照用戶需要設定表格形式,在表格內顯示模擬量、模擬量累計值和開關量等。
1)對于模擬量,系統(tǒng)具有曲線顯示功能:系統(tǒng)具有模擬量實時曲線和歷史曲線顯示功能。曲線為點繪圖,根據需要可以按照多線圖的方式在同一坐標上使用不同顏色同時顯示多個變量,或同一變量的最大、最小、平均值等曲線;
2)對于狀態(tài)量,系統(tǒng)具有圖形化顯示功能:系統(tǒng)具有開關量狀態(tài)圖及柱狀圖、餅狀圖等各種圖形顯示功能。
圖4 采集通道狀態(tài)餅狀圖
4.3 典型運行流程示意圖
平臺采用的Flex和Flash一樣,都以ActionScript作為其核心編程語言,并被編譯成“.swf”文件運行于Flashplayer虛擬機里,而Flashplayer是內嵌于瀏覽器內的,所以客戶端只需要瀏覽器即可運行。Flex開發(fā)的Web程序運行流程如圖5所示。
圖5 運行流程圖
省電力公司2016年6月以來開展對管家式-集約化運維平臺局部測試,綜合集成了配電自動化系統(tǒng)、用電信息采集系統(tǒng)、能量管理系統(tǒng)等方面信息數據,并實現與95598系統(tǒng)、配電網搶修指揮平臺的業(yè)務聯(lián)動,實現了配電網運行狀態(tài)綜合監(jiān)控,以及配電網搶修等運維業(yè)務的過程管控,在配電網低電壓監(jiān)控及治理、提升配網搶修效率等方面均發(fā)揮了重要作用。
初步統(tǒng)計,省電力公司上一年度同期發(fā)生644次公用配電變壓器低電壓情況,投入測試后當月僅發(fā)生6次;通過配電網運行綜合監(jiān)控以及與配網搶修業(yè)務的聯(lián)動,及時發(fā)現配電網運行薄弱環(huán)節(jié),提高搶修工作效率,同比故障減少27%,故障修復時間同比減少15%。
為了更進一步驗證管家式-集約化運維平臺通信性能,研發(fā)并組建一套簡單的測試平臺,其結構為單主站系統(tǒng),具體構成如圖6所示。
圖6 測試平臺構成
該系統(tǒng)中,CPU315-2DP作為一類主站,插有CP5611現場總線接口卡的PC機為二類主站,WAGO 750-833、BK3120、ET200L、LM3107、ET200M及AC3105等作為從站,通過A型標準電纜和9針D型總線連接器將網絡連接起來。
另外,將帶有背板式插座的總線連接器將ProfiCore連接入PROFIBUS-DP中,通過總線分析軟件ProfiTrace即可查OMS系統(tǒng)(見下拓撲圖9)中的各種類型的報文和參數信息;再配以Tektronix TDS 2012B雙通道數字示波器,用來觸發(fā)顯示各個設備的電平信號波形,從而進一步對系統(tǒng)分析與診斷。如下圖7,左側目錄樹中OMS系統(tǒng)的告警與頁面告警點位聯(lián)動,獲取點位中嚴重等級最高的告警級別為OMS系統(tǒng)的告警級別;OMS的父級業(yè)務系統(tǒng)的告警與每一個業(yè)務系統(tǒng)進行聯(lián)動,獲取業(yè)務系統(tǒng)中告警級別最嚴重的等級為當前告警級別。
圖7 目錄樹告警
實驗過程: AC3105接有4個AS-i從站,它既是AS-i網絡的主站,又是DP網絡的從站。
圖8 測試波形圖
實驗分析:從圖8波形上來看,AS-i的通信質量很高,其峰一峰值不超過3V,傳輸速率固定為167kbit/s。同時利用AS-t報文監(jiān)視器來監(jiān)視AS-i報文,發(fā)現其工作正常,沒有檢測到任何損壞的報文,見圖9所示管家式-集約化運維平臺在實時和歷史告警列表界面中,每一個告警內容,都有區(qū)域歸屬,對不同區(qū)域的告警內容進行分類匯總,可以得出是正常分顯示,而一旦出現告警產生比較頻繁的重點告警區(qū)域,對于重點告警區(qū)域,需要密切關注或深入分析其告警原因,實踐充分證時平臺通行可靠。
圖9 實時和歷史告警圖
近年來隨著電網企業(yè)信息化工作的飛速發(fā)展,信息系統(tǒng)己經成為支撐電網安全生產和經營管理不可或缺的重要支撐手段,對整個電網企業(yè)通信系統(tǒng)運行監(jiān)控、日常運維和故障處理顯得猶為重要,本系統(tǒng)的投入運行有效解決了信息設備信息多頭管理、數據重復的問題,通過管家式-集約化運維平臺投入運行對通信系統(tǒng)及網絡不間斷的維護和管理,有效縮短了信息網絡系統(tǒng)故障發(fā)理及處理,進一步提升了信息運行的可靠性,為電網企業(yè)安全生產和經營管理提供了更加可靠的支撐。
該項目建設后形成一套完整的集動力系統(tǒng)(如供配電系統(tǒng)、UPS、通信電源、蓄電池組等)、運行環(huán)境(溫濕度、空調、漏水監(jiān)測)及配套設備(如消防系統(tǒng)、門禁系統(tǒng)、安保系統(tǒng)等、視頻圖像)的運行狀態(tài)進行實時監(jiān)控,實現遙測、遙信、遙控、遙視的管理功能,同時對網絡設備端口的通斷和服務器運行的狀態(tài)參數,存儲設備容量的使用和數據健康指數等數據進行有效整合,形成聯(lián)動和連鎖的用戶告知,及時發(fā)現運行過程中的隱患和告警為一體的智能監(jiān)控統(tǒng)一管理平臺。
[1] Luo M, Goldshlager B. Designing and Implementing Enterprise Service Bus(ESB) and SOA Solutions [A].IEEE International Conference on Web Services(ICWS'OS)[C].2015:83-90.
[2] 王懷民,史佩昌,丁 博,等.軟件服務的在線演化[J].計算機學報,2013,34(2):32-36.
[3] 唐躍中,曹晉彰,郭創(chuàng)新,等.電力企業(yè)基于面向服務架構的應用集成研究與實現[[J].電力系統(tǒng)自動化,2016,32(14):50-54.
[4] 桂 林.數據中心自動化運維平臺建設方法[J].中國電子商務,2014(11):79-80.
[5] 羅 蕓,張曉川,朱建中,等.面向云平臺的集群運維管理方法研究[J].現代電信科技,2013(7):54-59.
[6] 徐紅泉.電力調度自動化系統(tǒng)綜合運維平臺設計方案[D].杭州:浙江大學,2014.
[7] 周昕毅.Linux集群運維平臺用戶權限管理及日志審計系統(tǒng)實現[D].上海:上海交通大學,2013.
[8] 梁鴻健,郭 池,喬治中,等.基于ITIL的電網調度自動化運維流程系統(tǒng)的研究與建設[J].中國電子商情:通信市場,2011(6):187-192.
[9] Delimitrou C, Kozyrakis C. Quasar: Resource-efficient and qos-aware cluster management[J].ACM SIGPLAN Notices, 2014, 49(4): 127-144.
[10]王 波,王明宇,劉淑貞.Linux高可用負載均衡集群技術的研究與應用[J].電子商務,2013(8):55-56
[11] 陳曾勝,夏登俊.基于大數據的高風險網絡入侵與阻斷方法研究[J].電信技術,2016(01).
[12] 高雪生,陳 兵,韓春雷,等.電力通信運維管理風險評估研究及應用[J].電力信息與通信技術,2013(09).
[13] 邢寧哲,徐 鑫.電力通信網安全防護體系架構模型研究.信息安全與通信保密,2014,(09).
[14] 李偉平.工作流管理系統(tǒng)的建模方法和實現技術研究[D].沈陽:中國科學院沈陽自動化研究所,2002.
[15] Lionzl.縱觀jBPM:從jBPM3到jBPMS以及Activiti5[EB/OL].http:blog.csdn.net. 2013.11.10.
DesignandImplementationofStewardship-IntensiveCommunicationOperationPlatform
Qin Hao, Xia Tongfei, Wang Guangfa, Chen Hao, Wu Jingan
(National ICT Industry Group, Anhui Ji Yuan Software Company,Hefei 230008,China)
With the advancement of the information construction of the State Grid, more and more information systems need to be put into operation. While the information level of the State Grid is on a new level, the information operation and maintenance level, standardization degree and normative also raised higher requirement. Therefore, the technical architecture and functional modules of "Stewardship-Intensive" operation and maintenance platform are designed based on the business and operation assurance, and the research of cross-platform J2EE technology combined with B / S mode development environment automation operation and maintenance platform, Integrated excellent open-source operation and maintenance tools, given some typical processes and analysis of the effectiveness of its application, and finally through the mechanism of the successful evaluation of the platform to achieve both successful integration of the existing decentralized professional operation and maintenance management subsystem "steward" , And change the past to equipment for the object of monitoring, breaking the previous system of independent management of the equipment model, play a "intensive" monitoring role in the formation of a unified operation and maintenance of intelligent monitoring platform for the operation of information services, support platform.
operation and maintenance; automation; Open Stack; platform
2017-03-07;
2017-03-23。
安徽省電力公司科技項目(2016-00633-XTGS)。
秦 浩(1982-),男,安徽肥東人,大學,工程師,主要從事信息安全、軟件評測、量子通信等方向的研究。
1671-4598(2017)10-0147-04
10.16526/j.cnki.11-4762/tp.2017.10.038
TP302
A