趙峰 陸宏波
摘 要:文章主要研究AI在電力行業(yè)信息運維領(lǐng)域的探索與實踐,首先論述了電力行業(yè)信息運維存在的困境,介紹了繼遠(yuǎn)軟件智能運維方案的核心理念和總體架構(gòu),說明了智能運維與自動化運維和運維人員的關(guān)系,總結(jié)了智能運維平臺演進(jìn)路線,最后展示了繼遠(yuǎn)軟件在智能運維方面的實踐成果。
關(guān)鍵詞:AI;電力行業(yè);信息運維;探索;實踐
中圖分類號:TP18 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)36-0022-02
Abstract: This paper mainly studies the exploration and practice of AI in the field of information operation and maintenance in power industry. Firstly, it discusses the difficult position of information operation and maintenance in power industry, and introduces the core idea and general framework of the intelligent operation and maintenance scheme of Jiyuan software. This paper explains the relationship between intelligent operation and maintenance and automatic operation and maintenance personnel, summarizes the evolution route of intelligent operation and maintenance platform, and finally shows the practical results of Jiyuan software in intelligent operation and maintenance.
Keywords: AI; power industry; information operation and maintenance; exploration; practice
引言
國家電網(wǎng)有限公司經(jīng)過多年的信息化建設(shè),信息化成果顯著。隨著業(yè)務(wù)發(fā)展和技術(shù)變革,國家電網(wǎng)的信息運維也面臨著一些困境,主要體現(xiàn)在業(yè)務(wù)變化對傳統(tǒng)運維管理的沖擊以及運維管理需求的轉(zhuǎn)變。
在傳統(tǒng)的運維管理架構(gòu)下,基本實現(xiàn)了質(zhì)量、效率、成本三者之間的平衡。但隨著業(yè)務(wù)不斷變化,導(dǎo)致在新業(yè)務(wù)環(huán)境下,質(zhì)量、效率和成本之間的平衡點失調(diào),即在現(xiàn)有的成本下,無法滿足高質(zhì)量和高效率的要求,從而使運維管理之間的矛盾不斷升級。因此,為了滿足運維管理中的成本、效率和質(zhì)量三者重新達(dá)到平衡,滿足業(yè)務(wù)需求,運維管理也需根據(jù)業(yè)務(wù)變化動態(tài)調(diào)整。
本文對AI在電力行業(yè)信息運維領(lǐng)域的應(yīng)用進(jìn)行了研究和探索,并對研究成果進(jìn)行了實踐應(yīng)用,取得了良好的效果,為AI在信息系統(tǒng)運維領(lǐng)域的推廣應(yīng)用和提升提供了重要的指導(dǎo)意義。
1 智能運維方案
智能運維的核心理念是“決策智能、作業(yè)自動、服務(wù)敏捷、遠(yuǎn)程交付”,即提供決策智能和作業(yè)自動的運維智能工具集,提供服務(wù)敏捷和遠(yuǎn)程交付的運維服務(wù)集。
本文以自動化和智能化運維技術(shù)為核心,以運維工具產(chǎn)品為載體,以服務(wù)為交付的總體模式,通過遠(yuǎn)程交付、自動作業(yè)和智能決策,來解決當(dāng)前運維面臨的困境。總體架構(gòu)如圖1所示。
(1)工具層:通過利用數(shù)據(jù)采集、場景化腳本、大數(shù)據(jù)存儲、智能學(xué)習(xí)模型等技術(shù),構(gòu)建自動采集、智能診斷、智能預(yù)測、智能處理的工具集。
(2)服務(wù)層:通過將現(xiàn)有的運維服務(wù)拆分為細(xì)顆粒服務(wù),根據(jù)用戶需求重新組合,結(jié)合運維工具,向用戶提供運維解決方案。具體的運維服務(wù)包括:咨詢規(guī)劃、駐場運維、專項治理、維保服務(wù)等。
(3)管理方面:在開展智能運維方面,在國家電網(wǎng)公司和信通產(chǎn)業(yè)集團運維管理框架下,開展AIOps標(biāo)準(zhǔn)制定、制度流程完善和作業(yè)文件修訂等。
(4)團隊方面:組建多個專業(yè)、三個層次、三個新興崗位的運維團隊。多個專業(yè)包括:網(wǎng)絡(luò)、服務(wù)器、存儲、數(shù)據(jù)庫、業(yè)務(wù)應(yīng)用和云平臺,三個層次包括:客服、現(xiàn)場二線和遠(yuǎn)程三線。此外,增設(shè)研發(fā)運維工程師、大數(shù)據(jù)分析師和AI運維工程師三個崗位。
(5)合作方面:智能運維平臺研發(fā)難度較大、服務(wù)涉及面廣,需要與多方面開展合作。一是與集團內(nèi)部各單位合作整合其運維服務(wù)和工具產(chǎn)品;二是與外部工具產(chǎn)品廠商合作,具體需要與基礎(chǔ)網(wǎng)管工具廠商合作數(shù)據(jù)采集、與性能監(jiān)測廠商合作全鏈路監(jiān)控、與智能平臺廠商合作機器學(xué)習(xí)算法模型、與大數(shù)據(jù)廠商合作數(shù)據(jù)清洗和建模。
2 智能運維平臺演進(jìn)路線
智能運維的前提條件是有基礎(chǔ)數(shù)據(jù)和操作腳本,因此,自動化是實現(xiàn)智能運維的基礎(chǔ)?;谝褜崿F(xiàn)自動化運維的基礎(chǔ)上,將智能運維演進(jìn)路線劃分為5個階段,如表1所示。
3 實踐成果
繼遠(yuǎn)軟件自2018年開始,以智能運維理念踐行開展智能運維服務(wù),取得了一定的成果:
(1)決策智能:參加智能運維能力成熟度模型(AIOps)國家標(biāo)準(zhǔn)編制,搶占智能運維的制高點;開展智能運維的場景化梳理,目前已初步梳理智能決策預(yù)警閾值、智能選擇故障修復(fù)場景、智能客服問答等場景。
(2)作業(yè)自動:研發(fā)數(shù)據(jù)庫運維專用工具實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)自動采集和規(guī)則分析,減少DBA運維人員的巡檢和分析工作量;研發(fā)虛擬流量監(jiān)控工具實現(xiàn)虛擬環(huán)境內(nèi)部流量可視化和透明化,減少網(wǎng)絡(luò)和安全運維人員的流量診斷工作量;研發(fā)接口管理工具實現(xiàn)捋順錯綜復(fù)雜的業(yè)務(wù)系統(tǒng)接口關(guān)系,減少業(yè)務(wù)系統(tǒng)管理人員的運行方式管理工作量;研發(fā)全鏈路監(jiān)控工具實現(xiàn)讓用戶單位感知并掌控IT全局架構(gòu)和業(yè)務(wù)動態(tài),輔助業(yè)務(wù)管理人員和系統(tǒng)管理人員的故障診斷工作量。
(3)服務(wù)敏捷:將運維服務(wù)拆分為細(xì)顆粒度,實現(xiàn)服務(wù)的動態(tài)組合,滿足用戶不同需求快速定制;將運維服務(wù)與工具結(jié)合,提高運維工作效率和服務(wù)時效性;各類服務(wù)通過工具巡檢、分析、診斷等處理,提升服務(wù)敏捷度。
(4)遠(yuǎn)程交付:在繼遠(yuǎn)軟件云資源數(shù)據(jù)中心搭建遠(yuǎn)程運維平臺,面向規(guī)模小、位置偏、人員少、費用不足的單位,提供遠(yuǎn)程監(jiān)控、遠(yuǎn)程應(yīng)急、現(xiàn)場處置、客服調(diào)查督導(dǎo)的運維服務(wù);在?。ㄊ校┕?,協(xié)助科信部組建遠(yuǎn)程運維中心,面向市縣公司開展運維監(jiān)控和遠(yuǎn)程應(yīng)急服務(wù)。
4 結(jié)束語
智能運維實現(xiàn)的目標(biāo)就是減少對人的依賴,逐步信任機器,實現(xiàn)機器的自判、自斷和自決。智能運維技術(shù)的落地,不是一蹴而就的,是一個漸進(jìn)和價值普及的過程。智能運維技術(shù)已經(jīng)成為新運維演化的一個開端,可以預(yù)見在更高效和更多的平臺實踐之后,智能運維還將為整個IT領(lǐng)域注入更多新鮮和活力,在未來發(fā)展和壯大下去,成為引領(lǐng)潮流的重要性力量。
參考文獻(xiàn):
[1]高效運維社區(qū),AIOps標(biāo)準(zhǔn)工作組.企業(yè)級AIOps實施建議[Z].白皮書V0.6,2018:13.