覃進學
(成都四方偉業(yè)軟件股份有限公司,成都 610000)
經(jīng)調(diào)查顯示目前全球已經(jīng)有三千多名CIO將數(shù)字化業(yè)務列為工作重點,且預計2020年AIOps全球部署率會由2017年的10%增加至50%[1],覆蓋了電力、金融、航天、HPC及通信多領域,目前對于所要處理的數(shù)據(jù)量正面臨嚴峻挑戰(zhàn),不僅表現(xiàn)在海量數(shù)據(jù)上,更表現(xiàn)在運維成本的不斷增加。所以實現(xiàn)數(shù)據(jù)中心智能化運維已經(jīng)成為必然所趨,本文對此展開研究。
由于數(shù)據(jù)中心基礎設施無法達到較好的監(jiān)控效果,且未能給客戶帶來立竿見影回報,因此用戶整體體驗較差需求定制已經(jīng)難以交付[2]。但是AIoT+AIOps則正是能夠?qū)@些問題有效解決的技術關鍵。經(jīng)過運用AIoT可以對滿足運維數(shù)據(jù)的采集、上報,并實現(xiàn)數(shù)據(jù)融合所需。AIOps即Artif icial Intelligence for IT Operations,不過Gartner對它的解釋是AlgorithmicIT Operations,也就是基于AI算法去解決IT運維流程中的問題,例如性能監(jiān)控、可用性分析、關聯(lián)事件、自動化,以及日志、應用狀態(tài)等運維數(shù)據(jù)信息。AIOps則可以智能化處理人工處理問題,經(jīng)過專家經(jīng)驗結(jié)合數(shù)據(jù)分析模型,共同實現(xiàn)的智能化運維可以對運維效率充分提升。
運維人員應當對服務器的主要運行狀況實時監(jiān)督掌握,包括常規(guī)服務器配置、資源占用多種信息情況,運行業(yè)務時會產(chǎn)生一定異常、日志、狀態(tài)警告等“事件”,通常情況下每一臺服務器無論所處任何時刻都會出現(xiàn)大量事件。那么在數(shù)據(jù)中心服務器規(guī)模愈來愈大背景下,如何對這些“事件需求”統(tǒng)一自動化處理[3]。通過基于AIoT+AIOps能夠?qū)崿F(xiàn)對實時、非實時、格式化、非格式化、需要引擎以及只需運算、全量、抽樣和可視化、告警等數(shù)據(jù)進行分類處理。由腳本運維至工具運維、智能運維,主要表現(xiàn)在以下幾方面:大數(shù)據(jù)分析和搜集數(shù)據(jù)源,識別規(guī)則模式以及AI算法、域算法和自動化算法。但是在這個過程中需要注意AIOps并沒有對AI應用本身加以轉(zhuǎn)變,而是更加強調(diào)實現(xiàn)規(guī)則、流程AI智能化。譬如AIOps能夠由無至有的逐一擊破單點,之后可以形成局部方案逐漸由類推面的解決,這樣一來多單點模塊組合形成了完整AIOps流程,能夠達到可知悉、可重用、可升級的優(yōu)勢。
處于復雜的業(yè)務場景下對于事件處理,除了需要包括常用時間、地點及內(nèi)容,多維數(shù)據(jù)還需要包括地區(qū)、服務池、業(yè)務線和機房、接口等服務數(shù)據(jù)。那么很多情況下數(shù)據(jù)分析人員需要充分運用多種維度指標生成的數(shù)據(jù)報告,警告規(guī)則和Dashboard,因此是否可以支持多維度數(shù)據(jù)查詢存儲,作為衡量智能化運維是否具備靈活性的關鍵指標。那么通過AIoT+AIOps技術能夠?qū)崿F(xiàn)多維度數(shù)據(jù)處理,很多時候作為協(xié)議/模型類似設計問題,甚至不會對具體分析處理框架有所牽扯,通過設計較好的存儲協(xié)議模型,可以確保整體具備多維度和簡潔性。設計理念的不同,需要對應不同的智能運維處理模型,因此彼此之間并未存在優(yōu)劣之分。多維數(shù)據(jù)源目前已經(jīng)作為一種比較普遍存在的情況,AIoT+AIOps能夠具備多類數(shù)據(jù)格式/API適配能力的同時,還可以達到數(shù)據(jù)展現(xiàn)分離,解決展現(xiàn)、數(shù)據(jù)契合度較高極有可能更改前端界面的工作問題。
在智能化運維中最為典型的事件就是信息過載“告警”應用,幾乎所有運維管理員都為所需地方加上告警,以為這樣可以高枕無憂。但是需要認識到各類型告警信息會毫無疑問的占滿空間,那么基于AIoT+AIOp能夠?qū)Χ秳有浴⒅貜托韵嚓P信息加以過濾,并且由中可以尋求問題的存在根源,在Dashboard達到數(shù)千上萬下,AIoT+AIOp能夠自動過濾滿足智能運維靈活性。當然身為運維AI工程師自身也應當積極學習AIoT+AIOp技術,從而對運維產(chǎn)生數(shù)據(jù)完成整理分析,真正發(fā)揮數(shù)據(jù)本身的價值。
總而言之,基于AIoT與AIOps技術的智能運維,能夠?qū)崿F(xiàn)告警異常檢測、告警故障分析、智能能耗等方面的不斷提升改進。經(jīng)過將物聯(lián)網(wǎng)、人工智能和知識圖譜等技術引入,能夠?qū)DC機房和園區(qū)管理工作的整體效率有效提升,還可以提高綜合服務能力與控制處理突發(fā)事件能力,從而達到機房的最優(yōu)化決策控制,最終實現(xiàn)數(shù)據(jù)中心的智能化運維。