何云瑞 閆祎穎 黨義杰 李揚 陳亮 王寧
摘? 要:隨著信息技術的不斷改進與提高,大數(shù)據(jù)時代已經來臨,人工智能被應用到各行各業(yè)。各類大數(shù)據(jù)中心的出現(xiàn)對IT運維的模式提出了新的標準和要求,智能運維憑借無可比擬的優(yōu)勢脫穎而出。本文通過分析運維的發(fā)展歷程,對比傳統(tǒng)運維與智能運維的優(yōu)劣勢,提出了大數(shù)據(jù)中心的智能運維方案和實現(xiàn)途徑。
關鍵詞:智能運維;數(shù)據(jù)中心;架構
中圖分類號:? ? ? ?文獻標識碼:
Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
Key words: AIOps; Big Data Center; Structures
1? 引言
隨著IT行業(yè)的發(fā)展和信息化水平的不斷提高,數(shù)據(jù)中心的規(guī)模也在日益擴大,這不僅體現(xiàn)在需維護的服務器數(shù)量上,也體現(xiàn)在產生的運維數(shù)據(jù)量上,單純依靠投入大量人力進行巡檢及監(jiān)控已不能滿足日常運維的需求,這對IT運維的模式提出了新的標準和要求。另一方面,隨著大數(shù)據(jù)時代的到來,人工智能(Artificial Intelligence,AI)技術在各行各業(yè)中得到了越來越廣泛的應用,智能運維便是將AI技術應用到IT運維領域的實例,借助運維自動化、大數(shù)據(jù)、桌面虛擬化等技術手段,實現(xiàn)對所有設備的監(jiān)控,能極大提高IT運維管理效率。
2? 智能運維的概念及優(yōu)勢
2.1? 基本概念
根據(jù)國際上對智能運維的最新定義,智能運維(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自動化三大方面的全面融合,自動化處理傳統(tǒng)IT運行和維護,以提升運行和維護效率。作為AI、大數(shù)據(jù)和IT運維融合的產物,智能運維成為現(xiàn)代傳統(tǒng)企業(yè)數(shù)字化轉型的必然選擇。
2.2 智能運維的優(yōu)勢
(1)傳統(tǒng)IT運維存在的問題
傳統(tǒng)的IT運維管理模式是被動的,其存在以下三點問題。一是運維成本高。傳統(tǒng)運維受限于技術和人力等原因,系統(tǒng)一旦出現(xiàn)故障產生告警后,運維人員需要逐條進行手工排查,不僅要付出大量的人力,還要浪費大量的時間;二是無預警。傳統(tǒng)單一的運維模式沒有設置全面的系統(tǒng)監(jiān)控,對于系統(tǒng)即將出現(xiàn)的故障和問題不能及時預判和告警,無法做到防患于未然;三是缺乏快速有效的分析解決工具。面對大量的操作和維護數(shù)據(jù),越來越多的運維場景和問題無法用傳統(tǒng)的方法來解決,傳統(tǒng)運維手段已經不能適應現(xiàn)有大數(shù)據(jù)環(huán)境下的新形勢。
(2)智能運維的優(yōu)勢與特點
相比傳統(tǒng)運維的模式而言,智能運維具有不可比擬的優(yōu)勢。從技術層面上看,智能運維的優(yōu)勢和特點主要包括以下四個方面。一是“可存儲”,可以形成龐大的數(shù)據(jù)庫,可以迅速的對系統(tǒng)內的各類數(shù)據(jù)數(shù)據(jù)進行存儲、檢索和調用;二是“可關聯(lián)”,以自身龐大的數(shù)據(jù)庫作為支撐可以對存儲的數(shù)據(jù)進行關聯(lián)分析;三是“可預測”,通過構建數(shù)據(jù)知識庫和自我學習能力,對數(shù)據(jù)進行對比分析和閾值分析,建立分析預測系統(tǒng),可以對系統(tǒng)異常等提前告警;四是“可溯源”,針對系統(tǒng)發(fā)出的告警和異常狀態(tài),可以根據(jù)溯源組件實現(xiàn)根源追溯,查看引起異常的數(shù)據(jù)流和位置,以便快速定位問題根源,實現(xiàn)自動化修復等后續(xù)運維工作。
總體來說,智能運維的工作模式優(yōu)勢在于可以通過自我學習實現(xiàn)自動化運維和自動故障判斷處理,是集“自我學習、自我監(jiān)控、自我校驗、自我修復”四位一體的運維平臺。智能運維的推廣和運用將可以有效降低傳統(tǒng)IT運維高成本低效率的困境,使運維管理實現(xiàn)“易見、易管、易控”。
3? 大數(shù)據(jù)中心的智能運維建設
3.1? 大數(shù)據(jù)中心的現(xiàn)狀及需求
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)中心建設的理念也進入一個云時代,越來越多的大數(shù)據(jù)中心出現(xiàn)在各大企業(yè)的建設清單中。第三代以計算機計算為核心的機架式服務器機房的數(shù)據(jù)中心方興未艾,第四代以大數(shù)據(jù)計算為核心的大數(shù)據(jù)中心已經走上舞臺。一個大型的數(shù)據(jù)中心部署擁有多云的數(shù)據(jù)基礎設施環(huán)境,可以提供機房、設計、功能、資源四大服務類型,裝機容量均在5000機架以上甚至上萬機架,面對如此龐大的容量,大數(shù)據(jù)中心的運維工作就更加重要了。
當一個數(shù)據(jù)中心的建設規(guī)模越來越大,承載的業(yè)務種類和數(shù)量越來越多,對于數(shù)據(jù)的快速處理、高速傳輸、實時響應等要求不斷提高,其面臨的問題和挑戰(zhàn)也日益增加。
3.2? 智能運維的解決方案框架
目前,大數(shù)據(jù)中心的IT系統(tǒng)具有數(shù)據(jù)節(jié)點多、系統(tǒng)規(guī)模大、運行速度快等特點。因此,大數(shù)據(jù)中心智能運維的落地需要循序漸進,分區(qū)域分步驟的進行架構。整個大數(shù)據(jù)中心的智能運維系統(tǒng)可以分為可以分為五大邏輯板塊來進行架構。具體如圖1所示。
圖1? 大數(shù)據(jù)中心的智能運維系統(tǒng)架構示意圖
(1)數(shù)據(jù)采集存儲板塊
該板塊包含數(shù)據(jù)采集器和數(shù)據(jù)存儲器。數(shù)據(jù)采集器采用分布式布局,通過動態(tài)化的采集方式對底層的多種不同的運維平臺進行數(shù)據(jù)的收集工作;數(shù)據(jù)存儲器使用My SQL和MongoDB結合的方式,對于數(shù)據(jù)量小和有穩(wěn)定結構的配置類數(shù)據(jù)統(tǒng)一存儲在SQL結構化數(shù)據(jù)庫中,而大量的運行數(shù)據(jù)、日志等具有實時性、不穩(wěn)定性的的數(shù)據(jù)均存儲到非結構化的數(shù)據(jù)庫中。
(2)數(shù)據(jù)學習儲備板塊
該板塊將數(shù)據(jù)采集存儲板塊的數(shù)據(jù)進行再整理,分為元數(shù)據(jù)、狀態(tài)數(shù)據(jù)和事件數(shù)據(jù)三大類進行分門別類,利用自我學習的功能,形成數(shù)據(jù)知識庫。通過該板塊的設置,將數(shù)據(jù)建設變成一個持續(xù)的過程,是智能運維的建設重要的一部分。
(3)數(shù)據(jù)分析處理板塊
該板塊是智能運維最核心關鍵的一部分,由數(shù)據(jù)計算和數(shù)據(jù)執(zhí)行兩部分組成。數(shù)據(jù)計算主要是對采集存儲的數(shù)據(jù)進行實時處理分析,檢測監(jiān)控數(shù)據(jù)的實時變化,對數(shù)據(jù)匯聚、數(shù)據(jù)加載、數(shù)據(jù)異常等問題進行感知分析并提前告警;數(shù)據(jù)執(zhí)行則是對部署、執(zhí)行命令等數(shù)據(jù)操作控制進行寫入操作。
(4)數(shù)據(jù)決策執(zhí)行板塊
該板塊是智能運維的“大腦”,控制整個智能運維的行為。根據(jù)前三個板塊的采集存儲、自我學習和分析處理,根據(jù)邏輯判斷規(guī)則和算法組件的設置形成異常檢測、故障預測、止損決策、根因診斷、容量預測等策略庫,可以根據(jù)整個系統(tǒng)平臺出現(xiàn)的需求自動給出運維策略并自動處置,讓決策執(zhí)行過程“可定位、能復用、有針對”。
(5)數(shù)據(jù)可視化板塊
數(shù)據(jù)可視化板塊將分析結果、決策策略等數(shù)據(jù)通過可視化組件變?yōu)楹唵我锥膱D表或圖,將數(shù)據(jù)直觀地展現(xiàn)出來,實現(xiàn)數(shù)據(jù)的可視化、場景化以及實時交互,以幫助非運維人員對數(shù)據(jù)更好的理解,根據(jù)直觀的圖表或圖可以更好的找出包含在海量數(shù)據(jù)中的規(guī)律或者信息。
3.3? 智能運維的預期價值與實現(xiàn)途徑
智能運維在大數(shù)據(jù)中心建立起來之后,將產生不可估量的使用價值,其主要IT運維的自動化、智能化實踐可以從以下幾個方面進行實現(xiàn)。
(1)自動化進行日常數(shù)據(jù)巡檢
作為智能運維最基礎的任務就是進行日常的巡檢運維工作,每日重復化的巡檢工作,看起來簡單,但需要定時進行重復執(zhí)行。智能運維系統(tǒng)通過設定邏輯組件,可以對大數(shù)據(jù)中心的軟硬件環(huán)境、設備端口的狀態(tài)和負載、數(shù)據(jù)流量和空間使用率等日常巡檢工作內容進行自動巡檢并生成日志和報告。
(2)自動化進行配置管理
隨著大數(shù)據(jù)中心的運營環(huán)境越來越大,采集存儲基礎組件的管理成為配置管理員的巨大的工作量,尤其是這些組件還在不停的變化和關聯(lián)。實施智能運維后,對系統(tǒng)的基礎組件進行標準化和規(guī)范化設置,保證運維工具可以自動從資源環(huán)境中提取配置庫信息,自動更新到配置庫中,最終實現(xiàn)配置項和屬性的自動更新。
(3)自動化進行系統(tǒng)故障預判和修復
作為智能運維最突出的價值就是預判和自動故障修復功能。智能運維通過自我學習功能,通過數(shù)據(jù)庫分析、檢測等組件聯(lián)合,可以預判即將面臨的問題和威脅,將通過提前告警等對故障進行預判。一般系統(tǒng)故障的出現(xiàn)會經歷“發(fā)現(xiàn)、診斷、決策、執(zhí)行”四個階段。在這四個階段中,通過前兩個階段(即發(fā)現(xiàn)和診斷)結合知識庫板塊,明確處理決策執(zhí)行修復命令。
(4)可視化進行數(shù)據(jù)流展示
作為智能運維的重要一環(huán),在智能運維終端可以通過對采集存儲的數(shù)據(jù)流,通過設定的可視化大數(shù)據(jù)組件,實現(xiàn)對全網數(shù)據(jù)的有效識別;對訪問關系、流量構成、異常行為等實現(xiàn)可視化。將數(shù)據(jù)、組件和終端之間的訪問關系、會話特征、異常的訪問路徑、非正常的數(shù)據(jù)出口、異常的TCP連接等問題以具象的形式展現(xiàn)出來。
(5)自動化進行資源申請調配
智能運維可以利用資源監(jiān)控的手段有效地監(jiān)控一組或多組資源指標,并且根據(jù)系統(tǒng)資源當前的使用情況進行適當適量的動態(tài)伸縮。當資源不足的時候,根據(jù)約定的規(guī)模比例部署節(jié)點并將其添加到當前的運行環(huán)境中。當資源利用率很低時,又可以回收資源以避免造成資源的浪費。
4? 結束語
綜上所述,智能運維基于人工智能的自我學習和深度學習技術,創(chuàng)新了運維模式的構建和實現(xiàn)方式,可以提高大數(shù)據(jù)爆炸時代的運維工作效率,是未來運維工作的主導方向。目前,部分數(shù)據(jù)中心已經在智能運維方向上進行了一定的嘗試,并且取得了非常好的效果和用戶體驗。未來,針對不同的應用場景和需求,更好地利用智能化工具關聯(lián)分析數(shù)據(jù)、深入挖掘數(shù)據(jù)的價值將是智能運維的主要研究方向,本項目將結合自身的運維需求,探討適宜的實現(xiàn)智能運維的技術路線和方案。
參考文獻:
[1]鐘湘瓊.基于云計算的大數(shù)據(jù)只能運維系統(tǒng)設計.信息通信[J],2016.2
[2]羅硯.基于大數(shù)據(jù)的信息系統(tǒng)運維智能化研究.郵電設計技術[J],2018(3)
[3]毛開梅.大數(shù)據(jù)之智能運維系統(tǒng)設計及應用.網絡與信息工程[J],2018(14)
[4]劉世發(fā),畢永軍.智能化運維的探索與實踐[J].金融電子化,2017,08.
[5]李鵬.基于云計算的大數(shù)據(jù)運維系統(tǒng)的設計與實現(xiàn)[D].天津大學,2017.
[6]劉瑩旭.智能運維中心信息集成技術研究[D].上海交通大學,2013.