畢進元
摘要:探究大數(shù)據(jù)自動化運維在企業(yè)中的應用價值和方法,從大數(shù)據(jù)自動化運維的應用架構和技術架構出發(fā),闡述大數(shù)據(jù)自動化在企業(yè)發(fā)展中的具體應用及實踐,對推廣大數(shù)據(jù)自動化運維技術有重要意義。
關鍵詞:大數(shù)據(jù)自動化運維;企業(yè);應用
在計算機技術的應用中,通過軟件等一系列非人為方式完成操作與控制即自動化運維。自動化運維技術的應用,在提高運維工作效率的同時,也減少了因人為失誤所造成的損失。當前數(shù)據(jù)中心規(guī)模不斷擴大,傳統(tǒng)的人工運維模式難以支撐數(shù)據(jù)中心海量大數(shù)據(jù)的應用。研究適用于數(shù)據(jù)中心的大數(shù)據(jù)自動化運維平臺,讓數(shù)據(jù)分析工作更加安全、智能和自動化非常有必要。
1 大數(shù)據(jù)自動化運維平臺設計原則
1.1 指導性
為避免人為因素導致的各種風險,數(shù)據(jù)中心自動化運維平臺的設計應當具有一定的指導性,利用計算機軟件技術在數(shù)據(jù)處理方面的優(yōu)勢,通過科學的分析,對風險進行評估,為運維管理工作提供依據(jù),從而提高自動化運維平臺的安全性,降低平臺運營風險。
1.2 實時性
自動化運維平臺的相關工作均以數(shù)據(jù)流的形式進行展現(xiàn),因此,為保證自動化運維平臺的工作效率,數(shù)據(jù)的實時傳輸就是必要條件之一。數(shù)據(jù)傳輸?shù)膶崟r性,能夠使運維人員在第一時間掌握自動化運維平臺的工作狀態(tài),并根據(jù)數(shù)據(jù)分析的結合,對可能存在的風險進行防范。
1.3 可靠性
數(shù)據(jù)中心自動化運維管理平臺建設的目的是實現(xiàn)以數(shù)據(jù)為參考的自動化運營和維護,因此,數(shù)據(jù)的可靠性就顯得至關重要。因此,在自動化運維中心的設計過程中,需要增加數(shù)據(jù)監(jiān)控、對比、分析的功能,保證數(shù)據(jù)的真實、有效。
2 大數(shù)據(jù)自動化運維平臺建設目標
2.1統(tǒng)—數(shù)據(jù)存取
大數(shù)據(jù)平臺數(shù)據(jù)存取服務實現(xiàn)了異構、分布式數(shù)據(jù)存取,建設了統(tǒng)一的用戶管理和授權,滿足數(shù)據(jù)統(tǒng)一存取基礎的應用需求。但在訪問服務的負載均衡模式、數(shù)據(jù)存取安全控制及資源保護方面的需求也要求更精細化,需要在數(shù)據(jù)存取服務提供統(tǒng)一分配下多節(jié)點獨立服務的模式,更好地提高處理并發(fā)服務請求能力,同時也要加強數(shù)據(jù)跨庫訪問、異構數(shù)據(jù)庫關聯(lián)查詢的服務能力,以及存取訪問會話、流量等方面的管控能力。
2.2 資源隔離按需分配
隨著企業(yè)業(yè)務量接入的增加,對業(yè)務系統(tǒng)的用戶資源管理提出了更高的要求,一方面需要實現(xiàn)對用戶級的科學隔離,另一方面還需要充分利用技術環(huán)境如軟硬件資源池來加強對硬件級別資源的科學管理。因此通過對大數(shù)據(jù)自動化運維技術的應用可以實現(xiàn)多租戶管理,便于企業(yè)更好地落實管理制度。
2.3運行故障自動告警
運維工作是一項極為復雜的工作,對運維人員有著極高的要求,在運維管理工作中,自動化運維平臺需要對任務類型進行分類,并嚴格按照流程執(zhí)行相關任務。但是,在實際應用中,自動化運維平臺出現(xiàn)故障的幾率較高,一旦出現(xiàn)故障,自動化運維平臺將向運維工作人員發(fā)出告警信息,并為工作人員解決故障提供指導。
3 大數(shù)據(jù)自動化運維平臺應用實踐
自動化運維技術的應用,降低了傳統(tǒng)人工運維模式下工作超時發(fā)生概率,將人們從重復性的工作中解放出來,大大提高了工作效率。不僅如此,基于計算軟件技術的自動化運維系統(tǒng)還可以實現(xiàn)自我狀態(tài)監(jiān)控,對運維管理中的各種風險進行預估,并根據(jù)軟件中閾值設置的大小發(fā)布預警信息,從而降低自動化運維過程中存在的風險,減少因自動化運維風險導致的成本支出。為更好地支持企業(yè)數(shù)據(jù)中心大數(shù)據(jù)應用,開展大數(shù)據(jù)自動化運維技術研究和應用很有必要。
3.1 構建自動化運維管理平臺
自動化運維管理平臺是數(shù)據(jù)中心自動化運維平臺的核心,通過自動化運維管理平臺,能夠實現(xiàn)對數(shù)據(jù)中心自動化運維平臺所存在的風險提出預警,并對其中出現(xiàn)的故障進行快速恢復。在自動化運維管理平臺的構建中,需要借助服務端、數(shù)據(jù)庫、互聯(lián)網(wǎng)、計算機等技術,實現(xiàn)對數(shù)據(jù)中心海量數(shù)據(jù)的監(jiān)控,通過科學的數(shù)據(jù)分析,對自動化運維風險進行評估,同時給出降低自動化運維風險的建議。
3.2 構建故障監(jiān)控流程
故障監(jiān)控流程,是指在自動化運維平臺出現(xiàn)故障之后,系統(tǒng)將自動對故障信息進行匯總,并啟動上報流程,將匯總后的故障信息發(fā)送至相關人員,并對這一故障將產(chǎn)生的風險進行預估,為運維人員后期故障的排查、處理提供依據(jù),提高自動化運維平臺的故障處理效率。
3.3 完善事件跟蹤流程
自動化運維平臺的實現(xiàn),是基于軟件對參數(shù)分析后的自我判斷,在軟件判斷行為做出之前,需要對數(shù)據(jù)庫中的信息進行比對,從而確保自動化操作的正確性。為實現(xiàn)的對自動化運維平臺工作情況的監(jiān)督,自動化運維平臺的建設過程中,應當設計完善的事件跟蹤流,從而明確自動化運維平臺所發(fā)出的每一項指令,減少運維工作人員對系統(tǒng)的隨意操作,避免不必要的風險與故障出現(xiàn)。
3.4 增加關鍵流程管控
在自動化運維平臺的建設過程中,基于關鍵流程對整個平臺的影響,需要單獨進行管控。在觸發(fā)關鍵流程之后,運維人員需要對關鍵流程進行分析,詳細介紹該流程的含義、處理機制,以及對平臺的影響,從而為流程審批人員提供參考。除此之外,針對關鍵流程所產(chǎn)生的影響,運維人員應當進行特別監(jiān)視,避免關鍵流程所引起的自動化運維平臺連鎖反應造成的影響。
結束語:
大數(shù)據(jù)時代的到來,促使政府、企業(yè)、高校工作的信息化程度不斷提高,以數(shù)據(jù)中心為代表的新技術為政府、企業(yè)、高校等各項工作的開展帶來了極大便利。加快數(shù)據(jù)中心自動化運維管理建設,降低數(shù)據(jù)中心管理過程中人為因素導致的故障,節(jié)約運維管理成本,提高管理效率,是數(shù)據(jù)中心運營管理的必然選擇。
參考文獻
[1]葉枝平, 蘇立偉, 楊秋勇,等. 基于大數(shù)據(jù)平臺的營銷監(jiān)控自動化運維探索研究[J]. 電子世界, 2019, No.580(22):32-34.
[2]胡人卓, 費曉亮, 趙路寧, et al. 基于大數(shù)據(jù)的計算裝置自動化運維管理模式研究與應用[J]. 信息周刊, 2019, 000(032):1-2.