張杰
摘要:我國(guó)信息技術(shù)經(jīng)過(guò)快速發(fā)展,在各行各業(yè)中有著重要應(yīng)用。例如,大數(shù)據(jù)、云計(jì)算、區(qū)域鏈、人工智能和物聯(lián)網(wǎng)等新技術(shù)在人們生產(chǎn)生活中的應(yīng)用越來(lái)越廣泛。這些新技術(shù)的應(yīng)用極大地推動(dòng)了社會(huì)發(fā)展,而在此過(guò)程中,數(shù)據(jù)中心是不可或缺的。因此,數(shù)據(jù)中心的數(shù)量越來(lái)越多,規(guī)模也越來(lái)越大。這就對(duì)數(shù)據(jù)中心的運(yùn)營(yíng)和機(jī)房基礎(chǔ)設(shè)施的運(yùn)維管理提出了更高的要求。因此,提高數(shù)據(jù)中心運(yùn)營(yíng)水平非常重要?;诖?,本文對(duì)數(shù)據(jù)中心一體化智能運(yùn)維管理平臺(tái)的建設(shè)進(jìn)行了研究。
關(guān)鍵詞:數(shù)據(jù)中心;一體化智能運(yùn)維;管理平臺(tái)
引言
中國(guó)信息技術(shù)的發(fā)展進(jìn)入了“智能+”階段。大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、數(shù)據(jù)塊鏈和人工智能等新技術(shù)在生活各個(gè)領(lǐng)域的應(yīng)用離不開(kāi)數(shù)據(jù)中心的支持。數(shù)據(jù)中心機(jī)房的數(shù)量和規(guī)模不斷增加??偯娣e超過(guò)10萬(wàn)平方米、安裝容量達(dá)數(shù)萬(wàn)臺(tái)的機(jī)房非常普遍,這也給數(shù)據(jù)中心的運(yùn)行以及計(jì)算機(jī)機(jī)房基礎(chǔ)設(shè)施(包括電力、冷卻、不間斷電源、空調(diào)和安全系統(tǒng))的運(yùn)行和維護(hù)帶來(lái)了困難。同時(shí),云計(jì)算、人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)等新技術(shù)在中國(guó)的應(yīng)用趨于成熟,為實(shí)現(xiàn)智能數(shù)據(jù)中心運(yùn)營(yíng)和維護(hù)管理奠定了技術(shù)基礎(chǔ)。
1數(shù)據(jù)中心運(yùn)維管理技術(shù)概述
隨著數(shù)據(jù)中心不斷發(fā)展,其運(yùn)維管理技術(shù)也在不斷發(fā)展。通過(guò)研究,其發(fā)展可以分為三個(gè)階段,分別是被動(dòng)運(yùn)維階段、主動(dòng)運(yùn)維階段和智慧運(yùn)維階段,具體分析如下:①被動(dòng)運(yùn)維階段。在這一階段,運(yùn)維管理的流程還沒(méi)有完全建立,相關(guān)技術(shù)手段還不成熟,主要通過(guò)人工現(xiàn)場(chǎng)巡檢的方式對(duì)數(shù)據(jù)中心機(jī)房進(jìn)行檢查,通過(guò)手工對(duì)機(jī)房和設(shè)備的信息進(jìn)行記錄。②主動(dòng)運(yùn)維階段。在這一階段,相關(guān)工作人員針對(duì)供配電、制冷、不間斷電源和空調(diào)等配備了遙測(cè)、遙控模塊,建立了集中式遠(yuǎn)程監(jiān)控平臺(tái)以及事件、應(yīng)急和變更等標(biāo)準(zhǔn)管理流程,使運(yùn)維體系不斷完善,運(yùn)維管理水平不斷提高,平臺(tái)化、可視化和流程化的管理也得以實(shí)現(xiàn)。當(dāng)前我國(guó)數(shù)據(jù)中心的運(yùn)維管理基本上處于這一階段。③智慧運(yùn)維階段。在這一階段,物聯(lián)網(wǎng)、大數(shù)據(jù)和智能技術(shù)等的應(yīng)用實(shí)現(xiàn)了人、技術(shù)、流程和數(shù)據(jù)四要素的有機(jī)融合,此階段的數(shù)據(jù)中心運(yùn)維管理特點(diǎn)是自動(dòng)化和智能化。
2數(shù)據(jù)中心基本設(shè)備的運(yùn)營(yíng)管理
數(shù)據(jù)中心基本設(shè)備(DCIM),一種國(guó)外開(kāi)發(fā)的概念,但對(duì)dcim的概念存在不同的看法。他們有不同的機(jī)構(gòu)和觀點(diǎn)。但是,基本的總體思路是DCIM不是一種軟件,而是一種管理模式和工具。根據(jù)IT的潛在作用,它可以將it設(shè)備與其他關(guān)鍵設(shè)備連接起來(lái),為數(shù)據(jù)中心管理人員提供高效、高質(zhì)量的運(yùn)營(yíng)服務(wù)。DCIM在總體框架的基礎(chǔ)上,必須依靠一整套管理工具和平臺(tái),包括具體的軟件、硬件設(shè)備、傳感器設(shè)備等。以完成對(duì)數(shù)據(jù)中心聯(lián)系系統(tǒng)的全面管理。此類(lèi)管理側(cè)重于站點(diǎn)的基本設(shè)備和IT基礎(chǔ)設(shè)備,其主要目標(biāo)和功能是科學(xué)合理地控制數(shù)據(jù)中心的成本、事件流程、模型預(yù)測(cè)、容量規(guī)劃、集中監(jiān)控、智能管理等,作為信息技術(shù)和設(shè)備管理的集成。
3數(shù)據(jù)中心智能化運(yùn)維管理的需求
數(shù)據(jù)中心智能化運(yùn)維管理應(yīng)滿足以下幾方面需求。①可用性要求。在機(jī)房?jī)?nèi)應(yīng)有備用電力、空調(diào)設(shè)施。當(dāng)電力或者空調(diào)設(shè)施出現(xiàn)故障后,備用電力、空調(diào)設(shè)施會(huì)自動(dòng)運(yùn)行,保證機(jī)房能夠保持正常運(yùn)轉(zhuǎn)。②安全性要求。在出現(xiàn)火災(zāi)等突發(fā)的安全事件后,系統(tǒng)可以對(duì)這些問(wèn)題進(jìn)行準(zhǔn)確判斷,并且能夠自動(dòng)報(bào)警,采取可以實(shí)行的應(yīng)急措施,將安全問(wèn)題造成的影響降到最低,保證機(jī)房運(yùn)行安全。③經(jīng)濟(jì)性要求。企業(yè)經(jīng)營(yíng)的最終目的是營(yíng)利。因此,保證機(jī)房運(yùn)行的經(jīng)濟(jì)性能是非常重要的,這就需要降低能源的損耗,要求數(shù)據(jù)中心的智能運(yùn)維管理系統(tǒng)能夠根據(jù)環(huán)境溫度對(duì)制冷機(jī)組的運(yùn)行方式進(jìn)行智能調(diào)節(jié),根據(jù)熱點(diǎn)區(qū)域?qū)Τ鲲L(fēng)大小進(jìn)行智能調(diào)節(jié)以及對(duì)照明系統(tǒng)進(jìn)行智能調(diào)節(jié),降低能耗。
4數(shù)據(jù)中心運(yùn)維管理智能化技術(shù)的實(shí)現(xiàn)途徑
4.1分析預(yù)測(cè)智能化
所謂智能分析和預(yù)測(cè),是指通過(guò)在服務(wù)器上基本應(yīng)用SMATR信息和Syslog信息等各種類(lèi)型的信息,IT部門(mén)需要在各種實(shí)例上做好監(jiān)控和實(shí)踐工作。在場(chǎng)景功能中,它可以使用LR或GBDT模型合理地預(yù)測(cè)服務(wù)器中常用組件故障的可能性和時(shí)間,并通過(guò)相應(yīng)的措施防止故障,從而增強(qiáng)整體it體系結(jié)構(gòu)。此外,對(duì)于產(chǎn)品和調(diào)整,可以通過(guò)預(yù)測(cè)標(biāo)準(zhǔn)容量來(lái)實(shí)現(xiàn)動(dòng)態(tài)閾值、閾值趨勢(shì)和瓶頸點(diǎn)的收集、分析和預(yù)測(cè),并通過(guò)基于it系統(tǒng)容量預(yù)測(cè)的智能技術(shù)來(lái)實(shí)現(xiàn)模式開(kāi)發(fā)。
4.2機(jī)器學(xué)習(xí)建模與預(yù)測(cè)
以“局部熱點(diǎn)”事件為例,機(jī)器人通過(guò)學(xué)習(xí)建模,將引發(fā)機(jī)房?jī)?nèi)局部溫度上升的火災(zāi)、空調(diào)系統(tǒng)和IT系統(tǒng)等相關(guān)要素特征化。基于這些信息,機(jī)器人可以判斷各參數(shù)和溫度上升之間的關(guān)系,并根據(jù)這些關(guān)系建立數(shù)學(xué)模型。在實(shí)際的運(yùn)行過(guò)程中,若出現(xiàn)了上述熱點(diǎn)事件,機(jī)器人將獲取的各要素?cái)?shù)據(jù)與歷史數(shù)據(jù)進(jìn)行比對(duì),驗(yàn)證系統(tǒng)出現(xiàn)的問(wèn)題,并對(duì)事件的起因進(jìn)行分析,啟動(dòng)控制程序?qū)κ录M(jìn)行控制。在整個(gè)控制過(guò)程中,機(jī)器人會(huì)對(duì)該熱點(diǎn)事件進(jìn)行持續(xù)性偵察,根據(jù)實(shí)時(shí)結(jié)果來(lái)決定下一步措施,直至熱點(diǎn)事件消失。
4.3一體化智能運(yùn)維管理平臺(tái)
當(dāng)前,大多數(shù)數(shù)據(jù)中心都采用了動(dòng)態(tài)環(huán)境監(jiān)測(cè)系統(tǒng)、集中it監(jiān)測(cè)系統(tǒng)(網(wǎng)絡(luò)管理系統(tǒng))、服務(wù)管理系統(tǒng)和自動(dòng)化操作工具等操作和維護(hù)管理系統(tǒng),以幫助操作和維護(hù)人員實(shí)現(xiàn)標(biāo)準(zhǔn)化和高效的操作和維護(hù)管理。但是,這些運(yùn)行和維護(hù)管理系統(tǒng)是由不同專(zhuān)業(yè)的運(yùn)營(yíng)和維護(hù)人員管理和使用的,這使得IT很難快速發(fā)現(xiàn)計(jì)算機(jī)機(jī)房環(huán)境或設(shè)備運(yùn)行障礙所導(dǎo)致的IT系統(tǒng)故障。此外,每個(gè)系統(tǒng)的數(shù)據(jù)都是分布式的,使得很難實(shí)現(xiàn)每個(gè)系統(tǒng)運(yùn)行狀態(tài)的相關(guān)性分析和趨勢(shì)預(yù)測(cè)。因此,建議在數(shù)據(jù)中心建立一個(gè)集成的智能操作和維護(hù)平臺(tái)。該集成智能運(yùn)行維護(hù)平臺(tái)集成了數(shù)據(jù)中心相關(guān)監(jiān)控、巡邏檢測(cè)、服務(wù)管理、自動(dòng)運(yùn)行等系統(tǒng),并利用人工智能等技術(shù),實(shí)現(xiàn)運(yùn)行維護(hù)管理系統(tǒng)的趨勢(shì)分析、故障預(yù)警,甚至自動(dòng)運(yùn)行和控制功能。它收集與機(jī)房有關(guān)的集中監(jiān)控系統(tǒng)、運(yùn)行維護(hù)服務(wù)管理系統(tǒng)、檢驗(yàn)系統(tǒng)和自動(dòng)操作系統(tǒng)的信息,集中存儲(chǔ)和處理,應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行分析和預(yù)先評(píng)估,并向每個(gè)系統(tǒng)發(fā)送控制指令或向運(yùn)行維護(hù)人員發(fā)送警報(bào)信息。
4.4智能機(jī)器人的應(yīng)用
數(shù)據(jù)中心的大部分運(yùn)維工作都是重復(fù)性的,包括設(shè)備的定時(shí)開(kāi)關(guān)機(jī)、系統(tǒng)日志的審查和審計(jì)以及數(shù)據(jù)的備份和恢復(fù)測(cè)試等。對(duì)于這些工作中的大部分工作內(nèi)容,智能機(jī)器人都可以通過(guò)遠(yuǎn)程操作完成,這樣不僅效率更高,還可以有效降低錯(cuò)誤率,提高運(yùn)維工作的質(zhì)量。在大型數(shù)據(jù)中心機(jī)房的運(yùn)維管理工作中,巡檢的工作量比較大,比較容易出現(xiàn)漏檢問(wèn)題,而通過(guò)智能機(jī)器人巡檢的方式代替人工巡檢,可以有效解決這方面的問(wèn)題。智能巡檢機(jī)器人應(yīng)用了很多先進(jìn)技術(shù),包括機(jī)器視覺(jué)、自動(dòng)跟隨、激光雷達(dá)導(dǎo)航、遠(yuǎn)紅外熱成像以及多傳感融合等?;谶@些先進(jìn)技術(shù),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)機(jī)房?jī)?nèi)的設(shè)備和環(huán)境的不間斷巡檢,包括報(bào)警指示燈、溫度、噪聲、異味以及儀表讀數(shù)等。一旦出現(xiàn)問(wèn)題,工作人員可以迅速報(bào)警,從而實(shí)現(xiàn)故障的快速排除。
結(jié)束語(yǔ)
智能技術(shù)的發(fā)展給數(shù)據(jù)中心的運(yùn)行和維護(hù)技術(shù)帶來(lái)了新的活力。構(gòu)建集成的智能運(yùn)營(yíng)和維護(hù)管理平臺(tái)可以提高數(shù)據(jù)中心的可用性,降低運(yùn)營(yíng)成本,提高運(yùn)營(yíng)和維護(hù)效率,為新一代數(shù)據(jù)中心的智能運(yùn)營(yíng)奠定良好的基礎(chǔ)。當(dāng)前,智能運(yùn)行和維護(hù)管理技術(shù)的應(yīng)用仍處于探索的初級(jí)階段,需要系統(tǒng)、全面、細(xì)致地分析實(shí)際情景和應(yīng)用程序需求,不斷論證和改進(jìn)數(shù)據(jù)中心的智能升級(jí)和轉(zhuǎn)換方案。人們認(rèn)為人工智能、數(shù)據(jù)中心智能和無(wú)人技術(shù)等新技術(shù)將會(huì)在拐角處相等。
參考文獻(xiàn)
[1]李俊林.淺談數(shù)據(jù)中心設(shè)備及機(jī)房的智能化運(yùn)維管理[J].數(shù)字通信世界,2020(02):284.
[2]趙剛,楊大雷,朱獻(xiàn)忠.設(shè)備遠(yuǎn)程智能運(yùn)維平臺(tái)架構(gòu)設(shè)計(jì)探討[J].寶鋼技術(shù),2019(06):27-30.
[3]郝峻.數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運(yùn)維探討[J].電信技術(shù),2019(11):51-55.
[4]程少良.數(shù)據(jù)中心智能運(yùn)維管理平臺(tái)的建設(shè)研究[J].計(jì)算機(jī)產(chǎn)品與流通,2019(10):127.
[5]李嗣喜.淺談數(shù)據(jù)中心的人工智能管理與運(yùn)維[J].計(jì)算機(jī)產(chǎn)品與流通,2019(01):123.