劉明亮,梁剛毅
(廣州珠江數(shù)碼集團(tuán)股份有限公司,廣東 廣州 510335)
隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國(guó)廣電運(yùn)營(yíng)商的機(jī)房規(guī)模、設(shè)備類(lèi)型及設(shè)備數(shù)量逐年急劇增長(zhǎng),給傳統(tǒng)依賴(lài)人工的運(yùn)維模式帶來(lái)了極大挑戰(zhàn)。愈發(fā)標(biāo)準(zhǔn)化的機(jī)房設(shè)備、機(jī)房環(huán)境以及物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能及機(jī)器人等技術(shù)的快速迭代,使智能化管理成為可能。目前,在廣電機(jī)房實(shí)施智能管理已成為必然。
隨著技術(shù)的演進(jìn),運(yùn)維管理技術(shù)的發(fā)展大致可分為4 個(gè)階段,如圖1 所示。
1.1.1 人工階段
該階段機(jī)房和服務(wù)器選型、軟硬件初始化、服務(wù)上下線、配置管理以及運(yùn)行監(jiān)控等,運(yùn)維工作完全靠人工操作。技術(shù)人員大量使用表格和文檔記錄設(shè)備和機(jī)房的配置信息和運(yùn)維信息,自動(dòng)化程度低。
1.1.2 自動(dòng)化階段
為了簡(jiǎn)化操作流程,提升運(yùn)維工作效率,運(yùn)維工程師開(kāi)始將部分運(yùn)維操作和重復(fù)性工作編寫(xiě)成腳本自動(dòng)執(zhí)行。工具的產(chǎn)生是運(yùn)維自動(dòng)化的一個(gè)典型標(biāo)志。這個(gè)階段大量日常工作通過(guò)自動(dòng)執(zhí)行程序完成,提升效率的同時(shí),逐漸降低了出錯(cuò)率。
1.1.3 平臺(tái)化階段
隨著業(yè)務(wù)的持續(xù)發(fā)展,大量分散腳本的管理出現(xiàn)低效且復(fù)雜的問(wèn)題。將自動(dòng)化腳本和工具進(jìn)行整合,從系統(tǒng)層面構(gòu)建更加易用和高效的運(yùn)維管理工具即運(yùn)維平臺(tái)化。圍繞開(kāi)源工具和開(kāi)源平臺(tái),企業(yè)開(kāi)始結(jié)合自身的業(yè)務(wù)場(chǎng)景特點(diǎn)構(gòu)建自己的運(yùn)維平臺(tái),包括監(jiān)控平臺(tái)、告警平臺(tái)及自動(dòng)化平臺(tái)等。這些平臺(tái)一定程度上提高了業(yè)務(wù)測(cè)試和上線效率,降低了發(fā)生潛在風(fēng)險(xiǎn)的概率,提高了系統(tǒng)可用性。具有平臺(tái)化思想的開(kāi)源工具幾乎覆蓋了運(yùn)維工作的全部維度,如表1 所示。
1.1.4 智能運(yùn)維階段
通過(guò)將技術(shù)和場(chǎng)景進(jìn)行匹配,運(yùn)維管理形成了具體的智能化運(yùn)維方案,有針對(duì)性地緩解了運(yùn)維的痛點(diǎn)和難點(diǎn)問(wèn)題。智能化運(yùn)維是指采用廣義算法解決已知問(wèn)題的一種智能化運(yùn)維方案。例如,通常的告警策略是設(shè)置一個(gè)閾值范圍(上限、下限),某個(gè)指標(biāo)超出閾值時(shí)觸發(fā)告警。然而,對(duì)于一些特定場(chǎng)景,這樣的告警策略是無(wú)效的。圖2 是珠江數(shù)碼智能電視平臺(tái)某服務(wù)器的網(wǎng)絡(luò)出口流量走勢(shì)圖??梢钥闯?,每天凌晨3 點(diǎn)到6 點(diǎn)是網(wǎng)絡(luò)出口流量一天的低谷期,晚上20 點(diǎn)到22 點(diǎn)是全天的高峰期。機(jī)械地按照固定的閾值設(shè)置告警非常不準(zhǔn)確,需要通過(guò)歷史數(shù)據(jù)智能化地?cái)M合出一條趨勢(shì)線,以這條線上、下界的一定范圍設(shè)置動(dòng)態(tài)的告警閾值才能更加準(zhǔn)確地發(fā)出告警。
圖1 運(yùn)維管理技術(shù)發(fā)展的4 個(gè)階段
表1 典型的開(kāi)源運(yùn)維平臺(tái)示例
圖2 珠江數(shù)碼智能電視平臺(tái)某服務(wù)器的網(wǎng)絡(luò)出口流量走勢(shì)
此外,智能運(yùn)維可以被用于故障分析,實(shí)現(xiàn)故障實(shí)時(shí)溯源,從而指導(dǎo)運(yùn)維人員進(jìn)行準(zhǔn)確高效的應(yīng)急排障,降低企業(yè)損失。在算法層面上,基于算法的運(yùn)維方式(Algorithmic IT Operations,AIOps)使用的各類(lèi)算法[1],如基于指數(shù)平滑的二次和三次平滑算法、基于差分整合移動(dòng)平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)的算法、基于深度學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)算法等已經(jīng)比較成熟,并大量應(yīng)用在圖像圖形處理和語(yǔ)音識(shí)別等領(lǐng)域。在算力層面上,基于云計(jì)算和大數(shù)據(jù)技術(shù)的數(shù)據(jù)處理能力已經(jīng)足夠,如Hadoop、Spark 等開(kāi)源大數(shù)據(jù)生態(tài)系統(tǒng),如時(shí)序數(shù)據(jù)的處理能力已經(jīng)能夠支撐智能化的復(fù)雜計(jì)算場(chǎng)景。目前,國(guó)內(nèi)大多數(shù)成熟的互聯(lián)網(wǎng)企業(yè)都已經(jīng)探索嘗試了AIOps,并取得了不錯(cuò)的收益。
現(xiàn)階段,廣電機(jī)房運(yùn)維工作大致包括設(shè)備管理、配置管理、業(yè)務(wù)上下線、日志采集和分析、告警和流量監(jiān)控、故障排查以及一些日常優(yōu)化等。隨著云化和虛擬化的逐步落實(shí),運(yùn)維工作還將擴(kuò)展到容量管理、彈性擴(kuò)縮容、安全管理以及分析和定位因引入各種容器和開(kāi)源框架導(dǎo)致的故障等范疇。
快速解決故障和降低故障率是運(yùn)維工作的首要任務(wù)。現(xiàn)階段系統(tǒng)愈發(fā)復(fù)雜,需要運(yùn)維人員關(guān)注的服務(wù)數(shù)量急劇增長(zhǎng),已經(jīng)接近人工能夠完成的極限,因此急需引進(jìn)和普及新的技術(shù)。但是,廣電機(jī)房智能化管理的成功落地案例非常少,主要是因?yàn)橹悄芑\(yùn)維的應(yīng)用門(mén)檻較高,處在運(yùn)維經(jīng)驗(yàn)、行業(yè)知識(shí)及新技術(shù)的交叉領(lǐng)域。廣電機(jī)房的運(yùn)維人員熟悉運(yùn)維場(chǎng)景,熟知運(yùn)維的痛點(diǎn)和難點(diǎn),并且具備一定的行業(yè)知識(shí),但由于缺乏對(duì)新技術(shù)的了解,無(wú)法判斷所遇到的困難是否可通過(guò)新技術(shù)解決。此外,設(shè)備供應(yīng)商的研發(fā)人員因缺乏運(yùn)維經(jīng)驗(yàn)和行業(yè)知識(shí)而無(wú)法將技術(shù)和場(chǎng)景匹配。因此,智能化運(yùn)維管理的發(fā)展需要兩者的共同努力。在宏觀層面,設(shè)備廠商要根據(jù)智能化運(yùn)維框架和理念推出智能化運(yùn)維平臺(tái),針對(duì)不同運(yùn)維場(chǎng)景提供個(gè)性化解決方案。在微觀層面,廣電機(jī)房的運(yùn)維人員要將運(yùn)維過(guò)程的痛點(diǎn)和難點(diǎn)場(chǎng)景化,嘗試采用新技術(shù)解決問(wèn)題,通過(guò)將孤立的場(chǎng)景和技術(shù)進(jìn)行匹配,逐步提高智能化運(yùn)維水平。
智能化運(yùn)維不是一個(gè)跳躍發(fā)展的過(guò)程,而是一個(gè)長(zhǎng)期演進(jìn)和不斷迭代的過(guò)程,其根基是自動(dòng)化運(yùn)維、監(jiān)控、數(shù)據(jù)收集、分析和處理等具體工作。
廣電機(jī)房智能化運(yùn)維建設(shè)尚未形成一套成熟的指導(dǎo)方案,建議廣電機(jī)房運(yùn)維人員優(yōu)先在重復(fù)的日常工作和能夠嚴(yán)格按照既定流程執(zhí)行的工作中挖掘需求場(chǎng)景,在掌握新技術(shù)的專(zhuān)業(yè)人員協(xié)助下,將場(chǎng)景和技術(shù)進(jìn)行匹配,形成可實(shí)施和可落地的方案[2]。
近年來(lái),在機(jī)房管理領(lǐng)域興起了一種新的管理模式,即數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(Data Center Infrastructure management,DCIM)。DCIM 是一套包含特定軟硬件設(shè)備和傳感器的管理平臺(tái),能夠?qū)C(jī)房?jī)?nèi)部所有設(shè)備和環(huán)境關(guān)聯(lián)起來(lái),實(shí)現(xiàn)如集中監(jiān)控、容量預(yù)測(cè)、模型規(guī)劃、事件處置及運(yùn)營(yíng)成本控制等目標(biāo)[3]。DCIM 平臺(tái)收集的設(shè)備和環(huán)境信息,結(jié)合第三方資源管理和監(jiān)控平臺(tái)數(shù)據(jù),即可建立一套能夠?qū)崿F(xiàn)設(shè)備管理、動(dòng)環(huán)監(jiān)控、安保監(jiān)控以及參觀演示的可視化管理平臺(tái)。
值得關(guān)注的是,當(dāng)前無(wú)論是DCIM 管理平臺(tái)還是可視化管理平臺(tái),都只是完成了數(shù)據(jù)采集、統(tǒng)計(jì)分析及可視化展示,并沒(méi)有實(shí)現(xiàn)智能化管理和決策的功能。未來(lái),可通過(guò)智能化運(yùn)維管理在全生命周期提升運(yùn)維效率并降低能耗。在監(jiān)控側(cè),通過(guò)部署集中監(jiān)控平臺(tái)實(shí)現(xiàn)資源池化,對(duì)全網(wǎng)多機(jī)房進(jìn)行集中共管,節(jié)省運(yùn)維人力投入;在運(yùn)維側(cè),通過(guò)電子巡檢、電子維保、風(fēng)險(xiǎn)管理及故障預(yù)測(cè),降低單柜運(yùn)維成本;在運(yùn)營(yíng)側(cè),通過(guò)部署智能上架柜位推薦、資產(chǎn)U 位自識(shí)別及資源精確分析等功能,提高資源利用率;在節(jié)能側(cè),通過(guò)看診調(diào)優(yōu)了解能源去向,識(shí)別能耗最大點(diǎn),實(shí)時(shí)調(diào)節(jié)制冷系統(tǒng),將能源效率指標(biāo)(Power Usage Effectiveness,PUE)降到最低。
盡管目前的技術(shù)已經(jīng)能獲取設(shè)備的運(yùn)行狀態(tài)、網(wǎng)絡(luò)流量數(shù)據(jù)乃至數(shù)據(jù)庫(kù)的告警信息,但如何運(yùn)用這些信息是運(yùn)維人員的一個(gè)新課題。一方面,隨著熱備和集群等高可靠技術(shù)的普及,部分設(shè)備運(yùn)行狀況異常并不一定會(huì)對(duì)業(yè)務(wù)產(chǎn)生實(shí)質(zhì)影響;另一方面,當(dāng)業(yè)務(wù)出現(xiàn)異常時(shí),成千上萬(wàn)條告警信息堆積在一起,使得快速判斷故障根源困難重重。系統(tǒng)的復(fù)雜度和運(yùn)維難度的增加,客觀上要求系統(tǒng)必須實(shí)現(xiàn)數(shù)字化和維護(hù)自動(dòng)化。
運(yùn)維自動(dòng)化是使用算法自動(dòng)執(zhí)行重復(fù)性和有標(biāo)準(zhǔn)化流程的工作,并對(duì)執(zhí)行過(guò)程和執(zhí)行結(jié)果進(jìn)行有效監(jiān)管,實(shí)現(xiàn)從監(jiān)測(cè)、診斷、分析及恢復(fù)的閉環(huán)。簡(jiǎn)單地說(shuō),它是將事件與流程相關(guān)聯(lián),一旦發(fā)生性能超標(biāo)或宕機(jī)等事件,便可按照預(yù)定義的流程自動(dòng)啟動(dòng)故障響應(yīng)和恢復(fù)機(jī)制。運(yùn)維自動(dòng)化還可以協(xié)助運(yùn)維人員完成日常的重復(fù)性工作,如日常巡檢、業(yè)務(wù)調(diào)整及補(bǔ)丁部署等,減少乃至消除重復(fù)性工作對(duì)運(yùn)維人員精力的耗費(fèi)。此外,運(yùn)維自動(dòng)化可以通過(guò)部署自動(dòng)化監(jiān)控系統(tǒng),及時(shí)發(fā)現(xiàn)故障隱患并將相關(guān)信息主動(dòng)推送給運(yùn)維人員,將損失降到最低。
盡管當(dāng)前監(jiān)控和告警平臺(tái)的搭建已近完善,但大多平臺(tái)仍通過(guò)在操作系統(tǒng)上安裝Agent 訪問(wèn)設(shè)備驅(qū)動(dòng)讀取硬件狀態(tài)數(shù)據(jù)。所有監(jiān)控狀態(tài)的數(shù)據(jù)抓取都受限于驅(qū)動(dòng)程序,而驅(qū)動(dòng)程序的編寫(xiě)人員所關(guān)注的重點(diǎn)在于設(shè)備能否正常運(yùn)行,而不在于設(shè)備的狀態(tài)監(jiān)控。因此,通過(guò)驅(qū)動(dòng)程序所抓取的硬件狀態(tài)參數(shù)有限。例如,絕大部分服務(wù)器以RAID1 或RAID5方式搭建冗余磁盤(pán)陣列,確保數(shù)據(jù)安全。當(dāng)其中一塊硬盤(pán)損壞時(shí),由于系統(tǒng)仍運(yùn)行正常,無(wú)法通過(guò)監(jiān)控平臺(tái)發(fā)現(xiàn)這塊壞盤(pán),只能通過(guò)人工巡檢看到設(shè)備的硬盤(pán)告警燈才能發(fā)現(xiàn)。可見(jiàn),機(jī)房巡檢在未來(lái)一段時(shí)間仍是廣電機(jī)房運(yùn)維的日常工作之一。在實(shí)際操作過(guò)程中,機(jī)房巡檢一般通過(guò)人工方式進(jìn)行,每1 ~2 h 進(jìn)行1 次。機(jī)房設(shè)備數(shù)量上升,增加了機(jī)房巡檢的工作量。在這種情況下,使用智能巡檢機(jī)器人代替人工巡檢,是一種有效提升巡檢效率和準(zhǔn)確性的選擇。
一直以來(lái),人工巡檢都有耗時(shí)費(fèi)力、標(biāo)準(zhǔn)不統(tǒng)一、高度依賴(lài)個(gè)人經(jīng)驗(yàn)以及巡檢數(shù)據(jù)不可追溯等痛點(diǎn),且人工難以長(zhǎng)時(shí)間對(duì)同一對(duì)象進(jìn)行觀察,無(wú)法長(zhǎng)期監(jiān)測(cè)水管漏水、油管漏油、變壓器放電、機(jī)器異形以及線路異物等設(shè)備狀態(tài)。隨著人工智能技術(shù)的發(fā)展,尤其是機(jī)器人、計(jì)算機(jī)視覺(jué)及無(wú)軌導(dǎo)航技術(shù)的成熟,利用智能巡檢機(jī)器人長(zhǎng)時(shí)間穩(wěn)定地巡檢、分析和識(shí)別機(jī)房整體運(yùn)行狀況成為可能。通過(guò)自動(dòng)執(zhí)行巡檢任務(wù)、智能規(guī)劃巡檢路線以及定時(shí)對(duì)機(jī)房進(jìn)行巡檢,可準(zhǔn)確識(shí)別設(shè)備的指示燈和外露塑殼開(kāi)關(guān)狀態(tài),及時(shí)上報(bào)異常,提升運(yùn)維效率;通過(guò)集成各類(lèi)傳感器收集溫濕度、噪聲及空氣質(zhì)量等數(shù)據(jù),可及時(shí)感知機(jī)房環(huán)境變化;通過(guò)分析巡檢異常情況自動(dòng)生成巡檢報(bào)告,及時(shí)報(bào)送告警信息至相關(guān)人員的郵箱和手機(jī),可實(shí)現(xiàn)遠(yuǎn)程無(wú)人巡檢。
由于機(jī)房的實(shí)際環(huán)境不同,使用智能巡檢機(jī)器人時(shí)需要重點(diǎn)關(guān)注某些問(wèn)題,如冷通道封閉門(mén)可能阻擋巡檢機(jī)器人進(jìn)入冷通道巡檢,機(jī)柜門(mén)可能妨礙巡檢機(jī)器人識(shí)別設(shè)備狀態(tài)等,因此需要提前論證技術(shù)方案的可行性。
智能化運(yùn)維管理技術(shù)在廣電機(jī)房運(yùn)維中的應(yīng)用是一個(gè)不斷演進(jìn)發(fā)展的過(guò)程。就目前來(lái)看,建設(shè)智能化運(yùn)維管理平臺(tái)仍處在概念階段。廣電從業(yè)者可結(jié)合運(yùn)維的痛難點(diǎn)對(duì)智能化運(yùn)維的場(chǎng)景進(jìn)行挖掘和研究,與設(shè)備廠商共同推進(jìn)廣電機(jī)房智能化運(yùn)維管理領(lǐng)域的技術(shù)發(fā)展。