隨著移動通信產(chǎn)業(yè)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,SDN/NFV技術(shù)不斷成熟,5G技術(shù)應(yīng)運(yùn)而生。當(dāng)前,5G技術(shù)已經(jīng)成為通信行業(yè)關(guān)鍵性技術(shù)之一。5G技術(shù)對于車聯(lián)網(wǎng)與自動駕駛,遠(yuǎn)程外科手術(shù),智能電網(wǎng)等全新技術(shù)的發(fā)展應(yīng)用有著至關(guān)重要的作用,隨著今年6月6日工信部發(fā)放5G牌照,10月31日三大運(yùn)營商公布5G商用套餐,中國的5G商用已經(jīng)進(jìn)入倒計時。5G涉及全新的切片概念,從軟件到硬件,從邏輯到設(shè)備上與以往相比有了很大的變化。
與之前高度依賴大型基站的布建架構(gòu)不同,5G通訊網(wǎng)絡(luò)將使用高密度的小型基站,使運(yùn)營商能夠以最具成本效益的方式進(jìn)行組網(wǎng)。而這樣的方式,也給運(yùn)維工作帶來了巨大的壓力。傳統(tǒng)的運(yùn)維通過大量重復(fù)的人工勞動實(shí)現(xiàn),需要運(yùn)維人員全天候值守,且無法保證問題的及時處理和反饋,面對全新的挑戰(zhàn),已經(jīng)不足以支撐服務(wù)的穩(wěn)定性。因此,5G時代的運(yùn)維必須采用全新的技術(shù),向自動化,智能化發(fā)展,學(xué)習(xí)IT行業(yè)的運(yùn)維方式,擁抱IT。如何創(chuàng)新開展運(yùn)維工作,提升運(yùn)營效率,從而降低成本,成為運(yùn)營商必須解決的問題。
運(yùn)營商的運(yùn)維工作主要包括:對業(yè)務(wù)的生命周期進(jìn)行管理,及時對網(wǎng)絡(luò)業(yè)務(wù)的變更進(jìn)行調(diào)整;故障修復(fù),及時有效地處理故障,將損失控制在最??;主動運(yùn)維,對可能存在的隱患進(jìn)行主動排查,將故障解決在問題出現(xiàn)之前;服務(wù)請求,根據(jù)各方面對功能和業(yè)務(wù)上的需求,進(jìn)行資源調(diào)配,等等。
現(xiàn)如今的網(wǎng)絡(luò),運(yùn)營商的運(yùn)維模式仍然以人力運(yùn)維為主,處于“刀耕火種”的人工運(yùn)維和腳本運(yùn)維①腳本運(yùn)維:即使用編寫好的腳本處理某些簡單的日常運(yùn)維操作,但無法構(gòu)成完整體系,不屬于自動運(yùn)維。的階段。在網(wǎng)絡(luò)運(yùn)維中心,為了保證各式各樣的設(shè)備正常運(yùn)行,運(yùn)維工程師們每天需要監(jiān)控成千上萬的告警,面對不同的問題,需要創(chuàng)建故障單來進(jìn)行跟蹤解決。
這樣的運(yùn)維方式,存在以下問題:
(1)從人員角度來講,第一,培養(yǎng)運(yùn)維人才的時間長,一個優(yōu)秀的運(yùn)維人才往往需要幾年的時間才能夠?qū)I(yè)務(wù)邏輯和物理設(shè)備有充分的了解,但對當(dāng)前網(wǎng)絡(luò)的拓?fù)浜陀脩粽J(rèn)識的依賴也缺乏足夠的靈活性;第二,人工運(yùn)維存在著不確定因素,哪怕是一個有多年經(jīng)驗(yàn)的運(yùn)維人才,也有可能因?yàn)橐恍o心的操作失誤導(dǎo)致不可挽回的后果;第三,人工運(yùn)維的效率沒有足夠的保證,每個運(yùn)維人員往往管理著幾十臺甚至上百臺設(shè)備,隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,5G基站與設(shè)備數(shù)量飛速上升,人力成本也在快速增長。運(yùn)維人員隨時有可能會從睡夢中被緊急電話驚醒,匆忙趕到現(xiàn)場,但即使這樣,也可能無法及時處理故障。
(2)而從流程上來講,目前的運(yùn)維模式大都使用煙囪式結(jié)構(gòu),這種垂直且不易拉通的組織結(jié)構(gòu),依靠固定的軟件關(guān)系,耦合程度很高,難以進(jìn)行拓展,功能上十分有限,不利于復(fù)用,無法給運(yùn)營商帶來數(shù)字化轉(zhuǎn)型的收益。
(3)4G時代,運(yùn)營商的設(shè)備多以廠家的專用一體化軟硬件設(shè)備為主,運(yùn)維上存在很大的局限性,依賴廠家進(jìn)行維護(hù)。每當(dāng)這些設(shè)備出現(xiàn)故障時,運(yùn)營商的運(yùn)維人員往往無法自行處理,需要聯(lián)系廠家的運(yùn)維人員解決問題,這樣的方式存在時間,空間以及溝通上的效率問題,也無法獲得處理問題的自主權(quán)。
以上種種問題都抑制著運(yùn)維工作的有效開展,因此,進(jìn)入5G時代,面對全新的環(huán)境,運(yùn)維人員需要以嶄新的方式,從互聯(lián)網(wǎng)行業(yè)中汲取經(jīng)驗(yàn),通過更加高效敏捷的運(yùn)維模式,迎接挑戰(zhàn)。
5G時代即將到來,因此對確保業(yè)務(wù)安全順暢的運(yùn)維工作也提出了新的要求。
5G引入了切片的概念。在5G網(wǎng)絡(luò)里,不僅承載著傳統(tǒng)的通話,上網(wǎng)類業(yè)務(wù),還增加了VR/AR,智慧城市、工業(yè)互聯(lián)網(wǎng)、無人駕駛、應(yīng)急安全等許多全新的應(yīng)用場景,為了更好地對這些應(yīng)用進(jìn)行分門別類地服務(wù),ITU從eMBB(增強(qiáng)型移動寬帶)、mMTC(海量機(jī)器類通信)、uRLLC(超可靠、低時延通信)的三大應(yīng)用場景上做出了一定規(guī)劃。運(yùn)維人員需要對切片的整個生命周期進(jìn)行管理,如設(shè)計、部署、保障等,為用戶提供定制的切片服務(wù)。
與以往不同,5G網(wǎng)絡(luò)不再使用大型基站的布建架構(gòu),而是使用高密度的小型基站,這樣更有利于讓電信營運(yùn)商能以最具成本效益的方式彈性組網(wǎng),從而提高網(wǎng)絡(luò)密度與覆蓋范圍。由于使用了新技術(shù)特性,基站復(fù)雜度大幅提升,維護(hù)成本和維護(hù)難度也隨之增大。針對這一點(diǎn),如何高效地進(jìn)行日常維護(hù),以及故障處理,成為運(yùn)營商控制成本的關(guān)鍵。
在5G時代,SDN/NFV技術(shù)使得軟硬件解耦,運(yùn)營商不再受制于廠家的專用一體化設(shè)備,使用通用的X86服務(wù)器代替專用設(shè)備,使得運(yùn)維的操作空間大大增加,運(yùn)維人員可以將精力更多地放在對于統(tǒng)一架構(gòu)的維護(hù)上,而不需要花費(fèi)大量資源對部分設(shè)備進(jìn)行單獨(dú)的處理。面對種類繁多的軟件,虛機(jī),網(wǎng)元,如何有效地保障其正常運(yùn)行,是5G新環(huán)境下的一個新挑戰(zhàn)。
5G時代,運(yùn)維最需要突破的思想便是從傳統(tǒng)的CT向IT靠攏,IT進(jìn)入各行各業(yè)已是大勢所趨,利用IT技術(shù)可以解決很多過去依靠人工重復(fù)勞動才能處理的問題,縮短時間的同時降低了成本。
現(xiàn)如今運(yùn)營商也開始加大自研力度,自主開發(fā)運(yùn)維工具,因此更應(yīng)向IT行業(yè)學(xué)習(xí),例如將DevOps應(yīng)用于運(yùn)營商的運(yùn)營維護(hù)工作之中。如今,運(yùn)營商運(yùn)維工作的一個痛點(diǎn),就是業(yè)務(wù)上線時間太長,傳統(tǒng)網(wǎng)絡(luò)的業(yè)務(wù)上線流程,從通過ITU標(biāo)準(zhǔn),到廠家測試,再到工信部測試入網(wǎng),最后進(jìn)行網(wǎng)元測試部署,整個過程,前后可能需要長達(dá)8個月的時間,而且,通信網(wǎng)中存在不同廠家的網(wǎng)元,而不同廠家之間的開發(fā)能力,測試能力也不盡相同,因此很容易影響運(yùn)營商的業(yè)務(wù)[1]。這樣的復(fù)雜度,決定了運(yùn)營商業(yè)務(wù)的上線難度將和IT企業(yè)完全不同。而由于5G帶來的硬件架構(gòu)改變,即軟硬件解耦,使用x86通用硬件,讓運(yùn)營商的自研、自維有了更大的空間。因此,將DevOps的理念應(yīng)用于運(yùn)營商的自主開發(fā)運(yùn)維中,可以有效提升產(chǎn)品質(zhì)量,縮短開發(fā)周期。
在過去,由于廠商之間設(shè)備的獨(dú)立性,各種維護(hù)、監(jiān)控操作都必須為不同的廠家進(jìn)行單獨(dú)的配套。而在5G時代,設(shè)備數(shù)量成倍增加,過去的方式難以承受如此大的運(yùn)維壓力,因此,需要一個將各廠商的設(shè)備統(tǒng)一起來的平臺,方便運(yùn)營商進(jìn)行統(tǒng)一的管理[2]。
在5G時代,網(wǎng)速有了質(zhì)的飛躍,因此許多過去因?yàn)榫W(wǎng)絡(luò)而收到限制的技術(shù)可以開始使用。
切片是5G網(wǎng)絡(luò)的重中之重,如圖1所示,切片實(shí)例的生命周期管理包括設(shè)計、配置、激活、去激活、修改、終結(jié)等[3],因此,對于切片的運(yùn)維,需要包括切片生命周期管理的全部功能。
圖1 切片的生命周期
故障告警處理方面,在5G時代,設(shè)備數(shù)量大大增加,產(chǎn)生的告警數(shù)量也急劇增加,面對海量的告警,告警關(guān)聯(lián),告警壓縮就顯得格外重要,在層層疊疊的告警中尋找其根源成為了告警處理的關(guān)鍵。
對此,可以使用機(jī)器學(xué)習(xí)算法,利用歷史告警進(jìn)行分析,首先對數(shù)據(jù)進(jìn)行預(yù)處理,提取出與告警分析相關(guān)的信息,然后去噪,去重,聚合,并進(jìn)行二值化,時序化處理,將告警信息提煉為分析所使用的數(shù)據(jù)字典。
然后使用如Apriori,或者FP-Growth等相關(guān)算法[4],分析出告警之間的因果關(guān)系,提煉出關(guān)聯(lián)規(guī)則,建立告警關(guān)聯(lián)知識庫,并進(jìn)行一定的人工干預(yù),結(jié)合已有的專家規(guī)則,對知識庫進(jìn)行完善和調(diào)整,構(gòu)建出告警關(guān)聯(lián)的規(guī)則模型。
將知識庫部署在網(wǎng)管系統(tǒng)中,之后產(chǎn)生新的告警時,便可使用知識庫的規(guī)則和模型進(jìn)行處理判斷,實(shí)現(xiàn)告警關(guān)聯(lián)和壓縮,完整流程如圖2所示。這樣降低了對人工專家規(guī)則庫的依賴,能夠從數(shù)量龐大的告警中快速定位故障,迅速解決,也可以規(guī)避一些人工分析與操作帶來的意料之外的異常。
圖2 基于機(jī)器學(xué)習(xí)的規(guī)則挖掘
此外,機(jī)器學(xué)習(xí)同樣可以應(yīng)用于對故障的預(yù)測。設(shè)備在出現(xiàn)故障前,往往在性能數(shù)據(jù)中存在一些異常情況。通過對歷史告警、日志及性能數(shù)據(jù)進(jìn)行分析,可以得到故障出現(xiàn)的一些特征值,將其存入知識庫中。在日常巡檢中,通過定時主動采集性能數(shù)據(jù),可以獲得當(dāng)前設(shè)備狀態(tài)的數(shù)值,與知識庫中分析得到的結(jié)果進(jìn)行比對,對符合故障條件的情況進(jìn)行提前告警,預(yù)先消除故障,如圖3所示。
圖3 故障預(yù)測
與傳統(tǒng)的被動發(fā)現(xiàn)異常,等待告警上報相比,主動式異常檢測可以使異常的發(fā)現(xiàn)時間大大縮短,結(jié)合告警關(guān)聯(lián)和日志分析,降低故障的發(fā)生率,減少因故障發(fā)生而產(chǎn)生的工作量。
在實(shí)現(xiàn)了告警關(guān)聯(lián)和故障預(yù)測之后,便可以實(shí)施故障自愈。建立基于歷史故障處理的知識庫,并制定處理策略。之后根據(jù)告警關(guān)聯(lián)獲得的結(jié)果,獲得故障預(yù)測得到的信息,選擇對應(yīng)的策略進(jìn)行處理。為此,可以制定一些操作的模板,如重啟,擴(kuò)容等重復(fù)性操作,可以通過建立模板來實(shí)現(xiàn)。在發(fā)現(xiàn)潛在的故障,或者出現(xiàn)故障之后,先通過故障自愈系統(tǒng)進(jìn)行處理,若處理策略使用后仍然無法解決問題,再上報人工處理。這樣可以大幅減少運(yùn)維人員的工作量,也可以加快故障處理的速度。
在應(yīng)用開始部署的時候,需要運(yùn)維人員對環(huán)境參數(shù)進(jìn)行配置,只有正確的配置才能發(fā)揮出應(yīng)用的全部功能,而不同的環(huán)境,不同的應(yīng)用所需的環(huán)境參數(shù)大相徑庭。而日后在5G環(huán)境下,大量應(yīng)用不斷上線,僅僅靠運(yùn)維人員進(jìn)行環(huán)境配置,將會需要非常長的時間,而且在日后環(huán)境發(fā)生變化時,依靠運(yùn)維人員手工修改也非常麻煩。因此,需要建立網(wǎng)絡(luò)環(huán)境的模型,實(shí)現(xiàn)參數(shù)的自動配置,并且能夠根據(jù)業(yè)務(wù)情況進(jìn)行調(diào)整,實(shí)現(xiàn)網(wǎng)絡(luò)負(fù)載均衡[5]。
綜合告警關(guān)聯(lián),故障預(yù)測,故障自愈等功能,可以建立一個故障監(jiān)控自動處理的智能集成平臺,對網(wǎng)絡(luò)進(jìn)行全方面的統(tǒng)一管理維護(hù)。
目前,距離實(shí)現(xiàn)5G自動化、智能化運(yùn)維,仍然存在著一些問題需要解決。
(1)自動化,智能化必然離不開機(jī)器學(xué)習(xí),AI等技術(shù)。而這些技術(shù)需要足夠的數(shù)據(jù)作為基礎(chǔ)[6]。然而,目前的告警、性能以及日志數(shù)據(jù)都缺乏足夠的標(biāo)注信息,在現(xiàn)有的生產(chǎn)環(huán)境中,并沒有儲備大量的故障根因類的標(biāo)注,通過聚類,運(yùn)算得出的根因判別難以有大量的驗(yàn)證集進(jìn)行驗(yàn)證。
因此,需要從基層設(shè)備開始進(jìn)行更新,改變現(xiàn)有的數(shù)據(jù)采集方式,告警上報格式以及日志格式,實(shí)現(xiàn)采集存儲集中化、格式規(guī)范化、標(biāo)注有效化,使之符合未來數(shù)據(jù)分析的需求。
(2)AI技術(shù)無法獨(dú)立發(fā)揮價值,需要其它基礎(chǔ)能力的支撐。AI是決策的大腦,需要云,大數(shù)據(jù),SDN等基礎(chǔ)核心能力的支撐,才能發(fā)揮大腦的作用。因此,需要將AI與運(yùn)營商相關(guān)技術(shù)結(jié)合起來,才能最大程度發(fā)揮其作用,用足夠的基礎(chǔ)能力建設(shè)為AI保駕護(hù)航。
同時,AI技術(shù)也有其局限性,例如,對場景較為敏感,部分條件的改變可導(dǎo)致需要建立一個全新的模型。對此,應(yīng)針對不同的環(huán)境,盡早建立相對應(yīng)的算法模型,從而支撐故障自愈的實(shí)現(xiàn)。
(3)使用x86服務(wù)器代替?zhèn)鹘y(tǒng)的廠商專用設(shè)備,雖然成本大幅降低,維護(hù)難度也減小,但勢必在性能上有所下降,因此需要使用更多的機(jī)器,需要運(yùn)營商在設(shè)備、運(yùn)維成本與性能上進(jìn)行平衡。
無人值守化運(yùn)維,是自動化,智能化運(yùn)維的最終目標(biāo),雖然在短期內(nèi)無法實(shí)現(xiàn),但可以逐步完成部分功能。在即將到來的5G時代,運(yùn)維工作會面對前所未有的壓力,但也將獲得全新的思想和技術(shù)迎接挑戰(zhàn)。
本文從運(yùn)維現(xiàn)狀,5G運(yùn)維的需求,新思想,新技術(shù)以及面臨的問題進(jìn)行了分析。如今的運(yùn)維仍然以人工運(yùn)維為主,人工重復(fù)的工作量較大,且難以及時處理問題。而在5G時代,面臨著工作量加大,處理時間減少,多廠商設(shè)備統(tǒng)一管理等困難,因此,需要從思想上進(jìn)行轉(zhuǎn)變,引入IT技術(shù),利用5G網(wǎng)絡(luò)的優(yōu)勢,使用過去無法實(shí)現(xiàn)的運(yùn)維方式,如引入機(jī)器學(xué)習(xí),AI等技術(shù),實(shí)現(xiàn)告警關(guān)聯(lián)、故障預(yù)測,故障自愈等方面的自動化,智能化,從而滿足新時代的需求,助力運(yùn)營商在5G新時代實(shí)現(xiàn)騰飛。