董振江 中興通訊云計算及IT研究院副院長
隨著各種應(yīng)用和帶寬的快速增長,在大數(shù)據(jù)、云計算和機器學(xué)習(xí)特別是深度學(xué)習(xí)的推動下,人工智能技術(shù)獲得了長足進步,成為當(dāng)今的熱門,在眾多領(lǐng)域得到了實際應(yīng)用,效果良好。國內(nèi)外的運營商都在發(fā)力如何利用人工智能技術(shù),從網(wǎng)絡(luò)規(guī)劃與優(yōu)化、應(yīng)用與管理的智能化與智能運維、運營和服務(wù)等多個維度思考,已經(jīng)產(chǎn)生了積極的成效,這些影響在范圍和深度上不斷地擴大,利用好這波人工智能熱潮的運營商很可能就此脫穎而出[1]。
本文通過對人工智能技術(shù)和應(yīng)用的分析,探討人工智能在智能運維、智能運營、智能服務(wù)和網(wǎng)規(guī)網(wǎng)優(yōu)等領(lǐng)域的發(fā)展趨勢。
運營商網(wǎng)絡(luò)規(guī)模越來越大、越來越復(fù)雜,承載的業(yè)務(wù)愈來愈多樣,系統(tǒng)面臨三方面需求:一是提升運營商資源利用率的優(yōu)化問題;二是如何提升部署、運維和運營的高效性,出現(xiàn)問題后能快速解決;三是如何為內(nèi)外部客戶提供優(yōu)良智能服務(wù)的問題。
從發(fā)展階段上已經(jīng)歷三個階段,正在向第四個階段快速發(fā)展中,如圖1所示。
圖1 運維發(fā)展階段
1)專業(yè)人員運維階段。專業(yè)運維人員負責(zé)日常的安裝、升級、監(jiān)控、故障處理等工作,隨著產(chǎn)品或者產(chǎn)品服務(wù)的用戶規(guī)模增長對運維人員的需求線性增長,人員成本高,復(fù)雜問題處理困難,而日常大部分運維工作本身低效重復(fù),急需提升效率。
2)自動化運維階段。日常維護工作具有明顯的重復(fù)性,這些重復(fù)性的運維工作可由自動化工具或者腳本來實現(xiàn),在條件符合時,工具和腳本能夠被重復(fù)調(diào)用和自動觸發(fā),大大減低人工誤操作風(fēng)險,也極大地減少人力成本,提高運維的效率,這就是自動化運維。
3)DevOps(Development和Operations的組合運維)階段。傳統(tǒng)的運維體系中將運維與產(chǎn)品開發(fā)人員分開:產(chǎn)品開發(fā)人員負責(zé)研發(fā)用戶需要的新功能,運維人員負責(zé)日常維護。據(jù)統(tǒng)計,現(xiàn)場出現(xiàn)的大部分故障是配置變更和升級操作導(dǎo)致的,而且問題出現(xiàn)后故障根因定位困難,大多是因為運維人員不了解產(chǎn)品的實現(xiàn)細節(jié)。為了做好軟件產(chǎn)品的交付和運維服務(wù),急需開發(fā)運維一體化:運維人員早期參與研發(fā),研發(fā)時充分考慮監(jiān)控、系統(tǒng)部署和運行過程中發(fā)生的異常,運維人員了解產(chǎn)品研發(fā),能夠快速地找出根因。DevOps應(yīng)運而生,它是一組過程、方法與系統(tǒng)的統(tǒng)稱,用于促進開發(fā)、技術(shù)運營和質(zhì)量保障部門之間的溝通、協(xié)作與整合[2]。
4)AIOps(Algorithmic IT Operations,基于算法的IT運維)階段。隨著整個業(yè)務(wù)系統(tǒng)規(guī)模的急劇膨脹,以及服務(wù)類型的復(fù)雜多樣,“基于人為定義規(guī)則”專家系統(tǒng)的自動化運維和單純地研發(fā)與運維人員的協(xié)同日漸力不從心。自動化運維依賴于專業(yè)運維的經(jīng)驗,由專家發(fā)現(xiàn)規(guī)律形成規(guī)則,實現(xiàn)自動化運維。大規(guī)模運維的問題往往需要眾多專家協(xié)助才能完成,周期長、協(xié)作困難、成本高。隨著人工智能的發(fā)展和各種海量運維數(shù)據(jù)的產(chǎn)生,可以利用機器學(xué)習(xí)的方法,來分析、預(yù)測和決策,以解決日益復(fù)雜和變化的問題,在更高維度上實現(xiàn)自動化運維—智能運維便應(yīng)運而生了。據(jù)Gartner預(yù)測,AIOps的全球部署率將從2017年的10%增加到2020年的50%。AIOps繼承了自動化和DevOps的優(yōu)點,利用機器學(xué)習(xí)提升智能性和效率[3]。
AI在運營商領(lǐng)域的應(yīng)用前景非常廣泛,下面介紹一些典型應(yīng)用場景。
1)網(wǎng)絡(luò)規(guī)劃與優(yōu)化。傳統(tǒng)的網(wǎng)規(guī)網(wǎng)優(yōu)主要依靠各種測試數(shù)據(jù)及經(jīng)驗來操作。效果和成本難以做到最優(yōu),雖然也有模擬工具來協(xié)助,但是這種做法常常是一次性的,無法做到根據(jù)實際情況的變化動態(tài)進行調(diào)整。采用機器學(xué)習(xí)/深度學(xué)習(xí)的方法,能夠做到整體的優(yōu)化,做到在線學(xué)習(xí)在線實施,經(jīng)過不斷地迭代,收集實際策略實施效果持續(xù)地改進;并由一般傳統(tǒng)的被動優(yōu)化轉(zhuǎn)化為主動優(yōu)化,將離線優(yōu)化轉(zhuǎn)變?yōu)樵诰€優(yōu)化,將階段優(yōu)化轉(zhuǎn)化為持續(xù)優(yōu)化。這依賴于領(lǐng)域?qū)<?、多維大數(shù)據(jù)和算法的配合及持續(xù)改進。
應(yīng)用范圍不僅限于基站的無線覆蓋、無線資源管理、載波聚合、干擾協(xié)調(diào)、擁塞控制/負載均衡,還包括接入、傳輸、承載、核心網(wǎng)、CDN(內(nèi)容傳送網(wǎng))與業(yè)務(wù)網(wǎng),隨著SDN(軟件定義網(wǎng)絡(luò))/NFV(網(wǎng)絡(luò)功能虛擬化)的逐步深化,智能控制的粒度會加深,端到端的網(wǎng)規(guī)網(wǎng)優(yōu)成為常態(tài),主動預(yù)測并提前分配資源,并結(jié)合實際成效快速度量和調(diào)整,優(yōu)化的實時性更強,走向?qū)崟r自治系統(tǒng)。
2)系統(tǒng)本身故障分析與糾錯。采用機器學(xué)習(xí)的方法重點集中在異常發(fā)現(xiàn)、故障定位、根因分析、故障預(yù)測四個方面。傳統(tǒng)的方法是通過數(shù)據(jù)的標注,利用傳統(tǒng)的監(jiān)督學(xué)習(xí)實現(xiàn);未來的趨勢是采用深度學(xué)習(xí)與監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督的方式,并與知識庫知識圖譜結(jié)合,在推理上走得更深遠,從而更好地發(fā)現(xiàn)異常,深入快速進行故障定位和根因分析,并逐步走向故障的提前預(yù)測,如CDN中硬盤故障等,與調(diào)度結(jié)合,提前行動,減少故障行為的發(fā)生,由傳統(tǒng)的以解決故障為主,轉(zhuǎn)變?yōu)橹鲃宇A(yù)防,主動設(shè)計。
3)網(wǎng)絡(luò)訪問異常。網(wǎng)絡(luò)在使用的過程中,會出現(xiàn)各種異常現(xiàn)象,如應(yīng)用市場單IP刷單行為、短信彩信詐騙、新的內(nèi)容出現(xiàn)后的訪問量驟升等等。通過機器學(xué)習(xí)判斷常規(guī)模式與異常模式的不同,實時準實時檢測出異常,并自我決策或者通知管理人員決策,快速進行調(diào)度或者采取行動。
4)用戶行為分析與推薦。這是人工智能發(fā)揮能力的關(guān)鍵場景,在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛應(yīng)用,取得了非常突出的效果。運營商掌握最真實的身份數(shù)據(jù)、最實時和廣泛的信息,在這里面可以做的事情非常多,不只是簡單的用戶行為分析和推薦。在群體行為、個性行為和網(wǎng)絡(luò)業(yè)務(wù)結(jié)合、對外信息脫敏后的開放上都大有可為。
5)基于NLP(自然語言處理)的智能服務(wù)。分為兩部分,一部分是對內(nèi)服務(wù),如各種知識信息的分享與積累,不僅是知識的傳遞,還有助于專家解決問題,這部分目前的挖掘還遠遠不夠;第二部分是利用NLP對外服務(wù),典型的方式如呼叫中心中自動坐席和人工坐席的替代,為用戶提供7×24小時的服務(wù)、基于語音識別語音合成的NLP自動外呼服務(wù)、各種在線服務(wù)(微信公眾號服務(wù)、短信服務(wù)、彩信服務(wù)等)、基于NLP知識庫的專家服務(wù)等等。
人工智能在運營商的應(yīng)用,在技術(shù)領(lǐng)域面臨如下挑戰(zhàn)。
1)海量數(shù)據(jù)實時性處理的挑戰(zhàn)。實時網(wǎng)絡(luò)運維需要實時處理和海量數(shù)據(jù)的建模,在用戶行為、網(wǎng)絡(luò)數(shù)據(jù)域環(huán)境不斷變化的情況下,需要快速地分析和決策;需要解決好兩個問題,高速實時并行化算法設(shè)計和流式數(shù)據(jù)的分析處理,可以利用Storm/Spark Steaming等流處理系統(tǒng),開源算法本身性能不高,針對性的優(yōu)化是關(guān)鍵。另一方面在預(yù)測性上多下工夫,構(gòu)建預(yù)測性分析基礎(chǔ)能力,全面提升分析處理效率。
2)數(shù)據(jù)的稀疏性難題。高質(zhì)量的標注數(shù)據(jù)數(shù)量稀少,很多情況下在某個具體問題上樣本數(shù)據(jù)本身就非常稀少,而原因又復(fù)雜多樣。在具體的實施時可考慮:①采用樹狀層級結(jié)構(gòu),逐步的細化;②利用各種方法生成數(shù)據(jù),如月度、周等周期數(shù)據(jù)或者多種數(shù)據(jù)的組合,進行數(shù)據(jù)的增強;③利用監(jiān)督、半監(jiān)督機器學(xué)習(xí),在少數(shù)準確標注的數(shù)據(jù)學(xué)習(xí)分類模型;④專家協(xié)助的主動學(xué)習(xí),將專家引入模型的訓(xùn)練過程,在模型難以準確判斷時,由專家人工分析補充。
3)標注數(shù)據(jù)的工作量巨大,人工難以提取特征。傳統(tǒng)的機器學(xué)習(xí)建立在專家的特征提取能力上,對待各種復(fù)雜和未知場景,這方面的特征提取挑戰(zhàn)更為嚴峻,比較典型的算法有邏輯回歸、關(guān)聯(lián)關(guān)系挖掘、聚類、決策樹、隨機森林、支持向量機、蒙特卡洛樹搜索、隱式馬爾科夫模型等。DNN、RNN、CNN等深度學(xué)習(xí)方法的引入,極大提升了特征的提取能力。深度學(xué)習(xí)與多示例學(xué)習(xí)、遷移學(xué)習(xí)和傳統(tǒng)機器學(xué)習(xí)(特別是數(shù)據(jù)量少的情況下)結(jié)合,將是未來的主流方式,互聯(lián)網(wǎng)等行業(yè)實踐已見成效。
4)在線學(xué)習(xí)的挑戰(zhàn)。網(wǎng)絡(luò)日漸復(fù)雜,應(yīng)用越來越多樣,很難有成熟的辦法應(yīng)對持續(xù)不斷的變化,這就要求系統(tǒng)具有自我學(xué)習(xí)、在線學(xué)習(xí)、自我迭代的能力。在構(gòu)建系統(tǒng)時要充分考慮兩種情況:一是隨著數(shù)據(jù)的變化,快速調(diào)整尋找新的規(guī)律的能力;二是面向新的問題在線學(xué)習(xí)的能力。這是個長期的挑戰(zhàn)。
5)不同領(lǐng)域的遷移挑戰(zhàn)。運營商需要面向不同的行業(yè)用戶,如何利用已有的知識,服務(wù)于新的行業(yè),如何冷啟動,快速地進行知識遷移是重大挑戰(zhàn)。
6)在NLP領(lǐng)域面臨的挑戰(zhàn)。在人工智能領(lǐng)域有一個共識,NLP被譽為人工智能皇冠上的明珠,也是最難的。NLP難點集中在普遍存在的不確定性、語言知識處理的復(fù)雜性、輸入的不規(guī)范性等三點。技術(shù)發(fā)展趨勢體現(xiàn)在以下5點。①語義表示從符號表示到分布表示?;诜植际较蛄康姆绞綄υ~語、句子、段落和篇章進行表示成為主流方向。②學(xué)習(xí)模式從淺層學(xué)習(xí)到深度學(xué)習(xí)。傳統(tǒng)方法需要對輸入文本順序進行分詞、詞性標注、命名實體識別等工序,才輸出最終結(jié)果,深度學(xué)習(xí)方法采用端到端的方式,輸入原始文本直接得到輸出結(jié)果。③語言知識從人工構(gòu)建到自動構(gòu)建。在知識圖譜構(gòu)建過程中,當(dāng)前仍需大量人工投入,成本高周期長,知識圖譜的半自動化構(gòu)建和全自動化構(gòu)建已經(jīng)是科研界和產(chǎn)業(yè)界重點發(fā)力的方向。④文本的理解與推理,從淺層分析向深度理解邁進。⑤文本的生成,從規(guī)范文本到自由文本。國內(nèi)外已有文本自動生成的成功應(yīng)用,但距離帶情感和上下文感知乃至個性化的文本生成還有相當(dāng)長的一段路要走。
7)多維數(shù)據(jù)融合的挑戰(zhàn)。日志數(shù)據(jù)、用戶數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、文本數(shù)據(jù)、圖像/視頻數(shù)據(jù)和位置數(shù)據(jù)等多種類型的數(shù)據(jù),和不同設(shè)備、不用業(yè)務(wù)、不同層次、不同用戶的數(shù)據(jù)如何融合使用,發(fā)揮出更大的成效是未來重要的挑戰(zhàn),需要我們根據(jù)場景逐步解決。
AI在運營商的領(lǐng)域應(yīng)用,將全面滲透到網(wǎng)絡(luò)、業(yè)務(wù)和運維運營的各個層級,將從簡單地提升效率逐步過渡到AI主導(dǎo),從被動處理走向主動預(yù)測,從人工到自動化再到AI的自主化智能化,從輔助決策最終走向自主決策,這要求我們引入人工智能方法論時也要有一定變化。主要體現(xiàn)在以下幾點。
1)系統(tǒng)與全流程的思路。當(dāng)前AI應(yīng)用大多為頭痛醫(yī)頭腳痛醫(yī)腳的方式,未來需要我們從系統(tǒng)的高度統(tǒng)一思考,如何端到端地考慮問題,類似于DevOps打破開發(fā)與運維的界限,未來AI的設(shè)計一定是用戶、業(yè)務(wù)人員、開發(fā)與運維一體的方式,各個角色和流程都要方便參與,才能將AI效能發(fā)展到極致,誰這方面做得好,更好更快地滿足用戶需求,擁有更高效更智能的運營網(wǎng)絡(luò)和業(yè)務(wù),誰將會在這輪AI驅(qū)動的變革中脫穎而出。
2)更自然的交互方式和更靈活的圖形化展示。AI驅(qū)動的智能運營和運維,將更重視與用戶的自然交互方式,可以通過自然語言,以語音、手勢等多種方式更好地交互,同時系統(tǒng)間也會發(fā)展出超NLP的適應(yīng)機器交流的方式;在結(jié)果的展示上,圖形化甚至與AR/VR結(jié)合的富媒體交互方式將成為基本方式。
3)滿足用戶自設(shè)計和自我定制的需求。用戶的需求多變、業(yè)務(wù)形態(tài)多變、接入方式多樣,加上用戶和業(yè)務(wù)的個性化需求,要求我們的AI設(shè)計一定要在滿足基本的準確度和高效穩(wěn)定的基礎(chǔ)上,更關(guān)注個性化定制的需求,滿足用戶/客戶自我設(shè)計的要求。從以設(shè)計為中心到以用戶為中心的變化,軟件定義網(wǎng)絡(luò)、軟件定義產(chǎn)品,做到產(chǎn)品的千人千面。
4)開放與生態(tài)。體現(xiàn)在技術(shù)的開放與開發(fā)的開放兩個方面,各項技術(shù)的實現(xiàn)一定要緊跟開源的發(fā)展趨勢,不能閉門造車,要能做好選擇拿來為己所用,在開源的基礎(chǔ)上做好創(chuàng)新,同時注意IPR風(fēng)險,在內(nèi)部的研發(fā)也要做好共享與開放,提升研發(fā)效率,減少無謂的浪費;今后業(yè)務(wù)的實現(xiàn)一定是多方參與的結(jié)果,要在生態(tài)打造上多投入,特別是以AI為主或者牽引的業(yè)務(wù),從技術(shù)和商業(yè)上都能促進多方的參與,能夠真正做到共贏,業(yè)務(wù)模式才能長久,才能得到健康發(fā)展。
AI在運營商智能運維、智能運營和智能服務(wù)方面的應(yīng)用剛剛啟動,前景非常廣闊,不僅是提高網(wǎng)絡(luò)運營效率、提升服務(wù)質(zhì)量的重要工具,而且將是改變收入模式和運營模式的重要支撐。很多技術(shù)需要突破,結(jié)合場景的應(yīng)用實踐是關(guān)鍵,急需我們不斷從技術(shù)、商業(yè)模式、思維方式上進行創(chuàng)新突破,充分利用AI及相關(guān)技術(shù)全面提升產(chǎn)品競爭力和用戶體驗,任重而道遠。
[1]呂達,董振江,楊勇.M-ICT應(yīng)用發(fā)展趨勢及其關(guān)鍵技術(shù)分析[J].中興通訊技術(shù),2017,23(2):50-55
[2]裴丹,張圣林,裴昶華.基于機器學(xué)習(xí)的智能運維[J].中國計算機學(xué)會通訊,2017,13(12):68-72
[3]Liu D,Zhao Y,Xu H,et al.Opprentice:Towards Practical and Automatic Anomaly Detection Through Machine Learning[C]//Proceedings of the 2015 Internet Measurement Conference.New York: ACM Press,2015:211-224