劉瑞宏,謝國強,苑宗港,宋文婷,王高虎(華為技術(shù)有限公司,廣東東莞 523808)
電信產(chǎn)業(yè)一直在探索數(shù)字化、自動化和智能化,從轉(zhuǎn)型前期聚焦客戶服務(wù)、產(chǎn)品業(yè)務(wù)層,逐步延伸到內(nèi)部管理運營層,再到網(wǎng)絡(luò)層。早在2011年,電信產(chǎn)業(yè)就希望通過利用SDN、NFV和云技術(shù),提升業(yè)務(wù)和網(wǎng)絡(luò)敏捷性的同時,降低成本和復(fù)雜性。但從結(jié)果來看,基于SDN/NFV技術(shù)的網(wǎng)絡(luò)自動化仍無法完全解決未來各種應(yīng)用大規(guī)模部署、網(wǎng)絡(luò)新技術(shù)引入與擴張帶來的問題。如何大規(guī)模、全流程地提升效率,并持續(xù)快速迭代地引入新技術(shù)仍然是產(chǎn)業(yè)共同面臨的難題。
自動駕駛網(wǎng)絡(luò)正是誕生于這一背景下,通過應(yīng)用多種智能技術(shù),發(fā)揮融合優(yōu)勢驅(qū)動電信行業(yè)從數(shù)字化邁向智能化,將對電信產(chǎn)業(yè)的生產(chǎn)方式、運營模式、思維模式和人員技能等全方位帶來深遠(yuǎn)影響。
2019年5月,電信管理論壇TMF聯(lián)合英國電信、中國移動、法國Orange、澳大利亞Telstra、華為和愛立信等成員,合作發(fā)布了業(yè)界第一部自動駕駛網(wǎng)絡(luò)白皮書。
圖1提出了“單域自治、跨域協(xié)同”的3層框架與4個閉環(huán),給產(chǎn)業(yè)提供了運營商數(shù)字化轉(zhuǎn)型的架構(gòu)藍(lán)圖,給產(chǎn)業(yè)各方的實踐與合作提供頂層架構(gòu)參考,并促進(jìn)產(chǎn)業(yè)高效合作。
圖1 TMF自動駕駛網(wǎng)絡(luò)目標(biāo)架構(gòu)
與此同時,該白皮書還進(jìn)一步定義了自動駕駛網(wǎng)絡(luò)L1到L5的高階分級標(biāo)準(zhǔn)(見圖2),為產(chǎn)業(yè)的逐級遞進(jìn)給出了高階參考。
L0-手工運維:系統(tǒng)提供輔助監(jiān)控能力,所有動態(tài)任務(wù)都需要手動執(zhí)行。
L1-輔助運維:系統(tǒng)根據(jù)預(yù)先配置,執(zhí)行某個重復(fù)的子任務(wù),提高執(zhí)行效率。
L2-部分自動駕駛網(wǎng)絡(luò):系統(tǒng)基于AI模型,針對確定的外部環(huán)境,系統(tǒng)內(nèi)部分單元實現(xiàn)閉環(huán)運維。
L3-有條件自動駕駛網(wǎng)絡(luò):在L2的能力基礎(chǔ)上,系統(tǒng)能實時感知環(huán)境變化,在特定網(wǎng)絡(luò)領(lǐng)域,能根據(jù)外部環(huán)境進(jìn)行自我優(yōu)化和調(diào)整,實現(xiàn)基于意圖的閉環(huán)自治。
L4-高度自動駕駛網(wǎng)絡(luò):在L3層的能力基礎(chǔ)上,在更復(fù)雜的跨多網(wǎng)絡(luò)領(lǐng)域環(huán)境下分析和決策,系統(tǒng)面向業(yè)務(wù)和客戶體驗,實現(xiàn)預(yù)測式或主動式的閉環(huán)自治。
L5-完全自動駕駛網(wǎng)絡(luò):這一層次是電信網(wǎng)絡(luò)演進(jìn)的終極目標(biāo),具備跨多業(yè)務(wù)、多領(lǐng)域、全生命周期的全場景閉環(huán)自治能力。
圖2 TMF自動駕駛網(wǎng)絡(luò)5級等級定義
自動駕駛網(wǎng)絡(luò)的終極目標(biāo)是通過數(shù)據(jù)與知識驅(qū)動,實現(xiàn)網(wǎng)絡(luò)自動、自優(yōu)、自愈,敏捷使能新業(yè)務(wù)并實現(xiàn)極致客戶體驗,實現(xiàn)資源和能源利用效率最高,在自動、自優(yōu)、自愈基礎(chǔ)上,網(wǎng)絡(luò)自我演進(jìn)實現(xiàn)自治。
知識圖譜是自動駕駛網(wǎng)絡(luò)的關(guān)鍵使能技術(shù)之一,在電信領(lǐng)域知識圖譜該如何應(yīng)用呢?
隨著通信網(wǎng)絡(luò)近些年的快速發(fā)展,網(wǎng)絡(luò)連接數(shù)和網(wǎng)絡(luò)數(shù)據(jù)的迅猛增長,網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,故障也越來越多。傳統(tǒng)故障處理模式難以滿足日益增長的網(wǎng)絡(luò)故障,主要表現(xiàn)在以下3個方面。
a)傳統(tǒng)運維依賴運維專家經(jīng)驗,但運維專家經(jīng)驗差異大,想要準(zhǔn)確推導(dǎo)出故障根因,對運維人員的要求比較高。
b)成千上萬運維人員處理大量重復(fù)性問題,運維經(jīng)驗積累慢,處理效率低。
c)運維經(jīng)驗相關(guān)文檔分散,命名不規(guī)范,不便于運維人員查找。
由于這些問題的存在,自動化和智能化的網(wǎng)絡(luò)故障診斷技術(shù)得到了廣大研究者的關(guān)注,并致力于降低門檻,提高運維人員工作效率。針對這個問題,本文設(shè)計了一種智能化的故障診斷系統(tǒng),并命名為基于知識圖譜的智能故障診斷系統(tǒng),融合電信領(lǐng)域?qū)<医?jīng)驗及文檔知識,構(gòu)建專屬電信領(lǐng)域的知識圖譜,利用知識圖譜的表示、推理、人機交互技術(shù)實現(xiàn)智能化根因推導(dǎo),構(gòu)建電信網(wǎng)絡(luò)領(lǐng)域故障診斷通用能力,降低運維門檻,提高運維人員工作效率。
該系統(tǒng)參照醫(yī)生對患者的疾病診療過程,應(yīng)用網(wǎng)絡(luò)知識圖譜技術(shù)對網(wǎng)絡(luò)故障進(jìn)行診斷,分析、定位網(wǎng)絡(luò)故障根因。接下來從3個方面進(jìn)行闡述:系統(tǒng)原理、構(gòu)建知識圖譜、應(yīng)用知識圖譜診斷網(wǎng)絡(luò)故障。
圖3示出的是醫(yī)生對患者疾病診療過程示意圖。
醫(yī)生基于經(jīng)驗,根據(jù)病人基本信息和癥狀,逐步分析、檢驗、診斷出病因,實施治療方案。如果基于經(jīng)驗和檢查信息無法確定病因或診斷不足以確診,就需要增加檢驗手段,甚至查閱相關(guān)材料(如疾病文獻(xiàn)),來分析病癥,找到解決辦法。
圖4示出的是網(wǎng)絡(luò)故障智能化輔助診斷過程示意圖。
圖3 醫(yī)生對患者疾病診療過程示意圖
網(wǎng)絡(luò)系統(tǒng)相比人體,可監(jiān)測性、可度量性更好,可獲得的檢驗信息更全面,智能故障運維輔助系統(tǒng)就像給機器看病的醫(yī)生,根據(jù)網(wǎng)絡(luò)基本信息和故障數(shù)據(jù),分析故障現(xiàn)場、查看故障現(xiàn)象與趨勢、推理故障根因、提供故障處理建議。如果基于有限的故障信息無法推斷根因,就需要增補采集故障信息,補充故障知識,甚至查閱故障相關(guān)案例,來輔助判定分析根因,找到解決方案。
網(wǎng)絡(luò)故障知識圖譜的構(gòu)建過程如圖5所示,主要包括4個階段。
階段1,在網(wǎng)絡(luò)故障領(lǐng)域?qū)<业闹笇?dǎo)下,進(jìn)行網(wǎng)絡(luò)領(lǐng)域概念建模,包括概念、概念屬性、概念間的層次關(guān)系。建模過程中需要表達(dá)網(wǎng)元基礎(chǔ)信息、網(wǎng)絡(luò)運行信息、網(wǎng)絡(luò)故障事件信息、故障維護(hù)知識的核心概念和關(guān)系,輸出Schema定義。
階段2,基于階段1定義的Schema,需要結(jié)合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)和產(chǎn)品文檔、故障案例文檔等語料分析數(shù)據(jù)源,進(jìn)行知識抽取。
階段3,故障知識融合階段對前期抽取結(jié)果進(jìn)行實體對齊、類型對齊、屬性對齊,建立關(guān)聯(lián)關(guān)系,為了保障知識融合的正確性,將電信領(lǐng)域術(shù)語表、規(guī)范作為知識抽取的同義概念和同義關(guān)系參照標(biāo)準(zhǔn),使得抽取結(jié)果具備統(tǒng)一表示、統(tǒng)一理解的基礎(chǔ)。
階段4,融合的知識結(jié)果按照網(wǎng)絡(luò)領(lǐng)域和網(wǎng)絡(luò)應(yīng)用場景分類組織、存儲、發(fā)布,就可以形成各領(lǐng)域網(wǎng)絡(luò)故障知識庫,支撐各領(lǐng)域網(wǎng)絡(luò)故障診斷應(yīng)用。
2.2.1 知識表示及建模
圖4 網(wǎng)絡(luò)故障智能化輔助診斷過程示意圖
圖5 網(wǎng)絡(luò)故障知識圖譜構(gòu)建過程示意圖
在電信領(lǐng)域定義“實體-屬性-屬性值”“概念-關(guān)系-概念”以事件為核心的知識圖譜。圖譜表示技術(shù)實現(xiàn)了對網(wǎng)絡(luò)概念、實體、屬性的表示,還可以對動態(tài)時序數(shù)據(jù)(如通信流程、故障處理工序、故障事件組合等領(lǐng)域知識)進(jìn)行表示。
通過“名詞+動詞”的知識表示方法來描述故障事件。如圖6所示,“SIP TCP鏈路擁塞”事件中,名詞實體對象為SIP TCP,動詞為擁塞;“鏈路所屬的局向部分鏈路故障”導(dǎo)致“SIP TCP鏈路擁塞”形成故障事件組合。
2.2.2 知識抽取
圖6 故障模式
電信領(lǐng)域中包含了大量領(lǐng)域文獻(xiàn)及專有術(shù)語,這些語料大致分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化3種類型。結(jié)構(gòu)化數(shù)據(jù)抽取比較成熟,可以根據(jù)元數(shù)據(jù)與圖譜Schema進(jìn)行數(shù)據(jù)映射直接抽取。對于半結(jié)構(gòu)化和非結(jié)構(gòu)化需要根據(jù)語料內(nèi)容和結(jié)構(gòu),設(shè)計相應(yīng)的抽取算法和包裝器,知識抽取的整體框架如圖7所示。
基于文本的“實體-關(guān)系-實體”聯(lián)合抽取,目前有2類方法:一種是使用流水線的方法(Pipelined Method)進(jìn)行抽?。狠斎胍粋€句子,首先進(jìn)行命名實體識別,然后對識別出來的實體進(jìn)行組合,再進(jìn)行關(guān)系分類,輸出“實體-關(guān)系-實體”三元組。流水線的方法主要存在以下缺點。
圖7 網(wǎng)絡(luò)故障知識圖譜抽取框架
a)錯誤傳播,實體識別模塊的錯誤會影響到下面的關(guān)系分類模塊準(zhǔn)確性。
b)沒有利用抽取子任務(wù)之間存在的語義關(guān)系,如果在圖上存在Alarm-Object關(guān)系,那么可以知道Alarm必然屬于Object,后一個實體屬于Object類型,流水線的方法沒法利用這樣的信息。
c)產(chǎn)生了沒必要的冗余信息,由于對識別出來的實體進(jìn)行配對,然后再進(jìn)行關(guān)系分類,那些沒有關(guān)系的實體對就會帶來多余信息,錯誤率高。
本系統(tǒng)應(yīng)用的聯(lián)合抽取算法:輸入一個句子,通過實體和關(guān)系聯(lián)合抽取算法模型,直接得到“實體-關(guān)系-實體”三元組。這種方法可以克服上面流水線方法的缺點。
知識抽取算法模型采用預(yù)訓(xùn)練語言模型,使用電信領(lǐng)域語料進(jìn)行重訓(xùn)練對領(lǐng)域文本語句進(jìn)行分布式表示,進(jìn)行非對稱核化關(guān)系分類,同時抽取“實體-關(guān)系-實體”,相對于通用預(yù)訓(xùn)練語言模型,抽取準(zhǔn)確率提升10%以上。
2.2.3 知識融合
對于從多個語料來源抽取的知識,需要進(jìn)行知識融合,以減少知識庫冗余。知識融合的基礎(chǔ)是實體對齊,進(jìn)行實體對齊、類型對齊、屬性對齊,建立關(guān)聯(lián)關(guān)系,可以保障知識融合的正確性。當(dāng)前通用的知識融合技術(shù)存在如下2個痛點。
a)計算復(fù)雜度高:2個知識庫,為發(fā)現(xiàn)所有匹配對,需要將一個知識庫中的所有實體和另一個知識庫中的所有實體逐一比對。
b)圖譜表示差異大:相同實體有不同名字,相同名字指代不同實體,實體定義的粒度不同,相同屬性在不同的知識庫中有不同的判別能力,相同實體在不同知識庫中的屬性數(shù)量不一致。
該系統(tǒng)提出了一種面向電信領(lǐng)域的知識融合框架,如圖8所示,基于圖譜的表示學(xué)習(xí)及實體、屬性、關(guān)系的迭代聯(lián)合學(xué)習(xí),可以自動學(xué)習(xí)到更深層次的知識特征,減少語義漂移,提升實體對齊準(zhǔn)確率。
圖8 知識融合框架
基于構(gòu)建好的知識庫,可以支持上層應(yīng)用的設(shè)計開發(fā)。結(jié)合網(wǎng)絡(luò)領(lǐng)域故障診斷場景的應(yīng)用訴求,應(yīng)用系統(tǒng)的重點能力主要包括兩大功能:知識推理和知識查詢。
2.3.1 知識推理
圖9示出的是知識圖譜推理框架。
圖9 知識圖譜推理框架
現(xiàn)網(wǎng)發(fā)生故障時產(chǎn)生海量的故障事件信息,如異常日志、告警等,知識推理框架從故障數(shù)據(jù)中自動分析故障間傳播規(guī)律,生成推理結(jié)果。在此過程中,領(lǐng)域運維專家經(jīng)驗是重要的知識來源,需要充分利用、有效轉(zhuǎn)化;知識推理利用圖存儲中的產(chǎn)品知識和規(guī)則知識,按策略編排自動執(zhí)行;規(guī)則知識的自動學(xué)習(xí)發(fā)現(xiàn)也對專家經(jīng)驗起到了有效補充作用,進(jìn)一步提升了知識推理框架的能力,支撐更豐富的故障場景的自動適配;利用NLP知識自動抽取技術(shù)抽取產(chǎn)品文檔、案例文檔等不同語料中的產(chǎn)品知識,用于知識查詢,進(jìn)一步增強了針對故障傳播關(guān)系知識查詢的可解釋性。
2.3.2 知識查詢
在故障診斷過程中,會用到大量的機器數(shù)據(jù)、產(chǎn)品文檔、案例文檔等知識,為了能夠更好地引導(dǎo)用戶利用知識庫進(jìn)行故障診斷,需要具備便捷的查詢能力。
該系統(tǒng)結(jié)合運維領(lǐng)域故障分析思路,總結(jié)出幾個關(guān)鍵分析步驟,逐層深入解決故障問題(見圖10)。
圖10 網(wǎng)絡(luò)故障知識查詢流程
a)看現(xiàn)場:當(dāng)分析網(wǎng)絡(luò)故障問題時,首先需要還原故障現(xiàn)場,看網(wǎng)元、版本,現(xiàn)場是否存在高危操作,是否有過重大升級,因為這些操作都有可能是造成故障的根因。
b)查現(xiàn)象:通過上一步的現(xiàn)場排查,接下來就要看故障的具體現(xiàn)象,主要檢查是否有高危告警、異常性能指標(biāo)等故障事件產(chǎn)生。
c)找根因:確定重點關(guān)注的故障事件后,結(jié)合故障現(xiàn)場數(shù)據(jù)和故障知識,自動推導(dǎo)生成故障傳播鏈,推導(dǎo)出故障的根因事件。
d)根因查詢:若當(dāng)前的根因事件還不足以表達(dá)故障的真實根因,還可通過查詢知識庫內(nèi)的相關(guān)基礎(chǔ)知識、案例,發(fā)現(xiàn)可能原因,進(jìn)一步獲取故障的解決方法。
當(dāng)前該系統(tǒng)已在幾個關(guān)鍵電信領(lǐng)域進(jìn)行了測試驗證,可針對關(guān)鍵業(yè)務(wù)性能指標(biāo)劣化、資源故障異常等場景進(jìn)行輔助診斷和定位。
以某局點“移動軟交換業(yè)務(wù)異?!睘槔?,應(yīng)用該系統(tǒng)進(jìn)行故障診斷,分4個步驟驗證了該系統(tǒng)診斷定位故障根因的有效性。
a)還原故障現(xiàn)場:導(dǎo)入故障數(shù)據(jù),查看網(wǎng)元版本信息及配置操作,完成故障現(xiàn)場信息的還原,從全局了解故障現(xiàn)場情況。
b)分析故障現(xiàn)象:結(jié)合故障趨勢分析,選擇故障發(fā)生時段,明確故障現(xiàn)象為“位置更新請求次數(shù)下降”。
c)推導(dǎo)根因:結(jié)合故障數(shù)據(jù)和故障知識,自動推導(dǎo)生成故障傳播鏈,發(fā)現(xiàn)問題根因是“告警IP地址流量不均衡”。
d)定位故障:通過知識查詢,得出“告警IP地址流量不均衡”的故障處理步驟,逐一進(jìn)行產(chǎn)品知識查詢、故障案例查詢,排除該網(wǎng)元故障的各種可能原因,最終驗證確認(rèn)該問題是由“IP承載網(wǎng)環(huán)路故障”引起的。
綜上所述,基于知識圖譜的智能故障診斷系統(tǒng),可以綜合運用圖譜的知識表示、知識推理、知識查詢等技術(shù),將零散的人工經(jīng)驗及龐雜的文本知識有效進(jìn)行關(guān)聯(lián),實現(xiàn)故障根因推理定位,輔助解決網(wǎng)絡(luò)故障運維領(lǐng)域的問題。當(dāng)前該方案仍存在一些不足和改進(jìn)空間,主要包括:一是知識表示的范圍上除故障知識,還可以針對規(guī)、建、維、優(yōu)多環(huán)節(jié)知識進(jìn)一步完善;二是領(lǐng)域故障知識還不完備,特別是關(guān)系知識不完備直接影響到故障根因推導(dǎo)的準(zhǔn)確性。后續(xù)還需逐步完善,達(dá)到網(wǎng)絡(luò)診斷故障自優(yōu)自治自維護(hù)的自動網(wǎng)絡(luò)駕駛目標(biāo)。