明萌,時(shí)宇,鄭潤(rùn)含,馮云喜
(中國(guó)電信集團(tuán)有限公司,北京 100020)
自2013 年以來(lái),憑借“互聯(lián)網(wǎng)+”的風(fēng)潮,國(guó)內(nèi)外各大運(yùn)營(yíng)商紛紛借助寬帶運(yùn)營(yíng)與家庭互聯(lián)網(wǎng)產(chǎn)業(yè)鏈,積極發(fā)展智慧家庭業(yè)務(wù),在推進(jìn)人民家庭生活的智慧化、信息化方面做著嘗試與轉(zhuǎn)變。傳統(tǒng)的寬帶業(yè)務(wù)是智慧家庭業(yè)務(wù)的基礎(chǔ),IPTV 以光寬帶為接入方式,向用戶提供家庭娛樂(lè)/信息化一體化服務(wù)、視頻通話/智能家居/智能音箱等新興業(yè)務(wù)。天翼看家通過(guò)“光寬+4G/5G”網(wǎng)絡(luò)接入,依托云化開(kāi)放的智慧家庭平臺(tái),為客戶提供解決家庭視頻安防需求的“云+網(wǎng)+平臺(tái)+應(yīng)用+服務(wù)”型產(chǎn)品。天翼看家與傳統(tǒng)寬帶+IPTV 業(yè)務(wù)共同構(gòu)建了更為豐富多彩的智慧家庭生態(tài)圈。
當(dāng)前,對(duì)IPTV 故障定位的研究方法較多,包括EPG(electronic program guide)響應(yīng)故障定位[1]、視頻質(zhì)量故障定位[2]、網(wǎng)絡(luò)系統(tǒng)故障定位[3]等,對(duì)家庭寬帶和其他智慧家庭產(chǎn)品的故障定位方法較少。文獻(xiàn)[3]設(shè)計(jì)實(shí)現(xiàn)了一種大數(shù)據(jù)環(huán)境下的IPTV故障定位系統(tǒng),采用相關(guān)性算法與聚類算法結(jié)合的方式篩選用戶關(guān)鍵績(jī)效指標(biāo)(key performance index,KPI)中的代表性指標(biāo),建立質(zhì)差用戶篩選模型得到質(zhì)差用戶。文獻(xiàn)[4]主要采用視頻平均意見(jiàn)得分(video mean opinion score,VMOS)評(píng)價(jià)用戶觀看視頻業(yè)務(wù)體驗(yàn)。文獻(xiàn)[5]通過(guò)遍歷獲取的故障樹(shù),對(duì)各非根節(jié)點(diǎn)對(duì)應(yīng)的故障原因進(jìn)行檢測(cè),并從中定位導(dǎo)致所述待定位故障現(xiàn)象的故障原因。文獻(xiàn)[6]介紹了基于主動(dòng)探測(cè)技術(shù)家庭寬帶運(yùn)維質(zhì)量監(jiān)測(cè)手段。以上文獻(xiàn)大多基于網(wǎng)元KPI 進(jìn)行故障定位,缺少對(duì)感知群障的定界、定段、定位。
本文提出了基于網(wǎng)絡(luò)資源樹(shù)及信息熵的智慧家庭業(yè)務(wù)感知監(jiān)測(cè)及感知劣化定位方案,定義了統(tǒng)一的智慧家庭業(yè)務(wù)感知指標(biāo)體系,提供故障精準(zhǔn)定界、定段、定位方案,旨在解決智慧家庭業(yè)務(wù)端到端環(huán)節(jié)較多、群障及單用戶故障人工定位困難的問(wèn)題。
隨著智慧家庭業(yè)務(wù)的快速發(fā)展,接入網(wǎng)[8]、承載網(wǎng)和骨干網(wǎng)等端到端網(wǎng)絡(luò)的規(guī)模也在不斷擴(kuò)大,故障運(yùn)維難度也逐漸增大。當(dāng)用戶感知發(fā)生劣化時(shí),如何精準(zhǔn)快速地定位故障原因已成為運(yùn)維方面的重大挑戰(zhàn)。目前,產(chǎn)業(yè)界對(duì)家庭寬帶、IPTV、天翼看家等智慧家庭業(yè)務(wù)的感知質(zhì)量評(píng)估側(cè)重于網(wǎng)絡(luò)質(zhì)量,主要是在用戶主動(dòng)投訴或維護(hù)人員定期或不定期地對(duì)設(shè)備進(jìn)行測(cè)試方面,需要耗費(fèi)一定的人力和物力。而對(duì)用戶端到端感知的監(jiān)測(cè)和感知劣化定位手段相對(duì)缺乏,主要存在以下3 點(diǎn)困難。
· 缺少統(tǒng)一的智慧家庭業(yè)務(wù)感知指標(biāo)體系,數(shù)據(jù)存在廠商、型號(hào)、設(shè)備的壁壘。傳統(tǒng)的用戶感知評(píng)估模式通過(guò)調(diào)查問(wèn)卷等方式判斷用戶感知,但是隨著智慧家庭業(yè)務(wù)的快速發(fā)展,傳統(tǒng)用戶服務(wù)已無(wú)法滿足用戶感知提升的需求。為了科學(xué)、量化地評(píng)估用戶感知并精準(zhǔn)定位質(zhì)差原因,需要建立統(tǒng)一的智慧家庭業(yè)務(wù)感知指標(biāo)體系。終端存在多廠商、多型號(hào)的數(shù)據(jù)“壁壘”,需要定義統(tǒng)一的體驗(yàn)質(zhì)量(quality of experience,QoE)[9]、關(guān)鍵質(zhì)量指標(biāo)(key quality indicator,KQI)[10]和KPI[11],包括IPTV 視頻感知、家庭寬帶感知和天翼看家使用感知的QoE 模型,基于業(yè)務(wù)和應(yīng)用層的KQI 和網(wǎng)元KPI,建立統(tǒng)一的端到端精準(zhǔn)定位方法。
· 缺乏主動(dòng)預(yù)防群障手段,無(wú)法預(yù)先發(fā)現(xiàn)群障隱患。傳統(tǒng)網(wǎng)絡(luò)的維護(hù)方法只能在故障發(fā)生后才開(kāi)始維護(hù),不能滿足智慧家庭群障預(yù)警、預(yù)防的需求。為了更好地提升用戶使用智慧家庭業(yè)務(wù)的感知,先于用戶發(fā)現(xiàn)故障并進(jìn)行預(yù)見(jiàn)性維護(hù)可以減少用戶投訴。
· 群障定段/定界、根因分析、單用戶判障困難。傳統(tǒng)的質(zhì)量監(jiān)測(cè)方法中網(wǎng)絡(luò)性能指標(biāo)與用戶感知不對(duì)應(yīng),維護(hù)人員在處理用戶感知劣化等故障時(shí),較難判斷真實(shí)的故障點(diǎn),這導(dǎo)致群障和單用戶等故障維護(hù)困難。
本文通過(guò)定義統(tǒng)一的智慧家庭業(yè)務(wù)感知指標(biāo)體系,提供預(yù)見(jiàn)性維護(hù)和故障的精準(zhǔn)定界、定段、定位方案,解決群障和單用戶判障困難等問(wèn)題。
本文融合云、網(wǎng)、端到端資源數(shù)據(jù)、終端探針側(cè)數(shù)據(jù)、媒資信息及各類告警性能等,進(jìn)行實(shí)時(shí)采集、匯聚及關(guān)聯(lián)挖掘分析。在用戶終端部署質(zhì)量監(jiān)測(cè)探針,覆蓋多渠道采集來(lái)源,打破傳統(tǒng)質(zhì)量監(jiān)測(cè)探針無(wú)法適配不同廠商終端的限制;定義統(tǒng)一的視頻感知優(yōu)良率、寬帶網(wǎng)頁(yè)訪問(wèn)優(yōu)良率等感知算法,結(jié)合性能數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,解決了傳統(tǒng)的質(zhì)量監(jiān)測(cè)方法中網(wǎng)絡(luò)性能指標(biāo)與用戶感知不對(duì)應(yīng)、用戶體驗(yàn)難以準(zhǔn)確定量和定位等問(wèn)題。針對(duì)感知數(shù)據(jù)量大的特點(diǎn),本文提出解耦化的分模塊處理架構(gòu),主要依托Spark 大數(shù)據(jù)計(jì)算平臺(tái)基于多項(xiàng)大數(shù)據(jù)技術(shù)組合,采用“Flume[12]+Kafka[13]+SparkStreaming[14-16]+Redis[17]+MongoDB[18]+ES[19]+MySQL[20]”的技術(shù)框架,通過(guò)設(shè)計(jì)邏輯統(tǒng)一、物理分散的“分省前置模塊+中心處理模塊”的數(shù)據(jù)采集處理架構(gòu),適用于智慧家庭業(yè)務(wù)感知群障告警實(shí)時(shí)分析、非實(shí)時(shí)隱患優(yōu)化、單用戶問(wèn)題定位等多種生產(chǎn)維護(hù)需求。
本文采取在用戶終端部署質(zhì)量監(jiān)測(cè)探針的方式,監(jiān)測(cè)不同播放行為下的實(shí)際用戶業(yè)務(wù)體驗(yàn),經(jīng)現(xiàn)網(wǎng)測(cè)試應(yīng)用,該方式能靈敏、準(zhǔn)確地感知用戶的實(shí)際體驗(yàn)。針對(duì)寬帶業(yè)務(wù),通過(guò)家庭網(wǎng)絡(luò)質(zhì)量插件主動(dòng)獲取用戶家庭網(wǎng)絡(luò)設(shè)備信息、無(wú)線信息、異常信息等關(guān)鍵指標(biāo),通過(guò)寬帶質(zhì)量主動(dòng)撥測(cè)探針插件模擬用戶行為,獲取瀏覽網(wǎng)頁(yè)、觀看視頻、玩游戲時(shí)業(yè)務(wù)感知體驗(yàn)優(yōu)良率。針對(duì)IPTV 業(yè)務(wù),通過(guò)部署機(jī)頂盒軟探針,從芯片解碼層面感知用戶卡頓,獲取用戶的播放行為數(shù)據(jù)。針對(duì)視頻監(jiān)控類業(yè)務(wù),在手機(jī)App 采用埋點(diǎn)方式上報(bào)用戶行為數(shù)據(jù)。
基于探針獲取的感知數(shù)據(jù),本文定義了一整套智慧家庭業(yè)務(wù)感知指標(biāo)體系。針對(duì)各類業(yè)務(wù)特點(diǎn),定義了光寬、IPTV、視頻監(jiān)控業(yè)務(wù)的主要感知指標(biāo),智慧家庭業(yè)務(wù)感知指標(biāo)體系如圖1 所示。其中,網(wǎng)頁(yè)訪問(wèn)、視頻、游戲均屬于傳統(tǒng)光寬業(yè)務(wù)。針對(duì)每一類業(yè)務(wù),選取關(guān)鍵的感知指標(biāo),根據(jù)重要程度賦予相應(yīng)權(quán)重,可以達(dá)到客觀、統(tǒng)一評(píng)價(jià)各類業(yè)務(wù)感知的目的。
圖1 智慧家庭業(yè)務(wù)感知指標(biāo)體系
性能數(shù)據(jù)主要通過(guò)設(shè)備網(wǎng)管進(jìn)行各省分布式采集,本方案根據(jù)不同智慧家庭業(yè)務(wù)特點(diǎn),主要選取設(shè)備端口利用率、CRC 誤碼率、CPU 利用率等KPI,構(gòu)建感知劣化問(wèn)題定位的KPI 模型。光寬網(wǎng)頁(yè)訪問(wèn)業(yè)務(wù)KPI 模型示例如圖2 所示,當(dāng)發(fā)生光寬網(wǎng)頁(yè)訪問(wèn)業(yè)務(wù)感知劣化問(wèn)題時(shí),可以通過(guò)KPI模型實(shí)現(xiàn)端到端定位能力。
圖2 光寬網(wǎng)頁(yè)訪問(wèn)業(yè)務(wù)KPI 模型示例
本方案采用Spark 分布式計(jì)算框架作為核心引擎,實(shí)現(xiàn)各種復(fù)雜的業(yè)務(wù)邏輯,對(duì)大規(guī)模數(shù)據(jù)進(jìn)行快速的處理。在實(shí)踐中通過(guò)對(duì)Spark 任務(wù)進(jìn)行多種的性能調(diào)優(yōu),包括代碼優(yōu)化、算子調(diào)優(yōu)、參數(shù)調(diào)優(yōu)、shuffle 調(diào)優(yōu)以及數(shù)據(jù)傾斜調(diào)優(yōu)等,實(shí)現(xiàn)所有Spark實(shí)時(shí)作業(yè)的執(zhí)行時(shí)間都在5 min 以內(nèi),且系統(tǒng)持續(xù)穩(wěn)定運(yùn)行,運(yùn)行無(wú)時(shí)延。以單質(zhì)量模塊為例,實(shí)時(shí)計(jì)算每分鐘每個(gè)用戶的質(zhì)量信息,每分鐘用戶話單合計(jì)約1 500 萬(wàn)條(15 GB 左右)。算子優(yōu)化及參數(shù)調(diào)整后,Spark 在2~3 min 完成計(jì)算,比優(yōu)化前效率提升了5 倍,有效支撐了業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)處理。
智慧家庭業(yè)務(wù)感知質(zhì)量監(jiān)測(cè)及劣化定位架構(gòu)如圖3 所示,共解耦為5 個(gè)模塊:數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)發(fā)、數(shù)據(jù)清洗及分析、數(shù)據(jù)存儲(chǔ)和頁(yè)面顯示/數(shù)據(jù)共享。其中,數(shù)據(jù)清洗及分析模塊是系統(tǒng)的核心模塊。首先,對(duì)采集的探針數(shù)據(jù)、性能數(shù)據(jù)、端到端資源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、關(guān)聯(lián)、抽取,得到單個(gè)用戶的基本信息、行為、感知指標(biāo)數(shù)據(jù),該數(shù)據(jù)一方面輸出到Elasticsearch 分布式集群支撐單用戶查詢需求;一方面輸出至多維分析模塊,按不同時(shí)間維度、不同區(qū)域、不同內(nèi)容分發(fā)網(wǎng)絡(luò)(content delivery network,CDN)節(jié)點(diǎn)等各維度進(jìn)行收斂匯聚,生成多維結(jié)果數(shù)據(jù),支撐實(shí)時(shí)監(jiān)測(cè)及報(bào)表分析需求。告警模塊對(duì)不同維度計(jì)算、分析、預(yù)測(cè)產(chǎn)生的數(shù)據(jù)進(jìn)行監(jiān)控,生成標(biāo)準(zhǔn)的告警數(shù)據(jù),并對(duì)數(shù)據(jù)記錄進(jìn)行判斷,將未達(dá)到優(yōu)良率閾值的記錄判定為告警,在分析得出告警定位結(jié)果后,通過(guò)Web 頁(yè)面進(jìn)行展示,并發(fā)送至綜合告警系統(tǒng),實(shí)現(xiàn)告警工單的及時(shí)派發(fā)。
圖3 智慧家庭業(yè)務(wù)感知質(zhì)量監(jiān)測(cè)及劣化定位架構(gòu)
本文針對(duì)網(wǎng)絡(luò)告警關(guān)聯(lián)復(fù)雜度高的問(wèn)題,提出“信息熵”屬性,將各層級(jí)設(shè)備下掛設(shè)備質(zhì)差率分布均衡程度映射成信息熵,構(gòu)建端到端特征庫(kù),對(duì)各層級(jí)信息增益及同級(jí)平行節(jié)點(diǎn)信息熵進(jìn)行關(guān)聯(lián)運(yùn)算,實(shí)現(xiàn)感知劣化問(wèn)題的精確定段。基于定段結(jié)果,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù)和用戶感知數(shù)據(jù),通過(guò)關(guān)聯(lián)分析實(shí)現(xiàn)接入網(wǎng)設(shè)備告警的根因定位。
智慧家庭業(yè)務(wù)端到端環(huán)節(jié)較復(fù)雜,傳統(tǒng)光寬業(yè)務(wù),主要涉及家庭網(wǎng)絡(luò)、接入網(wǎng)、城域網(wǎng)、骨干網(wǎng)、互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet data center,IDC)/服務(wù)提供商(service provider,SP)等;IPTV 業(yè)務(wù)涉及電子節(jié)目指南(electrical program guide,EPG)/CDN、節(jié)目源等;視頻監(jiān)控類業(yè)務(wù)涉及視頻監(jiān)控能力平臺(tái)及服務(wù)節(jié)點(diǎn)。關(guān)聯(lián)第1.1 節(jié)的感知數(shù)據(jù)與用戶資源拓?fù)鋽?shù)據(jù)、節(jié)目資源數(shù)據(jù)等,并定義感知優(yōu)良率指標(biāo)為:感知優(yōu)良率=感知優(yōu)良用戶數(shù)/總播放(或使用業(yè)務(wù))用戶數(shù),其中感知優(yōu)良用戶具體定義可參考第1.1 節(jié)的感知指標(biāo)。智慧家庭業(yè)務(wù)端到端拓?fù)浣Y(jié)構(gòu)如圖4 所示,包含從家庭網(wǎng)絡(luò)至骨干網(wǎng)的各個(gè)段落設(shè)備IP 地址、設(shè)備性能等數(shù)據(jù),讀取網(wǎng)絡(luò)設(shè)備拓?fù)浣Y(jié)構(gòu)信息和感知優(yōu)良率指標(biāo)構(gòu)造出網(wǎng)絡(luò)資源樹(shù)。
圖4 智慧家庭業(yè)務(wù)端到端拓?fù)浣Y(jié)構(gòu)
對(duì)各環(huán)節(jié)進(jìn)行逐段收斂匯聚,即可得出各環(huán)節(jié)感知優(yōu)良率。各環(huán)節(jié)感知優(yōu)良率互相關(guān)聯(lián),感知劣化通常同時(shí)發(fā)生在多個(gè)環(huán)節(jié)。例如,當(dāng)某節(jié)目源質(zhì)量劣化時(shí),觀看該節(jié)目的用戶感知劣化,用戶所在的光線路終端(optical line terminal,OLT)、寬帶接入服務(wù)器(broadband remote access server,BRAS)等設(shè)備感知指標(biāo)均發(fā)生劣化。因此,當(dāng)單用戶或者某環(huán)節(jié)感知劣化超限時(shí),無(wú)法直接定位故障原因。針對(duì)此問(wèn)題,本文進(jìn)一步提出了第3.2 節(jié)中的定段算法,當(dāng)單用戶出現(xiàn)故障時(shí),支持一鍵診斷,根據(jù)感知劣化情況收斂至某一環(huán)節(jié),以實(shí)現(xiàn)感知劣化問(wèn)題的精準(zhǔn)定段。當(dāng)群障發(fā)生時(shí),根據(jù)第3.2 節(jié)中的定段算法,定位故障原因。
感知劣化定段即對(duì)每個(gè)設(shè)備節(jié)點(diǎn),按照感知優(yōu)良率指標(biāo)計(jì)算信息熵,并在上下層的節(jié)點(diǎn)進(jìn)行推理定界并定段。讀取網(wǎng)絡(luò)設(shè)備拓?fù)浣Y(jié)構(gòu)信息和感知優(yōu)良率指標(biāo),構(gòu)造網(wǎng)絡(luò)設(shè)備樹(shù),即節(jié)點(diǎn)為各網(wǎng)絡(luò)設(shè)備,父節(jié)點(diǎn)為同一鏈路上游的高層級(jí)網(wǎng)絡(luò)設(shè)備,子節(jié)點(diǎn)為同一鏈路下游的低層級(jí)網(wǎng)絡(luò)設(shè)備。同時(shí)每個(gè)節(jié)點(diǎn)包含設(shè)備ID、感知優(yōu)良率、層次編號(hào)、下掛子節(jié)點(diǎn)等屬性。使用網(wǎng)絡(luò)設(shè)備樹(shù)結(jié)構(gòu)儲(chǔ)存數(shù)據(jù)的優(yōu)點(diǎn)是在海量設(shè)備中查找指定節(jié)點(diǎn)速度更快,并為推理模塊中對(duì)存在告警的節(jié)點(diǎn)鏈路進(jìn)行遞歸推理做鋪墊。
遍歷每個(gè)網(wǎng)絡(luò)設(shè)備節(jié)點(diǎn),初始化“信息熵”屬性,并先對(duì)其所有子節(jié)點(diǎn)的感知優(yōu)良率進(jìn)行分箱編碼操作,再計(jì)算信息熵,更新“信息熵”屬性,信息熵計(jì)算式為:
如果某網(wǎng)絡(luò)設(shè)備節(jié)點(diǎn)的信息熵很小,說(shuō)明子節(jié)點(diǎn)的感知優(yōu)良率集中落入某一分箱編碼,否則子節(jié)點(diǎn)的感知優(yōu)良率可能分布較為分散。實(shí)際應(yīng)用中,若某一設(shè)備下掛的眾多下聯(lián)口質(zhì)差均衡,則該設(shè)備的信息熵偏小,就會(huì)將群障告警定段歸為該設(shè)備;反之,若該設(shè)備下掛的下聯(lián)口設(shè)備出現(xiàn)質(zhì)差不均衡,則信息熵偏大,就會(huì)將質(zhì)差設(shè)備定段到下聯(lián)質(zhì)差設(shè)備,其中信息熵閾值分別為0.65、0.4。
例如,查看OLT上聯(lián)BRAS的信息熵情況如下。
· 當(dāng)BRAS 的信息熵存在<0.4 時(shí),認(rèn)為該故障點(diǎn)發(fā)生在BRAS 設(shè)備及其以上網(wǎng)絡(luò)層。
· 當(dāng)BRAS 的信息熵都>0.65 時(shí),認(rèn)為該故障點(diǎn)發(fā)生在BRAS 下聯(lián)的OLT 或OLT 連接BRAS 的鏈路。
· 其他條件無(wú)法判斷,不做歸并定段處理。
基于信息熵的感知劣化定段示意圖如圖5 所示,設(shè)網(wǎng)絡(luò)設(shè)備樹(shù)中的最高設(shè)備層級(jí)編號(hào)為0,最低為3,向上推斷閾值為a,向下推斷閾值為b,對(duì)每個(gè)網(wǎng)絡(luò)設(shè)備節(jié)點(diǎn)按照以下邏輯進(jìn)行遞歸推理。
圖5 基于信息熵的感知劣化定段示意圖
如果該節(jié)點(diǎn)層級(jí)編號(hào)為0,且存在告警,若該節(jié)點(diǎn)的信息熵<a,則推斷故障發(fā)生在本節(jié)點(diǎn);若該節(jié)點(diǎn)的信息熵>b,則推斷故障發(fā)生在下游節(jié)點(diǎn)。如果該節(jié)點(diǎn)存在告警,且不是最高層級(jí),如節(jié)點(diǎn)的信息熵<a,則查看父節(jié)點(diǎn)的推斷結(jié)果,若父節(jié)點(diǎn)推斷為下游,則判定為本節(jié)點(diǎn)故障,若父節(jié)點(diǎn)判斷為上游或是父節(jié)點(diǎn)本身,判斷故障位置參見(jiàn)父節(jié)點(diǎn)的定段結(jié)果;如該節(jié)點(diǎn)的信息熵>b,推斷故障發(fā)生在下游節(jié)點(diǎn)。
對(duì)告警進(jìn)行定段處理,如果某設(shè)備故障告警定段于上游設(shè)備,且上游設(shè)備存在告警,同時(shí)上游設(shè)備定段在本節(jié)點(diǎn)或者上游,則刪除本條告警。如果某網(wǎng)絡(luò)設(shè)備告警故障定段于下游,則刪除下游的所有告警。
本文實(shí)現(xiàn)了告警定段到具體的網(wǎng)絡(luò)設(shè)備,通過(guò)在整條鏈路上進(jìn)行遞歸推斷,能夠具體確定網(wǎng)絡(luò)層級(jí)和編號(hào)。對(duì)于所有存在網(wǎng)絡(luò)層級(jí)拓?fù)浣Y(jié)構(gòu)的設(shè)備故障定段場(chǎng)景,只需要確定信息熵計(jì)算依賴的用戶體驗(yàn)指標(biāo)以及上下推斷的信息熵閾值即可復(fù)用。
為進(jìn)一步實(shí)現(xiàn)感知劣化定位,需要基于網(wǎng)絡(luò)設(shè)備性能類、終端性能類數(shù)據(jù)等進(jìn)行大數(shù)據(jù)建模,通過(guò)網(wǎng)絡(luò)設(shè)備性能數(shù)據(jù)與設(shè)備感知優(yōu)良率的關(guān)聯(lián)分析,找到造成設(shè)備質(zhì)差的性能閾值,從而實(shí)現(xiàn)感知告警的根因定位。
例如,若某感知告警定段至OLT,基于設(shè)備性能與用戶感知關(guān)聯(lián)對(duì)OLT 故障進(jìn)行根因定位。首先,對(duì)單個(gè)OLT 歷史時(shí)間內(nèi)端口流量利用率與設(shè)備下的感知優(yōu)良率(即卡頓且傳輸流(transport stream,TS)丟包用戶占比)趨勢(shì)做關(guān)聯(lián)分析,發(fā)現(xiàn)OLT 上聯(lián)口端口流量利用率(端口流量利用率為端口所用流量占端口總帶寬的比例)與TS丟包率過(guò)高且卡頓用戶占比過(guò)高有強(qiáng)相關(guān)性,OLT TS 丟包卡頓率與端口流入流量利用率如圖6所示。為找出端口流入流量利用率的閾值,進(jìn)一步針對(duì)5 min 400 萬(wàn)條OLT 質(zhì)差清單統(tǒng)計(jì)不同TS丟包卡頓率閾值下故障設(shè)備的占比情況。TS 丟包卡頓>5%占比隨端口流量利用率分布變化如圖7可示,當(dāng)端口利用率超過(guò)70%,故障設(shè)備的占比開(kāi)始顯著上升。同理可分析得到OLT 感知優(yōu)良率與端口利用率、CRC 誤碼率和CPU 利用率等的關(guān)聯(lián)關(guān)系。
圖6 OLT TS 丟包卡頓率與端口流入流量利用率
圖7 TS 丟包卡頓>5%占比隨端口流量利用率分布變化
當(dāng)感知劣化定段至某具體段落,根據(jù)分析所得的關(guān)鍵性能指標(biāo)與感知劣化的關(guān)聯(lián)關(guān)系,可定位到某一個(gè)或幾個(gè)具體性能指標(biāo)。
本文提出了一種基于網(wǎng)絡(luò)資源樹(shù)及信息熵的智慧家庭業(yè)務(wù)感知監(jiān)測(cè)及感知劣化定位方案,實(shí)現(xiàn)了智慧家庭業(yè)務(wù)感知劣化類故障的定界、定段、定位,解決了智慧家庭業(yè)務(wù)端到端環(huán)節(jié)較多、群障及單用戶故障人工定位困難的問(wèn)題。同時(shí),該方案也適用于所有存在網(wǎng)絡(luò)層級(jí)拓?fù)浣Y(jié)構(gòu)的感知劣化定位場(chǎng)景,在確定基于信息熵計(jì)算的用戶體驗(yàn)指標(biāo)以及信息熵閾值情況下,即可復(fù)用本文提出的定位方案,具有良好的可擴(kuò)展性。