劉藝?yán)?,賈詩(shī)瑋,劉 斌,張小強(qiáng),田程軍,曾 強(qiáng)
(中國(guó)移動(dòng)通信集團(tuán)陜西有限公司,陜西 西安 710000)
近年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)電視服務(wù)越來(lái)越受歡迎。然而,與其他先進(jìn)技術(shù)一樣,互聯(lián)網(wǎng)電視服務(wù)在運(yùn)行過(guò)程中會(huì)遇到各種故障,如網(wǎng)絡(luò)擁塞、服務(wù)器停機(jī)和終端故障等。故障定位是互聯(lián)網(wǎng)電視業(yè)務(wù)服務(wù)提供商確保其服務(wù)穩(wěn)定性和可靠性的重要任務(wù)?;ヂ?lián)網(wǎng)電視業(yè)務(wù)性能劣化涉及互聯(lián)網(wǎng)電視端到端整個(gè)流程環(huán)節(jié)。對(duì)互聯(lián)網(wǎng)電視業(yè)務(wù)的分析及質(zhì)量監(jiān)測(cè)一方面為提高用戶業(yè)務(wù)體驗(yàn)提供依據(jù),另一方面,也可以作為“端-管-云”各個(gè)層級(jí)運(yùn)維的有效手段。隨著互聯(lián)網(wǎng)電視業(yè)務(wù)的發(fā)展,運(yùn)維部門(mén)需要考慮和研究如何實(shí)現(xiàn)自動(dòng)化、智能化、快速、準(zhǔn)確地識(shí)別業(yè)務(wù)性能劣化,及時(shí)進(jìn)行故障定界定位,避免出現(xiàn)大面積故障問(wèn)題,以免影響用戶業(yè)務(wù)體驗(yàn)。為此,本文提出一種基于聚類算法的互聯(lián)網(wǎng)電視業(yè)務(wù)故障定界定位方法,通過(guò)對(duì)業(yè)務(wù)感知的監(jiān)測(cè)、分析、聚類,構(gòu)建自智網(wǎng)絡(luò),利用自智網(wǎng)絡(luò)的自適應(yīng)性和學(xué)習(xí)能力,實(shí)現(xiàn)對(duì)業(yè)務(wù)故障的自動(dòng)定位和定界[1]。
互聯(lián)網(wǎng)電視業(yè)務(wù)感知質(zhì)差通常由于網(wǎng)絡(luò)故障、應(yīng)用故障、設(shè)備故障及傳輸鏈路故障等原因?qū)е?,需要通過(guò)判斷和分析快速診斷問(wèn)題并進(jìn)行故障解決。
業(yè)界已經(jīng)提出了很多關(guān)于互聯(lián)網(wǎng)電視業(yè)務(wù)感知質(zhì)差定位的方法。其中,基于網(wǎng)絡(luò)流量分析的方法是比較常用的。該方法通過(guò)對(duì)網(wǎng)絡(luò)流量進(jìn)行分析,找出流量異常的地方,從而定位故障。然而,該方法需要大量的人工干預(yù)和時(shí)間,效率低下。另外還有一些基于機(jī)器學(xué)習(xí)的方法。這些方法通過(guò)對(duì)業(yè)務(wù)流量進(jìn)行監(jiān)測(cè)和分析,利用機(jī)器學(xué)習(xí)算法進(jìn)行故障定位和解決,可以自動(dòng)化地進(jìn)行故障定位和解決,提高效率。但是,此類方法需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,且對(duì)算法的選擇和參數(shù)的設(shè)置要求較高。
自智網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)系統(tǒng)。它可以自動(dòng)地學(xué)習(xí)和適應(yīng)環(huán)境的變化,具有自我組織和自我調(diào)整的能力。自智網(wǎng)絡(luò)可以用于模式識(shí)別、分類、聚類等任務(wù)。自智網(wǎng)絡(luò)由神經(jīng)元和連接權(quán)值組成。神經(jīng)元接收輸入信號(hào),通過(guò)連接權(quán)值對(duì)輸入信號(hào)進(jìn)行加權(quán)、求和,然后將結(jié)果傳遞給下一層神經(jīng)元。自智網(wǎng)絡(luò)的訓(xùn)練是通過(guò)調(diào)整連接權(quán)值實(shí)現(xiàn)的,使得網(wǎng)絡(luò)輸出與期望輸出之間的誤差最小化。
通過(guò)聚類算法實(shí)現(xiàn)互聯(lián)網(wǎng)電視業(yè)務(wù)感知質(zhì)差的定界定位,主要是通過(guò)對(duì)業(yè)務(wù)感知的監(jiān)測(cè)和分析,構(gòu)建自智網(wǎng)絡(luò),利用自智網(wǎng)絡(luò)的自適應(yīng)性和學(xué)習(xí)能力,實(shí)現(xiàn)對(duì)業(yè)務(wù)故障的自動(dòng)定位和定界。
互聯(lián)網(wǎng)電視業(yè)務(wù)感知質(zhì)差定界定位,通過(guò)對(duì)用戶感知的互聯(lián)網(wǎng)電視業(yè)務(wù)質(zhì)量進(jìn)行評(píng)估,以快速發(fā)現(xiàn)、定位和解決故障問(wèn)題。本文利用聚類算法對(duì)業(yè)務(wù)質(zhì)量指標(biāo)、業(yè)務(wù)感知指標(biāo)等進(jìn)行數(shù)據(jù)訓(xùn)練,建立數(shù)據(jù)模型,從而實(shí)現(xiàn)互聯(lián)網(wǎng)電視業(yè)務(wù)感知質(zhì)差定界定位。
數(shù)據(jù)模型采用層次聚類算法[2],是一種基于樹(shù)形結(jié)構(gòu)的聚類方法,常用的是自底向上的結(jié)合策略(AGNES算法)。假設(shè)有N個(gè)待聚類的樣本,其基本步驟是:
(1)初始化,把每個(gè)樣本歸為一類,計(jì)算每?jī)蓚€(gè)類之間的距離,也就是樣本與樣本之間的相似度;
(2)尋找各個(gè)類之間最近的兩個(gè)類,把它們歸為一類(這樣類的總數(shù)就少了一個(gè));
(3)重新計(jì)算新生成的這個(gè)類與各個(gè)舊類之間的相似度;
(4)重復(fù)步驟(2)和步驟(3),直到所有樣本點(diǎn)都?xì)w為一類,結(jié)束。
算法以互聯(lián)網(wǎng)電視軟探針采集的用戶觀看視頻質(zhì)量數(shù)據(jù)為基礎(chǔ),以大數(shù)據(jù)驅(qū)動(dòng)來(lái)實(shí)現(xiàn)業(yè)務(wù)感知質(zhì)差定界定位的自智化。通過(guò)質(zhì)差用戶的業(yè)務(wù)質(zhì)量感知,定位出質(zhì)差終端、質(zhì)差網(wǎng)元及質(zhì)差信號(hào)源等。
2.1.1 數(shù)據(jù)采集
采集約600萬(wàn)互聯(lián)網(wǎng)電視用戶數(shù)據(jù),平均每小時(shí)有播放操作的用戶數(shù)約20%,即超過(guò)120萬(wàn),每個(gè)互聯(lián)網(wǎng)電視軟探針每10 min上報(bào)一次數(shù)據(jù),即每個(gè)小時(shí)平臺(tái)可以收到超過(guò)720萬(wàn)用戶的觀看數(shù)據(jù)。軟探針每次上報(bào)的數(shù)據(jù)內(nèi)容包括了每10 min內(nèi)用戶播放過(guò)的視頻業(yè)務(wù)質(zhì)量指標(biāo)數(shù)據(jù),數(shù)據(jù)量非常龐大[3]。
2.1.2 數(shù)據(jù)清洗
質(zhì)差定界定位是在互聯(lián)網(wǎng)電視視頻播放出現(xiàn)異常的基礎(chǔ)上聚類的,需要先對(duì)數(shù)據(jù)樣本進(jìn)行清洗。與用戶視頻播放相關(guān)的特征指標(biāo)有很多個(gè),很多指標(biāo)特征之間存在強(qiáng)關(guān)聯(lián)性。根據(jù)實(shí)際指標(biāo)間的特征關(guān)聯(lián)性,選取相關(guān)絕對(duì)系數(shù)較大的指標(biāo)。
2.1.3 數(shù)據(jù)關(guān)聯(lián)
根據(jù)互聯(lián)網(wǎng)電視軟探針上報(bào)的用戶觀看質(zhì)量數(shù)據(jù),以終端媒體訪問(wèn)控制(Media Access Control,MAC)地址為關(guān)聯(lián)關(guān)系,與綜資數(shù)據(jù)進(jìn)行關(guān)聯(lián)匹配,由此得到互聯(lián)網(wǎng)電視用戶上聯(lián)網(wǎng)絡(luò)鏈路信息,包括上聯(lián)網(wǎng)元光線路終端(Optical Line Terminal,OLT)、寬帶遠(yuǎn)程接入服務(wù)器(Broadband Remote Access Server,BRAS)、播控平臺(tái)等信息,為質(zhì)差定界定位提供網(wǎng)元鏈路信息。
2.1.4 模型構(gòu)建
根據(jù)互聯(lián)網(wǎng)電視軟探針的業(yè)務(wù)質(zhì)量指標(biāo)集構(gòu)建數(shù)據(jù)邏輯模型[4],從而得到用戶終端的業(yè)務(wù)質(zhì)量聚類。通過(guò)對(duì)異常指標(biāo)、故障類型、用戶行為數(shù)據(jù)和反饋數(shù)據(jù)的關(guān)聯(lián),后臺(tái)形成質(zhì)差原因支持庫(kù),在每個(gè)異常指標(biāo)產(chǎn)生的時(shí)候,自動(dòng)計(jì)算和匹配故障原因數(shù)據(jù),并將異常指標(biāo)匹配上故障類型時(shí)長(zhǎng)變量和故障原因信息。
2.1.5 質(zhì)差網(wǎng)元處理
根據(jù)最終定位出的質(zhì)差網(wǎng)元結(jié)合事件具體原因及質(zhì)差原因支持庫(kù),分析具體影響要因,給出合理化優(yōu)化整改建議。
根據(jù)數(shù)據(jù)清洗流程,輸出質(zhì)差終端用戶,以互聯(lián)網(wǎng)電視業(yè)務(wù)質(zhì)量指標(biāo)為導(dǎo)向,進(jìn)行質(zhì)差用戶分類[5]。
質(zhì)差事件場(chǎng)景包括用戶質(zhì)量劣化、光分配網(wǎng)(Optical Distribution Network,ODN)中斷、OLT中斷和劣化、BRAS中斷和劣化、內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN)服務(wù)器中斷和劣化、播控平臺(tái)中斷和劣化、節(jié)目源中斷和劣化。
(1)用戶視頻播放業(yè)務(wù)質(zhì)量指標(biāo)異常。用戶視頻播放優(yōu)良率指標(biāo)小于99%,定義為質(zhì)差用戶。
(2)網(wǎng)元聚類。結(jié)合綜資數(shù)據(jù)匹配到的用戶網(wǎng)元鏈路信息,進(jìn)行層次聚類計(jì)算,根據(jù)層次聚類算法對(duì)故障進(jìn)行定界定位。
(3)告警時(shí)間關(guān)聯(lián)。根據(jù)用戶層次聚類后定位到的網(wǎng)元信息進(jìn)行告警數(shù)據(jù)關(guān)聯(lián),區(qū)分網(wǎng)元質(zhì)差原因。
本文所述方法由互聯(lián)網(wǎng)電視用戶業(yè)務(wù)感知切入,為解決影響用戶業(yè)務(wù)體驗(yàn)的質(zhì)差網(wǎng)元優(yōu)化提供具體的數(shù)據(jù)支撐。傳統(tǒng)的故障處理方式往往是通過(guò)網(wǎng)元的固定指標(biāo)劣化或者批量用戶的投訴而進(jìn)行故障處理,故障處理延遲,影響到用戶業(yè)務(wù)體驗(yàn)后才進(jìn)行處理,屬于事后行為。采用聚類算法的互聯(lián)網(wǎng)電視業(yè)務(wù)故障定界定位方法是通過(guò)大數(shù)據(jù)采集進(jìn)行層次聚類算法分析,提前感知用戶業(yè)務(wù)質(zhì)量劣化分析數(shù)據(jù)的變化趨勢(shì),關(guān)聯(lián)相關(guān)網(wǎng)元信息,進(jìn)行故障的提前定位。
算法關(guān)聯(lián)綜合資源管理系統(tǒng)、業(yè)務(wù)平臺(tái)媒體資源表等,生成網(wǎng)絡(luò)、網(wǎng)元、地理、平臺(tái)、節(jié)目源、終端廠家等多個(gè)維度的資源樹(shù)和相關(guān)標(biāo)簽信息,按互聯(lián)網(wǎng)電視用戶劣化數(shù)據(jù)層次聚類,確保數(shù)據(jù)處理實(shí)時(shí)性、高效性的同時(shí)提高聚類的準(zhǔn)確性,降低算力消耗,輸出各層級(jí)設(shè)備和鏈路質(zhì)量劣化及告警數(shù)據(jù)。通過(guò)不斷的測(cè)試驗(yàn)證和模擬故障數(shù)據(jù)進(jìn)行觸發(fā),最后總結(jié)出一套互聯(lián)網(wǎng)電視業(yè)務(wù)故障定界定位體系,包括告警指標(biāo)、閾值、聚類比例等;告警匯聚邏輯從下層節(jié)點(diǎn)逐步上升到上層節(jié)點(diǎn),在故障排查時(shí)能從上層節(jié)點(diǎn)對(duì)下層節(jié)點(diǎn)及具體用戶回溯。
互聯(lián)網(wǎng)電視業(yè)務(wù)感知故障定界定位方案實(shí)施后,實(shí)現(xiàn)故障發(fā)現(xiàn)時(shí)長(zhǎng)由5 min降至10 s內(nèi),告警處置由原來(lái)的30 min縮短至分鐘級(jí),解決了運(yùn)維人員人工故障排查耗時(shí)長(zhǎng)、準(zhǔn)確率低、業(yè)務(wù)校驗(yàn)不標(biāo)準(zhǔn)的難題?;ヂ?lián)網(wǎng)電視業(yè)務(wù)質(zhì)量類投訴占比由方案實(shí)施前的60.3%下降到方案實(shí)施后的29.7%,陜西移動(dòng)互聯(lián)網(wǎng)電視業(yè)務(wù)社會(huì)認(rèn)可度逐步增高,客戶滿意度不斷提升。
在運(yùn)維能力和手段提升方面,本文方法改變故障監(jiān)控手段由“被動(dòng)”監(jiān)測(cè)變“主動(dòng)”,由原來(lái)的單純依賴人工經(jīng)驗(yàn)識(shí)別判斷故障變?yōu)榛谡鎸?shí)用戶數(shù)據(jù)結(jié)合網(wǎng)元告警、日志等信息進(jìn)行智能算法為主的智能化運(yùn)維[6]。
在應(yīng)用落地前,故障識(shí)別及時(shí)率只有30%,并且受測(cè)試過(guò)程及環(huán)境標(biāo)準(zhǔn)影響。應(yīng)用落地后,故障識(shí)別及時(shí)率提升到90%以上,且均基于層次聚斂算法自動(dòng)識(shí)別。
在應(yīng)用落地前,故障判斷準(zhǔn)確率不足60%,并受限于環(huán)境和人工經(jīng)驗(yàn)等因素制約。應(yīng)用落地后,故障判斷準(zhǔn)確率提升到90%以上,并基于最近的網(wǎng)元告警及日志,結(jié)合機(jī)頂盒軟探針上報(bào)的數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。
現(xiàn)有的故障分析技術(shù)主要都采用固定指標(biāo)門(mén)限、固定故障類型、固定故障節(jié)點(diǎn),部分有故障隱患但是達(dá)不到固定告警條件的數(shù)據(jù)可能會(huì)被遺漏,也無(wú)法進(jìn)一步判斷故障原因?;诰垲愃惴ǖ幕ヂ?lián)網(wǎng)電視業(yè)務(wù)故障定界定位方法可以有效地提升故障監(jiān)控告警數(shù)據(jù)的有效性和告警及時(shí)性,可在互聯(lián)網(wǎng)電視批量用戶故障投訴前提前通知運(yùn)維人員處理故障,減少互聯(lián)網(wǎng)電視用戶投訴,提高互聯(lián)網(wǎng)電視用戶感知。