張小強(qiáng) 曾強(qiáng) 謝崇斌 賴(lài)材棟
摘要:如何智能化、敏捷化的開(kāi)展內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN,Content Delivery Network)質(zhì)量監(jiān)測(cè)分析優(yōu)化,是陜西移動(dòng)當(dāng)前面臨的重要挑戰(zhàn)。本課題提出基于流式數(shù)據(jù)計(jì)算框架對(duì)用戶(hù)訪(fǎng)問(wèn)日志、設(shè)備運(yùn)行數(shù)據(jù)、網(wǎng)絡(luò)鏈路性能數(shù)據(jù)、平臺(tái)性能質(zhì)量大數(shù)據(jù)進(jìn)行實(shí)時(shí)大數(shù)據(jù)納管,并基于機(jī)器學(xué)習(xí)算法對(duì)CDN運(yùn)行指標(biāo)進(jìn)行異常檢測(cè)與根因智能定位,解決運(yùn)營(yíng)支撐時(shí)效性差、準(zhǔn)確率低的問(wèn)題。該成果已在陜西移動(dòng)現(xiàn)網(wǎng)部署實(shí)踐,CDN運(yùn)營(yíng)支撐效率明顯提升。
關(guān)鍵詞:CDN;流式處理;機(jī)器學(xué)習(xí);異常檢測(cè);根因智能定位
引言
陜西移動(dòng)CDN通過(guò)多級(jí)分布式組網(wǎng)方式,具備Tbps級(jí)CDN業(yè)務(wù)分發(fā)能力。但隨著設(shè)備數(shù)量的指數(shù)級(jí)上升,跨專(zhuān)業(yè)、跨地域的協(xié)同運(yùn)維支撐能力面臨巨大挑戰(zhàn),也對(duì)陜西移動(dòng)的CDN運(yùn)維支撐能力提出更高要求。
CDN運(yùn)維支撐能力現(xiàn)狀
陜西移動(dòng)CDN目前主要通過(guò)傳統(tǒng)的數(shù)據(jù)網(wǎng)管系統(tǒng)進(jìn)行設(shè)備納管、告警監(jiān)控工作,基于互聯(lián)網(wǎng)探針撥測(cè),收集業(yè)務(wù)下載速率、首包時(shí)延、成功率等指標(biāo)監(jiān)測(cè)判定CDN業(yè)務(wù)質(zhì)量,存在CDN業(yè)務(wù)全流程運(yùn)營(yíng)時(shí)效性差、準(zhǔn)確率低、協(xié)同性不足等問(wèn)題。
CDN異常檢測(cè)整體架構(gòu)
針對(duì)陜西移動(dòng)CDN運(yùn)營(yíng)支撐痛點(diǎn),需要構(gòu)建CDN全景質(zhì)量畫(huà)像體系,快速鎖定告警根因,準(zhǔn)確定位問(wèn)題點(diǎn),提升工作效率。通過(guò)評(píng)估設(shè)計(jì),需搭建大數(shù)據(jù)平臺(tái),構(gòu)建采集CDN質(zhì)量性能數(shù)據(jù)、指標(biāo)關(guān)聯(lián)訓(xùn)練、異常檢測(cè)及根因分析四大關(guān)鍵核心能力。
2.1 質(zhì)量大數(shù)據(jù)采集入庫(kù)能力
全量采集CDN業(yè)務(wù)日志、服務(wù)器性能、路由器/交換機(jī)屬性、網(wǎng)絡(luò)鏈路數(shù)據(jù)等四大模塊質(zhì)量數(shù)據(jù),為構(gòu)建CDN全景質(zhì)量運(yùn)行畫(huà)像提供全維度數(shù)據(jù)支撐。
2.2 海量數(shù)據(jù)實(shí)時(shí)關(guān)聯(lián)壓縮能力
以CDN業(yè)務(wù)日志為例,全天日志達(dá)到TB級(jí),指標(biāo)的實(shí)時(shí)計(jì)算與關(guān)聯(lián)分析的存儲(chǔ)壓力較大。隨著指標(biāo)采集粒度、維度不同,檢測(cè)分析復(fù)雜度對(duì)算力提出了極大要求。
2.3 端到端異常檢測(cè)能力
CDN業(yè)務(wù)多樣性、動(dòng)態(tài)性特性對(duì)異常檢測(cè)準(zhǔn)確度要求較高,需通過(guò)積累的樣本數(shù)據(jù)反復(fù)進(jìn)行訓(xùn)練,才可以獲得良好的異常檢測(cè)性能,滿(mǎn)足業(yè)務(wù)異常的快速檢測(cè)要求。
2.4 告警智能根因分析能力
CDN需要快速對(duì)業(yè)務(wù)質(zhì)差指標(biāo)進(jìn)行根因定位,解決傳統(tǒng)根因分析需各專(zhuān)業(yè)運(yùn)維專(zhuān)家協(xié)同核查處置效率低、時(shí)間成本高的問(wèn)題。
關(guān)鍵能力的創(chuàng)新實(shí)踐
3.1 基于ELK的質(zhì)量性能大數(shù)據(jù)采集模塊部署
利用開(kāi)源ELK架構(gòu),搭建CDN全量性能大數(shù)據(jù)庫(kù)?;贔ilebeat、Metricbeat、Snmpbeat、Heartbeat四個(gè)組件,實(shí)時(shí)采集用戶(hù)訪(fǎng)問(wèn)日志、主機(jī)性能日志、網(wǎng)絡(luò)性能、撥測(cè)數(shù)據(jù)。通過(guò)私有協(xié)議發(fā)送到實(shí)時(shí)消息隊(duì)列的規(guī)范化處理后,進(jìn)行臨時(shí)性數(shù)據(jù)保存。對(duì)相應(yīng)的性能數(shù)據(jù)進(jìn)行適配采集,實(shí)現(xiàn)采集組件與大數(shù)據(jù)屬性的最佳適配。實(shí)時(shí)流處理框架如圖1所示:
3.2 基于實(shí)時(shí)流處理的數(shù)據(jù)關(guān)聯(lián)壓縮創(chuàng)新實(shí)踐
針對(duì)上述四大維度性能數(shù)據(jù),采用實(shí)時(shí)流處理框架,基于滑動(dòng)時(shí)間窗口,對(duì)不同維度、時(shí)間粒度的各類(lèi)指標(biāo)時(shí)間序列的同步實(shí)時(shí)計(jì)算,最終保留關(guān)聯(lián)壓縮的指標(biāo)數(shù)據(jù),大幅壓縮智能異常檢測(cè)處理的數(shù)據(jù)量,提升實(shí)時(shí)流處理性能。
選取消息隊(duì)列組件對(duì)上報(bào)的海量信息進(jìn)行中間處理,確保滿(mǎn)足海量數(shù)據(jù)不同顆粒度的匹配準(zhǔn)確度及時(shí)效性要求。通過(guò)實(shí)時(shí)數(shù)據(jù)關(guān)聯(lián)壓縮流處理模塊,系統(tǒng)對(duì)不同對(duì)象、不同維度的原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算和實(shí)時(shí)數(shù)據(jù)壓縮,極大減少了后續(xù)處理模塊的數(shù)據(jù)計(jì)算壓力。
3.3 CDN端到端異常智能檢測(cè)應(yīng)用創(chuàng)新
傳統(tǒng)異常檢測(cè)方法需要預(yù)先具備明確的異常模式,若異常模型判斷標(biāo)準(zhǔn)準(zhǔn)確性不足,易使檢測(cè)效果較差。本課題采用機(jī)器學(xué)習(xí)與深度學(xué)習(xí)混合的算法模型,既滿(mǎn)足指標(biāo)監(jiān)測(cè)快速部署要求,又可提升指標(biāo)動(dòng)態(tài)性對(duì)檢測(cè)準(zhǔn)確性要求。
3.4 CDN告警智能根因定位運(yùn)維創(chuàng)新
利用對(duì)指標(biāo)數(shù)據(jù)更細(xì)維度的挖掘與分析,通過(guò)時(shí)序數(shù)據(jù)相關(guān)性算法獲取指標(biāo)波動(dòng)產(chǎn)生的因果關(guān)系,并計(jì)算可能是根因的概率,通過(guò)機(jī)器學(xué)習(xí)的方式快速給出質(zhì)差資源的關(guān)聯(lián)指標(biāo)及可能根因概率,極大提升了問(wèn)題定位的時(shí)效性和準(zhǔn)確性。
實(shí)踐效果
4.1 數(shù)據(jù)壓縮能力提升
該成果在CDN現(xiàn)網(wǎng)試點(diǎn),實(shí)時(shí)采集數(shù)據(jù)量峰值為12萬(wàn)條/s,數(shù)據(jù)壓縮后,指標(biāo)流速峰值變?yōu)?39條/s,壓縮比超100倍。隨著設(shè)備數(shù)量增加,數(shù)據(jù)壓縮比最高可達(dá)到120倍,壓縮效果顯著。
4.2 異常指標(biāo)檢測(cè)能力提升
由于采用了基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的聯(lián)合檢測(cè)機(jī)制,隨著指標(biāo)歷史數(shù)據(jù)的積累,指標(biāo)檢測(cè)進(jìn)入到長(zhǎng)時(shí)間跨度異常檢測(cè)模塊,準(zhǔn)確率得到顯著提升,再通過(guò)專(zhuān)家對(duì)異常點(diǎn)進(jìn)行標(biāo)注確認(rèn),經(jīng)過(guò)深度學(xué)習(xí)異常檢測(cè),反周期性異常指標(biāo)也得到了精準(zhǔn)檢測(cè),最終異常檢出率從64.3%提升至97.7%。
4.3 故障處理效率提升
成果實(shí)施后,CDN異常監(jiān)測(cè)處理時(shí)長(zhǎng)從1.2小時(shí)降低至14分鐘,故障處理時(shí)長(zhǎng)降低82%,人均效率提升40%,極大提升工作效率.。
結(jié)論
該成果已在陜西移動(dòng)CDN平臺(tái)進(jìn)行試運(yùn)行,可顯著降低異常檢測(cè)、根因分析算力的要求,降低檢測(cè)成本。同時(shí)具備較高準(zhǔn)確率,也改變了傳統(tǒng)故障排查模式,大幅提升運(yùn)營(yíng)效率。由于目前仍處于少量設(shè)備鏈路的接入試點(diǎn),面對(duì)全省設(shè)備的納管接入,該解決方案將面臨更大數(shù)據(jù)處理能力挑戰(zhàn)。
參考文獻(xiàn)
[1] Chandola V,Banerjee A, and Kumar V.Anomaly detection: A survey. ACM Computing Survey, 41(3): 1-58,20095
[2] Gandhimathi L,Murugaboopathi G. A novel hybrid intrusion detection using flow-based anomaly detection and cross-layer features in wireless sensor network.Automatic Control and Computer Sciences, 54(1):62-69,2020
[3] Feng F, Liu x and Yong B.? Anomaly detection in ad-hoc networks based on deep learning model:A plug and play device. Ad Hoc Networks,84: 82-89, 2019