龐小龍
中通服咨詢設(shè)計研究院有限公司
現(xiàn)代園區(qū)網(wǎng)絡(luò)面臨著業(yè)務(wù)種類眾多、業(yè)務(wù)需求量巨大等諸多問題,相應(yīng)的網(wǎng)絡(luò)管理也變得復(fù)雜和被動。如何提高園區(qū)網(wǎng)絡(luò)管理的及時性和準(zhǔn)確性,降低監(jiān)控過程對網(wǎng)絡(luò)設(shè)備本身的功能及性能的影響,成了園區(qū)網(wǎng)絡(luò)智能化運(yùn)維亟需解決的問題。
傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維采用“問答”的方式來獲取相關(guān)設(shè)備的監(jiān)控數(shù)據(jù),不能監(jiān)控過多的網(wǎng)絡(luò)節(jié)點且管理效率低。以SNMP技術(shù)為例,網(wǎng)管系統(tǒng)通過定期發(fā)送SNMP查詢消息獲得所需設(shè)備信息,這種查詢是非連續(xù)的(有時間間隔,一般為分鐘級,達(dá)不到秒級或亞秒級的顆粒度),這種非連續(xù)的查詢,往往會導(dǎo)致運(yùn)維系統(tǒng)無法察覺到對網(wǎng)絡(luò)運(yùn)行情況的突發(fā)變化。
如圖1所示,該曲線為某節(jié)點設(shè)備端口實時帶寬,通過SNMP對該接口帶寬進(jìn)行監(jiān)測。在一個時間間隔區(qū)間,分別進(jìn)行了第一次查詢和第二次查詢,恰巧兩次查詢結(jié)果相同,則從SNMP的角度來看,在這個時間區(qū)間內(nèi),該端口帶寬未發(fā)生變化,然而實際上接口流量卻是發(fā)生了大幅度的升降。為了提高監(jiān)控數(shù)據(jù)的精度,只能增加查詢的頻次,但是這樣的操作本身又會對被監(jiān)控階段設(shè)備產(chǎn)生影響,導(dǎo)致設(shè)備的CPU占用率過高而影響設(shè)備的正常功能。
圖1 SNMP網(wǎng)絡(luò)狀態(tài)信息采集示意圖
上面的例子雖然稍顯極端,但是卻直觀反映出了“問答式”傳統(tǒng)網(wǎng)絡(luò)監(jiān)控技術(shù)(如SNMP、CLI等)的諸多不足之處,而且即使是SNMP Trap和Syslog這種支持推送模式的技術(shù),也僅僅是在設(shè)備發(fā)生告警事件后進(jìn)行數(shù)據(jù)推送,并不支持?jǐn)?shù)據(jù)流量類監(jiān)控數(shù)據(jù)的采集。
為了滿足大規(guī)模、高性能網(wǎng)絡(luò)的監(jiān)控需求,Telemetry技術(shù)應(yīng)運(yùn)而生,實現(xiàn)把傳統(tǒng)的從監(jiān)控系統(tǒng)到網(wǎng)絡(luò)設(shè)備“拉”數(shù)據(jù)的方法,變?yōu)榫W(wǎng)絡(luò)設(shè)備主動向監(jiān)控系統(tǒng)“推”數(shù)據(jù)的方法。
相對于傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控技術(shù),Telemetry具有諸多優(yōu)勢:
(1)設(shè)備主動注冊
傳統(tǒng)網(wǎng)絡(luò)監(jiān)控系統(tǒng)通過定期掃描地址段來發(fā)現(xiàn)新的設(shè)備,地址段的大小和掃描間隔對掃描速度有著直接影響。而在Telemetry中,網(wǎng)絡(luò)設(shè)備啟動后馬上上報注冊,讓監(jiān)控系統(tǒng)即刻發(fā)現(xiàn)自己,保證了監(jiān)控系統(tǒng)的即時性和不間斷性。
(2)資源利用率高
傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)由于采用“一問一答”式的交互模式,每一次查詢時都要解析查詢請求報文,這就導(dǎo)致連續(xù)的同類型查詢需要進(jìn)行重復(fù)的查詢報文解析,大量消耗設(shè)備的CPU資源,從而導(dǎo)致設(shè)備需要頻繁中斷其他任務(wù)來處理查詢命令。而在Telemetry中,可以一次進(jìn)行多次報文的訂閱,后續(xù)采樣時,網(wǎng)絡(luò)設(shè)備持續(xù)主動的上報訂閱的數(shù)據(jù),不需要持續(xù)維持會話關(guān)系,節(jié)省了網(wǎng)絡(luò)設(shè)備的CPU資源,從而提高了網(wǎng)絡(luò)監(jiān)控的效率。
(3)運(yùn)維復(fù)雜度低
傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)需要配置大量的設(shè)備列表、接入設(shè)備的密碼、需收集數(shù)據(jù)的類型等信息,同時防火墻需要開啟雙向通信。而在Telemetry中,僅需要簡單配置網(wǎng)絡(luò)設(shè)備即可實現(xiàn)主動上報數(shù)據(jù)的功能,相關(guān)的防火墻開啟策略運(yùn)行網(wǎng)絡(luò)設(shè)備傳輸數(shù)據(jù)到監(jiān)控系統(tǒng)。
(4)時間精度高
在Telemetry中,進(jìn)行一次交互可以上報多個采樣數(shù)據(jù),同時對采樣數(shù)據(jù)進(jìn)行壓縮處理,降低帶寬占用。這種高效的數(shù)據(jù)采集方式可以使采樣精度達(dá)到亞秒級甚至毫秒級。
(5)采樣數(shù)據(jù)準(zhǔn)確性高
傳統(tǒng)網(wǎng)絡(luò)監(jiān)控系統(tǒng),由于采樣的數(shù)據(jù)沒有時間戳信息,當(dāng)網(wǎng)絡(luò)有較大延遲時,采樣數(shù)據(jù)的準(zhǔn)確性會受到較大影響。而在Telemetry中,由于采樣數(shù)據(jù)帶有時間戳信息,因此可以準(zhǔn)確掌握采樣數(shù)據(jù)的發(fā)生時間,從而極大地提高了采樣數(shù)據(jù)的準(zhǔn)確性。
智能化運(yùn)維系統(tǒng)通過Telemetry技術(shù)完成實時高效的數(shù)據(jù)信息采集,同時結(jié)合AI算法對采集到的各類數(shù)據(jù)進(jìn)行分析及呈現(xiàn)。此外,通過場景化的持續(xù)學(xué)習(xí)和專家經(jīng)驗,構(gòu)建業(yè)務(wù)流、轉(zhuǎn)發(fā)路徑、網(wǎng)絡(luò)服務(wù)的多層次關(guān)聯(lián)分析能力,將運(yùn)維人員從傳統(tǒng)低效的運(yùn)維系統(tǒng)中解放出來,結(jié)構(gòu)化地為用戶顯示應(yīng)用行為及網(wǎng)絡(luò)質(zhì)量,實現(xiàn)網(wǎng)絡(luò)運(yùn)維的智能化。智能網(wǎng)絡(luò)運(yùn)維邏輯架構(gòu)如圖2所示。
圖2 智能化運(yùn)維系統(tǒng)邏輯架構(gòu)圖
處于管理層的SDN控制器通過南向接口與網(wǎng)絡(luò)設(shè)備對接,完成對設(shè)備的管理。這些接口協(xié)議包括Telemetry的GRPC協(xié)議、SNMP協(xié)議、Syslog協(xié)議等。
大數(shù)據(jù)分析平臺具備滿足高速數(shù)據(jù)采集的大數(shù)據(jù)分析能力,同時結(jié)合分布式數(shù)據(jù)庫系統(tǒng)可以對各類注冊設(shè)備上報的海量實時數(shù)據(jù)進(jìn)行分布式計算、匯聚、存儲,實現(xiàn)多維度的檢索及統(tǒng)計查詢能力。
數(shù)據(jù)分析模塊的智能分析系統(tǒng)根據(jù)園區(qū)網(wǎng)絡(luò)的運(yùn)維場景,可向上層提供各類數(shù)據(jù)應(yīng)用分析服務(wù),例如連接類、空口性能類的智能識別及問題分析,漫游類、設(shè)備類的智能識別等。
基于Telemetry技術(shù)的智能化運(yùn)維可以有效進(jìn)行有線網(wǎng)絡(luò)及無線網(wǎng)絡(luò)的故障識別和原因分析。通過Telemetry從園區(qū)網(wǎng)絡(luò)中各類無線設(shè)備、有線設(shè)備獲得相關(guān)KPI數(shù)據(jù)并上報給網(wǎng)絡(luò)的SDN控制器,SDN控制器將上報數(shù)據(jù)進(jìn)行分類并利用AI算法進(jìn)行全網(wǎng)質(zhì)量的分析呈現(xiàn)和問題識別。
無線側(cè)的網(wǎng)絡(luò)數(shù)據(jù)主要從AP、射頻、用戶3個維度進(jìn)行網(wǎng)絡(luò)質(zhì)量的評價,同時結(jié)合AI算法以及相關(guān)性分析、異常模式等功能主動識別高干擾、高信道利用率、信號弱覆蓋等與空口性能及接入相關(guān)的問題。如表1所示。
表1 采用Telemetry采集無線網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)
有線側(cè)的網(wǎng)絡(luò)數(shù)據(jù)主要從設(shè)備、接口、鏈路三個維度進(jìn)行網(wǎng)絡(luò)質(zhì)量評價,同時結(jié)合CPU占用率和內(nèi)存利用率等進(jìn)行基線預(yù)測。通過對實時數(shù)據(jù)與預(yù)測基線的對比,可以對網(wǎng)絡(luò)指標(biāo)的優(yōu)劣進(jìn)行及時預(yù)判,從而實現(xiàn)主動網(wǎng)絡(luò)監(jiān)控、預(yù)測網(wǎng)絡(luò)異常,在故障發(fā)生前提前預(yù)警,讓運(yùn)維人員可以提前做出相關(guān)處置,避免網(wǎng)絡(luò)性能的進(jìn)一步劣化。如表2所示。
表2 采用Telemetry采集有線網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)
監(jiān)測對象 主要監(jiān)測指標(biāo) 設(shè)備類型接口 收/發(fā)包數(shù)、廣播包數(shù)、組播包數(shù)、丟包數(shù)、錯包數(shù)等交換機(jī)、WAC鏈路 光功率、電壓、電流、溫度等 交換機(jī)
對于以上各類網(wǎng)絡(luò)指標(biāo),SDN控制器通過訂閱、采集、緩存/分發(fā)、分析/運(yùn)算、存儲/顯示5個環(huán)節(jié)的數(shù)據(jù)處理流程,實現(xiàn)網(wǎng)絡(luò)監(jiān)測運(yùn)維從數(shù)據(jù)上報到頁面呈現(xiàn)全過程的管理。
訂閱階段,SDN控制器根據(jù)運(yùn)維人員的實際運(yùn)維需求,對不同的設(shè)備、不同的運(yùn)維邏輯通過多種組合方式獲得所需的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù),比如基于Syslog的用戶數(shù)據(jù)、基于Telemetry的設(shè)備/用戶性能數(shù)據(jù)、基于SNMP的設(shè)備管理數(shù)據(jù)等。SDN控制器訂閱完成后,由采集器對訂閱數(shù)據(jù)進(jìn)行采集,基于SNMP的數(shù)據(jù)采集可以達(dá)到分鐘級,而基于Telemetry技術(shù)可以實現(xiàn)秒級采集,真正做到“實時”采集。采集數(shù)據(jù)上傳至SDN控制器后,經(jīng)過分布式系統(tǒng)緩存分發(fā)至對應(yīng)的分析和運(yùn)算模塊,基于機(jī)器學(xué)習(xí)和AI算法等多種手段進(jìn)行智能化運(yùn)維研判。最終,將處理后的數(shù)據(jù)存儲并集中展示,為運(yùn)維人員提供智能化的支撐與服務(wù)。
通過以上模式,在時效、數(shù)據(jù)滿足度上建立最優(yōu)的大數(shù)據(jù)運(yùn)維支撐體系,直觀地呈現(xiàn)全網(wǎng)整體質(zhì)量,幫助運(yùn)維人員提升運(yùn)維效率和用戶體驗。同時,基于實時或周期性地自動生成網(wǎng)絡(luò)質(zhì)量評估報告,提供可以量化的網(wǎng)絡(luò)服務(wù),從而實現(xiàn)智能化的網(wǎng)絡(luò)運(yùn)維。
基于Telemetry技術(shù)的數(shù)據(jù)采集為智簡園區(qū)網(wǎng)絡(luò)的SDN控制器提供了實時、精準(zhǔn)、豐富的網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)。同時,基于可視化的技術(shù)方式,對整個園區(qū)網(wǎng)絡(luò)的有線、無線設(shè)備可以實時、有效、前瞻的進(jìn)行數(shù)據(jù)采集和呈現(xiàn),從而實現(xiàn)真正意義上的網(wǎng)絡(luò)運(yùn)維系統(tǒng)的智能化和自動化。