趙保珠 李楠 張家慧 魏正榮 陳大衛(wèi)
(國網(wǎng)上海信通公司 上海市 200072)
傳統(tǒng)的分組網(wǎng)絡(luò)運(yùn)維,由于配置、拓?fù)?、鏈路狀態(tài)等網(wǎng)絡(luò)性能指標(biāo)不可視化,無論是處理網(wǎng)絡(luò)故障,還是變更調(diào)整業(yè)務(wù),嚴(yán)重依賴運(yùn)維人員的經(jīng)驗(yàn)?zāi)芰σ约皬臉I(yè)人員的責(zé)任心,配置記錄缺失錯漏、人為失誤等都極易造成網(wǎng)絡(luò)中斷的事故,這為網(wǎng)絡(luò)留下了大量隱患。加上業(yè)務(wù)、網(wǎng)絡(luò)、IT等系統(tǒng)互相獨(dú)立,需要分別維護(hù),部門間互相協(xié)調(diào)配合,效率低。隨著業(yè)務(wù)的增加,網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,業(yè)務(wù)系統(tǒng)變得復(fù)雜,維護(hù)效率越來越低,運(yùn)維人員身累心也累,業(yè)務(wù)部門由于業(yè)務(wù)受影響,抱怨也難以避免。于是SDN,大數(shù)據(jù)運(yùn)維,運(yùn)維AI等技術(shù)不斷涌現(xiàn),大大提高了網(wǎng)絡(luò)的運(yùn)維效率。但是SDN等技術(shù)的部署和應(yīng)用,離不開對于網(wǎng)絡(luò)實(shí)際狀態(tài)的感知,實(shí)時(shí)性越高、精度越高,控制器對網(wǎng)絡(luò)的分析控制、變更調(diào)整也就越準(zhǔn)確。由此,Telemetry技術(shù)應(yīng)運(yùn)而生,它可以實(shí)時(shí)、準(zhǔn)確、快速地采集到有關(guān)網(wǎng)絡(luò)運(yùn)行的各類數(shù)據(jù),并加以分析處理,同時(shí),將數(shù)據(jù)傳遞給網(wǎng)絡(luò)控制器,實(shí)現(xiàn)網(wǎng)絡(luò)的精確調(diào)優(yōu)等。
2021年5月至2021年6月,國網(wǎng)上海市電力公司信息通信公司聯(lián)合深圳市特發(fā)泰科通信科技有限公司組織開展了“基于切片分組網(wǎng)SPN技術(shù)的虛擬電廠多業(yè)務(wù)智慧融合承載平臺”科技創(chuàng)新項(xiàng)目實(shí)施。通過實(shí)驗(yàn)網(wǎng)絡(luò),從業(yè)務(wù)的角度研究驗(yàn)證了SPN網(wǎng)絡(luò)技術(shù)承載虛擬電廠業(yè)務(wù)的可行性。SPN作為電力融合通信的承載網(wǎng)絡(luò),其網(wǎng)絡(luò)的運(yùn)維管理能力必須高效可靠。SPN的運(yùn)維管理,將融合大數(shù)據(jù)運(yùn)維、運(yùn)維AI等新技術(shù),采用SDN為架構(gòu),由此需要一種能夠?qū)崟r(shí)、準(zhǔn)確、快速地采集到有關(guān)網(wǎng)絡(luò)運(yùn)行的各類數(shù)據(jù)的技術(shù),為上層的SDN應(yīng)用、控制提供數(shù)據(jù)支撐。就目前來看,telemetry是最值得關(guān)注的技術(shù)。
Telemetry技術(shù)到底是一個什么樣的技術(shù)呢?簡單來說,Telemetry技術(shù)是一項(xiàng)遠(yuǎn)程的從物理設(shè)備或虛擬設(shè)備上高速采集數(shù)據(jù)的技術(shù),且采集顆粒度精細(xì),采集數(shù)據(jù)種類多而全面,同時(shí)設(shè)備通過推模式(Push Mode)周期性滴主動向采集器上送設(shè)備的狀態(tài)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù),相對傳統(tǒng)拉模式(Pull Mode)的一問一答式交互,TELEMETRY提供了更高效、實(shí)時(shí)、精確的數(shù)據(jù)采集功能。
TELEMETRY技術(shù)作為一個網(wǎng)絡(luò)監(jiān)測技術(shù),分為網(wǎng)絡(luò)設(shè)備側(cè)和網(wǎng)管系統(tǒng)側(cè)兩大部分,對于網(wǎng)絡(luò)設(shè)備側(cè),TELEMETRY負(fù)責(zé)采集設(shè)備狀態(tài)和統(tǒng)計(jì)數(shù)據(jù),推送給網(wǎng)管系統(tǒng)側(cè)。TELEMETRTY按照YANG模型組織數(shù)據(jù),利用GPB格式編碼,并通過GRPC協(xié)議傳輸數(shù)據(jù),數(shù)據(jù)獲取更高效,對接更便捷;對于網(wǎng)管系統(tǒng)側(cè),telemetry技術(shù)負(fù)責(zé)接收和存貯網(wǎng)絡(luò)設(shè)備側(cè)上報(bào)的數(shù)據(jù),經(jīng)過分析器分析后為網(wǎng)絡(luò)配置調(diào)整和流量優(yōu)化提供依據(jù)。telemetry技術(shù)原理框圖如圖1所示。
圖1:telemetry技術(shù)原理框圖
相比較傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控技術(shù),telemetry具備幾大優(yōu)勢:
(1)Telemetry的實(shí)時(shí)性更好。SNMP通常的監(jiān)控?cái)?shù)據(jù)的采集周期為5分鐘(分鐘級),采集的數(shù)據(jù)通過網(wǎng)絡(luò)傳輸后,還會受到網(wǎng)絡(luò)傳輸時(shí)延影響,導(dǎo)致實(shí)時(shí)性差,不能反映網(wǎng)絡(luò)的微沖突。而telemetry為亞秒級,推送的采集報(bào)文內(nèi)含時(shí)間戳,所以不受網(wǎng)絡(luò)傳輸時(shí)延影響,能反映出具體時(shí)間點(diǎn)的可觀數(shù)據(jù)、事件,亞秒級的推送周期,也能更好、更真實(shí)地診斷出網(wǎng)絡(luò)的微沖突。另外,拉模式很難支持超大規(guī)模網(wǎng)絡(luò),而telemetry則能夠支持大規(guī)模網(wǎng)絡(luò)的實(shí)時(shí)監(jiān)控。
(2)Telemetry的采集數(shù)據(jù)更全面。Telemetry可以采集網(wǎng)絡(luò)流量數(shù)據(jù)、控制平面數(shù)據(jù)、管理平面數(shù)據(jù),涵蓋了網(wǎng)絡(luò)運(yùn)營過程的全部數(shù)據(jù)。而傳統(tǒng)的運(yùn)維管理技術(shù),需要多種工具協(xié)同,還存在監(jiān)控的數(shù)據(jù)死角。比如NetStream、sFlow只能監(jiān)控網(wǎng)絡(luò)流量數(shù)據(jù),對控制平面數(shù)據(jù)就無能為力,syslog則是監(jiān)控網(wǎng)絡(luò)事件,做不了其它。Telemetry支持采集和分析的數(shù)據(jù)包括:設(shè)備、單板、芯片、接口、隊(duì)列、光鏈路等等。
(3)Telemetry的效率更高。傳統(tǒng)廣泛使用的SNMP和CLI,是采用“拉模式”,需要網(wǎng)管設(shè)備發(fā)出查詢申請,網(wǎng)絡(luò)設(shè)備進(jìn)行報(bào)文解析,然后再依據(jù)網(wǎng)管申請作出應(yīng)答,對網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備的資源消耗大,性能要求高。而telemetry則采用“推模式”,網(wǎng)管設(shè)備向網(wǎng)絡(luò)端訂閱需要采集上報(bào)的數(shù)據(jù)類型、頻度等,網(wǎng)絡(luò)設(shè)備主動上報(bào)。且一次訂閱,長期運(yùn)行,簡化了查詢申請和報(bào)文解析的過程,因此效率更高,也減少了對網(wǎng)絡(luò)設(shè)備資源的消耗。如圖2所示。
圖2:SNMP與telemetry信息采集模式對比
(4)Telemetry的數(shù)據(jù)更加標(biāo)準(zhǔn)。Telemetry采用GPB對采集的數(shù)據(jù)進(jìn)行編碼,采用YANG模型對采集到的數(shù)據(jù)進(jìn)行建模處理,并通過GRPC(Google Procedure Call Protocol)協(xié)議傳輸數(shù)據(jù),使得數(shù)據(jù)的獲取更高效,智能對接更便捷。且標(biāo)準(zhǔn)化的數(shù)據(jù)模型,也有利于網(wǎng)絡(luò)的擴(kuò)展。而傳統(tǒng)的CLI,Syslog等都無明確的數(shù)據(jù)模型要求,擴(kuò)展性差。如圖3所示。
圖3:telemetry的數(shù)據(jù)標(biāo)準(zhǔn)化
狹義的telemetry僅指網(wǎng)絡(luò)設(shè)備支持telemetry數(shù)據(jù)采集的功能,但是,廣義的telemetry還包含了對采集的數(shù)據(jù)進(jìn)行存儲、分析以及以及控制等應(yīng)用。由telemetry快速精準(zhǔn)地掌握網(wǎng)絡(luò)實(shí)時(shí)狀況,為上層的管理、控制、應(yīng)用服務(wù)賦能,實(shí)現(xiàn)智能的管理運(yùn)維、流量調(diào)優(yōu)、端到端的性能實(shí)時(shí)監(jiān)控等應(yīng)用。采用telemetry技術(shù)后的網(wǎng)絡(luò)架構(gòu)后,網(wǎng)絡(luò)模型將如圖4所示。
圖4:基于telemetry技術(shù)的網(wǎng)絡(luò)新架構(gòu)后
Telemetry技術(shù)為智能運(yùn)維賦能,有一個重要應(yīng)用,就是網(wǎng)絡(luò)流量的自動調(diào)優(yōu),這也能大大提升網(wǎng)絡(luò)的運(yùn)維配置效率和網(wǎng)絡(luò)的健壯性。智能運(yùn)維系統(tǒng)包括分析器、采集器和控制器等,采集器利用TELEMETRY技術(shù)采集IP網(wǎng)絡(luò)設(shè)備的帶寬利用等數(shù)據(jù),然后發(fā)給分析器進(jìn)行分析決策,分析器將決策結(jié)果發(fā)送給控制器,進(jìn)而由控制器調(diào)整流量轉(zhuǎn)發(fā)路徑。得益于Telemetry技術(shù)高效、精確、實(shí)時(shí)數(shù)據(jù)采集功能,用戶對流量路徑的變化真正做到無感知,大幅提升用戶體驗(yàn)!如圖5所示。
圖5:基于telemetry實(shí)現(xiàn)網(wǎng)絡(luò)調(diào)優(yōu)
Telemetry的另一大應(yīng)用就是實(shí)現(xiàn)Inband-OAM,即帶內(nèi)業(yè)務(wù)質(zhì)量檢測。由于Inband-OAM是基于真實(shí)業(yè)務(wù)流做出網(wǎng)絡(luò)業(yè)務(wù)質(zhì)量檢測,相比傳統(tǒng)的方式更加準(zhǔn)確高效。而端到端的業(yè)務(wù)質(zhì)量實(shí)時(shí)監(jiān)控能力,則是其帶來的又一大提升。如圖6所示。
圖6:Inband OAM(帶內(nèi)業(yè)務(wù)質(zhì)量檢測)
國網(wǎng)上海市電力公司信息通信公司在進(jìn)行SPN電力通信承載網(wǎng)試點(diǎn)驗(yàn)證業(yè)務(wù)承載能力的同時(shí),也對網(wǎng)絡(luò)的telemetry技術(shù)和OAM進(jìn)行了能力測試。重點(diǎn)測試了網(wǎng)管對網(wǎng)絡(luò)性能監(jiān)控的準(zhǔn)確性、監(jiān)控參數(shù)、以及流量調(diào)優(yōu)應(yīng)用能力等。
測試項(xiàng)目1:驗(yàn)證設(shè)備是否支持telemetry功能,網(wǎng)管可以通過訂閱的方式獲取網(wǎng)絡(luò)性能參數(shù),報(bào)文符合規(guī)范:
如圖7所示搭建測試組網(wǎng),完成相關(guān)配置,被測設(shè)備與服務(wù)器之間建立Telemetry會話,以CPU和內(nèi)存為例來進(jìn)行驗(yàn)證(期待結(jié)果:設(shè)備可以通過Telemetry協(xié)議接口主動將CPU利用率、內(nèi)存利用率推送到服務(wù)器)。
圖7:telemetry驗(yàn)證測試組網(wǎng)圖
驗(yàn)證結(jié)論:設(shè)備支持性能上報(bào)接口telemetry功能,抓包分析設(shè)備上報(bào)的telemetry報(bào)文符合規(guī)范。
測試項(xiàng)目2:驗(yàn)證測試基于telemetry的In-band OAM的端到端和逐跳性能監(jiān)控能力:
在上海電力實(shí)驗(yàn)室配置5臺SPN設(shè)備,部署端到端HOVPN業(yè) 務(wù),NE26/NE39/NE63為UPE,NE61為SPE,NE62為NPE,依次部署NE26-NE62端到端和逐跳IOAM實(shí)例64個,通過儀表測試(思博倫)結(jié)果和網(wǎng)管上報(bào)結(jié)果,對比驗(yàn)證IOAM的性能。
驗(yàn)證結(jié)論:試驗(yàn)設(shè)備支持端到端監(jiān)測實(shí)例為64個。在測試結(jié)果上,制造的丟包書、IOAM實(shí)例的總丟包數(shù)和儀表每條的總丟包數(shù)一致,差值為0個;丟包流結(jié)果絕對偏差不超過+/-3%,串入10km和20km光纖,IOAM實(shí)例的平均時(shí)延和儀表平均時(shí)延偏差不超過+/-10%。
測試項(xiàng)目3:驗(yàn)證基于流量擁塞的自動路徑優(yōu)化功能,在各種流量分析數(shù)據(jù)中優(yōu)選,近似于業(yè)務(wù)真實(shí)流量,隧道可以基于流量信息自動進(jìn)行優(yōu)化路徑。
部署源深和靈石路之間的SR-TP隧道1和SR-TP隧道2,隧道均為無保護(hù)隧道,配置帶寬CIR為0,采用負(fù)載均衡算路策略;儀表分別為隧道1和隧道2 加載3G流量;控制器開啟基于流量的調(diào)優(yōu)功能,流量采集時(shí)間周期配置為15min,全局擁塞閾值配置為10%。等待至少2個流量采集周期后,查看控制器自動調(diào)優(yōu)結(jié)果(期待結(jié)果:隧道1和隧道2的路徑相同,預(yù)期均走的橙色實(shí)線路徑)。
驗(yàn)證結(jié)論:經(jīng)過數(shù)次測試驗(yàn)證,隧道1和隧道2均能完成路徑切換,測試網(wǎng)絡(luò)具備基于流量調(diào)優(yōu)的功能。
Telemetry技術(shù)可以滿足用戶要求,支持智能運(yùn)維系統(tǒng)管理更多的設(shè)備、監(jiān)控?cái)?shù)據(jù)擁有更高精度和更加實(shí)時(shí)、監(jiān)控過程對設(shè)備自身功能和性能影響小,為網(wǎng)絡(luò)問題的快速定位、網(wǎng)絡(luò)質(zhì)量優(yōu)化調(diào)整提供了最重要的大數(shù)據(jù)基礎(chǔ),將網(wǎng)絡(luò)質(zhì)量分析轉(zhuǎn)換為大數(shù)據(jù)分析,不僅能提升分組網(wǎng)絡(luò)的可運(yùn)維能力,還有力地支撐了分組網(wǎng)絡(luò)智能運(yùn)維的實(shí)現(xiàn)。telemetry的數(shù)據(jù)采集能力、性能監(jiān)測能力、流量調(diào)優(yōu)能力等,在本次項(xiàng)目中已經(jīng)得到了初步的測試驗(yàn)證,有助于提升分組網(wǎng)絡(luò)運(yùn)維能力和網(wǎng)絡(luò)性能。
Telemetry技術(shù),其精準(zhǔn)的數(shù)據(jù)采集能力,可以幫助SDN實(shí)現(xiàn)無感的擁塞流量調(diào)優(yōu);其實(shí)時(shí)數(shù)據(jù)采集能力,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)流量的微突發(fā)檢測,避免微突發(fā)流量帶來的丟包與重傳,提升網(wǎng)絡(luò)性能;全面的數(shù)據(jù)采集則可以打開網(wǎng)絡(luò)黑盒,提升分組網(wǎng)絡(luò)的可運(yùn)維能力和性能。Telemetry技術(shù)帶來的網(wǎng)絡(luò)數(shù)據(jù)“可觀測性”,在網(wǎng)絡(luò)安全方面也有很大的應(yīng)用空間。未來,Telemetry技術(shù)必將得到更多的具體應(yīng)用。