張洪凱
【摘要】? ? 面對大規(guī)模、高性能的網(wǎng)絡(luò)監(jiān)控需求,用戶需要一種新的網(wǎng)絡(luò)監(jiān)控方式。遙測技術(shù)可以滿足用戶要求,支持運維系統(tǒng)對監(jiān)控設(shè)備的全量指標(biāo)采集、監(jiān)控數(shù)據(jù)擁有更高精度和更加實時、監(jiān)控過程對設(shè)備自身功能和性能影響小,為網(wǎng)絡(luò)問題的快速定位、網(wǎng)絡(luò)質(zhì)量優(yōu)化調(diào)整提供了最重要的大數(shù)據(jù)基礎(chǔ),將網(wǎng)絡(luò)質(zhì)量分析轉(zhuǎn)換為大數(shù)據(jù)分析,有力的支撐了云網(wǎng)絡(luò)精細和智能運維的需要。通過Telemetry協(xié)議直接從底層硬件秒級獲取豐富的業(yè)務(wù)運行狀態(tài)及性能數(shù)據(jù),全景可視化展示云數(shù)據(jù)中心網(wǎng)絡(luò)的整體運行情況,豐富的業(yè)務(wù)流示圖為云網(wǎng)絡(luò)精細運維、敏捷響應(yīng)及優(yōu)化提供有力數(shù)據(jù)支撐,助力網(wǎng)絡(luò)智能運維。
【關(guān)鍵字】? ? 遙測技術(shù)? ? 網(wǎng)絡(luò)? ? 云數(shù)據(jù)中心
一、數(shù)據(jù)中心向云數(shù)據(jù)中心轉(zhuǎn)變,網(wǎng)絡(luò)復(fù)雜度不斷增加。
當(dāng)今,數(shù)字經(jīng)濟蓬勃發(fā)展,信息技術(shù)已深度融合到經(jīng)濟社會的各個領(lǐng)域,各種互聯(lián)網(wǎng)應(yīng)用像支付、打車、外賣等應(yīng)用,都正在融入并改變?nèi)藗兊墓ぷ骷吧罘绞?。這些互聯(lián)網(wǎng)應(yīng)用的穩(wěn)定運行越發(fā)顯得重要,作為承載互聯(lián)網(wǎng)應(yīng)用的云數(shù)據(jù)中心網(wǎng)絡(luò),任何一條線路及系統(tǒng)故障都有可能對用戶產(chǎn)生嚴重影響。電信運營商作為大型云數(shù)據(jù)中心網(wǎng)絡(luò)提供商,面對用戶流量需求爆炸式增長和復(fù)雜多樣的網(wǎng)絡(luò)需求,也以云和數(shù)據(jù)中心為抓手,積極構(gòu)建支撐數(shù)字經(jīng)濟發(fā)展的穩(wěn)固基礎(chǔ)底座。
然而隨云計算、大數(shù)據(jù)、人工智能等新技術(shù)的興起和成熟,也推動了互聯(lián)網(wǎng)數(shù)據(jù)中心產(chǎn)品、規(guī)模和技術(shù)的快速升級和轉(zhuǎn)型。
首先,網(wǎng)絡(luò)規(guī)模不斷擴大,云數(shù)據(jù)中心接入帶寬從傳統(tǒng)的10Gbps升級到25Gbps/100Gbps,出口帶寬達到10Tbps以上。
其次,網(wǎng)絡(luò)架構(gòu)復(fù)雜度增加,引入SDN(Software Defined Network,軟件定義網(wǎng)絡(luò)),實現(xiàn)傳統(tǒng)網(wǎng)絡(luò)資源、服務(wù)器資源及存儲資源的云網(wǎng)一體化整合。
最后,越來越多的高性能和低時延應(yīng)用,如GPU、HPC、AI等業(yè)務(wù)嚴重依賴數(shù)據(jù)中心網(wǎng)絡(luò)傳輸質(zhì)量,對網(wǎng)絡(luò)性能提出更高帶寬容量、更低時延的連接要求。
二、云數(shù)據(jù)中心網(wǎng)絡(luò)運維面臨的挑戰(zhàn)
云數(shù)據(jù)中心網(wǎng)絡(luò)的設(shè)備規(guī)模日益增大,承載的業(yè)務(wù)越來越多,用戶對網(wǎng)絡(luò)運維也提出了更高的要求,包括監(jiān)控數(shù)據(jù)擁有更高的精度以便及時檢測和快速調(diào)整微突發(fā)流量,同時監(jiān)控過程要對設(shè)備自身功能和性能影響小,以便提高設(shè)備和網(wǎng)絡(luò)的利用率,特別是云網(wǎng)一體的融合網(wǎng)絡(luò),對Underlay和Overlay網(wǎng)絡(luò)的運維都提出了更高的挑戰(zhàn)。如何保障其穩(wěn)定、可靠及可控運行。
從運維角度,需要更加精細、智能的網(wǎng)絡(luò)運維監(jiān)控系統(tǒng),才能實現(xiàn)對網(wǎng)絡(luò)高效管理。如何建立端到端的業(yè)務(wù)可視運維系統(tǒng),建立智能化的監(jiān)控中心,構(gòu)建高效、精細地管理云數(shù)據(jù)中心,為業(yè)務(wù)提供可靠、穩(wěn)定的網(wǎng)絡(luò)服務(wù),成為云數(shù)據(jù)中心網(wǎng)絡(luò)運維面臨的一大挑戰(zhàn)。
然而,傳統(tǒng)基于CLI、SNMP機制的被動運維模式,因存在通過拉模式來獲取設(shè)備的監(jiān)控數(shù)據(jù),不能監(jiān)控大量網(wǎng)絡(luò)節(jié)點,限制了網(wǎng)絡(luò)增長;精度是分鐘級別,只能依靠加大查詢頻度來提升獲取數(shù)據(jù)的精度,但是這樣會導(dǎo)致網(wǎng)絡(luò)節(jié)點CPU利用率高而影響設(shè)備的正常功能;由于網(wǎng)絡(luò)傳輸時延的存在,監(jiān)控到的網(wǎng)絡(luò)節(jié)點數(shù)據(jù)并不準確。這種被動響應(yīng)、故障定位遲緩等網(wǎng)絡(luò)監(jiān)控系統(tǒng),管理效率越來越低,已無法跟上時代的步伐,無法滿足數(shù)據(jù)中心云網(wǎng)絡(luò)運維要求。
因此,面對大規(guī)模、高性能的網(wǎng)絡(luò)監(jiān)控需求,用戶需要一種新的網(wǎng)絡(luò)監(jiān)控方式。能夠在不影響設(shè)備的性能和功能的情況下實現(xiàn)更高精度的網(wǎng)絡(luò)數(shù)據(jù)監(jiān)控。能夠快速、精準地掌握全網(wǎng)設(shè)備、鏈路和業(yè)務(wù)的實時運行狀態(tài),可以通過自動化平臺收集信息,快速對網(wǎng)絡(luò)進行適配,提升響應(yīng)速度和運維效率。
針對影響業(yè)務(wù)體驗、用戶感知的性能問題如丟包、卡頓等故障,需快速根據(jù)轉(zhuǎn)發(fā)路徑時延情況確定故障點。因此,云數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控系統(tǒng)需快速定位哪臺網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備的哪個端口發(fā)生丟包、實時監(jiān)控每臺設(shè)備的Buffer、流量等使用情況、快速定位故障的具體設(shè)備、轉(zhuǎn)發(fā)路徑、故障端口、故障鏈路等信息,迅速找出故障根因并修復(fù)。
網(wǎng)絡(luò)遙測技術(shù)可以滿足這些網(wǎng)絡(luò)管理要求,其監(jiān)控數(shù)據(jù)擁有秒級的精度時時檢測和快速調(diào)整微突發(fā)流量,同時監(jiān)控過程對設(shè)備自身功能和性能影響小,大大提高設(shè)備和網(wǎng)絡(luò)的利用率,為智能運維系統(tǒng)管理更多的設(shè)備提供了可能,其高效的數(shù)據(jù)獲取方式和海量的運行數(shù)據(jù),為網(wǎng)絡(luò)故障的快速定位、網(wǎng)絡(luò)運行質(zhì)量優(yōu)化提供了最關(guān)鍵的大數(shù)據(jù)基礎(chǔ),通過對大量網(wǎng)絡(luò)運行數(shù)據(jù)的大數(shù)據(jù)分析,可快速定位故障根因,為網(wǎng)絡(luò)故障的修復(fù)和網(wǎng)絡(luò)質(zhì)量的優(yōu)化提供決策依據(jù),為業(yè)務(wù)網(wǎng)絡(luò)流量實現(xiàn)智能調(diào)度,從而支撐云數(shù)據(jù)中心網(wǎng)絡(luò)的智能運維。
三、網(wǎng)絡(luò)遙測技術(shù)概述
網(wǎng)絡(luò)遙測(Network Telemetry)是一種從虛擬設(shè)備或物理設(shè)備上遠程采集運行狀態(tài)數(shù)據(jù)的技術(shù),并且具有實時、高速、準確的特點。被控設(shè)備通過推送模式根據(jù)采集周期、采集表項主動向采集控制器發(fā)送性能和流量數(shù)據(jù)。相對傳統(tǒng)拉取模式的一問一答式交互,網(wǎng)絡(luò)遙測技術(shù)提供了更實時、更豐富、更高速的數(shù)據(jù)采集功能。不但節(jié)省了問答式網(wǎng)絡(luò)鏈路開銷,更是以秒級速度實現(xiàn)對被控設(shè)備運行數(shù)據(jù)的高速收集,實時感知網(wǎng)絡(luò)運行狀態(tài)。遙測技術(shù)是設(shè)備交換芯片在處理數(shù)據(jù)包的同時,根據(jù)報文轉(zhuǎn)發(fā)路徑自行收集性能參數(shù)和流量狀態(tài)的一種帶內(nèi)網(wǎng)絡(luò)技術(shù)INT(In-band Network Telemetry)。狹義的Telemetry是指設(shè)備特性,廣義的為是一個閉環(huán)的監(jiān)控系統(tǒng)事實上,Telemetry并不是新發(fā)明,Netstream和NetFlow早已實現(xiàn)了對網(wǎng)絡(luò)流量的采樣推送,但此類技術(shù)推送的是原始數(shù)據(jù)流采樣信息,它根據(jù)報文的目的IP、目的端口號、源ip地址、源端口號、協(xié)議號和tos來區(qū)分流信息,并針對不同的流信息進行獨立的數(shù)據(jù)統(tǒng)計。而監(jiān)控用戶期望標(biāo)準化的數(shù)據(jù)模型。面對海量的云數(shù)據(jù)中心網(wǎng)絡(luò),任意一項分析任務(wù)都需要處理大量數(shù)據(jù),對分析工具的性能帶來挑戰(zhàn)。同時,此類技術(shù)獲取不了全量網(wǎng)絡(luò)狀態(tài)信息,如cpu、內(nèi)存、接口流量及網(wǎng)絡(luò)事件日志等,需要snmp類協(xié)議采用查詢應(yīng)答方式機制實現(xiàn)分鐘級數(shù)據(jù)收集,存在被動響應(yīng)、效率低下和采集手段復(fù)雜等特點。網(wǎng)絡(luò)遙測技術(shù)和SNMP、NETstream等技術(shù)相比,可實現(xiàn)更高的數(shù)據(jù)精度和更豐富的設(shè)備監(jiān)控數(shù)據(jù)獲取能力。
四、遙測技術(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用
基于遙測技術(shù)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)由被管理的網(wǎng)絡(luò)設(shè)備、采集器、控制器和分析器組成,采用INT和gRPC(Google Remote Procedure Call,谷歌遠程過程調(diào)用)技術(shù)架構(gòu)方案實現(xiàn)。
采集器主要實現(xiàn)對被管理網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)收集,常常采用分布式部署,其規(guī)模根據(jù)被管理網(wǎng)絡(luò)設(shè)備規(guī)模確定。控制器是對采集器及采集對象表項、周期和參數(shù)的統(tǒng)一控制。分析器是對采集器上報的數(shù)據(jù)進行整體的編碼及分析。
INT遙測技術(shù)采用訂閱上報機制,通過設(shè)備底層芯片秒級收集網(wǎng)絡(luò)轉(zhuǎn)發(fā)運行數(shù)據(jù),不占用設(shè)備cpu開銷,隨業(yè)務(wù)流轉(zhuǎn)發(fā)路徑實時檢測。數(shù)據(jù)收集范圍涵蓋了網(wǎng)絡(luò)設(shè)備的轉(zhuǎn)發(fā)面、控制面和管理面。但是無法對交換機的Buffer進行全面的管理,包括出、入端口/隊列、緩存、丟包等實時監(jiān)控,顯得有些無力。
于是,采用gRPC框架構(gòu)建自動化運維接口,實現(xiàn)對交換機Buffer的全面實時管理,基于gRPC的運維接口設(shè)計,既滿足運維對單個網(wǎng)絡(luò)網(wǎng)元全面的Buffer實時性要求,又實現(xiàn)實現(xiàn)交換機與運維平臺的解耦合,彼此透明、獨立。通過對監(jiān)控對象設(shè)備原始數(shù)據(jù)的收集、編碼、傳輸、存儲和分析,基于遙測技術(shù)的網(wǎng)絡(luò)運維系統(tǒng)實現(xiàn)傳統(tǒng)運維向智能運維的轉(zhuǎn)變,包括3方面的核心能力:
4.1 Telemetry全場景數(shù)據(jù)監(jiān)控,網(wǎng)絡(luò)實時可視
采集器基于Telemetry協(xié)議收集設(shè)備、芯片、表項、Buffer、光模塊等網(wǎng)絡(luò)全景KPI數(shù)據(jù),網(wǎng)絡(luò)狀態(tài)實時感知。各項采集數(shù)據(jù)通過采集器以PUSH+gRPC方式把各種指標(biāo)結(jié)構(gòu)化的標(biāo)準數(shù)據(jù)持續(xù)推流分析器,通過數(shù)據(jù)分析,實現(xiàn)云數(shù)據(jù)中心全流量數(shù)據(jù)可視和隨流的路徑、質(zhì)量檢測。
4.2系統(tǒng)亞健康智能分析,主動預(yù)防故障
分析器通過采集器收集的設(shè)備關(guān)鍵KPI指標(biāo),從設(shè)備、單板、芯片、端口、隊列、光模塊多個維度呈現(xiàn)設(shè)備的運行狀況。采用大數(shù)據(jù)算法,基于動態(tài)異?;€監(jiān)測,識別網(wǎng)絡(luò)劣化指標(biāo)。分析器利用大數(shù)據(jù)技術(shù),結(jié)合故障特征庫進行跨數(shù)據(jù)領(lǐng)域關(guān)聯(lián)分析,對光鏈路進行故障檢修和故障概率測算,先于業(yè)務(wù)受影響前識別出異常光鏈路。提前發(fā)現(xiàn)隱患、預(yù)測故障。
通過設(shè)備、網(wǎng)絡(luò)、協(xié)議、overlay、業(yè)務(wù)五個維度實時或周期性產(chǎn)生網(wǎng)絡(luò)評估報表,全面掌握網(wǎng)絡(luò)狀態(tài),實時推送。實現(xiàn)故障的主動防御,在用戶發(fā)覺問題前將問題解決,避免對業(yè)務(wù)造成影響。
4.3利用網(wǎng)絡(luò)流實現(xiàn)故障根因的快速定位
大型云數(shù)據(jù)中心,往往是一個云網(wǎng)融合的網(wǎng)絡(luò),既又由交換機、路由器等物理硬件組成的物理underlay網(wǎng)絡(luò),也有在underlay網(wǎng)絡(luò)上為業(yè)務(wù)或用戶構(gòu)建邏輯隔離的虛擬overlay網(wǎng)絡(luò)空間,其網(wǎng)絡(luò)架構(gòu)復(fù)雜,技術(shù)堆棧層次多,對故障的識別帶來極大困難。特別是一些對網(wǎng)絡(luò)延遲要求較高的業(yè)務(wù),如高性能計算、人工智能等微服務(wù)軟件和分布式架構(gòu),業(yè)務(wù)調(diào)研關(guān)系更加復(fù)雜,數(shù)據(jù)交換更頻繁。出現(xiàn)故障后,對故障的響應(yīng)和定位要求更高。
通過遙測技術(shù)可快速獲取業(yè)務(wù)流檢測信息,構(gòu)建起租戶到資源端到端數(shù)據(jù)流可視系統(tǒng),任何一條數(shù)據(jù)流包括了報文轉(zhuǎn)發(fā)路徑信息、開始時間和結(jié)束時間、傳輸開銷、路徑時延遲、延遲時延等關(guān)鍵控制信息。對獲取的大量業(yè)務(wù)流信息,根據(jù)業(yè)務(wù)overlay路徑搭建模型,實現(xiàn)業(yè)務(wù)承載網(wǎng)絡(luò)的路徑流向分析,從而實現(xiàn)故障的智能識別。當(dāng)業(yè)務(wù)出現(xiàn)指標(biāo)劣化、訪問緩慢、交易失敗等性能問題時能及時感知,故障時能在各環(huán)境和節(jié)點快速定位找出根由。通過對故障分析,持續(xù)推動對網(wǎng)絡(luò)的迭代優(yōu)化,完善網(wǎng)絡(luò)環(huán)境。在各節(jié)點、各服務(wù)運行環(huán)境的SLA一覽無余。通過利用業(yè)務(wù)流跟蹤計算路徑和時延,系統(tǒng)實現(xiàn)故障快速故定位。
五、總結(jié):
基于帶內(nèi)網(wǎng)絡(luò)遙測技術(shù)和谷歌遠程調(diào)用框架的遙測技術(shù)實現(xiàn)業(yè)務(wù)端到端的網(wǎng)絡(luò)流量可視化,提升了網(wǎng)絡(luò)監(jiān)控數(shù)據(jù)的實時性和精確度,以業(yè)務(wù)流的方式實現(xiàn)對云數(shù)據(jù)中心網(wǎng)絡(luò)的智能監(jiān)控,保障業(yè)務(wù)穩(wěn)定、可靠運行,助力數(shù)字經(jīng)濟蓬勃發(fā)展。