孫文華
摘 要:隨著計算機(jī)網(wǎng)絡(luò)應(yīng)用的不斷發(fā)展,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,且時常會出現(xiàn)一些網(wǎng)絡(luò)異常流量、非關(guān)鍵業(yè)務(wù)流量占用正常業(yè)務(wù)帶寬的情況。為更好地分析或監(jiān)控網(wǎng)絡(luò)帶寬的使用,直觀、精準(zhǔn)地掌握網(wǎng)絡(luò)和信息系統(tǒng)的運(yùn)維安全狀況、性能指標(biāo)、定位故障點(diǎn)及安全威脅源,就需要在實踐中探索基于網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)分析和系統(tǒng)安全狀況監(jiān)測。文章主要介紹了該平臺建設(shè)的設(shè)計原理、實現(xiàn)功能,旨在通過該平臺建設(shè)的實踐,提供網(wǎng)絡(luò)及應(yīng)用分析、監(jiān)測的一種實現(xiàn)思路。
關(guān)鍵詞:網(wǎng)絡(luò)管理;數(shù)據(jù)采集;流量分析;精細(xì)管理;Socket
隨著計算機(jī)網(wǎng)絡(luò)應(yīng)用的不斷發(fā)展,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,且時常會出現(xiàn)一些網(wǎng)絡(luò)異常流量、非關(guān)鍵業(yè)務(wù)流量占用正常業(yè)務(wù)帶寬以及偶爾出現(xiàn)一些莫名網(wǎng)絡(luò)間隙阻塞和業(yè)務(wù)故障,導(dǎo)致關(guān)鍵業(yè)務(wù)運(yùn)行服務(wù)質(zhì)量下降。本文通過對網(wǎng)絡(luò)流量分析平臺建設(shè)的探索,試圖摸索,加強(qiáng)業(yè)務(wù)管理,實現(xiàn)網(wǎng)絡(luò)精細(xì)化管理的新視角和新途徑。
1? ? 運(yùn)維中的新挑戰(zhàn)
近年來,隨著計算機(jī)網(wǎng)絡(luò)應(yīng)用不斷發(fā)展,各業(yè)務(wù)系統(tǒng)發(fā)展朝著集約化、高效化的方向發(fā)展,伴隨著各應(yīng)用系統(tǒng)的不斷擴(kuò)展和完善,對各應(yīng)用系統(tǒng)支持要求也越來越高,各應(yīng)用系統(tǒng)規(guī)模越來越大,架構(gòu)也越來越復(fù)雜,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,各應(yīng)用系統(tǒng)的后期維護(hù)管理顯得越來越重要。傳統(tǒng)的網(wǎng)絡(luò)和系統(tǒng)運(yùn)維管理,主要從各自的專業(yè)和視角,分析各自的客觀原因,必然存在以下現(xiàn)象:(1)量化困難:網(wǎng)絡(luò)接入線路多,缺乏實時有效手段來監(jiān)測線路帶寬使用率的變化,無法為帶寬擴(kuò)容提供精準(zhǔn)參照。(2)視角孤立:問題分析從各自專業(yè)出發(fā),難以統(tǒng)一觀點(diǎn),諸多分歧造成分析有效性下降。(3)數(shù)據(jù)粗放:缺乏精細(xì)化的網(wǎng)絡(luò)服務(wù)質(zhì)量評估數(shù)據(jù),異常問題被掩蓋,質(zhì)量提升難以體現(xiàn)。(4)排障緩慢:故障分析、定位大量消耗時間和人力資源,故障診斷價值隨時間推移大打折扣。
2? ? 基于網(wǎng)絡(luò)流量監(jiān)控分析平臺的設(shè)計
通過實踐,基于網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),研發(fā)了協(xié)議解碼技術(shù),充分利用可靠的網(wǎng)絡(luò)數(shù)據(jù)源,在網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)實時采集網(wǎng)絡(luò)數(shù)據(jù),呈現(xiàn)各項監(jiān)控指標(biāo),建立自主可控的流量監(jiān)控分析平臺,從而實現(xiàn)流量識別、帶寬占用、TCP連接等性能、負(fù)載量的全面可視化。
3? ? 網(wǎng)絡(luò)流量監(jiān)控分析平臺的構(gòu)成和原理
操作系統(tǒng)Red Hat Enterprise Linux 7.0/suse linux enterprise 11.0/CentOS 7.0、數(shù)據(jù)庫mongoDb、開發(fā)語言C及Javascript等。
網(wǎng)絡(luò)數(shù)據(jù)采集卡(Intel千兆網(wǎng)卡),運(yùn)用內(nèi)存零拷貝技術(shù),改寫網(wǎng)卡原有驅(qū)動程序的中斷處理機(jī)制,以提高網(wǎng)卡高性能的數(shù)據(jù)處理能力。
在需要監(jiān)控分析的交換機(jī)做端口鏡像,將網(wǎng)絡(luò)流量引流至網(wǎng)絡(luò)流量監(jiān)控分析平臺進(jìn)行處理。
利用網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),對業(yè)務(wù)的原始網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行實時捕獲、存儲??山Y(jié)合業(yè)務(wù)系統(tǒng)的開發(fā)規(guī)范,反向解碼應(yīng)用協(xié)議上層封裝的業(yè)務(wù)內(nèi)容。
對解碼后內(nèi)容進(jìn)行數(shù)據(jù)挖掘分析,通過Web實時展現(xiàn)業(yè)務(wù)系統(tǒng)的各項監(jiān)控指標(biāo),從而快速定位網(wǎng)絡(luò)或業(yè)務(wù)的可能故障,幫助快速定位或解決運(yùn)維問題。
4? ? 網(wǎng)絡(luò)監(jiān)控分析平臺實現(xiàn)的功能簡介
4.1? 實時流量
平臺可實時監(jiān)控統(tǒng)計網(wǎng)絡(luò)按IP流量分布、應(yīng)用流量分布。能幫助用戶快速找出何時出現(xiàn)網(wǎng)絡(luò)異常。所有統(tǒng)計信息都會以數(shù)據(jù)包數(shù)和字節(jié)數(shù)、帶寬大小和數(shù)據(jù)包大小來顯示。
4.2? 應(yīng)用流量排名
平臺能自動發(fā)現(xiàn)已知端口的應(yīng)用,如HTTP,F(xiàn)TP,DNS等,通過Socket來定義使用。通過識別發(fā)現(xiàn)對分布的應(yīng)用流量進(jìn)行排名,可及時統(tǒng)計當(dāng)前網(wǎng)絡(luò)中哪些應(yīng)用流量的網(wǎng)絡(luò)帶寬占比,對其是合法的流量還是非法的流量進(jìn)行快速鑒別。
4.3? 主機(jī)流量排名
平臺能對網(wǎng)絡(luò)主機(jī)的流量進(jìn)行實時的和歷史的統(tǒng)計分析,并提供排名功能,及時發(fā)現(xiàn)主機(jī)產(chǎn)生的網(wǎng)絡(luò)流量情況,特別是對產(chǎn)生網(wǎng)絡(luò)蠕蟲和攻擊流量的主機(jī)能快速識別。
4.4? 應(yīng)用訪問情況
平臺能對應(yīng)用的各類KPI指標(biāo)進(jìn)行分析,為運(yùn)維人員提供直觀的可視效果,從而降低運(yùn)維難度。
4.5 會話查找
平臺能夠查找指定時間范圍的所有應(yīng)用的通信流量信息,定義條件包括IP地址、TCP/UDP端口、IP地址組和地址段、端口組或范圍,以及多種條件的組合。
4.6? 網(wǎng)絡(luò)性能
平臺可實時查看監(jiān)控網(wǎng)絡(luò)的性能情況。此功能可以實時查看和統(tǒng)計監(jiān)控流量中TCP重傳、TCP Syn請求、TCP零窗口,TCP Fin、TCP新建連接數(shù)、TCP并發(fā)連接數(shù),網(wǎng)絡(luò)時延等。
4.7? DSCP性能分析
平臺可自動識別網(wǎng)絡(luò)流量的DSCP的值以及其流量占用帶寬大小,對網(wǎng)絡(luò)流量的QOS配置進(jìn)行驗證及策略調(diào)優(yōu)提供參照。
5? ? 網(wǎng)絡(luò)監(jiān)控分析平臺的實現(xiàn)價值
5.1? 故障分析
因本監(jiān)控分析平臺是基于交換機(jī)鏡像數(shù)據(jù)輸出實時存儲的分析系統(tǒng),是實時存儲監(jiān)控點(diǎn)的網(wǎng)絡(luò)全流量,對應(yīng)用實現(xiàn)秒級精度的實時監(jiān)控。當(dāng)出現(xiàn)異常事件時,可快速檢測和定位業(yè)務(wù)性能、可用性問題,解決間歇性網(wǎng)絡(luò)故障,并可快速回溯故障現(xiàn)場的數(shù)據(jù),對原始網(wǎng)絡(luò)數(shù)據(jù)長期記錄,方便歷史回溯分析。
5.2? 性能監(jiān)控
實時監(jiān)控網(wǎng)絡(luò)的性能狀態(tài),當(dāng)網(wǎng)絡(luò)出現(xiàn)異常時,及時發(fā)現(xiàn)異常變化,對重要的業(yè)務(wù),可實現(xiàn)自定義應(yīng)用監(jiān)控,可查看交易在各環(huán)節(jié)的處理及網(wǎng)絡(luò)時延,實時監(jiān)控交易高峰時專線帶寬的使用率,方便擴(kuò)容,保護(hù)投資。
5.3? 主動運(yùn)維
基于用戶端與服務(wù)器端的真實訪問數(shù)據(jù),實時監(jiān)控應(yīng)用的交互狀態(tài),對網(wǎng)絡(luò)底層的數(shù)據(jù)進(jìn)行分析,客觀反映網(wǎng)絡(luò)最真實情況。通過對網(wǎng)絡(luò)數(shù)據(jù)的進(jìn)一步挖掘,還可以實現(xiàn)智能化分析,自動并實時展現(xiàn)業(yè)務(wù)代碼級監(jiān)控數(shù)據(jù)。
5.4? 部署靈活
本平臺實現(xiàn)簡單,可通過網(wǎng)絡(luò),同時嗅探多個交換機(jī)鏡像口,對網(wǎng)絡(luò)設(shè)備無依賴、兼容性強(qiáng),部署、使用靈活。