孫文華
摘 要:隨著計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用的不斷發(fā)展,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,且時(shí)常會(huì)出現(xiàn)一些網(wǎng)絡(luò)異常流量、非關(guān)鍵業(yè)務(wù)流量占用正常業(yè)務(wù)帶寬的情況。為更好地分析或監(jiān)控網(wǎng)絡(luò)帶寬的使用,直觀、精準(zhǔn)地掌握網(wǎng)絡(luò)和信息系統(tǒng)的運(yùn)維安全狀況、性能指標(biāo)、定位故障點(diǎn)及安全威脅源,就需要在實(shí)踐中探索基于網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)分析和系統(tǒng)安全狀況監(jiān)測(cè)。文章主要介紹了該平臺(tái)建設(shè)的設(shè)計(jì)原理、實(shí)現(xiàn)功能,旨在通過(guò)該平臺(tái)建設(shè)的實(shí)踐,提供網(wǎng)絡(luò)及應(yīng)用分析、監(jiān)測(cè)的一種實(shí)現(xiàn)思路。
關(guān)鍵詞:網(wǎng)絡(luò)管理;數(shù)據(jù)采集;流量分析;精細(xì)管理;Socket
隨著計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用的不斷發(fā)展,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,且時(shí)常會(huì)出現(xiàn)一些網(wǎng)絡(luò)異常流量、非關(guān)鍵業(yè)務(wù)流量占用正常業(yè)務(wù)帶寬以及偶爾出現(xiàn)一些莫名網(wǎng)絡(luò)間隙阻塞和業(yè)務(wù)故障,導(dǎo)致關(guān)鍵業(yè)務(wù)運(yùn)行服務(wù)質(zhì)量下降。本文通過(guò)對(duì)網(wǎng)絡(luò)流量分析平臺(tái)建設(shè)的探索,試圖摸索,加強(qiáng)業(yè)務(wù)管理,實(shí)現(xiàn)網(wǎng)絡(luò)精細(xì)化管理的新視角和新途徑。
1? ? 運(yùn)維中的新挑戰(zhàn)
近年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用不斷發(fā)展,各業(yè)務(wù)系統(tǒng)發(fā)展朝著集約化、高效化的方向發(fā)展,伴隨著各應(yīng)用系統(tǒng)的不斷擴(kuò)展和完善,對(duì)各應(yīng)用系統(tǒng)支持要求也越來(lái)越高,各應(yīng)用系統(tǒng)規(guī)模越來(lái)越大,架構(gòu)也越來(lái)越復(fù)雜,業(yè)務(wù)量、用戶規(guī)模不斷擴(kuò)大,帶寬需求急劇增加,各應(yīng)用系統(tǒng)的后期維護(hù)管理顯得越來(lái)越重要。傳統(tǒng)的網(wǎng)絡(luò)和系統(tǒng)運(yùn)維管理,主要從各自的專業(yè)和視角,分析各自的客觀原因,必然存在以下現(xiàn)象:(1)量化困難:網(wǎng)絡(luò)接入線路多,缺乏實(shí)時(shí)有效手段來(lái)監(jiān)測(cè)線路帶寬使用率的變化,無(wú)法為帶寬擴(kuò)容提供精準(zhǔn)參照。(2)視角孤立:?jiǎn)栴}分析從各自專業(yè)出發(fā),難以統(tǒng)一觀點(diǎn),諸多分歧造成分析有效性下降。(3)數(shù)據(jù)粗放:缺乏精細(xì)化的網(wǎng)絡(luò)服務(wù)質(zhì)量評(píng)估數(shù)據(jù),異常問題被掩蓋,質(zhì)量提升難以體現(xiàn)。(4)排障緩慢:故障分析、定位大量消耗時(shí)間和人力資源,故障診斷價(jià)值隨時(shí)間推移大打折扣。
2? ? 基于網(wǎng)絡(luò)流量監(jiān)控分析平臺(tái)的設(shè)計(jì)
通過(guò)實(shí)踐,基于網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),研發(fā)了協(xié)議解碼技術(shù),充分利用可靠的網(wǎng)絡(luò)數(shù)據(jù)源,在網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)實(shí)時(shí)采集網(wǎng)絡(luò)數(shù)據(jù),呈現(xiàn)各項(xiàng)監(jiān)控指標(biāo),建立自主可控的流量監(jiān)控分析平臺(tái),從而實(shí)現(xiàn)流量識(shí)別、帶寬占用、TCP連接等性能、負(fù)載量的全面可視化。
3? ? 網(wǎng)絡(luò)流量監(jiān)控分析平臺(tái)的構(gòu)成和原理
操作系統(tǒng)Red Hat Enterprise Linux 7.0/suse linux enterprise 11.0/CentOS 7.0、數(shù)據(jù)庫(kù)mongoDb、開發(fā)語(yǔ)言C及Javascript等。
網(wǎng)絡(luò)數(shù)據(jù)采集卡(Intel千兆網(wǎng)卡),運(yùn)用內(nèi)存零拷貝技術(shù),改寫網(wǎng)卡原有驅(qū)動(dòng)程序的中斷處理機(jī)制,以提高網(wǎng)卡高性能的數(shù)據(jù)處理能力。
在需要監(jiān)控分析的交換機(jī)做端口鏡像,將網(wǎng)絡(luò)流量引流至網(wǎng)絡(luò)流量監(jiān)控分析平臺(tái)進(jìn)行處理。
利用網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù),對(duì)業(yè)務(wù)的原始網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行實(shí)時(shí)捕獲、存儲(chǔ)??山Y(jié)合業(yè)務(wù)系統(tǒng)的開發(fā)規(guī)范,反向解碼應(yīng)用協(xié)議上層封裝的業(yè)務(wù)內(nèi)容。
對(duì)解碼后內(nèi)容進(jìn)行數(shù)據(jù)挖掘分析,通過(guò)Web實(shí)時(shí)展現(xiàn)業(yè)務(wù)系統(tǒng)的各項(xiàng)監(jiān)控指標(biāo),從而快速定位網(wǎng)絡(luò)或業(yè)務(wù)的可能故障,幫助快速定位或解決運(yùn)維問題。
4? ? 網(wǎng)絡(luò)監(jiān)控分析平臺(tái)實(shí)現(xiàn)的功能簡(jiǎn)介
4.1? 實(shí)時(shí)流量
平臺(tái)可實(shí)時(shí)監(jiān)控統(tǒng)計(jì)網(wǎng)絡(luò)按IP流量分布、應(yīng)用流量分布。能幫助用戶快速找出何時(shí)出現(xiàn)網(wǎng)絡(luò)異常。所有統(tǒng)計(jì)信息都會(huì)以數(shù)據(jù)包數(shù)和字節(jié)數(shù)、帶寬大小和數(shù)據(jù)包大小來(lái)顯示。
4.2? 應(yīng)用流量排名
平臺(tái)能自動(dòng)發(fā)現(xiàn)已知端口的應(yīng)用,如HTTP,F(xiàn)TP,DNS等,通過(guò)Socket來(lái)定義使用。通過(guò)識(shí)別發(fā)現(xiàn)對(duì)分布的應(yīng)用流量進(jìn)行排名,可及時(shí)統(tǒng)計(jì)當(dāng)前網(wǎng)絡(luò)中哪些應(yīng)用流量的網(wǎng)絡(luò)帶寬占比,對(duì)其是合法的流量還是非法的流量進(jìn)行快速鑒別。
4.3? 主機(jī)流量排名
平臺(tái)能對(duì)網(wǎng)絡(luò)主機(jī)的流量進(jìn)行實(shí)時(shí)的和歷史的統(tǒng)計(jì)分析,并提供排名功能,及時(shí)發(fā)現(xiàn)主機(jī)產(chǎn)生的網(wǎng)絡(luò)流量情況,特別是對(duì)產(chǎn)生網(wǎng)絡(luò)蠕蟲和攻擊流量的主機(jī)能快速識(shí)別。
4.4? 應(yīng)用訪問情況
平臺(tái)能對(duì)應(yīng)用的各類KPI指標(biāo)進(jìn)行分析,為運(yùn)維人員提供直觀的可視效果,從而降低運(yùn)維難度。
4.5 會(huì)話查找
平臺(tái)能夠查找指定時(shí)間范圍的所有應(yīng)用的通信流量信息,定義條件包括IP地址、TCP/UDP端口、IP地址組和地址段、端口組或范圍,以及多種條件的組合。
4.6? 網(wǎng)絡(luò)性能
平臺(tái)可實(shí)時(shí)查看監(jiān)控網(wǎng)絡(luò)的性能情況。此功能可以實(shí)時(shí)查看和統(tǒng)計(jì)監(jiān)控流量中TCP重傳、TCP Syn請(qǐng)求、TCP零窗口,TCP Fin、TCP新建連接數(shù)、TCP并發(fā)連接數(shù),網(wǎng)絡(luò)時(shí)延等。
4.7? DSCP性能分析
平臺(tái)可自動(dòng)識(shí)別網(wǎng)絡(luò)流量的DSCP的值以及其流量占用帶寬大小,對(duì)網(wǎng)絡(luò)流量的QOS配置進(jìn)行驗(yàn)證及策略調(diào)優(yōu)提供參照。
5? ? 網(wǎng)絡(luò)監(jiān)控分析平臺(tái)的實(shí)現(xiàn)價(jià)值
5.1? 故障分析
因本監(jiān)控分析平臺(tái)是基于交換機(jī)鏡像數(shù)據(jù)輸出實(shí)時(shí)存儲(chǔ)的分析系統(tǒng),是實(shí)時(shí)存儲(chǔ)監(jiān)控點(diǎn)的網(wǎng)絡(luò)全流量,對(duì)應(yīng)用實(shí)現(xiàn)秒級(jí)精度的實(shí)時(shí)監(jiān)控。當(dāng)出現(xiàn)異常事件時(shí),可快速檢測(cè)和定位業(yè)務(wù)性能、可用性問題,解決間歇性網(wǎng)絡(luò)故障,并可快速回溯故障現(xiàn)場(chǎng)的數(shù)據(jù),對(duì)原始網(wǎng)絡(luò)數(shù)據(jù)長(zhǎng)期記錄,方便歷史回溯分析。
5.2? 性能監(jiān)控
實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)的性能狀態(tài),當(dāng)網(wǎng)絡(luò)出現(xiàn)異常時(shí),及時(shí)發(fā)現(xiàn)異常變化,對(duì)重要的業(yè)務(wù),可實(shí)現(xiàn)自定義應(yīng)用監(jiān)控,可查看交易在各環(huán)節(jié)的處理及網(wǎng)絡(luò)時(shí)延,實(shí)時(shí)監(jiān)控交易高峰時(shí)專線帶寬的使用率,方便擴(kuò)容,保護(hù)投資。
5.3? 主動(dòng)運(yùn)維
基于用戶端與服務(wù)器端的真實(shí)訪問數(shù)據(jù),實(shí)時(shí)監(jiān)控應(yīng)用的交互狀態(tài),對(duì)網(wǎng)絡(luò)底層的數(shù)據(jù)進(jìn)行分析,客觀反映網(wǎng)絡(luò)最真實(shí)情況。通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的進(jìn)一步挖掘,還可以實(shí)現(xiàn)智能化分析,自動(dòng)并實(shí)時(shí)展現(xiàn)業(yè)務(wù)代碼級(jí)監(jiān)控?cái)?shù)據(jù)。
5.4? 部署靈活
本平臺(tái)實(shí)現(xiàn)簡(jiǎn)單,可通過(guò)網(wǎng)絡(luò),同時(shí)嗅探多個(gè)交換機(jī)鏡像口,對(duì)網(wǎng)絡(luò)設(shè)備無(wú)依賴、兼容性強(qiáng),部署、使用靈活。