易 燦,彭 婷
(湖南大眾傳媒職業(yè)技術(shù)學(xué)院,湖南 長沙 410100)
目前,用戶對網(wǎng)絡(luò)運(yùn)維提出更高要求,主要體現(xiàn)在網(wǎng)絡(luò)流量識(shí)別、預(yù)測、流量異常的監(jiān)控等方面。流量識(shí)別算法和網(wǎng)絡(luò)流量模型在網(wǎng)絡(luò)設(shè)計(jì)、服務(wù)質(zhì)量、網(wǎng)絡(luò)管理及監(jiān)視中起著重要作用。任何情況下的應(yīng)用程序與管理員都需要實(shí)時(shí)監(jiān)視網(wǎng)絡(luò)運(yùn)行狀況,以保證網(wǎng)絡(luò)服務(wù)質(zhì)量與網(wǎng)絡(luò)安全,從而通過使用網(wǎng)絡(luò)流量應(yīng)用程序?qū)臃诸惣夹g(shù)來防止網(wǎng)絡(luò)攻擊影響管網(wǎng)。
網(wǎng)絡(luò)流量分類技術(shù)的關(guān)鍵性作用在于對網(wǎng)絡(luò)流量的細(xì)粒度進(jìn)行深入分析,能夠承載各個(gè)通路網(wǎng)絡(luò)應(yīng)用所產(chǎn)生的流量,并以此展開網(wǎng)絡(luò)流量中的網(wǎng)絡(luò)協(xié)議模型,能夠準(zhǔn)確分析網(wǎng)絡(luò)用戶行為,評(píng)估網(wǎng)絡(luò)安全水平,并以此為依據(jù)展開流量控制,是實(shí)現(xiàn)三網(wǎng)融合的有效手段。
首先,通過檢測端口數(shù)據(jù)來對網(wǎng)絡(luò)流量展開分類,這一方法的實(shí)效性已經(jīng)開始逐步減少。結(jié)合端口檢測技術(shù)下的網(wǎng)絡(luò)流量識(shí)別技術(shù)與相關(guān)管理部門提出的規(guī)則,整合出更加完整的通信機(jī)制,才能對當(dāng)前網(wǎng)絡(luò)流量進(jìn)行有效識(shí)別與分類,即通過端口與應(yīng)用協(xié)議之間的映射機(jī)制來實(shí)現(xiàn)高校的流量分類。
其次,當(dāng)基于端口映射技術(shù)的網(wǎng)絡(luò)流量分類起著重要作用時(shí),大規(guī)模網(wǎng)絡(luò)流量分類技術(shù)的骨干也起著關(guān)鍵作用。
再次,考慮到應(yīng)用層協(xié)議已經(jīng)全面覆蓋了網(wǎng)絡(luò)流量信息中的數(shù)據(jù)?;诖耍瑥睦碚搶用娉霭l(fā),DPI技術(shù)在網(wǎng)絡(luò)協(xié)議的識(shí)別中具有更高應(yīng)用價(jià)值。DPI技術(shù)能夠更加深入挖掘特定協(xié)議,網(wǎng)絡(luò)數(shù)據(jù)包中經(jīng)常會(huì)出現(xiàn)穩(wěn)定的字符串的獨(dú)特特征,這些字符又存在大多數(shù)帶有網(wǎng)絡(luò)通信協(xié)議簽名中。
最后,基于網(wǎng)絡(luò)流量統(tǒng)計(jì)特征的識(shí)別方法具有創(chuàng)新意義,且已成為當(dāng)前流量識(shí)別與分類的主要手段之一。此類方法的作用機(jī)制是將與網(wǎng)絡(luò)協(xié)議不一致的統(tǒng)計(jì)特征進(jìn)行收集,并通過分類算法,對網(wǎng)絡(luò)流量分類情況仿真模擬訓(xùn)練,以此達(dá)成網(wǎng)絡(luò)流量精準(zhǔn)分類的目的[1]。
自相似性能受定向性行為特征的影響,用戶定期訪問具有穩(wěn)定的隨機(jī)訪問過程和時(shí)間順序,并且不同用戶訪問內(nèi)容具有很強(qiáng)的自相關(guān)性,網(wǎng)絡(luò)流量的運(yùn)算特征與相似性數(shù)學(xué)特性相符合。
首先,滿足網(wǎng)絡(luò)流量是平穩(wěn)的隨機(jī)過程X=(x(t),t≥0),類似參數(shù)H滿足X(ct)=cH=X(t),t≥0,c>0,0<H<1。
其次,網(wǎng)絡(luò)流量運(yùn)行情況受其自身影響較多,不穩(wěn)定的網(wǎng)絡(luò)流量狀態(tài)是正常的。若處于抽象不確定性構(gòu)造情況下,隨機(jī)過程X的平均值為常數(shù)A,A=E{X(t)},而網(wǎng)絡(luò)訪問自相關(guān)函數(shù)符合R(θ)=E{X*(t)X(T+θ)}。
最后,堆疊X以生成一個(gè)時(shí)間序列,該時(shí)間序列表示為X(m)={Xk(m),k≥θ},并且該時(shí)間序列能夠表示出每單位時(shí)間所到達(dá)的數(shù)量。
對網(wǎng)絡(luò)力量進(jìn)行檢測時(shí),盡管各個(gè)對象之間存在較大的時(shí)間間隔,但其依舊具備較強(qiáng)的長相關(guān)特性。用戶可以結(jié)合自身需求對平臺(tái)進(jìn)行訪問,時(shí)間間隔通常為數(shù)月、一年或更長時(shí)間。以數(shù)學(xué)形式表達(dá),將選取時(shí)間函數(shù)用X代表,t和t+k時(shí)的值分別為X(t)和X(t+k),則長相關(guān)函數(shù)表示為:
μ代表平均值,σ代表方差。得出全部相關(guān)總和這表明k網(wǎng)絡(luò)流量中存在長相關(guān)性[2]。
針對屬性的選擇,首先需要結(jié)合網(wǎng)絡(luò)流量數(shù)據(jù),整合生成相對應(yīng)的數(shù)據(jù)子集,之后對全部子集展開評(píng)估與篩選。通過對比分析,查找出最符合要求的子集,并以此判斷子集的實(shí)際優(yōu)越性。如果選擇的子集為最佳,則停止準(zhǔn)則,開始驗(yàn)證;如果選擇的子集沒有達(dá)到最佳值,則將原有子集進(jìn)行替換,并重新進(jìn)行子集評(píng)估。
網(wǎng)絡(luò)平臺(tái)中關(guān)于流量屬性的選擇,可以通過包裝模型的流動(dòng)特征進(jìn)行針對性選擇,而包裝模型需要分類器進(jìn)行評(píng)估函數(shù)屬性進(jìn)行區(qū)分。這一模型識(shí)別準(zhǔn)確性較高,但是每次搜索都需要選擇一個(gè)屬性子集進(jìn)行交叉,存在識(shí)別速度慢、靈活性差的缺點(diǎn)。基于此,將ReliefF算法添加至包裝模型的計(jì)算過程中,并對各個(gè)屬性展開權(quán)重分類,之后結(jié)合權(quán)重,將屬性按照順序進(jìn)行排列[3]。當(dāng)相鄰k個(gè)樣本時(shí),特征權(quán)重值是T,循環(huán)過程為m次,更新后的權(quán)重公式表示為:
機(jī)器學(xué)習(xí)用于描述網(wǎng)絡(luò)流量樣本集,表示為Y={Y1,Y2,…,Yn},輸出類型集表示為X={X1,X2,…,Xn},以F:X→Y表示網(wǎng)絡(luò)流量分析流程。數(shù)據(jù)源涵蓋整體數(shù)據(jù)記錄,在屬性選擇算法的基礎(chǔ)上,分類整理數(shù)據(jù)包資源,通過機(jī)器學(xué)習(xí)識(shí)別方法,完成特征的統(tǒng)計(jì),之后創(chuàng)建特征列表,完成數(shù)據(jù)評(píng)估與檢測。
K-means聚類算法能夠?qū)?shù)據(jù)樣本之間的相關(guān)性展開聚類,并通過聚類明確未知樣本。但是,由于K-means聚類算法不具備直接用于判斷網(wǎng)絡(luò)流量的功能,所以,需要將監(jiān)督學(xué)習(xí)方法與非監(jiān)督學(xué)習(xí)方法引入K-means聚類算法中。
數(shù)據(jù)集表示為:Sm={(S1,l1),L,(Sm,l2)}∪(Sm+1,Sm+2,L,Sm+n)。
其中,(Sm,lz)是已知類型的數(shù)據(jù)樣本;L={l1,l2,…,lz}代表流量應(yīng)用程序具體類型;m和n代表樣本數(shù);z代表應(yīng)用程序類型的數(shù)量。在K-means算法的基礎(chǔ)上,初始中心點(diǎn)選擇已知類型標(biāo)簽數(shù)據(jù)的樣本。使用捕獲工具進(jìn)行專業(yè)認(rèn)證以捕獲平臺(tái)網(wǎng)絡(luò)流量數(shù)據(jù),并結(jié)合源地址、源端口、目的地址、目的端口以及傳輸協(xié)議屬性將流量數(shù)據(jù)進(jìn)一步歸納整理,以便于將過濾后的數(shù)據(jù)進(jìn)行抽樣檢查[4]。
平臺(tái)訪問實(shí)時(shí)數(shù)據(jù)包括瀏覽頁面、上載、下載、交互、網(wǎng)絡(luò)安全、數(shù)據(jù)庫訪問等所產(chǎn)生的流量。劃分流量類型并收集相關(guān)流量編號(hào),如表1所示。
表1 流量類型及其個(gè)數(shù)與占比
選擇IP數(shù)據(jù)包的容量與TCP窗口大小的負(fù)載容量,并將兩個(gè)數(shù)據(jù)包的到達(dá)時(shí)間進(jìn)行標(biāo)記,以此作為流量分類特征。之后利用IO構(gòu)建Map/Reduce并進(jìn)行相關(guān)實(shí)驗(yàn)環(huán)境界面映射中輸入數(shù)據(jù),通過在Reduce端選擇屬性,進(jìn)行度量,設(shè)置流量識(shí)別模型,運(yùn)行時(shí)將進(jìn)行并行計(jì)算,合并完成后將數(shù)據(jù)分為幾個(gè)數(shù)據(jù)塊計(jì)算。
通過仿真實(shí)驗(yàn)得出,創(chuàng)建出的新型模型能夠?qū)崿F(xiàn)對數(shù)據(jù)流量的精準(zhǔn)分類,并能快速完成標(biāo)記流量的識(shí)別與分類,通過聚類算法準(zhǔn)確計(jì)算出未知標(biāo)簽流,從識(shí)別速度出發(fā),通過將樣本數(shù)量從100 M增加到600 M的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:在樣本數(shù)量逐步遞增的情況下,設(shè)計(jì)模型的識(shí)別效率基本保持穩(wěn)定狀態(tài)。
綜上,本文從3個(gè)方面研究了職業(yè)認(rèn)證平臺(tái)的網(wǎng)絡(luò)流量監(jiān)控和識(shí)別算法。首先,選擇平臺(tái)的網(wǎng)絡(luò)流量屬性以降低二元性,并采用ReliefF算法和打包模型進(jìn)行度量;其次,結(jié)合K-means聚類算法,采用機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法和非監(jiān)督學(xué)習(xí)方法,建立交通監(jiān)控模型;最后,選擇專業(yè)的認(rèn)證平臺(tái)來捕獲實(shí)時(shí)數(shù)據(jù)包。實(shí)驗(yàn)證明該模型識(shí)別流量準(zhǔn)確有效。