周家愷,綦方中
(浙江工業(yè)大學,浙江 杭州 310023)
近年來,我國互聯(lián)網(wǎng)接入技術的基礎設施不斷完善,智能終端設備開始大范圍普及[1,2],各種應用服務持續(xù)創(chuàng)新。手機作為典型的通信設備,主要通過鏈路方式和互聯(lián)網(wǎng)進行連接,在不同的接入條件下[3],各個用戶的行為和偏好存在明顯差異。現(xiàn)階段,只有運營商才有資格控制大規(guī)模的流量,但是專家沒有權利公開獲取數(shù)據(jù)。未來階段深度網(wǎng)絡特點的分析和預測是互聯(lián)網(wǎng)發(fā)展的主要趨勢,尤其是網(wǎng)絡流量時延特征識別。
國內(nèi)外相關專家針對該方面的內(nèi)容進行了大量的研究,例如黎佳玥等人[4]優(yōu)先訓練網(wǎng)絡,獲取網(wǎng)絡流量的特征變化趨勢,將其作為判定依據(jù)進行網(wǎng)絡安全事件識別。武思齊等人[5]分別從硬件特點和用戶的行為偏好等角度出發(fā)獲取具有代表性的數(shù)據(jù)流,針對各個特性進行處理和分析,采用集成學習算法構(gòu)建識別模型,完成移動流量識別。由于上述兩種方法未能在網(wǎng)絡流量時延特征識別過程中構(gòu)建極端梯度提升模型,導致識別結(jié)果不理想,響應時間也較長。
為解決上述問題,設計并提出一種基于樸素貝葉斯的網(wǎng)絡流量時延特征識別方法。測試結(jié)果表明,所提方法能夠獲取高精度高效率的識別結(jié)果。
網(wǎng)絡流量時延產(chǎn)生的原因是多種多樣的,利用圖1給出網(wǎng)絡時延產(chǎn)生的主要因素[6]。
圖1 網(wǎng)絡時延形成因素
當數(shù)據(jù)從發(fā)送端發(fā)出到接收端收到,導致時延產(chǎn)生的主要原因有:
1)通信鏈路限制
主要是受訪問鏈路以及路由等相關因素的限制。
2)網(wǎng)絡負載變化
網(wǎng)絡負載變化主要是由網(wǎng)絡波動和用戶流量等因素造成的,若時延波動較大,說明網(wǎng)絡負載抖動較為明顯。在通信鏈路中由于其特性導致時延的形成,不同類型的通信方式會對網(wǎng)絡時延產(chǎn)生不同程度的影響。在實際研究的過程中,設定網(wǎng)絡負載引發(fā)的時延為噪聲,以此為依據(jù)分析通信鏈路限制對網(wǎng)絡流量時延特征的影響,為后續(xù)的識別奠定基礎[7,8]。
當用戶進行互聯(lián)網(wǎng)訪問時,需要優(yōu)先接入網(wǎng)絡運營商,利用運營商的核心業(yè)務連接互聯(lián)網(wǎng)的骨干網(wǎng)絡。其中,通信鏈路是由接入鏈路和互聯(lián)網(wǎng)路由鏈路組成。
若網(wǎng)絡負載對數(shù)據(jù)時延產(chǎn)生的影響不明顯,此時網(wǎng)路流量中的時延主要是由通信鏈路噪聲產(chǎn)生的。另外,網(wǎng)絡和固定網(wǎng)絡兩者之間是完全不同,區(qū)別在于通信鏈路的接入方式。
由于電量是影響設備運行的主要因素,但是設備并不是時時刻刻都在進行數(shù)據(jù)傳輸,若設備處于高速傳輸時,需要將狀態(tài)調(diào)整為高功率狀態(tài);反之,則將其調(diào)整為空閑狀態(tài),有效降低電能損耗。若系統(tǒng)終端一直處于空閑狀態(tài),說明無數(shù)據(jù)傳輸,網(wǎng)絡呈IDLE狀態(tài),優(yōu)先連接無線網(wǎng)絡,同時進一步轉(zhuǎn)換為CELL—FACH狀態(tài),確保網(wǎng)絡通信的順利進行,但是產(chǎn)生的時延較長。當網(wǎng)絡中數(shù)據(jù)傳輸速率高于閾值時,RRC會自動調(diào)整到最佳運行狀態(tài)。由于網(wǎng)絡終端流量的使用情況并不規(guī)律,運行狀態(tài)也需要不斷變換。其中,RRC狀態(tài)下閾值的變換和時延標準兩者之間存在較為明顯的差異,其中在IDLE狀態(tài)下進行數(shù)據(jù)傳輸?shù)臅r延可能會更高一些[9]。
網(wǎng)絡系統(tǒng)是一個時變系統(tǒng),時延無法采用精準的函數(shù)描述,但是網(wǎng)絡流量時延和固定網(wǎng)絡時延的特征是不同的。
其中,鏈路時延極小值代表通信鏈路在理想條件下的時延下限。當處于固網(wǎng)高速運行狀態(tài)時,使網(wǎng)絡流量時延的取值和0更接近;若處于無線通信狀態(tài)下,需要保證網(wǎng)絡流量時延不會小于閾值。
由于網(wǎng)絡內(nèi)部結(jié)構(gòu)十分復雜,因此導致網(wǎng)絡流量時延產(chǎn)生的因素也有很多,時延的波動性也較大。其中主要原因為天氣以及移動設備的性能等。由于固網(wǎng)主要通過安全可靠的有線進行連接,有效消除網(wǎng)絡負載產(chǎn)生的影響,確保其一直處于相對穩(wěn)定的狀態(tài)。
在網(wǎng)絡環(huán)境中,若終端應用在不同狀態(tài)下進行數(shù)據(jù)傳輸時,IP數(shù)據(jù)會出現(xiàn)各種長度的時延。
采用ping指令,分別設定不同的時間間隔,同時傳輸ICMP報文,同時在國內(nèi)不同的網(wǎng)絡環(huán)境中進行測試。
根據(jù)TCP/IP網(wǎng)路協(xié)議中的確認機制,得到網(wǎng)絡流量時延主要特征。為更加精準描述網(wǎng)絡通信鏈路對不同屬性的影響,需要優(yōu)先消除負載產(chǎn)生的噪聲,選取符合條件的網(wǎng)絡流量時延,同時還需要滿足式(1)中的約束條件
(1)
式中,pktdata代表數(shù)據(jù)報;pktcak代表回應數(shù)據(jù);fi代表得到指定數(shù)據(jù)在流量文件中的序號函數(shù);fr代表得到指定數(shù)據(jù)報的重傳次數(shù)。
傳輸鏈路時延能夠表示為
Delaypkt=ft(pktcak)-ft(pktdata)
(2)
式中,ft代表得到指定數(shù)據(jù)報的捕捉時間;Delaypkt代表傳輸鏈路時延[10]。
在式(1)中,需要確認是否存在數(shù)據(jù)反復傳輸?shù)那闆r。假設存在反復傳輸?shù)那闆r,則無法確定pktcak/pktdata數(shù)據(jù)報,同時時延也無法精準計算,因此需要將這樣的數(shù)據(jù)全部剔除。而式(2)要求盡量降低網(wǎng)絡負載,假設網(wǎng)絡一直處于忙碌狀態(tài),說明存在大量的數(shù)據(jù)需要進行傳輸,其中部分數(shù)據(jù)可能處于等待狀態(tài)。若網(wǎng)絡中沒有數(shù)據(jù)進行傳輸,則說明此時網(wǎng)絡處于通暢的狀態(tài)。當N的取值越小,則說明網(wǎng)絡發(fā)生擁堵的可能性越?。环粗?,N的取值越大,則說明網(wǎng)絡擁堵的可能性也就越大。
在上述分析的基礎上,結(jié)合網(wǎng)絡往返時延計算結(jié)果,獲取和數(shù)據(jù)時延相關的網(wǎng)絡流量特征。同時利用特征描述各個網(wǎng)絡節(jié)點接入互聯(lián)網(wǎng)技術后形成的時序特征進行匹配。
本研究通過樸素貝葉斯和極端梯度提升模型兩者結(jié)合組建分類器。主要目的是為了獲取符合網(wǎng)絡需求的樣本特征值(x1,x2,…,xn),其中符合最高需求的樣本表示為
Vmap=arg maxP(Ci|x1,x2,…,xn)
(3)
式中,P(x1,x2,…,xn)代表任意常數(shù)。由于不同屬性的取值是相互獨立的,則有
(4)
通過樸素貝葉斯將式(3)進行簡化,則有
(5)
式中,P(Ci)代表先驗概率。
極端梯度提升模型主要利用決策樹,決策樹包含多種不同的類型,以下主要采用決策樹中的回歸樹,無論處理什么類型的問題,都能夠獲取很好的效果?;貧w樹算法的核心思想為獲取網(wǎng)絡流量時延特征的全部權值。
當完成回歸樹建立完成后,輸入空間包含多個輸出值。因此,每一次的輸入全部對應到輸出空間中,方便獲取模型的預測輸出。其中回歸模型的表達形式為
(6)
式中,Rm代表輸出空間中包含的單元總數(shù);cm代表輸出值。
輸入空間確定后,由于輸出數(shù)據(jù)是連續(xù)的,因此計算平方誤差最小就是二叉樹建立的基本準則。針對于確定后的二叉樹各個單元輸出值,單元的平均值設定為最優(yōu)結(jié)果,具體如式(7)所示
cm=avg(yi|xi∈Rm)
(7)
接下來劃分輸入空間,經(jīng)過劃分后獲取兩個區(qū)域,具體如式(8)所示
(8)
式中,j代表第j個變量;s代表第j個變量的取值。
通過最小化平方誤差準則,能夠獲取j和s的取值,即
(9)
其中,集成學習主要利用多個學習器完成任務,因此有時候也能夠被劃分為多個分類器系統(tǒng)。通常情況下,學習器是一個個獨立的個體,將全部個體利用某種方式構(gòu)成一個整體[11],即集成學習。整體中包含的個體就是基礎模塊,其中集成學習的示意圖如圖2所示。
圖2 集成學習示意圖
對集成學習的全部思想和理論進行分析總結(jié),同時將有使用價值的策略全部組合在一起,構(gòu)建一個功能強大的學習器。集成學習中包含三類,具體如圖3所示。
圖3 集成學習的組成
假設包含的是相同的分類器,則學習器被稱為基學習器,具體組成框架如圖4所示。
圖4 集成學習基本框架
提升算法主要采用加法模型,將決策樹設定為基礎算法,同時也是一種前向分布算法。其中初始的提升樹為f0(x)=0,通過加法模型累加起來,第m步能夠表示為
fm(x)=fm-1(x)+T(x;Θm)
(10)
上式中,fm-1(x)當前決策樹的線性組合。
利用經(jīng)驗風險極小化的方式確定下一棵決策樹的參數(shù)Θm計算公式為:
(11)
將多棵樹線性組合起來,獲取更好的擬合數(shù)據(jù),因此提升樹是一個高功能的學習算法。其中,CART樹的表達形式為
(12)
通過前向分布算法,當進行到第m步驟時,模型可以表示為fm-1(x),通過式(10)獲取的參數(shù)即為第m棵參數(shù)。假設損失函數(shù)為平方差,則具體的表達形式為
L(y,f(x))=(y-f(x))2
(13)
將式(10)代入計算能夠獲取網(wǎng)絡流量時延特征識別模型為
r=y-fm-1(x)
(14)
上述的回歸問題,對于文本所需要的分類問題只需要在回歸問題的基礎上方便進行修改[12]。訓練階段對于訓練集D以及不同類型的攻擊都訓練一棵分類回歸樹。其中樣本屬于各個類別的概率為
(15)
(16)
(17)
(18)
(19)
結(jié)合上述分析,將極端梯度提升樹模型和樸素貝葉斯兩者進行有效結(jié)合,構(gòu)建一種全新的分類器,同時對分類器進行訓練,采用分類器對分類網(wǎng)絡流量時延特征,最終實現(xiàn)識別。
為驗證所提基于樸素貝葉斯的網(wǎng)絡流量時延特征識別方法的有效性,實驗選取200臺主機作為實驗平臺,將各臺主機接入150Mbps的以太網(wǎng)。
實驗對200個測試樣本的網(wǎng)絡流量時延特征進行識別分析,選取所提方法、文獻[4]方法以及文獻[5]方法作為對比方法,實驗的主要目的是驗證各個識別方法的識別性能,其中選取識別正確的肯定比率和絕對誤差作為測試指標,具體的實驗結(jié)果如圖5和圖6所示:
圖5 識別正確的肯定比率
圖6 相對誤差
分析圖5和圖6中的實驗數(shù)據(jù)可知,隨著運行時間和實驗次數(shù)的增加,各個方法識別正確的肯定比率呈現(xiàn)初始階段高、后期下降的趨勢,而絕對誤差呈直線上升趨勢。相比另外兩種方法,所提方法識別正確的肯定比率明顯更高一些,而絕對誤差也明顯更低一些。這主要是因為所提方法加入了極端梯度提升模型構(gòu)建了分類器,全面提升了識別結(jié)果的準確性。
在識別的過程中,由于各個方法的操作流程不同,導致各個方法的識別速率存在較為明顯的差異,以下主要通過響應時間衡量不同方法的識別速率,具體實驗結(jié)果如表1所示。
表1 不同方法的響應時間對比
分析表1中的實驗數(shù)據(jù)可知,隨著測試樣本數(shù)量的快速增加,各個方法的響應時間也開始增加。由于所提方法在研究過程中加入了極端梯度提升模型,通過構(gòu)建的分類器進行網(wǎng)絡流量時延特征識別,全面優(yōu)化了識別流程,同時有效降低響應時間,促使所提方法的性能明顯優(yōu)于另外兩種方法。
由于傳統(tǒng)網(wǎng)絡流量時延特征識別方法的性能較差,提出一種基于樸素貝葉斯的網(wǎng)絡流量時延特征識別方法。經(jīng)過實驗測試可知,所提方法能夠全面提升網(wǎng)絡流量時延特征識別結(jié)果的準確性,同時還能加快識別速率。由于時間以及環(huán)境等多方面因素的限制,導致所提方法仍然存在一定的弊端,后續(xù)將對其進行更加深入地研究,使其綜合性能得到全面提升。