亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DE-LSSVM網(wǎng)絡(luò)流量多分類方法

2020-01-07 10:43:10徐軒姜志俠劉雪亞

長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年6期

徐軒，姜志俠，劉雪亞

（長(zhǎng)春理工大學(xué) 理學(xué)院，長(zhǎng)春 130022）

隨著互聯(lián)網(wǎng)的高速發(fā)展，急劇增加的網(wǎng)絡(luò)流量數(shù)據(jù)使得網(wǎng)民的上網(wǎng)體驗(yàn)變差，惡意的網(wǎng)絡(luò)攻擊更是威脅著網(wǎng)民的隱私安全。網(wǎng)絡(luò)流量分類技術(shù)是一種根據(jù)流量數(shù)據(jù)的應(yīng)用協(xié)議對(duì)網(wǎng)絡(luò)流量進(jìn)行分類的技術(shù)，它不僅能幫助網(wǎng)絡(luò)運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)進(jìn)行有效管理，改善用戶體驗(yàn)，也能對(duì)網(wǎng)絡(luò)安全進(jìn)行檢測(cè)，從而避免用戶隱私泄露。因此，準(zhǔn)確有效的對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分類對(duì)人們的生活具有重大的實(shí)際意義［1］。

目前，最流行的網(wǎng)絡(luò)流量分類技術(shù)是基于機(jī)器學(xué)習(xí)的方法。在機(jī)器學(xué)習(xí)方法中，支持向量機(jī)［2-3］（Support Vector Machine，SVM）以其堅(jiān)實(shí)的理論基礎(chǔ)和良好的泛化能力深受廣大學(xué)者青睞。最小二乘支持向量機(jī)（Least Squares Support Vector Machine，LSSSVM）是標(biāo)準(zhǔn)SVM的一種改進(jìn)形式，它以最小二乘線性系統(tǒng)作為損失函數(shù)，將標(biāo)準(zhǔn)支持向量機(jī)中求解二次規(guī)劃問題轉(zhuǎn)化為解一組線性方程組的問題，從而加快了模型的求解速度。因此，其被廣泛應(yīng)用于解決非線性和高維模式識(shí)別問題中。然而實(shí)踐證明，SVM中參數(shù)的選取嚴(yán)重影響其性能的好壞。如何對(duì)SVM中的參數(shù)進(jìn)行合理的選取，依然是學(xué)者們關(guān)注的重點(diǎn)。例如：王春枝等人［4］利用人工蜂群算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)中的特征選擇問題和支持向量機(jī)的參數(shù)選擇問題進(jìn)行組合優(yōu)化，進(jìn)而提高了支持向量機(jī)分類器在網(wǎng)絡(luò)流量分類中的整體性能；熊凡［5-6］提出利用遺傳算法優(yōu)化支持向量機(jī)參數(shù)的方法，并利用具有最優(yōu)參數(shù)的支持向量機(jī)模型對(duì)重構(gòu)后的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行預(yù)測(cè)，結(jié)果表明該方法不僅訓(xùn)練時(shí)間短，而且預(yù)測(cè)精度高；劉春茂等人［7］將粒子群算法和支持向量機(jī)結(jié)合，對(duì)重構(gòu)后的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行預(yù)測(cè)，對(duì)比時(shí)間序列模型和BP神經(jīng)網(wǎng)絡(luò)模型，該方法更能反映網(wǎng)絡(luò)流量的變化趨勢(shì)；田海梅［8］提出一種蟻群算法與最小二乘支持向量機(jī)結(jié)合的網(wǎng)絡(luò)流量方法，該方法采用隨機(jī)抽取的方法來引導(dǎo)蟻群進(jìn)行全局搜索，在局部搜索時(shí)對(duì)最優(yōu)螞蟻鄰域內(nèi)進(jìn)行小步長(zhǎng)搜索，與時(shí)間序列模型和GA-LSSVM進(jìn)行比較，ACO-LSSVM算法提高了網(wǎng)絡(luò)流量預(yù)測(cè)精度。以上方法，均采用智能優(yōu)化算法對(duì)支持向量機(jī)參數(shù)進(jìn)行動(dòng)態(tài)調(diào)節(jié)，從而選取最優(yōu)參數(shù)進(jìn)行分類器的構(gòu)建。但是這些算法原理和思想比較復(fù)雜，控制參數(shù)較多，導(dǎo)致實(shí)現(xiàn)過程較為艱難。如遺傳算法編程艱難且參數(shù)居多、蟻群算法搜索時(shí)間長(zhǎng)、粒子群算法易陷入局部最優(yōu)等。差分進(jìn)化算法（Differential Evolution，DE）是一種新興的進(jìn)化計(jì)算技術(shù)［9］。它不僅便于理解與編程，而且具有良好的全局尋優(yōu)能力。它繼承了遺傳算法中基于種群的全局搜索策略，采用實(shí)數(shù)編碼、基于差分的簡(jiǎn)單變異操作和“一對(duì)一”的競(jìng)爭(zhēng)生存策略，降低了進(jìn)化計(jì)算操作的復(fù)雜性。將DE算法的全局尋優(yōu)能力和LSSVM快速求解能力結(jié)合，建立分類模型，并將該模型應(yīng)用于網(wǎng)絡(luò)流量分類中，實(shí)驗(yàn)結(jié)果顯示，該算法具有更快的收斂速度。

1 LSSVM模型

LSSVM是把標(biāo)準(zhǔn)SVM中的不等式約束轉(zhuǎn)化為等式約束，從而加快了模型的求解速度，因此被廣泛地應(yīng)用于網(wǎng)絡(luò)流量分類，故障診斷等問題中，并取得了較好的實(shí)踐效果［10］。

針對(duì)二分類問題，設(shè)樣本集X=[x1,x2,…,xn]T和標(biāo)簽集Y∈{-1,1}，LSSVM分類模型構(gòu)造主要思想如下：

其中，w是權(quán)重系數(shù)；β是懲罰參數(shù)；ζk是松弛因子；φ(xk)為非線性映射函數(shù)。

通過拉格朗日函數(shù)和KKT條件，可得到如下方程組：

其中，Y=[y1,…,yn]T；θi,j=yiyjφ(xi)Tφ(xj)(i,j=1,…,n)；α=[α1,…,αn]T；I是n階單位矩陣；Ln=[1,…,1]T。

對(duì)式（3）進(jìn)行求解后，得到LSSVM的決策函數(shù)：

選取徑向基核函數(shù)作為L(zhǎng)SSVM核函數(shù)，具體形式如下：

其中，σ為徑向基寬度。由此式（4）可改寫為

2 DE算法對(duì)LSSVM參數(shù)選取

對(duì)于LSSVM模型，在確定徑向基函數(shù)為核函數(shù)后，LSSVM模型需要優(yōu)化的參數(shù)有兩個(gè)：懲罰參數(shù)β和核函數(shù)參數(shù)σ。前者決定了訓(xùn)練誤差的大小，后者影響著樣本在高維特征空間中分布的復(fù)雜程度。由此可見，在構(gòu)建LSSVM模型時(shí)，對(duì)這兩個(gè)參數(shù)進(jìn)行選取對(duì)分類器的泛化能力起著決定性的作用。

2.1 DE算法的基本思想

DE算法是由Storn等人于1995年提出的一種基于群體智能理論的優(yōu)化算法，其基本思想是，在當(dāng)前進(jìn)化代數(shù)中對(duì)種群個(gè)體進(jìn)行變異操作、交叉操作和選擇操作，進(jìn)而產(chǎn)生下一代種群的過程［11-12］。

設(shè)xi,G(i=1,2,…,NP)為初始種群，i表示個(gè)體在種群中的位置，G表示進(jìn)化代數(shù)，NP表示種群規(guī)模。

（1）變異操作：從種群中隨機(jī)產(chǎn)生兩個(gè)不同個(gè)體，對(duì)第G代中的最優(yōu)個(gè)體按式（7）進(jìn)行變異操作，產(chǎn)生第G+1代新的個(gè)體向量vi,G+1：

其中，r1,r2∈{1,2.…,NP}是互不相同且與序號(hào)i不同的隨機(jī)數(shù)；xbest,G表示第G代中的最優(yōu)個(gè)體；B為變異算子。

（2）交叉操作：對(duì)新個(gè)體向量vi,G+1按式（8）進(jìn)行維度之間的交叉操作，產(chǎn)生實(shí)驗(yàn)向量ui,G+1：

其中，uij,G+1是第G+1代中第i個(gè)個(gè)體的第j個(gè)分量；CR為交叉算子；D為種群的維數(shù)；rij∈[0,1]是隨機(jī)數(shù)。

（3）選擇操作：通過式（9）對(duì)實(shí)驗(yàn)向量進(jìn)行保留：

其中，f是適應(yīng)度函數(shù)。

DE算法中變異算子過大或過小將嚴(yán)重影響算法的求解精度和收斂速度，通過引入自適應(yīng)因子，來降低變異算子所造成的不良影響。定義如下：

其中，B0是初始變異算子；Gm表示最大進(jìn)化代數(shù)。

2.2 基于DE算法的LSSVM參數(shù)選取

在采用DE算法優(yōu)化LSSVM參數(shù)時(shí)，適應(yīng)度函數(shù)的構(gòu)建至關(guān)重要，為了客觀地評(píng)價(jià)LSSVM多分類模型中參數(shù)的好壞，選擇能很好的衡量觀測(cè)值和真值之間偏差的均方根誤差（Root Mean Squared Error，RMSE）作為優(yōu)化算法的適應(yīng)度函數(shù)，定義如下：

其中，n為預(yù)測(cè)樣本總個(gè)數(shù)；yi是第i個(gè)樣本的真實(shí)值；y?i是第i個(gè)樣本的預(yù)測(cè)值。

DELSSVM模型的基本思想是以DE算法作為優(yōu)化算法，以LSSVM作為分類模型，將優(yōu)化算法和分類模型結(jié)合得到一種交替結(jié)構(gòu)，即：以分類模型的分類結(jié)果作為優(yōu)化算法的適應(yīng)度函數(shù)，優(yōu)化得到更優(yōu)的模型參數(shù)，以此參數(shù)進(jìn)行模型的再構(gòu)建，再分類，再優(yōu)化，循環(huán)交替，使分類結(jié)果最好。

具體步驟如下：

（1）初始化參數(shù)：設(shè)置種群個(gè)體數(shù)目NP、最大進(jìn)化代數(shù)Gm、種群維度D、變異算子F0、交叉算子CR、誤差精度ε和初代模型參數(shù) (β0,σ0)，并令g=0。

（2）模型構(gòu)建和計(jì)算適應(yīng)度值：以參數(shù)(β0i,σ0i),i=1,…,NP，構(gòu)建分類模型，并通過預(yù)測(cè)樣本計(jì)算適應(yīng)度值f0，得到種群中的最優(yōu)值f0?和所對(duì)應(yīng)的參數(shù)。

（3）判定終止條件：判斷f0?是否達(dá)到誤差精度ε或g=Gm。若滿足其一，則轉(zhuǎn)到步驟（8），否則繼續(xù)執(zhí)行。

（4）迭代循環(huán)：g=g+1。

（5）變異操作：按式（7）對(duì)當(dāng)前最優(yōu)個(gè)體進(jìn)行變異操作，產(chǎn)生新的個(gè)體向量vi,g。

（6）交叉操作：按式（8）判斷第i個(gè)個(gè)體向量中的第j個(gè)分量是否進(jìn)行交叉操作，產(chǎn)生實(shí)驗(yàn)向量ui,g。

（7）選擇操作：令 (β0i,σ0i)=ui,g構(gòu)建分類器，返回步驟（2），計(jì)算適應(yīng)度函數(shù)值fu，并按式（9）對(duì)每個(gè)個(gè)體向量進(jìn)行選擇，同時(shí)更新最優(yōu)個(gè)體和最優(yōu)值。

（8）輸出最優(yōu)值：得到最優(yōu)個(gè)體向量即最優(yōu)參數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

本次實(shí)驗(yàn)使用Moore數(shù)據(jù)庫(kù)中的網(wǎng)絡(luò)流量數(shù)據(jù)集進(jìn)行模擬，該數(shù)據(jù)庫(kù)包含10組數(shù)據(jù)子集，每組數(shù)據(jù)子集包含248個(gè)特征向量，文獻(xiàn)［13］對(duì)該數(shù)據(jù)中的特征進(jìn)行了有效的提取，提取出6個(gè)主要的特征，本次實(shí)驗(yàn)采用文獻(xiàn)［13］中提到的6個(gè)特征和其中4個(gè)數(shù)據(jù)集進(jìn)行，4個(gè)數(shù)據(jù)集分別為：entry01，entry02，entry04，entry08。同時(shí)，對(duì)類別標(biāo)簽進(jìn)行標(biāo)號(hào)，如：email=1，www=2等。表1顯示了數(shù)據(jù)集及其大小。

表1 數(shù)據(jù)集及大小

LSSVM原本是解決二分類問題的，而現(xiàn)實(shí)問題中避免不了對(duì)多類別數(shù)據(jù)進(jìn)行分類的情況，SVM實(shí)現(xiàn)多分類的方法一般有三種：一對(duì)多法，一對(duì)一法和層次支持向量機(jī)［14］。由于Moore數(shù)據(jù)類別數(shù)較少，故本次實(shí)驗(yàn)采用一對(duì)一方法，該方法將每?jī)深愖鳛橛?xùn)練樣本，構(gòu)建分類器。實(shí)驗(yàn)環(huán)境為windows10 Intel Core i7-8700K CPU 3.70GHz 16GB 64位操作系統(tǒng)，利用MATLAB2016b進(jìn)行編程。初始化DE參數(shù)：NP=100;D=2;ε=0.001;Gm=50;F=0.5;β,σ∈[2^(-8),2^8]，CR=0.5*(1+rand(0,1))。GA中交叉概率Pc=0.8;變異概率Pm=0.2。PSO中wmax=0.8;wmin=0.4;c1=c2=1.5;vmax=4;vmin=-4。ACO中信息素蒸發(fā)系數(shù)和轉(zhuǎn)移概率分別為Rho=0.8,P0=0.2。表2和表3分別顯示了各智能優(yōu)化算法尋找到的最優(yōu)參數(shù)以及對(duì)應(yīng)的均方根誤差。圖1展示了entry01數(shù)據(jù)集在各優(yōu)化算法下的尋優(yōu)過程。

表2 各智能優(yōu)化算法選取的參數(shù)

表3 最優(yōu)參數(shù)下對(duì)應(yīng)的RMSE

通過表3，在entry01數(shù)據(jù)集中DE算法和PSO算法的均方根誤差相同，且明顯低于GA和ACO算法；通過圖1能看出這四種算法對(duì)LSSVM參數(shù)進(jìn)行選取的時(shí)候，DE算法比PSO算法具有更快的收斂速度。從整體上來看，DE-LSSVM對(duì)網(wǎng)絡(luò)流量分類后得到的均方根誤差明顯小于其它幾種算法，使得LSSVM分類模型的性能得到了明顯的提升。

為了充分比較DE算法優(yōu)化后的LSSVM對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)分類的性能，采用文獻(xiàn)［15］中提到的四種分類性能評(píng)價(jià)指標(biāo)，分別是均方根誤差（RMSE）、F1指數(shù)（Fscore）、精確度（precision）、召回率（recall）。以entry01為例，優(yōu)化后的LSSVM（DE行表示）和未優(yōu)化參數(shù)（β=1,σ=0.5）的LSSVM模型（Default行表示）分別對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行模擬，結(jié)果如表4所示，其中class1-class6表示類別，Mean表示所有類別的平均值。

從表4中可以看出經(jīng)過DE算法優(yōu)化后的模型無(wú)論是F1指數(shù)還是均方根誤差都得到了改善，對(duì)于單個(gè)類別的精度和召回率也具有一定程度的提升。

圖1 適應(yīng)度函數(shù)隨進(jìn)化代數(shù)變化曲線

4 結(jié)論

針對(duì)網(wǎng)絡(luò)流量分類問題，通過具有自適應(yīng)因子的DE算法對(duì)LSSVM構(gòu)建的多分類模型進(jìn)行參數(shù)優(yōu)化，減少了分類模型參數(shù)選取的盲目性，降低了網(wǎng)絡(luò)流量分類中的均方根誤差。通過與其它算法的比較，能看出對(duì)于網(wǎng)絡(luò)流量分類問題，DE算法對(duì)分類模型參數(shù)的選取上，具有更快的收斂速度和更低的均方根誤差。但是依然存在以下兩方面問題：

表4 參數(shù)優(yōu)化前后各分類指標(biāo)

（1）雖然DE算法收斂速度快，操作簡(jiǎn)單，易于實(shí)現(xiàn)，但是算法后期個(gè)體差異逐漸縮小，容易陷入局部最優(yōu)。

（2）對(duì)于大規(guī)模訓(xùn)練樣本，LSSVM需要消耗大量的計(jì)算內(nèi)存。

如何有效的改善DE算法后期的全局尋優(yōu)能力和增強(qiáng)LSSVM對(duì)大規(guī)模數(shù)據(jù)的處理能力，依然是未來的研究熱點(diǎn)。