錢亞冠 ,關(guān)曉惠 ,云本勝 ,樓瓊 ,馬鵬飛
(1.浙江科技學(xué)院理學(xué)院,浙江 杭州310023;2.浙江水利水電學(xué)院,浙江 杭州310018)
基于可變特征空間SVM的互聯(lián)網(wǎng)流量分類
錢亞冠1,關(guān)曉惠2,云本勝1,樓瓊1,馬鵬飛1
(1.浙江科技學(xué)院理學(xué)院,浙江 杭州310023;2.浙江水利水電學(xué)院,浙江 杭州310018)
支持向量機(jī)(support vector machine,SVM)是一類具有良好泛化能力的機(jī)器學(xué)習(xí)算法,適合應(yīng)用于互聯(lián)網(wǎng)動(dòng)態(tài)環(huán)境下的流量分類問題。目前將SVM擴(kuò)展到流量分類這樣的多分類問題的方法主要有One-Against-All和One-Against-One方法。這些方法都基于單一的特征空間訓(xùn)練SVM兩分類器,沒有考慮到不同特征對(duì)不同流量類的不同區(qū)分能力,因此獲得的分離超平面并不是最合理的。為此提出了可變特征空間的SVM集成方法,即為每個(gè)兩分類SVM構(gòu)建具有最優(yōu)區(qū)分能力的獨(dú)立特征空間,單獨(dú)訓(xùn)練兩分類SVM,最后再利用One-Against-All和One-Against-One方法集成為多分類器。實(shí)驗(yàn)表明,與原來的單一特征空間的One-Against-All和One-Against-One集成方法相比,提出的方法能有效提高流量分類器分類精度和召回率,更易獲得最優(yōu)分離超平面。
支持向量機(jī);可變特征空間;流量分類
流量分類是互聯(lián)網(wǎng)領(lǐng)域中的一個(gè)重要應(yīng)用,如何準(zhǔn)確地識(shí)別出流量的應(yīng)用類型對(duì)于網(wǎng)絡(luò)管理、流量控制及網(wǎng)絡(luò)安全等具有重要的意義。由于互聯(lián)網(wǎng)的復(fù)雜性、動(dòng)態(tài)性,在各種應(yīng)用層出不窮的環(huán)境下,如何準(zhǔn)確地識(shí)別出流量的應(yīng)用類型目前仍然是個(gè)極具挑戰(zhàn)的課題。
互聯(lián)網(wǎng)早期利用TCP端口號(hào)可以容易地確定流量的應(yīng)用類型,但隨著互聯(lián)網(wǎng)應(yīng)用的不斷衍生,很多應(yīng)用開始使用動(dòng)態(tài)端口,甚至使用其他著名端口,如P2P應(yīng)用開始使用Web的80端口傳輸數(shù)據(jù)。這種現(xiàn)狀使得基于端口的方法在識(shí)別率上顯著下降。基于DPI(deep packet inspection)的流量分類技術(shù)是目前被廣泛部署的另一類方法[1]。該方法通過檢測(cè)數(shù)據(jù)分組中的用戶數(shù)據(jù)部分,發(fā)現(xiàn)特定應(yīng)用的特征字串,實(shí)現(xiàn)對(duì)流量應(yīng)用類型的識(shí)別。但隨著目前用戶數(shù)據(jù)的加密和隱私保護(hù)的要求,這種方法也越來越顯示出它的不足。
最近,基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法成為流量分類領(lǐng)域的研究熱點(diǎn)[2-5]。所謂的基于機(jī)器學(xué)習(xí)的流量分類方法就是通過某種機(jī)器學(xué)習(xí)算法,從流量訓(xùn)練數(shù)據(jù)中建立分類模型,從而實(shí)現(xiàn)對(duì)流量類型的預(yù)測(cè)。這種方法的優(yōu)點(diǎn)是可以克服數(shù)據(jù)加密的限制,同時(shí)僅利用IP和TCP這兩層數(shù)據(jù)分組頭部的信息,不受隱私保護(hù)的制約。由于互聯(lián)網(wǎng)流量具有很大的動(dòng)態(tài)性,如果機(jī)器學(xué)習(xí)算法過擬合(over-fitting)訓(xùn)練數(shù)據(jù),那么分類模型的泛化能力就會(huì)下降,即對(duì)未知數(shù)據(jù)的預(yù)測(cè)正確率下降。在眾多的機(jī)器學(xué)習(xí)算法 中,支持向量 機(jī)(support vector machine,SVM)因具有良好的泛化能力,比其他學(xué)習(xí)算法更適合于流量分類。
徐鵬等人[6]提出一種基于SVM的流量分類方法,該方法利用非線性變換和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則將流量分類問題轉(zhuǎn)化為二次優(yōu)化問題,實(shí)驗(yàn)表明該方法具有良好的分類正確率和穩(wěn)定性。Alice E等人[7]將SVM應(yīng)用于流量分類,提出了一個(gè)簡(jiǎn)單的優(yōu)化算法解決SVM最優(yōu)參數(shù)選擇的問題。Zhou X S等人[8]利用SVM實(shí)現(xiàn)對(duì)產(chǎn)生P2P流量的應(yīng)用程序進(jìn)行分類。Li Z等人[9]選擇了對(duì)分類影響最大的9種流量特征,利用SVM技術(shù)將網(wǎng)絡(luò)流量分成了bulk traffic、interactive、WWW、service、P2P、mail、other 7 類 , 得 到 了95%以上的整體正確率。但由于SVM本質(zhì)上是一個(gè)兩分類器(binary classifier),因此將SVM應(yīng)用到流量分類這樣的多分類 (multi-class classification)問題時(shí),往往采用One-Against-All[10]或 One-Against-One[11]等 方 法 將 兩 分 類 器集成為多分類器。但這些方法都在一個(gè)共同的特征空間下尋找最優(yōu)分離超平面,但同一特征在不同類之間的區(qū)分能力并不等同[12]。針對(duì)這個(gè)問題,本文在One-Against-All和One-Against-One方法基礎(chǔ)上提出可變特征空間(flexible-feature-space,F(xiàn)FS)的方法,實(shí)驗(yàn)證明該方法可有效地提高流量分類的正確率。
SVM是一種對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類的方法。對(duì)于非線性可分的數(shù)據(jù)集,通過非線性映射,把原始訓(xùn)練數(shù)據(jù)映射到高維空間,在新的空間中搜索最佳分離超平面。假設(shè)具有兩種不同分類的數(shù)據(jù) 集(x1,y1),… ,(xm,ym),xi∈Rn,yi∈{-1,+1}。基本的SVM就是尋找一個(gè)可以分離兩類數(shù)據(jù)的最優(yōu)超平面。如果該數(shù)據(jù)集是線性可分的,則分離超平面可表示為:
其中,W=(w1,w2,…,wk)是權(quán)重向量;b 是一個(gè)標(biāo)量參數(shù)。所有的數(shù)據(jù)實(shí)例滿足:
如果數(shù)據(jù)集是線性不可分的,那么通過一個(gè)非線性映射函數(shù) (·)將原始數(shù)據(jù)映射到高維空間,從而使得在新空間中實(shí)現(xiàn)線性可分:
滿足上述條件的分離超平面很多,取邊緣最大的分離超平面為最優(yōu)分離超平面,這樣的超平面具有最佳的泛化性能。因此,求最優(yōu)分離超平面的問題轉(zhuǎn)化為如下的凸兩次規(guī)劃問題:
其中,C>0為常數(shù),稱為懲罰系數(shù),用以控制對(duì)錯(cuò)分?jǐn)?shù)據(jù)點(diǎn)的懲罰程度;ξi≥0稱為松弛變量,是為解決樣本線性不可分而引入的。利用拉格朗日乘子法和KKT(Karush-Kuhn-Tucker)條件可求解上述優(yōu)化問題。
將多個(gè)兩分類基本SVM集成為能完成多分類的SVM,通常是在相同的特征空間中搜尋最優(yōu)的分離超平面。已有研究表明,同一特征對(duì)不同流量類的區(qū)分能力是不同的[12],如數(shù)據(jù)分組大小的均值可以較好地區(qū)分SSH和P2P應(yīng)用,但卻不能很好地區(qū)分FTP和P2P。單一的特征空間并不適合所有的流量類,會(huì)增加搜索最優(yōu)分離超平面的困難。因此,本文提出可變特征空間的方法來克服這種單一特征空間的局限性。
圖1給出了不同特征空間下的線性可分性的情況。假設(shè)原始特征空間 F={a1,a2,a3,a4,a5},任務(wù)是對(duì) C1、C2、C33 類流量進(jìn)行分類。從圖 1(a)可以發(fā)現(xiàn),在特征子空間{a1,a2,a3}下,可以找到合適的超平面分離C2、C3的實(shí)例,但不能分離 C1、C2和 C1、C3的實(shí)例。通過改變特征子空間,如圖 1(b)所示,選擇{a3,a4,a5}作為特征子集,則可以找到合適的超平面分離C1、C2的實(shí)例,但卻不能分離C2、C3的實(shí)例。由此可見,在不同的特征子空間中尋找最優(yōu)分離超平面的難度不同,對(duì)于 C2、C3而言,選擇{a1,a2,a3}作為特征空間更易找到分離超平面;而對(duì)于 C1、C2則選擇{a3,a4,a5}作為特征空間則更易線性可分。因此,采用傳統(tǒng)上的單一特征空間存在很大的局限性??紤]到SVM是典型的兩類分類器,利用One-Against-All和One-Against-One的方式集成為多分類器,可以在單個(gè)的SVM分類器上采用單獨(dú)的特征空間,克服單一特征空間的不合理性。除了在原始的特征空間采用這種可變特征空間的方法,也可把它推廣到經(jīng)過非線性變換后的核空間中。假設(shè) (·)是特征空間Fm到Fn的非線性映射(n>m),仍然可以在高維核空間Fn中為分類Ci、Cj找到合適的特征子空間,使其更容易被線性可分。
假設(shè)有k個(gè)流量類,One-Against-All方法將集成k個(gè)SVM兩分類器來實(shí)現(xiàn)多分類器的能力。假設(shè)給定m個(gè)流量訓(xùn)練數(shù)據(jù)實(shí)例(x1,y1),…,(xm,ym),yi∈{HTTP,F(xiàn)TP,mail,…,games},這里假設(shè)有k種流量類型??勺兲卣骺臻g的One-Against-All集成方法如圖2所示。要識(shí)別k種流量類型,需要構(gòu)建k個(gè)兩分類SVM,每個(gè)SVM負(fù)責(zé)識(shí)別一種流量類。每個(gè)SVM有專門的訓(xùn)練數(shù)據(jù),如圖2所示,SVM_1的訓(xùn)練數(shù)據(jù)是通過保留HTTP流量的類別標(biāo)簽,將其他流量的類別標(biāo)簽改成others的方法構(gòu)建,這樣SVM_1只負(fù)責(zé)識(shí)別HTTP。以此類推,其他SVM根據(jù)其負(fù)責(zé)識(shí)別的流量類型,用同樣的方法構(gòu)建相應(yīng)的訓(xùn)練數(shù)據(jù)。
圖1 不同特征空間(也可映射到核空間)下的線性可分性
圖2 可變特征空間的One-Against-All集成方法
為了克服單一特征空間的缺陷,本文在每個(gè)SVM的專門訓(xùn)練數(shù)據(jù)上抽取特征??紤]到在原始特征空間上存在線性不可分的情況,先將原始的特征空間用多項(xiàng)式核函數(shù)K(x,xi)=(x·xi)+1)d映射到高維空間。具體的特征選擇方法采用Guyon等人[13]提出的SVM-RFE特征選擇算法獲得單獨(dú)的特征空間。該方法是Wrapper型特征選擇方法,即它選擇特征的度量是SVM的分類性能,因此該方法產(chǎn)生的特征空間可保證獲得合理的分離超平面。該方法的基本原理是根據(jù)特征在SVM上的分類性能排序,在每一次遞歸迭代時(shí)去除排序在最后的那個(gè)特征。具體而言,在訓(xùn)練SVM過程中,得到當(dāng)前的最優(yōu)分離超平面,計(jì)算權(quán)向量,則第 i個(gè)特征的排序重要性為 ci=(wi)2。本文提出的可變特征空間方法的優(yōu)點(diǎn)是:對(duì)于特定的SVM,去除了對(duì)于該SVM不重要的特征,使得搜索到的最優(yōu)分離超平面更接近于假設(shè)類,從而提高整體的分類精度。
不失一般性,這里僅以O(shè)ne-Against-All集成框架中的第i(i≤k)個(gè)SVM為例說明建模原理,其本質(zhì)是解決如下凸兩次規(guī)劃問題:
其中,(·)是非線性映射函數(shù),C是懲罰系數(shù),ξ是松弛變量。最終通過如下的判決函數(shù)判定x的分類標(biāo)簽:,即取上述k個(gè)判決函數(shù)中的最大值所對(duì)應(yīng)的預(yù)測(cè)類為最終的分類標(biāo)簽。本文把上述可變特征空間的思路結(jié)合到One-Against-All集成方法后,將其命名為One-Against-All+,具體算法如下所示。
輸 入 訓(xùn) 練 數(shù) 據(jù) D={(x1,y1),(x2,y2),… ,(xN,yN)},流量類標(biāo)簽 TC={C1,C2,…,CK},測(cè) 試數(shù)據(jù) T={(x1',y1'),(x2',y2'),…,(xM',yM')}。
輸出 預(yù)測(cè)正確/錯(cuò)誤的計(jì)數(shù)器{r(+1),r(-1)}和預(yù)測(cè)類別。
SVMi←在特征空間 Ωi上獲得模型;/求解式(6)~式(8)的優(yōu)化問題;
One-Against-One方法是另一種把兩分類SVM集成為多分類器的方法。假設(shè)要完成對(duì)k個(gè)流量類的分類任務(wù),首先為每?jī)蓚€(gè)分類構(gòu)造一個(gè)SVM,用于判別這兩個(gè)流量類型,共需構(gòu)建k(k-1)/2個(gè)SVM兩分類器。對(duì)于一個(gè)未知流量,每個(gè)SVM會(huì)輸出一種流量類別的預(yù)測(cè),One-Against-One方法通過投票表決的選出最終的預(yù)測(cè)分類,從而解決多分類問題。不失一般性,假設(shè)第i個(gè)分類為HTTP,第j個(gè)分類為FTP,那么構(gòu)建判別 HTTP或FTP的兩分類SVMi,j就是求解如下的凸兩次規(guī)劃問題:
對(duì)某個(gè)未知的流量樣本x進(jìn)行測(cè)試時(shí),需要利用k(k-1)/2個(gè)SVM對(duì)其進(jìn)行判別。如果被SVMij判別為屬于第i類,則第i類的票數(shù)加一;否則,第j類的票數(shù)加一。最終得票數(shù)最多的類就是x的預(yù)測(cè)類標(biāo)簽。可變特征空間的One-Against-One集成方法如圖3所示。
與One-Against-All方法一樣,需要為每個(gè)兩分類SVM準(zhǔn)備專門的訓(xùn)練數(shù)據(jù)。假設(shè)訓(xùn)練一個(gè)用于區(qū)分HTTP和FTP的SVM,訓(xùn)練數(shù)據(jù)通過如下方式產(chǎn)生:在原始數(shù)據(jù)中僅抽取出類標(biāo)簽為HTTP和FTP的流量數(shù)據(jù)。同理,為了訓(xùn)練用于區(qū)分HTTP和mail的SVM,只從原始數(shù)據(jù)中抽取HTTP和mail流量。假設(shè)有k個(gè)流量類別,那么共需構(gòu)建k(k-1)/2個(gè)訓(xùn)練數(shù)據(jù)集。同樣采用將原始特征空間映射到高維核空間,再采用SVM-RFE特征選擇算法為每個(gè)SVM選取單獨(dú)的特征空間。將這種可變特征空間的One-Against-One集成方法稱為One-Against-One+,具體算法如下。
圖3 可變特征空間的One-Against-One集成方法
輸入訓(xùn)練數(shù)據(jù)D={(x1,y1),(x2,y2),… ,(xN,yN)},流 量 類標(biāo)簽 TC={C1,C2,…,CK},測(cè)試數(shù)據(jù) T={(x1',y1'),(x2',y2'),…,(xM',yM')}。
輸出 預(yù)測(cè)正確/錯(cuò)誤的計(jì)數(shù)器{r(+1),r(-1)}和預(yù)測(cè)類別。
本文采用k-折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn)結(jié)果的評(píng)估。k-折交叉驗(yàn)證是將數(shù)據(jù)隨機(jī)的劃分成k個(gè)不相交、大小大致相等的子集 D1,D2,…,Dk。訓(xùn)練與測(cè)試進(jìn)行 k 次,在第i次迭代時(shí),子集Di用作測(cè)試集,其余的子集一起用作訓(xùn)練集。分類準(zhǔn)確率估計(jì)是k次迭代準(zhǔn)確分類的實(shí)例總數(shù)除以初始數(shù)據(jù)的中的實(shí)例總數(shù),通常采用10折交叉驗(yàn)證。評(píng)估指標(biāo)采用召回率(recall)與精度(precision)這兩個(gè)指標(biāo):
其中,P為測(cè)試集中事先標(biāo)識(shí)為正例的樣本數(shù),TP為分類器正確預(yù)測(cè)為正例的樣本數(shù),TP為被分類器錯(cuò)誤的將正例預(yù)測(cè)為負(fù)例的樣本數(shù)。
本文采用英國(guó)劍橋大學(xué)Moore等人提供的公開流量數(shù)據(jù)集[14]作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集通過連續(xù)采集24 h的網(wǎng)絡(luò)流量,并按28 min為間隔隨機(jī)抽取10個(gè)數(shù)據(jù)塊,再將流量數(shù)據(jù)分組構(gòu)建成數(shù)據(jù)流(flow),最后得到10個(gè)數(shù)據(jù)子集Data1,Data2,…,Data10。由于在10個(gè)數(shù)據(jù)子集上進(jìn)行的實(shí)驗(yàn)結(jié)果非常相似,本文只列出了Data1的實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)用的第二個(gè)數(shù)據(jù)集是從校園網(wǎng)中心的某臺(tái)交換機(jī)上獲得的流量數(shù)據(jù),該交換機(jī)匯聚了某幢男生宿舍的訪問外網(wǎng)的所有網(wǎng)絡(luò)流量。經(jīng)過連續(xù) 1 h(21:30-22:30)的連續(xù)數(shù)據(jù)采集,共計(jì)獲得325 538條數(shù)據(jù)流。為保護(hù)隱私的需要,只截取數(shù)據(jù)分組的分組頭部分,并通過Tcpdpriv工具對(duì)IP地址進(jìn)行了匿名化處理。分類標(biāo)簽利用與實(shí)驗(yàn)室合作的迪普公司的DPI模塊完成,并按Moore等提出的特征集進(jìn)行了預(yù)處理。
因上述數(shù)據(jù)集中存在嚴(yán)重的類不平衡情況,采用欠抽樣的方法降低WWW這類占高比例 (Moore數(shù)據(jù)集中占72.2%)的流數(shù)據(jù),最終的訓(xùn)練數(shù)據(jù)集中各類流量的比例見表 1、表 2。
表1 類平衡處理后的數(shù)據(jù)集1
表2 類平衡處理后的數(shù)據(jù)集2
英國(guó)劍橋大學(xué)Moore等人[14]提取出了248種網(wǎng)絡(luò)流特征,但是這些特征有些是不能實(shí)時(shí)獲得的??紤]到過多的特征在SVM訓(xùn)練過程中非常低效,而CFS這樣基于相關(guān)的特征選擇算法不一定適合SVM;基于SVM的Wrapper型算法在特征空間太大,數(shù)據(jù)很多時(shí)也非常低效,為此本文采用目前被大都數(shù)參考文獻(xiàn)使用,又容易在線提取的特征作為基本的特征子集(見表3)。本文提出的可變特征空間的方法就是在這個(gè)基本特征子集的基礎(chǔ)上利用SVM-RFE算法提取兩分類SVM的特征子集,如對(duì)于區(qū)分WWW和mail的 SVM,優(yōu)化的特征空間為:{Dst_port,mean_data_ip_b→a,duration,throughput b→a,mean_data_ip_a→b}。由于篇幅有限,不一一列出所有兩分類SVM的特征空間。
表3 網(wǎng)絡(luò)流特征子集
圖4和圖5是4種方法在數(shù)據(jù)集1上的流量分類精度和召回率的對(duì)比情況。其中One-Against-One+表示改進(jìn)One-Against-One的可變特征空間方法,One-Against-All+表示改進(jìn)One-Against-All的可變特征空間方法。為便于比較,4種方法的SVM均采用的多項(xiàng)式核函數(shù)。從整體觀察,本文提出的可變特征空間方法均使比統(tǒng)一特征空間的方法在精度和召回率上都有很大程度的提高。對(duì)于如WWW、mail這樣的比例較高的類,雖然One-Against-All和One-Against-One方法已經(jīng)可以達(dá)到85%以上的精度和召回率,改進(jìn)的新方法使它們提高到90%以上。分類準(zhǔn)確率提升幅度最大的是那些比例很小,原本分類準(zhǔn)確率很低的少數(shù)類,如attack、intertive等。如攻擊流量attack,本身包含多種攻擊類型的流量(worm,virus等),因此它們的共同特征比較少,如果使用一個(gè)所有分類共享的單一的特征空間會(huì)使得很多區(qū)域疊加,難以找到一個(gè)較好的決策分離超平面。改進(jìn)方法專門為攻擊流量的二分類SVM選擇特定的特征空間,有利于減少無關(guān)特征的干擾。實(shí)驗(yàn)數(shù)據(jù)表明,attack流量的精度從原來的13.4%提高到 50.6%(One-Against-All+方法),15.7%提高到51.2%(One-Against-One+方法)。同樣,F(xiàn)TP-control、interactive等原來正確率很低的分類也得到了很大的提高。
圖6和圖7是4種方法在數(shù)據(jù)集2上的流量分類精度和召回率的對(duì)比情況。數(shù)據(jù)集2是從校網(wǎng)絡(luò)中心的某臺(tái)交換機(jī)采集到的實(shí)際數(shù)據(jù),本文同樣對(duì)數(shù)據(jù)進(jìn)行了欠抽樣處理,以均衡流量類的分布。數(shù)據(jù)集2上的流量分類對(duì)比結(jié)果與數(shù)據(jù)集1相似,改進(jìn)的方法使得分類正確率得到了進(jìn)一步提高。在精度上的提高尤其顯著:(One-Against-All+方法)QQ從 64.2%提高到 83.1%,P2P從 72.3%提高到92.6%,games從22.5%提高到40.3%,attack從40.7提高到67.5%;(One-Against-One+方法)QQ從 63.8%提高到 84.3%,P2P從66.7%提高到90.1%,games從 26.6%提高到 39.8%,attack從32.4%提高到65.2%。在召回率上,改進(jìn)方法也比原方法有了明顯的提高。由此可見,本文提出的方法有助于進(jìn)一步提高One-Against-All和One-Against-One的分類正確率。
圖4 4種方法在數(shù)據(jù)集1上的分類精度對(duì)比
圖5 4種方法在數(shù)據(jù)集1上的分類召回率對(duì)比
機(jī)器學(xué)習(xí)方法目前應(yīng)用于流量分類是一個(gè)研究熱點(diǎn),SVM由于其良好的泛化能力,非常適合應(yīng)用于互聯(lián)網(wǎng)這類高度動(dòng)態(tài)變化的場(chǎng)景。SVM最初是針對(duì)兩分類問題的,即SVM是典型的兩分類器。但互聯(lián)網(wǎng)流量的應(yīng)用類型很多,對(duì)它們進(jìn)行分類是典型的多分類問題。傳統(tǒng)上將SVM擴(kuò)展到多分類模型是通過One-Against-All和One-Against-One方法。本文發(fā)現(xiàn)不同的流量特征(如數(shù)據(jù)分組平均大?。?duì)于不同的應(yīng)用,其區(qū)分能力是不同的。因此,傳統(tǒng)上采用單一的特征空間來建立這些兩分類SVM顯然不是最優(yōu)的。本文提出可變特征空間的方法,在One-Against-All和One-Against-One的基礎(chǔ)上,為每個(gè)兩分類SVM構(gòu)建獨(dú)立的特征空間,這樣找到的最優(yōu)分離超平面優(yōu)于統(tǒng)一的特征空間。通過兩個(gè)真實(shí)的流量數(shù)據(jù)集,對(duì)比分析了各自的分類正確性。實(shí)驗(yàn)結(jié)果表明,本文提出的可變特征空間的分類方法可以有效提高原始的One-Against-All和One-Against-One方法的分類性能。本文提出的基于機(jī)器學(xué)習(xí)的流量分類方法,目前類標(biāo)簽標(biāo)注仍依賴于DPI,將來擬研究主動(dòng)學(xué)習(xí)等方式來解決大規(guī)模類標(biāo)簽標(biāo)注問題。
圖6 4種方法在數(shù)據(jù)集2上的分類精度對(duì)比
圖7 4種方法在數(shù)據(jù)集2上的分類召回率對(duì)比
[1]BUJLOW T, CARELA-ESPANOL V, BARLET-ROS P.Independentcomparison ofpopularDPI tools fortraffic classification[J].Computer Networks,2015(76):75-89.
[2]錢亞冠,張旻.基于過抽樣技術(shù)的 P2P流量識(shí)別方法 [J].電信科學(xué),2014,30(4):109-113.QIAN Y G,ZHANG M.P2P trafficidentification based over-sampling technique[J].Telecommunications Science,2014,30(4):109-113.
[3]TONGAONKAR A,TORRES R,ILIOFOROU M,et al.Towards self-adaptive network traffic classification [J]. Computer Communications,2015(56):35-46.
[4]SOYSALA M,SCHMIDT E G.Machine learning algorithms for accurate flow-based network trafficclassification:evaluation and comparison[J].Performance Evaluation,2010,67(6):451-467.
[5]SINGH H.Performanceanalysisofunsupervised machine learning techniques for network traffic classification [C]/2015 Fifth InternationalConference on Advanced Computing &Communication Technologies (ACCT), Feb 21-25, 2015,Haryana,India.New Jersey:IEEE Press,2015:401-404.
[6]徐鵬,劉瓊,林森.基于支持向量機(jī)的Internet流量分類研究[J].計(jì)算機(jī)研究與發(fā)展,2009,46(3):407-414.XU P,LIU Q,LIN S.Internet traffic classification using support vector machine [J].JournalofComputer Research and Development,2009,46(3):407-414.
[7]ESTE A,GRINGOLIF,SALGARELLIL.Supportvector machines for TCP traffic classification [J].The International Journal of Computer and Telecommunications Networking,2009,53(14):2476-2490.
[8]ZHOU X S.A P2P traffic classification method based on SVM[C]//The 2008 InternationalSymposium on ComputerScience and Computational Technology,Dec 20-22,2008,Washington,DC,USA.[S.1.:s.n.],2008:53-57.
[9]LI Z,YUAN R,GUAN X.Accurate classification of the internet traffic based on the svm method[C]//The IEEE International Conference onCommunications,2007 (ICC’07),June 24-28,2007,Glasgow,Scotland.New Jersey:IEEE Press,2007:1373-1378.
[10]CHANG C C,LIN C J.LIBSVM:a library for support vector machines [EB/OL]. [2001-07-20].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[11]KREBEL H G.Pairwiseclassification and supportvector machines [A]/SCHOLKIPF B,BURGES C J C,SMOLA A.Advances in kernelmethods:support vector learning [M].Cambridge:The MIT Press,1999:255-268.
[12]XIE G,ILIOFOTOU M,KERALAPURA R,et al.Subflow:Towards practical flow-level traffic classification [C]/IEEE INFOCOM 2012,March 25-30,2012,Orlando,F(xiàn)L,USA.New Jersey:IEEE Press,2012:2541-2545.
[13]GUYONG I,WESTON J,BARNHILL S,et al.Gene selection for cancer classification using support vector machines [J].Machine Learning,2002,46(1-3):389-422.
[14]MOORE A W.Dataset [EB/OL]. [2009-06-29].http:/www.cl.cam.ac.uk/research/srg/netos /nprobe/data/papers/sigmetrics /.
Internet traffic classification using SVM with flexible feature space
QIAN Yaguan1,GUAN Xiaohui2,YUN Bensheng1,LOU Qiong1,MA Pengfei1
1.College of Science,Zhejiang University of Science and Technology,Hangzhou 310023,China;2.Zhejiang University of Water Resources and Electric Power,Hangzhou 310018,China
SVM is a typical machine learning algorithm with prefect generalization capacity,which is suitable for the internet traffic classification.At present,there are two approaches,One-Against-All and One-Against-One,proposed for extending SVM to multi-class problem like traffic classification.However,these approaches are both based on a unique feature space.In fact,the separating capacity of a special traffic feature is not similar to different applications.Hence,flexible feature space for extending SVM was proposed,which constructs independent feature space with optimal discriminability for each binary-SVM and trains them under their own feature space.Finally,these trained binary-SVM were ensemble by One-Against-All and One-Against-One approaches.The experiments show that the proposed approach can efficiently improve the precision and callback of the traffic classifier and easily obtain more reasonable optimal separating hyper-plane.
support vector machine,flexible feature space,traffic classification
s: The National Natural Science Foundation of China (No.61379118,No.61103200),Education Department Foundation of Zhejiang Province(No.2012E10023-14)
TP393.04
A
10.11959/j.issn.1000-0801.2016132
2016-01-01;
2016-04-09
錢亞冠,qianyg@zju.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目 (No.61379118,No.61103200);浙江省網(wǎng)絡(luò)媒體云處理與分析工程技術(shù)中心開放課題資助項(xiàng)目(No.2012E10023-14)
錢亞冠(1976-),男,博士,浙江科技學(xué)院理學(xué)院副教授,主要研究方向?yàn)榛ヂ?lián)網(wǎng)流量分類、下一代互聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)與大數(shù)據(jù)處理。
關(guān)曉惠(1977-),女,浙江水利水電學(xué)院副教授,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與大數(shù)據(jù)處理。
云本勝(1980-),男,博士,浙江科技學(xué)院理學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)挖掘和服務(wù)計(jì)算。
樓瓊(1987-),女,博士,浙江科技學(xué)院理學(xué)院講師,主要研究方向?yàn)閳D像處理、機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺。
馬鵬飛(1986-),男,博士,浙江科技學(xué)院理學(xué)院講師,主要研究方向?yàn)檫\(yùn)籌優(yōu)化與機(jī)器學(xué)習(xí)。