吳爭,董育寧
南京郵電大學(xué)通信與信息工程學(xué)院,南京210003
網(wǎng)絡(luò)視頻流量分類的特征選擇方法研究
吳爭,董育寧
南京郵電大學(xué)通信與信息工程學(xué)院,南京210003
近年來,隨著互聯(lián)網(wǎng)和流媒體技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)視頻業(yè)務(wù)的增長非常迅速。在2016年互聯(lián)網(wǎng)流量中,視頻流量的比例已達(dá)到73%,根據(jù)思科[1]的預(yù)測,到2021年將達(dá)到82%,并且每秒鐘將有1 000 000 min的視頻內(nèi)容通過網(wǎng)絡(luò)。通過網(wǎng)絡(luò)視頻業(yè)務(wù)流的分類,可以為互聯(lián)網(wǎng)提供商(ISP)更好地依據(jù)不同視頻業(yè)務(wù)的服務(wù)質(zhì)量(QoS)要求提供不同等級的服務(wù)。由于動態(tài)端口,地址偽裝等技術(shù)的使用,使得基于機(jī)器學(xué)習(xí)的視頻流分類方法成為研究的熱點(diǎn)。
而如此龐大體量的網(wǎng)絡(luò)視頻流量,無疑對于分類器的負(fù)擔(dān)是巨大的,更何況是要求實(shí)時(shí)、準(zhǔn)確的網(wǎng)絡(luò)流量的分類業(yè)務(wù),這對網(wǎng)絡(luò)視頻流量的分類提出了巨大的挑戰(zhàn)。為了解決這一問題,在分類之前,進(jìn)行特征選擇,可以提高分類器的分類效率,同時(shí)將與分類無關(guān)的特征篩除,提高分類器的準(zhǔn)確率。
在近幾十年里,有很多文獻(xiàn)對特征選擇算法進(jìn)行研究。Peng[2]較早地對信息度量準(zhǔn)則下的特征選擇算法進(jìn)行了匯總,并進(jìn)行了實(shí)驗(yàn)對比。Chandrashekar[3]對三類特征選擇算法進(jìn)行綜述,但因?yàn)闀r(shí)間較早,并沒有對特征選擇算法進(jìn)行系統(tǒng)的匯總,且沒有系統(tǒng)的實(shí)驗(yàn)對比特征選擇算法的性能。Aldehim[4]從可靠性和有效性兩個(gè)方面論證了特征選擇算法,并且實(shí)驗(yàn)論證了All approach和Part approach兩種框架的優(yōu)劣,但其并沒有從三類特征選擇算法的角度進(jìn)行對比分析。
在以往的文獻(xiàn)中雖然有特征選擇方法的綜述,但并沒有對特征選擇算法進(jìn)行系統(tǒng)性的實(shí)驗(yàn)和性能對比。本文的主要內(nèi)容及創(chuàng)新點(diǎn)有:第一,本文對特征選擇算法進(jìn)行分類綜述,不僅介紹了相關(guān)原理并且在性能方面進(jìn)行了相關(guān)對比;第二,使用較新的視頻流量數(shù)據(jù)集進(jìn)行實(shí)驗(yàn);第三,設(shè)計(jì)了一種多級分類器,使用特征選擇算法對網(wǎng)絡(luò)視頻流進(jìn)行細(xì)分類,從運(yùn)行時(shí)間、特征壓縮率,以及總體分類準(zhǔn)確率三個(gè)維度對特征選擇的算法進(jìn)行了對比實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析,得到網(wǎng)絡(luò)視頻分類中較為重要的特征。
本文剩余部分組織如下:第2章,對三類特征選擇算法進(jìn)行綜述,介紹算法的大體原理及優(yōu)勢和劣勢;第3章說明了實(shí)驗(yàn)環(huán)境及數(shù)據(jù)的分布,對七種特征選擇算法進(jìn)行性能評估;第4章,結(jié)論。
本文按照特征選擇方法與后續(xù)學(xué)習(xí)算法的關(guān)系以及評價(jià)準(zhǔn)則分成三類:過濾式(Filter)、包裹式(Wrapper)、嵌入式(Embedding)。
Filter特征選擇算法通常對特征采用一些特定的標(biāo)準(zhǔn)以此來評估特征的重要程度,對特征排序,設(shè)定閾值,就可選出特征子集。由于它與學(xué)習(xí)算法無關(guān),這就使得它較為高效。在過去幾十年里,有多種過濾式特征選擇方法的評價(jià)標(biāo)準(zhǔn)被提出,大致可分為四類:距離度量、信息度量、相關(guān)性度量、一致性度量。
2.1.1 距離度量
距離度量利用距離標(biāo)準(zhǔn)來衡量特征間的相關(guān)性,可以認(rèn)為是一種分離性,差異性,或者辨識能力的一種度量。一些重要且常用的度量方式[5],有歐氏距離、S階Minkowski測度、Chebychev距離、平方距離等。典型的使用距離度量的算法有Relief[6]算法及其變種ReliefF。以處理多類別問題為例,每次從一個(gè)訓(xùn)練樣本集中隨機(jī)抽取一個(gè)樣本R,然后從R的同類的樣本集中找出R的k個(gè)近鄰樣本(near-Hits),從每個(gè)R的不同類的的樣本集中找出k個(gè)近鄰樣本(near Misses),然后更新每個(gè)特征的權(quán)重。如下式:
因此,當(dāng)隨機(jī)選擇的樣本的某個(gè)特征值與nearMiss相應(yīng)特征值的距離比nearHit的樣本距離小時(shí),這個(gè)特征的權(quán)重就會被降低。此外,使用距離度量的評價(jià)標(biāo)準(zhǔn)的算法還有分支定界法和BFF算法[7]。
2.1.2 信息度量
信息理論的評價(jià)標(biāo)準(zhǔn)有很多種,因?yàn)樗芊从巢煌兞恐g所共有的信息量,使得所選擇的特征子集與類別的相關(guān)性最大,子集中的特征的相關(guān)性最小。
BIF(Best Individual Feature)[8],是一種簡單直接的特征選擇方法,信息度量函數(shù)如下:
I(?)表示互信息,C表示類別標(biāo)簽,f為候選特征。它是對每一個(gè)特征計(jì)算與類別標(biāo)簽的互信息J(f),互信息越大的表示特征中所包含的類別標(biāo)簽的信息量越大。按照值的大小進(jìn)行排列,選取前k個(gè)特征作為特征子集。這種方法計(jì)算量小,適于高維數(shù)據(jù),但是它沒有考慮特征間的冗余量,會帶來較多的冗余特征?;谝陨先秉c(diǎn),由Battiti[9]提出的一種使用候選特征f與單個(gè)已選特征s相關(guān)性對f進(jìn)行懲罰的方法MIFS,其評價(jià)函數(shù)為:
其中β為調(diào)節(jié)系數(shù)。
由上述MIFS知,β需要設(shè)定,Peng[10]提出MRMR算法,從理論上分析了MRMR等價(jià)于最大依賴性,取β為已選特征數(shù)的倒數(shù)。基于最大依賴性,可通過計(jì)算不同特征子集與類別的互信息來選取最優(yōu)化子集。但是,在高維空間中,估計(jì)多維概率密度是一個(gè)難點(diǎn)。另一個(gè)缺點(diǎn)是計(jì)算速度慢,所以文中就提出與其等價(jià)的最小冗余和最大相關(guān),給出了一種互信息的評價(jià)準(zhǔn)則。Lin和Tang[11]不僅考慮了特征間的冗余度最小,還考慮了已知類標(biāo)簽的情況下已選特征和候選特征的條件冗余度最大,即在已知已選特征集S的情況下通過候選特征f與類別C的依賴程度來確定f的重要性,其中條件互信息I(C;f|S)越大,f所能提供的新信息越多。因?yàn)镮(C;f|S)的計(jì)算費(fèi)用較大,樣本的多維性導(dǎo)致了其估值的不準(zhǔn)確,F(xiàn)leuret[12]提出的條件互信息最大化算法中采取一種變通的形式CMIM算法,即使用單個(gè)子特征s來代替整個(gè)已選子集S來估算I(C;f|S),其中s是使得I(C;f|S)值最大的已選特征。
2.1.3 相關(guān)性度量
相關(guān)性度量的評價(jià)標(biāo)準(zhǔn)可以反應(yīng)兩變量之間的相關(guān)性,這樣在特征選擇中就可以去除特征間冗余的特征,而保留與分類結(jié)果相關(guān)性較大的特征。這類算法中分為有監(jiān)督和無監(jiān)督算法。
其中最簡單的標(biāo)準(zhǔn)是Pearson相關(guān)系數(shù)[13],它可以反應(yīng)特征與標(biāo)簽的線性相關(guān)性。除了簡單的Pearson系數(shù)外,還有常用的Fisher系數(shù)、卡方系數(shù)、Gini系數(shù)。Laplacian系數(shù)也是一種相關(guān)性特征選擇方法,但它最大的不同在于它是無監(jiān)督的特征選擇,這也使得它能夠較好地保留數(shù)據(jù)的結(jié)構(gòu),這個(gè)算法比較有效地衡量了各個(gè)特征的權(quán)重,但是它沒有衡量各個(gè)特征之間相互的冗余度,有可能會選取冗余特征。
CFS(Correlated Feature Selection)算法[14]是一種較常用的利用相關(guān)性度量的特征選擇方法,CFS的基本思想是使用啟發(fā)式搜索,搜索特征子集,然后利用相關(guān)性對特征子集進(jìn)行打分,選出較好的特征子集。
這里CFS_score(F)是有k個(gè)特征的特征子集F的啟發(fā)性值。-rcf為特征與類標(biāo)簽的平均相關(guān)系數(shù),-rff為特征與特征之間的平均相關(guān)系數(shù)。式中分子代表特征子集的預(yù)測能力,分母代表特征間的冗余度。Nie提出的跡比準(zhǔn)則(Trace Ratio Criterion)[15]直接選出全局最優(yōu)的特征子集,特征的重要性由跡比準(zhǔn)則的值來衡量,此外它還為一類特征選擇算法提供了大體框架,不同的親和度矩陣,會產(chǎn)生不同的特征選擇算法,如批處理的Laplacian Scores和批處理的Fisher Scores。
2.1.4 一致性度量
不一致率作為一致性的度量,可以衡量特征集合的優(yōu)劣。不一致率的定義[16]如下:
式中,P為總的樣本數(shù);Nin表示不一致數(shù)。不一致率是一種單調(diào)的度量方式,并且相較于其他度量方式,它是對子集進(jìn)行評價(jià),計(jì)算簡單,能夠快速去除冗余和不相關(guān)的特征,從而獲得一個(gè)較小的特征子集,但它對噪聲數(shù)據(jù)敏感,且只適合離散數(shù)據(jù),連續(xù)數(shù)據(jù)需要提前離散化。典型的利用一致性度量的算法有:LVF[17]、FOCUS[18]。
Wrapper模型將學(xué)習(xí)算法作為特征選擇算法的一部分,并且直接使用分類性能作為特征重要性程度的評價(jià)標(biāo)準(zhǔn),最終將選擇的子集用于構(gòu)造分類模型。該方法所選特征子集較為準(zhǔn)確,但所用時(shí)間較長。
此類特征選擇方法常使用快速的搜索算法,選出特征子集并輸入分類器中。如Hsu等人[19]使用遺傳算法搜索特征子集,并用決策樹的分類準(zhǔn)確率作為評價(jià)指標(biāo),選取準(zhǔn)確率最高的特征子集。Dai等人[20]將SVM分類器與PSO算法結(jié)合,提出了一種快速特征選擇的方法。
為了更快的特征選擇同時(shí)保證特征選擇的準(zhǔn)確,往往將Filter方法和Wrapper方法相結(jié)合,先使用Filter方法在原始特征集中選出特征子集,然后輸入到Wrapper方法中,從而選出滿足分類器的最好的特征子集。如Alamedine等[21]提出的將ReliefF算法和PSO算法結(jié)合,得到了一種快速的Wrapper算法。
Embedded類特征算法結(jié)合了Filter和Wrapper類的優(yōu)點(diǎn),利用分類器內(nèi)部的參數(shù)對特征進(jìn)行排序,這樣就有效地結(jié)合了分類器的性能同時(shí)提高了運(yùn)算效率。大體將嵌入式算法(Embedded)分為三類。
2.3.1 Pruning方法
初始使用全部特征進(jìn)行訓(xùn)練,然后將相關(guān)系數(shù)為小的特征縮減,同時(shí)能夠保證分類器的性能。典型的應(yīng)用就是SVM-RFE。SVM-RFE算法就是根據(jù)SVM在訓(xùn)練時(shí)生成的權(quán)向量來構(gòu)造排序系數(shù),每次迭代去掉一個(gè)排序系數(shù)最小的特征屬性,最終得到所有特征屬性的排序。對于SVM-RFE算法,也有諸多缺點(diǎn),該方法能夠有效選擇特征但缺乏對冗余特征的考慮,文獻(xiàn)[22]給出了SVM-RFE with MRMR算法。每次迭代刪除一個(gè)特征,為加快算法效率,每次循環(huán)可刪除多個(gè)特征,如Ding提出的RFE-Annealing[23]算法。此外,Zhou等[24]提出了多分類問題的MSVM-RFE算法。
2.3.2 樹結(jié)構(gòu)模型的特征選擇算法
對于樹結(jié)構(gòu)的學(xué)習(xí)算法來說,在搭建節(jié)點(diǎn)之前,需要先判斷特征的好壞,以選擇特征作為根節(jié)點(diǎn),子節(jié)點(diǎn),進(jìn)而搭建整個(gè)樹的結(jié)構(gòu)。特征優(yōu)劣大多以信息度量的方式評估,如信息增益率,基尼指數(shù)等。此外,對于樹結(jié)構(gòu)的學(xué)習(xí)算法,還有剪枝處理,就是在搭建樹結(jié)構(gòu)之前或之后剔除無關(guān)或?qū)Ψ诸悷o益的特征。
2.3.3 正則化特征選擇算法
其中常用的是利用Lasso進(jìn)行特征選擇。Lasso方法下解出的參數(shù)常常具有稀疏性,根據(jù)參數(shù)的稀疏性可將無用特征去掉。為了解決存在奇異解和最終得到的是局部最優(yōu)特征子集的情況,Zou[25]提出動態(tài)的Lasso正則化,將正則項(xiàng)改寫:
bi是給定的權(quán)重系數(shù)用來控制每個(gè)特征的貢獻(xiàn),可以看出它是一個(gè)帶有權(quán)重的Lasso。此外,還有ElasticNet Regularization[26]解決了在特征數(shù)遠(yuǎn)遠(yuǎn)大于樣本數(shù)的問題,它將l1和l2范數(shù)結(jié)合構(gòu)成懲罰函數(shù)。另外還有多聚類特征選擇方法(Multi-Cluster Feature Selection,MCFS)[27],它是一種無監(jiān)督利用稀疏學(xué)習(xí)技術(shù)的特征選擇方法,還有利用l2,1范式進(jìn)行正則化的特征選擇方法[28],它用來解決多分類情況下的特征選擇算法。
本文實(shí)驗(yàn)平臺采用英特爾酷睿i5處理器,Win10操作系統(tǒng),8 GB內(nèi)存,視頻流的特征提取使用Linux Shell腳本完成,數(shù)據(jù)處理及算法使用Python進(jìn)行編程。
本文對網(wǎng)絡(luò)視頻流業(yè)務(wù)進(jìn)行研究,選取具有代表性業(yè)務(wù)標(biāo)清、高清、超清的Web視頻流(YOUKU,iQIYI等網(wǎng)站),即時(shí)視頻通訊(QQ視頻),網(wǎng)絡(luò)直播視頻(CBox,SopCast等),P2P客戶端視頻(Kankan)以及Http下載視頻共七種業(yè)務(wù)流進(jìn)行分析。實(shí)驗(yàn)中采取真實(shí)網(wǎng)絡(luò)中的流量,用Wireshark在不同時(shí)間段提取網(wǎng)絡(luò)流,時(shí)間跨度從2013年11月到2016年7月,提取的報(bào)文樣本以五元組(時(shí)間,源IP地址,目的IP地址,協(xié)議,報(bào)文大?。┙M成,每條視頻流持續(xù)30 min,總共統(tǒng)計(jì)840條流,數(shù)據(jù)量有266 GB。從中篩選出有效的27個(gè)特征,作為候選特征。數(shù)據(jù)集的分布如圖1所示,每個(gè)應(yīng)用類中流的條數(shù)所占的比例。
圖1 數(shù)據(jù)集分布
本文對前面所談及的七種典型的特征選擇方法進(jìn)行比較來分析不同特征選擇方法對于視頻流識別的影響,以下是對七種特征選擇算法的介紹,如表1所示。
表1 七種特征選擇方法描述
以下是本文實(shí)驗(yàn)采取的評價(jià)指標(biāo),對七種特征選擇算法進(jìn)行對比實(shí)驗(yàn)。
采用分類器準(zhǔn)確率(Overall Accuracy,OA)來評判特征選擇算法選擇效果的好壞。
采用特征壓縮率(Feature Compression Rate,F(xiàn)CR)來衡量算法對特征提取的效率。
時(shí)間(Time):每種特征選擇方法所運(yùn)行的時(shí)間,使用每種算法的運(yùn)行時(shí)間來考察其運(yùn)行速度。
將實(shí)驗(yàn)分為兩部分,首先對在線直播視頻、在線非直播視頻、P2P類視頻、即時(shí)通信視頻和Http視頻下載流量5類流量進(jìn)行分類作為實(shí)驗(yàn)1。然后將采用兩級分類器分類方案對在線非直播視頻流業(yè)務(wù)進(jìn)行細(xì)分類,識別出標(biāo)清(CD)、高清(SD)、超高清(HD)三種業(yè)務(wù)流,作為實(shí)驗(yàn)2。
3.2.1 特征選擇方法對比
首先使用七種特征選擇方法對在線直播視頻業(yè)務(wù),在線非直播視頻業(yè)務(wù),即時(shí)視頻通信業(yè)務(wù),Http視頻下載業(yè)務(wù),P2P視頻業(yè)務(wù)五種業(yè)務(wù)流進(jìn)行分類。
由圖2可以看出,CFS算法性能起伏較大,所選出的特征并不適用于所有分類器。但同為相關(guān)性評價(jià)指標(biāo)的Laplacian算法的整體選擇效果與其他特征選擇算法大體相同,準(zhǔn)確率都在95%以上。SVM-forward算法為Wrapper類算法,其選出的特征極大提高了SVM的準(zhǔn)確率,屬于Embedded類的Lasso算法的選擇效果介于Filter類和Wrapper類之間。
圖2 七種特征選擇算法準(zhǔn)確率
由表2可以看出總體的Filter類別的特征選擇算法的時(shí)間消耗最小,尤其對于Consistency-forward特征選擇算法所用時(shí)間最小,因其復(fù)雜度較低,另外作為無監(jiān)督的特征選擇方法Laplacian算法運(yùn)算時(shí)間也較低。對于Wrapper類的SVM-forward算法所用時(shí)間最大,相較于其他算法差了2~3數(shù)量級的時(shí)間。Embedded類的Lasso算法結(jié)合了Wrapper和Filter的思想,所用時(shí)間居中。
表2 七種特征選擇算法運(yùn)行時(shí)間
3.2.2 有特征選擇和無特征選擇分類對比
綜合以上各個(gè)特征選擇的分類準(zhǔn)確率結(jié)果取平均,與無特征選擇算法的分類準(zhǔn)確率進(jìn)行對比,如圖3。
圖3 無特征選擇與特征選擇的準(zhǔn)確率對比
可以看出在特征選擇后,C4.5、KNN、LogicRegression分類器的準(zhǔn)確率都大幅度提高,而SVM的平均準(zhǔn)確率與無特征選擇的準(zhǔn)確率相接近。
接下來進(jìn)行時(shí)間對比,分類器分類時(shí)間包括訓(xùn)練時(shí)間(training time)和測試時(shí)間(testing time)。對七種特征選擇算法在四種分類器所用的訓(xùn)練時(shí)間和測試時(shí)間分別取平均,從而得到每種分類器的平均訓(xùn)練時(shí)間和測試時(shí)間,與無特征選擇的分類器進(jìn)行比較,得到各個(gè)分類器訓(xùn)練時(shí)間和測試時(shí)間的縮減率,如圖4。
圖4 訓(xùn)練時(shí)間和測試時(shí)間縮減率
可以看出,各個(gè)分類器在特征選擇后,其訓(xùn)練時(shí)間還是測試時(shí)間都得到大幅地縮減,SVM的訓(xùn)練時(shí)間縮減了93%,而KNN的測試時(shí)間縮減了50%以上。
綜合以上結(jié)果可以看出,特征選擇算法不僅可以提高分類器的準(zhǔn)確率,而且可以大幅降低分類器的負(fù)擔(dān),提高其運(yùn)行效率。
對在線非直播視頻業(yè)務(wù)進(jìn)行細(xì)粒度的劃分,分為標(biāo)清、高清、超高清視頻。因?yàn)闃?biāo)清、高清,以及超清視頻同屬在線非直播視頻,擁有相似的數(shù)據(jù)特征,直接將分類器對數(shù)據(jù)的所有類別分類并不容易,因此先將標(biāo)清、高清、超清視頻作為一大類,與其他視頻流進(jìn)行分類,然后再將在線非直播視頻這一大類進(jìn)行細(xì)分類,所以本文采用兩級分類方案能夠提高視頻流分類的準(zhǔn)確率。具體分類方案如圖5。
首先在第一級分類中有:在線非直播視頻、在線直播視頻、即時(shí)視頻通話、Http視頻下載。第二級分類將在線非直播視頻進(jìn)行細(xì)分類,分成標(biāo)清(SD)、高清(HD)、超高清(CD)。
實(shí)驗(yàn)中使用的兩級分類器設(shè)計(jì)如圖6。
圖5 兩級分類方案
圖6 兩級分類器設(shè)計(jì)結(jié)構(gòu)
將整個(gè)訓(xùn)練集的50%分為訓(xùn)練集,50%分為測試集,然后將訓(xùn)練集用于特征選擇和分類器學(xué)習(xí),隨后將選擇出的特征用于測試集,形成新的測試集輸入到分類器1中,然后將分類器1預(yù)測出的待分類集——在線非直播數(shù)據(jù)集進(jìn)行細(xì)分類,最后將分類結(jié)果匯總,統(tǒng)計(jì)出準(zhǔn)確率。
首先將兩級分類方案與不分級分類進(jìn)行對比,在對比中不使用特征選擇方法,可得如圖7的各個(gè)分類器的對比圖。
圖7 分級方案與不分級方案對比
分級分類的好處在于先將邊界特征明顯的大類分出確保其準(zhǔn)確率,再使用專門的分類器將小類分出??梢钥闯龇旨壏诸惙桨冈诟鱾€(gè)分類器中的準(zhǔn)確率均好于不分級分類方案。
圖8是兩級分類各個(gè)特征選擇算法在四種分類器的準(zhǔn)確率。
由圖8可以看出,ReliefF算法、Laplacian算法在三種分類器中的表現(xiàn)均好,因此其選擇穩(wěn)定性較好。CFS在三類分類器中表現(xiàn)不穩(wěn)定,且性能略差。Consistencyforward算法在三個(gè)分類器中的表現(xiàn)并不穩(wěn)定,在C4.5和KNN算法中性能較好,而在SVM算法中性能略差。在所有特征選擇算法中,SVM-forward算法得到的準(zhǔn)確率最高。而Lasso達(dá)到的準(zhǔn)確率相較于SVM-forward低了3個(gè)百分點(diǎn),而相較于Filter類算法的平均值高了2.2個(gè)百分點(diǎn)。
圖9是各個(gè)特征選擇算法在各個(gè)分類器上的特征壓縮率。
圖8 七種特征選擇方法兩級分類準(zhǔn)確率
圖9 七種特征選擇算法特征壓縮率
由于CFS和Consistency-forward直接選出特征子集并與分類器無關(guān),因此其在每種分類算法下,選出的特征子集相同,可以看出它們在三類分類器中特征提取率相同。而其他算法均給出所有特征的排名,通過網(wǎng)格搜索算法,以準(zhǔn)確率OA為指標(biāo),選擇出最佳準(zhǔn)確率的前m項(xiàng)特征作為特征子集。通過圖9可以看出,ReliefF算法的特征壓縮率隨著分類器的不同變化較大,而MRMR的特征壓縮率FCR較為穩(wěn)定,說明其選出的特征具有普適性。而Laplacian算法的特征壓縮率的平均值最小,因此它可以選出較小的特征子集。
網(wǎng)絡(luò)流細(xì)分類是QoS分級的關(guān)鍵,而對于要求高并發(fā)、低延時(shí)的網(wǎng)絡(luò)流分類任務(wù)來說,特征選擇是必不可少的環(huán)節(jié),它能夠提高分類效率以及分類的準(zhǔn)確性。在以往的文獻(xiàn)中雖然有特征選擇方法方面的綜述,但并沒有對特征選擇算法進(jìn)行實(shí)驗(yàn)方面的性能對比。在本文中,介紹了特征選擇的過程,并且對三類特征選擇算法的發(fā)展及其優(yōu)缺點(diǎn)進(jìn)行了總結(jié),最后通過實(shí)驗(yàn)分別在分類準(zhǔn)確率、運(yùn)算時(shí)間,以及特征壓縮率上對比了七種三類特征選擇算法的性能,并且對視頻流量采用分級結(jié)構(gòu)進(jìn)行了細(xì)分類。此外,在特征選擇方面,還有很多未確定的因素影響著特征選擇的穩(wěn)定性、可靠性;另外在參數(shù)選擇方面例如選擇特征數(shù)的確定還有待進(jìn)一步研究。
[1] White paper:Cisco VNI forecast and methodology,2016—2021[EB/OL].(2017-09-15).http://www.cisco.com/c/en/us/solutions/collateral/service-provider/ip-ngn-ip-next-generationnetwork/white_paper_c11-481360.html.
[2] Peng H,Long F,Ding C.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2005,27(8):1226-1238.
[3] Chandrashekar G,Sahin F.A survey on feature selection methods[M].[S.l.]:Pergamon Press Inc,2014.
[4] Aldehim G,Wang W.Determining appropriate approaches for using data in feature selection[J].International Journal of Machine Learning&Cybernetics,2017,8(3):915-928.
[5] 姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.
[6] Robnik?ikonja M,Kononenko I.Theoretical and empirical analysis of ReliefF and RReliefF[J].Machine Learning,2003,53(1/2):23-69.
[7] Xu L,Yan P,Chang T.Best first strategy for feature selection[C]//International Conference on Pattern Recognition,1988,2:706-708.
[8] Jain A K,Duin R P W,Mao J.Statistical pattern recognition:A review[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2000,22(1):4-37.
[9] Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.
[10] Peng H,Long F,Ding C.Feature selection based on mutual information:Criteria of max-dependency,maxrelevance,and min-redundancy[M].[S.l.]:IEEE Computer Society,2005.
[11] Lin D,Tang X.Conditional infomax learning:An integrated framework for feature extraction and fusion[C]//European Conference on Computer Vision(ECCV 2006).Berlin Heidelberg:Springer,2006:68-82.
[12] Fleuret F.Fast binary feature selection with conditional mutualinformation[J].JournalofMachineLearning Research,2004,5(3):1531-1555.
[13] Coelho F,Braga A P,Verleysen M.Multi-objective semi-supervised feature selection and model selection based on Pearson’s correlation coefficient[C]//Iberoamerican Congress Conference on Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.[S.l.]:Springer-Verlag,2010:509-516.
[14] Hall M A,Smith L A.Feature selection for machine learning:Comparing a correlation-based filter approach to the wrapper[C]//FLAIRS Conference,1999:235-239.
[15] Nie F,Xiang S,Jia Y,et al.Trace ratio criterion for feature selection[C]//National Conference on Artificial Intelligence,2008,2:671-676.
[16] Dash M,Liu H.Consistency-based search in feature selection[J].Artificial Intelligence,2003,151(1):155-176.
[17] Liu H,Setiono R.A probabilistic approach to feature selection—A filter solution[C]//International Conference on Machine Learning,1996:319-327.
[18] Almuallim H,Dietterich T G.Learning with many irrelevant features[C]//National Conference on Artificial Intelligence.[S.l.]:AAAI Press,1991:547-552.
[19] Hsu W H.Genetic wrappers for feature selection in decision tree induction and variable ordering in Bayesian network structure learning[M].[S.l.]:Elsevier Science Inc,2004.
[20] Dai P,Ning L I.A fast SVM-based feature selection method[J].Journal of Shandong University,2010,40(5):60-65.
[21] Alamedine D,Marque C,Khalil M.Channel selection for monovariate analysis on EHG[C]//International Conference on Advances in Biomedical Engineering,2015:85-88.
[22] Zhang Junying,Liu Shenliang,Wang Yue.Gene association study with SVM,MLP and cross-validation for the diagnosis of diseases[J].Progress in Natural Science:Materials International,2008,18(6):741-750.
[23] Ding Y,Wilkins D.Improving the performance of SVMRFE to select genes in microarray data[J].BMC Bioinformatics,2006,7(S2):S12.
[24] Zhou X,Tuck D P.MSVM-RFE[J].Bioinformatics,2007,23.
[25] Zou Hui.The adaptive lasso and its oracle properties[J].Journal of the American statistical association,2006,101(476):1418-1429.
[26] Zou Hui,Hastie T.Regularization and variable selection via the elastic net[J].Journal of The Royal Statistical Society Series B-statistical Methodology,2005,67(5):301-320.
[27] Deng Cai,Zhang Chiyuan,He Xiaofei.Unsupervised feature selection for multi-cluster data[J].Knowledge Discovery and Data Mining,2010:333-342.
[28] Liu Jun,Ji Shuiwang,Ye Jieping.Multi-task feature learning via efficient L2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.
WU Zheng,DONG Yuning.Contrastive analysis of features selection on network video traffic classification.Computer Engineering andApplications,2018,54(6):7-13.
WU Zheng,DONG Yuning
College of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China
Accurate identification and categorization of multimedia traffic is the premise of end to end QoS(Quality of Service)guarantees.Today,the dramatic growth of data volume takes challenge to network traffic classification.Therefore,using feature selection methods for multimedia flow identification and classification is particularly important in the big data era.This paper introduces related works on feature selection using identification and categorization of multimedia traffic,which is divided into three categories:Filter,Wrapper,Embedded and analyzes the performance of these methods.Then,this paper compares the performance of various feature selection algorithms using latest dataset from three aspects:The running speed,the feature compression rate and the feature selection accuracy.Besides,to improve classification accuracy,this paper proposes a hierarchical structure to reach fine-grained classification,according to the dataset.
features selection;video traffic classification;hierarchical classifier
準(zhǔn)確,高效的業(yè)務(wù)流識別與分類是保障多媒體通信端到端QoS(Quality of Service),執(zhí)行相關(guān)網(wǎng)絡(luò)操作的前提。如今數(shù)據(jù)規(guī)模的劇烈增加為業(yè)務(wù)流的分類提出了挑戰(zhàn),而特征選擇能夠盡可能地減少特征維數(shù),去除冗余特征,為大數(shù)據(jù)時(shí)代下的業(yè)務(wù)流分類提供解決辦法。對現(xiàn)有的特征選擇方法分成Filter、Wrapper、Embedded三類,分析了各類算法的性能原理。采用最新數(shù)據(jù)集對不同特征選擇算法性能對比,從算法的運(yùn)行時(shí)間、特征壓縮率、準(zhǔn)確率三個(gè)方面評估了特征選擇算法的性能。另外,針對現(xiàn)有數(shù)據(jù)集分類情況進(jìn)行分級分類以達(dá)到視頻流的細(xì)分類,從而提高分類的準(zhǔn)確率。
特征選擇;視頻流分類;多級分類器
2017-11-01
2018-01-24
1002-8331(2018)06-0007-07
A
TP391
10.3778/j.issn.1002-8331.1710-0342
國家自然科學(xué)基金(No.61271233)。
吳爭(1994—),男,博士研究生,研究領(lǐng)域?yàn)槎嗝襟w通信,E-mail:1015010406@njupt.edu.cn;董育寧(1955—),男,博士,教授,研究領(lǐng)域?yàn)槎嗝襟w通信,網(wǎng)絡(luò)流識別。