亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網絡視頻流量分類的特征選擇方法研究

        2018-03-19 02:44:40吳爭董育寧
        計算機工程與應用 2018年6期
        關鍵詞:特征選擇子集度量

        吳爭,董育寧

        南京郵電大學通信與信息工程學院,南京210003

        網絡視頻流量分類的特征選擇方法研究

        吳爭,董育寧

        南京郵電大學通信與信息工程學院,南京210003

        1 引言

        近年來,隨著互聯(lián)網和流媒體技術的迅速發(fā)展,網絡視頻業(yè)務的增長非常迅速。在2016年互聯(lián)網流量中,視頻流量的比例已達到73%,根據思科[1]的預測,到2021年將達到82%,并且每秒鐘將有1 000 000 min的視頻內容通過網絡。通過網絡視頻業(yè)務流的分類,可以為互聯(lián)網提供商(ISP)更好地依據不同視頻業(yè)務的服務質量(QoS)要求提供不同等級的服務。由于動態(tài)端口,地址偽裝等技術的使用,使得基于機器學習的視頻流分類方法成為研究的熱點。

        而如此龐大體量的網絡視頻流量,無疑對于分類器的負擔是巨大的,更何況是要求實時、準確的網絡流量的分類業(yè)務,這對網絡視頻流量的分類提出了巨大的挑戰(zhàn)。為了解決這一問題,在分類之前,進行特征選擇,可以提高分類器的分類效率,同時將與分類無關的特征篩除,提高分類器的準確率。

        在近幾十年里,有很多文獻對特征選擇算法進行研究。Peng[2]較早地對信息度量準則下的特征選擇算法進行了匯總,并進行了實驗對比。Chandrashekar[3]對三類特征選擇算法進行綜述,但因為時間較早,并沒有對特征選擇算法進行系統(tǒng)的匯總,且沒有系統(tǒng)的實驗對比特征選擇算法的性能。Aldehim[4]從可靠性和有效性兩個方面論證了特征選擇算法,并且實驗論證了All approach和Part approach兩種框架的優(yōu)劣,但其并沒有從三類特征選擇算法的角度進行對比分析。

        在以往的文獻中雖然有特征選擇方法的綜述,但并沒有對特征選擇算法進行系統(tǒng)性的實驗和性能對比。本文的主要內容及創(chuàng)新點有:第一,本文對特征選擇算法進行分類綜述,不僅介紹了相關原理并且在性能方面進行了相關對比;第二,使用較新的視頻流量數(shù)據集進行實驗;第三,設計了一種多級分類器,使用特征選擇算法對網絡視頻流進行細分類,從運行時間、特征壓縮率,以及總體分類準確率三個維度對特征選擇的算法進行了對比實驗,并對實驗結果進行了分析,得到網絡視頻分類中較為重要的特征。

        本文剩余部分組織如下:第2章,對三類特征選擇算法進行綜述,介紹算法的大體原理及優(yōu)勢和劣勢;第3章說明了實驗環(huán)境及數(shù)據的分布,對七種特征選擇算法進行性能評估;第4章,結論。

        2 三類特征選擇方法

        本文按照特征選擇方法與后續(xù)學習算法的關系以及評價準則分成三類:過濾式(Filter)、包裹式(Wrapper)、嵌入式(Embedding)。

        2.1 過濾式(Filter)特征選擇算法

        Filter特征選擇算法通常對特征采用一些特定的標準以此來評估特征的重要程度,對特征排序,設定閾值,就可選出特征子集。由于它與學習算法無關,這就使得它較為高效。在過去幾十年里,有多種過濾式特征選擇方法的評價標準被提出,大致可分為四類:距離度量、信息度量、相關性度量、一致性度量。

        2.1.1 距離度量

        距離度量利用距離標準來衡量特征間的相關性,可以認為是一種分離性,差異性,或者辨識能力的一種度量。一些重要且常用的度量方式[5],有歐氏距離、S階Minkowski測度、Chebychev距離、平方距離等。典型的使用距離度量的算法有Relief[6]算法及其變種ReliefF。以處理多類別問題為例,每次從一個訓練樣本集中隨機抽取一個樣本R,然后從R的同類的樣本集中找出R的k個近鄰樣本(near-Hits),從每個R的不同類的的樣本集中找出k個近鄰樣本(near Misses),然后更新每個特征的權重。如下式:

        因此,當隨機選擇的樣本的某個特征值與nearMiss相應特征值的距離比nearHit的樣本距離小時,這個特征的權重就會被降低。此外,使用距離度量的評價標準的算法還有分支定界法和BFF算法[7]。

        2.1.2 信息度量

        信息理論的評價標準有很多種,因為它能反映不同變量之間所共有的信息量,使得所選擇的特征子集與類別的相關性最大,子集中的特征的相關性最小。

        BIF(Best Individual Feature)[8],是一種簡單直接的特征選擇方法,信息度量函數(shù)如下:

        I(?)表示互信息,C表示類別標簽,f為候選特征。它是對每一個特征計算與類別標簽的互信息J(f),互信息越大的表示特征中所包含的類別標簽的信息量越大。按照值的大小進行排列,選取前k個特征作為特征子集。這種方法計算量小,適于高維數(shù)據,但是它沒有考慮特征間的冗余量,會帶來較多的冗余特征?;谝陨先秉c,由Battiti[9]提出的一種使用候選特征f與單個已選特征s相關性對f進行懲罰的方法MIFS,其評價函數(shù)為:

        其中β為調節(jié)系數(shù)。

        由上述MIFS知,β需要設定,Peng[10]提出MRMR算法,從理論上分析了MRMR等價于最大依賴性,取β為已選特征數(shù)的倒數(shù)。基于最大依賴性,可通過計算不同特征子集與類別的互信息來選取最優(yōu)化子集。但是,在高維空間中,估計多維概率密度是一個難點。另一個缺點是計算速度慢,所以文中就提出與其等價的最小冗余和最大相關,給出了一種互信息的評價準則。Lin和Tang[11]不僅考慮了特征間的冗余度最小,還考慮了已知類標簽的情況下已選特征和候選特征的條件冗余度最大,即在已知已選特征集S的情況下通過候選特征f與類別C的依賴程度來確定f的重要性,其中條件互信息I(C;f|S)越大,f所能提供的新信息越多。因為I(C;f|S)的計算費用較大,樣本的多維性導致了其估值的不準確,F(xiàn)leuret[12]提出的條件互信息最大化算法中采取一種變通的形式CMIM算法,即使用單個子特征s來代替整個已選子集S來估算I(C;f|S),其中s是使得I(C;f|S)值最大的已選特征。

        2.1.3 相關性度量

        相關性度量的評價標準可以反應兩變量之間的相關性,這樣在特征選擇中就可以去除特征間冗余的特征,而保留與分類結果相關性較大的特征。這類算法中分為有監(jiān)督和無監(jiān)督算法。

        其中最簡單的標準是Pearson相關系數(shù)[13],它可以反應特征與標簽的線性相關性。除了簡單的Pearson系數(shù)外,還有常用的Fisher系數(shù)、卡方系數(shù)、Gini系數(shù)。Laplacian系數(shù)也是一種相關性特征選擇方法,但它最大的不同在于它是無監(jiān)督的特征選擇,這也使得它能夠較好地保留數(shù)據的結構,這個算法比較有效地衡量了各個特征的權重,但是它沒有衡量各個特征之間相互的冗余度,有可能會選取冗余特征。

        CFS(Correlated Feature Selection)算法[14]是一種較常用的利用相關性度量的特征選擇方法,CFS的基本思想是使用啟發(fā)式搜索,搜索特征子集,然后利用相關性對特征子集進行打分,選出較好的特征子集。

        這里CFS_score(F)是有k個特征的特征子集F的啟發(fā)性值。-rcf為特征與類標簽的平均相關系數(shù),-rff為特征與特征之間的平均相關系數(shù)。式中分子代表特征子集的預測能力,分母代表特征間的冗余度。Nie提出的跡比準則(Trace Ratio Criterion)[15]直接選出全局最優(yōu)的特征子集,特征的重要性由跡比準則的值來衡量,此外它還為一類特征選擇算法提供了大體框架,不同的親和度矩陣,會產生不同的特征選擇算法,如批處理的Laplacian Scores和批處理的Fisher Scores。

        2.1.4 一致性度量

        不一致率作為一致性的度量,可以衡量特征集合的優(yōu)劣。不一致率的定義[16]如下:

        式中,P為總的樣本數(shù);Nin表示不一致數(shù)。不一致率是一種單調的度量方式,并且相較于其他度量方式,它是對子集進行評價,計算簡單,能夠快速去除冗余和不相關的特征,從而獲得一個較小的特征子集,但它對噪聲數(shù)據敏感,且只適合離散數(shù)據,連續(xù)數(shù)據需要提前離散化。典型的利用一致性度量的算法有:LVF[17]、FOCUS[18]。

        2.2 包裹式(Wrapper)特征選擇算法

        Wrapper模型將學習算法作為特征選擇算法的一部分,并且直接使用分類性能作為特征重要性程度的評價標準,最終將選擇的子集用于構造分類模型。該方法所選特征子集較為準確,但所用時間較長。

        此類特征選擇方法常使用快速的搜索算法,選出特征子集并輸入分類器中。如Hsu等人[19]使用遺傳算法搜索特征子集,并用決策樹的分類準確率作為評價指標,選取準確率最高的特征子集。Dai等人[20]將SVM分類器與PSO算法結合,提出了一種快速特征選擇的方法。

        為了更快的特征選擇同時保證特征選擇的準確,往往將Filter方法和Wrapper方法相結合,先使用Filter方法在原始特征集中選出特征子集,然后輸入到Wrapper方法中,從而選出滿足分類器的最好的特征子集。如Alamedine等[21]提出的將ReliefF算法和PSO算法結合,得到了一種快速的Wrapper算法。

        2.3 嵌入式(Embedded)特征選擇算法

        Embedded類特征算法結合了Filter和Wrapper類的優(yōu)點,利用分類器內部的參數(shù)對特征進行排序,這樣就有效地結合了分類器的性能同時提高了運算效率。大體將嵌入式算法(Embedded)分為三類。

        2.3.1 Pruning方法

        初始使用全部特征進行訓練,然后將相關系數(shù)為小的特征縮減,同時能夠保證分類器的性能。典型的應用就是SVM-RFE。SVM-RFE算法就是根據SVM在訓練時生成的權向量來構造排序系數(shù),每次迭代去掉一個排序系數(shù)最小的特征屬性,最終得到所有特征屬性的排序。對于SVM-RFE算法,也有諸多缺點,該方法能夠有效選擇特征但缺乏對冗余特征的考慮,文獻[22]給出了SVM-RFE with MRMR算法。每次迭代刪除一個特征,為加快算法效率,每次循環(huán)可刪除多個特征,如Ding提出的RFE-Annealing[23]算法。此外,Zhou等[24]提出了多分類問題的MSVM-RFE算法。

        2.3.2 樹結構模型的特征選擇算法

        對于樹結構的學習算法來說,在搭建節(jié)點之前,需要先判斷特征的好壞,以選擇特征作為根節(jié)點,子節(jié)點,進而搭建整個樹的結構。特征優(yōu)劣大多以信息度量的方式評估,如信息增益率,基尼指數(shù)等。此外,對于樹結構的學習算法,還有剪枝處理,就是在搭建樹結構之前或之后剔除無關或對分類無益的特征。

        2.3.3 正則化特征選擇算法

        其中常用的是利用Lasso進行特征選擇。Lasso方法下解出的參數(shù)常常具有稀疏性,根據參數(shù)的稀疏性可將無用特征去掉。為了解決存在奇異解和最終得到的是局部最優(yōu)特征子集的情況,Zou[25]提出動態(tài)的Lasso正則化,將正則項改寫:

        bi是給定的權重系數(shù)用來控制每個特征的貢獻,可以看出它是一個帶有權重的Lasso。此外,還有ElasticNet Regularization[26]解決了在特征數(shù)遠遠大于樣本數(shù)的問題,它將l1和l2范數(shù)結合構成懲罰函數(shù)。另外還有多聚類特征選擇方法(Multi-Cluster Feature Selection,MCFS)[27],它是一種無監(jiān)督利用稀疏學習技術的特征選擇方法,還有利用l2,1范式進行正則化的特征選擇方法[28],它用來解決多分類情況下的特征選擇算法。

        3 實驗

        本文實驗平臺采用英特爾酷睿i5處理器,Win10操作系統(tǒng),8 GB內存,視頻流的特征提取使用Linux Shell腳本完成,數(shù)據處理及算法使用Python進行編程。

        本文對網絡視頻流業(yè)務進行研究,選取具有代表性業(yè)務標清、高清、超清的Web視頻流(YOUKU,iQIYI等網站),即時視頻通訊(QQ視頻),網絡直播視頻(CBox,SopCast等),P2P客戶端視頻(Kankan)以及Http下載視頻共七種業(yè)務流進行分析。實驗中采取真實網絡中的流量,用Wireshark在不同時間段提取網絡流,時間跨度從2013年11月到2016年7月,提取的報文樣本以五元組(時間,源IP地址,目的IP地址,協(xié)議,報文大?。┙M成,每條視頻流持續(xù)30 min,總共統(tǒng)計840條流,數(shù)據量有266 GB。從中篩選出有效的27個特征,作為候選特征。數(shù)據集的分布如圖1所示,每個應用類中流的條數(shù)所占的比例。

        圖1 數(shù)據集分布

        本文對前面所談及的七種典型的特征選擇方法進行比較來分析不同特征選擇方法對于視頻流識別的影響,以下是對七種特征選擇算法的介紹,如表1所示。

        表1 七種特征選擇方法描述

        3.1 評價指標

        以下是本文實驗采取的評價指標,對七種特征選擇算法進行對比實驗。

        采用分類器準確率(Overall Accuracy,OA)來評判特征選擇算法選擇效果的好壞。

        采用特征壓縮率(Feature Compression Rate,F(xiàn)CR)來衡量算法對特征提取的效率。

        時間(Time):每種特征選擇方法所運行的時間,使用每種算法的運行時間來考察其運行速度。

        將實驗分為兩部分,首先對在線直播視頻、在線非直播視頻、P2P類視頻、即時通信視頻和Http視頻下載流量5類流量進行分類作為實驗1。然后將采用兩級分類器分類方案對在線非直播視頻流業(yè)務進行細分類,識別出標清(CD)、高清(SD)、超高清(HD)三種業(yè)務流,作為實驗2。

        3.2 實驗1及結果分析

        3.2.1 特征選擇方法對比

        首先使用七種特征選擇方法對在線直播視頻業(yè)務,在線非直播視頻業(yè)務,即時視頻通信業(yè)務,Http視頻下載業(yè)務,P2P視頻業(yè)務五種業(yè)務流進行分類。

        由圖2可以看出,CFS算法性能起伏較大,所選出的特征并不適用于所有分類器。但同為相關性評價指標的Laplacian算法的整體選擇效果與其他特征選擇算法大體相同,準確率都在95%以上。SVM-forward算法為Wrapper類算法,其選出的特征極大提高了SVM的準確率,屬于Embedded類的Lasso算法的選擇效果介于Filter類和Wrapper類之間。

        圖2 七種特征選擇算法準確率

        由表2可以看出總體的Filter類別的特征選擇算法的時間消耗最小,尤其對于Consistency-forward特征選擇算法所用時間最小,因其復雜度較低,另外作為無監(jiān)督的特征選擇方法Laplacian算法運算時間也較低。對于Wrapper類的SVM-forward算法所用時間最大,相較于其他算法差了2~3數(shù)量級的時間。Embedded類的Lasso算法結合了Wrapper和Filter的思想,所用時間居中。

        表2 七種特征選擇算法運行時間

        3.2.2 有特征選擇和無特征選擇分類對比

        綜合以上各個特征選擇的分類準確率結果取平均,與無特征選擇算法的分類準確率進行對比,如圖3。

        圖3 無特征選擇與特征選擇的準確率對比

        可以看出在特征選擇后,C4.5、KNN、LogicRegression分類器的準確率都大幅度提高,而SVM的平均準確率與無特征選擇的準確率相接近。

        接下來進行時間對比,分類器分類時間包括訓練時間(training time)和測試時間(testing time)。對七種特征選擇算法在四種分類器所用的訓練時間和測試時間分別取平均,從而得到每種分類器的平均訓練時間和測試時間,與無特征選擇的分類器進行比較,得到各個分類器訓練時間和測試時間的縮減率,如圖4。

        圖4 訓練時間和測試時間縮減率

        可以看出,各個分類器在特征選擇后,其訓練時間還是測試時間都得到大幅地縮減,SVM的訓練時間縮減了93%,而KNN的測試時間縮減了50%以上。

        綜合以上結果可以看出,特征選擇算法不僅可以提高分類器的準確率,而且可以大幅降低分類器的負擔,提高其運行效率。

        3.3 實驗2及結果分析

        對在線非直播視頻業(yè)務進行細粒度的劃分,分為標清、高清、超高清視頻。因為標清、高清,以及超清視頻同屬在線非直播視頻,擁有相似的數(shù)據特征,直接將分類器對數(shù)據的所有類別分類并不容易,因此先將標清、高清、超清視頻作為一大類,與其他視頻流進行分類,然后再將在線非直播視頻這一大類進行細分類,所以本文采用兩級分類方案能夠提高視頻流分類的準確率。具體分類方案如圖5。

        首先在第一級分類中有:在線非直播視頻、在線直播視頻、即時視頻通話、Http視頻下載。第二級分類將在線非直播視頻進行細分類,分成標清(SD)、高清(HD)、超高清(CD)。

        實驗中使用的兩級分類器設計如圖6。

        圖5 兩級分類方案

        圖6 兩級分類器設計結構

        將整個訓練集的50%分為訓練集,50%分為測試集,然后將訓練集用于特征選擇和分類器學習,隨后將選擇出的特征用于測試集,形成新的測試集輸入到分類器1中,然后將分類器1預測出的待分類集——在線非直播數(shù)據集進行細分類,最后將分類結果匯總,統(tǒng)計出準確率。

        首先將兩級分類方案與不分級分類進行對比,在對比中不使用特征選擇方法,可得如圖7的各個分類器的對比圖。

        圖7 分級方案與不分級方案對比

        分級分類的好處在于先將邊界特征明顯的大類分出確保其準確率,再使用專門的分類器將小類分出??梢钥闯龇旨壏诸惙桨冈诟鱾€分類器中的準確率均好于不分級分類方案。

        圖8是兩級分類各個特征選擇算法在四種分類器的準確率。

        由圖8可以看出,ReliefF算法、Laplacian算法在三種分類器中的表現(xiàn)均好,因此其選擇穩(wěn)定性較好。CFS在三類分類器中表現(xiàn)不穩(wěn)定,且性能略差。Consistencyforward算法在三個分類器中的表現(xiàn)并不穩(wěn)定,在C4.5和KNN算法中性能較好,而在SVM算法中性能略差。在所有特征選擇算法中,SVM-forward算法得到的準確率最高。而Lasso達到的準確率相較于SVM-forward低了3個百分點,而相較于Filter類算法的平均值高了2.2個百分點。

        圖9是各個特征選擇算法在各個分類器上的特征壓縮率。

        圖8 七種特征選擇方法兩級分類準確率

        圖9 七種特征選擇算法特征壓縮率

        由于CFS和Consistency-forward直接選出特征子集并與分類器無關,因此其在每種分類算法下,選出的特征子集相同,可以看出它們在三類分類器中特征提取率相同。而其他算法均給出所有特征的排名,通過網格搜索算法,以準確率OA為指標,選擇出最佳準確率的前m項特征作為特征子集。通過圖9可以看出,ReliefF算法的特征壓縮率隨著分類器的不同變化較大,而MRMR的特征壓縮率FCR較為穩(wěn)定,說明其選出的特征具有普適性。而Laplacian算法的特征壓縮率的平均值最小,因此它可以選出較小的特征子集。

        4 結論

        網絡流細分類是QoS分級的關鍵,而對于要求高并發(fā)、低延時的網絡流分類任務來說,特征選擇是必不可少的環(huán)節(jié),它能夠提高分類效率以及分類的準確性。在以往的文獻中雖然有特征選擇方法方面的綜述,但并沒有對特征選擇算法進行實驗方面的性能對比。在本文中,介紹了特征選擇的過程,并且對三類特征選擇算法的發(fā)展及其優(yōu)缺點進行了總結,最后通過實驗分別在分類準確率、運算時間,以及特征壓縮率上對比了七種三類特征選擇算法的性能,并且對視頻流量采用分級結構進行了細分類。此外,在特征選擇方面,還有很多未確定的因素影響著特征選擇的穩(wěn)定性、可靠性;另外在參數(shù)選擇方面例如選擇特征數(shù)的確定還有待進一步研究。

        [1] White paper:Cisco VNI forecast and methodology,2016—2021[EB/OL].(2017-09-15).http://www.cisco.com/c/en/us/solutions/collateral/service-provider/ip-ngn-ip-next-generationnetwork/white_paper_c11-481360.html.

        [2] Peng H,Long F,Ding C.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2005,27(8):1226-1238.

        [3] Chandrashekar G,Sahin F.A survey on feature selection methods[M].[S.l.]:Pergamon Press Inc,2014.

        [4] Aldehim G,Wang W.Determining appropriate approaches for using data in feature selection[J].International Journal of Machine Learning&Cybernetics,2017,8(3):915-928.

        [5] 姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.

        [6] Robnik?ikonja M,Kononenko I.Theoretical and empirical analysis of ReliefF and RReliefF[J].Machine Learning,2003,53(1/2):23-69.

        [7] Xu L,Yan P,Chang T.Best first strategy for feature selection[C]//International Conference on Pattern Recognition,1988,2:706-708.

        [8] Jain A K,Duin R P W,Mao J.Statistical pattern recognition:A review[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2000,22(1):4-37.

        [9] Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.

        [10] Peng H,Long F,Ding C.Feature selection based on mutual information:Criteria of max-dependency,maxrelevance,and min-redundancy[M].[S.l.]:IEEE Computer Society,2005.

        [11] Lin D,Tang X.Conditional infomax learning:An integrated framework for feature extraction and fusion[C]//European Conference on Computer Vision(ECCV 2006).Berlin Heidelberg:Springer,2006:68-82.

        [12] Fleuret F.Fast binary feature selection with conditional mutualinformation[J].JournalofMachineLearning Research,2004,5(3):1531-1555.

        [13] Coelho F,Braga A P,Verleysen M.Multi-objective semi-supervised feature selection and model selection based on Pearson’s correlation coefficient[C]//Iberoamerican Congress Conference on Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.[S.l.]:Springer-Verlag,2010:509-516.

        [14] Hall M A,Smith L A.Feature selection for machine learning:Comparing a correlation-based filter approach to the wrapper[C]//FLAIRS Conference,1999:235-239.

        [15] Nie F,Xiang S,Jia Y,et al.Trace ratio criterion for feature selection[C]//National Conference on Artificial Intelligence,2008,2:671-676.

        [16] Dash M,Liu H.Consistency-based search in feature selection[J].Artificial Intelligence,2003,151(1):155-176.

        [17] Liu H,Setiono R.A probabilistic approach to feature selection—A filter solution[C]//International Conference on Machine Learning,1996:319-327.

        [18] Almuallim H,Dietterich T G.Learning with many irrelevant features[C]//National Conference on Artificial Intelligence.[S.l.]:AAAI Press,1991:547-552.

        [19] Hsu W H.Genetic wrappers for feature selection in decision tree induction and variable ordering in Bayesian network structure learning[M].[S.l.]:Elsevier Science Inc,2004.

        [20] Dai P,Ning L I.A fast SVM-based feature selection method[J].Journal of Shandong University,2010,40(5):60-65.

        [21] Alamedine D,Marque C,Khalil M.Channel selection for monovariate analysis on EHG[C]//International Conference on Advances in Biomedical Engineering,2015:85-88.

        [22] Zhang Junying,Liu Shenliang,Wang Yue.Gene association study with SVM,MLP and cross-validation for the diagnosis of diseases[J].Progress in Natural Science:Materials International,2008,18(6):741-750.

        [23] Ding Y,Wilkins D.Improving the performance of SVMRFE to select genes in microarray data[J].BMC Bioinformatics,2006,7(S2):S12.

        [24] Zhou X,Tuck D P.MSVM-RFE[J].Bioinformatics,2007,23.

        [25] Zou Hui.The adaptive lasso and its oracle properties[J].Journal of the American statistical association,2006,101(476):1418-1429.

        [26] Zou Hui,Hastie T.Regularization and variable selection via the elastic net[J].Journal of The Royal Statistical Society Series B-statistical Methodology,2005,67(5):301-320.

        [27] Deng Cai,Zhang Chiyuan,He Xiaofei.Unsupervised feature selection for multi-cluster data[J].Knowledge Discovery and Data Mining,2010:333-342.

        [28] Liu Jun,Ji Shuiwang,Ye Jieping.Multi-task feature learning via efficient L2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.

        WU Zheng,DONG Yuning.Contrastive analysis of features selection on network video traffic classification.Computer Engineering andApplications,2018,54(6):7-13.

        WU Zheng,DONG Yuning

        College of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China

        Accurate identification and categorization of multimedia traffic is the premise of end to end QoS(Quality of Service)guarantees.Today,the dramatic growth of data volume takes challenge to network traffic classification.Therefore,using feature selection methods for multimedia flow identification and classification is particularly important in the big data era.This paper introduces related works on feature selection using identification and categorization of multimedia traffic,which is divided into three categories:Filter,Wrapper,Embedded and analyzes the performance of these methods.Then,this paper compares the performance of various feature selection algorithms using latest dataset from three aspects:The running speed,the feature compression rate and the feature selection accuracy.Besides,to improve classification accuracy,this paper proposes a hierarchical structure to reach fine-grained classification,according to the dataset.

        features selection;video traffic classification;hierarchical classifier

        準確,高效的業(yè)務流識別與分類是保障多媒體通信端到端QoS(Quality of Service),執(zhí)行相關網絡操作的前提。如今數(shù)據規(guī)模的劇烈增加為業(yè)務流的分類提出了挑戰(zhàn),而特征選擇能夠盡可能地減少特征維數(shù),去除冗余特征,為大數(shù)據時代下的業(yè)務流分類提供解決辦法。對現(xiàn)有的特征選擇方法分成Filter、Wrapper、Embedded三類,分析了各類算法的性能原理。采用最新數(shù)據集對不同特征選擇算法性能對比,從算法的運行時間、特征壓縮率、準確率三個方面評估了特征選擇算法的性能。另外,針對現(xiàn)有數(shù)據集分類情況進行分級分類以達到視頻流的細分類,從而提高分類的準確率。

        特征選擇;視頻流分類;多級分類器

        2017-11-01

        2018-01-24

        1002-8331(2018)06-0007-07

        A

        TP391

        10.3778/j.issn.1002-8331.1710-0342

        國家自然科學基金(No.61271233)。

        吳爭(1994—),男,博士研究生,研究領域為多媒體通信,E-mail:1015010406@njupt.edu.cn;董育寧(1955—),男,博士,教授,研究領域為多媒體通信,網絡流識別。

        猜你喜歡
        特征選擇子集度量
        有趣的度量
        由一道有關集合的子集個數(shù)題引發(fā)的思考
        模糊度量空間的強嵌入
        拓撲空間中緊致子集的性質研究
        關于奇數(shù)階二元子集的分離序列
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        地質異常的奇異性度量與隱伏源致礦異常識別
        聯(lián)合互信息水下目標特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        中文字幕人妻日韩精品| 国产免费一级高清淫日本片| 污污污国产免费网站| 亚洲韩日av中文字幕| 狠狠色丁香婷婷久久综合| 少妇装睡让我滑了进去| 国产妇女乱一性一交| 日韩午夜三级在线视频| av区无码字幕中文色| 国产无遮挡裸体免费视频| 精品在免费线中文字幕久久| 4444亚洲人成无码网在线观看 | 国产中文色婷婷久久久精品| 99久久99久久久精品齐齐| 亚洲中文字幕无码一久久区| 无码少妇一级AV便在线观看| 蜜桃网站在线免费观看视频| 一本色道久久亚洲加勒比| 中出人妻中文字幕无码| 制服丝袜视频国产一区| 国产av在线观看91| 人妻少妇被粗大爽.9797pw| 色翁荡息又大又硬又粗又视频图片| 久久99中文字幕久久| 少妇人妻精品久久888| 亚欧中文字幕久久精品无码| 国产91成人精品亚洲精品| 亚洲精品一区二区视频| 国产一级一级内射视频| 九九99久久精品国产| 99国产精品无码专区| 日韩麻豆视频在线观看| 少妇私密会所按摩到高潮呻吟| 特黄aa级毛片免费视频播放| 一区两区三区视频在线观看| 欧美老妇牲交videos| 全免费a级毛片| 中文字幕麻豆一区二区| 亚洲精品视频在线一区二区| 国产精品无码a∨精品影院| AⅤ无码精品视频|