亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法

2022-06-15 13:43:28趙力強(qiáng)師智斌雷海衛(wèi)

中北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年3期

趙力強(qiáng)，師智斌，石瓊，雷海衛(wèi)

( 中北大學(xué) 大數(shù)據(jù)學(xué)院，山西太原 030051)

0 引言

伴隨互聯(lián)網(wǎng)的迅猛發(fā)展，網(wǎng)絡(luò)管理以及網(wǎng)絡(luò)安全方面呈現(xiàn)出越來越高的復(fù)雜性，給網(wǎng)絡(luò)服務(wù)的高效性和安全性帶來巨大挑戰(zhàn). 網(wǎng)絡(luò)流量分類作為應(yīng)對這一難題的有效方法引起了國內(nèi)外學(xué)者的極大興趣. 近年來，大量機(jī)器學(xué)習(xí)算法被用來分類網(wǎng)絡(luò)流量[1-2].

網(wǎng)絡(luò)流量分類領(lǐng)域的機(jī)器學(xué)習(xí)算法分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種[3].

應(yīng)用在流量分類領(lǐng)域的傳統(tǒng)機(jī)器學(xué)習(xí)方法有支持向量機(jī)[4]、決策樹[5]和貝葉斯[6]等. Moore等[7]設(shè)計(jì)了249個(gè)流量統(tǒng)計(jì)特征，通過結(jié)合不同傳統(tǒng)機(jī)器學(xué)習(xí)算法，實(shí)現(xiàn)了網(wǎng)絡(luò)流量的分類. Shafiq等[8]采用支持向量機(jī)、 C4.5決策樹、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)了網(wǎng)絡(luò)流量分類. 傳統(tǒng)機(jī)器學(xué)習(xí)的分類效果取決于人工設(shè)計(jì)特征的好壞，需要大量領(lǐng)域內(nèi)知識，面對日益復(fù)雜的流量分類問題，設(shè)計(jì)合適的流量特征變得愈發(fā)困難.

深度學(xué)習(xí)不依賴人工設(shè)計(jì)特征，通過對輸入數(shù)據(jù)進(jìn)行高維特征自主學(xué)習(xí)得到原始數(shù)據(jù)的高維特征表示[9]. 王勇等[3]將Moore數(shù)據(jù)集[7]中的249個(gè)特征歸一化處理后映射成灰度圖片作為輸入，利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了流量特征自主學(xué)習(xí)的分類模型. Wang等[10]使用原始流量數(shù)據(jù)作為輸入，利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征自主學(xué)習(xí)的同時(shí)提高了分類的精度. 但是，深度學(xué)習(xí)方法自主學(xué)習(xí)到的高維特征過于抽象，不可解釋，無法為網(wǎng)絡(luò)管理者提供更多的決策依據(jù).

網(wǎng)絡(luò)流量作為典型的時(shí)序數(shù)據(jù)，也有研究人員采用基于時(shí)序的方法進(jìn)行分類. Acar等[11]將網(wǎng)絡(luò)流表示為傳輸層數(shù)據(jù)包大小的序列，利用篩選后的時(shí)序特征結(jié)合多種傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)造最佳分類器，實(shí)現(xiàn)了網(wǎng)絡(luò)流量分類. Conti等[12]利用傳輸層的數(shù)據(jù)包字節(jié)大小生成3個(gè)時(shí)間序列來表示流，將流量分類問題抽象為多維時(shí)間序列的分類問題. 文獻(xiàn)[13] 中提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類方法，利用LSTM自主學(xué)習(xí)每個(gè)數(shù)據(jù)包的時(shí)序特征以及數(shù)據(jù)包之間的序列關(guān)系來用于最終分類. 上述基于時(shí)序特性的分類方法仍然不能兼顧特征自主學(xué)習(xí)與可解釋性，無法為決策提供必要的依據(jù).

在時(shí)序分類領(lǐng)域，基于shapelet的時(shí)序分類方法具有可解釋性強(qiáng)、準(zhǔn)確率高、可以自主學(xué)習(xí)時(shí)序特征等優(yōu)點(diǎn)，成為近幾年分類研究的熱點(diǎn). shapelet表示在形狀上具有足夠的辨識度，是最大程度表征一類時(shí)間序列的子序列. 因此， shapelet可以表示一類時(shí)序數(shù)據(jù)的特征，具有可解釋優(yōu)點(diǎn)，通過提取shapelet，可以進(jìn)一步分析數(shù)據(jù)特點(diǎn)，實(shí)現(xiàn)數(shù)據(jù)深層次理解，提供優(yōu)質(zhì)決策依據(jù). shapelet最早在文獻(xiàn)[14]中提出，研究人員遍歷所有子序列后，利用信息增益選出分類能力最佳的shapelet，同時(shí)結(jié)合決策樹構(gòu)建了分類器. 初始shapelet算法只能與決策樹結(jié)合構(gòu)建分類器，針對這一缺陷， Hills等[15]提出Shapelet-Transform算法，通過單次掃描篩選出分類能力最佳的k個(gè)shapelet后，利用這k個(gè)shapelet作為特征完成時(shí)序數(shù)據(jù)的轉(zhuǎn)化，轉(zhuǎn)換后的時(shí)序數(shù)據(jù)可以結(jié)合大部分機(jī)器學(xué)習(xí)算法構(gòu)建分類器.

針對以上研究，本文提出一種基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法，引入Shapelet-Transform算法用于挖掘網(wǎng)絡(luò)流量的時(shí)序特征，同時(shí)改進(jìn)Shapelet-Transform使其可以處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)集. 本文所提方法可以從時(shí)間序列表示的網(wǎng)絡(luò)流量中挖掘出形狀上最具有辨識度的子序列作為特征，避免人工設(shè)計(jì)特征的問題，分類精度接近深度學(xué)習(xí)方法，同時(shí)還可對分類依據(jù)作進(jìn)一步解釋.

1 網(wǎng)絡(luò)流量數(shù)據(jù)分析

1.1 流量數(shù)據(jù)集

本文希望能夠從流量數(shù)據(jù)中自主學(xué)習(xí)到時(shí)序特征，因此，實(shí)驗(yàn)數(shù)據(jù)選擇提供原始流量的USTC-TFC2016數(shù)據(jù)集[13]，共包含10種惡意流量數(shù)據(jù)與10種正常流量數(shù)據(jù)，具體信息如表 1、表 2 所示.

表 1 惡意流量數(shù)據(jù)集信息Tab.1 Information of malware traffic dataset

表 2 正常流量數(shù)據(jù)集信息Tab.2 Information of normal traffic dataset

1.2 網(wǎng)絡(luò)流量數(shù)據(jù)分析

網(wǎng)絡(luò)流量按粒度可以分為： TCP連接、會(huì)話、流、服務(wù)和主機(jī)[16]. 其中，流由五元組(源IP、目的IP、源端口、目的端口、傳輸層協(xié)議)相同的所有包(packet)組成；會(huì)話由雙向流的所有包組成，比單獨(dú)的流包含更多的交互信息[13]. 因此，本文以會(huì)話為粒度將流量處理為多個(gè)離散單元，同時(shí)保留會(huì)話中每個(gè)包的所有協(xié)議層次.

進(jìn)一步將會(huì)話表示為由包大小(packet size)組成的等長時(shí)間序列，其中包大小以字節(jié)(byte)為單位，可視化結(jié)果如圖 1、圖 2 所示. 從圖中可以看出，將會(huì)話表示為時(shí)間序列后，不同種類的流量之間表現(xiàn)出較高的區(qū)分度，同一種流量生成的時(shí)間序列卻明顯相似，具有很多相似的子序列. 因此表明，流量數(shù)據(jù)，特別是惡意流量，帶有豐富的時(shí)序特征，通過從表示會(huì)話的流量時(shí)間序列中提取表征時(shí)序特征的子序列，可以很好地將不同種類的流量區(qū)分開，實(shí)現(xiàn)網(wǎng)絡(luò)流量分類.

2 基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法

本文所提方法對網(wǎng)絡(luò)流量進(jìn)行分類的核心思想是先對數(shù)據(jù)集進(jìn)行預(yù)處理，然后基于Shapelet-Transform算法自主學(xué)習(xí)其時(shí)序特征，同時(shí)利用學(xué)習(xí)到的時(shí)序特征將預(yù)處理后的流量數(shù)據(jù)轉(zhuǎn)化為特征向量，結(jié)合支持向量機(jī)(SVM)構(gòu)造分類器完成分類. 整體架構(gòu)如圖 3 所示.

圖 3 基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法架構(gòu)Fig.3 Framework of the network traffic classification method based on time series features

2.1 數(shù)據(jù)預(yù)處理

針對Shapelet-Transform算法能夠從時(shí)間序列中挖掘出最具有代表性的子序列(shapelet)的特點(diǎn)，設(shè)計(jì)了流量數(shù)據(jù)預(yù)處理流程. 將數(shù)據(jù)集中原始流量數(shù)據(jù)(pcap格式)經(jīng)過流量切分、時(shí)序數(shù)據(jù)生成、統(tǒng)一長度等步驟處理為等長時(shí)間序列的集合.

步驟1：以會(huì)話即雙向流為流量粒度，借助SplitCap工具實(shí)現(xiàn)每一類流量的切分并且保留包的所有協(xié)議層次.

步驟2：提取會(huì)話中的包大小構(gòu)建時(shí)序數(shù)據(jù)，以字節(jié)為單位解析會(huì)話，獲取包大小，組成時(shí)間序列.

步驟3：每個(gè)會(huì)話中的包數(shù)量并不完全相同，需要統(tǒng)一時(shí)間序列長度. 由于隨著輸入序列長度的增加，計(jì)算量會(huì)呈指數(shù)級增長，因此，綜合考慮分類精度與計(jì)算用時(shí)，確定時(shí)間序列長度為40. 如果序列長度大于40則截取，小于40則在其后用0補(bǔ)充，統(tǒng)一長度后的時(shí)間序列連同其類別一起作為Shapelet-Transform的輸入數(shù)據(jù). 這與文獻(xiàn)[3]和文獻(xiàn)[13]中確定輸入數(shù)據(jù)形式的思路類似.

2.2 基于Shapelet-Transform算法的時(shí)序特征挖掘

基于Shapelet-Transform算法挖掘網(wǎng)絡(luò)流量的時(shí)序特征分為三個(gè)階段. 第一階段：單次掃描挖掘出分類能力最強(qiáng)的k個(gè)shapelet作為時(shí)序特征；第二階段：通過聚類去掉k個(gè)時(shí)序特征中相似的部分；第三階段：利用聚類優(yōu)化后的特征集合完成時(shí)序數(shù)據(jù)的轉(zhuǎn)化.

2.2.1 最佳的k個(gè)時(shí)序特征的挖掘

第一階段主要分為三個(gè)部分：生成候選shapelet集合、相似度測量、 shapelet分類能力評估. 第一階段結(jié)束后，可以得到包含k個(gè)分類能力最強(qiáng)的shapelet的時(shí)序特征集合.

預(yù)處理后的網(wǎng)絡(luò)流量時(shí)序數(shù)據(jù)集為T={T1,T2,…，Tn}，每一個(gè)Ti對應(yīng)一個(gè)類標(biāo)簽ci.第一階段的具體過程如算法1所示.

算法 1挖掘最佳的k個(gè)shapelet

輸入：時(shí)序數(shù)據(jù)集T，候選shapelet的最小長度min，最大長度max，要保留的shapelet數(shù)目k

輸出：k個(gè)shapelet

1)kShapelets←?

2) for allTiinTdo

3) shapelets←?

4) forl←min to max do

5)Wi,l←generateCandidates(Ti,l)

6) for all subsequenceSinWi,ldo

7)Ds←findDistances(S,T)

8) quality←assessCandidates(S,Ds)

9) shapelets.add(S， quality)

10) sortByQuality(shapelets)

11) removeSelfSimilar(shapelets)

12)kShapelets←merge(k,kShapelets, shapelets)

13) returnkShapelets

算法1中第2～5行表示生成候選shapelet集合，利用不同長度的滑動(dòng)窗口遍歷時(shí)間序列Ti，從而找到長度在min和max之間的所有子序列. 第7行針對每一個(gè)候選shapelet進(jìn)行相似度測量，即計(jì)算長度為l的shapelet與T中每一個(gè)Ti之間的距離，具體的公式為

(1)

式中：Wi,l為Ti中所有長度為l的子序列集合，dist函數(shù)為求解兩個(gè)等長時(shí)間序列間歐式距離的公式.通過相似度測量可以得到一個(gè)距離列表Dshapelet=〈ds,1,ds,2,…，ds,n〉，ds,i表示該shapelet和Ti之間的距離.

第8行評估每一個(gè)候選shapelet的分類能力. Shapelet-Transform算法引入F-statistic(F統(tǒng)計(jì)量)作為shapelet分類能力評估標(biāo)準(zhǔn)，公式為

(2)

第11行針對來自同一Ti的shapelet集合，去掉了其中自相似的部分. 第13行返回了時(shí)序數(shù)據(jù)集T中分類能力最強(qiáng)的k個(gè)shapelet.

算法1可以挖掘出分類能力最佳的k個(gè)shapelet作為時(shí)序特征，但需要大量計(jì)算，超出了CPU計(jì)算模式的處理能力. 因此，本文在2.3節(jié)改寫算法1的計(jì)算邏輯，利用GPU縮短運(yùn)算時(shí)間. 由于算法1并未考慮來自不同Ti的shapelet可能存在相似的情況，所以仍需對時(shí)序特征集進(jìn)行聚類，去掉其中相似的部分.

2.2.2 時(shí)序特征集聚類

第一階段得到的時(shí)序特征集中，可能存在多個(gè)shapelet彼此相似，需要對shapelet集合聚類，去掉其中相似的shapelet. 在時(shí)序特征集中，參照式(1) 計(jì)算shapelet之間的相似度，構(gòu)建k×k相似矩陣. 將相似度最高的兩個(gè)shapelet歸為一類，只保留其中分類能力評估值更高的shapelet. 重復(fù)上述操作，直到剩下的shapelet集合滿足預(yù)先設(shè)定的停止條件. 聚類后，只保留10個(gè)shapelet，在第三階段用這10個(gè)shapelet完成時(shí)序數(shù)據(jù)集的轉(zhuǎn)化.

2.2.3 網(wǎng)絡(luò)流量時(shí)序數(shù)據(jù)集轉(zhuǎn)化

經(jīng)過聚類后的shapelet集合為S=〈s1,s2,…,s10〉，其中，sj表示第j個(gè)shapelet，j=1,2,…,10.利用集合S可以將時(shí)序數(shù)據(jù)集T中的每一個(gè)Ti轉(zhuǎn)化為特征向量Ti-transform=〈ds1,Ti,ds2,Ti,…,ds10,Ti〉，其中，dsj,Ti表示Ti與sj之間的距離值，由式(1)可得.時(shí)序數(shù)據(jù)集T經(jīng)過轉(zhuǎn)化后，符合大部分機(jī)器學(xué)習(xí)方法的輸入要求.

2.3 基于GPU的改進(jìn)算法

算法1計(jì)算時(shí)間較長，無法處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)，因此本文引入GPU加速計(jì)算過程. GPU包含很多獨(dú)立的計(jì)算核心，可以并行處理大量簡單計(jì)算，但GPU的計(jì)算邏輯與CPU有著本質(zhì)區(qū)別，需要重新設(shè)計(jì)算法1，將其中的循環(huán)結(jié)構(gòu)改為流式處理的矩陣運(yùn)算. 具體過程如算法2所示.

算法 2基于GPU挖掘最佳k個(gè)shapelet

輸入：時(shí)序數(shù)據(jù)集T，候選shapelet的最小長度min，最大長度max，要保留的shapelet數(shù)目k

輸出：k個(gè)shapelet

1)kShapelets←?

2) candidatesAll= cut(T， min， max )

3) for allTiinTdo

4) shapelet←?

5)D←?

6) Stream=StreamDesign(candidatesAll, min， max,Ti)

7) for all streamjin Stream do

8)Dtemp= GPU_calculate(streamj)

9)D.add(Dtemp)

10) quality←assessCandidaates(candidatesTi,D)

11) shapelets.add(candidatesTi, quality)

12) sortByQuality(shapelets)

13) removeSelfSimilar(shapelets)

14)kShapelets←merge(k,kShapelet,shapelets)

15) returnkShapelets

算法2中第2行得到不同長度的候選shapelet，保存在多維矩陣candidatesAll中. 第6行針對每個(gè)Ti設(shè)計(jì)流式處理結(jié)構(gòu). 第7～8行替代了算法1中第4～7行實(shí)際運(yùn)行時(shí)的循環(huán)結(jié)構(gòu)，流式處理了Ti中所有候選shapelet的相似度測量. 第10行整體評估了Ti中的候選shapelet.

為了測試基于GPU改進(jìn)算法的效果，本文對整個(gè)訓(xùn)練數(shù)據(jù)集以及隨機(jī)選取的1 000條網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)處理后，分別利用算法1與算法2進(jìn)行時(shí)序特征挖掘，實(shí)驗(yàn)結(jié)果如表 3 所示.

表 3 兩種算法計(jì)算用時(shí)對比Tab. 3 Comparison of calculation time with two algorithms

實(shí)驗(yàn)結(jié)果證明，本文所提優(yōu)化方法大幅度縮減了計(jì)算用時(shí). 盡管時(shí)序特征挖掘可以離線進(jìn)行，并不影響分類的速度，但是算法1在處理大規(guī)模數(shù)據(jù)集時(shí)耗時(shí)過長，因此對其進(jìn)行改進(jìn)是必要的.

2.4 分類模型訓(xùn)練

本文基于SVM構(gòu)造2分類器和10分類器， 2分類器用于分類正常流量和惡意流量； 10分類器實(shí)現(xiàn)普通流量10分類和惡意流量10分類.

10分類器基于one-against-all[17]實(shí)現(xiàn). 構(gòu)造10個(gè)SVM二分類模型后，依次將訓(xùn)練集中的每一種流量作為正樣本，其余流量作為負(fù)樣本，利用本文方法從不同的正負(fù)樣本中自主學(xué)習(xí)更適合的特征用于訓(xùn)練分類模型.

以惡意流量10分類器訓(xùn)練為例，其訓(xùn)練流程如圖 4 所示. 首先將惡意流量訓(xùn)練集中的Virut類流量標(biāo)記為正樣本，其他9類惡意流量標(biāo)記為負(fù)樣本. 然后利用本文方法從正負(fù)樣本中自主學(xué)習(xí)10個(gè)最佳的時(shí)序特征來完成訓(xùn)練集的轉(zhuǎn)化，利用轉(zhuǎn)化后的數(shù)據(jù)集訓(xùn)練SVM分類模型. 依此類推，直至10個(gè)分類模型訓(xùn)練完畢.

圖 4 多分類器訓(xùn)練流程Fig.4 Training process of multiple classifiers

3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文方法的可行性，在USTC-TFC2016數(shù)據(jù)集[13]上實(shí)驗(yàn)了所提算法，數(shù)據(jù)集總大小為3.71 GB，隨機(jī)選取9/10作為訓(xùn)練數(shù)據(jù)，剩余1/10作為測試數(shù)據(jù). 其它實(shí)驗(yàn)環(huán)境參數(shù)如表 4 所示.

表 4 實(shí)驗(yàn)環(huán)境參數(shù)Tab.4 Parameters of experimental environment

根據(jù)評價(jià)指標(biāo)的各個(gè)參數(shù)進(jìn)行實(shí)驗(yàn)，具體實(shí)驗(yàn)結(jié)果和文獻(xiàn)[13]中基于深度學(xué)習(xí)的方法進(jìn)行對比，結(jié)果如表 5～表 7 所示.

表 5 不同分類器的整體準(zhǔn)確率Tab.5 Overall accuracy of different classifiers %

實(shí)驗(yàn)結(jié)果表明，本文設(shè)計(jì)的2分類器的準(zhǔn)確率較高， 10分類器的準(zhǔn)確率接近深度學(xué)習(xí)方法. 相較于深度學(xué)習(xí)的黑盒屬性使其結(jié)果不可解釋，本文方法在分類精度接近深度學(xué)習(xí)的情況下可以解釋分類過程的識別依據(jù)，可以用于進(jìn)一步分析流量特性. 以下從兩個(gè)方面進(jìn)行分析.

表 6 正常流量10分類的類準(zhǔn)確率和類可信度Tab.6 Class accuracy and class reliability of normal traffic 10 classification

表 7 惡意流量10分類的類準(zhǔn)確率和類可信度Tab.7 Class accuracy and class reliability of malwaretraffic 10 classification

1) 時(shí)序特征解釋

以惡意流量10分類器為例，在Miuref類數(shù)據(jù)為正樣本，其余為負(fù)樣本的SVM模型中，所提方法從正負(fù)樣本中共挖掘出10個(gè)適合的shapelet作為分類特征，對來自Miuref類的2個(gè)shapelet和隨機(jī)選取的2個(gè)來自其他類的shapelet可視化，將其表示在一條Miuref流量上，如圖 5 所示，其中， shapelet1和shapelet2屬于Miuref類， shapelet3和shapelet4屬于其他類.

圖 5 shapelet可視化Fig.5 Visualization of shapelets

從圖 5 可以看出， shapelet1、 shapelet2和Miuref類流量的某些子序列相似度很高，而shapelet3、 shapelet4則與該類流量明顯不同. 利用這些shapelet對數(shù)據(jù)集進(jìn)行轉(zhuǎn)化，可以得到區(qū)分度很高的特征向量，使用SVM模型可以很好地將Miuref類和其他類流量區(qū)分開.

2) 流量特性分析

以惡意流量Htbot為例， Htbot是一種木馬網(wǎng)絡(luò)，可以通過一種隱蔽的方式控制計(jì)算機(jī)并進(jìn)行遠(yuǎn)程訪問. 本文從正樣本為Htbot類，其余類別為負(fù)樣本的訓(xùn)練集中，自主學(xué)習(xí)到10個(gè)shapelet作為分類特征，其中有2個(gè)來自于Htbot類，將其可視化表示在隨機(jī)選取的一條Htbot流量上，如圖 6 所示.

圖 6 Htbot類流量shapelet可視化Fig.6 Visualization of Htbot shapelets

圖 6 中橫坐標(biāo)軸8～14之間的shapelet2表示了該類流量的某種特殊的包大小變化方式，其中，第10個(gè)，第11個(gè)包大小超過1 400字節(jié)，進(jìn)一步分析流量數(shù)據(jù)可以發(fā)現(xiàn)，這是Htbot的病毒主機(jī)在向宿主機(jī)傳遞指令. 本文方法可以很好地挖掘出這一特性，提供給網(wǎng)絡(luò)管理者關(guān)于Htbot流量的更多細(xì)節(jié).

4 結(jié)束語

本文首先分別介紹了基于傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法，然后在相關(guān)研究的基礎(chǔ)上，提出了一種基于時(shí)序特征的分類方法，首次引入Shapelet-Transform用于自主學(xué)習(xí)可解釋的網(wǎng)絡(luò)流量時(shí)序特征，同時(shí)重新設(shè)計(jì)算法計(jì)算邏輯將其部署在GPU上，進(jìn)而可以處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)，并結(jié)合SVM構(gòu)造最優(yōu)分類模型，最終實(shí)現(xiàn)網(wǎng)絡(luò)流量分類. 為了驗(yàn)證分類方法的可行性，利用現(xiàn)有數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析，將原始流量數(shù)據(jù)輸入所提方法中，可以自主學(xué)習(xí)到可解釋的時(shí)序特征，同時(shí)得到較高的分類精度. 在將來的工作中將針對以下幾個(gè)方面做進(jìn)一步研究： 1)探討更多網(wǎng)絡(luò)流量可能的時(shí)序表達(dá)方式； 2)針對Shapelet-Transform算法做進(jìn)一步優(yōu)化，加速運(yùn)算； 3)將本文所提方法部署在大數(shù)據(jù)平臺之上用于實(shí)時(shí)處理大規(guī)模網(wǎng)絡(luò)流量分類問題.