亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)應(yīng)用流識別研究

2020-04-29 11:02:08余翔湛郝科委

智能計算機與應(yīng)用 2020年2期

關(guān)鍵詞：網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)流報文

趙洋，余翔湛，郝科委

(哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，哈爾濱 150001)

0 引言

目前，隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)設(shè)施的不斷升級進(jìn)步，越來越多的網(wǎng)絡(luò)應(yīng)用已經(jīng)進(jìn)入人們?nèi)粘Ｉ钪衼?。人們對互?lián)網(wǎng)技術(shù)的認(rèn)可度提升以及網(wǎng)絡(luò)的應(yīng)用范圍也日趨寬廣，使得人們的生活越來越依賴來自這些網(wǎng)絡(luò)應(yīng)用所提供的服務(wù)。網(wǎng)絡(luò)應(yīng)用在各領(lǐng)域的普及推廣不但為人們的日常生活帶來便利，同時更極大提高了社會的工作效率。目前，寬帶計入能力的提升、不斷更新的通信方式、“三網(wǎng)融合”工程的加速開展、“百兆鄉(xiāng)村”政策的出臺、物聯(lián)網(wǎng)技術(shù)的應(yīng)用與發(fā)展以及“互聯(lián)網(wǎng)+”重大工程的實施，綜上的論述都切實表明中國正處在、并將會長期處在全民網(wǎng)絡(luò)時代。但隨著網(wǎng)絡(luò)應(yīng)用的強勁拓展態(tài)勢，網(wǎng)絡(luò)流量及網(wǎng)絡(luò)規(guī)模迅速增大，產(chǎn)生的海量數(shù)據(jù)使得對網(wǎng)絡(luò)應(yīng)用流量的安全管理工作愈發(fā)艱難。同時，由于互聯(lián)網(wǎng)的虛擬性、開放性和交互性，使得網(wǎng)絡(luò)應(yīng)用質(zhì)量參差不齊，良莠混雜，甚至還有某些不良網(wǎng)絡(luò)應(yīng)用利用現(xiàn)在先進(jìn)的技術(shù)，假借正常端口或者協(xié)議來傳播。而且，悄然伺機而動的病毒、木馬也會伴隨著新的網(wǎng)絡(luò)應(yīng)用，威脅著用戶的隱私數(shù)據(jù)安全，給人們帶來巨大的損失。因此，隨著國內(nèi)計算機技術(shù)的廣泛應(yīng)用與飛速發(fā)展，網(wǎng)絡(luò)安全已躍升至國家安全戰(zhàn)略地位，“沒有網(wǎng)絡(luò)安全就沒有國家安全”的理念已日益深入人心。作為網(wǎng)絡(luò)安全的重要環(huán)節(jié)，網(wǎng)絡(luò)應(yīng)用識別技術(shù)的研究尤為重要。

1 研究現(xiàn)狀

目前識別方法主要分為機器學(xué)習(xí)識別和非機器學(xué)習(xí)模型兩種。其中，非機器包括基于端口的報文識別檢測技術(shù)和基于負(fù)載的識別檢測技術(shù)，隨著網(wǎng)絡(luò)應(yīng)用技術(shù)成果的相繼問世，這些傳統(tǒng)的方法已經(jīng)難以適應(yīng)不斷變化的協(xié)議規(guī)則，因而逐漸為機器學(xué)習(xí)方法所取代。

相對于非機器學(xué)習(xí)，機器學(xué)習(xí)方法更加依賴于數(shù)據(jù)包和數(shù)據(jù)流特征而不是簡單的特殊字段識別和匹配。影響機器學(xué)習(xí)方法主要取決于2個方面：特征提取方法和分類算法選擇。其中，特征選擇可以定制在2個層面上：數(shù)據(jù)包和數(shù)據(jù)流。數(shù)據(jù)包特征是通過對數(shù)據(jù)流一定范圍內(nèi)數(shù)據(jù)包的特征，諸如：最長包長、最短包長、平均包長、包長中位數(shù)方差等信息進(jìn)行統(tǒng)計，最終整合得到結(jié)論。數(shù)據(jù)流特征則是包括：客戶端端口、服務(wù)器端端口、數(shù)據(jù)流平均包長、數(shù)據(jù)流空包數(shù)、數(shù)據(jù)包傳輸平均時間間隔等特征，對應(yīng)用流或是應(yīng)用進(jìn)行識別。一個好的識別模型，一般都會根據(jù)所識別的內(nèi)容特性，選用兩者中的適當(dāng)內(nèi)容進(jìn)行分類訓(xùn)練識別。這里，對目前主流的研究方法可闡釋論述如下。

(1)基于端口的網(wǎng)絡(luò)應(yīng)用識別。這是人們最早用來識別網(wǎng)絡(luò)數(shù)據(jù)流路的方法。在早期的簡單網(wǎng)絡(luò)中，網(wǎng)絡(luò)應(yīng)用種類少且大都使用特殊的端口號，所以只需要觀察并識別傳輸層報文頭中的端口號，就可以辨識出相應(yīng)的網(wǎng)絡(luò)應(yīng)用。這種識別方法不僅高效，而且所耗費的資源也是所有方法最低。起初，大部分網(wǎng)絡(luò)都會選擇特定端口號，而且不同種類的應(yīng)用一般都配有不同的傳輸端口。基于端口號的應(yīng)用識別技術(shù)便可以根據(jù)人工統(tǒng)計，選擇特定的報文傳輸端口來確定目前應(yīng)用類型。

(2)基于載荷的應(yīng)用流識別方法。這是基于端口識別方法的傳承和進(jìn)化。相對于基于端口的識別方法，基于載荷的識別方法選擇了應(yīng)用層數(shù)據(jù)中的特殊字段，通過對大量的應(yīng)用層協(xié)議的分析和統(tǒng)計，找出屬于每一個應(yīng)用層協(xié)議的特征碼，再通過新來的數(shù)據(jù)流與特征碼的整合匹配，得出識別效果。考慮到每種協(xié)議都具有其特定的規(guī)則和使用方式，所以一個好的特征碼提取算法和特征碼匹配算法往往會取得非常好的識別準(zhǔn)確率和效率。

(3)決策樹。是在已知標(biāo)簽數(shù)據(jù)分析基礎(chǔ)上，通過構(gòu)建決策樹來求取凈現(xiàn)值的期望值大于等于零的概率，判斷可行性的一種決策方法。在眾多數(shù)據(jù)挖掘和機器學(xué)習(xí)研究中，決策樹歸納法是應(yīng)用最廣的方法之一。決策樹中的每個節(jié)點代表在一個識別過程中的測試或是識別，若其含有分支則表示當(dāng)前節(jié)點的識別結(jié)果，每個葉節(jié)點代表其最后的類型。

(4)基于神經(jīng)網(wǎng)絡(luò)方法。分析可知，數(shù)據(jù)量較少的時候，決策樹的準(zhǔn)確率、效率都優(yōu)于神經(jīng)網(wǎng)絡(luò)。但隨著訓(xùn)練數(shù)據(jù)的不斷增加，學(xué)習(xí)強度的不斷上升，神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性能將更加出色。特別是隨著新應(yīng)用的漸次出現(xiàn)，一些直觀的屬性已經(jīng)難以完全區(qū)分應(yīng)用類型，特征的選取也越發(fā)困難，那么基于神經(jīng)網(wǎng)絡(luò)的識別方法在應(yīng)用識別方面就尤為突顯其強大適用性了。

根據(jù)準(zhǔn)確性、復(fù)雜性、拓展性以及加密流量識別能力，本文對上述4種方法進(jìn)行了對比分析，得到的結(jié)果見表1。

表1 網(wǎng)絡(luò)應(yīng)用識別的方法對比

2 數(shù)據(jù)聚類標(biāo)識法

2.1 輸入數(shù)據(jù)流特征選擇

伴隨著人工智能的發(fā)展，機器學(xué)習(xí)的方法已經(jīng)成為各領(lǐng)域解決問題的重要方法?；跊Q策樹、行為特征的方法都使得應(yīng)用流識別的準(zhǔn)確率大大提升。傳統(tǒng)的基于機器學(xué)習(xí)的應(yīng)用流識別方法一般是基于以往訓(xùn)練經(jīng)驗，選擇最具有代表性的數(shù)據(jù)包或數(shù)據(jù)流的具體特征集，通過對特征集合向量化作為訓(xùn)練模型和測試部分的輸入。而后，即是不斷調(diào)整決策樹構(gòu)造或者隱藏層的權(quán)值，使訓(xùn)練集識別準(zhǔn)確率達(dá)到最優(yōu)。但是目前的研究現(xiàn)狀是，網(wǎng)絡(luò)應(yīng)用及網(wǎng)絡(luò)協(xié)議的數(shù)量已經(jīng)越來越多，有限數(shù)量的顯示特征已經(jīng)不能完全地作為當(dāng)前網(wǎng)絡(luò)流量的代表集合，自動去尋找代表特征集合就非常重要。而且現(xiàn)實場景中對網(wǎng)絡(luò)數(shù)據(jù)流的標(biāo)識工程量較大、難度高，所以應(yīng)用與訓(xùn)練的標(biāo)識數(shù)據(jù)相對于海量的未標(biāo)識數(shù)據(jù)少之又少，基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)分類器很難直接從少量的標(biāo)識數(shù)據(jù)流中學(xué)得準(zhǔn)確識別信息。因此融合了監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)優(yōu)勢的半監(jiān)督學(xué)習(xí)方法隨即提出了通過在無監(jiān)督學(xué)習(xí)提供大量標(biāo)識數(shù)據(jù)的基礎(chǔ)上，再使用監(jiān)督學(xué)習(xí)建立分類器的方法。

2.1.1 基于五元組的數(shù)據(jù)流拼接

本文訓(xùn)練數(shù)據(jù)來自由抓包軟件從網(wǎng)卡抓取的離線pcap文件，測試數(shù)據(jù)則是實時從網(wǎng)卡抓取的pcap文件。由于實際網(wǎng)絡(luò)中會含有多進(jìn)程通信，應(yīng)用流自然不會單獨出現(xiàn)在實際網(wǎng)絡(luò)中，為了更好地識別網(wǎng)絡(luò)應(yīng)用流種類，就需要將網(wǎng)絡(luò)應(yīng)用流拼接起來。

在實際的網(wǎng)絡(luò)應(yīng)用流分析中，研究發(fā)現(xiàn)多數(shù)情況下，在一個較短的時間內(nèi)同樣的2個ip使用相同端口一般只通信一次。這使得可以通過對五元組的組合計算，將同一個短期的pcap中所有應(yīng)用流單獨拼接出來，并按順序存成對應(yīng)數(shù)據(jù)。在本研究課題中，每個數(shù)據(jù)流的區(qū)別特征值key的計算公式為：

key=str(ip.src)+str(ip.dst)+str(port.src)+

str(port.dst).

(1)

在一個pcap中，每讀入一個數(shù)據(jù)包，將計算其key值，根據(jù)key值將相同的數(shù)據(jù)包拼接在一起。數(shù)據(jù)流的拼接過程詳見圖1。

圖1 pcap數(shù)據(jù)流拼接

2.1.2 數(shù)據(jù)特征選擇

根據(jù)數(shù)據(jù)流拼接的結(jié)果，研究獲得了單個數(shù)據(jù)流信息。但是在實際網(wǎng)絡(luò)中，將很難保證每個抓取的數(shù)據(jù)流都不存在缺失、重傳、或是截取不完整等問題，同時很多基于流的特征并不能作為最好的選擇去代替這個應(yīng)用流，而基于數(shù)據(jù)包的特征也不能去代替整個應(yīng)用流。

在解決數(shù)據(jù)流代表性問題上，本文使用了數(shù)據(jù)流原文作為訓(xùn)練的輸入。通過觀察發(fā)現(xiàn)，數(shù)據(jù)流原文是一串十六進(jìn)制的數(shù)字，而2個十六進(jìn)制的數(shù)字則最終組成了0～255的數(shù)字，并且恰好對應(yīng)了灰度圖像中的灰度值范圍，使用深度學(xué)習(xí)的研究思路也隨即廣受關(guān)注。而且，由于每個流的長度不同，數(shù)據(jù)包個數(shù)、甚至每個數(shù)據(jù)包大小也不同，就需要選取每個數(shù)據(jù)流的相同數(shù)量、長度的報文作為特征向量。

首先將每種應(yīng)用報文按照一字節(jié)8位為一維特征，將每種應(yīng)用的應(yīng)用流拼接成圖像，通過對不同類型的數(shù)據(jù)流圖像進(jìn)行對比，如圖2所示，發(fā)現(xiàn)相同的應(yīng)用類型，如圖2(a)與(b)均為QQ消息數(shù)據(jù)流，具有相似的圖像；而不同的應(yīng)用類型的數(shù)據(jù)流原報文圖像則如2(c)所示，與前2個QQ圖像存在較大的差異，所以使用原報文方法是可行的。而后，根據(jù)文獻(xiàn)[1-4]識別研究過程的原理解析，研究分別選擇包長、數(shù)據(jù)包應(yīng)用層協(xié)議類型、數(shù)據(jù)包數(shù)據(jù)段長度等顯性特征來繪制出圖像；并對TCP頭設(shè)置push位包數(shù)、從客戶端到服務(wù)器方向，以初始端口發(fā)送tcp負(fù)載大小和從服務(wù)器到客戶端平均負(fù)載大小等基于數(shù)據(jù)流的特征進(jìn)行統(tǒng)計分析。圖3隨即展示了QQ聊天與其他udp應(yīng)用前50數(shù)據(jù)包長度統(tǒng)計對比。其中,藍(lán)色和綠色的線條代表QQ聊天，橙色代表其它的udp應(yīng)用。顯而易見，在前50數(shù)據(jù)包長度對比上，相似的應(yīng)用同樣具有相似的性質(zhì)。與此同時，研究還針對其它特征都進(jìn)行了比對，效果大致相似。

圖2 QQ聊天與其它udp應(yīng)用的特征圖片對比

圖3 QQ聊天與其它 udp應(yīng)用前50數(shù)據(jù)包長度統(tǒng)計

Fig. 3 Top 50 packet length statistics for QQ chat and other udp applications

為此，可推得如下研究結(jié)論：每個流前50～100報文由于其包含應(yīng)用流建立連接和控制報文的交換信息，而且也會帶有少量的其它通信信息，故而選擇前50個數(shù)據(jù)包能夠有效地代表數(shù)據(jù)流。而在每個數(shù)據(jù)包中，使用相同的傳輸層協(xié)議往往具有相似的傳輸層結(jié)構(gòu)，不能很好地代表報文特征。研究中為區(qū)分應(yīng)用流，則選擇使用了應(yīng)用層報文。通過統(tǒng)計分析，選擇前50字節(jié)作為每個數(shù)據(jù)包的代表特征值。這樣一來，每個數(shù)據(jù)流就可以使用50*50=2 500維數(shù)據(jù)作為輸入向量訓(xùn)練模型。

2.2 基于自編碼的數(shù)據(jù)降維

在聚類的開始階段，通過分析觀察報文的原文則會發(fā)現(xiàn)，有很多的報文原文中數(shù)值為0，且數(shù)據(jù)段相對較短的報文內(nèi)容向量，本文也對其進(jìn)行了補0處理，這里為了使距離度量相似性的設(shè)定不會失效，將首先使用數(shù)據(jù)降維的方法對輸入的矩陣向量做出降維處理。

與傳統(tǒng)識別方法提取數(shù)據(jù)流、數(shù)據(jù)包特征識別方法不同，基于數(shù)據(jù)包原文的識別方法在每個維度上取值范圍、代表含義都是相同的。這使得在維度下降方面，基于報文原文的方法可以使用相對優(yōu)質(zhì)的特征下降法而不僅局限于特征選擇。通過試驗對比分析，研究選擇使用自編碼器降維方式。對此，文中將給出研究論述如下。

2.2.1 自編碼器模型

AutoEncoder是一個將數(shù)據(jù)的高維特征進(jìn)行壓縮降維編碼，再經(jīng)過相反解碼過程的一種學(xué)習(xí)方法。學(xué)習(xí)過程中通過解碼得到的最終結(jié)果與原數(shù)據(jù)進(jìn)行比較，再根據(jù)修正權(quán)重偏置參數(shù)降低損失函數(shù)，不斷提高對原數(shù)據(jù)的復(fù)原能力。學(xué)習(xí)結(jié)束后，前半段的編碼過程得到結(jié)果即可代表原數(shù)據(jù)的低維“特征值”。通過學(xué)習(xí)得到的自編碼器模型可以實現(xiàn)將高維數(shù)據(jù)壓縮至所期望的維度，原理與PCA相似。本課題使用的自編碼器結(jié)構(gòu)則如圖4所示。輸入是由每個數(shù)據(jù)流前50數(shù)據(jù)包，每個數(shù)據(jù)包使用前50字節(jié)，共2 500維向量組成。中間通過對隱藏層的訓(xùn)練，選擇最優(yōu)的隱藏層權(quán)值，使得還原結(jié)果更加準(zhǔn)確，也就是說使得輸出層的低維向量更具有代表性。

圖4 自編碼器實現(xiàn)結(jié)構(gòu)

2.2.2 自編碼維度選擇

選擇不同的維度對原始數(shù)據(jù)進(jìn)行表達(dá)會產(chǎn)生不同的表達(dá)效果。為了使自編碼器能夠?qū)υ紨?shù)據(jù)的表達(dá)性更強，研究分別將輸出層數(shù)設(shè)置為10～600，并將2萬多組的網(wǎng)絡(luò)數(shù)據(jù)流分為20組，對每組均采用了編碼/解碼操作，通過求取20組平均前后數(shù)據(jù)方差值，描繪后的展現(xiàn)即如圖5所示。由結(jié)果顯示可知，選取200維作為最終聚類維數(shù)不但降維效果很好，而且還原度也相對較高。

2.3 基于k-means的數(shù)據(jù)聚類標(biāo)識法

在降維后，數(shù)據(jù)變?yōu)?00維特征的矩陣集。為了能夠獲得充足的標(biāo)識數(shù)據(jù)作為構(gòu)造分類器的訓(xùn)練數(shù)據(jù)，半監(jiān)督分類方法選擇使用無監(jiān)督聚類結(jié)合少量標(biāo)簽數(shù)據(jù)對大量的未標(biāo)識數(shù)據(jù)進(jìn)行標(biāo)識操作。在聚類方法選擇上，根據(jù)目前半監(jiān)督分類和聚類應(yīng)用于數(shù)據(jù)流識別的現(xiàn)狀，研究選擇聚類效果較好的k-means算法進(jìn)行聚類標(biāo)識。使用k-means聚類標(biāo)識數(shù)據(jù)的研發(fā)過程詳述如下。

圖5 壓縮維度選擇與還原效果關(guān)系圖

2.3.1 k-means算法k值選擇

k值作為k-means算法的核心關(guān)鍵點之一，其選擇策略對于最終聚類效果有著至關(guān)重要的影響。與傳統(tǒng)的k-means以中心點收斂為終止條件不同，由于聚類的數(shù)據(jù)流存在新類別，使得中心點應(yīng)當(dāng)具備一定的數(shù)量調(diào)整能力?；诖?，本文使用了循環(huán)聚類的方法，將每次的聚類結(jié)果作為下一次聚類方法選擇的判定條件。以一定的距離作為閾值，閾值之外的點作為本輪未標(biāo)注點，如果未標(biāo)注點達(dá)到一定數(shù)量，則啟用k+1作為下輪k-means的k值，重新選擇中心聚類，直至k值不變并收斂。如果中心點收斂且未標(biāo)識數(shù)據(jù)沒有達(dá)到閾值，聚類結(jié)束。

2.3.2 k-means算法距離選擇

傳統(tǒng)k-means算法一般以歐式距離為衡量類別間相似的標(biāo)準(zhǔn)，但對于數(shù)據(jù)包原文來說，雖然每一位的取值范圍相同，但每一維度所代表含義的差異可能使傳統(tǒng)歐氏距離的區(qū)分效果大打折扣。本文選擇加權(quán)的歐氏距離作為各點之間的距離度量方法，可以避免維度特征之間的差異。

加權(quán)的歐氏距離也可以解讀為標(biāo)準(zhǔn)化歐氏距離，是針對歐氏距離的一種改進(jìn)，在計算距離前將對每一個維度進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化使得期望為0，方差為1。先求出帶標(biāo)識數(shù)據(jù)在第n維度上的標(biāo)準(zhǔn)差sn,對于2個向量a(x1,x2...,xk)和向量b(y1,y2,...,yk)之間的加權(quán)距離公式可以表示為：

(2)

2.3.3 k-means算法實現(xiàn)描述

算法基于加權(quán)歐氏距離的k-means算法

輸入：帶標(biāo)簽和未帶標(biāo)簽的2組數(shù)據(jù)集

輸出：識別之后帶標(biāo)簽數(shù)據(jù)集及標(biāo)簽集

Step1通過對有標(biāo)識數(shù)據(jù)的統(tǒng)計，得出現(xiàn)有標(biāo)識類別數(shù)作為k初始值。

Step2將帶標(biāo)識數(shù)據(jù)按照標(biāo)簽分別存入不同的集合中。

Step3計算所有數(shù)據(jù)在各個維度上的標(biāo)準(zhǔn)差。

Step4分別計算各個集合標(biāo)簽集中向量在各維度上的均值，組成各個集合的初始k個中心點。

Step5分別計算各個集合中距離中心點最遠(yuǎn)的距離作為本輪閾值d。

Step6帶標(biāo)記的向量不動，分別計算不帶標(biāo)記向量到各個中心加權(quán)距離，如果該點所有中心點最小距離大于d，則將該數(shù)據(jù)暫時放入unknow隊列。如果最小距離小于d，則將其歸入距離最近的集合中。

Step7將所有新集合向量各個維度取均值作為新的中心點，若中心點與上輪不同，重復(fù)Step 6。

Step8如果中心點相同，統(tǒng)計unknow數(shù)量，若大于本次聚類標(biāo)簽數(shù)最少的類別數(shù)，則將k+1,取unknow數(shù)組中位數(shù)下標(biāo)的向量作為新的聚類中心，重新進(jìn)入Step 6。

Step9若小于最少類別數(shù)，則將unknow數(shù)據(jù)拋棄。對當(dāng)前每個集合中的數(shù)據(jù)進(jìn)行分組標(biāo)記。對于新分出來的集合采用人工標(biāo)記法，隨機抽取一定數(shù)量的應(yīng)用流進(jìn)行人工識別，對標(biāo)識結(jié)果進(jìn)行比對。若最多類型數(shù)量超過90%，使用該類型標(biāo)識這個集合，否則舍棄。

3 實驗結(jié)果與分析

通過對32 000組標(biāo)記數(shù)據(jù)流進(jìn)行模擬，并選擇分組聚類標(biāo)識法測試，其中包括coco數(shù)據(jù)流8 378條，zello數(shù)據(jù)流7 693條，skype數(shù)據(jù)流7 752條，ftp站點數(shù)據(jù)流3 653條，隨機應(yīng)用流4 524條。選擇4種有標(biāo)記數(shù)據(jù)流各1 000條作為已標(biāo)識數(shù)據(jù)集。其余的28 000條以4 000為一組作為未標(biāo)識應(yīng)用集。使用已知標(biāo)識的數(shù)據(jù)集分別與每組未知標(biāo)識數(shù)據(jù)進(jìn)行聚類標(biāo)記，通過與原標(biāo)記進(jìn)行對比識別，得識別運行結(jié)果詳見表2。

表2 聚類結(jié)果統(tǒng)計

接下來在表2基礎(chǔ)上，處理得出識別準(zhǔn)確率的仿真運行結(jié)果，如圖6所示。

圖6 聚類準(zhǔn)確率的運算結(jié)果

圖6給出的聚類后根據(jù)識別效果對每組識別準(zhǔn)確率進(jìn)行統(tǒng)計顯示，每組標(biāo)識數(shù)據(jù)識別錯誤率均不超過5%，因距離過遠(yuǎn)而丟棄的數(shù)據(jù)都不足1%，而標(biāo)識為其它的數(shù)據(jù)與已知的未標(biāo)注數(shù)據(jù)在總量上彼此相近。結(jié)合在一起，可以判定總體數(shù)據(jù)的聚類標(biāo)識準(zhǔn)確度達(dá)到95%以上，該效果可以用來對未標(biāo)識數(shù)據(jù)進(jìn)行有效的標(biāo)注。

4 結(jié)束語

針對不斷出現(xiàn)的新應(yīng)用流的識別，傳統(tǒng)的非機器學(xué)習(xí)方法無法對新類型應(yīng)用進(jìn)行識別，只能夠重新建立模型；而傳統(tǒng)的基于特征的機器學(xué)習(xí)方法也很容易出現(xiàn)識別錯誤和特征選擇不具典型性的問題?；跀?shù)據(jù)報文的應(yīng)用流識別使得識別過程可以從應(yīng)用流本身挖掘特征而非僅依賴于選擇的特定特征，極大地增強了模型的自身學(xué)習(xí)能力和對新應(yīng)用類型識別和學(xué)習(xí)的適應(yīng)性。在分類識別之前，大量的有標(biāo)識應(yīng)用流是必要的，通過半監(jiān)督學(xué)習(xí)的方式可以采用少量的標(biāo)識數(shù)據(jù)對大量的未標(biāo)識數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)記，從而為準(zhǔn)確的監(jiān)督學(xué)習(xí)模型分類器的建立提供堅實的基礎(chǔ)。