亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        半監(jiān)督異常流量檢測研究綜述

        2020-12-10 10:05:36李杰鈴
        小型微型計算機(jī)系統(tǒng) 2020年11期
        關(guān)鍵詞:分類器聚類流量

        李杰鈴,張 浩

        (福州大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福州 350116)(福建省網(wǎng)絡(luò)計算與智能信息處理重點實驗室,福州 350116)

        1 引 言

        隨著下一代蜂窩網(wǎng)絡(luò)(5G及更高版本)的不斷發(fā)展,至關(guān)重要的是檢測并及時處理潛在的網(wǎng)絡(luò)流量異常情況,以避免涉及網(wǎng)絡(luò)性能和公共安全的關(guān)鍵問題.網(wǎng)絡(luò)異常流量檢測通過對流量的檢測分析判斷,可以盡早地發(fā)現(xiàn)網(wǎng)絡(luò)中是否有入侵行為,為網(wǎng)絡(luò)安全管理提供依據(jù),因此,異常流量檢測逐漸成為網(wǎng)絡(luò)安全領(lǐng)域的研究重點.

        現(xiàn)有基于機(jī)器學(xué)習(xí)的異常流量檢測方法大多需要利用大量的已標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,如OCSVM(One-Class Support Vector Machine)[1].然而,在實際網(wǎng)絡(luò)入侵場景中,每條標(biāo)記數(shù)據(jù)都需要利用專家知識人工標(biāo)注,數(shù)據(jù)標(biāo)簽非常昂貴,從而導(dǎo)致訓(xùn)練的流量數(shù)據(jù)集規(guī)模非常有限,即已標(biāo)注的數(shù)據(jù)量較小.有限規(guī)模的訓(xùn)練數(shù)據(jù)集進(jìn)一步地降低了模型的準(zhǔn)確度.同時,由于網(wǎng)絡(luò)流量數(shù)據(jù)的分布會隨著時間的變化而變化,因此往往會有更多未知攻擊類型的數(shù)據(jù),并且標(biāo)記數(shù)據(jù)所代表的類型是已知的,如果僅僅根據(jù)標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,則在檢測未知的異常類型時,會導(dǎo)致檢測精度不理想.而如果采用無監(jiān)督方法,則會因為缺乏標(biāo)簽數(shù)據(jù)的引導(dǎo)造成模型性能差等問題.

        在異常流量檢測中,獲取大量未標(biāo)記樣本相對容易,可以利用大數(shù)據(jù)技術(shù)對每個節(jié)點的傳感器進(jìn)行采集.而獲取少量標(biāo)記數(shù)據(jù)是符合實際的,所以使用少量的標(biāo)記數(shù)據(jù)進(jìn)行指導(dǎo),以此來充分利用大量未標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)技術(shù)正在獲得廣泛關(guān)注[2].通過Web Of Science平臺(www.webofknowledge.com),分別以關(guān)鍵詞′Semi-supervised Learning′,′Anomaly Traffic Detection or Network intrusion detection′和′Semi-supervised Learning and(Anomaly Traffic Detection or Network intrusion detection)′為主題進(jìn)行文獻(xiàn)檢索,檢索時間為2020年06月15日.統(tǒng)計結(jié)果發(fā)現(xiàn),無論是半監(jiān)督學(xué)習(xí)(圖1(a))還是異常流量檢測(圖1(b)),文獻(xiàn)發(fā)表數(shù)量都逐年遞增,而半監(jiān)督異常流量檢測(圖1(c))研究體量較少,但是半監(jiān)督異常流量檢測也日益引起學(xué)者關(guān)注,相關(guān)的文獻(xiàn)出版量也在逐年提升.

        圖1 2010年-2020年文獻(xiàn)出版數(shù)Fig.1 Number of publications from 2010 to 2020

        國內(nèi)外學(xué)術(shù)界已有半監(jiān)督技術(shù)的相關(guān)綜述,尚未有對半監(jiān)督技術(shù)在異常流量檢測方法上進(jìn)行總結(jié)的文獻(xiàn),本文將對半監(jiān)督異常流量檢測技術(shù)的研究現(xiàn)狀進(jìn)行全面綜述.接下來第2節(jié)論述異常流量檢測的特性與關(guān)聯(lián)性;第3節(jié)介紹半監(jiān)督學(xué)習(xí)方法;第4節(jié)介紹半監(jiān)督學(xué)習(xí)在異常流量檢測中的應(yīng)用;第5節(jié)討論此研究領(lǐng)域存在的問題,并對研究前景進(jìn)行展望;第6節(jié)總結(jié)全文.

        2 異常流量檢測的特性與關(guān)聯(lián)性

        異常流量是指在網(wǎng)絡(luò)環(huán)境中偏離正常流量的情形,一般來說,在不同的網(wǎng)絡(luò)配置中正常流量和異常流量的定義是不同的[3].異常流量檢測是在網(wǎng)絡(luò)中發(fā)現(xiàn)可能存在的異常操作、攻擊行為以及尋找非正常預(yù)期行為的過程.現(xiàn)階段的一些研究,如流數(shù)據(jù)、離群點、數(shù)據(jù)不平衡、相關(guān)的自然語言技術(shù)都可應(yīng)用于具體的網(wǎng)絡(luò)安全領(lǐng)域中.

        2.1 流數(shù)據(jù)

        我們?nèi)粘I钪械脑S多現(xiàn)實應(yīng)用程序都以前所未有的速度生成大量的流數(shù)據(jù),如Web單擊數(shù)據(jù)流[4].與傳統(tǒng)數(shù)據(jù)相比,流數(shù)據(jù)具有以下特點:海量、高維度、動態(tài)性、無限增長、高速到達(dá)、實時性要求高.流數(shù)據(jù)可分為動態(tài)流和穩(wěn)定流,穩(wěn)定的數(shù)據(jù)流是獨立的、同分布的,而動態(tài)數(shù)據(jù)流不是獨立的、同分布的,這會導(dǎo)致概念漂移現(xiàn)象.概念漂移意味著目標(biāo)變量隨時間而變化[5].由于網(wǎng)絡(luò)流量符合以上流數(shù)據(jù)特性,所以采用流數(shù)據(jù)模型來描述實際的網(wǎng)絡(luò)流量,解決現(xiàn)有的異常流量檢測模型存在的不足是合適的.現(xiàn)有文獻(xiàn)大多利用滑動窗口使異常分?jǐn)?shù)的分配可以隨著流數(shù)據(jù)的變化而變化,以突出顯示最近生成的數(shù)據(jù).而對于概念漂移問題,有各種解決辦法,如分層時間存儲(Hierarchical Temporal Memory,HTM)[6],長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[7]等.流數(shù)據(jù)還面臨著內(nèi)存有限和反應(yīng)及時的挑戰(zhàn),大數(shù)據(jù)處理系統(tǒng)正在逐漸面向流,已有研究者為不同用例選擇正確的流處理框架和多級流分析架構(gòu)提供指南[8].

        2.2 離群點

        離群點是顯著不同于其他數(shù)據(jù)分布的數(shù)據(jù)對象,如異常點、孤立點等.網(wǎng)絡(luò)流量符合流數(shù)據(jù)的特性,而離群點中的檢測異常點即檢測流量中的惡意請求,所以我們可以多關(guān)注流數(shù)據(jù)的離群點檢測算法.Ahmad等人[9]將HTM擴(kuò)展開來,用于流數(shù)據(jù)的離群點檢測.專注于離群點檢測的深度學(xué)習(xí)技術(shù)(Deep Anomaly Detection,DAD)也取得了很大進(jìn)步,DAD模型可分為監(jiān)督深度異常檢測;半監(jiān)督深度異常檢測;無監(jiān)督深度異常檢測.由于離群點大多缺乏大量的標(biāo)記數(shù)據(jù)集,因此有監(jiān)督的深度異常檢測應(yīng)用并不廣泛.無監(jiān)督的深度異常檢測通過捕捉數(shù)據(jù)的內(nèi)在屬性來檢測離群點,然而,流量屬于復(fù)雜的高維數(shù)據(jù),這類方法很難捕獲數(shù)據(jù)的內(nèi)在屬性,嚴(yán)重影響檢測結(jié)果.半監(jiān)督的深度異常檢測,如使用深度自動編碼器[10],通過半監(jiān)督技術(shù)訓(xùn)練正常數(shù)據(jù)集,當(dāng)數(shù)據(jù)集足夠大時,深度自動編碼器可以在正常數(shù)據(jù)中獲得較的高準(zhǔn)確率,反之能檢測出異常值.未來可以將傳統(tǒng)技術(shù)與深度學(xué)習(xí)相結(jié)合,提升算法的性能和檢測能力.

        2.3 數(shù)據(jù)不平衡

        在實際的網(wǎng)絡(luò)應(yīng)用中存在著大量不平衡數(shù)據(jù),在幾萬條流量數(shù)據(jù)里可能僅有一個請求是異常的,數(shù)據(jù)不平衡程度很容易超過10000∶1.在高度不平衡的數(shù)據(jù)中進(jìn)行學(xué)習(xí),分類器很容易偏向多數(shù)類而忽略少數(shù)類[11].不平衡數(shù)據(jù)集分類可基于數(shù)據(jù)層面和基于數(shù)據(jù)挖掘?qū)用?在數(shù)據(jù)層面將不平衡數(shù)據(jù)集轉(zhuǎn)換成平衡數(shù)據(jù)集是人們處理不平衡數(shù)據(jù)所采用的常用方法,如使用SMOTE結(jié)合Tomek Links對數(shù)據(jù)過采樣[12].雖然這些技術(shù)直接改變了每個樣本的數(shù)量,但并不總是有助于生成一個平衡的語料庫,因為選定的樣本可能包含太多獨特的詞或很少的詞.Kamarudin等人[13]使用混合特征選擇,選取具有更大區(qū)分能力的特征來強(qiáng)化少數(shù)類所起到的作用.Mimura[14]從惡意和良性單詞中計算單詞重要性分?jǐn)?shù)(Term Frequency,TF),并提取前N個重要單詞,通過這種方式,從代理日志中提取重要的單詞來總結(jié)語料庫有效地緩解了類不平衡問題.該方法不需要設(shè)計特征向量,并且不改變每個樣本的數(shù)量.依賴于分類器的數(shù)據(jù)挖掘算法在解決不平衡問題上也有廣泛的應(yīng)用,如基于半監(jiān)督學(xué)習(xí)機(jī)制的聚類算法,其簡單且可解釋性強(qiáng),但是聚類速度慢,對噪聲較為敏感,不適用于大數(shù)據(jù)樣本.基于Boosting的挖掘算法[15],通過加大分類錯誤樣本權(quán)重,進(jìn)而強(qiáng)化權(quán)重較大樣本的學(xué)習(xí),但是可能會出現(xiàn)過擬合的現(xiàn)象,且適用的數(shù)據(jù)集的不平衡程度不易過大.

        2.4 自然語言技術(shù)

        流量的異常檢測歸根結(jié)底還是基于日志文本的分析,因而可以借鑒自然語言技術(shù)中的一些方法思路,進(jìn)行文本分析建模.一般先使用自然語言處理方法解決流量數(shù)據(jù)高維復(fù)雜性問題或者提取重要信息,然后再通過機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)建立模型和微調(diào)模型.異常檢測中借鑒自然語言技術(shù)比較成功的是基于隱馬爾科夫模型[16]的參數(shù)值異常檢測.此外,隨著自然語言技術(shù)的發(fā)展,越來越多的模型被應(yīng)用于惡意行為的分類.例如Nagano和Uda[17]提出了一種用段落向量檢測未見惡意軟件可執(zhí)行文件的方法,該方法從可執(zhí)行文件中提取信息頭、程序集代碼或字節(jié)等內(nèi)容并將它們轉(zhuǎn)換為具有段落向量的特征向量.Miura等人提出了一種檢測未見惡意VBA宏[18-20]的方法,該方法使用段落向量和TFIDF(Term Frequency Inverse Document Frequency)模型表示VBA宏的源代碼.Mimura[14]從未知代理日志派生段落,用訓(xùn)練好的Doc2vec模型將段落轉(zhuǎn)換為特征向量,Doc2vec可以計算兩個文檔之間的語義相似性,并從語義上推斷出相似的文檔.Mimura早期也使用Doc2vec來表示未見的流量[21],并且將其擴(kuò)展到支持任何協(xié)議的通用檢測方法[22].

        3 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)是同時采用標(biāo)簽和無標(biāo)簽樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,是機(jī)器學(xué)習(xí)領(lǐng)域中比較新興的方法.其常采用有標(biāo)簽數(shù)據(jù)改進(jìn)、變更樣本的重要性來探索無標(biāo)簽樣本,如圖2所示.主動學(xué)習(xí)和直推學(xué)習(xí)也是利用未標(biāo)注數(shù)據(jù)學(xué)習(xí)的主流技術(shù)[23],他們的目標(biāo)都是在提高泛化誤差的同時盡可能地減少標(biāo)記數(shù)據(jù)的花費.其中主動學(xué)習(xí)依賴于人工干預(yù),而直推學(xué)習(xí)關(guān)注在未標(biāo)注數(shù)據(jù)上的預(yù)測性能.

        圖2 半監(jiān)督學(xué)習(xí)Fig.2 Semi-supervised learning

        Miller等人首先根據(jù)數(shù)據(jù)分布的估計闡述了未標(biāo)注數(shù)據(jù)的加入確實可以對分類模型的性能起到正面的促進(jìn)作用[24].假設(shè)樣本數(shù)據(jù)的真實類別標(biāo)記為y∈Y,Y={1,2,…,C}為所有類別,且樣本數(shù)據(jù)項由C個高斯混合分布構(gòu)成,每一類對應(yīng)一個高斯混合成分,如式(1)所示:

        (1)

        其中,αi≥0;ui和∑i為高斯混合成分參數(shù),p(x|ui,∑i)為樣本x屬于第i個高斯混合成分的概率.令f(x)∈y表示模型f對樣本x的預(yù)測結(jié)果,Θ∈{1,2,…,C}表示樣本x所屬的高斯混合分量.由最大化后驗概率可得式(2):

        (2)

        在f(x)中,p(y=j|Θ=i,x)表示樣本x由第i階高斯混合分量產(chǎn)生且類別為j的概率,p(Θ=i,x)表示樣本x由第i個高斯混合成分生成的后驗概率.可以發(fā)現(xiàn),式(2)中,估計p(y=j|Θ=i,x)需要知道樣本的標(biāo)記,而p(Θ=i,x)不需要知道樣本標(biāo)記.因此,無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)都可以利用,當(dāng)引入更多大量的無標(biāo)記數(shù)據(jù)時,對于這一項的估計能夠更加準(zhǔn)確,所以未標(biāo)記數(shù)據(jù)可以輔助提高分類模型的性能.

        半監(jiān)督學(xué)習(xí)的成立依賴于模型假設(shè),當(dāng)模型假設(shè)正確時,無類標(biāo)簽的樣本能夠幫助改進(jìn)學(xué)習(xí)性能.半監(jiān)督學(xué)習(xí)中常用的三個基本假設(shè)是光滑假設(shè)、聚類假設(shè)和流形假設(shè).其中光滑假設(shè)是指稠密區(qū)域中兩個位置相近的樣本,其類標(biāo)簽相似.聚類假設(shè)是當(dāng)兩個樣本在同一個聚類中,它們具有相同的類別.流形假設(shè)意味著當(dāng)兩個樣品都位于一個低維流形的一個小鄰域時,它們的標(biāo)簽應(yīng)該是相似的.

        半監(jiān)督學(xué)習(xí)算法主要包含半監(jiān)督聚類、半監(jiān)督分類和半監(jiān)督回歸.半監(jiān)督聚類可以比單獨使用無標(biāo)記樣本得到更好的聚類,提高了聚類方法的準(zhǔn)確性[25].半監(jiān)督分類是利用未標(biāo)記樣本訓(xùn)練有標(biāo)記樣本,以獲得比僅使用未標(biāo)記樣本訓(xùn)練的分類器性能更好的分類器,從而彌補(bǔ)標(biāo)記樣本不足的缺點.半監(jiān)督回歸主要考慮模型的局部特性,其對應(yīng)的是流形假設(shè),現(xiàn)階段半監(jiān)督回歸的研究十分缺乏.其中半監(jiān)督分類的關(guān)注度最高,一方面由于很多實際問題屬于分類范疇,另一方面是因為機(jī)器學(xué)習(xí)算法中分類算法研究成果逐漸豐富[26].半監(jiān)督分類包括生成模型、半監(jiān)督圖算法、支持向量機(jī)、自訓(xùn)練和協(xié)同訓(xùn)練.

        生成模型假設(shè)所有數(shù)據(jù)都是由同一個潛在模型生成的,可直接基于極大似然估計來對參數(shù)求解,易于實現(xiàn),但是如果模型假設(shè)不正確會降低泛化性能.半監(jiān)督圖算法將分類學(xué)習(xí)的問題轉(zhuǎn)化為圖的形式,一個樣本對應(yīng)圖中的一個結(jié)點,若兩個樣本之間具有較高的相似性,則對應(yīng)結(jié)點之間存在一條邊,相似度就轉(zhuǎn)化為邊的強(qiáng)度,即將半監(jiān)督學(xué)習(xí)問題轉(zhuǎn)化為基于圖的標(biāo)簽傳播,從而實現(xiàn)了對無標(biāo)簽數(shù)據(jù)的利用.然而當(dāng)數(shù)據(jù)規(guī)模變大的時候,圖的規(guī)模也隨之變大,則分類效率會降低.直推式支持向量機(jī)算法是半監(jiān)督支持向量機(jī)中的代表算法,該算法采用局部搜索來迭代尋找最優(yōu)解,在小樣本分類問題中表現(xiàn)出了良好的性能,但是模型求解效率低.

        自訓(xùn)練和協(xié)同訓(xùn)練屬于啟發(fā)式的半監(jiān)督學(xué)習(xí)算法,其研究過程不斷改進(jìn).自訓(xùn)練模型是在學(xué)習(xí)過程中利用模型自身的預(yù)測結(jié)果來不斷訓(xùn)練更新自己,但一旦模型給出的預(yù)測結(jié)果有誤,就會在后續(xù)訓(xùn)練過程中形成誤差累積.Co-training協(xié)同訓(xùn)練法[27]分別在每個視圖上利用有標(biāo)記樣本訓(xùn)練一個分類器,然后,每個分類器從未標(biāo)記樣本中挑選若干標(biāo)記置信度加入另一個分類器的訓(xùn)練集中,以便對方利用這些新增的有標(biāo)記樣本進(jìn)行更新,然而協(xié)同訓(xùn)練法要求數(shù)據(jù)具有兩個充分冗余且滿足條件獨立性的視圖.Tri-training[28]是一種新的 Co-training 模式,使用三個分類器進(jìn)行訓(xùn)練,對于相同的未標(biāo)記的實例,兩個分類器具有相同的預(yù)測,認(rèn)為該實例具有較高的標(biāo)記置信度,在標(biāo)記后,將其添加到第三個分類器的標(biāo)記訓(xùn)練集中進(jìn)行模型重構(gòu).即使Tri-training已有較大改進(jìn),但是仍然有缺陷,如在模型更新的時候,其采用隨機(jī)抽樣可能導(dǎo)致分類性能惡化,特別是處理不平衡樣本時,已標(biāo)記樣本可能具有大量相似的樣本或相同的分布,對這類樣本集進(jìn)行隨機(jī)抽樣,會造成樣本差異性小,從而降低了分類準(zhǔn)確率.

        4 半監(jiān)督學(xué)習(xí)在異常流量檢測中的應(yīng)用

        半監(jiān)督學(xué)習(xí)是有監(jiān)督和無監(jiān)督技術(shù)的結(jié)合,其核心問題是如何有效利用無標(biāo)注數(shù)據(jù)輔助學(xué)習(xí).為緩解實際異常流量檢測任務(wù)中難以獲得大量模塊標(biāo)注這一難題,半監(jiān)督學(xué)習(xí)被引入異常流量檢測,以利用大量未標(biāo)注流量樣本,提升在少量標(biāo)記樣本的模塊上學(xué)習(xí)建模的性能.半監(jiān)督異常流量檢測的基本流程如圖3所示.首先選擇部分模塊送交網(wǎng)絡(luò)安全專家,獲得每個模塊的異常情況標(biāo)注,然后基于所形成的有標(biāo)注的流量模塊和無標(biāo)注流量模塊進(jìn)行半監(jiān)督學(xué)習(xí),用于預(yù)測新模塊的異常情況.

        圖3 半監(jiān)督異常流量檢測流程Fig.3 Semi-supervised anomaly traffic detection process

        第三節(jié)介紹了半監(jiān)督學(xué)習(xí)主要包含的幾種范型,但是根據(jù)學(xué)習(xí)場景的不同,可具體再將半監(jiān)督類型進(jìn)行劃分.本文從半監(jiān)督聚類、半監(jiān)督分類、半監(jiān)督降維、半監(jiān)督集成和增量半監(jiān)督這五個方面對異常流量檢測這一特定的學(xué)習(xí)場景展開評述.其中后三類分別對應(yīng)流量的數(shù)據(jù)不平衡性、高維復(fù)雜性、實時新增這三個特性,圖4展示了相應(yīng)的研究進(jìn)展.

        圖4 半監(jiān)督異常流量檢測研究進(jìn)展Fig.4 Research progress of semi-supervised anomalytraffic detection

        4.1 基于半監(jiān)督聚類的異常流量檢測

        半監(jiān)督聚類綜合了有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的優(yōu)勢,提高了聚類的質(zhì)量,是近幾年來機(jī)器學(xué)習(xí)和異常檢測領(lǐng)域的重要研究方向之一[29].半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的差異體現(xiàn)在監(jiān)督信息的使用,其中監(jiān)督信息主要包括樣本的類別標(biāo)簽和成對約束關(guān)系[26].K-means是使用最多的半監(jiān)督聚類方法,其主要思想是將少量標(biāo)記樣本和大量無標(biāo)記樣本混合的訓(xùn)練集聚類成若干不相交的簇,然后通過標(biāo)記的樣本完成簇與類別之間的映射.然而,K-means算法的迭代過程一直沿減小目標(biāo)函數(shù)的方向進(jìn)行,容易陷入局部最優(yōu).Gu等人[30]提出了一種改進(jìn)的基于密度的初始聚類中心選擇方法,以解決k均值聚類的離群值和局部最優(yōu)問題.

        雖然K-means的能夠降低標(biāo)記樣本的復(fù)雜度,但是其分類準(zhǔn)確率低,主要的原因是沒有找到最有效的流量特征集.近幾年,很多文獻(xiàn)在進(jìn)行半監(jiān)督聚類之前先進(jìn)行特征提取或者特征選擇.Xu等人[31]引入信息增益率自適應(yīng)地選取流量特征并進(jìn)行定量分析,然后利用改進(jìn)的K-means來標(biāo)記相似的流量特征.Gu等人[30]提出了一種使用混合特征選擇算法(semi-supervised weighted k-means method using hybrid feature selection algorithm,SKM-HFS)的半監(jiān)督加權(quán)k均值方法,以實現(xiàn)更好的檢測性能.但是,還有兩個值得注意的因素影響模型的魯棒性,一個是不同類別中網(wǎng)絡(luò)流量的嚴(yán)重失衡,另一個是特征空間中訓(xùn)練集和測試集之間的不相同分布.Yao等人[32]提出了一種分層半監(jiān)督k均值算法的多層入侵檢測模型框架,旨在找出所有純集群,以解決這些問題.表1總結(jié)了上述幾種典型方法的優(yōu)缺點.

        表1 基于半監(jiān)督聚類的異常流量檢測Table 1 Anomaly traffic detection based on semi-supervised clustering

        除此之外還有很多半監(jiān)督聚類算法在流量異常檢測領(lǐng)域中引起關(guān)注.Ashfaq等人[33]使用模糊量對未標(biāo)記樣本進(jìn)行分類,將每個類別分別合并到原始訓(xùn)練集后再對分類器進(jìn)行訓(xùn)練.Usha等人[34]先使用獨立的度量標(biāo)準(zhǔn)歸一化增益對特征進(jìn)行排名,然后采用基于粒子群優(yōu)化的半監(jiān)督聚類方法進(jìn)行入侵檢測.Shailendra等人[35]使用半監(jiān)督模糊c均值(Fuzzy C-Means,F(xiàn)CM)處理標(biāo)記數(shù)據(jù)問題,并使用極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)算法提供良好的泛化性能.

        4.2 基于半監(jiān)督分類的異常流量檢測

        已有的半監(jiān)督分類算法可以分為5類,包括自訓(xùn)練、基于分歧的半監(jiān)督學(xué)習(xí)、半監(jiān)督支持向量機(jī)、生成式的半監(jiān)督學(xué)習(xí)和基于圖的半監(jiān)督學(xué)習(xí)[26].其中前3種類型比較適用于網(wǎng)絡(luò)流量特點,而后兩種不加優(yōu)化的話往往會影響流量檢測的效率和準(zhǔn)確度.

        自訓(xùn)練半監(jiān)督是早期利用無標(biāo)記樣本的原始框架,其訓(xùn)練效果較好,且實現(xiàn)簡單.Wagh等人[36]提出半監(jiān)督自學(xué)習(xí)模型,他們的結(jié)果證實使用原始標(biāo)簽數(shù)據(jù)的準(zhǔn)確性進(jìn)一步?jīng)Q定是否將新的未標(biāo)簽數(shù)據(jù)輸入到下一個迭代中,是提高半監(jiān)督學(xué)習(xí)性能的有效方法.基于分歧的半監(jiān)督學(xué)習(xí)方法也稱為協(xié)同訓(xùn)練,其使用具有不同學(xué)習(xí)算法的多個基本分類器來給未標(biāo)記數(shù)據(jù)提供標(biāo)注,然后選擇未標(biāo)記數(shù)據(jù)中置信度高的樣本進(jìn)行利用.Li等人[37]采用基于分歧的整體協(xié)同訓(xùn)練算法開發(fā)了一種實用的基于多視圖的誤報減少系統(tǒng),通過共同訓(xùn)練,一個視圖生成的分類器可以“教”從其他視圖構(gòu)建的其他分類器學(xué)習(xí),反之亦然;并且通過共識訓(xùn)練,從多個角度進(jìn)行的預(yù)測可以為未標(biāo)記的數(shù)據(jù)提供更高的置信度.半監(jiān)督支持向量機(jī)具有良好的泛化能力和穩(wěn)定性,且適用于非線性數(shù)據(jù)集的建模.Mousavi等人[38]提出了一種新穎的拉普拉斯孿生支持向量機(jī)分類器在線版本,它可以利用嵌入在未標(biāo)記數(shù)據(jù)中的邊際分布的幾何信息,在網(wǎng)絡(luò)入侵檢測中取得了理想效果.半監(jiān)督分類關(guān)注度最高,相應(yīng)的研究也非常多,更多基于半監(jiān)督分類的異常流量檢測方法如表2所示.

        表2 基于半監(jiān)督分類的異常流量檢測Table 2 Anomaly traffic detection based on semi-supervised classification

        生成式的半監(jiān)督學(xué)習(xí),其適用于特征相對簡單以及維度不高的場景,不符合網(wǎng)絡(luò)流量特征復(fù)雜和高維度的特性,目前還很少有將其應(yīng)用到異常流量檢測領(lǐng)域中的相關(guān)文獻(xiàn).基于圖的半監(jiān)督方法定義了一個圖,在該圖上,節(jié)點表示帶標(biāo)簽的示例和未帶標(biāo)簽的示例,并且邊反映了示例之間的相似性.但是基于圖的算法需要很高的空間復(fù)雜度,對網(wǎng)絡(luò)流量異常檢測系統(tǒng)而言效率不高.

        4.3 基于半監(jiān)督降維的異常流量檢測

        實際網(wǎng)絡(luò)流量維數(shù)較高,高維向量使得異常流量檢測的計算量顯著增加,無法應(yīng)用于具有較高實時性和準(zhǔn)確性的異常流量檢測模型,且學(xué)習(xí)算法通常無法很好地處理此類數(shù)據(jù),因此提出了降低數(shù)據(jù)維數(shù)的挑戰(zhàn).半監(jiān)督降維技術(shù)兼具無監(jiān)督降維和有監(jiān)督降維的優(yōu)點,節(jié)省了大量的樣本標(biāo)注工作量,具有與降維前相當(dāng)?shù)奶摼屎蜏?zhǔn)確率.賈偉峰等人[39]提出了一種基于半監(jiān)督降維技術(shù)和BP神經(jīng)網(wǎng)絡(luò)的入侵檢測方法,構(gòu)造一個變換矩陣,將高維向量投射到低維空間,使其滿足主成分最大化、類間距最大化和類內(nèi)間距最小化.該方法在降低維數(shù)的前提下,可以保持檢測性能和提升運算速度.冶曉隆等人[40]使用主成分分析和禁忌搜索來減少高維特征空間冗余以及選擇最優(yōu)特征,然后結(jié)合最短距離劃分決策樹(Min-Distance Decision Tree,MDDT)進(jìn)行半監(jiān)督學(xué)習(xí),實現(xiàn)了異常檢測的實時性和高準(zhǔn)確率,但是該算法沒有將無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)結(jié)合使用.現(xiàn)有半監(jiān)督降維技術(shù)所使用的監(jiān)督信息大多為標(biāo)簽信息或者成對約束信息,只適用與離散變量,不適用于連續(xù)變量.且當(dāng)網(wǎng)絡(luò)流量數(shù)據(jù)為高維稀疏樣本時,容易受微小擾動的影響.

        半監(jiān)督學(xué)習(xí)過程本身會增加模型訓(xùn)練時間,需要一種有效而合理的降維方法來減輕計算機(jī)的計算負(fù)擔(dān),除此之外,降維還為有效和清晰的數(shù)據(jù)可視化提供了有用的基礎(chǔ).現(xiàn)階段在異常流量檢測這一特定領(lǐng)域的半監(jiān)督降維研究還相對較少,但是大范圍內(nèi)針對半監(jiān)督降維方法的研究成果還是比較豐富.傳統(tǒng)的監(jiān)督降維方法通??梢栽诖罅繕颖镜那疤嵯峦ㄟ^特征選擇或者特征提取建立更好的模型.但是,在缺乏標(biāo)簽數(shù)據(jù)的現(xiàn)實世界中,由于過度擬合,傳統(tǒng)方法的性能往往較差.在這種情況下,未標(biāo)記的樣本可能有助于改善性能,同時利用這些有標(biāo)記的數(shù)據(jù)和無標(biāo)記的數(shù)據(jù)可以有效地對多維數(shù)據(jù)進(jìn)行降維.表3列舉了半監(jiān)督降維學(xué)習(xí)的相關(guān)模型,其中前三個模型為當(dāng)前最新的有價值意義的半監(jiān)督降維算法,后兩個模型為半監(jiān)督降維與其它算法的優(yōu)勢結(jié)合,希望此分析能為后續(xù)研究者將相關(guān)半監(jiān)督降維方法應(yīng)用于異常流量檢測提供幫助.

        表3 半監(jiān)督降維方法的對比分析Table 3 Comparative analysis of semi-supervised dimensionality reduction methods

        4.4 基于半監(jiān)督集成的異常流量檢測

        基基于分歧的半監(jiān)督學(xué)習(xí)是半監(jiān)督集成學(xué)習(xí)的起源,使半監(jiān)督學(xué)習(xí)和集成學(xué)習(xí)的交叉研究日益豐富[51].網(wǎng)絡(luò)流量數(shù)據(jù)種類繁多,只訓(xùn)練了足夠多的未標(biāo)記樣本,但沒有多個學(xué)習(xí)器,學(xué)習(xí)器不能做得足夠好,而只有多個學(xué)習(xí)器集成學(xué)習(xí)但無額外無標(biāo)記樣本也不能取得理想的檢測效果.半監(jiān)督學(xué)習(xí)可以解決集成學(xué)習(xí)標(biāo)記樣本量不足的問題,也可以增加學(xué)習(xí)器在集成學(xué)習(xí)中的多樣性,而集成學(xué)習(xí)可以降低半監(jiān)督學(xué)習(xí)的泛化誤差,加快其收斂速度,最重要的是可以減少類不平衡對預(yù)測產(chǎn)生的偏倚.所以半監(jiān)督和集成學(xué)習(xí)可以有機(jī)結(jié)合,互相幫助.

        根據(jù)不同的組合方法,半監(jiān)督集成可分為基于半監(jiān)督的集成學(xué)習(xí)和基于集成的半監(jiān)督學(xué)習(xí),若最終用來預(yù)測標(biāo)簽的學(xué)習(xí)器是單一學(xué)習(xí)器,則為基于集成的半監(jiān)督學(xué)習(xí),否則為基于半監(jiān)督的集成學(xué)習(xí)[51].兩種類型的訓(xùn)練過程如圖5所示.

        圖5 半監(jiān)督集成訓(xùn)練過程Fig.5 Semi-supervised integrated training process

        Omar等人[25]提出了一種用于網(wǎng)絡(luò)入侵檢測和預(yù)防任務(wù)的半監(jiān)督多層群集模型(Semi-supervised Multi-Layered Clustering Model,SMLC),他們建立三個不同的分類器,然后使用部分標(biāo)記的集群中的未標(biāo)記實例來細(xì)化這三個分類器,最終的結(jié)果是通過三個基分類器的所有個體決策中的多數(shù)表決產(chǎn)生的.Khonde等人[52]使用五個分類器:隨機(jī)森林,支持向量機(jī),人工神經(jīng)網(wǎng)絡(luò),決策樹和K最近鄰進(jìn)行半監(jiān)督學(xué)習(xí).所有分類器根據(jù)獲得的平均分?jǐn)?shù)縮小特征,然后比較五個分類器生成的結(jié)果,并使用加權(quán)多數(shù)投票算法確定流量數(shù)據(jù)包的類別.Gao等人[53]提出了一種基于整體學(xué)習(xí)的基于模糊性的半監(jiān)督學(xué)習(xí)方法(fuzziness-based semi-supervised learning approach via ensemble learning,FSSL-EL),首先構(gòu)建了一個由標(biāo)記數(shù)據(jù)訓(xùn)練的集成系統(tǒng),然后采用基于模糊性的方法進(jìn)行數(shù)據(jù)分析以更好地利用未標(biāo)記的數(shù)據(jù).表4列出了半監(jiān)督集成不同類型方法的對比分析,其中Tri-training可以采用3個學(xué)習(xí)器綜合預(yù)測,或者采用其中一個學(xué)習(xí)器進(jìn)行預(yù)測,但是從該方法的訓(xùn)練過程和最初的設(shè)計想法,可以認(rèn)為它是基于集成的半監(jiān)督學(xué)習(xí).

        表4 基于半監(jiān)督集成的異常流量檢測Table 4 Anomaly traffic detection based on semi-supervised integration

        4.5 基于增量半監(jiān)督的異常流量檢測

        對于當(dāng)前的計算智能技術(shù),主要挑戰(zhàn)是如何在不斷變化的環(huán)境中學(xué)習(xí)新概念.面對持續(xù)增加的網(wǎng)絡(luò)流量數(shù)據(jù),在初期獲得一個完備的流量樣本訓(xùn)練集難以實現(xiàn),這就要求半監(jiān)督分類器可以隨著新流量樣本的積累不斷提高學(xué)習(xí)精度,所以增量學(xué)習(xí)能力不可或缺.增量學(xué)習(xí)是指能夠從新的樣本中不斷地學(xué)習(xí)新的知識,并且能夠保存大部分已經(jīng)學(xué)習(xí)過的知識.增量學(xué)習(xí)算法還具備以下特點:

        1)能夠從新的數(shù)據(jù)中學(xué)習(xí)新的知識;

        2)以前處理過的數(shù)據(jù)不需要重復(fù)處理;

        3)每次只能學(xué)習(xí)一個訓(xùn)練觀察樣本;

        4)新的知識可以在學(xué)習(xí)大部分以前學(xué)過的知識的同時保存下來;

        5)學(xué)習(xí)完成后,丟棄訓(xùn)練觀察樣本;

        6)學(xué)習(xí)系統(tǒng)沒有關(guān)于整個訓(xùn)練數(shù)據(jù)集的先驗知識.

        增量半監(jiān)督有效地解決了因出現(xiàn)新樣本而造成原分類器精度降低、分類時間延長的問題.Xiang等人[54]提出了一種結(jié)合了自組織增量神經(jīng)網(wǎng)絡(luò),非線性建模和半監(jiān)督學(xué)習(xí)的算法,它能夠在新數(shù)據(jù)上更新學(xué)習(xí)的模型且該算法的空間復(fù)雜性降低到類似于監(jiān)督學(xué)習(xí)的程度.Fakhroddin等人[55]使用增量聚類提出一種新的半監(jiān)督流分類算法,可以直接支持混合數(shù)據(jù),但是其聚類結(jié)果依賴于樣本計算的順序.Zhang等人[56]提出了一種適用于訓(xùn)練解碼器和更新分類器參數(shù)的半監(jiān)督增量更新算法.該算法可提供與常規(guī)監(jiān)督訓(xùn)練方法相同的檢測性能,但是深度架構(gòu)的復(fù)雜度較高,需要使用基于GPU的計算設(shè)備,以在網(wǎng)絡(luò)流量或模型復(fù)雜度增加時加快并行計算速度.

        5 半監(jiān)督異常流量檢測趨勢與展望

        5.1 半監(jiān)督異常流量檢測存在的問題

        到目前為止,基于半監(jiān)督學(xué)習(xí)的異常流量檢測技術(shù)取得了很大的進(jìn)步,已能初步解決標(biāo)注樣本少、數(shù)據(jù)種類繁多等特點的流量檢測問題和應(yīng)用,但是依然存在以下問題:

        1)半監(jiān)督學(xué)習(xí)過程會增加模型訓(xùn)練時間,在實時的異常流量檢測中不可行;

        2)復(fù)雜的流量數(shù)據(jù)中半監(jiān)督模型的參數(shù)較多,結(jié)果不穩(wěn)定;

        3)雖然已有不平衡數(shù)據(jù)下的半監(jiān)督方法,但是鮮有應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域的異常檢測,且現(xiàn)有的成果多為解決二分類的不平衡數(shù)據(jù)集,沒有針對多分類不平衡問題的研究;

        4)混合的半監(jiān)督學(xué)習(xí)方法存在一定的缺陷,只能滿足特定的網(wǎng)絡(luò)環(huán)境,缺乏適合多環(huán)境的半監(jiān)督異常檢測技術(shù);

        5)使用半監(jiān)督方法進(jìn)行異常檢測的文獻(xiàn)即使使用同一個基準(zhǔn)數(shù)據(jù)集,也大多沒有說明標(biāo)記數(shù)據(jù)量大小或者標(biāo)記比例,甚至連訓(xùn)練和測試集大小以及評價指標(biāo)也都不一樣,不同的度量組合,使得研究結(jié)果無法相互比較;

        6)現(xiàn)有的半監(jiān)督降維算法不適用于連續(xù)變量和高維稀疏樣本.這些都制約了網(wǎng)絡(luò)流量異常檢測中半監(jiān)督技術(shù)的進(jìn)一步發(fā)展.

        5.2 半監(jiān)督異常流量檢測研究方向

        基于現(xiàn)階段網(wǎng)絡(luò)流量異常檢測中半監(jiān)督技術(shù)的研究現(xiàn)狀和上述問題,半監(jiān)督流量檢測所面臨的挑戰(zhàn)和未來研究方向主要概括為如下幾個方面:

        1)流量數(shù)據(jù)往往特征維度高,采樣方法中的歐式距離不能很好地衡量樣本的空間分布.監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的數(shù)據(jù)分布環(huán)境不同,在不平衡數(shù)據(jù)下,現(xiàn)有的半監(jiān)督方法大多是將傳統(tǒng)的解決不平衡的方法應(yīng)用于半監(jiān)督學(xué)習(xí)當(dāng)中,因此,解決不平衡問題的傳統(tǒng)方法不一定適用于半監(jiān)督學(xué)習(xí),需要進(jìn)一步研究.雖然數(shù)據(jù)不平衡的研究在網(wǎng)絡(luò)安全領(lǐng)域取得了很好的效果,然而半監(jiān)督學(xué)習(xí)中的不平衡問題相關(guān)研究非常少,應(yīng)用于異常流量檢測領(lǐng)域中的半監(jiān)督方法大多采用集成學(xué)習(xí)解決類別不平衡,未來可以在半監(jiān)督下結(jié)合數(shù)據(jù)不平衡領(lǐng)域的最新成果來解決異常流量檢測.

        2)目前很多網(wǎng)絡(luò)流量的特征選擇和提取局限于一維特征或者多維特征的簡單組合,而流量異常通常表現(xiàn)在多維特征中.如何有效地將多維特征進(jìn)行融合,多角度共同學(xué)習(xí)數(shù)據(jù)流特征,并利用少量標(biāo)記數(shù)據(jù)進(jìn)行半監(jiān)督集成算法綜合結(jié)果來減少信息損失是一個有挑戰(zhàn)的研究課題.

        3)綜合利用大量無標(biāo)記數(shù)據(jù)和少量標(biāo)記數(shù)據(jù)的半監(jiān)督降維方法是異常流量檢測領(lǐng)域中可行的降維手段,如何找出更有效的方式來應(yīng)對高維稀疏樣本和連續(xù)變量,進(jìn)一步提升檢測模型的實時性,具有十分重大的意義.

        4)主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)策略相結(jié)合的學(xué)習(xí)效果優(yōu)于單一方法的學(xué)習(xí)效果,將半監(jiān)督學(xué)習(xí)與主動學(xué)習(xí)結(jié)合,可以主動發(fā)現(xiàn)有效的監(jiān)督信息.通過有效的監(jiān)督信息可以更好地使用未標(biāo)注的樣本數(shù)據(jù),從而提高模型精度和求解速度.然而半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)相結(jié)合的研究工作還不多見,具有較大的提升空間.

        5)增量半監(jiān)督更符合實際的異常流量檢測,它在訓(xùn)練過程中充分利用了之前處理過的數(shù)據(jù)結(jié)果,應(yīng)該在網(wǎng)絡(luò)安全領(lǐng)域有更多深入的研究,未來可以考慮將自然語言技術(shù)的相關(guān)增量算法引用到具體的異常檢測中.

        6)半監(jiān)督聚類算法由傳統(tǒng)聚類算法引入監(jiān)督信息來完成半監(jiān)督學(xué)習(xí),所以還可以對密度聚類、譜聚類等聚類算法進(jìn)行半監(jiān)督的擴(kuò)展.此外,有些流量數(shù)據(jù)是高維稀疏類型的,然而現(xiàn)有大多數(shù)聚類算法不適合處理高維稀疏數(shù)據(jù),以后的研究中,有必要做進(jìn)一步討論.

        7)一般來說,通過使用未標(biāo)記數(shù)據(jù),半監(jiān)督學(xué)習(xí)可以幫助提高性能,特別是當(dāng)標(biāo)記數(shù)據(jù)的數(shù)量有限時.然而在某些情況下,選取了不可靠的未標(biāo)記數(shù)據(jù),則可能會錯誤地指導(dǎo)分類邊界的形成,最終導(dǎo)致半監(jiān)督學(xué)習(xí)性能退化.因此,如何安全地利用未標(biāo)記數(shù)據(jù),是未來的一個研究重點.

        8)可以將多種半監(jiān)督異常流量檢測方法和技術(shù)相結(jié)合,從而實現(xiàn)更高效的網(wǎng)絡(luò)流量數(shù)據(jù)檢測和獲得更準(zhǔn)確的預(yù)測結(jié)果.另外,在進(jìn)行半監(jiān)督異常流量檢測時,盡可能地減少對網(wǎng)絡(luò)的額外影響也是一個有挑戰(zhàn)的研究課題.

        6 結(jié)束語

        機(jī)器學(xué)習(xí)在異常流量檢測領(lǐng)域面臨諸多挑戰(zhàn),最大的困難是缺乏標(biāo)簽數(shù)據(jù).在實際中,只有有限數(shù)量的標(biāo)記數(shù)據(jù)可用,而大多數(shù)數(shù)據(jù)是未標(biāo)記的.除此之外,盡管有大量的正常訪問數(shù)據(jù),但異常流量樣本稀少,且攻擊形式變化多樣,對模型的學(xué)習(xí)和訓(xùn)練造成困難.半監(jiān)督學(xué)習(xí)是一種有效的解決方案,既能利用無標(biāo)記數(shù)據(jù),又能利用有標(biāo)記數(shù)據(jù),可以緩解此問題.本文總結(jié)了半監(jiān)督異常流量檢測方法近年來的研究進(jìn)展,重點討論了與半監(jiān)督結(jié)合的一些實際應(yīng)用需求、數(shù)據(jù)特點和最新成果,并對將來的一些研究工作進(jìn)行了討論.進(jìn)一步探究面向網(wǎng)絡(luò)流量的半監(jiān)督學(xué)習(xí)技術(shù),對于研究和發(fā)展異常流量檢測和網(wǎng)絡(luò)空間安全具有重要意義.

        猜你喜歡
        分類器聚類流量
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
        尋找書業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        国产精品一区二区黑丝| 免费av在线国模| 久久99亚洲综合精品首页| 国产超碰人人模人人爽人人喊| 日本午夜精品理论片A级APP发布| 韩国精品一区二区三区| 人妻少妇一区二区三区| 久久精品亚洲成在人线av| 尤物蜜桃视频一区二区三区| 久久国产精品一国产精品金尊 | 欧美日韩精品一区二区三区高清视频| 在线视频亚洲一区二区三区| 成年人观看视频在线播放| 亚洲一卡2卡3卡4卡5卡精品| 在线视频你懂的国产福利| 日本一区二区三区一级免费| 日韩中文字幕在线观看一区| 成人网站免费看黄a站视频| 最新国产三级| 国产成人自拍视频在线观看网站| 国产不卡精品一区二区三区| 天美传媒一区二区| 青草网在线观看| 国产女主播一区二区三区在线观看| 无码av天天av天天爽| 摸进她的内裤里疯狂揉她动视频| 丁香六月久久| 国产自拍伦理在线观看| 天天综合天天爱天天做| 青青草国产精品一区二区| 国产欧美日韩视频一区二区三区| 白白青青视频在线免费观看| 亚洲一区二区三区偷拍女| 边喂奶边中出的人妻| 久久综合给日咪咪精品欧一区二区三| 美女偷拍一区二区三区| 久久无码高潮喷水抽搐| 欧美性猛交xxxx黑人猛交| 人妻中文字幕不卡精品| 成人自拍小视频在线看 | 99精品视频在线观看免费 |