亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種適用于小樣本條件的網(wǎng)絡入侵檢測方法

        2023-11-14 02:52:28胡煒晨許聰源詹勇陳廣輝劉思情王志強王曉琳
        電信科學 2023年10期
        關鍵詞:集上準確率樣本

        胡煒晨,許聰源,詹勇,陳廣輝,劉思情,王志強,王曉琳

        研究與開發(fā)

        一種適用于小樣本條件的網(wǎng)絡入侵檢測方法

        胡煒晨,許聰源,詹勇,陳廣輝,劉思情,王志強,王曉琳

        (嘉興學院信息科學與工程學院,浙江 嘉興 314001)

        現(xiàn)有的網(wǎng)絡入侵檢測技術多數(shù)需要大量惡意樣本用于模型訓練,但在現(xiàn)網(wǎng)實戰(zhàn)時,往往只能獲取少量的入侵流量樣本,屬于小樣本條件。對此,提出了一種適用于小樣本條件的網(wǎng)絡入侵檢測方法。該方法由數(shù)據(jù)包采樣模塊和元學習模塊兩部分組成,數(shù)據(jù)包采樣模塊用于對網(wǎng)絡原始數(shù)據(jù)進行篩選、剪切與重組,元學習模塊則用于特征提取、結果分類。在基于真實網(wǎng)絡流量數(shù)據(jù)源構建的3個小樣本數(shù)據(jù)集上的實驗結果表明,該方法適用性好、收斂快,能有效減少異常點的出現(xiàn),在10個訓練樣本下的檢測率最高可達99.29%,準確率最高可達97.93%,相比目前已有的算法,分別提升了0.12%和0.37%。

        入侵檢測;小樣本;元學習;網(wǎng)絡安全;深度學習

        0 引言

        網(wǎng)絡入侵手段層出不窮,極大地威脅了網(wǎng)絡安全。網(wǎng)絡入侵檢測是實現(xiàn)網(wǎng)絡安全的重要內(nèi)容之一,也是保障網(wǎng)絡安全的重要手段。在當下的網(wǎng)絡環(huán)境中,網(wǎng)絡入侵檢測是頗具復雜性與挑戰(zhàn)性的工作。各種機器學習算法,特別是深度學習算法,被認為可以用于檢測大規(guī)模網(wǎng)絡流量中的入侵行為[1]。

        大部分研究人員建立的入侵檢測模型在KDD99、CICIDS2017、ISCX2012等被廣泛使用的入侵檢測數(shù)據(jù)集上都可以達到較高的檢測率?,F(xiàn)有的機器學習算法在面對大量樣本時,有非常出色的表現(xiàn),但是在實際的網(wǎng)絡環(huán)境中,并沒有這樣理想。Zhang等[2]認為基于深度學習的流量檢測方法依賴于大量的樣本數(shù)據(jù),Li等[3]認為深度網(wǎng)絡從少量數(shù)據(jù)中學習新概念的能力有限。在面對新出現(xiàn)的入侵時,能獲取的樣本數(shù)量往往非常少,無法獲取足夠多且已標記的樣本來制作數(shù)據(jù)集,使得現(xiàn)有的基于深度學習的入侵檢測算法很難發(fā)揮原有的作用。而且對每一種新的入侵手段制作相應的數(shù)據(jù)集是非常困難的,一方面是時間上的限制,制作這樣一個數(shù)據(jù)集需要大量的時間;另一方面是人力物力的限制,需要大量的資源才能制作一個數(shù)據(jù)集。因此,已廣泛使用的基于深度學習的檢測方法都難以在小樣本條件下有效解決入侵檢測技術存在的問題,而能對網(wǎng)絡安全構成威脅的往往就是這種無法獲取足夠樣本的新的入侵方式。若要維護網(wǎng)絡安全,如何實現(xiàn)小樣本條件下的網(wǎng)絡入侵的有效檢測是亟待解決的問題。

        小樣本條件下的機器學習算法在圖像分類領域已經(jīng)有了一些進展,例如,Zhang等[4]提出的不確定性感知小樣本圖像分類方法,利用數(shù)據(jù)獨立的不確定性建模,來降低噪聲對小樣本學習的不良影響;Afrasiyabi等[5]引入基于混合的特征空間學習,以在小樣本圖像分類的背景下獲得豐富而穩(wěn)健的特征表示;Kang等[6]提出的關系嵌入網(wǎng)絡結合自關聯(lián)和交叉關聯(lián)兩個關系模塊,學習端到端管理器中的關系嵌入。但是在入侵檢測領域,針對小樣本場景的研究還非常有限。因此,本文針對性地提出了一種小樣本入侵檢測方法,可以利用它來檢測只有少量樣本的入侵行為。

        本文的主要貢獻如下。

        ? 提出了一種適用于小樣本條件的網(wǎng)絡入侵檢測方法。在10個訓練樣本下的檢測率最高可達99.29%,準確率最高可達97.93%,優(yōu)于現(xiàn)有其他方法。

        ? 實驗使用ISCX2012、CICIDS2017、CICIDS2018數(shù)據(jù)集的原始流量,并提出了將原始流量轉(zhuǎn)換成小樣本數(shù)據(jù)集的方法,轉(zhuǎn)換后的數(shù)據(jù)適用于評估小樣本檢測方法。

        1 相關工作

        1.1 網(wǎng)絡入侵檢測

        近年來,網(wǎng)絡入侵檢測已經(jīng)成為網(wǎng)絡研究領域的一個熱點。傳統(tǒng)的網(wǎng)絡入侵檢測方法分為兩種:基于規(guī)則的檢測方法和基于負載特征的檢測方法。這些網(wǎng)絡入侵檢測技術存在一些問題,如缺乏靈活性、誤報或漏報率較高等。

        隨著機器學習方法的不斷進步,與之相關的方法也被引進入侵檢測領域中。例如,Aldwairi等[7]在網(wǎng)絡入侵檢測技術中結合了一種被稱為受限玻爾茲曼機的機器學習技術;Abdelmoumin等[8]提出了一種優(yōu)化技術來增強使用單學習器的基于異常的機器學習入侵檢測系統(tǒng)的性能?;跈C器學習的檢測技術的一大局限是需要設計一個能準確反映數(shù)據(jù)特征的特征集。這個特征集的質(zhì)量對整個模型的性能有著決定性的影響,但設計一個好的特征集是十分困難的。

        然而,深度學習的出現(xiàn),克服了傳統(tǒng)機器學習面臨的困難,深度學習能夠使模型自動化地學習到有效的特征。深度學習的方法自推出以來就在眾多研究領域上取得了巨大的成功。越來越多的研究人員將深度學習引入網(wǎng)絡入侵檢測技術,Haghighat等[9]提出一種新型基于投票的深度學習的框架,可以利用任何類型的深度學習結構,并且提供了聚合最佳模型的能力。Basati等[10]提出使用一種輕量級和高效的基于深度特征提取思想的神經(jīng)網(wǎng)絡,在該模型中,網(wǎng)絡的輸入向量被排列在3D空間中,其各個值彼此靠近,可以搭建更輕量化的模型結構。Soltani等[11]提出一種深度入侵檢測系統(tǒng),在該系統(tǒng)的學習和檢測階段使用了流量的元數(shù)據(jù)和純文本,使系統(tǒng)可以挖掘到在流量中被自動提取的特征之間的復雜關系。

        1.2 小樣本網(wǎng)絡入侵檢測

        當出現(xiàn)一種新的網(wǎng)絡入侵手段時,如上所述,大部分檢測模型并不能準確并且快速地識別出這些入侵。這個難題被定義為在小樣本條件下的網(wǎng)絡入侵檢測問題。

        近幾年,有學者提出一些有關小樣本學習的算法。這些小樣本學習算法著重解決深度神經(jīng)網(wǎng)絡依賴大樣本的問題,并且吸引更多的學者去研究小樣本問題。如上所述,隨著小樣本學習研究的興起,已經(jīng)有學者在網(wǎng)絡入侵檢測技術中采用小樣本學習方法。例如,Liang等[12]提出一種優(yōu)化的基于類內(nèi)/類間的變分小樣本學習模型,其中,基于變分貝葉斯來優(yōu)化類內(nèi)距離的近似值,基于特征融合的相似最大化用于優(yōu)化類間距離;Xu等[13]提出一種基于元學習框架的檢測方法,設計了一個由特征提取網(wǎng)絡和比較網(wǎng)絡組成的深度神經(jīng)網(wǎng)絡;Iliyasu等[14]提出一種利用有監(jiān)督的自動編碼器判別表示學習的方法;Yang等[15]提出一個多任務表示增強元學習模型,將監(jiān)督學習和基于聚類的無監(jiān)督學習結合,以提升來自少量標記數(shù)據(jù)的加密流量表示的差異性;Ouyang等[16]基于原型網(wǎng)絡提出了一種新的小樣本學習入侵檢測算法,通過一種協(xié)調(diào)獨熱編碼和主成分分析的新方法來預處理數(shù)據(jù)集;Yu等[17]提出一種基于分層數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡,第一層從原始流量中自動提取抽象特征,第二層從數(shù)據(jù)包進一步構建表示;Zhang等[2]通過利用協(xié)方差矩陣表征每個流量類別,并根據(jù)協(xié)方差度量函數(shù)計算查詢流量與每個類別之間的相似度來實現(xiàn)小樣本入侵檢測; Wang等[18]提出一種新的孿生網(wǎng)絡,設計的深度學習網(wǎng)絡能捕捉流量特征的動態(tài)關系;Gamal等[19]提出一種基于小樣本深度學習的入侵檢測系統(tǒng),可自動識別來自網(wǎng)絡邊緣的零日攻擊;Shi等[20]提出一種基于模型無關的元學習(model-agnostic meta-learning,MAML)的入侵檢測框架,從原始流量中提取統(tǒng)計和序列特征,并引入學習遺忘衰減機制來動態(tài)控制沖突的影響;Ye等[21]提出一種用于語義感知流量檢測的小樣本潛在狄利克雷生成學習的方法,使用基于潛在狄力克雷分配的偽樣本生成算法增強訓練數(shù)據(jù),并提出一種模糊回收方法,提高基于長短期記憶(long short-term memory,LSTM)的分類器的魯棒性;Verkerken等[22]提出一種分層入侵檢測多階段方法;Xu等[23]提出一種基于度量的一階元學習框架,通過多個任務訓練入侵檢測模型,以最大化模型的泛化能力。

        本文在上述研究的基礎上,進一步降低檢測需要的樣本數(shù)量,提出的方法使用了更少的訓練樣本。此外,為了更貼合實戰(zhàn)環(huán)境,考慮在不同網(wǎng)絡下進行實驗,即使用不同網(wǎng)絡下采集的數(shù)據(jù)集進行實驗和測試,如使用CICIDS2017數(shù)據(jù)集進行訓練,并使用ISCX2012數(shù)據(jù)集進行測試。

        2 小樣本網(wǎng)絡入侵檢測方法

        2.1 數(shù)據(jù)預處理

        大多數(shù)研究工作利用了數(shù)據(jù)集中已經(jīng)提取好特征的子集合,如CICIDS2017數(shù)據(jù)集,用CICFlowMeter軟件提取了80多個特征。但是本文直接使用數(shù)據(jù)集提供的pcap包。pcap包中包含了全部原始流量,可以使模型在訓練過程中充分地學習到更多的有效特征。

        首先,本文根據(jù)官方提供的可擴展標記語言(extensible markup language,XML)文件對pcap包中的數(shù)據(jù)打標簽。根據(jù)XML文件中所提供的數(shù)據(jù)流的源IP地址、源端口、目的IP地址和目的端口,對每條數(shù)據(jù)流打上相應的標簽。為了得到適用于小樣本網(wǎng)絡入侵檢測的數(shù)據(jù)集,構建了ISCX2012AS(after samping,數(shù)據(jù)采樣后)數(shù)據(jù)集和CICIDS2017AS數(shù)據(jù)集。ISCX2012AS數(shù)據(jù)集中包含了正常流量和4類攻擊,其中攻擊包括內(nèi)部網(wǎng)絡滲透、超文本傳送協(xié)議(hypertext transfer protocol,HTTP)拒絕服務攻擊、使用互聯(lián)網(wǎng)中繼交談(Internet relay chat,IRC)僵尸網(wǎng)絡的分布式拒絕服務(distributed denial of service,DDoS)攻擊、暴力破解安全外殼(secure shell,SSH);CICIDS2017AS數(shù)據(jù)集中包含了正常流量和5類攻擊,其中攻擊包括暴力破解文件傳送協(xié)議(file transfer protocol,F(xiàn)TP),暴力破解SSH,使用Slowloris、Slowhttptest、Hulk、GoldenEye進行的拒絕服務(denial of service,DoS)攻擊,端口掃描攻擊,使用LOIT的DDoS攻擊。

        進一步地,對上述已經(jīng)打過標簽的數(shù)據(jù)進行裁剪,對每條數(shù)據(jù)流都提取前16個數(shù)據(jù)包,每個數(shù)據(jù)包提取前256 byte,并且將提取的每條數(shù)據(jù)處理為16×16×16的數(shù)組。然后,為了得到相對平衡的數(shù)據(jù)集,將提取過的數(shù)據(jù)打亂,并且按照相同比例提取每一種類型的數(shù)據(jù)。

        然后,使用歸一化方法將偏差過大的數(shù)值變換到0-1分布內(nèi),轉(zhuǎn)化后的數(shù)據(jù)集按照8:2的比例隨機切割為訓練集和測試集,再從訓練集中取20%作為查詢集,剩余的作為支持集。

        最后,為了更好地處理網(wǎng)絡入侵檢測中樣本數(shù)量少的問題,引入了元學習任務的概念,將類型隨機組合形成多個小任務,從而充分利用已有樣本的信息,在隨機過程中選取任意一天中的正常和入侵數(shù)據(jù)作為測試集,其余數(shù)據(jù)均作為訓練集,任務分類如圖2所示。

        圖2 任務分類

        2.2 元學習算法

        算法1 訓練算法

        隨機初始化θ

        for all epoch do

        for1 to update do

        計算梯度下降的自適應參數(shù):

        end

        end

        end

        模型的訓練過程如式2所示。

        面對新的任務,在元模型的基礎上,測試模型的過程與訓練的過程大致相同,不同的地方主要在于以下兩點。

        3 實驗與分析

        3.1 數(shù)據(jù)集

        本文使用兩個公開數(shù)據(jù)集作為流量數(shù)據(jù)的來源,分別是CICIDS2017[24]與ISCX2012[25]。CICIDS2017數(shù)據(jù)集由加拿大網(wǎng)絡安全研究所(Canadian Institute for Cybersecurity,CIC)于2017年7月3日至7日采集,包含5天的數(shù)據(jù)流量,總共2 830 473個網(wǎng)絡流量,除了正常的流量,還包含入侵的流量。網(wǎng)絡數(shù)據(jù)的格式由原始網(wǎng)絡數(shù)據(jù)包(pcap包)和CICFlowMeter提取的數(shù)值統(tǒng)計特征組成,更加類似于真實流量。ISCX2012數(shù)據(jù)集由新不倫瑞克大學AliShiravi等人在2012年創(chuàng)建,旨在為網(wǎng)絡入侵檢測構建當代基準。該數(shù)據(jù)集通過監(jiān)測7天網(wǎng)絡活動得來,由正常流量和惡意流量組成。該數(shù)據(jù)集能反映現(xiàn)實的網(wǎng)絡和流量,并且具備多樣化的入侵場景。生成該數(shù)據(jù)集的方法通過完全捕獲網(wǎng)絡跟蹤,使得數(shù)據(jù)集的自然性得以保留。

        目前,還缺乏小樣本的基準數(shù)據(jù)集,所以利用這兩個數(shù)據(jù)集的原始數(shù)據(jù),通過本文方法中的數(shù)據(jù)采樣,制作了ISCX2012AS和CICIDS2017AS兩個小樣本數(shù)據(jù)集。為了區(qū)分兩個數(shù)據(jù)集,用小寫字母(a、b、c等)表示來自ISCX2012的數(shù)據(jù),用大寫字母(A、B、C等)表示來自CICIDS2017的數(shù)據(jù),ISCX2012AS和CICIDS2017AS數(shù)據(jù)集中包含的攻擊類型分別見表1和表2。

        表1 ISCX2012AS數(shù)據(jù)集中包含的攻擊類型

        表2 CICIDS2017AS數(shù)據(jù)集中包含的攻擊類型

        3.2 實驗設置

        本文實驗中用到的軟/硬件環(huán)境如下:CPU為Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60 GHz,內(nèi)存為128 GHz,操作系統(tǒng)為Ubuntu 20.04,GPU為NVIDIA RTX3090,顯存為24 GB。采用CUDA 11.3作為GPU加速庫,使用了Python 3.8和深度學習框架PyTorch 1.1.0。

        在本文方法中,構造模塊作為特征提取器與分類器。其中,特征提取器用于處理16通道16×16的數(shù)據(jù)。模塊的結構如圖3所示。特征提取器的輸出為64×1×1,其中還使用批標準化(batch normalization,BN)約束數(shù)據(jù)正態(tài)化讓數(shù)據(jù)分布更集中,最后使用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù)。

        圖3 模塊N的結構

        其中,卷積層的參數(shù)分別是輸入通道數(shù)、輸出通道數(shù)、卷積核的尺寸、步長與填充,最大池化層的參數(shù)分別是窗口大小和步幅,全連接層的參數(shù)分別是輸入的樣本大小、輸出的樣本大小。

        算法的超參數(shù)設置見表3。

        根據(jù)訓練集與測試集的數(shù)據(jù)來源,設計了如下兩類實驗,實驗Ⅰ為同網(wǎng)實驗,表示在同種網(wǎng)絡情況下,各種攻擊類型和樣本數(shù)量在兩種數(shù)據(jù)集上的檢測情況。而在真實場景中,所獲取的數(shù)據(jù)往往來自不同的網(wǎng)絡,即存在跨網(wǎng)情況,因此設計實驗Ⅱ為跨網(wǎng)實驗,通過改變訓練集與測試集的網(wǎng)絡來源,模擬真實場景下的小樣本條件。具體實驗如下。

        表3 算法的超參數(shù)設置

        實驗Ⅰ:在兩個數(shù)據(jù)集上分別進行實驗,保證在實驗Ⅰ中的訓練集與測試集均來自同一個數(shù)據(jù)集,即用同一個網(wǎng)絡環(huán)境中的數(shù)據(jù)檢測相同網(wǎng)絡環(huán)境情況下的攻擊類型。ISCX2012AS包含4種攻擊類型。使用其中3種作為訓練集的數(shù)據(jù),另一種攻擊類型作為測試集的數(shù)據(jù)。構建足夠數(shù)量的訓練和測試任務進行實驗。相應地,CICIDS2017AS數(shù)據(jù)集包含5種攻擊類型。將其中4種作為本方法訓練集的數(shù)據(jù),剩下1種作為測試集的數(shù)據(jù)。分別提供4組和5組的平行實驗,對所求得的數(shù)據(jù)取均值作為評判性能的標準。由于每個實驗是相互獨立的,所以可以在多臺計算機上同時進行實驗。

        為了系統(tǒng)性探究小樣本問題,考慮了典型的樣本數(shù)量,設置了=5、10,此外,為了進一步探究極小樣本的情況,還設置了=3進行研究,分別在ISCX2012AS和CICIDS2017AS這兩個數(shù)據(jù)集上進行實驗。

        實驗Ⅱ:僅將ISCX2012AS或CICIDS2017AS中的一個作為訓練集,另一個數(shù)據(jù)集作為測試集,保證訓練集與測試集中的數(shù)據(jù)來自不同的網(wǎng)絡,用訓練集與測試集的來源不同來表示跨網(wǎng),其余參數(shù)與實驗Ⅰ中保持一致,最后與實驗Ⅰ中的結果進行比較。

        綜上所述,面對來自不同網(wǎng)絡的數(shù)據(jù)、不同的軟/硬件環(huán)境、不同的攻擊類型,實驗Ⅱ更具有挑戰(zhàn)性和實用性。

        3.3 檢測結果

        實驗Ⅰ:在ISCX2012AS、CICIDS2017AS數(shù)據(jù)集上的結果分別見表4和表5,將準確率(ACC)與檢測率(DR)作為衡量標準。可以看出,與傳統(tǒng)的監(jiān)督學習算法需要大量樣本進行訓練不同,本文方法在面對不同攻擊類型時均有不錯的表現(xiàn)力,并且在=10的情況下,兩種數(shù)據(jù)集上的平均檢測率能分別達到97.70%、98.13%。這說明了使用本文方法實現(xiàn)小樣本網(wǎng)絡入侵檢測的可行性。

        與此同時,可以得出以下兩個結論。

        (1)不同數(shù)據(jù)集的選擇會對實驗結果產(chǎn)生一定的影響。對于同一個數(shù)據(jù)集內(nèi)部不同攻擊類型的選取,筆者發(fā)現(xiàn)在ISCX2012AS中攻擊-b作為測試集的效果較差,在CICIDS2017AS中攻擊-C作為測試集的效果較差。對于不同數(shù)據(jù)集的選取,筆者發(fā)現(xiàn)當樣本數(shù)量為3或5時,在ISXC2012AS數(shù)據(jù)集上的表現(xiàn)均比CICIDS2017AS的表現(xiàn)好。隨著樣本數(shù)量的增加,當樣本數(shù)量為10時,CICIDS2017AS數(shù)據(jù)集上的平均檢測率反而優(yōu)于ISXC2012AS。

        (2)本文方法僅需少量樣本就能達到較高的檢測水準。對于這兩種數(shù)據(jù)集來說,若值不斷增加,ACC會不斷提高。對于ISCX2012AS、CICIDS2017AS來說,在=3時平均準確率就分別達到了94.55%和93.38%,平均檢測率分別達到了95.17%和94.86%;當=10時,ISCX2012AS數(shù)據(jù)集上的平均準確率可達98.53%,CICIDS2017AS數(shù)據(jù)集上的平均檢測率達98.13%。

        實驗Ⅱ:通過改變數(shù)據(jù)集的類別,設置了跨網(wǎng)實驗:在ISCX2012AS上進行訓練,在CICIDS2017AS上進行測試,在ISCX2012AS上的跨網(wǎng)檢測結果見表6。在CICIDS2017AS上進行訓練,在ISXC2012AS上進行測試,在CICIDS2017AS的跨網(wǎng)檢測結果見表7。

        表4 在ISCX2012AS數(shù)據(jù)集上的檢測結果

        表5 在CICIDS2017AS數(shù)據(jù)集上的檢測結果

        表6 在ISCX2012AS上的跨網(wǎng)檢測結果

        表7 在CICIDS2017AS上的跨網(wǎng)檢測結果

        為了更好地反映跨網(wǎng)實驗的表現(xiàn)情況,將其與同網(wǎng)實驗進行了對比,并設計了如下兩類對比實驗。

        第一類對比實驗:同網(wǎng)實驗與跨網(wǎng)實驗在不同數(shù)據(jù)集上的實驗結果如圖4所示。圖4(a)中同網(wǎng)ISCX2012AS表示僅使用同一個網(wǎng)絡下的數(shù)據(jù)進行訓練和測試,即僅使用ISCX2012AS數(shù)據(jù)集作為訓練和測試數(shù)據(jù);跨網(wǎng)CICIDS2017→ ISCX2012AS則表示使用CICIDS2017AS的數(shù)據(jù)進行訓練,用于檢測ISCX2012AS的數(shù)據(jù),圖4(b)與之類似。通過改變的取值來反映樣本數(shù)量對準確率及檢測率的影響。

        圖4 同網(wǎng)實驗與跨網(wǎng)實驗在不同數(shù)據(jù)集上的實驗結果

        第二類對比實驗:同網(wǎng)實驗與跨網(wǎng)實驗結果的分布如圖5所示。

        圖5 同網(wǎng)實驗與跨網(wǎng)實驗結果的分布

        通過表6和表7、圖4和圖5,可以得出以下兩個結論。

        (1)本文方法具有較好的跨網(wǎng)適應能力。即使當=3時,在兩種數(shù)據(jù)集上的平均檢測率仍能夠達到90.51%、93.60%,并且與同網(wǎng)實驗一樣,隨著樣本數(shù)量的增加,ACC和DR也在逐步上升。當=10時,在跨網(wǎng)實驗下的檢測結果與同網(wǎng)實驗下的檢測結果基本持平,最大波動幅度不超過1.15%,這也說明跨不同數(shù)據(jù)集的訓練和測試是可行的,從廣義上來講,它們都屬于同一類型的計算機網(wǎng)絡,其流量具有一定的共性。

        (2)跨網(wǎng)實驗在樣本數(shù)量過少(如=3)時波動大,但隨著樣本數(shù)量的增加,跨網(wǎng)實驗能有效減少異常點的出現(xiàn)。在圖5(a)中無論的取值是多少,均有異常點,說明同網(wǎng)實驗在預測某些攻擊類型時較為欠缺,在預測這些攻擊類型時準確率和檢測率會大幅降低。而在圖5(b)中,異常點的數(shù)量明顯少于圖5(a),當=10時,異常點已經(jīng)消失,說明跨網(wǎng)實驗能有效減少異常點的出現(xiàn),有效解決誤報率過高的問題。

        4 比較和討論

        4.1 與同類工作的對比

        小樣本網(wǎng)絡入侵檢測是一個比較新的研究領域。據(jù)筆者所知,已有的可供比較的相關工作還不多,可使用的數(shù)據(jù)集也比較少,因此本文構建了可用的數(shù)據(jù)集。由于小樣本網(wǎng)絡入侵檢測不同于傳統(tǒng)的入侵檢測,本文基于真實的網(wǎng)絡流量(ISCX2012數(shù)據(jù)集和CICIDS2017數(shù)據(jù)集)構建數(shù)據(jù)集。具體來說,利用兩個公開的網(wǎng)絡流量數(shù)據(jù)源構建小樣本檢測數(shù)據(jù)集并對所提方法進行評估。本文構建的小樣本數(shù)據(jù)集ISCX2012AS與原始ISCX2012數(shù)據(jù)集共享相同的原始網(wǎng)絡流量(CICIDS2017AS和CICIDS2017同理)。因此,本文對最近使用ISCX2012或CICIDS2017數(shù)據(jù)集的幾項研究進行了概述,需要說明的是,基于元學習的連續(xù)小樣本入侵檢測方法[23]使用額外的數(shù)據(jù)集NDSec-1對CICIDS2017的攻擊類型進行了補充。此外,一種新型的多階段層次入侵檢測方法[22]研究的是零日樣本的情況,零日樣本指的是尚未被公開披露或廣泛知曉的安全漏洞或攻擊技術,它們在被發(fā)現(xiàn)和利用之前很少被研究人員和安全專家接觸到,零日樣本通常被認為是小樣本,本文選擇與之進行對比。

        本文方法和相關研究工作中的檢測結果和樣本數(shù)量對比見表8,本文方法在ISCX2012AS數(shù)據(jù)集上的檢測率最高可達99.29%,在CICIDS2017AS數(shù)據(jù)集上的準確率最高可達97.93%,相比目前已有的FC-Net(在CICIDS2017FS數(shù)據(jù)集上的檢測率為99.17%)和基于元學習的連續(xù)小樣本入侵檢測方法(準確率為97.56%)分別提高了0.12%和0.37%,優(yōu)于表8中的其他方法。

        4.2 訓練輪次和更新次數(shù)對實驗的影響

        為了進一步探究本文方法的性能,對輪次(epoch)和更新次數(shù)(update)這兩個超參數(shù)做進一步分析。設計如下實驗,設置更新次數(shù)為0~5,把更新0次作為不使用本文方法的對比實驗,并設置輪次為0~20。

        輪次和更新次數(shù)對檢測結果的影響如圖6所示,對于更新次數(shù)來說,當更新0次時,準確率保持在50%附近,符合普通二分類的特性;當更新次數(shù)變成1、2、3時,準確率顯著上升;當更新次數(shù)變成4、5時,準確率與更新3次基本保持一致,為了符合網(wǎng)絡入侵檢測的時效性,本文認為經(jīng)歷了3次更新后模型已經(jīng)達到擬合狀態(tài),雖然繼續(xù)更新能使模型的準確率小幅上升,但增幅甚小,因此在本次實驗中選取更新3次。此外,當更新次數(shù)為3時,迭代次數(shù)在0~2個輪次時,準確率大幅上升,在2~10個輪次時處于輕微波動,經(jīng)過10個輪次之后基本平穩(wěn)。

        圖6 輪次和更新次數(shù)對檢測結果的影響

        表8 本文方法和相關研究工作的檢測結果和樣本數(shù)量對比

        4.3 誤報率、漏報率指標分析

        在實際應用時,小樣本條件下的入侵檢測除了考慮其實用性和準確率,還需要關注漏報率、誤報率和樣本數(shù)量對檢測效果的影響。本文通過如下實驗來分析上述指標。

        首先,選擇不同網(wǎng)絡環(huán)境下的同網(wǎng)和跨網(wǎng)的實驗結果,涵蓋了不同網(wǎng)絡環(huán)境和攻擊類型的情況。其次,表8中的其他算法所提供的數(shù)據(jù)均來自單一網(wǎng)絡環(huán)境下的檢測結果,為了滿足魯棒性和泛化性,對不同網(wǎng)絡環(huán)境下的實驗結果求均值來模擬在真實的網(wǎng)絡環(huán)境中的復雜情況,減少對特定網(wǎng)絡環(huán)境的依賴,這樣的評估方法更具有實際應用的價值,并能夠更好地反映算法的整體性能。然后,將滑動窗口設置為5來計算窗口內(nèi)數(shù)據(jù)的均值,以此降低噪聲的影響,得到準確的變化趨勢。

        各指標隨著樣本數(shù)量的變化趨勢如圖7所示,樣本數(shù)量為5時漏報率和誤報率均低于5%,樣本數(shù)量為10時均低于3%,樣本數(shù)量為15時均低于2%。樣本數(shù)量為1~5時,準確率、檢測率、精確率有明顯的上升趨勢;樣本數(shù)量為5~10時,雖然上升趨勢依然存在,但增長速度開始減慢;樣本數(shù)量為10~15時,上升趨勢較為緩慢。

        圖7 各指標隨著樣本數(shù)量的變化趨勢

        通過對圖7的分析,可以得到以下兩個結論。

        (1)本文提出的檢測方法在樣本數(shù)量為10時,漏報率和誤報率均低于3%,其中漏報率為2.28%,已經(jīng)可以達到實用要求。這說明即使面臨樣本數(shù)量有限的挑戰(zhàn),本文提出的檢測方法仍然能夠提供較高的準確性和可靠性。

        (2)本文提出的檢測方法在樣本數(shù)量為15時的效果已達到最佳。樣本數(shù)量為15時,誤報率、漏報率均小于2%,其中檢測率為98.33%。而且隨著樣本數(shù)量的增加,準確率、檢測率、精確率對應的曲線上升緩慢,已經(jīng)到達了飽和狀態(tài)。該樣本數(shù)量遠小于非小樣本條件下的一般網(wǎng)絡入侵檢測方法,進一步論證了本文工作的主要意義。

        4.4 面對新型攻擊類型

        對于網(wǎng)絡入侵檢測領域而言,ISCX2012和CICIDS2017數(shù)據(jù)集是經(jīng)典且有代表性的數(shù)據(jù)集。它們被廣泛應用于研究和評估入侵檢測算法的性能。然而,由于網(wǎng)絡環(huán)境的不斷演變和新型攻擊的不斷出現(xiàn),這些經(jīng)典數(shù)據(jù)集在涵蓋新型攻擊方面存在一定的局限性。為了擴展實驗研究的范圍并更好地應對新型攻擊,本文額外引入了CICIDS2018數(shù)據(jù)集,增加了新型的DoS攻擊、DDoS攻擊、僵尸網(wǎng)絡、暴力破解等。

        根據(jù)第4.3節(jié)的實驗結果,為滿足高檢測率、小樣本的條件限制,選擇5~10作為本次實驗的樣本數(shù)量范圍。此外,控制單一變量,僅數(shù)據(jù)集不同,其余參數(shù)保持一致,包含新型攻擊類型的檢測結果如圖8所示。

        圖8 包含新型攻擊類型的檢測結果

        通過圖8可以發(fā)現(xiàn),CICIDS2018在樣本數(shù)量為10時的各項指標均達到了97%,與ISCX2012的檢測結果差值不超過1%。并且準確率、精確率、特異度均高于CICIDS2017。這說明了本文方法在面臨新型的網(wǎng)絡環(huán)境及數(shù)據(jù)集的情況下依然有較高的可靠性和準確性,即使是在樣本數(shù)量不充足的情況下,各指標也能達到97%,因此本文方法不依賴于特定的網(wǎng)絡環(huán)境和樣本數(shù)量。

        此外,新型攻擊層出不窮,面對新型攻擊類型,一種最優(yōu)的評估方法應當引入最新采集的真實網(wǎng)絡流量數(shù)據(jù)。限于研究條件,本文提出的檢測方法還有待進一步在正式網(wǎng)絡流量數(shù)據(jù)上進行驗證。

        4.5 局限性

        首先,本文中的數(shù)據(jù)類型的種類過少,導致本文方法目前只適用于二分類問題,即只能檢測出正常數(shù)據(jù)或入侵數(shù)據(jù),而不能分析出具體是哪一種入侵。其次,本文在框架設計上,使用了基于元學習的算法,因此在任務的選取上必須具有一定的關聯(lián)性,如果出現(xiàn)類型差別過大的入侵數(shù)據(jù),則會導致算法的準確率大幅降低。為了解決這些問題,未來的研究可以考慮使用數(shù)據(jù)類別增強算法增加樣本類型數(shù)量,以使本文方法能處理多類型任務。同時,考慮采用更優(yōu)秀的框架設計,以有效處理關聯(lián)性較弱的任務。這些改進將是未來研究的重點。

        5 結束語

        針對小樣本條件下的網(wǎng)絡入侵檢測準確率低的問題,采用元學習的思想設計了多重循環(huán)的算法結構,提出了一種適用于小樣本條件的網(wǎng)絡入侵檢測方法,大幅減少了訓練時間,達到了較高的檢測率。針對小樣本條件下入侵檢測數(shù)據(jù)集缺乏的問題,本文使用公開數(shù)據(jù)集的pcap包構建了ISCX2012AS與CICIDS2017AS兩個數(shù)據(jù)集,該處理方法可使模型學習到更多有效特征。為了驗證本文方法的有效性,本文做了大量的實驗,并與多個同類工作進行比較。實驗結果表明,面對ISCX2012與CICIDS2017數(shù)據(jù)集,本文方法在更加嚴格的小樣本條件下仍然具有更優(yōu)的性能,在10個訓練樣本下的檢測率最高可達99.29%,準確率最高可達97.93%,相比目前已有算法分別提升了0.12%和0.37%。此外,還引入CICIDS2018的數(shù)據(jù)集來更好地應對新型攻擊,實驗結果表明,在10個訓練樣本的條件下,本文方法的檢測率已經(jīng)超過了97%,并且準確率、精確率、特異度指標均高于在CICIDS2017數(shù)據(jù)集上的檢測結果。在后續(xù)研究中,將對本文方法進行優(yōu)化,以提高其在單樣本條件及任務關聯(lián)性不強的環(huán)境中的準確率。

        [1] LEE S W, SIDQI H M, MOHAMMADI M, et al. Towards secure intrusion detection systems using deep learning techniques: comprehensive analysis and review[J]. Journal of Network and Computer Applications, 2021(187): 103111.

        [2] ZHANG Y, LI G Q, DUAN Q Q, et al. An interpretable intrusion detection method based on few-shot learning in cloud-ground interconnection[J]. Physical Communication, 2022(55): 101931.

        [3] LI W H, LIU X L, BILEN H. Cross-domain few-shot learning with task-specific adapters[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2022: 7151-7160.

        [4] ZHANG Z Z, LAN C L, ZENG W J, et al. Uncertainty-aware few-shot image classification[C]//Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2021: 3420-3426.

        [5] AFRASIYABI A, LALONDE J F, GAGNé C. Mixture-based feature space learning for few-shot image classification[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2022: 9021-9031.

        [6] KANG D, KWON H, MIN J H, et al. Relational embedding for few-shot classification[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2022: 8802-8813.

        [7] ALDWAIRI T, PERERA D, NOVOTNY M. An evaluation of the performance of restricted Boltzmann machines as a model for anomaly network intrusion detection[J]. Computer Networks, 2018(144): 111-119.

        [8] ABDELMOUMIN G, RAWAT D B, RAHMAN A. On the performance of machine learning models for anomaly-based intelligent intrusion detection systems for the Internet of things[J]. IEEE Internet of Things Journal, 2022, 9(6): 4280-4290.

        [9] HAGHIGHAT M H, LI J. Intrusion detection system using voting-based neural network[J]. Tsinghua Science and Technology, 2021, 26(4): 484-495.

        [10] BASATI A, FAGHIH M M. DFE: efficient IoT network intrusion detection using deep feature extraction[J]. Neural Computing and Applications, 2022, 34(18): 15175-15195.

        [11] SOLTANI M, SIAVOSHANI M J, JAHANGIR A H. A content-based deep intrusion detection system[J].International Journal of Information Security, 2022, 21(3): 547-562.

        [12] LIANG W, HU Y Y, ZHOU X K, et al. Variational few-shot learning for microservice-oriented intrusion detection in distributed industrial IoT[J]. IEEE Transactions on Industrial Informatics, 2021, 18(8): 5087-5095.

        [13] XU C Y, SHEN J Z, DU X. A method of few-shot network intrusion detection based on meta-learning framework[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3540-3552.

        [14] ILIYASU A S, ABDURRAHMAN U A, ZHENG L R. Few-shot network intrusion detection using discriminative representation learning with supervised autoencoder[J]. Applied Sciences, 2022, 12(5): 2351.

        [15] YANG J C, LI H W, SHAO S, et al. FS-IDS: a framework for intrusion detection based on few-shot learning[J]. Computers & Security, 2022, 122: 102899.

        [16] OUYANG Y K, LI B B, KONG Q L, et al. FS-IDS: a novel few-shot learning based intrusion detection system for SCADA networks[C]//Proceedings of ICC 2021 - IEEE International Conference on Communications. Piscataway: IEEE Press, 2021: 1-6.

        [17] YU L, DONG J T, CHEN L H, et al. PBCNN: packet bytes-based convolutional neural network for network intrusion detection[J]. Computer Networks, 2021(194): 108117.

        [18] WANG Z M, TIAN J Y, QIN J, et al. A few-shot learning-based Siamese capsule network for intrusion detection with imbalanced training data[J]. Computational Intelligence and Neuroscience, 2021: 1-17.

        [19] GAMAL M, ABBAS H M, MOUSTAFA N, et al. Few-shot learning for discovering anomalous behaviors in edge networks[J]. Computers, Materials & Continua, 2021, 69(2): 1823-1837.

        [20] SHI Z X, XING M Y, ZHANG J, et al. Few-shot network intrusion detection based on model-agnostic meta-learning with L2F method[C]//Proceedings of 2023 IEEE Wireless Communications and Networking Conference (WCNC). Piscataway: IEEE Press, 2023: 1-6.

        [21] YE T P, LI G L, AHMAD I, et al. FLAG: few-shot latent Dirichlet generative learning for semantic-aware traffic detection[J]. IEEE Transactions on Network and Service Management, 2022, 19(1): 73-88.

        [22] VERKERKEN M, D’HOOGE L, SUDYANA D, et al. A novel multi-stage approach for hierarchical intrusion detection[J]. IEEE Transactions on Network and Service Management, 2023, PP(99): 1.

        [23] XU H, WANG Y J. A continual few-shot learning method via meta-learning for intrusion detection[C]//Proceedings of 2022 IEEE 4th International Conference on Civil Aviation Safety and Information Technology (ICCASIT). Piscataway: IEEE Press, 2022: 1188-1194.

        [24] SHARAFALDIN I, HABIBI LASHKARI A, GHORBANI A A. Toward generating a new intrusion detection dataset and intrusion traffic characterization[C]//Proceedings of the 4th International Conference on Information Systems Security and Privacy. San Francisco: Science and Technology Publications, 2018: 108-116.

        [25] SHIRAVI A, SHIRAVI H, TAVALLAEE M, et al. Toward developing a systematic approach to generate benchmark datasets for intrusion detection[J]. Computers & Security, 2012, 31(3): 357-374.

        [26] MA W G, ZHANG Y D, GUO J, et al. Few-shot abnormal network traffic detection based on multi-scale deep-CapsNet and adversarial reconstruction[J].International Journal of Computational Intelligence Systems, 2021, 14(1): 1-25.

        A network intrusion detection method designed for few-shot scenarios

        HU Weichen, XU Congyuan, ZHAN Yong, CHEN Guanghui, LIU Siqing, WANG Zhiqiang, WANG Xiaolin

        College of Information Science and Engineering, Jiaxing University, Jiaxing 314001, China

        Existing intrusion detection techniques often require numerous malicious samples for model training. However, in real-world scenarios, only a small number of intrusion traffic samples can be obtained, which belong to few-shot scenarios. To address this challenge, a network intrusion detection method designed for few-shot scenarios was proposed. The method comprised two main parts: a packet sampling module and a meta-learning module. The packet sampling module was used for filtering, segmenting, and recombining raw network data, while the meta-learning module was used for feature extraction and result classification. Experimental results based on three few-shot datasets constructed from real network traffic data sources show that the method exhibits good applicability and fast convergence and effectively reduces the occurrence of outliers. In the case of 10 training samples, the maximum achievable detection rate is 99.29%, while the accuracy rate can reach a maximum of 97.93%. These findings demonstrate a noticeable improvement of 0.12% and 0.37% respectively, in comparison to existing algorithms.

        intrusion detection, few-shot, meta-learning, network security, deep learning

        The Natural Science Foundation of Zhejiang Province (No.LQ23F020006, No.LQ22F020004)

        TP393

        A

        10.11959/j.issn.1000?0801.2023166

        2023?04?11;

        2023?08?21

        許聰源,cyxu@zjxu.edu.cn

        浙江省自然科學基金資助項目(No.LQ23F020006,No.LQ22F020004)

        胡煒晨(2000? ),男,嘉興學院信息科學與工程學院在讀,主要研究方向為網(wǎng)絡安全和機器學習。

        許聰源(1990? ),男,博士,嘉興學院信息科學與工程學院講師,主要研究方向為網(wǎng)絡空間安全和智能信息處理。

        詹勇(2002? ),男,嘉興學院信息科學與工程學院在讀,主要研究方向為信息安全和深度學習。

        陳廣輝(2002? ),男,嘉興學院信息科學與工程學院在讀,主要研究方向為人工智能和信息安全。

        劉思情(2002? ),男,嘉興學院信息科學與工程學院在讀,主要研究方向為人工智能和漏洞檢測。

        王志強(2003? ),男,嘉興學院信息科學與工程學院在讀,主要研究方向為網(wǎng)絡安全與人工智能。

        王曉琳(1989? ),女,博士,嘉興學院信息科學與工程學院講師,主要研究方向為智能回歸測試和深度學習。

        猜你喜歡
        集上準確率樣本
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        用樣本估計總體復習點撥
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        推動醫(yī)改的“直銷樣本”
        高速公路車牌識別標識站準確率驗證法
        復扇形指標集上的分布混沌
        隨機微分方程的樣本Lyapunov二次型估計
        欧美激情国产一区在线不卡| 丰满人妻一区二区乱码中文电影网| 日本第一区二区三区视频| 五月婷婷开心五月播五月| 天天躁日日躁狠狠躁av麻豆| 国产精品无码成人午夜电影| 亚洲电影一区二区三区| 人妻免费黄色片手机版| 精品国产精品久久一区免费式| 美女把尿囗扒开让男人添| 久久久男人天堂| 日韩精品中文字幕人妻中出| 日本亚洲视频一区二区三区| 亚洲av永久无码精品网址| 无码人妻一区二区三区在线视频 | 免费av一区二区三区无码 | 久久精品国产丝袜| 亚洲一区二区三区美女av| 午夜被窝精品国产亚洲av香蕉| 无码免费一区二区三区| jlzzjlzz全部女高潮| 国产精品一区又黄又粗又猛又爽| 久久精品网站免费观看| 国产av一区二区精品久久凹凸| 国产成年无码aⅴ片在线观看| 国产午夜精品视频观看| 成人乱码一区二区三区av| 在线精品免费观看| 亚洲国产精品色一区二区| 天天干天天日夜夜操| 国产超碰人人做人人爱ⅴa| 亚洲国产成人Av毛片大全| 美女脱了内裤洗澡视频| 午夜福利av无码一区二区| 国产成人一区二区三中文| 精品黄色一区二区三区| 日本精品久久久久中文字幕| 激情亚洲一区国产精品| 日韩精品中文字幕综合| 91精品国产92久久久| 精品人妻少妇一区二区三区不卡|