王玉芳,楊懷洲
(1.西安石油大學 計算機學院 ,陜西 西安 710065;2.陜西國際商貿(mào)學院 信息工程學院,陜西 西安 712046)
隨著網(wǎng)絡技術(shù)的快速發(fā)展,網(wǎng)絡空間已成為陸、海、空、天、電磁五維空間之外的第六維空間[1],習近平總書記多次在會議中強調(diào),沒有網(wǎng)絡安全就沒有國家安全。網(wǎng)絡空間保障著國家關(guān)鍵基礎設施的正常運行,蘊藏著新質(zhì)國防力,催生出新的文化力,承載著先進的生產(chǎn)力[2],因此,網(wǎng)絡空間安全已經(jīng)成為社會穩(wěn)步持續(xù)發(fā)展的重要保證。然而,近年來網(wǎng)絡中的攻擊事件越發(fā)頻繁,攻擊類型也越來越復雜多樣,攻擊規(guī)模也越發(fā)龐大。我國工業(yè)和信息化部2023年9月11日—17日的“網(wǎng)絡安全信息與動態(tài)周報”中指出,在短短一周內(nèi),國家互聯(lián)網(wǎng)應急中心(CNCERT)協(xié)調(diào)云服務商、域名注冊服務機構(gòu)、應用商店、各省分中心以及國際合作組織共處理網(wǎng)絡安全事件478起,含跨境網(wǎng)絡安全事255起。其中,協(xié)調(diào)境內(nèi)外域名注冊機構(gòu)、境外應急中心等機構(gòu)重點處理364起仿冒投訴事件,可見攻擊事件層出不窮[3],嚴重影響著經(jīng)濟發(fā)展、社會穩(wěn)定和國家安全。因此,如何實時準確地檢測出網(wǎng)絡中的惡意行為,有效防護網(wǎng)絡安全,已成為當前急需解決的問題。
隨著人工智能技術(shù)飛速發(fā)展,人工智能技術(shù)在各個領域有著廣泛的應用,已有一些研究將深度學習應用在入侵檢測領域,在一定程度上提高了檢測效率。例如,郭志民等[4]提出了基于Transformer神經(jīng)網(wǎng)絡模型的網(wǎng)絡入侵檢測方法,通過提取網(wǎng)絡入侵行為的時序特征,設計基于降維特征的多頭自注意力機制Transformer網(wǎng)絡模型,以解決傳統(tǒng)串行化時序神經(jīng)網(wǎng)絡模型不易收斂且時間開銷較大的問題,通過選取最優(yōu)的損失函數(shù)和訓練參數(shù)進行并行化訓練,實現(xiàn)網(wǎng)絡入侵行為檢測。該模型的網(wǎng)絡入侵檢測方法在多個數(shù)據(jù)集上均獲得了99%以上的精度和檢出率。
但是,由于檢測數(shù)據(jù)集、各類深度學習的模型和方法的特點和局限,目前的各類基于深度學習的入侵檢測還存在一些局限性有待進一步提升。
入侵檢測是一種用于檢測計算機網(wǎng)絡系統(tǒng)中入侵行為的信息安全技術(shù),主要通過收集并分析計算機系統(tǒng)或者計算機網(wǎng)絡中的一些關(guān)鍵點的信息,從中發(fā)現(xiàn)系統(tǒng)或者網(wǎng)絡中違反安全策略的行為[5]。
入侵檢測流程如圖1所示,一般由數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)分析和結(jié)果響應4步完成。首先,通過網(wǎng)絡數(shù)據(jù)收集器收集網(wǎng)絡或者主機上的原始數(shù)據(jù);其次,通過網(wǎng)絡數(shù)據(jù)預處理對數(shù)據(jù)進行編碼、降維和去噪等操作,得到分析模型可處理的數(shù)據(jù)類型;再次,通過網(wǎng)絡數(shù)據(jù)分析模型進行分析,判定檢測結(jié)果,將結(jié)果顯示給安全管理員;最后,管理員根據(jù)結(jié)果和經(jīng)驗分析綜合判定后做出響應。
圖1 入侵檢測流程
傳統(tǒng)的網(wǎng)絡異常檢測方法多采用手工操作和基于規(guī)則的方法,高度依賴于領域知識與先驗知識,并且只能檢測已知且明顯的攻擊類型,對于未知攻擊行為的檢測效果較差。面對海量復雜的待分析數(shù)據(jù),越來越多的入侵檢測技術(shù)和深度學習結(jié)合以提高檢測效率。
傳統(tǒng)的機器學習方法特征提取是采用人工選取的方式,對專業(yè)知識領域依賴度比較高,在面對海量數(shù)據(jù)檢測時,性能和效率方面都存在一定的局限性。深度學習靠其自主學習、無需人工手動標記、特征精簡提取等優(yōu)點在機器學習中脫穎而出,應用在入侵檢測技術(shù)中提高實時性和準確性。
深度學習包含卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)、受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)和深度置信網(wǎng)絡(Deep Belief Network,DBN)等多種網(wǎng)絡,每種網(wǎng)絡都具有不同的特點[6]。本文主要分析了CNN、RNN和GAN 3種深度學習算法在入侵檢測領域的應用,并在本章最后對其他基于深度學習算法在該領域的應用進行概況總結(jié)。
CNN的構(gòu)建靈感來源于生物的視知覺[7],是深度學習中的代表算法之一[8]。針對空間特征的提取,林偉等[9]提出了一種基于多尺度一維卷積神經(jīng)網(wǎng)絡的入侵檢測模型。其數(shù)據(jù)原始特征利用一維卷積塊提取,設計不同尺度的一維卷積網(wǎng)絡進行網(wǎng)絡入侵數(shù)據(jù)的特征提取,用所得特征構(gòu)建網(wǎng)絡入侵檢測模型。其在NSL-KDD據(jù)集上進行五分類實驗準確率為98.31%,召回率為99.53%,在UNSW-NB15數(shù)據(jù)集十分類實驗準確率為84.79%,優(yōu)于傳統(tǒng)模型。
RNN是一種具有內(nèi)部環(huán)的神經(jīng)網(wǎng)絡,常用于文件序列處理或者具有時間序列特征的信息處理。對于IDS檢測,攻擊流量也同樣具備時序序列特征。
針對時間特征提取,王文濤等[10]提出了一種結(jié)合特征選擇的SAE-LSTM入侵檢測模型。該模型提出了一種基于SAE的LSTM的入侵檢測框架,通過隨機森林方法對樣本特征進行特征選擇,通過稀疏自動編碼器對樣本重構(gòu)后再使用LSTM網(wǎng)絡進行分類,有效地降低了訓練過程的內(nèi)存,而且在UNSW-NB15數(shù)據(jù)集中取得了98%的準備率。
GAN[11]是由Ian Goodfellow等人在2014年提出的一種深度學習模型。GAN包括2個子網(wǎng)絡,一個是生成器(Generator),另一個是判別器(Discriminator)。生成器負責隨機生成新的樣本數(shù)據(jù),而判別器負責判斷樣本的真實性,生成器和判別器的相互博弈不斷學習。依靠生成特性,GAN在入侵檢測領域多用來做數(shù)據(jù)增強,從而解決數(shù)據(jù)集類不平衡的問題,并常與其他深度學習的方法結(jié)合構(gòu)建模型,以提高入侵檢測的效果。
針對數(shù)據(jù)集不平衡問題,Giuseppina[12]提出了一種用GAN增強處理不平衡的基于圖像的入侵檢測模型。該模型是一個GAN和CNN相結(jié)合的入侵檢測模型,利用GAN生成攻擊事件,解決數(shù)據(jù)集中類不平衡問題,并和CNN相結(jié)合進行分類,提高檢測的準確率,其在KDD99數(shù)據(jù)集上的準確率可達93.29%。
除了以上3種算法外,還有其他的深度學習方法應用在入侵檢測問題中,如RBM是一種用于解決分類和回歸問題的神經(jīng)網(wǎng)絡模型。為解決傳統(tǒng)的云平臺入侵檢測方法存在檢測精度差、計算復雜度高的問題,Mayuranathan等[13]提出了一種基于RBM模型的基于最佳特征的入侵檢測模型,用于云環(huán)境下的DDoS檢測。該模型采用隨機和諧搜索(Random Heuristic Search,RHS)優(yōu)化模型選擇檢測率最高的最佳特征集,并結(jié)合深度學習的分類器模型使用RBM來檢測DDoS。通過在RBM的可見層和隱藏層中增加了7層網(wǎng)絡,通過優(yōu)化提出深度RBM模型的超參數(shù),以提高對DDoS攻擊的檢測率。將RBM模型中可見層的概率分布替換為高斯分布。在KDD99數(shù)據(jù)集進行了測試,RHS-RBM模型的最大靈敏度為99.88%,特異性為99.96%,準確率為99.92%。如DBN通過逐層預訓練來提高網(wǎng)絡的表現(xiàn)。在入侵檢測領域,DBN可以用于學習正常網(wǎng)絡流量和惡意網(wǎng)絡流量的特征,從而實現(xiàn)入侵檢測。
通過對目前深度學習的各類模型在入侵檢測領域的應用分析可知,深度學習的各類模型及其綜合運用可以有效提高入侵檢測模型的檢測效率。本文介紹了入侵檢測的工作原理,并對CNN、RNN和GAN在入侵檢測的應用進行總結(jié)和分析,通過分析發(fā)現(xiàn)各類模型和方法還存在一定的問題,如缺少較新的數(shù)據(jù)集,用于訓練與測試的數(shù)據(jù)集已經(jīng)不能代表當今時代的數(shù)據(jù)流量,模型實時分析問題的能力有待提高,模型的普適性有待提升,在檢測準確率提升的同時,訓練時間還需要進一步降低。因此,還需研究貼近實際、準確、高效、實時的基于深度學習的入侵檢測模型。