曹衛(wèi)東 許志香
摘 要:針對基于監(jiān)督學(xué)習(xí)的入侵檢測算法需要的大量有標(biāo)簽數(shù)據(jù)難以收集,無監(jiān)督學(xué)習(xí)算法準(zhǔn)確率不高,且對R2L及U2R兩類攻擊檢測率低等問題,提出一種高效的半監(jiān)督多層次入侵檢測算法。首先,利用Kd-tree的索引結(jié)構(gòu),利用加權(quán)密度在高密度樣本區(qū)選擇K-means算法的初始聚類中心;然后,將聚類之后的數(shù)據(jù)分為三個類簇,將無標(biāo)簽類簇和混合類簇借助Tri-training采用加權(quán)投票規(guī)則擴充有標(biāo)簽數(shù)據(jù)集;最后,利用二叉樹形結(jié)構(gòu)設(shè)計層次化分類模型,在NSL-KDD數(shù)據(jù)集上進(jìn)行了實驗驗證。結(jié)果表明半監(jiān)督多層次入侵檢測模型能夠在利用少量有標(biāo)簽數(shù)據(jù)的情況下,對R2L及U2R的檢測率分別達(dá)到49.38%、81.14%,有效提高R2L及U2R兩類攻擊的檢測率,從而降低系統(tǒng)的漏報率。
關(guān)鍵詞:入侵檢測;Kd-tree;Tri-training;半監(jiān)督;多層次
Abstract: An efficient semi-supervised multi-level intrusion detection algorithm was proposed to solve the problems existing in present intrusion detection algorithms such as difficulty of collecting a lot of tagged data for supervised learning-based algorithms, low accuracy of unsupervised learning-based algorithms and low detection rate on R2L (Remote to Local) and U2L (User to Root) of both types of algorithms. Firstly, according to Kd-tree (K-dimension tree) index structure, weighted density was used to select initial clustering centers of K-means algorithm in high-density sample region. Secondly, the data after clustering were divided into three clusters. Then, weighted voting rule was utilized to expand the labeled dataset by means of Tri-training from the unlabeled clusters and mixed clusters. Finally, a hierarchical classification model with binary tree structure was designed and experimental verification was performed on NSL-KDD dataset. The results show that the semi-supervised multi-level intrusion detection model can effectively improve detection rate of R2L and U2R attacks by using small amount of tagged data, the detection rates of R2L and U2R attacks reach 49.38% and 81.14% respectively, thus reducing the systems false negative rate.
Key words: intrusion detection; Kd-tree; Tri-training; semi-supervised; multi-level
0 引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,計算機網(wǎng)絡(luò)給我們帶來巨大便利的同時也讓人們面臨一系列網(wǎng)絡(luò)攻擊事件,給個人、企業(yè)及國家?guī)砭薮髶p失。入侵檢測系統(tǒng)(Intrusion Detection System, IDS)自1978年Denning[1]提出至今一直備受關(guān)注,常用的檢測技術(shù)分為誤用和異常檢測兩類:誤用檢測假設(shè)所有網(wǎng)絡(luò)攻擊行為都具有一定的模式或特征,符合已知行為特征的活動就被稱為入侵[2];異常檢測是通過建立系統(tǒng)正常行為模式庫,凡是不符合模式庫中正常行為的活動就被稱為入侵活動。誤用檢測僅能檢測已知類型的攻擊,而異常檢測卻又出現(xiàn)誤報率與漏報率較高等問題。
近年來,機器學(xué)習(xí)與深度學(xué)習(xí)算法廣泛應(yīng)用于此領(lǐng)域,文獻(xiàn)[3-6]利用深度學(xué)習(xí)中的深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)取得較高的檢測率,但模型在訓(xùn)練過程中需要大量的有標(biāo)簽數(shù)據(jù),忽略了有標(biāo)簽樣本難獲取的問題。文獻(xiàn)[7-9]中提出采用無監(jiān)督聚類算法識別網(wǎng)絡(luò)中的異常行為,避免了標(biāo)簽數(shù)據(jù)難獲取的問題,但檢測效率與檢測精度較低。文獻(xiàn)[10-11]中提出采用半監(jiān)督算法做入侵檢測,取得一定成效;但模型訓(xùn)練時間長,誤報率較高,尤其針對U2R(User to Root)和R2L(Remote to Local)兩類攻擊出現(xiàn)大量漏報情況,而這兩種類型的攻擊比拒絕服務(wù)(Denial of Service, DoS)和其他類型的攻擊造成的破壞更嚴(yán)重。
針對上述問題,本文提出一種基于Kd-tree(K-dimension tree)選取初始聚類中心的半監(jiān)督多層次入侵檢測算法,首先根據(jù)少量有標(biāo)簽樣本和大量無標(biāo)簽樣本構(gòu)建Kd-tree,K-means算法的初始聚類中心在Kd-tree中樣本密度較高的區(qū)域選擇[12],從而大幅度縮短K-means在聚類過程中所需時間,訓(xùn)練樣本經(jīng)過第一層聚類處理之后根據(jù)有無標(biāo)簽形成三類數(shù)據(jù)子集(全部為有標(biāo)簽,混合、全部為無標(biāo)簽);第二層,利用Tri-training方法[13]對混合和無標(biāo)簽數(shù)據(jù)子集作進(jìn)一步處理,擴充有標(biāo)簽數(shù)據(jù)子集;第三層,將擴充后的有標(biāo)簽數(shù)據(jù)分層次劃分,得到DoS、Probe、U2R、R2L、Normal每種類型的概率預(yù)測值作為第四層的輸入;第四層綜合利用所有類型概率預(yù)測值作出最終決策判斷。經(jīng)實驗證明,此模型在利用少量有標(biāo)簽樣本的情況下,大幅度提高了U2R及R2L的檢測率,降低了系統(tǒng)的漏報率與誤報率,且模型的訓(xùn)練時間相比其他半監(jiān)督模型大幅度減少。
1 基于Kd-tree選取初始聚類中心
傳統(tǒng)K-means算法隨機選取K個樣本點作為初始聚類中心,以所有樣本到聚類中心各維度間距離的平方和作為目標(biāo)函數(shù),通過不斷迭代使目標(biāo)函數(shù)最小化,更新聚類中心,從而得到優(yōu)化后的類簇;但這種方法得到的最終結(jié)果跟初始的聚類中心密切相關(guān),且模型計算量在高緯度大樣本時難以收斂,導(dǎo)致模型的訓(xùn)練時間很長。針對此問題,提出利用Kd-tree結(jié)構(gòu),在高密度樣本區(qū)選擇K-means的初始聚類中心,過濾掉異常樣本點,因此又稱K-means過濾算法。
1.1 Kd-tree概念
Kd-tree本質(zhì)上是二叉查找樹,是一種高維索引樹形數(shù)據(jù)結(jié)構(gòu),實現(xiàn)對K維數(shù)據(jù)空間中數(shù)據(jù)對象存儲并加快檢索的功能[14]。Kd-tree中每個節(jié)點主要包含的數(shù)據(jù)結(jié)構(gòu)如表1所示。
文獻(xiàn)[15]首次提出基于Kd-tree選取K-means初始聚類中心,在高密度樣本區(qū)選擇樣本作為初始種子聚類中心,該算法僅考慮具有高密度值的葉子節(jié)點,低密度值葉子節(jié)點直接舍棄,由此導(dǎo)致最終輸出的候選聚類中心集聚在高密度區(qū),類簇間很難區(qū)分。
文獻(xiàn)[16]中提到K-means過濾算法在每一次迭代過程中訪問節(jié)點所需時間復(fù)雜度為O(2dk log n+dn/ρ2),其中:d表示樣本維度,k代表聚類中心數(shù),n代表葉子節(jié)點數(shù)即樣本總數(shù), ρ代表類簇之間的分離度,這就表明K-means過濾算法迭代過程中所需時間與類簇之間的分離程度成反比,因此文獻(xiàn)[15]中的算法并不能有效地縮短模型的訓(xùn)練時間。
1.2 基于Kd-tree的加權(quán)密度估計選取K-means初始聚類中心
針對上述問題,提出基于Kd-tree加權(quán)密度估計選擇K-means初始聚類中心。首先根據(jù)已有數(shù)據(jù)集構(gòu)建Kd-tree,則第i個葉子節(jié)點的體積表示為:
其中:ximax代表節(jié)點i在第j維上投影坐標(biāo)最大值,ximin代表節(jié)點i在第j維上投影坐標(biāo)最小值。另Ni表示第i個葉子節(jié)點內(nèi)包含的樣本點數(shù),第i個葉子節(jié)點的密度估計δi=Ni/Vi。葉節(jié)點加權(quán)密度估計值為:
模型訓(xùn)練開始時,選密度權(quán)重最大的葉子節(jié)點的均值作為第一個種子中心[17],剩下的種子通過計算葉節(jié)點的距離估計來確定,葉節(jié)點距離估計值是與其相距最近的聚類中心的距離,并在每計算完一個新的聚類中心后更新,假設(shè)t個聚類中心已確定,在第t+1輪迭代時,第i個葉子的距離估計值為:
2 半監(jiān)督多層次入侵檢測模型
半監(jiān)督分類方法是考慮到當(dāng)有標(biāo)簽樣本不足時,如何利用大量無標(biāo)簽樣本輔助分類器訓(xùn)練。當(dāng)前網(wǎng)絡(luò)環(huán)境中,充斥大量無標(biāo)簽樣數(shù)據(jù),人工加標(biāo)簽費時費力,鑒于此提出采用半監(jiān)督方法作入侵檢測。
Tri-training算法利用Dlabeled訓(xùn)練三個不同的分類器,假設(shè)分別為H1,H2,H3,x是Dunlabeled內(nèi)任意一個樣本點,若H2(x)與H3(x)得到的結(jié)果相同,則可將x標(biāo)記為H2(x),并將其并入H1的訓(xùn)練集。同理,相同的方法用于擴充H2和H3的訓(xùn)練集,三個訓(xùn)練器重新訓(xùn)練,不斷迭代直至三個訓(xùn)練器都沒有變化,由此實現(xiàn)有標(biāo)簽數(shù)據(jù)集的擴充。
2.2 Tri-training擴充有標(biāo)簽數(shù)據(jù)集
通過改進(jìn)K-means對少量有標(biāo)簽樣本和大量無標(biāo)簽數(shù)據(jù)集聚類,聚類之后的數(shù)據(jù)可分為三個類簇[18]:有標(biāo)簽、混合、無標(biāo)簽三種。每個類簇的類分布函數(shù)計算公式為:
則稱這個類簇為原子類簇(atomic)[18],否則稱之為非原子類簇(non-atomic),原子類簇保留其標(biāo)簽。針對全部為無標(biāo)簽樣本的類簇,根據(jù)近鄰規(guī)則找到距離其最近的有標(biāo)簽類簇合并,形成新的混合類簇。
混合類簇則通過Tri-training方法進(jìn)行訓(xùn)練,通過不斷迭代給無標(biāo)簽樣本打標(biāo)簽,最終形成一個全部有標(biāo)簽的樣本數(shù)據(jù)集。文獻(xiàn)[13]中打標(biāo)簽時采用多數(shù)投票規(guī)則,這一規(guī)則在樣本類別數(shù)大于2時,準(zhǔn)確率會受到影響,因此提出一種加權(quán)的投票規(guī)則進(jìn)行類別標(biāo)記,三個分類器的權(quán)值分別由在初始有標(biāo)簽樣本數(shù)據(jù)集上的分類準(zhǔn)確率Ai(Dlabeled)確定,權(quán)值計算公式如下:
2.3 層次化分類設(shè)計
現(xiàn)有的入侵檢測算法大多針對總樣本檢測準(zhǔn)確率,忽略了U2R、R2L兩種類型的檢測,導(dǎo)致系統(tǒng)誤報率和漏報率很高。原因是這兩類攻擊在原始數(shù)據(jù)集中數(shù)據(jù)量很小,且KDD99中有大量基于連接的統(tǒng)計數(shù)據(jù)淹沒了這兩類數(shù)據(jù)的特點,由此導(dǎo)致針對這兩類攻擊的檢測率很低。
針對上述問題,提出一種層次化分類設(shè)計,第一層設(shè)計為具有二叉樹形式的樹形分類器,樹形分類器分四級,為提高分類效率及準(zhǔn)確率,每一級都設(shè)置為二分類器[19],每一個二分類器輸出樣本所屬類別的概率:二分類器的輸出值為每一個測試樣本所屬類別的概率預(yù)測值:此句不通順
level1 原始數(shù)據(jù)集中DoS攻擊類型最多,因此將擴充后的有標(biāo)簽數(shù)據(jù)集分在此分為DoS和C2兩類因此將擴充后的有標(biāo)簽數(shù)據(jù)集在本層分為DOS和C2兩類此句不通順;
第二層同樣采用二分類法,以第一層所有樣本輸出概率值probab()作為輸入,為增強最終分類器的泛化能力,首先將各級分類器的輸出值按照算法1[19]作進(jìn)一步處理,層次化分類結(jié)構(gòu)如圖2所示。
算法1具體可表述為,第一層的二分類器處理最初訓(xùn)練數(shù)據(jù)集,若DoS的概率預(yù)測值大于C2,則將C2的概率預(yù)測值置為0,并將C2中的數(shù)據(jù)作為第二層分類器的輸入數(shù)據(jù);第二層的二分類器處理C2,若Probe的概率預(yù)測值大于C3,則將C3的概率預(yù)測值置為0,并將C3中的數(shù)據(jù)作為第三層分類器的輸入數(shù)據(jù),第三層及第四層同理。偽代碼如下:
3 實驗與結(jié)果分析
3.1 實驗數(shù)據(jù)
入侵檢測數(shù)據(jù)集采用NSL-KDD[20],它是對原KDDcup99數(shù)據(jù)集的改進(jìn),去掉了原數(shù)據(jù)集中大量重復(fù)記錄。數(shù)據(jù)集有41個屬性,其中有3個符號性變量,38個數(shù)值型變量,類標(biāo)簽分為5類:DoS、Probe、U2R、R2L、Normal。NSL-KDD的訓(xùn)練集和測試集各攻擊類型詳細(xì)信息如表2所示,表3則提供每種類型在訓(xùn)練集和測試集中的分布信息。
由表2及表3可知,U2R和R2L兩種類型在測試集中出現(xiàn)一些新的攻擊子類型,但是由于總數(shù)據(jù)量遠(yuǎn)小于其他攻擊類型數(shù)據(jù)量,因此這兩種攻擊類型的特有屬性常被“覆蓋”,新出現(xiàn)的攻擊類型容易被系統(tǒng)誤判為正常數(shù)據(jù),由此導(dǎo)致系統(tǒng)的漏報率很高。
由于DoS和Normal兩種類型的數(shù)據(jù)量遠(yuǎn)大于其他類型,因此為了平衡各數(shù)據(jù)間的分布,將Training-dataset中Probe、R2L、U2R數(shù)據(jù)全部保留加入到訓(xùn)練集中,隨機從DoS和Normal中選擇若干數(shù)據(jù)構(gòu)成訓(xùn)練集,將Test-dataset的全部樣本作為測試集。本實驗采用的訓(xùn)練集樣本分布如表4所示。
3.2 數(shù)據(jù)預(yù)處理
NSL-KDD中屬性“protocal_type”“service”“flag”為符號性變量,其他屬性多為統(tǒng)計性數(shù)據(jù),各個維度之間差異度較大難以聚類,因此在實驗前要先對數(shù)據(jù)進(jìn)行預(yù)處理以方便數(shù)據(jù)聚類。
1)數(shù)值化。
預(yù)處理的第一步就是對原訓(xùn)練集進(jìn)行數(shù)值化處理。采用統(tǒng)計信息,將各屬性中不同值出現(xiàn)的頻次替代原屬性值,這樣做可以避免替換時同一屬性不同值之間距離不均衡,從而導(dǎo)致錯誤聚類的問題[7]。
2)歸一化。
NSL-KDD中23~31維屬性是基于時間的統(tǒng)計屬性,32~41維屬性是基于連接的統(tǒng)計屬性,這就導(dǎo)致各維數(shù)據(jù)間差異較大,因此要將數(shù)值化處理后的數(shù)據(jù)作歸一化處理:
其中:x′代表歸一化處理之后的數(shù)據(jù),Mmax代表某一維中最大的數(shù),Mmin代表某一維中最小的數(shù)。
3.3 實驗分析
本實驗在Intel CPU 1.70GHz、4GB內(nèi)存、64b硬件環(huán)境和Windows 7操作系統(tǒng),使用Python3.5作為編碼工具。實驗所用的評價指標(biāo)為準(zhǔn)確率(ACcuracy rate, AC)、檢測率(Detection Rate, DR)、誤報率(False Alarm Rate, FAR),定義如下:
其中:TP(True Positive)代表正確識別的Normal類數(shù)量,TN(True Negative)代表正確識別的攻擊類數(shù)量,F(xiàn)P(False Positive)代表誤判為Normal類的數(shù)據(jù)量,F(xiàn)N(False Negative)誤判為攻擊類型的數(shù)據(jù)量。
在實驗1中為驗證利用Kd-tree的加權(quán)密度估計對K-means聚類效率的影響,將傳統(tǒng)K-means算法及文獻(xiàn)[15]中基于Kd-tree的密度選擇初始聚類中心算法作比較,比較模型運行時間及準(zhǔn)確率,訓(xùn)練數(shù)據(jù)集為Training-dataset。實驗結(jié)果如表5所示。
由表5可以得出,本文所提算法檢測準(zhǔn)確率比傳統(tǒng)K-means算法提高1.86從表5中,未看出是2個百分點,而是1.86個百分點,此處是否應(yīng)該改為這個數(shù)值個百分點,但模型的運行時間卻大幅度縮短,這是由于傳統(tǒng)K-means在鄰近最終的聚類中心時,算法很難收斂,導(dǎo)致模型的訓(xùn)練時間過長。文獻(xiàn)[15]的算法準(zhǔn)確率雖與本文算法近似,但運行時間卻較長,而網(wǎng)絡(luò)中的入侵行為需被及時檢測并給予響應(yīng)。AN-SVM(請補充AN-SVM的英文全稱)[6]采用的基于檢測率雖高于本文算法,不通順,且表5中沒有這個算法?請作者調(diào)整因此綜合考慮,本文算法更具實用性。
實驗2中,為驗證Tri-training中提出的加權(quán)投票規(guī)則對無標(biāo)簽樣本打標(biāo)簽準(zhǔn)確率的有效性,將傳統(tǒng)Tri-training算法與本文算法對各類型數(shù)據(jù)檢測率作比較,實驗結(jié)果如圖3所示。
由圖4可知,隨著有標(biāo)簽數(shù)據(jù)量的增加,各算法的準(zhǔn)確率都有提升,本文所提算法相比其他模型在有標(biāo)簽數(shù)據(jù)量相同時,檢測準(zhǔn)確率較高,特別是當(dāng)有標(biāo)簽數(shù)據(jù)量占據(jù)訓(xùn)練集一半時,檢測準(zhǔn)確率已達(dá)到94.07%,說明半監(jiān)督思想能夠應(yīng)用于入侵檢測模型中,由此可以避免人工打標(biāo)簽。
為進(jìn)一步驗證層次化分類模型對U2R和R2L兩類攻擊的檢測率,特與其他算法作對比,有標(biāo)簽數(shù)據(jù)集占訓(xùn)練集的70%,實驗結(jié)果如圖5所示。
由圖5得知,本文提出的半監(jiān)督多層次分類模型與其他半監(jiān)督算法總體檢測率與準(zhǔn)確率相差不大,但R2L及U2R兩種類型的檢測率卻有較大提升,對R2L及U2R的檢測率分別達(dá)到41.38%49.38%與81.14%,能夠有效檢測出這兩種類型攻擊,降低系統(tǒng)的漏報率。
為進(jìn)一步驗證本文所提半監(jiān)督算法的有效性,與近年來基于半監(jiān)督的入侵檢測算法作對比,其中有標(biāo)簽數(shù)據(jù)集占訓(xùn)練樣本的50%,對比實驗結(jié)果如表6所示。
由表6可知,本文所提算法對所有樣本點的檢測率優(yōu)于其他半監(jiān)督算法,誤報率確雖高于文獻(xiàn)[22]中所提的算法,但針對入侵檢測系統(tǒng)來說,更加關(guān)注系統(tǒng)對異常數(shù)據(jù)的檢測率,因為漏檢一條數(shù)據(jù)都可能對系統(tǒng)造成致命影響,因此本文所提算法比其他算法更具實用性。
4 結(jié)語
本文針對現(xiàn)有入侵檢測算法多針對總體的檢測率和準(zhǔn)確率,而忽略R2L、U2R兩種攻擊類型檢測率,導(dǎo)致系統(tǒng)誤報率較高;且現(xiàn)實網(wǎng)絡(luò)流量中多為無標(biāo)簽數(shù)據(jù),采用有標(biāo)簽數(shù)據(jù)做訓(xùn)練集需要耗費大量人力物力的現(xiàn)狀,提出一種基于Kd-tree選擇初始聚類中心的半監(jiān)督分層次入侵檢測模型,首先利用Kd-tree結(jié)構(gòu),提出一種加權(quán)密度方法加快K-means的聚類過程;其次,利用改進(jìn)的Tri-training方法擴充有標(biāo)簽數(shù)據(jù)集,充分利用大量無標(biāo)簽數(shù)據(jù)輔助模型進(jìn)行學(xué)習(xí)作出判斷;最后,利用分層次模型,采用二叉樹形結(jié)構(gòu)對每種類型作出判斷,進(jìn)而提高R2L及U2R兩種攻擊類型的檢測率。
參考文獻(xiàn) (References)
[1] DENNING D E. An intrusion-detection model[J]. IEEE Transactions on Software Engineering, 2006, SE-13(2): 222-232.
[2] 孔令智.基于網(wǎng)絡(luò)異常的入侵檢測算法研究[D].北京:北京交通大學(xué),2017:15-16.(KONG L Z. Research on intrusion detection algorithm based on network anomaly[D]. BeiJing: Beijing Jiaotong University, 2017: 15-16.)
[3] 沈?qū)W利,覃淑娟.基于SMOTE和深度信念網(wǎng)絡(luò)的異常檢測[J].計算機應(yīng)用,2018,38(7):1941-1945.(SHEN X L, QIN S J. Anomaly detection based on synthetic minority oversampling technique and deep belief network[J]. Journal of Computer Applications, 2018, 38(7): 1941-1945.)
[4] YADAV S, SUBRAMANIAN S. Detection of application layer DDoS attack by feature learning using stacked autoencoder [C]// ICCTICT 2016: Proceedings of the 2016 International Conference on Computational Techniques in Information and Communication Technologies. Piscataway, NJ: IEEE, 2016: 361-366.
[5] 方圓,李明,王萍,等.基于混合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的入侵檢測模型[J].計算機應(yīng)用,2018,38(10):2903-2907.(FANG Y, LI M, WANG P, et al. Intrusion detection model based on hybrid convolutional neural network and recurrent neural network[J]. Journal of Computer Applications, 2018, 38(10): 2903-2907.)
[6] 高妮,高嶺,賀毅岳,等.基于自編碼網(wǎng)絡(luò)特征降維的輕量級入侵檢測模型[J].電子學(xué)報,2017,45(3):730-739.(GAO N, GAO L, HE Y Y, et al. A lightweight intrusion detection model based on autoencoder network with feature reduction[J]. Acta Electronica Sinica, 2017, 45(3): 730-739.)
[7] 賈凡,嚴(yán)妍,張家琪.基于K-means聚類特征消減的網(wǎng)絡(luò)異常檢測[J].清華大學(xué)學(xué)報(自然科學(xué)版),2018,58(2):137-142.(JIA F, YAN Y, ZHANG J Q. K-means based feature reduction for network anomaly detection[J]. Journal of Tsinghua University (Natural Science Edition), 2018, 58(2): 137-142.)
[8] PENG K, LEUNG V C M, HUANG Q. Clustering approach based on mini batch Kmeans for intrusion detection system over big data[J]. IEEE Access, 2018, 6(99): 11897-11906.
[9] PATHAK V, ANANTHANARAYANA V S. A novel multi-threaded K-means clustering approach for intrusion detection[C]// Proceedings of the 2012 IEEE International Conference on Computer Science and Automation Engineering. Piscataway, NJ: IEEE, 2012: 757-760.
[10] FITRIANI S, MANDALA S, MURTI M A. Review of semi-supervised method for intrusion detection system[C]// Proceedings of the 2016 Asia Pacific Conference on Multimedia and Broadcasting. Piscataway, NJ: IEEE, 2016: 36-41.
[11] HAWELIYA J, NIGAM B. Network intrusion detection using semi supervised support vector machine[J]. International Journal of Computer Applications, 2014, 85(9): 27-31.
[12] KUMAR K M, REDDY A R M. A fast DBSCAN clustering algorithm by accelerating neighbor searching using Groups method[J]. Pattern Recognition, 2016, 58: 39-48.
[13] ZHOU Z H, LI M. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.
[14] 劉開云.基于KD-Tree的KNN沙塵孤立點監(jiān)測算法的研究與應(yīng)用[D].開封:河南大學(xué),2018:22-24.(LIU K Y. Research and application of KNN sand-dust isolated point monitoring algorithm based on KD-Tree[D]. Kaifeng: Henan University, 2018: 22-24.)
[15] REDMOND S J, HENEGHAN C. A method for initialising the K-means clustering algorithm using kd-trees [J]. Pattern Recognition Letters, 2007, 28(8): 965-973.
[16] KANUNGO T, MOUNT D M, NETANYAHU N S, et al. The analysis of a simple K-means clustering algorithm[C]// Proceedings of the Sixteenth Annual Symposium on Computational Geometry. New York: ACM, 2000: 100-109.
[17] KUMAR K M, REDDY A R M. An efficient K-means clustering filtering algorithm using density based initial cluster centers[J]. Information Sciences, 2017, 418/419: 286-301.
[18] AL-JARRAH O Y, AL-HAMMDI Y, YOO P D, et al. Semi-supervised multi-layered clustering model for intrusion detection[J]. Digital Communications and Networks, 2018, 4(4): 277-286.
[19] AHMIM A, DERDOUR M, FERRAG M A. An intrusion detection system based on combining probability predictions of a tree of classifiers[J]. International Journal of Communication Systems, 2018, 31(9): e3457.
[20] TAVALLAEE M, BAGHERI E, LU W, et al. A detailed analysis of the KDD CUP 99 data set[C]// Proceedings of the 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications. Piscataway, NJ: IEEE, 2009: 1-6.
[21] ZHANG X F, ZHU P D, TIAN J W, et al. An effective semi-supervised model for intrusion detection using feature selection based LapSVM [C]// CITS 2017: Proceedings of the 2017 International Conference on Computer, Information and Telecommunication Systems. Piscataway, NJ: IEEE, 2017: 283-286.
[22] ASHFAQ R A R, WANG X Z, HUANG J Z, et al. Fuzziness based semi-supervised learning approach for intrusion detection system[J]. Information Sciences, 2017, 378: 484-497.
[23] CATALTEPE Z, EKMEKI U, CATALTEPE T, et al. Online feature selected semi-supervised decision trees for network intrusion detection[C]// NOMS 2016: Proceedings of the 2016 IEEE/IFIP Network Operations and Management Symposium. Piscataway, NJ: IEEE, 2016: 1085-1088.