亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CATBL算法的惡意URL檢測(cè)

2021-11-20 01:56:54修位蓉王歡歡

計(jì)算機(jī)工程與設(shè)計(jì) 2021年11期

修位蓉，王歡歡，卞琛

(1.廣州商學(xué)院信息技術(shù)與工程學(xué)院，廣東廣州 510700；2.新疆大學(xué) 軟件學(xué)院，新疆烏魯木齊 830091；3.廣東金融學(xué)院互聯(lián)網(wǎng)金融與信息工程學(xué)院，廣東廣州 510521)

0 引言

隨著惡意URL灰色產(chǎn)業(yè)的發(fā)展，惡意URL不僅在外觀上與良性URL極為相似，進(jìn)入之后的所見(jiàn)內(nèi)容也同樣難以分辨，而現(xiàn)有的惡意URL檢測(cè)方式大多是基于傳統(tǒng)、單一的算法模型，檢測(cè)效果欠佳，因此針對(duì)惡意URL檢測(cè)的研究顯得尤為迫切。

深度學(xué)習(xí)算法是機(jī)器學(xué)習(xí)算法領(lǐng)域中一個(gè)新興方向，在自然語(yǔ)言處理、數(shù)據(jù)挖掘、圖像處理、機(jī)器翻譯領(lǐng)域都取得了不錯(cuò)的表現(xiàn)，同時(shí)也為惡意URL檢測(cè)研究注入了新的活力。本文基于深度學(xué)習(xí)算法提出CATBL并聯(lián)聯(lián)合算法，將主機(jī)信息特征、URL信息特征、紋理圖像特征進(jìn)行特征融合，然后利用融合過(guò)后的特征使用CATBL并聯(lián)聯(lián)合算法進(jìn)行惡意URL分析檢測(cè)。

1 國(guó)內(nèi)外研究現(xiàn)狀

針對(duì)惡意URL檢測(cè)相關(guān)研究，目前國(guó)內(nèi)外的研究人員已經(jīng)提出了多種檢測(cè)方法與檢測(cè)技術(shù)。如國(guó)外的Chaochao Luo等[1]使用自動(dòng)編碼器表示URL，然后將表示的URL輸入到提議的復(fù)合神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測(cè)，為評(píng)估提議的系統(tǒng)，對(duì)HTTP CSIC2010數(shù)據(jù)集和收集的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。N Vanitha等[2]通過(guò)使用機(jī)器學(xué)習(xí)算法(稱為邏輯回歸)自動(dòng)對(duì)URL進(jìn)行分類，該算法用于二進(jìn)制分類，通過(guò)學(xué)習(xí)網(wǎng)絡(luò)釣魚URL，分類器可達(dá)到97%的準(zhǔn)確性。N.B等[3]使用決策樹分類器對(duì)基于時(shí)間分割的數(shù)據(jù)分組具有更好的性能，準(zhǔn)確度為88.5%，提出的框架可以實(shí)時(shí)收集數(shù)據(jù)并以分布式方式處理以提供態(tài)勢(shì)感知，通過(guò)向現(xiàn)有系統(tǒng)添加額外的資源，可以輕松地將建議的框架擴(kuò)展為處理各種大量的網(wǎng)絡(luò)事件。Huaizhi Yan等[4]提出了一種使用堆疊去噪自動(dòng)編碼器模型的深度學(xué)習(xí)方法，以學(xué)習(xí)和檢測(cè)內(nèi)部惡意特征。Ripon Patgiri等[5]在文中將惡意URL檢測(cè)視為二進(jìn)制分類問(wèn)題，使用測(cè)試數(shù)據(jù)測(cè)試了幾種知名分類器的性能，并特別研究了隨機(jī)森林算法和支持向量機(jī)(SVM)，這些具有很高精度的算法用于訓(xùn)練數(shù)據(jù)集，以對(duì)好URL和壞URL進(jìn)行分類。Baojiang Cui等[6]基于梯度學(xué)習(xí)的統(tǒng)計(jì)分析和使用S形閾值水平的特征提取相結(jié)合，提出了一種基于機(jī)器學(xué)習(xí)技術(shù)的新檢測(cè)方法，使用樸素的貝葉斯，決策樹和SVM分類器來(lái)驗(yàn)證該方法的準(zhǔn)確性和效率。

在國(guó)內(nèi)，李敬濤等[7]對(duì)基于機(jī)器學(xué)習(xí)的JavaScript惡意腳本檢測(cè)方案進(jìn)行了改進(jìn)，所設(shè)計(jì)的檢測(cè)改進(jìn)方案能夠?qū)avaScript腳本及包含惡意腳本的HTML頁(yè)面進(jìn)行高效準(zhǔn)確的檢測(cè)。李艷等[8]利用信息論測(cè)度知識(shí)來(lái)檢測(cè)JavaScript混淆代碼，能夠捕獲基于統(tǒng)計(jì)特征檢測(cè)器的逃逸攻擊，并對(duì)混淆代碼進(jìn)行反混淆，最后利用機(jī)器學(xué)習(xí)知識(shí)來(lái)檢測(cè)JavaScript惡意代碼。左雯等[9]設(shè)計(jì)了基于關(guān)鍵字的用于惡意URL檢測(cè)的神經(jīng)網(wǎng)絡(luò)模型；該模型用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行URL的特征抽取，使用GRU進(jìn)行時(shí)間維度上的特征捕獲，并實(shí)現(xiàn)了一套用于惡意URL的可視化檢測(cè)系統(tǒng)。吳海濱等[10]提出基于上下文信息的惡意URL檢測(cè)方法，該檢測(cè)方法利用預(yù)處理方法解決URL中存在大量的隨機(jī)字符組成單詞的問(wèn)題，使用特殊符號(hào)作為分隔符對(duì)URL分詞，對(duì)得到的分詞結(jié)果使用Word2vec生成詞向量空間，訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取文本特征并分類。

以往的惡意URL檢測(cè)大多基于黑名單技術(shù)[11,12]、信譽(yù)系統(tǒng)[13]、主機(jī)特征[14,15]、詞匯特征、蜜罐技術(shù)[16]、入侵檢測(cè)技術(shù)[17]。本文提出一種基于CATBL的惡意URL檢測(cè)算法。

本文的主要貢獻(xiàn)如下：

(1)提取主機(jī)信息特征、URL信息特征，并且利用圖像處理相關(guān)技術(shù)提取出紋理圖像特征，之后將篩選后的紋理圖像特征、URL信息特征、主機(jī)信息特征進(jìn)行了有效特征融合，并且使用并聯(lián)聯(lián)合CATBL算法模型進(jìn)行檢測(cè)。

(2)利用CNN提取深層次局部特征，Attention機(jī)制調(diào)整權(quán)重，注意力機(jī)制與CNN算法進(jìn)行并聯(lián)處理得到更加有效的特征信息，然后雙向LSTM提取全局特征，與注意力機(jī)制和CNN的并聯(lián)聯(lián)合算法模型進(jìn)行并聯(lián)處理得到全面的特征信息，將并聯(lián)聯(lián)合CATBL算法用于惡意URL分析與檢測(cè)。

2 算法模型

2.1 特征分析

在檢測(cè)研究中提取的特征對(duì)于惡意URL的檢測(cè)結(jié)果有著至關(guān)重要的影響，提取有效的特征對(duì)于惡意URL檢測(cè)研究也是非常重要的。因此，本文不僅提取主機(jī)信息特征、URL信息特征，還將在圖像處理相關(guān)技術(shù)學(xué)習(xí)基礎(chǔ)上提取的紋理圖像特征用于惡意URL檢測(cè)。

2.1.1 主機(jī)信息特征

主機(jī)信息能夠從主機(jī)名的屬性中獲得，其中可以獲得主機(jī)的多種相關(guān)信息，深入U(xiǎn)RL數(shù)據(jù)的主機(jī)內(nèi)部獲得信息，能夠提高特征的有效性，有利于惡意URL檢測(cè)的相關(guān)研究，通過(guò)學(xué)習(xí)主機(jī)信息特征能夠獲得主機(jī)時(shí)間、身份、主機(jī)位置等相關(guān)信息，此處提取獲得的主機(jī)信息包括百度反鏈、百度安全、百度是否收錄、百度權(quán)重、360是否收錄、百度1天反鏈、百度7天反鏈、百度1天收錄、百度7天收錄等等多種信息，用于惡意URL檢測(cè)以提高檢測(cè)結(jié)果。本研究借助主機(jī)信息采集網(wǎng)站人工提取得到了20種主機(jī)信息特征，進(jìn)行篩選、過(guò)濾之后得到數(shù)據(jù)的15種主機(jī)信息組成為本文的主機(jī)信息特征。

2.1.2 URL信息特征

由于原始的URL數(shù)據(jù)是字符串，通過(guò)對(duì)機(jī)器學(xué)習(xí)的學(xué)習(xí)可以理解其是不可行的，因此必須將數(shù)據(jù)進(jìn)行處理以得到有效的信息，此特征是從URL數(shù)據(jù)本身得到的，故此類信息稱之為URL信息特征。此處提取獲得的URL信息特征包括URL長(zhǎng)度、其它字符的個(gè)數(shù)、首個(gè)小數(shù)點(diǎn)的位置、大寫字母的個(gè)數(shù)、最長(zhǎng)字符的個(gè)數(shù)、頂級(jí)域名是否為五大域名、分隔符之間字符的最大長(zhǎng)度、小寫字母的個(gè)數(shù)、URL中總數(shù)字個(gè)數(shù)、是不是IP地址等等多種信息，用于惡意URL檢測(cè)以提高檢測(cè)結(jié)果。本研究使用Java代碼提取出21種數(shù)據(jù)本身共性較大的信息，進(jìn)行篩選、過(guò)濾之后得到URL信息特征。

2.1.3 紋理圖像特征

如圖1所示，基于圖像處理的相關(guān)技術(shù)，由于惡意URL在紋理上的相似性，將圖像處理技術(shù)用于URL特征提取，惡意URL被映射到未壓縮的灰度圖片上[18,19]。在獲得的URL數(shù)據(jù)的二進(jìn)制字符基礎(chǔ)上，把8位無(wú)符號(hào)整數(shù)范圍內(nèi)的二維空間域紋理圖像特征轉(zhuǎn)換為與灰度圖像灰度值范圍相對(duì)應(yīng)，以得到紋理圖像特征用于惡意URL檢測(cè)以提高檢測(cè)結(jié)果。

圖1 紋理圖像特征分析

2.2 特征融合

將已有特征進(jìn)行融合是為了提高特征在URL的檢測(cè)實(shí)驗(yàn)中的效果，充分挖掘各類特征的隱藏信息，有助于得到更好的檢測(cè)，此處將主機(jī)信息特征、紋理圖像特征、URL信息特征進(jìn)行了充分的融合[20]，其偽代碼見(jiàn)表1。

表1 特征融合

在表1中，SL是將數(shù)據(jù)進(jìn)行標(biāo)注自動(dòng)生成的label文件，SF1是將主機(jī)信息特征進(jìn)行輸入，SF2是將URL信息特征進(jìn)行輸入，S是將主機(jī)信息特征與URL信息特征進(jìn)行訓(xùn)練、融合得到S塊特征，SF3是將紋理圖像特征進(jìn)行輸入，S是將S塊特征與紋理圖像特征進(jìn)行訓(xùn)練、融合得到新的S塊特征，在subtrain.drop代碼中是將label文件與S塊特征進(jìn)行學(xué)習(xí)、訓(xùn)練，在subtrain代碼中是將得到惡意URL進(jìn)行分析與檢測(cè)結(jié)果。

2.3 CATBL算法

深度學(xué)習(xí)算法已經(jīng)在圖像處理、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域取得成效，同時(shí)也為惡意URL檢測(cè)研究帶來(lái)了新的希望。在深度學(xué)習(xí)的算法模型中，卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)是一種專門用來(lái)處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的且由卷積層、池化層、全連接層組成的神經(jīng)網(wǎng)絡(luò)。其中，卷積層與池化層將要組成多個(gè)卷積組，并且逐層進(jìn)行提取特征，然后利用多個(gè)全連接層完成分類。但是卷積神經(jīng)網(wǎng)絡(luò)中輸入的關(guān)聯(lián)性較差，輸出的也相對(duì)獨(dú)立，存在一定的弊端，Attention對(duì)于彌補(bǔ)這個(gè)弊端具有一定的成效，注意力機(jī)制借助人類的思維模式，關(guān)注焦點(diǎn)，考慮上下文存在的關(guān)系，建模長(zhǎng)距離能力強(qiáng)大，具有提取語(yǔ)義特征的能力，增強(qiáng)其關(guān)聯(lián)性，因此考慮將卷積神經(jīng)網(wǎng)絡(luò)與Attention機(jī)制進(jìn)行結(jié)合。長(zhǎng)短時(shí)記憶(long short-term memory，LSTM)[21]是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)改進(jìn)的，循環(huán)神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的連接能力，獲取時(shí)間動(dòng)態(tài)的能力以及學(xué)習(xí)上下文相關(guān)信息的能力，但存在梯度爆炸或者消失問(wèn)題，LSTM可以解決簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)存在的此類問(wèn)題。LSTM利用引入輸入門(input gates)、遺忘門(forget gates)和輸出門(output gates)以控制信息傳遞，有利于解決長(zhǎng)期依賴弊端。

因此，CATBL并聯(lián)聯(lián)合算法模型首先將卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制進(jìn)行并聯(lián)聯(lián)合處理得到CAT并聯(lián)聯(lián)合算法模型，然后將CAT并聯(lián)聯(lián)合算法模型與Bi-LSTM算法再次進(jìn)行并聯(lián)聯(lián)合處理，稱之為CATBL算法。卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層和全連接層組成，其中池化層不僅可以縮小輸入矩陣的尺寸，加快計(jì)算速度，有效防止過(guò)擬合并降低特征維度；卷積層與池化層將要組成多個(gè)卷積組，逐層進(jìn)行提取特征；最后通過(guò)構(gòu)建多個(gè)全連接層完成最終分類。CATBL算法的輸入層為M∈{(x1,y1),(x2,y2)…(xn,yn)}， (x1,x2…xn) 用于表示輸入的特征，yn∈(1,0) 表示URL的label，卷積層的計(jì)算公式為

(1)

其中，l表示層數(shù)，Mj為一個(gè)輸入特征，T為某一神經(jīng)元，C為偏移向量。

池化層不僅可以縮小輸入矩陣的尺寸，并且可以加快計(jì)算速度，而且可以有效的防止過(guò)擬合，并降低特征維度。池化層的計(jì)算公式為

(2)

其中，l表示層數(shù)，Mj為一個(gè)輸入特征，T為某一神經(jīng)元，C為偏移向量，m表示池化層窗口大小。

但是CNN中輸入的關(guān)聯(lián)性較差，輸出的也相對(duì)獨(dú)立，對(duì)于滋生快速且變化種類多樣的惡意URL，不能達(dá)到很好的識(shí)別和分類效果，缺乏檢測(cè)新生成的惡意URL的能力，惡意URL檢測(cè)的普遍性較差。然而，Attention對(duì)于彌補(bǔ)這個(gè)弊端具有一定的成效，注意力機(jī)制借助人類的思維模式，關(guān)注焦點(diǎn)，弱化無(wú)用信息的注意力，考慮上下文存在的關(guān)系，建模長(zhǎng)距離能力強(qiáng)大，具有提取語(yǔ)義特征的能力，增強(qiáng)其關(guān)聯(lián)性，因此將CNN與Attention機(jī)制在此處進(jìn)行了并聯(lián)聯(lián)合算法的處理以期望算法模型能夠優(yōu)劣互補(bǔ)。首先，我們從輸入層輸入兩層特征M∈{(x1,y1),(x2,y2)…(xn,yn)}，且 (x1,x2…xn) 表示輸入的特征，yn∈(1,0) 表示URL的label，且注意力計(jì)算權(quán)重的公式為

(3)

其中，Wi表示計(jì)算得到的注意力權(quán)重，Mi表示特征輸入，同時(shí)對(duì)T進(jìn)行了注意力加權(quán)，輸出特征S的計(jì)算公式為

(4)

長(zhǎng)短時(shí)記憶能夠獲取時(shí)間動(dòng)態(tài)并學(xué)習(xí)上下文相關(guān)信息，能夠有效解決長(zhǎng)期依賴的弊端，并能防止循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸或消失問(wèn)題，因此將其并聯(lián)得到CATBL聯(lián)合算法。

LSTM的結(jié)構(gòu)圖如圖2所示。

圖2 LSTM結(jié)構(gòu)

在時(shí)間t的LSTM更新公式如下

it=σ(wiht-1+uixt+bi)

(5)

ft=σ(wfht-1+ufxt+bf)

(6)

(7)

(8)

ot=σ(woht-1+uoxt+bo)

(9)

ht=otΘtanh(ct)

(10)

其中，σ是非線性sigmoid函數(shù)，Θ是兩個(gè)向量間的點(diǎn)乘操作。xt是時(shí)間t處的輸入矢量，ht是存儲(chǔ)時(shí)間t處的所有有用信息的隱藏狀態(tài)矢量。ui，uf，uc，uo表示輸入xt的不同門的權(quán)重矩陣，wi，wf，wc，wo是隱藏狀態(tài)ht的權(quán)重矩陣。bi，bf，bc，bo表示偏向量。

LSTM在學(xué)習(xí)上下文相關(guān)信息的能力方面只能學(xué)習(xí)到上文信息，無(wú)法完成下文信息的學(xué)習(xí)，對(duì)未來(lái)的信息是無(wú)法進(jìn)行預(yù)測(cè)的。但是Bi-LSTM通過(guò)增加一層反向的LSTM解決了這個(gè)問(wèn)題，在t(t=1,2,3,…,n) 時(shí)刻的輸出為

Ht=hbt+hft

(11)

其中，Ht是Bi-LSTM模型在t時(shí)刻的輸出，hbt是前向LSTM在t時(shí)刻的輸出，hft是后向LSTM在t時(shí)刻的輸出。

綜上所述，Bi-LSTM的基本結(jié)構(gòu)如圖3所示。圖3中 {M1…Mn}， {Mn…Mt} 為前向LSTM模型輸入， {Ma…Ms}， {Ms…Mi} 為后向LSTM模型輸入， {H1…Hn}， {Hn…Ht}， {Ha…Hs}， {Hs…Hi} 為Bi-LSTM算法在t時(shí)刻的輸出。

圖3 Bi-LSTM結(jié)構(gòu)

基于以上分析，設(shè)計(jì)CATBL并聯(lián)聯(lián)合算法，其模型結(jié)構(gòu)如圖4所示。圖4展示將融合后的特征作為輸入層的特征分別輸入到CNN、注意力機(jī)制和Bi-LSTM算法，將CNN與注意力機(jī)制進(jìn)行并聯(lián)聯(lián)合處理后得到新的全局特征，此時(shí)輸入層特征經(jīng)過(guò)Bi-LSTM算法訓(xùn)練學(xué)習(xí)后得到新的信息，再與CNN_Att算法進(jìn)行并聯(lián)聯(lián)合處理得到深層次局部特征從而獲得更加全面的數(shù)據(jù)特征信息，最后softmax分類器進(jìn)行分類并得到惡意URL檢測(cè)結(jié)果。

圖4 CATBL結(jié)構(gòu)

3 實(shí)驗(yàn)及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)的數(shù)據(jù)是基于公開數(shù)據(jù)集PhishTank與爬蟲抓取的良性URL組成的兩萬(wàn)條URL數(shù)據(jù)集。在組成數(shù)據(jù)集之前，我們將從PhishTank上下載得到的惡意URL與爬蟲得到的良性URL進(jìn)行了簡(jiǎn)單的去重、降噪等處理之后得到了一萬(wàn)條數(shù)據(jù)，其中有效惡意URL和良性URL均保留一萬(wàn)條，其后將數(shù)據(jù)進(jìn)行標(biāo)注自動(dòng)生成label文件，同時(shí)，在此數(shù)據(jù)集上進(jìn)行特征提取。

3.2 實(shí)驗(yàn)環(huán)境

算法的實(shí)驗(yàn)環(huán)境配置見(jiàn)表2。

表2 實(shí)驗(yàn)環(huán)境的設(shè)置

3.3 最優(yōu)參數(shù)的設(shè)置

算法模型參數(shù)的設(shè)置對(duì)于惡意URL檢測(cè)的結(jié)果起著至關(guān)重要的作用，前期工作在大量的實(shí)驗(yàn)基礎(chǔ)上得到實(shí)驗(yàn)最優(yōu)參數(shù)的設(shè)置，表3展示了迭代次數(shù)(ep)、批處理量(batch_size)、卷積核的個(gè)數(shù)(filters)、卷積核的大小(filters_size)以及測(cè)試集的劃分(test_size)等重要參數(shù)信息，3.4節(jié)將對(duì)批處理量等最優(yōu)參數(shù)的獲取過(guò)程進(jìn)行詳細(xì)說(shuō)明。

表3 最優(yōu)參數(shù)的設(shè)置

3.4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)將從批處理量參數(shù)對(duì)檢測(cè)結(jié)果的有效性、紋理圖像特征對(duì)檢測(cè)結(jié)果的有效性、URL詞向量特征對(duì)檢測(cè)結(jié)果的有效性與CATBL串聯(lián)聯(lián)合算法及其它機(jī)器學(xué)習(xí)算法的檢

測(cè)結(jié)果進(jìn)行對(duì)比以進(jìn)行本文的檢測(cè)結(jié)果分析。

3.4.1 批處理量參數(shù)對(duì)檢測(cè)結(jié)果的有效性

實(shí)驗(yàn)首先測(cè)試批處理量可變參數(shù)，為使檢測(cè)效果達(dá)到最優(yōu)，實(shí)驗(yàn)在同一數(shù)據(jù)集不同數(shù)據(jù)量條件下進(jìn)行對(duì)比，通過(guò)多次測(cè)試以得到最優(yōu)參數(shù)配置，實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 批處理量參數(shù)測(cè)試

由圖5中的多組檢測(cè)結(jié)果可以看到，在不同的數(shù)據(jù)量下批處理量參數(shù)不同時(shí)，獲得的檢測(cè)結(jié)果有一個(gè)共同點(diǎn)，即是當(dāng)批處理量參數(shù)為84時(shí)檢測(cè)結(jié)果最高，由此可以得到批處理量參數(shù)為84時(shí)為該參數(shù)的最優(yōu)配置。

3.4.2 紋理圖像特征對(duì)檢測(cè)結(jié)果的有效性

算法在不同的數(shù)據(jù)量下進(jìn)行了添加或刪除紋理圖像特征的方式進(jìn)行檢測(cè)實(shí)驗(yàn)，以得到的惡意URL檢測(cè)的準(zhǔn)確度來(lái)說(shuō)明紋理圖像特征的有效性。

從圖6可以看出，當(dāng)無(wú)紋理圖像特征時(shí)，得到的最高檢測(cè)結(jié)果為97.8%，而添加紋理圖像特征之后，得到的最高檢測(cè)結(jié)果為98.8%，且在不同的數(shù)據(jù)量下都具有更優(yōu)的檢測(cè)結(jié)果，所以可以得知紋理圖像特征對(duì)于惡意URL檢測(cè)的結(jié)果有著非常重要的影響。

圖6 紋理圖像特征對(duì)檢測(cè)結(jié)果的有效性

3.4.3 URL信息特征對(duì)檢測(cè)結(jié)果的有效性

此節(jié)在不同的數(shù)據(jù)量下進(jìn)行了添加或刪除URL信息特征的方式進(jìn)行檢測(cè)實(shí)驗(yàn)，得到惡意URL檢測(cè)的準(zhǔn)確度以說(shuō)明URL信息特征的有效性。

從圖7可以看到，當(dāng)無(wú)URL信息特征時(shí)，得到的最高檢測(cè)結(jié)果為96.6%，而添加URL信息特征之后，得到的最高檢測(cè)結(jié)果為98.8%，且在不同的數(shù)據(jù)量下都具有更優(yōu)的檢測(cè)結(jié)果，所以可以得知URL信息特征對(duì)于惡意URL檢測(cè)結(jié)果有非常重要的影響。

圖7 URL信息特征對(duì)檢測(cè)結(jié)果的有效性

3.4.4 與CATBL串聯(lián)聯(lián)合算法對(duì)比

在當(dāng)今的惡意URL檢測(cè)大多是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法，同時(shí)又出現(xiàn)了基于串聯(lián)聯(lián)合算法的檢測(cè)，并且相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法在惡意URL檢測(cè)方面具有顯著的提高，而串聯(lián)聯(lián)合算法無(wú)法學(xué)習(xí)得到全面特征，故本節(jié)我們將提出的CATBL并聯(lián)聯(lián)合算法與CATBL串聯(lián)聯(lián)合算法進(jìn)行對(duì)比。

從圖8可以看出，在不同的數(shù)據(jù)量下，CATBL并聯(lián)聯(lián)合算法在惡意URL檢測(cè)結(jié)果均高于CATBL串聯(lián)聯(lián)合算法檢測(cè)結(jié)果，在保證同樣的實(shí)驗(yàn)環(huán)境與算法參數(shù)的情況下，CATBL串聯(lián)聯(lián)合算法得到的惡意URL檢測(cè)的結(jié)果最高為98.08%，而CATBL并聯(lián)聯(lián)合算法得到的檢測(cè)結(jié)果為98.8%，由此可以看出，CATBL并聯(lián)聯(lián)合算法提高了CATBL串聯(lián)聯(lián)合算法在惡意URL檢測(cè)的結(jié)果。

圖8 CATBL串聯(lián)與并聯(lián)算法對(duì)比

3.4.5 其它機(jī)器學(xué)習(xí)算法的檢測(cè)結(jié)果

在本節(jié)，同單一機(jī)器學(xué)習(xí)算法KNN、高斯貝葉斯、深度學(xué)習(xí)模型CNN、Attention、Bi-LSTM進(jìn)行對(duì)比以驗(yàn)證提出CATBL并聯(lián)聯(lián)合算法在惡意URL檢測(cè)方面的有效性，其檢測(cè)結(jié)果對(duì)比見(jiàn)表4。

表4 同其它模型對(duì)比/%

由表4可以看出，KNN算法得到的最高檢測(cè)結(jié)果為84.35%，高斯貝葉斯得到的最高檢測(cè)結(jié)果為96.83%，CNN算法得到的最高檢測(cè)結(jié)果為97.9%，Attention算法得到的最高檢測(cè)結(jié)果為96.36%，Bi-LSTM算法得到的最高檢測(cè)結(jié)果為97.44%，而CATBL并聯(lián)聯(lián)合算法得到的最高檢測(cè)結(jié)果為98.8%，且在不同的數(shù)據(jù)量下，本文提出的CATBL并聯(lián)聯(lián)合算法的檢測(cè)結(jié)果均比KNN模型、高斯貝葉斯算法、CNN算法、Attention與Bi-LSTM算法在惡意URL檢測(cè)結(jié)果高，且有了明顯的升高。故可以說(shuō)明，CATBL并聯(lián)聯(lián)合算法提高了惡意URL檢測(cè)的結(jié)果。

4 結(jié)束語(yǔ)

本文提出了一種CATBL并聯(lián)聯(lián)合算法，提取了主機(jī)信息特征、URL信息特征與紋理圖像特征用于惡意URL檢測(cè)，通過(guò)從批處理量參數(shù)測(cè)試、紋理圖像特征測(cè)試、URL詞向量特征測(cè)試以及與其它機(jī)器學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)進(jìn)行算法有效性驗(yàn)證，檢測(cè)結(jié)果表明：通過(guò)融合主機(jī)信息特征、URL信息特征與紋理圖像特征訓(xùn)練的CATBL并聯(lián)聯(lián)合算法的惡意URL檢測(cè)準(zhǔn)確率達(dá)到了98.8%，與傳統(tǒng)的檢測(cè)方式相比有了較為明顯的提升。