亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN和BiLSTM的釣魚URL檢測(cè)技術(shù)研究

        2021-12-14 06:37:32卜佑軍張穌榮王方玉
        關(guān)鍵詞:集上字符釣魚

        卜佑軍, 張 橋,, 陳 博, 張穌榮, 王方玉

        (1.中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué),河南 鄭州 450001; 2.鄭州大學(xué) 中原網(wǎng)絡(luò)安全研究院,河南 鄭州 450001)

        0 引言

        近年來,互聯(lián)網(wǎng)快速發(fā)展,在線購(gòu)物、電子商務(wù)和網(wǎng)絡(luò)社交等基于互聯(lián)網(wǎng)的應(yīng)用給人們的工作和生活帶來了極大的便利。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心CNNIC統(tǒng)計(jì),截至2020年3月,中國(guó)網(wǎng)民規(guī)模達(dá)到了9.04億,互聯(lián)網(wǎng)普及率達(dá)到了64.5%[1]。與此同時(shí),網(wǎng)民信息亦面臨著安全威脅,如網(wǎng)絡(luò)攻擊者通過網(wǎng)絡(luò)釣魚竊取個(gè)人敏感信息進(jìn)而非法獲取經(jīng)濟(jì)利益。截至2020年8月,中國(guó)反釣魚聯(lián)盟累計(jì)認(rèn)定的釣魚網(wǎng)站數(shù)量達(dá)到了469 252個(gè)[2]。因此,如何及時(shí)、有效地檢測(cè)釣魚網(wǎng)站已經(jīng)成為亟待解決的問題。

        目前,針對(duì)網(wǎng)絡(luò)釣魚,黑名單方法只需進(jìn)行簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢操作,是一種較為簡(jiǎn)單的檢測(cè)方法。Malware Domain List和PhishTank這2種算法使用的都是基于黑名單的檢測(cè)方法[3-4]。然而目前網(wǎng)址生成算法比較成熟,每天都會(huì)出現(xiàn)大量的釣魚網(wǎng)址,黑名單數(shù)據(jù)庫(kù)無法及時(shí)包含所有的釣魚網(wǎng)址。根據(jù)Sheng等[5]的研究,約47%~83%的釣魚網(wǎng)址在釣魚事件發(fā)生12 h之后才被列入黑名單中。Aleroud等[6]指出約有93%的釣魚網(wǎng)址沒有被主流的黑名單收錄?;诤诿麊螜z測(cè)釣魚網(wǎng)頁(yè)的局限性在于要不斷收集釣魚網(wǎng)址樣本并及時(shí)更新黑名單數(shù)據(jù)庫(kù)。

        針對(duì)黑名單方法存在的局限性,有研究人員使用機(jī)器學(xué)習(xí)方法來檢測(cè)釣魚網(wǎng)頁(yè)。Liu等[7]提取網(wǎng)頁(yè)內(nèi)鏈接關(guān)系、敏感詞排序等特征,利用機(jī)器學(xué)習(xí)識(shí)別釣魚網(wǎng)頁(yè),取得了較高的準(zhǔn)確率及較低的誤報(bào)率,實(shí)驗(yàn)結(jié)果表明,該方法可以識(shí)別91.44%釣魚網(wǎng)頁(yè)。Ma等[8]利用機(jī)器學(xué)習(xí)在多個(gè)公開數(shù)據(jù)集上測(cè)試,實(shí)驗(yàn)結(jié)果表明,該方法的檢測(cè)準(zhǔn)確率達(dá)到了94%。該類方法使用機(jī)器學(xué)習(xí)技術(shù)達(dá)到了較高的檢測(cè)準(zhǔn)確率且能夠識(shí)別未知的釣魚網(wǎng)頁(yè),但也存在較大的局限性:①需要大量的手動(dòng)特征工程,其中許多特征需要相關(guān)專家來確認(rèn);②需要獲取網(wǎng)頁(yè)內(nèi)容,增加了客戶端開銷和風(fēng)險(xiǎn)且檢測(cè)算法的時(shí)間復(fù)雜度高;③有些釣魚網(wǎng)站能夠隱藏其網(wǎng)頁(yè)內(nèi)容,即向不同的客戶端提供不同的內(nèi)容[9],比如,釣魚網(wǎng)站可能會(huì)將合法頁(yè)面發(fā)送給蜜罐客戶端,但將釣魚網(wǎng)頁(yè)發(fā)送給其他人工訪問客戶端。

        為了克服上述2種檢測(cè)方法的弊端,已有研究者使用了深度學(xué)習(xí)技術(shù),通過自動(dòng)提取URL特征來判別其所屬類別,以檢測(cè)其對(duì)應(yīng)網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。Kim[10]于2014年利用CNN對(duì)文本進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明,CNN在文本上具有較強(qiáng)的分類能力。此后有一些研究人員嘗試使用CNN對(duì)釣魚URL進(jìn)行檢測(cè)。Zhang等[11]利用單詞級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)對(duì)URL進(jìn)行分類,即根據(jù)特殊字符對(duì)數(shù)據(jù)集中的URL進(jìn)行單詞級(jí)別的劃分并形成一個(gè)語(yǔ)料庫(kù)。訓(xùn)練語(yǔ)料庫(kù)中的每個(gè)單詞表示為一個(gè)向量,然后將待測(cè)URL分詞,獲取單詞的向量表示并組合形成一個(gè)向量矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中來判斷相應(yīng)的URL所屬類型。Cui等[12]利用字符級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)惡意URL,即將URL按字符劃分,獲取每個(gè)字符的向量且組合形成一個(gè)向量矩陣,然后將此矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中來判斷相應(yīng)的URL所屬類型。Yu等[13]在對(duì)惡意域名的檢測(cè)實(shí)驗(yàn)中對(duì)比了多種深度學(xué)習(xí)模型,如CNN、RNN,在這些實(shí)驗(yàn)中,基于深度學(xué)習(xí)的檢測(cè)方法均優(yōu)于基于手工特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法。

        雖然上述工作已經(jīng)取得了較好的表現(xiàn),但仍然存在以下3個(gè)問題:①基于單詞劃分URL在測(cè)試時(shí)無法獲得新出現(xiàn)的單詞的嵌入向量,基于字符劃分URL會(huì)導(dǎo)致URL中一些特有的敏感詞丟失有效信息;②無法獲取特殊字符的分布與類型及與周圍詞的前后關(guān)系;③URL是一種序列數(shù)據(jù),數(shù)據(jù)之間存在著長(zhǎng)距離依賴關(guān)系, CNN無法獲取URL數(shù)據(jù)的長(zhǎng)距離依賴關(guān)系。

        針對(duì)以上問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)和雙向長(zhǎng)短記憶網(wǎng)絡(luò)(bi-directional long short-term me-mory, BiLSTM)的釣魚URL檢測(cè)方法CNN-BiLSTM。該方法通過CNN來獲取URL的空間局部特征,通過BiLSTM獲取URL的長(zhǎng)距離依賴特征。此外,對(duì)URL的分詞方法做了改進(jìn),提出了一種基于敏感詞分詞的方法,有效提升了URL數(shù)據(jù)信息的利用程度。實(shí)驗(yàn)中通過與傳統(tǒng)機(jī)器學(xué)習(xí)方法和單一模型的比較表明了所提方法的有效性。

        1 字符詞向量

        深度學(xué)習(xí)模型只能處理經(jīng)過數(shù)值化的向量,因此在對(duì)URL數(shù)據(jù)提取特征時(shí)需要先將其分詞、編碼并轉(zhuǎn)化為d維詞向量,用不同詞在d維空間的距離來表示它們之間的語(yǔ)義相似度。當(dāng)前使用深度學(xué)習(xí)方法檢測(cè)URL常用的分詞方法有基于單詞劃分URL和基于字符劃分URL 2種。

        基于單詞劃分URL使其轉(zhuǎn)化為單詞級(jí)詞向量,利用特殊字符分割URL可能會(huì)使單詞的數(shù)量相當(dāng)大,造成該數(shù)據(jù)集的特征也按比例增大,通常會(huì)大于相應(yīng)訓(xùn)練數(shù)據(jù)集中URL的數(shù)量,導(dǎo)致在進(jìn)行特征向量的轉(zhuǎn)換時(shí)內(nèi)存受到限制,在測(cè)試集上無法獲得新出現(xiàn)單詞的嵌入向量。

        相比于按單詞劃分URL,基于字符劃分URL使URL轉(zhuǎn)化為字符級(jí)詞向量能夠在測(cè)試集上獲得新的URL的嵌入向量,避免了無法從不可見的單詞中提取特征的問題。另外由于字符總數(shù)是固定的,在進(jìn)行特征向量的轉(zhuǎn)換時(shí)不會(huì)受到內(nèi)存的限制且字符級(jí)分類器的大小保持固定。但是將URL劃分為單個(gè)的字符會(huì)導(dǎo)致一些敏感詞如login、password、registed等丟失部分有效信息,因此,根據(jù)字符劃分URL不足以使神經(jīng)網(wǎng)絡(luò)分類器從URL字符串中獲取較為全面的信息。

        針對(duì)上述分詞方法存在的問題,本文提出了一種基于敏感詞分詞的方法,如表1中以網(wǎng)址www.ccd.cn.bank.com為例。首先根據(jù)特殊字符和敏感詞對(duì)URL進(jìn)行單詞級(jí)別劃分,并將特殊字符看作單詞處理以獲得特殊字符的有效信息。然后對(duì)其中的非敏感詞進(jìn)行字符級(jí)別劃分,而將其中的敏感詞作為一個(gè)整體與其余字符進(jìn)行區(qū)分,這樣能夠明顯標(biāo)記URL中的重點(diǎn)信息,有利于神經(jīng)網(wǎng)絡(luò)分類器提取更具有代表性的特征。

        表1 URL的3種分詞方法Table 1 Three methods of URL segmentation

        2 模型結(jié)構(gòu)

        基于CNN-BiLSTM檢測(cè)URL類別的模型框架包括4個(gè)部分。URL輸入依次經(jīng)過詞嵌入層、卷積神經(jīng)網(wǎng)絡(luò)層、循環(huán)神經(jīng)網(wǎng)絡(luò)層和全連接層,最終輸出URL的分類結(jié)果。其中循環(huán)神經(jīng)網(wǎng)絡(luò)層采用長(zhǎng)短期記憶網(wǎng)絡(luò), 各層網(wǎng)絡(luò)的細(xì)節(jié)如下所述。

        2.1 詞嵌入層

        URL本質(zhì)上是由一系列字符或由特殊字符分隔的單詞組成。詞嵌入層將U轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠識(shí)別的特征向量,即得到它的嵌入矩陣表示U→X∈RL×K,使得矩陣X包含一組相鄰分量xi(i=1,2,…,L),其中xi為URL中的字符或單詞的向量表示,xi∈RK為K維向量。本文根據(jù)URL數(shù)據(jù)集和敏感詞匯表(account,admin,administrator, auth,bank,client,confirm,cmd,email host,login, password,pay,private,registed,safe,secure,security, sign,service,signin,submit,user,update,validation, verification,webscr)確定每條URL中字符及關(guān)鍵字的總長(zhǎng)度L為300。若L超過300,則在URL末尾將多余的字符截?cái)?;若L小于300,則在其末尾用標(biāo)記作為附加詞填充。若URL中出現(xiàn)未知字符,則用未知字符標(biāo)記表示。根據(jù)映射表為字符和敏感詞賦予唯一編碼構(gòu)建URL的編碼矩陣,如式(1)所示:

        U′=(u′1,u′2,…,u′300)。

        (1)

        式中:u′i為URL中字符或單詞的編碼。

        隨后將矩陣U′經(jīng)詞嵌入層轉(zhuǎn)換為300×64的包含語(yǔ)義信息的二維稠密矩陣X,作為卷積層的輸入,如式(2)所示:

        X=(x1,x2,…,x300)。

        (2)

        式中:xi是64維列向量。

        2.2 卷積網(wǎng)絡(luò)層

        如圖1所示,將詞向量矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過卷積核從特征矩陣中自動(dòng)提取局部特征,卷積核高度h設(shè)置為2,寬度與字符向量的維度一致為64,卷積核的數(shù)量為200,卷積核滑動(dòng)步長(zhǎng)設(shè)置為1。對(duì)于某個(gè)卷積核f在第i個(gè)滑動(dòng)窗口處獲取的URL嵌入矩陣設(shè)為Xi:

        圖1 卷積層網(wǎng)絡(luò)結(jié)構(gòu)Figure 1 Convolution layer structure

        Xi=[xi,xi+1,…,xi+h-1]。

        (3)

        式中:xi為字符或敏感詞的向量表示。

        (4)

        式中:Wf和bf分別為權(quán)重矩陣和偏置項(xiàng);σ(·)為激活函數(shù), 使神經(jīng)網(wǎng)絡(luò)具有擬合非線性函數(shù)的能力。

        卷積核遍歷整個(gè)嵌入矩陣后產(chǎn)生一個(gè)特征圖,記為cf:

        (5)

        將X經(jīng)所有卷積核卷積池化后得到的新特征圖堆疊得到一個(gè)序列矩陣,記為M:

        M=[m1,m2,…,ms]。

        (6)

        式中:s=「(L-h+1)/pl?,pl為池化窗口;mi為所有卷積核對(duì)URL詞嵌入矩陣的同一區(qū)域經(jīng)卷積、池化操作后的特征所組成的特征向量,mi∈Rn×1,n為卷積核個(gè)數(shù)。

        2.3 BiLSTM層

        雙向長(zhǎng)短記憶網(wǎng)絡(luò)BiLSTM由2個(gè)方向相反的LSTM組成,二者網(wǎng)絡(luò)結(jié)構(gòu)相同,但權(quán)重參數(shù)不同。LSTM是RNN的一種變體,RNN由于梯度消失或梯度爆炸的原因只能獲取短距離依賴信息,LSTM通過在網(wǎng)絡(luò)節(jié)點(diǎn)上加上門結(jié)構(gòu)以控制數(shù)據(jù)流動(dòng),避免梯度消失或梯度爆炸的問題。LSTM有3個(gè)門,自左向右分別為遺忘門、輸入門、輸出門,如圖2所示。每個(gè)門都由一個(gè)激活函數(shù)σ(·)和一個(gè)點(diǎn)乘操作組成,其中σ(·)輸出0~1的數(shù)值,描述了數(shù)據(jù)通過此門的比例程度,正向 LSTM 依時(shí)間順序讀入數(shù)據(jù),以使信息沿時(shí)間起點(diǎn)正向傳遞,從而獲取序列的前文信息,分為以下4個(gè)步驟。

        圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 LSTM network structure

        步驟1通過遺忘門從(t-1)時(shí)刻的細(xì)胞狀態(tài)ct-1中丟棄一定比例的信息。遺忘門t時(shí)刻的值為

        ft=σ(wf·[ht-1,xt]+bf)。

        (7)

        式中:wf為遺忘門權(quán)重矩陣;bf為遺忘門偏置;ht-1為(t-1)時(shí)刻的隱藏狀態(tài)。

        it=σ(wi·[ht-1,xt]+bi);

        (8)

        (9)

        步驟3更新(t-1)時(shí)刻的細(xì)胞狀態(tài)ct-1,計(jì)算t時(shí)刻的細(xì)胞狀態(tài)。首先利用舊細(xì)胞狀態(tài)與遺忘門輸出點(diǎn)乘以丟棄舊細(xì)胞的部分信息,然后利用臨時(shí)細(xì)胞狀態(tài)與輸入門輸出點(diǎn)乘以得到需要加入細(xì)胞的新信息,最后利用二者的和得到新的細(xì)胞狀態(tài)ct:

        (10)

        步驟4通過輸出門的σ層計(jì)算輸出比例ot,然后將新的細(xì)胞狀態(tài)輸入tanh層進(jìn)行處理,最后將二者進(jìn)行點(diǎn)乘操作得到t時(shí)刻輸出的值ht:

        ot=σ(wo·[ht-1,xt]+bo);

        (11)

        ht=ot?tanhct。

        (12)

        細(xì)胞狀態(tài)ct水平方向自左向右移動(dòng),新的細(xì)胞狀態(tài)是舊細(xì)胞狀態(tài)的累加。這種細(xì)胞狀態(tài)的累加方式會(huì)導(dǎo)致對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)其導(dǎo)數(shù)也是一種累加形式而不是累乘,避免梯度消失或梯度爆炸的問題,能夠?qū)χ暗男畔⑦M(jìn)行長(zhǎng)期記憶。逆向LSTM則沿時(shí)間終點(diǎn)逆向傳遞以獲取序列的下文信息,信息傳遞過程與正向LSTM類似。

        本文將卷積網(wǎng)絡(luò)層的輸出M看作時(shí)間軸上的序列信息作為BiLSTM的輸入,mi與BiLSTM第i個(gè)時(shí)刻的輸入對(duì)應(yīng)。正向LSTM通過遺忘門、輸入門、輸出門來記憶i=s時(shí)刻之前的信息,將此時(shí)刻的輸出記為hF。反向LSTM通過遺忘門、輸入門、輸出門來記憶i=1時(shí)刻之后的信息,將此時(shí)刻的輸出記為hR。將2個(gè)不同方向的LSTM最后時(shí)刻的輸出進(jìn)行拼接,記為h=hF⊕hR(⊕表示拼接運(yùn)算符),以獲取URL不同方向的長(zhǎng)距離依賴特征。

        2.4 全連接層

        全連接層用于完成最終的分類功能,本文將其網(wǎng)絡(luò)層數(shù)設(shè)置為1,神經(jīng)元個(gè)數(shù)設(shè)置為2,通過softmax激活函數(shù)計(jì)算待測(cè)URL屬于釣魚或合法網(wǎng)頁(yè)的概率:

        (13)

        式中:zi=wih+bi,wi和bi分別為權(quán)重和偏置參數(shù);i為URL類別索引(0表示釣魚URL,1表示合法URL);k為URL類別總數(shù),值為2。

        2.5 模型實(shí)現(xiàn)

        首先基于敏感詞分詞方法對(duì)URL進(jìn)行分詞,并對(duì)分詞后的數(shù)據(jù)進(jìn)行整數(shù)編碼,將其映射為300×1的一維矩陣;通過詞嵌入層轉(zhuǎn)換為300×64的二維稠密矩陣;通過一個(gè)卷積層進(jìn)行卷積操作,并使用最大池化窗口獲取更具有代表性的特征,實(shí)驗(yàn)中采用的卷積核個(gè)數(shù)為200,池化窗口為2,滑動(dòng)步長(zhǎng)為1,將所有卷積核對(duì)詞嵌入矩陣經(jīng)卷積池化后形成的特征圖按列堆疊形成200×298的矩陣,將其每行作為BiLSTM層對(duì)應(yīng)時(shí)刻的輸入;利用BiLSTM的雙向網(wǎng)絡(luò)結(jié)構(gòu)獲取序列數(shù)據(jù)的上下文信息,充分學(xué)習(xí)特征之間的長(zhǎng)距離依賴關(guān)系,實(shí)驗(yàn)中該網(wǎng)絡(luò)的隱藏層神經(jīng)元個(gè)數(shù)設(shè)置為64,經(jīng)過該網(wǎng)絡(luò)后,特征矩陣被轉(zhuǎn)化為一個(gè)128維的向量;最后使用全連接層中的softmax函數(shù)將BiLSTM層輸出的向量轉(zhuǎn)換為URL屬于合法或釣魚的概率,根據(jù)交叉熵?fù)p失函數(shù)計(jì)算概率值和真實(shí)值之間的損失,通過反向傳播算法更新網(wǎng)絡(luò)模型參數(shù)。模型的整體結(jié)構(gòu)如圖3所示。

        圖3 CNN-BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 CNN-BiLSTM network structure

        3 實(shí)驗(yàn)部分

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用的數(shù)據(jù)集包括多個(gè)平臺(tái)提供的開源樣本,從PhishTank和Malware Patrol獲取釣魚URL,從Dmoz和Alexa獲取合法URL,以此來豐富URL數(shù)據(jù)的來源。對(duì)數(shù)據(jù)去重后,數(shù)據(jù)集中共包含206 200條帶標(biāo)簽的URL樣本,其中釣魚樣本105 100條,合法樣本101 100條,二者比例約為1∶1。

        3.2 評(píng)估標(biāo)準(zhǔn)

        本文為了驗(yàn)證釣魚網(wǎng)頁(yè)檢測(cè)方法的有效性,采用準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值作為評(píng)價(jià)指標(biāo)。Precision表示被正確判斷為釣魚網(wǎng)頁(yè)類別的網(wǎng)頁(yè)占全部被判斷為釣魚網(wǎng)頁(yè)類別的網(wǎng)頁(yè)的比重,體現(xiàn)了檢測(cè)方法對(duì)合法網(wǎng)頁(yè)的區(qū)分能力,Recall則體現(xiàn)了對(duì)釣魚網(wǎng)頁(yè)的識(shí)別能力,F(xiàn)1值同時(shí)考慮到了精確率和準(zhǔn)確率,是二者的加權(quán)平均,能綜合評(píng)估檢測(cè)模型的性能。計(jì)算式為

        Accuracy=(TP+TN)/(TP+FP+TN+FN);

        (14)

        Precision=TP/(TP+FP);

        (15)

        Recall=TP/(TP+FN);

        (16)

        F1=2·Precision·Recall/(Precision+Recall)。

        (17)

        式中:TP表示預(yù)測(cè)的釣魚網(wǎng)頁(yè)實(shí)際為釣魚網(wǎng)頁(yè)的數(shù)量;FP表示預(yù)測(cè)的釣魚網(wǎng)頁(yè)實(shí)際為合法網(wǎng)頁(yè)的數(shù)量;TN表示預(yù)測(cè)的合法網(wǎng)頁(yè)實(shí)際為合法網(wǎng)頁(yè)的數(shù)量;FN表示預(yù)測(cè)的合法網(wǎng)頁(yè)實(shí)際為釣魚網(wǎng)頁(yè)的數(shù)量。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        3.3.1 CNN-BiLSTM在數(shù)據(jù)集上的準(zhǔn)確率

        本文對(duì)URL數(shù)據(jù)集采用十折交叉驗(yàn)證法,即將樣本分為10組,其中1組包含10 510條釣魚URL和10 110條合法URL作為測(cè)試集,另外9組包含94 590條釣魚URL和90 990條合法URL作為訓(xùn)練集,該過程循環(huán)10次,保證每組樣本數(shù)據(jù)都能作為測(cè)試集預(yù)測(cè),將得到的10次測(cè)試結(jié)果取平均值評(píng)測(cè)模型的檢測(cè)能力。圖4是本文所提模型在十折交叉驗(yàn)證下,其準(zhǔn)確率在訓(xùn)練集和測(cè)試集上的平均變化曲線。從圖4中可以看出,訓(xùn)練過程中模型的參數(shù)收斂正常,當(dāng)訓(xùn)練輪數(shù)為30時(shí),模型的訓(xùn)練、測(cè)試準(zhǔn)確率趨于穩(wěn)定。

        圖4 CNN-BiLSTM在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率變化曲線Figure 4 Accuracy curve of CNN-BiLSTM on training set and test set

        3.3.2 不同模型在數(shù)據(jù)集上的檢測(cè)效果

        為了體現(xiàn)基于敏感詞(sensitive word)分詞方法的有效性,首先通過對(duì)URL數(shù)據(jù)采用3種不同的分詞方法來訓(xùn)練CNN模型,分別為基于字符劃分URL的字符級(jí)CNN模型char-CNN、基于單詞劃分URL的詞級(jí)CNN模型word-CNN、基于敏感詞劃分URL的敏感詞級(jí)CNN模型sw-CNN,觀察它們?cè)跍y(cè)試集上的檢測(cè)效果,如表2所示。與char-CNN、word-CNN相比,sw-CNN在準(zhǔn)確率、精確率、召回率和F1值這4個(gè)評(píng)估指標(biāo)上均達(dá)到較好的檢測(cè)效果,這表明本文所提出的基于敏感詞分詞的方法能夠有效提升檢測(cè)模型對(duì)釣魚URL的檢測(cè)能力。

        表2 所有模型在測(cè)試集上的最終檢測(cè)結(jié)果Table 2 Final test results of all models on test set

        此外,為體現(xiàn)檢測(cè)模型CNN-BiLSTM的優(yōu)勢(shì),將其與深度學(xué)習(xí)模型CNN、CNN-RNN對(duì)比,通過對(duì)URL數(shù)據(jù)采用敏感詞分詞的方法來訓(xùn)練生成2個(gè)檢測(cè)模型sw-CNN-RNN、sw-CNN-BiLSTM,觀察它們?cè)跍y(cè)試集上的檢測(cè)效果,如表2所示,同時(shí)對(duì)這些模型在訓(xùn)練集與測(cè)試集的準(zhǔn)確率做了記錄,如圖5、6所示。結(jié)合表2、圖5、圖6可以看出,本文所涉及的5種檢測(cè)模型在相同數(shù)據(jù)集上均獲得了較高的檢測(cè)準(zhǔn)確率。其中,檢測(cè)模型char-CNN在訓(xùn)練集及測(cè)試集上剛開始就達(dá)到了較高的準(zhǔn)確率,但隨著訓(xùn)練輪數(shù)的增加,準(zhǔn)確率的提升程度不大。word-CNN在訓(xùn)練集與驗(yàn)證集上的準(zhǔn)確率變化曲線與char-CNN類似,但準(zhǔn)確率低于char-CNN模型,該結(jié)果可能源于以下3個(gè)方面:①通過“.”“”“?”等特殊字符對(duì)URL分詞時(shí)忽略了特殊字符所具有的有效信息;②為了避免內(nèi)存受限,將數(shù)據(jù)集中僅出現(xiàn)一次的單詞統(tǒng)一標(biāo)記為而忽略了這些單詞的有效信息;③無法獲得新出現(xiàn)單詞的有效信息。sw-CNN由于能夠獲取到URL中敏感詞的有效信息,其準(zhǔn)確率高于char-CNN。

        圖5 不同模型在訓(xùn)練集上的準(zhǔn)確率Figure 5 Accuracy of different models on training set

        圖6 不同模型在測(cè)試集上的準(zhǔn)確率Figure 6 Accuracy of different models on test set

        sw-CNN-RNN雖然采用混合網(wǎng)絡(luò)模型用于提取URL特征,但由于RNN無法獲取到URL的長(zhǎng)距離依賴特征,反而導(dǎo)致其檢測(cè)準(zhǔn)確率低于單模型結(jié)構(gòu)的char-CNN和sw-CNN。檢測(cè)模型sw-CNN-BiLSTM相比以上模型能夠獲取到更為充分的URL特征,達(dá)到了最高的檢測(cè)準(zhǔn)確率、精確率、召回率和F1值。

        3.3.3 不同模型對(duì)不同長(zhǎng)度的URL的檢測(cè)效果

        另外,在實(shí)驗(yàn)過程中發(fā)現(xiàn),sw-CNN-BiLSTM對(duì)URL短字符串也有較好的檢測(cè)效果。為了研究其對(duì)短字符串的檢測(cè)性能,在相同的實(shí)驗(yàn)環(huán)境下,將URL長(zhǎng)度分別設(shè)置為15、25、50、100、200、300、400,觀察其檢測(cè)效果,結(jié)果如圖7所示。在URL長(zhǎng)度降至15時(shí),sw-CNN-BiLSTM的檢測(cè)準(zhǔn)確率也能達(dá)到87%,而sw-CNN-RNN、sw-CNN與word-CNN的準(zhǔn)確率分別為72%、78%、70%。實(shí)驗(yàn)結(jié)果表明,sw-CNN-BiLSTM對(duì)URL短鏈接也有較好的檢測(cè)效果。

        圖7 不同模型在測(cè)試集上對(duì)不同長(zhǎng)度的URL的檢測(cè)準(zhǔn)確率Figure 7 Detection accuracy of different models for URL of different length on test set

        4 結(jié)論

        (1)提出了一種融合CNN與BiLSTM的檢測(cè)模型,該模型能夠兼顧C(jī)NN和BiLSTM的特點(diǎn),充分提取URL數(shù)據(jù)的空間局部特征及長(zhǎng)距離依賴特征。

        (2)提出了一種基于敏感詞分詞的方法,該方法能夠獲取新出現(xiàn)單詞的嵌入向量,也能獲取URL中敏感詞、特殊字符的有效信息,提升了URL數(shù)據(jù)信息的利用程度。

        (3)在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的基于CNN-BiLSTM的釣魚URL檢測(cè)方法可以有效提升對(duì)釣魚網(wǎng)頁(yè)檢測(cè)的能力。

        猜你喜歡
        集上字符釣魚
        尋找更強(qiáng)的字符映射管理器
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        復(fù)扇形指標(biāo)集上的分布混沌
        釣魚
        第七章 去泥盆紀(jì)釣魚
        第七章 去泥盆紀(jì)釣魚
        亚洲国产成人精品一区刚刚| 久久久国产一区二区三区四区小说| AV有码在线免费看| 亚洲日产国无码| 亚洲岛国一区二区三区| 国产在热线精品视频| 国产乱子伦一区二区三区| 国产免费人成视频在线播放播| 一二区视频免费在线观看| 国产99一区二区三区四区| 一本色道久久综合无码人妻| 先锋影音av资源我色资源| 日韩国产自拍精品在线| 亚洲中文字幕九色日本| 国产欧美日韩一区二区三区| 国产成+人+综合+亚洲 欧美| 曰本亚洲欧洲色a在线| 最近更新中文字幕一区二区| 日本大骚b视频在线| 国产精品厕所| 国产粉嫩美女一区二区三| 一区二区在线观看视频高清| 粗大猛烈进出白浆视频| 亚洲三级黄色| 成人性生交c片免费看| 在线一区二区三区国产精品| 国产av综合影院| 亚洲午夜成人片| 青青草成人原视频在线播放视频| 久久精品成人一区二区三区| 一本大道久久东京热无码av| 丰满熟妇人妻无码区| 久久亚洲免费精品视频| 在线观看成人无码中文av天堂| 国产毛片网| av免费一区在线播放| 午夜天堂av天堂久久久| 久久婷婷香蕉热狠狠综合| 2022AV一区在线| 亚洲最大中文字幕熟女| 无套内射无矿码免费看黄|