針對(duì)傳統(tǒng)方法難以對(duì)大規(guī)模釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè)的問(wèn)題,提出基于特征篩選的輕量級(jí)層次化檢測(cè)方法(lightweight hierarchical detection method based on feature filtering,LHFF).該方法首先使用互信息對(duì)原始特征集進(jìn)行篩選,剔除冗余特征,并將篩選后的特征按照提取特征耗時(shí)長(zhǎng)短劃分為URL特征和網(wǎng)站特征,然后根據(jù)劃分后的特征,使用輕量級(jí)層次化檢測(cè)框架對(duì)釣魚(yú)網(wǎng)站進(jìn)行檢測(cè).實(shí)驗(yàn)結(jié)果表明,LHFF能夠在保障良好檢測(cè)性能的前提下,減少網(wǎng)站檢測(cè)所需要的時(shí)間,滿(mǎn)足對(duì)大規(guī)模釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè)的需求.
釣魚(yú)網(wǎng)站; 批量檢測(cè); 互信息; 輕量級(jí); 層次化
TP309.9
A
0804-08
06.010
隨著互聯(lián)網(wǎng)的發(fā)展,釣魚(yú)網(wǎng)站作為造成用戶(hù)信息泄露和經(jīng)濟(jì)損失的新型網(wǎng)絡(luò)攻擊手段之一,被越來(lái)越多的不法分子所利用.根據(jù)國(guó)際反釣魚(yú)工作組(APWG)[1]發(fā)布的資料顯示,在2022年第三季度共監(jiān)測(cè)到了1 270 883次釣魚(yú)網(wǎng)站攻擊,創(chuàng)下歷史新高.釣魚(yú)網(wǎng)站的數(shù)量巨大,且增長(zhǎng)速度快,而大多數(shù)互聯(lián)網(wǎng)用戶(hù)對(duì)釣魚(yú)網(wǎng)站的防范意識(shí)較低,容易陷入釣魚(yú)網(wǎng)絡(luò)攻擊中,給互聯(lián)網(wǎng)用戶(hù)的財(cái)產(chǎn)和個(gè)人隱私帶來(lái)很大的風(fēng)險(xiǎn).因此,面對(duì)數(shù)量龐大的釣魚(yú)網(wǎng)站,如何快速且有效地對(duì)其進(jìn)行批量檢測(cè)已經(jīng)成為社會(huì)急需解決的問(wèn)題.
針對(duì)釣魚(yú)網(wǎng)站的主流檢測(cè)方法有基于黑名單的檢測(cè)方法、基于網(wǎng)頁(yè)視覺(jué)相似度的檢測(cè)方法和基于網(wǎng)站特征的檢測(cè)方法.
基于黑名單的檢測(cè)方法是通過(guò)對(duì)URL進(jìn)行篩選過(guò)濾[2],以達(dá)到檢測(cè)釣魚(yú)網(wǎng)站的目的.該方法有著較高的準(zhǔn)確率,但是釣魚(yú)網(wǎng)站存活時(shí)間較短(一般只有2 h),而大多數(shù)釣魚(yú)網(wǎng)站在12 h以后才能被黑名單錄入,黑名單的更新速度遠(yuǎn)遠(yuǎn)滯后于釣魚(yú)網(wǎng)站的出現(xiàn)速度,導(dǎo)致該方法的漏檢率較高.
基于網(wǎng)頁(yè)視覺(jué)相似度的檢測(cè)方法需要維護(hù)一個(gè)受保護(hù)網(wǎng)頁(yè)列表,通過(guò)比較可疑網(wǎng)站頁(yè)面和受保護(hù)網(wǎng)站頁(yè)面的視覺(jué)相似度,包括塊相似度、布局相似度和整體風(fēng)格相似度來(lái)檢測(cè)釣魚(yú)網(wǎng)站[3-5].該方法檢測(cè)準(zhǔn)確率高,但是該方法需要將網(wǎng)頁(yè)轉(zhuǎn)變?yōu)閳D像后進(jìn)行檢測(cè),導(dǎo)致其計(jì)算復(fù)雜度較高.
基于網(wǎng)站特征的檢測(cè)方法是通過(guò)URL、Web內(nèi)容和第三方資源等多個(gè)維度的特征對(duì)釣魚(yú)網(wǎng)站進(jìn)行檢測(cè)[6-10].該方法能夠保證在較低漏檢率的同時(shí)有著較高的準(zhǔn)確率,但是該方法提取特征耗時(shí)較長(zhǎng),無(wú)法滿(mǎn)足在實(shí)際場(chǎng)景中對(duì)大規(guī)模釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè)的需求.
為了解決上述問(wèn)題,本文提出了一種基于特征篩選的輕量級(jí)層次化釣魚(yú)網(wǎng)站檢測(cè)方法(lightweight hierarchical detection method based on feature filtering,LHFF),主要貢獻(xiàn)如下:
1) 計(jì)算特征與標(biāo)簽間的互信息值,剔除特征集的冗余特征,提高釣魚(yú)網(wǎng)站檢測(cè)的準(zhǔn)確率.
2) 提出了一種輕量級(jí)層次化檢測(cè)框架,能夠在保證準(zhǔn)確率的同時(shí)減少檢測(cè)時(shí)間,滿(mǎn)足對(duì)大規(guī)模釣魚(yú)網(wǎng)站批量檢測(cè)的需求.
1 基礎(chǔ)理論
1.1 互信息 互信息(mutual information)是反映2個(gè)變量間相互依賴(lài)性的度量,表示給定一個(gè)隨機(jī)變量后,另一個(gè)隨機(jī)變量不確定性的削弱程度.本文用其來(lái)評(píng)價(jià)特征和標(biāo)簽之間的依賴(lài)性與相關(guān)性.互信息如(1)式所示:
I(X,Y)=∑yi∈Y∑xi∈XP(xi,yi)log2P(xi,yi)P(xi)P(yi),
(1)
其中,X表示特征,Y表示類(lèi)別,xi為該特征的值,yi為類(lèi)別取值,P(xi,yi)為變量X和Y的聯(lián)合概率分布.
當(dāng)X和Y完全無(wú)關(guān)或相互獨(dú)立時(shí),它們的互信息達(dá)到最小值0,這意味著兩者之間不存在關(guān)聯(lián);反之,當(dāng)兩者的依賴(lài)程度越高時(shí),互信息I(X;Y)值也就越大,特征也越重要.
1.2 深度可分離卷積 傳統(tǒng)卷積是在所有輸入通道上均使用一個(gè)卷積核進(jìn)行卷積操作,輸入通道有幾維,卷積核也就需要有著同樣的維度[11].因此,傳統(tǒng)卷積需要大量的權(quán)重參數(shù)來(lái)捕捉不同的特征,存在參數(shù)數(shù)量過(guò)多、計(jì)算量較大等缺點(diǎn).為了解決上述問(wèn)題,本文引入深度可分離卷積來(lái)替代傳統(tǒng)卷積.
深度可分離卷積由逐通道卷積和逐點(diǎn)卷積組成[12-13].相較于傳統(tǒng)卷積,深度可分離卷積可以顯著減少網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度.逐通道卷積是對(duì)每個(gè)輸入通道進(jìn)行分組,每個(gè)組單獨(dú)進(jìn)行卷積,輸出通道數(shù)不變,卷積核的個(gè)數(shù)與輸入通道數(shù)相等,每個(gè)卷積核只需要對(duì)一個(gè)通道進(jìn)行卷積,不同通道之間的卷積操作是相互獨(dú)立的,降低了每個(gè)卷積核的維度.但是,單獨(dú)對(duì)一個(gè)通道的數(shù)據(jù)進(jìn)行卷積運(yùn)算,則僅提取了數(shù)據(jù)某一維度的特征,將會(huì)導(dǎo)致提取的特征不夠全面.因此,在此基礎(chǔ)上加入逐點(diǎn)卷積.逐點(diǎn)卷積是用1×1的卷積核對(duì)提取特征后的特征圖再次提取不同通道的特征,同時(shí)完成對(duì)輸出通道的升維操作.深度可分離卷積在減少參數(shù)量的前提下,輸出與傳統(tǒng)卷積相同的特征圖.傳統(tǒng)卷積參數(shù)量N和深度可分離卷積N′的計(jì)算分別如(2)和(3)式所示.
N=C1×(M×M)×C2,
(2)
N′=C1×(M×M)+C1×(1×1)×C2,
(3)
其中,N為傳統(tǒng)卷積參數(shù)數(shù)量,N′為深度可分離卷積參數(shù)數(shù)量,C1為原始通道數(shù),(M×M)為卷積核的尺寸,C2為輸出通道數(shù).在(3)式中,C1×(M×M)為逐通道卷積的參數(shù)量,C1×(1×1)×C2為逐點(diǎn)卷積的參數(shù)量.
例如,當(dāng)輸入通道數(shù)C1=8,卷積核尺寸
(M×M)=(10×10), C2=64,
可得參數(shù)量N=51 200,N′=1 312.由此可以看出,深度可分離卷積能夠極大地減少參數(shù)的數(shù)量.
1.3 釣魚(yú)網(wǎng)站原始特征集 釣魚(yú)網(wǎng)站的原始特征集具體情況如表1所示.
由表1可知,本文使用了多個(gè)維度的特征,其不僅包含了URL、HTML這些常見(jiàn)的特征,還動(dòng)態(tài)獲取了JS、網(wǎng)站端口開(kāi)放情況、域名注冊(cè)時(shí)長(zhǎng)、HTTPS信息、網(wǎng)站反鏈數(shù)量、Pagerank等特征,這些特征是攻擊者難以偽裝的,可以更加有效地保證釣魚(yú)網(wǎng)站檢測(cè)的可靠性.
2 基于特征篩選的輕量級(jí)層次化檢測(cè)方法
基于特征篩選的輕量級(jí)層次化檢測(cè)方法由特征篩選和輕量級(jí)層次化檢測(cè)框架兩部分組成.
2.1 特征篩選 在特征集內(nèi)部往往會(huì)存在冗余特征影響模型的檢測(cè)性能,因此,本文使用互信息對(duì)釣魚(yú)網(wǎng)站原始特征集進(jìn)行篩選,剔除冗余特征,并將篩選后的特征按照耗時(shí)長(zhǎng)短劃分為URL特征和網(wǎng)站特征.其中,URL特征主要關(guān)注URL本身,即用于訪問(wèn)網(wǎng)站的地址,這些特征包括域名、子域名、路徑、查詢(xún)字符串、協(xié)議、IP地址等.URL特征通過(guò)使用如長(zhǎng)URL、IP地址URL等特征來(lái)發(fā)現(xiàn)釣魚(yú)網(wǎng)址.而網(wǎng)站特征主要關(guān)注的是網(wǎng)站本身的內(nèi)容,包括頁(yè)面設(shè)計(jì)、頁(yè)面元素、文本內(nèi)容、圖像、鏈接、虛假的品牌標(biāo)識(shí)等.網(wǎng)站特征通過(guò)如網(wǎng)站是否包含虛假的信息、虛假的登錄頁(yè)面或其他欺騙性?xún)?nèi)容等特征來(lái)發(fā)現(xiàn)釣魚(yú)網(wǎng)址.
特征篩選方法的具體描述如圖1所示.
1) 通過(guò)(1)式計(jì)算原始特征集內(nèi)每個(gè)特征與標(biāo)簽之間的互信息值I(X;Y),互信息值最大的前5個(gè)特征如表2所示.
2) 按照特征互信息值的大小進(jìn)行排序,并取出前N維特征使用.
3) 將選取出來(lái)的前N維特征劃分為URL特征和網(wǎng)站特征,其中大多數(shù)URL特征都是對(duì)URL文本進(jìn)行處理,不需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取,特征提取的時(shí)間較短,便于快速檢測(cè).而網(wǎng)站特征需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行獲取,耗時(shí)較長(zhǎng),但是這部分特征是攻擊者難以偽裝的,可以保證釣魚(yú)網(wǎng)站檢測(cè)的可靠性和準(zhǔn)確性.
篩選后的URL特征和網(wǎng)站特征分別如表3和表4所示.
2.2 輕量級(jí)層次化檢測(cè)框架 隨著網(wǎng)絡(luò)的飛速發(fā)展,釣魚(yú)網(wǎng)站的數(shù)量不斷增加,傳統(tǒng)的釣魚(yú)網(wǎng)站檢測(cè)方法難以在保證準(zhǔn)確率的前提下,對(duì)大規(guī)模釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè).針對(duì)該問(wèn)題,本文提出了一種輕量級(jí)層次化檢測(cè)框架,該框架包含粗檢測(cè)與細(xì)檢測(cè)兩部分.
粗檢測(cè)基于URL特征快速對(duì)網(wǎng)站進(jìn)行判斷,可以在不需要太多計(jì)算資源和時(shí)間的情況下,快速地對(duì)大量網(wǎng)站進(jìn)行初步篩選,避免了無(wú)差別深入分析所有網(wǎng)站的情況.細(xì)檢測(cè)基于多個(gè)維度的特征對(duì)網(wǎng)站進(jìn)行判斷,雖然細(xì)檢測(cè)的耗時(shí)較長(zhǎng),但其可以對(duì)待檢測(cè)網(wǎng)站進(jìn)行深入分析,從而提高檢測(cè)的準(zhǔn)確性.
2.2.1 檢測(cè)流程 本文提出的輕量級(jí)層次化檢測(cè)框架具體流程如圖2所示,當(dāng)數(shù)據(jù)輸入后,先通過(guò)粗檢測(cè)進(jìn)行快速判斷,大于閾值則直接輸出網(wǎng)站類(lèi)別;否則,將數(shù)據(jù)送入第二層細(xì)檢測(cè)中去.
檢測(cè)流程的具體步驟如下.
1) 粗檢測(cè):當(dāng)待檢測(cè)網(wǎng)站URL輸入后,粗檢測(cè)首先將URL通過(guò)解析或者字符串處理等方式提取出域名(hostname),再將提取出的域名送入到WHOIS數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),查詢(xún)后返回的信息包括域名的所有者、注冊(cè)時(shí)間、過(guò)期時(shí)間、DNS服務(wù)器等.在獲取網(wǎng)站的域名信息后,通過(guò)正則匹配從待檢測(cè)網(wǎng)站的URL和域名信息中提取出網(wǎng)站的URL特征.
在獲取到URL特征后,使用輕量級(jí)CNN對(duì)URL特征進(jìn)行卷積操作,再通過(guò)Softmax函數(shù)得到類(lèi)別概率,最后將類(lèi)別概率最大值與設(shè)定閾值進(jìn)行判斷,如(4)式所示.如果類(lèi)別概率的最大值大于所設(shè)定的閾值,則直接輸出網(wǎng)站類(lèi)別;否則,將URL特征與待檢測(cè)網(wǎng)站URL送入細(xì)檢測(cè)階段進(jìn)行更深入的分析.
輸出網(wǎng)站類(lèi)別, 如果max(P0,P1)gt;,
送入細(xì)檢測(cè), 其他,
(4)
其中,P0是輸出釣魚(yú)網(wǎng)站的概率,P1是輸出合法網(wǎng)站的概率,是一個(gè)設(shè)定的閾值,∈[0,1].
2) 細(xì)檢測(cè):當(dāng)網(wǎng)站被送入細(xì)檢測(cè)后,細(xì)檢測(cè)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)訪問(wèn)待檢測(cè)網(wǎng)站,獲取HTML、JavaScript和第三方資源,且對(duì)所獲取的資源進(jìn)行解析并得到網(wǎng)站特征.
在獲取到網(wǎng)站特征后,按照(5)式,將URL特征和網(wǎng)站特征進(jìn)行特征融合組建融合特征集,接著使用輕量級(jí)CNN對(duì)融合特征集F進(jìn)行第二輪檢測(cè),進(jìn)而判斷出網(wǎng)站類(lèi)別.
F=Fu∪Fh,
(5)
其中,F(xiàn)為融合特征集,F(xiàn)u為URL特征,F(xiàn)h為網(wǎng)站特征.
2.2.2 輕量級(jí)CNN 目前大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的釣魚(yú)網(wǎng)站檢測(cè)方法都存在著網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和參數(shù)量巨大的缺點(diǎn),計(jì)算復(fù)雜度高.為了解決該問(wèn)題,本文引入深度可分離卷積來(lái)替代傳統(tǒng)卷積,以減少參數(shù)量,使模型輕量化,更適用于對(duì)釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè)的場(chǎng)景.輕量級(jí)CNN的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示.
參數(shù)量的減少會(huì)影響模型預(yù)測(cè)的準(zhǔn)確率,本文僅將傳統(tǒng)CNN網(wǎng)絡(luò)中參數(shù)量較多的第二層卷積替換成深度可分離卷積,既較大程度地減少了網(wǎng)絡(luò)的參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行效率,又能確保分類(lèi)模型有較高的準(zhǔn)確率.
3 實(shí)驗(yàn)結(jié)果和分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集 為了評(píng)估本文所提出的LHFF,本文使用了2個(gè)數(shù)據(jù)集,包括UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集[14]和本文所收集的真實(shí)網(wǎng)站數(shù)據(jù)集.UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集是學(xué)術(shù)界應(yīng)用較為廣泛的釣魚(yú)網(wǎng)站數(shù)據(jù)集,該數(shù)據(jù)集包含了約11 000個(gè)網(wǎng)站的數(shù)據(jù),有6 157條正常網(wǎng)站數(shù)據(jù)和4 898條釣魚(yú)網(wǎng)站數(shù)據(jù).真實(shí)網(wǎng)站數(shù)據(jù)集包含有2 000個(gè)釣魚(yú)網(wǎng)站和2 000個(gè)正常網(wǎng)站,其中釣魚(yú)網(wǎng)站來(lái)自PhishTank,正常網(wǎng)站來(lái)自Alex.
3.2 評(píng)價(jià)指標(biāo) 本文通過(guò)模型的準(zhǔn)確率(accuaracy)、精確率(precision)、召回率(recall)和F1_score,以及檢測(cè)時(shí)間和參數(shù)數(shù)量等指標(biāo)來(lái)評(píng)估LHFF的性能[15].準(zhǔn)確率(Acc)是指分類(lèi)模型在所有被預(yù)測(cè)的數(shù)據(jù)中,正確分類(lèi)的數(shù)據(jù)占比的指標(biāo),衡量的是模型對(duì)所有數(shù)據(jù)的分類(lèi)準(zhǔn)確性,其計(jì)算公式如下
Acc=TP+TNTP+TN+FP+FN×100%,
(6)
其中,TP、TN、FP、FN分別表示將正類(lèi)預(yù)測(cè)為正類(lèi)、將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)、將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)、將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的樣例數(shù).
精確率(Pre)是指所有被預(yù)測(cè)為正類(lèi)的數(shù)據(jù)中,真正屬于正類(lèi)的數(shù)據(jù),衡量的是模型在預(yù)測(cè)正類(lèi)數(shù)據(jù)時(shí)的準(zhǔn)確性,其計(jì)算公式如下
Pre=TPTP+FP×100%.
(7)
召回率(Rec)是指分類(lèi)模型在所有真實(shí)的正類(lèi)數(shù)據(jù)中,被正確預(yù)測(cè)為正類(lèi)數(shù)據(jù)占比,衡量的是模型對(duì)正類(lèi)數(shù)據(jù)的識(shí)別能力,其計(jì)算公式如下
Rec=TPTP+FN×100%.
(8)
單一依靠某個(gè)指標(biāo)并不能較為全面地評(píng)估分類(lèi)器的性能.因此,使用精確率和召回率的綜合指標(biāo)F1_score來(lái)評(píng)估性能,其計(jì)算公式如下
F1_score=2Pre·RecPre+Rec×100%.
(9)
3.3 模型訓(xùn)練 在模型訓(xùn)練階段,首先對(duì)數(shù)據(jù)集的特征值進(jìn)行歸一化處理,便于在相同尺度上分析不同特征或變量,再將其劃分為訓(xùn)練集和測(cè)試集.對(duì)于粗檢測(cè)中的輕量級(jí)CNN網(wǎng)絡(luò),使用訓(xùn)練集中的URL特征進(jìn)行模型訓(xùn)練,而對(duì)于細(xì)檢測(cè)中輕量級(jí)CNN網(wǎng)絡(luò),使用URL特征和網(wǎng)站特征進(jìn)行模型訓(xùn)練
數(shù)據(jù)將通過(guò) reshape 層進(jìn)行維度變換后輸入模型,經(jīng)過(guò)卷積、池化、平鋪等操作后,輸入全連接層,最后對(duì)全連接層輸出的數(shù)據(jù)進(jìn)行softmax運(yùn)算,得出分類(lèi)結(jié)果.上述網(wǎng)絡(luò)模型均采用relu激活函數(shù),Adam優(yōu)化算法用于對(duì)模型參數(shù)優(yōu)化更新,學(xué)習(xí)率為 0.001,優(yōu)化模型的損失函數(shù)為交叉熵?fù)p失函數(shù).
3.4 特征篩選 為了有效地剔除掉特征集內(nèi)部的冗余特征,通過(guò)計(jì)算特征的互信息值,并按照互信息值大小進(jìn)行排序,選取能讓模型達(dá)到最高準(zhǔn)確率的前N個(gè)特征.本文在UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集上使用傳統(tǒng)CNN進(jìn)行實(shí)驗(yàn),不同N值下的準(zhǔn)確率變化情況如圖4所示.
由圖4可知,隨著N值的增大,準(zhǔn)確率也在逐步增加.當(dāng)N=24時(shí),準(zhǔn)確率達(dá)到最高;而當(dāng)Ngt;24時(shí),準(zhǔn)確率逐漸下降.因此,本文將N的取值設(shè)為24,剔除掉互信息值排名最后的6個(gè)特征.
3.5 閾值選擇 由于細(xì)檢測(cè)的檢測(cè)耗時(shí)較長(zhǎng),為了保證輕量級(jí)層次化檢測(cè)框架在高準(zhǔn)確率的前提下快速地對(duì)釣魚(yú)網(wǎng)站進(jìn)行檢測(cè),以滿(mǎn)足批量檢測(cè)的需求,那么,輕量級(jí)層次化檢測(cè)框架必須有合適的閾值.因此,本文基于UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集,量化不同閾值對(duì)輕量級(jí)層次化檢測(cè)框架的影響,實(shí)驗(yàn)結(jié)果見(jiàn)表5.
由表5可知,當(dāng)閾值小于0.8時(shí),伴隨著閾值的增加,LHFF的準(zhǔn)確率、精確率、召回率和F1_score逐漸增加,而當(dāng)閾值大于0.8時(shí),由于越來(lái)越多的網(wǎng)站被送入細(xì)檢測(cè)中進(jìn)行二次判斷,檢測(cè)所消耗的時(shí)間繼續(xù)增加,而準(zhǔn)確率等各項(xiàng)指標(biāo)卻并沒(méi)有明顯提升.因此,本文選擇0.8作為輕量級(jí)層次化檢測(cè)框架的閾值.
3.6 深度可分離卷積有效性 為了探究深度可分離卷積對(duì)檢測(cè)模型的有效性,本文利用基于傳統(tǒng)卷積的層次化檢測(cè)框架和使用深度可分離卷積的輕量級(jí)層次化框架進(jìn)行多指標(biāo)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示.
由表6可以看出,與使用傳統(tǒng)卷積相比,深度可分離卷積的準(zhǔn)確率僅僅下降了0.2%,但其參數(shù)數(shù)量減少了68.5%,運(yùn)行時(shí)間也減少了41.7%.由此表明,使用深度可分離卷積來(lái)替換傳統(tǒng)卷積,可以在保持了準(zhǔn)確率損失不大的前提下,減少網(wǎng)絡(luò)模型參數(shù)數(shù)量和運(yùn)行時(shí)間,提升釣魚(yú)網(wǎng)站檢測(cè)時(shí)的運(yùn)行效率,使得網(wǎng)絡(luò)模型更適用于批量檢測(cè)的需求.
3.7 LHFF有效性驗(yàn)證 為了驗(yàn)證LHFF的有效性,本文在UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集上使用LHFF與其他方法進(jìn)行實(shí)驗(yàn)比較,表7展示了LHFF與傳統(tǒng)方法的實(shí)驗(yàn)比較結(jié)果.表8展示了LHFF與文獻(xiàn)[16-20]的實(shí)驗(yàn)比較結(jié)果.
由表7、表8中的數(shù)據(jù)可以看出,LHFF相較于其他方法有著更好的表現(xiàn),其各個(gè)指標(biāo)均有所提升.由此表明,LHFF能夠有效地提取出特征中的有效信息,提高模型的檢測(cè)性能.
3.8 真實(shí)網(wǎng)站批量檢測(cè) 為了探究LHFF、粗檢測(cè)和細(xì)檢測(cè)對(duì)大規(guī)模釣魚(yú)網(wǎng)站批量檢測(cè)的性能差異,本文基于真實(shí)網(wǎng)站數(shù)據(jù)集對(duì)這3類(lèi)不同方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表9所示.
由表9可知,在相同網(wǎng)站數(shù)量下:粗檢測(cè)只需要對(duì)URL進(jìn)行檢測(cè),檢測(cè)的速度較快,對(duì)4 000條網(wǎng)站檢測(cè)總耗時(shí)僅需0.8 h,然而,僅根據(jù)URL特征并不能夠全面地描述一個(gè)釣魚(yú)網(wǎng)站,故而導(dǎo)致粗檢測(cè)的準(zhǔn)確率較低,只有91%;細(xì)檢測(cè)則需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)提取網(wǎng)站特征,這部分特征的提取十分消耗時(shí)間,導(dǎo)致細(xì)檢測(cè)的速度慢,需要21.22 h才能完成對(duì)4 000條網(wǎng)站的檢測(cè),但細(xì)檢測(cè)所用到的多維特征能夠更加全面地刻畫(huà)出釣魚(yú)網(wǎng)站特點(diǎn),使得檢測(cè)準(zhǔn)確率達(dá)到了96.9%;LHFF結(jié)合了細(xì)檢測(cè)和粗檢測(cè)各自的優(yōu)勢(shì),在粗檢測(cè)階段,部分待檢測(cè)網(wǎng)站已經(jīng)被判斷出網(wǎng)站類(lèi)別,避免了細(xì)檢測(cè)再次判斷,而在細(xì)檢測(cè)中通過(guò)對(duì)網(wǎng)站的深入分析,保障了檢測(cè)的準(zhǔn)確率,通過(guò)粗檢測(cè)與細(xì)檢測(cè)的配合,LHFF對(duì)4 000條網(wǎng)站的檢測(cè)準(zhǔn)確率可達(dá)96.7%,所用時(shí)間則為6.92 h,表明其能夠在保障高準(zhǔn)確率的前提下,降低時(shí)間復(fù)雜度,滿(mǎn)足釣魚(yú)網(wǎng)站批量檢測(cè)的需求.
4 結(jié)束語(yǔ)
針對(duì)傳統(tǒng)方法難以對(duì)大規(guī)模釣魚(yú)網(wǎng)站進(jìn)行批量檢測(cè)的問(wèn)題,本文提出了一種基于特征篩選的輕量級(jí)層次化釣魚(yú)網(wǎng)站檢測(cè)方法(LHFF),該方法使用互信息篩選掉了原始特征集內(nèi)部的冗余特征,并利用輕量級(jí)層次化檢測(cè)框架在保障準(zhǔn)確率的前提下減少檢測(cè)所需要的時(shí)間,滿(mǎn)足釣魚(yú)網(wǎng)站批量檢測(cè)的需求.雖然LHFF有著較好的性能,但對(duì)于部分網(wǎng)站不能達(dá)到實(shí)時(shí)檢測(cè)的需求.因此,未來(lái)考慮進(jìn)一步讓LHFF適用于實(shí)時(shí)檢測(cè)的場(chǎng)景,并計(jì)劃將LHFF做成瀏覽器插件,使得用戶(hù)在通過(guò)瀏覽器訪問(wèn)網(wǎng)頁(yè)時(shí),能夠?qū)崟r(shí)檢測(cè)出釣魚(yú)網(wǎng)站,并產(chǎn)生報(bào)警信息提醒用戶(hù).
參考文獻(xiàn)
[1] APWG. Phishing activity trends report[EB/OL]. (2022-12-14)[2023-03-15]. https: //docs.apwg.org/reports/apwg_trends_report_q3_2022.pdf.
[2] JAIN A K, GUPTA B B. A novel approach to protect against phishing attacks at client side using auto-updated white-list[J]. EURASIP Journal on Information Security,2016,2016(1):1-11.
[3] PATURI R, SWATHI L, PAVITHRA K S, et al. Detection of phishing attacks using visual similarity model[C]//2022 International Conference on Applied Artificial Intelligence and Computing (ICAAIC). Salem: IEEE,2022:1355-1361.
[4] FU A Y, LIU W Y, DENG X T. Detecting phishing web pages with visual similarity assessment based on earth mover’s distance (EMD)[J]. IEEE Transactions on Dependable and Secure Computing,2006,3(4):301-311.
[5] NIROSHAN ATIMORATHANNA D, SHEHAN RANAWEERA T, DEVDUNIE PABASARA R A H, et al. NoFish: total anti-phishing protection system[C]//2020 2nd International Conference on Advancements in Computing (ICAC). Malabe: IEEE,2021:470-475.
[6] ZHANG Y E, HONG J I, CRANOR L F. Cantina: a content-based approach to detecting phishing web sites[C]//Proceedings of the 16th International Conference on World Wide Web. New York: ACM,2007:639-648.
[7] XIANG G, HONG J I, ROS C, et al. CANTINA+: a feature-rich machine learning framework for detecting phishing web sites[J]. ACM Trans Inf Syst Secur,2011,14(2):1-28.
[8] OPARA C, WEI B, CHEN Y K. HTMLPhish: enabling phishing web page detection by applying deep learning techniques on HTML analysis[C]//2020 International Joint Conference on Neural Networks (IJCNN). Glasgow: IEEE,2020:1-8.
[9] HU Q, ZHOU H X, LIU Q. Phishing website detection based on multi-feature stacking[C]//2021 2nd International Conference on Artificial Intelligence and Computer Engineering (ICAICE). Hangzhou: IEEE,2022:716-720.
[10] FENG J, ZOU L Y, YE O, et al. Web2Vec: phishing webpage detection method based on multidimensional features driven by deep learning[J]. IEEE Access,2020,8:221214-221224.
[11] GU J X, WANG Z H, KUEN J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition,2018,77:354-377.
[12] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE,2017:1800-1807.
[13] YE G C, ZHANG J A, LI H Z, et al. Android malware detection technology based on lightweight convolutional neural networks[J]. Security and Communication Networks,2022,2022:1-12.
[14] MOHAMMAD R M, THABTAH F, MCCLUSKEY L. Phishing websites features[EB/OL]. (2015-03-25)[2022-09-16]. https: //archive.ics.uci.edu/ml/datasets/Phishing+Websites.
[15] 白惠文,馬雪婧,劉偉偉,等. 基于深度學(xué)習(xí)的匿名協(xié)議流量識(shí)別技術(shù)研究[J]. 計(jì)算機(jī)仿真,2021,38(7):360-365.
[16] ALQAHTANI M. Phishing websites classification using association classification (PWCAC)[C]//2019 International Conference on Computer and Information Sciences (ICCIS). Sakaka: IEEE,2019:1-6.
[17] SNMEZ Y, TUNCER T, GKAL H, et al. Phishing web sites features classification based on extreme learning machine[C]//2018 6th International Symposium on Digital Forensic and Security (ISDFS). Antalya: IEEE,2018:1-5.
[18] RASHID J, MAHMOOD T, NISAR M W, et al. Phishing detection using machine learning technique[C]//2020 First International Conference of Smart Systems and Emerging Technologies (SMARTTECH). Riyadh: IEEE,2020:43-46.
[19] ZAMAN S, UDDIN DEEP S M, KAWSAR Z, et al. Phishing website detection using effective classifiers and feature selection techniques[C]//2019 2nd International Conference on Innovation in Engineering and Technology (ICIET). Dhaka: IEEE,2020:1-6.
[20] PAVAN R, NARA M, GOPINATH S, et al. Bayesian optimization and gradient boosting to detect phishing websites[C]//2021 55th Annual Conference on Information Sciences and Systems (CISS). Baltimore: IEEE,2021:1-5.
Lightweight Hierarchical Phishing Website DetectionBased on Feature Filtering
YI Zhilin1,2, LI Huanzhou1,2, ZHANG Jian1,2, TANG Zhangguo1,2, TIAN Weizheng1,2
(1. College of Physics and Electronic Engineering, Sichuan Normal University, Chengdu 610101, Sichuan;
2. Institute of Network and Communication Technology, Sichuan Normal University, Chengdu 610101, Sichuan)
For the problem that traditional methods are difficult to detect large-scale phishing websites in batch, a lightweight hierarchical detection method based on feature filtering (LHFF) is proposed. The method first uses mutual information to filter the original feature set, eliminates redundant features, and divides the filtered features into URL features and website features according to the time spent on extracting features, and then uses the lightweight hierarchical detection framework to detect phishing websites according to the divided features. The experimental results show that LHFF can reduce the time required for website detection and meet the demand for batch detection of large-scale phishing websites while guaranteeing good detection performance.
phishing websites; batch detection; mutual information; lightweight; hierarchical
(編輯 余 毅)