亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別研究

        2024-09-14 00:00:00熊凌龍何月順陳杰杜萍韓鑫豪
        現(xiàn)代電子技術(shù) 2024年9期
        關(guān)鍵詞:深度學(xué)習(xí)

        摘" 要: 當(dāng)前非法網(wǎng)站存在隱蔽性強(qiáng)、危害性高的特點(diǎn),僅依賴單一特征的網(wǎng)站識(shí)別方法無(wú)法有效應(yīng)對(duì)這種復(fù)雜性。針對(duì)上述問(wèn)題,文中提出一種基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別方法。首先構(gòu)建基于ResNet?18的視覺特征提取模型和基于BERT?CNN的文本特征提取模型;然后通過(guò)設(shè)計(jì)的基于邏輯回歸(LR)的融合算法對(duì)兩種模型的分類結(jié)果進(jìn)行融合;最后通過(guò)多輪次迭代訓(xùn)練得出最佳的非法網(wǎng)站判別模型。實(shí)驗(yàn)結(jié)果表明,文中構(gòu)建的融合模型相較于依賴文本和視覺的單一特征模型的準(zhǔn)確率分別高出4%和11%,能夠更準(zhǔn)確地識(shí)別非法網(wǎng)站。

        關(guān)鍵詞: 非法網(wǎng)站識(shí)別; 多特征融合; BERT; ResNet; CNN; 深度學(xué)習(xí)

        中圖分類號(hào): TN915.08?34; TP391.1""""""""""""""""" 文獻(xiàn)標(biāo)識(shí)碼: A"""""""""" """"""文章編號(hào): 1004?373X(2024)09?0097?07

        0" 引" 言

        在互聯(lián)網(wǎng)迅速發(fā)展的背景下,網(wǎng)絡(luò)安全問(wèn)題變得日益突出。值得注意的是,涉及賭博、色情和釣魚等行為的非法網(wǎng)站正在持續(xù)不斷地增加,這些非法網(wǎng)站不僅給受害者造成財(cái)務(wù)損失,還侵犯?jìng)€(gè)人隱私和敏感信息,并潛在地影響著國(guó)家安全,對(duì)個(gè)人和社會(huì)造成了廣泛和嚴(yán)重的負(fù)面影響。根據(jù)國(guó)際電信聯(lián)盟發(fā)布的數(shù)據(jù),截至2022年12月,約有52.3%的用戶曾受到非法網(wǎng)站的騷擾[1]。盡管我國(guó)在非法網(wǎng)站的監(jiān)管上出臺(tái)了相關(guān)政策法規(guī),但對(duì)非法網(wǎng)站的監(jiān)管仍面臨諸多障礙和挑戰(zhàn),其中最迫切的問(wèn)題是從技術(shù)上快速準(zhǔn)確地發(fā)現(xiàn)和遏制這些非法平臺(tái)。

        為了快速準(zhǔn)確地發(fā)現(xiàn)這些非法網(wǎng)站,研究者們提出了各種檢測(cè)方法。早期研究者通常使用基于黑名單的方法來(lái)檢測(cè)非法網(wǎng)站[2],即將可疑域名與預(yù)先定義的非法域名匹配。盡管處理速度快,但這種方法的不足之處在于無(wú)法預(yù)先識(shí)別不在黑名單中的非法域名。此外,由于非法網(wǎng)站的域名變化快速且不規(guī)律,及時(shí)更新黑名單中新出現(xiàn)的非法網(wǎng)站鏈接變得困難[3]。

        人工智能中機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法具備主動(dòng)學(xué)習(xí)的能力,因此被廣泛應(yīng)用于非法網(wǎng)站的分類與檢測(cè),并產(chǎn)生了許多基于深度學(xué)習(xí)的實(shí)際解決方案。其中一種是從網(wǎng)址或網(wǎng)站內(nèi)容中提取特征,如文獻(xiàn)[4]提出了一項(xiàng)根據(jù)網(wǎng)址特征的識(shí)別方法,該方法使用獨(dú)熱編碼和BERT模型對(duì)網(wǎng)址URL進(jìn)行字符級(jí)和單詞級(jí)的特征提取,再對(duì)兩種不同粒度的深度特征進(jìn)行融合從而識(shí)別非法網(wǎng)站,取得了較為不錯(cuò)的效果。雖然基于網(wǎng)址的非法檢測(cè)方法能夠?qū)崿F(xiàn)快速檢測(cè),但這一類方法僅從網(wǎng)址中提取特征,無(wú)法充分代表非法網(wǎng)站的特征,因此有時(shí)基于網(wǎng)址的方法效果不佳。而文本內(nèi)容是網(wǎng)頁(yè)的主要組成部分,相對(duì)豐富且易于獲取,所以有研究者會(huì)將網(wǎng)頁(yè)的HTML代碼作為特征補(bǔ)充,如文獻(xiàn)[5]提出了一種融合URL和頁(yè)面信息的非法網(wǎng)站識(shí)別方法,該方法通過(guò)Bi?LSTM獲取URL中的上下文信息,再結(jié)合URL序列本身字母及字母組合的位置信息,作為VGG16的輸入進(jìn)行深度學(xué)習(xí)的模型訓(xùn)練。但隨著網(wǎng)站日益復(fù)雜和龐大,網(wǎng)站特征(如文本內(nèi)容、結(jié)構(gòu)等)也在不斷增加,這使得對(duì)非法網(wǎng)站的分析和檢測(cè)變得更加困難。近年來(lái),許多研究人員專注于使用網(wǎng)頁(yè)的視覺內(nèi)容進(jìn)行分類,并取得了一些成就。文獻(xiàn)[6]提出一種將白名單和基于視覺相似性技術(shù)相結(jié)合的方法,先采用視覺技術(shù)手段從可疑網(wǎng)站和目標(biāo)網(wǎng)站中提取有區(qū)別的關(guān)鍵點(diǎn)特征,然后將它們用于計(jì)算合法頁(yè)面和可疑頁(yè)面之間的相似度,從而完成識(shí)別。文獻(xiàn)[7]采用圖像識(shí)別技術(shù)對(duì)網(wǎng)站的Logo圖像進(jìn)行識(shí)別,從而確定檢測(cè)網(wǎng)站是否為非法網(wǎng)站。雖然基于視覺特征的分類方法也能取得較為不錯(cuò)的效果,但這一類方法容易受訓(xùn)練樣本質(zhì)量和模型的普適性影響,導(dǎo)致識(shí)別率低。例如,一些正常網(wǎng)站(內(nèi)衣銷售、醫(yī)療網(wǎng)站等)的視覺內(nèi)容常常與色情網(wǎng)站相似,導(dǎo)致模型將它們誤認(rèn)為色情網(wǎng)站,特別是當(dāng)非法網(wǎng)站通過(guò)偽裝、誤導(dǎo)、阻止和規(guī)避等行為來(lái)隱藏自己時(shí),傳統(tǒng)的單一特征檢測(cè)方法就無(wú)法有效地進(jìn)行識(shí)別?;旌咸卣鞣椒ㄊ且环N更有效的解決方案,通過(guò)綜合分析網(wǎng)站的多個(gè)特征進(jìn)行網(wǎng)站檢測(cè),能夠更加準(zhǔn)確地識(shí)別出非法網(wǎng)站。文獻(xiàn)[8]提出一種基于多模態(tài)數(shù)據(jù)的博彩網(wǎng)站檢測(cè)識(shí)別方法,首先建立了一個(gè)文本特征提取模型和一個(gè)圖像特征提取模型,隨后通過(guò)特征融合和損失函數(shù)的調(diào)整,成功提升了博彩網(wǎng)站檢測(cè)識(shí)別的分類效果,但該方法融合視覺和文本特征的手段較為簡(jiǎn)單,融合特征的效果不佳,且構(gòu)建的文本特征提取模型常丟失博彩網(wǎng)站文本特征的局部信息。

        綜上所述,用于檢測(cè)非法網(wǎng)站的現(xiàn)有方法大多只使用單一特征,如URL、文本或圖片等信息。與這些單一特征的檢測(cè)方法相比,基于混合特征的方法具有更好的檢測(cè)性能和更廣闊的發(fā)展前景,但這一類方法仍存在一定的改進(jìn)空間。因此,本文提出了一種基于深度學(xué)習(xí)和多特征融合的非法網(wǎng)站快速識(shí)別方法,該方法構(gòu)建了基于文本和視覺特征的兩種分類模型,并通過(guò)本文設(shè)計(jì)的融合算法將文本分類模型和視覺分類模型的結(jié)果進(jìn)行有效融合,從而得出最為符合的識(shí)別結(jié)果。

        1" 非法網(wǎng)站識(shí)別模型構(gòu)建

        1.1" 基于ResNet的視覺特征提取模型

        殘差神經(jīng)網(wǎng)絡(luò)是由文獻(xiàn)[9]提出的,在網(wǎng)絡(luò)結(jié)構(gòu)中引入跳躍連接,使得前饋神經(jīng)網(wǎng)絡(luò)部分在深度設(shè)計(jì)中采用更多,收斂速度更快,可以有效處理傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在計(jì)算梯度的過(guò)程中存在的梯度爆炸或梯度消失的問(wèn)題,其結(jié)構(gòu)如圖1所示。

        這種結(jié)構(gòu)可以有效地防止模型的退化,并在深化網(wǎng)絡(luò)的同時(shí)保持良好的性能。殘差結(jié)構(gòu)計(jì)算公式如下:

        [xl+1=xl+Fxl,wl] (1)

        式中:[xl]為當(dāng)前殘差塊的輸入;[Fxl,wl]是殘差部分,一般由兩個(gè)或三個(gè)卷積層組成。將[Fxl,wl]的輸出與[xl]相加后,通過(guò)非線性激活ReLU函數(shù)得到殘差塊的輸出。

        鑒于非法網(wǎng)站中的圖片,尤其是涉及色情、暴力等內(nèi)容的圖片色彩較為豐富,存在大量的色彩變化,顏色分布較為復(fù)雜,過(guò)于豐富的色彩信息有時(shí)可能會(huì)掩蓋或混淆圖像的關(guān)鍵特征,且非法圖片與一般網(wǎng)站(購(gòu)物網(wǎng)站、衣服銷售、醫(yī)療教育等)的圖片較為相似,而深度殘差網(wǎng)絡(luò)(ResNet)的網(wǎng)絡(luò)結(jié)構(gòu)具有較強(qiáng)的特征表達(dá)能力,能夠有效地處理復(fù)雜的圖像內(nèi)容,并且對(duì)梯度消失或梯度爆炸等問(wèn)題有一定的緩解作用。因此,本文采用ResNet?18模型提取非法網(wǎng)站圖片的特征。ResNet?18作為一種深度殘差網(wǎng)絡(luò),具有較好的梯度傳播能力,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        首先經(jīng)過(guò)ResNet?18的卷積層和池化層對(duì)數(shù)據(jù)集圖像進(jìn)行初步降維和特征提取,得到數(shù)據(jù)集圖像特征圖。模型通過(guò)一系列堆疊的殘差塊構(gòu)成了四個(gè)階段,每個(gè)階段都包含多個(gè)殘差塊,其中每個(gè)殘差塊由兩個(gè)3×3大小的卷積層組成。隨著階段的增加,每個(gè)階段中殘差塊的輸出通道數(shù)量也逐漸增加,從而提升網(wǎng)絡(luò)的特征表示能力。把最后一個(gè)殘差塊的輸出送入全局平均池化層中,以將每個(gè)通道的特征值進(jìn)行平均,從而減少特征圖的空間尺寸。最終,通過(guò)一個(gè)全連接層將處理后的特征圖映射到最終的分類標(biāo)簽。

        1.2" 基于BERT?CNN的文本特征提取模型

        非法網(wǎng)站的HTML內(nèi)容通常具有長(zhǎng)文本、大量信息和復(fù)雜結(jié)構(gòu),并可能包含動(dòng)態(tài)生成的JavaScript腳本,增加了頁(yè)面的復(fù)雜性。有些非法網(wǎng)站還會(huì)使用混淆或加密技術(shù),讓文本內(nèi)容變得難以閱讀和理解,這增加了模型的識(shí)別難度。BERT模型[10]是2018年Google公司提出的基于Transformer架構(gòu)的開源語(yǔ)言理解模型,雖然該模型常用于文本分類,但對(duì)于復(fù)雜長(zhǎng)文本,它可能無(wú)法捕獲完整的上下文信息,容易丟失局部特征。因此,為提高非法網(wǎng)站文本識(shí)別模型的性能,本文提出了一種BERT?CNN模型,融合了BERT和CNN兩種模型的優(yōu)點(diǎn)。

        網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖3所示。首先,在全局特征提取層中,采用BERT嵌入方法將文本轉(zhuǎn)換為輸入向量,利用BERT模型中基于多頭注意力機(jī)制的多層雙向特征提取器捕獲詞語(yǔ)間的全局表達(dá)特征關(guān)系;接著,新增一層基于卷積神經(jīng)網(wǎng)絡(luò)的局部特征卷積層,使用卷積核來(lái)提取文本中包含的關(guān)鍵短語(yǔ)等局部顯著特征;然后,將上述兩個(gè)層輸出的多個(gè)文本特征向量進(jìn)行融合,得到的結(jié)果作為文本的最終特征向量表示;最后,在分類器層中使用Softmax函數(shù)從特征向量中預(yù)測(cè)非法網(wǎng)站類別。

        在全局特征提取層中,由于BERT模型限制了輸入字符數(shù)量最多為512個(gè)字符,因此,本文先將網(wǎng)頁(yè)整體文本分成短文本,如圖3中的文本1和文本2所示。隨后,將這些短文本對(duì)封裝成一系列token序列,形式為([CLS],Tok1,Tok2,…,[SEP],[Toki],…,[SEP])。其中[CLS]代表分類標(biāo)記,[SEP]代表分段標(biāo)記,[Toki]對(duì)應(yīng)文本的第[i]個(gè)token。其中,BERT模型的輸入被定義為[X]=[(x1,x2,…,xi,…, xl)],[xi]∈[Rl×d]是通過(guò)對(duì)應(yīng)的token、segment和position位置來(lái)構(gòu)建的第[i]個(gè)嵌入,[d]是隱藏層的最大嵌入維度,[l]是最大輸入序列的長(zhǎng)度。整個(gè)過(guò)程如圖4所示。

        全局特征提取層中的多頭注意力機(jī)制有助于有效識(shí)別單詞之間的關(guān)聯(lián),注意力機(jī)制可被視為一種重要性權(quán)重向量,有助于模型更好地捕捉全局文本特征。

        公式(2)描述了注意力機(jī)制的計(jì)算過(guò)程。其中,[Q]代表Query矩陣,也稱為查詢向量矩陣,表示目標(biāo)字或待生成標(biāo)注的詞;[V]代表Value矩陣,也稱為值向量矩陣,表示上下文中各字的原始Value表示;[K]代表Key矩陣,也稱為鍵向量矩陣,是上下文中各字的Key向量表示。[Q]和[K]矩陣中向量的維度為[dK],而[V]矩陣中向量的維度為[dV]。

        [Attention(Q,K,V)=SoftmaxQKTdKV] (2)

        為了捕獲文本中的重要局部特征,同時(shí)最大限度地保留文本的原始特征,全局特征提取層中輸出的向量會(huì)被送入到局部特征提取層中。在這個(gè)過(guò)程中,采用一維卷積操作生成特征圖[F]。接著對(duì)特征圖[F]進(jìn)行最大化池化,提取最大值[f=maxF]作為對(duì)應(yīng)特征。每個(gè)卷積操作產(chǎn)生一個(gè)顯著特征,將這些特征串聯(lián)起來(lái)形成高級(jí)特征向量[f∈Ry],如公式(3)所示。這個(gè)高級(jí)特征向量[F]作為局部特征卷積模塊的輸出,并被用于最終的文本分類任務(wù)。

        [F=f1,f2,…,fy] (3)

        1.3" 基于文本和視覺特征的分類策略

        在最終的分類階段,需要將兩個(gè)模型的分類結(jié)果進(jìn)行融合。本文首先獲取了BERT?CNN模型和ResNet?18模型的輸出,考慮到數(shù)據(jù)集中的網(wǎng)站標(biāo)簽涉及多個(gè),因此這兩種模型的輸出都統(tǒng)一為針對(duì)不同類別的預(yù)測(cè)概率。接著,通過(guò)本文設(shè)計(jì)的融合算法對(duì)這兩個(gè)分類結(jié)果進(jìn)行融合。隨后,利用邏輯回歸模型進(jìn)行訓(xùn)練,讓模型能夠?qū)W習(xí)如何根據(jù)這些特征做出最終的分類決策。這種方法綜合考慮了從網(wǎng)站源代碼提取的文本特征和從網(wǎng)站截圖提取的圖像特征,以增強(qiáng)對(duì)網(wǎng)站內(nèi)容的全面理解。通過(guò)融合這兩個(gè)模型的輸出,并利用邏輯回歸模型進(jìn)行訓(xùn)練,能夠提高對(duì)網(wǎng)站分類的準(zhǔn)確性和可靠性。圖5展示了分類方法的具體步驟。

        首先,通過(guò)本文構(gòu)建的BERT?CNN文本分類模型和ResNet?18模型對(duì)數(shù)據(jù)集中網(wǎng)頁(yè)的文本和視覺特征進(jìn)行提取分類,然后得到了4組概率集合[Pttrainn]、[Pttestm]、[Pvtrainn]和[Pvtestm],其中,[n]和[m]分別是訓(xùn)練集和測(cè)試集中網(wǎng)站的數(shù)量。以下是對(duì)得到的概率集合的定義:

        [Pttrainii≤n]是[Pttrainn]概率集合中的一個(gè)元素,[Pttraini]是基于文本分類模型(BERT?CNN)預(yù)測(cè)的訓(xùn)練集中第[i]個(gè)網(wǎng)站為非法網(wǎng)站的概率。

        [Pttestii≤m]是[Pttestm]概率集合中的一個(gè)元素,[Pttesti]是基于文本分類模型(BERT?CNN)預(yù)測(cè)的測(cè)試集中第[i]個(gè)網(wǎng)站為非法網(wǎng)站的概率。

        [Pvtrainii≤n]是[Pvtrainn]概率集合中的一個(gè)元素,[Pvtraini]是基于視覺分類模型(ResNet?18)預(yù)測(cè)的訓(xùn)練集中第[i]個(gè)網(wǎng)站為非法網(wǎng)站的概率。

        [Pvtestii≤m]是[Pvtestm]概率集合中的一個(gè)元素,[Pvtesti]是基于視覺分類模型(ResNet?18)預(yù)測(cè)的測(cè)試集中第[i]個(gè)網(wǎng)站為非法網(wǎng)站的概率。

        在本文設(shè)計(jì)的融合算法中,基于訓(xùn)練集得到的概率列表[Pttrainn]和[Pvtrainn]被用作邏輯回歸模型(LR)的新的二維特征向量,用于訓(xùn)練LR模型,以獲取兩個(gè)特征的重要性度量,表達(dá)其對(duì)分類結(jié)果的影響程度。使用[α1]和[α2]分別表示特征[Pttesti]和[Pvtesti]的重要性。為了便于后續(xù)的加權(quán)計(jì)算,將[α1]和[α2]的值映射到區(qū)間[0,1]并表示為[α′1]和[α′2],計(jì)算方法如下:

        [α′1=α1α1+α′2] (4)

        [α′2=α2α1+α′2] (5)

        式中:[α′1]和[α′2]也被稱為權(quán)重系數(shù),滿足[α′1]+[α′2]=1。對(duì)于測(cè)試集中的任何網(wǎng)站,本文定義了一個(gè)概率值[Pfusion],代表在考慮文本和圖像特征后,對(duì)網(wǎng)站被預(yù)測(cè)為非法網(wǎng)站的概率。計(jì)算[Pfusion]的公式如下:

        [Pfusion=α′1Pttest[i]+α′2Pvtest[i]] (6)

        很顯然,權(quán)重系數(shù)越大,對(duì)應(yīng)分類結(jié)果對(duì)[Pfusion]的影響越顯著。

        最后,本文設(shè)計(jì)了一個(gè)決策條件,這個(gè)條件中采用了一個(gè)人為設(shè)定的閾值(th),這個(gè)閾值結(jié)合了一些先驗(yàn)知識(shí),然后通過(guò)訓(xùn)練過(guò)程中交叉驗(yàn)證的模型表現(xiàn)來(lái)動(dòng)態(tài)修改閾值,以達(dá)到最佳的效果。當(dāng)條件成立時(shí),代表對(duì)非法網(wǎng)站的預(yù)測(cè)置信度足夠高;反之,則將其標(biāo)記為正常網(wǎng)站。

        2" 實(shí)驗(yàn)及分析

        2.1" 評(píng)價(jià)指標(biāo)

        本文采用準(zhǔn)確率、精確度、召回率以及[F1]?measure等多項(xiàng)指標(biāo)作為評(píng)估本文所提方法的性能標(biāo)準(zhǔn)。評(píng)價(jià)指標(biāo)的混淆矩陣由4個(gè)值組成:真正例(TP)、真負(fù)例(TN)、假正例(FP)和假負(fù)例(FN)。其中,TP是正確預(yù)測(cè)為非法網(wǎng)站的非法網(wǎng)站數(shù)量,TN是正確預(yù)測(cè)為正常網(wǎng)站的正常網(wǎng)站數(shù)量,F(xiàn)P是錯(cuò)誤預(yù)測(cè)為非法網(wǎng)站的正常網(wǎng)站數(shù)量,F(xiàn)N是錯(cuò)誤預(yù)測(cè)為正常網(wǎng)站的非法網(wǎng)站數(shù)量。

        準(zhǔn)確率衡量了被正確預(yù)測(cè)為非法和正常網(wǎng)站的比例占所有網(wǎng)站的比例。

        [Accuracy=TP+TNTP+FP+FN+TN] (7)

        精確度衡量了被正確預(yù)測(cè)為非法網(wǎng)站的比例占所有被預(yù)測(cè)為非法網(wǎng)站的比例。

        [Precision=TPTP+FP] (8)

        召回率衡量了被正確預(yù)測(cè)為非法網(wǎng)站的比例占所有非法網(wǎng)站的比例。

        [Recall=TPTP+FN] (9)

        [F1]?measure是召回率和精確度的調(diào)和平均數(shù),表達(dá)式如下:

        [F1?measure=2×Precision×RecallPrecision+Recall] (10)

        2.2" 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)所采用配置如下:實(shí)驗(yàn)平臺(tái)為Windows 11,64位操作系統(tǒng);CPU為i7?9900k;GPU為NVIDA Geforce GTX 3080 Ti,12 GB顯存;計(jì)算機(jī)運(yùn)行內(nèi)存為32 GB。CUDA版本為11.1;Python版本為3.8;Pytorch版本為1.7。

        本文所使用的數(shù)據(jù)集來(lái)自Kaggle上名為“Black Website”的公開數(shù)據(jù)集,總計(jì)包含近40萬(wàn)條數(shù)據(jù)。每條數(shù)據(jù)包含14個(gè)屬性,具體屬性信息列于表1。

        該數(shù)據(jù)集包括正常網(wǎng)站和非法網(wǎng)站。整個(gè)數(shù)據(jù)集分為兩個(gè)主要部分:一部分是HTML文本特征的數(shù)據(jù);另一部分是img圖像視覺特征的數(shù)據(jù)。數(shù)據(jù)集中非法網(wǎng)站的標(biāo)簽分為賭博、色情和釣魚三種類別,正常網(wǎng)站的標(biāo)簽分為購(gòu)物、新聞、游戲這三種。圖6展示了非法網(wǎng)站三種類別的部分圖片示例。

        2.3" 實(shí)驗(yàn)結(jié)果分析

        為探究不同模型對(duì)識(shí)別準(zhǔn)確率的影響,設(shè)計(jì)對(duì)比和消融實(shí)驗(yàn)分別進(jìn)行研究。其中,對(duì)比實(shí)驗(yàn)主要采用不同的文本和圖像分類模型來(lái)進(jìn)行對(duì)比。對(duì)于文本模型的對(duì)比,采用基準(zhǔn)BERT、LSTM[11]和RNN[12]模型與本文的BERT?CNN模型進(jìn)行對(duì)比;對(duì)于圖像模型的對(duì)比,采用ResNet?12、ResNet?50、VGG16與本文的ResNet?18模型進(jìn)行對(duì)比。

        在本文提出的文本分類模型BERT?CNN中,預(yù)訓(xùn)練模型選擇bert?base?chinese,Batch Size選擇8,學(xué)習(xí)率設(shè)定為1×10-6,并且解凍BERT層,允許其參數(shù)進(jìn)行微調(diào)。在局部特征提取層中,卷積核大小為3,卷積核數(shù)量為128,設(shè)置一層最大池化層和一層平均池化層。將數(shù)據(jù)集中的HTML源碼部分單獨(dú)抽出為文本數(shù)據(jù)集,再將img圖像部分抽出為圖像數(shù)據(jù)集,分別按照 3∶1∶1的比例將文本數(shù)據(jù)集和圖像數(shù)據(jù)集劃分成訓(xùn)練集、測(cè)試集、驗(yàn)證集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。

        由表2可知,在上述方法中,本文所提出的BERT?CNN模型的性能表現(xiàn)最佳,準(zhǔn)確率達(dá)到了92.53%。基準(zhǔn)BERT模型比LSTM模型表現(xiàn)出了更優(yōu)越的性能,[F1]?measure的分?jǐn)?shù)達(dá)到了90.47%,高出LSTM模型5.6%,說(shuō)明在文本分類任務(wù)中,BERT比LSTM更具優(yōu)勢(shì)。BERT?CNN的準(zhǔn)確率比基準(zhǔn)BERT模型高出1.78%,說(shuō)明在BERT模型中增加CNN的局部特征提取模塊可以有效提高BERT模型的分類性能。

        在本文提出的視覺分類模型中,設(shè)置批處理大?。˙atch Size)為32,模型迭代次數(shù)(Epoch)為50次。使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001。實(shí)驗(yàn)結(jié)果如表3所示。

        由表3可知,ResNet?18在非法網(wǎng)站圖片識(shí)別任務(wù)中取得了較為不錯(cuò)的表現(xiàn),其準(zhǔn)確率達(dá)到85.32%,相較于ResNet?12和VGG16[13]分別提升了1.51%和3.18%。與ResNet?50相比,ResNet?50取得了86.72%的準(zhǔn)確率,略高于ResNet?18。這說(shuō)明更深層次的網(wǎng)絡(luò)結(jié)構(gòu)可能有助于更全面地捕獲非法內(nèi)容的特征,但更深層的網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)帶來(lái)了更高的計(jì)算復(fù)雜性和資源消耗,會(huì)更容易陷入過(guò)擬合,所以ResNet?50不一定適合與本文提出的BERT?CNN模型相結(jié)合??傮w而言,ResNet?18能夠較好地對(duì)非法網(wǎng)站中的視覺特征進(jìn)行提取和分類。

        最后對(duì)本文提出的文本?視覺多特征的非法網(wǎng)站識(shí)別模型的整體性能進(jìn)行實(shí)驗(yàn)分析,對(duì)模型在訓(xùn)練過(guò)程中的準(zhǔn)確率和損失值曲線進(jìn)行記錄,并繪制曲線圖如圖7、圖8所示。

        由圖7和圖8的模型準(zhǔn)確率曲線圖和損失值曲線圖可以了解到,模型的初始準(zhǔn)確率為62.34%,最終準(zhǔn)確率為96.23%,模型在40輪次左右逐漸收斂,準(zhǔn)確率趨于穩(wěn)定,模型在訓(xùn)練過(guò)程中未出現(xiàn)異常情況,可以說(shuō)明本文提出的基于文本?視覺的多特征識(shí)別模型能夠較好地開展非法網(wǎng)站的識(shí)別任務(wù)。

        對(duì)本文模型進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4和圖9所示。

        根據(jù)表4和圖9的消融實(shí)驗(yàn)結(jié)果顯示,在非法網(wǎng)站識(shí)別的任務(wù)中,單獨(dú)依靠非法網(wǎng)站的圖片信息等視覺特征進(jìn)行惡意網(wǎng)頁(yè)識(shí)別時(shí)準(zhǔn)確率較低,相較于依靠文本信息特征的模型表現(xiàn)出準(zhǔn)確率和召回率下降的趨勢(shì)。雖然單獨(dú)依靠圖片或文本特征識(shí)別非法網(wǎng)站的效果不佳,但本文所提出的融合網(wǎng)頁(yè)文本信息與圖片信息的這種基于多特征的聯(lián)合模型(BERT?CNN?ResNet18),能夠更充分地提取到非法網(wǎng)站的特征,模型相較于BERT?CNN和ResNet18分別提高了約4%和11%,能更準(zhǔn)確地識(shí)別非法網(wǎng)站。

        3" 結(jié)" 語(yǔ)

        本文針對(duì)非法網(wǎng)站提出了一種基于文本?視覺的多特征融合的識(shí)別方法,利用深度學(xué)習(xí)中的自然語(yǔ)言處理技術(shù)和圖像識(shí)別技術(shù),通過(guò)結(jié)合多特征融合和多維度分析的研究思路,分別使用BERT和ResNet模型研究了非法網(wǎng)站不同維度信息的特征分析和提取,并對(duì)BERT模型在局部特征提取存在的問(wèn)題進(jìn)行了改進(jìn),在公開的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,模型的評(píng)價(jià)指標(biāo)表現(xiàn)出良好的性能,能夠有效地檢測(cè)和識(shí)別非法網(wǎng)站。但本文中使用的數(shù)據(jù)集與真實(shí)互聯(lián)網(wǎng)環(huán)境中的數(shù)據(jù)在規(guī)模和分布上仍存在一定差異,且非法網(wǎng)站存在較多隱蔽手段,常采取精巧的偽裝手段來(lái)逃避識(shí)別和檢測(cè),因此,本文未來(lái)的工作將嘗試把偽裝效果好的非法網(wǎng)站加入數(shù)據(jù)集中,嘗試在更復(fù)雜的情況下識(shí)別非法網(wǎng)站。

        注:本文通訊作者為何月順。

        參考文獻(xiàn)

        [1] ITU. Measuring digital development: Facts and figures 2022 [EB/OL]. [2022?12?09]. https://www.itu.int/hub/publication/d?ind?ict_mdd?2022/.

        [2] SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists [C]// Sixth Conference on Email and Anti?Spam. [S.l.: s.n.], 2009: 1096?1184.

        [3] JAIN A K, GUPTA B B. Phishing detection: Analysis of visual similarity based approaches [J]. Security and communication networks, 2017(1): 1?20.

        [4] 胡忠義,張碩果,吳江.基于URL多粒度特征融合的釣魚網(wǎng)站識(shí)別[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(11):103?110.

        [5] 趙翠平.融合URL和頁(yè)面信息的惡意網(wǎng)站識(shí)別方法研究[D].鎮(zhèn)江:江蘇科技大學(xué),2022.

        [6] RAO R S, ALI S T. A computer vision technique to detect phishing attacks [C]// 2015 Fifth International Conference on Communication Systems and Network Technologies. New York: IEEE, 2015: 596?601.

        [7] CHIEW K L, CHANG E H, TIONG W K. Utilisation of website logo for phishing detection [J]. Computers amp; security, 2015, 54: 16?26.

        [8] 趙欣荷,謝永恒,萬(wàn)月亮,等.基于多模態(tài)數(shù)據(jù)的博彩網(wǎng)站檢測(cè)識(shí)別模型[J].信息網(wǎng)絡(luò)安全,2023,23(10):77?82.

        [9] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 770?778.

        [10] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre?training of deep bidirectional transformers for language understanding [C]// Conference on North American Chapter of the Association for Computational Linguistics. [S.l.]: ACL, 2019: 4171?4186.

        [11] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 2010, 9(8): 1735?1780.

        [12] ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization [EB/OL]. [2015?02?19]. https://arxiv.org/abs/1409.2329v1.

        [13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [EB/OL]. [2019?07?17]. http://arxiv.org/abs/1409.1556.

        [14] 何穎,楊頻,王叢雙,等.基于深度神經(jīng)網(wǎng)絡(luò)的配資網(wǎng)站識(shí)別研究[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,58(3):97?103.

        [15] 陳鵬,李勇志,余肖生.基于特征選擇模型的釣魚網(wǎng)站快速識(shí)別方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(4):40?45.

        [16] 方勇,龍嘯,黃誠(chéng),等.基于LSTM與隨機(jī)森林混合構(gòu)架的釣魚網(wǎng)站識(shí)別研究[J].工程科學(xué)與技術(shù),2018,50(5):196?201.

        [17] 陳遠(yuǎn),王超群,胡忠義,等.基于主成分分析和隨機(jī)森林的惡意網(wǎng)站評(píng)估與識(shí)別[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018(4):71?80.

        [18] CHEN W B, YANG J H. Illegal network identification optimization based on convolutional neural network [C]// 2018 International Conference on Network, Communication, Computer Engineering (NCCE 2018). [S.l.: s.n.], 2018: 1074?1077.

        [19] CHEN Y, ZHENG R F, ZHOU A M, et al. Automatic detection of pornographic and gambling websites based on visual and textual content using a decision mechanism [J]. Sensors, 2020, 20(14): 3989.

        Research on illegal website identification based on textual?visual multi?feature fusion

        XIONG Linglong, HE Yueshun, CHEN Jie, DU Ping, HAN Xinhao

        (School of Information Engineering, East China University of Technology, Nanchang 330013, China)

        Abstract: At present, illegal websites have the characteristics of strong concealment and high potential for harm, and the website identification methods relying only on a single feature fail to cope with the complexity effectively. In view of this, an illegal website identification method based on textual?visual multi?feature fusion is introduced. Initially, a visual feature extraction model based on ResNet?18 and a textual feature extraction model based on BERT?CNN are established. Subsequently, a fusion algorithm based on logistic regression (LR) is applied to integrate the classification results of the two models. The final illegal website identification model is refined by multiple iterations of training. The experimental results show that the accuracy of the fusion model constructed is 4% and 11% higher than that of the model relying only on textual feature or visual feature, respectively, so the proposed model can identify illegal websites more accurately.

        Keywords: illegal website identification; multi?feature fusion; BERT; ResNet; CNN; deep learning

        DOI:10.16652/j.issn.1004?373x.2024.09.018

        引用格式:熊凌龍,何月順,陳杰,等.基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別研究[J].現(xiàn)代電子技術(shù),2024,47(9):97?103.

        收稿日期:2024?01?11"""""""""" 修回日期:2024?01?30

        基金項(xiàng)目:江西省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(20224BBC41001);江西省網(wǎng)絡(luò)空間安全智能感知重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目(JKLGIP202206)

        熊凌龍,等:基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別研究

        熊凌龍,等:基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別研究

        作者簡(jiǎn)介:熊凌龍(1998—),男,江西南昌人,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)信息安全、機(jī)器學(xué)習(xí)。

        何月順(1971—),男,湖南永州人,博士,教授,研究方向?yàn)榇髷?shù)據(jù)與智能信息處理、網(wǎng)絡(luò)空間安全、人工智能。

        熊凌龍,等:基于文本?視覺多特征融合的非法網(wǎng)站識(shí)別研究

        猜你喜歡
        深度學(xué)習(xí)
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        久久青草亚洲AV无码麻豆| 国产男女猛烈无遮挡免费网站| 无码国产午夜福利片在线观看| 久久精品国产亚洲AⅤ无码| 韩国无码av片在线观看网站| 视频福利一区| 日韩成精品视频在线观看| 一本色道久久88—综合亚洲精品| 奇米影视第四色首页| 成人三级a视频在线观看| 综合网五月| 一区二区三区人妻在线| 亚洲av综合国产av日韩| 无码av无码天堂资源网| 一本久道久久综合五月丁香| 中文字幕日韩一区二区不卡| 久久成人国产精品一区二区| 99香蕉国产精品偷在线观看| 五月天综合社区| 日韩激情视频一区在线观看| 国产aⅴ无码专区亚洲av| 丰满女人又爽又紧又丰满| 国产av天堂亚洲国产av麻豆| 国产一区二区三区成人| 午夜精品久久久久久久99热| 亚洲AV色无码乱码在线观看| 久久国产高潮流白浆免费观看| 久久久中文字幕日韩精品| 国产av熟女一区二区三区| 18禁超污无遮挡无码免费游戏| 国产真实乱XXXⅩ视频| 亚洲视频一区二区免费看| 免费国产a国产片高清网站| 77777亚洲午夜久久多人| 日韩熟女一区二区三区| 日本在线精品一区二区三区| 国产乱人视频在线播放| 久久久久久久久国内精品影视| 日韩精品久久午夜夜伦鲁鲁| 狠狠躁夜夜躁人人躁婷婷视频| 亚洲午夜精品a区|