亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)頁(yè)內(nèi)容鏈接層次語(yǔ)義樹(shù)的惡意網(wǎng)頁(yè)檢測(cè)方法

        2020-06-09 07:20:36陳本剛宋禮鵬
        關(guān)鍵詞:語(yǔ)義特征成本

        陳本剛,宋禮鵬

        中北大學(xué) 大數(shù)據(jù)學(xué)院 大數(shù)據(jù)與網(wǎng)絡(luò)安全研究所,太原030051

        1 引言

        攻擊者通過(guò)網(wǎng)絡(luò)釣魚(yú)、垃圾郵件投放和惡意下載等方式欺詐用戶(hù),這些活動(dòng)會(huì)在用戶(hù)不知情的情況下訪問(wèn)攻擊者提供的網(wǎng)頁(yè)以達(dá)到攻擊目的,這些網(wǎng)頁(yè)被稱(chēng)為惡意網(wǎng)頁(yè)[1]。為了避免用戶(hù)訪問(wèn)惡意網(wǎng)頁(yè),及時(shí)有效地檢測(cè)出惡意網(wǎng)頁(yè)非常重要。

        Ma J 等人[2]提出了基于URL 特征的大規(guī)模在線學(xué)習(xí)檢測(cè)惡意網(wǎng)頁(yè)方法,在平衡數(shù)據(jù)集上實(shí)現(xiàn)高達(dá)99%的分類(lèi)準(zhǔn)確度。李夢(mèng)玉等人[3]提出了基于URL 的高斯混合聚類(lèi)惡意網(wǎng)頁(yè)檢測(cè)方法,達(dá)到了較高的準(zhǔn)確度。但以上方法都未考慮攻擊者利用縮短服務(wù)隱藏攻擊意圖的問(wèn)題??s短服務(wù)是將長(zhǎng)URL 映射為短URL 的服務(wù),訪問(wèn)短鏈接即可重定向到原始的URL。被縮短后的URL不再具有原始URL 常見(jiàn)的特征,使得基于URL 特征相關(guān)特征失效,攻擊者利用縮短服務(wù)隱藏攻擊意圖,從而導(dǎo)致僅依賴(lài)URL特征的學(xué)習(xí)方法。

        目前存在許多針對(duì)惡意網(wǎng)頁(yè)檢測(cè)的研究方法,如黑名單[4]和啟發(fā)式方法[5],隨數(shù)據(jù)規(guī)模擴(kuò)大和時(shí)效性要求提升,傳統(tǒng)方法面臨無(wú)法檢測(cè)出新出現(xiàn)威脅的問(wèn)題。因此,研究者提出機(jī)器學(xué)習(xí)的檢測(cè)方法。樸楊鶴然等人[6]提出一種基于stacking 的惡意網(wǎng)頁(yè)集成檢測(cè)方法,獲得了98.12%的高準(zhǔn)確率。但未考慮實(shí)際惡意網(wǎng)頁(yè)檢測(cè)任務(wù)的高度類(lèi)別不均衡問(wèn)題,在惡意遠(yuǎn)小于良性網(wǎng)頁(yè)數(shù)量的不均衡數(shù)據(jù)集上,簡(jiǎn)單將所有網(wǎng)頁(yè)都預(yù)測(cè)為良性的分類(lèi)器能達(dá)到很高的準(zhǔn)確率。簡(jiǎn)單的優(yōu)化分類(lèi)準(zhǔn)確率以及僅用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)不適用于實(shí)際的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)。

        為了解決上述問(wèn)題,本文提出了一種融合網(wǎng)頁(yè)內(nèi)容層次語(yǔ)義樹(shù)特征的成本敏感學(xué)習(xí)的檢測(cè)方法,考慮到URL縮短服務(wù)導(dǎo)致被縮短后的URL不再具有原始URL特征,通過(guò)構(gòu)建網(wǎng)頁(yè)內(nèi)容鏈接層次語(yǔ)義樹(shù),并提取相應(yīng)特征,這類(lèi)特征在縮短服務(wù)前后具有不可變性,不受URL 縮短服務(wù)的影響,解決了利用URL 縮短服務(wù)導(dǎo)致檢測(cè)失效的問(wèn)題。通過(guò)優(yōu)化兩種成本敏感度量的目標(biāo)函數(shù),并構(gòu)建成本敏感學(xué)習(xí)模型,解決惡意網(wǎng)頁(yè)檢測(cè)任務(wù)中數(shù)據(jù)類(lèi)別不均衡問(wèn)題。實(shí)驗(yàn)表明,與現(xiàn)有方法相比在檢測(cè)性能和效率上都有所提升。

        2 惡意網(wǎng)頁(yè)檢測(cè)方法

        融合網(wǎng)頁(yè)內(nèi)容層次語(yǔ)義樹(shù)特征的成本敏感學(xué)習(xí)惡意網(wǎng)頁(yè)檢測(cè)方法框架如圖1 所示。在問(wèn)題分析模塊中給出了惡意網(wǎng)頁(yè)檢測(cè)中存在的兩類(lèi)問(wèn)題:利用縮短服務(wù)躲避檢測(cè)、惡意和良性數(shù)據(jù)類(lèi)別不均衡。在解決方案模塊中分別從特征工程角度和學(xué)習(xí)模型角度解決了上述兩個(gè)問(wèn)題。

        URL縮短服務(wù)使得被縮短后的URL不再具有原始URL 常見(jiàn)的特征,導(dǎo)致僅依賴(lài)于URL 特征的檢測(cè)方法失效,攻擊者可利用URL 縮短服務(wù)的這類(lèi)特性躲避檢測(cè)。針對(duì)這一問(wèn)題,從特征工程角度,構(gòu)建網(wǎng)頁(yè)內(nèi)容鏈接層次語(yǔ)義樹(shù)并提取相關(guān)特征,與網(wǎng)頁(yè)其他相關(guān)特征一并歸類(lèi)為結(jié)構(gòu)、語(yǔ)義和統(tǒng)計(jì)特征,確保在URL縮短時(shí)部分特征仍然有效。

        在學(xué)習(xí)模型的構(gòu)建過(guò)程中,常規(guī)的監(jiān)督學(xué)習(xí)方法不適用于數(shù)據(jù)類(lèi)別不均衡的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)。針對(duì)這一問(wèn)題,從學(xué)習(xí)模型的角度,通過(guò)優(yōu)化兩類(lèi)成本敏感的目標(biāo)函數(shù),提升惡意網(wǎng)頁(yè)的誤判代價(jià),解決了簡(jiǎn)單將所有網(wǎng)頁(yè)判定為良性網(wǎng)頁(yè)即可獲取高準(zhǔn)確率的問(wèn)題。

        基于上述相關(guān)特征和所構(gòu)建的成本敏感學(xué)習(xí)模型組成了融合網(wǎng)頁(yè)內(nèi)容層次語(yǔ)義樹(shù)特征的成本敏感學(xué)習(xí)惡意網(wǎng)頁(yè)檢測(cè)方法。使用帶標(biāo)簽數(shù)據(jù)集訓(xùn)練模型,分別在帶標(biāo)簽和不帶標(biāo)簽的測(cè)試數(shù)據(jù)上評(píng)估了方法的性能。

        2.1 惡意網(wǎng)頁(yè)特征提取

        針對(duì)縮短服務(wù)導(dǎo)致僅基于URL特征的惡意網(wǎng)頁(yè)檢測(cè)方法失效的問(wèn)題,惡意網(wǎng)頁(yè)特征從URL(如圖2)和HTML 源文件中提取相關(guān)特征。并對(duì)網(wǎng)頁(yè)內(nèi)容中的超鏈接及相應(yīng)的錨文本進(jìn)行語(yǔ)義分析,并對(duì)網(wǎng)頁(yè)內(nèi)容中的超鏈接及相應(yīng)的錨文本進(jìn)行語(yǔ)義分析,構(gòu)建層次語(yǔ)義樹(shù)描述網(wǎng)頁(yè)中的超鏈接行為。受到相關(guān)工作[7]的啟發(fā),共提取了513維均屬于輕量級(jí)靜態(tài)特征,不依賴(lài)于預(yù)先計(jì)算、先驗(yàn)知識(shí)以及特定自然語(yǔ)言,只需從單條原始數(shù)據(jù)中提取特征向量,擺脫了傳統(tǒng)方法需要上下文信息的特征,適用于在線學(xué)習(xí)檢測(cè)任務(wù),且不損失檢測(cè)準(zhǔn)確性。

        圖1 融合網(wǎng)頁(yè)內(nèi)容鏈接層次語(yǔ)義樹(shù)特征的成本敏感學(xué)習(xí)檢測(cè)方法框架

        圖2 特征提取URL源

        便于惡意網(wǎng)頁(yè)特征的特征選擇和貢獻(xiàn)度分析,從惡意網(wǎng)頁(yè)目標(biāo)、行為表現(xiàn)以及屬性的角度,將特征歸類(lèi)為結(jié)構(gòu)特征、語(yǔ)義特征和統(tǒng)計(jì)特征,特征值的類(lèi)型包括離散型(binary)、比值型(rational)、整型(integer)和向量型(vector),并對(duì)部分特征的領(lǐng)域知識(shí)和相關(guān)因素統(tǒng)計(jì)分析和描述。從特征貢獻(xiàn)度的角度分析這三類(lèi)特征,并根據(jù)貢獻(xiàn)度進(jìn)行特征選擇,所提出的特征具有較強(qiáng)的辨識(shí)度,其中語(yǔ)義類(lèi)特征的貢獻(xiàn)度相對(duì)高于統(tǒng)計(jì)特征和結(jié)構(gòu)特征,特征預(yù)處理和貢獻(xiàn)度分析的具體過(guò)程在3.2節(jié)中。

        2.1.1 結(jié)構(gòu)特征

        結(jié)構(gòu)特征側(cè)重于提取原始數(shù)據(jù)中的結(jié)構(gòu)信息,包含URL、HTML 源文件以及源文件中的JS 片段的結(jié)構(gòu)特征。結(jié)構(gòu)特征中的包含IP地址、查詢(xún)鍵值對(duì)數(shù)、JS最長(zhǎng)字符串長(zhǎng)為新增加的特征。部分結(jié)構(gòu)特征的列舉如表1和領(lǐng)域知識(shí)的分析如下。

        (#1)URL長(zhǎng)度。攻擊者使用長(zhǎng)URL隱藏地址欄的可疑部分。目前無(wú)可靠URL長(zhǎng)度閾值區(qū)分惡意和良性網(wǎng)頁(yè),文獻(xiàn)[8]中給出良性長(zhǎng)度為75,但未給出證明。為了確保特征的準(zhǔn)確性,計(jì)算數(shù)據(jù)集中的良性和惡意的URL 長(zhǎng)度的均值。分析得出,若URL 的長(zhǎng)度小于或等于54,則被歸為良性,若大于74,則URL 被歸為惡意。其中URL長(zhǎng)度大于等于54的實(shí)例有1 220個(gè),占48.8%。

        (#2)包含IP 地址。若用IP 地址替代URL 中的域名,例如http://125.98.3.123/fake.html,則幾乎可確定該網(wǎng)頁(yè)試圖竊取個(gè)人信息。統(tǒng)計(jì)數(shù)據(jù)集顯示,570個(gè)URL使用IP地址作為域名。

        (#3)查詢(xún)的鍵值對(duì)數(shù)。URL 可分解成通用格式如圖2,包括協(xié)議、域名、路徑、query和fragment,其中query由鍵值對(duì)組成。攻擊者可能修改任意一個(gè)部分以發(fā)起攻擊。當(dāng)前特征主要關(guān)注惡意修改query部分的攻擊的執(zhí)行情況。

        表1 部分結(jié)構(gòu)特征的描述

        (#4)JS片段占HTML文件比。JS腳本相對(duì)于HTML源文件總體的大小。源文件中JS 腳本越多,實(shí)際可見(jiàn)內(nèi)容越少,執(zhí)行越多,更易用JS發(fā)起攻擊。

        (#5)JS最長(zhǎng)字符串長(zhǎng)。惡意JS通常使用混淆隱藏攻擊意圖?;煜齁S 代碼通常包含長(zhǎng)字符串,它表示編碼或者加密,用于像eval 函數(shù)的參數(shù)。有很長(zhǎng)(例如超過(guò)350個(gè)字符[9])的字符串的腳本更有可能被混淆。圖3的混淆代碼中包含814個(gè)字符,計(jì)算最長(zhǎng)字符串大小。

        圖3 混淆的JS代碼

        2.1.2 語(yǔ)義特征

        側(cè)重于從惡意網(wǎng)頁(yè)領(lǐng)域知識(shí)的語(yǔ)義角度提取特征,包括對(duì)URL、HTML 源文件以及JS 片段進(jìn)行語(yǔ)義分析提取的特征。另外,受DOM結(jié)構(gòu)樹(shù)的啟發(fā),對(duì)超鏈接及錨文本進(jìn)行語(yǔ)義分析,分析鏈接關(guān)系來(lái)描述超鏈接跳轉(zhuǎn)行為。語(yǔ)義特征中的URL使用縮短服務(wù)和層次語(yǔ)義樹(shù)新增加的特征。部分特征的詳細(xì)描述如表2。

        表2 部分語(yǔ)義特征的描述

        (#1)使用縮短服務(wù)。攻擊者通常使用縮短服務(wù)隱藏URL 中的攻擊意圖,長(zhǎng)的URL 通過(guò)縮短服務(wù)映射到短地址,是通過(guò)短域名的“HTTP重定向”實(shí)現(xiàn)的,該域名鏈接到長(zhǎng)URL 的網(wǎng)頁(yè)。例如,http://portal.hud.ac.uk/可縮短為bit.ly/19DXSk4,通過(guò)特定域名后綴判定。

        (#2)使用”-”分割增加域名前后綴。下劃線符號(hào)很少用于合法網(wǎng)址。網(wǎng)絡(luò)釣魚(yú)者傾向于將“-”分隔的前綴或后綴添加到域名中,給用戶(hù)一種合法網(wǎng)頁(yè)的視覺(jué)欺騙。例如http://www.Confirme-paypal.com/。

        (#3)URL子域名和多重子域名。假設(shè)有以下鏈接:http://www.nuc.edu.cn/students/。域名可能包括頂級(jí)域名,edu.cn稱(chēng)為二級(jí)域,“nuc”是實(shí)際域名。先從URL中去掉(www.),刪除頂級(jí)域名(如果存在),計(jì)算剩余的點(diǎn)數(shù)。若大于1,則URL為可疑,因?yàn)橛幸粋€(gè)子域。但是,如果點(diǎn)大于2,則將其歸類(lèi)為惡意,因?yàn)橛卸鄠€(gè)子域。否則,若URL無(wú)子域,則為良性。

        圖4 網(wǎng)頁(yè)鏈接層次語(yǔ)義樹(shù)

        (#4)網(wǎng)頁(yè)內(nèi)容鏈接的層次語(yǔ)義樹(shù)特征。對(duì)數(shù)據(jù)集的超鏈接及其錨文本進(jìn)行語(yǔ)義分析,發(fā)現(xiàn)惡意網(wǎng)頁(yè)多個(gè)鏈接指向同一外域,對(duì)錨文本語(yǔ)義拆分后提取關(guān)鍵詞發(fā)現(xiàn)同一批字符同時(shí)出現(xiàn)的概率高。通過(guò)構(gòu)建網(wǎng)頁(yè)鏈接層次語(yǔ)義樹(shù),描述網(wǎng)頁(yè)的超鏈接的跳轉(zhuǎn)行為:(1)先提取網(wǎng)頁(yè)中的所有超鏈接以及相應(yīng)的錨文本;(2)鏈接及其錨文本作為語(yǔ)義樹(shù)的節(jié)點(diǎn),鏈接如圖4的層次結(jié)構(gòu)的語(yǔ)義解析;(3)利用鏈接的層次結(jié)構(gòu)將多個(gè)節(jié)點(diǎn)構(gòu)造成語(yǔ)義樹(shù),從語(yǔ)義樹(shù)提取特征。語(yǔ)義樹(shù)每節(jié)點(diǎn)為一個(gè)三元組,定義為集合{URL|(x,y,z)},其中x y z 參數(shù)分別表示鏈接層次字符、鏈接對(duì)應(yīng)的錨文本、鏈接頻次,例如圖4中的/password/節(jié)點(diǎn)取值為{URL|(“/password/”,“重設(shè)密碼”,11)}。以URL 作為根節(jié)點(diǎn),提取語(yǔ)義樹(shù)的相關(guān)特征,例如圖4中鏈接層次語(yǔ)義樹(shù)的特征向量(樹(shù)深,樹(shù)寬,總節(jié)點(diǎn)數(shù),葉節(jié)點(diǎn)數(shù),子樹(shù)數(shù),子樹(shù)深,外域子樹(shù)數(shù))的取值為(4,15,22,15,6,2,5)。結(jié)合這類(lèi)特征以及網(wǎng)頁(yè)內(nèi)容相關(guān)特征,可解決縮短服務(wù)導(dǎo)致地址欄URL特征失效的問(wèn)題。

        2.1.3 統(tǒng)計(jì)特征

        側(cè)重于統(tǒng)計(jì)分布特征,描述統(tǒng)計(jì)分布規(guī)律,如URL的域名部分的n-gram 字符頻率分布,HTML 源文件和JS片段的信息熵等,其中域名1-gram為新增加的特征,如表3所示。

        表3 部分統(tǒng)計(jì)特征的描述

        (#1)域名1-gram。用N-gram[10]模型對(duì)域名提取字符序列特征,N-gram 假設(shè)序列中第N 個(gè)字符只與其前的N-1 個(gè)字符有關(guān),與其他字符無(wú)關(guān)。1-gram表示每個(gè)字符獨(dú)立,提取域名的字符頻率分布。正常域名都會(huì)偏向選取可讀性好的字母或拼音組合,抽象成數(shù)學(xué)語(yǔ)言,即為英文的元音字母的比例較高。而惡意網(wǎng)頁(yè)域名這方面特性不明顯。

        (#2)HTML 熵值。熵值是信息內(nèi)容不確定性的指標(biāo),被用來(lái)分析不同文本的字符分布,一般惡意網(wǎng)頁(yè)比良性網(wǎng)頁(yè)具有更小的熵值。

        (#3)JS熵值。與HTML-熵值的計(jì)算方式類(lèi)似?;煜a包含重復(fù)字串,所以混淆JS 代碼一般具有比正常JS 代碼更低的熵值,統(tǒng)計(jì)表明混淆JS 代碼的熵值小于1.2,而正常JS代碼為1.2~2.1。

        2.2 成本敏感學(xué)習(xí)

        2.2.1 成本敏感學(xué)習(xí)方法

        圖5 成本敏感學(xué)習(xí)的流程

        成本敏感學(xué)習(xí)的惡意網(wǎng)頁(yè)檢測(cè)流程如圖5,對(duì)訓(xùn)練數(shù)據(jù)提取第2.1 節(jié)中的結(jié)構(gòu)、語(yǔ)義和統(tǒng)計(jì)特征,在3.2 節(jié)中分析其貢獻(xiàn)度并證明有效性。訓(xùn)練成本敏感及其他學(xué)習(xí)模型,在帶標(biāo)簽數(shù)據(jù)和不帶標(biāo)簽測(cè)試集中評(píng)估各模型的性能,訓(xùn)練好的模型用來(lái)檢測(cè)新出現(xiàn)的網(wǎng)頁(yè)。該檢測(cè)方法分別從特征工程和模型構(gòu)建的角度解決了實(shí)際的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)中出現(xiàn)的縮短服務(wù)及數(shù)據(jù)類(lèi)別不均衡問(wèn)題。

        實(shí)際的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)中,惡意網(wǎng)頁(yè)數(shù)量遠(yuǎn)小于良性網(wǎng)頁(yè)的數(shù)據(jù)不均衡問(wèn)題極其嚴(yán)重,使得模型偏向于預(yù)測(cè)為良性網(wǎng)頁(yè)或者出現(xiàn)簡(jiǎn)單將所有網(wǎng)頁(yè)都預(yù)測(cè)為良性的分類(lèi)器能達(dá)到很高的準(zhǔn)確率的情況。與常見(jiàn)的有監(jiān)督學(xué)習(xí)相比,成本敏感學(xué)習(xí)更適用于實(shí)際的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)。針對(duì)惡意網(wǎng)頁(yè)數(shù)據(jù)類(lèi)別不均衡問(wèn)題設(shè)計(jì)算法時(shí)必須考慮不同類(lèi)別實(shí)例的誤報(bào)代價(jià),在目標(biāo)函數(shù)的構(gòu)建過(guò)程中,通過(guò)優(yōu)化兩個(gè)成本度量解決不均衡問(wèn)題。并引入擴(kuò)展性好的在線學(xué)習(xí),可隨網(wǎng)頁(yè)的到達(dá)頻繁更新有效應(yīng)對(duì)新出現(xiàn)的威脅;通過(guò)主動(dòng)學(xué)習(xí)在傳入網(wǎng)頁(yè)的分類(lèi)置信度低或正確預(yù)測(cè)存在高度不確定性時(shí)才會(huì)主動(dòng)查詢(xún)標(biāo)簽,節(jié)省了大量數(shù)據(jù)的標(biāo)注成本。基于成本敏感學(xué)習(xí)惡意網(wǎng)頁(yè)檢測(cè)流程如圖5。方法旨在解決兩個(gè)問(wèn)題:(1)分類(lèi)器必須決定何時(shí)該查詢(xún)傳入網(wǎng)頁(yè)實(shí)例的標(biāo)簽;(2)如何有效地更新分類(lèi)器。探索主動(dòng)學(xué)習(xí)解決第一個(gè)問(wèn)題,研究成本敏感的在線學(xué)習(xí)策略解決第二個(gè)問(wèn)題。

        2.2.2 成本敏感度量的定義

        使用xt∈?d表示第t 輪傳入網(wǎng)頁(yè)特征向量,wt∈?d是前t-1 訓(xùn)練樣本學(xué)習(xí)得到的模型。使用=sign(wt?xt)表示t 輪實(shí)例的預(yù)測(cè)結(jié)果, ||wt?xt表示預(yù)測(cè)置信度。 xt相應(yīng)實(shí)例的真實(shí)標(biāo)簽為yt∈{ }-1,+1 ,若,則模型誤判。

        假設(shè)網(wǎng)頁(yè)集合(x1,y1),(x2,y2),…,(xT,yT) 訓(xùn)練惡意網(wǎng)頁(yè)在線檢測(cè)模型,其中標(biāo)簽yt的顯示取決于該網(wǎng)頁(yè)是否需要查詢(xún)標(biāo)簽。訓(xùn)練過(guò)程中,常規(guī)的監(jiān)督學(xué)習(xí)方法優(yōu)化準(zhǔn)確率,對(duì)數(shù)據(jù)集類(lèi)別不均衡的惡意網(wǎng)頁(yè)檢測(cè)任務(wù)不適用。因此優(yōu)化更合適的性能指標(biāo),如敏感度(sensitivity)和特異性(specificity)的線性加權(quán),即:

        其中,0 ≤ηp,ηn≤1 分別為惡意和良性實(shí)例的正確識(shí)別的權(quán)重參數(shù),且ηp+ηn=1,其中sensitivity 為所有惡意網(wǎng)頁(yè)中被正確識(shí)別的比例,specificity 為所有良性網(wǎng)頁(yè)中被正確識(shí)別的比例。當(dāng)ηp=ηn=1/2 時(shí),sum 為平衡精度。sum 越大,模型性能越好。另一合適的評(píng)價(jià)指標(biāo)為模型錯(cuò)分總代價(jià)cost,即:

        其中,Mp和Mn分別為正樣本和負(fù)樣本的誤判數(shù)量,0 ≤cp,cn≤1 分別為惡意和良性實(shí)例的誤判代價(jià)參數(shù),且cp+cn=1。cost 越小,模型性能越好。

        2.2.3 成本敏感學(xué)習(xí)算法

        通過(guò)優(yōu)化上述的sum 和cost 兩個(gè)成本敏感度量[11],構(gòu)建在線惡意網(wǎng)頁(yè)檢測(cè)模型。介紹算法之前,需要證明嵌入成本敏感度量的目標(biāo)函數(shù)。為了解決成本敏感分類(lèi)問(wèn)題,優(yōu)化目標(biāo)sum 最大化或cost 最小化等價(jià)于以下目標(biāo)函數(shù)最小化:

        其中,ρ 為成本敏感因子,當(dāng)ρ=ηpTn/ηnTp時(shí),上述目標(biāo)函數(shù)最小化表示sum最大化。當(dāng)ρ=cp/cn時(shí),上述目標(biāo)函數(shù)的最小化表示cost 最小化。||(s)為指標(biāo)函數(shù),滿足條件s 時(shí)值為1 否則為0,其他變量描述如2.2.2 節(jié)。兩類(lèi)成本敏感度量的目標(biāo)函數(shù)的證明過(guò)程如下:

        其中,Tp和Tn分別為訓(xùn)練集中惡意網(wǎng)頁(yè)的數(shù)量和良性網(wǎng)頁(yè)的數(shù)量,其他變量的描述如2.2.2節(jié),上述需要優(yōu)化的目標(biāo)函數(shù)為非凸函數(shù),轉(zhuǎn)化為凸優(yōu)化問(wèn)題,改進(jìn)后的hinge損失為:

        在線學(xué)習(xí)原始目標(biāo)函數(shù)如下:

        算法中懲罰系數(shù)C 和偏差系數(shù)ρ 設(shè)置為C=ρ=Tn/Tp,sum 優(yōu)化目標(biāo)中的正確識(shí)別權(quán)重參數(shù)以及cost優(yōu)化目標(biāo)中的誤判代價(jià)參數(shù)設(shè)置為ηp=cp=Tn/(Tp+Tn),ηn=cp=Tp/(Tp+Tn),為了保證訓(xùn)練初期需要更多的訓(xùn)練實(shí)例,采樣因子δ 的初始設(shè)置為0.5。算法描述如下:

        算法 成本敏感在線主動(dòng)學(xué)習(xí)

        輸入懲罰系數(shù)C,偏差系數(shù)ρ 和采樣因子δ。

        初始化w1=0

        for t=1,2,…,T do

        傳入網(wǎng)頁(yè)實(shí)例xt∈?d

        if Zt=1 then

        查詢(xún)標(biāo)簽yt∈{ }

        -1,+1

        wt+1=wt+τtytxt

        else

        wt+1=wt+τtytxts.t.τt=0

        end if

        end for

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        訓(xùn)練模型所用數(shù)據(jù)集包含帶標(biāo)簽的網(wǎng)頁(yè)4萬(wàn)條,惡意與良性網(wǎng)頁(yè)的比例為78.8∶1。測(cè)試實(shí)際模型泛化能力的數(shù)據(jù)集包含不帶標(biāo)簽網(wǎng)頁(yè)25萬(wàn)條。數(shù)據(jù)集中的一部分為2017 網(wǎng)絡(luò)信息安全對(duì)抗賽[14],均為真實(shí)的URL及其網(wǎng)頁(yè)源代碼,一部分來(lái)自于Phishtank[15]發(fā)布的惡意網(wǎng)頁(yè)黑名單,還有一部分是從Alexa中收集到的良性網(wǎng)頁(yè)。

        3.2 貢獻(xiàn)度分析

        第2 章中提取的惡意網(wǎng)頁(yè)檢測(cè)相關(guān)特征共513 維,所有特征均為靜態(tài)輕量級(jí)特征。將這些特征歸類(lèi)為結(jié)構(gòu)、語(yǔ)義和統(tǒng)計(jì)三類(lèi),做特征選擇和貢獻(xiàn)度的分析,尤其對(duì)新提出的鏈接層次語(yǔ)義特征貢獻(xiàn)度進(jìn)行分析,特征選擇流程如圖6。

        圖6 特征處理流程圖

        使用feature_important[16]對(duì)特征選擇之后的114 個(gè)特征做貢獻(xiàn)度分析,計(jì)算并平均每個(gè)特征的基尼雜質(zhì)的減少,根據(jù)此值排序特征的貢獻(xiàn)度。貢獻(xiàn)度top20 的特征如表4,分?jǐn)?shù)為每個(gè)特征對(duì)分類(lèi)的貢獻(xiàn)度。結(jié)果顯示,新提出的鏈接層次語(yǔ)義樹(shù)特征貢獻(xiàn)度分?jǐn)?shù)相對(duì)較高。語(yǔ)義類(lèi)特征的貢獻(xiàn)度相對(duì)高于統(tǒng)計(jì)特征和結(jié)構(gòu)特征。

        3.3 分類(lèi)器

        測(cè)試提取的特征和成本敏感在線主動(dòng)學(xué)習(xí)方法在惡意網(wǎng)頁(yè)檢測(cè)任務(wù)中的有效性,考慮了SVM、RF和XGBoost 算法。使用默認(rèn)的參數(shù)配置這些分類(lèi)器,詳細(xì)介紹這些分類(lèi)器超出本文范圍,成本敏感在線主動(dòng)學(xué)習(xí)方法也在第2章中詳細(xì)介紹過(guò),所以?xún)H提供簡(jiǎn)介如下:

        表4 特征貢獻(xiàn)度top20

        RF:使用多個(gè)決策樹(shù)訓(xùn)練一個(gè)非概率分類(lèi)器,多數(shù)投票預(yù)測(cè)類(lèi)別。

        SVM:訓(xùn)練幾何間隔最大化的最優(yōu)分類(lèi)超平面,通過(guò)核函數(shù)解決線性不可分問(wèn)題。

        XGBoost:梯度提升決策樹(shù)的一種變體,引入正則項(xiàng)防過(guò)擬合,對(duì)損失函數(shù)二階泰勒展開(kāi)使目標(biāo)函數(shù)更精確收斂到全局最優(yōu)。使用可并行近似直方圖算法,高效生成候選分割點(diǎn)。

        成本敏感在線主動(dòng)學(xué)習(xí):構(gòu)建優(yōu)化兩類(lèi)成本敏感度量目標(biāo)函數(shù)。訓(xùn)練過(guò)程中,對(duì)每個(gè)傳入的實(shí)例采用主動(dòng)學(xué)習(xí)判斷是否查詢(xún)標(biāo)簽,然后決定是否用該實(shí)例更新模型。不僅適用于類(lèi)別不均衡數(shù)據(jù)集,且模型只需一定數(shù)量的訓(xùn)練數(shù)據(jù)即可達(dá)到使用所有訓(xùn)練樣本的常規(guī)監(jiān)督學(xué)習(xí)的性能,更適用于解決惡意網(wǎng)頁(yè)檢測(cè)任務(wù)。

        3.4 評(píng)估

        評(píng)估本文方法和現(xiàn)有方法的效率和性能,從訓(xùn)練數(shù)據(jù)集中提取上述特征向量,訓(xùn)練上述四個(gè)分類(lèi)器。在帶標(biāo)記的數(shù)據(jù)集中,對(duì)各分類(lèi)器的性能和效率進(jìn)行了評(píng)估。另外,測(cè)試模型實(shí)際泛化能力,訓(xùn)練好的分類(lèi)器在25萬(wàn)條無(wú)標(biāo)簽數(shù)據(jù)集中檢測(cè)惡意網(wǎng)頁(yè)。

        3.4.1 帶標(biāo)簽數(shù)據(jù)集上的評(píng)估

        評(píng)估分類(lèi)器在帶標(biāo)簽測(cè)試數(shù)據(jù)集上分類(lèi)效率和性能,避免在訓(xùn)練集測(cè)試集的隨機(jī)分區(qū)中可能引入錯(cuò)誤,采用10折交叉驗(yàn)證策略訓(xùn)練上述分類(lèi)器。考慮到數(shù)據(jù)集類(lèi)別不均衡對(duì)準(zhǔn)確率的影響,除了accur(準(zhǔn)確率),表5中還引入了sens(sensitivity,靈敏度)、spec(specificity,特異性)及query(訓(xùn)練所需數(shù)據(jù)占訓(xùn)練集的比例)和time(預(yù)測(cè)耗時(shí))等評(píng)價(jià)指標(biāo),計(jì)算公式如下:

        表5 各學(xué)習(xí)方法的性能對(duì)比

        其中TP FP TN FN 分別表示真正、假正、真負(fù)、假負(fù)網(wǎng)頁(yè)數(shù)。除了time 和query,以上評(píng)價(jià)指標(biāo)值越大則分類(lèi)器性能越好。

        各學(xué)習(xí)方法在帶標(biāo)簽數(shù)據(jù)集表現(xiàn)如表5,使用特征選擇后的114 維特征訓(xùn)練分類(lèi)器。上述各分類(lèi)器整體分類(lèi)準(zhǔn)確率超過(guò)了94%。

        成本敏感指標(biāo)最好的分類(lèi)器為成本敏感在線主動(dòng)學(xué)習(xí),其靈敏度為97.9%,特異性為96.7%,本文方法在靈敏度和特異性上均優(yōu)于其他監(jiān)督學(xué)習(xí)方法。通過(guò)主動(dòng)學(xué)習(xí),僅使用21.4%訓(xùn)練數(shù)據(jù)的分類(lèi)器,即可達(dá)到較好檢測(cè)性能,能在保持檢測(cè)效果的同時(shí)節(jié)省大量數(shù)據(jù)標(biāo)注成本。

        為了對(duì)比減少訓(xùn)練數(shù)據(jù)對(duì)其他監(jiān)督學(xué)習(xí)方法性能的影響,正負(fù)樣本分層隨機(jī)選取訓(xùn)練數(shù)據(jù)中的21.4%,訓(xùn)練SVM、RF 和XGBoost 模型,在帶標(biāo)簽的數(shù)據(jù)集表現(xiàn)如表6,顯示減少訓(xùn)練數(shù)據(jù)會(huì)極大地降低其他有監(jiān)督學(xué)習(xí)模型的性能。

        表6 各學(xué)習(xí)方法的性能對(duì)比(隨機(jī)選取21.4%訓(xùn)練數(shù)據(jù)) %

        3.4.2 無(wú)標(biāo)簽數(shù)據(jù)集上的評(píng)估

        評(píng)估上述分類(lèi)器從無(wú)標(biāo)簽數(shù)據(jù)集中檢測(cè)惡意的網(wǎng)頁(yè)的實(shí)際泛化能力,使用主流反病毒工具VirusTotal 和人驗(yàn)證方式做進(jìn)一步驗(yàn)證。人工驗(yàn)證方法為從攻擊者角度進(jìn)行,先找出該網(wǎng)頁(yè)的仿制對(duì)象,再采用人工對(duì)比確認(rèn)其是否為惡意網(wǎng)頁(yè)。實(shí)驗(yàn)結(jié)果如表7 所示,其中malicious 為分類(lèi)器檢測(cè)為惡意的網(wǎng)頁(yè)數(shù),rest 為未被VirusTotal所驗(yàn)證出網(wǎng)頁(yè)數(shù),manual為rest中被人工驗(yàn)證為惡意網(wǎng)頁(yè)數(shù),即VirusTotal所漏報(bào)的惡意網(wǎng)頁(yè)。

        表7 各學(xué)習(xí)方法在25萬(wàn)條無(wú)標(biāo)簽數(shù)據(jù)集的表現(xiàn)

        如表7顯示,本文方法從25萬(wàn)條無(wú)標(biāo)簽數(shù)據(jù)中檢測(cè)出875個(gè)惡意網(wǎng)頁(yè),VirusTotal僅驗(yàn)證其中470個(gè)為惡意網(wǎng)頁(yè),人工驗(yàn)證剩余的405 條中的386 為惡意網(wǎng)頁(yè)。結(jié)果顯示本文方法優(yōu)于反病毒工具VirusTotal和常規(guī)監(jiān)督學(xué)習(xí)方法。

        3.4.3 評(píng)估集成為惡意檢測(cè)插件的潛力

        目前存在瀏覽器插件的惡意網(wǎng)頁(yè)檢測(cè)方法,為了評(píng)估本文方法作為瀏覽器插件的在線實(shí)時(shí)檢測(cè)器的潛力,分析惡意網(wǎng)頁(yè)檢測(cè)中每一步的耗時(shí)。網(wǎng)頁(yè)特征向量提取耗時(shí)與分類(lèi)器的預(yù)測(cè)耗時(shí)總和為單個(gè)網(wǎng)頁(yè)的檢測(cè)時(shí)間,表5 中最差的分類(lèi)器SVM 平均單個(gè)網(wǎng)頁(yè)預(yù)測(cè)耗時(shí)只需要0.006 ms,相比于網(wǎng)頁(yè)特征向量提取耗時(shí),預(yù)測(cè)耗時(shí)可忽略不計(jì)。平均每個(gè)網(wǎng)頁(yè)的特征向量提取耗時(shí)78 ms 可作為集成為瀏覽器插件檢測(cè)惡意網(wǎng)頁(yè)的真實(shí)時(shí)間開(kāi)銷(xiāo)。

        4 結(jié)束語(yǔ)

        本文提出的網(wǎng)頁(yè)鏈接層次語(yǔ)義樹(shù)特征可有效解決URL縮短服務(wù)帶來(lái)的威脅,與常規(guī)監(jiān)督學(xué)習(xí)方法相比成本敏感在線學(xué)習(xí)解決了惡意網(wǎng)頁(yè)檢測(cè)任務(wù)中數(shù)據(jù)類(lèi)別不均衡問(wèn)題。本文方法在惡意網(wǎng)頁(yè)檢測(cè)中優(yōu)于主流的反病毒工具VirusTotal。未來(lái)研究中將嘗試成本敏感多分類(lèi)惡意檢測(cè)方法和基于瀏覽器插件的惡意網(wǎng)頁(yè)檢測(cè)的集成。

        猜你喜歡
        語(yǔ)義特征成本
        2021年最新酒駕成本清單
        河南電力(2021年5期)2021-05-29 02:10:00
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        溫子仁,你還是適合拍小成本
        電影(2018年12期)2018-12-23 02:18:48
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        獨(dú)聯(lián)體各國(guó)的勞動(dòng)力成本
        欧美日韩国产精品自在自线| 日本高清一区二区三区不卡| 日本av天堂一区二区三区| 日韩av午夜在线观看| 性一乱一搞一交一伦一性| 高清国产美女av一区二区| 一区二区三区国产天堂| 亚洲乱码无人区卡1卡2卡3| 亚洲av无码潮喷在线观看 | 九一成人AV无码一区二区三区| 中文乱码字幕人妻熟女人妻| 中字乱码视频| 人禽伦免费交视频播放| 久久狠色噜噜狠狠狠狠97| 最好的99精品色视频大全在线| 日韩人妻熟女中文字幕a美景之屋| 欧美jizzhd精品欧美| 国内自拍偷拍亚洲天堂 | 国产婷婷色一区二区三区深爱网| 国产午夜鲁丝片av无码| 亚洲AV无码成人网站久久精品| 久久老熟女乱色一区二区| 夜夜高潮夜夜爽夜夜爱爱一区| 99热久久精里都是精品6| 国产一级淫片免费大片| 精品福利一区二区三区| 国产精品毛片一区二区三区 | 成人午夜福利视频镇东影视| 最新国产午夜福利| 中文字幕久久国产精品| 欧美男生射精高潮视频网站 | 精品偷拍被偷拍在线观看| 最新国产日韩AV线| 国产精品99久久精品女同| 亚洲av免费手机在线观看 | 欧美老妇牲交videos| 999国内精品永久免费视频| 日韩毛片久久91| 国产成人综合精品一区二区| 国产成人亚洲精品青草天美 | 国产嫩草av一区二区三区|