亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于兩層分類器的惡意網(wǎng)頁(yè)快速檢測(cè)系統(tǒng)研究

        2017-09-08 09:14:53王正琦馮曉兵張馳
        關(guān)鍵詞:特征提取分類特征

        王正琦,馮曉兵,張馳

        (1. 中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026;2. 中國(guó)科學(xué)院電磁空間信息重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230026)

        基于兩層分類器的惡意網(wǎng)頁(yè)快速檢測(cè)系統(tǒng)研究

        王正琦1,2,馮曉兵1,2,張馳1,2

        (1. 中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026;2. 中國(guó)科學(xué)院電磁空間信息重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230026)

        針對(duì)當(dāng)前傳統(tǒng)靜態(tài)惡意網(wǎng)頁(yè)檢測(cè)方案在面對(duì)海量的新增網(wǎng)頁(yè)時(shí)面臨的壓力,引入了兩段式的分析檢測(cè)過(guò)程,并依次為每段檢測(cè)提出相應(yīng)的特征提取方案,通過(guò)層次化使用優(yōu)化的樸素貝葉斯算法和支持向量機(jī)算法,設(shè)計(jì)并實(shí)現(xiàn)了一種兼顧效率和功能的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)——TSMWD(two-step malicious Web page detection system)。第一層檢測(cè)系統(tǒng)用于過(guò)濾大量的正常網(wǎng)頁(yè),其特點(diǎn)為效率高、速度快、更新迭代容易,真正率優(yōu)先。第二層檢測(cè)系統(tǒng)追求性能,對(duì)于檢測(cè)的準(zhǔn)確率要求較高,時(shí)間和資源的開銷上適當(dāng)放寬。實(shí)驗(yàn)結(jié)果表明,該架構(gòu)能夠在整體檢測(cè)準(zhǔn)確率基本不變的情況下,提高系統(tǒng)的檢測(cè)速度,在時(shí)間一定的情況下,接納更多的檢測(cè)請(qǐng)求。

        惡意網(wǎng)頁(yè)檢測(cè);網(wǎng)絡(luò)安全;機(jī)器學(xué)習(xí);特征提取

        1 引言

        近年來(lái),社會(huì)經(jīng)濟(jì)、科技、文化高速發(fā)展,互聯(lián)網(wǎng)已逐步成為人們生活中不可或缺的重要一環(huán)。人們正逐漸從信息時(shí)代過(guò)渡到大數(shù)據(jù)時(shí)代。網(wǎng)絡(luò)購(gòu)物、在線付款、遠(yuǎn)程會(huì)議等各式的互聯(lián)網(wǎng)應(yīng)用層出不窮,隨著互聯(lián)網(wǎng)給人們的生活帶來(lái)越來(lái)越多的便利,更多的人希望在網(wǎng)絡(luò)中獲取自己所需要的信息。因此,大量提供各式各樣服務(wù)的網(wǎng)站與日俱增。中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC,China Internet Network Information Center)2016年發(fā)布的第37次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,自2014年以來(lái),中國(guó)網(wǎng)站數(shù)量一直呈現(xiàn)明顯的上升趨勢(shì)。截至2016年6月,中國(guó)網(wǎng)站數(shù)量為4.54 M個(gè),半年增長(zhǎng)7.3%,如圖1所示。

        但是,互聯(lián)網(wǎng)也是一把雙刃劍。在方便人們生活、開拓人們視野的同時(shí),許多不法分子也從中覓得了良機(jī)。他們或?yàn)榱私?jīng)濟(jì)利益、或?yàn)榱藗€(gè)人報(bào)復(fù),借助互聯(lián)網(wǎng)這個(gè)開放的公共平臺(tái)在監(jiān)管缺失的情況下進(jìn)行大量的攻擊行為。因此,互聯(lián)網(wǎng)中充斥著各式各樣的惡意網(wǎng)站、惡意軟件、病毒木馬等對(duì)用戶個(gè)人隱私和財(cái)產(chǎn)安全造成巨大威脅的攻擊形式,并且其傳播速度和進(jìn)化速度也變得越來(lái)越快,用戶只要稍不留神,就會(huì)導(dǎo)致信息和財(cái)產(chǎn)的損失,并且受害的用戶往往會(huì)成為攻擊者的跳板,繼續(xù)通過(guò)該受害用戶攻擊與之連接的其他用戶。這種傳播性極強(qiáng)的網(wǎng)絡(luò)攻擊行為的泛濫給當(dāng)今的網(wǎng)絡(luò)安全帶來(lái)了巨大威脅,這種威脅不僅違背了網(wǎng)站運(yùn)營(yíng)商提供服務(wù)正當(dāng)獲利的初衷,更會(huì)使用戶的操作系統(tǒng)程序遭到破壞,系統(tǒng)資源被非法控制,甚至敏感信息被盜取等,進(jìn)而使用戶對(duì)互聯(lián)網(wǎng)產(chǎn)生一定的畏懼心理,嚴(yán)重影響了互聯(lián)網(wǎng)的可信度,阻礙互聯(lián)網(wǎng)的良性發(fā)展。

        根據(jù)卡巴斯基安全實(shí)驗(yàn)室2016年發(fā)布的年度安全報(bào)告的統(tǒng)計(jì)數(shù)據(jù)[2],惡意網(wǎng)頁(yè)出現(xiàn)在了87.36%的網(wǎng)絡(luò)攻擊中并且已經(jīng)超越電腦病毒成為黑客們最常使用的獲取非法收入的手段。除此以外,Google安全部門的研究表明[3],Google有大約1.3%的搜索結(jié)果是鏈接到掛馬網(wǎng)頁(yè)或釣魚網(wǎng)頁(yè)的。由此可見,惡意網(wǎng)頁(yè)攻擊已經(jīng)超過(guò)傳統(tǒng)的惡意攻擊形式成為當(dāng)前網(wǎng)絡(luò)安全領(lǐng)域所面臨的最大挑戰(zhàn),由于惡意網(wǎng)頁(yè)一般通過(guò)腳本語(yǔ)言編寫,具有形式靈活多變、傳播速度快、影響范圍廣、隱蔽性高等特點(diǎn),如何高效地檢測(cè)出惡意網(wǎng)頁(yè)已經(jīng)成為當(dāng)今網(wǎng)絡(luò)安全領(lǐng)域一個(gè)亟待解決的研究課題。隨著互聯(lián)網(wǎng)的發(fā)展,每日新產(chǎn)生的網(wǎng)頁(yè)數(shù)量也呈現(xiàn)爆炸式增長(zhǎng),海量的新網(wǎng)頁(yè)不斷涌入,為攻擊者提供了極佳的隱蔽環(huán)境,由于受到資源和時(shí)間的限制,根據(jù)Sheng等[4]的研究,通過(guò)傳統(tǒng)的檢測(cè)方法,47%~83%的惡意網(wǎng)頁(yè)需要12 h后才能被發(fā)現(xiàn),而大約63%的釣魚網(wǎng)站在出現(xiàn)2 h后就已經(jīng)完成首次對(duì)用戶的攻擊行為。因此,面對(duì)每日大批涌現(xiàn)出的未知網(wǎng)頁(yè),為了更好地保障用戶的上網(wǎng)安全,檢測(cè)系統(tǒng)的準(zhǔn)確率已經(jīng)不再是瓶頸。如何在有限的時(shí)間內(nèi)從海量的樣本中篩選出新出現(xiàn)的惡意樣本,成了惡意網(wǎng)頁(yè)檢測(cè)面臨的最大挑戰(zhàn)。

        2 國(guó)內(nèi)外研究現(xiàn)狀

        目前,國(guó)內(nèi)外針對(duì)惡意網(wǎng)頁(yè)的檢測(cè)方法主要分為三大類:基于黑名單技術(shù)的識(shí)別方法、靜態(tài)檢測(cè)技術(shù)和動(dòng)態(tài)檢測(cè)技術(shù)。

        2.1 基于黑名單技術(shù)的識(shí)別方法

        圖1 中國(guó)網(wǎng)站數(shù)量

        黑名單是一份基于惡意網(wǎng)頁(yè)的URL、IP地址、域名信息或網(wǎng)頁(yè)的關(guān)鍵詞信息而生成的信息列表[5]。通過(guò)基于數(shù)據(jù)庫(kù)查詢的黑名單技術(shù),人們可以準(zhǔn)確地檢測(cè)出之前已經(jīng)被發(fā)現(xiàn)的惡意網(wǎng)頁(yè)。每當(dāng)訪問(wèn)一個(gè)網(wǎng)頁(yè)時(shí),首先在系統(tǒng)的數(shù)據(jù)庫(kù)中查找該網(wǎng)頁(yè)的對(duì)應(yīng)信息,這樣的查找僅針對(duì)網(wǎng)頁(yè)的基本屬性,而不會(huì)去解讀網(wǎng)頁(yè)本身的內(nèi)容,因此只要將數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行遍歷,一旦發(fā)現(xiàn)匹配成功即立刻提醒用戶并進(jìn)行攔截。該方案的優(yōu)點(diǎn)十分明顯,就是僅進(jìn)行基礎(chǔ)信息的匹配就可以得出結(jié)果,對(duì)于資源和時(shí)間的開銷都非常小,很適用于一個(gè)成熟的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的前端,對(duì)于當(dāng)前訪問(wèn)的網(wǎng)頁(yè)先做一輪簡(jiǎn)單的篩選,假如該網(wǎng)頁(yè)已經(jīng)存在于黑名單中,則不必再進(jìn)行后續(xù)的檢測(cè)和分類。因其技術(shù)實(shí)現(xiàn)簡(jiǎn)單、使用方便,黑名單檢測(cè)技術(shù)目前廣泛應(yīng)用于各類殺毒軟件、安全系統(tǒng)解決方案中,如Google Safe Browsing[6]、 Malware Domain List[7]、PhishTank[8]等項(xiàng)目與系統(tǒng)。以Google Safe Browsing為例,它根據(jù)Google提供的搜索結(jié)果,不斷更新其URL數(shù)據(jù)庫(kù),向用戶提供服務(wù),允許用戶向其提供一個(gè)URL地址,以判斷特定的URL是否在其所列舉的黑名單上,如果存在,則向用戶發(fā)出相應(yīng)的警告。PhishTank向廣大用戶提供了一個(gè)可以自愿提交釣魚網(wǎng)頁(yè)的信息共享平臺(tái),任何用戶可以向該平臺(tái)提供惡意網(wǎng)頁(yè),經(jīng)核實(shí)后收錄到該開放平臺(tái)的資源庫(kù)中,人們可以根據(jù)該平臺(tái)提供的列表過(guò)濾惡意網(wǎng)頁(yè),保障網(wǎng)絡(luò)安全。

        然而,黑名單檢測(cè)技術(shù)有一個(gè)致命的缺陷,即該方法只能檢測(cè)已經(jīng)發(fā)現(xiàn)的惡意網(wǎng)頁(yè),對(duì)于剛剛新生成的惡意網(wǎng)頁(yè),由于還沒有收錄進(jìn)相應(yīng)列表,將不具備檢測(cè)功能。Prakash等[9]針對(duì)該缺陷提出了一種名為PhishNet的改進(jìn)方案,通過(guò)將已有的URL地址作為先驗(yàn)知識(shí),對(duì)其進(jìn)行分解和相似性匹配,來(lái)發(fā)現(xiàn)新的釣魚網(wǎng)頁(yè),然而該擴(kuò)展方案依然是建立在原有黑名單基礎(chǔ)之上的擴(kuò)展功能,對(duì)于某些釣魚網(wǎng)頁(yè)的衍生網(wǎng)頁(yè)具有一定的檢測(cè)功能,但對(duì)于新建立起的惡意網(wǎng)頁(yè)來(lái)說(shuō),檢測(cè)率仍然較低。同時(shí)黑名單檢測(cè)技術(shù)由于時(shí)效性方面的缺陷,會(huì)導(dǎo)致大量用戶在新生的惡意網(wǎng)頁(yè)尚未被檢測(cè)到之前已經(jīng)受到相應(yīng)的攻擊。

        2.2 靜態(tài)檢測(cè)技術(shù)

        為了克服黑名單檢測(cè)技術(shù)的不足,對(duì)于新出現(xiàn)的網(wǎng)頁(yè)具備一定的檢測(cè)能力,研究人員們?cè)赨RL精確匹配的基礎(chǔ)上,提出了基于網(wǎng)頁(yè)內(nèi)容、域名信息、URL地址等網(wǎng)頁(yè)屬性的相似性設(shè)計(jì)和啟發(fā)式規(guī)則,對(duì)惡意網(wǎng)頁(yè)進(jìn)行識(shí)別和檢測(cè)。靜態(tài)檢測(cè)技術(shù)實(shí)現(xiàn)的方案也有很多,可以采用基于模式匹配的方案[10]、基于啟發(fā)式規(guī)則的識(shí)別方法[11]、基于機(jī)器學(xué)習(xí)的識(shí)別方法[12]等。它們的本質(zhì)思路都是在獲得該網(wǎng)頁(yè)相關(guān)屬性信息的基礎(chǔ)上,不在仿真環(huán)境中實(shí)際運(yùn)行該段代碼,而是通過(guò)與以前樣本的特征進(jìn)行比較,通過(guò)不同的技術(shù)手段得出最終的結(jié)論。不同于黑名單檢測(cè)技術(shù),需要完成整個(gè)字段的精確匹配,靜態(tài)檢測(cè)技術(shù)不需要了解惡意網(wǎng)頁(yè)的URL等詳細(xì)信息,可以根據(jù)網(wǎng)頁(yè)的屬性依據(jù)現(xiàn)有的規(guī)則進(jìn)行匹配,來(lái)識(shí)別出部分目前還未被列入黑名單的網(wǎng)頁(yè)。因?yàn)槠鋵?shí)現(xiàn)相對(duì)容易,代碼執(zhí)行效率較高,被廣泛應(yīng)用于一些主流的瀏覽器插件中。

        著名網(wǎng)絡(luò)檢測(cè)系統(tǒng)Snort[13]運(yùn)用的就是基于模式匹配的靜態(tài)檢測(cè)技術(shù),它將已經(jīng)檢測(cè)到的惡意網(wǎng)頁(yè)代碼的某些片段或關(guān)鍵語(yǔ)句,通過(guò)某種數(shù)學(xué)手段生成唯一的特征標(biāo)識(shí)碼并存放在Snort特征庫(kù)中,特征碼通常具備一定的長(zhǎng)度,來(lái)確保某個(gè)特征碼專門用于標(biāo)識(shí)某一類特定的惡意網(wǎng)頁(yè),同時(shí)也存有包含通配符的特征碼,用來(lái)檢測(cè)更多某種類型的變種惡意代碼。特征碼檢測(cè)方案中包含完全匹配特征碼檢測(cè)和模糊匹配特征碼檢測(cè),前者要求待測(cè)網(wǎng)頁(yè)中存在和特征庫(kù)中的惡意特征碼完全相同的片段,后者則可以通過(guò)正則表達(dá)式等模糊匹配的方式來(lái)識(shí)別網(wǎng)頁(yè)中特定格式的代碼序列,為最終判決挖掘更多的有效信息。這類方案的缺點(diǎn)同樣在于特征庫(kù)的更新具有時(shí)效性,且隨著特征庫(kù)的內(nèi)容越來(lái)越多,模糊匹配的要求越來(lái)越高,檢測(cè)所需要的資源開銷也在不斷增加。

        基于啟發(fā)式規(guī)則的靜態(tài)檢測(cè)技術(shù)在很多瀏覽器插件中應(yīng)用十分廣泛。該類檢測(cè)方法往往建立在對(duì)于惡意網(wǎng)頁(yè)的某些統(tǒng)計(jì)特征(如關(guān)鍵詞出現(xiàn)的頻率、特殊符號(hào)所占的比例等)是唯一的假設(shè)基礎(chǔ)上的。Lin等[14]在他們的實(shí)驗(yàn)中展示了這一過(guò)程,他們將大量的惡意網(wǎng)頁(yè)樣本劃分為多個(gè)不同的類別,每一個(gè)類別中包括一個(gè)種類的惡意網(wǎng)頁(yè)代碼及其變形。接著對(duì)于每一個(gè)類別的惡意樣本,提取其共性的特點(diǎn),為之創(chuàng)建模板,每一個(gè)類別都對(duì)應(yīng)有一個(gè)或多個(gè)不同的模板。當(dāng)待測(cè)網(wǎng)頁(yè)進(jìn)入系統(tǒng)后,則根據(jù)其頁(yè)面信息計(jì)算與各個(gè)模板之間的距離,當(dāng)與某個(gè)模板的距離小于相應(yīng)的閾值時(shí),則可以認(rèn)為該待測(cè)網(wǎng)頁(yè)與該類模板相匹配,屬于該類的惡意樣本。Zhang等[15]提出了一套基于IE瀏覽器的工具插件Cantina,通過(guò)對(duì)網(wǎng)頁(yè)搜索的返回結(jié)果和網(wǎng)頁(yè)中敏感關(guān)鍵詞出現(xiàn)的詞頻等其他統(tǒng)計(jì)信息進(jìn)行分析,建立啟發(fā)式規(guī)則庫(kù)對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè)。啟發(fā)式規(guī)則的靜態(tài)檢測(cè)技術(shù)的缺陷在于,面對(duì)每日大量新出現(xiàn)的待測(cè)樣本,簡(jiǎn)單的特征分布統(tǒng)計(jì)和啟發(fā)式規(guī)則已經(jīng)無(wú)法滿足需求,主要體現(xiàn)在以下2個(gè)方面:首先誤檢率增高,因?yàn)閱l(fā)式規(guī)則的局限性和模糊匹配技術(shù)的使用,存在很多正常樣本由于某些代碼片段匹配某些模板,從而被誤判為惡意樣本;其次該方案的規(guī)則更新較難,規(guī)則的提取依賴于大量的專業(yè)知識(shí)和人工總結(jié),因此規(guī)則更新的成本較高。

        基于模式匹配和啟發(fā)式規(guī)則檢測(cè)的局限性,研究人員進(jìn)一步提出了更加系統(tǒng)的基于機(jī)器學(xué)習(xí)的分類方法。作為靜態(tài)檢測(cè)技術(shù)的一個(gè)分支,其檢測(cè)的準(zhǔn)確性雖不能與動(dòng)態(tài)檢測(cè)技術(shù)同日而語(yǔ),但是通過(guò)對(duì)分類器算法的改進(jìn)和特征提取的優(yōu)化,基于機(jī)器學(xué)習(xí)檢測(cè)方案的檢測(cè)率相較于其他靜態(tài)檢測(cè)技術(shù)已經(jīng)有了很大的提高,且由于網(wǎng)頁(yè)檢測(cè)的數(shù)據(jù)量十分龐大,對(duì)檢測(cè)效率要求較高,也十分符合機(jī)器學(xué)習(xí)分類算法的使用場(chǎng)景,可以對(duì)分類器進(jìn)行不斷的優(yōu)化與迭代,使其檢測(cè)效果越來(lái)越好。Hou等[16]基于已有的惡意樣本建立起一套特征提取方案,并將未知網(wǎng)頁(yè)樣本映射到已有類別中,如圖2所示。

        基于機(jī)器學(xué)習(xí)的惡意網(wǎng)頁(yè)檢測(cè)流程主要包括以下2個(gè)步驟。

        1) 訓(xùn)練:通過(guò)訓(xùn)練樣本訓(xùn)練出一個(gè)分類模型。每個(gè)訓(xùn)練樣本都有一個(gè)分類的標(biāo)簽,即該樣本是正常的還是惡意的。通過(guò)取足夠數(shù)量的分類樣本利用有監(jiān)督學(xué)習(xí)算法,生成可以用來(lái)分類的數(shù)學(xué)模型。

        2) 預(yù)測(cè):根據(jù)待測(cè)樣本所提取出的特征分布信息,經(jīng)過(guò)訓(xùn)練好的分類器算法進(jìn)行分類,判定出樣本的所屬類別。

        圖2 基于機(jī)器學(xué)習(xí)的惡意網(wǎng)頁(yè)檢測(cè)流程

        Justin等[17]提出了一套分類特征基于URL和主機(jī)(host)信息的輕量級(jí)分類器,并討論了不同機(jī)器學(xué)習(xí)算法在此場(chǎng)景下的表現(xiàn)差異。Yoo等[18]提出了基于誤用判決模塊和異常判決模塊的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng),其中包含2個(gè)基于監(jiān)督與半監(jiān)督機(jī)器學(xué)習(xí)算法的不同類別的分類器,與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,該方案在正常樣本的誤檢率略微升高的情況下,顯著提升了惡意樣本的檢測(cè)率,但是檢測(cè)所消耗的系統(tǒng)資源也有所上升,對(duì)于使用條件的要求更為苛刻。Canali等[19]提出了一個(gè)基于URL地址的過(guò)濾器,補(bǔ)充在傳統(tǒng)的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)之前,用以提升檢測(cè)速度,使現(xiàn)有系統(tǒng)更加適用于大數(shù)據(jù)量的場(chǎng)景。但由于該過(guò)濾器僅基于URL信息進(jìn)行過(guò)濾,導(dǎo)致在檢測(cè)速率提高的情況下檢測(cè)效率有明顯下降。目前基于機(jī)器學(xué)習(xí)的檢測(cè)方法所面臨的問(wèn)題主要有兩大類:首先是特征的優(yōu)化和更新問(wèn)題,因?yàn)榉诸愃惴ǖ男屎艽蟪潭壬先Q于特征提取的代表性,且特征提取方案具有一定的時(shí)效性,當(dāng)某一批特征的檢測(cè)效率過(guò)高后,會(huì)導(dǎo)致新一批的惡意網(wǎng)頁(yè)進(jìn)行針對(duì)性的防范,因此特征的更新與升級(jí)是面臨的困難之一;第二,隨著互聯(lián)網(wǎng)的發(fā)展,惡意網(wǎng)頁(yè)的種類越來(lái)越多,每天所要檢測(cè)的未知樣本數(shù)量也逐漸增多,每個(gè)樣本的特征分析時(shí)間越來(lái)越長(zhǎng),因此檢測(cè)系統(tǒng)的工作負(fù)荷也越來(lái)越高,如何能夠降低特征提取的復(fù)雜度,減少每個(gè)樣本的檢測(cè)時(shí)間也是亟待解決的問(wèn)題。

        2.3 動(dòng)態(tài)檢測(cè)技術(shù)

        不同于上述的靜態(tài)檢測(cè)技術(shù),動(dòng)態(tài)檢測(cè)技術(shù)主要是通過(guò)將捕捉到的HTML或JavaScript源碼在虛擬環(huán)境中運(yùn)行,將虛擬機(jī)用作誘餌,對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行訪問(wèn),并在訪問(wèn)的過(guò)程中實(shí)時(shí)檢測(cè)該網(wǎng)頁(yè)的動(dòng)態(tài)行為(如超鏈接到其他網(wǎng)頁(yè)、遠(yuǎn)程下載并執(zhí)行可執(zhí)行文件、創(chuàng)建注冊(cè)表等),以此來(lái)判斷待測(cè)網(wǎng)頁(yè)是否屬于惡意網(wǎng)頁(yè)。該方案的優(yōu)勢(shì)在于對(duì)未知網(wǎng)頁(yè)樣本,不僅通過(guò)其顯示出的文本特征進(jìn)行分類,而是將其放入虛擬環(huán)境中直接運(yùn)行,并且誘導(dǎo)其在虛擬機(jī)中脫去外殼,表現(xiàn)出其真實(shí)目的,因此檢測(cè)的準(zhǔn)確率極高。目前最具有代表性的動(dòng)態(tài)檢測(cè)方案是蜜罐檢測(cè)技術(shù)[20],該方案由Holz和Koetter在蜜罐項(xiàng)目中提出,用于給未知樣本提供運(yùn)行環(huán)境,并在蜜罐中實(shí)時(shí)檢測(cè)其每一步行為。傳統(tǒng)的蜜罐技術(shù)有低交互式服務(wù)器蜜罐和高交互式服務(wù)器蜜網(wǎng)[21],它們實(shí)際上是將故意暴露出系統(tǒng)漏洞的服務(wù)器,用作誘餌以吸引攻擊者對(duì)其進(jìn)行攻擊并分析攻擊者的每一步行為。動(dòng)態(tài)檢測(cè)技術(shù)在惡意網(wǎng)頁(yè)檢測(cè)領(lǐng)域的應(yīng)用保證了對(duì)可疑樣本判決的準(zhǔn)確性,但是動(dòng)態(tài)檢測(cè)技術(shù)的弊病也是顯而易見的,無(wú)論是虛擬機(jī)脫殼引擎技術(shù)還是蜜罐檢測(cè)技術(shù),檢測(cè)過(guò)程中的系統(tǒng)資源消耗和時(shí)間消耗都是十分巨大的,對(duì)于大樣本集的使用場(chǎng)景,該方案的可行性較差。此外,對(duì)于具有長(zhǎng)期潛伏特性的惡意樣本,由于在虛擬機(jī)中并沒有完成脫殼,其真實(shí)意圖隱藏得很好,檢測(cè)效果也會(huì)受到影響。

        2.4 惡意網(wǎng)頁(yè)檢測(cè)評(píng)價(jià)指標(biāo)

        對(duì)于惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的綜合評(píng)價(jià)指標(biāo),主要分為兩類,功能指標(biāo)和性能指標(biāo)。其中,功能指標(biāo)主要用于對(duì)檢測(cè)系統(tǒng)的分類效果進(jìn)行評(píng)價(jià);而性能指標(biāo)主要用于對(duì)檢測(cè)系統(tǒng)的分類效率進(jìn)行評(píng)價(jià)。

        惡意網(wǎng)頁(yè)的分類問(wèn)題,是一個(gè)二值分類問(wèn)題,即檢測(cè)系統(tǒng)要將未知樣本分為正常樣本和惡意樣本兩大類,因此,要使用二值分類的評(píng)價(jià)指標(biāo)對(duì)系統(tǒng)的分類效果進(jìn)行評(píng)價(jià),對(duì)于惡意樣本的判決能力和正常樣本的判決能力要分別獨(dú)立進(jìn)行評(píng)定。系統(tǒng)的目的是為了挑選出存在于大量正常樣本中的惡意樣本,因此將惡意網(wǎng)頁(yè)樣本作為正樣本,正常網(wǎng)頁(yè)樣本作為負(fù)樣本,檢測(cè)系統(tǒng)分類結(jié)果的示意如圖3所示。檢測(cè)系統(tǒng)的功能指標(biāo)主要分為以下五大類。

        圖3 分類器功能指標(biāo)示意

        假設(shè)共有檢測(cè)樣本數(shù)量為M,則M=TP+FP+ FN+TN,其中每一項(xiàng)的含義如下。

        TP(true positive): 被判決為正的正樣本的數(shù)量。

        FP(false positive): 被判決為正的負(fù)樣本的數(shù)量。

        TN(true negative): 被判決為負(fù)的負(fù)樣本的數(shù)量。

        FN(false negative): 被判決為負(fù)的正樣本的數(shù)量。

        根據(jù)這樣的樣本分類方式,有如下幾個(gè)評(píng)價(jià)指標(biāo),來(lái)全面衡量惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的功能。

        準(zhǔn)確率(ACC, accuracy rate):指分類正確的樣本個(gè)數(shù)(包含分類正確的正樣本和分類正確的負(fù)樣本)占總樣本個(gè)數(shù)的比重。主要用于衡量檢測(cè)系統(tǒng)總體的準(zhǔn)確程度。其中,T表示所有正樣本的個(gè)數(shù),F(xiàn)表示所有負(fù)樣本的個(gè)數(shù)。

        真正率(TPR, true positive rate):指分類正確的正樣本占正樣本總數(shù)的比重。主要用于衡量系統(tǒng)對(duì)惡意樣本的檢測(cè)能力。

        假正率(FPR, false positive rate):指被誤判為正樣本的負(fù)樣本占負(fù)樣本總數(shù)的比重。主要用于衡量檢測(cè)系統(tǒng)對(duì)于正常樣本的誤判水平。

        精確率(P, precision):指被正確分類的正樣本占所有被分類為正樣本的樣本總數(shù)的比重。主要用于衡量檢測(cè)系統(tǒng)對(duì)于惡意樣本的查準(zhǔn)率。

        召回率(R, recall):含義同TPR,主要與精確率進(jìn)行對(duì)比,衡量系統(tǒng)對(duì)于惡意樣本的檢測(cè)能力。

        對(duì)于檢測(cè)系統(tǒng)的性能指標(biāo),主要包括處理一個(gè)網(wǎng)頁(yè)所需要消耗的時(shí)間、單位時(shí)間內(nèi)所能處理的網(wǎng)頁(yè)個(gè)數(shù)等。

        3 TSMWD系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        3.1 TSMWD總體框架

        如圖4所示,基于機(jī)器學(xué)習(xí)的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)(TSMWD)包含4個(gè)模塊:數(shù)據(jù)采集模塊、特征提取模塊、數(shù)據(jù)處理模塊和分類判決模塊。數(shù)據(jù)采集模塊主要用于訓(xùn)練樣本和待測(cè)樣本的獲取,其正樣本和負(fù)樣本由于數(shù)量上的差異,獲取方式有所不同。特征提取模塊用于對(duì)輸入的訓(xùn)練或待測(cè)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,該模塊主要由2個(gè)子模塊構(gòu)成,分別對(duì)應(yīng)于2個(gè)不同的特征提取策略,即服務(wù)于TSMWD-I性能優(yōu)先的特征提取方案和服務(wù)于TSMWD-II功性優(yōu)先的特征提取方案。數(shù)據(jù)處理模塊的主要功能是將特征提取模塊中提取出的樣本特征進(jìn)行歸一化、格式化等一系列處理,在分類器的訓(xùn)練階段,該模塊還負(fù)責(zé)將樣本與其所屬類別的標(biāo)簽進(jìn)行一一對(duì)應(yīng),將提取出的特征和屬于該樣本的類別標(biāo)簽以分類器需要的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)格式進(jìn)行輸入。最后是分類判決模塊,在經(jīng)過(guò)訓(xùn)練集中不同類別的樣本訓(xùn)練后,根據(jù)待測(cè)樣本的特征分布,給出最終的分類判決結(jié)果。在TSMWD中,分類判決模塊主要由2個(gè)部分組成,第一部分為用于對(duì)大量未知樣本進(jìn)行初步篩選的TSMWD-I,該分類器模塊的主要特點(diǎn)是對(duì)于惡意樣本十分敏感,惡意樣本的檢出率很高,因此對(duì)該模塊分類為正常的樣本可以直接作為最終結(jié)果而無(wú)需進(jìn)行后續(xù)的任何操作。高TPR的同時(shí)也意味著對(duì)正常樣本有較高的誤判率,即FPR也較高,因此對(duì)于TSMWD-I分類為惡意的樣本,本系統(tǒng)暫作為未知樣本進(jìn)行考慮,轉(zhuǎn)交TSMWD-II檢測(cè)模塊進(jìn)行最終判決。因此根據(jù)不同的使用環(huán)境和檢測(cè)需求,選擇不同的分類算法以及各種分類算法的參數(shù)優(yōu)化是這個(gè)模塊的重點(diǎn)。本節(jié)圍繞每個(gè)模塊的方案設(shè)計(jì)與實(shí)現(xiàn)方法進(jìn)行詳細(xì)討論。

        圖4 TSMWD框架

        TSMWD系統(tǒng)的工作流程如圖5所示,首先,需要對(duì)大量的待測(cè)樣本由TSMWD-I的特征提取方案進(jìn)行特征提取,經(jīng)過(guò)數(shù)據(jù)處理模塊的歸一化、格式化處理后,由分類器TSMWD-I進(jìn)行分類判決。若判決結(jié)果為負(fù),即該樣本為正常樣本,則檢測(cè)全過(guò)程結(jié)束,該結(jié)果就是這個(gè)待測(cè)樣本的最終判決結(jié)果。若判決結(jié)果為正,即該樣本為未知樣本,則需要對(duì)當(dāng)前的這個(gè)樣本進(jìn)行相對(duì)耗時(shí)的二次檢測(cè),需要再次通過(guò)TSMWD-II的特征提取方案進(jìn)行特征提取,該部分的特征除了包含有TSMWD-I的相關(guān)特征外,對(duì)于混淆、正則、敏感詞出現(xiàn)頻率等提取相對(duì)復(fù)雜和耗時(shí)的特征有了進(jìn)一步補(bǔ)充。經(jīng)過(guò)數(shù)據(jù)處理模塊的歸一化、格式化處理后,由分類器TSMWD-II給出最終的判決結(jié)果。

        圖5 TSMWD工作流程

        TSMWD的整個(gè)工作流程大致包含2次側(cè)重點(diǎn)不同的檢測(cè)。其中,TSMWD-I的特征提取和分類判決更加注重效率,追求速度;而TSMWD-II則追求精確率和召回率。對(duì)于每日新增的待測(cè)樣本來(lái)說(shuō),由于正常樣本的占比遠(yuǎn)高于惡意樣本,因此大多數(shù)的待測(cè)樣本都將會(huì)在TSMWD-I進(jìn)行判決后就完成了整個(gè)檢測(cè)過(guò)程,只有少量表現(xiàn)出了相關(guān)惡意樣本特征的待測(cè)樣本,需要進(jìn)行后續(xù)的第二模塊的檢測(cè)。因?yàn)門SMWD-I的檢測(cè)速率較高,能夠有效過(guò)濾大多數(shù)的正常樣本,因此系統(tǒng)總體的檢測(cè)時(shí)間會(huì)明顯縮減。在這樣的系統(tǒng)架構(gòu)下,為了保證檢測(cè)系統(tǒng)的功能指標(biāo)不受影響,必須最大限度地減少TSMWD-I造成的誤判,由于TSMWD-I中判定為正的樣本還會(huì)繼續(xù)進(jìn)行檢測(cè),所以負(fù)樣本的誤檢率(FPR)(即將正常樣本判定為未知樣本比率)并不會(huì)最終影響整個(gè)系統(tǒng)的功能指標(biāo)。但是對(duì)于正樣本的誤檢率(FNR)(即將惡意樣本判定為正常樣本的比率),會(huì)導(dǎo)致待測(cè)樣本在未經(jīng)過(guò)TSMWD-II分類判決的情況下直接得出錯(cuò)誤的判決結(jié)果,從而影響整個(gè)檢測(cè)系統(tǒng)的準(zhǔn)確率。為此,對(duì)TSMWD-I的分類算法進(jìn)行了相應(yīng)的校正,使其在整體最優(yōu)邊界的基礎(chǔ)上向負(fù)樣本一側(cè)偏移,則其TPR和FPR會(huì)同時(shí)增高,F(xiàn)NR降低,對(duì)整個(gè)系統(tǒng)檢測(cè)率的影響達(dá)到最低。有關(guān)分類器算法的優(yōu)化和參數(shù)調(diào)整,本節(jié)給出更加全面的闡述。

        3.2 TSMWD特征提取方案

        基于靜態(tài)方法的特征匹配檢測(cè)中必不可少的環(huán)節(jié)之一就是要能夠觀察并總結(jié)出惡意網(wǎng)頁(yè)所具有的特征,所以,通過(guò)分析從Metasploit[22]中提取出來(lái)的不同類別的惡意樣本,從多個(gè)角度和方面總結(jié)歸納惡意網(wǎng)頁(yè)所具有的特征。在設(shè)計(jì)的特征提取方案中,有些特征屬于強(qiáng)特征,即在正常樣本和惡意樣本中出現(xiàn)的頻率有較大差距。有些特征屬于弱特征,即在正常樣本和惡意樣本中都有出現(xiàn)的可能,但是基于某些統(tǒng)計(jì)規(guī)律,在正常樣本和惡意樣本中出現(xiàn)的頻率分布有一定的區(qū)別,這樣的特征也可以作為最終判決的一個(gè)參考因素。例如,對(duì)于注釋的使用,正常網(wǎng)頁(yè)中也會(huì)使用大量注釋,但注釋出現(xiàn)的位置一般存在于腳本代碼開始之前或結(jié)束之后,極少出現(xiàn)交替穿插于腳本代碼之間的情況;因此對(duì)于類似注釋這樣的弱特征,經(jīng)過(guò)一定的修飾之后,也能夠?qū)τ谙到y(tǒng)的最終分類判決產(chǎn)生一定的正向影響。對(duì)于不同特征權(quán)重的平衡,將通過(guò)大量樣本的訓(xùn)練由分類器完成。由于惡意腳本的表現(xiàn)形式靈活多變,普通的精確字符串匹配算法無(wú)法涵蓋所有形式的惡意腳本,在大量待測(cè)樣本環(huán)境中的匹配效率也不高,所以利用基于有限狀態(tài)機(jī)的正則表達(dá)式對(duì)惡意代碼特征進(jìn)行匹配就成為特征片段抓取的有效方法。根據(jù)系統(tǒng)設(shè)計(jì)的總體布局可知,網(wǎng)頁(yè)源碼的內(nèi)容及其整體的結(jié)構(gòu)布局是對(duì)一個(gè)網(wǎng)頁(yè)進(jìn)行評(píng)判的重要因素。因?yàn)楸疚牟捎渺o態(tài)代碼檢測(cè)的方式對(duì)未知網(wǎng)頁(yè)的屬性進(jìn)行判斷,因此在上文分析了多種不同的EK攻擊方式后,需要在了解其攻擊原理的基礎(chǔ)上,提煉其源碼的表面特征,這些特征大致需要具有以下特點(diǎn)。

        1) 特征之間要盡可能相互獨(dú)立,將彼此間的相互作用降低到最小。

        2) 特征的選取要基于正則、字符串匹配、關(guān)鍵字查找等相對(duì)速度較快的查詢操作,而不應(yīng)該涉及頁(yè)面腳本代碼運(yùn)行后的行為數(shù)據(jù)。

        3) 特征選取的覆蓋面要盡可能廣泛。對(duì)大量的惡意代碼研究發(fā)現(xiàn),惡意的代碼片段不僅會(huì)出現(xiàn)在JavaScript的腳本中,即便是解釋性的HTML或相對(duì)小眾的VBScript中也有可能出現(xiàn)。

        4) 特征的選取要盡量具有代表性。因?yàn)樘崛〕龅膼阂饩W(wǎng)頁(yè)特征,最終會(huì)用于訓(xùn)練分類器,所以每一個(gè)設(shè)計(jì)出的特征,都需要在惡意樣本中出現(xiàn)的頻率和在正常樣本中出現(xiàn)的頻率有一定的區(qū)別,否則如果正常樣本中的出現(xiàn)頻次和惡意樣本中相近,則認(rèn)為該特征的設(shè)計(jì)有一定缺陷,對(duì)于分類器的訓(xùn)練并不能起到正向的幫助,并且是大量誤判產(chǎn)生的源頭,要盡可能將特征在設(shè)計(jì)時(shí)就做好區(qū)分度的調(diào)研,并且對(duì)容易造成誤判的敏感特征做進(jìn)一步的優(yōu)化和修飾。

        同時(shí),由于靜態(tài)惡意代碼檢測(cè)的最大優(yōu)點(diǎn)在于系統(tǒng)運(yùn)行的速度優(yōu)于動(dòng)態(tài)檢測(cè),所以,在設(shè)計(jì)特征提取方案時(shí),要考慮性能的最優(yōu)化。特征提取模塊的總體框架如圖6所示,TSMWD系統(tǒng)特征提取主要分為三大塊,分別是HTML模塊、JavaScript模塊和VBScript模塊,其中JavaScript腳本中嵌入的惡意代碼片段最為頻繁,因此設(shè)計(jì)時(shí)對(duì)應(yīng)的特征數(shù)量也最多。為避免網(wǎng)頁(yè)的多次讀取、相應(yīng)關(guān)鍵數(shù)據(jù)可以先保存在內(nèi)存中,以供不同的特征和方法進(jìn)行調(diào)用。最后將所有待測(cè)網(wǎng)頁(yè)的特征寫入相應(yīng)文件中,供后續(xù)模塊進(jìn)行分析處理。

        3.3 TSMWD-I分類算法優(yōu)化

        TSMWD的整個(gè)工作流程大致包含2次側(cè)重點(diǎn)不同的檢測(cè),其中TSMWD-I的特征提取和分類判決更加注重檢測(cè)效率,追求速度,對(duì)于每日新增的待測(cè)樣本來(lái)說(shuō),由于正常樣本的占比遠(yuǎn)高于惡意樣本,因此大多數(shù)的待測(cè)樣本都會(huì)在TSMWD-I進(jìn)行判決后就完成整個(gè)檢測(cè)過(guò)程,只有少量表現(xiàn)出相關(guān)惡意樣本特征的待測(cè)樣本需要進(jìn)行后續(xù)的第二模塊的檢測(cè)。因?yàn)門SMWD-I的檢測(cè)速率較高、能夠有效過(guò)濾大多數(shù)的正常樣本,因此系統(tǒng)總體的檢測(cè)時(shí)間會(huì)明顯縮減。在這樣的系統(tǒng)架構(gòu)下,為了保證檢測(cè)系統(tǒng)的功能指標(biāo)不受影響,必須最大限度地減少TSMWD-I造成的誤判,由于TSMWD-I中判定為正的樣本還會(huì)繼續(xù)進(jìn)行檢測(cè),所以負(fù)樣本的誤檢率(即將正常樣本判定為未知樣本比率)并不會(huì)最終影響整個(gè)系統(tǒng)的功能指標(biāo)。但是對(duì)于正樣本的誤檢率(即將惡意樣本判定為正常樣本的比率),會(huì)導(dǎo)致待測(cè)樣本在未經(jīng)過(guò)TSMWD-II分類判決的情況下直接得出錯(cuò)誤的判決結(jié)果,從而影響整個(gè)檢測(cè)系統(tǒng)的準(zhǔn)確率。

        圖6 特征提取模塊的總體框架

        因此,對(duì)于該模塊的分類,需要選擇在數(shù)據(jù)量較大的情況下運(yùn)算量相對(duì)較小、速率相對(duì)較快的算法,且要具備相應(yīng)的矯正因子。在該使用場(chǎng)景下,需要犧牲FPR,優(yōu)先保證TPR,因?yàn)閷?duì)于“疑似”的惡意樣本,盡管TSMWD-I分類器的結(jié)論更加傾向于該樣本屬于正常網(wǎng)頁(yè),但從整個(gè)系統(tǒng)準(zhǔn)確率的角度出發(fā),不能接受在第一層判決模塊將惡意樣本誤判為正常樣本。反之,將正常樣本誤判為惡意樣本時(shí),由于還要經(jīng)過(guò)第二層檢測(cè)系統(tǒng)得出最終結(jié)論,所以這樣的情況只會(huì)造成運(yùn)算效率上的一點(diǎn)影響,是在可接受的范圍內(nèi)的。因此,對(duì)于這樣的“疑似”惡意樣本,更加希望TSMWD-I能夠給出未知的判決結(jié)果,這就需要將原算法給出的最優(yōu)分隔線向正常樣本一側(cè)偏移。在這樣的情況下,惡意樣本的檢出率會(huì)得到提高,與此同時(shí),被誤判為惡意樣本的正常樣本數(shù)量也會(huì)隨之上升。

        將式(6)代入式(7)中可以得到擁有特征向量X的未知樣本d屬于類別c的概率轉(zhuǎn)化為

        根據(jù)以上的訓(xùn)練和預(yù)測(cè)方案,能夠構(gòu)建一個(gè)基于最優(yōu)分界線的樸素貝葉斯算法分類器。如圖7所示,在簡(jiǎn)化的二維空間中,數(shù)目相對(duì)較少的深色點(diǎn)為惡意樣本,數(shù)目相對(duì)較多的淺色點(diǎn)為正常樣本。當(dāng)采用標(biāo)準(zhǔn)的樸素貝葉斯分類算法時(shí),完全根據(jù)概率的大小來(lái)選擇所屬的類別,則圖7中的黑色分隔線一定會(huì)出現(xiàn)在正常樣本和惡意樣本的交匯處。這會(huì)使整個(gè)系統(tǒng)的準(zhǔn)確率相對(duì)較高,除了個(gè)別不符合特征分布規(guī)律的噪聲樣本外,主要的誤判都集中在分隔線兩側(cè),即當(dāng)屬于2個(gè)類別的概率比較接近時(shí),容易造成分類的錯(cuò)誤。在這種情況下,既有可能將正常樣本誤判為惡意樣本,也有可能將惡意樣本誤判為正常樣本。

        圖7 最優(yōu)分隔線模型

        根據(jù)本節(jié)開頭的描述可以知道,TSMWD-I除了追求檢測(cè)效率以外,不能接受其將惡意樣本誤判為正常樣本。反之,將正常樣本誤判為惡意樣本時(shí),由于還要經(jīng)過(guò)第二層檢測(cè)系統(tǒng)得出最終結(jié)論,所以這樣的情況是在可接受范圍內(nèi)的。因此對(duì)于這樣的“疑似”惡意樣本,更加希望TSMWD-I能夠給出未知的判決結(jié)果,這就需要將原算法給出的最優(yōu)分隔線向正常樣本一側(cè)偏移。在這樣的情況下,惡意樣本的檢出率會(huì)得到提高,與此同時(shí),被誤判為惡意樣本的正常樣本數(shù)量也會(huì)隨之上升,但從整個(gè)TSMWD系統(tǒng)的角度來(lái)說(shuō),其檢測(cè)準(zhǔn)確率不會(huì)受到影響。因此需要對(duì)上述的樸素貝葉斯算法進(jìn)行一些修正,使之能夠滿足人們的使用需求。在式(9)中引入一個(gè)矯正參數(shù)λ,在假設(shè)C0代表惡意樣本類別、C1代表正常樣本類別的情況下,將最終的預(yù)測(cè)模型轉(zhuǎn)變?yōu)?/p>

        當(dāng)λ>1時(shí),會(huì)導(dǎo)致待測(cè)樣本被判別為惡意樣本的概率增加,圖7中的分隔線向正常樣本一側(cè)偏移,如圖8所示。在這樣的情況下,TSMWD-I的惡意樣本檢出率升高,與此同時(shí),伴隨著一批正常樣本被判定為惡意樣本,正常樣本的誤檢率也隨之升高,符合在該場(chǎng)景上的分類需要。因此需要結(jié)合第二部分檢測(cè)模塊,通過(guò)對(duì)不同大小λ的嘗試,在檢出率和誤檢率間進(jìn)行權(quán)衡,以找到能夠最大程度地提高系統(tǒng)檢測(cè)性能,同時(shí)又不影響系統(tǒng)檢測(cè)準(zhǔn)確率的λ。

        圖8 矯正分隔線模型

        3.4 TSMWD-II 分類算法選擇

        在TSMWD-I對(duì)海量待測(cè)樣本進(jìn)行分類的基礎(chǔ)上,對(duì)于那些直接被分類為正常的待測(cè)樣本,不需要再經(jīng)過(guò)該模塊的判決。對(duì)于TSMWD-I檢測(cè)模塊分類結(jié)果為惡意的待測(cè)樣本,本系統(tǒng)繼續(xù)視為未知樣本作為TSMWD-II的輸入,在TSMWD-I中提取的相關(guān)特征,已經(jīng)保存在相應(yīng)的中間文件中,所以可以直接通過(guò)讀取與之對(duì)應(yīng)的特征信息獲取第一模塊中既有的特征數(shù)據(jù),該待測(cè)樣本再經(jīng)過(guò)TSMWD-II的特征提取模塊獲取一系列相對(duì)耗時(shí)的基于混淆加密、正則表達(dá)式匹配、比例計(jì)算等行為的高級(jí)特征,生成更為全面的特征文件,由TSMWD-II的分類判決模塊對(duì)該待測(cè)樣本給出最終的判決結(jié)果。與TSMWD-I模塊相比,TSMWD-II的分類算法主要有以下兩點(diǎn)不同。

        1)由于TSMWD-I檢測(cè)模塊對(duì)海量正常樣本的過(guò)濾,TSMWD-II檢測(cè)模塊需要分類的待測(cè)樣本的數(shù)量是有限的,待測(cè)樣本相對(duì)較少,所以對(duì)于檢測(cè)率的敏感度沒有那么高,因此在TSMWD-II檢測(cè)模塊中可以不必過(guò)多地考慮算法優(yōu)化對(duì)系統(tǒng)性能的影響,只需要關(guān)注如何提升該模塊的功能指標(biāo)。

        2) 在TSMWD-I中,需要保證惡意樣本的檢出率TPR足夠高,這樣才能將該模塊對(duì)系統(tǒng)總體性能的影響降到最低。因此,選擇了修正的樸素貝葉斯算法,在犧牲FPR的情況下提高了TPR,對(duì)于TSMWD-I的整體準(zhǔn)確率會(huì)造成影響;而在TSMWD-II中,由于該模塊給出的判決結(jié)果已經(jīng)是系統(tǒng)的最終分類結(jié)果,因此分隔線需要選取在最優(yōu)位置,保證系統(tǒng)總體的準(zhǔn)確率達(dá)到最高,而不再單一地關(guān)注惡意樣本的檢出率,忽略正常樣本的誤判率。

        在上述2個(gè)原則的基礎(chǔ)上,本文調(diào)研了目前主流的機(jī)器學(xué)習(xí)分類算法,對(duì)不同類型的算法都進(jìn)行了嘗試,從準(zhǔn)確率、真正率、假正率這3個(gè)方面綜合比較了各分類算法的優(yōu)勢(shì)和缺點(diǎn),從而選擇出最適合該應(yīng)用場(chǎng)景和特征提取方案的分類算法及參數(shù)模型。

        在系統(tǒng)訓(xùn)練和測(cè)試的整個(gè)流程中,由于惡意樣本數(shù)據(jù)集中的樣本個(gè)數(shù)相對(duì)較少,沒有足夠多惡意的樣本在保證訓(xùn)練分類器迭代完成后,還能提供一套完整的惡意樣本測(cè)試集。為了消除噪聲及數(shù)據(jù)集劃分不具代表性對(duì)檢測(cè)系統(tǒng)測(cè)試結(jié)果的影響,采用交叉驗(yàn)證(cross-validation)[24]的方式對(duì)檢測(cè)系統(tǒng)進(jìn)行訓(xùn)練與測(cè)試,其主要思想是將數(shù)據(jù)集隨機(jī)分成k個(gè)同樣大小的子集,依次選取其中的一個(gè)子集作為測(cè)試集,其余k?1個(gè)集合作為訓(xùn)練集,經(jīng)過(guò)k次訓(xùn)練和測(cè)試后,將k次結(jié)果的平均值作為檢測(cè)系統(tǒng)最終的實(shí)驗(yàn)數(shù)據(jù)。依次對(duì)KNN算法、決策樹算法(C4.5)、分類回歸樹(CART, classification and regression tree)算法和支持向量機(jī)(SVM, support vector machine)算法進(jìn)行了十字交叉驗(yàn)證,其中線性核函數(shù)的SVM算法表現(xiàn)最好,將其用于TSMWD-II檢測(cè)模塊的分類算法。對(duì)于該模塊不同分類算法實(shí)驗(yàn)結(jié)果的對(duì)比和整個(gè)TSMWD系統(tǒng)的相關(guān)性能指標(biāo)和功能指標(biāo)與已有系統(tǒng)的對(duì)比及其應(yīng)用場(chǎng)景,將在第4節(jié)系統(tǒng)實(shí)驗(yàn)評(píng)測(cè)中進(jìn)行詳細(xì)分析。

        4 系統(tǒng)實(shí)驗(yàn)測(cè)評(píng)

        4.1 實(shí)驗(yàn)環(huán)境

        1) 硬件環(huán)境

        CPU:Intel(R) Core i3-4130;

        內(nèi)存:DDR3 12 G;

        硬盤:1 T,7 200轉(zhuǎn)/秒。

        2) 開發(fā)環(huán)境

        開發(fā)操作系統(tǒng):Windows 7 旗艦版(64 bit);

        機(jī)器學(xué)習(xí)開源框架:Scikit-learn、LibSvm;

        開發(fā)語(yǔ)言及工具:C/C++、Python2.7.14、STL標(biāo)準(zhǔn)模板庫(kù)、boost C++庫(kù)、Visual Stidio2013、Pycharm、VMware、QT Creator 5.5。

        4.2 TSMWD-I實(shí)驗(yàn)結(jié)果

        3.3 節(jié)提出了加入矯正因子λ的樸素貝葉斯分類算法,在λ>1的情況下,對(duì)于λ取不同的值,分隔線偏向正常樣本一側(cè)的程度不同,可以根據(jù)TPR與FPR的權(quán)衡選擇最適合當(dāng)前需求的參數(shù)值。對(duì)已經(jīng)采集到的1 428個(gè)惡意樣本與30 000個(gè)正常樣本,采用10次交叉驗(yàn)證的方法,對(duì)于每個(gè)設(shè)定的λ進(jìn)行10次實(shí)驗(yàn),將142個(gè)惡意樣本和3 000個(gè)正常樣本作為測(cè)試集,1 286個(gè)惡意樣本和18 000個(gè)正常樣本作為訓(xùn)練集,經(jīng)過(guò)10次實(shí)驗(yàn)后,將實(shí)驗(yàn)結(jié)果進(jìn)行平均。如2.4節(jié)中的描述,從系統(tǒng)檢測(cè)的準(zhǔn)確率、真正率、假正率3個(gè)方面對(duì)系統(tǒng)的整體檢測(cè)能力進(jìn)行評(píng)估。實(shí)驗(yàn)對(duì)比了不同λ取值下,TSMD-I的檢測(cè)能力,結(jié)果如表1所示。

        表1 不同λ取值下TSMWD-I檢測(cè)能力對(duì)比

        通過(guò)表1可以看到,當(dāng)λ=1時(shí),此時(shí)的TSMWD-I的分類算法就是傳統(tǒng)的未經(jīng)修正的樸素貝葉斯算法,其準(zhǔn)確率為78.30%,但是對(duì)于惡意樣本的檢出率只有76.10%,這意味著如果直接使用未經(jīng)修正的樸素貝葉斯算法作為第一層檢測(cè)系統(tǒng)的分類算法,將會(huì)有23.90%的惡意樣本在TSMWD-I對(duì)正常樣本進(jìn)行過(guò)濾時(shí)就已經(jīng)被誤判,即便TSMWD-II的檢測(cè)性能再?gòu)?qiáng)大,也無(wú)法改變整個(gè)系統(tǒng)檢測(cè)性能不佳的事實(shí)。隨著矯正因子λ的增加,分隔曲線向正常樣本一側(cè)偏移,對(duì)于惡意樣本的檢測(cè)成功率也越來(lái)越高,即TPR不斷上升,但同時(shí)也有更多的正常樣本被誤判為惡意樣本,即FPR也隨之上升;由于正常樣本的數(shù)目相對(duì)龐大,所以模塊整體的準(zhǔn)確率逐漸下降。但正如3.3節(jié)中描述的那樣,整體的準(zhǔn)確率并不是該模塊追求的目標(biāo),TSMWD-I最重要的職責(zé)是為后續(xù)檢測(cè)系統(tǒng)過(guò)濾掉大部分的正常樣本,同時(shí)避免對(duì)惡意樣本的誤判。因此注意到,當(dāng)λ=1.6時(shí),惡意樣本的真正率已經(jīng)高達(dá)96.30%,這意味著只有3.7%的惡意樣本會(huì)因?yàn)榈谝粚訖z測(cè)系統(tǒng)而被誤判。同時(shí),假正率也已經(jīng)高達(dá)42.20%,這意味著僅有57.80%的正常樣本會(huì)被第一模塊快速過(guò)濾,有42.20%的正常樣本依舊會(huì)被當(dāng)作未知樣本交由后續(xù)檢測(cè)系統(tǒng)進(jìn)行判決,在這樣的情況下,對(duì)于整個(gè)系統(tǒng)而言,速度的提升幅度受到了限制,因?yàn)橛薪话氲拇郎y(cè)樣本最終還是需要被檢測(cè)相對(duì)耗時(shí)的第二模塊處理。本文對(duì)更多的λ取值進(jìn)行了實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)結(jié)果做出了在不同λ取值下,TPR和FPR之間相互權(quán)衡的經(jīng)驗(yàn)曲線,如圖9所示。隨著TPR的升高,惡意樣本的漏判率會(huì)降低,系統(tǒng)整體的檢測(cè)性能會(huì)變好;但與此同時(shí),F(xiàn)PR會(huì)隨之升高,意味著有更多的正常樣本不能被過(guò)濾,需要由第二模塊給出最終判決結(jié)果,系統(tǒng)整體的檢測(cè)時(shí)間會(huì)變長(zhǎng)。

        因此,選擇合適的λ取值,也是系統(tǒng)整體對(duì)檢測(cè)效率和檢測(cè)速度之間的平衡,是功能指標(biāo)與性能指標(biāo)之間的平衡。4.3節(jié)將重點(diǎn)介紹TSMWD-II的分類器算法的選擇,然后將2個(gè)模塊相結(jié)合,對(duì)于TSMWD檢測(cè)系統(tǒng)整體的檢測(cè)速度和檢測(cè)性能在不同的λ取值下給出更為全面的評(píng)估和測(cè)試。

        4.3 TSMWD-II實(shí)驗(yàn)結(jié)果

        圖9 不同λ取值下TPR與FPR的平衡曲線

        在TSMWD的第二層檢測(cè)模塊中,分別對(duì)KNN算法(k=3、5、7取最優(yōu))、決策樹算法C4.5、分類回歸樹算法CART、和線性核函數(shù)的支持向量機(jī)SVM算法對(duì)TSMWD-II的特征提取方案所提取出的更為詳盡的特征向量進(jìn)行最終的分類判決,其中訓(xùn)練集和測(cè)試集的選取繼續(xù)選用與TSMWD-I相同的十字交叉驗(yàn)證的方法,此處不再詳述。將分別從檢測(cè)的準(zhǔn)確率、精準(zhǔn)率(precision)和召回率(recall)這3個(gè)維度對(duì)不同分類算法的分類性能進(jìn)行衡量,其中檢測(cè)的準(zhǔn)確率用于衡量該模塊做出的判決中總體的正確率情況,精準(zhǔn)率主要用于衡量該模塊對(duì)檢出的惡意樣本的查準(zhǔn)率,召回率等同于真正率,用于衡量模塊對(duì)于惡意樣本的檢測(cè)能力。其實(shí)驗(yàn)結(jié)果如表2所示,分類結(jié)果比較直方圖如圖10所示。

        表2 TSMWD-II不同分類算法分類結(jié)果均值比較

        根據(jù)該實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),基于線性核函數(shù)的支持向量機(jī)分類算法在該模塊中對(duì)惡意樣本的檢出率、惡意樣本的查準(zhǔn)率、整體判決結(jié)果的正確率都要優(yōu)于其他3種分類算法,因此可以得出結(jié)論,TSMWD系統(tǒng)所使用的基于五大類的惡意網(wǎng)頁(yè)內(nèi)容特征提取方案更加適用于SVM算法的分類器,且90%以上的準(zhǔn)確率基本已經(jīng)達(dá)到目前靜態(tài)惡意網(wǎng)頁(yè)代碼檢測(cè)前沿水平,因此選擇SVM算法作為TSMWD-II模塊的分類算法。

        4.4 TSMWD系統(tǒng)整體性能評(píng)測(cè)

        在評(píng)測(cè)整個(gè)TSMWD系統(tǒng)時(shí),從系統(tǒng)判決的準(zhǔn)確率、惡意樣本檢出率、正常樣本的誤判率這3個(gè)維度對(duì)系統(tǒng)的檢測(cè)能力進(jìn)行評(píng)價(jià)。同時(shí)對(duì)于系統(tǒng)的檢測(cè)效率,通過(guò)對(duì)測(cè)試集中的樣本(惡意樣本142個(gè),正常樣本3 000個(gè))進(jìn)行判決的時(shí)間進(jìn)行測(cè)量,時(shí)間越短,則檢測(cè)效率越高。隨著TSMWD-I中λ參數(shù)的不同,整個(gè)系統(tǒng)的檢測(cè)效率也會(huì)發(fā)生變化,同4.2節(jié)一樣,對(duì)不同取值的λ進(jìn)行多次測(cè)量后,給出其變化曲線。

        在兩層檢測(cè)系統(tǒng)同時(shí)使用開始前,首先讓TSMWD-I和TSMWD-II對(duì)訓(xùn)練集中的3 142個(gè)樣本進(jìn)行獨(dú)立檢測(cè),了解每個(gè)模塊獨(dú)立的檢測(cè)效率。通過(guò)10次實(shí)驗(yàn)求平均后發(fā)現(xiàn),TSMWD-I對(duì)該測(cè)試集完成分類所需要的時(shí)間為0.91 s,而TSMWD-II對(duì)該測(cè)試集完成分類所需要的時(shí)間為3.47 s,在完全各自獨(dú)立運(yùn)行的情況下,TSMWD-I的檢測(cè)效率比TSMWD-II快了近3.5倍,這主要是源于前者簡(jiǎn)易的特征提取方案,同時(shí)易于實(shí)現(xiàn)的樸素貝葉斯算法也為分類判決節(jié)省了大量時(shí)間。然后對(duì)整個(gè)系統(tǒng)進(jìn)行了檢測(cè)能力和檢測(cè)效率的測(cè)試,其測(cè)試結(jié)果如表3所示,比較直方圖如圖11和圖12所示。

        圖10 TSMWD-II不同分類算法分類結(jié)果均值比較

        表3 不同λ取值下的TSMWD綜合性能

        通過(guò)表3可以發(fā)現(xiàn),當(dāng)TSMWD-I模塊不存在時(shí),意味著此時(shí)的λ趨向于無(wú)窮大,即第一檢測(cè)模塊將所有的樣本都判定為未知樣本交由第二模塊進(jìn)行處理,此時(shí)TSMWD系統(tǒng)的檢測(cè)效率最低,時(shí)間開銷最大,為3.47 s,但是系統(tǒng)對(duì)于惡意樣本的檢測(cè)能力最強(qiáng)、準(zhǔn)確率最高。當(dāng)λ為1時(shí),即TSMWD-I的樸素貝葉斯算法不進(jìn)行任何修正,這時(shí)絕大多數(shù)的正常樣本都不再經(jīng)過(guò)第二檢測(cè)模塊進(jìn)行判決,整個(gè)系統(tǒng)的檢測(cè)效率得到顯著提升,檢測(cè)時(shí)間縮短為1.49 s。但是由于未經(jīng)修正的第一檢測(cè)模塊對(duì)于惡意樣本存在大量的誤判,因此系統(tǒng)整體的檢測(cè)能力受到影響,準(zhǔn)確率下降了近15%。引入了矯正因子λ后,隨著λ的不斷增加,被TSMWD-I過(guò)濾的正常樣本不斷減少,檢測(cè)時(shí)間有所上升;但是整個(gè)系統(tǒng)的檢測(cè)能力不斷提高,檢測(cè)準(zhǔn)確率所受影響越來(lái)越小。當(dāng)λ達(dá)到1.6時(shí),可以發(fā)現(xiàn),TSMWD系統(tǒng)相比于傳統(tǒng)的只有TSMWD-II的檢測(cè)系統(tǒng)在檢測(cè)效率上由3.47 s縮短為2.24 s,檢測(cè)效率提升約35%,且在系統(tǒng)檢測(cè)能力方面由于TSMWD-I的TPR很高,所以所受的影響非常少,僅由原先的93.57%下降為93.24%,檢測(cè)能力僅下降0.4%,依然維持在目前靜態(tài)惡意網(wǎng)頁(yè)檢測(cè)的前沿水平。

        綜上所述,本文提出的基于機(jī)器學(xué)習(xí)的兩層惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)可以在幾乎不影響傳統(tǒng)檢測(cè)系統(tǒng)檢測(cè)能力的前提下,顯著提升原惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的檢測(cè)效率,使之更加符合當(dāng)前每日新增網(wǎng)頁(yè)數(shù)量井噴式的使用環(huán)境。

        4.5 TSMWD與現(xiàn)有方案的對(duì)比

        圖11 不同λ取值下的TSMWD檢測(cè)能力

        圖12 不同λ取值下的TSMWD檢測(cè)效率

        經(jīng)過(guò)上述實(shí)驗(yàn)可知,本文所提出的兩層惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng),能夠根據(jù)不同的使用環(huán)境與使用需求,通過(guò)調(diào)整參數(shù)λ進(jìn)行檢測(cè)能力和檢測(cè)效率之間的相互轉(zhuǎn)換。本節(jié)將本文提出的檢測(cè)系統(tǒng)與現(xiàn)有的其他靜態(tài)惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)進(jìn)行比較,由于本系統(tǒng)在注重檢測(cè)率的同時(shí)更加注重性能上的提升,而很多現(xiàn)有的研究方案僅給出了檢測(cè)能力上的評(píng)價(jià)指標(biāo),而沒有給出相應(yīng)的檢測(cè)速率和檢測(cè)效率,所以對(duì)比主要在兩個(gè)維度上進(jìn)行:一方面與現(xiàn)有解決方案進(jìn)行檢測(cè)能力上的對(duì)比;另一方面與給出相應(yīng)檢測(cè)速度的解決方案進(jìn)行檢測(cè)效率上的對(duì)比。

        將TSMWD惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)分別與Pawan等[25]提出的釣魚網(wǎng)頁(yè)檢測(cè)系統(tǒng)PhishNet、Sangho等[26]提出的惡意URL準(zhǔn)實(shí)時(shí)檢測(cè)系統(tǒng)WarningBird、Likarish等[27]提出的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)、Justin等[28]提出的惡意URL檢測(cè)系統(tǒng)Beyond Blacklists、Liu等[29]提出的釣魚網(wǎng)頁(yè)檢測(cè)系統(tǒng)進(jìn)行對(duì)比。

        在檢測(cè)效率方面,根據(jù)文獻(xiàn)[25]的描述,Google Safety Browser API大約需要80 ms的時(shí)間為每個(gè)惡意網(wǎng)頁(yè)URL在其數(shù)據(jù)庫(kù)中進(jìn)行查詢,這其中還需要包括查詢數(shù)據(jù)分組和結(jié)果數(shù)據(jù)分組在網(wǎng)絡(luò)中傳輸所消耗的時(shí)間,而PhishNet將其檢測(cè)速率提升了約80倍,檢測(cè)出每個(gè)惡意URL的平均消耗時(shí)間為1 ms,該方案在啟發(fā)式規(guī)則提出的惡意URL檢測(cè)方案的基礎(chǔ)上進(jìn)行改進(jìn),準(zhǔn)確率能夠保證在90%以上。在WarningBird的項(xiàng)目中,系統(tǒng)消耗的時(shí)間主要分為3個(gè)部分,即域名分類、特征提取和分類模塊,主要時(shí)間消耗占比如圖13所示,其中對(duì)于每個(gè)URL檢測(cè)所消耗的時(shí)間少于3.6 ms,由于本文的系統(tǒng)是沒有域名分類模塊的,并且是根據(jù)網(wǎng)頁(yè)內(nèi)容對(duì)其屬性進(jìn)行判定,搜集網(wǎng)頁(yè)的數(shù)據(jù)采集模塊所消耗的時(shí)間是不計(jì)算在檢測(cè)系統(tǒng)的檢測(cè)時(shí)間內(nèi)的,所以為了給出更合理的對(duì)比,除去圖13中耗時(shí)占比近一半的域名分組時(shí)間,從而平均每個(gè)URL的耗時(shí)大約在1.5 ms左右,與PhishNet相差無(wú)幾。對(duì)于WarningBird方案的準(zhǔn)確率,文獻(xiàn)[26]中有相關(guān)數(shù)據(jù),其系統(tǒng)檢測(cè)的準(zhǔn)確率為91.53%,假正率為1.23%。

        選擇TSMWD中λ=1.4時(shí)的測(cè)試結(jié)果與PhishNet和WarningBird的檢測(cè)效率及檢測(cè)準(zhǔn)確率進(jìn)行橫向?qū)Ρ龋瑢?duì)比結(jié)果如表4所示。可以看到,在檢測(cè)速度方面,TSMWD相較于較快的PhishNet而言提升了約40%,相較于WarningBird提升了超過(guò)150%;在檢測(cè)能力方面,PhishNet提供的檢測(cè)數(shù)據(jù)有限,WarningBird檢測(cè)能力與TSMWD相當(dāng),準(zhǔn)確率方面WarningBird略高一點(diǎn)點(diǎn),真正率方面相對(duì)較弱,但總體屬于同一個(gè)水平,都已經(jīng)達(dá)到了目前靜態(tài)檢測(cè)系統(tǒng)的較高水平。

        表4 TSMWD與現(xiàn)有檢測(cè)方案檢測(cè)效率對(duì)比

        圖13 WarningBird方案中檢測(cè)時(shí)間開銷

        在檢測(cè)能力方面,將TSMWD與Justin等[28]提出的Beyond Blacklists、Likarish等[27]提出的混淆檢測(cè)系統(tǒng)、Liu等[29]提出的自動(dòng)化檢測(cè)系統(tǒng)進(jìn)行了對(duì)比,由于這些系統(tǒng)在其文獻(xiàn)中沒有提及到相關(guān)的性能參數(shù),所以無(wú)法與之做檢測(cè)效率方面的對(duì)比。TSMWD與它們檢測(cè)能力的對(duì)比如表5所示。Justin的方案由于提出的時(shí)間較早,所以檢測(cè)能力上不如其余三者。其余3種方案的檢測(cè)總體準(zhǔn)確率均維持在91%~92%,雖然說(shuō)對(duì)于惡意樣本和正常樣本的檢出率各有所長(zhǎng),但對(duì)于未知網(wǎng)頁(yè)樣本的總體分類能力是非常接近的。

        表5 TSMWD與現(xiàn)有檢測(cè)方案檢測(cè)能力對(duì)比

        通過(guò)與現(xiàn)有靜態(tài)檢測(cè)方案在檢測(cè)效率和檢測(cè)能力指標(biāo)上的對(duì)比可以發(fā)現(xiàn),本文所提出的基于機(jī)器學(xué)習(xí)的兩層惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)TSMWD,能夠在檢測(cè)能力達(dá)到當(dāng)今靜態(tài)檢測(cè)前沿水平的同時(shí),顯著提高檢測(cè)的速度和效率,并且能夠通過(guò)對(duì)參數(shù)λ的調(diào)整,實(shí)現(xiàn)檢測(cè)時(shí)間和檢測(cè)效率的相互轉(zhuǎn)換。

        5 結(jié)束語(yǔ)

        隨著互聯(lián)網(wǎng)的不斷發(fā)展和普及,網(wǎng)頁(yè)數(shù)量正以井噴式的速度快速增加,這也為惡意網(wǎng)頁(yè)的產(chǎn)生提供了溫床。如何能夠在最短的時(shí)間內(nèi)從大量的新增網(wǎng)頁(yè)樣本中篩選出惡意樣本,為惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的研究提出了新的值得研究的課題。本文針對(duì)惡意網(wǎng)頁(yè)檢測(cè)中所遇到的各類問(wèn)題進(jìn)行了研究,針對(duì)當(dāng)前傳統(tǒng)靜態(tài)惡意網(wǎng)頁(yè)檢測(cè)方案在面對(duì)海量的新增網(wǎng)頁(yè)時(shí)面臨的壓力,引入了兩段式的分析檢測(cè)過(guò)程,并依次為每段檢測(cè)提出相應(yīng)的特征提取方案,通過(guò)層次化地使用優(yōu)化的樸素貝葉斯算法和支持向量機(jī)算法,設(shè)計(jì)并實(shí)現(xiàn)了一種兼顧效率和功能的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)TSMWD。第一層檢測(cè)系統(tǒng)用于過(guò)濾大量的正常網(wǎng)頁(yè),其特點(diǎn)為效率高、速度快、更新迭代容易,真正率優(yōu)先。第二層檢測(cè)系統(tǒng)追求性能,對(duì)于檢測(cè)的準(zhǔn)確率要求較高,時(shí)間和資源的開銷上適當(dāng)放寬。實(shí)驗(yàn)結(jié)果表明,該架構(gòu)能夠在整體檢測(cè)準(zhǔn)確率基本不變的情況下,提高系統(tǒng)的檢測(cè)速度,在時(shí)間一定情況下,接納更多的檢測(cè)請(qǐng)求。

        [1] 中國(guó)互聯(lián)網(wǎng)信息中心. 第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京: CNNIC, 2016.

        CNNIC. The 37th report of China Inter development statistics[R]. Beijing: CNNIC, 2016.

        [2] [EB/OL].http://www.securelist.com/en/analysis/.

        [3] PROVOS N, MAVROMMATIS P, RAJAB M A, et al. All your iFRAMEs point to us[C]//Conference on Security Symposium. 2008:1-15.

        [4] SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists[C]//The Sixth Conference on Email and Anti-Spam (CEAS). 2009.

        [5] ESHETE B, VILLAFIORITA A, WELDEMARIAM K. Malicious website detection: effectiveness and efficiency issues[C]//SysSec Workshop. 2011: 123-126.

        [6] Making the Web safer[R/OL]. http://www.google.com/ transparencyreport/safebrowsing/?hl=en.

        [7] Malware domain list[EB/OL]. http://www.malwaredomainlist. com.

        [8] OpenDNS, PhishTank[EB/OL]. http://www.phishtank.com.

        [9] PRAKASH P, KUMAR M, KOMPELLA R R, et al. Phishnet: predictive blacklisting to detect phishing attacks[C]//INFOCOM. 2010: 1-5.

        [10] CHRISTODORESCU M, JHA S. Testing malware detectors[J]. ACM Sigsoft Software Engineering Notes, 2004, 29(4):34-44.

        [11] CHOU, NEIL, ROBERT LEDESMA, YUKA TERAGUCHI, et al. Client-side defense against Web-based identity theft[C]//The 11th Annual Network & Distributed System Security Symposium (NDSS). 2004:1-16.

        [12] HOU Y T, CHANG Y, CHEN T, et al. Malicious Web content detection by machine learning[J]. Expert Systems with Applications, 2010, 37(1):55-60.

        [13] ROESCH M. Snort-lightweight intrusion detection for networks[J]. Lisa, 1999:229-238.

        [14] LIN S F, HOU Y T, CHEN C M, et al. Malicious webpage detection by semantics-aware reasoning[C]//The Eighth International Conference on Intelligent Systems Design and Applications. 2008: 115-120.

        [15] ZHANG Y, HONG J I, CRANOR L F. Cantina: a content-based approach to detecting phishing web sites[C]//The 16th International Conference on World Wide Web. 2007: 639-648.

        [16] HOU Y T, CHANG Y, CHEN T, et al. Malicious Web content detection by machine learning[J]. Expert Systems with Applications, 2010, 37(1):55-60.

        [17] JUSTIN M, SAUL L K, SAVAGE S, et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URLs[C]//The 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2009: 1245-1254.

        [18] YOO S, KIM S, CHOUDHARY A, et al. Two-phase malicious web page detection scheme using misuse and anomaly detection[J]. International Journal of Reliable Information and Assurance, 2014, 2(1).

        [19] CANALI D, COVA M, VIGNA G, et al. Prophiler: a fast filter for the large-scale detection of malicious web pages[C]//The 20th International Conference on World Wide Web. 2011: 197-206.

        [20] The German honeyclient project[EB/OL].http://www. chicagohoneynet.org/german-honeypot-holz.

        [21] The Honeynet Project. Know your enemy: honeynets[EB/OL]. http://old.honeynet.org/papers/honeynet/.

        [22] MAYNOR D. Metasploit toolkit for penetration testing, exploit development, and vulnerability research[M]. Elsevier, 2011.

        [23] HAUTUS M L J. The formal Laplace transform for smooth linear systems[M]//Mathematical Systems Theory. Berlin:Springer, 1976: 29-47.

        [24] GOLUB G H, HEATH M, WAHBA G. Generalized cross-validation as a method for choosing a good ridge parameter[J]. Technometrics, 1979, 21(2): 215-223.

        [25] PRAKASH P, KUMAR M, KOMPELLA R R, et al. Phishnet: predictive blacklisting to detect phishing attacks[C]//INFOCOM. 2010: 1-5.

        [26] LEE S, KIM J. Warningbird: a near real-time detection system for suspicious URLs in twitter stream[J]. IEEE Transactions on Dependable and Secure Computing, 2013, 10(3): 183-195.

        [27] LIKARISH P, JUNG E, JO I. Obfuscated malicious javascript detection using classification techniques[C]//The 4th International Conference on Malicious and Unwanted Software (MALWARE). 2009: 47-54.

        [28] MA J, SAUL L K, SAVAGE S, et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URLs[C]//The 15th ACM SIGKDD international conference on knowledge discovery and data mining. 2009: 1245-1254.

        [29] LIU G, QIU B, WENYIN L. Automatic detection of phishing target from phishing webpage[C]//The 20th International Conference on Pattern Recognition (ICPR). 2010: 4153-4156.

        Study of high-speed malicious Web page detection system based on two-step classifier

        WANG Zheng-qi1,2, FENG Xiao-bing1,2, ZHANG Chi1,2

        (1. University of Science and Technology of China, Hefei 230026,China; 2. Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei 230026,China)

        In view of the increasing number of new Web pages and the increasing pressure of traditional detection methods, the naive Bayesian algorithm and the support vector machine algorithm were used to design and implement a malicious Web detection system with both efficiency and function, TSMWD , two-step malicious Web page detection. The first step of detection system was mainly used to filter a large number of normal Web pages, which was characterized by high efficiency, speed, update iteration easy, real rate priority. After the former filter, due to the limited number of samples, the main pursuit of the second step was the detection rate. The experimental results show that the proposed scheme can improve the detection speed of the system under the condition that the overall detection accuracy is basically the same, and can accept more detection requests in certain time.

        malicious Web page detection,network security,machine learning,feature extraction

        The National Natural Science Foundation of China (No.61202140, No.61328208)

        TP393

        A

        10.11959/j.issn.2096-109x.2017.00186

        王正琦(1992-),男,江蘇鎮(zhèn)江人,中國(guó)科學(xué)技術(shù)大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)安全。

        馮曉兵(1992-),女,山東聊城人,中國(guó)科學(xué)技術(shù)大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)安全。

        張馳(1977-),男,中國(guó)科學(xué)技術(shù)大學(xué)副教授、博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、信息安全。

        2017-05-27;

        2017-07-22。通信作者:王正琦,wzqwzq@mail.ust.edu.cn

        國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61202140, No.61328208)

        猜你喜歡
        特征提取分類特征
        分類算一算
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产精品麻豆成人av电影艾秋 | 毛片色片av色在线观看| 国产精品一区二区久久久av| 国内少妇毛片视频| 97精品依人久久久大香线蕉97| 白白色发布在线播放国产| 亚洲综合新区一区二区| 成人区人妻精品一区二区三区| 国产精品无码久久久久| 亚洲tv精品一区二区三区| av网站一区二区三区| 26uuu在线亚洲欧美| 日本少妇被黑人xxxxx| 久久免费视亚洲无码视频 | 久久av不卡人妻出轨一区二区| 国内精品伊人久久久久网站| 麻豆乱码国产一区二区三区| 国产av大片在线观看| 一区二区二区三区亚洲| 天天躁日日躁狠狠躁| 无码专区中文字幕DVD| 国内人妖一区二区在线播放| 美女露出自己的性感大胸一尤内衣 | 亚洲乱亚洲乱妇| 免费观看国产精品| 少妇裸淫交视频免费看| 久久精品国产亚洲av麻豆会员| 国产真实老熟女无套内射| 亚洲av不卡电影在线网址最新 | 国产特级毛片aaaaaaa高清| 91最新免费观看在线| 青青草在线免费观看在线| 亚洲精品国产一区二区| 人体内射精一区二区三区| 久草国产手机视频在线观看| 久久精品国产亚洲av天| 亚洲精品乱码久久久久久蜜桃图片 | 日本aⅴ大伊香蕉精品视频| 国内精品久久久久久久亚洲| 亚洲一区二区懂色av| 熟女少妇精品一区二区|