張茜,延志偉,李洪濤,耿光剛
?
網(wǎng)絡(luò)釣魚欺詐檢測(cè)技術(shù)研究
張茜1,2,3,延志偉3,李洪濤3,耿光剛3
(1. 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100049; 3. 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心互聯(lián)網(wǎng)域名管理技術(shù)國(guó)家工程實(shí)驗(yàn)室,北京 100190)
分析了網(wǎng)絡(luò)釣魚欺詐的現(xiàn)狀,并對(duì)釣魚檢測(cè)常用的數(shù)據(jù)集和評(píng)估指標(biāo)進(jìn)行了總結(jié)。在此基礎(chǔ)上,綜述了網(wǎng)絡(luò)釣魚檢測(cè)方法,包括黑名單策略、啟發(fā)式方法、視覺(jué)匹配方法、基于機(jī)器學(xué)習(xí)的方法和基于自然語(yǔ)言理解的方法等,對(duì)比分析了各類方法的優(yōu)缺點(diǎn),進(jìn)一步指出了釣魚檢測(cè)面臨的挑戰(zhàn),并展望了釣魚檢測(cè)未來(lái)的研究趨勢(shì)。
網(wǎng)絡(luò)釣魚欺詐;釣魚檢測(cè);機(jī)器學(xué)習(xí);視覺(jué)匹配
國(guó)家互聯(lián)網(wǎng)信息辦公室于2016年12月27日發(fā)布的《國(guó)家網(wǎng)絡(luò)空間安全戰(zhàn)略》指出,要嚴(yán)厲打擊網(wǎng)絡(luò)詐騙、網(wǎng)絡(luò)盜竊等違法犯罪行為[1]。隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)犯罪事件頻有發(fā)生,嚴(yán)重?fù)p害了國(guó)家、企業(yè)和個(gè)人利益。網(wǎng)絡(luò)釣魚是實(shí)施網(wǎng)絡(luò)詐騙、網(wǎng)絡(luò)盜竊的主要手段,對(duì)網(wǎng)絡(luò)釣魚的檢測(cè)已成為網(wǎng)絡(luò)空間安全研究中的一個(gè)重要領(lǐng)域。
網(wǎng)絡(luò)釣魚(phishing)這一術(shù)語(yǔ)產(chǎn)生于1996年,它是由釣魚(fishing)一詞演變而來(lái)。在網(wǎng)絡(luò)釣魚的過(guò)程中,攻擊者使用誘餌(如電子郵件、手機(jī)短信)發(fā)送給大量用戶,期待少數(shù)用戶“上鉤”,進(jìn)而達(dá)到“釣魚”(如竊取用戶的隱私信息)的目的。國(guó)際反網(wǎng)絡(luò)釣魚工作組(APWG, Anti- Phishing Working Group)給網(wǎng)絡(luò)釣魚的定義是:網(wǎng)絡(luò)釣魚是一種利用社會(huì)工程學(xué)和技術(shù)手段竊取消費(fèi)者的個(gè)人身份數(shù)據(jù)和財(cái)務(wù)賬戶憑證的網(wǎng)絡(luò)攻擊方式[2]。采用社會(huì)工程手段的網(wǎng)絡(luò)釣魚攻擊往往是向用戶發(fā)送貌似來(lái)自合法企業(yè)或機(jī)構(gòu)的欺騙性電子郵件、手機(jī)短信等,引誘用戶回復(fù)個(gè)人敏感信息或單擊里面的鏈接訪問(wèn)偽造的網(wǎng)站,進(jìn)而泄露憑證信息(如用戶名、密碼)或下載惡意軟件。而技術(shù)手段的攻擊則是直接在PC上移植惡意軟件(如瀏覽器中間者(MitB, man-in-the-browser)攻擊),采用某些技術(shù)手段直接竊取憑證信息,如使用系統(tǒng)攔截用戶的用戶名和密碼、誤導(dǎo)用戶訪問(wèn)偽造的網(wǎng)站等。
攻擊者實(shí)施網(wǎng)絡(luò)釣魚攻擊的重要目的有以下兩點(diǎn)[3]。
1) 獲取經(jīng)濟(jì)利益:攻擊者通過(guò)將竊取到的身份信息賣出或者直接使用竊取到的銀行賬戶信息獲得經(jīng)濟(jì)利益。
2) 展示個(gè)人能力:網(wǎng)絡(luò)釣魚攻擊者為了獲得同行的認(rèn)同而實(shí)施網(wǎng)絡(luò)釣魚活動(dòng)。
近年來(lái),網(wǎng)絡(luò)釣魚攻擊已經(jīng)成為互聯(lián)網(wǎng)用戶、組織機(jī)構(gòu)、服務(wù)提供商所面臨的最嚴(yán)重的威脅之一。據(jù)易安信公司信息安全事業(yè)部(RSA)估計(jì),2014年12月,全球的組織機(jī)構(gòu)由于網(wǎng)絡(luò)釣魚所遭受的經(jīng)濟(jì)損失約4.53億美元[4]。中國(guó)反釣魚聯(lián)盟(anti-phishing alliance of China)的報(bào)告也指出,網(wǎng)民一年之內(nèi)因網(wǎng)絡(luò)欺詐的損失高達(dá)300多億元,30%的網(wǎng)購(gòu)者曾遭遇釣魚網(wǎng)站的攻擊[5]。盡管目前已經(jīng)有多種反釣魚工具和技術(shù)用來(lái)遏制釣魚攻擊,網(wǎng)絡(luò)釣魚的數(shù)量依然增長(zhǎng)迅速。國(guó)際反網(wǎng)絡(luò)釣魚工作組2016年的統(tǒng)計(jì)報(bào)告顯示,2016年第二季度共檢測(cè)到釣魚網(wǎng)站466 065個(gè),與2015年第四季度相比,增加了61%[2]。圖1顯示的是2014~2016年各季度APWG所檢測(cè)到的釣魚網(wǎng)站的數(shù)目注1,從圖1中可以看出,2014年以來(lái),雖然有所波動(dòng),但釣魚網(wǎng)站的數(shù)量整體呈持續(xù)增長(zhǎng)的趨勢(shì)。國(guó)內(nèi)方面,截至2016年9月,APAC 累計(jì)認(rèn)定并處理釣魚網(wǎng)站382 092個(gè),其中僅2016年上半年就處理了79 719個(gè)釣魚網(wǎng)站,遠(yuǎn)超2015年全年的數(shù)量(58 660個(gè))[6,7]。網(wǎng)絡(luò)釣魚的日益猖獗使互聯(lián)網(wǎng)用戶面臨身份欺詐、個(gè)人隱私信息泄露以及經(jīng)濟(jì)損失等各方面的威脅。因此,如何有效地檢測(cè)并處理網(wǎng)絡(luò)釣魚已成為亟待解決的網(wǎng)絡(luò)安全問(wèn)題。
網(wǎng)絡(luò)釣魚發(fā)展至今,其針對(duì)的目標(biāo)已經(jīng)從互聯(lián)網(wǎng)終端用戶擴(kuò)展到了組織機(jī)構(gòu)、網(wǎng)絡(luò)提供商,也有了更為復(fù)雜的網(wǎng)絡(luò)釣魚形式,如近年來(lái)愈加嚴(yán)峻的魚叉式網(wǎng)絡(luò)釣魚攻擊(spear phishing)。在魚叉式網(wǎng)絡(luò)釣魚中,攻擊者通常會(huì)鎖定特定個(gè)人或某機(jī)構(gòu)的特定員工及其社交賬號(hào),向其發(fā)送個(gè)性化的電子郵件,誘使他們泄露敏感信息或在電腦上安裝惡意軟件。盡管魚叉式網(wǎng)絡(luò)釣魚只是發(fā)送少量的郵件給少量的目標(biāo),但個(gè)性化的特點(diǎn)使其與一般的網(wǎng)絡(luò)釣魚相比,更難以檢測(cè)且具有更高的成功率[8,9]。FBI指出,一種名為“執(zhí)行長(zhǎng)欺詐”(CEO fraud)的釣魚在2013年10月到2016年2月期間造成的損失高達(dá)23億美元[10]。
釣魚檢測(cè)技術(shù)通過(guò)利用釣魚攻擊所具有的某些特征對(duì)其進(jìn)行識(shí)別,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)釣魚攻擊的打擊和防范。本文統(tǒng)計(jì)了2006~2015年網(wǎng)絡(luò)釣魚檢測(cè)相關(guān)專利、文獻(xiàn)的發(fā)表數(shù)目注2,如圖 2所示,釣魚檢測(cè)相關(guān)研究成果的數(shù)目整體呈上升趨勢(shì)。
國(guó)內(nèi)目前釣魚檢測(cè)的相關(guān)研究很多,但缺乏論述全面、條理清晰的綜述性文獻(xiàn)。因此,本文嘗試對(duì)網(wǎng)絡(luò)釣魚檢測(cè)的思路、方法、技術(shù)進(jìn)行全面的歸納和總結(jié)。
2.1 釣魚檢測(cè)視角分析
網(wǎng)絡(luò)釣魚的攻擊和防御就像一場(chǎng)持續(xù)的“軍備競(jìng)賽”,盡管目前已有許多關(guān)于釣魚檢測(cè)的技術(shù)研究和實(shí)現(xiàn),但它們無(wú)法有效防御所有的網(wǎng)絡(luò)釣魚攻擊。一方面,網(wǎng)絡(luò)釣魚攻擊者常會(huì)根據(jù)已有的釣魚檢測(cè)方案改進(jìn)釣魚策略,達(dá)到規(guī)避檢測(cè)的目的;另一方面,網(wǎng)絡(luò)釣魚活動(dòng)具有偽裝性高、時(shí)效性強(qiáng)、存活時(shí)間短及釣魚目標(biāo)廣泛等特點(diǎn)[11],往往很難有效地識(shí)別。
雖然網(wǎng)絡(luò)釣魚的模式在不斷地演化,但其本質(zhì)并未發(fā)生變化。網(wǎng)絡(luò)釣魚總是與其仿冒的目標(biāo)有很強(qiáng)的關(guān)系,并存在一定的迷惑性信息。例如與合法鏈接相似的域名、使用指向合法頁(yè)面的鏈接以及視覺(jué)上相似的內(nèi)容等,才能誘導(dǎo)用戶輸入自己的敏感信息。網(wǎng)絡(luò)釣魚檢測(cè)就是發(fā)現(xiàn)并利用這些與合法內(nèi)容(URL、郵件、網(wǎng)頁(yè)等)有關(guān)的迷惑性信息進(jìn)行網(wǎng)絡(luò)釣魚的檢測(cè)和識(shí)別的。
網(wǎng)絡(luò)釣魚攻擊者進(jìn)行網(wǎng)絡(luò)釣魚的流程如圖3所示。首先,攻擊者假設(shè)一個(gè)釣魚網(wǎng)站或使合法網(wǎng)站攜帶惡意代碼,并部署一些必需的后臺(tái)腳本用于處理并獲取用戶的輸入數(shù)據(jù)。然后,攻擊者利用社會(huì)工程學(xué)注3制作誘餌,并通過(guò)郵件、電話、短信等途徑發(fā)放誘餌。在用戶被引誘訪問(wèn)釣魚頁(yè)面并上傳隱私信息后,攻擊者即可利用事先實(shí)現(xiàn)的后臺(tái)程序得到這些信息,并利用用戶隱私信息牟取利益。
目前常用的網(wǎng)絡(luò)釣魚檢測(cè)方法的分類方式有很多,從檢測(cè)的視角來(lái)看,根據(jù)所關(guān)注的釣魚攻擊的不同實(shí)施階段——釣魚攻擊的發(fā)起從圖3中的階段3發(fā)放誘餌開始,釣魚檢測(cè)的方法可以分為:基于傳播途徑分析的方法、基于網(wǎng)站入口分析的方法和基于網(wǎng)站內(nèi)容分析的方法。根據(jù)檢測(cè)手段又可以分為基于黑名單的釣魚檢測(cè)、啟發(fā)式釣魚檢測(cè)、基于視覺(jué)相似性的釣魚檢測(cè)、基于機(jī)器學(xué)習(xí)的釣魚檢測(cè)以及基于自然語(yǔ)言處理技術(shù)的釣魚檢測(cè)(將在第3部分詳細(xì)介紹)。這2種分類方式之間相互交叉,圖4簡(jiǎn)明地描述了兩者之間的關(guān)系,其中方塊顏色的深淺表示使用頻率的高低。
2.2 基于傳播途徑分析的方法
網(wǎng)絡(luò)釣魚的傳播途徑包括電子郵件、短信、電話、即時(shí)信息、各種社交平臺(tái)(微博、Twitter等)及其他新的通信方式。網(wǎng)絡(luò)釣魚信息的傳播和擴(kuò)散是攻擊者發(fā)動(dòng)釣魚攻擊的第一個(gè)階段,在這一階段進(jìn)行網(wǎng)絡(luò)釣魚的檢測(cè)可以將釣魚信息直接過(guò)濾,使其無(wú)法到達(dá)終端用戶,從而構(gòu)成釣魚攻擊的第一道防線。目前有關(guān)傳播途徑的釣魚檢測(cè)研究中對(duì)短信釣魚(Smishing,SMS phishing)檢測(cè)[12]、電話釣魚(Vishing,voice phishing)[13,14]檢測(cè)等的研究并不多,主要關(guān)注的是電子郵件釣魚檢測(cè)[15~19]。
電子郵件釣魚檢測(cè)通過(guò)對(duì)用戶收到的電子郵件進(jìn)行分析,對(duì)郵件中是否包含釣魚信息進(jìn)行判斷、過(guò)濾。釣魚郵件一般有2種情況:一是包含釣魚網(wǎng)站鏈接,引誘用戶去訪問(wèn);二是不包含任何鏈接,而是利用用戶的好奇心,誘導(dǎo)他們回復(fù)敏感信息[17]。圖5概括了基于電子郵件分析的方法中常用的特征。
一封電子郵件主要包含3部分:郵件頭、正文、附件。郵件頭由多個(gè)預(yù)先定義的格式化字段組成,如From、Delivered-To、Subject、Message- ID[20]等。網(wǎng)絡(luò)釣魚攻擊者雖然可以將郵件偽裝成來(lái)自合法的組織或機(jī)構(gòu),卻無(wú)法隱藏電子郵件的真實(shí)來(lái)源、Message-ID等信息。電子郵件的正文部分是郵件的主要內(nèi)容,通常是Text或HTML格式的。釣魚郵件的正文有很多特征。例如,稱呼只使用統(tǒng)稱而非收件人的名字、刻意營(yíng)造緊迫感(如要求用戶立即更新賬戶信息,否則會(huì)有賬戶被盜的風(fēng)險(xiǎn))及可疑的統(tǒng)一資源定位符(URL,uniform/universal resource locator)等,是釣魚郵件檢測(cè)的主要特征來(lái)源。此外,釣魚郵件的附件中往往包含偵察軟件或木馬病毒,因此確認(rèn)郵件附件的合法性是釣魚郵件檢測(cè)中必不可少的一環(huán)。
2.3 基于網(wǎng)站入口分析的方法
URL是因特網(wǎng)上標(biāo)準(zhǔn)的資源地址,即網(wǎng)站的入口。URL 仿冒在網(wǎng)絡(luò)釣魚中很常見,引誘用戶單擊URL訪問(wèn)其搭建的釣魚網(wǎng)站是網(wǎng)絡(luò)釣魚的重要環(huán)節(jié)之一。為了提高用戶訪問(wèn)釣魚網(wǎng)站的可能性,釣魚攻擊者往往使用與所仿冒的目標(biāo)視覺(jué)上相似的、具有迷惑性的URL。一個(gè)標(biāo)準(zhǔn)URL的格式如下。
protocol://hostname[:port]/path/[;parameters] [?query] #fragment
常見的URL仿冒的方法是在目標(biāo)URL的基礎(chǔ)上對(duì)主機(jī)名注4(host name)部分和路徑注5(path)部分進(jìn)行部分修改替換來(lái)構(gòu)造釣魚URL,以達(dá)到混淆視聽的目的。例如,攻擊者使用“www.lcbc.com.cn”仿冒工商銀行(真實(shí)URL為“www.icbc.com.cn”),使用“www.cmb955555.com”仿冒招行網(wǎng)站(真實(shí)URL“www.cmbchina.com”)等。
除了視覺(jué)上的相似性之外,釣魚URL還具有許多其他特征。在網(wǎng)絡(luò)釣魚檢測(cè)中常用的URL特征主要是詞匯特征[21~26]和基于主機(jī)的特征[23~26],如圖6所示。
URL的詞匯特征是直接從URL中提取的特征,常使用“/”“?”“.”“=”“_”“&”和“-”作為分隔符,然后使用詞袋模型對(duì)各詞塊進(jìn)行表示。詞匯特征能很好地捕捉釣魚URL 所具有的特點(diǎn),如與合法域名相似,常包含@ 、&、%等特殊符號(hào)。
主機(jī)特征描述了URL主機(jī)名部分所標(biāo)識(shí)的網(wǎng)站主機(jī)的屬性,通過(guò)這些屬性可以估計(jì)該釣魚URL的位置、擁有者等信息。常用的主機(jī)特征一般有WHOIS注6信息、位置信息、連接速度及其他DNS相關(guān)的屬性等。
對(duì)URL進(jìn)行分析在網(wǎng)絡(luò)釣魚檢測(cè)的相關(guān)研究工作中使用率相當(dāng)高,在基于傳播途徑分析的方法[16,18]和基于網(wǎng)站內(nèi)容分析的方法[27,28]中都會(huì)用到。另外,URL 還是黑名單技術(shù)的主要對(duì)象[29]。但由于URL中并不具有釣魚網(wǎng)站的決定性特征,即竊取用戶信息的手段,具有局限性[30],現(xiàn)在已很少有人進(jìn)行單純分析URL的研究。
2.4 基于網(wǎng)站內(nèi)容分析的方法
釣魚網(wǎng)頁(yè)往往采用社會(huì)工程學(xué)手段的網(wǎng)絡(luò)釣魚攻擊的最后一步,絕大多數(shù)的網(wǎng)絡(luò)釣魚最終都引誘用戶訪問(wèn)其事先搭建好的仿冒網(wǎng)站。在這種情況下,基于網(wǎng)站內(nèi)容分析的網(wǎng)絡(luò)釣魚檢測(cè)實(shí)際上是反釣魚的最后一道防線。
為了更好地取得用戶的信任,釣魚攻擊者構(gòu)建的釣魚網(wǎng)頁(yè)往往與真實(shí)網(wǎng)頁(yè)十分相似,這種相似性包括Logo的相似性[31~33]、Favicon的相似性[32,34]、CSS 架構(gòu)的相似性[35,36]、布局的相似性[37~40]及網(wǎng)頁(yè)整體視覺(jué)的相似性[37,41,42],利用這種相似性及釣魚網(wǎng)頁(yè)與真實(shí)網(wǎng)頁(yè)的不同之處進(jìn)行目標(biāo)品牌的識(shí)別和網(wǎng)絡(luò)釣魚的檢測(cè)十分有效。
此外,對(duì)網(wǎng)站內(nèi)容的分析還包括對(duì)網(wǎng)頁(yè)底層HTML注7的分析[27,43~45]。在網(wǎng)頁(yè)的HTML中存在著許多有辨識(shí)性的特征,如標(biāo)題、鏈出的URL與本網(wǎng)頁(yè)URL的域名是否一致、URL與其標(biāo)簽是否一致,是否有隱藏字段,是否有Form表單等。圖7總結(jié)了基于網(wǎng)頁(yè)內(nèi)容分析方法中常用的特征。在有些研究中只使用了HTML的文本內(nèi)容,通過(guò)TF-IDF算法得到整個(gè)頁(yè)面的關(guān)鍵詞[43,44,46]。但多數(shù)研究在對(duì)網(wǎng)站內(nèi)容進(jìn)行分析的時(shí)候會(huì)同時(shí)使用多種HTML 特征,例如,文獻(xiàn)[45]使用的HTML特征為是否包含有效的網(wǎng)絡(luò)內(nèi)容服務(wù)商(ICP, internet content provider)、空鏈的數(shù)目、出鏈的數(shù)目及是否包含有效的電子商務(wù)證書信息;文獻(xiàn)[27]中則使用了標(biāo)題、文本、出鏈和版權(quán)聲明這4個(gè)特征。
每類特征都具有一定的針對(duì)性,在實(shí)際應(yīng)用中,往往會(huì)將多類特征融合,從而盡可能地提高釣魚檢測(cè)的效果。例如,Zhang等[47]融合使用了URL特征、文本特征及基于規(guī)則的特征;胡向東等[33]則使用了敏感文本特征和Logo圖像特征進(jìn)行金融類釣魚網(wǎng)頁(yè)的檢測(cè),具有很強(qiáng)的針對(duì)性和時(shí)效性;徐歡瀟等[48]針對(duì)釣魚網(wǎng)站有的以文字為主、有的以圖片為主的現(xiàn)象,融合使用了文本特征、頁(yè)面布局特征及URL 鏈接特征。
2.5 常用語(yǔ)料庫(kù)
在進(jìn)行釣魚檢測(cè)的研究時(shí),往往需要大量的網(wǎng)絡(luò)釣魚數(shù)據(jù)和合法數(shù)據(jù)(郵件、URL、網(wǎng)頁(yè)HTML、網(wǎng)頁(yè)截圖等),本文總結(jié)了一些常用的語(yǔ)料庫(kù)。
PhishTank:PhishTank[49]是一個(gè)可以讓用戶提交、驗(yàn)證和共享網(wǎng)絡(luò)釣魚鏈接的社區(qū)網(wǎng)站。用戶提交可疑的釣魚URL后,會(huì)有至少2名網(wǎng)站成員進(jìn)行人工檢查。一旦確認(rèn)為網(wǎng)絡(luò)釣魚,就會(huì)將該URL加到一個(gè)可供他人下載的數(shù)據(jù)庫(kù)中。
Millersmiles:Millersmiles[50]是關(guān)于欺詐類電子郵件和網(wǎng)絡(luò)釣魚行為信息的重要信息來(lái)源,它包含了大量來(lái)自實(shí)際事例中與電子郵件、偽造的網(wǎng)頁(yè)內(nèi)容相關(guān)的文字類和圖片類資料。
SpamAssassin public corpus:SpamAssassin[51]是一個(gè)旨在檢測(cè)垃圾郵件和釣魚郵件的免費(fèi)開源軟件項(xiàng)目,它的公共語(yǔ)料庫(kù)中包含大量垃圾郵件和非垃圾郵件語(yǔ)料信息,可為網(wǎng)絡(luò)釣魚郵件的檢測(cè)提供數(shù)據(jù)集。
MalwarePatrol:MalwarePatrol[52]是一個(gè)由用戶貢獻(xiàn)的免費(fèi)系統(tǒng)。與PhishTank類似,任何人都可以提交可能攜帶惡意軟件、病毒或木馬的可疑網(wǎng)址。提交的URL被MalwarePatrol確認(rèn)為惡意的之后,該URL就會(huì)被放入一個(gè)黑名單中,供用戶下載。
Open Directory:開放目錄專案[53](即DMOZ) 是一個(gè)大型公共網(wǎng)頁(yè)目錄,它是由來(lái)自世界各地的志愿者共同維護(hù)和建設(shè)的全球最大目錄社區(qū)[54]。這個(gè)目錄下的網(wǎng)頁(yè)依照其性質(zhì)和內(nèi)容分門別類,在進(jìn)行釣魚檢測(cè)的研究時(shí)可以從中獲取合法URL的數(shù)據(jù)集。
2.6 評(píng)價(jià)指標(biāo)
網(wǎng)絡(luò)釣魚檢測(cè)的目標(biāo)是從包含了網(wǎng)絡(luò)釣魚實(shí)例和合法實(shí)例的數(shù)據(jù)集中檢測(cè)出釣魚實(shí)例,本質(zhì)上是一個(gè)二分類問(wèn)題。在二分類問(wèn)題中,共有4種分類情況,常用混淆矩陣衡量分類的準(zhǔn)確性(如表1所示)。其中,表示將釣魚實(shí)例正確預(yù)測(cè)為釣魚的數(shù)目,表示將釣魚實(shí)例錯(cuò)誤地預(yù)測(cè)為合法實(shí)例的數(shù)目,表示將合法實(shí)例錯(cuò)誤地預(yù)測(cè)為釣魚實(shí)例的數(shù)目,表示將合法實(shí)例正確預(yù)測(cè)為合法實(shí)例的數(shù)目。
表1 混淆矩陣
在網(wǎng)絡(luò)釣魚檢測(cè)技術(shù)中,常用的性能評(píng)估指標(biāo)如下。
1) 靈敏度(sensitivity):將釣魚實(shí)例預(yù)測(cè)為釣魚實(shí)例的能力,見式(1)。
2) 特異度(specificity):將合法實(shí)例預(yù)測(cè)為合法實(shí)例的能力,見式(2)。
3) 誤檢率(FPR, false positive rate):將合法實(shí)例錯(cuò)誤地預(yù)測(cè)為釣魚實(shí)例的比例,見式(3)。
4) 漏檢率(FNR, false negative rate):將釣魚實(shí)例錯(cuò)誤地預(yù)測(cè)為合法實(shí)例的比例,見式(4)。
5) 準(zhǔn)確率(P, prediction):在所有預(yù)測(cè)為釣魚的實(shí)例中,確實(shí)是釣魚的實(shí)例所占的比例,見式(5)。
6) 召回率(R, recall):等價(jià)于sensitivity,見式(6)。
7) F-measure:準(zhǔn)確率和召回率的加權(quán)調(diào)和平均數(shù),計(jì)算如式(7)。其中是參數(shù),當(dāng)=1時(shí),就是常見的1值,見式(8)。
9) 精確度(ACC, accuracy):釣魚實(shí)例和合法實(shí)例正確預(yù)測(cè)的比例,見式(9)。
9) 加權(quán)錯(cuò)誤率(W):釣魚實(shí)例和合法實(shí)例預(yù)測(cè)錯(cuò)誤的加權(quán)錯(cuò)誤率[55],見式(10)。其中,是權(quán)重系數(shù),表示合法實(shí)例的重要程度。例如,若=1,則釣魚實(shí)例和合法實(shí)例的重要程度相同;若=5,則對(duì)于將合法實(shí)例誤檢為釣魚實(shí)例的懲罰是釣魚實(shí)例漏檢測(cè)懲罰的5倍。
(2)
(3)
(5)
(6)
(8)
(9)
3.1 基于黑名單的釣魚檢測(cè)
基于黑名單的檢測(cè)方法維護(hù)一個(gè)已知的釣魚網(wǎng)站的信息列表,以便根據(jù)列表檢查當(dāng)前訪問(wèn)的網(wǎng)站。這份需要不斷更新的黑名單中包含已知網(wǎng)絡(luò)釣魚的URL (如PhishTank[49])、IP 地址(如spamhaus[56])、域名(如SURBL[57])、證書(如證書撤銷列表CRLs注8)或者關(guān)鍵詞等信息。
黑名單的方法應(yīng)用廣泛,是主要的網(wǎng)絡(luò)釣魚過(guò)濾技術(shù)之一,如Google Chrome、Mozilla Firefox 和Apple Safari中使用的Google Safe API[58],就是根據(jù)Google提供的不斷更新的黑名單,通過(guò)驗(yàn)證某一URL是否在黑名單中,來(lái)判斷該URL是否是釣魚網(wǎng)頁(yè)或者惡意網(wǎng)頁(yè)。
如何將可疑URL與黑名單中的網(wǎng)絡(luò)釣魚URL進(jìn)行匹配是基于黑名單的方法中一個(gè)關(guān)鍵問(wèn)題。為了規(guī)避黑名單的檢測(cè),網(wǎng)絡(luò)釣魚攻擊者往往會(huì)不斷改變釣魚頁(yè)面的URL,而URL的任何一點(diǎn)變化都會(huì)導(dǎo)致與黑名單中的URL匹配失敗,從而導(dǎo)致漏檢情況的發(fā)生。針對(duì)精確匹配的局限性,Prakash等[59]提出了一種改進(jìn)方法PhishNet,基于5種啟發(fā)式的規(guī)則(如通用頂級(jí)域名的可替換性、目錄結(jié)構(gòu)相似性等)枚舉已知網(wǎng)絡(luò)釣魚的簡(jiǎn)單組合,在經(jīng)過(guò)DNS查詢和頁(yè)面內(nèi)容匹配驗(yàn)證之后得到新的釣魚URL,然后將URL分解為4個(gè)部分——IP地址、主機(jī)名稱、目錄結(jié)構(gòu)和品牌名字,與黑名單中的相應(yīng)部分進(jìn)行近似匹配以判斷URL 是否是網(wǎng)絡(luò)釣魚。PhishNet可以對(duì)黑名單列表進(jìn)行擴(kuò)充,并能檢測(cè)出一部分未在黑名單中出現(xiàn)的網(wǎng)絡(luò)釣魚。
Felegyhazi等[60]探討了基于域名黑名單的主動(dòng)型方法。該方法基于網(wǎng)絡(luò)犯罪分子需要注冊(cè)大量的域名以維持其活動(dòng)這一發(fā)現(xiàn),將一個(gè)域名黑名單作為種子列表,利用DNS區(qū)域文件(zone file)的NS 信息和WHOIS域名注冊(cè)信息對(duì)列表進(jìn)行擴(kuò)充。同時(shí),該方法還利用名稱服務(wù)器注冊(cè)的新鮮度和自我解析等特征。結(jié)果表明,與以往被動(dòng)的黑名單加入方式相比,這種主動(dòng)將域名列入黑名單的方法可以減少60%~75%域名加入黑名單的時(shí)間間隔。但該方法依賴于區(qū)域文件中的名稱服務(wù)器信息及WHOIS數(shù)據(jù)庫(kù)的可用性。
通過(guò)使用黑名單進(jìn)行釣魚檢測(cè),可以準(zhǔn)確地識(shí)別已被確認(rèn)的網(wǎng)絡(luò)釣魚,大大降低了誤檢率,另一方面,黑名單還具有主機(jī)資源需求低的優(yōu)點(diǎn)[61]。但是,由于大多數(shù)網(wǎng)絡(luò)釣魚活動(dòng)的存活周期短,黑名單的方法在防御0-hour釣魚攻擊(新出現(xiàn)的釣魚攻擊)方面的有效性并不高。Sheng等[62]的研究顯示,黑名單的方法僅能檢測(cè)20%的0-hour釣魚攻擊,主要有以下2個(gè)原因。
1) 黑名單的加入過(guò)程造成延遲。一個(gè)新釣魚活動(dòng)的URL、IP地址等信息必須在確認(rèn)其為網(wǎng)絡(luò)釣魚后才能加入黑名單,而像PhishTank、MalwarePatrol多提供黑名單的機(jī)構(gòu)往往采用人工投票確認(rèn)的方式判定一個(gè)可疑的活動(dòng)是否是網(wǎng)絡(luò)釣魚,因此帶來(lái)一定的延時(shí)。研究表明,大約47%~83%的網(wǎng)絡(luò)釣魚在被發(fā)現(xiàn)12 h之后才能加入黑名單,但事實(shí)上,63%的網(wǎng)絡(luò)釣魚行為會(huì)在發(fā)生后的2 h內(nèi)結(jié)束[62]。這一延遲極大地影響了黑名單方法檢測(cè)的準(zhǔn)確率。
2) 黑名單的更新造成延遲。黑名單的更新有2種方法:①將更新的黑名單列表推送到客戶端;②服務(wù)器檢查所訪問(wèn)的URL是否是釣魚網(wǎng)站,然后將結(jié)果通知給客戶端[63]。這2種方法都存在一定的問(wèn)題。如果黑名單服務(wù)器廣播更新的網(wǎng)絡(luò)釣魚黑名單,廣播的頻率低會(huì)產(chǎn)生延遲問(wèn)題,頻率過(guò)高又會(huì)增加服務(wù)器的負(fù)載。而第2種方法需要每個(gè)客戶端聯(lián)系黑名單服務(wù)器獲取結(jié)果,雖然沒(méi)有延遲問(wèn)題,但可能會(huì)面臨服務(wù)器的可擴(kuò)展性問(wèn)題。
3.2 啟發(fā)式釣魚檢測(cè)
網(wǎng)絡(luò)釣魚的啟發(fā)式檢測(cè)是根據(jù)網(wǎng)絡(luò)釣魚之間的相似性,從已檢測(cè)到的網(wǎng)絡(luò)釣魚攻擊中提取一個(gè)或多個(gè)特征。雖然并不能保證在釣魚攻擊中總是存在這些特征,但是一旦識(shí)別出一組泛化的啟發(fā)式特征,就可以實(shí)現(xiàn)0-hour釣魚攻擊檢測(cè),這是黑名單的方法所不具有的優(yōu)點(diǎn)。但是,這種檢測(cè)方式可能會(huì)增加將合法的網(wǎng)頁(yè)或郵件誤檢的風(fēng)險(xiǎn)。
大多數(shù)啟發(fā)式釣魚檢測(cè)使用的特征是從URL和HTML DOM(文檔對(duì)象模型)中提取的[28]。Zhang等[44]提出的基于內(nèi)容的方法CANTINA是著名的基于啟發(fā)式的檢測(cè)方法之一。該方法通過(guò)計(jì)算網(wǎng)頁(yè)頁(yè)面內(nèi)容的TF-IDF得到頁(yè)面的詞匯簽名(排名最高的5個(gè)關(guān)鍵詞),使用Google 搜索引擎檢索這5個(gè)關(guān)鍵詞及當(dāng)前域名(如http://www. ebay.com/xxxx,則當(dāng)前域名為“eBay”),根據(jù)檢索返回的結(jié)果(若返回0 條結(jié)果,則認(rèn)為該行為是釣魚)以及其他的啟發(fā)式特征(表2)判斷頁(yè)面是否合法。在該方法中,啟發(fā)式規(guī)則的使用在一定程度上降低了誤檢率,但增加了漏檢率。
表2 CANTINA使用的啟發(fā)式規(guī)則
Lin等[64]基于主流合法網(wǎng)站往往提供2個(gè)版本(移動(dòng)版本和桌面版本)的網(wǎng)站服務(wù),而網(wǎng)絡(luò)釣魚網(wǎng)站通常沒(méi)有這一發(fā)現(xiàn),針對(duì)多數(shù)網(wǎng)站單獨(dú)構(gòu)建移動(dòng)端網(wǎng)站的情況,提出了基于用戶設(shè)備檢測(cè)的方法。該方法采用新的啟發(fā)式規(guī)則,通過(guò)使用不同的用戶代理(user agent)字符串對(duì)URL進(jìn)行訪問(wèn),比較返回的結(jié)果。若相同,說(shuō)明該站點(diǎn)沒(méi)有檢測(cè)用戶設(shè)備的機(jī)制,即該網(wǎng)站只有一個(gè)版本。若不同,則說(shuō)明該站點(diǎn)有檢測(cè)用戶設(shè)備的機(jī)制。該方法雖然召回率較高(99%),但無(wú)法準(zhǔn)確識(shí)別自適應(yīng)網(wǎng)頁(yè)設(shè)計(jì)(RWD, respond Web design)構(gòu)建的合法網(wǎng)站,因此存在較高的誤檢率(15%)。
與黑名單的方法相比,基于啟發(fā)式的檢測(cè)方法能夠檢測(cè)新出現(xiàn)的網(wǎng)絡(luò)釣魚活動(dòng),但其誤檢率普遍高于黑名單[62]。這種方法比較簡(jiǎn)單,常以插件的形式應(yīng)用于各種主流瀏覽器(如Chrome、火狐、IE瀏覽器等)上。然而,由于啟發(fā)式的規(guī)則特征主要來(lái)自于網(wǎng)絡(luò)釣魚的統(tǒng)計(jì)特征或人工總結(jié),該類方法一方面依賴于領(lǐng)域知識(shí),規(guī)則更新困難;另一方面,許多合法內(nèi)容(如合法郵件、合法網(wǎng)頁(yè)等)也有可能具有規(guī)則中的某些特征,從而造成誤檢率的提高。
3.3 基于視覺(jué)相似性的釣魚檢測(cè)
與其他方法不同,基于視覺(jué)相似性的釣魚檢測(cè)并不關(guān)注底層的代碼或網(wǎng)絡(luò)層面的特征,而是通過(guò)比較頁(yè)面之間視覺(jué)特征(局部特征和全局特征)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)釣魚檢測(cè)。通常這種方法包括2個(gè)部分:視覺(jué)特征提取和相似性度量。從待檢測(cè)網(wǎng)頁(yè)提取一組特征,然后基于該特征集,計(jì)算該網(wǎng)頁(yè)與數(shù)據(jù)庫(kù)中所有網(wǎng)頁(yè)之間的相似度得分。如果相似度得分超過(guò)某一閾值且該網(wǎng)頁(yè)與合法網(wǎng)頁(yè)信息數(shù)據(jù)庫(kù)中的信息(域名等)不一致,則認(rèn)為其是釣魚網(wǎng)頁(yè)。
基于視覺(jué)相似性的釣魚檢測(cè)分為基于HTML文本的匹配[37,38,40]和基于圖像的匹配[41,42]。2005年,Liu等[37,38]提出了通過(guò)比較釣魚網(wǎng)站和非釣魚網(wǎng)站的視覺(jué)相似度進(jìn)行網(wǎng)站類型判斷的方法。該方法利用HTML DOM 樹,根據(jù)“視覺(jué)提示”將網(wǎng)頁(yè)頁(yè)面分塊,然后使用3個(gè)度量評(píng)估待檢測(cè)網(wǎng)站和合法網(wǎng)站之間的視覺(jué)相似性:塊級(jí)相似性、布局相似性和風(fēng)格相似性。如果一個(gè)網(wǎng)頁(yè)的任何一個(gè)度量的值超過(guò)了預(yù)先設(shè)定的閾值,則該網(wǎng)頁(yè)被認(rèn)為是釣魚網(wǎng)頁(yè)。該方法能夠以很低的誤檢率完成網(wǎng)絡(luò)釣魚的檢測(cè),雖然在進(jìn)行頁(yè)面之間的相似度計(jì)算時(shí)速度很快,但在合法頁(yè)面視覺(jué)信息數(shù)據(jù)庫(kù)數(shù)據(jù)量很大時(shí),對(duì)頁(yè)面進(jìn)行判定的耗時(shí)會(huì)很嚴(yán)重。而且該方法很大程度上取決于網(wǎng)頁(yè)分割的結(jié)果,尤其是塊級(jí)相似性和布局相似性的計(jì)算,因此該方法的檢測(cè)效果依賴于DOM 表示的可用性,無(wú)法檢測(cè)具有相似的外觀、但DOM表示不同的網(wǎng)頁(yè)。
在2006年,F(xiàn)u等[41]提出了一種使用陸地移動(dòng)距離(EMD,earth mover’s distance)衡量網(wǎng)頁(yè)頁(yè)面視覺(jué)相似度的方法。該方法首次將網(wǎng)頁(yè)頁(yè)面映射為低分辨率的圖像,然后使用顏色特征和坐標(biāo)特征表示圖像的特征。利用EMD 計(jì)算網(wǎng)頁(yè)頁(yè)面圖像之間的特征距離,并訓(xùn)練一個(gè)EMD閾值向量對(duì)頁(yè)面進(jìn)行分類。該方法完全基于Web頁(yè)面的圖像特征,不依賴于HTML內(nèi)容的可用性。但是由于可疑網(wǎng)頁(yè)和合法網(wǎng)頁(yè)的數(shù)量巨大,一些不相關(guān)的網(wǎng)頁(yè)圖像對(duì)也可能具有高相似度,導(dǎo)致誤檢率的增加。
但Fu等的方法僅考慮網(wǎng)頁(yè)圖像中的顏色及其分布特點(diǎn),未考慮網(wǎng)頁(yè)中不同部分之間的位置關(guān)系,這可能導(dǎo)致相似檢測(cè)的失效。針對(duì)該問(wèn)題,曹玖新等[42]提出了基于嵌套EMD的釣魚網(wǎng)頁(yè)檢測(cè)算法,對(duì)圖像進(jìn)行分割,抽取子圖特征并構(gòu)建網(wǎng)頁(yè)的特征關(guān)系圖(attributed relational graph),計(jì)算不同ARG屬性距離并在此基礎(chǔ)上采用嵌套EMD方法計(jì)算網(wǎng)頁(yè)的相似度。
現(xiàn)有的基于視覺(jué)相似性的釣魚檢測(cè)很大程度上依賴于網(wǎng)站快照的白名單或黑名單的使用[61]。從理論上講,該方法是一種泛化的黑名單或白名單,需要頻繁更新以保持完整性。另一方面,該方法往往假設(shè)釣魚網(wǎng)站與合法網(wǎng)站相似,但在實(shí)際應(yīng)用中,這種假設(shè)并不總是成立。對(duì)于只是部分復(fù)制合法網(wǎng)站(小于50%)的釣魚網(wǎng)站,基于視覺(jué)相似性的方法將無(wú)法成功檢測(cè)[65]。
3.4 基于機(jī)器學(xué)習(xí)的釣魚檢測(cè)
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,基于機(jī)器學(xué)習(xí)的釣魚檢測(cè)將網(wǎng)絡(luò)釣魚檢測(cè)問(wèn)題視為一個(gè)文本分類或聚類問(wèn)題,然后運(yùn)用各種機(jī)器學(xué)習(xí)中的分類算法(如-近鄰、C4.5、支持向量機(jī)、隨機(jī)森林等)、聚類算法(如-means、DBSCAN 等)達(dá)到對(duì)網(wǎng)絡(luò)釣魚攻擊進(jìn)行檢測(cè)和防御的目的。目前,機(jī)器學(xué)習(xí)方法主要分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)3種,因此基于機(jī)器學(xué)習(xí)的釣魚檢測(cè)也是使用這3類學(xué)習(xí)方法實(shí)現(xiàn)的。
3.4.1 有監(jiān)督學(xué)習(xí)方法
基于有監(jiān)督學(xué)習(xí)方法的網(wǎng)絡(luò)釣魚檢測(cè)是利用帶標(biāo)記的釣魚數(shù)據(jù)(釣魚郵件、釣魚網(wǎng)站、釣魚URL等)和帶標(biāo)記的合法數(shù)據(jù)訓(xùn)練得到一個(gè)分類器,通過(guò)得到的分類器對(duì)待檢測(cè)數(shù)據(jù)進(jìn)行分類的方法,其整體流程如圖8所示。
在網(wǎng)絡(luò)釣魚檢測(cè)中常用的有監(jiān)督學(xué)習(xí)方法有隨機(jī)森林(random forest)、序列最小優(yōu)化算法(SMO, sequential minimal optimization)、J48、樸素貝葉斯等,其簡(jiǎn)要介紹如下。
隨機(jī)森林:由多個(gè)決策樹分類器組成,每棵樹的特征是總特征集合中隨機(jī)的一組、樣本數(shù)據(jù)是整體樣本數(shù)據(jù)有放回采樣的集合,該算法最終的判決結(jié)果由所有個(gè)體決策樹投票決定[66]。
SMO:由John Platt設(shè)計(jì)的用于訓(xùn)練支持向量分類器的序列最小優(yōu)化算法[67]。
J48算法:是C4.5分類算法的Java實(shí)現(xiàn)[68]。
樸素貝葉斯:是一個(gè)應(yīng)用貝葉斯定理的簡(jiǎn)單分類器,該方法嚴(yán)格假定條件獨(dú)立[69]。
在文獻(xiàn)[17, 19, 20]中分析比較了上述4種算法用于網(wǎng)絡(luò)釣魚檢測(cè)的效果,結(jié)果表明,在提取的特征相同的情況下,J48和隨機(jī)森林這2個(gè)算法的效果普遍較好。但隨機(jī)森林在合法實(shí)例和釣魚實(shí)例權(quán)重變化時(shí),加權(quán)錯(cuò)誤率波動(dòng)較大[70]。
對(duì)于網(wǎng)絡(luò)釣魚的檢測(cè)來(lái)說(shuō),分類的準(zhǔn)確性主要取決于在分類的學(xué)習(xí)階段所識(shí)別的網(wǎng)絡(luò)釣魚特征[18]。因此,在大多數(shù)使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行釣魚檢測(cè)的研究中,其關(guān)注的重點(diǎn)大多是如何選擇更有效的特征才能訓(xùn)練出準(zhǔn)確率高、具有頑健性、能處理0-day 釣魚攻擊的分類器。
Xiang等在CANTINA[44]的基礎(chǔ)上提出了CANTINA+的檢測(cè)方法[71],該方法主要分為3個(gè)階段:首先,利用HTML DOM、搜索引擎及第三方服務(wù)提取了揭示網(wǎng)絡(luò)釣魚攻擊特點(diǎn)的8個(gè)新穎的特征;然后,在進(jìn)行分類過(guò)程之前,使用啟發(fā)式規(guī)則過(guò)濾掉沒(méi)有登錄框的網(wǎng)頁(yè);最后,使用機(jī)器學(xué)習(xí)算法對(duì)URL詞匯特征、Form表單、WHOIS信息、PageRank值搜索引擎檢索信息等15個(gè)具有高度表達(dá)性的釣魚特征進(jìn)行學(xué)習(xí),實(shí)現(xiàn)釣魚網(wǎng)頁(yè)的分類。
Marchal等指出[27]:1) 盡管釣魚者試圖使釣魚頁(yè)面與目標(biāo)頁(yè)面盡可能地相似,但是他們?cè)诖罱ㄡ烎~頁(yè)面時(shí)存在一定的約束;2) 網(wǎng)頁(yè)可以由來(lái)自網(wǎng)頁(yè)不同部分的一組關(guān)鍵詞(如正文文本、標(biāo)題、域名以及URL的一些內(nèi)容等)表征,但合法網(wǎng)頁(yè)和釣魚網(wǎng)頁(yè)使用這些關(guān)鍵詞的方式是不同的。基于這2個(gè)觀點(diǎn),他們提出了一種用于檢測(cè)釣魚網(wǎng)站和目標(biāo)的新方法,選取了212個(gè)特征(如表3所示),然后使用Gradient Boosting 進(jìn)行釣魚網(wǎng)站的檢測(cè)。該方法不需要大量訓(xùn)練數(shù)據(jù)就可以很好地?cái)U(kuò)展到更大的測(cè)試數(shù)據(jù),具有不依賴于語(yǔ)言、品牌,速度快,可以自適應(yīng)釣魚攻擊及可完全在客戶端實(shí)現(xiàn)的優(yōu)點(diǎn)。但是該方法對(duì)基于IP的釣魚URL進(jìn)行檢測(cè)時(shí)精度太低,并且可能將空的或不可用的網(wǎng)頁(yè)以及保留域名誤分為釣魚。
表3 特征集
Moghimi等[72]則是在有監(jiān)督學(xué)習(xí)的基礎(chǔ)上,提出了一種基于規(guī)則的網(wǎng)上銀行釣魚攻擊檢測(cè)的方法,該方法首先使用支持向量機(jī)算法(SVM,support vector madisone)訓(xùn)練網(wǎng)絡(luò)釣魚的檢測(cè)模型,隨后使用SVM_DT算法提取隱藏的決策規(guī)則,構(gòu)建決策樹。該方法僅用10 條規(guī)則就達(dá)到了很高的精度和敏感性(準(zhǔn)確率:98.86%,1:0.989 98,靈敏度:1)。同樣,該方法也存在缺點(diǎn),它完全依賴頁(yè)面內(nèi)容,并且假設(shè)釣魚網(wǎng)站的頁(yè)面只使用合法頁(yè)面的內(nèi)容,因此難以檢測(cè)識(shí)別釣魚攻擊者重新設(shè)計(jì)的釣魚網(wǎng)站。
3.4.2 半監(jiān)督學(xué)習(xí)方法
有監(jiān)督學(xué)習(xí)方法(如SVM、樸素貝葉斯等)通常需要大量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,才能達(dá)到很高的準(zhǔn)確率。在網(wǎng)絡(luò)釣魚的標(biāo)記樣本很少時(shí),無(wú)法使用監(jiān)督學(xué)習(xí)的方法,在這種情況下往往采用半監(jiān)督學(xué)習(xí)(如圖9所示)或無(wú)監(jiān)督學(xué)習(xí)的方法。
2016年,Han等[8]針對(duì)魚叉式網(wǎng)絡(luò)釣魚活動(dòng)(spear phishing)的標(biāo)記數(shù)據(jù)數(shù)量有限這一問(wèn)題,提出了基于郵件profiling特征的魚叉式網(wǎng)絡(luò)釣魚活動(dòng)的歸因和識(shí)別模型。他們選取了郵件的四類profiling特征:來(lái)源特征、文本特征、附件特征和收件人特征,這些特征不僅能充分反映魚叉式網(wǎng)絡(luò)釣魚郵件特征,而且對(duì)釣魚郵件活動(dòng)的演變具有頑健性。在此基礎(chǔ)上,Han等提出了基于屬性圖的半監(jiān)督學(xué)習(xí)(SSL,semi-supervised learning)框架,提高了機(jī)器學(xué)習(xí)算法在標(biāo)記郵件有限的情況下進(jìn)行魚叉釣魚活動(dòng)歸因和識(shí)別的實(shí)用性。
圖10是釣魚活動(dòng)歸因模型的整體工作流程[8],流程圖中的每一個(gè)分析模塊都執(zhí)行相同的半監(jiān)督學(xué)習(xí)過(guò)程。他們根據(jù)郵件的profiling特征構(gòu)造-近鄰屬性圖。在屬性圖中,每個(gè)節(jié)點(diǎn)代表一封郵件,節(jié)點(diǎn)之間的邊代表兩者的相似性。系統(tǒng)在屬性圖中傳遞標(biāo)簽信息,并將郵件歸因于相應(yīng)的活動(dòng)。實(shí)驗(yàn)表明,該模型在已知活動(dòng)的歸因中,僅使用25封標(biāo)記郵件,就達(dá)到了0.9的1值、0.01的誤檢率;同時(shí),該模型還可以檢測(cè)未知的魚叉式網(wǎng)絡(luò)釣魚,在實(shí)驗(yàn)中使用246封標(biāo)記郵件檢測(cè)到了100%的darkmoon活動(dòng)、超過(guò)97%的samkams活動(dòng)以及91%的bisrala活動(dòng)。
與監(jiān)督學(xué)習(xí)方法相比,半監(jiān)督學(xué)習(xí)方法僅需要少量的訓(xùn)練樣本,能充分利用大量的未標(biāo)記樣本實(shí)現(xiàn)網(wǎng)絡(luò)釣魚的檢測(cè)和識(shí)別,減少了人工標(biāo)記數(shù)據(jù)的工作量。但是基于半監(jiān)督學(xué)習(xí)的檢測(cè)往往會(huì)比基于有監(jiān)督學(xué)習(xí)的檢測(cè)準(zhǔn)確率低,特別是在未標(biāo)記樣本的分布與有標(biāo)記樣本的分布差異較大的情況下,釣魚檢測(cè)的性能會(huì)受到很大影響。
3.4.3 無(wú)監(jiān)督學(xué)習(xí)方法
圖11為基于無(wú)監(jiān)督學(xué)習(xí)的釣魚檢測(cè)的流程。在無(wú)監(jiān)督學(xué)習(xí)中,事先不需要任何訓(xùn)練樣本,即不需要標(biāo)記數(shù)據(jù),直接對(duì)數(shù)據(jù)進(jìn)行建模。-means和DBSCAN(density-based spatial clustering of application with noise)是常用的無(wú)監(jiān)督學(xué)習(xí)算法。-means算法通過(guò)隨機(jī)設(shè)置個(gè)聚類中心來(lái)構(gòu)建個(gè)簇,然后將實(shí)例迭代地劃分到距離(如歐氏距離)最近的聚類中心所在的簇并更新聚類中心。重復(fù)該迭代過(guò)程直至收斂。
DBSCAN基于實(shí)例的密度劃分實(shí)例,與-means 不同的是,它不需要事先確定簇的數(shù)量。2010年,Liu等[73]以網(wǎng)頁(yè)頁(yè)面之間的鏈接關(guān)系、檢索結(jié)果的排序關(guān)系、文本相似性及頁(yè)面布局相似性等關(guān)系作為特征,采用DBSCAN聚類算法對(duì)釣魚網(wǎng)頁(yè)進(jìn)行識(shí)別。基于無(wú)監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)釣魚檢測(cè)減少了人工標(biāo)記的代價(jià),但檢測(cè)的準(zhǔn)確率不高且檢測(cè)結(jié)果受數(shù)據(jù)集的結(jié)構(gòu)影響較大。
3.5 基于自然語(yǔ)言處理技術(shù)的釣魚檢測(cè)
自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)的一個(gè)領(lǐng)域,它使計(jì)算機(jī)能夠理解人類所講的語(yǔ)言,也就是說(shuō),讓計(jì)算機(jī)以一種有意義的方式處理自然語(yǔ)言中的數(shù)據(jù)和指令。Verma等[74]于2012年提出利用自然語(yǔ)言處理技術(shù)解決網(wǎng)絡(luò)釣魚郵件檢測(cè)問(wèn)題。
Aggarwal等[17]針對(duì)電子郵件溝通方式的釣魚活動(dòng),提出了檢測(cè)不包含任何鏈接的網(wǎng)絡(luò)釣魚郵件的方案,這些郵件往往是利用用戶的好奇心,促使用戶向釣魚者回復(fù)敏感信息。該檢測(cè)方法使用自然語(yǔ)言處理和WordNet注9實(shí)現(xiàn)。通過(guò)對(duì)釣魚郵件的分析,Aggarwal 等提取了不包含鏈接的網(wǎng)絡(luò)釣魚郵件所共有的要素:缺少收件人的名字、提及錢、誘導(dǎo)回復(fù)的句子以及緊迫感。通過(guò)對(duì)郵件文本進(jìn)行詞性分析和詞干提取,得到以下打分標(biāo)準(zhǔn)。
其中,
是一個(gè)表示要求回復(fù)郵件的詞的集合。
表示的同義詞集合中的詞的后續(xù)4個(gè)下義關(guān)系詞的同義詞集合。
若郵件中沒(méi)有提到收件人的姓名,=1,否則=0。
若郵件中提到錢,=1,否則=0。
若郵件中有中的詞,=1,否則=0。
若郵件中有中的詞的句子同時(shí)有一種緊迫的語(yǔ)氣,=1,否則=0。
=從中的詞到達(dá)詞的下義鏈接的數(shù)目。
該方法可以很好地檢測(cè)電子郵件溝通式的釣魚郵件,但無(wú)法處理電子郵件中包含的附件。對(duì)于包含附件的電子郵件,可以將其他技術(shù)(如光學(xué)字符識(shí)別技術(shù))與該方法相結(jié)合,提取附件和郵件文本內(nèi)容特征進(jìn)行釣魚郵件的檢測(cè)。
此后,Yasin等在文獻(xiàn)[19]中提出了釣魚相加權(quán)的概念,使用知識(shí)發(fā)現(xiàn)與機(jī)器學(xué)習(xí)分類算法相結(jié)合的方法進(jìn)行網(wǎng)絡(luò)釣魚郵件的檢測(cè)。從整體上來(lái)說(shuō),它與大多數(shù)基于機(jī)器學(xué)習(xí)的釣魚檢測(cè)方法的流程是一致的,首先基于語(yǔ)料庫(kù)進(jìn)行特征選擇、特征提取,然后基于提取的特征訓(xùn)練模型,再將訓(xùn)練得到的模型用于分類決策。不同之處在于特征選擇的過(guò)程(即預(yù)處理階段),這個(gè)階段通過(guò)以下4個(gè)步驟完成對(duì)郵件標(biāo)題、郵件正文以及文本特征的提?。?) 文本解析、標(biāo)記和詞干提??;2)去除停用詞;3) 語(yǔ)義文本處理;4) 釣魚項(xiàng)加權(quán)。
在語(yǔ)義文本處理的過(guò)程中,根據(jù)同義詞和詞義的上下義關(guān)系,電子郵件中的每個(gè)詞塊都使用其與WordNet本體中概念相關(guān)的詞語(yǔ)進(jìn)行了擴(kuò)展。這個(gè)過(guò)程有助于識(shí)別不同的電子郵件消息中的標(biāo)記之間的語(yǔ)義關(guān)系,縮短彼此接近的特征向量之間的距離,進(jìn)而提高分類精度。
與其他方法相比,基于自然語(yǔ)言處理技術(shù)(natural language process)的檢測(cè)方法在網(wǎng)絡(luò)釣魚檢測(cè)的研究中并不常見,這可能與缺少比較成熟的自然語(yǔ)言處理技術(shù)有關(guān)。另一方面,很多電子郵件的內(nèi)容可能包含打字錯(cuò)誤,使用NLP 處理起來(lái)更為復(fù)雜。
4.1 網(wǎng)絡(luò)釣魚檢測(cè)方法對(duì)比分析
任何一種單一的技術(shù)都無(wú)法滿足釣魚檢測(cè)的所有需求。本節(jié)選擇了代表性的反釣魚工作進(jìn)行對(duì)比分析,從所屬類別、基本原理及優(yōu)缺點(diǎn)等方面進(jìn)行了分析和總結(jié),便于更直觀地說(shuō)明各類釣魚檢測(cè)工作的特點(diǎn),并為后續(xù)研究提供明晰的參考(如表4所示)。
表4 網(wǎng)絡(luò)釣魚檢測(cè)技術(shù)比較
續(xù)表
在前文介紹的釣魚檢測(cè)評(píng)價(jià)指標(biāo)中,最重要的2個(gè)是網(wǎng)絡(luò)釣魚攻擊的檢測(cè)精度和誤檢率。絕大多數(shù)的網(wǎng)絡(luò)釣魚攻擊的存活時(shí)間都很短,因此提高對(duì)新出現(xiàn)的釣魚攻擊的檢測(cè)能力十分必要的。而一個(gè)網(wǎng)絡(luò)釣魚檢測(cè)系統(tǒng)的誤檢率的高低則直接關(guān)系到用戶對(duì)該系統(tǒng)的信賴程度。
基于黑名單的釣魚檢測(cè)可以準(zhǔn)確識(shí)別已被確認(rèn)的網(wǎng)絡(luò)釣魚,查找效率高、快速精準(zhǔn),適用于要求誤檢率很低的情況。黑名單的方法設(shè)計(jì)簡(jiǎn)單易實(shí)現(xiàn),但由于黑名單的加入和更新存在延遲,往往很難滿足正確性、及時(shí)性和完整性這3個(gè)要求,容易產(chǎn)生漏檢的情況,也無(wú)法檢測(cè)新出現(xiàn)的網(wǎng)絡(luò)釣魚攻擊。另外,黑名單的構(gòu)建和更新需要人工干預(yù)和驗(yàn)證,可能消耗大量的資源。黑名單的方法雖然不適合單獨(dú)使用,但是可以和其他能夠檢測(cè)0-hour 釣魚攻擊的方法(如啟發(fā)式的方法、基于視覺(jué)相似性的方法等)結(jié)合使用,在將誤檢率控制在可接受的范圍內(nèi)的同時(shí),提高對(duì)新出現(xiàn)的釣魚攻擊的防御能力。
啟發(fā)式釣魚檢測(cè)可在網(wǎng)絡(luò)釣魚攻擊發(fā)起時(shí)就進(jìn)行,不必等待黑名單的更新,因此可以實(shí)現(xiàn)0-hour網(wǎng)絡(luò)釣魚攻擊的檢測(cè)識(shí)別。并且這類方法簡(jiǎn)單、易于實(shí)現(xiàn),在一些主流瀏覽器(如Chrome、火狐、IE等)上得到廣泛應(yīng)用,但這種通過(guò)統(tǒng)計(jì)特征或人工總結(jié)得到的啟發(fā)式規(guī)則有很大的局限性,一些合法網(wǎng)站也可能具有所使用的啟發(fā)式規(guī)則的某些特征,導(dǎo)致誤檢率的增加。此外,啟發(fā)式的規(guī)則簡(jiǎn)單,網(wǎng)絡(luò)釣魚攻擊者可以通過(guò)重新設(shè)計(jì)釣魚攻擊,很容易規(guī)避啟發(fā)式的釣魚檢測(cè)。
基于視覺(jué)相似性的釣魚檢測(cè)是基于釣魚頁(yè)面往往與合法頁(yè)面在視覺(jué)上相似這一假設(shè)實(shí)現(xiàn)的,針對(duì)性強(qiáng),可以很好地解決由圖片構(gòu)成的釣魚網(wǎng)站的檢測(cè)問(wèn)題,也能夠防御新出現(xiàn)的網(wǎng)絡(luò)釣魚攻擊,但其本質(zhì)上仍是黑名單的方法,需要頻繁地更新,保持?jǐn)?shù)據(jù)庫(kù)的完整和最新,才能維持有效性。另一方面,這種使用圖像特征的方法需要對(duì)圖像信息進(jìn)行處理,并且需要計(jì)算待檢測(cè)頁(yè)面與所有合法頁(yè)面之間的視覺(jué)相似度,檢測(cè)效率較低,與其他方法相比,需要更多的計(jì)算和存儲(chǔ)成本。
基于自然語(yǔ)言技術(shù)的釣魚檢測(cè)通過(guò)讓機(jī)器“理解”網(wǎng)絡(luò)釣魚郵件或釣魚網(wǎng)站的內(nèi)容,從語(yǔ)義的角度實(shí)現(xiàn)網(wǎng)絡(luò)釣魚的檢測(cè),但是目前相關(guān)研究較少,并且自然語(yǔ)言處理技術(shù)雖然對(duì)英文等拉丁語(yǔ)系的語(yǔ)言處理效果較好,但對(duì)中文語(yǔ)義的理解方面仍存在很大的問(wèn)題,需要進(jìn)一步發(fā)展完善。
將網(wǎng)絡(luò)釣魚問(wèn)題抽象為一個(gè)分類或聚類的問(wèn)題,然后采用機(jī)器學(xué)習(xí)算法完成分類或聚類任務(wù),是目前網(wǎng)絡(luò)釣魚檢測(cè)常用的手段之一。通過(guò)利用已有數(shù)據(jù)構(gòu)建模型,減少了大量的人力,提高了釣魚檢測(cè)的效率?;跈C(jī)器學(xué)習(xí)的檢測(cè)方法還可實(shí)現(xiàn)0-hour網(wǎng)絡(luò)釣魚攻擊檢測(cè)。另外,機(jī)器學(xué)習(xí)的方法可以從各個(gè)維度的特征(如URL特征、HTML特征、視覺(jué)特征等)進(jìn)行學(xué)習(xí),并方便基于新的釣魚形式進(jìn)行特征空間的拓展,提高了檢測(cè)精度;具有可擴(kuò)充性,可通過(guò)增量學(xué)習(xí)將新的釣魚數(shù)據(jù)加入數(shù)據(jù)集對(duì)檢測(cè)模型進(jìn)行修正;強(qiáng)化學(xué)習(xí)等技術(shù)可以不斷提高分類器的能力,從而達(dá)到自適應(yīng)網(wǎng)絡(luò)釣魚攻擊發(fā)展的目的。
4.2 網(wǎng)絡(luò)釣魚檢測(cè)面臨的挑戰(zhàn)
盡管研究者們已經(jīng)研究開發(fā)了諸多網(wǎng)絡(luò)釣魚檢測(cè)技術(shù)、工具來(lái)幫助用戶檢測(cè)和避免網(wǎng)絡(luò)釣魚,然而網(wǎng)絡(luò)釣魚的攻擊和防御之間的博弈從未停止?;ヂ?lián)網(wǎng)的迅速發(fā)展也給網(wǎng)絡(luò)釣魚檢測(cè)帶來(lái)了很大的挑戰(zhàn)。
1) 網(wǎng)頁(yè)規(guī)模迅速由GB級(jí)、TB級(jí)向PB、ZB級(jí)擴(kuò)大,對(duì)網(wǎng)絡(luò)釣魚檢測(cè)技術(shù)的存儲(chǔ)、計(jì)算能力的要求增大。
2) 攻擊者搭建釣魚網(wǎng)頁(yè)成本降低,給攻擊者持續(xù)縮短網(wǎng)絡(luò)釣魚活動(dòng)的生命周期帶來(lái)了便利。
3) 網(wǎng)絡(luò)釣魚不再局限在計(jì)算機(jī)層面,手機(jī)平臺(tái)成為網(wǎng)絡(luò)釣魚的新目標(biāo)。2012年趨勢(shì)科技(trend micro)的研究發(fā)現(xiàn)了4 000條為手機(jī)網(wǎng)頁(yè)設(shè)計(jì)的釣魚URL[75]。盡管這個(gè)數(shù)字不到所有釣魚URL的1%,但它表明手機(jī)平臺(tái)開始成為網(wǎng)絡(luò)釣魚攻擊的新目標(biāo),并且由于手機(jī)屏幕的大小限制,手機(jī)網(wǎng)絡(luò)釣魚更具有欺騙性。
4) 傳播途徑不再局限于電子郵件、手機(jī)短信的方式,各種社交網(wǎng)站(如Twitter[76]、微博)、網(wǎng)絡(luò)游戲[77]、二維碼[78]等的興起使傳播途徑更多元化,也讓網(wǎng)絡(luò)釣魚檢測(cè)更困難。
5) 網(wǎng)絡(luò)釣魚攻擊的形式繁多,魚叉式網(wǎng)絡(luò)釣魚攻擊、執(zhí)行長(zhǎng)欺詐、域欺騙(pharming)、標(biāo)簽釣魚[79](tabnabbing)等各種攻擊形式層出不窮,難以應(yīng)對(duì)。
6) DNSsec協(xié)議推動(dòng)較為緩慢,釣魚攻擊者常常利用名址解析存在的漏洞,劫持合法網(wǎng)站展開釣魚活動(dòng)。這種網(wǎng)站劫持的釣魚攻擊,在用戶訪問(wèn)合法網(wǎng)站時(shí)跳轉(zhuǎn)到釣魚網(wǎng)站,用戶往往難以察覺(jué),為釣魚檢測(cè)增加了難度。
除了客觀環(huán)境給網(wǎng)絡(luò)釣魚檢測(cè)帶來(lái)的挑戰(zhàn)外,攻擊者們還會(huì)不斷地改進(jìn)攻擊手段以規(guī)避檢測(cè),例如,使用對(duì)短鏈接技術(shù)[80]模糊釣魚URL 以更好地傳播釣魚鏈接;對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行各種混淆、加密;使用Fast flux 技術(shù)規(guī)避黑名單技術(shù);采用人機(jī)識(shí)別技術(shù)對(duì)訪問(wèn)者的身份進(jìn)行判定,只有在認(rèn)定是人工瀏覽行為時(shí)才推送釣魚網(wǎng)頁(yè),否則推送事先準(zhǔn)備好的合法網(wǎng)頁(yè)(如百度首頁(yè));進(jìn)一步縮短網(wǎng)絡(luò)釣魚行為的生命周期等[81]。
本文從定義、發(fā)展趨勢(shì)、攻擊目的等方面對(duì)網(wǎng)絡(luò)釣魚進(jìn)行了概述,并對(duì)常用的網(wǎng)絡(luò)釣魚檢測(cè)方法進(jìn)行了分析總結(jié)。雖然目前已經(jīng)有很多效果不錯(cuò)的檢測(cè)方法,但網(wǎng)絡(luò)釣魚的攻擊與防御就是一場(chǎng)“軍備競(jìng)賽”。隨著檢測(cè)技術(shù)的發(fā)展,攻擊者們也不斷地設(shè)計(jì)出新的釣魚形式以規(guī)避已有的檢測(cè)技術(shù)。正如“開發(fā)商只有在黑客找到他們之后才糾正他們的錯(cuò)誤”,人們無(wú)法知道網(wǎng)絡(luò)釣魚攻擊者下一個(gè)攻擊的手段是怎樣的,因此,如何使檢測(cè)方法自適應(yīng)網(wǎng)絡(luò)釣魚的發(fā)展演化是網(wǎng)絡(luò)釣魚檢測(cè)方法研究的關(guān)鍵所在。
從目前的發(fā)展現(xiàn)狀來(lái)看,機(jī)器學(xué)習(xí)存在很大的發(fā)展?jié)摿?。機(jī)器學(xué)習(xí)的方法具有對(duì)高維特征進(jìn)行學(xué)習(xí)的能力,檢測(cè)效果較好。而且這類方法具有很好的可擴(kuò)充性,只需將新的釣魚數(shù)據(jù)加入數(shù)據(jù)集就可完成對(duì)釣魚檢測(cè)模型的修正,因此能夠很好地適應(yīng)網(wǎng)絡(luò)釣魚攻擊的發(fā)展,實(shí)現(xiàn)0-hour網(wǎng)絡(luò)釣魚攻擊檢測(cè)。但是,目前基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)釣魚檢測(cè)方法中往往缺乏對(duì)各個(gè)特征效果的有效評(píng)估,無(wú)法確定每個(gè)特征對(duì)釣魚檢測(cè)的貢獻(xiàn)如何。盲目地使用高維度的特征,可能會(huì)出現(xiàn)付出了很高的計(jì)算代價(jià),但檢測(cè)效果卻只有略微提升的情況。本文認(rèn)為,這是機(jī)器學(xué)習(xí)的檢測(cè)方法在之后的發(fā)展中所需要解決的問(wèn)題。另一方面,基于視覺(jué)相似性的釣魚檢測(cè)可以很好地解決由圖片構(gòu)成的釣魚網(wǎng)站的檢測(cè)問(wèn)題,這類方法大部分依賴于圖像的相似性檢測(cè)。近年來(lái),深度學(xué)習(xí)日益火熱,極大地促進(jìn)了圖像處理效果的提高。結(jié)合基于視覺(jué)相似性的釣魚檢測(cè)的思想,將深度學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)釣魚檢測(cè)也將成為今后的研究方向之一。此外,隨著自然語(yǔ)言處理技術(shù)的發(fā)展成熟,基于此類技術(shù)的釣魚檢測(cè)方法也非常有前景。
[1] 國(guó)家網(wǎng)絡(luò)空間安全戰(zhàn)略[EB/OL]. http://news.xinhuanet.com/ politics/2016-12/27/c1120196479.htm.
National cybersecurity strategy[EB/OL]. http://news.xinhuanet. com/politics/ 2016-12/27/c1120196479.htm.
[2] Anti-Phishing Working Group(APWG). Phishing activity trends report-second quarter 2016[EB/OL]. https://docs.apwg.org/reports/ apwgtrendsreportq22016.pdf.
[3] WEIDER D Y, NARGUNDKAR S, TIRUTHANI N. A phishing vulnerability analysis of web based systems[C]//Computers and Communications. 2008: 326-331.
[4] E.M.C.Corporation.RSA monthly fraud report[EB/OL]. http://australia. emc.com/collateral/fraud-report/h13929-rsa-fraud-report-jan-2015.pdf.
[5] 中國(guó)反釣魚網(wǎng)站聯(lián)盟. 2012年中國(guó)反釣魚網(wǎng)站聯(lián)盟年報(bào)[EB/OL]. http://apac.cn/gzdt/qwfb/201408/P020140826493067614020.pdf.
APAC. Coalition against phishing site report of China in 2012[EB/OL]. http://apac.cn/gzdt/qwfb/201408/P020140826493067614020.pdf.
[6] 中國(guó)反釣魚網(wǎng)站聯(lián)盟. 2016年9月釣魚網(wǎng)站處理簡(jiǎn)報(bào)[EB/OL]. http://apac.cn/gzdt/qwfb/201610/P020161110519501201415.pdf.
APAC. Phishing site processing presentation in september 2016[EB/OL]. http://apac.cn/gzdt/qwfb/201610/P020161110519501201415.pdf.
[7] 中國(guó)反釣魚網(wǎng)站聯(lián)盟. 2015年12月釣魚網(wǎng)站處理簡(jiǎn)報(bào)[EB/OL]. http://apac .cn/gzdt/qwfb/201601/P020160108491677785300.pdf.
APAC. Phishing site processing presentation in december 2015 [EB/OL]. http://apac.cn/gzdt/qwfb/201601/P020160108491677785300. pdf.
[8] HAN Y F, SHEN Y. Accurate spear phishing campaign attribution and early detection[C]//The 31st Annual ACM Symposium on Applied Computing. 2016: 2079-2086.
[9] ALARM S, EL-KHATIB K. Phishing susceptibility detection through social media analytics[C]//The 9th International Conference on Security of Information and Networks. 2016: 61-64.
[10] Krebs on security[EB/OL]. https://krebsonsecurity.com/2016/04/ fbi-2-3- billion-lost-to-ceo-email-scams/.
[11] Anti-Phishing Working Group(APWG). Global phishing survey:trends and domainname use in 2H2014[EB/OL]. http://docs.apwg. org/reports/APWGGlobalPhishingReport2H2014.pdf.
[12] YAN G, EIDENBENZ S, GALLI E. Sms-watchdog: profiling social behaviors of SMS users for anomaly detection[C]//The International Workshop on Recent Advances in Intrusion Detection. 2009: 202-223.
[13] NASSAR M, NICCOLINI S, EWALD T. Holistic VoIP intrusion detection and prevention system[C]//The 1st International Conference on Principles, Systems and Applications of IP Telecommunications. 2007: 1-9.
[14] SONG J, KIM H, GKELIAS A. iVisher: real-time detection of caller ID spoofing[J]. ETRI Journal, 2014, 36(5): 865-875.
[15] 彭富明,張衛(wèi)豐,彭寅. 基于文本特征分析的釣魚郵件檢測(cè)[J]. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(5): 140-145.
PENG F M, ZHANG W F, PENG Y. Detection of phishing emails based on text characteristic analysis[J]. Journal of Nanjing University of Posts and Telecommunication, 2012(5):140-145.
[16] HUSáK M, CEGAN J. PhiGARo: automatic phishing detection and incident response framework[C]//Availability, Reliability and Security (ARES). 2014: 295-302.
[17] AGGARWAL S, KUMAR V, SUDARSAN S D. Identification and detection of phishing emails using natural language processing techniques[C]//The 7th International Conference on Security of Information and Networks. 2014: 217.
[18] AKINYELU A A, ADEWUMI A O. Classification of phishing email using random forest machine learning technique[J]. Journal of Applied Mathematics, 2014.
[19] YASIN A, ABUHASAN A. An intelligent classification model for phishing email detection[J]. 2016, 8(4):55-72.
[20] VERMA R, RAI N. Phish-IDetector: Message-ID based automatic phishing detection[C]//e-Business and Telecommunications (ICETE). 2015(4): 427-434.
[21] 黃華軍, 錢亮, 王耀鈞. 基于異常特征的釣魚網(wǎng)站URL檢測(cè)技術(shù)[J].信息網(wǎng)絡(luò)安全, 2012,(01): 23-25,67.
HUANG H J, QIAN L, WANG Y J. URL Detecting technology of phshing site based on anomalous characte[J].Netinfo Security, 2012,(1): 23-25.
[22] BLUM A, WARDMAN B, SOLORIO T, et al. Lexical feature based phishing URL detection using online learning[C]//The 3rd ACM Workshop on Artificial Intelligence and Security. 2010: 54-60.
[23] MA J, SAUL L K, SAVAGE S, et al. Identifying suspicious URLs: an application of large-scale online learning[C]//The 26th Annual International Conference on Machine Learning. 2009: 681-688.
[24] MA J, SAUL L K, SAVAGE S, et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URLs[C]//The 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2009: 1245-1254.
[25] FEROZ M N, MENGEL S. Examination of data, rule generation and detection of phishing URLs using online logistic regression[C]//2014 IEEE International Conference on Big Data. 2014: 241-250.
[26] FEROZ M N, MENGEL S. Phishing URL detection using URL ranking[C]//The IEEE International Congress on Big Data. 2015: 635-638.
[27] MARCHAL S, SAARI K, SINGH N, et al. Know your phish: Novel techniques for detecting phishing sites and their targets[C]// Distributed Computing Systems (ICDCS). 2016: 323-333.
[28] RAMESH G, KRISHNAMURTHI I, KUMAR K S S. An efficacious method for detecting phishing webpages through target domain identification[J]. Decision Support Systems, 2014, 61: 12-22.
[29] ABRAHAM D, RAJ N S. Approximate string matching algorithm for phishing detection[C]//Advances in Computing, Communications and Informatics. 2014: 2285-2290.
[30] 何高輝, 鄒福泰, 譚大禮, 等. 基于SVM主動(dòng)學(xué)習(xí)算法的網(wǎng)絡(luò)釣魚檢測(cè)系統(tǒng)[J]. 計(jì)算機(jī)工程,2011,(19):126-128.
HE G H,ZOU F T,TAN D L, et al. Phishing detection system based on SVM active learning algorithm[J]. Computer Engineering, 2011(19): 126-128.
[31] CHIEW K L, CHANG E H, TIONG W K. Utilisation of website logo for phishing detection[J]. Computers & Security, 2015, 54: 16-26.
[32] GENG G G, LEE X D, ZHANG Y M. Combating phishing attacks via brand identity and authorization features[J]. Security and Communication Networks, 2015, 8(6): 888-898.
[33] 胡向東,劉可,張峰,等. 基于頁(yè)面敏感特征的金融類釣魚網(wǎng)頁(yè)檢測(cè)方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2016,2(2): 31-38.
HU X D, LIU K, ZHANG F, et al. Methods of Financial fishing Web test based on page sensitive characteristics[J]. Chinese Journal of Network and Information Security, 2016, 2(2): 35-42.
[34] GENG G G, LEE X D, WANG W, et al. Favicon-a clue to phishing sites detection[C]//eCrime Researchers Summit (eCRS). 2013: 1-10.
[35] PAN Y, DING X. Anomaly based web phishing page detection[C]// Computer Security Applications Conference. 2006: 381-392.
[36] ALKHOZAE M G, BATARFI O A. Phishing websites detection based on phishing characteristics in the webpage source code[J]. International Journal of Information and Communication Technology Research, 2011, 1(6).
[37] WENYIN L, HUANG G, XIAOYUE L, et al. Detection of phishing webpages based on visual similarity[C]//Special Interest Tracks and Posters of the 14th International Conference on World Wide Web. 2005: 1060-1061.
[38] WENYIN L, HUANG G, XIAOYUE L, et al. Phishing Web page detection[C]//Document Analysis and Recognition.2005: 560-564.
[39] 張衛(wèi)豐, 周毓明, 許蕾, 等. 基于匈牙利匹配算法的釣魚網(wǎng)頁(yè)檢測(cè)方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010,(10): 1963-1975.
ZHANG W F, ZHOU Y M, XU L, et al. Financial fishing Web test based on Hungarian matching algorithm[J]. Chinese Journal of Computers, 2010(10): 1963-1975.
[40] 鄒學(xué)強(qiáng), 張鵬, 黃彩云, 等. 基于頁(yè)面布局相似性的釣魚網(wǎng)頁(yè)發(fā)現(xiàn)方法[J]. 通信學(xué)報(bào),2016(S1):116-124.
ZOU X Q, ZHANG P,HUANG C Y, et al. Detecting methods of phshing Web based on the page layout[J].Journal on Comunications,2016(S1):116-124.
[41] FU A Y, WENYIN L, DENG X. Detecting phishing Web pages with visual similarity assessment based on earth mover's distance (EMD)[J]. IEEE transactions on dependable and secure computing, 2006, 3(4).
[42] 曹玖新, 毛波, 羅軍舟, 等. 基于嵌套EMD的釣魚網(wǎng)頁(yè)檢測(cè)算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2009, (5): 922-929.
CAO J X, MAO B, LUO J Z, et al. Financial fishing Web test based on nesting EMD[J]. Journal of Computers, 2009 (5): 922-929.
[43] TAN C L, CHIEW K L. Phishing website detection using URL-assisted brand name weighting system[C]//Intelligent Signal Processing and Communication Systems (ISPACS).2014: 54-59.
[44] ZHANG Y, HONG J I, CRANOR L F. Cantina: a content-based approach to detecting phishing web sites[C]//The 16th International Conference on World Wide Web.2007:639–648.
[45] YAN Z, LIU S, WANG T, et al. A genetic algorithm based model for chinese phishing e-commerce websites detection[C]//The International Conference on HCI in Business, Government and Organizations. 2016: 270-279.
[46] 趙加林. 基于K-Means和SVM的流行中文釣魚網(wǎng)站識(shí)別研究[J]. 軟件導(dǎo)刊, 2016(4):176-178.
ZHAO J L. Study of popular Chinese phshing site identification based on K-Means and SVM[J].Software Guide, 2016(4): 176-178.
[47] ZHANG W, JIANG Q, CHEN L, et al. Two-stage ELM for phishing Web pages detection using hybrid features[J]. World Wide Web, 2016: 1-17.
[48] 徐歡瀟, 徐慧, 雷麗婷. 多特征分類識(shí)別算法融合的網(wǎng)絡(luò)釣魚識(shí)別技術(shù)[J]. 計(jì)算機(jī)應(yīng)用研究, 2017(4) :1129-1132.
XU H X, XU H, LEI L T. Phishing identification technology with multiple feature classification recognition algorithm[J].Application Research of Computers,2017(4):1129-1132.
[49] PhishTank[EB/OL]. http://www.phishtank.com/.
[50] Millersmiles[EB/OL]. http://www.millersmiles.co.uk/.
[51] Spamassassin public corpus[EB/OL]. http://spamassassin.apache.org/ publiccorpus/.
[52] MalwarePatrol[EB/OL]. http://www.malwarepatrol.com/.
[53] Open directory[EB/OL]. http://www.dmoz.org/.
[54] Open directory project[EB/OL]. https://zh.wikipedia.org/wiki/.
[55] ABU-NIMEH S, NAPPA D, WANG X, et al. A comparison of machine learning techniques for phishing detection[C]//The anti-phishing working groups 2nd annual eCrime researchers summit.2007: 60-69.
[56] Spamhaus[EB/OL]. https://www.spamhaus.org/.
[57] SURBL[EB/OL]. http://www.surbl.org/lists.
[58] Google safe browsing api[EB/OL]. https://www.google.com/trans- parencyreport/safebrowsing/.
[59] PRAKASH P, KUMAR M, KOMPELLA R R, et al. Phishnet: predictive blacklisting to detect phishing attacks[C]//INFOCOM. 2010: 1-5.
[60] FELEGYHAZI M, KREIBICH C, PAXSON V. On the potential of proactive domain blacklisting[J]. LEET, 2010, 10: 6.
[61] KHONJI M, IRAQI Y, JONES A. Phishing detection: a literature survey[J]. IEEE Communications Surveys & Tutorials, 2013, 15(4): 2091-2121.
[62] SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists[C]//The 6th Conference on Email and Anti-Spam (CEAS). 2009.
[63] FLORêNCIO D, HERLEY C. Analysis and improvement of anti-phishing schemes[C]//IFIP International Information Security Conference. 2006: 148-157.
[64] LIN I C, CHI Y L, CHUANG H C, et al. The novel features for phishing based on user device detection[J]. JCP, 2016, 11(2): 109-115.
[65] JAIN A K, GUPTA B B. Phishing detection: analysis of visual similarity based approaches[J]. Security and Communication Networks, 2017(4):1-20.
[66] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[67] PLATT J C. 12 fast training of support vector machines using sequential minimal optimization[J]. Advances in Kernel Methods, 1999: 185-208.
[68] QUINLAN J R. C4. 5: programs for machine learning[M]. Elsevier, 2014.
[69] JOHN G H, LANGLEY P. Estimating continuous distributions in Bayesian classifiers[C]//The Eleventh Conference on Uncertainty in Artificial Intelligence.1995: 338-345.
[70] ABU-NIMEH S, NAPPA D, WANG X, et al. A comparison of machine learning techniques for phishing detection[C]//The anti-phishing Working Groups 2nd Annual eCrime Researchers Summit. 2007: 60-69.
[71] XIANG G, HONG J, ROSE C P, et al. Cantina+: A feature-rich machine learning framework for detecting phishing Web sites[J]. ACM Transactions on Information and System Security (TISSEC), 2011, 14(2): 21.
[72] MOGHIMI M, VARJANI A Y. New rule-based phishing detection method[J]. Expert Systems with Applications, 2016, 53: 231-242.
[73] LIU G, QIU B, WENYIN L. Automatic detection of phishing target from phishing webpage[C]//The 20th International Conference on Pattern Recognition (ICPR). 2010: 4153-4156.
[74] VERMA R, SHASHIDHAR N, HOSSAIN N. Detecting phishing emails the natural language way[C]//European Symposium on Research in Computer Security. 2012: 824-841.
[75] MICRO T. Mobile phishing: a problem on the horizon[EB/OL]. https://www.yumpu.com/en/document/view/10210640/rpt-monthly-mobile-review-201302-mobile-phishing-a-problem-on-the-horizon.
[76] JEONG S Y, KOH Y S, DOBBIE G. Phishing detection on Twitter streams[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2016: 141-153.
[77] ALBANESIUS C. Gaming apps increase spam, phishing by 50 percent[EB/OL]. http://www.pcmag.com/article2/0,2817,2362134,00. asp, 2010.
[78] VIDAS T, OWUSU E, WANG S, et al. QRishing: the susceptibility of smartphone users to QR code phishing attacks[C]//The International Conference on Financial Cryptography and Data Security. 2013: 52-69.
[79] SARIKA S, PAUL V. Parallel phishing attack recognition using software agents[J]. Journal of Intelligent & Fuzzy Systems, 2017, 32(5): 3273-3284.
[80] CHHABRA S, AGGARWAL A, BENEVENUTO F, et al. Phi. sh/$ ocial: the phishing landscape through short urls[C]//The 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference. 2011: 92-101.
[81] 沙泓州, 劉慶云, 柳廳文, 等. 惡意網(wǎng)頁(yè)識(shí)別研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào)2016(3):529-542.
SHA H Z,LIU Q Y,LIU T W,et al. Review of malicious Web recognition[J]. Journal of Computers,2016(3): 529-542.
Research of phishing detection technology
ZHANG Xi1,2,3, YAN Zhi-wei3, LI Hong-tao3, GENG Guang-gang3
(1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. National Engineering Laboratory for Internet Domain Name Management, China Internet Network Information Center, Beijing 100190, China)
The current status of phishing scams were analyzed and the data sets and evaluation indicators commonly used in phishing detection were summaried. On this basis, a detailed overview of the typical methods of phishing detection was given, which included blacklist strategies, heuristic methods, visual matching methods, and methods based on machine learning and natural language processing. The comparison and analysis of those methods were given, and furtherly, the challenges and future trends of phishing detection were discussed.
phishing fraud, phishing detection, machine learning,visual matching
The National Natural Science Foundation of China (No.61375039)
TP393
A
10.11959/j.issn.2096-109x.2017.00180
張茜(1994-),女,河南杞縣人,中國(guó)科學(xué)院大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)應(yīng)用與安全、下一代互聯(lián)網(wǎng)技術(shù)。
延志偉(1985-),男,山西興縣人,博士,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心副研究員,主要研究方向?yàn)镮Pv6移動(dòng)性管理、BGP安全機(jī)制、信息中心網(wǎng)絡(luò)架構(gòu)。
李洪濤(1977-),男,河北保定人,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心高級(jí)工程師、總工程師,主要研究方向?yàn)镮Pv6、網(wǎng)絡(luò)安全、大數(shù)據(jù)。
耿光剛(1980-),男,山東泰安人,博士,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心研究員,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)分析和互聯(lián)網(wǎng)基礎(chǔ)資源安全。
2017-06-13;
2017-07-05。
耿光剛,gengguanggang@cnnic.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61375039)
注1 數(shù)據(jù)來(lái)自APWG 發(fā)布的報(bào)告。
注2 數(shù)據(jù)來(lái)自Web of science 檢索結(jié)果。
注3 攻擊者利用“人”自身的弱點(diǎn)(往往是心理學(xué)層面)來(lái)獲取信息、影響他人,從而達(dá)到不可告人的目的。
注4 存放資源的服務(wù)器的域名系統(tǒng)(DNS)主機(jī)名或IP地址。
注5 由零或多個(gè)“/”隔開的字符串,一般用來(lái)表示主機(jī)上的一個(gè)目錄或文件地址。
注6 WHOIS是用來(lái)查詢域名的IP以及所有者等信息的傳輸協(xié)議。
注7 超文本標(biāo)記語(yǔ)言,是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的一個(gè)應(yīng)用,它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分。
注8 證書撤銷列表是在其計(jì)劃的到期日期前被證書頒發(fā)機(jī)構(gòu)(CA)撤銷并且不再受到信任的數(shù)字證書的列表。
注9 WordNet是一個(gè)包含語(yǔ)義信息的英文字典,它根據(jù)詞條的意義將它們分組,每一個(gè)具有相同意義的詞條組稱為一個(gè)synset(同義詞集合)。WordNet為每一個(gè)synset提供了簡(jiǎn)短、概要的定義,并記錄不同synset 之間的語(yǔ)義關(guān)系。http://wordnet.princeton.edu。
網(wǎng)絡(luò)與信息安全學(xué)報(bào)2017年7期