藺亞東
(武漢郵科院,湖北,430074)
本文提出的檢測方法是通過結(jié)合域名分割和二元組匹配,對(duì)URL的域名相似度進(jìn)行初步判斷,然后通過對(duì)URL的分析和分割提取出單詞特征,再對(duì)其進(jìn)行分類進(jìn)行進(jìn)一步判斷。實(shí)驗(yàn)表明該方法有較高的釣魚網(wǎng)站的檢測成功率。
基于URL黑名單檢測技術(shù)是當(dāng)前比較流行的技術(shù),它利用URL地址判斷URL是否為釣魚網(wǎng)站。該方法主要通過定期收集已經(jīng)發(fā)現(xiàn)的釣魚網(wǎng)站將其作為黑名單和當(dāng)前URL進(jìn)行判斷,當(dāng)瀏覽器遇到這些地址時(shí)會(huì)提醒用戶該地址為非法釣魚網(wǎng)站。Microsoft IE、Google Safe Browser等知名企業(yè)采用黑名單檢測技術(shù)防御釣魚網(wǎng)站。通過兩周內(nèi)收集1000條URL,測試發(fā)現(xiàn)谷歌安全瀏覽器可檢測89%的釣魚URL地址。基于URL的黑名單檢測技術(shù)的安全性更加依賴于防御工具中黑名單的更新速度,Sheng等人對(duì)黑名單的更新速度進(jìn)行過測試,發(fā)現(xiàn)小于20%的防御工具可在短時(shí)間(hour zero)識(shí)別。
基于機(jī)器學(xué)習(xí)的檢測是直接利用URL檢測釣魚網(wǎng)站,當(dāng)前比較流行的為Garera算法和Ma算法,Garera算法是利用回歸濾波器分類URL。經(jīng)過對(duì)URL的分析,得出其結(jié)構(gòu)特征。主要分為頁面特征,域名特征,類型特征和單詞特征。頁面特征借助谷歌搜索引擎,選取URL 頁面排名(Page Rank of URL)、域名頁面排名(Page Rank of Host)、頁面排名存在爬行數(shù)據(jù)庫(PageRank Present in Crawl Database)、頁面存在索引數(shù)據(jù)庫(Page Present in Index)、兩個(gè)頁面質(zhì)量評(píng)價(jià)(Page Quality Score)共6個(gè)特征。Ma算法與Garera算法不同的是,其分析URL的詞匯和主機(jī)屬性。在詞匯特征中,不僅考慮了主機(jī)名長度、URL長度、URL中點(diǎn)的個(gè)數(shù)等,而且對(duì)于URL主機(jī)和路徑中的詞匯符號(hào),建立一個(gè)二值特征。并且在主機(jī)特征中考慮了IP地址屬性、WHOIS屬性、域名屬性和地理位置屬性。
(1)基于域名分割(DS)的相似度判斷
當(dāng)前釣魚網(wǎng)站多以銀行或者知名企業(yè)機(jī)構(gòu)的域名進(jìn)行改變從而來蒙蔽用戶。例如中國農(nóng)業(yè)銀行www.abchina.com.cn,它的一個(gè)釣魚網(wǎng)站就是www.abch1na.com.cn。通過對(duì)二者的近似度進(jìn)行判斷可對(duì)釣魚網(wǎng)站的發(fā)現(xiàn)有作用。首先我們對(duì)網(wǎng)站進(jìn)行分割就是通過.進(jìn)行域名分割。如www.abcchina.com.cn分割的4個(gè)部分為“www”,“abcchina”,“com”,“cn”。然后我們對(duì)每一個(gè)部分進(jìn)行相似度匹配。具體匹配原則為看域名的長度是否一致,然后將每個(gè)部分的相似度相加,和分割成的部分越接近說明相似度越高。這種計(jì)算方式,一個(gè)域名可能會(huì)發(fā)現(xiàn)大量的相似域名,例如對(duì)于www.abcchina.com.c,www.abcch1na.com.cn和www.abscssna.com.cn的相似度一樣,然而這只是個(gè)初步判斷。
(2)基于二元組字符串匹配的相似度判斷
步驟1)分別提取出最低一級(jí)的域名,如www.abcchina.com.cn其最低一級(jí)域名為abcchina。待測試域名www.abcch1na.com.cn的為abccch1na。2)對(duì)abcchina和abcch1na進(jìn)行二元組匹配。具體操作為首先建立一個(gè)字符串組D={a,b,c,c,h,i,n,a};l為字符串長度。其二元組集合為E={且為整數(shù)}.定義M為集合E中元素的數(shù)量,.同法可得出abcch1na的二元組,二者的集合數(shù)量相同。對(duì)二元組的單個(gè)元素進(jìn)行字符串匹配。定義可同過下式計(jì)算其歸一化匹配相似度:
由式一可知道值S越接近1表示其二者相似度越高,該文中相似度閾值設(shè)置為0.80.該算法的流程圖可用下圖表示:
本文使用SVM實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)方式的釣魚URL 探測。SVM分為線性和非線性系統(tǒng),本文采用的是線性系統(tǒng)。有n個(gè)訓(xùn)練數(shù)據(jù)記錄的訓(xùn)練集T定義為:;其中訓(xùn)練數(shù)據(jù)是屬于實(shí)數(shù)域的m維向量是分類標(biāo)記
SVM 分類器的詳細(xì)分類總結(jié)及描述見文獻(xiàn)[9]。使用SVM 的一個(gè)較為關(guān)鍵問題是如何定義特征。
本文的分類特征有兩類一類為固定的特征類,另外一類為與測試信息有關(guān)。這兩類特征具體為:
(1)為由分析釣魚網(wǎng)站得出其特征 ,其具體步驟:1.獲取大量釣魚網(wǎng)站URL作為測試樣本。2.抽取URL特征。3.在抽取完特征值后生成訓(xùn)練樣本,對(duì)SVM進(jìn)行訓(xùn)練。4.生成判別的特征向量,用SVM 進(jìn)行分類檢測,以最終判斷是否為釣魚網(wǎng)站的URL地址。
通過分析URL和參考文獻(xiàn)[7]的基礎(chǔ)上得出九種單詞特征的特征向量DV:
圖一 基于二元組匹配算法的流程圖
圖二 SVM學(xué)習(xí)流程圖
DV=<D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,D11,D12>;其中前九種為單詞特征后三種為結(jié)構(gòu)特征。D1:URL中存在bank,D2:URL中存在sign,D3:URL中存在ebay,D4:URL中存在webscr,D5:UR中存在confirm,D6中存在account,D7中存在secure,D8中存在eBay,D9中存在user,對(duì)于字符特征可用公示統(tǒng)一表示:
w∈{bank,sign,webscr,confirm,account,eBay,user}
后三種結(jié)構(gòu)特征為D10:URL為IP地址,D11:URL長度超過20個(gè)字符,D12:URL中域名長度不超過7個(gè)字符。具體表示如下:
特征提取算法利用java編程實(shí)現(xiàn),分類算法利用libSVM。當(dāng)輸入為http://www.baidu.com 時(shí),因?yàn)榘俣染W(wǎng)址為非釣魚網(wǎng)站,所以抽取的特征向量全為0。當(dāng)輸入的地址為http://210.80.154.30/ 的時(shí)候特征向量中第一個(gè)值為1。
(2) URL分割特征(US)
對(duì)整個(gè)URL先通過“/”分割為字符串,去掉無用信息的字符串。如“http”。然后對(duì)剩余的字符串進(jìn)行統(tǒng)計(jì)分析。對(duì)于剩下的 URL字串使用分割符合集合{“.”,“?”,“#”,“%”,“&”“=”}進(jìn)行分割,從而得到更小的分割單元。如對(duì)www.wamuweb.com/indeity/html?r=4進(jìn)行分割,其結(jié)果為“www”,“wamuweb”,“com”,“indeity”,“html”,“r”“4”。
實(shí)驗(yàn)所用釣魚URL數(shù)據(jù)來自安全聯(lián)盟共計(jì)4000,正常URL來自12580網(wǎng)站目錄收集共計(jì)4000。通過編寫爬蟲程序,將網(wǎng)站中URL信息提取出來。本文采用LIBLINEAR分類器實(shí)現(xiàn)釣魚URL探測。圖三為僅采用單詞特征和采用單詞特征與URL分割二者結(jié)合后釣魚網(wǎng)站探測的成功率對(duì)比圖。其中X坐標(biāo)代表準(zhǔn)確率,Y坐標(biāo)代表測試中URL個(gè)數(shù)。由圖可知采用WM+US的探測準(zhǔn)確率高于只采用WM的方法。
由圖可知準(zhǔn)確率隨著數(shù)據(jù)量的增加并沒有增加,原因可能是訓(xùn)練中能區(qū)分URL分割特征比較稀疏。當(dāng)然URL中其他信息如同地址對(duì)應(yīng)的IP信息,WHOIS信息對(duì)釣魚網(wǎng)站的成功探測都有一定作用。對(duì)于這些信息,當(dāng)數(shù)據(jù)量過大時(shí),提取這些信息將耗費(fèi)更大的時(shí)間,尤其是WHOIS信息,其需從WHOIS服務(wù)器獲得。通過本文提出的方法可以對(duì)其進(jìn)行有效的補(bǔ)充,對(duì)釣魚網(wǎng)站能更高效的進(jìn)行探測。
圖三 準(zhǔn)確率對(duì)比圖
網(wǎng)絡(luò)釣魚不僅給網(wǎng)民帶來經(jīng)濟(jì)損失,更阻礙著互聯(lián)網(wǎng)更深的發(fā)展。防御網(wǎng)絡(luò)釣魚是當(dāng)前形勢(shì)的需要。本文首先介紹了基于域名相似度的初步判斷方法,篩選出相似地址,這些相似的域名可能是潛在的釣魚域名。然后分析釣魚網(wǎng)站URL 地址的結(jié)構(gòu)和詞匯特征,構(gòu)建12個(gè)特征的特征向量,在通過URL分割提取出其分割后特征來訓(xùn)練向量機(jī)。實(shí)驗(yàn)結(jié)果表明使用這兩種特征訓(xùn)練學(xué)習(xí)器獲得了最佳結(jié)果。
[1]Tyler Moore,Richard Clayton.The Impact of Incentives on Notice and Take-down[C].In Proc.of the 7th Workshop on the Economics of Information Security,New Hampshire USA,June 25-28 2007:1-24.
[2]Anti-Phishing Working Group[EB/OL].http://www.antiphishing.org,2008-01/2011-12-15.
[3]Phish Tank[EB/OL].http://www.phishtank.com,2011-04/2011-12-15.
[4]Engine Kirda,Christopher Kruegel.Protecting Users against Phishing Attacks[J].The Computer Journal,2006,49(05):554-561.
[5]Ian Fette,Norman Sadeh,Anthony Tomasic.Learning to Detec Phishing Emails[C].In Proc.of the WWW 2007,Alberta,Canada,May 8-12,2007:649-656.