亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于URL特征的釣魚網(wǎng)站檢測方式

2014-11-15 02:07:58藺亞東

電子測試 2014年3期

藺亞東

（武漢郵科院，湖北，430074）

0 引言

本文提出的檢測方法是通過結(jié)合域名分割和二元組匹配，對(duì)URL的域名相似度進(jìn)行初步判斷，然后通過對(duì)URL的分析和分割提取出單詞特征，再對(duì)其進(jìn)行分類進(jìn)行進(jìn)一步判斷。實(shí)驗(yàn)表明該方法有較高的釣魚網(wǎng)站的檢測成功率。

1 相關(guān)技術(shù)研究

1.1 基于URL黑名單檢測技術(shù)

基于URL黑名單檢測技術(shù)是當(dāng)前比較流行的技術(shù)，它利用URL地址判斷URL是否為釣魚網(wǎng)站。該方法主要通過定期收集已經(jīng)發(fā)現(xiàn)的釣魚網(wǎng)站將其作為黑名單和當(dāng)前URL進(jìn)行判斷，當(dāng)瀏覽器遇到這些地址時(shí)會(huì)提醒用戶該地址為非法釣魚網(wǎng)站。Microsoft IE、Google Safe Browser等知名企業(yè)采用黑名單檢測技術(shù)防御釣魚網(wǎng)站。通過兩周內(nèi)收集1000條URL，測試發(fā)現(xiàn)谷歌安全瀏覽器可檢測89%的釣魚URL地址。基于URL的黑名單檢測技術(shù)的安全性更加依賴于防御工具中黑名單的更新速度，Sheng等人對(duì)黑名單的更新速度進(jìn)行過測試，發(fā)現(xiàn)小于20%的防御工具可在短時(shí)間（hour zero）識(shí)別。

1.2 基于機(jī)器學(xué)習(xí)的檢測

基于機(jī)器學(xué)習(xí)的檢測是直接利用URL檢測釣魚網(wǎng)站，當(dāng)前比較流行的為Garera算法和Ma算法，Garera算法是利用回歸濾波器分類URL。經(jīng)過對(duì)URL的分析，得出其結(jié)構(gòu)特征。主要分為頁面特征，域名特征，類型特征和單詞特征。頁面特征借助谷歌搜索引擎，選取URL 頁面排名（Page Rank of URL）、域名頁面排名（Page Rank of Host）、頁面排名存在爬行數(shù)據(jù)庫（PageRank Present in Crawl Database）、頁面存在索引數(shù)據(jù)庫（Page Present in Index）、兩個(gè)頁面質(zhì)量評(píng)價(jià)（Page Quality Score）共6個(gè)特征。Ma算法與Garera算法不同的是，其分析URL的詞匯和主機(jī)屬性。在詞匯特征中，不僅考慮了主機(jī)名長度、URL長度、URL中點(diǎn)的個(gè)數(shù)等，而且對(duì)于URL主機(jī)和路徑中的詞匯符號(hào)，建立一個(gè)二值特征。并且在主機(jī)特征中考慮了IP地址屬性、WHOIS屬性、域名屬性和地理位置屬性。

2 基于URL特征的檢測方法

2.1 釣魚URL中相似域名的判斷

（1）基于域名分割（DS）的相似度判斷

當(dāng)前釣魚網(wǎng)站多以銀行或者知名企業(yè)機(jī)構(gòu)的域名進(jìn)行改變從而來蒙蔽用戶。例如中國農(nóng)業(yè)銀行www.abchina.com.cn，它的一個(gè)釣魚網(wǎng)站就是www.abch1na.com.cn。通過對(duì)二者的近似度進(jìn)行判斷可對(duì)釣魚網(wǎng)站的發(fā)現(xiàn)有作用。首先我們對(duì)網(wǎng)站進(jìn)行分割就是通過.進(jìn)行域名分割。如www.abcchina.com.cn分割的4個(gè)部分為“www”,“abcchina”,“com”,“cn”。然后我們對(duì)每一個(gè)部分進(jìn)行相似度匹配。具體匹配原則為看域名的長度是否一致，然后將每個(gè)部分的相似度相加，和分割成的部分越接近說明相似度越高。這種計(jì)算方式，一個(gè)域名可能會(huì)發(fā)現(xiàn)大量的相似域名，例如對(duì)于www.abcchina.com.c,www.abcch1na.com.cn和www.abscssna.com.cn的相似度一樣，然而這只是個(gè)初步判斷。

（2）基于二元組字符串匹配的相似度判斷

步驟1）分別提取出最低一級(jí)的域名，如www.abcchina.com.cn其最低一級(jí)域名為abcchina。待測試域名www.abcch1na.com.cn的為abccch1na。2）對(duì)abcchina和abcch1na進(jìn)行二元組匹配。具體操作為首先建立一個(gè)字符串組D={a,b,c,c,h,i,n,a};l為字符串長度。其二元組集合為E={且為整數(shù)}.定義M為集合E中元素的數(shù)量，.同法可得出abcch1na的二元組，二者的集合數(shù)量相同。對(duì)二元組的單個(gè)元素進(jìn)行字符串匹配。定義可同過下式計(jì)算其歸一化匹配相似度：

由式一可知道值S越接近1表示其二者相似度越高，該文中相似度閾值設(shè)置為0.80.該算法的流程圖可用下圖表示：

2.2 釣魚網(wǎng)站探測

本文使用SVM實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)方式的釣魚URL 探測。SVM分為線性和非線性系統(tǒng)，本文采用的是線性系統(tǒng)。有n個(gè)訓(xùn)練數(shù)據(jù)記錄的訓(xùn)練集T定義為：;其中訓(xùn)練數(shù)據(jù)是屬于實(shí)數(shù)域的m維向量是分類標(biāo)記

SVM 分類器的詳細(xì)分類總結(jié)及描述見文獻(xiàn)[9]。使用SVM 的一個(gè)較為關(guān)鍵問題是如何定義特征。

本文的分類特征有兩類一類為固定的特征類，另外一類為與測試信息有關(guān)。這兩類特征具體為：

（1）為由分析釣魚網(wǎng)站得出其特征，其具體步驟:1.獲取大量釣魚網(wǎng)站URL作為測試樣本。2.抽取URL特征。3.在抽取完特征值后生成訓(xùn)練樣本，對(duì)SVM進(jìn)行訓(xùn)練。4.生成判別的特征向量，用SVM 進(jìn)行分類檢測，以最終判斷是否為釣魚網(wǎng)站的URL地址。

通過分析URL和參考文獻(xiàn)[7]的基礎(chǔ)上得出九種單詞特征的特征向量DV:

圖一基于二元組匹配算法的流程圖

圖二 SVM學(xué)習(xí)流程圖

DV=＜D1，D2，D3，D4，D5，D6，D7，D8，D9，D10，D11，D12＞;其中前九種為單詞特征后三種為結(jié)構(gòu)特征。D1：URL中存在bank，D2：URL中存在sign，D3：URL中存在ebay,D4:URL中存在webscr,D5:UR中存在confirm，D6中存在account，D7中存在secure，D8中存在eBay，D9中存在user，對(duì)于字符特征可用公示統(tǒng)一表示：

w∈{bank,sign,webscr,confirm,account,eBay,user}

后三種結(jié)構(gòu)特征為D10：URL為IP地址，D11：URL長度超過20個(gè)字符，D12：URL中域名長度不超過7個(gè)字符。具體表示如下：

特征提取算法利用java編程實(shí)現(xiàn)，分類算法利用libSVM。當(dāng)輸入為http://www.baidu.com 時(shí)，因?yàn)榘俣染W(wǎng)址為非釣魚網(wǎng)站，所以抽取的特征向量全為0。當(dāng)輸入的地址為http://210.80.154.30/ 的時(shí)候特征向量中第一個(gè)值為1。

(2) URL分割特征（US）

對(duì)整個(gè)URL先通過“/”分割為字符串，去掉無用信息的字符串。如“http”。然后對(duì)剩余的字符串進(jìn)行統(tǒng)計(jì)分析。對(duì)于剩下的 URL字串使用分割符合集合{“.”，“?”，“#”，“%”，“&”“=”}進(jìn)行分割，從而得到更小的分割單元。如對(duì)www.wamuweb.com/indeity/html?r=4進(jìn)行分割，其結(jié)果為“www”，“wamuweb”，“com”，“indeity”，“html”，“r”“4”。

3 結(jié)果分析

實(shí)驗(yàn)所用釣魚URL數(shù)據(jù)來自安全聯(lián)盟共計(jì)4000，正常URL來自12580網(wǎng)站目錄收集共計(jì)4000。通過編寫爬蟲程序，將網(wǎng)站中URL信息提取出來。本文采用LIBLINEAR分類器實(shí)現(xiàn)釣魚URL探測。圖三為僅采用單詞特征和采用單詞特征與URL分割二者結(jié)合后釣魚網(wǎng)站探測的成功率對(duì)比圖。其中X坐標(biāo)代表準(zhǔn)確率，Y坐標(biāo)代表測試中URL個(gè)數(shù)。由圖可知采用WM+US的探測準(zhǔn)確率高于只采用WM的方法。

由圖可知準(zhǔn)確率隨著數(shù)據(jù)量的增加并沒有增加，原因可能是訓(xùn)練中能區(qū)分URL分割特征比較稀疏。當(dāng)然URL中其他信息如同地址對(duì)應(yīng)的IP信息，WHOIS信息對(duì)釣魚網(wǎng)站的成功探測都有一定作用。對(duì)于這些信息，當(dāng)數(shù)據(jù)量過大時(shí)，提取這些信息將耗費(fèi)更大的時(shí)間，尤其是WHOIS信息，其需從WHOIS服務(wù)器獲得。通過本文提出的方法可以對(duì)其進(jìn)行有效的補(bǔ)充，對(duì)釣魚網(wǎng)站能更高效的進(jìn)行探測。

圖三準(zhǔn)確率對(duì)比圖

4 結(jié)束語

網(wǎng)絡(luò)釣魚不僅給網(wǎng)民帶來經(jīng)濟(jì)損失，更阻礙著互聯(lián)網(wǎng)更深的發(fā)展。防御網(wǎng)絡(luò)釣魚是當(dāng)前形勢(shì)的需要。本文首先介紹了基于域名相似度的初步判斷方法，篩選出相似地址，這些相似的域名可能是潛在的釣魚域名。然后分析釣魚網(wǎng)站URL 地址的結(jié)構(gòu)和詞匯特征，構(gòu)建12個(gè)特征的特征向量，在通過URL分割提取出其分割后特征來訓(xùn)練向量機(jī)。實(shí)驗(yàn)結(jié)果表明使用這兩種特征訓(xùn)練學(xué)習(xí)器獲得了最佳結(jié)果。

[1]Tyler Moore,Richard Clayton.The Impact of Incentives on Notice and Take-down[C].In Proc.of the 7th Workshop on the Economics of Information Security,New Hampshire USA,June 25-28 2007:1-24.

[2]Anti-Phishing Working Group[EB/OL].http://www.antiphishing.org,2008-01/2011-12-15.

[3]Phish Tank[EB/OL].http://www.phishtank.com,2011-04/2011-12-15.

[4]Engine Kirda,Christopher Kruegel.Protecting Users against Phishing Attacks[J].The Computer Journal,2006,49(05):554-561.

[5]Ian Fette,Norman Sadeh,Anthony Tomasic.Learning to Detec Phishing Emails[C].In Proc.of the WWW 2007,Alberta,Canada,May 8-12,2007:649-656.