亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于URL特征的釣魚網(wǎng)站檢測方式

        2014-11-15 02:07:58藺亞東
        電子測試 2014年3期
        關(guān)鍵詞:域名黑名單特征向量

        藺亞東

        (武漢郵科院,湖北,430074)

        0 引言

        本文提出的檢測方法是通過結(jié)合域名分割和二元組匹配,對(duì)URL的域名相似度進(jìn)行初步判斷,然后通過對(duì)URL的分析和分割提取出單詞特征,再對(duì)其進(jìn)行分類進(jìn)行進(jìn)一步判斷。實(shí)驗(yàn)表明該方法有較高的釣魚網(wǎng)站的檢測成功率。

        1 相關(guān)技術(shù)研究

        1.1 基于URL黑名單檢測技術(shù)

        基于URL黑名單檢測技術(shù)是當(dāng)前比較流行的技術(shù),它利用URL地址判斷URL是否為釣魚網(wǎng)站。該方法主要通過定期收集已經(jīng)發(fā)現(xiàn)的釣魚網(wǎng)站將其作為黑名單和當(dāng)前URL進(jìn)行判斷,當(dāng)瀏覽器遇到這些地址時(shí)會(huì)提醒用戶該地址為非法釣魚網(wǎng)站。Microsoft IE、Google Safe Browser等知名企業(yè)采用黑名單檢測技術(shù)防御釣魚網(wǎng)站。通過兩周內(nèi)收集1000條URL,測試發(fā)現(xiàn)谷歌安全瀏覽器可檢測89%的釣魚URL地址。基于URL的黑名單檢測技術(shù)的安全性更加依賴于防御工具中黑名單的更新速度,Sheng等人對(duì)黑名單的更新速度進(jìn)行過測試,發(fā)現(xiàn)小于20%的防御工具可在短時(shí)間(hour zero)識(shí)別。

        1.2 基于機(jī)器學(xué)習(xí)的檢測

        基于機(jī)器學(xué)習(xí)的檢測是直接利用URL檢測釣魚網(wǎng)站,當(dāng)前比較流行的為Garera算法和Ma算法,Garera算法是利用回歸濾波器分類URL。經(jīng)過對(duì)URL的分析,得出其結(jié)構(gòu)特征。主要分為頁面特征,域名特征,類型特征和單詞特征。頁面特征借助谷歌搜索引擎,選取URL 頁面排名(Page Rank of URL)、域名頁面排名(Page Rank of Host)、頁面排名存在爬行數(shù)據(jù)庫(PageRank Present in Crawl Database)、頁面存在索引數(shù)據(jù)庫(Page Present in Index)、兩個(gè)頁面質(zhì)量評(píng)價(jià)(Page Quality Score)共6個(gè)特征。Ma算法與Garera算法不同的是,其分析URL的詞匯和主機(jī)屬性。在詞匯特征中,不僅考慮了主機(jī)名長度、URL長度、URL中點(diǎn)的個(gè)數(shù)等,而且對(duì)于URL主機(jī)和路徑中的詞匯符號(hào),建立一個(gè)二值特征。并且在主機(jī)特征中考慮了IP地址屬性、WHOIS屬性、域名屬性和地理位置屬性。

        2 基于URL特征的檢測方法

        2.1 釣魚URL中相似域名的判斷

        (1)基于域名分割(DS)的相似度判斷

        當(dāng)前釣魚網(wǎng)站多以銀行或者知名企業(yè)機(jī)構(gòu)的域名進(jìn)行改變從而來蒙蔽用戶。例如中國農(nóng)業(yè)銀行www.abchina.com.cn,它的一個(gè)釣魚網(wǎng)站就是www.abch1na.com.cn。通過對(duì)二者的近似度進(jìn)行判斷可對(duì)釣魚網(wǎng)站的發(fā)現(xiàn)有作用。首先我們對(duì)網(wǎng)站進(jìn)行分割就是通過.進(jìn)行域名分割。如www.abcchina.com.cn分割的4個(gè)部分為“www”,“abcchina”,“com”,“cn”。然后我們對(duì)每一個(gè)部分進(jìn)行相似度匹配。具體匹配原則為看域名的長度是否一致,然后將每個(gè)部分的相似度相加,和分割成的部分越接近說明相似度越高。這種計(jì)算方式,一個(gè)域名可能會(huì)發(fā)現(xiàn)大量的相似域名,例如對(duì)于www.abcchina.com.c,www.abcch1na.com.cn和www.abscssna.com.cn的相似度一樣,然而這只是個(gè)初步判斷。

        (2)基于二元組字符串匹配的相似度判斷

        步驟1)分別提取出最低一級(jí)的域名,如www.abcchina.com.cn其最低一級(jí)域名為abcchina。待測試域名www.abcch1na.com.cn的為abccch1na。2)對(duì)abcchina和abcch1na進(jìn)行二元組匹配。具體操作為首先建立一個(gè)字符串組D={a,b,c,c,h,i,n,a};l為字符串長度。其二元組集合為E={且為整數(shù)}.定義M為集合E中元素的數(shù)量,.同法可得出abcch1na的二元組,二者的集合數(shù)量相同。對(duì)二元組的單個(gè)元素進(jìn)行字符串匹配。定義可同過下式計(jì)算其歸一化匹配相似度:

        由式一可知道值S越接近1表示其二者相似度越高,該文中相似度閾值設(shè)置為0.80.該算法的流程圖可用下圖表示:

        2.2 釣魚網(wǎng)站探測

        本文使用SVM實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)方式的釣魚URL 探測。SVM分為線性和非線性系統(tǒng),本文采用的是線性系統(tǒng)。有n個(gè)訓(xùn)練數(shù)據(jù)記錄的訓(xùn)練集T定義為:;其中訓(xùn)練數(shù)據(jù)是屬于實(shí)數(shù)域的m維向量是分類標(biāo)記

        SVM 分類器的詳細(xì)分類總結(jié)及描述見文獻(xiàn)[9]。使用SVM 的一個(gè)較為關(guān)鍵問題是如何定義特征。

        本文的分類特征有兩類一類為固定的特征類,另外一類為與測試信息有關(guān)。這兩類特征具體為:

        (1)為由分析釣魚網(wǎng)站得出其特征 ,其具體步驟:1.獲取大量釣魚網(wǎng)站URL作為測試樣本。2.抽取URL特征。3.在抽取完特征值后生成訓(xùn)練樣本,對(duì)SVM進(jìn)行訓(xùn)練。4.生成判別的特征向量,用SVM 進(jìn)行分類檢測,以最終判斷是否為釣魚網(wǎng)站的URL地址。

        通過分析URL和參考文獻(xiàn)[7]的基礎(chǔ)上得出九種單詞特征的特征向量DV:

        圖一 基于二元組匹配算法的流程圖

        圖二 SVM學(xué)習(xí)流程圖

        DV=<D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,D11,D12>;其中前九種為單詞特征后三種為結(jié)構(gòu)特征。D1:URL中存在bank,D2:URL中存在sign,D3:URL中存在ebay,D4:URL中存在webscr,D5:UR中存在confirm,D6中存在account,D7中存在secure,D8中存在eBay,D9中存在user,對(duì)于字符特征可用公示統(tǒng)一表示:

        w∈{bank,sign,webscr,confirm,account,eBay,user}

        后三種結(jié)構(gòu)特征為D10:URL為IP地址,D11:URL長度超過20個(gè)字符,D12:URL中域名長度不超過7個(gè)字符。具體表示如下:

        特征提取算法利用java編程實(shí)現(xiàn),分類算法利用libSVM。當(dāng)輸入為http://www.baidu.com 時(shí),因?yàn)榘俣染W(wǎng)址為非釣魚網(wǎng)站,所以抽取的特征向量全為0。當(dāng)輸入的地址為http://210.80.154.30/ 的時(shí)候特征向量中第一個(gè)值為1。

        (2) URL分割特征(US)

        對(duì)整個(gè)URL先通過“/”分割為字符串,去掉無用信息的字符串。如“http”。然后對(duì)剩余的字符串進(jìn)行統(tǒng)計(jì)分析。對(duì)于剩下的 URL字串使用分割符合集合{“.”,“?”,“#”,“%”,“&”“=”}進(jìn)行分割,從而得到更小的分割單元。如對(duì)www.wamuweb.com/indeity/html?r=4進(jìn)行分割,其結(jié)果為“www”,“wamuweb”,“com”,“indeity”,“html”,“r”“4”。

        3 結(jié)果分析

        實(shí)驗(yàn)所用釣魚URL數(shù)據(jù)來自安全聯(lián)盟共計(jì)4000,正常URL來自12580網(wǎng)站目錄收集共計(jì)4000。通過編寫爬蟲程序,將網(wǎng)站中URL信息提取出來。本文采用LIBLINEAR分類器實(shí)現(xiàn)釣魚URL探測。圖三為僅采用單詞特征和采用單詞特征與URL分割二者結(jié)合后釣魚網(wǎng)站探測的成功率對(duì)比圖。其中X坐標(biāo)代表準(zhǔn)確率,Y坐標(biāo)代表測試中URL個(gè)數(shù)。由圖可知采用WM+US的探測準(zhǔn)確率高于只采用WM的方法。

        由圖可知準(zhǔn)確率隨著數(shù)據(jù)量的增加并沒有增加,原因可能是訓(xùn)練中能區(qū)分URL分割特征比較稀疏。當(dāng)然URL中其他信息如同地址對(duì)應(yīng)的IP信息,WHOIS信息對(duì)釣魚網(wǎng)站的成功探測都有一定作用。對(duì)于這些信息,當(dāng)數(shù)據(jù)量過大時(shí),提取這些信息將耗費(fèi)更大的時(shí)間,尤其是WHOIS信息,其需從WHOIS服務(wù)器獲得。通過本文提出的方法可以對(duì)其進(jìn)行有效的補(bǔ)充,對(duì)釣魚網(wǎng)站能更高效的進(jìn)行探測。

        圖三 準(zhǔn)確率對(duì)比圖

        4 結(jié)束語

        網(wǎng)絡(luò)釣魚不僅給網(wǎng)民帶來經(jīng)濟(jì)損失,更阻礙著互聯(lián)網(wǎng)更深的發(fā)展。防御網(wǎng)絡(luò)釣魚是當(dāng)前形勢(shì)的需要。本文首先介紹了基于域名相似度的初步判斷方法,篩選出相似地址,這些相似的域名可能是潛在的釣魚域名。然后分析釣魚網(wǎng)站URL 地址的結(jié)構(gòu)和詞匯特征,構(gòu)建12個(gè)特征的特征向量,在通過URL分割提取出其分割后特征來訓(xùn)練向量機(jī)。實(shí)驗(yàn)結(jié)果表明使用這兩種特征訓(xùn)練學(xué)習(xí)器獲得了最佳結(jié)果。

        [1]Tyler Moore,Richard Clayton.The Impact of Incentives on Notice and Take-down[C].In Proc.of the 7th Workshop on the Economics of Information Security,New Hampshire USA,June 25-28 2007:1-24.

        [2]Anti-Phishing Working Group[EB/OL].http://www.antiphishing.org,2008-01/2011-12-15.

        [3]Phish Tank[EB/OL].http://www.phishtank.com,2011-04/2011-12-15.

        [4]Engine Kirda,Christopher Kruegel.Protecting Users against Phishing Attacks[J].The Computer Journal,2006,49(05):554-561.

        [5]Ian Fette,Norman Sadeh,Anthony Tomasic.Learning to Detec Phishing Emails[C].In Proc.of the WWW 2007,Alberta,Canada,May 8-12,2007:649-656.

        猜你喜歡
        域名黑名單特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        防曬黑名單?第2款就翻車了!
        好日子(2022年6期)2022-08-17 07:16:00
        克羅內(nèi)克積的特征向量
        一類特殊矩陣特征向量的求法
        如何購買WordPress網(wǎng)站域名及綁定域名
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        受懲黑名單
        中國信用(2017年5期)2017-05-25 11:20:08
        受懲黑名單
        中國信用(2017年4期)2017-05-23 11:40:56
        黑名單
        騰訊八百萬美元收購域名
        亚洲一区二区国产一区| 91精品福利一区二区| 女同性恋精品一区二区三区| 加勒比特在线视频播放| 我要看免费久久99片黄色| 国产肉体xxxx裸体784大胆| 99久久免费精品高清特色大片| 2020亚洲国产| 日韩一区二区av伦理| 激情综合五月开心婷婷| 久久综合亚洲色hezyo国产 | 欧洲精品免费一区二区三区| 亚洲综合中文字幕乱码在线| 日本少妇爽的大叫高潮了| 久久久精品国产免费看| 日本无码欧美一区精品久久| 精品人妻无码一区二区色欲产成人| 四虎成人精品国产一区a| 国产国语一级免费黄片| 亚洲国产av一区二区三区天堂| 真实夫妻露脸自拍视频在线播放| 午夜福利院电影| 亚洲VA不卡一区| 国产精品自拍视频免费观看| 粉嫩av国产一区二区三区| 欧美性videos高清精品| 韩国三级大全久久网站| 狠色人妻丝袜中文字幕| 午夜福利试看120秒体验区| 狠狠躁天天躁无码中文字幕图| 中文字幕av一区二区三区诱惑| 人与人性恔配视频免费 | 国产人澡人澡澡澡人碰视频| 国产小车还是日产的好| 中文字幕有码人妻在线| 中文无码久久精品| 日本激情网址| 少妇激情高潮视频网站| 久久精品国产成人| 国产精品原创巨作av无遮| 日韩国产自拍视频在线观看|