亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合網(wǎng)頁(yè)噪聲和n-gram的釣魚網(wǎng)站檢測(cè)算法

        2015-01-03 07:49:20殷蘭芳吳舒辭黃華軍
        關(guān)鍵詞:度值特征頻率釣魚

        殷蘭芳 吳舒辭 黃華軍

        (中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院 湖南 410004)

        0 引言

        網(wǎng)絡(luò)釣魚(phishing)是一種基于社會(huì)工程學(xué)的網(wǎng)絡(luò)攻擊手段。其主要通過(guò)即時(shí)聊天工具或虛假網(wǎng)頁(yè)廣告等向用戶發(fā)送聲稱來(lái)自于某些知名機(jī),構(gòu)意圖引誘用戶登錄假冒網(wǎng)站來(lái)獲取用戶敏感信息,并謀利的一種惡意網(wǎng)絡(luò)攻擊手段。

        依照已有的方法,可將網(wǎng)絡(luò)釣魚的防御分為服務(wù)器端防御、用戶端防御和第三方防御。

        服務(wù)器端的防御是指由服務(wù)供應(yīng)商,包括銀行、ISP、商務(wù)網(wǎng)站等采取多種措施保護(hù)用戶數(shù)據(jù)的安全。如Liu等人分析并選定6個(gè)特征采用多種方式來(lái)進(jìn)行綜合比較與檢測(cè),但其關(guān)鍵特征提取規(guī)則和提取方式均具有局限和不完善性[1]。Huang等人提出了一次性密碼防御釣魚網(wǎng)站。

        用戶端防御是指在用戶瀏覽器安裝插件,主要有基于URL檢測(cè)技術(shù)、基于啟發(fā)式檢測(cè)技術(shù)、基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)[7][8]和基于視覺(jué)相似的檢測(cè)技術(shù)這四種方法。

        第三方防御包括建立URL黑名單、安全軟件廠商防御機(jī)制、公眾保護(hù)機(jī)制,如國(guó)際反網(wǎng)絡(luò)釣魚聯(lián)盟(AWPG)、中國(guó)反釣魚網(wǎng)站聯(lián)盟(APAC)等等。

        國(guó)內(nèi)對(duì)于釣魚網(wǎng)站的防御技術(shù)相對(duì)較少。目前代表性防御方法有:黃華軍等人提出基于半脆弱水印的網(wǎng)絡(luò)釣魚主動(dòng)防御[13]和基于異常特征釣魚URL檢測(cè)算法。其余防御措施包括針對(duì)web-mail郵箱的跨站網(wǎng)絡(luò)釣魚攻擊的研究、基于云計(jì)算的URL過(guò)濾、SVM學(xué)習(xí)算法等,由于文章篇幅,不一一介紹。

        綜合以上介紹可知,現(xiàn)有釣魚網(wǎng)站防御方法主要采用網(wǎng)頁(yè)正文文本或圖片作為特征來(lái)進(jìn)行釣魚網(wǎng)站防御研究,這類方法不僅增加了用戶體驗(yàn)成本,且未能在面對(duì)現(xiàn)今高速變化地網(wǎng)絡(luò)釣魚方式,精湛的仿造技術(shù)和海量網(wǎng)絡(luò)數(shù)據(jù)時(shí),保證其檢測(cè)的準(zhǔn)確率以及效率。基于此,提出一種以網(wǎng)頁(yè)中含量穩(wěn)定且少的網(wǎng)頁(yè)噪聲作為網(wǎng)頁(yè)特征的釣魚網(wǎng)站檢測(cè)算法,借此簡(jiǎn)化算法數(shù)據(jù),提高釣魚網(wǎng)站檢測(cè)效率。

        1 算法模型

        網(wǎng)頁(yè)噪聲是指網(wǎng)頁(yè)中與應(yīng)用目的不符合的內(nèi)容。通過(guò)對(duì)本實(shí)驗(yàn)已有噪聲樣本的統(tǒng)計(jì)研究發(fā)現(xiàn),網(wǎng)頁(yè)中噪聲的含量小且穩(wěn)定。且在對(duì)比釣魚網(wǎng)站和與之對(duì)應(yīng)的受保護(hù)網(wǎng)站的網(wǎng)頁(yè)噪聲時(shí)發(fā)現(xiàn),其相似度值相對(duì)穩(wěn)定。如果利用此特征,選擇網(wǎng)頁(yè)噪聲作為特征對(duì)網(wǎng)頁(yè)進(jìn)行描述,那么將可節(jié)省大量的存儲(chǔ)空間,以此來(lái)提高網(wǎng)頁(yè)處理效率,最終提升檢測(cè)效果的精準(zhǔn)度。

        依統(tǒng)計(jì),每個(gè)網(wǎng)頁(yè)都含有20%~40%左右的模板,且各網(wǎng)頁(yè)模板相對(duì)固定。又鑒于n-gram語(yǔ)言模型能簡(jiǎn)單、直接的表達(dá)出文本各個(gè)元詞之間概率關(guān)系的特點(diǎn)。因此,提取網(wǎng)頁(yè)中的網(wǎng)頁(yè)噪聲部分作為特征來(lái)描述網(wǎng)站,再采用n-gram語(yǔ)言模型對(duì)其進(jìn)行處理。以上各要點(diǎn),通過(guò)所得結(jié)果找出釣魚網(wǎng)站與受保護(hù)網(wǎng)站之間特征的相似度規(guī)律,設(shè)定釣魚網(wǎng)站排查閾值。由此達(dá)到對(duì)網(wǎng)絡(luò)釣魚高效、便捷的檢測(cè)的目的,并起到排查其惡意攻擊的作用。

        1.1 網(wǎng)頁(yè)噪聲提取模型

        在提取噪聲模型時(shí),基于HTML是一種本身具有一定嵌套樹型關(guān)系結(jié)構(gòu)的簡(jiǎn)單標(biāo)識(shí)語(yǔ)言,并且其定義了一系列的標(biāo)簽來(lái)刻畫網(wǎng)頁(yè)所顯示的內(nèi)容。因此可以將網(wǎng)頁(yè)中主要的標(biāo)簽依照其嵌套關(guān)系整理成DOM(Document Object Model)樹狀結(jié)構(gòu)來(lái)對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行簡(jiǎn)單、直觀地描述。并且,通過(guò)實(shí)驗(yàn)組對(duì)大量的樣本數(shù)據(jù)的觀察發(fā)現(xiàn),網(wǎng)頁(yè)中的主題內(nèi)容往往都不會(huì)出現(xiàn)在模板標(biāo)簽內(nèi)。

        由此,本文通過(guò)對(duì)標(biāo)簽中噪聲的分析,將網(wǎng)頁(yè)源代碼中的噪聲分為兩類。第Ⅰ類標(biāo)簽中含有的總噪聲量約占整個(gè)網(wǎng)頁(yè)的98%,而第Ⅱ類標(biāo)簽中所含的均為主題以及與主題相關(guān)的內(nèi)容。標(biāo)簽分類如下表1所示:

        表1 標(biāo)簽分類表

        基于以上描述,將受保護(hù)網(wǎng)頁(yè)代碼和被測(cè)網(wǎng)頁(yè)代碼均解析成DOM樹狀結(jié)構(gòu),解析后,直接從DOM樹狀圖中提取第Ⅰ類標(biāo)簽的節(jié)點(diǎn)中的所有內(nèi)容作為本算法的實(shí)驗(yàn)數(shù)據(jù)。噪聲特征提取流程圖1如下:

        圖1 基于噪聲的網(wǎng)頁(yè)特征提取流程圖

        1.2 n-gram

        n-gram是一種可以計(jì)算出文本信息中句子概率的語(yǔ)言模型。利用n-gram語(yǔ)言模型可以將文本信息用概率的形式描述出來(lái)以便于研究計(jì)算。

        通過(guò)此語(yǔ)言模型處理網(wǎng)頁(yè)噪聲數(shù)據(jù),即可得到所有被測(cè)網(wǎng)站基于噪聲的特征頻率矩陣。將所有樣本采用此方法處理后得到的相應(yīng)的特征頻率矩陣分類保存,作為隨后實(shí)驗(yàn)所需的樣本數(shù)據(jù)。

        1.3 相似度算法

        選定cosine定律來(lái)對(duì)文本進(jìn)行相似度檢測(cè)。記受保護(hù)網(wǎng)站的特征頻率矩陣為,第個(gè)被測(cè)網(wǎng)站的特征頻率矩陣為。和分別表示在被保護(hù)網(wǎng)站和第i個(gè)被測(cè)網(wǎng)站的特征頻率矩陣的第t個(gè)元素。通過(guò)計(jì)算兩個(gè)網(wǎng)站特征頻率向量之間的夾角余弦值來(lái)判定這被測(cè)網(wǎng)站與被保護(hù)網(wǎng)站的相似度.設(shè)被保護(hù)網(wǎng)站為x被測(cè)網(wǎng)站為,從而計(jì)算公式如下:

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)收集

        通過(guò)PhishTank(http://www.phishtank.com/)網(wǎng)站,抓取由用戶舉報(bào),已確定為釣魚網(wǎng)站的URL鏈接以及相關(guān)Whois信息分類保存。本實(shí)驗(yàn)主要針對(duì)PayPal和eBay這兩類網(wǎng)站收集數(shù)據(jù)進(jìn)行研究。目前已從PhishTank網(wǎng)站中保存釣魚網(wǎng)站共4812個(gè),其中PayPal有2610個(gè);eBay有2202個(gè)。經(jīng)標(biāo)簽選擇,參與檢測(cè)的實(shí)際釣魚網(wǎng)站數(shù)分別為PayPal為2490個(gè);eBay為1699個(gè)。

        2.2 實(shí)驗(yàn)結(jié)果及分析

        2.2.1 相似度結(jié)果及分析

        收集PayPal和eBay釣魚網(wǎng)站數(shù)據(jù),通過(guò)公式(1)計(jì)算PayPal和eBay的官方網(wǎng)站與被測(cè)釣魚網(wǎng)站得出相似度值,分布如下圖2所示:

        圖2 受保護(hù)網(wǎng)站與被測(cè)網(wǎng)站相似度點(diǎn)圖

        圖2(a)、(b)中,橫坐標(biāo)為通過(guò)余弦公式計(jì)算所得的0到1之間的值,即相似度值,縱坐標(biāo)具有相同相似度值的網(wǎng)站個(gè)數(shù)。觀察圖2(a)發(fā)現(xiàn),PayPal受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值集中分布在0.67附近以及0.65到0.67之間。而由圖2(b)可知,eBay受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值在0.56、0.57以及0.69這三個(gè)值的數(shù)量較多。

        2.2.2 聚類分析

        為了能更直接、清晰地觀察實(shí)驗(yàn)所得的數(shù)據(jù),且觀察可知,實(shí)驗(yàn)樣本的相似度值數(shù)據(jù)為2維連續(xù)空間?;诖?,采用常用于對(duì)n維連續(xù)空間中的對(duì)象進(jìn)行聚類的K-means均值法對(duì)數(shù)據(jù)進(jìn)行聚類分析,以便更準(zhǔn)確地確定釣魚網(wǎng)站排查閾值。

        基于K-means均值聚類基于原型而劃分類別的特點(diǎn),選定k=7。設(shè)定相似度值0到0.8之間均分八等分為初始狀態(tài),取間隔的點(diǎn)作為初始聚類中心相似度值點(diǎn)。

        本實(shí)驗(yàn)部分網(wǎng)頁(yè)源代碼中未含有任何實(shí)驗(yàn)所需的HTML標(biāo)簽的樣本。聚類分析結(jié)果如下表2和表3所示:

        表2 PayPal聚類結(jié)果

        表3 eBay聚類結(jié)果

        2.3 精確度檢測(cè)

        為了檢測(cè)閾值的精準(zhǔn)度,采用反應(yīng)算法準(zhǔn)確性的查準(zhǔn)率(precision)、反應(yīng)算法漏報(bào)性的召回率(recall)以及F值對(duì)其檢測(cè)結(jié)果進(jìn)行評(píng)估。具體計(jì)算公式如下所示:

        3 結(jié)束語(yǔ)

        本算法融合了網(wǎng)頁(yè)噪聲與n-gram對(duì)釣魚網(wǎng)站進(jìn)行檢測(cè)。較以往的防御算法計(jì)算成本更低。又選定網(wǎng)頁(yè)中變化較少的網(wǎng)頁(yè)噪聲作為特征來(lái)描述整個(gè)網(wǎng)頁(yè),使算法性能得到了很大提升,相應(yīng)穩(wěn)定性也更優(yōu)。同時(shí),針對(duì)PayPal和eBay網(wǎng)站設(shè)定了釣魚網(wǎng)站排查閾值,達(dá)到了快速、有效地檢測(cè)釣魚網(wǎng)站惡意攻擊的目的。較其他算法,該算法計(jì)算量小,精確度高,能更好的應(yīng)對(duì)當(dāng)今互聯(lián)網(wǎng)變化快、數(shù)據(jù)量大的特點(diǎn)??紤]現(xiàn)在互聯(lián)網(wǎng)帶來(lái)的大數(shù)據(jù)以及云計(jì)算的發(fā)展趨勢(shì),今后的工作將是把釣魚網(wǎng)站的防御大數(shù)據(jù)化,智能化,并在檢測(cè)中達(dá)到效率和性能的高度平衡。

        [1]Liu YANG,Zhang MIAO. Title:Financial Websites Oriented Heuristic Anti-Phishing Research,2012[C]. China:Chinese Association of Artificial Intelligence,2012:21-27. [Proceedings of 2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems]

        [2]Huang C,Ma S,Chen K. Using One-Time Passwords to Prevent Password Phishing Attacks [J]. 2011,34(4):1292-1301.[Journal of Network and Computer Applications.]

        [3]Garera S,Provos N,Chew M. Title:A Framework for Detection and Measurement of Phishing Attacks,2007[C],American:Johns Hopkins University,2007:1-8. [Proc. of WORM’07]

        [4]Chou N,Ledesma R,Teraguchi Y,et al. Client-side Defense against Web-based Identity Theft [EO/BL].http://crypto.stanford.edu/SpoofGuard/webspoof.pdf,2007-7-5.

        [5]Kirda E,Kruegel C. Protecting Users against Phishing Attacks [J].2006,49(5):554-561. [The Computer Journal]

        [6]Zhang H,Liu G,Chow T W S,et al. Textual and Visual Content-Based Anti-Phishing:A Bayesian Approach [J]. 2011,22(10):1532-1546. [IEEE Transactions on Neural Networks]

        [7]Abbasi A,Zhang Z,Zimbra D,et al. Detecting Fake Websites:The Contribution of Statisitical Learning Theory [J]. 2010,34(3):1-28. [MIS Quarterly]

        [8]Miyamoto D,Hazeyama H,Kadobayashi Y. An Evaluation of Machine Learning-based Method for Detection of Phishing Sites [J].2009,5506:539-546 . [Lecture Notes in Computer Science]

        [9]Huang C,Ma S,Yeh W,et al. Mitigate Web Phishing Using Site Signatures,2010 [C]. 2010:803-808.[ IEEE Region 10 International Conference TENCON 2010]

        [10]Aburrous M,Hossain M A,Dahal K,et al. Intelligent Phishing Detection System for E-banking using Fuzzy Data Mining [J].2010,37:7913-7921. [Expert Systems with Applications]

        [11] Huang H J,Wang Y J,Xie L L,et al. An Active Anti-Phishing Solution Based on Semi-fragile Watermark [J]. 2013,12(1):198-203. [Information Technology Journal]

        [12]Huang HJ,Qian L,Wang YJ. A SVM-Based Technique to Detect Phishing URLs [J]. 2012,11(7):921-925. [Information Technology Journal]

        [13]毛先領(lǐng),何靖,閆宏飛.網(wǎng)頁(yè)去噪:研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展.2010,47(12):2025-2036.

        猜你喜歡
        度值特征頻率釣魚
        探討公路項(xiàng)目路基連續(xù)壓實(shí)質(zhì)量檢測(cè)技術(shù)
        瓷磚檢測(cè)機(jī)器人的聲音信號(hào)處理
        光學(xué)波前參數(shù)的分析評(píng)價(jià)方法研究
        基于振動(dòng)信號(hào)特征頻率的數(shù)控車床故障辨識(shí)方法
        基于小波去噪和EMD算法在齒輪故障檢測(cè)中的應(yīng)用
        無(wú)線傳輸中短碼長(zhǎng)噴泉碼的度分布優(yōu)化算法*
        微博網(wǎng)絡(luò)較大度值用戶特征分析
        科技傳播(2016年17期)2016-10-10 01:46:58
        釣魚
        第七章 去泥盆紀(jì)釣魚
        第七章 去泥盆紀(jì)釣魚
        国产一精品一aⅴ一免费| 中文字幕人妻少妇引诱隔壁| 人妻系列无码专区久久五月天| 高清无码精品一区二区三区| 天堂中文资源在线地址| 久久精品国产亚洲av桥本有菜| 老司机在线免费视频亚洲| 九九精品国产亚洲av日韩| 成人a级视频在线播放| 99精品国产兔费观看久久99| 午夜不卡亚洲视频| 亚洲一区精品一区在线观看| 成人一区二区人妻少妇| 一本色道无码道dvd在线观看| 国产精品国产成人国产三级| 人妻人妻少妇在线系列| 国产一区二区三区护士| 欧美黑人又粗又大xxxx| 久久久久亚洲av无码专区| 亚洲AV无码国产永久播放蜜芽| 大伊香蕉精品视频一区| 人妖与人妖免费黄色片| 无码专区人妻系列日韩精品| 色视频www在线播放国产人成| 北岛玲日韩精品一区二区三区| 最新日韩人妻中文字幕一区| 极品粉嫩嫩模大尺度视频在线播放| 高级会所技师自拍视频在线 | 一本大道久久东京热无码av| 国产一区二区白浆在线观看| 无码av中文一区二区三区| 欧美性猛交xxxx乱大交丰满| 97人妻无码免费专区| 24小时免费在线观看av| 中文字幕被公侵犯的漂亮人妻| 久久成人麻豆午夜电影| 91久久精品国产性色tv| 久久久精品国产性黑人| …日韩人妻无码精品一专区| 少妇人妻200篇白洁| 亚欧乱色束缚一区二区三区|