亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合網(wǎng)頁(yè)噪聲和n-gram的釣魚網(wǎng)站檢測(cè)算法

2015-01-03 07:49:20殷蘭芳吳舒辭黃華軍

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2015年1期

殷蘭芳吳舒辭黃華軍

（中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院湖南 410004）

0 引言

網(wǎng)絡(luò)釣魚（phishing）是一種基于社會(huì)工程學(xué)的網(wǎng)絡(luò)攻擊手段。其主要通過(guò)即時(shí)聊天工具或虛假網(wǎng)頁(yè)廣告等向用戶發(fā)送聲稱來(lái)自于某些知名機(jī)，構(gòu)意圖引誘用戶登錄假冒網(wǎng)站來(lái)獲取用戶敏感信息，并謀利的一種惡意網(wǎng)絡(luò)攻擊手段。

依照已有的方法，可將網(wǎng)絡(luò)釣魚的防御分為服務(wù)器端防御、用戶端防御和第三方防御。

服務(wù)器端的防御是指由服務(wù)供應(yīng)商，包括銀行、ISP、商務(wù)網(wǎng)站等采取多種措施保護(hù)用戶數(shù)據(jù)的安全。如Liu等人分析并選定6個(gè)特征采用多種方式來(lái)進(jìn)行綜合比較與檢測(cè)，但其關(guān)鍵特征提取規(guī)則和提取方式均具有局限和不完善性[1]。Huang等人提出了一次性密碼防御釣魚網(wǎng)站。

用戶端防御是指在用戶瀏覽器安裝插件，主要有基于URL檢測(cè)技術(shù)、基于啟發(fā)式檢測(cè)技術(shù)、基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)[7][8]和基于視覺(jué)相似的檢測(cè)技術(shù)這四種方法。

第三方防御包括建立URL黑名單、安全軟件廠商防御機(jī)制、公眾保護(hù)機(jī)制，如國(guó)際反網(wǎng)絡(luò)釣魚聯(lián)盟（AWPG）、中國(guó)反釣魚網(wǎng)站聯(lián)盟（APAC）等等。

國(guó)內(nèi)對(duì)于釣魚網(wǎng)站的防御技術(shù)相對(duì)較少。目前代表性防御方法有：黃華軍等人提出基于半脆弱水印的網(wǎng)絡(luò)釣魚主動(dòng)防御[13]和基于異常特征釣魚URL檢測(cè)算法。其余防御措施包括針對(duì)web-mail郵箱的跨站網(wǎng)絡(luò)釣魚攻擊的研究、基于云計(jì)算的URL過(guò)濾、SVM學(xué)習(xí)算法等，由于文章篇幅，不一一介紹。

綜合以上介紹可知，現(xiàn)有釣魚網(wǎng)站防御方法主要采用網(wǎng)頁(yè)正文文本或圖片作為特征來(lái)進(jìn)行釣魚網(wǎng)站防御研究，這類方法不僅增加了用戶體驗(yàn)成本，且未能在面對(duì)現(xiàn)今高速變化地網(wǎng)絡(luò)釣魚方式，精湛的仿造技術(shù)和海量網(wǎng)絡(luò)數(shù)據(jù)時(shí)，保證其檢測(cè)的準(zhǔn)確率以及效率。基于此，提出一種以網(wǎng)頁(yè)中含量穩(wěn)定且少的網(wǎng)頁(yè)噪聲作為網(wǎng)頁(yè)特征的釣魚網(wǎng)站檢測(cè)算法，借此簡(jiǎn)化算法數(shù)據(jù)，提高釣魚網(wǎng)站檢測(cè)效率。

1 算法模型

網(wǎng)頁(yè)噪聲是指網(wǎng)頁(yè)中與應(yīng)用目的不符合的內(nèi)容。通過(guò)對(duì)本實(shí)驗(yàn)已有噪聲樣本的統(tǒng)計(jì)研究發(fā)現(xiàn)，網(wǎng)頁(yè)中噪聲的含量小且穩(wěn)定。且在對(duì)比釣魚網(wǎng)站和與之對(duì)應(yīng)的受保護(hù)網(wǎng)站的網(wǎng)頁(yè)噪聲時(shí)發(fā)現(xiàn)，其相似度值相對(duì)穩(wěn)定。如果利用此特征，選擇網(wǎng)頁(yè)噪聲作為特征對(duì)網(wǎng)頁(yè)進(jìn)行描述，那么將可節(jié)省大量的存儲(chǔ)空間，以此來(lái)提高網(wǎng)頁(yè)處理效率，最終提升檢測(cè)效果的精準(zhǔn)度。

依統(tǒng)計(jì)，每個(gè)網(wǎng)頁(yè)都含有20%～40%左右的模板，且各網(wǎng)頁(yè)模板相對(duì)固定。又鑒于n-gram語(yǔ)言模型能簡(jiǎn)單、直接的表達(dá)出文本各個(gè)元詞之間概率關(guān)系的特點(diǎn)。因此，提取網(wǎng)頁(yè)中的網(wǎng)頁(yè)噪聲部分作為特征來(lái)描述網(wǎng)站，再采用n-gram語(yǔ)言模型對(duì)其進(jìn)行處理。以上各要點(diǎn)，通過(guò)所得結(jié)果找出釣魚網(wǎng)站與受保護(hù)網(wǎng)站之間特征的相似度規(guī)律，設(shè)定釣魚網(wǎng)站排查閾值。由此達(dá)到對(duì)網(wǎng)絡(luò)釣魚高效、便捷的檢測(cè)的目的，并起到排查其惡意攻擊的作用。

1.1 網(wǎng)頁(yè)噪聲提取模型

在提取噪聲模型時(shí)，基于HTML是一種本身具有一定嵌套樹型關(guān)系結(jié)構(gòu)的簡(jiǎn)單標(biāo)識(shí)語(yǔ)言，并且其定義了一系列的標(biāo)簽來(lái)刻畫網(wǎng)頁(yè)所顯示的內(nèi)容。因此可以將網(wǎng)頁(yè)中主要的標(biāo)簽依照其嵌套關(guān)系整理成DOM（Document Object Model）樹狀結(jié)構(gòu)來(lái)對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行簡(jiǎn)單、直觀地描述。并且，通過(guò)實(shí)驗(yàn)組對(duì)大量的樣本數(shù)據(jù)的觀察發(fā)現(xiàn)，網(wǎng)頁(yè)中的主題內(nèi)容往往都不會(huì)出現(xiàn)在模板標(biāo)簽內(nèi)。

由此，本文通過(guò)對(duì)標(biāo)簽中噪聲的分析，將網(wǎng)頁(yè)源代碼中的噪聲分為兩類。第Ⅰ類標(biāo)簽中含有的總噪聲量約占整個(gè)網(wǎng)頁(yè)的98%，而第Ⅱ類標(biāo)簽中所含的均為主題以及與主題相關(guān)的內(nèi)容。標(biāo)簽分類如下表1所示：

表1 標(biāo)簽分類表

基于以上描述，將受保護(hù)網(wǎng)頁(yè)代碼和被測(cè)網(wǎng)頁(yè)代碼均解析成DOM樹狀結(jié)構(gòu)，解析后，直接從DOM樹狀圖中提取第Ⅰ類標(biāo)簽的節(jié)點(diǎn)中的所有內(nèi)容作為本算法的實(shí)驗(yàn)數(shù)據(jù)。噪聲特征提取流程圖1如下：

圖1 基于噪聲的網(wǎng)頁(yè)特征提取流程圖

1.2 n-gram

n-gram是一種可以計(jì)算出文本信息中句子概率的語(yǔ)言模型。利用n-gram語(yǔ)言模型可以將文本信息用概率的形式描述出來(lái)以便于研究計(jì)算。

通過(guò)此語(yǔ)言模型處理網(wǎng)頁(yè)噪聲數(shù)據(jù)，即可得到所有被測(cè)網(wǎng)站基于噪聲的特征頻率矩陣。將所有樣本采用此方法處理后得到的相應(yīng)的特征頻率矩陣分類保存，作為隨后實(shí)驗(yàn)所需的樣本數(shù)據(jù)。

1.3 相似度算法

選定cosine定律來(lái)對(duì)文本進(jìn)行相似度檢測(cè)。記受保護(hù)網(wǎng)站的特征頻率矩陣為，第個(gè)被測(cè)網(wǎng)站的特征頻率矩陣為。和分別表示在被保護(hù)網(wǎng)站和第i個(gè)被測(cè)網(wǎng)站的特征頻率矩陣的第t個(gè)元素。通過(guò)計(jì)算兩個(gè)網(wǎng)站特征頻率向量之間的夾角余弦值來(lái)判定這被測(cè)網(wǎng)站與被保護(hù)網(wǎng)站的相似度.設(shè)被保護(hù)網(wǎng)站為x被測(cè)網(wǎng)站為，從而計(jì)算公式如下：

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)數(shù)據(jù)收集

通過(guò)PhishTank（http：//www.phishtank.com/）網(wǎng)站，抓取由用戶舉報(bào)，已確定為釣魚網(wǎng)站的URL鏈接以及相關(guān)Whois信息分類保存。本實(shí)驗(yàn)主要針對(duì)PayPal和eBay這兩類網(wǎng)站收集數(shù)據(jù)進(jìn)行研究。目前已從PhishTank網(wǎng)站中保存釣魚網(wǎng)站共4812個(gè)，其中PayPal有2610個(gè)；eBay有2202個(gè)。經(jīng)標(biāo)簽選擇，參與檢測(cè)的實(shí)際釣魚網(wǎng)站數(shù)分別為PayPal為2490個(gè)；eBay為1699個(gè)。

2.2 實(shí)驗(yàn)結(jié)果及分析

2.2.1 相似度結(jié)果及分析

收集PayPal和eBay釣魚網(wǎng)站數(shù)據(jù)，通過(guò)公式（1）計(jì)算PayPal和eBay的官方網(wǎng)站與被測(cè)釣魚網(wǎng)站得出相似度值，分布如下圖2所示：

圖2 受保護(hù)網(wǎng)站與被測(cè)網(wǎng)站相似度點(diǎn)圖

圖2（a）、（b）中，橫坐標(biāo)為通過(guò)余弦公式計(jì)算所得的0到1之間的值，即相似度值，縱坐標(biāo)具有相同相似度值的網(wǎng)站個(gè)數(shù)。觀察圖2（a）發(fā)現(xiàn)，PayPal受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值集中分布在0.67附近以及0.65到0.67之間。而由圖2（b）可知，eBay受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值在0.56、0.57以及0.69這三個(gè)值的數(shù)量較多。

2.2.2 聚類分析

為了能更直接、清晰地觀察實(shí)驗(yàn)所得的數(shù)據(jù)，且觀察可知，實(shí)驗(yàn)樣本的相似度值數(shù)據(jù)為2維連續(xù)空間?；诖?，采用常用于對(duì)n維連續(xù)空間中的對(duì)象進(jìn)行聚類的K-means均值法對(duì)數(shù)據(jù)進(jìn)行聚類分析，以便更準(zhǔn)確地確定釣魚網(wǎng)站排查閾值。

基于K-means均值聚類基于原型而劃分類別的特點(diǎn)，選定k=7。設(shè)定相似度值0到0.8之間均分八等分為初始狀態(tài)，取間隔的點(diǎn)作為初始聚類中心相似度值點(diǎn)。

本實(shí)驗(yàn)部分網(wǎng)頁(yè)源代碼中未含有任何實(shí)驗(yàn)所需的HTML標(biāo)簽的樣本。聚類分析結(jié)果如下表2和表3所示：

表2 PayPal聚類結(jié)果

表3 eBay聚類結(jié)果

2.3 精確度檢測(cè)

為了檢測(cè)閾值的精準(zhǔn)度，采用反應(yīng)算法準(zhǔn)確性的查準(zhǔn)率（precision）、反應(yīng)算法漏報(bào)性的召回率（recall）以及F值對(duì)其檢測(cè)結(jié)果進(jìn)行評(píng)估。具體計(jì)算公式如下所示：

3 結(jié)束語(yǔ)

本算法融合了網(wǎng)頁(yè)噪聲與n-gram對(duì)釣魚網(wǎng)站進(jìn)行檢測(cè)。較以往的防御算法計(jì)算成本更低。又選定網(wǎng)頁(yè)中變化較少的網(wǎng)頁(yè)噪聲作為特征來(lái)描述整個(gè)網(wǎng)頁(yè)，使算法性能得到了很大提升，相應(yīng)穩(wěn)定性也更優(yōu)。同時(shí)，針對(duì)PayPal和eBay網(wǎng)站設(shè)定了釣魚網(wǎng)站排查閾值，達(dá)到了快速、有效地檢測(cè)釣魚網(wǎng)站惡意攻擊的目的。較其他算法，該算法計(jì)算量小，精確度高，能更好的應(yīng)對(duì)當(dāng)今互聯(lián)網(wǎng)變化快、數(shù)據(jù)量大的特點(diǎn)?？紤]現(xiàn)在互聯(lián)網(wǎng)帶來(lái)的大數(shù)據(jù)以及云計(jì)算的發(fā)展趨勢(shì)，今后的工作將是把釣魚網(wǎng)站的防御大數(shù)據(jù)化，智能化，并在檢測(cè)中達(dá)到效率和性能的高度平衡。

[1]Liu YANG，Zhang MIAO. Title：Financial Websites Oriented Heuristic Anti-Phishing Research，2012[C]. China：Chinese Association of Artificial Intelligence，2012：21-27. [Proceedings of 2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems]

[2]Huang C，Ma S，Chen K. Using One-Time Passwords to Prevent Password Phishing Attacks [J]. 2011，34（4）：1292-1301.[Journal of Network and Computer Applications.]

[3]Garera S，Provos N，Chew M. Title：A Framework for Detection and Measurement of Phishing Attacks，2007[C]，American：Johns Hopkins University，2007：1-8. [Proc. of WORM’07]

[4]Chou N，Ledesma R，Teraguchi Y，et al. Client-side Defense against Web-based Identity Theft [EO/BL].http：//crypto.stanford.edu/SpoofGuard/webspoof.pdf，2007-7-5.

[5]Kirda E，Kruegel C. Protecting Users against Phishing Attacks [J].2006，49（5）：554-561. [The Computer Journal]

[6]Zhang H，Liu G，Chow T W S，et al. Textual and Visual Content-Based Anti-Phishing：A Bayesian Approach [J]. 2011，22（10）：1532-1546. [IEEE Transactions on Neural Networks]

[7]Abbasi A，Zhang Z，Zimbra D，et al. Detecting Fake Websites：The Contribution of Statisitical Learning Theory [J]. 2010，34（3）：1-28. [MIS Quarterly]

[8]Miyamoto D，Hazeyama H，Kadobayashi Y. An Evaluation of Machine Learning-based Method for Detection of Phishing Sites [J].2009，5506：539-546 . [Lecture Notes in Computer Science]

[9]Huang C，Ma S，Yeh W，et al. Mitigate Web Phishing Using Site Signatures，2010 [C]. 2010：803-808.[ IEEE Region 10 International Conference TENCON 2010]

[10]Aburrous M，Hossain M A，Dahal K，et al. Intelligent Phishing Detection System for E-banking using Fuzzy Data Mining [J].2010，37：7913-7921. [Expert Systems with Applications]

[11] Huang H J，Wang Y J，Xie L L，et al. An Active Anti-Phishing Solution Based on Semi-fragile Watermark [J]. 2013，12（1）：198-203. [Information Technology Journal]

[12]Huang HJ，Qian L，Wang YJ. A SVM-Based Technique to Detect Phishing URLs [J]. 2012，11（7）：921-925. [Information Technology Journal]

[13]毛先領(lǐng)，何靖，閆宏飛.網(wǎng)頁(yè)去噪：研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展.2010，47（12）：2025-2036.