殷蘭芳 吳舒辭 黃華軍
(中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院 湖南 410004)
網(wǎng)絡(luò)釣魚(phishing)是一種基于社會(huì)工程學(xué)的網(wǎng)絡(luò)攻擊手段。其主要通過(guò)即時(shí)聊天工具或虛假網(wǎng)頁(yè)廣告等向用戶發(fā)送聲稱來(lái)自于某些知名機(jī),構(gòu)意圖引誘用戶登錄假冒網(wǎng)站來(lái)獲取用戶敏感信息,并謀利的一種惡意網(wǎng)絡(luò)攻擊手段。
依照已有的方法,可將網(wǎng)絡(luò)釣魚的防御分為服務(wù)器端防御、用戶端防御和第三方防御。
服務(wù)器端的防御是指由服務(wù)供應(yīng)商,包括銀行、ISP、商務(wù)網(wǎng)站等采取多種措施保護(hù)用戶數(shù)據(jù)的安全。如Liu等人分析并選定6個(gè)特征采用多種方式來(lái)進(jìn)行綜合比較與檢測(cè),但其關(guān)鍵特征提取規(guī)則和提取方式均具有局限和不完善性[1]。Huang等人提出了一次性密碼防御釣魚網(wǎng)站。
用戶端防御是指在用戶瀏覽器安裝插件,主要有基于URL檢測(cè)技術(shù)、基于啟發(fā)式檢測(cè)技術(shù)、基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)[7][8]和基于視覺(jué)相似的檢測(cè)技術(shù)這四種方法。
第三方防御包括建立URL黑名單、安全軟件廠商防御機(jī)制、公眾保護(hù)機(jī)制,如國(guó)際反網(wǎng)絡(luò)釣魚聯(lián)盟(AWPG)、中國(guó)反釣魚網(wǎng)站聯(lián)盟(APAC)等等。
國(guó)內(nèi)對(duì)于釣魚網(wǎng)站的防御技術(shù)相對(duì)較少。目前代表性防御方法有:黃華軍等人提出基于半脆弱水印的網(wǎng)絡(luò)釣魚主動(dòng)防御[13]和基于異常特征釣魚URL檢測(cè)算法。其余防御措施包括針對(duì)web-mail郵箱的跨站網(wǎng)絡(luò)釣魚攻擊的研究、基于云計(jì)算的URL過(guò)濾、SVM學(xué)習(xí)算法等,由于文章篇幅,不一一介紹。
綜合以上介紹可知,現(xiàn)有釣魚網(wǎng)站防御方法主要采用網(wǎng)頁(yè)正文文本或圖片作為特征來(lái)進(jìn)行釣魚網(wǎng)站防御研究,這類方法不僅增加了用戶體驗(yàn)成本,且未能在面對(duì)現(xiàn)今高速變化地網(wǎng)絡(luò)釣魚方式,精湛的仿造技術(shù)和海量網(wǎng)絡(luò)數(shù)據(jù)時(shí),保證其檢測(cè)的準(zhǔn)確率以及效率。基于此,提出一種以網(wǎng)頁(yè)中含量穩(wěn)定且少的網(wǎng)頁(yè)噪聲作為網(wǎng)頁(yè)特征的釣魚網(wǎng)站檢測(cè)算法,借此簡(jiǎn)化算法數(shù)據(jù),提高釣魚網(wǎng)站檢測(cè)效率。
網(wǎng)頁(yè)噪聲是指網(wǎng)頁(yè)中與應(yīng)用目的不符合的內(nèi)容。通過(guò)對(duì)本實(shí)驗(yàn)已有噪聲樣本的統(tǒng)計(jì)研究發(fā)現(xiàn),網(wǎng)頁(yè)中噪聲的含量小且穩(wěn)定。且在對(duì)比釣魚網(wǎng)站和與之對(duì)應(yīng)的受保護(hù)網(wǎng)站的網(wǎng)頁(yè)噪聲時(shí)發(fā)現(xiàn),其相似度值相對(duì)穩(wěn)定。如果利用此特征,選擇網(wǎng)頁(yè)噪聲作為特征對(duì)網(wǎng)頁(yè)進(jìn)行描述,那么將可節(jié)省大量的存儲(chǔ)空間,以此來(lái)提高網(wǎng)頁(yè)處理效率,最終提升檢測(cè)效果的精準(zhǔn)度。
依統(tǒng)計(jì),每個(gè)網(wǎng)頁(yè)都含有20%~40%左右的模板,且各網(wǎng)頁(yè)模板相對(duì)固定。又鑒于n-gram語(yǔ)言模型能簡(jiǎn)單、直接的表達(dá)出文本各個(gè)元詞之間概率關(guān)系的特點(diǎn)。因此,提取網(wǎng)頁(yè)中的網(wǎng)頁(yè)噪聲部分作為特征來(lái)描述網(wǎng)站,再采用n-gram語(yǔ)言模型對(duì)其進(jìn)行處理。以上各要點(diǎn),通過(guò)所得結(jié)果找出釣魚網(wǎng)站與受保護(hù)網(wǎng)站之間特征的相似度規(guī)律,設(shè)定釣魚網(wǎng)站排查閾值。由此達(dá)到對(duì)網(wǎng)絡(luò)釣魚高效、便捷的檢測(cè)的目的,并起到排查其惡意攻擊的作用。
在提取噪聲模型時(shí),基于HTML是一種本身具有一定嵌套樹型關(guān)系結(jié)構(gòu)的簡(jiǎn)單標(biāo)識(shí)語(yǔ)言,并且其定義了一系列的標(biāo)簽來(lái)刻畫網(wǎng)頁(yè)所顯示的內(nèi)容。因此可以將網(wǎng)頁(yè)中主要的標(biāo)簽依照其嵌套關(guān)系整理成DOM(Document Object Model)樹狀結(jié)構(gòu)來(lái)對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行簡(jiǎn)單、直觀地描述。并且,通過(guò)實(shí)驗(yàn)組對(duì)大量的樣本數(shù)據(jù)的觀察發(fā)現(xiàn),網(wǎng)頁(yè)中的主題內(nèi)容往往都不會(huì)出現(xiàn)在模板標(biāo)簽內(nèi)。
由此,本文通過(guò)對(duì)標(biāo)簽中噪聲的分析,將網(wǎng)頁(yè)源代碼中的噪聲分為兩類。第Ⅰ類標(biāo)簽中含有的總噪聲量約占整個(gè)網(wǎng)頁(yè)的98%,而第Ⅱ類標(biāo)簽中所含的均為主題以及與主題相關(guān)的內(nèi)容。標(biāo)簽分類如下表1所示:
表1 標(biāo)簽分類表
基于以上描述,將受保護(hù)網(wǎng)頁(yè)代碼和被測(cè)網(wǎng)頁(yè)代碼均解析成DOM樹狀結(jié)構(gòu),解析后,直接從DOM樹狀圖中提取第Ⅰ類標(biāo)簽的節(jié)點(diǎn)中的所有內(nèi)容作為本算法的實(shí)驗(yàn)數(shù)據(jù)。噪聲特征提取流程圖1如下:
圖1 基于噪聲的網(wǎng)頁(yè)特征提取流程圖
n-gram是一種可以計(jì)算出文本信息中句子概率的語(yǔ)言模型。利用n-gram語(yǔ)言模型可以將文本信息用概率的形式描述出來(lái)以便于研究計(jì)算。
通過(guò)此語(yǔ)言模型處理網(wǎng)頁(yè)噪聲數(shù)據(jù),即可得到所有被測(cè)網(wǎng)站基于噪聲的特征頻率矩陣。將所有樣本采用此方法處理后得到的相應(yīng)的特征頻率矩陣分類保存,作為隨后實(shí)驗(yàn)所需的樣本數(shù)據(jù)。
選定cosine定律來(lái)對(duì)文本進(jìn)行相似度檢測(cè)。記受保護(hù)網(wǎng)站的特征頻率矩陣為,第個(gè)被測(cè)網(wǎng)站的特征頻率矩陣為。和分別表示在被保護(hù)網(wǎng)站和第i個(gè)被測(cè)網(wǎng)站的特征頻率矩陣的第t個(gè)元素。通過(guò)計(jì)算兩個(gè)網(wǎng)站特征頻率向量之間的夾角余弦值來(lái)判定這被測(cè)網(wǎng)站與被保護(hù)網(wǎng)站的相似度.設(shè)被保護(hù)網(wǎng)站為x被測(cè)網(wǎng)站為,從而計(jì)算公式如下:
通過(guò)PhishTank(http://www.phishtank.com/)網(wǎng)站,抓取由用戶舉報(bào),已確定為釣魚網(wǎng)站的URL鏈接以及相關(guān)Whois信息分類保存。本實(shí)驗(yàn)主要針對(duì)PayPal和eBay這兩類網(wǎng)站收集數(shù)據(jù)進(jìn)行研究。目前已從PhishTank網(wǎng)站中保存釣魚網(wǎng)站共4812個(gè),其中PayPal有2610個(gè);eBay有2202個(gè)。經(jīng)標(biāo)簽選擇,參與檢測(cè)的實(shí)際釣魚網(wǎng)站數(shù)分別為PayPal為2490個(gè);eBay為1699個(gè)。
2.2.1 相似度結(jié)果及分析
收集PayPal和eBay釣魚網(wǎng)站數(shù)據(jù),通過(guò)公式(1)計(jì)算PayPal和eBay的官方網(wǎng)站與被測(cè)釣魚網(wǎng)站得出相似度值,分布如下圖2所示:
圖2 受保護(hù)網(wǎng)站與被測(cè)網(wǎng)站相似度點(diǎn)圖
圖2(a)、(b)中,橫坐標(biāo)為通過(guò)余弦公式計(jì)算所得的0到1之間的值,即相似度值,縱坐標(biāo)具有相同相似度值的網(wǎng)站個(gè)數(shù)。觀察圖2(a)發(fā)現(xiàn),PayPal受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值集中分布在0.67附近以及0.65到0.67之間。而由圖2(b)可知,eBay受保護(hù)網(wǎng)站和釣魚網(wǎng)站相似度值在0.56、0.57以及0.69這三個(gè)值的數(shù)量較多。
2.2.2 聚類分析
為了能更直接、清晰地觀察實(shí)驗(yàn)所得的數(shù)據(jù),且觀察可知,實(shí)驗(yàn)樣本的相似度值數(shù)據(jù)為2維連續(xù)空間?;诖?,采用常用于對(duì)n維連續(xù)空間中的對(duì)象進(jìn)行聚類的K-means均值法對(duì)數(shù)據(jù)進(jìn)行聚類分析,以便更準(zhǔn)確地確定釣魚網(wǎng)站排查閾值。
基于K-means均值聚類基于原型而劃分類別的特點(diǎn),選定k=7。設(shè)定相似度值0到0.8之間均分八等分為初始狀態(tài),取間隔的點(diǎn)作為初始聚類中心相似度值點(diǎn)。
本實(shí)驗(yàn)部分網(wǎng)頁(yè)源代碼中未含有任何實(shí)驗(yàn)所需的HTML標(biāo)簽的樣本。聚類分析結(jié)果如下表2和表3所示:
表2 PayPal聚類結(jié)果
表3 eBay聚類結(jié)果
為了檢測(cè)閾值的精準(zhǔn)度,采用反應(yīng)算法準(zhǔn)確性的查準(zhǔn)率(precision)、反應(yīng)算法漏報(bào)性的召回率(recall)以及F值對(duì)其檢測(cè)結(jié)果進(jìn)行評(píng)估。具體計(jì)算公式如下所示:
本算法融合了網(wǎng)頁(yè)噪聲與n-gram對(duì)釣魚網(wǎng)站進(jìn)行檢測(cè)。較以往的防御算法計(jì)算成本更低。又選定網(wǎng)頁(yè)中變化較少的網(wǎng)頁(yè)噪聲作為特征來(lái)描述整個(gè)網(wǎng)頁(yè),使算法性能得到了很大提升,相應(yīng)穩(wěn)定性也更優(yōu)。同時(shí),針對(duì)PayPal和eBay網(wǎng)站設(shè)定了釣魚網(wǎng)站排查閾值,達(dá)到了快速、有效地檢測(cè)釣魚網(wǎng)站惡意攻擊的目的。較其他算法,該算法計(jì)算量小,精確度高,能更好的應(yīng)對(duì)當(dāng)今互聯(lián)網(wǎng)變化快、數(shù)據(jù)量大的特點(diǎn)??紤]現(xiàn)在互聯(lián)網(wǎng)帶來(lái)的大數(shù)據(jù)以及云計(jì)算的發(fā)展趨勢(shì),今后的工作將是把釣魚網(wǎng)站的防御大數(shù)據(jù)化,智能化,并在檢測(cè)中達(dá)到效率和性能的高度平衡。
[1]Liu YANG,Zhang MIAO. Title:Financial Websites Oriented Heuristic Anti-Phishing Research,2012[C]. China:Chinese Association of Artificial Intelligence,2012:21-27. [Proceedings of 2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems]
[2]Huang C,Ma S,Chen K. Using One-Time Passwords to Prevent Password Phishing Attacks [J]. 2011,34(4):1292-1301.[Journal of Network and Computer Applications.]
[3]Garera S,Provos N,Chew M. Title:A Framework for Detection and Measurement of Phishing Attacks,2007[C],American:Johns Hopkins University,2007:1-8. [Proc. of WORM’07]
[4]Chou N,Ledesma R,Teraguchi Y,et al. Client-side Defense against Web-based Identity Theft [EO/BL].http://crypto.stanford.edu/SpoofGuard/webspoof.pdf,2007-7-5.
[5]Kirda E,Kruegel C. Protecting Users against Phishing Attacks [J].2006,49(5):554-561. [The Computer Journal]
[6]Zhang H,Liu G,Chow T W S,et al. Textual and Visual Content-Based Anti-Phishing:A Bayesian Approach [J]. 2011,22(10):1532-1546. [IEEE Transactions on Neural Networks]
[7]Abbasi A,Zhang Z,Zimbra D,et al. Detecting Fake Websites:The Contribution of Statisitical Learning Theory [J]. 2010,34(3):1-28. [MIS Quarterly]
[8]Miyamoto D,Hazeyama H,Kadobayashi Y. An Evaluation of Machine Learning-based Method for Detection of Phishing Sites [J].2009,5506:539-546 . [Lecture Notes in Computer Science]
[9]Huang C,Ma S,Yeh W,et al. Mitigate Web Phishing Using Site Signatures,2010 [C]. 2010:803-808.[ IEEE Region 10 International Conference TENCON 2010]
[10]Aburrous M,Hossain M A,Dahal K,et al. Intelligent Phishing Detection System for E-banking using Fuzzy Data Mining [J].2010,37:7913-7921. [Expert Systems with Applications]
[11] Huang H J,Wang Y J,Xie L L,et al. An Active Anti-Phishing Solution Based on Semi-fragile Watermark [J]. 2013,12(1):198-203. [Information Technology Journal]
[12]Huang HJ,Qian L,Wang YJ. A SVM-Based Technique to Detect Phishing URLs [J]. 2012,11(7):921-925. [Information Technology Journal]
[13]毛先領(lǐng),何靖,閆宏飛.網(wǎng)頁(yè)去噪:研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展.2010,47(12):2025-2036.