亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        釣魚網(wǎng)站檢測技術(shù)研究綜述

        2021-11-12 09:06:22云雷李丹王歡歡
        關(guān)鍵詞:黑名單釣魚特征提取

        云雷,李丹,王歡歡

        (工業(yè)和信息化部電子第五研究所,廣東 廣州 511370)

        0 引言

        互聯(lián)網(wǎng)的發(fā)展對在線銀行、電子商務和社交網(wǎng)絡等許多應用程序的業(yè)務增長和促進產(chǎn)生了積極的影響,為人類的工作與生活提供了眾多便利;與此同時,由于互聯(lián)網(wǎng)具有開放性與匿名性的特點,互聯(lián)網(wǎng)中不可避免地存在著網(wǎng)絡信息安全隱患。其中,釣魚網(wǎng)站是網(wǎng)絡中眾所周知的安全威脅之一,大量的網(wǎng)絡攻擊都與釣魚網(wǎng)站有關(guān)。

        釣魚網(wǎng)站是用于網(wǎng)絡攻擊的網(wǎng)絡鏈接。網(wǎng)絡鏈接一般由資源類型、存放資源的主機域名和資源名稱組成,也可稱為由協(xié)議、主機、端口和路徑4個部分組成的網(wǎng)絡鏈接,如圖1所示,且?guī)Х嚼ㄌ枴癧]”的為可選項。網(wǎng)絡鏈接中有相當多的一部分是釣魚網(wǎng)站[1],釣魚網(wǎng)站的攻擊方式多樣,與良性網(wǎng)站鏈接極其相似,用戶不易區(qū)分,用戶訪問釣魚網(wǎng)站即成為各種騙局的受害者,將會造成金錢損失、私人信息泄露和重要資料丟失等。

        圖1 網(wǎng)絡鏈接標準格式

        使用釣魚網(wǎng)站的主要攻擊類型包括:網(wǎng)絡釣魚、偷渡式下載和垃圾郵件。網(wǎng)絡釣魚[2]通過假冒原始網(wǎng)頁誘騙用戶泄露私人或敏感信息。偷渡式下載[3]是指用戶訪問網(wǎng)絡鏈接時對惡意軟件的無意下載,通過利用插件中的漏洞或通過JavaScript插入惡意代碼來進行此類攻擊。垃圾郵件[4]是出于廣告或網(wǎng)絡釣魚目的而未經(jīng)請求的郵件的使用,NIST基于垃圾郵件開發(fā)了一個評估釣魚網(wǎng)站風險的工具,基于垃圾郵件里面的釣魚網(wǎng)站,該工具考慮了網(wǎng)絡釣魚線索和用戶背景,評估其組織網(wǎng)絡釣魚活動的難度并解釋相關(guān)的點擊率[5]。釣魚網(wǎng)站的滋生已經(jīng)對網(wǎng)絡信息安全構(gòu)成了極大的威脅,對用戶的網(wǎng)絡安全造成了極大的破壞,能夠及時準確地檢測到釣魚網(wǎng)站的研究是迫切的。釣魚網(wǎng)站的相關(guān)研究者從頁面采集、特征提取和檢測技術(shù)方面進行不斷的突破,并提出有效的解決方案。

        1 釣魚網(wǎng)站的檢測技術(shù)

        現(xiàn)有的釣魚網(wǎng)站檢測技術(shù)研究大部分是基于黑名單[5]、 信譽系統(tǒng)[6]、 主機[7-8]、 詞匯[9-10]、 蜜罐技術(shù)[11-12]、入侵檢測技術(shù)[13-14]和機器學習方法[15-16]等方式。一直以來應用最為廣泛的為基于黑名單和機器學習方法,下面將從這兩個方面介紹釣魚網(wǎng)站的檢測技術(shù)。

        1.1 黑名單方法

        黑名單方法是釣魚網(wǎng)站檢測中常見的一種技術(shù),是一種極為簡單的檢測技術(shù), 基于黑名單的過濾是針對釣魚網(wǎng)站的主要對策。此方法是將已被確定為釣魚網(wǎng)站的數(shù)據(jù)放入數(shù)據(jù)庫中,組成釣魚網(wǎng)站黑名單數(shù)據(jù)庫。每當訪問新的網(wǎng)絡鏈接時,首先在黑名單數(shù)據(jù)庫中查找,如果該網(wǎng)絡鏈接存在于黑名單中,即被認為是惡意的,并生成警告;否則為良性。傳統(tǒng)上,這種檢測主要通過使用黑名單來完成。但是,黑名單不能詳盡無遺,并且缺乏檢測新生成的釣魚網(wǎng)站的能力[17]。黑名單必須實時地更新,因為釣魚網(wǎng)站往往壽命很短,并且其子字符串可能會采取部分突變的方法以避免被列入黑名單中。基于此,Akiyama等人[18]提出了一種有效的黑名單網(wǎng)絡鏈接生成方法。嘗試使用搜索引擎來發(fā)現(xiàn)釣魚網(wǎng)站附近的網(wǎng)絡鏈接,并通過使用已列入黑名單的網(wǎng)絡鏈接以按照驅(qū)動下載和點擊下載感染實驗性地評估了此文建議的生成方法,證實了此方式的有效性。Prakash等人[19]使用近似匹配算法,該算法將網(wǎng)絡鏈接分解為多個組件,這些組件分別與黑名單中的條目匹配,以此方式完成釣魚網(wǎng)站的檢測研究。

        Hong等人[20]經(jīng)過文獻調(diào)查后收集了許多詞匯特征,并將它們與列入黑名單的域結(jié)合起來以提高檢測性能。Yagi等人[21]假定未知釣魚網(wǎng)站存在于由同一對手創(chuàng)建的已知釣魚網(wǎng)站的附近。提出了一種有效的黑名單網(wǎng)絡鏈接生成方法,該方法通過使用搜索引擎來發(fā)現(xiàn)釣魚網(wǎng)站附近的網(wǎng)絡鏈接。但是,由于大多數(shù)開放式數(shù)據(jù)集已過時,因此收集了許多最新的釣魚網(wǎng)站。由于釣魚網(wǎng)站往往壽命很短,并且可以對其進行部分變異以避免黑名單,因此必須更新黑名單。

        盡管諸如釣魚網(wǎng)站黑名單之類的解決方案在某種程度上具有有效性與簡單易行的優(yōu)勢,但是它們依賴與黑名單條目的精確匹配,使攻擊者易以逃避、無法維護所有可能的釣魚網(wǎng)站的詳盡列表,因為每天都可以輕松地生成新的網(wǎng)絡鏈接,從而使他們無法檢測到新的威脅[22]。并且,由于難以保持詳盡的最新名單,因此遭受了虛假的高誤報[23]。當攻擊者通過算法生成新的網(wǎng)絡鏈接,從而可以繞過所有的黑名單時,這一點尤其重要。盡管黑名單面臨一些問題,但由于其有效性與簡單易行的特點,它們?nèi)匀皇钱斀裨S多防病毒系統(tǒng)最常用的技術(shù)之一。

        1.2 機器學習方法

        由于黑名單不能窮舉,也無法檢測到新生成的釣魚網(wǎng)站,為了解決這個問題,近年來使用機器學習方法進行釣魚網(wǎng)站檢測的研究工作[24]很盛行。即將釣魚網(wǎng)站檢測的問題形式化為機器學習任務。在將網(wǎng)絡鏈接轉(zhuǎn)換為特征向量之后,通??梢詫W習算法中的許多算法以相當直接的方式應用于訓練預測模型。在設計特定的學習算法方面,要么利用釣魚網(wǎng)站的訓練數(shù)據(jù)顯示的屬性,要么解決應用程序面臨的一些特定的挑戰(zhàn)。Cui等人[25]提出了一種基于梯度學習的統(tǒng)計分析和使用S形閾值水平的特征提取相結(jié)合,基于機器學習技術(shù)的新檢測方法。

        在現(xiàn)實世界中的釣魚網(wǎng)站檢測任務中,釣魚網(wǎng)站與良性網(wǎng)絡鏈接的數(shù)量之間的比例非常不平衡,這使其非常不適合簡單地優(yōu)化預測準確性。此外,現(xiàn)有工作的另一個主要局限性是假設有大量的培訓數(shù)據(jù)可用,這是不切實際的,因為人工標簽的成本是非常昂貴的。為了解決這些問題,Zhao等人[26]提出了一種成本敏感的在線主動學習(CSOAL)的新穎框架,該框架僅查詢小部分訓練數(shù)據(jù)進行標記,并直接優(yōu)化了兩種成本敏感的措施來解決班級不平衡問題。Kumar等人[27]基于機器學習分類算法,提出了一種用于檢測釣魚網(wǎng)站的多層模型。過濾器可以通過訓練每個層過濾器的閾值來在到達閾值時直接確定網(wǎng)絡鏈接;否則,過濾器會將網(wǎng)絡鏈接留給下一層。

        研究中有各種各樣的機器學習算法,可以直接在釣魚網(wǎng)站檢測的上下文中使用。由于潛在的培訓數(shù)據(jù)量巨大,因此需要可擴展的算法,這就是為什么在線學習方法在該領(lǐng)域獲得了巨大成功的原因。在線主動學習旨在開發(fā)一種在線學習算法,用于訓練僅在需要時查詢傳入的未標記網(wǎng)絡鏈接實例的標簽的模型[28-29]。Lin等人[30]通過結(jié)合CW和PA算法,采用了一種混合在線學習技術(shù)。具體而言,CW用于從純詞匯特征中學習,而PA用于從描述性特征中學習。他們認為詞法功能可以更有效地檢測釣魚網(wǎng)站,而它們卻可以經(jīng)常更改,而描述性屬性則更穩(wěn)定、更靜態(tài)。在框架中引入了一種在線學習技術(shù),如果后端內(nèi)容分析引擎有任何反饋,則可以動態(tài)修改過濾模型。減輕了進行基于內(nèi)容的分析,以及將帶寬用于內(nèi)容檢索的負擔;并且可以與其他Web安全服務順利地組合在一起。

        然而,機器學習方法存在以下弊端:1)機器學習算法需要大量的數(shù)據(jù)進行學習訓練,然而數(shù)據(jù)量越大,計算量越大,需要消耗的時間越長,無法滿足日益激增的釣魚網(wǎng)站的實際情況;2)機器學習檢測技術(shù)需要帶有良性和惡意釣魚網(wǎng)站標簽的訓練數(shù)據(jù),難以獲得;3)特征提取對機器學習方法具有至關(guān)重要的影響,而特征提取具有極大的難度。

        圖2 基于機器學習方法檢測技術(shù)

        2 網(wǎng)站的特征提取

        訓練數(shù)據(jù)的質(zhì)量直接影響著機器學習算法的檢測效果,而訓練數(shù)據(jù)的質(zhì)量取決于特征提取的質(zhì)量。特征提取一般分為特征收集與特征預處理,特征收集階段是面向工程進行收集有關(guān)網(wǎng)絡鏈接的相關(guān)信息,從網(wǎng)絡鏈接字符串中獲得的功能,其中包括Google PageRank值[31]及搜索結(jié)果數(shù)[32]、Alexa流量信息[33]、域名信息[34]和WOT聲譽值[35]等信息。特征預處理階段是將有關(guān)網(wǎng)絡鏈接的非結(jié)構(gòu)化信息適當?shù)馗袷交?,并轉(zhuǎn)換為數(shù)值向量,以便可以被輸入到機器學習算法中。例如:數(shù)字信息可以原樣使用,而詞袋模型通常用于表示文本或詞匯內(nèi)容。如今可以將釣魚網(wǎng)站研究中的特征分為靜態(tài)特征和動態(tài)特征兩類,下面將從這兩個方面介紹釣魚網(wǎng)站研究中的特征要素。

        2.1 靜態(tài)特征

        靜態(tài)特征主要來自于網(wǎng)頁的靜態(tài)信息,主要為主機信息特征[36-37]、URL信息特征[38-39]和網(wǎng)頁內(nèi)容特征[40-41]3類。主機信息特征是從主機名的屬性中獲得的,因此,可以獲得多種主機的相關(guān)信息,深入網(wǎng)絡鏈接的主機內(nèi)部獲得信息,能夠提高特征的有效性,有利于釣魚網(wǎng)站檢測的相關(guān)研究,通過學習主機信息特征能夠獲得主機時間、身份和位置等相關(guān)信息。由于原始的URL數(shù)據(jù)是字符串,通過對機器學習的學習可以理解其是不可行的,因此必須將數(shù)據(jù)進行處理以得到有效的信息,此特征是從網(wǎng)絡鏈接數(shù)據(jù)本身得到的,此類信息即為數(shù)據(jù)的URL信息特征。網(wǎng)頁內(nèi)容特征即為從網(wǎng)頁中的圖片、文字、特殊字符和顏色等網(wǎng)頁信息中得到所有的信息、JavaScript代碼、網(wǎng)頁漏洞信息和鏈接關(guān)系等。靜態(tài)特征具有種類多樣、提取方式簡單和內(nèi)容豐富等優(yōu)點,由于不需要執(zhí)行,因此這些方法比動態(tài)方法更安全。

        2.2 動態(tài)特征

        動態(tài)特征主要來自于網(wǎng)頁的動態(tài)信息,常見的動態(tài)特征主要包括跳轉(zhuǎn)關(guān)系[42-43]、注冊表變化[44-45]、瀏覽器行為[46-47]和文件變化[48-49]等。動態(tài)分析技術(shù)包括監(jiān)視潛在受害者的系統(tǒng)行為,以查找任何異常情況,其中包括監(jiān)視系統(tǒng)調(diào)用序列中的異常行為[50],以及挖掘Internet訪問日志數(shù)據(jù)中的可疑活動[51]。動態(tài)特征的提取需要花費較長的時間,動態(tài)分析技術(shù)有固有的風險,并且難以實現(xiàn)和推廣。

        3 挑戰(zhàn)與展望

        目前釣魚網(wǎng)站檢測研究在檢測技術(shù)和特征提取方面都面臨著較大的挑戰(zhàn)。以往的研究已經(jīng)達到了瓶頸期,檢測技術(shù)方面沒有較新、效果更好的技術(shù)提出。特征提取固定于靜態(tài)特征與動態(tài)特征的特征提取方式,沒有新維度的特征提取方式提出,并且靜態(tài)特征與動態(tài)特征的提取角度也日趨固化,難有新的特征提取角度提出。

        基于釣魚網(wǎng)站檢測研究現(xiàn)狀,我們從檢測技術(shù)和網(wǎng)站的特征提取這兩個方面對未來發(fā)展方向提出展望。

        a)開展能夠自動地獲得釣魚網(wǎng)站數(shù)據(jù)的檢測研究

        針對現(xiàn)存技術(shù)受限于硬件條件、實驗條件的問題,相關(guān)研究使用計算機能夠在一定時間內(nèi)運算的個人構(gòu)建的數(shù)據(jù)集居多。未來隨著硬件條件、實驗條件的改善,開展能夠自動地獲得釣魚網(wǎng)站數(shù)據(jù)的檢測研究。將要構(gòu)建能夠隨著惡性或良性網(wǎng)絡鏈接的產(chǎn)生自動地更新數(shù)據(jù)的方式,并得到新的特征信息,自動地學習填充,以達到釣魚網(wǎng)站檢測研究更好的效果。

        b)針對釣魚網(wǎng)站動態(tài)特征研究來降低時間復雜度的提取方式

        由于動態(tài)特征的提取需要花費較長的時間,動態(tài)分析技術(shù)具有固有的風險。雖然現(xiàn)在的研究補充了特征提取的方法,但都是基于靜態(tài)特征的研究,未來的研究將要基于釣魚網(wǎng)站動態(tài)特征的自動獲取。并且期望能夠補充現(xiàn)有的已經(jīng)固化的動態(tài)特征的提取方法,針對釣魚網(wǎng)站動態(tài)特征研究來降低時間復雜度的提取方式,釣魚網(wǎng)站檢測研究將能夠達到更好的效果。

        4 結(jié)束語

        隨著越來越多的研究者對釣魚網(wǎng)站檢測領(lǐng)域日益漸增的關(guān)注,近幾年釣魚網(wǎng)站檢測的相關(guān)技術(shù)發(fā)展迅速。釣魚網(wǎng)站檢測研究大致能夠概括為檢測技術(shù)和特征提取兩個部分。本文從檢測技術(shù)和特征提取兩個方面總結(jié)了現(xiàn)存釣魚網(wǎng)站檢測領(lǐng)域的進展。從黑名單方法和機器學習方法方面對檢測技術(shù)進行了總結(jié),從靜態(tài)特征與動態(tài)特征方面對特征提取技術(shù)進行了總結(jié)。同時,本文也介紹了現(xiàn)存檢測技術(shù)面臨的困難,并對未來研究方向進行了展望。

        猜你喜歡
        黑名單釣魚特征提取
        防曬黑名單?第2款就翻車了!
        好日子(2022年6期)2022-08-17 07:16:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        受懲黑名單
        中國信用(2017年5期)2017-05-25 11:20:08
        受懲黑名單
        中國信用(2017年4期)2017-05-23 11:40:56
        Bagging RCSP腦電特征提取算法
        黑名單
        釣魚
        第七章 去泥盆紀釣魚
        小學科學(2015年6期)2015-07-01 14:28:58
        第七章 去泥盆紀釣魚
        小學科學(2015年6期)2015-07-01 14:28:58
        第七章去泥盆紀釣魚
        小學科學(2015年5期)2015-06-08 21:33:00
        美女视频黄的全免费视频网站| 美女被躁到高潮嗷嗷免费观看| 午夜影院免费观看小视频| 国产精品国产三级第一集 | 免费人妻精品区一区二区三 | 男女视频在线观看一区| 妺妺窝人体色www聚色窝仙踪| 日日碰狠狠添天天爽超碰97久久| 欧美大片va欧美在线播放| 久久99精品久久久久久9蜜桃 | 人妻少妇av中文字幕乱码| 福利视频一二区| 日本久久一级二级三级| av免费在线观看网站大全| 一本色道久在线综合色| 免费无码不卡视频在线观看| 久久精品www人人爽人人| 中国丰满熟妇xxxx| 对白刺激的老熟女露脸| 国产 在线播放无码不卡| 丰满少妇一区二区三区专区| 国产丝袜美腿在线播放| 在线观看国产成人自拍视频 | 国产人成在线成免费视频| 午夜亚洲精品视频网站| 亚洲长腿丝袜中文字幕| 日韩女同在线免费观看| 亚洲最大免费福利视频网| 又粗又黄又猛又爽大片免费| 欧洲女人性开放免费网站| jjzz日本护士| 亚洲视频精品一区二区三区| 玩弄人妻少妇精品视频| 理论片午午伦夜理片影院 | av蜜桃视频在线观看| 亚洲视频在线观看一区二区三区| 国产乱妇无码大片在线观看| 制服丝袜人妻中文字幕在线| 无码成人片一区二区三区| 精品国产一品二品三品| 日本av一级片免费看|