亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進BP算法的DNS圖挖掘惡意域名檢測方法

        2022-01-21 02:02:08蔡滿春蘆天亮
        關(guān)鍵詞:馬爾可夫域名被動

        馬 驍,蔡滿春,蘆天亮

        (中國人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京 102600)

        0 引言

        惡意域名為近來網(wǎng)絡(luò)攻擊者所使用的主要手段,它也是互聯(lián)網(wǎng)資源URL的重要組成部分[1],互聯(lián)網(wǎng)設(shè)置及其相關(guān)管理政策中很少有漏洞允許這些惡意域名在DNS服務(wù)器上注冊。雖然黑名單可以簡單、快速識別此類惡意域名,但該技術(shù)無法滿足域名生成和注冊對速度的要求[2]。

        前人在研究中已經(jīng)開始使用DNS數(shù)據(jù)的特征,一般方法從DNS記錄、查詢和響應(yīng)中提取多個特征,并進一步利用歷史模式和本地主機的網(wǎng)絡(luò)流量特征來增強這些特征,基于這些特征和一些訓(xùn)練數(shù)據(jù)集,可以建立一個分類器來區(qū)分惡意域和良性域[3-4]。但這不僅需要識別更多相關(guān)的特征,并且這些所依賴的特征穩(wěn)定性不強,攻擊者可以很輕易地改變這些特征,使分類器無法檢測出來,其根本原因是現(xiàn)有的研究中所依賴的許多特性都是關(guān)于單個域或主機的本地特性。已經(jīng)有很多檢測惡意域名相關(guān)研究。在此,將簡要討論與本研究方法最相關(guān)的代表性工作。

        Notos[5]是使用被動DNS數(shù)據(jù)識別惡意域名的先驅(qū)。Notos基于從DNS查詢中提取的特征動態(tài)分配未知域的聲譽分?jǐn)?shù)。Expose[6]遵循類似的方法,并克服了Notos的一些限制(例如,Expose需要更少的訓(xùn)練時間和更少的訓(xùn)練數(shù)據(jù))。此外,Expose的不同之處在于它不知道惡意域提供的服務(wù)類型(例如,僵尸網(wǎng)絡(luò)、釣魚、快速流動)。本研究通過關(guān)注在ip上部署惡意域的全局拓?fù)?,而不是其本地特性,是對Expose和Notos的補充。當(dāng)Expose和Notos能夠訪問單個DNS查詢時,它們的檢測性能最好,這可能是相當(dāng)敏感的。本研究方法同時適用于公共聚合的被動DNS數(shù)據(jù),因此不會引起隱私問題。

        Rahbarinia[7]等人提出了一種基于行為的技術(shù)來跟蹤惡意軟件控制的域。其主要思想是從DNS查詢?nèi)罩局刑崛〕龆恐鳈C域圖的用戶行為模式。相反,本研究使用的技術(shù)利用的是被動DNS數(shù)據(jù),而不是用戶DNS查詢行為,Rahbarinia所使用的特性不適用于本研究的被動DNS數(shù)據(jù)。

        Pratyusa K.Manadhata[8]等人提出通過分析DNS查詢?nèi)罩緛碜R別惡意域。其主要技術(shù)是建立一個二部主域圖(由主機查詢哪些域),然后根據(jù)已知的惡意域和良性域,應(yīng)用置信傳播來發(fā)現(xiàn)惡意域。其原理是:如果主機查詢一個惡意域名,該主機很有可能被惡意域攜帶的病毒感染,同樣被感染主機查詢的域名更有可能是惡意的。被動DNS數(shù)據(jù)也可以被建模為二部圖,通過在被動DNS數(shù)據(jù)上應(yīng)用信念傳播來識別惡意域似乎很有說服力。然而,研究發(fā)現(xiàn)推理直覺雖然在主機域圖中工作得很好,但在被動DNS數(shù)據(jù)中推理直覺卻不能很好地發(fā)揮作用。與主機域圖相比,域解析圖具有以下幾方面優(yōu)勢:首先,被動DNS數(shù)據(jù)是在全局收集數(shù)據(jù),提供了域和ip之間映射的更全面的視圖,而主機域圖通常僅限于單個企業(yè)或ISP的視角;其次,主機域圖包含關(guān)于單個用戶敏感的私有信息,分享這些信息可能會引起嚴(yán)重的隱私問題;再者,域解析圖是域ip映射的聚合信息,而不涉及個人的信息,是可以公開共享的。

        B.Guan[9]等人設(shè)計了一種對域名惡意概率評分的方法。他使用被動DNS數(shù)據(jù)來構(gòu)建一個域解析圖,并在此基礎(chǔ)上,構(gòu)建了未知域到惡意域的任意路徑,給出了未知域惡意概率評分的數(shù)學(xué)公式。該方法對小標(biāo)記數(shù)據(jù)非常靈活,它只關(guān)心是否存在從域到惡意的路徑,并基于該路經(jīng)計算惡意分?jǐn)?shù)。與該方法相比,本研究通過對BP算法進行改進,使檢測方式更加靈活。DNS圖中節(jié)點之間的關(guān)聯(lián)是通過DNS數(shù)據(jù)建立的,并依賴所有節(jié)點之間的關(guān)聯(lián)來計算信譽評分,以此判斷圖中每個節(jié)點是否合法。

        已有的研究雖然也涉及到被動DNS數(shù)據(jù),但本文提出的檢測方法與前人所不同的是DNS圖中節(jié)點之間的關(guān)聯(lián)是通過DNS數(shù)據(jù)建立的,并依賴所有節(jié)點之間的關(guān)聯(lián)來計算信譽評分,從而判斷圖中每個節(jié)點是否合法。并且該方法也是基于域分辨率圖的,考慮到馬爾可夫隨機場(MRF),我們采用了一個新的置信傳播算法來獲得域的惡意評分。

        通過對BP算法的改進,并使用精確率(也稱查準(zhǔn)率)、召回率(也稱查全率)、正確率、F-measure和ROC曲線下面積(AUC)來衡量該方法的有效性,精確率、召回率和正確率均超過95%,F(xiàn)-measure和AUC也展示出良好的結(jié)果。在實驗操作中,以域名和主機ip為數(shù)據(jù)源構(gòu)建DNS圖,挖掘域和主機ip之間的內(nèi)在關(guān)系,并基于BP算法的思想開發(fā)了一種基于同質(zhì)化關(guān)系計算圖中每個節(jié)點信譽評分的算法。

        1 可用于圖挖掘的BP算法

        在信息產(chǎn)業(yè)如此發(fā)達的今天,用戶產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)包含有許多信息,為了從數(shù)據(jù)中提取有價值的信息,數(shù)據(jù)挖掘應(yīng)運而生,而圖挖掘正是數(shù)據(jù)挖掘的重要組成部分,圖挖掘是指通過圖模型的方法來提取數(shù)據(jù)。

        被動DNS通過復(fù)制用戶在其DNS基礎(chǔ)設(shè)施中自愿部署的傳感器捕獲服務(wù)器間的DNS消息,并將捕獲的DNS消息進一步處理,然后存儲在一個中央DNS記錄數(shù)據(jù)庫,就可以對其進行各種查詢,它提供了域和ip之間映射的全面視圖[10]。我們使用網(wǎng)站的API從www.dnsdb.info下載了被動DNS數(shù)據(jù)庫,被動DNS數(shù)據(jù)包含了DNS不同方面的豐富信息,本文主要分析DNS數(shù)據(jù)中的A記錄,僅使用(d,ip)兩列[11]。d為域名,解析為ip。盡管DNS記錄的許多特征都可以被它所屬的域名進行改變,但攻擊者必須在其控制或訪問的ip上托管惡意域名。此外,一些惡意域名經(jīng)常采用逃避檢測策略,如頻繁創(chuàng)建新域名、更換域名等措施,使其動態(tài)特征存在于惡意域名組之間,而不是單個域名[12]之中。實際上惡意域名正在隨著時間的推移在互聯(lián)網(wǎng)空間中大量移動,同時在移動的過程中共享一些不同的特性。因此,很有可能多個惡意域名最終被托管在同一個ip上,同樣也有可能多個ip被用來托管同一個惡意域名,這在它們之間創(chuàng)建了內(nèi)在的關(guān)聯(lián)。為了消除這種關(guān)聯(lián),攻擊者必須盡量減少托管惡意域的ip數(shù)量以及每個ip所托管的惡意域的數(shù)量。而要做到這一點,攻擊者則會付出極高的成本代價,并限制自身對可用資源的利用。因此,我們認(rèn)為域名和ip之間的關(guān)聯(lián)為研究攻擊者如何組織和部署惡意資源提供了一個可靠穩(wěn)定的方法,這可以進一步用于圖的構(gòu)建。所構(gòu)建的圖是一個二部圖,一邊對應(yīng)域,另一邊對應(yīng)ip,如圖1所示,它只有域名與ip的連接。如果存在A記錄中存在(d,ip)兩列,則從域d到ip形成一條邊,在圖1中由箭頭表示。

        圖1 域名解析圖

        置信傳播算法(Belief propagation,BP)也被稱為和積消息傳遞[13],像貝葉斯網(wǎng)絡(luò)和馬爾可夫隨機場都是對圖形模型(GM)執(zhí)行推理的消息傳遞算法,以任何觀察到的節(jié)點為條件來計算每個未觀察到的節(jié)點的邊緣分布。置信傳播算法是人工智能和信息理論中常用的方法,并在許多應(yīng)用中得到應(yīng)用[14-15]。

        作為馬爾可夫隨機場模型的基礎(chǔ),BP算法最重要的元素之一是馬爾可夫特性。BP算法依賴于圖上節(jié)點的交互,當(dāng)BP在圖上運行時,消息在任意兩個相鄰節(jié)點之間按照馬爾可夫性質(zhì)進行交互。因此,在解釋所提算法的操作之前,首先簡單地討論一下馬爾可夫隨機場。

        馬爾可夫隨機場(MRF)是一組具有馬爾可夫性質(zhì)的隨機變量,由無向圖描述。無向圖G=(V,E),其中V=v1,v2,…,vn是頂點集合。每個頂點對應(yīng)一個隨機變量[16],因為它具有馬爾可夫性質(zhì),因此它只依賴于其相鄰節(jié)點的性質(zhì)。給定一個節(jié)點vi∈V,Ni是節(jié)點vi的鄰居集,如果(vi,vj)∈E,且vj∈Ni,則節(jié)點vi是節(jié)點Ni的鄰集。那么MRF符合局部屬性:

        (1)沒有結(jié)合物聯(lián)網(wǎng),實物信息沒有上鏈,實現(xiàn)共享。傳統(tǒng)的貨物信息監(jiān)督依靠第三方監(jiān)管,或者是核心企業(yè)本身,信息有一定的滯后。實物信息沒有定量化,后期跟蹤成本高,影響信息對稱的問題,阻礙了供應(yīng)鏈金融的發(fā)展。

        P(vi|vjvj∈V/vi)=P(vi|vjvj∈Ni)

        (1)

        將MRF模型的上述特性應(yīng)用到DNS圖中,DNS圖的每個頂點對應(yīng)一個隨機變量,該隨機變量代表主機ip或域名的隨機變量[17]。然后,為了檢測惡意域,定義一個知識集為D=(dl,dm),其中vi=dl表示該主機ip或域是合法的,其余表示該主機ip或域是惡意的。

        2 用于DNS圖挖掘惡意域名檢測的BP算法改進

        本研究提出的方法承繼了BP算法的所有特性,并添加了一些條件來優(yōu)化操作,提高算法的性能以獲得最終結(jié)果。該算法允許圖中的每個節(jié)點通過傳遞消息作為證據(jù)與其鄰域進行交互,以評估其鄰域的標(biāo)簽。算法開始時,給圖上的每個節(jié)點vi賦初始值為惡意概率,標(biāo)記為函數(shù)Fi(vi)。節(jié)點的fji(vi,vj)=P(vi|vj),即節(jié)點vj具有標(biāo)記vj時,vi具有vi的概率。因為圖是無向的,所以相鄰兩個節(jié)點的勢函數(shù)是對稱的,即fji(vi,vj)=fji(vj,vi),如表1所示:

        表1 兩個節(jié)點之間的推斷表

        其中0

        該算法的原理是基于消息傳遞,一個消息從vi發(fā)送到vj,問節(jié)點vi如何看待它鄰居的標(biāo)簽。消息從vi傳遞到vj標(biāo)記為mij(xi),如圖2所示。對于?eji∈E,將消息mij(vi)和mji(vj)按以下公式計算,計算節(jié)點vi到節(jié)點vj的消息:

        (2)

        如公式(2)所示,當(dāng)節(jié)點vi希望向節(jié)點vj發(fā)送消息時,必須先收集其相鄰節(jié)點的所有消息,然后再向節(jié)點vj發(fā)送消息。在BP方法中,所有節(jié)點都實時地將自己的想法發(fā)送給它們的鄰居,但沒有必要這樣做,因為并不是圖上的所有節(jié)點都有知識可以發(fā)送給它的鄰居。例如在第一次交互中,只有知識節(jié)點可以向它的鄰居發(fā)送消息,告訴他們?nèi)绾慰创约旱膼阂飧怕?,因為所有剩余的?jié)點的惡意概率都是0.5,告訴它的鄰居的惡意概率是沒有意義的。所以我們設(shè)置一條規(guī)則,只有節(jié)點的惡意概率不等于0.5時才發(fā)送消息。加入算法的第二條規(guī)則是考慮知識節(jié)點的惡意概率。在每次交互中,知識節(jié)點的概率不應(yīng)該再次計算,因為它的標(biāo)簽是已知的,無論它的鄰居怎么想它都不能改變。

        圖2 信息間的傳遞

        (3)

        (4)

        (5)

        3 實驗

        3.1 實驗準(zhǔn)備

        通過在www.alexa.com、Bambenek Consulting (https:∥osint.bambenekconsulting.com/feeds/)和360網(wǎng)絡(luò)安全實驗室(https:∥data.netlab.360.com/dga/)上可以收集到實驗所需的十萬個良性域名和十萬個惡意域名。將這些域名分為兩組,一組用于訓(xùn)練模型,一組用于實驗。

        實驗所用來構(gòu)建DNS圖的數(shù)據(jù)從DNS數(shù)據(jù)服務(wù)器中收集,被動DNS數(shù)據(jù)包括域名系統(tǒng)不同方面的豐富信息,本文主要分析域名系統(tǒng)數(shù)據(jù)中A記錄的域名和ip數(shù)據(jù)。由于Graphlab上的幾乎所有功能都是并行運行的,可以快速高效地得到結(jié)果和數(shù)據(jù),所有的處理都是在Graphlab上遠程完成的。Graphlab在處理對象之間關(guān)系數(shù)據(jù)時表現(xiàn)出良好的性能。雖然實現(xiàn)起來相當(dāng)復(fù)雜,但對于某些網(wǎng)絡(luò)問題來說,它要優(yōu)于其他的方法。

        首先對無知識的子圖進行處理,DNS圖中并不是所有節(jié)點都可以連接在一起成為大圖,因而DNS圖中存在大量的子圖,而有些子圖對惡意域和合法域一無所知,從而不能計算出惡意評分,所以,將他們從構(gòu)建的圖表中刪除。其次,實驗通過直接與BP算法交互來提高算法性能的結(jié)果,BP算法的主要思想是在接收到鄰居節(jié)點的消息后,改變圖上所有節(jié)點的概率。但惡意節(jié)點或白節(jié)點是已知的,其概率不應(yīng)改變,因此,在實驗中,知識節(jié)點的概率固定為初始值。通過進行對比實驗,將改進BP算法與標(biāo)簽傳播算法[18]以及通過被動DNS數(shù)據(jù)圖分析發(fā)現(xiàn)惡意域名的方法進行比較,說明改進方法的有效性。

        從圖上所有頂點和邊的初始值開始,該算法將挖掘出的圖與已知的部分圖一起進行處理,從而判斷其惡意或合法。這被稱為先驗知識,惡意節(jié)點的初始聲譽得分為0.99,合法節(jié)點為0.01。所有其他節(jié)點為未知標(biāo)簽,它的聲譽評分為0.5。在所有邊中,一個常數(shù)值表示兩個相鄰節(jié)點的關(guān)系,如表1所示。BP算法將在具有上述初始值的圖上進行挖掘,并運行至滿足某個閾值或達到交互次數(shù)的限制為止。但在實驗過程中閾值固定設(shè)置為0.005,對于任何子圖,所有節(jié)點的消息傳遞將以最大10次進行交互。收斂條件設(shè)為:

        (6)

        3.2 實驗結(jié)果

        通過使用精確率(也稱查準(zhǔn)率)、召回率(也稱查全率)、正確率、F-measure和ROC曲線下面積(AUC)來衡量改進BP算法的有效性,準(zhǔn)確度是通過得到模型正確識別的個體數(shù)與識別出來的個體總數(shù)之比來反應(yīng)其正確率;召回率是正確識別的個體總數(shù)與測試集中存在的個體總數(shù)之比;F-measure值是精確度和召回率的調(diào)和平均值;ROC通過預(yù)測正例排在負(fù)例前面的概率來衡量二分類模型優(yōu)劣程度。

        為了證明本研究提出的改進方法在性能上的優(yōu)越性,將改進的BP算法與標(biāo)簽傳播算法[18](Label Propagation Algorithm)以及基于被動DNS數(shù)據(jù)圖分析檢測惡意域名[19]進行對照,與處理此數(shù)據(jù)的步驟相同,也是在Graphlab中完成操作。LPA是基于圖的半監(jiān)督學(xué)習(xí)方法,它的思路是基于標(biāo)記的節(jié)點信息去預(yù)測未標(biāo)記的節(jié)點信息。對照結(jié)果如下所示,其中圖3是3種算法的ROC曲線,圖4是3種算法的P-R曲線,表2為3種算法的性能對照。

        圖3 3種方法的ROC曲線

        圖4 3種方法的P-R曲線

        表2 3種方法的性能對照

        通過比較3種方法的ROC曲線以及精確率等性能指標(biāo),不難看出本研究的改進BP算法與其他兩種方法相比優(yōu)勢明顯。同時我們也表明這個結(jié)果與標(biāo)簽傳播中的惡意域并不矛盾,因為他們的方法是針對不同類型的數(shù)據(jù)進行推斷而設(shè)計的。

        4 結(jié)束語

        本文提出了一種基于DNS圖的惡意域名挖掘方法,通過添加算法的條件來改進BP算法,并將改進后的BP算法應(yīng)用于基于DNS圖的惡意域檢測中。DNS圖能表示域之間的關(guān)系及其ip地址,在對圖上所有節(jié)點設(shè)置初始值后,使用置信傳播法計算圖節(jié)點的信譽,這種方法在關(guān)系分類問題上取得了顯著的效果。該算法應(yīng)用于真實DNS流量,其精確率、正確率和召回率均超過95%,這表明,該方法在實際應(yīng)用中對惡意域檢測是有效的。此外,此方法并不限定于特定的DNS技術(shù),對于DGA、惡意軟件、僵尸網(wǎng)絡(luò)等都可以發(fā)揮作用,具有較強的可擴展性和有效性。因此,實驗結(jié)果證明了提出的改進BP算法可以很好地解決惡意域檢測問題。目前,本研究僅使用被動DNS數(shù)據(jù)庫中的A記錄構(gòu)建DNS圖,下一步如何將記錄類型擴展為NS、MX、PTR等,以增強節(jié)點間的關(guān)系,并評估改進后的檢測效果是需要我們進一步研究的內(nèi)容。

        猜你喜歡
        馬爾可夫域名被動
        新聞?wù)Z篇中被動化的認(rèn)知話語分析
        主動句都能轉(zhuǎn)換成被動句嗎
        第五課 拒絕被動
        趣味(語文)(2019年5期)2019-09-02 01:52:44
        如何購買WordPress網(wǎng)站域名及綁定域名
        保費隨機且?guī)в屑t利支付的復(fù)合馬爾可夫二項模型
        基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
        騰訊八百萬美元收購域名
        應(yīng)用馬爾可夫鏈對品牌手機市場占有率進行預(yù)測
        認(rèn)知無線網(wǎng)絡(luò)中基于隱馬爾可夫預(yù)測的P-CSMA協(xié)議
        頂級域名爭奪戰(zhàn):ICANN放出1930個通用頂級域名,申請者有上千家
        国产h视频在线观看| 中国av一区二区三区四区| 丰满又紧又爽又丰满视频| 欧美黑人又粗又大xxxx| 国外亚洲成av人片在线观看| 亚洲另类激情综合偷自拍图| 黄色中文字幕视频网站| 亚洲国产精品高清一区| 99精品国产一区二区三区a片| 九九精品无码专区免费| 男女啪啪免费视频网址| 西川结衣中文字幕在线| 久久人与动人物a级毛片| 99久久99久久久精品久久| 天堂精品人妻一卡二卡| 免费观看a级毛片| 无码熟妇人妻av在线影片| 91精品欧美综合在线观看| 国产老熟女伦老熟妇露脸| 国产内射爽爽大片视频社区在线 | 精品久久人妻av中文字幕| 欧美丰满熟妇bbb久久久| 国产精品户露av在线户外直播| 午夜无码国产18禁| 日本一区二区在线高清| 日韩人妻无码精品久久久不卡| 国产av成人精品播放| 中文字幕日韩精品亚洲精品| 国产精品女同久久久久电影院| 亚洲国产人在线播放首页| 手机AV片在线| 一区二区三区日本伦理| 毛片a级毛片免费观看| 精选麻豆国产AV| 亚洲一区二区av天堂| 99久久免费只有精品国产| 久久国产成人精品国产成人亚洲| 日本少妇比比中文字幕| 亚洲av日韩av激情亚洲| 性欧美大战久久久久久久久| 中文字幕精品亚洲无线码二区 |