亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的惡意域名檢測(cè)方法研究

        2021-05-30 10:38:24張建輝孫皓月趙萬(wàn)旗
        關(guān)鍵詞:特征實(shí)驗(yàn)檢測(cè)

        張建輝 孫皓月 趙萬(wàn)旗

        (河北建筑工程學(xué)院,河北 張家口 075000)

        0 引 言

        域名系統(tǒng)(Domain Name System)為我國(guó)現(xiàn)代網(wǎng)絡(luò)業(yè)務(wù)提供了方便[1],增加了用戶的上網(wǎng)體驗(yàn).與此同時(shí),域名系統(tǒng)解析也成為僵尸網(wǎng)絡(luò)發(fā)動(dòng)攻擊的重要依托,為了逃避安全設(shè)施的檢測(cè),僵尸網(wǎng)絡(luò)的攻擊也越來越復(fù)雜,其中一個(gè)常見的技術(shù)就是在僵尸網(wǎng)絡(luò)中使用DGA域名生成算法,使攻擊服務(wù)器域名快速變化.在該方式下,控制服務(wù)器與受控機(jī)器的通信節(jié)點(diǎn)是動(dòng)態(tài)變化的,安全人員難以捕捉到控制服務(wù)器的域名和IP地址[2],以至于無法切斷聯(lián)系,阻止攻擊.僵尸網(wǎng)絡(luò)利用DGA域名生成算法進(jìn)行通信的原理如下:攻擊端和受控主機(jī)使用相同DGA算法,從生成的DGA域名中選取少量注冊(cè).由于通信節(jié)點(diǎn)處域名不斷變化,傳統(tǒng)的黑名單防護(hù)手段在更新上無法做到及時(shí)性,并且開銷較大.因此業(yè)界急需一種有效的DGA惡意域名檢測(cè)手段.

        1 相關(guān)研究

        DGA算法通過輸入隨機(jī)種子,以偽隨機(jī)化算法作為輔助,生成一系列的隨機(jī)字符串域名.所以域名表面上看似乎是隨機(jī)的,但內(nèi)部結(jié)構(gòu)都是通過偽隨機(jī)化算法生成的,其實(shí)是有跡可循的,比如對(duì)于算法輸入的隨機(jī)種子的選擇,往往會(huì)選擇當(dāng)前的時(shí)間、網(wǎng)絡(luò)熱詞等.

        當(dāng)前學(xué)術(shù)界對(duì)于DGA域名的檢測(cè)從未停止.文獻(xiàn)[3]使用機(jī)器學(xué)習(xí)方法,基于語(yǔ)法特征基礎(chǔ)上加入了N-Gram模型特征,提高了算法的精確率;文獻(xiàn)[4]提出了基于聚類和分類算法的惡意域名檢測(cè)方法,使用聚類算法分出DGA域名的類別,再使用分類算法篩選出惡意域名.文獻(xiàn)[5]將域名的語(yǔ)法特征細(xì)化,提取出字母和數(shù)字的轉(zhuǎn)換頻率、連續(xù)字母的最大長(zhǎng)度等特征.文獻(xiàn)[6]將隱馬爾可夫模型應(yīng)用于域名檢測(cè),實(shí)驗(yàn)結(jié)果相較于隨機(jī)森林模型效果更好.

        本文在語(yǔ)法特征、N-Gram模型特征的基礎(chǔ)上,加入了隱馬爾可夫模型特征,并且出于計(jì)算復(fù)雜度的考慮,并未將N-Gram本身出現(xiàn)的頻率當(dāng)做特征,而是選用了N-Gram平均排名.

        2 惡意域名檢測(cè)流程

        使用機(jī)器學(xué)習(xí)工程進(jìn)行域名檢測(cè)流程主要包括收集數(shù)據(jù)、提取特征、模型的選擇和訓(xùn)練、評(píng)價(jià)函數(shù)和交叉驗(yàn)證4個(gè)部分.

        (1)收集數(shù)據(jù).本次實(shí)驗(yàn)的數(shù)據(jù)包括正常域名和DGA域名.采用Alexa網(wǎng)站中前1萬(wàn)的域名作為正常域名,而實(shí)驗(yàn)中的DGA域名取自360安全網(wǎng)站,選取1.5萬(wàn)條DGA家族中的Conficker家族域名.

        (2)提取特征.從域名數(shù)據(jù)集中提取出三類特征.一類是語(yǔ)法特征;一類是N-Gram[7]特征;最后本文在此基礎(chǔ)上加入隱馬爾可夫[8]特征.

        (3)模型選擇和訓(xùn)練.本文選取SVM[9]和決策樹[10]進(jìn)行對(duì)比評(píng)估.

        (4)評(píng)價(jià)函數(shù)和交叉驗(yàn)證.本文使用精確率和召回率作為模型評(píng)價(jià)標(biāo)準(zhǔn),將數(shù)據(jù)的4/5用于訓(xùn)練模型,剩下的1/5用于模型預(yù)測(cè),同時(shí)將數(shù)據(jù)多次洗牌做10次交叉驗(yàn)證.

        3 特征分析

        特征工程是惡意域名檢測(cè)的關(guān)鍵,特征選擇的好壞直接影響最后的實(shí)驗(yàn)結(jié)果.因此,本文對(duì)合法域名和DGA域名特征進(jìn)行深入了解,反復(fù)試驗(yàn),最終得出特征集合.提取的特征有語(yǔ)法特征、N-Gram模型特征、馬爾可夫模型特征.N-Gram特征選取域名的unigram、bigram、trigram的平均排名;隱馬爾可夫模型特征選擇的是域名從Ai到Ai+1轉(zhuǎn)換的概率乘積.

        3.1 語(yǔ)法特征

        (1)域名長(zhǎng)度.域名最初就是為了使用戶上網(wǎng)方便,因此合法域名長(zhǎng)度不會(huì)太長(zhǎng),并且有些具有明確的定義,而DGA域名是以偽隨機(jī)算法作為輔助,生成的隨機(jī)字符串,再加上域名數(shù)量日益增長(zhǎng),為了防止與正常域名沖突,一般域名較長(zhǎng),并且沒有任何含義.在表1中幾個(gè)正常域名與DGA域名長(zhǎng)度進(jìn)行了對(duì)比,可以看出正常域名長(zhǎng)度一般在10左右,而DGA域名長(zhǎng)度在20左右.

        表1 正常域名長(zhǎng)度和DGA域名長(zhǎng)度

        (2)域名熵值.熵是衡量事物混亂程度的度量指標(biāo).經(jīng)過對(duì)大量數(shù)據(jù)的分析比對(duì),正常域名內(nèi)部結(jié)構(gòu)相對(duì)整齊有規(guī)律,混亂程度較低;而DGA域名隨機(jī)性強(qiáng),分布混亂,熵值也會(huì)更大.本文從數(shù)據(jù)集中選取1萬(wàn)條正常域名和1萬(wàn)條DGA域名,如圖1所示,正常域名熵值在1.0-2.0之間,而DGA域名大都集中在2.0-2.5之間,因此,熵值可以作為很好的區(qū)別特征.

        圖1 正常域名和DGA域名熵值直方圖

        (3)元音字母比例.正常域名為了讓人讀起來更加順口會(huì)在輔音字母的基礎(chǔ)上加入一些元音字母,來增加域名的可讀性;而DGA域名生成時(shí)未考慮這個(gè)因素,元音字母會(huì)相對(duì)較少,因此DGA域名可讀性差.從數(shù)據(jù)集中取1萬(wàn)正常域名和1萬(wàn)DGA域名,DGA域名元音占比在0.1-0.3,正常域名元音占比在0.3-0.5.因此,元音字母比例可以作為區(qū)別特征.

        (4)連續(xù)輔音字母比例.經(jīng)過大量數(shù)據(jù)分析比對(duì),DGA域名的連續(xù)輔音字母比例較高.如圖2可以看出正常域名大多在0.2-0.4之間,而DGA域名在0.6-0.8之間的居多,盡管有少數(shù)正常域名和DGA域名比例有重疊,但是整體來說連續(xù)輔音字母比例特征區(qū)分度很大.

        圖2 正常域名和DGA域名連續(xù)輔音比例直方圖

        (5)頂級(jí)域名.正常域名的頂級(jí)域比較常見,例如.cn和.com等,而DGA惡意域名會(huì)選一些審核不嚴(yán)的,不常見的域名如.ru和.ws等.本文選取正常域名常見三個(gè)頂級(jí)域,取1萬(wàn)條正常域名和1萬(wàn)條DGA域名,分別統(tǒng)計(jì)正常和惡意域名中各類別的數(shù)量,正常域名中有2872條使用的是常見頂級(jí)域,DGA域名有0條.因此頂級(jí)域名對(duì)于域名檢測(cè)的重要性比重很大.

        3.2 N-Gram平均排名

        N-Gram模型是自然語(yǔ)言處理常用的模型,常用于詞語(yǔ)分析,語(yǔ)音識(shí)別,詞語(yǔ)分類等.它的基本思想是將文本內(nèi)容進(jìn)行固定大小的滑動(dòng)窗口操作,對(duì)每個(gè)窗口進(jìn)行頻率統(tǒng)計(jì),以此概率來推斷下一組詞.本文提取正常域名和DGA域名的unigram(一個(gè)字符)、bigram(兩個(gè)字符)和trigram(三個(gè)字符)特征,采用N-Gram函數(shù)對(duì)域名字符進(jìn)行統(tǒng)計(jì),例如將www.goole.com放入unigram函數(shù)中會(huì)得到單個(gè)的字符數(shù)組[c,e,g,l,m,o,w]以及字符出現(xiàn)的頻率,一般來說,可以將域名字符頻率直接當(dāng)做特征,但是特征維度會(huì)很大,會(huì)影響訓(xùn)練速度.換個(gè)角度思考,正常域名相比于DGA域名更加好念,因此它的頻率排名相對(duì)靠前,而DGA域名是隨機(jī)生成的,頻率相對(duì)靠后,所以本文選用N-Gram模型的平均排名作為域名區(qū)別特征.

        3.3 隱馬爾可夫模型特征

        隱馬爾可夫模型是一種統(tǒng)計(jì)模型,大致思想是通過已知去預(yù)測(cè)未知,輸入已知序列到轉(zhuǎn)換矩陣,得到未知序列出現(xiàn)的概率,用于詞語(yǔ)分類、語(yǔ)言識(shí)別等自然語(yǔ)言處理領(lǐng)域.本文以1萬(wàn)正常域和1萬(wàn)DGA域名來訓(xùn)練隱含馬爾可夫鏈,計(jì)算從Ai到Ai+1轉(zhuǎn)換的概率,這里所說的Ai為域名的當(dāng)前字符,Ai+1為下一個(gè)字符,例如baidu.com,如果Ai為d,那么Ai+1為u.以每個(gè)域名字符從Ai到Ai+1轉(zhuǎn)換概率的乘積作為特征,為了防止下溢,對(duì)每個(gè)域名概率結(jié)果取對(duì)數(shù).正常域名的隱馬爾可夫模型數(shù)值大部分在-15和-30之間,而DGA域名的隱馬爾可夫模型數(shù)值在-35和-50之間,正常域名的值是高于DGA域名的,所以隱馬爾可夫模型特征可以作為區(qū)別特征.

        4 實(shí)驗(yàn)與檢測(cè)效果分析

        實(shí)驗(yàn)中的正常域名數(shù)據(jù)取自www.Alexa.com網(wǎng)站,在實(shí)驗(yàn)中采用在Alexa網(wǎng)站中前排名前1萬(wàn)條域名作為實(shí)驗(yàn)過程中的正常域名.而實(shí)驗(yàn)中的DGA域名取自網(wǎng)站data.netlab.360.com/dga/,該網(wǎng)站每天也都會(huì)更新DGA域名,在實(shí)驗(yàn)中采用了1.5萬(wàn)個(gè)DGA域名來作為實(shí)驗(yàn)中的樣本,并標(biāo)注類別,選取語(yǔ)法特征、N-Gram模型特征和隱馬爾可夫模型特征作為區(qū)別特征,然后使用SVM算法和決策樹算法進(jìn)行模型訓(xùn)練,為了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性,進(jìn)行10次交叉驗(yàn)證,選擇4/5的數(shù)據(jù)用于訓(xùn)練模型,剩余1/5進(jìn)行預(yù)測(cè),使用精確率、召回率作為評(píng)價(jià)指標(biāo).

        4.1 算法概述

        支持向量機(jī)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,廣泛應(yīng)用于統(tǒng)計(jì)分析、回歸和分類等.它的基本思想是使用核函數(shù)映射到高維空間,在高維空間中找到間隔最大的分類超平面.作為一種新的機(jī)器學(xué)習(xí)方法,依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,支持向量機(jī)表現(xiàn)出獨(dú)特的泛化和推廣能力,已逐漸成為國(guó)內(nèi)外機(jī)器學(xué)習(xí)研究的熱點(diǎn).決策樹是一種常用的分類算法,它是一種樹形結(jié)構(gòu),基本思想是,通過對(duì)數(shù)據(jù)集樣本的學(xué)習(xí)建立決策樹,內(nèi)部節(jié)點(diǎn)代表特征的選擇,最后的葉子節(jié)點(diǎn)代表分類的結(jié)果.

        4.2 特征評(píng)估

        本文將兩組特征組合進(jìn)行評(píng)估,特征組合如下:A組為語(yǔ)法特征和N-Gram模型特征組合,B組為語(yǔ)法特征、N-Gram模型特征和馬爾可夫模型特征,為了使實(shí)驗(yàn)更加嚴(yán)謹(jǐn),進(jìn)行10次交叉驗(yàn)證,兩種特征組合下的精確率和召回率如圖3、圖4所示,實(shí)驗(yàn)發(fā)現(xiàn):B組特征組合下的精確率在98%以上,而A組特征組合下的精確率在97%左右.因此,說明分類模型在語(yǔ)法特征、N-Gram模型特征的基礎(chǔ)上添加了隱馬爾可夫模型特征后分類效果有了一定的提高.

        圖3 兩種特征組合的精確率

        4.3 模型評(píng)估

        選取語(yǔ)法特征、N-Gram模型特征和隱馬爾可夫模型特征作為區(qū)別特征,對(duì)比SVM算法和決策樹算法兩種訓(xùn)練模型,如圖4所示,使用SVM訓(xùn)練模型準(zhǔn)確率可以達(dá)到0.98以上,而使用決策樹模型準(zhǔn)確率在0.97左右,因此,可以得出結(jié)論:SVM模型相較于決策樹模型分類效果更好.

        圖4 不同模型的準(zhǔn)確率折線圖

        5 結(jié)束語(yǔ)

        本文的目的是分析域名的語(yǔ)法特性,在語(yǔ)法特征、N-Gram模型特征基礎(chǔ)上加入隱馬爾可夫模型作為區(qū)別特征,以提升DGA域名的檢測(cè)率,對(duì)于N-Gram模型特征維度太大的問題,本文選取域名的N-Gram平均排名作為特征,減少了計(jì)算復(fù)雜度,通過兩種特征組合的精確率、召回率對(duì)比,兩種訓(xùn)練模型準(zhǔn)確率對(duì)比,印證了上面的結(jié)論.但是本文選取的惡意域名數(shù)據(jù)是DGA家族中的Conficker域名數(shù)據(jù),可能最后訓(xùn)練出的模型對(duì)于其他種類的DGA域名檢測(cè)率并不太理想,因此,下一步工作是選取的數(shù)據(jù)集更加廣泛化,找出更多區(qū)分特征,使訓(xùn)練模型精確率更高、適應(yīng)性更強(qiáng).

        猜你喜歡
        特征實(shí)驗(yàn)檢測(cè)
        記一次有趣的實(shí)驗(yàn)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        白白色免费视频一区二区在线| 国产黄页网站在线观看免费视频| 国产午夜精品一区二区三区不| 国产精品专区一区二区av免费看| 麻豆人妻性色av专区0000| 亚洲一区二区三区偷拍自拍| 日本a级黄片免费观看| 乱码窝窝久久国产无人精品| 国产色无码精品视频国产| 伊人久久中文大香线蕉综合| 亚洲av有码精品天堂| 亚洲国产中文字幕在线视频综合| 欧美性受xxxx狂喷水| 欧美性福利| 亚洲春色视频在线观看| 丝袜美腿av在线观看| 日本公与熄乱理在线播放| 亚洲AV无码成人精品区网页| 国产成人亚洲精品一区二区三区 | 无码精品久久久久久人妻中字| 一级片久久| 一区二区三区在线观看视频| 天天综合天天爱天天做| 国产精品三级在线观看无码| 亚洲成a人片在线观看导航| 久久一区二区视频在线观看| 少妇爆乳无码专区| 麻豆乱码国产一区二区三区| 中文字幕在线观看乱码一区| 国产成人精品日本亚洲i8| 日本最大色倩网站www| 无码日韩AⅤ一区二区三区| 看大陆男女真人草逼视频| 成人无码一区二区三区| 男女肉粗暴进来120秒动态图| 久久久亚洲欧洲日产国码是AV| 不卡一本av天堂专区| 老少配老妇老熟女中文普通话 | 国产色秀视频在线播放| 久久青草国产免费观看| 一区二区三区蜜桃av|