亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征多樣化的惡意域名檢測(cè)

2021-02-24 13:04:06劉善玲祁正華

南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年6期

劉善玲，祁正華

(南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院，江蘇南京 210023)

域名系統(tǒng)（Domain Name System，DNS）作為互聯(lián)網(wǎng)的重要組成部分，實(shí)現(xiàn)域名和IP地址的相互映射，是各個(gè)信息系統(tǒng)協(xié)調(diào)與合作的中樞神經(jīng)。近年來，隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)對(duì)全球組織和個(gè)人日?；顒?dòng)的影響呈指數(shù)增長(zhǎng)。與此同時(shí)，由于域名協(xié)議本身安全運(yùn)行機(jī)制并不健全，域名系統(tǒng)在提供正常的網(wǎng)絡(luò)服務(wù)外，也被網(wǎng)絡(luò)攻擊者利用，進(jìn)行違法違紀(jì)活動(dòng)（如垃圾郵件、僵尸網(wǎng)絡(luò)、釣魚軟件等），通過分析發(fā)現(xiàn)許多移動(dòng)通信終端、PC機(jī)和服務(wù)器被植入了木馬病毒后會(huì)包含大量惡意域名鏈接。《2020年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢(shì)》報(bào)告［1］指出，全年捕獲惡意程序樣本數(shù)量超過4 200萬個(gè)，日均傳播次數(shù)達(dá)482萬余次，控制我國境內(nèi)約3.3萬臺(tái)IPv6地址主機(jī)。目前互聯(lián)網(wǎng)中較為常見的利用DNS產(chǎn)生惡意域名的異常行為是DGA（Domain Generation Algorithms）域名和DNS隱蔽通道。網(wǎng)絡(luò)釣魚者可以利用多種技術(shù)使網(wǎng)絡(luò)站點(diǎn)看起來合法，它誘騙受害者點(diǎn)擊這些鏈接從而獲取受害者的信息或控制受害者的計(jì)算機(jī)。

隨著惡意域名造成的經(jīng)濟(jì)損失越來越大，人們對(duì)于網(wǎng)絡(luò)安全的意識(shí)也逐漸增強(qiáng)，各種檢測(cè)方法層出不窮?，F(xiàn)有的檢測(cè)方法主要存在以下不足：一，采用復(fù)雜特征提取的辦法，并且結(jié)合多種檢測(cè)系統(tǒng)進(jìn)行多重檢測(cè)。雖然在檢測(cè)準(zhǔn)確率上有很好的效果，但在系統(tǒng)開銷、檢測(cè)速度上花費(fèi)過大；二，對(duì)域名類型的檢測(cè)，目前大多的檢測(cè)方法主要是針對(duì)DGA域名的檢測(cè)，當(dāng)產(chǎn)生新的域名類型時(shí)，檢測(cè)性能不佳。本文的主要貢獻(xiàn)如下：

（1）在進(jìn)行域名特征提取前，對(duì)域名進(jìn)行分詞格式化處理，可以增加數(shù)據(jù)集的通用性，提高模型的泛化能力，同時(shí)簡(jiǎn)化后續(xù)域名特征提取過程。本文提取的特征和現(xiàn)有的復(fù)雜特征組合（時(shí)間向量、地理位置向量、注冊(cè)信息等）相比，在達(dá)到相同的檢測(cè)效果下，需要提取的特征數(shù)量有一定減少，同時(shí)提高了特征提取速度。

（2）由DGA算法生成的惡意域名，與正常域名在形式上有很大的差異，因此網(wǎng)絡(luò)攻擊者可以利用這一特征來逃避檢測(cè)。針對(duì)現(xiàn)有檢測(cè)方法在域名類型上的單一性，本文通過構(gòu)建不同時(shí)間段域名訪問量的變化發(fā)現(xiàn)，常規(guī)域名和惡意域名在各個(gè)時(shí)間段訪問量存在很大的差異。網(wǎng)絡(luò)攻擊者在利用DGA算法生成惡意域名時(shí)，很容易規(guī)避常規(guī)特征，但訪問量是不可規(guī)避的。

1 相關(guān)研究

針對(duì)惡意域名的檢測(cè)，最原始的方法是基于黑名單檢測(cè)，Kührer等［2］發(fā)現(xiàn)所有公共黑名單的聯(lián)合覆蓋率不到20%，提出一種基于圖的方法來識(shí)別黑名單中的漏洞。由于黑名單方法存在的缺陷，提出了一種基于域名特征的檢測(cè)方法［3－4］，依賴于 url詞匯特征進(jìn)行提取，張維維等［5］通過挖掘域名字面蘊(yùn)含的詞素（詞綴、拼音及縮寫）特征，能夠快速鎖定域名。Schiavoni等［6］提出了一種名為Phoenix的檢測(cè)機(jī)制，使用字符串和基于IP的特征對(duì)域名家族進(jìn)行分類。后續(xù)的研究中發(fā)現(xiàn)域名的主機(jī)中也包含著許多隱藏信息［7－8］。袁福祥等［9］通過挖掘域名的歷史信息例如DNS注冊(cè)信息、whois更新信息、被動(dòng)DNS數(shù)據(jù)等構(gòu)造合法域名與惡意域名的數(shù)據(jù)差異，進(jìn)行域名的全局特征提取。目前最常用的檢測(cè)方法是基于模型的檢測(cè)，除了機(jī)器學(xué)習(xí)的檢測(cè)方法［10－12］外，也可以利用深度學(xué)習(xí)方法［13－14］進(jìn)行檢測(cè)。

2 系統(tǒng)設(shè)計(jì)

本文在分析多種域名檢測(cè)算法的基礎(chǔ)上，從域名字符和訪問量?jī)煞矫嫣崛∮杏锰卣?，設(shè)計(jì)一種基于特征多樣化的域名檢測(cè)方法。本文方法主要分為4個(gè)模塊：數(shù)據(jù)集獲取、數(shù)據(jù)預(yù)處理、特征提取和分類器模型訓(xùn)練。算法框架如圖1所示。

圖1 算法框架

2.1 數(shù)據(jù)預(yù)處理

首先將獲取到的域名進(jìn)行分詞格式化處理，處理后的域名如表1所示。通過這步操作，在特征提取的過程中可以將原本時(shí)間復(fù)雜度為O（m?n）的字符串比較問題，轉(zhuǎn)化為時(shí)間復(fù)雜度為O（n）的匹配問題，同時(shí)可以達(dá)到一個(gè)擴(kuò)充模型通用性的目的。域名作為一種無空格間隔的特殊字符串，既具有英文文本的特征，又具有中文文本的特征，分詞時(shí)需要考慮到域名單詞間的無間隔性，也要考慮到詞語的連貫性。本文對(duì)字符串的分詞采用雙向最大匹配算法和概率模型方法。雙向最大匹配算法操作如下：

表1 分詞處理結(jié)果

（1）給定需要分割的字符串S；

（2）先對(duì)字符串S進(jìn)行正向最大匹配，得到分詞結(jié)果PC；

（3）再對(duì)字符串S進(jìn)行反向最大匹配，得到分詞結(jié)果RC；

（4）利用概率模型函數(shù)Fit分別計(jì)算PC和RC的概率；

（5）選擇概率大的作為分詞輸出結(jié)果。

概率模型函數(shù)計(jì)算方法為

式中，M為詞集大小，cwi為詞wi的數(shù)目。然后，針對(duì)分詞序列如w＝w1，w2，…，wm，使用擬合函數(shù)Fit計(jì)算分析結(jié)果。分詞之后進(jìn)行格式化操作，將所有字母用“a”替代，所有數(shù)字用“0”替代。在2.2節(jié)特征提取過程計(jì)算域名長(zhǎng)度時(shí)，只需匹配“［”、“］”即可。

2.2 特征提取

2.2.1 基本字符特征

（1）域名長(zhǎng)度

由于IP地址不易被記住，為了訪問方便，引入了域名。常規(guī)域名為了便于記憶，注冊(cè)時(shí)選擇為短域名，一般情況下由一個(gè)或兩個(gè)英文單詞或者中文拼音組成，例如google.com，baidu.com。然而攻擊者在利用算法生成惡意域名時(shí)，域名的長(zhǎng)度通常設(shè)置為16位、32位等，長(zhǎng)度一般較長(zhǎng)，如 apple?mac911.onlinesoftware.info。因此可以基于域名長(zhǎng)度度量構(gòu)建域名長(zhǎng)度特征。如圖2所示，正常域名長(zhǎng)度大部分在5～10之內(nèi)，惡意域名主要集中圖形的后半部分，長(zhǎng)度值較大。

圖2 域名長(zhǎng)度分布特征

（2）數(shù)字個(gè)數(shù)

惡意域名通常由域名生成算法生成，作為惡意軟件的域名存在，域名內(nèi)容一般不具有可記憶性，此外，惡意域名一般會(huì)在正常域名之后加入數(shù)字來誤導(dǎo)用戶，因此數(shù)字的隨機(jī)出現(xiàn)也是惡意域名的一個(gè)重要特征。正常域名極少包含數(shù)字或者包含很少的數(shù)字。分布特征如圖3所示。

圖3 域名中數(shù)字分布特征

（3）隨機(jī)性

隨機(jī)性作為域名的基本特征，代表了域名的混亂程度。DGA算法利用隨機(jī)字符串生成惡意域名，在數(shù)學(xué)上表示為不確定度，在這里可以用香農(nóng)熵公式H（X）來表示不確定度。字符隨機(jī)性越大，熵值越高，是惡意域名的可能性就更大。

式中，X為域名；xi為X中的某一個(gè)字符，p（xi）為該字符出現(xiàn)的概率。分布特征如圖4所示。

圖4 信息熵分布圖

（4）最長(zhǎng)有意義字符串長(zhǎng)度

常規(guī)域名通常具有一定的代表意義，可能是相應(yīng)的英文單詞，或者中文拼音，因此正常域名的有意義字符串長(zhǎng)度值偏大，作為隨機(jī)生成的惡意域名，算法在生成時(shí)，一般未考慮到域名的可讀性以及域名代表的意義，通常由英文字母和數(shù)字混合在一起組成，因此最長(zhǎng)有意義字符串長(zhǎng)度值偏小。分布特征如圖5所示。

圖5 最長(zhǎng)有意義字符串長(zhǎng)度分布

2.2.2 訪問特征

傳統(tǒng)檢測(cè)方法基于人工特征的提取，在檢測(cè)方法不斷更新發(fā)展的同時(shí)，網(wǎng)絡(luò)攻擊者也發(fā)現(xiàn)通過分析域名字符特征就可以輕易辨別出惡意域名，隨著惡意域名生成算法的不斷更新，攻擊者在生成惡意域名時(shí)很容易規(guī)避這些特征，生成一類新的家族域名。

本文從域名解析訪問特征角度出發(fā)，對(duì)域名訪問量特征（request＿cnt）計(jì)算均值、方差最大值、最小值等數(shù)值統(tǒng)計(jì)特征，但因?yàn)榫挡荒苊枋鰯?shù)據(jù)的離散程度，當(dāng)數(shù)據(jù)分布不均時(shí)，采用均值特征不能展示真實(shí)的數(shù)據(jù)分布情況，因此根據(jù)時(shí)間段劃分，再對(duì)request＿cnt做分位數(shù)特征提取，刻畫不同時(shí)間段的變化情況，減小異常值對(duì)模型的干擾。因此訪問量不僅可以作為識(shí)別DGA域名的一個(gè)重要特征，同樣也可以作為識(shí)別生存時(shí)間較長(zhǎng)惡意域名的特征，主要因?yàn)樵L問量是無法規(guī)避的特征。圖6為各個(gè)時(shí)間段域名的訪問情況，可以看出常規(guī)域名因?yàn)樯嬷芷陂L(zhǎng)，且有訪問意義，一般都是訪問量較大，并且呈現(xiàn)出白天多晚上少的特征。而惡意域名，生存周期較短，訪問量大幅減少，并且考慮到隱蔽性等原因，呈現(xiàn)出聚集于晚上訪問的特征。

圖6 訪問量分布圖

2.3 分類器模型訓(xùn)練

本文方法使用黑白樣本集，將域名數(shù)據(jù)分為訓(xùn)練集21 000個(gè)和測(cè)試集100 000個(gè)（具體分布如表2所示），訓(xùn)練集的數(shù)據(jù)均是由真實(shí)網(wǎng)絡(luò)數(shù)據(jù)提供，其中測(cè)試集的數(shù)據(jù)集一部分來源為從未公開過的DGA域名和非DGA域名。首先從域名數(shù)據(jù)集中提取相關(guān)特征，再構(gòu)造域名訪問量分位數(shù)特征，按域名編號(hào)順序合并成二維向量。

本文采用隨機(jī)森林分類算法，訓(xùn)練過程采用有放回的樣本選取，每次訓(xùn)練生成的決策樹都不同，可以避免模型過擬合的問題。同時(shí)隨機(jī)森林算法實(shí)現(xiàn)簡(jiǎn)單，對(duì)噪聲數(shù)據(jù)不敏感，本文使用隨機(jī)森林算法利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型，達(dá)到模型檢測(cè)最優(yōu)效果后，利用訓(xùn)練好的模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類檢測(cè)，觀察分類結(jié)果。

表2 數(shù)據(jù)集

3 實(shí)驗(yàn)與分析

3.1 性能評(píng)估

為驗(yàn)證本文惡意域名檢測(cè)算法的有效性，將本實(shí)驗(yàn)所用到的域名作為對(duì)比實(shí)驗(yàn)的數(shù)據(jù)集，在相同的實(shí)驗(yàn)環(huán)境下根據(jù)條件分別復(fù)現(xiàn)檢測(cè)惡意域名經(jīng)典方法、文獻(xiàn)［15］Exposure方法和文獻(xiàn)［16］基于域名詞法特征的惡意域名檢測(cè)算法。對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。文獻(xiàn)［15］在原文中的準(zhǔn)確率可以達(dá)到98%，使用相同的數(shù)據(jù)集，在本實(shí)驗(yàn)當(dāng)中檢測(cè)效果有所下降，說明該方法存在一定的穩(wěn)定性問題。而文獻(xiàn)［16］單純基于詞法特征的檢測(cè)算法，在準(zhǔn)確率、召回率等方面，檢測(cè)效果遠(yuǎn)遠(yuǎn)不如本文，而在加入本文的域名處理和訪問特征之后，準(zhǔn)確率提高了7.9%。說明本文方法具有良好的穩(wěn)定性與準(zhǔn)確性。

圖7 不同方法的檢測(cè)效果

3.2 資源開銷

惡意域名的檢測(cè)，除保證準(zhǔn)確率外，控制資源開銷也十分重要。本文從檢測(cè)時(shí)間、內(nèi)存開銷兩方面與文獻(xiàn)［7］采用的基于聚類和分類的檢測(cè)思路，利用SVM分類器過濾惡意域名，以及文獻(xiàn)［17］采用的基于DNS流量的檢測(cè)方法進(jìn)行比較，使用相同數(shù)量的實(shí)驗(yàn)數(shù)集來驗(yàn)證本文方法的性能問題。分析結(jié)果如表3所示。從表3可以看出，與文獻(xiàn)［7］、文獻(xiàn)［17］相比，本文算法在檢測(cè)時(shí)間與內(nèi)存開銷方面都有良好的實(shí)驗(yàn)效果，導(dǎo)致這一結(jié)果的主要原因是文獻(xiàn)［7］使用組合分類方法，先使用聚類關(guān)聯(lián)疑似惡意域名之后，再利用分類器檢測(cè)聚類集合的域名，文獻(xiàn)［17］雖然有著較高的準(zhǔn)確率，但是在檢測(cè)方法上較為復(fù)雜，先采用關(guān)聯(lián)匹配方法，再提取特征，隨后采用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等方法進(jìn)行檢測(cè)，開銷較大。本文在檢測(cè)方法上只需提取特征，訓(xùn)練隨機(jī)森林模型即可。同時(shí)，在提取特征之前對(duì)域名做了相關(guān)處理，從根本上降低了時(shí)間復(fù)雜度，在特征提取方面多次實(shí)驗(yàn)，在保證實(shí)驗(yàn)效果的情況下，選擇了系統(tǒng)開銷最小、提取時(shí)間最短的相關(guān)特征進(jìn)行模型訓(xùn)練。結(jié)合對(duì)比實(shí)驗(yàn)的檢測(cè)結(jié)果，本文的檢測(cè)準(zhǔn)確率在現(xiàn)有方法中雖然不是最高，但綜合考慮具有一定的優(yōu)勢(shì)。

表3 性能比較結(jié)果

4 結(jié)束語

本文提出了基于特征多樣化的惡意域名檢測(cè)方法，將域名特征與訪問特征一起應(yīng)用到模型中訓(xùn)練，提高了系統(tǒng)的泛化能力，增加了模型的通用性，針對(duì)不同類型的惡意域名都可以達(dá)到良好的檢測(cè)效果。在對(duì)方法的分析中，發(fā)現(xiàn)本文的檢測(cè)模型體現(xiàn)出整體更高的檢測(cè)性能。另外，本方法也存在著一定的不足，在分詞過程當(dāng)中，沒有達(dá)到更加全面的效果，對(duì)于類似于中文拼音的域名，在分詞方面存在一定誤差，需要進(jìn)一步改進(jìn)。另一方面，可以對(duì)域名其他不易改變的特征進(jìn)行進(jìn)一步挖掘，提高檢測(cè)效果。