亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征多樣化的惡意域名檢測(cè)

        2021-02-24 13:04:06劉善玲祁正華
        關(guān)鍵詞:訪問量字符串域名

        劉善玲,祁正華

        (南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210023)

        域名系統(tǒng)(Domain Name System,DNS)作為互聯(lián)網(wǎng)的重要組成部分,實(shí)現(xiàn)域名和IP地址的相互映射,是各個(gè)信息系統(tǒng)協(xié)調(diào)與合作的中樞神經(jīng)。近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)對(duì)全球組織和個(gè)人日?;顒?dòng)的影響呈指數(shù)增長(zhǎng)。與此同時(shí),由于域名協(xié)議本身安全運(yùn)行機(jī)制并不健全,域名系統(tǒng)在提供正常的網(wǎng)絡(luò)服務(wù)外,也被網(wǎng)絡(luò)攻擊者利用,進(jìn)行違法違紀(jì)活動(dòng)(如垃圾郵件、僵尸網(wǎng)絡(luò)、釣魚軟件等),通過分析發(fā)現(xiàn)許多移動(dòng)通信終端、PC機(jī)和服務(wù)器被植入了木馬病毒后會(huì)包含大量惡意域名鏈接。《2020年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢(shì)》報(bào)告[1]指出,全年捕獲惡意程序樣本數(shù)量超過4 200萬個(gè),日均傳播次數(shù)達(dá)482萬余次,控制我國境內(nèi)約3.3萬臺(tái)IPv6地址主機(jī)。目前互聯(lián)網(wǎng)中較為常見的利用DNS產(chǎn)生惡意域名的異常行為是DGA(Domain Generation Algorithms)域名和DNS隱蔽通道。網(wǎng)絡(luò)釣魚者可以利用多種技術(shù)使網(wǎng)絡(luò)站點(diǎn)看起來合法,它誘騙受害者點(diǎn)擊這些鏈接從而獲取受害者的信息或控制受害者的計(jì)算機(jī)。

        隨著惡意域名造成的經(jīng)濟(jì)損失越來越大,人們對(duì)于網(wǎng)絡(luò)安全的意識(shí)也逐漸增強(qiáng),各種檢測(cè)方法層出不窮?,F(xiàn)有的檢測(cè)方法主要存在以下不足:一,采用復(fù)雜特征提取的辦法,并且結(jié)合多種檢測(cè)系統(tǒng)進(jìn)行多重檢測(cè)。雖然在檢測(cè)準(zhǔn)確率上有很好的效果,但在系統(tǒng)開銷、檢測(cè)速度上花費(fèi)過大;二,對(duì)域名類型的檢測(cè),目前大多的檢測(cè)方法主要是針對(duì)DGA域名的檢測(cè),當(dāng)產(chǎn)生新的域名類型時(shí),檢測(cè)性能不佳。本文的主要貢獻(xiàn)如下:

        (1)在進(jìn)行域名特征提取前,對(duì)域名進(jìn)行分詞格式化處理,可以增加數(shù)據(jù)集的通用性,提高模型的泛化能力,同時(shí)簡(jiǎn)化后續(xù)域名特征提取過程。本文提取的特征和現(xiàn)有的復(fù)雜特征組合(時(shí)間向量、地理位置向量、注冊(cè)信息等)相比,在達(dá)到相同的檢測(cè)效果下,需要提取的特征數(shù)量有一定減少,同時(shí)提高了特征提取速度。

        (2)由DGA算法生成的惡意域名,與正常域名在形式上有很大的差異,因此網(wǎng)絡(luò)攻擊者可以利用這一特征來逃避檢測(cè)。針對(duì)現(xiàn)有檢測(cè)方法在域名類型上的單一性,本文通過構(gòu)建不同時(shí)間段域名訪問量的變化發(fā)現(xiàn),常規(guī)域名和惡意域名在各個(gè)時(shí)間段訪問量存在很大的差異。網(wǎng)絡(luò)攻擊者在利用DGA算法生成惡意域名時(shí),很容易規(guī)避常規(guī)特征,但訪問量是不可規(guī)避的。

        1 相關(guān)研究

        針對(duì)惡意域名的檢測(cè),最原始的方法是基于黑名單檢測(cè),Kührer等[2]發(fā)現(xiàn)所有公共黑名單的聯(lián)合覆蓋率不到20%,提出一種基于圖的方法來識(shí)別黑名單中的漏洞。由于黑名單方法存在的缺陷,提出了一種基于域名特征的檢測(cè)方法[3-4],依賴于 url詞匯特征進(jìn)行提取,張維維等[5]通過挖掘域名字面蘊(yùn)含的詞素(詞綴、拼音及縮寫)特征,能夠快速鎖定域名。Schiavoni等[6]提出了一種名為Phoenix的檢測(cè)機(jī)制,使用字符串和基于IP的特征對(duì)域名家族進(jìn)行分類。后續(xù)的研究中發(fā)現(xiàn)域名的主機(jī)中也包含著許多隱藏信息[7-8]。 袁福祥等[9]通過挖掘域名的歷史信息例如DNS注冊(cè)信息、whois更新信息、被動(dòng)DNS數(shù)據(jù)等構(gòu)造合法域名與惡意域名的數(shù)據(jù)差異,進(jìn)行域名的全局特征提取。目前最常用的檢測(cè)方法是基于模型的檢測(cè),除了機(jī)器學(xué)習(xí)的檢測(cè)方法[10-12]外,也可以利用深度學(xué)習(xí)方法[13-14]進(jìn)行檢測(cè)。

        2 系統(tǒng)設(shè)計(jì)

        本文在分析多種域名檢測(cè)算法的基礎(chǔ)上,從域名字符和訪問量?jī)煞矫嫣崛∮杏锰卣?,設(shè)計(jì)一種基于特征多樣化的域名檢測(cè)方法。本文方法主要分為4個(gè)模塊:數(shù)據(jù)集獲取、數(shù)據(jù)預(yù)處理、特征提取和分類器模型訓(xùn)練。算法框架如圖1所示。

        圖1 算法框架

        2.1 數(shù)據(jù)預(yù)處理

        首先將獲取到的域名進(jìn)行分詞格式化處理,處理后的域名如表1所示。通過這步操作,在特征提取的過程中可以將原本時(shí)間復(fù)雜度為O(m?n)的字符串比較問題,轉(zhuǎn)化為時(shí)間復(fù)雜度為O(n)的匹配問題,同時(shí)可以達(dá)到一個(gè)擴(kuò)充模型通用性的目的。域名作為一種無空格間隔的特殊字符串,既具有英文文本的特征,又具有中文文本的特征,分詞時(shí)需要考慮到域名單詞間的無間隔性,也要考慮到詞語的連貫性。本文對(duì)字符串的分詞采用雙向最大匹配算法和概率模型方法。雙向最大匹配算法操作如下:

        表1 分詞處理結(jié)果

        (1)給定需要分割的字符串S;

        (2)先對(duì)字符串S進(jìn)行正向最大匹配,得到分詞結(jié)果PC;

        (3)再對(duì)字符串S進(jìn)行反向最大匹配,得到分詞結(jié)果RC;

        (4)利用概率模型函數(shù)Fit分別計(jì)算PC和RC的概率;

        (5)選擇概率大的作為分詞輸出結(jié)果。

        概率模型函數(shù)計(jì)算方法為

        式中,M為詞集大小,cwi為詞wi的數(shù)目。然后,針對(duì)分詞序列如w=w1,w2,…,wm,使用擬合函數(shù)Fit計(jì)算分析結(jié)果。分詞之后進(jìn)行格式化操作,將所有字母用“a”替代,所有數(shù)字用“0”替代。在2.2節(jié)特征提取過程計(jì)算域名長(zhǎng)度時(shí),只需匹配“[”、“]”即可。

        2.2 特征提取

        2.2.1 基本字符特征

        (1)域名長(zhǎng)度

        由于IP地址不易被記住,為了訪問方便,引入了域名。常規(guī)域名為了便于記憶,注冊(cè)時(shí)選擇為短域名,一般情況下由一個(gè)或兩個(gè)英文單詞或者中文拼音組成,例如google.com,baidu.com。然而攻擊者在利用算法生成惡意域名時(shí),域名的長(zhǎng)度通常設(shè)置為16位、32位等,長(zhǎng)度一般較長(zhǎng),如 apple?mac911.onlinesoftware.info。因此可以基于域名長(zhǎng)度度量構(gòu)建域名長(zhǎng)度特征。如圖2所示,正常域名長(zhǎng)度大部分在5~10之內(nèi),惡意域名主要集中圖形的后半部分,長(zhǎng)度值較大。

        圖2 域名長(zhǎng)度分布特征

        (2)數(shù)字個(gè)數(shù)

        惡意域名通常由域名生成算法生成,作為惡意軟件的域名存在,域名內(nèi)容一般不具有可記憶性,此外,惡意域名一般會(huì)在正常域名之后加入數(shù)字來誤導(dǎo)用戶,因此數(shù)字的隨機(jī)出現(xiàn)也是惡意域名的一個(gè)重要特征。正常域名極少包含數(shù)字或者包含很少的數(shù)字。分布特征如圖3所示。

        圖3 域名中數(shù)字分布特征

        (3) 隨機(jī)性

        隨機(jī)性作為域名的基本特征,代表了域名的混亂程度。DGA算法利用隨機(jī)字符串生成惡意域名,在數(shù)學(xué)上表示為不確定度,在這里可以用香農(nóng)熵公式H(X)來表示不確定度。字符隨機(jī)性越大,熵值越高,是惡意域名的可能性就更大。

        式中,X為域名;xi為X中的某一個(gè)字符,p(xi)為該字符出現(xiàn)的概率。分布特征如圖4所示。

        圖4 信息熵分布圖

        (4)最長(zhǎng)有意義字符串長(zhǎng)度

        常規(guī)域名通常具有一定的代表意義,可能是相應(yīng)的英文單詞,或者中文拼音,因此正常域名的有意義字符串長(zhǎng)度值偏大,作為隨機(jī)生成的惡意域名,算法在生成時(shí),一般未考慮到域名的可讀性以及域名代表的意義,通常由英文字母和數(shù)字混合在一起組成,因此最長(zhǎng)有意義字符串長(zhǎng)度值偏小。分布特征如圖5所示。

        圖5 最長(zhǎng)有意義字符串長(zhǎng)度分布

        2.2.2 訪問特征

        傳統(tǒng)檢測(cè)方法基于人工特征的提取,在檢測(cè)方法不斷更新發(fā)展的同時(shí),網(wǎng)絡(luò)攻擊者也發(fā)現(xiàn)通過分析域名字符特征就可以輕易辨別出惡意域名,隨著惡意域名生成算法的不斷更新,攻擊者在生成惡意域名時(shí)很容易規(guī)避這些特征,生成一類新的家族域名。

        本文從域名解析訪問特征角度出發(fā),對(duì)域名訪問量特征(request_cnt)計(jì)算均值、方差最大值、最小值等數(shù)值統(tǒng)計(jì)特征,但因?yàn)榫挡荒苊枋鰯?shù)據(jù)的離散程度,當(dāng)數(shù)據(jù)分布不均時(shí),采用均值特征不能展示真實(shí)的數(shù)據(jù)分布情況,因此根據(jù)時(shí)間段劃分,再對(duì)request_cnt做分位數(shù)特征提取,刻畫不同時(shí)間段的變化情況,減小異常值對(duì)模型的干擾。因此訪問量不僅可以作為識(shí)別DGA域名的一個(gè)重要特征,同樣也可以作為識(shí)別生存時(shí)間較長(zhǎng)惡意域名的特征,主要因?yàn)樵L問量是無法規(guī)避的特征。圖6為各個(gè)時(shí)間段域名的訪問情況,可以看出常規(guī)域名因?yàn)樯嬷芷陂L(zhǎng),且有訪問意義,一般都是訪問量較大,并且呈現(xiàn)出白天多晚上少的特征。而惡意域名,生存周期較短,訪問量大幅減少,并且考慮到隱蔽性等原因,呈現(xiàn)出聚集于晚上訪問的特征。

        圖6 訪問量分布圖

        2.3 分類器模型訓(xùn)練

        本文方法使用黑白樣本集,將域名數(shù)據(jù)分為訓(xùn)練集21 000個(gè)和測(cè)試集100 000個(gè)(具體分布如表2所示),訓(xùn)練集的數(shù)據(jù)均是由真實(shí)網(wǎng)絡(luò)數(shù)據(jù)提供,其中測(cè)試集的數(shù)據(jù)集一部分來源為從未公開過的DGA域名和非DGA域名。首先從域名數(shù)據(jù)集中提取相關(guān)特征,再構(gòu)造域名訪問量分位數(shù)特征,按域名編號(hào)順序合并成二維向量。

        本文采用隨機(jī)森林分類算法,訓(xùn)練過程采用有放回的樣本選取,每次訓(xùn)練生成的決策樹都不同,可以避免模型過擬合的問題。同時(shí)隨機(jī)森林算法實(shí)現(xiàn)簡(jiǎn)單,對(duì)噪聲數(shù)據(jù)不敏感,本文使用隨機(jī)森林算法利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,達(dá)到模型檢測(cè)最優(yōu)效果后,利用訓(xùn)練好的模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類檢測(cè),觀察分類結(jié)果。

        表2 數(shù)據(jù)集

        3 實(shí)驗(yàn)與分析

        3.1 性能評(píng)估

        為驗(yàn)證本文惡意域名檢測(cè)算法的有效性,將本實(shí)驗(yàn)所用到的域名作為對(duì)比實(shí)驗(yàn)的數(shù)據(jù)集,在相同的實(shí)驗(yàn)環(huán)境下根據(jù)條件分別復(fù)現(xiàn)檢測(cè)惡意域名經(jīng)典方法、文獻(xiàn)[15]Exposure方法和文獻(xiàn)[16]基于域名詞法特征的惡意域名檢測(cè)算法。對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。文獻(xiàn)[15]在原文中的準(zhǔn)確率可以達(dá)到98%,使用相同的數(shù)據(jù)集,在本實(shí)驗(yàn)當(dāng)中檢測(cè)效果有所下降,說明該方法存在一定的穩(wěn)定性問題。而文獻(xiàn)[16]單純基于詞法特征的檢測(cè)算法,在準(zhǔn)確率、召回率等方面,檢測(cè)效果遠(yuǎn)遠(yuǎn)不如本文,而在加入本文的域名處理和訪問特征之后,準(zhǔn)確率提高了7.9%。說明本文方法具有良好的穩(wěn)定性與準(zhǔn)確性。

        圖7 不同方法的檢測(cè)效果

        3.2 資源開銷

        惡意域名的檢測(cè),除保證準(zhǔn)確率外,控制資源開銷也十分重要。本文從檢測(cè)時(shí)間、內(nèi)存開銷兩方面與文獻(xiàn)[7]采用的基于聚類和分類的檢測(cè)思路,利用SVM分類器過濾惡意域名,以及文獻(xiàn)[17]采用的基于DNS流量的檢測(cè)方法進(jìn)行比較,使用相同數(shù)量的實(shí)驗(yàn)數(shù)集來驗(yàn)證本文方法的性能問題。分析結(jié)果如表3所示。從表3可以看出,與文獻(xiàn)[7]、文獻(xiàn)[17]相比,本文算法在檢測(cè)時(shí)間與內(nèi)存開銷方面都有良好的實(shí)驗(yàn)效果,導(dǎo)致這一結(jié)果的主要原因是文獻(xiàn)[7]使用組合分類方法,先使用聚類關(guān)聯(lián)疑似惡意域名之后,再利用分類器檢測(cè)聚類集合的域名,文獻(xiàn)[17]雖然有著較高的準(zhǔn)確率,但是在檢測(cè)方法上較為復(fù)雜,先采用關(guān)聯(lián)匹配方法,再提取特征,隨后采用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等方法進(jìn)行檢測(cè),開銷較大。本文在檢測(cè)方法上只需提取特征,訓(xùn)練隨機(jī)森林模型即可。同時(shí),在提取特征之前對(duì)域名做了相關(guān)處理,從根本上降低了時(shí)間復(fù)雜度,在特征提取方面多次實(shí)驗(yàn),在保證實(shí)驗(yàn)效果的情況下,選擇了系統(tǒng)開銷最小、提取時(shí)間最短的相關(guān)特征進(jìn)行模型訓(xùn)練。結(jié)合對(duì)比實(shí)驗(yàn)的檢測(cè)結(jié)果,本文的檢測(cè)準(zhǔn)確率在現(xiàn)有方法中雖然不是最高,但綜合考慮具有一定的優(yōu)勢(shì)。

        表3 性能比較結(jié)果

        4 結(jié)束語

        本文提出了基于特征多樣化的惡意域名檢測(cè)方法,將域名特征與訪問特征一起應(yīng)用到模型中訓(xùn)練,提高了系統(tǒng)的泛化能力,增加了模型的通用性,針對(duì)不同類型的惡意域名都可以達(dá)到良好的檢測(cè)效果。在對(duì)方法的分析中,發(fā)現(xiàn)本文的檢測(cè)模型體現(xiàn)出整體更高的檢測(cè)性能。另外,本方法也存在著一定的不足,在分詞過程當(dāng)中,沒有達(dá)到更加全面的效果,對(duì)于類似于中文拼音的域名,在分詞方面存在一定誤差,需要進(jìn)一步改進(jìn)。另一方面,可以對(duì)域名其他不易改變的特征進(jìn)行進(jìn)一步挖掘,提高檢測(cè)效果。

        猜你喜歡
        訪問量字符串域名
        如何購買WordPress網(wǎng)站域名及綁定域名
        高職院校圖書館電子資源中數(shù)據(jù)庫的使用情況分析
        卷宗(2016年12期)2017-04-19 20:57:30
        如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問量
        活力(2016年9期)2016-08-01 22:41:45
        一所大學(xué)有40人被確診為抑郁癥
        健康管理(2016年7期)2016-05-14 11:38:41
        騰訊八百萬美元收購域名
        一種新的基于對(duì)稱性的字符串相似性處理算法
        依據(jù)字符串匹配的中文分詞模型研究
        頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家
        一種針對(duì)Java中字符串的內(nèi)存管理方案
        小改字符串讓殺毒軟件閉嘴
        亚洲av调教捆绑一区二区三区| 国产主播福利一区二区| 人妻有码中文字幕在线不卡| 亚洲偷自拍国综合第一页国模| 国产性自爱拍偷在在线播放| 曰韩人妻无码一区二区三区综合部 | 中文字幕在线乱码亚洲| 天天碰免费上传视频| 人妻无码中文字幕免费视频蜜桃 | 亚洲av不卡一区男人天堂| 高清不卡一区二区三区| 午夜免费福利在线观看| 一本久久伊人热热精品中文| 一区二区三区国产免费视频| 欧洲freexxxx性少妇播放| 亚洲AV无码成人精品区网页| 亚洲无av码一区二区三区| 一区二区和激情视频| 亚洲一区精品无码色成人| 2020久久精品亚洲热综合一本| av免费在线播放观看| 久久久久夜夜夜精品国产| 两个人看的www中文在线观看| 激情综合五月天开心久久| 一区二区三区国产黄色| 免费拍拍拍网站| 国产成+人+综合+亚洲专| 国产又湿又爽又猛的视频| 人人妻人人澡人人爽国产一区| 一本色道av久久精品+网站| 久久AⅤ天堂Av无码AV| 日韩精品视频在线观看无| 最新精品国偷自产在线| 无码成人片一区二区三区| 999国产精品亚洲77777| 国产三级三级三级看三级日本| 日韩精品专区在线观看| 人妻暴雨中被强制侵犯在线| 亚洲电影一区二区| 黄色国产精品福利刺激午夜片| 亚洲av永久无码精品网站在线观看|