亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的域名數(shù)據(jù)監(jiān)控方法

        2014-06-06 10:46:47劉明星李曉東
        計算機工程 2014年9期
        關(guān)鍵詞:域名IP地址決策樹

        劉明星,金 鍵,李曉東

        (中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京100190)

        基于機器學(xué)習(xí)的域名數(shù)據(jù)監(jiān)控方法

        劉明星,金 鍵,李曉東

        (中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京100190)

        域名資源記錄被篡改的問題嚴(yán)重危害域名應(yīng)用。由于該問題具有較強的隱蔽性,亟需一種快速且有效的發(fā)現(xiàn)域名危險變化的方法。為此,提出一種基于機器學(xué)習(xí)算法的域名數(shù)據(jù)監(jiān)控方法。在一定數(shù)量的域名中選取出資源記錄發(fā)生變化的域名,通過分析其相關(guān)信息生成一個由域名字面特征、正反匹配度等屬性組成的元組。以變化是否危險為依據(jù)進行類標(biāo)簽人工標(biāo)記,每個元組和其類標(biāo)簽組成訓(xùn)練集中的一個實例。由分析訓(xùn)練集決策樹算法和支持向量機算法建立檢測域名系統(tǒng)數(shù)據(jù)危險變化的分類器。通過十折交叉法驗證2個分類器,發(fā)現(xiàn)其在域名危險變化判斷上具有較強的能力,正確率的加權(quán)均值分別達(dá)到73.8%和82.4%。

        域名系統(tǒng);安全;機器學(xué)習(xí);域名系統(tǒng)監(jiān)控;決策樹;支持向量機

        1 概述

        作為互聯(lián)網(wǎng)的重要基礎(chǔ)設(shè)施,域名系統(tǒng)(Domain Name System,DNS)[1-2]一直為全球互聯(lián)網(wǎng)的運行提供關(guān)鍵性的基礎(chǔ)服務(wù)。隨著互聯(lián)網(wǎng)規(guī)模爆炸式增長, DNS相關(guān)的各種新技術(shù)相繼出現(xiàn),如IPv6、多語種域名和DNS安全擴展協(xié)議(DNS Security Extension, DNSSEC)[3]等,DNS系統(tǒng)也由此變得越來越龐雜。由于在設(shè)計之初對安全性和擴展性考慮欠缺,域名系統(tǒng)在協(xié)議、實現(xiàn)和操作上存在著固有的不足與脆弱,進而使其面臨很多安全威脅[4]。其中的主要威脅之一是數(shù)據(jù)損壞,它可能是由權(quán)威服務(wù)器信息的未經(jīng)授權(quán)更改、域名劫持[5]、遞歸服務(wù)器緩存中毒[4]和人為配置錯誤[6]等錯誤造成,會導(dǎo)致域名系統(tǒng)對外提供錯誤的域名解析數(shù)據(jù)。

        除了對域名應(yīng)用產(chǎn)生不良的影響,產(chǎn)生錯誤域名解析數(shù)據(jù)的數(shù)據(jù)損壞威脅對用戶和域名系統(tǒng)可能造成如下2個方面的影響:(1)DNS應(yīng)用將被重定向到非目標(biāo)服務(wù)器,這會影響到用戶的上網(wǎng)安全或者使他們無法上網(wǎng)。(2)數(shù)據(jù)損壞威脅可能導(dǎo)致域名系統(tǒng)遭受或多或少的沖擊。某些域名應(yīng)用的訪問量巨大,域名的解析量也就隨之變得巨大,域名數(shù)據(jù)一旦發(fā)生問題,那么成千上萬客戶端發(fā)送的大量查詢請求可能沖擊域名系統(tǒng),甚至整個互聯(lián)網(wǎng)。一個典型的例子是2009年發(fā)生的暴風(fēng)影音事件[7]。

        作為訪問域名應(yīng)用前的一個重要環(huán)節(jié),域名系統(tǒng)的安全關(guān)系到域名應(yīng)用的安全。作為域名系統(tǒng)的重要組成部分,域名數(shù)據(jù)如果被篡改,Web等域名應(yīng)用必然受影響,如域名指向黑客的Web站點等。相比域名應(yīng)用被篡改,域名數(shù)據(jù)遭篡改的影響程度可能更大,影響范圍更廣。目前關(guān)于Web等域名應(yīng)用防篡改研究工作已有較多積累,但針對域名防篡改的研究仍較為欠缺,這是因為域名被篡改認(rèn)定很難,第三方?jīng)]有足夠的判斷依據(jù),從而無法及時覺察域名遭到黑客的攻擊破壞。為了杜絕黑客對域名數(shù)據(jù)的損壞,有必要開展對域名數(shù)據(jù)的監(jiān)測工作。

        在域名監(jiān)控方面,近年來國內(nèi)研究者進行了一些測量與研究。文獻(xiàn)[8]提出了一種通過域名模式匹配來監(jiān)控可疑域名的方法。但模式匹配是一種相對靜態(tài)的方法,需要人為參與,這便使其缺乏靈活性、可擴展性和適應(yīng)性。智能的機器學(xué)習(xí)算法也開始在域名監(jiān)控方面得到應(yīng)用,如文獻(xiàn)[9]通過機器學(xué)習(xí)的方法建立DOS攻擊的智能探測系統(tǒng);文獻(xiàn)[10]提出了一種專門適用于DNS服務(wù)器的、基于神經(jīng)網(wǎng)絡(luò)算法的入侵檢測框架和DDoS攻擊檢測方法。這些工作都是一些入侵檢測領(lǐng)域的研究,而本文是作為域名的第三方對域名數(shù)據(jù)進行監(jiān)測。

        第三方的域名監(jiān)測研究工作也已經(jīng)不少。文獻(xiàn)[11]通過掃描net域和com域中的域名發(fā)現(xiàn)6.6%的二級域允許區(qū)傳送,并通過對這些區(qū)的深入研究發(fā)現(xiàn)部分區(qū)因為配置不當(dāng)而造成其服務(wù)不理想;文獻(xiàn)[12-14]通過自主開發(fā)的監(jiān)測工具SecSpider監(jiān)測部署了DNSSEC的區(qū),發(fā)現(xiàn)了DNSSEC部署過程中的一些問題。與之不同,本文通過數(shù)據(jù)挖掘的方式找到域名惡意被篡改與域名的一些相關(guān)信息之間的隱含聯(lián)系,從而實現(xiàn)判斷域名數(shù)據(jù)是否被惡意篡改的效果。

        本文分析域名的一些相關(guān)信息(如whois信息和相關(guān)DNS資源記錄等),并通過機器學(xué)習(xí)的方法建立能夠判斷域名數(shù)據(jù)的變化是否危險的分類器。

        2 域名數(shù)據(jù)監(jiān)控方法

        本文以域名的A記錄變化為例闡述防篡改方法,將有監(jiān)督學(xué)習(xí)技術(shù)應(yīng)用于A記錄危險變化檢測,把檢測過程轉(zhuǎn)化成了有監(jiān)督的機器學(xué)習(xí)過程,按照機器學(xué)習(xí)的基本原理將該過程劃分為特征定義、訓(xùn)練集獲取和模型學(xué)習(xí)等子過程。對于模型學(xué)習(xí)過程,首先選取一定數(shù)量的域名,選擇A記錄發(fā)生變化的域名進行標(biāo)記,將這些域名組成一個樣本集。通過向監(jiān)測的遞歸服務(wù)器或權(quán)威服務(wù)器發(fā)送DNS請求,對某些資源記錄(集)進行監(jiān)控,如果發(fā)現(xiàn)域名的A記錄中發(fā)生變化(數(shù)據(jù)部分中的IP地址變化),對已獲取的資源記錄和新獲取的資源記錄(NS記錄、Glue記錄和 A記錄等),以及從其他數(shù)據(jù)源(如whois數(shù)據(jù)庫等)獲得的數(shù)據(jù)進行綜合分析,并提取、統(tǒng)計獲得定義的特征,從而形成一個包含一定實例的訓(xùn)練集,然后通過機器學(xué)習(xí)從這些特征中挖掘?qū)τ蛎俪峙袛嘤杏玫奶卣?并建立檢測A記錄危險變化的模型。即通過該分類器預(yù)測域名A記錄變化的危險性。

        2.1 特征選取

        選取合理的特征來建立訓(xùn)練樣本,對于模型學(xué)習(xí)來說至關(guān)重要。參考文獻(xiàn)[15]分析惡意統(tǒng)一資源定位符時使用的特征,選取的特征如下:

        2.1.1 域名字面特征

        域名的長度、域名的標(biāo)號數(shù)量、“-”的個數(shù)、數(shù)字所占比例等。

        2.1.2 正反匹配度

        分別驗證該域名A記錄和NS記錄中的IP地址是否有PTR記錄,它是否與PTR中的指向域名位于同一個二級域。

        IP反向解析服務(wù)和域名解析服務(wù)分屬2個互聯(lián)網(wǎng)角色。IP反向解析是由互聯(lián)網(wǎng)服務(wù)提供商提供,而域名的解析是由域名注冊服務(wù)商或其他解析服務(wù)商提供。正是由于這2種服務(wù)分離,如果增刪改PTR記錄要找ISP,增刪改域名的資源記錄要找域名注冊商或域名解析商。因此,攻擊者可能篡改了A記錄,但是可能忘記或不能修改IP地址的PTR記錄(如果有PTR記錄的話)。

        根據(jù)域名的某個A記錄數(shù)據(jù)部分中的IP地址在其PTR記錄中指向的域名與該域名的匹配情況,本文定義一個稱為正反匹配度的特征。如果A記錄中IP地址有PTR記錄,并且兩者中的域名同屬一個二級域,那么定義正反匹配度為1;如果沒有相應(yīng)的PTR記錄,或者不同屬一個二級域,那么定義正反匹配度為0。

        以域名 www.yahoo.com為例,它在2012年3月份的部分資源記錄如表1所示。表1的第2列類型的C代表類型CNAME,A代表類型A,P代表類型PTR。對最后一條A記錄中的IP地址做反向查詢(結(jié)果如表1的最后一行所示)。從表中可見,域名“any-fp3-real.wa1.b.yahoo.com”與域名“yts03.carbon.sp2.yahoo.com”位于同一二級域,那么反向匹配度為1。

        表1 www.yahoo.com部分資源記錄

        分別計算域名變化前后的正反匹配度,并把兩者相減,作為正負(fù)匹配度。如變化前為1,變化后為0,那么變化值為-1。

        2.1.3 TTL波動

        TTL是域名資源記錄中的一個重要信息。如果黑客篡改了域名數(shù)據(jù),總希望將資源記錄的TTL值設(shè)置得越大越好,而域名真正的管理者大幅改動TTL值的可能性較小。考慮到此,定義一個稱為TTL波動的特征。TTL波動是資源記錄變化前后的TTL的波動程度。TTL波動表征預(yù)判前后TTL的變化程度。

        假設(shè)變化之前測得的資源記錄(集)的TTL是Lo;之后是Ln,那么TTL波動表示為:

        變化值(Lo-Ln)反映了變化的程度,對變化值取絕對值保證變化度η非負(fù),絕對值越大,變化的程度越大,所以η與(Lo-Ln)成正比。對變化值取絕對值的目的是忽略掉TTL值是變小還是變大這個信息。假如有2個域名(分別代表A和B),預(yù)判前它們的TTL分別是50和500,預(yù)判后發(fā)現(xiàn)它們的TTL都增加了10。對于A變化卻有點大,但對于B來說,TTL的變化并不大,即TTL波動與預(yù)判前的TTL大小成反比例關(guān)系。而為了讓波動的計算有統(tǒng)一的參照標(biāo)準(zhǔn),規(guī)定波動與Lo和Ln中較大的成反比例關(guān)系。

        2.1.4 網(wǎng)絡(luò)地址變化度

        運營穩(wěn)定、有技術(shù)實力的公司,不會經(jīng)常地、輕易地在地理位置上、網(wǎng)絡(luò)上遷移其服務(wù)器,即便遷移,地理位置變化和網(wǎng)絡(luò)變化也會相對比較小,如從當(dāng)?shù)氐穆?lián)通機房遷移到電信機房。

        互聯(lián)網(wǎng)是一個全球網(wǎng)絡(luò),其用戶來自地球的各個角落。作為互聯(lián)網(wǎng)的特別用戶,黑客與攻擊目標(biāo)常常不在一個國家,不在一個自治域,不在一個運營商。因此,如果黑客有機會將域名服務(wù)器或域名應(yīng)用服務(wù)器指向其控制的服務(wù)器,那么其服務(wù)器與原服務(wù)器的IP地址不管是從其地理位置、地址前綴上,還是其所在自治系統(tǒng)上,都有不同程度的變化。

        基于以上考慮,根據(jù)A記錄變化前后的域名對應(yīng)的IP地址和其權(quán)威服務(wù)器的IP地址的地理位置、地址前綴(地址類別)和所在的自治系統(tǒng)(Autonomous System,AS),以及所屬的互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider,ISP),定義網(wǎng)絡(luò)地址變化的程度(簡稱網(wǎng)絡(luò)地址變化度)。

        網(wǎng)絡(luò)地址屬性的變化有如下5種情況:(1)國家變化;(2)ISP變化;(3)AS號變化;(4)地址前綴變化;(5)網(wǎng)內(nèi)變化。其中,情況(2),情況(3)和情況(4)很好理解;情況(1)是IP地址的國家發(fā)生變化;情況(5)是指修改后的IP地址是一個私有地址或0.0.0.0特殊IP地址。顯然,這5種變化按照變化程度由大到小的排列。按照這個順序從前往后檢查這些屬性的變化,一旦確定為某種變化時,就停止繼續(xù)檢查并記錄下來。分別定義5種情況的取值是{5, 4,3,2,1}。需要注意的是,無法判斷或查不到的情況是0。

        2.1.5 網(wǎng)絡(luò)性能擾度

        作為性能指標(biāo),網(wǎng)絡(luò)環(huán)路延時(RTT)是衡量IP端對端網(wǎng)絡(luò)性能的重要參數(shù)。RTT最小值[16]更準(zhǔn)確地反映出一定的網(wǎng)絡(luò)狀況。一般來說,對于某一特定測量點,處于不同地理位置和不同網(wǎng)絡(luò)環(huán)境的IP端之間的RTT最小值是不同的,這反映了測量點與IP端之間的網(wǎng)絡(luò)狀況。域名A記錄發(fā)生變化,意味著其指向的IP地址發(fā)生了變化。不同的IP端,與測量點之間的RTT最小值就會有所不同。換句話說,RTT最小值發(fā)生了變化,該變化可以一定程度反映出網(wǎng)絡(luò)環(huán)境的變化,某種程度上也能說明目的服務(wù)器地理位置的變化??梢?網(wǎng)絡(luò)性能擾度表征了從測量點到域名對應(yīng)的網(wǎng)絡(luò)地址端網(wǎng)絡(luò)延遲的變化程度。

        鑒于網(wǎng)絡(luò)性能對資源記錄變化判斷的影響,定義了一個叫作網(wǎng)絡(luò)性能擾度的特征。所謂網(wǎng)絡(luò)性能擾度,就是資源記錄變化前后的網(wǎng)絡(luò)連接時間的變化程度。假設(shè)變化之前測得是To,變化之后測得RTT是Tn,那么網(wǎng)絡(luò)性能擾度表示為:

        其中,|To-Tn|是To和Tn差值的絕對值;max(To,Tn)是To和Tn中較大的值。從式(2)中看出,網(wǎng)絡(luò)性能擾度與|To-Tn|成正比,與max(To,Tn)成反比。特別地,當(dāng)To和Tn都為0時,β等于0。

        之所以對記錄變化前后的時延差值取絕對值,是因為To和Tn之間的大小關(guān)系并不確定,取其差值的絕對值可以保證網(wǎng)絡(luò)性能擾度為非負(fù)?,F(xiàn)在假如有2條A記錄RR1和RR2,它們在某個變化時刻之前測得RTT最小值分別是T1和T2(T1<T2),記錄變化之后測得的它們變化值同為ΔT,那么RR1的網(wǎng)絡(luò)性能擾度相比RR2的要大,所以定義性能擾度與To成反比例。

        2.1.6 Whois屬性

        根據(jù)域名資源記錄變化前后Whois信息(分別查詢該域名的二級域域名的Whois信息,記錄下),如注冊時間、到期時間、最近修改時間、注冊商名稱、注冊人和注冊人郵箱等,計算域名的所有度度量、域名權(quán)威服務(wù)器的轉(zhuǎn)移度、域名持有穩(wěn)定度、最近修改時長等。

        (1)所有度度量

        域名字符串、注冊人姓名和注冊郵箱等三者之間有一些有趣的關(guān)聯(lián),經(jīng)常可以看到郵箱的用戶名就是姓名的連接字符串。這三者之間的相關(guān)度可以用作衡量域名注冊信息一致性的手段??紤]到此,定義了一個稱為所有度度量的特征。所有度度量是衡量注冊人持有該域名的可能程度。

        按如下幾種情況拼接成字符串:姓名所有單詞連接起來的字符串,姓名的每個單詞,域名的二級域標(biāo)號,姓名所有單詞組合拼接起來的字符串,姓名首字母組成的字符串。對于中文姓名,需首先轉(zhuǎn)換成拼音。將這些字符串分別與郵箱用戶名(郵箱字符‘@'前面的字符串)比對,獲得相似度(取值范圍是[0, 1])[17]。最后,把最大的相似度作為所有度度量。

        (2)域名權(quán)威服務(wù)器的轉(zhuǎn)移度

        某域名(如example.com)的區(qū)權(quán)威服務(wù)器的轉(zhuǎn)移有很多形式,如更換DNS服務(wù)商,把權(quán)威服務(wù)器變更到同一域名解析服務(wù)商的另一臺(組)權(quán)威服務(wù)器等,不同的形式對應(yīng)不同的轉(zhuǎn)移程度,前者要比后者的轉(zhuǎn)移程度高。稱轉(zhuǎn)移程度為轉(zhuǎn)移度或轉(zhuǎn)移級別,轉(zhuǎn)移程度越大,轉(zhuǎn)移度越大。域名服務(wù)器的轉(zhuǎn)移度表征了域名服務(wù)器轉(zhuǎn)移程度的大小,轉(zhuǎn)移度越大域名被攻擊的可能性越大。轉(zhuǎn)移級別和轉(zhuǎn)移方式包括以下4種:

        1)域名注冊商變更

        域名所有者通過域名轉(zhuǎn)移[1]的方式將域名從一個域名注冊商轉(zhuǎn)移到另外一個注冊商。注冊機構(gòu)是否發(fā)生變化可以從前后Whois信息查詢獲得的注冊商名字字符串的編輯距離來自動判斷。

        2)DNS服務(wù)商變更

        假設(shè)域名example.cn的域名解析服務(wù)商原本是A,A配置它的dns.example1.cn服務(wù)器作為DNS,后來更換為域名解析服務(wù)商B,DNS也隨之變成dns.example2.cn服務(wù)器,這個過程就是DNS服務(wù)商更改。盡管DNS服務(wù)器的名字發(fā)生變化經(jīng)常意味著DNS服務(wù)商發(fā)生轉(zhuǎn)移,但并不一定正確。例如DNS服務(wù)器expiredns.com和hichina.com就是注冊商萬網(wǎng)的2個不同的DNS服務(wù)器。

        3)同一域名解析服務(wù)商的權(quán)威服務(wù)器變更

        域名example.cn的DNS服務(wù)商原本是A的權(quán)威服務(wù)器a.example.cn,后來更換到A的另一臺權(quán)威服務(wù)器b.example.cn,就是一個同一域名解析服務(wù)商的權(quán)威服務(wù)器變更例子。

        4)權(quán)威服務(wù)器網(wǎng)絡(luò)地址變更

        當(dāng)域名的NS記錄沒有更改,而Glue記錄發(fā)生變化時,域名的權(quán)威服務(wù)器網(wǎng)絡(luò)地址就發(fā)生變化。增添了服務(wù)器的情況同樣可以歸為此類。

        上文的4種轉(zhuǎn)移方式轉(zhuǎn)移程度從上而下逐漸變大。本文用轉(zhuǎn)移值來衡量轉(zhuǎn)移程度,轉(zhuǎn)移程度越大,轉(zhuǎn)移值越小,從上而下給每種情況賦值1,2,3和4。判斷時,按照從上往下的順序判斷,如果確定為一個轉(zhuǎn)移級別,那么停止判斷。特別地,如果某一個域名的權(quán)威服務(wù)器的控制權(quán)屬于其所有者,那么更改成第三方域名服務(wù)商認(rèn)為是一件非常危險的情況,轉(zhuǎn)移級別很大,把其轉(zhuǎn)移值賦為5;沒有變化時轉(zhuǎn)移值設(shè)為0。

        因為域名可能有不只一臺權(quán)威服務(wù)器(一個服務(wù)器很可能對應(yīng)一個網(wǎng)絡(luò)地址),發(fā)生轉(zhuǎn)移的權(quán)威服務(wù)器可能不只一臺,每個轉(zhuǎn)移的級別也可能有所不同,所以確定所有轉(zhuǎn)移的級別,并把最高的轉(zhuǎn)移級別作為總體的轉(zhuǎn)移級別。轉(zhuǎn)移的服務(wù)器臺數(shù)越多,影響范圍和程度越大。

        (3)域名持有穩(wěn)定度

        如果域名注冊時間離查詢時的時間越長,那么域名將被使用的時間可能越長;查詢時離過期時間的時間越長,域名注冊人使用這個域名提供網(wǎng)絡(luò)服務(wù)的預(yù)期時間越長,對該域名上關(guān)注度可能越多,同樣繼續(xù)使用的動力更大。除此之外,服務(wù)時間越長,該域名的所有者和管理者維護域名的經(jīng)驗也就可能越豐富。

        基于以上考慮,本文定義一個稱為域名持有度的特征。域名的持有穩(wěn)定度是指當(dāng)前域名所有者持有該域名強弱的度量,它取決于域名的注冊時間到查詢時的時間長度和查詢時到過期時間[18]的時間長短,它分別與這兩者成正比。

        如果Tp是指注冊時間到查詢時的時間長度,即查詢?nèi)掌谂c注冊時間的差值;Tf是指查詢時間到過期時間的時間長度,即過期日期與查詢?nèi)掌诘牟钪?那么某已注冊域名的穩(wěn)定度表示為:

        這2個時間都以年為計量單位,零頭超過半年則進一年,反之去掉零頭。簡便起見,k取1。λ的取值范圍是{0,1,…}。

        (4)最近修改時長

        Whois信息中的最近修改時間記錄了最近更新域名的注冊信息和權(quán)威服務(wù)器信息的時間。也就是說,如果黑客修改了域名在頂級服務(wù)器上NS記錄,就會在最近修改時間上得到體現(xiàn)。一般來說,運行穩(wěn)定和安全的域名很少更改注冊信息的,更改時間離現(xiàn)在越近,A記錄變化越可能為危險變化。最近修改時長是指最近修改時間到查詢時間的時長。

        2.1.7 域名服務(wù)器特征

        分別查詢權(quán)威服務(wù)器域名所在的二級域域名的Whois信息,并記錄下其注冊時間、到期時間、最近修改時間、注冊商名稱、注冊人和注冊人郵箱等信息。使用這些信息計算獲得前文提到的所有度度量、域名權(quán)威服務(wù)器的轉(zhuǎn)移度、域名持有穩(wěn)定度、最近修改時長等度量,這些度量表征了域名服務(wù)器的強壯性。

        2.2 訓(xùn)練集獲取

        從一臺DNS遞歸服務(wù)器的解析日志中,提取請求域名組成一個訓(xùn)練集所需的域名集合。為了過濾無A記錄(No Data)或不存在(NXDOMAIN)的域名而獲得當(dāng)前被用作Web服務(wù)的域名,使用NMAP探測域名集中的域名。為了讓訓(xùn)練集中的域名具有更強的代表性,根據(jù)域名請求量的大小,通過聚類抽樣或分層抽樣的方法篩選出少量域名。

        周期性地獲取域名的資源記錄信息、相關(guān)Whois信息、網(wǎng)絡(luò)延遲等基本信息,下載域名相對應(yīng)的Web頁面。當(dāng)發(fā)現(xiàn)某個域名的A記錄發(fā)生變化,獲取該域名的相關(guān)信息和對應(yīng)Web頁面,根據(jù)它變化前后的域名信息計算獲得前文定義的特征,并對這些數(shù)據(jù)做進一步數(shù)據(jù)規(guī)約和數(shù)據(jù)清理;根據(jù)Web頁面的變化情況,對該訓(xùn)練樣本進行類標(biāo)簽標(biāo)注,標(biāo)志為安全變化或者危險變化。標(biāo)注標(biāo)簽時參照的標(biāo)準(zhǔn)是:是否返回頁面;如果返回頁面,檢查頁面相似度。網(wǎng)頁內(nèi)容發(fā)生較大變化,該域名變化標(biāo)記為危險變化。注意,如果原本通過該域名提供Web服務(wù),而現(xiàn)在卻不提供Web服務(wù)了,那么發(fā)生A記錄危險變化的可能性較大。再將這個帶標(biāo)簽的訓(xùn)練樣本加入到訓(xùn)練集中。

        通過不斷按照上面的過程收集數(shù)據(jù),經(jīng)過一段時間之后,最終獲得了一個實體數(shù)為122的訓(xùn)練集。

        2.3 訓(xùn)練及評估

        下面將分別采用決策樹和支持向量機2種分類算法對訓(xùn)練數(shù)據(jù)進行學(xué)習(xí)。

        (1)決策樹分類

        考慮到作為一種經(jīng)常用來評價新分類算法的方法,決策樹算法分類精度高,非常適合本文訓(xùn)練二分類分類器。使用weka的J48工具做訓(xùn)練(J48工具是一種 weka中提供的 C4.5[19]決策樹算法的開源實現(xiàn))。

        訓(xùn)練獲得一棵裁剪的決策樹。十折交叉驗證方法[20]算得的分類器模型的分類效果如表2和表3所示。

        表2 分類訓(xùn)練效果

        表3 決策樹模型效果指標(biāo)

        從表3中可見,類別1的TP率較小,說明決策樹對類別1的漏檢率較高,對危險變化發(fā)現(xiàn)的能力較差。但是從謹(jǐn)慎判斷,減少錯誤幾率的角度來說,這是可以接受的。類別1的FP率非常小,即把安全變化誤當(dāng)作危險變化的可能性非常小,錯誤地干涉正常域名操作的幾率非常小。

        (2)支持向量機

        使用Weka的支持向量機[21]算法SMO[22],對已獲得的訓(xùn)練集進行學(xué)習(xí)訓(xùn)練,獲得一個支持向量機模型。通過十折交叉驗證方法獲得該模型的分類效果,如表2和表4所示。

        表4 SVM模型效果指標(biāo)

        類別 1的 FP率較小,且比決策樹小好多(0.053<0.168),說明錯誤地把安全變化誤當(dāng)作危險變化的可能性更小。與決策樹算法相比,類別1的TP率要高一點,說明漏檢率降低了一些。在所有被判斷為類比1的實例中,實際為類別0的實例要比實際為類比1的實例多一點。這與訓(xùn)練集中標(biāo)記為類別0與標(biāo)記為類比1的比例有關(guān),比例不是1∶1,而是27∶95(約為1/3)。對比危險變化被識別危險變化的概率與安全變化被識別為危險變化的概率,在決策樹算法中,前者大約是后者的2.5倍;在支持向量機算法中,前者大約是后者的2.8倍。

        從表3和表4中發(fā)現(xiàn),2種算法準(zhǔn)確性都非常高。在類別0方面,決策樹的準(zhǔn)確度達(dá)到了83%,支持向量機達(dá)到了85%;在類別1方面,決策樹的準(zhǔn)確度達(dá)到了40.7%,支持向量機達(dá)到70.6%。這些數(shù)字說明了本文方法的有效性。

        3 結(jié)束語

        本文通過分析域名的相關(guān)信息判斷出域名數(shù)據(jù)的變化是否危險。為了找到兩者之間的隱含關(guān)系,將有監(jiān)督的機器學(xué)習(xí)技術(shù)應(yīng)用于由域名特征組成的訓(xùn)練集分析當(dāng)中。另外,本文也證明了DNS的一些特征包含了大量可以用來判斷域名數(shù)據(jù)危險狀態(tài)的信息。

        下一步工作將改進和完善域名危險判斷分類器的分類能力,并嘗試將本文方法應(yīng)用于其他的域名資源記錄類型。

        [1] Mockapetris P.Domain Names-Concepts and Facilities [EB/OL].(1987-11-01).http://www.ietf.org/rfc/ rfc1034.txt.

        [2] Mockapetris P.Domain Names-Implementation and Specification[EB/OL].(1987-11-01).http://www. ietf.org/rfc/rfc1035.txt.

        [3] Arends R,Austein R,Larson M,et al.DNS Security Introduction and Requirements[EB/OL].(2005-03-15).http://www.ietf.org/rfc/rfc4033.txt.

        [4] Santcroos M,Kolkman O M.DNS Threat Analysis[EB/ OL].(2009-02-25).http://www.nlnetlabs.nl/ downloads/se-consult.pdf.

        [5] ICANN Security, Stablility Advisory Committee. Domain Name Hijacking:Incidents,Threats,Risks,and Remedial Actions[EB/OL].(2005-07-05).http:// archive.icann.org/en/announcements/hijacking-report-12jul05.pdf.

        [6] Pappas V,Xu Zhiguo,Lu Songwu,et al.Impact of Conguration Errors on DNS Robustness[C]//Proc.of ACM SIGCOMM'04.Portland,USA:[s.n.],2004:319-330.

        [7] Liu Ziqian.Lessons Learned from May 19 China's DNS Collapse[EB/OL].(2009-11-10).https://www.dnsoarc.net/files/workshop-200911/Ziqian_Liu.pdf.

        [8] 王培新,劉穎,陳雨新,等.Web通信中可疑域名監(jiān)控技術(shù)的研究[J].計算機技術(shù)與發(fā)展,2012,22(4): 231-234.

        [9] Samaneh R,Saripan M I,Rasid M F A.Defending Denial of Service Attacks Against Domain Name System with Machine Learning Techniques[EB/OL].(2010-11-01). http://www.researchgate.net/publication/49586608.

        [10] Wu Jun,Wang Xin,Lee Xiaodong,et al.Detecting DDoS Attack Towards DNS Server Using a Neural Network Classifier[C]//Proc.of the 20th International Conference on Artificial Neural Networks.[S.l.]: Springer,2010:118-123.

        [11] Kalafut A J,Shue C A,Gupta M.Understanding Implications of DNS Zone Provisioning[C]//Proc.of the 8th Conference on Internet Measurement.[S.l.]: Springer,2008:211-216.

        [12] Osterweil E,Masse D,Zhuang Lixia.Observations from the DNSSEC Deployment[C]//Proc.of IEEE Workshop on Secure Network Protocols.[S.l.]:IEEE Press,2007:1-6.

        [13] Osterweil E,Ryan M,Massey D,et al.Quantifying the Operational Status of the DNSSEC Deployment[C]// Proc.of the 6th ACM/USENIX Internet Measurement Conference.Vouliagmeni,Greece:[s.n.],2008:211-216.

        [14] Osterweil E,Massey D,Zhang Lixia.Deploying and Monitoring DNS Security(DNSSEC)[C]//Proc.of the 25th Annual Computer Security Applications Conference.Honolulu,USA:[s.n.],2009:429-438.

        [15] Ma J,Saul L K,Savage S,et al.Learning to Detect Malicious URLs[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):30.

        [16] Gige D.Passive Measurement of Network Quality[D]. Zürich, Switzerland: Swiss Federal Institute of Technology,2005.

        [17] Levenshtein V I.Binary Codes Capable of Correcting Deletions,Insertions and Substitutions of Symbols[J]. Doklady Academy of Sciences of the USSR,1965,163 (4):845-848.

        [18] Daigle L.WHOIS Protocol Specification[EB/OL]. (2004-09-12).http://www.ietf.org/rfc/rfc3912.txt.

        [19] Quinlan J R.C4.5:Programs for Machine Learning [M].[S.l.]:Morgan Kaufmann Publishers,1993.

        [20] Kohavi R.A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection[C]//Proc.of the 14th International Joint Conference on Artificial Intelligence.Montreal,Canada:Morgan Kaufmann, 1995:1137-1143.

        [21] Boser B E,Guyon I M,Vapnik V N.A Training Algorithm for Optimal Margin Classifiers[C]//Proc.of the 5th Annual ACM Workshop on COLT.Pittsburgh, USA:ACM Press,1992:144-152.

        [22] Platt J.Fast Training of Support Vector Machines Using Sequential MinimalOptimization[M].Cambridge, USA:MIT Press,1999.

        編輯 顧逸斐

        Monitoring Method of Domain Name Data Based on Machine Learning

        LIU Ming-xing,JIN Jian,LI Xiao-dong
        (Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China)

        A threat that Domain Name System(DNS)data is tampered by hackers endangers DNS applications.Due to the hidden characteristic of this threat,a quick and effective method to find dangerous changes in DNS data is needed urgently.Regarding to the problem,this paper proposes a method to monitor the DNS data based on machine learning,by which dangerous change in DNS data can be found quickly.Some domain names whose data are changed are chosen from a number of domain names,and their relevant information is individually analyzed in order to produce a tuple that is represented by a multi-dimensional attribute vector,which contains literal characteristics,forward-inverse match and so on.After that a class is labeled depending on whether the changes are bad or not so that an instance containing the tuple and their class label is built and consequently a training set is built.By analyzing the training set the two classification algorithms,decision tree and Support Vector Machine(SVM),build classifiers,which are used to detect whether changes in DNS data are dangerous or not.The 10-fold cross-validation is used to validate the two classifiers.It is found that the classifiers do well in finding dangerous changes in DNS data,in which the present results show that the classifier can reach a good precision,and their weighted average accuracies are 73.8% and 82.4%.

        Domain Name System(DNS);security;machine learning;DNS monitoring;decision tree;Support Vector Machine(SVM)

        1000-3428(2014)09-0263-06

        A

        TP18

        10.3969/j.issn.1000-3428.2014.09.053

        國家自然科學(xué)基金資助項目(61005029);互聯(lián)網(wǎng)基礎(chǔ)技術(shù)開放實驗室研究課題基金資助項目。

        劉明星(1985-),男,碩士,主研方向:網(wǎng)絡(luò)安全,下一代互聯(lián)網(wǎng)技術(shù);金 鍵,高級工程師、碩士;李曉東,研究員、博士、博士生導(dǎo)師。

        2013-09-16

        2013-11-07E-mail:liumingxing@cnnic.cn

        猜你喜歡
        域名IP地址決策樹
        鐵路遠(yuǎn)動系統(tǒng)幾種組網(wǎng)方式IP地址的申請和設(shè)置
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        如何購買WordPress網(wǎng)站域名及綁定域名
        基于SNMP的IP地址管理系統(tǒng)開發(fā)與應(yīng)用
        黑龍江電力(2017年1期)2017-05-17 04:25:16
        基于決策樹的出租車乘客出行目的識別
        騰訊八百萬美元收購域名
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        頂級域名爭奪戰(zhàn):ICANN放出1930個通用頂級域名,申請者有上千家
        用統(tǒng)一身份認(rèn)證解決IP地址的盜用
        午夜一区二区三区在线观看| 欧美黑人乱大交| 欧美成人精品三级在线观看| 日韩色久悠悠婷婷综合| 中文字幕乱码亚洲无限码| 大肉大捧一进一出好爽视频| 亚洲人成网站在线播放观看| 国产精品不卡在线视频| 99久久99久久久精品蜜桃| 日本亚洲欧美色视频在线播放| 久久99国产亚洲高清观看韩国| 色婷婷一区二区三区四区| 亚洲综合中文字幕日韩| 亚洲国产精品国自产拍av| 欧美日韩在线免费看| 日本精品国产1区2区3区| 亚洲国产国语在线对白观看| 亚洲av福利无码无一区二区 | 久久精品国产亚洲av成人网| 日本a级片免费网站观看| 天堂中文在线资源| 亚洲嫩模高清在线视频| 丝袜美腿亚洲综合在线播放| 国模精品一区二区三区| 久久久久99精品国产片| 久久国产高潮流白浆免费观看| 一区在线视频免费播放| 国产无套内射久久久国产| 国产最新AV在线播放不卡| 久久亚洲av熟女国产| 色欲欲www成人网站| 亚洲免费人成在线视频观看| 蜜桃一区二区三区自拍视频| 中国人在线观看免费的视频播放| 在线不卡av片免费观看| 国产精品一区2区三区| 久久国产精品美女厕所尿尿av| 精品久久久久香蕉网| 国产精品理人伦国色天香一区二区| 亚洲中文字幕第一第二页| 欧美丰满熟妇xxxx性ppx人交|