亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文語義的惡意域名語料提取模型研究

        2018-05-08 07:51:42劉嘉勇湯殿華
        關(guān)鍵詞:域名語料語料庫

        黃 誠,劉嘉勇,劉 亮,何 祥,湯殿華

        HUANG Cheng1,2,LIU Jiayong1,LIU Liang1,HE Xiang1,TANG Dianhua2

        1.四川大學(xué) 電子信息學(xué)院,成都 610065

        2.保密通信重點(diǎn)實(shí)驗(yàn)室,成都 610041

        1.College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China

        2.Science and Technology on Communication Security Laboratory,Chengdu 610041,China

        1 引言

        近年來隨著企業(yè)各種核心業(yè)務(wù)逐漸融合互聯(lián)網(wǎng),越來越多的組織或者公司都遭受到了各種黑客攻擊,各種APT(Advanced Persistent Threat)攻擊事件層出不窮。為了適應(yīng)快速變化的網(wǎng)絡(luò)犯罪技術(shù),安全公司或相關(guān)機(jī)構(gòu)也不斷發(fā)現(xiàn)并溯源重大安全攻擊事件,通過不同的渠道(博客、論壇、微博、專業(yè)報(bào)告等)來披露各種攻擊技術(shù)細(xì)節(jié)及惡意域名等信息。這些已公開的攻擊分析報(bào)告一般采用英文進(jìn)行書寫,其內(nèi)容主要從攻擊事件的目標(biāo)、攻擊者使用的惡意域名、IP地址、惡意工具等進(jìn)行描述分析。內(nèi)容中的惡意域名或者IP地址也有可能被黑客用于其他攻擊中,為了檢測并阻斷這些潛在的黑客攻擊行為,安全公司往往會將這些惡意域名進(jìn)行整理并加入防火墻或者殺毒軟件的黑名單列表。目前從文本中提取惡意域名的技術(shù)主要還是基于正則表達(dá)式和白名單技術(shù),這種技術(shù)存在很大的誤報(bào)率,即沒有在白名單列表中的域名不一定就是惡意域名。因此,如何從海量技術(shù)文本中自動提取惡意域名在網(wǎng)絡(luò)攻擊檢測與防御方面具有重要的作用。

        近年來,很多學(xué)者都在研究快速檢測惡意域名并提取黑名單列表的方法。文獻(xiàn)[1-2]提出的惡意域名檢測技術(shù)主要是基于域名對應(yīng)網(wǎng)頁的內(nèi)容進(jìn)行分析和提取,其提取特征主要包含域名的書寫規(guī)則、網(wǎng)頁中的元素位置、網(wǎng)頁靜態(tài)和動態(tài)行為特征。文獻(xiàn)[3-5]則是從域名自身的詞法、句法等方面進(jìn)行識別和檢測。雖然以上研究實(shí)現(xiàn)了常規(guī)惡意域名的檢測工作,但是目前針對文本中惡意數(shù)據(jù)挖掘的研究成果則微乎其微[6-7],而文本挖掘技術(shù)在計(jì)算機(jī)領(lǐng)域則相對成熟,文獻(xiàn)[8-9]分析了目前文本挖掘的特征提取、語料生成算法和自動分類技術(shù)。

        為解決文本中的惡意域名提取工作,論文試圖將已有的文本挖掘和機(jī)器學(xué)習(xí)分類技術(shù)引入其中,并結(jié)合惡意域名文本描述的相關(guān)特征提出了基于上下文語義的惡意域名語料提取模型,并通過多個(gè)實(shí)驗(yàn)驗(yàn)證了模型的可行性和語料的有效性,擴(kuò)展了目前在文本數(shù)據(jù)中惡意域名提取方法,實(shí)現(xiàn)了文本中的惡意域名的自動提取方法。

        2 相關(guān)基礎(chǔ)

        2.1 語料庫簡介

        語料庫(Corpus)[10]是存放語言相關(guān)材料的倉庫,其內(nèi)容主要由同類型的語料組成。語料庫的價(jià)值是通過語料的標(biāo)注來體現(xiàn)的,標(biāo)注的層次越高、規(guī)模越大、準(zhǔn)確性越好,其價(jià)值就越高。標(biāo)注后的語料一般稱為熟語料,未標(biāo)注的語料一般稱為生語料[11]。目前,語料庫在很多研究領(lǐng)域(尤其是文本處理、圖像識別等)都獲得了高度成功,己成為自然語言處理研究領(lǐng)域不可分割的一部分。

        本文討論的惡意域名語料是指從文本上描述域名安全性的單詞或者短語,這些單詞或者短語可以從文本語義上進(jìn)行上下文描述。同時(shí),通過這些語料可以訓(xùn)練有監(jiān)督學(xué)習(xí)模型,從而對文本數(shù)據(jù)中域名的安全性進(jìn)行標(biāo)注或者預(yù)測。

        2.2 上下文的定義

        上下文目前還沒有公認(rèn)的標(biāo)準(zhǔn)定義,研究中采用較多的是Dey[12]提出的定義:“上下文是任何可用于刻畫實(shí)體所處環(huán)境的信息。這里的實(shí)體可以是人,也可以是地點(diǎn)或者其他在用戶和應(yīng)用程序交互過程中所涉及的對象,甚至還包括用戶和應(yīng)用程序本身”。從這個(gè)定義可以看出,實(shí)體和上下文之間存在如下的關(guān)系:上下文是用來描述實(shí)體屬性的信息,同時(shí)實(shí)體與上下文也是相對的概念。目前基于上下文的相關(guān)研究主要集中在推薦系統(tǒng)、信息檢索、個(gè)性化推薦等領(lǐng)域中,在信息安全領(lǐng)域則相對較少。

        本文討論的是基于上下文語義的惡意域名語料提取模型,惡意域名是上下文定義中的實(shí)體對象,而惡意域名的屬性信息則是通過文本中上下文的語義進(jìn)行描述。安全人員在發(fā)布的博客文章或者正式報(bào)告中經(jīng)常使用跟描述安全相關(guān)的單詞或者短語來描述域名的安全性。例如,下面的句子是從實(shí)際APT攻擊文檔中提取的一段文字,通過這個(gè)例子可以對論文針對的上下文語義進(jìn)行簡單描述。

        We also observed another HTTPS Gh0st variant connecting to a related command and control server at http://me.scieron.com.

        此句中“http://me.scieron.com”即是論文研究的惡意域名對象,其上下文語義是指這個(gè)域名在句中前后的描述詞語,這些描述用語既是基于安全人員的技術(shù)分析結(jié)果,又結(jié)合了安全人員的書寫用語習(xí)慣。因此,可以通過這些詞語可以對域名的安全屬性進(jìn)行描述。

        2.3 向量空間模型

        向量空間模型(Vector Space Model,VSM)由Gerard Salton等提出,是目前使用最廣泛的文本表示模型[13]。在這種傳統(tǒng)的向量空間模型中,文本集合泛指機(jī)器可以讀取的記錄,可以是一個(gè)網(wǎng)頁或是一篇文檔;特征詞集合是用來體現(xiàn)文章主題內(nèi)容的關(guān)鍵字。對于包含k個(gè)特征詞的文本di={ }ti1,ti2,…,tik(1≤i≤m,1≤k≤n),根據(jù)各個(gè)特征詞tij(1≤j≤k)在文本中的重要性計(jì)算其權(quán)值wij(1≤i≤m,1≤j≤k),則文本di可以用k維空間的一個(gè)向量,整個(gè)文本集合D就可以表示為k維空間的m個(gè)向量,如圖1所示。

        圖1 向量空間模型表示流程

        在實(shí)際用向量空間模型來表示文本信息時(shí),有以下幾方面內(nèi)容需要詳細(xì)研究:首先,從文本中生產(chǎn)特征詞的過程中需要提出特征詞提取算法,算法的優(yōu)劣與否直接影響到文本的語義信息;其次,特征詞集中詞的數(shù)量一般比較龐大,需要使用排序算法對特征詞進(jìn)行重要性分析。因此,本文在基于文本數(shù)據(jù)的惡意域名語料提取研究中需要對以上問題進(jìn)行詳細(xì)分析。

        3 基于上下文語義的惡意域名語料提取模型

        3.1 設(shè)計(jì)思路

        惡意域名語料提取模型主要研究如何從網(wǎng)絡(luò)數(shù)據(jù)中構(gòu)建描述惡意域名的相關(guān)語料,并且這些語料可以從文本層面對域名的安全性進(jìn)行區(qū)分。惡意域名語料提取模型生成的語料庫可以結(jié)合機(jī)器分類算法實(shí)現(xiàn)從文本數(shù)據(jù)中自動提取惡意域名,進(jìn)而生成惡意域名列表,實(shí)現(xiàn)威脅情報(bào)信息IOC(Indicator of Compromise)數(shù)據(jù)的自動提取,最終這些列表數(shù)據(jù)可供其他諸如防火墻、終端防護(hù)等安全設(shè)備使用。

        作者的書寫風(fēng)格通常體現(xiàn)在其用字、遣詞、造句等文法習(xí)慣中,因此,字、詞、句等都可以作為特征來表示作者的書寫風(fēng)格。自書寫風(fēng)格識別開始引起研究者關(guān)注以來,如何選擇和提取出更豐富、更有分辨力的書寫風(fēng)格特征就一直是研究的重點(diǎn)。論文結(jié)合文本的語言特點(diǎn)并依據(jù)向量空間模型相關(guān)理論,提出了基于文本上下文語義的惡意域名語料提取過程:提取模型的數(shù)據(jù)集可以用進(jìn)行表示,其中dm可以是一個(gè)網(wǎng)頁或是一篇文檔。針對這些數(shù)據(jù)按照語料提取算法進(jìn)行處理并生成語料,具體操作內(nèi)容包含上下文單詞和短語,通過算法進(jìn)行處理后可以得到上下文語料(C)與2-gram語料(G)兩種語料,從而得到惡意域名語料庫。其中,惡意語料庫中上下文語料(C)與2-gram語料(G)在一定程度上可以表明被描述域名的安全性,其選擇的主要原因分析如下。

        (1)上下文單詞

        通過對大量文本內(nèi)容分析后發(fā)現(xiàn),安全分析人員經(jīng)常在技術(shù)博文中使用大量安全相關(guān)的單詞或者短語來解讀域名的安全性。例如,從2.2節(jié)中的描述文字中可以看出,其句子中包含很多專業(yè)用語來描述句中的域名,通過閱讀這些文字可以給出該域名的安全性,同時(shí)句中包含了很多停用詞(stop words,在句中沒有實(shí)際含義的詞語),如果去掉這些停用詞可以得到如下的結(jié)果:

        We also observed another HTTPS Gh0st variant connecting to a related command and control server at http://me.scieron.com.

        處理后的文字能很詳細(xì)地描述域名“me.scieron.com”的屬性和安全性:該域名被描述為惡意域名,已被攻擊者用于惡意木馬的通訊地址。經(jīng)過處理后的句子其文字?jǐn)?shù)量更少,單從每個(gè)詞的語義很難對于目標(biāo)域名的惡意性進(jìn)行描述,但是經(jīng)過處理后的單詞組合成詞包,通過這些詞語可以直接推斷域名的安全性,這個(gè)處理過程也在一定程度上減少語料庫的大小。同時(shí),如果有大量的數(shù)據(jù)進(jìn)行訓(xùn)練,域名的安全性就可以通過上下文的文字內(nèi)容進(jìn)行判定。

        為了獲取惡意域名相關(guān)的文字,論文主要從采包含目標(biāo)域名的句子進(jìn)行分析。已有的研究模型中,往往是獲取整個(gè)文本的所有詞語,但是這個(gè)策略在實(shí)際中行不通,因?yàn)槊總€(gè)文檔中都會包含正常域名和惡意域名,如果選擇BOW(Bag-of-Words)模型[14]來提取所有的短語,那么機(jī)器學(xué)習(xí)分類模型將無法奏效。因此,只選擇包含有目前域名的句子是一種更好的思路。

        (2)上下文短語

        雖然上下文單詞可以在一定程度上表明句中域名的安全性,但是單個(gè)詞語包含的信息量較少,無法表示更多的含義。在文本分類中,最具代表性的字符類特征是N-gram字符,N-gram字符又稱為N元字符串,是指長度為N的字符序列,在文本分類任務(wù)中通常用于文本表示。假設(shè)有一大小固定為N的滑動窗口對文本內(nèi)容進(jìn)行滑動操作,每次滑動一個(gè)字符,形成長度為N的字符片段序列,則每個(gè)字符片段序列稱為一個(gè)gram。借助向量空間模型VSM來表示文本,將所有的gram按頻度進(jìn)行統(tǒng)計(jì)和過濾后形成的列表,即可為該文本的特征向量空間,每一個(gè)gram表示一個(gè)特征向量維度。N-gram技術(shù)在20世紀(jì)80年代至20世紀(jì)90年代經(jīng)常被用于拼寫錯(cuò)誤檢查,輸入字符預(yù)測,文獻(xiàn)語種識別等。20世紀(jì)90年代以后在自然語言處理領(lǐng)域得到了新的發(fā)展,例如文本自動分類、自動分割等。但是在安全領(lǐng)域主要還是通過N-gram去提取片段代碼或者數(shù)據(jù),從而組合成不同的特征方便相似度比較或者分類處理[15]。

        N-gram具有獨(dú)立于語種,預(yù)處理簡單,容錯(cuò)能力強(qiáng),包含特征信息豐富等特征,從而彌補(bǔ)單純基于上下文單詞語料提取方式的不足。論文試圖借助N-gram的短語提取方式和VSM空間向量模型理論,提出基于N-gram的上下文短語語料生成方法。在使用N-gram文本分類中,其中一個(gè)重要的問題是關(guān)于N值大小的確定,即N-gram字符串序列的長度。最佳N值的選擇不能走過大或者過小兩個(gè)極端,需要在兩方面保持一定的平衡。通過查閱相關(guān)文獻(xiàn)[9],同時(shí)鑒于論文實(shí)驗(yàn)數(shù)據(jù)為常規(guī)技術(shù)文本內(nèi)容,因此,在實(shí)際提取過程中論文選擇N=2作為此次上下文短語的生成長度。

        圖2 惡意域名語料提取描述過程

        通過以上對上下文單詞、上下文短語提取思路的分析。論文惡意語料提取過程可以用圖2進(jìn)行詳細(xì)描述。首先,從文本數(shù)據(jù)集針對每個(gè)文本dm進(jìn)行處理,即從文本dm提取包含有惡意域名集中任一域名mi的句子;其次,針對每個(gè)包含域名的句子sk從上下文本提取上下文語料和;然后,針對語料ck和gk進(jìn)行進(jìn)一步優(yōu)化處理;最終得到惡意域名語料數(shù)據(jù),從而形成語料庫。

        3.2 整體框架

        根據(jù)以上對惡意語料提取思路的分析,論文提出惡意域名語料提取模型的總體結(jié)構(gòu)設(shè)計(jì)圖,如圖3所示,模型總體上由數(shù)據(jù)輸入層、業(yè)務(wù)邏輯層、數(shù)據(jù)輸出層三部分構(gòu)成。

        圖3 惡意域名語料提取模型整體框架

        各部分的主要功能設(shè)計(jì)如下:

        (1)數(shù)據(jù)輸入層

        提供對外部數(shù)據(jù)的采集,并針對不同類別的數(shù)據(jù)進(jìn)行格式化處理。外部數(shù)據(jù)采集的主要數(shù)據(jù)源是目前公開的惡意攻擊APT攻擊分析文章、文檔或博客文章,由于包含不同的數(shù)據(jù)格式,因此需要采用數(shù)據(jù)格式化處理組件對其進(jìn)行處理。

        (2)業(yè)務(wù)邏輯層

        屬于惡意域名語料提取模型的核心技術(shù)層,實(shí)現(xiàn)了從格式化文本數(shù)據(jù)到最終生成惡意域名語料過程中的所有功能,包含惡意域名提取、語料提取算法、語料降維、權(quán)重計(jì)算等。

        (3)數(shù)據(jù)輸出層

        提供帶有權(quán)重的惡意域名語料數(shù)據(jù),并可以通過此類數(shù)據(jù)構(gòu)建語料庫,供其他機(jī)器分類模型使用。

        3.3 關(guān)鍵技術(shù)

        3.3.1 語料提取算法

        目前大部分語料庫生成模型都是基于BOW模型[16],這些模型都是將完整的文本作為目標(biāo)數(shù)據(jù)進(jìn)行短語提取,從而生成對應(yīng)的語料庫,由于語料庫包含了全文所有的短語,導(dǎo)致冗余信息太多,因而每個(gè)短語的信息量較低。同時(shí),如果一份文本中同時(shí)包含惡意域名和正常域名,采用BOW模型提取的正常域名語料和惡意域名語料內(nèi)容就會相同,因此,直接采用已有模型來提取描述惡意域名的語料行不通。通過對域名上下文的文字描述內(nèi)容進(jìn)行分析,本文提出了基于上下文語義的惡意語料提取算法,該算法僅僅從惡意域名所在句子的上下文語義進(jìn)行分析,得到惡意語料的上下文單詞和短語。

        算法1惡意域名語料提取算法

        輸入:包含惡意域名分析內(nèi)容的文檔集。

        輸出:生成可以描述惡意域名的語料(上下文單詞、2-gram短語)。

        步驟1分別對每個(gè)文檔進(jìn)行格式化處理,只提取包含域名的句子。

        步驟2提取句子中所有域名,利用在線域名檢測平臺對域名進(jìn)行安全性標(biāo)注,并選擇所有惡意域名。

        步驟3從所有句子中選擇含有惡意域名的句子,并把這些句子進(jìn)行下一步處理。

        步驟4通過2-gram生成算法對上一步得到的句子提取短語,從而生成惡意語料庫中的2-gram短語。

        步驟5繼續(xù)對步驟3的句子進(jìn)行分詞,移除停用詞和時(shí)態(tài)還原等操作,然后將處理后的單詞組合成詞包,從而得到了上下文單詞集合。

        步驟6將步驟4得到的2-gram和步驟5得到的上下文單詞進(jìn)行去重。

        3.3.2 語料降維方法

        降維操作的目標(biāo)是將高維特征空間映射到一個(gè)低維的特征空間,在本文分類中,比較常見的降維方法主要包含特征詞選擇和特征詞析取:特征詞選擇就是降維后的特征向量是降維前的特征空間的子集,所使用的手段有組合、轉(zhuǎn)換、歸納等;特征詞析取則主要通過特征詞聚類、隱含語義索引、基于概念層次的降維方式進(jìn)行處理的方法。通過對文本分類中現(xiàn)有降維方法的分析,同時(shí)結(jié)合惡意域名語料的實(shí)際內(nèi)容和英文書寫特征,本文提出了基于單詞頻度的選擇方法與基于特征詞主成份分析兩種方法對惡意域名語料進(jìn)行降維,如圖4所示。

        基于單詞頻度的選擇方法主要考慮到很多英文停用詞和標(biāo)點(diǎn)符號會在文本中出現(xiàn)多次,同時(shí)大部分單詞和符號對句子所表達(dá)的意思影響很小,其包含的信息熵很小。因此可以直接從文本中刪除。停用詞主要是用來連接各類詞語,但在句子中沒有任何含義的詞語。通過分析NLTK的語料庫發(fā)現(xiàn)[17],英文的常用停用詞只有127個(gè)單詞,但是其中一些詞語還帶有一定的感情色彩或者主觀態(tài)度,可以影響到整個(gè)句子或者目標(biāo)的含義,例如:no、not、too、very。雖然這些詞語屬于英文的停用詞,但是實(shí)驗(yàn)中沒有將這些有意義的停用詞移除,而其他停用詞在分詞后進(jìn)行了刪除操作。同理,在句子中的某些標(biāo)點(diǎn)符號(如:!,?)可以在一定程度上影響被描述的域名,這些字符需要進(jìn)行保留。另外的一些字符(如:”,$)則對目標(biāo)域名的描述沒有任何幫助,這些字符同樣需要?jiǎng)h除。

        圖4 惡意域名語料降維方法流程圖

        基于特征詞主成份分析方法主要考慮詞的不同形態(tài)歸并化處理,即詞形規(guī)范化,用于降低整個(gè)語料的維度。其主要內(nèi)容包含詞形還原和詞干提取,詞形還原是把一個(gè)任何形式的語言詞匯還原為一般形式,而詞干提取是抽取此的詞干或者詞根形式。詞形還原主要是針對動詞在不同的語境和句子中不同的時(shí)態(tài)進(jìn)行還原,比如第三人稱單數(shù)、一般現(xiàn)在時(shí)、過去式等。目前這類操作主要有基于規(guī)則的方法、基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法和混合的方法,其中基于詞典的詞形還原方法也是最主流的方法。為了實(shí)現(xiàn)詞的形態(tài)還原和詞干提取操作,論文采用基于詞典的方法對惡意域名語料數(shù)據(jù)進(jìn)行處理,其主要思想是利用詞典映射查詢找到對應(yīng)詞形的原形,從而還原詞的詞根形式。其中,學(xué)術(shù)研究中也已經(jīng)提出的Porter Stem Filter[18],Lancaster stemmer[19]等常規(guī)還原算法。論文在實(shí)現(xiàn)過程中主要利用NLTK和WordNet項(xiàng)目中的詞典對語料進(jìn)行還原操作,借助現(xiàn)有詞典進(jìn)行詞形識別、詞形和原形的映射,從而減少最終生成的惡意語料的維度。

        3.3.3 語料權(quán)重計(jì)算

        為了更準(zhǔn)確地描述惡意域名語料庫中每個(gè)語料的重要性,在對語料進(jìn)行降維之后,需要計(jì)算每個(gè)語料在語料庫中的權(quán)重。通過權(quán)重計(jì)算可以有效地篩選出對分類器比較有用的語料,常用的權(quán)重計(jì)算方法主要有:布爾權(quán)重,即通過二值(0或者1)去標(biāo)注特征權(quán)重;頻度權(quán)重,根據(jù)語料在本文中出現(xiàn)次數(shù)來計(jì)算其權(quán)重;TFIDF(Term Frequency-Inverse Document Frequency)權(quán)重,語料在越多的文本中出現(xiàn),越不重要;熵權(quán)重,通過計(jì)算語料的信息熵來表示權(quán)重;其他基于TF-IDF和信息熵改進(jìn)的算法。

        論文在結(jié)合實(shí)驗(yàn)數(shù)據(jù)并對比以上幾類方法后,提出了基于TF-IDF算法的語料權(quán)重計(jì)算方法。惡意域名語料在經(jīng)過前面的降維處理后,語料的維度有所減少,但是針對語料庫中的每一個(gè)語料的權(quán)重則需要利用TFIDF算法進(jìn)行詳細(xì)計(jì)算。基于TF-IDF算法的語料權(quán)重計(jì)算方法主要需要考慮以下兩個(gè)因素:

        (1)語料的頻率TF(Term Frequency):該語料在所有語料去重操作前出現(xiàn)的頻率。

        (2)語料的逆文檔頻率IDF(Inverse Document Frequency):該語料在所有文本數(shù)據(jù)中分布情況的量化,常用方法是利用如下的公式進(jìn)行計(jì)算:

        其中,N為文本集合中的文檔數(shù)目,nk為出現(xiàn)過該語料的文檔數(shù)目。但是考慮到實(shí)驗(yàn)中總的數(shù)據(jù)量相對較少,根據(jù)上面公式計(jì)算得到的每個(gè)語料IDF值會比較接近。谷歌和微軟公司都對互聯(lián)網(wǎng)上的文本數(shù)據(jù)有深入研究,并把相關(guān)研究成果開放給研究人員使用[20]。其中,目前運(yùn)用最廣泛是文本N-gram短語相關(guān)的數(shù)據(jù)下載和接口查詢功能,這些接口可以查詢每個(gè)N-gram短語的IDF值,其代表了該短語在互聯(lián)網(wǎng)中的實(shí)際分布情況,因此,這個(gè)值作為TF-IDF計(jì)算公式中的IDF值更佳。語料權(quán)重計(jì)算的詳細(xì)算法步驟如下:

        步驟1計(jì)算惡意域名語料庫(U)中每個(gè)語料(w)在語料去重操作前的TF頻率值。

        步驟2通過微軟在線API(Application Programming Interface)查詢接口[21]計(jì)算每個(gè)語料(w)的IDF逆文檔頻率值。

        步驟3通過TF-IDF公式計(jì)算每個(gè)語料(w)的權(quán)重值。

        步驟4根據(jù)權(quán)重值對所有語料進(jìn)行排序,并返回結(jié)果。

        最后通過如上的處理得到了每個(gè)語料的權(quán)重值,其值代表了描述域名安全性的重要程度。

        3.4 模型分析

        論文提出的基于上下文語義的惡意語料模型解決了機(jī)器學(xué)習(xí)分類模型中的特征提取問題,利用機(jī)器學(xué)習(xí)相關(guān)理論和模型生成的語料可以直接用于提取富文本中的惡意域名。與傳統(tǒng)標(biāo)準(zhǔn)的BOW模型不同,語料提取算法在傳統(tǒng)BOW模型的基礎(chǔ)上引入了上下文語義,從而提高語料的有效性;針對向量空間模型特征的稀疏性等問題,語料降維方法結(jié)合單詞頻度和特征詞主成份分析方法去降低語料的維度;而語料權(quán)重計(jì)算方法雖然采用傳統(tǒng)的TF-IDF算法,但是每個(gè)語料的IDF值則是基于海量數(shù)據(jù)的統(tǒng)計(jì)分析接口得到的,計(jì)算得到的TFIDF值代表了語料描述惡意域名的相關(guān)性,在實(shí)際特征選擇時(shí)可以按照TF-IDF值選擇特征的數(shù)量。因此,論文提出的惡意域名語料提取模型充分結(jié)合了文本處理技術(shù)和機(jī)器學(xué)習(xí)理論,為海量文本中惡意域名提取技術(shù)提供了一種新方向。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)描述

        為了驗(yàn)證論文提出的基于上下文語義的惡意語料模型,實(shí)驗(yàn)時(shí)需要包含有大量描述惡意域名或?qū)阂庥蛎M(jìn)行討論的文本數(shù)據(jù)。通過對互聯(lián)網(wǎng)上公開數(shù)據(jù)和技術(shù)報(bào)告進(jìn)行分析后發(fā)現(xiàn),從2008年到2015年間許多安全公司都發(fā)布了正式的APT攻擊分析報(bào)告。這些報(bào)告主要針對各種黑客攻擊行為進(jìn)行剖析,也對攻擊中所使用的各種資源(軟件、域名、主機(jī)等)進(jìn)行了描述和深度分析,尤其是針對域名和人員信息。實(shí)驗(yàn)中從互聯(lián)網(wǎng)上共獲取到277份APT攻擊分析文檔,通過對原始數(shù)據(jù)進(jìn)行格式化處理,最終得到了4 073個(gè)頂級域名。

        4.2 域名提取與標(biāo)記

        惡意域名語料提取框架的主要目的是自動提取描述惡意域名相關(guān)的語料,因此需要研究如何提取文檔數(shù)據(jù)中的域名,并對這些域名的安全性進(jìn)行判定。為了提取文檔數(shù)據(jù)中的惡意域名,本文采用以下三個(gè)步驟對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理:URL提取器、黑名單標(biāo)記和白名單過濾。首先,數(shù)據(jù)在經(jīng)過預(yù)處理后,需要通過正則去匹配文本中所有的網(wǎng)址。其次,通過黑名單服務(wù)去標(biāo)注惡意域名。最后,通過白名單過濾技術(shù)去降低黑名單標(biāo)記服務(wù)的誤報(bào)問題,從而讓惡意域名提取結(jié)果更加準(zhǔn)確。

        (1)URL提取器

        雖然可以利用Python中的正則表達(dá)式來提取文字中正常的網(wǎng)址,但是安全人員在引用惡意網(wǎng)址的時(shí)候?yàn)榱朔乐褂脩酎c(diǎn)擊惡意鏈接,往往會改用不同的書寫方式。例如,下面所展示的幾種書寫方式都來源于真實(shí)的APT分析報(bào)告中。

        通過與正常的鏈接對比發(fā)現(xiàn),如果使用正常的URL正則表達(dá)式則無法提取這些惡意域名,因此,在提取URL時(shí)需要考慮這類書寫方式的特殊性,將“[.]、hxxp、(dot)”這幾種書寫方法都進(jìn)行考慮,最終,論文給出了如下的正則式來提取這類鏈接。

        (2)黑名單標(biāo)記

        通過前面的URL提取器從文本中提取了大量域名,但是這些域名沒有標(biāo)注是否為惡意域名,黑名單標(biāo)記則是對這些網(wǎng)址進(jìn)行安全性判定。鑒于很多互聯(lián)網(wǎng)在線域名檢測平臺(如VirusTotal[22]、UrlQuery[23]等)都提供對域名安全性標(biāo)記服務(wù),同時(shí)VirusTotal作為目前最知名的在線惡意檢測平臺,已經(jīng)包含了超過60款全球的安全殺毒軟件。針對每個(gè)待檢查對象,VirusTotal會詳細(xì)給出有多少款殺毒軟件已經(jīng)將該對象列入了黑名單,其數(shù)字越大,說明其惡意性越肯定。所以論文在實(shí)際黑名單標(biāo)記中也是采用了VirusTotal在線網(wǎng)站安全鑒定服務(wù)對域名的安全性進(jìn)行標(biāo)記。

        (3)白名單過濾器

        考慮到各種黑名單標(biāo)記服務(wù)的誤報(bào)率研究[24],論文又提出了白名單過濾器去修正黑名單標(biāo)記服務(wù)的誤報(bào)率問題。Alexa排名是亞馬遜公司面向公眾提供的評估網(wǎng)站流行度的一個(gè)服務(wù)。通常而言,Alexa通過長時(shí)間對各種網(wǎng)站流量、內(nèi)容和鏈接等方面進(jìn)行分析,最后再對域名進(jìn)行排名。因此,如果一個(gè)域名在Alexa排名非常高,那么其安全性也相對較高。因此,本文選擇Alexa排名來移除正常域名,所有在上一步被在線安全檢測服務(wù)標(biāo)記為黑名單的域名,都需要判定其是否在Alexa排名中,如果在排名中則從黑名單列表中移除。

        最終,論文采用Alexa排名的前一百萬網(wǎng)站作為白名單,通過黑名單標(biāo)記和白名單過濾處理后,共有2 861個(gè)域名被VirusTotal標(biāo)注為惡意域名并且沒有出現(xiàn)在Alexa排名中,這些域名將作為惡意語料提取實(shí)驗(yàn)的域名數(shù)據(jù)。

        4.3 語料提取實(shí)驗(yàn)結(jié)果

        為了更準(zhǔn)確地從APT攻擊分析文檔中提取惡意語料,論文分析了文檔寫作的語言風(fēng)格,研究了自然語言處理技術(shù)和現(xiàn)有的黑名單標(biāo)記技術(shù)。實(shí)驗(yàn)中從APT攻擊分析文檔中獲得了2 861個(gè)惡意域名?;谡撐奶岢龅恼Z料提取模型,總共獲取了3 209個(gè)上下文單詞和7 871個(gè)2-gram短語,并根據(jù)語料的權(quán)重進(jìn)行了排序。表1列舉了排名前15的上下文單詞和短語,所有經(jīng)過排名的語料庫已經(jīng)發(fā)布到惡意語料庫開源項(xiàng)目[25]。

        5 語料有效性評估實(shí)驗(yàn)

        5.1 評估方法

        經(jīng)過上面實(shí)驗(yàn)得到了大量惡意域名語料,但是沒有通過實(shí)驗(yàn)去驗(yàn)證這些語料的有效性。為了對比提取特征的有效性,本次實(shí)驗(yàn)通過真實(shí)數(shù)據(jù)來驗(yàn)證論文模型的可行性,實(shí)驗(yàn)主要采用機(jī)器分類算法來自動提取安全文章中的惡意域名。其中分類模型中的所有特征都來自于上面實(shí)驗(yàn)生成的惡意域名語料,而訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都是基于新的數(shù)據(jù)集。

        表1 排名靠前的惡意語料(單詞與2-gram)

        惡意語料庫有效性評估整體驗(yàn)證過程如圖5所示,實(shí)驗(yàn)過程中具體流程如下:首先,對博客文章文件格式化分析,并提取出所有域名及域名所在句子內(nèi)容;其次,通過在線域名安全檢測平臺對所有域名進(jìn)行標(biāo)注;然后,結(jié)合論文生成的惡意語料庫和域名所在句子的文本內(nèi)容對所有域名的特征進(jìn)行賦值;最后通過基于隨機(jī)森林分類的機(jī)器學(xué)習(xí)方法對測試數(shù)據(jù)進(jìn)行訓(xùn)練,然后訓(xùn)練的機(jī)器分類模型對測試數(shù)據(jù)進(jìn)行預(yù)測,通過其預(yù)測值與域名本來的標(biāo)簽進(jìn)行對比分析。

        圖5 惡意語料庫有效性評估框架

        5.2 評估數(shù)據(jù)

        經(jīng)過上面的實(shí)驗(yàn)得到了大量惡意域名語料,但是還沒有實(shí)例去驗(yàn)證這些語料庫的有效性。惡意語料提取實(shí)驗(yàn)主要是從公開的APT攻擊分析報(bào)告中提取而來,目前許多公開的安全文章中都包含有大量惡意域名,例如:許多安全網(wǎng)站都發(fā)表過許多惡意分析文章。因此可以利用這些文章內(nèi)容來評估論文模型提取的惡意語料的有效性。表2列舉了實(shí)驗(yàn)中所采集的安全網(wǎng)址及采集的文章數(shù)量。實(shí)驗(yàn)時(shí)首先通過爬蟲程序抓取了大量安全文章,其次通過程序?qū)Λ@取的網(wǎng)頁文字進(jìn)行了清理和格式化,最終從這些網(wǎng)站抓取了7 371篇安全文章,并提取了4 538個(gè)域名。為了對獲取的域名進(jìn)行機(jī)器自動分類實(shí)驗(yàn),需要對這些域名的安全性進(jìn)行標(biāo)注。實(shí)驗(yàn)中繼續(xù)采用VirusToal查詢服務(wù)和Alexa排名列表來標(biāo)注惡意域名和正常域名。

        表2 安全網(wǎng)站網(wǎng)址及采集的文章數(shù)量

        實(shí)驗(yàn)中采用了兩組特征集合進(jìn)行了對比分析:第一個(gè)實(shí)驗(yàn)中采用上面得到的所有上下文單詞和2-gram語料庫,總共的特征總數(shù)達(dá)11 080個(gè)。每個(gè)域名的特征值則采用二值法進(jìn)行標(biāo)注,如果該域名包含這個(gè)特征則標(biāo)注為1,否則為0。第二個(gè)實(shí)驗(yàn)中則采用部分上下文單詞和2-gram語料庫,為了提高模型的訓(xùn)練和分類速度,實(shí)驗(yàn)特征只選取了語料權(quán)重值最大的1 000個(gè)上下文單詞和2-gram短語,總共合計(jì)2 000個(gè)特征。其特征的值也采用0或1進(jìn)行標(biāo)注。

        為了進(jìn)行機(jī)器分類計(jì)算,需要將所有的域名(包含惡意域名和正常域名)分類為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。實(shí)驗(yàn)中首先對兩類域名進(jìn)行隨機(jī)排序,然后隨機(jī)選擇各自的70%數(shù)據(jù)作為訓(xùn)練樣本,而剩下的30%的數(shù)據(jù)作為測試樣本。

        5.3 結(jié)果分析

        為了更好地對比兩組不同的特征值,實(shí)驗(yàn)中對這兩組特征分類器的ROC(Receiver Operating Characteristics)曲線進(jìn)行了描繪,圖6顯示了完整的ROC分類結(jié)果圖,圖中包含了使用完整特征和前2 000個(gè)特征的分類結(jié)果曲線,而圖7則展示了特定區(qū)域(0~0.2)的ROC曲線圖。結(jié)合兩張圖可以看到:基于論文生成的惡意語料的域名自動分類模型可以快速地把惡意域名從富文本中提取出來,從而驗(yàn)證了論文提出的基于上下文語義的惡意域名語料提取模型的有效性;同時(shí)基于部分惡意域名語料的分類模型也取得了83%以上的準(zhǔn)確率。由于機(jī)器分類模型中經(jīng)常會遇到過擬合現(xiàn)象,為了更好地驗(yàn)證論文提出的模型,實(shí)驗(yàn)中特別針對這種現(xiàn)象增加了十折交叉驗(yàn)證環(huán)節(jié)。通過十折交叉驗(yàn)證發(fā)現(xiàn),該分類器的準(zhǔn)確率可以達(dá)到0.87。

        為更好地驗(yàn)證基于上下文語義的惡意語料提取模型的有效性,論文選擇文獻(xiàn)[3]中提出的基于詞法的惡意域名檢測模型再次對評估數(shù)據(jù)進(jìn)行訓(xùn)練和分類,同時(shí)也通過十折交叉試驗(yàn)進(jìn)行驗(yàn)證,最終其分類準(zhǔn)確率只能達(dá)到0.80。對比以上結(jié)果可以發(fā)現(xiàn),論文提出的基于上下文語義的惡意域名提取模型擴(kuò)充了特征關(guān)鍵字詞集,并考慮了域名上下文語義,所以基于惡意域名語料庫的機(jī)器分類模型的準(zhǔn)確率提高了。

        圖6 域名分類模型的完整ROC曲線

        圖7 域名分類模型的部分ROC曲線

        6 總結(jié)

        本文通過對公開文本數(shù)據(jù)中域名上下文語義進(jìn)行分析,提出了基于上下文語義的惡意域名語料提取模型,實(shí)現(xiàn)了惡意語料的提取、降維和權(quán)重計(jì)算方法。實(shí)驗(yàn)中利用該模型對公開APT分析文檔進(jìn)行分析,成功提取了惡意域名語料庫(3 209個(gè)上下文單詞和7 871個(gè)2-gram短語)。為驗(yàn)證該語料的準(zhǔn)確性,本文又提出了基于安全博客文章的域名自動分類實(shí)驗(yàn),其機(jī)器分類模型的所有特征都基于該惡意語料庫。實(shí)驗(yàn)取得了87%的準(zhǔn)確率,成功驗(yàn)證了語料提取模型的有效性。因此,本文的惡意域名語料提取模型為海量文本中惡意域名提取技術(shù)提供了一條新思路,并且生成的語料數(shù)據(jù)可用于各種威脅系統(tǒng)中的域名自動分類技術(shù)中。

        參考文獻(xiàn):

        [1]Cova M,Kruegel C,Vigna G.Detection and analysis of driveby-download attacks and malicious JavaScript code[C]//Proceedings of the 19th International Conference on World Wide Web,2010:281-290.

        [2]Zhang W,Wang W,Zhang X,et al.Research on privacy protection of WHOIS information in DNS[M]//Computer Science and its Applications.Berlin Heidelberg:Springer,2015:71-76.

        [3]Wang W,Shirley K.Breaking bad:Detecting malicious do-mains using word segmentation[J].arXiv preprint arXiv:1506.04111,2015.

        [4]Darling M,Heileman G,Gressel G,et al.A lexical approach for classifying malicious URLs[C]//2015 International Conference on High Performance Computing&Simulation(HPCS),2015:195-202.

        [5]Park G,Taylor J M.Using syntactic features for phishing Detection[J].arXiv:1506.00037,2015.

        [6]Joshi A,Lal R,F(xiàn)inin T.Extracting cybersecurity related linked data from text[C]//2013 IEEE Seventh International Conference on Semantic Computing(ICSC),2013:252-259.

        [7]Bridges R A,Jones C L,Iannacone M D,et al.Automatic labeling for entity extraction in cyber security[J].arXiv pre-print arXiv:1308.4941,2013.

        [8]薛德軍.中文文本自動分類中的關(guān)鍵問題研究[D].北京:清華大學(xué),2004.

        [9]孫建文.基于集成特征選擇的網(wǎng)絡(luò)書寫紋識別研究[D].武漢:華中師范大學(xué),2011.

        [10]黃昌寧,李涓子.語料庫語言學(xué)[M].北京:商務(wù)印書館,2002.

        [11]鄭家恒,張虎,譚紅葉,等.智能信息處理—漢語語料庫加工技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2010.

        [12]Dey A K.Understanding and using context[J].Personal and Ubiquitous Computing,2001,5(1):4-7.

        [13]Salton G,Wong A,Yang C S.A vector space model for au-tomatic indexing[J].Communications of the ACM,1975,18(11):613-620.

        [14]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning,2006:977-984.

        [15]Jiang W,Samanthula B K.N-gram based secure similar document detection[C]//Proceedings of the 25th Annual IFIP WG 11.3 Conference on Data and Applications Security and Privacy,2011:239-246.

        [16]Wallach H M.Topic modeling:Beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning,2006:977-984.

        [17]Bird S.NLTK:The natural language toolkit[C]//Proceedings of the COLING/ACL on Interactive Presentation sessions.Association for Computational Linguistics,2006:69-72.

        [18]Willett P.The Porter stemming algorithm:Then and now[J].Program,2006,40(3):219-223.

        [19]Bao P,Jackson T J,Wang X,et al.Barium strontium titanate thin film varactors for room-temperature microwave device applications[J].Journal of Physics D:Applied Physics,2008,41(6).

        [20]Michel J B,Shen Y K,Aiden A P,et al.Quantitative analysis of culture using millions of digitized books[J].Science,2011,331:176-182.

        [21]Web language model API[EB/OL].(2016).https://goo.gl/m0WNP7.

        [22]Groups G.VirusTotal-Free online virus,malware and URL scanner[EB/OL].(2016).https://www.virustotal.com.

        [23]urlQuery-Free URL scanner[EB/OL].(2016).https://urlquery.net/.

        [24]Vadrevu P,Rahbarinia B,Perdisci R,et al.Measuring and detecting malware downloads in live network traffic[C]//European Symposium on Research in Computer Security(ESORICS 2013),2013:556-573.

        [25]Malicious corpus for extracting domains[EB/OL].(2016).https://github.com/ourren/malicious_corpus.

        猜你喜歡
        域名語料語料庫
        《語料庫翻譯文體學(xué)》評介
        如何購買WordPress網(wǎng)站域名及綁定域名
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        騰訊八百萬美元收購域名
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        頂級域名爭奪戰(zhàn):ICANN放出1930個(gè)通用頂級域名,申請者有上千家
        中文国产乱码在线人妻一区二区| 欧美性猛交xxxx乱大交蜜桃| 亚洲午夜看片无码| 国产黄色三级三级三级看三级| 精品一区二区三区芒果| 久久精品国产亚洲av麻豆| 毛片网站视频| 97人妻蜜臀中文字幕| 国产精品国产av一区二区三区| 野外亲子乱子伦视频丶| 日韩在线无| 亚洲国产免费公开在线视频| 最新中文字幕亚洲一区| 男女啪动最猛动态图| 欧美一片二片午夜福利在线快| 免费观看视频在线播放| av在线播放免费网站| 天堂网www资源在线| 无限看片在线版免费视频大全 | 久久精品99久久香蕉国产色戒| 国产一级黄色录像| 亚洲一区免费视频看看| 无码中文字幕人妻在线一区| 越南女子杂交内射bbwbbw| 国产精彩刺激对白视频| 午夜视频一区二区三区四区| 内射人妻少妇无码一本一道 | 人成午夜大片免费视频77777| 亚洲av无码精品色午夜果冻不卡| 久久青草亚洲AV无码麻豆| 久久久亚洲av午夜精品| 久久只精品99品免费久23| 五十路熟久久网| 亚洲美女主播一区二区| 国产激情视频免费在线观看| 东北寡妇特级毛片免费| 日本色偷偷| 久久伊人亚洲精品视频 | 亚洲av久播在线一区二区| 美女又色又爽视频免费| 91青草久久久久久清纯|