亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的大規(guī)模網(wǎng)絡(luò)安全實(shí)體識(shí)別方法

        2019-11-09 03:42:44秦婭申國偉余紅星
        智能系統(tǒng)學(xué)報(bào) 2019年5期
        關(guān)鍵詞:漏洞語料庫實(shí)體

        秦婭,申國偉,余紅星

        (1. 貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025; 2. 貴州大學(xué) 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025)

        近年來,隨著信息技術(shù)的快速發(fā)展,逐步進(jìn)入了大數(shù)據(jù)[1]時(shí)代,網(wǎng)絡(luò)空間安全面臨全新的挑戰(zhàn),因此網(wǎng)絡(luò)威脅情報(bào)這一新的安全技術(shù)應(yīng)運(yùn)而生。威脅情報(bào)[2](threat intelligence),主要是通過大數(shù)據(jù)、分布式系統(tǒng)或其他特定收集方式收集的用于評估和應(yīng)用的數(shù)據(jù)集,針對一個(gè)現(xiàn)存的或新興的威脅,可用于做出相應(yīng)決定的知識(shí)。從2014年開始,威脅情報(bào)逐漸成為網(wǎng)絡(luò)安全領(lǐng)域的熱點(diǎn),成為一種新的網(wǎng)絡(luò)安全技術(shù)[3-4]。

        當(dāng)今社會(huì)正處于大數(shù)據(jù)時(shí)代,同時(shí)具有信息碎片化的特征,從而賦予了網(wǎng)絡(luò)安全信息海量化與碎片化特點(diǎn),導(dǎo)致網(wǎng)絡(luò)威脅情報(bào)分析人員很難對信息進(jìn)行獲取和整合。因此,針對網(wǎng)絡(luò)安全信息的碎片化和海量化的特點(diǎn),將其進(jìn)行過濾、分類以及關(guān)聯(lián),從而形成一個(gè)網(wǎng)絡(luò)安全知識(shí)體系,衍生成為網(wǎng)絡(luò)安全知識(shí)圖譜。網(wǎng)絡(luò)安全知識(shí)圖譜構(gòu)建的前提就是對信息進(jìn)行抽取,信息抽取是網(wǎng)絡(luò)安全知識(shí)圖譜構(gòu)建的最為關(guān)鍵的一步,其中最為關(guān)鍵就是網(wǎng)絡(luò)安全實(shí)體識(shí)別。

        網(wǎng)絡(luò)安全實(shí)體識(shí)別是命名實(shí)體識(shí)別[5]中一種特定領(lǐng)域的實(shí)體識(shí)別,其目的是對網(wǎng)絡(luò)安全領(lǐng)域?qū)I(yè)的詞匯進(jìn)行分類;而通用領(lǐng)域的命名實(shí)體識(shí)別,主要識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、組織名和地名等。目前,常見的是英文網(wǎng)絡(luò)安全實(shí)體識(shí)別,針對中文的網(wǎng)絡(luò)安全實(shí)體的識(shí)別研究工作很少。Jones等[6]在Bootstrapping算法指導(dǎo)下,實(shí)現(xiàn)了網(wǎng)絡(luò)文本中的安全實(shí)體和關(guān)系自動(dòng)識(shí)別;Joshi等[7]實(shí)現(xiàn)了一種網(wǎng)絡(luò)文本數(shù)據(jù)的信息識(shí)別方法,利用CRF算法來識(shí)別網(wǎng)絡(luò)安全相關(guān)實(shí)體及關(guān)系;Lal[8]提出了一種基于SVM算法的信息識(shí)別方法,實(shí)現(xiàn)了從網(wǎng)絡(luò)文本數(shù)據(jù)中識(shí)別網(wǎng)絡(luò)安全相關(guān)概念和術(shù)語;Mulwad等[9]設(shè)計(jì)了基于SVM算法的信息識(shí)別系統(tǒng),檢測和識(shí)別網(wǎng)絡(luò)文本中的漏洞與攻擊信息。

        總的來說,網(wǎng)絡(luò)安全實(shí)體的識(shí)別方法主要分為基于規(guī)則和基于統(tǒng)計(jì)的實(shí)體識(shí)別方法[10-12]。基于規(guī)則的實(shí)體識(shí)別方法對于較小規(guī)模的數(shù)據(jù)具有效果好和速度快的特點(diǎn),但是規(guī)則的編寫十分困難,且移植性較差。基于統(tǒng)計(jì)的識(shí)別方法利用人工標(biāo)注語料進(jìn)行訓(xùn)練,對具體語言特性依賴相對較少,移植性強(qiáng),主要識(shí)別方法有隱馬爾科夫模型[13](hidden Markov mode,HMM)、最大熵模型[14](maximum entropy markov model,MEMM)和條件隨機(jī)場模型[15-16](conditional random fields,CRF)等。

        目前,網(wǎng)絡(luò)安全實(shí)體的識(shí)別主要存在以下難點(diǎn):

        1)網(wǎng)絡(luò)安全實(shí)體數(shù)量眾多且類型多種多樣,難以滿足自然語言處理領(lǐng)域中的命名實(shí)體定義,且不斷地會(huì)有未登錄詞作為新的安全實(shí)體出現(xiàn)。

        2)網(wǎng)絡(luò)文本數(shù)據(jù)中的實(shí)體具有不同的結(jié)構(gòu),比如網(wǎng)絡(luò)安全實(shí)體出現(xiàn)大量的嵌套、別名、縮略詞等問題,沒有嚴(yán)格的構(gòu)詞規(guī)律可以遵循。

        3)在大規(guī)模數(shù)據(jù)條件下,基于機(jī)器學(xué)習(xí)模型的算法運(yùn)行效率較低,單機(jī)上的安全實(shí)體識(shí)別算法難以滿足安全實(shí)體識(shí)別需求。

        針對上述問題,本文提出了基于Hadoop的Map/Reduce分布式計(jì)算框架,提出了與規(guī)則相結(jié)合的改進(jìn)CRF算法實(shí)現(xiàn)對安全實(shí)體的高效、準(zhǔn)確識(shí)別。本文的主要工作包括:

        1)針對網(wǎng)絡(luò)安全實(shí)體識(shí)別,對安全實(shí)體識(shí)別進(jìn)行問題抽象及形式化描述,給出了基于Hadoop的網(wǎng)絡(luò)安全實(shí)體識(shí)別框架。

        2)分析網(wǎng)絡(luò)安全數(shù)據(jù)中的實(shí)體結(jié)構(gòu)特征,給出了網(wǎng)絡(luò)安全實(shí)體識(shí)別規(guī)則,并進(jìn)一步提出了改進(jìn)的CRF算法,對算法進(jìn)行分析。

        3)在真實(shí)的數(shù)據(jù)集上,針對提出的網(wǎng)絡(luò)安全實(shí)體識(shí)別方法,結(jié)合評測標(biāo)準(zhǔn)進(jìn)行對比實(shí)驗(yàn),結(jié)果表明本文提出的方法在準(zhǔn)確率和效率上都有所提高。

        綜上所述,針對網(wǎng)絡(luò)安全實(shí)體識(shí)別問題,本文基于Hadoop分布式計(jì)算框架提出改進(jìn)的CRF算法,對數(shù)據(jù)集進(jìn)行有效分割,解決網(wǎng)絡(luò)安全實(shí)體識(shí)別的問題,實(shí)現(xiàn)準(zhǔn)確識(shí)別網(wǎng)絡(luò)安全實(shí)體的意義。

        1 問題定義

        網(wǎng)絡(luò)安全威脅情報(bào)分析可為復(fù)雜網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)攻防提供情報(bào)支撐。在網(wǎng)絡(luò)威脅情報(bào)分析中,網(wǎng)絡(luò)數(shù)據(jù)主要識(shí)別黑客組織、單位、漏洞、惡意程序等類型網(wǎng)絡(luò)安全實(shí)體,如圖1所示。

        圖1 Web文本數(shù)據(jù)中的安全實(shí)體識(shí)別Fig. 1 Security entity recognition in web text data

        本文重點(diǎn)分析17類網(wǎng)絡(luò)安全實(shí)體,圖2給出了網(wǎng)絡(luò)安全實(shí)體的本體模型[17-18],通過人工編寫的方式構(gòu)建了網(wǎng)絡(luò)安全領(lǐng)域的本體模型,通過JSON語言實(shí)現(xiàn)。該模型是一個(gè)基于多維標(biāo)簽的網(wǎng)絡(luò)安全本體模型,其中多維標(biāo)簽包括來源信息、屬性信息、元信息等標(biāo)簽信息。

        圖2 網(wǎng)絡(luò)安全實(shí)體的本體模型Fig. 2 Ontological model of network security entity

        2 基于Hadoop的安全實(shí)體識(shí)別框架

        針對海量的網(wǎng)絡(luò)安全數(shù)據(jù),本文提出基于Hadoop平臺(tái)的網(wǎng)絡(luò)安全實(shí)體識(shí)別框架,利用Map/Reduce[19]分布式計(jì)算模型實(shí)現(xiàn)高效的數(shù)據(jù)處理。本文針對大規(guī)模數(shù)據(jù)的網(wǎng)絡(luò)安全實(shí)體識(shí)別的工作,主要運(yùn)用了Hadoop中的HDFS和MapReduce這兩個(gè)組件,對數(shù)據(jù)進(jìn)行并行化處理。具體的抽取過程為:首先,將預(yù)處理的數(shù)據(jù)存儲(chǔ)在HDFS中,HDFS會(huì)將這些數(shù)據(jù)切分成許多獨(dú)立的小數(shù)據(jù)塊,存儲(chǔ)到若干個(gè)節(jié)點(diǎn)上,這些小數(shù)據(jù)塊就會(huì)被多個(gè)Map任務(wù)并行處理;其次,在Hadoop上提交任務(wù)進(jìn)行網(wǎng)絡(luò)安全實(shí)體識(shí)別,MapReduce會(huì)為每個(gè)任務(wù)輸入一個(gè)數(shù)據(jù)子集,同時(shí)調(diào)用CRF算法進(jìn)行網(wǎng)絡(luò)安全實(shí)體識(shí)別,Map任務(wù)生成的結(jié)果會(huì)繼續(xù)作為Reduce任務(wù)的輸入;最后,由Reduce任務(wù)輸出最后結(jié)果,并寫入HDFS。本文除了將識(shí)別出的網(wǎng)絡(luò)安全實(shí)體存入HDFS,也將網(wǎng)絡(luò)安全實(shí)體存入圖數(shù)據(jù)庫Neo4j,為將來構(gòu)建網(wǎng)絡(luò)安全知識(shí)圖譜奠定基礎(chǔ)。圖3為網(wǎng)絡(luò)安全實(shí)體識(shí)別的框架圖。

        1)數(shù)據(jù)預(yù)處理

        本文主要對網(wǎng)頁文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別,因此在抽取之前要對數(shù)據(jù)預(yù)處理,處理過程如下:

        ①使用正則表達(dá)式對網(wǎng)頁文本進(jìn)行預(yù)處理,去除網(wǎng)頁中的關(guān)于HTML的標(biāo)簽。

        ②通過使用Stanford CoreNLP提供的分詞工具,將去除標(biāo)簽后的文本數(shù)據(jù)進(jìn)行分詞。

        ③構(gòu)建語料庫,由于網(wǎng)絡(luò)安全領(lǐng)域沒有統(tǒng)一的語料庫,因此在對安全實(shí)體識(shí)別前,需要對其構(gòu)建語料庫。對已經(jīng)分詞的文本數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注,特征實(shí)體時(shí),可以通過程序先將所有實(shí)體標(biāo)注為O,O表示未識(shí)別實(shí)體;然后進(jìn)行網(wǎng)絡(luò)安全實(shí)體標(biāo)注,由人工判斷手動(dòng)標(biāo)注為En,En表示安全實(shí)體。

        ④最后,訓(xùn)練網(wǎng)絡(luò)安全實(shí)體模型。在訓(xùn)練過程中,根據(jù)訓(xùn)練工具的格式要求將前面的所有標(biāo)注后的數(shù)據(jù)轉(zhuǎn)化成特定的數(shù)據(jù)格式,然后利用CRF算法進(jìn)行模型訓(xùn)練。

        圖3 網(wǎng)絡(luò)安全實(shí)體識(shí)別框架Fig. 3 Network security entity recognition framework

        2)中文網(wǎng)絡(luò)安全實(shí)體識(shí)別

        本文主要是針對中文網(wǎng)絡(luò)文本數(shù)據(jù)的安全實(shí)體識(shí)別,數(shù)據(jù)的輸入為中文分詞文本數(shù)據(jù),在此之前,需要利用CRF算法進(jìn)行模型訓(xùn)練,訓(xùn)練數(shù)據(jù)主要來自于部分網(wǎng)絡(luò)安全文本數(shù)據(jù)。對于中文網(wǎng)絡(luò)安全實(shí)體數(shù)據(jù),進(jìn)行人工手動(dòng)標(biāo)注,標(biāo)注完成后,將其放入訓(xùn)練工具中進(jìn)行訓(xùn)練,實(shí)現(xiàn)中文網(wǎng)絡(luò)安全實(shí)體模型的建立,最后通過CRF算法實(shí)現(xiàn)網(wǎng)絡(luò)安全實(shí)體的識(shí)別。

        在對網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞的過程中,對于網(wǎng)絡(luò)攻擊事件,一般都是由“動(dòng)詞+名字”組合,才能完整而清楚描述一次攻擊,如:XSS跨站腳本攻擊、木馬攻擊、蠕蟲蔓延等。所以在攻擊事件名的分詞上,本文采用基于規(guī)則進(jìn)行識(shí)別,不進(jìn)行分詞,因?yàn)榉衷~會(huì)導(dǎo)致對攻擊事件的整體敘述在語義上描述不清楚,無法理解到底發(fā)生了什么樣的攻擊事件。

        3 基于Hadoop的CRF改進(jìn)算法

        3.1 Hadoop算法描述

        本文采用基于Map/Reduce的CRF算法并行化處理以縮短識(shí)別時(shí)間,實(shí)現(xiàn)大量數(shù)據(jù)的網(wǎng)絡(luò)安全實(shí)體識(shí)別。MapReduce模型兩個(gè)核心函數(shù)為Map函數(shù)和Reduce函數(shù),它們的輸入都為<key,value>鍵值對,按一定的映射規(guī)則轉(zhuǎn)換為另一個(gè)或一批<key,value>。Map和Reduce任務(wù)函數(shù)有下列通用格式:

        式中:Map函數(shù)將輸入的數(shù)據(jù)元素轉(zhuǎn)換成<K1,V1>形式的鍵值對,K1和V1的類型是任意的。每一個(gè)輸入的<K1,V1>都會(huì)輸出一批<K2,V2>,<K2,V2>是Map計(jì)算的中間結(jié)果,然后輸入到Reduce 函數(shù)進(jìn)行處理,輸入形式為<K2,list(V1)>,輸出為<K3,V3>。

        在網(wǎng)絡(luò)安全實(shí)體識(shí)別的過程中,對于每一個(gè)要進(jìn)行安全實(shí)體識(shí)別的文本數(shù)據(jù),首先將訓(xùn)練好的模型加載進(jìn)來,然后在Map階段調(diào)用CFR算法識(shí)別網(wǎng)絡(luò)安全實(shí)體,最后在Reduce階段將數(shù)據(jù)存儲(chǔ)到HDFS和圖數(shù)據(jù)庫Neo4j。具體的基于Hadoop的網(wǎng)絡(luò)安全實(shí)體識(shí)別算法如算法1所示。

        算法1 基于Hadoop的網(wǎng)絡(luò)安全實(shí)體識(shí)別核心算法:

        1)調(diào)用Map函數(shù);

        3)CRFClassifier(Di) //調(diào)用CRF算法識(shí)別網(wǎng)絡(luò)安全實(shí)體;

        5)調(diào)用Reduce函數(shù);

        8)EntityStore.CreateNeo4j(key)//存儲(chǔ)到Neo4j

        實(shí)際上,在對網(wǎng)絡(luò)安全實(shí)體識(shí)別進(jìn)行評測時(shí),不需要一個(gè)合并的輸出,因?yàn)楹喜⑤敵龊髸?huì)影響最后的評測結(jié)果,因此可以在對網(wǎng)絡(luò)安全實(shí)體進(jìn)行評測時(shí)省去Reduce階段,那么Map函數(shù)的輸出將不會(huì)有中間輸出,數(shù)據(jù)將直接存儲(chǔ)至HDFS。

        3.2 CRF算法描述

        在算法1中,CRF是網(wǎng)絡(luò)安全實(shí)體識(shí)別的核心,分別對應(yīng)算法1中的3)~6)步。CRF又稱為馬爾可夫隨機(jī)域,最早由Lafferty等[20]于2001年提出,是一種對有序數(shù)據(jù)進(jìn)行標(biāo)注和切分的條件概率模型,擁有HMM和MEMM的特點(diǎn)。從形式上來講,可以將CRF看作一種概率無向圖模型,定義一個(gè)無向圖G=(V,E),節(jié)點(diǎn)和邊用v和e表示,在圖G中,v∈V表示G中的節(jié)點(diǎn),V表示節(jié)點(diǎn)集合,e∈E表示G中的任意一條E為邊集合;X、Y是兩個(gè)隨機(jī)變量,P(Y|X)是定義在X的條件下的條件概率分布。如果在圖G上,每個(gè)基于X的隨機(jī)變量Y都服從馬爾可夫特性,即

        式中對任意節(jié)點(diǎn)v成立,則稱條件概率分布P(Y|X)為條件隨機(jī)場,式(3)中w~v表示兩個(gè)節(jié)點(diǎn)w和v之間存在連接邊,表示兩個(gè)節(jié)點(diǎn)G=(V,E)在中位置相鄰。Yv,Yw為節(jié)點(diǎn)v和w所對應(yīng)的隨機(jī)變量。

        最常用和最簡單的CRF圖結(jié)構(gòu)是線性鏈結(jié)構(gòu),可用于序列標(biāo)注等問題,圖4為線性鏈CRF。由圖4可知,線性鏈CRF在各個(gè)輸出序列節(jié)點(diǎn)之間做了一階馬爾可夫獨(dú)立性假設(shè),在給定一個(gè)輸入序列X的標(biāo)注序列的情況下,令表示被觀察的輸入序列,表示有限狀態(tài)的集合。根據(jù)線性鏈CRF,線性鏈的Y的條件概率分布的形式為

        圖4 鏈?zhǔn)綏l件隨機(jī)場Fig. 4 Chain conditional random field

        因此,線性鏈CRF可表示為

        在CRF算法中主要有3個(gè)關(guān)鍵的問題,分別為特征函數(shù)的選擇、參數(shù)估計(jì)和模型推斷。CRF模型中特征函數(shù)的形式定義為,它是狀態(tài)特征函數(shù)和轉(zhuǎn)移特征函數(shù)的統(tǒng)一形式表示。

        參數(shù)估計(jì)是條件隨機(jī)場最為關(guān)鍵的問題,主要是從已經(jīng)標(biāo)注好的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)條件隨機(jī)場模型的參數(shù),即各特征函數(shù)的權(quán)重向量λ,通??梢酝ㄟ^最大似然估計(jì)來實(shí)現(xiàn)。目前對于CRF模型參數(shù)進(jìn)行估計(jì)的方法有3種,其中基于IIS和GIS兩種算法是屬于迭代的方法。目前廣泛使用的條件隨機(jī)場參數(shù)估計(jì)算法是L-BFGS算法,它是一種近似的二階方法。與傳統(tǒng)的迭代梯度方法相比,此方法的收斂速度更快。下面是LBFGS算法的計(jì)算公式:

        模型推斷是在給定條件隨機(jī)場模型參數(shù)λ下,預(yù)測出最可能的狀態(tài)序列。

        4 實(shí)驗(yàn)及分析

        4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        本實(shí)驗(yàn)是在Windows環(huán)境下的Eclipse下進(jìn)行開發(fā)的,使用Java編程語言。由于本實(shí)驗(yàn)是基于Hadoop的網(wǎng)絡(luò)安全實(shí)體識(shí)別,Hadoop集群環(huán)境部署在實(shí)驗(yàn)室所提供的5臺(tái)服務(wù)器上,Hadoop平臺(tái)的拓?fù)鋱D如圖5所示,其中服務(wù)器使用的是Linux操作系統(tǒng)——CentOS 6.8,表1為5臺(tái)服務(wù)器的硬件配置。

        圖5 Hadoop平臺(tái)的拓?fù)浣Y(jié)構(gòu)Fig. 5 Topological diagram of the Hadoop platform

        表1 服務(wù)器的硬件配置Table 1 Server hardware configuration

        本實(shí)驗(yàn)采用的數(shù)據(jù)集主要來自于烏云漏洞數(shù)據(jù)庫,數(shù)據(jù)主要包括2010~2016年公開的漏洞數(shù)據(jù),共有40 292條漏洞數(shù)據(jù)。這些數(shù)據(jù)主要包括漏洞標(biāo)題、漏洞缺陷編號、漏洞類型、漏洞作者、攻擊事件名以及漏洞公開時(shí)間。本實(shí)驗(yàn)先對烏云漏洞數(shù)據(jù)集進(jìn)行去標(biāo)簽,再進(jìn)行分詞,然后進(jìn)行實(shí)體標(biāo)注,形成了語料庫。

        為了對算法進(jìn)行有效的測試,本文對網(wǎng)絡(luò)安全實(shí)體進(jìn)行人工標(biāo)注。在實(shí)驗(yàn)中用語料庫中的70%進(jìn)行訓(xùn)練,30%進(jìn)行測試,采用CRF算法,以詞為單位進(jìn)行網(wǎng)絡(luò)安全實(shí)體識(shí)別。通過Hadoop平臺(tái),本實(shí)驗(yàn)對30%的語料庫數(shù)據(jù)進(jìn)行測試,對漏洞數(shù)據(jù)中的8種網(wǎng)絡(luò)安全實(shí)體類型進(jìn)行識(shí)別,圖6為8種網(wǎng)絡(luò)安全實(shí)體類型在語料庫中的統(tǒng)計(jì)信息。

        圖6 語料庫統(tǒng)計(jì)信息Fig. 6 Network security entity types

        4.2 小規(guī)模識(shí)別率對比實(shí)驗(yàn)

        本文以準(zhǔn)確率P、召回率R和F值作為評價(jià)指標(biāo),具體的定義如下:

        式中:N2表示識(shí)別正確的網(wǎng)絡(luò)安全實(shí)體的總個(gè)數(shù);N1表示識(shí)別出來的網(wǎng)絡(luò)安全實(shí)體的總個(gè)數(shù)。

        式中:N2表示識(shí)別正確的網(wǎng)絡(luò)安全實(shí)體的總個(gè)數(shù);N表示測試語料的網(wǎng)絡(luò)安全實(shí)體的總個(gè)數(shù)。

        本文利用CRF算法識(shí)別網(wǎng)絡(luò)安全實(shí)體,將識(shí)別出來的網(wǎng)絡(luò)安全實(shí)體作為候選網(wǎng)絡(luò)安全實(shí)體,然后利用基于規(guī)則的方法,對候選網(wǎng)絡(luò)安全實(shí)體進(jìn)行修正,將修正過的結(jié)果和未修正的結(jié)果進(jìn)行對比。本文利用基于規(guī)則的方法對基于CRF的網(wǎng)絡(luò)安全實(shí)體的識(shí)別進(jìn)行修正,實(shí)驗(yàn)過程中首先建立簡單的規(guī)則,然后將規(guī)則加入到網(wǎng)絡(luò)安全實(shí)體的識(shí)別中進(jìn)行比較。本文制定了以下幾條規(guī)則:

        規(guī)則一:如果詞的前綴是“騰訊”“優(yōu)酷”“微軟”等廠商名,且該詞帶有“漏洞”結(jié)束符,那么該詞應(yīng)標(biāo)記為漏洞名稱,例如“騰訊某分站地址跳轉(zhuǎn)漏洞”。

        規(guī)則二:如果詞的前綴是“WooYun”,將此類詞標(biāo)記為漏洞缺陷編號。

        規(guī)則三:如果詞的前綴出現(xiàn)“SQL”“XSS”等詞,且該詞帶有“注入”“攻擊”“傳播”“泄露”等結(jié)束符,那么該詞應(yīng)標(biāo)記為漏洞類型,例如:“XSS跨站腳本攻擊”。

        經(jīng)過以上規(guī)則對結(jié)果進(jìn)行糾正,網(wǎng)絡(luò)安全實(shí)體的識(shí)別效率都有所提高。圖7是對修正和未修正結(jié)果的準(zhǔn)確率的對比,圖8是召回率的對比,圖9是F值的對比。

        圖7 準(zhǔn)確率對比結(jié)果Fig. 7 Comparisons of precision of results

        圖8 召回率對比結(jié)果Fig. 8 Comparisons of recall results

        圖9 F值對比結(jié)果Fig. 9 Comparisons of F-value results

        圖7 ~9列出了網(wǎng)絡(luò)安全實(shí)體10次實(shí)驗(yàn)的識(shí)別結(jié)果,從實(shí)驗(yàn)結(jié)果可以看出,在使用規(guī)則對于基于CRF算法的網(wǎng)絡(luò)安全實(shí)體識(shí)別的結(jié)果進(jìn)行修正,識(shí)別效果有了一定的提高。就準(zhǔn)確率而言,基于CRF算法與規(guī)則相結(jié)合的準(zhǔn)確率能達(dá)到85%以上,10次實(shí)驗(yàn)中準(zhǔn)確率最高達(dá)到了91%。但是就召回率而言,從實(shí)驗(yàn)結(jié)果來看,識(shí)別效果比較低,主要是因?yàn)镃FF模型泛化能力不夠和訓(xùn)練的語料庫非常小。

        4.3 大規(guī)模對比實(shí)驗(yàn)

        本實(shí)驗(yàn)采用Hadoop框架,主要利用MapReduce對大規(guī)模數(shù)據(jù)進(jìn)行分割,對網(wǎng)絡(luò)安全實(shí)體的識(shí)別并行化處理。本文將Hadoop安裝在5個(gè)節(jié)點(diǎn)的集群中,文本數(shù)據(jù)塊的大小為128 MB。為了更好地說明分布式計(jì)算效率,本實(shí)驗(yàn)在不同的數(shù)據(jù)規(guī)模下,基于不同的節(jié)點(diǎn)個(gè)數(shù)測試網(wǎng)絡(luò)安全實(shí)體識(shí)別時(shí)間。實(shí)驗(yàn)中分為3個(gè)節(jié)點(diǎn)、4個(gè)節(jié)點(diǎn)以及5個(gè)節(jié)點(diǎn),同時(shí)加上偽分布式集群。在Hadoop集群上,運(yùn)用4組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),4組數(shù)據(jù)大小分別為1.3 GB、6 GB、13 GB、28 GB。實(shí)驗(yàn)結(jié)果如圖10所示。

        圖10 不同節(jié)點(diǎn)數(shù)下的運(yùn)行時(shí)間對比結(jié)果Fig. 10 Comparison of running times for different node numbers

        從圖10可以看出,隨著計(jì)算節(jié)點(diǎn)個(gè)數(shù)的增加,網(wǎng)絡(luò)安全實(shí)體的識(shí)別時(shí)間也隨之加快。在數(shù)據(jù)量為1.3 GB的時(shí)候,隨著節(jié)點(diǎn)數(shù)的增加,網(wǎng)絡(luò)安全實(shí)體識(shí)別時(shí)間變化不大,識(shí)別效率提高不明顯。隨著數(shù)據(jù)量的增大,在偽分布式的情況下,28 GB數(shù)據(jù)耗時(shí)近55 h,5個(gè)節(jié)點(diǎn)耗時(shí)近13 h,識(shí)別效率明顯提高。

        4.4 算法的可擴(kuò)展性分析

        本文提出的基于Hadoop的CRF算法的網(wǎng)絡(luò)安全實(shí)體識(shí)別算法具有很好的擴(kuò)展性。圖11展示了28 GB數(shù)據(jù)的運(yùn)行時(shí)間,從圖中可以看出隨著計(jì)算節(jié)點(diǎn)數(shù)的增加數(shù)據(jù)運(yùn)行時(shí)間逐漸下降。實(shí)驗(yàn)證明,增加節(jié)點(diǎn)數(shù)可以有效增加網(wǎng)絡(luò)安全實(shí)體識(shí)別效率,因此本文基于Hadoop的網(wǎng)絡(luò)安全實(shí)體識(shí)別算法具有良好的可擴(kuò)展性,適用于大規(guī)模數(shù)據(jù)的集群計(jì)算。

        圖11 28 GB數(shù)據(jù)運(yùn)行時(shí)間對比Fig. 11 Comparison of 28 GB data running times

        4.5 網(wǎng)絡(luò)安全實(shí)體識(shí)別實(shí)例分析

        為了進(jìn)一步直觀展示本文算法在網(wǎng)絡(luò)安全實(shí)體識(shí)別方面的結(jié)果,安全實(shí)體詞云圖如圖12所示。“DDOS攻擊”“SQL注射漏洞”等網(wǎng)絡(luò)安全實(shí)體,具有典型的中英文混合結(jié)構(gòu),傳統(tǒng)的命名識(shí)別方法較少關(guān)注中英文混合結(jié)構(gòu)的命名實(shí)體識(shí)別。通過詞云圖可以直觀地看出,本文提出的基于規(guī)則的CRF算法能夠有效處理中英文混合的網(wǎng)絡(luò)安全實(shí)體,進(jìn)一步提升了安全實(shí)體識(shí)別的準(zhǔn)確率,為基于網(wǎng)絡(luò)安全知識(shí)圖譜的威脅情報(bào)分析奠定了基礎(chǔ)。

        圖12 網(wǎng)絡(luò)安全實(shí)體詞云圖Fig. 12 Word cloud map of network security entity

        5 結(jié)束語

        本文對網(wǎng)絡(luò)安全實(shí)體識(shí)別的常用算法進(jìn)行了總結(jié),詳細(xì)分析了基于CRF算法的網(wǎng)絡(luò)安全實(shí)體識(shí)別方法,并針對大規(guī)模數(shù)據(jù)在Hadoop框架下對網(wǎng)絡(luò)安全實(shí)體識(shí)別進(jìn)行并行化處理。實(shí)驗(yàn)表明,本文采用基于Hadoop的CRF算法的網(wǎng)絡(luò)安全實(shí)體識(shí)別,取得了良好的效果,并大大地縮短了識(shí)別時(shí)間。在后續(xù)的工作中,會(huì)考慮融合更多網(wǎng)絡(luò)安全領(lǐng)域的知識(shí)使得安全實(shí)體識(shí)別具有更好的泛化能力,從而提高實(shí)體的識(shí)別率,并擴(kuò)展至多機(jī)分布式平臺(tái),進(jìn)一步提高性能。

        猜你喜歡
        漏洞語料庫實(shí)體
        漏洞
        《語料庫翻譯文體學(xué)》評介
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        三明:“兩票制”堵住加價(jià)漏洞
        漏洞在哪兒
        高鐵急救應(yīng)補(bǔ)齊三漏洞
        国产精品亚洲国产| 国产成人无码综合亚洲日韩| 97精品国产97久久久久久免费| 又污又黄又无遮挡的网站| 高清国产美女av一区二区| 亚洲另类国产精品中文字幕| 日本高清乱码中文字幕| 狠狠色综合7777久夜色撩人| 极品熟妇大蝴蝶20p| 不打码在线观看一区二区三区视频 | 亚洲成人免费av影院| 一本一道av无码中文字幕﹣百度| 9191在线亚洲精品| 看全色黄大色大片免费久久久| 虎白m粉嫩小在线播放| 人人妻一区二区三区| 成年人黄视频大全| 蜜桃伦理一区二区三区| 亚洲va视频一区二区三区| 久久久www免费人成精品| 亚洲黄色一级毛片| 日本大片在线一区二区三区 | 国产三级在线看完整版| 亚洲精选自偷拍一区二| 一本一道久久综合久久| 日中文字幕在线| 白白在线免费观看视频| 精品免费国产一区二区三区四区| 人妻丰满熟妇av无码区免| 国产高清在线精品一区αpp| 国产精品女同一区二区免| 中文字幕在线观看| 精品人妻无码一区二区色欲产成人| 亚洲国产一区二区三区在观看| 九九久久精品国产免费av| 免费a级毛片无码| 亚州AV无码乱码精品国产| 国产精品后入内射日本在线观看| 久久久久人妻精品一区三寸| 亚洲另类激情综合偷自拍图| 久久久国产精品五月天伊人|