亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于STIX標(biāo)準(zhǔn)的威脅情報實(shí)體抽取研究

        2020-09-10 06:51:00王沁心楊望
        網(wǎng)絡(luò)空間安全 2020年8期
        關(guān)鍵詞:情報威脅實(shí)體

        王沁心,楊望,2

        (1.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 211189;2.網(wǎng)絡(luò)空間國際治理研究基地(東南大學(xué)),江蘇南京211189)

        1 引言

        安全研究人員通常會將網(wǎng)絡(luò)安全事件進(jìn)行整理和分析后以文本的形式發(fā)布,這類文本通常包括安全類新聞、博客等,但其中最具價值的是安全廠商針對高級持續(xù)性威脅(Advanced Persistent Threat, APT)攻擊事件溯源分析后形成的APT報告,其中蘊(yùn)含大量的威脅情報相關(guān)信息,但這些信息無法進(jìn)行自動化處理,也不方便進(jìn)行共享。

        因此,為了便于威脅情報的存儲、傳輸、自動化處理,以及情報的共享和分析,業(yè)界提出了許多威脅情報表達(dá)規(guī)范,比如OpenIOC[1]、MAEC[2]、STIX[3]等,它們擁有不同的特點(diǎn),適用于不同的場合,其中STIX標(biāo)準(zhǔn)提供了完整的結(jié)構(gòu)化威脅情報表達(dá)框架,具有類型豐富,共享方便等特點(diǎn),可以適用于各種場景。

        在過去,從安全文本到STIX等結(jié)構(gòu)化威脅情報這一轉(zhuǎn)換過程往往由研究人員完成,需要耗費(fèi)大量的人力和時間。近年來,隨著自然語言處理(Natural Language Processing, NLP)等技術(shù)的發(fā)展,已經(jīng)能使用多種自動化方法對文本進(jìn)行抽取和理解。但現(xiàn)有研究抽取的內(nèi)容較為單一,也不適用于STIX標(biāo)準(zhǔn),利用價值較低。

        為了解決上述問題,本文引入了STIX標(biāo)準(zhǔn)中的主要威脅情報實(shí)體,并構(gòu)建了標(biāo)注數(shù)據(jù)集,在此基礎(chǔ)上對基于該數(shù)據(jù)集的威脅情報自動抽取方法進(jìn)行研究,并對不同抽取方法下的效果進(jìn)行了對比。

        2 相關(guān)工作

        2.1 STIX標(biāo)準(zhǔn)

        STIX(Structured Threat Information Expression)是由OASIS推出的威脅情報交換標(biāo)準(zhǔn),在STIX 2.0中定義了12種稱為STIX Domain Objects(SDOs)的實(shí)體,比如攻擊模式(Attack Pattern)、應(yīng)對措施(Course of Action)、威脅指標(biāo)(Indicator)等,以描述對應(yīng)類型的威脅信息。除實(shí)體外,STIX還定義了實(shí)體之間的關(guān)系,稱為STIX Relation Objects(SROs)。

        使用SDO、SRO等標(biāo)準(zhǔn)化的定義進(jìn)行情報表示,有助于威脅情報的共享和自動化處理。不過,完整的STIX定義結(jié)構(gòu)較為復(fù)雜,同時為了保證其擴(kuò)展性和靈活性,STIX定義中也存在部分模糊和寬泛的內(nèi)容,因此本文僅僅選取了STIX的部分子集進(jìn)行標(biāo)注和預(yù)測。

        2.2 威脅情報抽取的相關(guān)研究

        目前,安全文本抽取的相關(guān)研究主要集中在兩個方面:數(shù)據(jù)集的構(gòu)建和如何獲取不同類型的威脅信息。在數(shù)據(jù)集方面的代表性工作是Lal[4]提出的安全實(shí)體的標(biāo)注數(shù)據(jù)集,包括了對文件名、網(wǎng)絡(luò)名詞、操作系統(tǒng)、軟件名等實(shí)體的標(biāo)注。

        在威脅信息類型方面,現(xiàn)有的安全文本抽取工作已經(jīng)涵蓋了多種類型的威脅情報。對威脅指標(biāo)(Indicator of Compromise, IOC)進(jìn)行抽取的代表性工作是Liao等人提出的iACE[5],綜合運(yùn)用了正則表達(dá)式和機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)抽取。此外劉浩杰等人[6]提出了檢測惡意域名的集成學(xué)習(xí)方法。在行為信息的挖掘方面,主要有Husari等人開發(fā)的TTPDrill[7]系統(tǒng)通過基于文本相似度匹配來判斷攻擊行為。

        在安全實(shí)體的抽取方面,Bridges等人[8]提出的通過綜合運(yùn)用數(shù)據(jù)庫匹配,啟發(fā)式規(guī)則和術(shù)語詞典實(shí)現(xiàn)安全實(shí)體的自動抽取。

        不過,現(xiàn)有的安全實(shí)體標(biāo)注或文本抽取相關(guān)研究中并未涉及本文提出的對惡意軟件或攻擊者身份相關(guān)信息的識別,也并非基于STIX標(biāo)準(zhǔn),無法轉(zhuǎn)換為結(jié)構(gòu)化的威脅情報進(jìn)行共享,因此本文提出的標(biāo)注框架更具有實(shí)用價值。

        2.3 網(wǎng)絡(luò)安全領(lǐng)域NLP的應(yīng)用特點(diǎn)

        上述研究表明NLP技術(shù)在安全領(lǐng)域得到廣泛的應(yīng)用。在方法上,常用的模型都可以直接應(yīng)用于安全領(lǐng)域的文本數(shù)據(jù)集,比如傳統(tǒng)的特征工程+機(jī)器學(xué)習(xí),以及近年興起的深度學(xué)習(xí)方法,包括CNN、RNN模型等。

        但安全領(lǐng)域的NLP應(yīng)用和傳統(tǒng)NLP相比也存在以下重要的區(qū)別。(1)安全領(lǐng)域的文本普遍比較“臟”,為了清晰描述安全事件,作者會在文中加入大量的URL、IP、Hash值、代碼片段以及各類圖表等信息,如果不進(jìn)行處理會在訓(xùn)練過程中引入大量的噪聲,這些信息大多數(shù)情況下需要進(jìn)行識別并從文本中去除。(2)當(dāng)前絕大部分NLP技術(shù)是基于監(jiān)督學(xué)習(xí)的,需要大量的人力參與標(biāo)注,但由于安全文本具有專業(yè)性的特點(diǎn),難以和普通文本一樣通過眾包來獲取大量標(biāo)注數(shù)據(jù)。(3)由于安全文本中存在的大量專有名詞,在普通文本上預(yù)訓(xùn)練的模型無法在安全領(lǐng)域的任務(wù)中取得滿意的效果,比如常用的各類詞向量。

        可以看出,在安全領(lǐng)域應(yīng)用NLP技術(shù)的挑戰(zhàn)主要在于文本處理和構(gòu)建數(shù)據(jù)集,因此本文也在這兩個方面進(jìn)行了重點(diǎn)說明。

        3 數(shù)據(jù)集構(gòu)建過程和實(shí)驗(yàn)方法

        由于上述安全文本的特性,本文對數(shù)據(jù)集的標(biāo)注和擴(kuò)展流程進(jìn)行了詳細(xì)介紹。在實(shí)驗(yàn)方法上,本文選擇了幾種常用的NLP模型,用于對比不同方法在本數(shù)據(jù)集上的有效性。

        3.1 數(shù)據(jù)集構(gòu)建

        本文從APTnotes[9]等來源收集了近10年共528篇APT報告,對其中31篇進(jìn)行了人工標(biāo)注,將另外497篇用于擴(kuò)展標(biāo)注數(shù)據(jù)集。31篇標(biāo)注的文檔經(jīng)過仔細(xì)篩選,時間均為2018-2019年,保證了時效性。在作者方面,選取了多家不同安全公司的報告,包括Symantec、FireEye、Palo Alto Networks、Trend Micro、360等。在題材選取上主要有三種類型,包括對攻擊組織的分析、對某次攻擊活動的分析和對惡意軟件的分析,從而保證了題材多樣性,對于題材的具體統(tǒng)計(jì)如表1所示。

        (1)預(yù)處理

        對于所有的文檔,本文建立了如圖1所示的文本預(yù)處理流程。

        由于所有的文檔均為PDF格式且語言為英語,本文首先使用PDFMiner[10]將其轉(zhuǎn)為文本文件,并在此過程中過濾掉所有非ASCII字符。PDFMiner可以根據(jù)PDF文檔的布局,初步對文檔進(jìn)行分段,但無法進(jìn)行分句。經(jīng)測試,現(xiàn)有的分詞和分句工具無法準(zhǔn)確處理安全類文本。因此,本文根據(jù)安全文本的特點(diǎn),重新編寫了分句規(guī)則。

        對于每一個經(jīng)PDFMiner處理得到的段落,本文使用首先去除段落內(nèi)所有的換行符,連續(xù)空格,空括號等多余符號,并準(zhǔn)確判斷并處理文檔換行處單詞的截斷問題(比如ser- vice),得到一個單行的段落,再在此基礎(chǔ)上分句。本文測試了多種分句規(guī)則,發(fā)現(xiàn)最簡單的基于句號和單空格的規(guī)則(r'.s')最為有效。

        表1 所選報告的題材分布

        在分詞方面,為了保證不同實(shí)驗(yàn)中分詞結(jié)果的一致性,本文使用了BERT[13]提供的Tokenizer對單個句子進(jìn)行分詞,由于BERT提供的分詞工具會進(jìn)行WordPiece Tokenization, 產(chǎn)生眾多以##開頭的單詞片段,在使用詞向量等方法作為輸入時,需將被拆分的單詞重新合并。

        (2)標(biāo)注內(nèi)容

        對于STIX 2.0標(biāo)準(zhǔn)中定義的12個SDO,本文選取了以下5項(xiàng)SDO進(jìn)行標(biāo)注,它們在文中都以名詞或名詞短語的形式呈現(xiàn):

        1) Identity—身份信息,通常是個人或組織的名稱,用于說明攻擊目標(biāo)、信息來源等;

        2) Intrusion Set—具有共同屬性的攻擊行為和資源的集合,比如APT報告中經(jīng)常使用APT+編號的方式指代攻擊背后的組織;

        3) Malware—惡意軟件名稱,一般出現(xiàn)在APT報告中的都是惡意軟件的家族名稱而非完整的正式命名;

        4) Threat Actor—惡意行為的具體實(shí)施者;

        5) Tool—用于攻擊行動的合法軟件。

        (3)標(biāo)注過程

        對于31篇手工標(biāo)注的數(shù)據(jù)集,本文在上述預(yù)處理流程的基礎(chǔ)上進(jìn)一步手動檢查了無效信息并將其移除,以確保文本中只包含完整的句子,隨后使用Brat Rapid Annotation Tool (Brat)[11]工具進(jìn)行文本標(biāo)注,其界面如圖2所示;標(biāo)注完成后將Brat自動生成的ann格式文檔轉(zhuǎn)為常用的BIO標(biāo)注格式,如表2所示。

        在實(shí)際標(biāo)注中發(fā)現(xiàn),Intrusion Set和Threat Actor在定義上的區(qū)別比較模糊。在許多APT報告中,這兩種類型甚至使用同一個詞語表示,不同的人很容易給出不同的標(biāo)注。因此在實(shí)驗(yàn)中,本文將Intrusion Set和Threat Actor的標(biāo)注進(jìn)行合并,自定義一個新的實(shí)體Attacker,以消除模糊性從而在實(shí)驗(yàn)中取得更好的效果。

        表2 BIO標(biāo)注格式

        圖1 預(yù)處理流程

        圖2 Brat標(biāo)注界面

        (4)數(shù)據(jù)集擴(kuò)展

        為了進(jìn)一步擴(kuò)大樣本數(shù)量,本文將手工標(biāo)注的31份報告中標(biāo)注的實(shí)體整理為字典,對于剩余的497份報告,經(jīng)過上述預(yù)處理流程進(jìn)行分句和分詞后進(jìn)行字典匹配,對于匹配到的句子則將其加入訓(xùn)練集。由于擴(kuò)展的樣本基于字典匹配,因此存在一定的噪聲,但考慮到大部分實(shí)體都以特殊名詞的形式存在,一般為首字母大寫或全大寫,基本可以忽略由于詞語相同所產(chǎn)生的錯誤樣本。

        對于擴(kuò)展的數(shù)據(jù)集,本文去除了所有小于5個單詞以及結(jié)尾沒有標(biāo)點(diǎn)的詞組,從而去除了大部分自動處理的報告中非句子的部分,并進(jìn)一步平衡了各類別的數(shù)量,最終形成的數(shù)據(jù)集比手工標(biāo)注的部分增加了8,825個樣本。

        最終數(shù)據(jù)集中各項(xiàng)實(shí)體標(biāo)注數(shù)量的統(tǒng)計(jì)如表3所示。可以看到通過字典擴(kuò)充訓(xùn)練集的方法增加了數(shù)倍的樣本,在提高樣本數(shù)方面具有顯著效果。

        表3 數(shù)據(jù)分布

        3.2 詞嵌入方法和模型選擇

        在完成數(shù)據(jù)集構(gòu)建后,在輸入模型前需要將文本中的單詞進(jìn)行嵌入,得到固定長度的向量。除了隨機(jī)生成輸入向量外,使用更廣泛的是通過預(yù)訓(xùn)練得到的詞向量。由于預(yù)訓(xùn)練的詞向量能夠在一定程度上表達(dá)自身的語義,能有效提升下游任務(wù)的效果。本文中使用了傳統(tǒng)的靜態(tài)詞向量GloVe[12]和基于自注意力(Self-attention)機(jī)制的BERT[13]作為輸入并進(jìn)行了對比。

        在模型方面,本文分別使用CRF模型,BiLSTM模型以及二者的組合對四種實(shí)體進(jìn)行識別,同時也比較了LSTM的變種GRU(Gated Recurrent Units)網(wǎng)絡(luò)。

        4 實(shí)驗(yàn)及結(jié)果分析

        實(shí)驗(yàn)中,數(shù)據(jù)按8:1:1劃分為訓(xùn)練集、驗(yàn)證集和測試集,同時隨機(jī)初始化的向量和GloVe詞向量的維度均為300。在指標(biāo)方面,計(jì)算每種方法下每個類別的精確率(Precision)、召回率(Recall)和F1值(F1 score)以及所有實(shí)體類別的平均值,具體結(jié)果如表4所示。

        本文首先使用單一的CRF模型作為基準(zhǔn)值??梢钥闯霰疚牡臄?shù)據(jù)集在該方法下取得了一定的效果,但召回率偏低。在單獨(dú)使用BiLSTM模型的情況下,平均召回率有了顯著的提升,但仍不如組合模型。

        隨后本文在CRF前加上BiLSTM模型,并使用隨機(jī)向量作為輸入,與模型共同訓(xùn)練??梢钥闯鼋M合模型的效果要好于單一模型,這主要是由于加入CRF層能夠滿足標(biāo)簽之間的依賴關(guān)系,修正單一模型的錯誤。

        表4 實(shí)驗(yàn)結(jié)果

        最后是使用GloVe詞向量作為神經(jīng)網(wǎng)絡(luò)輸入。在該方法下,所有指標(biāo)均低于僅使用CRF的基準(zhǔn)值,主要是由于GloVe這類傳統(tǒng)詞向量的詞匯表固定且使用普通文本進(jìn)行訓(xùn)練,很多詞語的預(yù)訓(xùn)練向量無法準(zhǔn)確描述該詞在安全文本中的語義。此外,GloVe無法處理安全文本中大量特殊的OOV(Out of Vocabulary)詞語,而很多這類詞匯正是本文中需要預(yù)測的實(shí)體名稱。最后,GloVe詞向量對所有詞語進(jìn)行了小寫化,丟失了部分文本中的信息,因此此類詞向量的加入起到了反效果。

        最后一種方法使用了預(yù)訓(xùn)練BERT作為輸入,比起傳統(tǒng)詞向量,BERT使用的Transformer模型能更有效捕捉上下文語義,同時WordPiece Tokenization能夠有效處理OOV詞匯,得到字符級別的特征,因此該方法取得了最好的效果。

        此外,本文也將LSTM替換成雙向GRU進(jìn)行了實(shí)驗(yàn)。一般來說,LSTM的結(jié)構(gòu)更為復(fù)雜,擁有更好的表達(dá)能力,但本數(shù)據(jù)集規(guī)模相對較小,從表4可以看出因此二者的性能幾乎一致,在使用BERT作為輸入的模型中,GRU網(wǎng)絡(luò)的召回率和F1值都略優(yōu)于LSTM,詳細(xì)指標(biāo)如表5所示。

        表5 BERT-BiGRU-CRF分類指標(biāo)

        在幾乎所有方法中,Attacker和Malware的結(jié)果都要優(yōu)于Identity和Tool,這是因?yàn)镮dentity涵蓋的范圍較大,既包括了各類公司或組織的名稱,也包含了一部分人名,模型并不能很好地學(xué)習(xí)到該類型中所有的信息,而Tool指標(biāo)較低則是由于其標(biāo)注規(guī)模小于其他類型的實(shí)體。

        5 結(jié)束語

        本文基于STIX 2.0標(biāo)準(zhǔn)定義了一組安全文本中常見的實(shí)體,首先對31篇APT報告進(jìn)行了手工標(biāo)注,并將其中被標(biāo)注的實(shí)體作為字典匹配更多未標(biāo)注報告中的句子,有效擴(kuò)充了標(biāo)注數(shù)據(jù)的數(shù)量。得到標(biāo)注數(shù)據(jù)后,本文對比了不同方法和不同初始化條件下實(shí)體抽取的效果,可以看出該系統(tǒng)可以有效捕捉APT報告中的實(shí)體信息,以用于后續(xù)的威脅情報構(gòu)建。

        由于本數(shù)據(jù)集手工標(biāo)注的部分相對較小,為了進(jìn)一步提升模型的泛化能力,在后續(xù)工作中將擴(kuò)大手工標(biāo)注的文檔數(shù)量。同時,還將對STIX標(biāo)準(zhǔn)中的行為信息以及實(shí)體間關(guān)系(SRO)的抽取進(jìn)行研究,以生成更加全面的威脅情報數(shù)據(jù)。

        猜你喜歡
        情報威脅實(shí)體
        情報
        情報
        情報
        人類的威脅
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        受到威脅的生命
        面對孩子的“威脅”,我們要會說“不”
        家教世界(2017年11期)2018-01-03 01:28:49
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        国产麻花豆剧传媒精品mv在线| 久久精品国产亚洲AV高清y w| 亚洲美女av二区在线观看| 女人被躁到高潮嗷嗷叫免| 精品偷拍被偷拍在线观看| 欧美日韩久久久精品a片| 国内精品视频成人一区二区| 视频区一区二在线观看| 少妇愉情理伦片丰满丰满| 亚洲欧美日韩精品久久亚洲区| 久久国产精品免费一区二区| 日韩女优一区二区在线观看| 波多野结衣中文字幕一区二区三区 | 蜜桃传媒网站在线观看| 777国产偷窥盗摄精品品在线| 国产精品久久久久久久成人午夜| 国产精品亚洲婷婷99久久精品| 国产在线91精品观看| 黑人上司粗大拔不出来电影| 欧美日韩亚洲色图| 蜜桃av噜噜一区二区三区免费 | 婷婷丁香社区| 久久久国产精品粉嫩av| 蜜桃臀av一区二区三区| 色噜噜狠狠狠综合曰曰曰| 日韩在线观看你懂的| 青青青草视频手机在线| 国产精品天天看天天狠| 性xxxx视频播放免费| 亚洲欧美日本人成在线观看| 人妻少妇精品视频专区二区三区| 一本本月无码-| 中文字幕一区二区三区乱码不卡 | 国产精品无码无片在线观看3d| 国产日b视频| 国产精品农村妇女一区二区三区| 蜜芽亚洲av无码精品色午夜| 亚洲av纯肉无码精品动漫| 国产强伦姧在线观看| 九九久久精品国产免费av| 精品亚洲一区二区三区在线观看|