網(wǎng)絡(luò)威脅情報(bào)處理方法綜述

2023-04-29 00:44:03吳沛穎王俊峰崔澤源范曉宇葛文翰林同燦余堅(jiān)唐賓徽

四川大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年5期

吳沛穎王俊峰崔澤源范曉宇葛文翰林同燦余堅(jiān) 唐賓徽

摘要：網(wǎng)絡(luò)威脅情報(bào)是對(duì)網(wǎng)絡(luò)攻擊者的動(dòng)機(jī)、行為等進(jìn)行收集處理和分析的威脅行為知識(shí)集合.威脅情報(bào)文本包含豐富的攻擊行為特征、惡意軟件描述以及對(duì)系統(tǒng)所造成的影響等信息，能夠幫助實(shí)現(xiàn)對(duì)攻擊行為的建模分析.對(duì)網(wǎng)絡(luò)威脅情報(bào)處理和分析能夠幫助組織更好地理解威脅，從而做出更快、更有效的安全決策，并在網(wǎng)絡(luò)威脅的響應(yīng)和防御過程中由被動(dòng)轉(zhuǎn)向主動(dòng).然而，由于情報(bào)文本中復(fù)雜的語義信息和行為邏輯關(guān)系，從中識(shí)別和提取出有價(jià)值的關(guān)鍵信息和可操作建議一直存在著很大挑戰(zhàn).隨著人工智能的快速發(fā)展，關(guān)于網(wǎng)絡(luò)威脅情報(bào)關(guān)鍵信息的自動(dòng)化提取的研究取得了一定進(jìn)展.然而，目前還缺乏針對(duì)具體分析內(nèi)容的處理方法的系統(tǒng)性分析與整理.本文首先介紹了網(wǎng)絡(luò)威脅情報(bào)的相關(guān)基本概念；然后對(duì)威脅情報(bào)所能提供的關(guān)鍵信息及其價(jià)值進(jìn)行闡述；隨后對(duì)近年網(wǎng)絡(luò)威脅情報(bào)處理的研究工作進(jìn)行梳理和總結(jié)；最后，總結(jié)了網(wǎng)絡(luò)威脅情報(bào)處理領(lǐng)域面臨的挑戰(zhàn)，并展望了未來的研究方向.

關(guān)鍵詞：網(wǎng)絡(luò)威脅情報(bào)；攻擊行為特征；深度學(xué)習(xí)；自動(dòng)化提取

中圖分類號(hào)：??TN915.08 文獻(xiàn)標(biāo)識(shí)碼：A? DOI：DOI：10.19907/j.0490-6756.2023.050001

收稿日期： ?2023-08-13

基金項(xiàng)目： ?國家重點(diǎn)研發(fā)計(jì)劃（2022YFB3305200）；國家自然科學(xué)基金（U2133208）；四川省青年科技創(chuàng)新研究團(tuán)隊(duì)（2022JDTD0014）

作者簡介： ?吳沛穎（2000-），四川成都人，碩士研究生，研究方向?yàn)榫W(wǎng)絡(luò)空間安全. E-mail： 997528113@qq.com

通訊作者： ??王俊峰. E-mail：wangjf@scu.edu.cn

A survey of cyber threat intelligence processing methods

WU Pei-Ying ?1 ， WANG Jun-Feng ?1，2 ?， CUI Ze-Yuan ?2 ， FAN Xiao-Yu ?2 ， ?GE Wen-Han ?1 ， LIN Tong-Can ?1 ， YU Jian ?1 ， TANG Bin-Hui ?3

（1.College of Computer Science， Sichuan University， Chengdu 610065， China;

2.National Defense Key Laboratory of Visual Synthesis Graphics and Images， Sichuan University， Chengdu 610065， China;

3.School of Cyber Science and Engineering， Sichuan University， Chengdu 610065， China）

Cyber threat intelligence is a collection of threat behavior knowledge that collects， processes， and analyzes the motives and behaviors of cyber attackers. Threat intelligence text contains rich attack behavior characteristics， malware description，and impact on the system，which can help realize the modeling and analysis of attack behavior. The processing and analysis of cyber threat intelligence can help organizations better understand threats，thereby making faster and more effective security decisions，and shifting from reactive to proactive in the response and defense of cyber threats. However，due to the complex semantic information and behavioral logic relationships in intelligence texts，it has always been a great challenge to identify and extract valuable key information and actionable suggestions from them. With the rapid development of artificial intelligence，the research on the automatic extraction of key information of network threat intelligence has made some progress. However，there is still a lack of systematic analysis and collation of the processing methods for the specific analysis content. This paper first introduces the relevant basic concepts of cyber threat intelligence. Then elaborates on the key information and value that threat intelligence can provide. Then sorts out and summarizes the research work on cyber threat intelligence processing in recent years. Finally，summarize the challenges faced in the field of network threat intelligence processing，and look forward to the future research direction.

Cyber threat intelligence； Aggressive behavior characteristics； Deep learning； Automated ??extraction

吳沛穎，等：網(wǎng)絡(luò)威脅情報(bào)處理方法綜述

1 引言互聯(lián)網(wǎng)應(yīng)用呈指數(shù)級(jí)增長，網(wǎng)絡(luò)環(huán)境越來越復(fù)雜，各種網(wǎng)絡(luò)攻擊頻繁出現(xiàn).隨著社會(huì)經(jīng)濟(jì)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，網(wǎng)絡(luò)攻擊者的目標(biāo)更加傾向于企業(yè)、政府等大型組織的關(guān)鍵信息基礎(chǔ)設(shè)施或重要信息系統(tǒng)，攻擊手段的復(fù)雜性隨之不斷提升 ?［1］，在過去十余年對(duì)全球政府與數(shù)字經(jīng)濟(jì)的關(guān)鍵部門造成了數(shù)萬億美元的損失 ?［2］ .有計(jì)劃、有針對(duì)性的攻擊越發(fā)頻繁，例如2006年被提出的高級(jí)持續(xù)性威脅（Advanced Persistent Threat，APT）攻擊，具有強(qiáng)隱蔽性和針對(duì)性，組織嚴(yán)密且持續(xù)時(shí)間長，入侵后果極為嚴(yán)重.著名的APT攻擊“震網(wǎng)攻擊”是近代網(wǎng)絡(luò)攻擊的一個(gè)里程碑，伊朗布什爾核電站遭受Stuxnet蠕蟲攻擊，導(dǎo)致核離心機(jī)自行燒毀，國防、電網(wǎng)等領(lǐng)域遭到極大破壞 ?［3］ .據(jù)奇安信全球APT2023年中報(bào)告，涉及我國政府部門的APT事件占比高達(dá)33%，能源、科研和教育等重要行業(yè)遭受攻擊的情況也十分突出 ?［4］ .表1總結(jié)了近年發(fā)生的著名網(wǎng)絡(luò)攻擊事件，涵蓋了多種攻擊手段.這些網(wǎng)絡(luò)攻擊事件對(duì)目標(biāo)組織造成了嚴(yán)重的損失.

隨著網(wǎng)絡(luò)攻擊的復(fù)雜化、武器化和軍事化，傳統(tǒng)的安全防御措施已無法滿足組織的安全需求.全方位了解攻擊者的信息并在網(wǎng)絡(luò)威脅防御和響應(yīng)過程中搶占主動(dòng)地位變得至關(guān)重要，而由網(wǎng)絡(luò)威脅情報(bào)驅(qū)動(dòng)的網(wǎng)絡(luò)安全防御是高效應(yīng)對(duì)復(fù)雜網(wǎng)絡(luò)威脅的關(guān)鍵 ?［8］ .

網(wǎng)絡(luò)威脅情報(bào)是關(guān)于現(xiàn)有或即將出現(xiàn)的威脅信息，經(jīng)過提煉、分析和整理，包含了攻擊場景、機(jī)制、技術(shù)指標(biāo)和可采取行動(dòng)的建議等，能夠輔助對(duì)網(wǎng)絡(luò)威脅進(jìn)行響應(yīng)決策和分析 ?［10］ .面對(duì)以APT為代表的能夠繞過基于啟發(fā)式和簽名的傳統(tǒng)防火墻、入侵檢測系統(tǒng)、殺毒軟件的新一代網(wǎng)絡(luò)攻擊，提供了有價(jià)值的攻擊相關(guān)信息的網(wǎng)絡(luò)威脅情報(bào)是幫助檢測和主動(dòng)防御復(fù)雜網(wǎng)絡(luò)攻擊的重要信息來源 ?［11］，在針對(duì)高級(jí)威脅行為展開協(xié)同響應(yīng)和積極防御中具有不可或缺的關(guān)鍵作用 ?［12］ .

威脅情報(bào)能夠讓安全分析師或組織更好地了解攻擊者，從而更快地響應(yīng)威脅事件并主動(dòng)領(lǐng)先于攻擊者的下一步行動(dòng)，在復(fù)雜網(wǎng)絡(luò)攻擊溯源過程中具有不可替代的地位.許多部門組織已經(jīng)利用各自的技術(shù)收集了大量的威脅情報(bào)幫助防御決策 ?［12，13］ .對(duì)于中小型企業(yè)，威脅情報(bào)可以幫助其達(dá)到原本無法實(shí)現(xiàn)的安全保護(hù)級(jí)別；對(duì)于擁有大型安全團(tuán)隊(duì)的企業(yè)或部門，則可以利用外部威脅情報(bào)來降低成本，并提高安全分析師的效率 ?［14］ .

對(duì)于威脅情報(bào)處理相關(guān)研究的現(xiàn)狀，Cascavilla等 ?［15］對(duì)威脅情報(bào)相關(guān)最新技術(shù)進(jìn)行了梳理，并提供根據(jù)不同維度對(duì)網(wǎng)絡(luò)攻擊與威脅情報(bào)解決方案的分類；Sun等 ?［16］全面回顧了從多種不同數(shù)據(jù)源挖掘威脅情報(bào)的研究工作，總結(jié)了CTI挖掘技術(shù)，并提出了一種根據(jù)研究目標(biāo)對(duì)CTI挖掘進(jìn)行分類的方法；Tang等 ?［12］強(qiáng)調(diào)了智能威脅分析的重要性，對(duì)APT攻擊的智能威脅分析技術(shù)和最近的應(yīng)用研究進(jìn)行了系統(tǒng)總結(jié)，并為知識(shí)圖譜和深度學(xué)習(xí)與威脅分析的結(jié)合提供了參考；崔琳等 ?［17］系統(tǒng)梳理了近年對(duì)開源威脅情報(bào)挖掘技術(shù)的研究狀況，針對(duì)開源威脅情報(bào)采集與識(shí)別提取、情報(bào)融合評(píng)價(jià)和情報(bào)關(guān)聯(lián)應(yīng)用三個(gè)場景進(jìn)行了分析，并評(píng)述了相關(guān)研究工作中所用技術(shù)的性能和優(yōu)缺點(diǎn).

威脅情報(bào)蘊(yùn)含大量不同結(jié)構(gòu)的有價(jià)值信息和潛在表達(dá)，需要根據(jù)獲取目標(biāo)應(yīng)用不同的處理方式和技術(shù)分門別類進(jìn)行學(xué)習(xí)、提取和分析，從而充分利用威脅情報(bào)所提供的知識(shí).以上的綜述工作涵蓋了不同技術(shù)與方向，但缺乏對(duì)具體處理內(nèi)容的側(cè)重深入探討.目前仍沒有從知識(shí)獲取目標(biāo)的角度進(jìn)行細(xì)化的威脅情報(bào)處理方法的整理與研究.

本文系統(tǒng)性回顧了網(wǎng)絡(luò)威脅情報(bào)處理的發(fā)展?fàn)顩r，整體結(jié)構(gòu)和主要內(nèi)容如圖1所示.第2節(jié)整理了基本概念及數(shù)據(jù)來源；第3節(jié)對(duì)威脅情報(bào)所包含的關(guān)鍵知識(shí)進(jìn)行總結(jié)；第4節(jié)根據(jù)不同的提取與處理內(nèi)容對(duì)最新研究工作分別進(jìn)行梳理探討；第5節(jié)對(duì)研究現(xiàn)狀所存在的問題及面臨的挑戰(zhàn)進(jìn)行了分析，同時(shí)對(duì)未來的研究方向進(jìn)行了展望.

2 網(wǎng)絡(luò)威脅情報(bào)概述

2.1 威脅情報(bào)概念

威脅情報(bào)的概念存在著多種定義.McMillan ?［18］認(rèn)為威脅情報(bào)是關(guān)于威脅的任何基于證據(jù)的知識(shí)，可以為決策提供信息，目的是防止攻擊或縮短妥協(xié)和檢測之間的窗口；Dalziel ?［19］將威脅情報(bào)描述為“經(jīng)過提煉、分析和處理的數(shù)據(jù)，使其具有相關(guān)性、可操作性和價(jià)值”；Shackleford ?［20］認(rèn)為威脅情報(bào)是“收集、評(píng)估和應(yīng)用的關(guān)于安全威脅、威脅參與者、漏洞利用、惡意軟件、漏洞和妥協(xié)指標(biāo)的數(shù)據(jù)集”；Tounsi等 ?［21］對(duì)這些定義進(jìn)行概括，認(rèn)為威脅情報(bào)包含了有關(guān)現(xiàn)有或新出現(xiàn)的威脅的技術(shù)指標(biāo)、背景、機(jī)制、影響和可采取行動(dòng)的建議.總的來說，威脅情報(bào)是對(duì)威脅手段、過程和參與者等網(wǎng)絡(luò)安全原始數(shù)據(jù)進(jìn)行分析提煉、有助于網(wǎng)絡(luò)安全防御決策的知識(shí)集合.本文使用的相關(guān)專業(yè)術(shù)語的英文單詞首字母縮寫如表2所示.

威脅情報(bào)分析的目的是為了提供給安全團(tuán)隊(duì)、決策者和其他相關(guān)人員有關(guān)威脅的信息，以便他們能夠更好地了解威脅并采取相應(yīng)措施 ?［22］ .通過威脅情報(bào)分析，組織可以了解到攻擊者的行為模式、攻擊方式和攻擊目標(biāo)等信息，不僅可以幫助組織進(jìn)行更加有效的安全決策，同時(shí)也能幫助組織更好地了解自身的安全狀況 ?［23］ .

2.2 威脅情報(bào)生命周期

威脅情報(bào)不是端到端的工作，而是具有一個(gè)生命周期的循環(huán)過程.不同企業(yè)或安全組織所關(guān)注的威脅類型由于其業(yè)務(wù)性質(zhì)的不同而千差萬別，通過威脅情報(bào)生命周期的每個(gè)階段，可以提供一個(gè)連貫的結(jié)構(gòu)，幫助確保威脅情報(bào)的輸出結(jié)果是可操作的，并與企業(yè)或組織的風(fēng)險(xiǎn)管理和業(yè)務(wù)目標(biāo)一致.圖2給出了網(wǎng)絡(luò)威脅情報(bào)生命周期的具體構(gòu)成，并說明了每個(gè)階段所承擔(dān)的任務(wù).

在網(wǎng)絡(luò)安全的背景下，Brown等 ?［24］將威脅情報(bào)描述為可操作信息或情報(bào)生命周期模型的產(chǎn)物.威脅情報(bào)的生命周期包含6個(gè)階段：需求識(shí)別、收集、處理、分析、傳播和反饋 ?［25］，如圖2所示.除了直接向供應(yīng)商購買之外，大多數(shù)威脅情報(bào)項(xiàng)目都從需求識(shí)別開始，負(fù)責(zé)情報(bào)收集的人員直接與業(yè)務(wù)管理人員對(duì)接，確定需要的情報(bào)類型，以確保情報(bào)與業(yè)務(wù)和風(fēng)險(xiǎn)管理目標(biāo)一致；在收集階段，可以使用專用的威脅情報(bào)平臺(tái)，或從相關(guān)來源收集原始數(shù)據(jù)，例如內(nèi)部的網(wǎng)絡(luò)日志、網(wǎng)絡(luò)設(shè)備和安全設(shè)備的檢測、在特定網(wǎng)頁上抓取數(shù)據(jù)；數(shù)據(jù)收集完畢后進(jìn)行處理，首先要過濾掉虛假數(shù)據(jù)和冗余數(shù)據(jù)，將類似的數(shù)據(jù)分組到一起，并進(jìn)行格式化處理等 ?［26］；分析階段是重中之重，決定了數(shù)據(jù)能否提供有價(jià)值的決策指導(dǎo)信息.在分析階段，需要在數(shù)據(jù)中提取出有意義的上下文信息并轉(zhuǎn)換為威脅情報(bào)；在傳播過程中，相關(guān)威脅情報(bào)被發(fā)送給相對(duì)應(yīng)的利益相關(guān)者，讓其從情報(bào)中獲取價(jià)值并幫助其進(jìn)行決策 ?［27］；情報(bào)發(fā)送完成之后，需要及時(shí)收集反饋以確定情報(bào)分析是否及時(shí)、有效并具有可操作性.反饋的問題有助于改進(jìn)下一輪威脅情報(bào)的收集和分析，形成一個(gè)持續(xù)改進(jìn)的循環(huán)和迭代過程.

可操作的情報(bào)始終是威脅情報(bào)生命周期的最終目標(biāo) ?［28］，然而如Sauerwein等 ?［29］研究所述，今天的大部分組織主要關(guān)注數(shù)據(jù)收集工作，而甚少關(guān)注生命周期的其他活動(dòng).Boeke等 ?［30］表示，工具和數(shù)據(jù)源無法在沒有人為干預(yù)的情況下提供威脅情報(bào).任何類型的情報(bào)都需要分析，分析是由人類進(jìn)行的，在威脅情報(bào)生命周期中必須始終有分析師參與.

2.3 威脅情報(bào)數(shù)據(jù)源

網(wǎng)絡(luò)威脅情報(bào)的數(shù)據(jù)獲取對(duì)于后期任務(wù)至關(guān)重要，數(shù)據(jù)的數(shù)量、時(shí)效性、多樣性和可信度等衡量手段對(duì)于后期任務(wù)具有重大價(jià)值和意義，也影響著主被動(dòng)防御、溯源信息的質(zhì)量和處理效率.網(wǎng)絡(luò)威脅情報(bào)的來源非常多樣化，可以按照不同的維度進(jìn)行分類.表3列出了從不同維度進(jìn)行分類的主要威脅情報(bào)數(shù)據(jù)源.

2.3.1 威脅情報(bào)的公開性質(zhì)

（1）開源情報(bào)數(shù)據(jù)源：開源情報(bào)是從公開可用的信息源收集的情報(bào)，包括網(wǎng)絡(luò)、新聞、政府報(bào)告、公開的數(shù)據(jù)庫、暗網(wǎng)等.這些信息源可以通過各種方式獲取，包括網(wǎng)絡(luò)爬蟲、RSS訂閱、API調(diào)用等 ?［31］ .相關(guān)機(jī)構(gòu)可以以較低成本獲得實(shí)時(shí)的、大量的、多樣化的不同來源信息，對(duì)于威脅情報(bào)的收集和分析有重大意義 ?［32］ .例如開源威脅情報(bào)平臺(tái)VirusTotal，匯集了全球范圍內(nèi)的惡意軟件樣本及相關(guān)信息.它通過聚合不同安全廠商的報(bào)告，提供有關(guān)惡意軟件哈希值、行為分析和病毒掃描結(jié)果等信息.組織可以通過VirusTotal了解已知惡意軟件的特征，及時(shí)檢測和應(yīng)對(duì)已知威脅.

（2）商業(yè)數(shù)據(jù)源：該類數(shù)據(jù)源通常由專門的安全公司提供，需要付費(fèi)以獲取內(nèi)容.相關(guān)公司通常有專門的研究團(tuán)隊(duì)，可以提供更深入、更專業(yè)的威脅情報(bào)，例如Recorded Future是一個(gè)商業(yè)的威脅情報(bào)提供商，通過網(wǎng)絡(luò)爬蟲等方法收集全球范圍的威脅信息并進(jìn)行分析，以提供深入、專業(yè)的威脅情報(bào).該類數(shù)據(jù)源能夠提供全面的、高質(zhì)量的威脅情報(bào)，不僅包括開源信息，還包括從專有源、甚至暗網(wǎng)等獲取的信息、專家分析與應(yīng)對(duì)建議等內(nèi)容 ?［33］ .

（3）內(nèi)部數(shù)據(jù)源：包括組織內(nèi)部產(chǎn)生的情報(bào)、內(nèi)部專家分析以及內(nèi)部共享的情報(bào).組織內(nèi)部可能有安全團(tuán)隊(duì)進(jìn)行威脅情報(bào)的分析，并在組織內(nèi)部通過不同共享協(xié)議共享有關(guān)威脅情報(bào)的信息 ?［34］ .

開源情報(bào)的特點(diǎn)在于實(shí)時(shí)性、多樣性，用于檢測常見攻擊模式核威脅，例如從博客中收集關(guān)于新型惡意軟件的相關(guān)信息，可以幫助及時(shí)預(yù)警；商業(yè)數(shù)據(jù)源專業(yè)性更高，能夠幫助組織深入地了解高級(jí)威脅并提供防御措施；內(nèi)部數(shù)據(jù)源具有針對(duì)性，可以幫助組織了解內(nèi)部網(wǎng)絡(luò)活動(dòng)，及時(shí)發(fā)現(xiàn)異常行為.

2.3.2 威脅情報(bào)的結(jié)構(gòu)化程度

（1）結(jié)構(gòu)化數(shù)據(jù)源：這些數(shù)據(jù)源提供的信息通常以結(jié)構(gòu)化的格式（如JSON、XML等）提供，易于機(jī)器閱讀和處理.例如，STIX、TAXII、CybOX等表示威脅情報(bào)的結(jié)構(gòu)化語言 ?［35］ .這些協(xié)議或標(biāo)準(zhǔn)提供了一套描述和傳遞威脅情報(bào)的規(guī)范，能夠更準(zhǔn)確地獲取和共享威脅情報(bào)，提高威脅信息傳輸?shù)男?

（2）非結(jié)構(gòu)化數(shù)據(jù)源：這些數(shù)據(jù)源提供的信息通常是文本形式，如博客文章、論壇帖子和推文等.這些信息需要通過數(shù)據(jù)挖掘技術(shù)進(jìn)行收集，并經(jīng)過針對(duì)性的處理和專家分析之后才能提取出有價(jià)值的威脅信息，構(gòu)成威脅情報(bào).

結(jié)構(gòu)化數(shù)據(jù)源的優(yōu)勢在于提供了自動(dòng)化處理與分析的可行性，能夠幫助提升分析和共享的效率；非結(jié)構(gòu)化數(shù)據(jù)源的優(yōu)勢在于能夠捕捉更廣泛的威脅信息，但需要更多的人工干預(yù)和處理.

2.3.3 威脅情報(bào)的來源劃分

（1）內(nèi)源數(shù)據(jù)：內(nèi)部數(shù)據(jù)源主要來自于組織內(nèi)部的系統(tǒng)和網(wǎng)絡(luò)，包括內(nèi)部攻擊組織報(bào)告、日志數(shù)據(jù)、入侵檢測系統(tǒng)（IDS）報(bào)警、防火墻報(bào)告和安全事件管理（SIEM）系統(tǒng)等.內(nèi)部數(shù)據(jù)重點(diǎn)關(guān)注組織運(yùn)營的環(huán)境，提供了組織內(nèi)部正在發(fā)生的事件的宏觀視圖，有助于檢測是否存在性能問題和安全漏洞，盡早發(fā)現(xiàn)問題并防止非法活動(dòng)，對(duì)組織內(nèi)部的安全防御和威脅應(yīng)對(duì)具有重要作用.

（2）外源數(shù)據(jù)：外源數(shù)據(jù)來自組織外部，包括開源數(shù)據(jù)源、商業(yè)數(shù)據(jù)源，以及其他組織分享的威脅情報(bào).外源數(shù)據(jù)能夠提供更全面、更豐富的威脅信息，幫助組織建立態(tài)勢感知，掌握最新的威脅動(dòng)態(tài)以改進(jìn)相應(yīng)的安全防御決策.

內(nèi)源數(shù)據(jù)是特定組織的內(nèi)部產(chǎn)物，其內(nèi)容更加貼近組織的業(yè)務(wù)和運(yùn)營特點(diǎn)，并且收集和記錄具有實(shí)時(shí)性，有利于更準(zhǔn)確地識(shí)別潛在威脅；外源數(shù)據(jù)具有多樣性和全面性的特點(diǎn)，有助于阻止了解完整的威脅動(dòng)態(tài)，避免盲區(qū).

以上不同數(shù)據(jù)源有各自的作用與價(jià)值，在實(shí)際運(yùn)用中應(yīng)根據(jù)具體需求合理進(jìn)行多數(shù)據(jù)源的集成與整合，避免單一數(shù)據(jù)導(dǎo)致的限制性，同時(shí)確保數(shù)據(jù)對(duì)組織安全分析的有效性.

3 網(wǎng)絡(luò)威脅情報(bào)關(guān)鍵內(nèi)容

根據(jù)對(duì)威脅情報(bào)處理結(jié)果的梳理，威脅情報(bào)知識(shí)獲取的目標(biāo)主要包括IOC、TTPs、威脅主體和威脅關(guān)系等4種.本節(jié)對(duì)這幾類能夠從網(wǎng)絡(luò)威脅情報(bào)中提取出的關(guān)鍵知識(shí)及其價(jià)值和意義進(jìn)行了詳細(xì)闡述.

3.1 IOC

威脅指標(biāo)IOC是MANDIANT公司在長期的數(shù)字取證實(shí)踐中定義的可以反映主機(jī)或網(wǎng)絡(luò)行為的技術(shù)指示器.與實(shí)物證據(jù)一樣，IOC作為數(shù)字線索可以幫助網(wǎng)絡(luò)安全人員識(shí)別出數(shù)據(jù)泄露、惡意軟件感染等惡意活動(dòng)和安全威脅，提高威脅檢測的準(zhǔn)確性和速度.常見的IOC有IP、域名、郵箱、漏洞、惡意軟件等 ?［36］ .

獨(dú)立的IOC數(shù)據(jù)并不會(huì)包含太多的有用信息，比如一個(gè)IP地址，并不能知道被誰所有，或者用來做了什么事情；而包含在報(bào)告中的IOC則能夠與語義關(guān)聯(lián)起來，得知該IOC的出現(xiàn)場景 ?［37］ .通常一篇威脅情報(bào)會(huì)包含與其內(nèi)容相關(guān)的IOC信息，會(huì)出現(xiàn)在正文中，或以表格、附頁形式羅列出來.但隨著網(wǎng)絡(luò)用戶大量增加，威脅情報(bào)數(shù)量日益增多，威脅情報(bào)格式多種多樣，不同團(tuán)隊(duì)、組織發(fā)布的威脅情報(bào)格式各異，沒有統(tǒng)一的規(guī)范.威脅情報(bào)中包含IOC的數(shù)量、IOC信息出現(xiàn)的位置都大不相同，所以如何快速、自動(dòng)化地從中抽取IOC信息，是一個(gè)非常有價(jià)值的研究內(nèi)容.圖3是美國著名安全公司FireEye提出的IOC痛苦金字塔模型，其從提取分析的困難程度從下往上由簡至難對(duì)IOC進(jìn)行了分類.

3.2 TTPs

技戰(zhàn)術(shù)（TTPs）是從軍事術(shù)語衍生而來的三個(gè)不同級(jí)別的網(wǎng)絡(luò)攻擊活動(dòng)，是對(duì)攻擊者在目標(biāo)制定策略、攻擊手段、攻擊過程等方面的詳細(xì)描述，同時(shí)也是威脅行為畫像體系的重要內(nèi)容 ?［39］ .戰(zhàn)術(shù)（Tactic）是攻擊背后的總體目標(biāo)以及攻擊者實(shí)施攻擊所遵循的一般策略，是對(duì)攻擊行為的最高級(jí)別描述；技術(shù)（Technique）是對(duì)攻擊者在特定戰(zhàn)術(shù)背景之下的行為的進(jìn)一步描述，是攻擊者用于實(shí)施攻擊的具體方法，例如數(shù)據(jù)竊取、跨站腳本攻擊等；過程（Procedures）是對(duì)技術(shù)上下文中的活動(dòng)的更詳細(xì)、更底層的逐步描述，包括用于策劃攻擊的工具和方法.TTP的結(jié)構(gòu)允許分析人員組織哪些對(duì)抗行為屬于與特定技術(shù)和策略相關(guān)的特定程序，并幫助分析人員了解攻擊者可能試圖實(shí)現(xiàn)的目標(biāo)以及如何更好地進(jìn)行防御 ?［40］ .

ATT&CK框架是MITRE實(shí)驗(yàn)室基于TTPs構(gòu)建的攻擊描述框架，如圖4所示.其站在攻擊者視角描述了攻擊過程各階段所用到的技戰(zhàn)術(shù).TTPs分析可以幫助安全研究人員將攻擊與已知的黑客或威脅組織關(guān)聯(lián)起來，集中調(diào)查攻擊路徑、識(shí)別威脅源頭和攻擊媒介、定義威脅的嚴(yán)重性.通過識(shí)別攻擊者及其組織，安全研究人員能夠確定與其他攻擊者可能存在的關(guān)系，還可以幫助識(shí)別新出現(xiàn)的威脅、預(yù)測即將到來的攻擊并制定對(duì)策，提高防御系統(tǒng)對(duì)網(wǎng)絡(luò)攻擊態(tài)勢的感知能力 ?［41］ .

3.3 威脅主體

威脅主體（Cyber Threat Actor）指發(fā)起或可能發(fā)起網(wǎng)絡(luò)攻擊的個(gè)人或組織 ?［42］，是威脅情報(bào)中一個(gè)關(guān)鍵的組成部分.威脅主體有很多類型，具有不同的屬性、動(dòng)機(jī)、技能水平和攻擊手段.了解和分析不同類型的威脅主體及其動(dòng)機(jī)能夠幫助組織更好地制定網(wǎng)絡(luò)安全策略，保護(hù)自身免受侵害和損失.

威脅主體在威脅情報(bào)中的內(nèi)容通常包括以下幾個(gè)方面 ?［43］：（1）主體類型：威脅主體可以是個(gè)人黑客，也可以是犯罪團(tuán)伙、恐怖組織或國家支持的黑客組織.了解威脅主體的類型可以幫助組織理解其可能的動(dòng)機(jī)和能力.（2）動(dòng)機(jī)：威脅主體的動(dòng)機(jī)可能包括金錢、政治、意識(shí)形態(tài)、競爭優(yōu)勢等.了解威脅主體的動(dòng)機(jī)可以幫助預(yù)測其可能的目標(biāo)和攻擊方式.（3）能力：這包括威脅主體的技術(shù)能力（例如，他們是否具有執(zhí)行APT攻擊的能力）和資源（例如，他們是否有足夠的資金和人力來執(zhí)行大規(guī)模的攻擊）.（4）行為模式：這包括威脅主體通常使用的攻擊技術(shù)、他們的攻擊頻率、他們是否有特定的目標(biāo)或行業(yè)偏好等.（5）歷史記錄：威脅主體過去的行為，包括他們發(fā)起的攻擊類型、成功的攻擊、攻擊目標(biāo)、他們?nèi)绾芜m應(yīng)和發(fā)展他們的技術(shù)和戰(zhàn)略等.（6）關(guān)聯(lián)信息：威脅主體可能與其他威脅主體或惡意軟件有關(guān)聯(lián)，了解這些關(guān)聯(lián)可以幫助更好地理解威脅情景.

3.4 復(fù)雜威脅關(guān)系

威脅情報(bào)不僅包含了IOC、TTP等威脅實(shí)體，還包含了威脅主體與威脅實(shí)體之間、及不同威脅實(shí)體相互之間的關(guān)聯(lián).對(duì)多種不同的威脅關(guān)系信息進(jìn)行梳理分析，可以幫助組織直觀地理解威脅主體的行為模式，進(jìn)而更有效地預(yù)測威脅，制定防御策略.

威脅關(guān)系通常包括以下幾個(gè)方面：（1）威脅主體與攻擊工具的關(guān)系：這包括威脅主體通常使用的攻擊工具和技術(shù)，例如惡意軟件、釣魚郵件和零日漏洞等.（2）威脅主體與攻擊目標(biāo)的關(guān)系：這包括威脅主體的目標(biāo)選擇，例如他們是否傾向于攻擊特定的行業(yè)或組織，或者他們是否有特定的地理或政治目標(biāo). （3）威脅主體與其他威脅主體的關(guān)系：這包括威脅主體之間的合作或競爭關(guān)系，例如他們是否屬于同一個(gè)犯罪網(wǎng)絡(luò)，或者他們是否在某些攻擊中合作.（4）威脅主體與其歷史行為的關(guān)系：這包括威脅主體過去的攻擊行為，例如他們過去使用的攻擊技術(shù)，他們的攻擊頻率，以及他們的攻擊成功率.（5）威脅主體與其環(huán)境的關(guān)系：這包括威脅主體的地理位置、政治環(huán)境和技術(shù)環(huán)境等，這些因素可能影響他們的攻擊策略和目標(biāo).（6）攻擊手段與目標(biāo)之間的關(guān)系：包括哪些攻擊手段更可能針對(duì)哪些目標(biāo)，或者某類目標(biāo)是否更容易受到某種攻擊手段的攻擊.圖5給出了多個(gè)威脅實(shí)體之間具體的關(guān)系結(jié)構(gòu).

4 網(wǎng)絡(luò)威脅情報(bào)處理技術(shù)

4.1 IOC抽取

目前針對(duì)IOC自動(dòng)提取這個(gè)特定領(lǐng)域的研究并不多，最初采用的方法為基于規(guī)則的提取.基于規(guī)則的方法是針對(duì)已有的IOC數(shù)據(jù)進(jìn)行分類，并對(duì)每一類數(shù)據(jù)根據(jù)存在的樣本提取其中的特征，編寫特定的正則表達(dá)式，用于識(shí)別和定位威脅情報(bào)文本中的實(shí)體特征.該方法的優(yōu)點(diǎn)是規(guī)則制定快，抽取效率高，但規(guī)則需要人為制定，容易以偏概全，規(guī)則的全面性直接決定了提取效果的優(yōu)劣，同時(shí)還存在假陽性問題.

目前基于規(guī)則的開源抽取方法有很多，如Chris Morrow的python-IOCextract ?［45］，Stephen Brannon的IOCextractor ?［46］等，雖然能夠識(shí)別部分混淆，但對(duì)于現(xiàn)在的網(wǎng)絡(luò)環(huán)境來說，魯棒性依然不夠，也無法解決假陽性問題.規(guī)則制定依賴于語言且可擴(kuò)展性很差，難以適應(yīng)變化.隨著規(guī)則數(shù)量和情報(bào)數(shù)據(jù)復(fù)雜性的增加，該方法的準(zhǔn)確性和效率難以達(dá)到理想效果 ?［47］ .

隨著自然語言處理技術(shù)的成熟和對(duì)自動(dòng)化提取的日漸重視，基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的命名實(shí)體識(shí)別NER得到了進(jìn)一步發(fā)展應(yīng)用 ?［48］ .現(xiàn)有的較為主流的NER檢測方法一般是建立在以BIO標(biāo)注法及其變種劃分的數(shù)據(jù)集的基礎(chǔ)上的全監(jiān)督學(xué)習(xí)方法.其核心方法圍繞隱馬爾科夫模型、支持向量機(jī)、決策樹、最大熵模型、CRF ?［49］、CNN ?［50，51］和RNN ?［52，53］ .

IOC提取的應(yīng)用十分常見，例如大型組織收到帶附件的電子郵件，需對(duì)其附件進(jìn)行安全分析以確保不包含惡意內(nèi)容.首先可以使用基于規(guī)則的方法匹配附件文本，提取出可能的IP、域名等；針對(duì)文件哈希，則可以使用機(jī)器學(xué)習(xí)模型，對(duì)其是否為惡意文件進(jìn)行檢測.

Yi等 ?［54］將基于規(guī)則的方法與CRF模型相結(jié)合，首先使用規(guī)則和字典進(jìn)行安全實(shí)體匹配，協(xié)助CRF模型結(jié)合上下文信息進(jìn)一步提高識(shí)別性能.

Huang等 ?［55］首次將Bi-LSTM-CRF模型用于序列標(biāo)注，將最后一層LSTM的輸出去預(yù)測標(biāo)簽分類，能夠關(guān)注前后時(shí)序信息，再通過CRF計(jì)算最大概率序列，該模型已經(jīng)成為NER領(lǐng)域的Base Line.之后Ma等 ?［56］使用CNN提取字符集特征，提出了Bi-LSTM-CNNS-CRF.

Zhou等 ?［57］首次將端到端的神經(jīng)序列標(biāo)記應(yīng)用于自動(dòng)化IOC識(shí)別任務(wù)，提出一個(gè)基于Bi-LSTM和條件隨機(jī)場的模型，利用注意力機(jī)制對(duì)每個(gè)token的重要性進(jìn)行度量，在報(bào)告中包含大量沒有上下文的IOC的情況下，幫助LSTM對(duì)輸入的序列進(jìn)行準(zhǔn)確編碼，并在模型中引入一些拼寫特征，使得模型在使用非常少的訓(xùn)練數(shù)據(jù)的情況下依然能表現(xiàn)良好，并能夠識(shí)別出低頻IOC，平均準(zhǔn)確率為90.4%.該模型的缺點(diǎn)是使用手工拼寫特征，很容易錯(cuò)誤提取出類似IOC但不具有惡意的token導(dǎo)致較高的誤報(bào)率，而沒有引入上下文特征來解決這一問題.

注意力機(jī)制對(duì)于不同信息賦予不同權(quán)重，從而能夠篩選出重要的信息.Attention的思想很早就被提出，最早因Google Mind團(tuán)隊(duì)將其用于圖像分類 ?［58］而受到關(guān)注.Bahdanau等 ?［59］將注意力機(jī)制用于機(jī)器翻譯，是在NLP領(lǐng)域的首次應(yīng)用.在Vaswani等 ?［60］提出Transformer架構(gòu)之后，注意力機(jī)制和自注意力機(jī)制逐漸融入、代替了LSTM的功能，成為自然語言處理的主流方法.此后Zhao等 ?［61］提出了一種基于多粒度注意力的IOC識(shí)別模塊.在傳統(tǒng)的Bi-LSTM-CRF的模型上綜合使用char-level， 1-gram， 2-gram和3-gram的新詞嵌入特征來捕獲不同大小的IOC特征，提高了IOC提取的準(zhǔn)確性；然后使用異構(gòu)信息網(wǎng)絡(luò)對(duì)IOC之間的相互依賴關(guān)系進(jìn)行建模，利用句法依賴解析器 ?［62］從威脅描述中提取IOC之間的關(guān)系，并使用基于權(quán)重學(xué)習(xí)的相似性度量，最后利用經(jīng)典的GCN來呈現(xiàn)兩個(gè)IOC之間的關(guān)系，從而更好地探索上下文.該研究能夠挖掘隱藏在IOC相互依賴的關(guān)系中威脅對(duì)象分類、威脅類型匹配等高級(jí)安全知識(shí).

針對(duì)Zhou等 ?［57］所提模型存在誤報(bào)率高的問題，Long等 ?［63］在其工作基礎(chǔ)上進(jìn)行了擴(kuò)展，進(jìn)一步引入了多頭自注意力模塊和上下文特征.多頭自注意力模塊能夠自適應(yīng)地增強(qiáng)每個(gè)單詞與其他單詞的信息的嵌入，使得卷積執(zhí)行的局部文本能夠攜帶全局信息.該模型輸入更多token特征，包括拼寫特征和上下文特征，能夠提高在有限數(shù)量數(shù)據(jù)集上的性能.該模型在英文測試集上的平均準(zhǔn)確率達(dá)93.1%，在中文測試集上的平均準(zhǔn)確率為82.9%.

考慮到將不同數(shù)據(jù)源相結(jié)合以提高IOC檢測精度的問題，Zhu等 ?［64］將情報(bào)與現(xiàn)場收集的測量數(shù)據(jù)聯(lián)系起來，對(duì)威脅態(tài)勢進(jìn)行分析.模型使用NLTK庫結(jié)合Stanford CoreNLP模型 ?［65］解析單詞之間的語法關(guān)系，確定哪些單詞與IOC候選詞直接相關(guān)；使用基于依賴關(guān)系的Word2Vec計(jì)算語義相似度，作為特征輸入到IOC分類器中，確定輸入的單詞是否是IOC及其所屬的活動(dòng)階段.該模型在檢測IOC上達(dá)到了91.9%的精度，但在IOC分類工作上完成度不高，其用于判斷一個(gè)對(duì)象是否確實(shí)為IOC的特征采取較為有限，可能導(dǎo)致較高的誤報(bào)率；并且在分辨IOC所屬具體階段上較為模糊.該模型在分類活動(dòng)階段上的平均精度僅為78.2%.

基于Transformer架構(gòu)的Encoder網(wǎng)絡(luò)誕生了BERT ?［66］這一預(yù)訓(xùn)練網(wǎng)絡(luò).BERT使用深層的自注意力機(jī)制來預(yù)訓(xùn)練詞向量，來達(dá)到類似于Word2Vec ?［67，68］的詞嵌入效果，但是其表現(xiàn)遠(yuǎn)超Word2Vec.Liu等 ?［69］利用正則表達(dá)式和微調(diào)的BERT模型識(shí)別IOC，針對(duì)將IOC分類到對(duì)應(yīng)句子所處活動(dòng)階段的任務(wù)，設(shè)計(jì)了一個(gè)觸發(fā)增強(qiáng)的IOC分類模型：當(dāng)輸入未見過的句子時(shí)，使用最相似的觸發(fā)向量來增強(qiáng)句子中關(guān)鍵字的權(quán)重，從而提高分類性能，在活動(dòng)分類工作中的準(zhǔn)確率達(dá)86.55%.

為解決多義性和邊界模糊問題，Wang等 ?［70］實(shí)現(xiàn)了一個(gè)基于知識(shí)工程的IOC實(shí)體識(shí)別模型，通過構(gòu)建知識(shí)庫提高了實(shí)體識(shí)別的準(zhǔn)確性.該模型首先通過BERT模型獲取上下文相關(guān)的詞向量表示，再輸入到Bi-LSTM層與CRF層對(duì)詞序列進(jìn)行編碼和推理；最后按照實(shí)體特征類型，基于MITRE、Malware DB等開源網(wǎng)絡(luò)威脅知識(shí)庫構(gòu)建知識(shí)工程層，并基于最大匹配驗(yàn)證算法對(duì)CRF層輸出的標(biāo)簽預(yù)測進(jìn)行驗(yàn)證，對(duì)錯(cuò)誤的推理結(jié)果進(jìn)行修正，在威脅情報(bào)實(shí)體識(shí)別任務(wù)上的平均準(zhǔn)確率達(dá)到92.53%.

Fang等 ?［71］為克服傳統(tǒng)NER模型僅考慮局部依賴關(guān)系的問題，提出一種從圖形級(jí)別捕獲非局部和非順序依賴關(guān)系的GCN算法，幫助確定結(jié)構(gòu)復(fù)雜的新型實(shí)體詞語.該模型相比最流行的CNN-Bi-LSTM-CRF模型在性能上得到了顯著提升.

除了以上使用NER的方式，Liao等 ?［72］首先利用規(guī)則抽取所有待定IOC實(shí)體，提出將IOC候選詞與其上下文之間的語法連接分析轉(zhuǎn)換為圖形挖掘問題.該研究通過依存語法分析構(gòu)建語法樹，使用Stanford依賴解析器 ?［73］捕獲上下文術(shù)語與IOC之間的語義鏈接，并將句子轉(zhuǎn)換為依賴圖，然后使用圖挖掘技術(shù)直積核 ?［74］來測量兩個(gè)圖的相似性來判斷是否為IOC實(shí)體，鑒別假陽性.

4.2 TTPs分析

與IOC相比，TTPs更注重攻擊行為的描述與關(guān)聯(lián) ，抽取IOC的技術(shù)并不能完全適用于抽取TTPs的過程.從威脅情報(bào)入手的TTPs研究目前大多停留于對(duì)語句的分類和行為界定上 ?［75］ .對(duì)語句或文章的技戰(zhàn)術(shù)分類主要通過對(duì)原始文本的高度抽象并進(jìn)行表征 ?［76］，以形成能夠判斷文本主要核心內(nèi)容的嵌入式向量表達(dá).對(duì)于技戰(zhàn)術(shù)的實(shí)體抽取和關(guān)鍵信息的定位、清洗、結(jié)構(gòu)化等并無太多研究.同時(shí)，威脅情報(bào)的TTPs信息抽取也有諸多影響計(jì)算機(jī)識(shí)別準(zhǔn)確率的因素存在，其中主要包括如下限制：（1）標(biāo)準(zhǔn)多樣性：分析指標(biāo)多樣且快速迭代.例如ATT&CK標(biāo)準(zhǔn)就保證一年一大版本更新.因此僅有資深研究人員建立了對(duì)歷史版本的印象，能夠接納新版本并應(yīng)用到業(yè)務(wù)分析中；同時(shí)也不易存在對(duì)所有標(biāo)準(zhǔn)均認(rèn)知成熟的研究者.（2）發(fā)布多樣性：網(wǎng)絡(luò)威脅情報(bào)質(zhì)量格式多樣.披露網(wǎng)絡(luò)攻擊事件的組織有很多，發(fā)布的網(wǎng)絡(luò)威脅情報(bào)質(zhì)量和價(jià)值受人員從業(yè)經(jīng)驗(yàn)、發(fā)布規(guī)范、書寫習(xí)慣和商業(yè)價(jià)值等社區(qū)因素影響，很難規(guī)范.（3）描述多樣性：技戰(zhàn)術(shù)分析具有較高抽象性，漏洞描述、動(dòng)作描述、惡意代碼描述、組織描述和樣本描述都可能是技戰(zhàn)術(shù)的分析特征或入口.因此需要自動(dòng)化方法對(duì)其兼收并蓄.

機(jī)器學(xué)習(xí)存在的問題是無法深入處理語義信息，沒有充分考慮語義特征而可能導(dǎo)致無法準(zhǔn)確捕獲安全實(shí)體.對(duì)于沒有明顯結(jié)構(gòu)特征的實(shí)體，采用深度學(xué)習(xí)融合實(shí)體的結(jié)構(gòu)特征和語義特征自動(dòng)識(shí)別安全實(shí)體，能夠處理深層語義信息，有效地從情報(bào)中學(xué)習(xí)到有價(jià)值的表達(dá)和潛在關(guān)聯(lián)因素 ?［16］、改善語義實(shí)體之間關(guān)系抽取的有效性 ?［77］ .深度學(xué)習(xí)省去了特征構(gòu)建的工作量，且通過梯度傳播進(jìn)行訓(xùn)練，能夠構(gòu)建更復(fù)雜的網(wǎng)絡(luò)，解決更困難的深層語義信息提取任務(wù) ?［78］ .

在實(shí)際生產(chǎn)應(yīng)用場景中，例如組織內(nèi)部系統(tǒng)受到外部入侵，安全團(tuán)隊(duì)在分析時(shí)應(yīng)特別關(guān)注可能的TTPs以追溯攻擊者的行為，首先對(duì)系統(tǒng)日志文件進(jìn)行傳統(tǒng)的檢測，例如基于規(guī)則等方法；由于攻擊者通常采用復(fù)雜攻擊方法，需要深度學(xué)習(xí)對(duì)日志文件的深層文本特征和語義信息進(jìn)行更準(zhǔn)確的捕捉，從而識(shí)別出潛在的TTPs，如攻擊模式和入侵行為等，幫助更好地理解攻擊者的行為和意圖.

Husari等 ?［79］提出一種威脅-動(dòng)作本體用于描述網(wǎng)絡(luò)威脅的攻擊模式和技術(shù).該工作首先使用一個(gè)NLP工具 ?［80］識(shí)別和提取威脅動(dòng)作，然后構(gòu)建了一組正則表達(dá)式用于解析特殊術(shù)語，并映射到已知的攻擊模式和技術(shù)上，通過計(jì)算相似度得分對(duì)其進(jìn)行歸類.該模型在識(shí)別提取TTP上取得了84%的平均準(zhǔn)確率.

Ge等人 ?［81］在Husari等 ?［79］的工作基礎(chǔ)上，提出一種基于弱監(jiān)督關(guān)鍵信息評(píng)價(jià)模型.為確保所提取關(guān)鍵字的有效性，其采用了專家評(píng)估和置信度評(píng)估兩大方法對(duì)關(guān)鍵詞質(zhì)量進(jìn)行檢驗(yàn).該模型使用FastText ?［82］單詞嵌入表達(dá)式將文本轉(zhuǎn)換為連續(xù)分布的詞嵌入向量，通過評(píng)估關(guān)鍵詞向量空間和非關(guān)鍵詞向量空間的離群度和空間映射，使用注意力機(jī)制實(shí)現(xiàn)對(duì)語句核心語義的篩選.同時(shí)通過多層 n -gram的注意力實(shí)現(xiàn)對(duì)不同粒度語義的多重選擇，具有在技戰(zhàn)術(shù)分類問題上的可解釋性和效率上的優(yōu)勢.該模型提高了從全尺寸威脅情報(bào)和惡意軟件中提取TTP的能力.

針對(duì)非結(jié)構(gòu)化威脅數(shù)據(jù)中提取和分類TTP的任務(wù)，You等 ?［83］構(gòu)建了一個(gè)威脅上下文增強(qiáng)的TTP挖掘模型.該模型由元素特征提取和描述特征提取兩條路徑組成，將多種TTP元素出現(xiàn)的次數(shù)用矩陣表示，使用兩個(gè)CNN過濾器來提取矩陣中共現(xiàn)TTP的元素特征；對(duì)給定的描述文本使用Sentence-Bert ?［84］獲得句子嵌入向量，然后嵌入到Bi-LSTM層得到描述特征.該模型通過連接元素特征和描述特征，提高了TTP分類的準(zhǔn)確性，其平均分類準(zhǔn)確率為94.10%，相較于之前僅使用文本特征的方法具有更高的精度，且能夠在訓(xùn)練樣本很少的情況下仍然保持較好的效果.

Wu等 ?［85］則是圍繞電子商務(wù)的攻擊可能發(fā)生在購買的前中后時(shí)期，無法完全映射到傳統(tǒng)殺傷鏈的問題，構(gòu)建了一個(gè)TTP半自動(dòng)生成器.根據(jù)流行主題術(shù)語通常具有相似的語義和詞匯結(jié)構(gòu)的規(guī)律，設(shè)計(jì)了一組基于語法結(jié)構(gòu)的TTP實(shí)體識(shí)別規(guī)則，用于從非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)提取電子商務(wù)主題TTP實(shí)體，并將其轉(zhuǎn)換為STIX模式.該研究以80%的精確度鑒定了6042個(gè)TTP，為電子商務(wù)CTI研究提供了新的線索.

考慮到大多數(shù)TTP提取工作都忽略了TTP分層標(biāo)簽之間的相關(guān)性，Liu等 ?［86］圍繞TTP層次結(jié)構(gòu)之間的依賴性，提出一種基于注意力機(jī)制的變換器分層RNN模型.模型使用Word2Vec將CTI嵌入到向量矩陣，將ATT&CK的戰(zhàn)術(shù)-技術(shù)兩級(jí)結(jié)構(gòu)映射到矩陣以保留TTP分層標(biāo)簽之間的語義關(guān)系；然后在轉(zhuǎn)換層感知CTI的上下文語義信息；然后是一個(gè)注意力循環(huán)結(jié)構(gòu)，用于學(xué)習(xí)層次結(jié)構(gòu)中戰(zhàn)術(shù)和技術(shù)標(biāo)簽之間的依賴關(guān)系；最后構(gòu)建一個(gè)聯(lián)合分層分類模塊來預(yù)測最終的TTP，并在TTP提取的準(zhǔn)確性分別在Macro- F 1和Micro- F 1分?jǐn)?shù)上提高了8.2%和6.5%.

針對(duì)戰(zhàn)術(shù)與技術(shù)層次結(jié)構(gòu)導(dǎo)致性能下降的問題，Yu等 ?［87］對(duì)威脅情報(bào)中的戰(zhàn)術(shù)和技術(shù)進(jìn)行了分類，提出一個(gè)基于層次知識(shí)遷移和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型將戰(zhàn)術(shù)和技術(shù)分類分為前后兩個(gè)階段，首先采用FastText ?［82］詞嵌入方法將CTI文本轉(zhuǎn)換為二維圖像，然后使用CNN挖掘深層文本特征進(jìn)行戰(zhàn)術(shù)分類；在戰(zhàn)術(shù)分類訓(xùn)練完成之后，根據(jù)戰(zhàn)術(shù)與技術(shù)之間的特殊層次關(guān)系，通過對(duì)戰(zhàn)術(shù)分類過程中CNN層和注意力層的參數(shù)進(jìn)行轉(zhuǎn)換，完成戰(zhàn)術(shù)到技術(shù)的知識(shí)遷移并進(jìn)行技術(shù)的分類訓(xùn)練.

Ge等 ?［88］針對(duì)TTP分類缺乏必要且充分證據(jù)的問題，提出了一種可解釋TTP分類框架，能夠?yàn)殛P(guān)鍵證據(jù)提供準(zhǔn)確邊界，以證明TTP分類結(jié)果的合理性.該框架首先利用基于主題原型的關(guān)鍵字重要性過濾方法從CTI文本中提取證據(jù)，隨后使用基于CNN的鑒別器對(duì)證據(jù)集的元素進(jìn)行TTP分類，并使用各種基于案例的可解釋方法來衡量CTI證據(jù)的完整性.實(shí)驗(yàn)證明，該方法將Micro- F 1分?jǐn)?shù)提高了016%～6.63%，將Macro- F 1分?jǐn)?shù)提高了026%～6.85%.

4.3 威脅關(guān)系圖構(gòu)建

單獨(dú)的威脅實(shí)體無法提供足夠的信息，聯(lián)系其上下文進(jìn)行分析，并對(duì)實(shí)體之間的關(guān)系進(jìn)行提取和分析才能夠進(jìn)一步獲取更多有效知識(shí).威脅實(shí)體信息在情報(bào)中的分布通常較為隱蔽和分散，利用知識(shí)圖譜能夠集中組織威脅態(tài)勢的特點(diǎn)，可以較好地對(duì)威脅實(shí)體相關(guān)知識(shí)及實(shí)體間關(guān)系進(jìn)行分析和展示.

知識(shí)圖譜是一種視覺輔助工具，是由大量實(shí)體及其之間的關(guān)系組成的大規(guī)模知識(shí)庫，能夠?qū)?shí)體和關(guān)系的信息以圖形結(jié)構(gòu)的形式進(jìn)行組織 ?［89］ .如何從文本中提取出實(shí)體之間的關(guān)系是知識(shí)圖譜構(gòu)建的核心任務(wù).由于網(wǎng)絡(luò)攻擊過程存在多個(gè)階段并使用多種技術(shù)，很適合使用知識(shí)圖譜對(duì)整個(gè)攻擊過程進(jìn)行全面描繪并識(shí)別與其他攻擊的相似性.知識(shí)圖譜可以有效地組織和表示知識(shí)，使其進(jìn)一步得到有效利用 ?［90］ .將知識(shí)圖譜應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域，可以更好地組織管理和利用海量的網(wǎng)絡(luò)安全情報(bào)信息 ?［91］ .關(guān)系連接實(shí)體形成圖形結(jié)構(gòu).圖數(shù)據(jù)庫可以用于以三元組表達(dá)事實(shí)的存儲(chǔ)介質(zhì)，如NoSQL圖數(shù)據(jù)庫Neo4j ?［92］ .利用包括本體、信息提取和實(shí)體消歧在內(nèi)的知識(shí)圖譜構(gòu)建技術(shù)，知識(shí)圖譜能夠有效地提取和集成來自多源異構(gòu)數(shù)據(jù)的知識(shí)，對(duì)知識(shí)進(jìn)行結(jié)構(gòu)化的表達(dá)和可視化展示 ?［93］ .結(jié)合語義建模、查詢和推理技術(shù)網(wǎng)絡(luò)安全知識(shí)圖譜可以模仿安全專家的思維過程，根據(jù)現(xiàn)有事實(shí)的關(guān)系三元組和邏輯規(guī)則推導(dǎo)新知識(shí)或檢查數(shù)據(jù)一致性 ?［94］ . ??網(wǎng)絡(luò)安全知識(shí)圖譜使用本體作為知識(shí)表示的基礎(chǔ).本體是對(duì)共享概念系統(tǒng)的明確描述，本質(zhì)上是特定領(lǐng)域中一組概念及其關(guān)系的形式化表達(dá)，是知識(shí)圖譜中知識(shí)管理的核心，其研究成果為知識(shí)圖譜規(guī)范實(shí)體、關(guān)系以及類型、屬性等對(duì)象之間的關(guān)系提供了理論基礎(chǔ) ?［95］ .基于本體構(gòu)建的知識(shí)庫不僅具有強(qiáng)大的層次結(jié)構(gòu) ，而且冗余度極低.目前許多研究都集中在網(wǎng)絡(luò)安全本體的構(gòu)建上，構(gòu)建網(wǎng)絡(luò)安全本體，整合各種網(wǎng)絡(luò)安全數(shù)據(jù)資源，目的是有效地組織和利用知識(shí)并為網(wǎng)絡(luò)安全評(píng)估和分析提供支持 ?［96］ .針對(duì)不同的應(yīng)用場景，研發(fā)人員構(gòu)建了不同的本體，包括入侵檢測、計(jì)算節(jié)點(diǎn)可達(dá)矩陣等.Feng等 ?［97］關(guān)注Loc/ID分離網(wǎng)絡(luò)架構(gòu)，并對(duì)其原理、機(jī)制和特征進(jìn)行了相關(guān)綜合調(diào)查；Li等 ?［98］參考不同類型網(wǎng)絡(luò)攻擊的特點(diǎn)，在語義層面給出了詳細(xì)和規(guī)范的網(wǎng)絡(luò)安全本體構(gòu)建；Iannacone等 ?［99］提出了一個(gè)代表網(wǎng)絡(luò)安全領(lǐng)域的整體本體，旨在創(chuàng)建一種知識(shí)表示，以促進(jìn)來自各種結(jié)構(gòu)化和非結(jié)構(gòu)化來源的數(shù)據(jù)集成；Syed等 ?［100］提出了統(tǒng)一網(wǎng)絡(luò)安全本體（Unified Cybersecurity Ontolog，UCO），旨在支持網(wǎng)絡(luò)安全系統(tǒng)中的信息繼承和網(wǎng)絡(luò)態(tài)勢感知，集成來自不同系統(tǒng)的異構(gòu)數(shù)據(jù)，以及最常用的信息共享和交換網(wǎng)絡(luò)安全標(biāo)準(zhǔn).

對(duì)于大型企業(yè)或組織的安全團(tuán)隊(duì)，構(gòu)建威脅關(guān)系圖是幫助理解攻擊模式的重要手段.對(duì)于已經(jīng)收集到的威脅實(shí)體，借助圖數(shù)據(jù)庫等技術(shù)建立實(shí)體-關(guān)系結(jié)構(gòu)，能夠幫助揭示攻擊事件的整體流程，提供靈活的查詢與分析能力，幫助安全團(tuán)隊(duì)評(píng)估風(fēng)險(xiǎn)和制定決策.

Hooi等 ?［101］利用知識(shí)圖譜能夠集中組織威脅態(tài)勢的特點(diǎn)，以UCO為參考構(gòu)建了威脅主體本體，包括威脅主體、惡意軟件、目標(biāo)以及活動(dòng)等4種類型，然后訓(xùn)練CRF模型提取威脅主體相關(guān)的命名實(shí)體，并構(gòu)建為知識(shí)圖譜.

針對(duì)實(shí)體抽取常忽略攻擊圖和攻擊技術(shù)的缺陷，Li等 ?［102］基于知識(shí)圖譜技術(shù)訓(xùn)練了一個(gè)基于學(xué)習(xí)的命名實(shí)體識(shí)別模型AttacKG，結(jié)合開源工具EntityRuler來識(shí)別CTI報(bào)告中的實(shí)體；然后使用基于學(xué)習(xí)的自然語言解析模型提取實(shí)體和依賴關(guān)系并初始化一個(gè)攻擊圖；最后引入了技術(shù)知識(shí)圖的概念，使用基于從MITRE ATT&CK知識(shí)庫抓取的TTPs示例構(gòu)建的攻擊圖來初始化技術(shù)模版，并在Milajerdi等 ?［103］的工作基礎(chǔ)上改進(jìn)了圖對(duì)齊算法，將攻擊圖知識(shí)增強(qiáng)為技術(shù)知識(shí)圖，有效地從大量報(bào)告中聚合產(chǎn)生技術(shù)級(jí)別的威脅情報(bào)知識(shí)圖.

Guo等 ?［104］指出目前網(wǎng)絡(luò)安全概念實(shí)體和關(guān)系提取采用傳統(tǒng)的管道模型，存在錯(cuò)誤傳播問題并忽略了兩個(gè)子任務(wù)之間的聯(lián)系，提出了一種聯(lián)合提取的框架，通過建模多序列標(biāo)記問題，為不同關(guān)系聲稱單獨(dú)的標(biāo)簽序列，幫助構(gòu)建初步的知識(shí)圖譜.

Liu等 ?［105］強(qiáng)調(diào)了共指消解技術(shù)在知識(shí)融合中的重要性及其在網(wǎng)絡(luò)安全領(lǐng)域應(yīng)用的落后，對(duì)現(xiàn)有共指消解模型在網(wǎng)絡(luò)安全語料庫上的有效性進(jìn)行了研究，并提出了一種基于語義文本匹配的共指解析模型，使模型能夠區(qū)分不同實(shí)體類型之間的共指，從而更細(xì)粒度地運(yùn)行共指解析，幫助構(gòu)建全面、明確、低冗余的網(wǎng)絡(luò)安全知識(shí)圖譜.

5 挑戰(zhàn)與未來展望

5.1 模型可解釋性

從網(wǎng)絡(luò)追蹤溯源的角度出發(fā)，證據(jù)的可解釋性至關(guān)重要，但許多機(jī)器學(xué)習(xí)模型是黑盒模型，其內(nèi)部結(jié)構(gòu)和決策過程很難被理解.這使得模型的預(yù)測結(jié)果缺乏可信度和可解釋性，在實(shí)戰(zhàn)環(huán)境中缺乏可信的支撐能力 ?［106］ .模型可解釋性與模型性能之間存在一種權(quán)衡關(guān)系.一些復(fù)雜的模型在性能上表現(xiàn)出色，但其可解釋性較差.相反，一些簡單的模型可能更容易解釋，但性能可能不如復(fù)雜模型.因此，如何在可解釋性和性能之間找到平衡是一個(gè)挑戰(zhàn).另外，模型可解釋性還涉及到不同的利益相關(guān)者之間的需求和期望.不同的用戶可能對(duì)模型的解釋性有不同的要求.例如，研究人員可能需要詳細(xì)的模型內(nèi)部信息，而終端用戶可能更關(guān)注模型預(yù)測結(jié)果的可解釋性.因此，如何滿足不同用戶的需求，提供適當(dāng)?shù)慕忉尯徒忉尲?jí)別也是一個(gè)挑戰(zhàn).

5.2 模型的自適應(yīng)性

模型自適應(yīng)指模型能夠根據(jù)環(huán)境或其他條件變化所反饋的信息，自動(dòng)調(diào)整結(jié)構(gòu)和參數(shù)以適應(yīng)變化 ?［107］ .現(xiàn)代網(wǎng)絡(luò)攻擊手段持續(xù)演進(jìn)升級(jí)，ATT&CK框架平均3～6個(gè)月更新一次，網(wǎng)絡(luò)威脅知識(shí)更新迭代之快、威脅情報(bào)數(shù)據(jù)源之復(fù)雜，使得處理模型必須不斷吸收新的知識(shí)以跟上威脅變化的速度，發(fā)揮防御效能.

威脅情報(bào)處理模型需要增強(qiáng)自適應(yīng)能力，在出現(xiàn)新的威脅知識(shí)時(shí)能夠盡快適應(yīng)新任務(wù)，迅速學(xué)習(xí)新的攻擊類別.提升模型的自適應(yīng)能力一方面能夠提高模型的性能，另一方面能針對(duì)不同的學(xué)習(xí)任務(wù)滿足需求.如何將加強(qiáng)模型的自適應(yīng)性，加強(qiáng)對(duì)于層出不窮的IOC與TTPs、快速更新的威脅手段與情報(bào)知識(shí)的學(xué)習(xí)和識(shí)別能力，增強(qiáng)魯棒性與有效性，是十分有價(jià)值的研究方向.

5.3 威脅情報(bào)共享

威脅情報(bào)的有效共享是網(wǎng)絡(luò)威脅檢測和預(yù)防的另一大核心.威脅情報(bào)共享的核心思想是通過共享有關(guān)最新威脅和漏洞的信息，在利益相關(guān)者之間建立態(tài)勢感知，并幫助迅速采取措施.威脅情報(bào)來源和格式的數(shù)量都十分龐大，目前已經(jīng)引入了STIX、TAXII和CybOX等結(jié)構(gòu)化標(biāo)準(zhǔn)以提供共享網(wǎng)絡(luò)威脅情報(bào)的通用方法，但根據(jù)研究資料表明，這些標(biāo)準(zhǔn)的使用并不廣泛，而且常常出現(xiàn)執(zhí)行不力的情況 ?［108］ .

溯源圖是幫助威脅情報(bào)共享的另一種方式.溯源圖是知識(shí)圖譜在刻畫攻擊事件場景領(lǐng)域的應(yīng)用，能夠幫助不同組織之間共享關(guān)于高級(jí)威脅行為體的信息.通過分享溯源圖，安全團(tuán)隊(duì)可以傳遞有關(guān)特定威脅行為體的詳細(xì)信息，包括攻擊路徑、關(guān)聯(lián)的攻擊活動(dòng)和使用的工具等 ?［109］ .這種威脅情報(bào)共享的方式可以加強(qiáng)協(xié)作，提高整個(gè)安全社區(qū)對(duì)高級(jí)威脅行為體的認(rèn)知和應(yīng)對(duì)能力 ?［110］，是一個(gè)值得深入研究的方向.

此外，目前廣泛使用的交換信息的方法是手動(dòng)共享，即在已經(jīng)存在信任關(guān)系的情況下，利益相關(guān)者之間互相共享，或通過信息共享與分析中心（ISAC）等受信任的團(tuán)體進(jìn)行共享.手動(dòng)共享存在著速度緩慢、人為失誤和主觀因素過濾等問題 ?［111］ .因此，共享過程自動(dòng)化是目前一個(gè)亟待解決的重要問題.由于不同國家和組織之間政治、法律、文化和語言等因素的差異，使得情報(bào)共享面臨著相當(dāng)?shù)奶魬?zhàn).未來想要建立起高效的威脅情報(bào)共享協(xié)作，需要安全專家、技術(shù)人員以及政府組織等各界人士的努力協(xié)調(diào)與配合.

5.4 大語言模型處理

大語言模型是自然語言處理的最新進(jìn)展結(jié)果，其基于大規(guī)模語料庫使用大量參數(shù)進(jìn)行標(biāo)記和訓(xùn)練，具有強(qiáng)大的理解和生成文本能力 ?［112］ .傳統(tǒng)的威脅情報(bào)處理模式中，常需要耗費(fèi)大量人力進(jìn)行數(shù)據(jù)清洗和分析，存在自動(dòng)化程度低、知識(shí)價(jià)值利用率低、專家經(jīng)驗(yàn)難以復(fù)制等問題.而大語言模型則是突破這些瓶頸的技術(shù)關(guān)鍵.隨著GPT的出現(xiàn)與發(fā)展，大語言模型與網(wǎng)絡(luò)安全的應(yīng)用結(jié)合有了更多探索空間.經(jīng)過海量參數(shù)建模調(diào)優(yōu)的大語言模型能夠在威脅情報(bào)處理上極大減少人工勞動(dòng)并提升分析效果，解決傳統(tǒng)處理過程存在的問題；經(jīng)過智能問答訓(xùn)練的模型能夠落地為安全助手，讓缺乏豐富經(jīng)驗(yàn)的一般安全人員也能夠執(zhí)行專業(yè)分析.大語言模型將能夠在智能化威脅情報(bào)分析的基礎(chǔ)上，為安全人員提供決策和響應(yīng)上有價(jià)值的支撐，提升網(wǎng)絡(luò)安全防御效能.

6 結(jié) 語

隨著網(wǎng)絡(luò)威脅情報(bào)的價(jià)值受到更多關(guān)注和重視，越來越多的精力被投入到對(duì)威脅情報(bào)處理分析的研究之中.本文對(duì)威脅情報(bào)提供的關(guān)鍵知識(shí)進(jìn)行了總結(jié)，對(duì)獲取不同知識(shí)的威脅情報(bào)處理技術(shù)進(jìn)行了詳細(xì)調(diào)研和介紹.基于深度學(xué)習(xí)的NER和知識(shí)圖譜作為關(guān)鍵技術(shù)，提高了情報(bào)分析的有效性.深度學(xué)習(xí)能夠幫助分析情報(bào)文本的深層語義，知識(shí)圖譜則能夠直觀展示實(shí)體關(guān)系的結(jié)構(gòu)，有助于威脅知識(shí)理解與共享.最后討論了威脅情報(bào)處理面臨的挑戰(zhàn)，指出在模型可解釋性、自適應(yīng)性、情報(bào)共享和處理效率上存在的問題，并提出可能的研究方向，希望能夠推動(dòng)該領(lǐng)域的不斷發(fā)展與進(jìn)步.

參考文獻(xiàn)：

［1］ ??Aslan ， ?Aktu g ??ˇ ?S S， Ozkan-Okay M， ?et al . A comprehensive review of cyber security vulnerabilities， threats， attacks， and solutions［J］. Electronics，2023， 12： 1333.

［2］ ?ArcticWolf. ?A brief history of cybercrime［EB/OL］.［2022-11-16］.https：//arcticwolf.com/resources/blog/decade-of-cybercrime/.

［3］ ?Britannica."Stuxnet".［EB/OL］.［2022-12-13］.https：//www.britannica.com/technology/Stuxnet.

［4］ ?奇安信威脅情報(bào)中心.全球高級(jí)持續(xù)性威脅（APT）2023年中報(bào)告［EB/OL］.［2023-07-12］.https：//ti.qianxin.com/uploads/2023/07/20/fcd50f2540db9ca 6fb91b192c0fe2a4c.pdf.

［5］ ?360天眼實(shí)驗(yàn)室. 數(shù)字海洋的游獵者［EB/OL］.［2023-05-27］.https：//apt.360.net/report/apts/1.html.

［6］ ?360天眼實(shí)驗(yàn)室.蔓靈花攻擊行動(dòng) ［EB/OL］.［2023-05-01］.https：//apt.360.net/report/apts/5.html.

［7］ ?趙慧.宏碁電腦遭勒索攻擊，贖金3.25億元?jiǎng)?chuàng)下最高紀(jì)錄［EB/OL］.［2022-12-27］.http：//xxhjsc.jsou.edu.cn/2022/1227/c6906a136824/page.htm.

［8］ ?國家計(jì)算機(jī)病毒應(yīng)急處理中心.西北工業(yè)大學(xué)遭美國NSA網(wǎng)絡(luò)攻擊事件調(diào)查報(bào)告（之一）［EB/OL］.［2022-09-05］.https：//www.cverc.org.cn/head/zhaiyao/news20220905-NPU.htm.

［9］ ?Mary ?Whitfill Roeloffs.MOVEitcyber attack：personal data of millions stolen from oregon， Louisiana，U.S.Agency［EB/OL］.［2023-06-16］.https：//www.forbes.com/sites/maryroeloffs/2023/06/16/moveit-cyber-attack-personal-data-of-millions-stolen-from-oregon-louisiana-us-agency/.

［10］ ?Gartner. ?Marketguide for security threat intelligence services ［R/OL］.［2023-05-14］.https：//www.gartner.com/en/documents/2874317.

［11］ Zhou ?Y，Tang Y，Yi M， et al . CTI view： APT threat intelligence analysis system ［J］. Secur Commun Netw， 2022， 2022： 1.

［12］ Tang B H， Wang J F， Yu Z， ?et al . Advanced persistent threat intelligent profiling technique： a survey ［J］. Comput Electr Eng， 2022， 103： 108261.

［13］ Brown R， Stirparo P. SANS 2022 cyber threat intelligence survey ［R/OL］.［2023-02-23］.https：//www.sans. org/white-papers/sans-2022-cyber-threat- ??intelligence-survey/.

［14］ Baker ?K.What is cyber threat Intelligence［EB/OL］.［2023-03-23］.https：//www.crowdstrike.com/cybersecurity-101/threat-intelligence/.

［15］ Cascavilla G，Tamburri D A，Van Den Heuvel W J. Cybercrime threat intelligence： a systematic multi-vocal literature review［J］. Comput Secur，2021，105： 102258.

［16］ Sun N， Ding M， Jiang J， ?et al . Cyber threat intelligence mining for proactive cybersecurity defense： a survey and new perspectives［J］. IEEE Commun Surv ?Tut， 2023， 25： 1748.

［17］崔琳，楊黎斌，何清林，等.基于開源信息平臺(tái)的威脅情報(bào)挖掘綜述［J］.信息安全學(xué)報(bào)， 2022， 7： 1.

［18］ McMillan ?R. Definition： threat intelligence［EB/OL］. ［2023-05-16］.https：//www.gartner.com/en/documents/2487216.

［19］ Dalziel H. How to define and build an effective cyber threat intelligence capability ［M］.Boca Raton：Syngress， 2014.

［20］ Shackleford D. Whos using cyberthreat intelligence and how ［R/OL］.［2023-02-17］.https：//cdn-cybersecurity.att.com/docs/SANS-Cyber-Threat-Intelligence-Survey-2015.pdf.

［21］ Tounsi W， Rais H. A survey on technical threat intelligence in the age of sophisticated cyber attacks［J］. Comput ?Secur， 2018， ?72： 212.

［22］ Schlette ?D，Caselli M，Pernul G. A comparative study on cyber threat intelligence： the security incident response perspective ［J］. IEEE Commun Surv Tut， 2021， 23： 2525.

［23］ Bromiley M. Threat intelligence：what it is， and how to use it effectively ［EB/OL］.［2023-05-20］.https：//www.sans.org/webcasts/threat-intelligence-is-effectively-102622/.

［24］ Brown S， Gommers J， Serrano O. From cyber security information sharing to threat management ［C］//Proceedings of the 2nd ACM Workshop on Information Sharing and Collaborative Security.Denver： Association for Computing Machinery， 2015： ??43.

［25］ Yuzuka A.Thethreat intelligence lifecycle：a definitive guide for 2023 ［EB/OL］.［2023-06-22］.https：//flareio/learn/resources/blog/threat-intelligence-lifecycle/.

［26］ Ali A M， Angelov P. Anomalous behaviour detection based on heterogeneous data and data fusion［J］.Soft Comput， 2018， 22： 3187.

［27］ Yeboah-Ofori A， Islam S， Yeboah-Boateng E. Cyber threat intelligence for improving cyber supply chain security ［C］//Proceedings of the 2019 International Conference on Cyber Security and Internet of Things （ICSIoT）.Accra： IEEE， 2019： 28.

［28］ Abu ?M S，Selamat S R，Ariffin A， et al . Cyber threat intelligence-issue and challenges ［J］. Ind J Elect ?Eng ?Comput ?Sci， 2018， ?10： ?371.

［29］ Sauerwein ?C， Sillaber C， Mussmann A， ?et al . Threat intelligence sharing platforms： an exploratory study of software vendors and research perspectives ［EB/OL］.［2023-02-12］.https：//aisel.aisnet.org/wi2017/track08/.

［30］ Boeke S， van de BDP J. Cyber threat intelligence—from confusion to clarity; an investigation into cyber ?threat intelligence ［EB/OL］.［2023-01-20］.https：//studenttheses.universiteitleiden.nl/handle/1887/ ?64551.

［31］ Gao P， Shao F， Liu X， ?et al . Enabling efficient cyber threat hunting with cyber threat intelligence［C］//Proceedings of the 2021 IEEE 37th International Conference on Data Engineering （ICDE）. Chania： IEEE， 2021： 193.

［32］ Koloveas P， Chantzios T， Alevizopoulou S， ?et al . intime： a machine learning-based framework for gathering and leveraging web data to cyber-threat intelligence ［J］. Electronics， 2021， 10： 818.

［33］ Conti ?M， Dargahi T， Dehghantanha A. Cyber threat intelligence： challenges and opportunities ［M］.London： Springer International Publishing， ??2018.

［34］ Sukhabogi S. Atheoretical review on the importance of threat intelligence sharing & the challenges intricated ［J］. Turk ?J Comput Math ?Educ，2021，12： 3950.

［35］ Nunes ?E， Diab A， Gunn A， ?et al . Darknet and deepnet mining for proactive cybersecurity threat intelligence ［C］//Proceedings of the 2016 IEEE Conference on Intelligence and Security Informatics （ISI）.Tucson： IEEE， 2016： 7.

［36］ Johnson C， Badger L， Waltermire D， ?et al . Guide to cyber threat information sharing［EB/OL］.［2022-10-04］.https：//csrc.nist.gov/pubs/sp/800/150/final.

［37］ Tatam M， Shanmugam B， Azam S， ?et al . A review of threat modelling approaches for APT-style attacks ［EB/OL］.［2023-01-16］.https：//pubmed.ncbi.nlm.nih.gov/33506133/.

［38］ CrowdStrike. Indicators of compromise security ?［EB/OL］.［2022-10-05］.https：//www.crowdstrike.com/cybersecurity-101/indicators-of-compromise/.

［39］ Bahrami P N， Dehghantanha A， Dargahi T， ?et al . Cyber kill chain-based taxonomy of advanced persistent threat actors： Analogy of tactics， techniques， and procedures ［J］. JIPS， 2019， 15： 865.

［40］ Al-Shaer R，Spring J M，Christou E. Learning the associations of mitre att & ck adversarial techniques［C］//2020 IEEE Conference on Communications and Network Security. ［S.l.］：IEEE， 2020： 1.

［41］于忠坤，王俊峰，唐賓徽，等.基于注意力機(jī)制和特征融合的網(wǎng)絡(luò)威脅情報(bào)技戰(zhàn)術(shù)分類研究［J］.四川大學(xué)學(xué)報(bào)：自然科學(xué)版， 2022， 59： 053003.

［42］ IBM. What is a threat actor ［EB/OL］.［2023-06-27］.https：//www.ibm.com/topics/threat-actor.

［43］ Lemay A， Calvet J， Menet F， ?et al . Survey of publicly available reports on advanced persistent threat actors ［J］. Comput Secur， ?2018， 72： 26.

［44］范淵.網(wǎng)絡(luò)安全運(yùn)營服務(wù)能力指南［M］.北京：電子工業(yè)出版社， 2022.

［45］ Chris ?Morrow．InQuest/python-iocextract［DB/OL］．［2023-06-27］.https：//github.com/InQuest/python-iocextract.

［46］ Stephen ?Brannon．stephenbrannon/IOCextractor［DB/OL］.［2023-06-27］.https：//github.com/stephenbrannon/IOCextractor.

［47］劉瀏，王東波.命名實(shí)體識(shí)別研究綜述［J］.情報(bào)學(xué)報(bào)， 2018， 37： 329.

［48］陳曙東，歐陽小葉. 命名實(shí)體識(shí)別技術(shù)綜述［J］. 無線電通信技術(shù)， 2020， 46： 251.

［49］ Huang Z， Xu W， Yu K. Bidirectional LSTM-CRF models for sequence tagging ［EB/OL］.［2022-08-09］.https：//arxiv.org/abs/1508.01991.

［50］ Strubell E， Verga P， Belanger D， ?et al . Fast and accurate entity recognition with iterated dilated convolutions ［EB/OL］.［2023-02-07］.https：//arxiv.org/abs/1702.02098.

［51］ Wang X， Guan Z， Xin W， ?et al . Multi-type source code defect detection based on TextCNN ［C］//Proceedings of the 3rd International Conference on Frontiers in Cyber Security. Singapore： Springer Singapore， 2020： 95.

［52］ Lin Y， Liu L， Ji H， ?et al . Reliability-aware dynamic feature composition for name tagging ［C］//Proceedings of the 57th annual meeting of the association for computational linguistics.Florence：Association for Computational Linguistics， 2019： 165.

［53］ Wang R， Li Z， Cao J， ?et al . Convolutional recurrent neural networks for text classification ［C］//Proceedings of the 2019 International Joint Conference on Neural Networks. Budapest：IEEE，2019： 1.

［54］ Yi F， Jiang B， Wang L， ?et al . Cybersecurity named entity recognition using multi-modal ensemble learning ［J］. IEEE Access， 2020， 8： ?63214.

［55］ Huang Z， Xu W， Yu K. Bidirectional LSTM-CRF models for sequence tagging［EB/OL］.［2022-08-09］.https：//arxiv.org/abs/1508.01991.

［56］ Ma X， Hovy E.End-to-end sequence labeling via bi-directional lstm-cnns-crf［EB/OL］.［2023-05-29］.https：//arxiv.org/abs/1603.01354.

［57］ Zhou S， Long Z， Tan L， ?et al . Automatic identification of indicators of compromise using neural-based sequence labelling ［EB/OL］.［2022-10-24］.https：//arxiv.org/abs/1810.10156.

［58］ Mnih ?V， Heess N， Graves A， ?et al . Recurrent models of visual attention［EB/OL］.［2022-12-08］.https：//arxiv.org/abs/1406.6247.

［59］ Bahdanau ?D，Cho K，Bengio Y. Neural machine translation by jointly learning to align and translate［EB/OL］.［2022-09-01］.https：//arxiv.org/abs/1409.0473.

［60］ Vaswani A， Shazeer N， Parmar N， ?et al . Attention is all you need ［EB/OL］.［2022-12-04］.https：//arxiv.org/abs/1706.03762.

［61］ Zhao J， Yan Q， Liu X， ?et al . Cyber threat intelligence modeling based on heterogeneous graph convolutional network ［C］//Proceedings of the 23rd International Symposium on Research in Attacks，Intrusions and Defenses.San Sebastian：［s.n.］，2020： 241.

［62］ Chen D， Manning C D. A fast and accurate dependency parser using neural networks ［C］//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Orlando：Association for Computational Linguistics， 2014： 740.

［63］ Long Z， Tan L， Zhou S， ?et al . Collecting indicators of compromise from unstructured text of cybersecurity articles using neural-based sequence labelling［C］//Proceedings of the 2019 International Joint Conference on Neural Networks. Budapest： IEEE， 2019： 1.

［64］ Zhu ?Z，Dumitras T. Chainsmith： automatically learning the semantics of malicious campaigns by mining threat intelligence reports ［C］//Proceedings of the 2018 IEEE European Symposium on Security and Privacy.London： IEEE， 2018： 458.

［65］ Manning ?C D， Surdeanu M， Bauer J， ?et al .The stanford CoreNLP natural language processing toolkit ［C］//Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics： System Demonstrations.Baltimore：Association for Computational Linguistics， 2014： 55.

［66］ Devlin J， Chang M W， Lee K， ?et al . Bert： Pretraining of deep bidirectional transformers for language understanding ［EB/OL］.［2023-05-24］.https：//arxiv.org/abs/1810.04805.

［67］ Rong ?X. word2vec Parameter Learning Explained［EB/OL］.［2022-11-11］.https：//arxiv.org/abs/1411.2738.

［68］ Mikolov T， Chen K， Corrado G， ?et al . Efficient estimation of word representations in vector space ［EB/OL］.［2023-01-16］.https：//arxiv.org/abs/1301.3781.

［69］ Liu J， Yan J， Jiang J， ?et al . TriCTI： an actionable cyber threat intelligence discovery system via trigger-enhanced neural network［J］.Cybersecurity，2022， 5： 8.

［70］ Wang X， Liu R， Yang J， ?et al . Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering［C］// Proceedings of the 2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design.Guangzhou： IEEE， 2022： 406.

［71］ Fang Y， Zhang Y， Huang C. CyberEyes： cybersecurity entity recognition model based on graph convolutional network ［J］. Comput J， 2021， 64： 1215.

［72］ Liao X，Yuan K，Wang X F， ?et al . Acing the ioc game： toward automatic discovery and analysis of open-source cyber threat intelligence ［C］//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security.New York： Association for Computing Machinery， 2016： 755.

［73］ Finkel J R， Grenager T， Manning C D. Incorporating non-local information into information extraction systems by gibbs sampling ［C］//Proceedings of the 43rd annual meeting of the association for computational linguistics （ACL05）.Ann Arbor： Association for Computational Linguistics， 2005： 363.

［74］ Kriege N M， Johansson F D， Morris C. A survey on graph kernels ［J］. Appl Netw Sci， 2020， 5： 1.

［75］ Legoy V， Caselli M， Seifert C， ?et al . Automated retrieval of att&ck tactics and techniques for cyber threat reports ［EB/OL］.［2023-04-29］.https：//arxiv.org/abs/2004.14322.

［76］ Aly M. Survey on multiclass classification methods［J］. Neural Netw， 2005，19： 2.

［77］ Lu H， Zhang M， Xu X， ?et al . Deep fuzzy hashing network for efficient image retrieval［J］. IEEE T Fuzzy Syst， 2020， 29： ?166.

［78］ Li J， Sun A， Han J， ?et al . A survey on deep learning for named entity recognition ［J］. IEEE T Knowl Data En， 2020， 34： 50.

［79］ Husari G，Al-Shaer E，Ahmed M， ?et al . Ttpdrill： automatic and accurate extraction of threat actions from unstructured text of cti sources ［C］//Proceedings of the 33rd Annual Computer Security Applications Conference.New York： Association for Computing Machinery， 2017： 103.

［80］ De ?Marneffe M C，Manning C D. The Stanford typed dependencies representation ［C］//Proceedings of the Workshop on Cross-framework and Cross-domain Parser Evaluation.Manchester：Coling 2008 Organizing Committee， 2008： 1.

［81］ Ge W， Wang J. SeqMask： behavior extraction over cyber threat intelligence via multi-instance learning［EB/OL］.［2022-11-29］.https：//academic.oup.com/comjnl/advance-article-abstract/doi/10.1093/comjnl/bxac172/6852690？redirectedFrom=fulltext.

［82］ Joulin A， Grave E， Bojanowski P， ?et al . Bag of tricks for efficient text classification［EB/OL］.［2023-07-06］.https：//arxiv.org/abs/1607.01759.

［83］ You Y， Jiang J， Jiang Z， ?et al . TIM： threat context-enhanced TTP intelligence mining on unstructured threat data ［J］. Cybersecurity， 2022， 5： 3.

［84］ Reimers ?N， Gurevych I. Sentence-bert： sentence embeddings using siamese bert-networks ［EB/OL］.［2023-05-27］.https：//arxiv.org/abs/1908.10084.

［85］ Wu ?Y， Liu Q， Liao X， ?et al . Price tag： towards semi-automatically discovery tactics， techniques and procedures of E-commerce cyber threat intelligence［J］. IEEE T Depend Secure， 2021（1）： 1.

［86］ Liu C， Wang J， Chen X. Threat intelligence att&ck extraction based on the attention transformer hierarchical recurrent neural network ［J］. Appl Soft Comput， 2022， 122： 108826.

［87］ Yu Z， Wang J F， Tang B H， ?et al . Tactics and techniques classification in cyber threat intelligence ［J］. Comput J， 2022（8）： 8.

［88］ Ge ?W，Wang J， Lin T， et al . Explainable cyber threat behavior identification based on self-adversarial topic generation［J］. Comput Secur， 2023， 132： 103369.

［89］ Chen ?Z， Wang Y， Zhao B， ?et al . Knowledge graph completion： a review［J］. IEEE Access，2020，8： 192435.

［90］ Chen X， Jia S， Xiang Y. ?A review： knowledge reasoning over knowledge graph ［J］. Expert Syst Appl， 2020， 141： 112948.

［91］ Zhang ?K， Liu J. Review on the application of knowledge graph in cyber security assessment［J］.IOP Conf Ser Mater Sci Eng， 2020， 768： 052103.

［92］ Yan Z， Liu J. A review on application of knowledge graph in cybersecurity［C］// Proceedings of the 2020 International Signal Processing， Communications and Engineering Management Conference （ISPCEM）. Montreal： ?IEEE， 2020： 240.

［93］ Auer ?S，Kovtun V，Prinz M， et al . Towards a knowledge graph for science ［C］//Proceedings of the 8th International Conference on Web Intelligence， Mining and Semantics.Serbia： Association for Computing Machinery， 2018： 1.

［94］ Ji S， Pan S， Cambria E， ?et al . A survey on knowledge graphs： representation， acquisition， and applications ［EB/OL］.［2022-04-01］.https：//arxiv.org/abs/2002.00388.

［95］劉嶠，李楊，段宏，等.知識(shí)圖譜構(gòu)建技術(shù)綜述［J］.計(jì)算機(jī)研究與發(fā)展， 2016， 53： 582.

［96］ Xu ?G， Cao Y， Ren Y， ?et al . Network security situation awareness based on semantic ontology and user-defined rules for Internet of Things ［J］. IEEE Access， 2017， 5： 21046.

［97］ Feng B， Zhang H， Zhou H， ?et al . Locator/identifier split networking： a promising future Internet architecture［J］. IEEE Commun Surv ?Tut，2017，19： 2927.

［98］ Li K， Zhou H， Tu Z， ?et al . CSKB： a cyber security knowledge base based on knowledge graph［C］// Proceedings of the 1st International Conference on Security and Privacy in Digital Economy. Singapore： Springer Singapore， 2020： 100.

［99］ Iannacone M， Bohn S， Nakamura G， ?et al . Developing an ontology for cyber security knowledge graphs ［C］//Proceedings of the 10th Annual Cyber and Information Security Research Conference.Oak Ridge： Association for Computing Machiner， 2015： 1.

［100］ ?Syed ?Z， Padia A， Finin T， ?et al . UCO： a unified cybersecurity ontology［EB/OL］.［2022-12-12］.https：//mdsoar.org/handle/11603/11804.

［101］ Hooi E ?K J， Zainal A， Maarof M A， ?et al . TAGraph： Knowledge Graph of Threat Actor［C］// Proceedings of the 2019 International Conference on Cybersecurity. Negeri Sembilan： ?IEEE， 2019： 76.

［102］ Li Z， Zeng J， Chen Y， ?et al . AttacKG： constructing technique knowledge graph from cyber threat intelligence reports ［C］//Proceedings of the 27th European Symposium on Research in Computer Security， Copenhagen， Denmark. Cham： Springer International Publishing， 2022： 589.

［103］ Milajerdi S M， Eshete B， Gjomemo R， ?et al . Poirot： aligning attack behavior with kernel audit records for cyber threat hunting［C］//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security.London： Association for Computing Machinery， 2019： 1795.

［104］ Guo Y， Liu Z， Huang C， ?et al . A framework for threat intelligence extraction and fusion ［J］. Comput Secur， 2023， 132： 103371.

［105］ Liu Z， Su H， Wang N， ?et al . Coreference resolution for cybersecurity entity： towards explicit， comprehensive cybersecurity knowledge graph with low redundancy ［C］// Proceedings of the International Conference on Security and Privacy in Communication Systems. Cham： Springer Nature Switzerland， 2022： 89.

［106］ Poursabzi-Sangdeh ?F， Goldstein D G， Hofman J M， ?et al . Manipulating and Measuring Model Interpretability ［C］//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems.Yokohama： Association for Computing Machinery， 2021： 1.

［107］涂序彥，馬忠貴，郭燕慧. 廣義人工智能［M］.北京：國防工業(yè)出版社， ?2012.

［108］ Ramsdale A， Shiaeles S， ?Kolokotronis N. A comparative analysis of cyber-threat intelligence sources， formats and languages［J］. Electronics，2020， 9： ?824.

［109］ Hossain ?M N， Milajerdi S M，Wang J， et al . {SLEUTH}： Real-time attack scenario reconstruction from {COTS} audit data ［C］// Proceedings of the 26th USENIX Security Symposium （USENIX Security 17）.Vancouver：{USENIX}Association，2017： 487.

［110］ Lv ?Y， Qin S， Zhu Z， ?et al . A review of provenance graph based apt attack detection： applications and developments ［C］// Proceedings of the 2022 7th IEEE International Conference on Data Science in Cyberspace.Guilin： IEEE， 2022： 498.

［111］ Wagner T D，Mahbub K，Palomar E， ?et al . Cyber threat intelligence sharing： Survey and research directions ?［J］. Comput Secur， 2019， 87： 101589.

［112］ Wei J，Tay Y， Bommasani R， ?et al . Emergent abilities of large language models ［EB/OL］.［2022-12-26］.https：//arxiv.org/abs/2206.07682.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)絡(luò)威脅情報(bào)處理方法綜述