亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交媒體中開源網(wǎng)絡(luò)威脅情報(bào)挖掘技術(shù)分析

        2024-04-29 00:00:00葉帥辰
        無線互聯(lián)科技 2024年3期
        關(guān)鍵詞:網(wǎng)絡(luò)安全

        摘要:威脅情報(bào)是網(wǎng)絡(luò)安全防御的重要信息資源,其準(zhǔn)確性、時(shí)效性直接決定了系統(tǒng)對于外來未知威脅的感知發(fā)現(xiàn)能力。目前,除威脅情報(bào)自生產(chǎn)及商業(yè)購買外,從社交媒體(如網(wǎng)絡(luò)安全博客、技術(shù)論壇、安全報(bào)告發(fā)布平臺等)中直接提取挖掘開源情報(bào)的方式因具有高時(shí)效、低成本等特點(diǎn),受到了業(yè)界的廣泛關(guān)注。文章結(jié)合近年來代表性研究梳理歸納了從社交媒體中采集及提取挖掘開源網(wǎng)絡(luò)威脅情報(bào)的主要技術(shù),并分析了相應(yīng)的優(yōu)缺點(diǎn)及適用場景,可為情報(bào)提取模型選擇及優(yōu)化設(shè)計(jì)提供參考。

        關(guān)鍵詞:社交媒體;網(wǎng)絡(luò)安全;開源情報(bào);采集挖掘

        中圖分類號:TP391.1" 文獻(xiàn)標(biāo)志碼:A

        0 引言

        隨著互聯(lián)網(wǎng)通信的大范圍普及,網(wǎng)絡(luò)空間已延伸至社會生產(chǎn)的各個(gè)領(lǐng)域,與此相伴的是針對網(wǎng)絡(luò)上組織或個(gè)人的攻擊破壞事件層出不窮。尤其在當(dāng)今大國博弈的背景下,有組織、有目的的國家級新型網(wǎng)絡(luò)攻擊日趨頻繁,以高級持續(xù)性威脅(Advanced Persistent Threat, APT)、0day漏洞利用為代表的網(wǎng)絡(luò)威脅充分利用電子郵件、移動應(yīng)用程序等途徑對重要生產(chǎn)資料進(jìn)行滲透竊取。

        目前,常規(guī)的網(wǎng)絡(luò)安全防御手段是在防御對象系統(tǒng)的網(wǎng)絡(luò)空間邊緣部署入侵檢測系統(tǒng)、全流量探針、防火墻等防御設(shè)備[1],發(fā)現(xiàn)并阻斷帶有特定五元組信息或報(bào)文特征的攻擊流量,這種方法雖然可以在一定程度上感知網(wǎng)絡(luò)威脅,但是其防御能力很大程度上取決于安全防御設(shè)備中內(nèi)置的威脅情報(bào)規(guī)則準(zhǔn)確與否。雖然除常規(guī)防御手段外,還可以通過對捕獲的流量進(jìn)行行為特征分析來挖掘新型威脅的攻擊線索,但是這樣會消耗大量運(yùn)營成本,且多作為事后復(fù)盤分析手段,無法做到事前防御。因此,能夠及時(shí)、準(zhǔn)確、全面地獲取最新網(wǎng)絡(luò)威脅情報(bào)并將其配置在邊緣防御設(shè)備中,仍然是目前對抗新型網(wǎng)絡(luò)攻擊的最有效手段。

        本文通過對近年代表性文章中開源網(wǎng)絡(luò)威脅情報(bào)提取挖掘技術(shù)進(jìn)行歸納分析,明確了威脅情報(bào)的常用標(biāo)準(zhǔn)化規(guī)范及主要提取來源,梳理了最新的情報(bào)采集及提取方法,并從準(zhǔn)確率、提取速度、普適性3個(gè)方面分析了各方法的特點(diǎn)及適用場景,為網(wǎng)絡(luò)安全運(yùn)營人員選擇使用或改善優(yōu)化相關(guān)方法時(shí)提供參考。

        1 網(wǎng)絡(luò)威脅情報(bào)標(biāo)準(zhǔn)化

        為滿足跨組織、跨地域、跨行業(yè)、跨平臺的威脅情報(bào)交互共享,催生了網(wǎng)絡(luò)威脅情報(bào)的標(biāo)準(zhǔn)化需求。目前,常見的威脅情報(bào)標(biāo)準(zhǔn)已超過20種,其中應(yīng)用比較廣泛的包括美國MITRE公司提出的STIX標(biāo)準(zhǔn)、TAXII標(biāo)準(zhǔn),Mandiant公司的openIOC標(biāo)準(zhǔn),國際互聯(lián)網(wǎng)工程任務(wù)組的MILE標(biāo)準(zhǔn),以及國內(nèi)于2018年提出的GB/T 36643—2018標(biāo)準(zhǔn)。

        STIX初代版本STX1.0于2013年提出,是一種基于可擴(kuò)展標(biāo)記語言的表述形式,其包含8個(gè)威脅信息構(gòu)件(即8個(gè)情報(bào)要素):可觀測信息、攻擊特征、安全事件、攻擊行為、威脅來源、攻擊目的、技戰(zhàn)術(shù)、應(yīng)對方法。隨后MITRE公司在2017年提出的STX2.0版本中,又對8個(gè)構(gòu)件中的技戰(zhàn)術(shù)、威脅來源和攻擊目標(biāo)進(jìn)行了擴(kuò)充和細(xì)化,達(dá)到了12個(gè)要素,并重新以解析手段更為豐富的JSON語言進(jìn)行表述[2]。

        TAXII是一種威脅情報(bào)傳輸標(biāo)準(zhǔn),其最初是為用戶間共享STIX格式情報(bào)而制定的,旨在保證情報(bào)共享過程中的機(jī)密性、完整性。其包括3種傳輸模式:單一信息源的消息訂閱分發(fā)模式、中心化資料庫的信息消費(fèi)模式、點(diǎn)對點(diǎn)群組共享模式。除STIX格式外,該標(biāo)準(zhǔn)也廣泛適用于其他標(biāo)準(zhǔn)格式的威脅情報(bào)共享傳輸。

        國內(nèi)GB/T 36643—2018標(biāo)準(zhǔn)全稱為《信息安全技術(shù)網(wǎng)絡(luò)安全威脅信息格式規(guī)范》,該標(biāo)準(zhǔn)定義了網(wǎng)絡(luò)安全威脅信息模型的3個(gè)表述維度:對象域、方法域和事件域,以及不同域內(nèi)的8個(gè)威脅信息描述組件。其中,對象域包含威脅主體、攻擊目的2個(gè)組件,方法域包含攻擊方法、應(yīng)對措施2個(gè)組件,事件域包含攻擊活動、安全事件、攻擊指標(biāo)、可觀測數(shù)據(jù)4個(gè)組件。該標(biāo)準(zhǔn)為國內(nèi)各網(wǎng)絡(luò)安全威脅信息供應(yīng)方和需求方之間進(jìn)行威脅情報(bào)生成和共享提供規(guī)范。

        2 網(wǎng)絡(luò)威脅情報(bào)主要來源

        威脅情報(bào)的標(biāo)準(zhǔn)化定義使不同組織、地域間的網(wǎng)絡(luò)威脅信息共享及協(xié)同防御成為可能,但從何處能夠源源不斷地獲取最新的威脅情報(bào)卻無統(tǒng)一標(biāo)準(zhǔn),因此盡可能大量、快速、準(zhǔn)確地獲取情報(bào)便成了評價(jià)一個(gè)組織情報(bào)收集能力的重要指標(biāo)。

        目前,主要的網(wǎng)絡(luò)威脅情報(bào)來源分為內(nèi)部來源和外部來源兩類,內(nèi)部來源主要是指組織或單位通過對其自有網(wǎng)絡(luò)資產(chǎn)的主機(jī)日志、網(wǎng)絡(luò)出口所部署安全設(shè)備采集的流量日志及安全告警日志等進(jìn)行聚合分析,并經(jīng)過與主機(jī)、系統(tǒng)、網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)、行為特征進(jìn)行長時(shí)間的觀察比對,形成的基于攻擊危害的情報(bào)信息。但這種情報(bào)輸出方式的應(yīng)用受限于以下3個(gè)方面:(1)多數(shù)組織或單位不具備在各網(wǎng)絡(luò)節(jié)點(diǎn)大規(guī)模部署安全設(shè)備的能力,導(dǎo)致原始數(shù)據(jù)來源范圍有限,影響情報(bào)輸出的準(zhǔn)確性;(2)部署在各網(wǎng)絡(luò)節(jié)點(diǎn)的安全設(shè)備需要基于已有情報(bào)規(guī)則才會觸發(fā)生成相應(yīng)的告警日志,想要滿足此條件必須先行導(dǎo)入大量的原始情報(bào),同時(shí)通過該方式生產(chǎn)情報(bào)又與已有情報(bào)關(guān)聯(lián)緊密,因此價(jià)值有限;(3)該方式輸出情報(bào)是以長期對攻擊所產(chǎn)生危害的觀察為依據(jù)的,因此在使用時(shí)難免會造成一定的網(wǎng)絡(luò)風(fēng)險(xiǎn)。而外部來源主要是指從開源媒體中提取挖掘,常見的媒體情報(bào)源主要包括技術(shù)博客(如fireeye、kaspersky、Talo、symantec等)、社交網(wǎng)站(如Twitter、Freebuf等)、新聞網(wǎng)站、公共報(bào)告,甚至是深網(wǎng)地下論壇等,這種方式不僅具有較低的采集成本,且時(shí)效性、普適性更好,因此,相比于內(nèi)部生產(chǎn)方式,其在業(yè)界的應(yīng)用更為廣泛,同時(shí)也是本文討論的重點(diǎn)。

        3 基于社交媒體的開源威脅情報(bào)采集及提取技術(shù)

        在確定情報(bào)源后,如何從海量開源媒體中更高效、完整、準(zhǔn)確地采集及提取網(wǎng)絡(luò)威脅情報(bào),一直受到業(yè)界及學(xué)術(shù)界的高度關(guān)注,本文檢索了近10年中外學(xué)者在主流安全期刊、學(xué)術(shù)會議、學(xué)位論文上發(fā)表的文獻(xiàn),統(tǒng)計(jì)情況如圖1所示??梢钥闯?,針對相關(guān)主題的研究熱度一直呈上升趨勢,但從數(shù)量上看中文數(shù)據(jù)庫相關(guān)研究與國外數(shù)據(jù)庫相比仍存在一定差距。

        3.1 開源威脅情報(bào)采集

        威脅情報(bào)采集是威脅情報(bào)全生命周期管理中的基礎(chǔ)環(huán)節(jié),其采集數(shù)量與質(zhì)量直接關(guān)系到后續(xù)識別提取效率以及輸出情報(bào)價(jià)值。采集開源威脅情報(bào)一般利用網(wǎng)絡(luò)爬蟲,并結(jié)合語句識別、話題檢測等技術(shù)對多源媒體(如技術(shù)博客、黑客論壇等)中的特定內(nèi)容信息進(jìn)行捕獲留存。

        近年來,隨著Web攻防技術(shù)的不斷完善,開源社交網(wǎng)絡(luò)的反爬取機(jī)制也在加強(qiáng),因此常規(guī)的網(wǎng)絡(luò)爬蟲很難快速大量獲取網(wǎng)站中的高價(jià)值原始情報(bào)。針對此問題,徐留杰等[3]列舉了當(dāng)下較為常見的反爬取策略并給出了具體的應(yīng)對措施,如:對于設(shè)置了Headers信息檢測的網(wǎng)站,可在爬蟲中預(yù)置Headers各個(gè)參數(shù)真實(shí)值;對于具備用戶行為檢測機(jī)制的網(wǎng)站,可采用設(shè)置多個(gè)代理IP并預(yù)留訪問時(shí)間間隔的方式等,同時(shí)利用所提出方法對端側(cè)郵件系統(tǒng)中的開源情報(bào)訂閱信息進(jìn)行采集提取及標(biāo)準(zhǔn)化處理。

        雖然表網(wǎng)中能夠獲取數(shù)量可觀的開源情報(bào),不過相比于深網(wǎng),其獲取的威脅情報(bào)準(zhǔn)確性和時(shí)效性都較差,想要構(gòu)建高質(zhì)量的威脅情報(bào)管理體系,深網(wǎng)同樣是一個(gè)不可忽視的情報(bào)獲取源[4-5]。不過和表網(wǎng)不同的是,深網(wǎng)各個(gè)站點(diǎn)間沒有形成互聯(lián)互通的網(wǎng)狀架構(gòu),更多是以散點(diǎn)狀形式呈現(xiàn)的,在對深網(wǎng)中的情報(bào)進(jìn)行采集之前需要廣泛搜集站點(diǎn)信息[6]。因此,黃莉崢等[4]提出利用人工搜集近期活躍的深網(wǎng)市場和地下論壇鏈接,之后再對各站點(diǎn)逐一進(jìn)行內(nèi)容爬取的方法來提取初始情報(bào),不過這種方式在大規(guī)模應(yīng)用場景下及時(shí)性和效率都有待提高。在此基礎(chǔ)上,Vlachos等[7]提出了一種雙層爬蟲架構(gòu),第一層為Hidden Wiki爬蟲,其負(fù)責(zé)爬取深網(wǎng)的.onion URL地址,并基于網(wǎng)頁的HTML架構(gòu)留存站點(diǎn)目錄層級,以“24位標(biāo)識碼(id), 實(shí)體類型(Entity-type), 網(wǎng)站名稱(Name), 網(wǎng)站鏈接(URL), 網(wǎng)站狀態(tài)(State), 目錄(Category), 子目錄(Subcategory), 爬取時(shí)間(Time UTC)”的形式將爬取的站點(diǎn)信息落盤至.csv文件;第二層為ACHE爬蟲,其將上一層爬取的.csv文件作為輸入,利用代理服務(wù)器連接Tor網(wǎng)絡(luò),對網(wǎng)頁各目錄層級內(nèi)容進(jìn)行自動爬取,并將爬取后的初始情報(bào)信息寫入JSON文件。

        除上述研究中所用靜態(tài)爬蟲方法外,Zhang等[8]結(jié)合文本語義檢測技術(shù)開發(fā)了能夠?qū)﹂_源威脅情報(bào)進(jìn)行迭代采集的動態(tài)爬蟲iMCircle,其通過爬蟲引擎、信息預(yù)處理、情報(bào)檢測、新情報(bào)源提取4個(gè)模塊,實(shí)現(xiàn)對威脅情報(bào)的自動化循環(huán)采集,相關(guān)結(jié)果表明,整合了語義檢測的動態(tài)爬蟲相比于靜態(tài)爬蟲具有更高的采集效率及準(zhǔn)確性。

        3.2 開源威脅情報(bào)提取

        通過上述研究中的靜態(tài)或動態(tài)爬蟲技術(shù)從社交網(wǎng)絡(luò)獲取非結(jié)構(gòu)化開源威脅情報(bào)文本后,需進(jìn)一步利用信息提取技術(shù),輸出具有分析價(jià)值的標(biāo)準(zhǔn)化或非標(biāo)準(zhǔn)化威脅情報(bào)。該過程涉及處理海量原始數(shù)據(jù)集,手工方法效率低下,因此多采用人工智能方法作為主要提取手段。目前,常見的威脅情報(bào)提取識別方法基于其依賴的技術(shù)不同主要分為兩大類:基于自然語言處理的提取技術(shù)和基于神經(jīng)網(wǎng)絡(luò)的提取技術(shù)。相關(guān)研究在對這兩類方法細(xì)分衍生的基礎(chǔ)上,又整合各類人工智能算法形成了適用不同場景需求的組合式提取識別技術(shù)。

        3.2.1 基于自然語言處理的提取理技術(shù)

        自然語言處理技術(shù)(Natural Language Processing, NLP)的基本原理是通過對只有人類能夠理解的自然語言進(jìn)行編碼,將其轉(zhuǎn)化為計(jì)算機(jī)能夠理解和輸出的語言形式,從而實(shí)現(xiàn)利用機(jī)器代替人工對從社交媒體中采集的原始威脅情報(bào)關(guān)鍵信息進(jìn)行提取、識別、摘錄。Feng等[9]針對物聯(lián)網(wǎng)設(shè)備中的漏洞威脅,通過開發(fā)自動化爬蟲工具,從社交網(wǎng)絡(luò)上收集下載開源漏洞報(bào)告,利用NPL技術(shù)分析報(bào)告語義,提取漏洞類型、漏洞位置、軟硬件名稱、版本號等信息,摘錄形成結(jié)構(gòu)化威脅情報(bào)。在使用中,該方法收集了7 514個(gè)漏洞報(bào)告,提取出其中披露的12 286個(gè)物聯(lián)網(wǎng)設(shè)備漏洞,人工核對結(jié)果表明該方法的識別準(zhǔn)確率可達(dá)到94%。Zhu等[10]使用Stanford NPL方法對14 155篇工業(yè)報(bào)告及技術(shù)文章中收錄的24 654個(gè)威脅情報(bào)進(jìn)行提取,并基于不同攻擊階段設(shè)置4個(gè)標(biāo)簽:載荷投遞(Baiting)、利用與開發(fā)(Exploitation)、木馬植入(Installation)、命令與控制(Command and Control)對所提取的威脅情報(bào)進(jìn)行分類。相關(guān)實(shí)驗(yàn)結(jié)果表明,該方法對威脅情報(bào)提取準(zhǔn)確率達(dá)到了91.9%,對威脅情報(bào)攻擊階段信息認(rèn)定準(zhǔn)確率也可達(dá)到78.2%。

        在此基礎(chǔ)上,Ghaith等[11]引入了利用基于語義學(xué)的信息檢索方法(Information Retrieval, IR)對傳統(tǒng)NLP進(jìn)行優(yōu)化。該方法可從非結(jié)構(gòu)化報(bào)告中提取攻擊技戰(zhàn)術(shù)、殺傷鏈等威脅情報(bào)關(guān)鍵字,并按照不同的威脅情報(bào)標(biāo)準(zhǔn)(如STIX等)進(jìn)行結(jié)構(gòu)化輸出。結(jié)果表明,該方法相比于傳統(tǒng)NLP具有更高的檢索準(zhǔn)確性。進(jìn)一步地,該團(tuán)隊(duì)在Ghaith等[12]中同樣對傳統(tǒng)NLP進(jìn)行了改進(jìn),將熵和互信息(Entropy and Mutual Information, EMI)度量引入網(wǎng)絡(luò)安全領(lǐng)域,對采集的開源威脅情報(bào)按照危害等級進(jìn)行篩選,濾除低危情報(bào),支撐安全防御快速決策,大大提高了情報(bào)提取輸出效率。

        為使NLP方法能夠更加智能化地解析提取來自深網(wǎng)或暗網(wǎng)的隱蔽情報(bào)信息,Varsha等[13]引入了Google BERT訓(xùn)練模型。該模型具有兩層訓(xùn)練任務(wù):第一層為Masked LM,即在句子中隨機(jī)遮蓋一部分單詞,訓(xùn)練模型通過上下文信息推測該單詞;第二層為Next Sentence Prediction,通過對下一句進(jìn)行預(yù)測,訓(xùn)練模型理解深層語義。因此,該模型有效避免了傳統(tǒng)Word2Vec或Doc2Vec語言編譯模型對于多義詞的混淆。結(jié)果表明Google BERT+NLP方法能夠高效地從深網(wǎng)粗情報(bào)中提取黑客ID、使用工具、軟件信息、組織信息等要素。

        3.2.2 基于神經(jīng)網(wǎng)絡(luò)的提取技術(shù)

        利用神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)提取威脅情報(bào)的核心是通過大量原始數(shù)據(jù)集對所構(gòu)建的網(wǎng)絡(luò)模型開展長期訓(xùn)練,進(jìn)而利用該模型對待分析原始文本形成的數(shù)據(jù)矩陣中關(guān)鍵短語向量進(jìn)行定位、篩選、整合,從而實(shí)現(xiàn)原始信息到結(jié)構(gòu)化威脅情報(bào)的端對端提取。Zhou等[14]提出了一種帶有雙向長短期記憶(Long Short Term Memory, LSTM)模塊的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)。該網(wǎng)絡(luò)為常規(guī)的輸入層-計(jì)算層-輸出層3層架構(gòu),可提取網(wǎng)絡(luò)安全報(bào)告長句子中的低頻威脅情報(bào)。該方法的優(yōu)勢是能夠在僅通過少量數(shù)據(jù)集訓(xùn)練的條件下,便可達(dá)到90%以上的情報(bào)提取準(zhǔn)確率。然而,Long等[15]在應(yīng)用該ANN方法后發(fā)現(xiàn)其容易在提取過程中混淆疑似威脅情報(bào),于是在此基礎(chǔ)上引入多頭自注意力模塊和語境特征分析模塊,并同時(shí)利用中英文數(shù)據(jù)集對該模型進(jìn)行訓(xùn)練,結(jié)果表明,相比于Zhou等[14]中的方法,該方法對于英文安全報(bào)告中威脅情報(bào)的提取準(zhǔn)確性可提升至93%以上,對于中文安全報(bào)告中威脅情報(bào)的提取準(zhǔn)確率也可達(dá)到82.9%。

        除ANN外,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)也是應(yīng)用較為廣泛的威脅情報(bào)提取方法,Kim[16]最先將CNN應(yīng)用于文本識別領(lǐng)域,其證實(shí)了僅帶有一層卷積計(jì)算層的CNN仍具有良好的文字信息提取效果?;诖?,Xun等[17]提出了一種帶有兩層卷積的CNN模型。其能夠更加精細(xì)化地從網(wǎng)絡(luò)安全文獻(xiàn)中識別威脅情報(bào)文本特征。在使用相同數(shù)據(jù)集開展訓(xùn)練的條件下,該雙層CNN的威脅情報(bào)提取準(zhǔn)確性相比于傳統(tǒng)單層CNN結(jié)構(gòu)提高了4%。Zhao 等[18]在常規(guī)CNN的基礎(chǔ)上,首次整合了威脅情報(bào)領(lǐng)域識別模塊,其除能夠提取威脅情報(bào)外,還能根據(jù)情報(bào)特征對其潛在影響領(lǐng)域(如物聯(lián)網(wǎng)、金融、教育、政府部門等)進(jìn)行推斷并打標(biāo)簽。該方法從2002至2018年共118 000篇網(wǎng)絡(luò)安全報(bào)告中提取了超過一百萬條情報(bào)信息,經(jīng)驗(yàn)證情報(bào)提取準(zhǔn)確率高達(dá)94%,針對威脅情報(bào)的所屬領(lǐng)域認(rèn)定準(zhǔn)確率也達(dá)到了84%。進(jìn)一步地,里斯本大學(xué)團(tuán)隊(duì)的Dionisio等[19]提出了一種5層CNN架構(gòu),除包含常規(guī)的輸入層、嵌入層、卷積層和輸出層外,在卷積層和輸出層之間插入了池化層,目的是降低模型的過擬合程度并減少計(jì)算量,作者通過該方法對社交媒體Twitter中的網(wǎng)絡(luò)威脅信息進(jìn)行了結(jié)構(gòu)化情報(bào)提取,并在使用相同數(shù)據(jù)集的條件下與另外8種情報(bào)提取方法進(jìn)行了比對,結(jié)果驗(yàn)證了該方法的優(yōu)越性能。

        3.2.3 其他混合型提取技術(shù)

        受益于人工智能理論的發(fā)展,大量研究將支持向量機(jī)(Support Vector Machine, SVM)、狄利克雷分配(Latent Dirichlet Allocation, LDA)、機(jī)器學(xué)習(xí)(Machine Learning, ML)等算法融入傳統(tǒng)NLP或NN方法中,形成了多種功能特點(diǎn)各異的混合型威脅情報(bào)提取方法。Wang等[20]通過引入注意力機(jī)制(Attention Mechanism, AM)和強(qiáng)化學(xué)習(xí)模塊(Reinforcement Learning, RL)形成了能夠減輕標(biāo)注數(shù)據(jù)噪聲的分段式卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并利用Google BERT模型對其進(jìn)行訓(xùn)練,結(jié)果表明在對同一情報(bào)源進(jìn)行提取時(shí),所提出方法準(zhǔn)確率相比于常規(guī)CNN增加了15%以上。Deliu等[21]提出了一種基于支持向量機(jī)和狄利克雷分配的二級威脅情報(bào)提取模型,該模型通過第一層的支持向量機(jī)先對從黑客論壇爬取的無關(guān)主題帖子進(jìn)行剔除,再利用第二層的狄利克雷分配對具有相同特征的威脅情報(bào)(如憑證泄露、代理服務(wù)器、逃逸攻擊等)進(jìn)行快速聚類,通過對百萬量級黑客論壇帖子中情報(bào)信息進(jìn)行提取,驗(yàn)證了該模型的快速性和準(zhǔn)確性。為解決開源威脅情報(bào)中存在的中英文表述混雜難以識別等問題,王瀛等[22]提出了基于一種融合迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)與雙向門控循環(huán)單元深度學(xué)習(xí)模型的文本威脅信息實(shí)體識別方法,并引入人工規(guī)則詞典進(jìn)行輸出矯正,在與其他深度學(xué)習(xí)方法,如雙向長短期記憶網(wǎng)絡(luò)模型,進(jìn)行比對后證明該方法能夠在最小化信息損失的同時(shí),對文本特征具有更全面的提取識別效果。

        除提出新的情報(bào)提取方法外,部分研究致力于對已有提取方法進(jìn)行性能比較,以確定不同方法的最佳適用場景。Gasmi等[23]針對情報(bào)提取過程中用于文本關(guān)系特征識別的長短期記憶(LSTM)模型3種常見架構(gòu):序列樹結(jié)構(gòu)(Sequences and Tree Structures, STS)、最短依賴路徑結(jié)構(gòu)(Shortest Dependency Paths, SDP)、最近共同父節(jié)點(diǎn)二叉樹結(jié)構(gòu)(Least Common Ancestor Sub Tree, LCA)進(jìn)行了多方面能力(識別率、準(zhǔn)確性等)比對,作者利用相同數(shù)據(jù)集對不同結(jié)構(gòu)進(jìn)行訓(xùn)練后發(fā)現(xiàn),同一模型的提取準(zhǔn)確性和對于不同文本形式的適應(yīng)性呈近似負(fù)相關(guān)。Deliu等[24]將基于人工智能理論的支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)和基于圖論的決策樹模型進(jìn)行比對,結(jié)果表明基于人工智能理論的方法相比于傳統(tǒng)數(shù)學(xué)模型方法需要的訓(xùn)練時(shí)間的確更短,不過提取準(zhǔn)確度方面卻沒有明顯區(qū)別,同時(shí)SVM方法所需訓(xùn)練時(shí)間雖然相比于使用范圍更廣的CNN方法略長,但在部分場景下具有更小的計(jì)算量以及更快的提取速度。

        4 結(jié)語

        本文聚焦于開源網(wǎng)絡(luò)威脅情報(bào)提取挖掘技術(shù),從近年代表性工作中梳理了開源社交媒體的情報(bào)提取常用手段,簡要分析了各提取方法的技術(shù)特點(diǎn)及優(yōu)勢,針對各方法的適用性、速度、準(zhǔn)確率等評價(jià)指標(biāo),可初步歸納如下結(jié)論。

        (1)威脅情報(bào)提取的準(zhǔn)確率和速度呈近似負(fù)相關(guān)。以NN方法為例,想要提高模型針對各類媒體中情報(bào)提取的準(zhǔn)確性,必然需要在模型中引入多層卷積結(jié)構(gòu)或降噪模塊,而在使用相同訓(xùn)練數(shù)據(jù)量對模型進(jìn)行訓(xùn)練的前提下,額外的功能單元必然會增加整體計(jì)算量,減慢單個(gè)情報(bào)提取的速度。

        (2)威脅情報(bào)提取速度和文本類型適用性呈近似負(fù)相關(guān)。與上一結(jié)論的情況類似,若要所構(gòu)建的提取模型對不同結(jié)構(gòu)、不同語種的開源媒體都具有很好的兼容性,那么必然要增加模型的判斷邏輯單元和適應(yīng)性功能模塊,從而提升了提取復(fù)雜度,降低提取效率。

        此外,雖未有研究直接表明,但可以推斷威脅情報(bào)提取模型的文本類型適用性和提取準(zhǔn)確性應(yīng)該也為負(fù)相關(guān),因不同模型的設(shè)計(jì)都是為滿足特定語言、特定媒體形式的快速準(zhǔn)確提取需求,難免會一定程度上犧牲針對其他文本類型的提取性能。

        參考文獻(xiàn)

        [1]葉帥辰,盧泓宇,周成勝.網(wǎng)絡(luò)安全防護(hù)設(shè)備應(yīng)用研究[J].信息與電腦(理論版),2022(17):213-216.

        [2]石志鑫,馬瑜汝,張悅,等.威脅情報(bào)相關(guān)標(biāo)準(zhǔn)綜述[J].信息安全研究,2019(7):560-569.

        [3]徐留杰,翟江濤,楊康,等.一種多源網(wǎng)絡(luò)安全威脅情報(bào)采集與封裝技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(10):23-26.

        [4]黃莉崢,劉嘉勇,鄭榮鋒,等.一種基于暗網(wǎng)的威脅情報(bào)主動獲取框架[J].信息安全研究,2020(2):131-138.

        [5]NUNES E, DIAB A, GUNN A, et al. Darknet and deepnet mining for proactive cybersecurity threat intelligence[C]. Tucson: 2016 IEEE Conference on Intelligence and Security Informatics (ISI), 2016.

        [6]張永超.暗網(wǎng)資源挖掘的關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2013.

        [7]VLACHOS V, STAMATIOU Y, TZAMALIS P, et al. The SAINT observatory subsystem: an open-source intelligence tool for uncovering cybersecurity threats[J]. International Journal of Information Security, 2022(21): 1091-1106.

        [8]ZHANG P, YA J, LIU T, et al. iMCircle: automatic mining of indicators of compromise from the Web[C]. Barcelona: 2019 IEEE Symposium on Computers and Communications (ISCC), 2019.

        [9]FENG X, LIAO X, WANG X, et al. Understanding and securing device vulnerabilities through automated bug report analysis[C]. Santa Clara: The 28th USENIX Conference on Security Symposium, 2019.

        [10]ZHU Z, DUMITRAS T. ChainSmith: automatically learning the semantics of malicious campaigns by mining threat intelligence reports[C]. London: 2018 IEEE European Symposium on Security and Privacy, 2018.

        [11]GHAITH H, EHAB A, MOHIUDDIN A, et al. TTPDrill: automatic and accurate extraction of threat actions from unstructured text of CTI sources[C]. Orlando: 33rd Annual Computer Security Applications Conference, 2017.

        [12]GHAITH H, XI N, BILL C. Using entropy and mutual information to extract threat actions from cyber threat intelligence[C]. Miami: 2018 IEEE International Conference on Intelligence and Security Informatics,2018.

        [13]VARSHA V, MAHALAKSHMI S, SENTHILKU-MAR K B. Extraction of actionable threat intelligence from Dark Web data[C]. Chengdu: 2023 International Conference on Control, Communication and Computing, 2023.

        [14]ZHOU S, LONG Z, TAN L, et al. Automatic identification of indicators of compromise using neural-based sequence labelling[C]. Hongkong: Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation, 2018.

        [15]LONG Z, TAN L, ZHOU S, et al. Collecting indicators of compromise from unstructured text of cybersecurity articles using neural-based sequence labelling[C]. Budapest: 2019 International Joint Conference on Neural Networks, 2019.

        [16]KIM Y.Convolutional neural networks for sentence classification[C]. Doha: Conference on Empirical Methods in Natural Language Processing, 2014.

        [17]XUN S, LI X, GAO Y. AITI: an automatic identification model of threat intelligence based on convolutional neural network[C]. Xiamen: Proceedings of the 2020 4th International Conference on Innovation in Artificial Intelligence, 2020.

        [18]ZHAO J, YAN Q, LI J, et al. TIMiner: automatically extracting and analyzing categorized cyber threat intelligence from social data[J]. Computers amp; Security, 2020(95): 1-14.

        [19]DIONISIO N, ALVES F, FERREIRA P, et al. Cyberthreat detection from twitter using deep neural networks[C]. Budapest: 2019 International Joint Conference on Neural Networks, 2019.

        [20]WANG X, CHEN R, SONG B,et al. A method for extracting unstructured threat intelligence based on dictionary template and reinforcement learning[C]. Dalian: 2021 IEEE 24th International Conference on Computer Supported Cooperative Work in Design, 2021.

        [21]DELIU I, LEICHTER C, FRANKE K. Collecting cyber threat intelligence from hacker forums via a two-stage, hybrid process using support vector machines and Latent Dirichlet Allocation[C]. Seattle: 2018 IEEE International Conference on Big Data, 2018.

        [22]王瀛,王澤浩,李紅,等.基于深度學(xué)習(xí)的威脅情報(bào)領(lǐng)域命名實(shí)體識別[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2023(1):33-39.

        [23]GASMI H, LAVAL J, BOURAS A. Information extraction of cybersecurity concepts: an lstm approach[J]. Applied Sciences, 2019(9): 1-15.

        [24]DELIU I, LEICHTER C, FRANKE K. Extracting Cyber threat intelligence from hacker forums: support vector machines versus convolutional neural networks[C]. Boston: 2017 IEEE International Conference on Big Data, 2017.

        Analysis of open source cyber threat intelligence mining technology from social media

        Abstract: "Threat intelligence (TI) is an important information resource for network security defense. The accuracy and timeliness of TI directly determine the perceive and discover ability to external unknown threats for a network defense system. In addition to the self-production and purchase of TI, the method of extracting open source TI from social media (such as network security blogs, technical forums, security report publishing platforms, etc.) has been widely concerned because of its characteristics of high time-efficient and low cost. Based on the representative research in recent years, this paper summarizes main technologies of collecting and mining open source network TI from social media, and analyzes their applicable scenarios, which can provide references for the selection and optimization design of intelligence extraction model.

        Key words: social media; network security; open source threat intelligence; collection and mining

        猜你喜歡
        網(wǎng)絡(luò)安全
        網(wǎng)絡(luò)安全(上)
        網(wǎng)絡(luò)安全知多少?
        工會博覽(2023年27期)2023-10-24 11:51:28
        新量子通信線路保障網(wǎng)絡(luò)安全
        網(wǎng)絡(luò)安全
        網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實(shí)戰(zhàn)化”
        上網(wǎng)時(shí)如何注意網(wǎng)絡(luò)安全?
        網(wǎng)絡(luò)安全與執(zhí)法專業(yè)人才培養(yǎng)探索與思考
        設(shè)立網(wǎng)絡(luò)安全專項(xiàng)基金 促進(jìn)人才培養(yǎng)
        網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年12月
        網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年11月
        国产精品天天狠天天看| 淫片一区二区三区av| 国产激情一区二区三区| 欧妇女乱妇女乱视频| 亚洲AⅤ无码国精品中文字慕| 精品国产97av一区二区三区| 国产69精品一区二区三区| av有码在线一区二区三区| 日日碰日日摸日日澡视频播放| 午夜福利院电影| av中文字幕不卡无码| 加勒比一本大道大香蕉| 日本免费大片一区二区| 无码一区二区三区亚洲人妻| 国产a级午夜毛片| 在线视频日韩精品三区| 精品国产一区二区三区不卡在线| 曰本人做爰又黄又粗视频| 国产99re在线观看只有精品| 日本一区二区高清视频在线播放| 99伊人久久精品亚洲午夜| 亚洲av综合av一区| 少妇人妻中文字幕hd| 国产av丝袜旗袍无码网站| 欧美激情在线不卡视频网站| 国内精品视频在线播放不卡| 亚洲男人天堂2019| 亚洲香蕉av一区二区蜜桃| 国产一区二区长腿丝袜高跟鞋| 亚洲中文字幕成人无码| 日韩专区欧美专区| 澳门精品一区二区三区| 日日噜噜夜夜狠狠久久丁香五月 | 亚洲av日韩av卡二| 撕开奶罩揉吮奶头视频| 久久久久国产亚洲AV麻豆| 亚洲成人av一区二区麻豆蜜桃| 亚洲自拍偷拍色图综合| 亚洲人精品亚洲人成在线| 亚洲AV秘 无码一区二p区三区 | 91色区在线免费观看国产 |