楊立寶 余章馗 狄曉曉
摘? ?要:文章以信息安全相關(guān)文章數(shù)據(jù)為研究對象,分析了目前信息安全研究工作中新聞動態(tài)熱點的數(shù)據(jù)處理和分析需求,結(jié)合信息安全領(lǐng)域特點,基于自然語言處理技術(shù)提出了基于TextRank和LDA的信息安全領(lǐng)域熱點感知和可視化技術(shù),并對信息安全領(lǐng)域新聞動態(tài)熱點進(jìn)行了關(guān)鍵詞分析、關(guān)鍵詞共現(xiàn)分析以及主題分析。實驗結(jié)果表明,該技術(shù)可實現(xiàn)信息安全研究熱點快速定位與感知,達(dá)到輔助深入研究分析的目的。
關(guān)鍵詞:信息安全;熱點分析;TextRank;LDA
中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A
Research on hotspot sensing of information security based on TextRank and LDA
Yang Libao, Yu Zhangkui, Di Xiaoxiao
(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)
Yang Libao, Yu Zhangkui, Di Xiaoxiao
(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)
1 引言
大數(shù)據(jù)時代下,信息呈爆炸式增長,各行業(yè)研究人員如何高效提取高價值信息,快速把握所在領(lǐng)域前沿動態(tài)、熱點主題和發(fā)展趨勢,為研究工作奠定良好基礎(chǔ),已經(jīng)成為信息技術(shù)研究的一個熱點話題。目前,在數(shù)據(jù)采集方面,網(wǎng)絡(luò)爬蟲技術(shù)已得到普遍應(yīng)用[1],公開網(wǎng)絡(luò)信息的采集效率有了極大提升;在數(shù)據(jù)處理和和分析方面,使用較多的則是自然語言處理技術(shù)、機器學(xué)習(xí)等技術(shù)。本文通過關(guān)鍵詞分析和主題模型分析,深度挖掘大量信息安全新聞動態(tài)數(shù)據(jù)的深層信息,及時精準(zhǔn)感知信息安全領(lǐng)域熱點,對輔助監(jiān)測預(yù)警工作具有重大意義。
2? 信息安全熱點研究的需求
在全球范圍內(nèi),信息安全領(lǐng)域的各種新政策、新技術(shù)、新事件不斷涌現(xiàn),做好信息安全熱點感知研究,一方面可以明確當(dāng)前信息安全領(lǐng)域政策、技術(shù)、產(chǎn)業(yè)的現(xiàn)狀和趨勢,為國家信息安全相關(guān)決策提供現(xiàn)實依據(jù),是提升國家信息安全保障能力的重要環(huán)節(jié);另一方面可以更好地把握當(dāng)前信息安全前沿方向和關(guān)注焦點,為信息安全防護(hù)理論、方法的學(xué)術(shù)創(chuàng)新提供支撐。
2.1 現(xiàn)有研究概述
熱點話題是指一個話題在一段時間內(nèi)頻繁出現(xiàn),也就是一定時期內(nèi)由多個新聞來源、多篇新聞同時報道的話題[2]。本文將信息安全熱點定義為在一段時間內(nèi)出現(xiàn)頻次較高,被多個新聞來源廣泛關(guān)注和報道的信息安全動態(tài)新聞。國外熱點話題研究起步較早,1996年美國國防高級研究計劃局(DARPA)就倡議研究話題發(fā)現(xiàn)與跟蹤技術(shù)[3]。國內(nèi)熱點話題研究雖起步較晚,但是目前經(jīng)過學(xué)者的努力也取得了一定的研究成果。其中影響較大的包括李保利和俞士汶各種聚類算法的比較分析,賈自艷、何清和張俊海關(guān)于事件探測和追蹤算法的研究等[4]。
就目前研究而言,大致可以分為三類:其一,針對新聞、社交、論壇等網(wǎng)絡(luò)產(chǎn)品和服務(wù)的分析,此類熱點研究深度挖掘用戶行為偏好,旨在優(yōu)化信息推薦機制,改進(jìn)產(chǎn)品功能,提升用戶體驗;其二,針對新聞報道、社交網(wǎng)絡(luò)(微信和微博)的分析,旨在快速捕捉和精準(zhǔn)跟蹤網(wǎng)絡(luò)輿情熱點,為輿情管控和相關(guān)決策提供支撐;三是,學(xué)術(shù)研究領(lǐng)域以一定時間范圍內(nèi)的研究成果為分析對象,通過關(guān)鍵詞分析、共現(xiàn)分析、可視化分析等手段,明確某一領(lǐng)域研究現(xiàn)狀,追蹤前沿課題,把握研究趨勢。信息安全關(guān)乎國家安全,是信息社會的重大研究課題,本文落腳于信息安全熱點感知,兼具第二類和第三類的特點。
2.2 技術(shù)難點
海量數(shù)據(jù)爆炸性涌現(xiàn),新聞數(shù)據(jù)處理分析和熱點提取都極具復(fù)雜性和特殊性。文本數(shù)據(jù)處理時,專業(yè)分詞是首要難點,專業(yè)領(lǐng)域詞匯切分是否正確,直接決定后續(xù)分析的準(zhǔn)確性;關(guān)鍵詞權(quán)重計算是主要難點,僅依靠傳統(tǒng)的詞頻統(tǒng)計難以準(zhǔn)確識別詞語在文章中的依存關(guān)系,無法準(zhǔn)確挖掘出關(guān)鍵核心的詞匯。因此,在關(guān)鍵詞提取的基礎(chǔ)上,還需要對關(guān)鍵詞之間的主題概念進(jìn)行聚合挖掘,更細(xì)粒度地分析數(shù)據(jù)中蘊含的研究主題以及主題本身的關(guān)鍵詞,同時借助有效的可視化工具,直觀展現(xiàn)這種主題分析結(jié)果。
3 熱點感知挖掘算法的設(shè)計
信息安全領(lǐng)域新聞動態(tài)熱點感知挖掘算法流程設(shè)計如圖1所示,主要包括數(shù)據(jù)源(網(wǎng)絡(luò)采集的信息安全相關(guān)文章數(shù)據(jù)),數(shù)據(jù)處理層(主要做分詞、去停用詞、加入自定義詞庫等處理),算法層(TextRank、詞共現(xiàn)、LDA等),數(shù)據(jù)分析層(關(guān)鍵詞分析、關(guān)鍵詞共現(xiàn)分析以及主題分析)以及可視化層(關(guān)鍵詞可視化、主題可視化等),經(jīng)過整個挖掘流程,實現(xiàn)兩種信息安全熱點感知形式的具象化,達(dá)到信息安全領(lǐng)域熱點感知的目標(biāo),輔助更深層次的研究工作。
4? 熱點挖掘過程
熱點挖掘過程分為兩部分,第一部分主要是做基于TextRank的關(guān)鍵詞提取和基于詞共現(xiàn)的可視化分析,實現(xiàn)整體數(shù)據(jù)集中的關(guān)鍵詞提取;第二部分是基于LDA主題模型分析的主題關(guān)鍵詞及相關(guān)可視化,實現(xiàn)主題聚合的關(guān)鍵詞挖掘。通過對兩過程的分析,實現(xiàn)熱點挖掘和分析過程的快速化。通過建立統(tǒng)計中間表、利用矩陣+樹型遍歷算法,可實現(xiàn)數(shù)據(jù)分析快速化的目的[4]。
4.1 數(shù)據(jù)來源
本文數(shù)據(jù)為通過網(wǎng)絡(luò)采集的相關(guān)動態(tài)文章,共651篇,包括文章的標(biāo)題、正文、時間三個維度,時間跨度為2018-07-05至2019-04-22。文章采集的數(shù)據(jù)源均為信息安全領(lǐng)域的相關(guān)網(wǎng)站,因此省去做信息安全領(lǐng)域相關(guān)與否的二元判斷環(huán)節(jié),可直接進(jìn)入內(nèi)容層面的熱點挖掘。
4.2 關(guān)鍵詞分析
關(guān)鍵詞分析就是從給定的文本中自動抽取出若干有意義的詞語或詞組。本節(jié)將對所有文章數(shù)據(jù)進(jìn)行整合,經(jīng)過數(shù)據(jù)處理以及TextRank算法計算來實現(xiàn)關(guān)鍵詞抽取,從而在一定程度上反映信息安全領(lǐng)域熱點。
TextRank算法[5]是一種用于文本的基于圖的排序算法。其基本思想來源于谷歌的PageRank算法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機制對文本中的重要成分進(jìn)行排序。與LDA、HMM等模型不同,TextRank算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對后續(xù)關(guān)鍵詞進(jìn)行排序,僅利用文檔數(shù)據(jù)集本身的信息即可實現(xiàn)關(guān)鍵詞提取,不需要事先對多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練,因其簡潔和有效而得到廣泛應(yīng)用。
關(guān)鍵詞分析需要經(jīng)過Python的jieba中文分詞包進(jìn)行分詞,在分詞前通過jieba的load_userdict函數(shù)加入信息安全領(lǐng)域相關(guān)自定義詞典,比如“關(guān)鍵基礎(chǔ)設(shè)施”“網(wǎng)絡(luò)攻擊”“安全漏洞”等。同時,設(shè)置常用中英文停用詞,主要包括用來表達(dá)語氣的字詞、連接型字詞、標(biāo)點符號、特殊字符等沒有實際意義的文本,比如“著”“哈”“了”等。分詞后形成一個有序的詞語集合,經(jīng)過TextRank算法計算每個詞語的重要程度值并進(jìn)行排序,最終得到關(guān)鍵詞和對應(yīng)的權(quán)重。關(guān)鍵詞的權(quán)重越高,說明在文本中越重要。關(guān)鍵詞分析有助于分析該數(shù)據(jù)集的關(guān)鍵特征。
TextRank模型可以表示為一個有向有權(quán)圖,由點集合V和邊集合E組成,E是的子集。圖中任兩點,之間邊的權(quán)重為,對于一個給定的點, 為指向該點的點集合,為點指向的點集合。點的得分定義如下:
其中,d為阻尼系數(shù),取值范圍為0到1,代表從某一特定點指向其他任意點的概率,一般取值為0.85。使用TextRank算法計算圖中各點得分時,需要給圖中的點指定任意的初值,并遞歸計算直到收斂。通過使用TextRank算法對數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,得出了前20個關(guān)鍵詞,如圖2所示。
從圖2可以看出,排名前五的關(guān)鍵詞之中“美國”這個主題詞被識別為權(quán)重最高的關(guān)鍵詞,接下來依次為“數(shù)據(jù)”“攻擊”“泄露”“漏洞”四個詞,這些關(guān)鍵詞在一定程度上反映出信息安全領(lǐng)域關(guān)注和研究的一些熱點。同時,可以看到前20個關(guān)鍵詞里面出現(xiàn)不少國家名稱,說明這些國家在這些文章中也被高頻率地提到,在整體數(shù)據(jù)上也是很重要的關(guān)鍵詞,是應(yīng)該關(guān)注的重點。本文將通過關(guān)鍵詞共現(xiàn)分析和主題模型來深入分析這些關(guān)鍵詞之間是否存在某種關(guān)系。
4.3 關(guān)鍵詞共現(xiàn)分析
這一部分是在關(guān)鍵詞分析的基礎(chǔ)上做關(guān)鍵詞共現(xiàn)分析,按關(guān)鍵詞權(quán)重從高到底排序,計算前100個關(guān)鍵詞之間的共現(xiàn)矩陣和共現(xiàn)列表,并計算每個節(jié)點的平均加權(quán)度。使用Gephi進(jìn)行可視化形成共現(xiàn)的語義網(wǎng)絡(luò)圖,如圖3所示。同步出現(xiàn)詞模式表明在文章中最頻繁出現(xiàn)或與其最相關(guān)的關(guān)鍵詞之間有著語義上的緊密聯(lián)系。
關(guān)鍵詞共現(xiàn)次數(shù)按從大到小排序,圖3展示的是前250條共現(xiàn)關(guān)系的網(wǎng)絡(luò),圖中節(jié)點大小表示節(jié)點加權(quán)度,連線的粗細(xì)表示節(jié)點之間共現(xiàn)權(quán)重。通過此圖可以更加直觀地查看關(guān)鍵詞之間的共現(xiàn)關(guān)系,在一定程度上反映出各個關(guān)鍵詞之間相關(guān)關(guān)系,共現(xiàn)頻次越高,說明二者之間的聯(lián)系緊密程度越高。如表1所示,給出前20條詞共現(xiàn)列表。
通過圖3與表1,可以看到“美國”與“數(shù)據(jù)”“攻擊”“信息”“系統(tǒng)”等關(guān)鍵詞之間存在顯著的共現(xiàn)關(guān)系,從一定程度上可以反映出,美國比較關(guān)注或正在研究數(shù)據(jù)安全領(lǐng)域,這個話題可以作為信息安全領(lǐng)域的一個研究熱點,研究人員可以從這個熱點著手進(jìn)行深入研究,從而推進(jìn)我國數(shù)據(jù)安全領(lǐng)域的研究工作;同樣,可以看到“攻擊”與“數(shù)據(jù)”“設(shè)備”“信息”“漏洞”“研究”等關(guān)鍵詞共現(xiàn)頻繁,從一定程度上可以反映出,現(xiàn)在攻擊者對設(shè)備的攻擊行為可能主要是利用了某些漏洞,造成相關(guān)信息和數(shù)據(jù)泄露等問題,從這些關(guān)系入手,研究者可以重點關(guān)注“哪些被漏洞容易被利用”“哪些設(shè)備容易成為攻擊目標(biāo)”“攻擊容易造成哪些數(shù)據(jù)泄露”等研究方向。
4.4 主題分析
LDA 模型是由Blei等人提出的一種對自然語言進(jìn)行建模的生成模型,適合挖掘大規(guī)模文檔集中潛藏的主題信息[6]。本文通過LDA模型找出數(shù)據(jù)中的主題分布。在LDA模型中,需要先假設(shè)主題數(shù)目K,這樣所有的分布將基于K個主題展開。具體LDA模型如圖4所示。
LDA模型假設(shè)文檔中主題和主題中詞的先驗分布都是Dirichlet分布,即對于任意一篇文檔d, 其主題分布為,對于任意一個主題k, 其詞分布為,α和η分別為對應(yīng)分布的超參數(shù)。對于數(shù)據(jù)的任意一篇文檔d中的第n個詞,可以從主題分布中得到它的主題編號的分布為,而對于該主題編號,得到我們得到的詞的概率分布為。
這個模型里,有M個文檔與主題的Dirichlet分布,而對應(yīng)的數(shù)據(jù)有M個主題編號的多項分布,這樣就組成了Dirichlet-multi共軛,可以使用貝葉斯推斷的方法得到基于Dirichlet分布的文檔主題后驗分布。同理,對于主題與詞的分布,有K個主題與詞的Dirichlet分布,而對應(yīng)的數(shù)據(jù)有K個主題編號的多項分布,這樣就組成了Dirichlet-multi共軛,可以使用貝葉斯推斷的方法得到基于Dirichlet分布的主題詞的后驗分布。由于主題產(chǎn)生詞不依賴具體某一個文檔,因此文檔主題分布和主題詞分布是獨立的。
主題分析通過使用LDA主題模型算法,計算所有文章中出現(xiàn)的主要詞匯簇,這些詞匯集合構(gòu)成了一個主題,同時給出每個詞匯的權(quán)重,以及每篇文章所屬主題的主題系數(shù)及類別。本文基于Python的Sklearn編寫程序,分別對K等于1-20的主題參數(shù)進(jìn)行了實驗。通過pyLDAvis實現(xiàn)對主題模型結(jié)果的可視化,如圖5所示,在K=5的時候,主題分布相對平衡,主題之間交疊較少,主題聚合效果較好。
圖5展示了5個不同主題之間的距離關(guān)系,交疊關(guān)系,可以看到5個主題分布相對平衡,可以很好地區(qū)分各個主題。圖中左側(cè)為聚合的主題,點擊每個主題,右側(cè)即可呈現(xiàn)對應(yīng)的前25個主題詞及其對應(yīng)的權(quán)重,這樣的主題分析結(jié)果可視化形式,很容易幫助研究人員從這5個主題中辨析出信息安全研究的熱點主題。右側(cè)為點擊主題3后的結(jié)果,主要展示了主題TOP25關(guān)鍵詞以及權(quán)重,從這些關(guān)鍵詞可以看到該主題主要講述的網(wǎng)絡(luò)攻擊,攻擊的目標(biāo)主要是關(guān)鍵基礎(chǔ)設(shè)施,其中OT(操作技術(shù))、ICS(工業(yè)控制系統(tǒng))等工控網(wǎng)絡(luò)系統(tǒng)是重要目標(biāo)。這也提示研究人員需要把關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的工控網(wǎng)絡(luò)和控制系統(tǒng)安全作為重點研究,同時作為國家、社會和企業(yè)重點保護(hù)的目標(biāo)。此外,通過分析其他幾個主題,可以看到目前工控安全已成為全球關(guān)注的熱點。主題分析結(jié)果對工控系統(tǒng)遭受的攻擊進(jìn)行了比較全面的展示,對研究人員及時關(guān)注工控領(lǐng)域相關(guān)攻擊途徑、攻擊目標(biāo)、攻擊方法以及防范措施都起到一定的啟示作用。
5 結(jié)束語
本文在網(wǎng)絡(luò)數(shù)據(jù)采集的基礎(chǔ)上,使用自然語言處理技術(shù),設(shè)計了一套信息安全領(lǐng)域高價值信息提取感知策略。首先,加入信息安全領(lǐng)域自定義詞庫,對數(shù)據(jù)進(jìn)行分詞、去停用詞等預(yù)處理過程,利用TextRank算法進(jìn)行關(guān)鍵詞提取,得到高敏價值熱點詞。其次,在關(guān)鍵詞基礎(chǔ)上使用詞共現(xiàn)技術(shù),計算前100個關(guān)鍵詞在數(shù)據(jù)中的共現(xiàn)矩陣,獲取關(guān)鍵詞的語義關(guān)系共現(xiàn)網(wǎng)絡(luò),分析得到重要共現(xiàn)熱點。最后,通過構(gòu)建LDA主題模型,挖掘數(shù)據(jù)中蘊含的各種主題及主題相關(guān)的關(guān)鍵詞,并通過可視化技術(shù)將主題具象化,實現(xiàn)信息安全熱點的精準(zhǔn)識別與感知,達(dá)到輔助研究的目的。
參考文獻(xiàn)
[1] 周德懋, 李舟軍. 高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 計算機科學(xué), 2009, 36(8):26-29.
[2] 羅亞平. 基于用戶瀏覽行為的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)模型研究[D]. 北京郵電大學(xué), 2008.
[3] 劉旭. 基于互聯(lián)網(wǎng)數(shù)據(jù)的話題發(fā)現(xiàn)及追蹤技術(shù)研究與實現(xiàn)[D]. 復(fù)旦大學(xué), 2010.
[4] 孫明溪, 劉春琦. 基于DBSCAN算法與句間關(guān)系的熱點話題發(fā)現(xiàn)研究[J]. 圖書情報工作, 2017(12).
[5] 夏天. 詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2013, 29(9):30-34.
[6] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
作者簡介:
楊立寶(1990-),男,漢族,河北唐山人,北京理工大學(xué),碩士,國家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:大數(shù)據(jù)與信息安全、工業(yè)信息安全。
余章馗(1992-),男,漢族,云南騰沖人,中國人民大學(xué),碩士,國家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:工業(yè)信息安全、工控安全、工業(yè)大數(shù)據(jù)安全。
狄曉曉(1993-),女,漢族,山東萊蕪人,北京航空航天大學(xué),碩士,國家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:工業(yè)信息安全、工業(yè)大數(shù)據(jù)安全。