徐建忠 朱 俊 趙 瑞 張 亮
1(杭州世平信息科技有限公司 杭州 310012)2(西昌衛(wèi)星發(fā)射中心 海南文昌 571300)3(裝甲兵工程學(xué)院 北京 100072)
基于新聞流的信息安全事件發(fā)現(xiàn)
徐建忠1朱 俊2趙 瑞3張 亮1
1(杭州世平信息科技有限公司 杭州 310012)2(西昌衛(wèi)星發(fā)射中心 海南文昌 571300)3(裝甲兵工程學(xué)院 北京 100072)
(xujz@shipinginfo.com)
隨著互聯(lián)網(wǎng)的廣泛普及,人們可以更方便地從網(wǎng)絡(luò)上獲取信息,甚至隨時(shí)隨地都可以通過網(wǎng)絡(luò)同外界進(jìn)行交互.方便獲取信息的同時(shí)也帶了諸如信息泄露、賬戶密碼失竊等安全問題,因此信息安全越來越受到大眾的關(guān)注.網(wǎng)絡(luò)新聞作為時(shí)下的主流媒體之一,其中包含了大量人們關(guān)注的問題,包括近期發(fā)生的各種信息安全事件等.然而,這些信息往往淹沒在海量的網(wǎng)絡(luò)文檔中,大眾難以快速了解近期國(guó)內(nèi)外發(fā)生的關(guān)于信息安全的大事件.因此,建立一種自動(dòng)發(fā)現(xiàn)梳理信息安全事件的方法具有一定的現(xiàn)實(shí)意義.將單個(gè)句子作為表述“信息安全事件”的單元,應(yīng)用機(jī)器學(xué)習(xí)算法判斷句子中是否包含“信息安全事件”相關(guān)信息,從新聞文檔中抽取出包含“信息安全事件”內(nèi)容的句子作為所需要的結(jié)果.通過人工構(gòu)建訓(xùn)練數(shù)據(jù)集、句子特征設(shè)計(jì)和支持向量機(jī)(support vector machine, SVM)模型訓(xùn)練,建立了一種自動(dòng)從新聞文檔中抽取“信息安全事件”相關(guān)句子的方法.實(shí)驗(yàn)結(jié)果表明,該方法在信息安全事件的發(fā)現(xiàn)方面有著較高的準(zhǔn)確率和召回率,驗(yàn)證了所提方法的有效性.
信息安全;安全事件;支持向量機(jī);特征設(shè)計(jì);事件抽取
互聯(lián)網(wǎng)的廣泛普及極大地方便了人們的工作和生活,讓人們幾乎隨時(shí)隨地都能獲取各種信息,同時(shí)也引發(fā)人們對(duì)于信息安全的擔(dān)憂.新聞中報(bào)道的信息安全問題事件,例如信息泄露、黑客攻擊等很容易吸引大眾的注意,并引起廣泛關(guān)注.然而,信息安全相關(guān)內(nèi)容往往淹沒在海量的網(wǎng)絡(luò)文檔中,讓大眾難以快速了解近期發(fā)生的信息安全相關(guān)內(nèi)容.因此,對(duì)網(wǎng)絡(luò)文檔進(jìn)行信息挖掘和抽取,從中自動(dòng)獲取信息安全事件,讓讀者快速定位感興趣的安全事件,已成為當(dāng)前信息安全領(lǐng)域研究的一個(gè)重要組成部分.
信息安全作為當(dāng)前一個(gè)研究熱點(diǎn),包含諸多方面的研究進(jìn)展.如:陳訓(xùn)遜等人[1]針對(duì)以傳輸特定信息為目的的信息滲透的檢測(cè)技術(shù)研究;Fang等人[2]針對(duì)網(wǎng)絡(luò)信息內(nèi)容安全的控制模型及評(píng)估框架研究;萬源[3]基于文本內(nèi)容的事件分類技術(shù)以及通過對(duì)多媒體內(nèi)容的識(shí)別發(fā)現(xiàn)其中隱藏的安全事件;等等.信息安全事件抽取以事件抽取技術(shù)為基礎(chǔ),國(guó)內(nèi)外學(xué)者在事件抽取領(lǐng)域取得了很多研究成果.
事件抽取的本質(zhì)是把含有事件信息的非結(jié)構(gòu)化文本轉(zhuǎn)換成結(jié)構(gòu)化的文檔,其在自動(dòng)文摘、自動(dòng)問答、信息檢索等領(lǐng)域有著比較廣泛的應(yīng)用.Hai等人[4]將最大熵分類算法應(yīng)用于事件抽取研究中,用于識(shí)別事件的元素,取得了比較不錯(cuò)的提取效果.David[5]將MegaM和Timbl兩種機(jī)器學(xué)習(xí)方法分別應(yīng)用于事件抽取中事件類別識(shí)別和事件元素識(shí)別2個(gè)方面, 在 ACE英文語(yǔ)料上均取得了不錯(cuò)的效果.
另外,在社交媒體中信息抽取和事件識(shí)別技術(shù)的應(yīng)用也十分廣泛[6].Benson等人[7]利用長(zhǎng)距離監(jiān)督方法訓(xùn)練了位置信息的提取器,用于識(shí)別紐約市中通過Twitter發(fā)布自身信息的藝術(shù)家及其住址.Ritter等人[8]提出了一種從Twitter中抽取信息安全事件的弱監(jiān)督方法.
本文針對(duì)安全事件發(fā)現(xiàn)這一問題,應(yīng)用基于機(jī)器學(xué)習(xí)算法的事件抽取技術(shù),通過對(duì)新聞文本中的信息進(jìn)行分析,從中自動(dòng)獲取安全相關(guān)事件,以幫助讀者快速了解近期發(fā)生的安全相關(guān)事件.實(shí)驗(yàn)結(jié)果表明,本文提出的方法從新聞流中進(jìn)行安全事件發(fā)現(xiàn)取得了良好的效果.
新聞中的安全事件基本上在單個(gè)句子中就可以進(jìn)行完整表述,因此,本文將新聞進(jìn)行句子切分,然后針對(duì)單個(gè)句子進(jìn)行分析,判斷該句子是否為表述安全事件的句子.通過機(jī)器學(xué)習(xí)方法,可將新聞中安全事件發(fā)現(xiàn)問題轉(zhuǎn)換成單個(gè)句子的二分類問題,即分類為正例的句子,就是所需要的安全事件信息.具體方法路線如圖1所示.
圖1 新聞安全事件發(fā)現(xiàn)方法路線
首先,從“百度新聞”中獲取新聞文本,進(jìn)行句子切分(sentence split),并進(jìn)行人工閱讀標(biāo)注(包含安全事件信息的句子標(biāo)注為正例,不包含安全事件信息的句子標(biāo)注為反例),構(gòu)建訓(xùn)練數(shù)據(jù)集;然后,根據(jù)包含安全事件信息句子的特點(diǎn),設(shè)計(jì)特征向量,將文本句子進(jìn)行向量化;接著,選取適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法完成模型訓(xùn)練;最后,通過交叉驗(yàn)證,評(píng)價(jià)方法的有效性.
2.1 訓(xùn)練數(shù)據(jù)構(gòu)建
構(gòu)建訓(xùn)練數(shù)據(jù)集是基于機(jī)器學(xué)習(xí)方法的基礎(chǔ),本文通過人工閱讀新聞材料,標(biāo)注完成訓(xùn)練數(shù)據(jù)集的構(gòu)建.首先,從“百度新聞”中搜索抓取800篇“安全”相關(guān)新聞文檔正文,采用IKanalyzer工具包中的分句模塊將新聞切分成單個(gè)句子.然后,通過人工閱讀新聞句子,將包含安全事件的句子標(biāo)注為正例(用數(shù)字1表示),不包含安全事件的句子標(biāo)注為反例(用數(shù)字0表示).人工標(biāo)注結(jié)果如表1所示:
表1 人工標(biāo)注結(jié)果統(tǒng)計(jì)
由表1可知,人工標(biāo)注的正例遠(yuǎn)遠(yuǎn)少于反例,直接將標(biāo)注結(jié)果用于模型訓(xùn)練會(huì)造成訓(xùn)練數(shù)據(jù)的不平衡.因此,我們參考了一種平衡訓(xùn)練數(shù)據(jù)的方法[9],隨機(jī)從反例中選取出與正例數(shù)目相當(dāng)?shù)木渥?,讓?xùn)練數(shù)據(jù)集中的正例和反例樣本基本平衡,具體數(shù)目如表2所示:
表2 訓(xùn)練數(shù)據(jù)集正例與反例數(shù)目
2.2 特征設(shè)計(jì)
設(shè)計(jì)合適的特征將待分類的句子表示成向量,對(duì)模型的效果有重要影響.針對(duì)本文的任務(wù),通過對(duì)正例與反例的句子進(jìn)行分析,設(shè)計(jì)了如下5維特征(如表3所示):
1) 時(shí)間標(biāo)示
表述安全事件的句子往往會(huì)在句子中表述時(shí)間,例如“當(dāng)?shù)貢r(shí)間3月25日,美國(guó)司法部總檢察長(zhǎng)Loretta E. Lynch指控稱,7名伊朗黑客曾對(duì)美國(guó)企業(yè)、主要金融機(jī)構(gòu)發(fā)動(dòng)DDoS攻擊,并入侵了紐約鮑曼水壩的計(jì)算機(jī)控制系統(tǒng).”時(shí)間標(biāo)示是表征事件的一個(gè)重要特征.本文通過模式進(jìn)行時(shí)間標(biāo)示的識(shí)別,如果句子中出現(xiàn)形如“[XXXX年]XX月XX日”的模式,則將該維特征設(shè)置為1,反之設(shè)置為0.
2) 命名實(shí)體
新聞中的安全事件在表述“某地方或某公司發(fā)生安全相關(guān)事件”時(shí),一般會(huì)涉及到人名、地名、機(jī)構(gòu)名等命名實(shí)體.例如,“黑客組織有聯(lián)系的黑客對(duì)美國(guó)國(guó)家航空航天局(NASA)進(jìn)行了攻擊”.因此,命名實(shí)體是識(shí)別安全事件的重要特征.本文采用StanfordNLP工具包中的命名實(shí)體識(shí)別(NER)工具[10],將句子中是否識(shí)別出人名、地名或機(jī)構(gòu)名作為一維特征.如果句子中識(shí)別出命名實(shí)體,則將改維特征表示為1,反之表示為0.
3) “信息安全”相關(guān)關(guān)鍵詞
表述信息安全事件的句子中一般會(huì)包含“信息安全”相關(guān)的詞語(yǔ),例如“賬戶被盜”、“DoDS攻擊”、“信息泄露”、“黑客”等.本文以“維基詞條”為基礎(chǔ),通過搜索“維基詞條知識(shí)圖譜”中“信息安全”相關(guān)詞條,構(gòu)成關(guān)鍵詞詞表.若句子中出現(xiàn)詞表中的關(guān)鍵詞,則該維特征表示為1.
4) 句子長(zhǎng)度
句子長(zhǎng)度(字?jǐn)?shù))作為句子本身屬性,可以輔助判斷信息安全事件.因?yàn)榫渥釉诒硎鲂畔踩录r(shí),需要說明的“時(shí)、地、人、事”等信息相對(duì)較多,句子一般需要更多的詞語(yǔ)進(jìn)行描述,所以將句子的長(zhǎng)度(字?jǐn)?shù))作為一維特征.
5) 句子位置
新聞寫作中重要的信息一般會(huì)放在文章的開頭部分,如果一篇新聞文章主要是描述“信息安全”相關(guān)問題,難么在文章的前面部分很可能涉及到“信息安全事件”.因此,將句子在文中的位置作為特征可以輔助判別該句是否包含“信息安全事件”.假設(shè)文本的總句數(shù)為N,以新聞?wù)牡?句編號(hào)為1,第2句為2,以此類推.那么第n句在新聞中的位置可以表示成nN.
表3 特征設(shè)計(jì)說明
2.3 模型選擇
機(jī)器學(xué)習(xí)算法包括很多:貝葉斯概率模型、決策樹、最近鄰、人工神經(jīng)網(wǎng)、回歸模型和支持向量機(jī)等等.樸素貝葉斯算法[11]通過計(jì)算向量被分類到2個(gè)類別中的概率值,從而決定分類結(jié)果.支持向量機(jī)(support vector machine, SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,Vapnik于1995年提出[12],該算法在分類領(lǐng)域有著廣泛的應(yīng)用.鑒于樸素貝葉斯算法和SVM算法在諸多領(lǐng)域有著良好的應(yīng)用效果,針對(duì)本文的實(shí)際問題,比較了樸素貝葉斯模型(Na?ve Bayes)和支持向量機(jī)算法(SVM)2種算法在“信息安全事件發(fā)現(xiàn)”中的效果,選擇二者中效果更好的算法作為最終模型.
本文選取了準(zhǔn)確率(Precision)、召回率(Recall)和F值3個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn),其表達(dá)式為:
其中,TPc表示真正例(正確分類成c類的句子數(shù))、FPc表示假正例(錯(cuò)誤分類成c類的句子數(shù))、FNc表示假反例(屬于c類但分類器并沒將其分到c類的句子數(shù)).
3.1 模型效果比較
為了選擇合適的分類模型,本文采用了5倍交叉驗(yàn)證的方法,即重復(fù)5次實(shí)驗(yàn),每次隨機(jī)選擇訓(xùn)練數(shù)據(jù)集的15作為測(cè)試集,其余作為訓(xùn)練數(shù)據(jù),將5次的平均交叉驗(yàn)證識(shí)別準(zhǔn)確率和召回率作為結(jié)果.同時(shí),本文在實(shí)際中采用了WEKA[13]和libSVM[14]的分類器實(shí)現(xiàn),比較了樸素貝葉斯和SVM模型2種算法的優(yōu)劣,實(shí)驗(yàn)結(jié)果如表4所示:
表4 “信息安全事件”發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果 %
對(duì)于SVM分類器,本文采取了高斯徑向函數(shù)作為核函數(shù),優(yōu)化其C和γ兩個(gè)參數(shù)可以進(jìn)一步提高性能.比較C和γ在各種不同取值下的準(zhǔn)確率,當(dāng)C=2,γ=0.125時(shí),分類準(zhǔn)確率最高達(dá)到81.3%.因此在實(shí)際模型構(gòu)建中采用了SVM算法.
3.2 安全事件發(fā)現(xiàn)性能比較分析
為了進(jìn)一步驗(yàn)證本文所提方法在“信息安全事件”發(fā)現(xiàn)中的有效性,將本文方法同Ritter等人[8]提出的從Twitter中抽取信息安全事件的方法進(jìn)行了比較.
首先,通過人工標(biāo)注的方式從新聞句子流中標(biāo)注100句正例和100句反例作為測(cè)試數(shù)據(jù)集.然后,比較本文方法與Ritter等人提出方法在測(cè)試數(shù)據(jù)集上的效果,結(jié)果如表5所示:
表5 對(duì)比實(shí)驗(yàn)結(jié)果 %
從表5可以看出,本文提出的方法在新聞流信息安全事件發(fā)現(xiàn)中的效果優(yōu)于Ritter的信息安全事件抽取方法.初步分析其原因在于,Ritter的方法主要針對(duì)的是Twitter文本,Twitter文本與新聞文本相比,文本更短,寫作更為自由,因此包含有更高的噪音數(shù)據(jù).而本文提出的方法根據(jù)新聞的寫作特點(diǎn)設(shè)計(jì)特征,在數(shù)據(jù)分析處理上更有針對(duì)性,因此在新聞流安全事件發(fā)現(xiàn)中取得了更為良好的效果.
本文將新聞流中信息安全事件發(fā)現(xiàn)問題轉(zhuǎn)換成對(duì)單個(gè)句子的分類問題進(jìn)行處理.通過構(gòu)建訓(xùn)練數(shù)據(jù)集、設(shè)計(jì)特征向量,訓(xùn)練SVM模型實(shí)現(xiàn)了對(duì)新聞流中“信息安全事件”的自動(dòng)識(shí)別和抽取.實(shí)驗(yàn)結(jié)果表明,本文提出的方法與已有相關(guān)方法相比在準(zhǔn)確率和召回率方面都能取得不錯(cuò)的效果,驗(yàn)證了設(shè)計(jì)的特征和模型的有效性,具備一定的應(yīng)用前景.
[1]陳訓(xùn)遜, 方濱興, 胡銘曾, 等. 一個(gè)網(wǎng)絡(luò)信息內(nèi)容安全的新領(lǐng)域——網(wǎng)絡(luò)信息滲透檢測(cè)技術(shù)[J]. 通信學(xué)報(bào), 2004, 25(7): 185-191
[2]Fang B X, Guo Y C, Zhou Y. Information content security on the Internet: The control model and its evaluation[J]. Science China: Information Sciences, 2010, 53(1): 30-49
[3]萬源. 基于語(yǔ)義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D]. 武漢: 武漢理工大學(xué), 2012
[4]Hai L, Hwee T. A maximum entropy approach to information extraction from semi-structured and free text[C] //Proc of the 18th National Conf on Artificial Intelligence. Berlin: Springer, 2002: 786-791
[5]David A. The stages of event extraction[C] // Proc of the Workshop on Annotations and Reasoning about Time and Events. Berlin: Springer, 2006: 1-8
[6]Guo W, Li H, Ji H. Linking tweets to news: A framework to enrich short text data in social media[C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Berlin: Springer, 2013: 239-249
[7]Benson E, Haghighi A, Barzilay R. Event discovery in social media feeds[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Piscataway, NJ: IEEE, 2011: 87-97
[8]Ritter A, Wright E, Casey W H, et al. Weakly supervised extraction of computer security events from twitter[C] //Proc of the 24th Int Conf on World Wide Web (WWW’15). New York: ACM, 2015: 896-905
[9]Huang C, Tian Y, Zhou Z. Keyphrase extraction using semantic networks structure analysis [C]//Proc of the 6th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2006: 275-284
[10]Jenny R, Trond G, Christopher M. Incorporating non-local information into information extraction systems by gibbs sampling[EB/OL]. (2005-09-28) [2016-03-12]. http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf
[11]Chickering D, Heckerman D, Meek C. A Bayesian approach for learning Bayesian networks with local structure[C] //Proc of the 13th Conf on Uncertainty in Artificial Intelligence. Los Angeles: Morgan Kaufmann, 1997: 80-89
[12]Schutze H, Hull D, Pedersen J. A comparison of classifiers and document representations for the routing problem[C] //Proc of the 18th ACM Int Conf on Research and Development in Information Retrieval. New York: ACM, 1995: 229-237
[13]Holmes G, Donkin A, Witten I H. WEKA: A machine learning workbench[C] //Proc of the 2nd Australia and New Zealand Conf on Intelligent Information Systems. Piscataway, NJ: IEEE, 1994: 357-361
[14]Chang C C, Lin C J. LIBSVM: A library for support vector machines [J]. ACM Trans on Intelligent Systems Technology, 2011, 2(3): 27-29
徐建忠
本科,工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全.
xujz@shipinginfo.com
朱 俊
碩士,工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘、信息處理.
cqzhujun@126.com
趙 瑞
本科,助理館員,主要研究方向?yàn)閳D書情報(bào).
413383664@qq.com
張 亮
碩士,工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全.
zhangl@shipinginfo.com
Information Security Events Discovery Based on News Flow
Xu Jianzhong1, Zhu Jun2, Zhao Rui3, and Zhang Liang1
1(HangzhouShipingInformation&TechnologyCo,Ltd,Hangzhou310012)2(XichangSatelliteLaunchCenter,Wenchang,Hainan751300)3(AcdemyofArmoredForcesEngineering,Beijing100072)
With the popularity of the Internet, people can more easily obtain information from the network and interact with the outside world via the Web in anytime or anywhere. With the access to information easily, security issues come out, such as information disclosure, account passwords stolen and so on, which rise more and more public concern on information security. Nowadays Web news is one of main social media, which contains a large number of public concerning issues, such as information security events. However, security information is often buried in the mass of Web documents, making it inconvenient to quickly obtain recent information security events for readers. Therefore, establishing a method to automatic extracting information security events is significant. In this paper, we regard single sentence as “information security” unit, applying machine learning algorithm to determine whether a sentence containing “information security events” or not. Sentences containing “information security events” are extracted from news documents as the desired results. Via manual training data construction, sentence feature designing and support vector machine (SVM) model training, we propose an automatic method to extract “information security” related sentences from news documents. Experiment result show that, the method discussed in this paper get high precision and recall in information security events discovery, which verify the effectiveness of proposed method.
information security; security events; support vector machine (SVM); feature design; events extraction
2016-10-14
TP309