章 寧
(92497部隊 陵水 572400)
?
短文本的情報價值評估方法研究*
章寧
(92497部隊陵水572400)
摘要社交網(wǎng)絡中的短文本是重要的互聯(lián)網(wǎng)公開情報來源。為了快速判斷短文本的重要程度并進行聚類,論文提出了基于HowNet信息量的情報價值評估方法。與傳統(tǒng)分類方法相比,此算法能更快地計算短文本的重要程度,并提高聚類的效率。
關鍵詞社交網(wǎng)絡; 短文本; 情報價值; HowNet; 信息抽取
Evaluation Method of Intelligence Value of Short Text
ZHANG Ning
(No. 92497 Troops of PLA, Lingshui572400)
AbstractSocial network sites are important source of Internet open intelligence. To judge importance level of short text and classifying them quickly, this paper presents an information evaluating algorithm based on HowNet, which can solve automatic judgment problem of computer more efficiently compared with traditional methods.
Key Wordssocial network, short text, intelligence value, HowNet, information acquisition
Class NumberTP391.7
1引言
微博等社交網(wǎng)站內容短,時效性強,觀點突出。隨著全球移動通信網(wǎng)絡的擴張,這種極度適合手機閱讀的傳播方式繼續(xù)普及,對于各種突發(fā)新聞,社交網(wǎng)絡比CNN等傳媒巨頭更有優(yōu)勢[1]。2015年6月份,國內外各大新聞媒體接連報道:美軍通過分析ISIS(伊斯蘭國,國外恐怖組織)成員在社交網(wǎng)站上發(fā)布的自拍照,定點炸毀了他們的總部大樓[2]。簡短的博文信息完全可以作為商業(yè)競爭或軍事情報的素材。
短文本信息形式是社會生活節(jié)奏加快的必然產物,廣泛學者已經意識到了研究短文本的重要性,針對短文本向量稀疏的特征,目前已經出現(xiàn)了短文本的抽取、過濾、分類、情感傾向性判別的研究[3~7],用到了語義特征抽取[8]、特征權重計算[9]、LDA特征擴展[10~11]、相似度計算[12~13]、本體知識庫[14]等各種頗有成效的算法。然而,這些研究不能有效、快速地量化短文本的信息價值,無法直接應用于軍事情報分析領域。
在互聯(lián)網(wǎng)公開情報分析處理系統(tǒng)中,為了判斷抓取的短文本的重要程度即價值如何,文獻[14]提出了基于本體的信息價值評估算法,以解決短文本的情報價值量化評估問題,然而該算法需多重循環(huán)計算詞語相似度和相關度,嚴重影響了情報處理的效率。論文對信息價值評估算法進行了改進,實驗數(shù)據(jù)證明,本文的算法處理速度更優(yōu)。
2文本價值評估的作用
情報能把戰(zhàn)場不確定性減少到何種程度、情報是否可用、使用這份情報將會帶來多大的風險等都是指揮員十分關心的問題,而解決這些問題的途徑之一就是通過情報評估的方式[15],因此情報評估是制訂作戰(zhàn)計劃和保障指揮的前提。
對于互聯(lián)網(wǎng)公開情報處理系統(tǒng),其抓取的信息重要程度如何,是系統(tǒng)進行自動的信息取舍和數(shù)據(jù)過濾的判斷條件,也是情報人員進行人工分析的判斷依據(jù)。傳統(tǒng)的短文本處理技術沒有價值評估計算,其實質是分類和檢索,即先將海量龐雜的信息分類、有序化,然后通過關鍵詞匹配檢索出可能與情報課題有關的數(shù)據(jù)。本文對文獻[14]提出的文本的信息價值評估算法進行了深入研究和補充,通過計算信息量進行快速量化,力求設計一種公開情報的高效處理方法。
3情報質量評估的一般方法
3.1層次分析法在情報質量評估中的應用
層次分析法(Ana1ytic Hierarchy Process,AHP)是美國匹茲堡大學教授T.L.Saaty于20世紀70年代提出的一種簡便、靈活而又實用的多準則決策方法[15~16]。它是一種對較為模糊或較為復雜的決策問題使用定性與定量分析相結合的手段做出決策的簡易方法,特別是將決策者的經驗判斷給予量化,將人們的思維過程層次化,逐層比較相關因素,逐層檢驗比較結果的合理性,由此提供較有說服力的依據(jù)。很多決策問題通常表現(xiàn)為一組方案的排序問題,這類問題就可以用AHP法解決。其原理是通過兩兩比較相互重量,得出每對重量比的判斷,從而構成判斷矩陣;然后通過求解判斷矩陣的最大特征值λmax和它所對應的特征向量,得出整組的相對重量。在情報質量評估過程中,只要引入合理的標度,也可以用來度量各因素之間的相對重要性,從而為有關決策提供依據(jù)[15]。
運用層次分析法建模,可按下面四個步驟進行: 1) 建立遞階層次結構模型(如圖1所示); 2) 構造出各層次中的所有判斷矩陣; 3) 計算判斷矩陣的最大特征根和特征向量,層次單排序及一致性檢驗; 4) 綜合評估,層次總排序及一致性檢驗。
圖1 情報價值評估的層次結構模型
關于層次分析法評估情報價值的具體步驟可參考文獻[15~16]。根據(jù)實際情況抽象出較為貼切的層次結構是建立情報質量評估指標體系層次結構模型中的難點之一。實際軍事情報工作與軍事情報在作戰(zhàn)指揮中的運用需要專業(yè)人員的參與。如果所選的要素不合理,其含義混淆不清,或要素間的關系不正確,都會降低AHP法的結果質量,甚至導致AHP法決策失敗。
3.2情報的信息價值評估方法
對于傳統(tǒng)的軍事情報,也有對情報價值進行量化的計算[17],如日本學者比野省三的研究表明,情報的價值可以表示為[18]
(1)
式(1)中,E表示情報的價值,是無量綱的數(shù)值;Pi是使用情報時事件發(fā)生的概率;Qi是不使用情報時事件發(fā)生的概率;Ji是使用情報時的收益;Hi是不使用情報時的收益。
該方法無法較好地應用于軍事領域,因為戰(zhàn)爭是對抗性的活動過程,具備極大的不確定性,而這是一個“事后”公式,因此指揮員在決策前,無法確定Pi和Qi。同樣,戰(zhàn)場情況千變萬化,影響作戰(zhàn)最終結果的因素非常多,因此,在作戰(zhàn)的最后結果出現(xiàn)前后,都難以準確判斷使用或不使用情報時的收益或效果,即Ji和Hi。
3.3基于本體的信息價值評估算法
傳統(tǒng)的情報價值評估模型都是針對輔助指揮員作戰(zhàn)決策的戰(zhàn)場情報,對于實現(xiàn)計算機自動處理互聯(lián)網(wǎng)信息已經不再適用。文獻[14]采取了一種基于本體的信息度量方法,其認為存放情報素材的本地數(shù)據(jù)庫是一個封閉的知識庫,抓取的文本的情報價值如何主要取決于其與本地數(shù)據(jù)庫中內容的相似程度與相關程度,它與數(shù)據(jù)庫中的內容越相近,那么情報價值越低,反之則很有可能是新的情報。
為了評估待判斷信息Ix與本地情報數(shù)據(jù)庫中記錄Ii的相關程度和相似程度,即綜合關系,需對Ix中的重要權重詞語進行計算。對于從Ix中提取的命名實體,其與數(shù)據(jù)庫中的記錄Ii中各命名實體間的最大相關度為Rel(Ix,Ii);對于從Ix中提取的重要詞語(名詞或動詞),其與數(shù)據(jù)庫中的記錄Ii中各詞語間的最大相似度為Sim(Ix,Ii),那么綜合關系Sim_Rel(Ix,Ii)與Sim(Ix,Ii)和Rel(Ix,Ii)滿足:
Sim_Rel(Ix,Ii)=Sim(Ix,Ii)+Rel(Ix,Ii)
-Sim(Ix,Ii)×Rel(Ix,Ii)
(2)
待判斷的信息Ix的信息價值V滿足:
V=-logSim_Rel(Ix,Ii)
(3)
該算法說明,當待判斷的文本與本體庫記錄毫無關系,即Sim_Rel(Ix,Ii)=0時,其信息價值V→∞,即很有可能發(fā)現(xiàn)了新的情報,因此應該將該文本入庫,成為新的記錄;當計算的綜合關系Sim_Rel(Ix,Ii)值介于0~1之間時,其信息價值為log1/λ,λ為(0,1)范圍內的一個正實數(shù),數(shù)據(jù)庫中的相應記錄支持度C增加λ,并更新本體庫。
由于需要分別循環(huán)計算命名實體間的相關度和重要詞語的相似度值,因此算法的時間復雜度為O(n4)。
4基于信息量計算的短文本聚類算法
HowNet是一個揭示概念間關系和概念的屬性間的關系的在線知識庫,其分層系統(tǒng)不是簡單地使用一個概念表示一個節(jié)點,對于每一個“義項(概念)”,使用一系列的“義原”來描述?!傲x原”是描述“義項”的基本單位,如圖2所示。
圖2 HowNet中義原的分類層次結構
HowNet 2000版包含55501個中文義項,58582個英文義項和1621個義原。HowNet是一部語義詳盡的規(guī)則詞典,是共享的知識分類系統(tǒng)。根據(jù)文獻[19],信息量計算公式為
(4)
函數(shù)hypo(p)返回給定義原的子節(jié)點數(shù)量,maxhn是義原所存在的分類系統(tǒng)的總數(shù)量,由于HowNet 2000版包含1621個義原,本文取maxhn=1621。
文獻[12]通過實驗證明了這種方法能快速地計算短文本的相似度,并更接近人工語義的判斷值。因此,本文定義短文本的情報價值公式為
(5)
即,計算出短文本中信息量最大的詞語的負對數(shù)函數(shù)值作為該短文本的情報價值,由于該方法的計算主要是比較在HowNet中的語義距離,因此算法只需遍歷一次HowNet詞典,所以復雜度為O(n)。
為了與文獻[14]的算法進行比較,本文嘗試盡量多地從Twitter上抓取關于“白宮”的推文(1000條),然后加入噪聲數(shù)據(jù)(1000條與主題無關的推文),用兩種方法分別從本地數(shù)據(jù)庫中抓取關于“白宮”的短文本,每隔5min記錄一次處理的短文本數(shù)量,實驗結果如表1所示。
表1 短文本抓取記錄
從圖3可以直觀地看出,文獻[14]的算法到45min抓取了984條短文本,召回率為98.4%。而本文改進的算法在25min時就抓取了與主題相關的942條短文本,召回率為94.2%。
圖3 短文本抓取實驗
可見本文的算法效率明顯高于文獻[14]的算法。召回率低于文獻[14]的算法是因為HowNet知識庫本身的結構造成的,隨著知識庫的完善,本文的召回率將會提高。
5結語
2012年倫敦奧運會開幕式在“網(wǎng)絡時代”章節(jié)中展示了社交網(wǎng)絡給人們生活帶來的巨大影響。雖然社交網(wǎng)絡提倡的自由和共享精神給人們的生活帶來了獲取信息的便利,但也存在著泄露個人隱私甚至企業(yè)和國家情報的風險,這也是西方發(fā)達國家將Twitter等社交網(wǎng)站納入其情報網(wǎng)絡的原因。
為了解決短文本的價值評估問題,實現(xiàn)計算機對公開情報的快速處理,本文提出了信息量計算的短文本聚類算法,該算法通過對文本的信息價值計算,能夠比傳統(tǒng)方法更高效地量化短文本的情報價值,這對互聯(lián)網(wǎng)軍事情報處理具有重要意義。
參 考 文 獻
[1] 游彬,劉曉然,李寧,等.社交網(wǎng)絡Twitter的推文抽取技術研究[J].艦船電子工程,2012,32(9):113-115.
[2] ISIS總部被美軍炸毀[EB/OL].網(wǎng)易新聞,(2015-6-4)[2015-06-20].http://news.163.com/15/0604/15/AR9C81D800014AED.html.
[3] 閆瑞,曹先彬,李凱.面向短文本的動態(tài)組合分類算法[J].電子學報,2009,37(5):1019-1024.
[4] 劉伍穎,王挺.基于詞模型索引的短文本在線過濾方法[J].華中科技大學學報(自然科學版),2010,38(4):42-45.
[5] 楊震,賴英旭,段立娟,等.基于上下文重構的短文本情感極性判別研究[J].自動化學報,2012,38(1):55-67.
[6] 黃九鳴,吳泉源,劉春陽,等.短文本信息流的無監(jiān)督會話抽取技術[J].軟件學報,2012,23(4):735-747.
[7] 劉勘,袁蘊英.基于自動編碼器的短文本特征提取及聚類研究[J].北京大學學報(自然科學版),2015,51(2):282-288.
[8] 胡佳妮,郭軍,鄧偉洪,等.基于短文本的獨立語義特征抽取算法[J].通信學報,2007,28(12):121-124.
[9] 馬雯雯,鄧一貴.新的短文本特征權重計算方法[J].計算機應用,2013,33(8):2280-2282,2292.
[10] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.
[11] 呂超鎮(zhèn),姬東鴻,吳飛飛.基于LDA特征擴展的短文本分類[J].計算機工程與應用,2015,51(4):123-127.
[12] 游彬,嚴岳松,孫英閣,等.基于HowNet的信息量計算語義相似度算法[J].計算機系統(tǒng)應用,2013,22(1):129-133.
[13] YOU Bin, LIU Xiao-ran, LI Ning, et al. Using Information Content to Evaluate Semantic Similarity on HowNet[C]//2012 International Conference on Computational Intelligence and Security(ICCIS 2012), Guangzhou China,2012:142-145.
[14] 吳克啟,孫江磊,王忠思.基于本體的文本信息價值評估研究[J].艦船電子工程,2014,34(6):60-63.
[15] 王海,程立斌.層次分析法在軍事情報質量評估中的應用[J].情報方法,2005,12:25-28.
[16] 余力,岳振軍.軍事情報價值評估方法[J].火力與指揮控制,2011,36(5):173-176.
[17] 劉姝麗,韓中庚,谷玉.軍事情報信息價值的度量方法[J].軍事運籌與系統(tǒng)工程,2006,20(4):52-56.
[18] 伍曉華,林春應.對軍事情報價值度量的一種方法[J].情報方法,2006,2:65-68.
[19] N. Seco, T. Veale, J. Hayes. An intrinsic information content metric for semantic similarity in WordNet[C]//Proceedings of ECAI,2004:1089-1090.
中圖分類號TP391.7
DOI:10.3969/j.issn.1672-9730.2016.01.030
作者簡介:章寧,女,工程師,研究方向:通信與信息系統(tǒng)、信息安全。
*收稿日期:2015年7月3日,修回日期:2015年8月24日