吳克啟 孫江磊 王忠思
(1.海軍蚌埠士官學(xué)校三系 蚌埠 233012)(2.海軍蚌埠士官學(xué)校訓(xùn)練部 蚌埠 233012)
隨著網(wǎng)絡(luò)的普及,互聯(lián)網(wǎng)已成為重要的公開(kāi)情報(bào)信息源。對(duì)于互聯(lián)網(wǎng)信息處理系統(tǒng),其抓取的信息的重要程度如何,是系統(tǒng)進(jìn)行自動(dòng)的信息取舍和數(shù)據(jù)過(guò)濾的判斷條件,也是信息檢索、輿情或情報(bào)人員進(jìn)行人工分析的判斷依據(jù)[1]。面對(duì)互聯(lián)網(wǎng)上的海量信息,傳統(tǒng)的互聯(lián)網(wǎng)信息處理技術(shù)沒(méi)有價(jià)值評(píng)估計(jì)算,其實(shí)質(zhì)是分類(lèi)和檢索[2~3],即先將海量龐雜的信息分類(lèi)、有序化,然后通過(guò)語(yǔ)義擴(kuò)展后的關(guān)鍵詞匹配檢索出可能與主題有關(guān)的數(shù)據(jù)[4~6]。雖然分類(lèi)和檢索能通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)的管理,但是反饋給用戶的仍然是原始的網(wǎng)頁(yè)或是文本數(shù)據(jù),實(shí)際上未經(jīng)過(guò)對(duì)內(nèi)容的分析,分析工作仍然是由用戶完成。
傳統(tǒng)的互聯(lián)網(wǎng)信息處理技術(shù)不能實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)分析處理的一個(gè)重要原因,就是未能從語(yǔ)義層次實(shí)現(xiàn)對(duì)抓取的信息進(jìn)行文本價(jià)值的判斷,從而無(wú)法利用抓取的信息來(lái)反饋新的抓取任務(wù)[7]。鑒于傳統(tǒng)的數(shù)據(jù)挖掘輔助情報(bào)處理技術(shù)都缺乏文本信息價(jià)值評(píng)估的方法,論文對(duì)此進(jìn)行了補(bǔ)充和深入的研究,并根據(jù)人工評(píng)估的原則設(shè)計(jì)了一種基于語(yǔ)義的評(píng)估方法。
在情報(bào)質(zhì)量評(píng)估方面,美國(guó)匹茲堡大學(xué)教授T.L.Saaty曾于上世紀(jì)提出層次分析法(Ana1ytic Hierarchy Process,AHP)[8]。這種方法具有一定局限。實(shí)際軍事情報(bào)工作與軍事情報(bào)在作戰(zhàn)指揮中的運(yùn)用需要專(zhuān)業(yè)人員的參與。如果所選的要素不合理,其含義混淆不清,或要素間的關(guān)系不正確,都會(huì)降低AHP法的結(jié)果質(zhì)量,甚至導(dǎo)致AHP法決策失敗[9]。
對(duì)于傳統(tǒng)的軍事情報(bào),還有一些對(duì)情報(bào)價(jià)值進(jìn)行量化和度量的計(jì)算公式,如日本學(xué)者比野省三認(rèn)為,情報(bào)的價(jià)值可以描述為[10]
其中,E表示情報(bào)的價(jià)值,是個(gè)無(wú)量綱的數(shù)值;Pi是使用情報(bào)時(shí)發(fā)生的概率;Qi是不使用情報(bào)時(shí)發(fā)生的概率;Ji是使用情報(bào)時(shí)的收益或效果;Hi是不使用情報(bào)時(shí)的收益或效果。
式(1)因?yàn)閮蓚€(gè)主要原因而無(wú)法較好地應(yīng)用于軍事領(lǐng)域:1)這是一個(gè)“事后”公式,因此指揮員在決策前,無(wú)法確定Pi和Qi;2)戰(zhàn)爭(zhēng)是對(duì)抗性的活動(dòng)過(guò)程,具備極大的不確定性。因此,文獻(xiàn)[10]使用情報(bào)的平均信息量來(lái)度量情報(bào)價(jià)值,并且對(duì)于第二條相似的情報(bào),應(yīng)考慮其驗(yàn)證價(jià)值,所以一條情報(bào)的價(jià)值應(yīng)為自身信息量與之前所有相似情報(bào)信息量的差值:
并且,考慮情報(bào)的驗(yàn)證價(jià)值后,即使后到的情報(bào)與之前的非常相似,使得ΔHn≈0,仍不能否定其價(jià)值,而應(yīng)該認(rèn)為它的價(jià)值更多的體現(xiàn)在對(duì)前面已經(jīng)擁有的情報(bào)的驗(yàn)證上。因此,情報(bào)的價(jià)值等于自身信息價(jià)值與驗(yàn)證價(jià)值的和:
式(5)中的Yn為第n條信息的驗(yàn)證價(jià)值。圖2顯示了對(duì)同一事件(目標(biāo))先后產(chǎn)生的情報(bào),其所起到的驗(yàn)證作用是不一樣的。
圖1中,驗(yàn)證指數(shù)指的是情報(bào)得到驗(yàn)證的程度,代表指揮員對(duì)情報(bào)的信心,即情報(bào)的主觀可信度。從圖1中可以看出,隨著情報(bào)數(shù)量的不斷增加,情報(bào)的驗(yàn)證指數(shù)也在不斷上升,但上升的趨勢(shì)逐漸變緩,最終接近但無(wú)法達(dá)到100%。
圖1 情報(bào)的驗(yàn)證曲線
傳統(tǒng)的情報(bào)價(jià)值評(píng)估模型都是針對(duì)輔助指揮員作戰(zhàn)決策的戰(zhàn)場(chǎng)情報(bào),對(duì)于實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)處理互聯(lián)網(wǎng)信息已經(jīng)不再適用??紤]到信息與目標(biāo)的相關(guān)程度和與已掌握情報(bào)的相似程度是反映信息價(jià)值的兩大因素。論文采取了一種信息度量方法—基于本體的信息量?jī)r(jià)值評(píng)估算法。
基于本體的信息價(jià)值評(píng)估算法認(rèn)為存放情報(bào)素材的本地?cái)?shù)據(jù)庫(kù)是一個(gè)封閉的知識(shí)庫(kù),抓取的文本的情報(bào)價(jià)值如何,主要取決于其與本地?cái)?shù)據(jù)庫(kù)中內(nèi)容的相似程度與相關(guān)程度,它與數(shù)據(jù)庫(kù)中的內(nèi)容越相近,情報(bào)價(jià)值越低,反之則很有可能是新的情報(bào)。
定義1 數(shù)據(jù)庫(kù)記錄:設(shè)情報(bào)數(shù)據(jù)庫(kù)為集合D={I1,I2,…,In},其中Ii表示第i條記錄,Ii也是一個(gè)集合,Ii={{NE1,NE2,…,NEm},{N1,N2,…,Nn},{V1,V2,…,Vk}},即命名實(shí)體、名詞和動(dòng)詞的集合。
定義2 最短路徑:設(shè)X、Y是本體結(jié)構(gòu)的任意兩個(gè)結(jié)點(diǎn),Min(X,Y)表示從X到Y(jié)的最短路徑長(zhǎng)度,當(dāng)X、Y 不連通時(shí),Min(X,Y)的值為∞。
定義3 相關(guān)度:在某一本體中,任意兩個(gè)概念間的相關(guān)度計(jì)算公式如式(6)[11]:
式(6)是關(guān)聯(lián)挖掘領(lǐng)域的通用公式,其中ω是一個(gè)可以調(diào)節(jié)的參數(shù),即相關(guān)度為0.5時(shí)概念間的最短路徑,論文的實(shí)驗(yàn)取ω=2。對(duì)于命名實(shí)體間的相關(guān)度Rel(Ix,Ii)的計(jì)算方法,可以用如圖2所示的本體結(jié)構(gòu)說(shuō)明。
圖2 一個(gè)關(guān)于飛機(jī)的本體
在圖2中,根據(jù)式(6)計(jì)算出的飛機(jī)與其他詞語(yǔ)間的相關(guān)度見(jiàn)表1。
表1 本體概念間的相關(guān)度
從表1中可以看出,飛機(jī)與747、波音、FA728間的相關(guān)度為0是不合理的,這是由于構(gòu)建的本體沒(méi)有描述它們之間的關(guān)系,但是若這些命名實(shí)體出現(xiàn)在同一文本中時(shí),根據(jù)論文提出的價(jià)值評(píng)估算法(定義5),這種關(guān)系將作為新的情報(bào)被更新至本體庫(kù),那么更新后的相關(guān)度計(jì)算值也將更新為0.8。
定義4 綜合關(guān)系:概念相似度表示兩詞語(yǔ)間的語(yǔ)義相似程度。目前關(guān)于相似度計(jì)算的研究較多,論文采用的是文獻(xiàn)[5]改進(jìn)的Philip Resnik算法[6]:
根據(jù)Resnik的思想,兩概念間的語(yǔ)義相似度等于它們間共有的信息含量,即最詳盡的共同抽象(Most Specific Common Abstraction,MSCA)父概念的信息量。式(7)中,S(c1,c2)表示包含子節(jié)點(diǎn)c1和c2的概念集。
為了評(píng)估待判斷信息Ix與本地情報(bào)數(shù)據(jù)庫(kù)中記錄Ii的相關(guān)程度和相似程度,即綜合關(guān)系,需對(duì)Ix中的重要權(quán)重詞語(yǔ)進(jìn)行計(jì)算。對(duì)于從Ix中提取的命名實(shí)體,其與數(shù)據(jù)庫(kù)中的記錄Ii中各命名實(shí)體間的最大相關(guān)度為Rel(Ix,Ii);對(duì)于從Ix中提取的重要詞語(yǔ)(名詞或動(dòng)詞),其與數(shù)據(jù)庫(kù)中的記錄Ii中各詞語(yǔ)間的最大相似度為Sim(Ix,Ii),那么綜合關(guān)系Sim_Rel(Ix,Ii)與 Sim(Ix,Ii)和 Rel(Ix,Ii)滿足:
若從Ix中提取的命名實(shí)體或重要詞語(yǔ)有多個(gè),則分別計(jì)算后取算術(shù)平均值作為Rel(Ix,Ii)或Sim(Ix,Ii)。如果相似度與相關(guān)度均在[0,1]之間取值,且D表示本地情報(bào)數(shù)據(jù)庫(kù)的集合,那么Sim_Rel(Ix,Ii)的取值滿足:
定義5 信息價(jià)值:待判斷的信息Ix的信息價(jià)值V滿足:
在某一時(shí)間段,實(shí)驗(yàn)嘗試盡量多地從國(guó)外著名社交網(wǎng)Twitter上抓取與關(guān)鍵詞“Obama”有關(guān)的推文(微博)[12]然后通過(guò)論文的價(jià)值評(píng)估方法,計(jì)算出抓取的推文的信息價(jià)值,用以引導(dǎo)進(jìn)一步的信息抓取,抓取與計(jì)算界面如圖3和圖4所示。抓取的推文的統(tǒng)計(jì)情況如表2所示。
圖3 抓取的Twitter信息數(shù)據(jù)庫(kù)界面
圖4 計(jì)算抓取的文本價(jià)值界面
表2 推文綜合關(guān)系的統(tǒng)計(jì)結(jié)果
這是對(duì)抓取的600條推文的綜合關(guān)系統(tǒng)計(jì)結(jié)果,綜合關(guān)系小于0.5的248條推文是情報(bào)主題數(shù)據(jù)庫(kù)中沒(méi)有記錄的關(guān)于“Obama”的情報(bào)(論文沒(méi)有考慮情報(bào)的真實(shí)性辨別問(wèn)題),大于或等于0.5的265條推文是與情報(bào)主題數(shù)據(jù)庫(kù)中語(yǔ)義相近的情報(bào)。
將綜合關(guān)系小于0.5的248條推文的命名實(shí)體加入情報(bào)課題數(shù)據(jù)庫(kù)的關(guān)鍵詞表,再抓取300條推文,計(jì)算出綜合關(guān)系的統(tǒng)計(jì)結(jié)果如表3所示。
表3 更新情報(bào)課題數(shù)據(jù)庫(kù)的關(guān)鍵詞后的統(tǒng)計(jì)結(jié)果
更新情報(bào)課題數(shù)據(jù)庫(kù)后的統(tǒng)計(jì)結(jié)果顯示,將抓取的推文經(jīng)過(guò)分析處理并反饋至情報(bào)課題后,再次引導(dǎo)Twitter爬蟲(chóng)抓取到的新內(nèi)容減少,而與本地推文記錄相似的內(nèi)容則有大幅度增加的趨勢(shì),這是因?yàn)槊看巫ト《紩?huì)將新的內(nèi)容更新至情報(bào)課題數(shù)據(jù)庫(kù),隨著本地?cái)?shù)據(jù)庫(kù)對(duì)目標(biāo)掌握的情報(bào)越來(lái)越多,之后抓取的信息多半是已有記錄的重復(fù)。傳統(tǒng)方法由于無(wú)法評(píng)估為有價(jià)值的信息,因此無(wú)法抓取這部分內(nèi)容。
為了解決抓取的文本的價(jià)值評(píng)估問(wèn)題,實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)取舍與統(tǒng)計(jì)分析,提出了基于本體的信息價(jià)值評(píng)估算法,該方法同時(shí)考慮了待判斷信息的情報(bào)價(jià)值和驗(yàn)證價(jià)值以及包含的語(yǔ)義信息,通過(guò)對(duì)文本的信息價(jià)值計(jì)算,能夠自動(dòng)評(píng)估該信息的情報(bào)價(jià)值或是驗(yàn)證價(jià)值的大小,是下一步實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)進(jìn)行分析處理、構(gòu)建情報(bào)網(wǎng)絡(luò)的基礎(chǔ)。
[1]王國(guó)順,孫四明,張峰.基于本體的個(gè)性化信息檢索技術(shù)研究[J].計(jì)算機(jī)仿真,2013,30(7):421-423.
[2]徐建民,朱松,陳富節(jié).術(shù)語(yǔ)相似度和術(shù)語(yǔ)相關(guān)度在檢索模型中的融合研究[J].計(jì)算機(jī)應(yīng)用,2007,27(12):3013-3015.
[3]劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-12.
[4]姚佳岷,楊思春.改進(jìn)的本體概念相似度計(jì)算模型[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1579-1585.
[5]YOU Bin,LIU Xiaoran,LI Ning,et al.Using information content to evaluate semantic similarity on How-Net[C]//2012International Conference on Computational Intelligence and Security(ICCIS 2012),Guangzhou China,2012:142-145.
[6]P.RESNIK.Information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of IJCAI,1995:448-453.
[7]林麗,薛方,任仲晟.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2009,29(1):217-220.
[8]習(xí)守成,龐聰,金開(kāi).基于AHP的對(duì)空警戒雷達(dá)作戰(zhàn)效能分析[J].電子對(duì)抗,2013(3):7-9.
[9]余力,岳振軍.軍事情報(bào)價(jià)值評(píng)估方法[J].火力與指揮控制,2011,36(5):173-176.
[10]劉姝麗,韓中庚,谷玉.軍事情報(bào)信息價(jià)值的度量方法[J].軍事運(yùn)籌與系統(tǒng)工程,2006,20(4):52-56.
[11]甘健侯,姜躍,夏幼明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011:5-21.
[12]游彬,劉曉然,李寧,等.社交網(wǎng)絡(luò)Twitter的推文抽取技術(shù)研究[J].艦船電子工程,2012,32(9):113-115.