姜 芳,燕明亮,霍江濤,李子時(shí)
(中國(guó)人民解放軍63891部隊(duì),洛陽(yáng) 471003)
在情報(bào)學(xué)的概念中,情報(bào)是可傳遞的知識(shí),它既具有傳遞性,又具有效用性,還具有一定的知識(shí)性。正是由于這些情報(bào)的特性,使得不同來(lái)源的情報(bào)之間存在著某種聯(lián)系[1]。通過(guò)分析大量情報(bào)的相關(guān)性,挖掘出情報(bào)中蘊(yùn)含的知識(shí)及其之間內(nèi)在聯(lián)系,從而獲取豐富的潛在事實(shí),并對(duì)某一知識(shí)過(guò)往的演化歷程和未來(lái)的發(fā)展趨勢(shì)進(jìn)行推理,是現(xiàn)階段情報(bào)分析的一項(xiàng)主要任務(wù)[2]。因此,探索挖掘和分析情報(bào)的方法,是現(xiàn)代情報(bào)研究的一個(gè)重要方向。然而,隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,無(wú)處不在的信息終端每時(shí)每刻都在產(chǎn)生海量信息,不同信息之間的關(guān)聯(lián)也日益復(fù)雜多樣,各類信息呈爆炸式增長(zhǎng)趨勢(shì)。特別是在電子信息裝備情報(bào)領(lǐng)域,互聯(lián)網(wǎng)的發(fā)展使得情報(bào)知識(shí)的傳遞更加迅速和廣泛,導(dǎo)致情報(bào)數(shù)據(jù)的增長(zhǎng)是指數(shù)級(jí)的,情報(bào)研究的對(duì)象從單純的紙質(zhì)情報(bào)發(fā)展為數(shù)字化、電子化的情報(bào),數(shù)據(jù)形式也呈現(xiàn)出多樣化的特點(diǎn)。如何在海量的、異構(gòu)的情報(bào)數(shù)據(jù)中進(jìn)行分析研究,如何應(yīng)對(duì)電子信息裝備領(lǐng)域的專業(yè)性要求,這都給情報(bào)分析人員帶來(lái)了極大的困難和挑戰(zhàn)。當(dāng)務(wù)之急需采用新的技術(shù)手段來(lái)挖掘、整合和分析海量的異構(gòu)數(shù)據(jù),對(duì)不同來(lái)源的知識(shí)進(jìn)行融合,為情報(bào)分析人員提供輔助手段,提升情報(bào)共享服務(wù)能力和情報(bào)產(chǎn)品的質(zhì)效。
將知識(shí)圖譜引入電子信息裝備情報(bào)領(lǐng)域,是解決上述問(wèn)題的一個(gè)思路。知識(shí)圖譜通過(guò)自然語(yǔ)言處理、語(yǔ)義網(wǎng)絡(luò)等底層技術(shù)的支持,能夠從大量文本中自動(dòng)抽取信息來(lái)構(gòu)建結(jié)構(gòu)化的知識(shí),實(shí)現(xiàn)大規(guī)模、自動(dòng)化的知識(shí)獲?。?]。建立電子信息裝備情報(bào)知識(shí)圖譜,統(tǒng)一描述各類電子信息裝備實(shí)體數(shù)據(jù),規(guī)范其組織關(guān)系,一是可以在語(yǔ)義上實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的融合;二是能夠以圖的形式將具有復(fù)雜關(guān)系的電子信息裝備情報(bào)知識(shí)表示出來(lái),輔助情報(bào)分析人員從大量數(shù)據(jù)及其相互關(guān)系中快速獲取其關(guān)注的知識(shí);三是可整合內(nèi)、外部情報(bào)產(chǎn)品以及結(jié)構(gòu)化情報(bào)數(shù)據(jù)等,深層次挖掘電子信息裝備情報(bào)在語(yǔ)義層次的相關(guān)知識(shí)和內(nèi)在關(guān)聯(lián),進(jìn)而厘清電子信息裝備之間潛在的相互關(guān)聯(lián)關(guān)系,為情報(bào)分析人員挖掘潛在的情報(bào)知識(shí)提供更為直接的支撐服務(wù)。
本文介紹了知識(shí)圖譜技術(shù)以及基本的構(gòu)建方法,并結(jié)合電子信息裝備情報(bào)領(lǐng)域的特點(diǎn),進(jìn)一步提出電子信息裝備情報(bào)領(lǐng)域知識(shí)圖譜的構(gòu)建框架和構(gòu)建方法,可為其他情報(bào)領(lǐng)域知識(shí)圖譜研究人員提供借鑒與參考。
知識(shí)圖譜的概念率先由谷歌公司提出,它可以用圖式模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系[4]。主要包括節(jié)點(diǎn)和邊,節(jié)點(diǎn)通常是實(shí)體或抽象的概念,邊通常是實(shí)體的屬性或?qū)嶓w與實(shí)體之間的關(guān)系,用節(jié)點(diǎn)和邊的形式來(lái)表示知識(shí)及其內(nèi)在關(guān)系[5-6]。自谷歌提出知識(shí)圖譜以來(lái),其他搜索引擎公司也陸續(xù)宣布了其“知識(shí)圖譜”產(chǎn)品,主要是為了提高自身搜索引擎返回結(jié)果的準(zhǔn)確率和召回率。目前,知識(shí)圖譜所涉及的底層技術(shù)已經(jīng)較為成熟,全世界范圍內(nèi)已完成了多個(gè)大規(guī)模知識(shí)圖譜的構(gòu)建,如DBpedia、YAGO、Freebase、NELL、BabelNet等[7]。
從面對(duì)的受眾和知識(shí)來(lái)源來(lái)看,知識(shí)圖譜一般可劃分為領(lǐng)域知識(shí)圖譜和通用知識(shí)圖譜。領(lǐng)域知識(shí)圖譜主要針對(duì)特定領(lǐng)域,具有很強(qiáng)的針對(duì)性,如電子商務(wù)、醫(yī)療健康、金融證券、基因工程等。通用知識(shí)圖譜描述的是一般、通用的知識(shí),并不針對(duì)特定領(lǐng)域,更多的是應(yīng)用于智能搜索等領(lǐng)域,例如雅虎、百度、谷歌搜索引擎目前使用的知識(shí)圖譜。兩者的側(cè)重點(diǎn)也不同,領(lǐng)域知識(shí)圖譜更加側(cè)重于知識(shí)的深度,它需要依靠大量準(zhǔn)確豐富的、知識(shí)結(jié)構(gòu)復(fù)雜、知識(shí)質(zhì)量高的領(lǐng)域內(nèi)數(shù)據(jù)來(lái)構(gòu)建,并且還需要通過(guò)人工對(duì)圖譜進(jìn)行校正來(lái)提高領(lǐng)域知識(shí)圖譜的準(zhǔn)確性和專業(yè)性;通用知識(shí)圖譜側(cè)重于知識(shí)的廣度,對(duì)準(zhǔn)確度不做強(qiáng)制關(guān)注,主要是因?yàn)槭芟抻诟拍罘秶挠绊?,?shí)體、實(shí)體屬性、實(shí)體間的關(guān)系很難通過(guò)其它手段進(jìn)行規(guī)范,因而無(wú)法確保準(zhǔn)確度[8]。
知識(shí)圖譜的構(gòu)建涉及多項(xiàng)關(guān)鍵技術(shù),對(duì)數(shù)據(jù)源的完整性和準(zhǔn)確性要求較高,是一個(gè)系統(tǒng)而復(fù)雜的過(guò)程。知識(shí)圖譜的構(gòu)建方法大致可以分為兩大類:自上而下方式和自下而上方式[9]。
自上而下方式主要是從百科類數(shù)據(jù)源中獲得本體、本體之間的上下層級(jí)關(guān)系和有關(guān)規(guī)則,形成清晰的架構(gòu)層級(jí),然后通過(guò)實(shí)體學(xué)習(xí),將實(shí)體納入本體的架構(gòu)中,形成知識(shí)圖譜。這種構(gòu)建方法因?yàn)閿?shù)據(jù)源具有較好的層次結(jié)構(gòu)和較高的數(shù)據(jù)準(zhǔn)確率,因此能夠構(gòu)建出質(zhì)量較好的知識(shí)圖譜。
與自上而下方式相反,自下而上的構(gòu)建方式是先抽取底層實(shí)體,然后對(duì)實(shí)體進(jìn)行歸類總結(jié)形成概念,最后自下而上逐步對(duì)概念進(jìn)行抽象,從而形成本體的結(jié)構(gòu)層次。這種方式對(duì)數(shù)據(jù)類型不做要求,即可以是互聯(lián)網(wǎng)上的非結(jié)構(gòu)化網(wǎng)頁(yè)數(shù)據(jù),也可以是非結(jié)構(gòu)化的文本數(shù)據(jù),如word、txt 等。以自下而上方式構(gòu)建的知識(shí)圖譜在準(zhǔn)確率上不如以自上而下方式構(gòu)建的知識(shí)圖譜,主要是因?yàn)樽韵露系姆绞剿婕暗男畔⒊槿 ⒚麑?shí)體識(shí)別等技術(shù),相對(duì)依賴于NLP 技術(shù)的發(fā)展程度。此外,由于在知識(shí)圖譜的構(gòu)建過(guò)程中,可能會(huì)有多個(gè)數(shù)據(jù)來(lái)源,從這些數(shù)據(jù)源中抽取的信息可能存在冗余信息、錯(cuò)誤信息、甚至相悖的信息,這些異常信息都會(huì)導(dǎo)致知識(shí)圖譜的準(zhǔn)確度下降,因此如果要提高由自下而上方式形成的知識(shí)圖譜的準(zhǔn)確度還需要知識(shí)融合技術(shù)的發(fā)展。
在實(shí)際的構(gòu)建過(guò)程中,為了提高知識(shí)圖譜的準(zhǔn)確度,一般采用兩種方式相結(jié)合的方法來(lái)進(jìn)行構(gòu)建[10]。
構(gòu)建電子信息裝備情報(bào)知識(shí)圖譜,是通過(guò)數(shù)據(jù)獲取、自然語(yǔ)言處理、語(yǔ)義分析等方法來(lái)挖掘處理涉及電子信息裝備的情報(bào)數(shù)據(jù),并采用圖結(jié)構(gòu)來(lái)表示電子信息裝備實(shí)體、實(shí)體屬性以及實(shí)體之間的關(guān)系,形成可以不斷更新的電子信息裝備情報(bào)知識(shí)圖譜。
由于電子信息裝備專業(yè)性較強(qiáng),對(duì)準(zhǔn)確性和層次關(guān)系要求較高,因此,電子信息裝備情報(bào)知識(shí)圖譜作為一種領(lǐng)域知識(shí)圖譜,需要有嚴(yán)格的本體層結(jié)構(gòu)以及相關(guān)度高且準(zhǔn)確的電子信息裝備情報(bào)領(lǐng)域數(shù)據(jù)。因此,本文采用自上而下和自下而上的組合方式,對(duì)電子信息裝備情報(bào)的知識(shí)圖譜進(jìn)行構(gòu)建,其構(gòu)建過(guò)程如圖1所示。
圖1 電子信息裝備領(lǐng)域知識(shí)圖譜構(gòu)建流程
首先通過(guò)本體學(xué)習(xí)對(duì)數(shù)據(jù)詞典、敘詞表、邏輯規(guī)則等數(shù)據(jù)進(jìn)行處理來(lái)構(gòu)建電子信息裝備情報(bào)知識(shí)圖譜的本體模型;然后針對(duì)構(gòu)建好的本體模型,通過(guò)知識(shí)抽取技術(shù)對(duì)電子信息裝備情報(bào)數(shù)據(jù)進(jìn)行實(shí)體、關(guān)系和屬性的抽取;再經(jīng)過(guò)知識(shí)融合對(duì)抽取的實(shí)體、屬性和關(guān)系進(jìn)行進(jìn)一步的處理;最終完成電子信息裝備情報(bào)知識(shí)圖譜的自動(dòng)構(gòu)建和知識(shí)存儲(chǔ)[11]。
數(shù)據(jù)采集是電子信息裝備情報(bào)知識(shí)圖譜數(shù)據(jù)來(lái)源最主要的手段,主要是對(duì)異構(gòu)、分散的各種情報(bào)與數(shù)據(jù)資源進(jìn)行采集和存儲(chǔ)。數(shù)據(jù)來(lái)源包括互聯(lián)網(wǎng)開(kāi)源信息、內(nèi)外部情報(bào)產(chǎn)品以及各類情報(bào)數(shù)據(jù)庫(kù);格式主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化等三類數(shù)據(jù)。其中,互聯(lián)網(wǎng)開(kāi)源信息主要采用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行采集,本文主要采用基于DOM 的網(wǎng)頁(yè)文本抽取技術(shù);數(shù)據(jù)庫(kù)主要將數(shù)據(jù)通過(guò)ETL 抽取轉(zhuǎn)換到目標(biāo)數(shù)據(jù)庫(kù)的方式進(jìn)行信息采集,本文選擇kettle 作為數(shù)據(jù)遷移的引擎;而對(duì)于內(nèi)外部情報(bào)產(chǎn)品,主要采用基于FTP 服務(wù)器進(jìn)行采集,并且將文本文件的內(nèi)容抽取轉(zhuǎn)換到指定的字段上。
數(shù)據(jù)采集后,需要對(duì)各類數(shù)據(jù)進(jìn)行預(yù)處理,用來(lái)進(jìn)行數(shù)據(jù)的融合以及電子信息裝備情報(bào)知識(shí)圖譜的構(gòu)建。預(yù)處理主要包括信息的清洗、信息的轉(zhuǎn)換、信息要素的標(biāo)引等方面的內(nèi)容。其中,信息的清洗主要是檢測(cè)并處理原始數(shù)據(jù)中的不完整數(shù)據(jù)、重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等“臟數(shù)據(jù)”,保證數(shù)據(jù)的質(zhì)量;信息轉(zhuǎn)換是通過(guò)數(shù)據(jù)轉(zhuǎn)換函數(shù)將清洗后的數(shù)據(jù)轉(zhuǎn)化為具有統(tǒng)一格式的數(shù)據(jù),主要在數(shù)據(jù)的語(yǔ)義表達(dá)、數(shù)據(jù)類型、數(shù)據(jù)長(zhǎng)度、數(shù)據(jù)精度等方面進(jìn)行統(tǒng)一的數(shù)據(jù)轉(zhuǎn)換;信息要素標(biāo)注主要是對(duì)數(shù)據(jù)產(chǎn)生的時(shí)間、標(biāo)題、修改的時(shí)間、來(lái)源、所屬分類、可信程度、作者、屬性信息等內(nèi)容進(jìn)行標(biāo)注和明確。數(shù)據(jù)采集架構(gòu)如圖2所示。
圖2 數(shù)據(jù)采集架構(gòu)
領(lǐng)域本體能夠?qū)μ囟I(lǐng)域內(nèi)的實(shí)體概念及其相互關(guān)系、領(lǐng)域活動(dòng)及其所具有的規(guī)律和特性進(jìn)行形式化的描述。構(gòu)建電子信息裝備情報(bào)領(lǐng)域本體能夠定義實(shí)體的范圍、屬性、相互層次關(guān)系、約束關(guān)系、關(guān)聯(lián)關(guān)系等,明確本體的概念、屬性、關(guān)系和規(guī)則,形成知識(shí)的結(jié)構(gòu)層次,避免在構(gòu)建知識(shí)圖譜時(shí)出現(xiàn)較多的錯(cuò)誤。在初期的本體建模中采取人工建模的形式完成對(duì)電子信息裝備情報(bào)領(lǐng)域本體概念與屬性的刻畫(huà)與定義。
知識(shí)本體的構(gòu)建流程主要包含三個(gè)階段:
(1)實(shí)體關(guān)系相似度計(jì)算;
(2)實(shí)體上下位關(guān)系抽?。?/p>
(3)本體的生成。
比如,在知識(shí)圖譜構(gòu)建之前得到的三個(gè)與電子信息裝備相關(guān)的“宙斯盾系統(tǒng)”“計(jì)算機(jī)”“SPY-1 雷達(dá)”實(shí)體,構(gòu)建模型并不知道它們之間的具體差異,但當(dāng)計(jì)算完三個(gè)實(shí)體之間的相似度之后,會(huì)發(fā)現(xiàn)“宙斯盾系統(tǒng)”和“SPY-1雷達(dá)”之間可能更相似,和“計(jì)算機(jī)”之間的差別可能更大一些。這就是第一步的作用是在構(gòu)建知識(shí)圖譜之前獲得實(shí)體之間的相似度。這個(gè)階段的知識(shí)圖譜沒(méi)有一個(gè)上、下層的概念,通過(guò)進(jìn)行第二步實(shí)體上下位關(guān)系抽取,可以讓知識(shí)圖譜具有上、下層的關(guān)系。當(dāng)結(jié)束了前兩步以后,這個(gè)知識(shí)圖譜知識(shí)節(jié)點(diǎn)之間的關(guān)系可能就會(huì)更加清晰,從而生成本體。比如“宙斯盾系統(tǒng)”和“SPY-1 雷達(dá)”,其實(shí)都是電子信息裝備情報(bào)領(lǐng)域?qū)嶓w下的細(xì)分實(shí)體,并且“SPY-1雷達(dá)”是“宙斯盾系統(tǒng)”的一部分。知識(shí)本體建立示例如圖3所示。
圖3 知識(shí)本體建立示例
此外,在手動(dòng)構(gòu)建最初的本體時(shí),本文還構(gòu)建了電子信息裝備領(lǐng)域敘詞表,通過(guò)敘詞表的相互層次關(guān)系,可以提高電子信息裝備情報(bào)領(lǐng)域本體庫(kù)的準(zhǔn)確率。
信息抽取的目的是產(chǎn)生知識(shí)圖譜所需要的數(shù)據(jù),主要包括命名實(shí)體識(shí)別、實(shí)體的屬性抽取、實(shí)體間的關(guān)系抽取等三個(gè)方面。
命名實(shí)體識(shí)別主要是用來(lái)識(shí)別文本中事物的名稱,如裝備名稱、國(guó)家名稱、機(jī)構(gòu)名稱、武器平臺(tái)等。本文采用的實(shí)體識(shí)別模型是LSTM-RNN 模型,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型可以學(xué)習(xí)歷史的信息,但在進(jìn)行長(zhǎng)序列學(xué)習(xí)時(shí)會(huì)出現(xiàn)梯度消失或者爆炸的現(xiàn)象,無(wú)法解決長(zhǎng)時(shí)間跨度的非線性關(guān)系[12-13]。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種時(shí)間遞歸的神經(jīng)網(wǎng)絡(luò),適用于解決延遲時(shí)間較長(zhǎng)的事件問(wèn)題,并能解決使用RNN 時(shí)出現(xiàn)的梯度消失和梯度爆炸問(wèn)題[14-15]。本文將RNN 和LSTM 相結(jié)合,充分利用二者優(yōu)點(diǎn),使模型效果得到進(jìn)一步加強(qiáng),在進(jìn)行術(shù)語(yǔ)抽取的時(shí)候?qū)Ξ?dāng)前歷史信息和長(zhǎng)距離信息都可以進(jìn)行學(xué)習(xí),使抽取效果更好[16-17]。本文的實(shí)體識(shí)別架構(gòu)如圖4 所示,分為特征抽取、實(shí)體抽取、實(shí)體過(guò)濾。
圖4 實(shí)體識(shí)別架構(gòu)
屬性抽取主要是將實(shí)體的屬性名、屬性值從文本數(shù)據(jù)中抽取出來(lái),形成一個(gè)能夠描述實(shí)體屬性信息的三元組(實(shí)體、屬性名和屬性值)。例如,句子“標(biāo)準(zhǔn)3導(dǎo)彈彈體長(zhǎng)度是6.55 m”中表述的關(guān)系可以表示為(標(biāo)準(zhǔn)3 導(dǎo)彈,彈長(zhǎng),6.55 m)。本文屬性抽取架構(gòu)如圖5 所示,主要分為特征抽取、候選實(shí)體對(duì)抽取、三元組抽取和三元組過(guò)濾。
圖5 屬性抽取架構(gòu)
關(guān)系抽取主要是將實(shí)體間的語(yǔ)義關(guān)系從文本數(shù)據(jù)中抽取出來(lái),形成一個(gè)能夠描述實(shí)體關(guān)系的三元組(實(shí)體a、關(guān)系和實(shí)體b)。例如,句子“EA-18G 服役于美國(guó)海軍”中表述的關(guān)系可以表示為(EA-18G,服役于,美國(guó)海軍)。為了提高關(guān)系抽取的效果,本文采用帶注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)模型[18]。LSTM/RNN 模型使用傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)時(shí)有一個(gè)問(wèn)題:在將輸入信息編碼成向量時(shí),無(wú)論輸入長(zhǎng)短,其編碼的向量長(zhǎng)度都是一個(gè)固定值,這使得模型在學(xué)習(xí)長(zhǎng)輸入序列時(shí)效果很差[19-20]。而注意力機(jī)制利用模型輸出時(shí)會(huì)選擇性地專注考慮輸入中最相關(guān)信息的原理,使關(guān)系抽取更加準(zhǔn)確[21]。
關(guān)系抽取系統(tǒng)基于流水線架構(gòu),主要分為特征抽取、候選實(shí)體對(duì)抽取、三元組抽取和三元組過(guò)濾等模塊。關(guān)系抽取系統(tǒng)架構(gòu)如圖6所示。
圖6 關(guān)系抽取架構(gòu)
在信息抽取完成后,會(huì)出現(xiàn)不同數(shù)據(jù)來(lái)源關(guān)于同一實(shí)體的描述信息不完整或有歧義等問(wèn)題,因此需要借助知識(shí)融合來(lái)完善實(shí)體的描述信息或者消除描述信息的歧義,對(duì)不同數(shù)據(jù)來(lái)源的異構(gòu)數(shù)據(jù)能夠按照一定的規(guī)則進(jìn)行整合。文本在構(gòu)建電子信息裝備情報(bào)知識(shí)圖譜時(shí)進(jìn)行知識(shí)融合需要解決的問(wèn)題主要有以下兩種:
(1)實(shí)體的歧義和共指問(wèn)題。在進(jìn)行實(shí)體的鏈接時(shí),會(huì)出現(xiàn)某個(gè)實(shí)體有多個(gè)指代對(duì)象的問(wèn)題,也會(huì)出現(xiàn)同一實(shí)體對(duì)象有多個(gè)指稱項(xiàng)與之相對(duì)應(yīng)的問(wèn)題[22]。例如,“F-22”“猛禽”“F-22戰(zhàn)斗機(jī)”三個(gè)指稱項(xiàng)都指向了美國(guó)空軍“F-22”戰(zhàn)斗機(jī)這個(gè)同一實(shí)體對(duì)象,這是共指問(wèn)題;而“猛禽”除了可以指代“F-22”戰(zhàn)斗機(jī)實(shí)體外,還能指代某一種鳥(niǎo)類,這就是歧義問(wèn)題。實(shí)體的歧義和共指問(wèn)題會(huì)影響知識(shí)圖譜構(gòu)建的準(zhǔn)確性,因此在構(gòu)建圖譜時(shí)要盡可能地解決此類問(wèn)題,學(xué)術(shù)界將解決實(shí)體的歧義問(wèn)題稱為實(shí)體消歧,將解決實(shí)體的共指問(wèn)題稱為共指消解[17]。本文主要采用了基于本文相似度模型的聚類法來(lái)進(jìn)行實(shí)體消歧和共指消解。
(2)實(shí)體屬性值沖突問(wèn)題。在進(jìn)行知識(shí)融合時(shí)有時(shí)會(huì)遇到屬性矛盾的情況,例如在進(jìn)行屬性抽取可能會(huì)遇到(F-22,乘客與載人數(shù),2 人)和(F-22,乘客與載人數(shù),1 人)兩組屬性相悖的三元組。本文采用了對(duì)不同數(shù)據(jù)源賦予不同的信源可信度[0,1],并結(jié)合投票機(jī)制的方式來(lái)選取較為準(zhǔn)確的屬性值。若屬性值來(lái)自于更高的信源信息則以該信源信息為準(zhǔn),若最高信源的信息不止一篇,則進(jìn)行投票機(jī)制,選擇出現(xiàn)次數(shù)最多的屬性值。例如,在本例中假設(shè)(F-22,乘客與載人數(shù),2人)的來(lái)源有(鳳凰軍事,可信度,0.8)、(新浪微博,可信度,0.7),(F-22,乘客與載人數(shù),1 人)來(lái)源有(維基百科,可信度,0.8)、(百度百科,可信度,0.8),按照本文的屬性矛盾處理方案可以推斷出應(yīng)該被采納的屬性三元組為(F-22,乘客與載人數(shù),1人)。
知識(shí)圖譜存儲(chǔ)主要對(duì)電子信息裝備實(shí)體以及實(shí)體關(guān)系進(jìn)行規(guī)范化的存儲(chǔ),用于為后續(xù)的電子信息裝備情報(bào)分析、檢索和服務(wù)等應(yīng)用提供數(shù)據(jù)。由于知識(shí)圖譜的特性及其知識(shí)推理等應(yīng)用需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法適用于知識(shí)圖譜的全部應(yīng)用場(chǎng)景,因此知識(shí)圖譜的數(shù)據(jù)庫(kù)一般選擇圖數(shù)據(jù)庫(kù)。現(xiàn)階段比較常見(jiàn)的圖數(shù)據(jù)庫(kù)主要有Neo4j、GraphDB、MangoDB等。
本文根據(jù)后續(xù)的實(shí)際應(yīng)用,選擇Neo4j作為其知識(shí)存儲(chǔ)的數(shù)據(jù)庫(kù)。Neo4j 是一種以Java 語(yǔ)言為基礎(chǔ)開(kāi)發(fā)的非關(guān)系型圖形數(shù)據(jù)庫(kù),能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在圖上而非表中。本文將電子信息裝備情報(bào)知識(shí)圖譜中的概念、實(shí)體的基本信息、屬性和實(shí)體間的關(guān)系存儲(chǔ)在Neo4j 數(shù)據(jù)庫(kù)中。
電子信息裝備情報(bào)知識(shí)圖譜是一種領(lǐng)域知識(shí)圖譜,將知識(shí)圖譜引用到傳統(tǒng)的情報(bào)分析工作中,能輔助情報(bào)人員對(duì)大量情報(bào)信息進(jìn)行快速的分析了解,有效地提高情報(bào)分析人員的工作效率,保證了情報(bào)產(chǎn)品的時(shí)效性,并且由于其知識(shí)特性及關(guān)聯(lián)性,能夠從中分析挖掘出更深層次的隱含知識(shí),增加情報(bào)研究?jī)?nèi)容的深度,提升情報(bào)產(chǎn)品的質(zhì)量。本文以實(shí)際應(yīng)用需求為出發(fā)點(diǎn),設(shè)計(jì)了電子信息裝備情報(bào)知識(shí)圖譜的基本框架,分析總結(jié)了電子信息裝備情報(bào)知識(shí)圖譜構(gòu)建中所需的一些關(guān)鍵技術(shù),以期能夠?yàn)槠渌I(lǐng)域知識(shí)圖譜的構(gòu)建和應(yīng)用提供參考和借鑒。