趙顏利,李連軍,余紅梅,史玉彬
(32179部隊,北京100012)
知識圖譜作為科技領(lǐng)域前沿技術(shù),在解決數(shù)據(jù)組織管理、提供知識支撐與服務(wù)方面存在巨大優(yōu)勢。將知識圖譜引入戰(zhàn)例數(shù)據(jù)治理,具有以下5大優(yōu)勢:
1)數(shù)據(jù)融合[1]。知識圖譜從關(guān)系的角度出發(fā),對數(shù)據(jù)進行采集、提取、關(guān)聯(lián),將海量多源、分散孤立的戰(zhàn)例數(shù)據(jù)進行融合與組織;
2)知識擴充。傳統(tǒng)數(shù)據(jù)庫擴充新類型數(shù)據(jù),須修改設(shè)計庫表結(jié)構(gòu),耗費大量時間和精力。而知識圖譜可在不改變原有知識關(guān)系結(jié)構(gòu)的情況下,簡易方便地擴充新知識;
3)知識共享[2]。傳統(tǒng)的信息系統(tǒng),不同系統(tǒng)間沒有統(tǒng)一規(guī)范的數(shù)據(jù)格式,相互間無法聯(lián)通,難以實現(xiàn)數(shù)據(jù)共享和復(fù)用。知識圖譜基于本體模型實現(xiàn)了對知識的統(tǒng)一語義描述和規(guī)范,能夠?qū)崿F(xiàn)知識的共享;
4)智能應(yīng)用。知識圖譜通過本體對戰(zhàn)例數(shù)據(jù)賦予語義,實現(xiàn)了計算機與人、計算機與計算機之間的理解、交互,可為智能語義檢索、知識推理等應(yīng)用提供支撐,也可為上層各類業(yè)務(wù)決策提供輔助;
5)知識展示。知識圖譜采用基于圖的結(jié)構(gòu)表達知識,以直觀可視化的形式對知識及知識之間的關(guān)系進行展示,使得用戶對知識的理解更為容易。
本體是知識圖譜的核心內(nèi)容和重要基礎(chǔ),更是構(gòu)建知識圖譜的關(guān)鍵。本文提出了一種面向領(lǐng)域知識圖譜的工程化本體構(gòu)建方法,基于該方法實現(xiàn)了戰(zhàn)例領(lǐng)域知識圖譜本體模型構(gòu)建,并研究建立了本體與實體知識的映射機制。
本體的概念起源于哲學(xué)領(lǐng)域,用于表示世界的本質(zhì)。20世紀(jì)80年代,本體被引入到信息科技領(lǐng)域,成為自然語言處理、信息集成、信息檢索、知識工程、人工智能等領(lǐng)域研究的重點[3-5]。1998年,Studer提出“本體是共享概念模型的明確的形式化規(guī)范說明”,成為廣泛接受的定義[6]。該定義包含以下4個層次含義:
1)概念化。表明本體是對客觀世界進行抽象描述得到的概念集模型;
2)共享性。表明本體概念集是被共同認(rèn)可的,具有通用性;3)形式化。表明本體是計算機可理解和處理的;4)明確性。表明本體的概念以及概念間關(guān)系被明確的定義,無歧義。
由本體的定義可知,本體是某領(lǐng)域概念及概念間的關(guān)系的模型,可實現(xiàn)該領(lǐng)域的形式化描述[7]。戰(zhàn)例本體則是戰(zhàn)例領(lǐng)域知識中的概念及其相互關(guān)系的形式化描述模型。戰(zhàn)例本體構(gòu)建了統(tǒng)一認(rèn)知的概念集,克服人、組織以及系統(tǒng)之間因不同背景、語言、技術(shù)之間的溝通障礙,使得領(lǐng)域知識得以共享和復(fù)用。
知識圖譜概念由谷歌公司于2012年提出,并迅速成為學(xué)術(shù)界與業(yè)界研究的熱點。知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系,將互聯(lián)網(wǎng)的信息轉(zhuǎn)化為更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[8]。知識圖譜本質(zhì)上是基于圖結(jié)構(gòu)的語義網(wǎng)絡(luò)知識庫[9],知識圖譜中的知識用“節(jié)點—邊—節(jié)點”組成的“三元組”表示,其中“節(jié)點”表示現(xiàn)實世界中的概念、實體,“邊”表示實體、概念間的相互關(guān)系,具體表現(xiàn)為“概念—關(guān)系—概念”“實體—關(guān)系—實體”的“三元組”。知識圖譜邏輯上分為本體層和實體層。本體層建立在實體層之上,由一系列對領(lǐng)域知識形式化描述的概念集合庫組成;實體層是概念層的實例化,由一系列具體的實體知識庫組成。
知識圖譜包括2 類通用知識圖譜與領(lǐng)域知識圖譜[10-11]。通用知識圖譜基于通用的常識進行構(gòu)建,其知識面覆蓋大,知識深度及準(zhǔn)確性要求相對較低,一般面向廣大普通的用戶;領(lǐng)域知識圖譜基于專業(yè)的領(lǐng)域知識進行構(gòu)建,其知識面覆蓋較窄,知識深度及準(zhǔn)確性相要求相對較高,一般面向特定的領(lǐng)域用戶。知識圖譜構(gòu)建方法包括自頂向下和自底向上2種[12]。自頂向下的方法是先建立本體知識模型,而后依據(jù)模型實例化知識構(gòu)建實體庫,形成知識圖譜;自底向上的方法是先抽取實體知識,而后歸納概念模式形成本體模型。自頂向下的方法須要在專家的指導(dǎo)下建立本體模型,常用于領(lǐng)域知識圖譜構(gòu)建;自底向上的方法則主要對百科等開源數(shù)據(jù)集進行知識抽取,歸納出概念模型,常用于通用知識圖譜構(gòu)建。
戰(zhàn)例知識圖譜是軍事戰(zhàn)爭中具體戰(zhàn)爭行動、戰(zhàn)斗行動所涉及數(shù)據(jù)信息的知識描述與組織,屬于典型的領(lǐng)域知識圖譜。本文戰(zhàn)例知識圖譜的構(gòu)建采用自頂向下的方法,先建立戰(zhàn)例本體模型,而后本體實例化。
目前,本體構(gòu)建尚沒有統(tǒng)一的標(biāo)準(zhǔn),現(xiàn)有本體的構(gòu)建方法依據(jù)其涉及的領(lǐng)域和具體工程而不同。經(jīng)典的本體構(gòu)建方法,如,IDEF5[13]、TOVE 法[14]、骨架法[15]、METHONTOLOGY 法[16]、七步法[17]、五步循環(huán)法[18]等,都來自具體的應(yīng)用和實踐,國內(nèi)外學(xué)者對上述的經(jīng)典方法進行了系統(tǒng)的比較。為保證語義的完整性和正確性,本體構(gòu)建的過程須要領(lǐng)域?qū)<业膮⑴c和指導(dǎo)。但由于本體的構(gòu)建過程復(fù)雜,形式化的描述等又須要工程技術(shù)人員參與。如何平衡領(lǐng)域?qū)<遗c工程技術(shù)人員的合作是本體構(gòu)建的一個難題。為此,本文提出了一種面向領(lǐng)域知識圖譜的工程化本體構(gòu)建方法,由領(lǐng)域?qū)<腋鶕?jù)業(yè)務(wù)需求明確領(lǐng)域范圍、列舉重要術(shù)語,指導(dǎo)工程技術(shù)人員確定概念分類體系,明確概念、關(guān)系,再通過校驗評價進行迭代進化修正,如圖1所示,具體操作如下。
1)確定本體的領(lǐng)域及應(yīng)用范圍。根據(jù)業(yè)務(wù)需求,確定本體領(lǐng)域具體應(yīng)用范圍,劃定本體的數(shù)據(jù)邊界。
2)列舉領(lǐng)域中的重要術(shù)語。搜集相關(guān)的數(shù)據(jù),列舉領(lǐng)域內(nèi)重要的術(shù)語概念,為建立概念分類結(jié)構(gòu)奠定基礎(chǔ)。
3)定義概念類及分類層次體系。在領(lǐng)域?qū)<抑笇?dǎo)下,設(shè)計確定概念類,并建立概念類的分類層次,實現(xiàn)領(lǐng)域知識的概念化描述。
4)定義概念類之間的關(guān)系。定義概念類之間的關(guān)系,實現(xiàn)領(lǐng)域知識關(guān)聯(lián)的關(guān)系描述。
5)定義概念類的屬性。定義概念類的屬性,實現(xiàn)信息的進一步描述。
6)本體校驗。通過專家鑒定、用戶檢驗等方法對本體校驗、評價,并持續(xù)迭代優(yōu)化完善。
圖1 本體構(gòu)建流程Fig.1 Ontology construction process
2.2.1確定戰(zhàn)例本體的領(lǐng)域及應(yīng)用范圍
由于知識存在相關(guān)性,領(lǐng)域知識圖譜在構(gòu)建過程中往往會出現(xiàn)知識超出領(lǐng)域范圍,邊界失控,導(dǎo)致難度與復(fù)雜度增大,產(chǎn)生大量冗余知識等問題。為此,構(gòu)建領(lǐng)域知識圖譜本體須正確理解業(yè)務(wù)需求,確定本體具體應(yīng)用范圍,劃定本體的數(shù)據(jù)邊界。
戰(zhàn)例本體的構(gòu)建目的主要是實現(xiàn)戰(zhàn)例領(lǐng)域知識的描述,為戰(zhàn)例領(lǐng)域知識獲取、組織和管理提供模型支撐。軍事戰(zhàn)例所涉及的數(shù)據(jù)比較廣泛、復(fù)雜,對戰(zhàn)例領(lǐng)域數(shù)據(jù)資料進行分析,涵蓋以下數(shù)據(jù):①作戰(zhàn)對象數(shù)據(jù),包括組織編制、人員編配、崗位編配等;②武器裝備數(shù)據(jù),包括參與作戰(zhàn)的各類武器裝備;③戰(zhàn)場環(huán)境數(shù)據(jù),包括作戰(zhàn)地域的電磁、交通、地形、氣象、水文等;④戰(zhàn)例基礎(chǔ)數(shù)據(jù),包括作戰(zhàn)時間、背景、過程、樣式、視頻、音頻、圖像等基本信息;⑤資料報告數(shù)據(jù),包括戰(zhàn)例研究的各類論文、研究等;⑥軍事理論數(shù)據(jù),包括作戰(zhàn)條令、作戰(zhàn)想定、任務(wù)清單等。
2.2.2列舉戰(zhàn)例領(lǐng)域中的重要術(shù)語
在明確戰(zhàn)例領(lǐng)域知識范圍的基礎(chǔ)上,對數(shù)據(jù)收集整理,依據(jù)《中國人民解放軍軍語》《國防科學(xué)技術(shù)敘詞表》、作戰(zhàn)條令等軍事領(lǐng)域?qū)I(yè)文獻資料列舉該領(lǐng)域相關(guān)術(shù)語,為后續(xù)建立概念分類體系奠定基礎(chǔ)。
2.2.3定義戰(zhàn)例領(lǐng)域的概念類及分類層次體系
以列舉的術(shù)語集為基礎(chǔ),在領(lǐng)域業(yè)務(wù)專家和技術(shù)專家的共同參與下,歸納出戰(zhàn)例領(lǐng)域知識的頂層最寬泛的概念,而后進行細(xì)化,實現(xiàn)整個戰(zhàn)例知識體系框架描述。
1)定義頂層概念類。設(shè)置組織、裝備、人員、時間、地域、環(huán)境、戰(zhàn)例事件、文獻資料為頂層概念類,代表戰(zhàn)例領(lǐng)域知識體系的頂層描述。
2)細(xì)化建立概念分類等級層次。頂層概念類確立后,繼續(xù)細(xì)化分類,實現(xiàn)對戰(zhàn)例領(lǐng)域知識的進一步詳細(xì)描述。概念層級分類,可采用2種方法:一是復(fù)用已有的本體概念分類,即借鑒已有的本體分類,在戰(zhàn)例領(lǐng)域中復(fù)用該本體;二是以行業(yè)標(biāo)準(zhǔn)為指導(dǎo)進行分類,參照遵循行業(yè)的各類標(biāo)準(zhǔn)規(guī)范,借助專家指導(dǎo)意見進行分類。目前軍事領(lǐng)域已構(gòu)建的本體較少,難以查找和復(fù)用。故此,以《中國人民解放軍軍語》、國家軍用標(biāo)準(zhǔn)文件等為指導(dǎo),結(jié)合軍事領(lǐng)域?qū)<乙庖?,進行戰(zhàn)例本體概念分類體系細(xì)化。
概念分類體系中,各概念類的層級深度根據(jù)實際情況確定,分至不同層級。圖2 為戰(zhàn)例領(lǐng)域本體分類層次體系部分展示。以裝備概念類為例,“戰(zhàn)例本體―裝備―主戰(zhàn)裝備―單兵班組武器―手槍”經(jīng)5 級結(jié)構(gòu)完成層次分類;“戰(zhàn)例本體―裝備―電子信息裝備―陸基信息裝備―情報偵察裝備―電子信號偵察裝備―無線通信偵察裝備”經(jīng)7級結(jié)構(gòu)完成層次分類。
圖2 戰(zhàn)例領(lǐng)域本體分類層次體系Fig.2 Ontology classification hierarchical system of battle field
2.2.4確定概念間關(guān)系
概念間的關(guān)系分為等級關(guān)系和非等級關(guān)系。等級關(guān)系用于規(guī)定自頂級概念開始至各級概念間的樹狀層次結(jié)構(gòu)關(guān)系,每個概念與其他概念構(gòu)成上下位的關(guān)系;非等級關(guān)系用于規(guī)定不同概念類間的關(guān)聯(lián)關(guān)系。等級關(guān)系在第3步驟建立分類層次體系時已經(jīng)完成,該步驟主要確定非等級關(guān)系。本體概念類之間部分關(guān)系示例,見表1。
表1 戰(zhàn)例本體概念類之間部分關(guān)系Tab.1 Some relations between concept classes of combat case ontology
2.2.5確定概念屬性
確定概念分類層次體系后,尚無法對領(lǐng)域知識進行完整表示,還須要描述概念的內(nèi)部結(jié)構(gòu),即對概念的屬性描述,實現(xiàn)對知識的深層描述。首先,確定頂層概念類的屬性;而后,逐級確定下級子類概念的屬性。子類可以繼承上級父類的屬性,同時可以擴充自身屬性。戰(zhàn)例本體概念類的部分概念類屬性示例如表2所示。
表2 戰(zhàn)例本體部分概念類屬性Tab.2 Attributes of some conceptual classes of battle case ontology
知識圖譜由本體庫與實體庫構(gòu)成,本體庫、實體庫由節(jié)點與關(guān)系形成的三元組進行表示,記為
G=(Node A,Relation,Node B),
其中:G 表示三元組;Node 表示節(jié)點;Relation 表示節(jié)點間的關(guān)系。
由此,戰(zhàn)例知識圖譜可表示為
KG={OG,EG},
其中:OG表示本體庫集合,由一系列概念節(jié)點及關(guān)系三元組組成,如,(主戰(zhàn)裝備,子類,直升機);EG 表示實體庫集合,由一系列實體節(jié)點及關(guān)系三元組組成,如,(阿帕奇直升機,火力支援,B連戰(zhàn)斗分隊)。
上述表示中,本體庫OG是對實體庫EG的規(guī)范和約束,實體庫EG是本體庫OG的實例化。構(gòu)建戰(zhàn)例知識圖譜,須建立本體庫到實體庫的映射機制,實現(xiàn)本體到實體的三元組實例化映射。
將戰(zhàn)例本體層級結(jié)構(gòu)當(dāng)作樹結(jié)構(gòu),各層級結(jié)構(gòu)的概念類作為樹節(jié)點,節(jié)點間的關(guān)系用連線表示;戰(zhàn)例實體間結(jié)構(gòu)作為網(wǎng)狀圖結(jié)構(gòu),實體節(jié)點為圖的節(jié)點,實體間關(guān)系用連線表示。由此,本體庫與實體庫之間的映射可以記為樹與圖之間的映射關(guān)系,如圖3所示。
圖3 以部分戰(zhàn)例的本體概念與實體知識為代表,展示了2者之間的映射。圖中上半部分為戰(zhàn)例本體庫的樹狀結(jié)構(gòu)圖,節(jié)點代表概念類,節(jié)點間連線代表子類繼承關(guān)系;下半部分為戰(zhàn)例實體庫的網(wǎng)狀關(guān)系圖,節(jié)點代表實體知識節(jié)點,節(jié)點間連線代表實體知識間的相互關(guān)系;圖中的虛線代表本體中的概念類節(jié)點到實體類節(jié)點映射,每個知識實體節(jié)點都有本體庫中的概念類映射。
圖3 戰(zhàn)例本體的實例化映射Fig.3 Instantiation mapping of battle case ontology
為檢驗本體構(gòu)建方法的有效性,構(gòu)建戰(zhàn)例本體的合理性,依據(jù)上述戰(zhàn)例本體和映射機制作為規(guī)范和指導(dǎo),構(gòu)建戰(zhàn)例領(lǐng)域知識圖譜。通過對戰(zhàn)例領(lǐng)域所涉及的組織編制、作戰(zhàn)編成、裝備運用、作戰(zhàn)地域、作戰(zhàn)環(huán)境等數(shù)據(jù)進行采集、提取、融合,最終實現(xiàn)知識實例化,形成關(guān)系縱橫交織的知識網(wǎng)狀圖譜,同時設(shè)計原型系統(tǒng)進行知識服務(wù)。
圖4 展示了“落錘行動”戰(zhàn)例的基本情況查詢,圖中左側(cè)展示了該戰(zhàn)例的全部知識關(guān)聯(lián)圖譜,右側(cè)是對具體知識節(jié)點選擇后的信息查詢展示。
圖5 展示了“落錘行動”戰(zhàn)例中裝備運用情況,圖中左側(cè)顯示了以裝備運用為中心的知識關(guān)聯(lián)網(wǎng)絡(luò),右側(cè)為選擇具體裝備的性能指標(biāo)展示。
圖6 展示了“落錘行動”戰(zhàn)例中兵力運用情況,圖中左側(cè)展示了參戰(zhàn)力量的編制編成情況,右側(cè)為選擇組織節(jié)點具體信息。
圖4 戰(zhàn)例基本情況查詢Fig.4 Basic information query of battle case
圖5 裝備作戰(zhàn)運用查詢Fig.5 Query of equipment operational application
圖6 兵力運用查詢Fig.6 Query of force utilization
為構(gòu)建合理可用的戰(zhàn)例知識圖譜,以解決戰(zhàn)例數(shù)據(jù)組織、管理、共享及重用等難題,本文主要完成了以下工作:①提出了一種面向領(lǐng)域知識圖譜的工程化本體構(gòu)建方法;②基于該方法構(gòu)建實現(xiàn)了戰(zhàn)例本體模型;③研究建立了戰(zhàn)例本體與知識實體間的映射機制;④構(gòu)建知識圖譜及設(shè)計原型系統(tǒng),對戰(zhàn)例本體進行了檢驗驗證。
檢驗實證,基于本文方法建立的戰(zhàn)例本體合理有效,能夠規(guī)范和指導(dǎo)戰(zhàn)例知識實體的實例化,建立的知識圖譜可為科研人員、軍事專家開展相關(guān)理論研究、教學(xué)實踐、實驗評估等提供智能化的知識支撐與服務(wù),能夠?qū)ξ臆娦伦鲬?zhàn)思想產(chǎn)生、新戰(zhàn)法形成、作戰(zhàn)力量建設(shè)、新型裝備研制等過程起到推動作用。
本文主要對領(lǐng)域知識圖譜的核心基礎(chǔ)本體模型進行研究和實踐,領(lǐng)域知識圖譜的其他重要內(nèi)容,如知識獲取、知識融合等,則通過人工手段實現(xiàn),未進行研究和探討。大數(shù)據(jù)環(huán)境下,構(gòu)建大規(guī)模的領(lǐng)域知識圖譜,手工方式已無法滿足需求,人機結(jié)合的自動化、半自動化知識獲取與融合成為領(lǐng)域知識圖譜構(gòu)建的難點,也是后續(xù)研究的重點。