亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        軍事裝備概念圖譜構(gòu)建技術(shù)的應(yīng)用與研究

        2021-11-18 07:34:40劉語嬋袁清波
        火力與指揮控制 2021年9期
        關(guān)鍵詞:圖譜實(shí)體裝備

        姚 奕,楊 帆,劉語嬋,袁清波

        (陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007)

        0 引言

        軍事裝備的信息化、智能化是國防與軍隊(duì)現(xiàn)代化發(fā)展中的重要一環(huán),充分利用軍事裝備數(shù)據(jù)是奪得未來戰(zhàn)場主動權(quán)的關(guān)鍵。知識圖譜作為一種以圖的形式表現(xiàn)客觀世界中概念和實(shí)體及實(shí)體之間關(guān)系的知識庫[1],其本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò),能夠?qū)⒑A繑?shù)據(jù)組織為一張互相關(guān)聯(lián)的網(wǎng)絡(luò)圖,從而幫助指揮人員快速了解相關(guān)知識,挖掘有價(jià)值的信息。車金立等人[2]在百科知識的基礎(chǔ)上構(gòu)建了軍事武器裝備的知識圖譜,并實(shí)現(xiàn)了相關(guān)裝備的智能問答應(yīng)用。但是并沒有進(jìn)一步挖掘裝備實(shí)體之間的關(guān)聯(lián)關(guān)系,其問答應(yīng)用仍是基于傳統(tǒng)文檔型數(shù)據(jù)庫,沒有真正將知識圖譜的圖特性應(yīng)用到產(chǎn)品中。

        隨著信息技術(shù)的發(fā)展,海量的半結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)使得知識的來源變得廣泛,但隨之而來的問題是信息質(zhì)量的下降。一方面,各數(shù)據(jù)來源之間缺乏統(tǒng)一的規(guī)范,導(dǎo)致了諸多實(shí)體的命名與分類存在差異,為知識圖譜的構(gòu)建帶來了困難;另一方面,由于軍事裝備數(shù)據(jù)保密性高、專業(yè)性強(qiáng)等特點(diǎn),很少有官方公布的完整數(shù)據(jù),大部分網(wǎng)絡(luò)數(shù)據(jù)來源龐雜、質(zhì)量參差不齊,這直接導(dǎo)致了該領(lǐng)域知識圖譜的構(gòu)建缺少依據(jù)。而軍事應(yīng)用場景對數(shù)據(jù)一致性要求高、對本體依賴大,因此,需要構(gòu)建專門的概念圖譜來支撐知識圖譜的構(gòu)建。此外,在未來武器裝備的信息化建設(shè)中,武器裝備更新?lián)Q代的頻率隨之加快,新式武器裝備的出現(xiàn)意味著新實(shí)體的出現(xiàn),如何讓機(jī)器理解這些新的實(shí)體,以及如何將這些新實(shí)體相關(guān)的上下位關(guān)系加入圖譜都是需要思考的問題。這不僅關(guān)系到所構(gòu)建的軍事武器知識圖譜的完整性,也關(guān)系到相應(yīng)軍事應(yīng)用的準(zhǔn)確性、可靠性。

        1 概念圖譜概述

        1.1 概念圖譜的起源與定義

        在互聯(lián)網(wǎng)發(fā)展的早期,人們使用共同的、標(biāo)準(zhǔn)的概念體系本體來構(gòu)建計(jì)算機(jī)相互理解的基礎(chǔ)[3]。Gruber 提出:本體是對共享概念模型的明確規(guī)范說明[4]。也就是說,人們可以使機(jī)器像人類一樣通過產(chǎn)生范疇化概念來對事物進(jìn)行“理解”。雖然目前對于“理解”一直缺乏嚴(yán)格的定義,但是從“殲-20”聯(lián)想到“戰(zhàn)斗機(jī)”顯然是人們理解“殲-20”的重要體現(xiàn)之一。概念使人們只需要記住一類事物的根本特征,比如能輕松識別各種不同的武器裝備,即使有些裝備從來沒有見過,但是仍然知道它屬于哪一類。人們顯然不可能記住所有武器裝備的細(xì)節(jié),但是可以記住一類事物的特征,而這些概念級的對象特征識別使其獲得強(qiáng)大的認(rèn)知能力。

        概念圖譜是一類專注于實(shí)體與概念之間的isA關(guān)系的知識圖譜[5]。從本質(zhì)上說,概念圖譜是知識圖譜的一個部分,是知識圖譜的概念模型和邏輯基礎(chǔ),其實(shí)體和概念之間有著固定的從屬關(guān)系。從認(rèn)知和語言兩個角度而言,概念圖譜分為面向認(rèn)知的概念層級體系和面向語言的詞匯層級體系。其主要區(qū)別在于,在概念層級體系中,連接節(jié)點(diǎn)的邊是實(shí)體與概念之間的InstanceOf 關(guān)系和子概念與父概念之間的SubclassOf 關(guān)系;而在詞匯層級體系中,連接實(shí)體的邊是一種詞匯之間上下位關(guān)系。

        從機(jī)器信息處理的角度來說,概念認(rèn)知是指對某個形態(tài)的數(shù)據(jù)輸入產(chǎn)生符號化概念輸出的過程。比如,對于“殲-20”一詞,能產(chǎn)生“戰(zhàn)斗機(jī)”這一概念,這里的“戰(zhàn)斗機(jī)”就是一種符號形式的概念。人類很容易獲得這樣的認(rèn)知,顯然,沒有任何先驗(yàn)知識的機(jī)器是無法產(chǎn)生這樣的概念的。因此,建立概念分類體系,并為數(shù)以千萬計(jì)的實(shí)體建立概念圖譜,通過構(gòu)建概念圖譜來使機(jī)器獲得認(rèn)知實(shí)體的能力,是人類在讓機(jī)器具備認(rèn)知能力的征程中所邁出的至關(guān)重要的一步,也是構(gòu)建完備的軍事裝備知識圖譜的第一步。

        1.2 相關(guān)工作

        在谷歌提出知識圖譜概念并將其應(yīng)用于搜索引擎[6]以前,就有許多公司和實(shí)驗(yàn)室進(jìn)行概念圖譜的研究,如反映英文詞匯基本語義關(guān)系的Word-Net[7]、利用維基百科以及自動分類方法構(gòu)建的語義網(wǎng)絡(luò)WikiTaxonomy[8]和利用基于文本理解的概率分類方法構(gòu)建的Probase[9-10]。隨著概念圖譜的應(yīng)用越來越廣泛,國內(nèi)也相繼開始中文概念圖譜構(gòu)建技術(shù)的研究,如以弱監(jiān)督為框架構(gòu)建的大詞林[11]和以針對中文分類學(xué)的自動化生成加驗(yàn)證為框架進(jìn)行構(gòu)建的CN-Probase[12]。這些概念圖譜在各種應(yīng)用中發(fā)揮著積極的作用,它們的部分?jǐn)?shù)據(jù)對比如表1 所示。

        表1 部分公開的概念圖譜數(shù)據(jù)對比

        隨著技術(shù)的進(jìn)步,通用概念圖譜已具有較大規(guī)模,其研究也逐漸向特定行業(yè)或領(lǐng)域落地。在情感分析領(lǐng)域,Xu 等人[13]提出了一種基于概念圖譜和語言模型的意圖領(lǐng)域分類方法,有效解決了大規(guī)模語料獲取困難和用戶話語多樣性的問題。在分類領(lǐng)域,Nitta 等人[14]提出了一種自動化構(gòu)建地理空間概念圖譜的方法,并將其應(yīng)用于地理感知細(xì)粒度圖像識別,使其結(jié)果更加高效、準(zhǔn)確;Shanavas 等人[15]則是利用醫(yī)學(xué)培訓(xùn)文檔中的統(tǒng)一醫(yī)學(xué)語言系統(tǒng)進(jìn)行了醫(yī)學(xué)概念圖譜的自動化構(gòu)建和補(bǔ)全,提升了醫(yī)學(xué)文本文檔分類的性能。此外,王鵬偉[16]提出了一種基于概念圖譜的概念驅(qū)動模型,通過將詞向量表示與概念向量表示相結(jié)合,對一詞多義的問題進(jìn)行了有效的處理。概念圖譜的應(yīng)用已經(jīng)深入各行各業(yè),而針對軍事裝備領(lǐng)域的研究則稍顯空白,現(xiàn)有的通用知識圖譜無法滿足裝備知識保密性和生僻性的特點(diǎn),針對生僻的裝備名詞、裝備別稱,基于百科數(shù)據(jù)的在線構(gòu)建方法也存在識別率不高的問題,因此,構(gòu)建裝備知識的概念圖譜是當(dāng)下亟待進(jìn)行的一項(xiàng)工作。

        2 基于百科數(shù)據(jù)的軍事裝備概念圖譜的構(gòu)建

        通用概念圖譜相當(dāng)于一個面向通用領(lǐng)域的“結(jié)構(gòu)化的百科知識庫”,其中包含了大量現(xiàn)實(shí)世界中的常識性知識,覆蓋面極廣。其構(gòu)建過程一般采用基于模式[17]的方法和自底向上的方法[18]。基于模式的方法主要根據(jù)語料中的固定句式抽取實(shí)體概念以及關(guān)系,但是這種方法提取能力有限,并且由于中文語法的靈活多變性,從文本中獲取的語法模式質(zhì)量通常很低。而自底向上的方法主要是從百科網(wǎng)站中抽取概念之間的isA 關(guān)系,這種方法取決于百科網(wǎng)站的規(guī)模,雖然質(zhì)量較高但是覆蓋率往往不高。針對垂直領(lǐng)域概念圖譜具有的概念偏、專業(yè)性強(qiáng)的特點(diǎn),本文采用兩種方法相結(jié)合的方式,既保證了圖譜的廣度,又保證了圖譜的精度。其流程如圖1 所示。

        圖1 軍事裝備概念圖譜構(gòu)建流程

        2.1 半結(jié)構(gòu)化數(shù)據(jù)的獲取

        隨著信息技術(shù)蓬勃發(fā)展,大量文本信息充斥于互聯(lián)網(wǎng)上,這些非結(jié)構(gòu)化數(shù)據(jù)十分廣泛,是知識圖譜概念抽取的重要來源之一[19]。但是,這些文本由于沒有固定的數(shù)據(jù)結(jié)構(gòu),不易于機(jī)器直接處理,需要人工進(jìn)行復(fù)雜的預(yù)處理才能被使用。而現(xiàn)如今各大百科網(wǎng)站都有高質(zhì)量的概念標(biāo)簽,以維基百科為例,每個詞條均可視為一個實(shí)體,其相關(guān)屬性信息均由人工標(biāo)注,具有較高的質(zhì)量。因此,可以使用這些在互聯(lián)網(wǎng)中以HTML 格式存在的網(wǎng)頁文檔進(jìn)行概念圖譜的構(gòu)建。

        在軍事裝備領(lǐng)域,傳統(tǒng)百科網(wǎng)站均存在概念不全的缺陷,無法對全部裝備知識進(jìn)行覆蓋。目前,公開的軍事資料不多,而環(huán)球軍事網(wǎng)的兵器庫是其中結(jié)構(gòu)化程度較高、裝備信息較全的一個數(shù)據(jù)庫,其中包括了飛行器、艦船艦艇等8 大類武器,100 余小類,共計(jì)5 794 項(xiàng)武器結(jié)構(gòu)化數(shù)據(jù)。

        本文利用爬蟲技術(shù)爬取環(huán)球軍事網(wǎng)的兵器庫數(shù)據(jù),具體流程如圖2 所示。首先,獲取初始URL,在其頁面中進(jìn)行內(nèi)容解析和新URL 的發(fā)現(xiàn),一方面,通過查找關(guān)鍵信息標(biāo)簽,提取所需的裝備數(shù)據(jù),處理成結(jié)構(gòu)化數(shù)據(jù)后進(jìn)行存儲;另一方面,提取新的URL 放入隊(duì)列中供后繼數(shù)據(jù)爬取。最終當(dāng)所有數(shù)據(jù)爬取完畢后結(jié)束程序。

        圖2 網(wǎng)頁數(shù)據(jù)爬取流程圖

        爬取到的半結(jié)構(gòu)化數(shù)據(jù)具有較多的HTML 標(biāo)簽,通過數(shù)據(jù)處理提取出武器裝備的關(guān)鍵信息,最終形成如圖3 所示的結(jié)構(gòu)化數(shù)據(jù)文檔:

        圖3 部分裝備結(jié)構(gòu)化數(shù)據(jù)文檔(隱藏部分技術(shù)指標(biāo))

        2.2 isA 關(guān)系抽取

        傳統(tǒng)知識圖譜以<實(shí)體1,關(guān)系,實(shí)體2>、<實(shí)體,屬性,屬性值>這樣的三元組來表達(dá)事實(shí),而概念圖譜之間的isA 關(guān)系則主要以< 實(shí)體,Instance-Of,概念>、< 概念1,SubclassOf,概念2> 這樣的三元組來體現(xiàn)[20]。這種詞匯之間的層級關(guān)系是一種詞匯間的上下位關(guān)系。比如,“殲-20 是戰(zhàn)斗機(jī)”,那么“殲-20”是“戰(zhàn)斗機(jī)”的下位詞,“戰(zhàn)斗機(jī)”是“殲-20”的上位詞。因此,在構(gòu)建過程中需要在句子中找到這種上下位關(guān)系,然后以三元組的形式存儲。

        在前期獲取的半結(jié)構(gòu)化數(shù)據(jù)中,得到了相應(yīng)裝備的簡介以及屬性信息。從簡介信息中,抽取實(shí)體的概念標(biāo)簽,并建立起概念之間的層級關(guān)系,將專家構(gòu)建的標(biāo)簽系統(tǒng)轉(zhuǎn)換為有結(jié)構(gòu)的概念層級體系。例如,前期提取的數(shù)據(jù)如圖2 所示,從中可以提取出“殲-20 是雙發(fā)重型隱形戰(zhàn)斗機(jī)”。然后利用已知的本體知識,可將“隱形戰(zhàn)斗機(jī)”歸屬于“戰(zhàn)斗機(jī)”,“戰(zhàn)斗機(jī)”歸屬于“飛行器”,其具體抽取步驟如下:

        1)概念標(biāo)簽識別。百科數(shù)據(jù)中的標(biāo)簽往往具有明顯的類別,如描述實(shí)體相關(guān)屬性信息的屬性型標(biāo)簽、描述實(shí)體所屬類型的概念型標(biāo)簽,以及描述實(shí)體所屬主題的主題型標(biāo)簽等。根據(jù)前期已分好的武器類別,對每項(xiàng)實(shí)體數(shù)據(jù)進(jìn)行標(biāo)簽識別,提取概念型標(biāo)簽,從中抽取isA 關(guān)系。比如,“雙發(fā)重型隱形戰(zhàn)斗機(jī)”中心詞是“戰(zhàn)斗機(jī)”,“戰(zhàn)斗機(jī)”是已有的概念標(biāo)簽,那么可以得出“雙發(fā)重型隱形戰(zhàn)斗機(jī)”也是一個概念標(biāo)簽。

        2)概念層級體系構(gòu)建。在識別概念標(biāo)簽后,將這些概念標(biāo)簽與已確定的百余類裝備概念建立subclassOf 關(guān)系,進(jìn)而構(gòu)建一個比原有分類體系更大、更細(xì)粒度的概念層級體系。

        2.3 基于迭代方法的isA 關(guān)系補(bǔ)全

        作為現(xiàn)實(shí)世界的一種抽象映射,概念的構(gòu)建必須確保其準(zhǔn)確性。而互聯(lián)網(wǎng)的知識往往有很多歧義,比如“殲-20”的綽號是“威龍”,但是“威龍”也是香港手表一線品牌,如何保證機(jī)器的理解不發(fā)生歧義,使機(jī)器能在特定的語句中準(zhǔn)確識別出實(shí)體的類別,需要對現(xiàn)有的isA 關(guān)系進(jìn)行補(bǔ)全。

        現(xiàn)有補(bǔ)全方法有基于isA 關(guān)系傳遞性的補(bǔ)全[21]和基于協(xié)同過濾思想的補(bǔ)全[22]?;趥鬟f性的方法適用于存在中間概念的關(guān)系,而另一種方法的思想是相似實(shí)體具有相同的上位詞,兩種方法都有其理論依據(jù),但是都存在一定的局限性。并且單一來源的數(shù)據(jù)往往不夠全面,因此,本文以已構(gòu)建的概念層級體系為基礎(chǔ),通過迭代學(xué)習(xí),借鑒前兩種方法的思路從維基百科、百度百科等多源數(shù)據(jù)中不斷提取新的關(guān)系對來對裝備實(shí)體與概念進(jìn)行補(bǔ)全。具體算法如表2 所示。

        表2 迭代學(xué)習(xí)算法

        算法以Probase 的迭代抽取算法[9]為基礎(chǔ)并進(jìn)行改進(jìn),增加了對于實(shí)體的判斷過程。在該算法中,Φ 是前期根據(jù)單源數(shù)據(jù)提取的概念關(guān)系集合,Γ 表示總isA 關(guān)系對的集合,S 是多源數(shù)據(jù)中的裝備數(shù)據(jù)語句,e、Xs、Ys分別表示從語句中提取出的新實(shí)體、候選超概念和候選子概念。首先,將已有的關(guān)系集合賦予Γ,然后在文本中迭代搜索isA 關(guān)系對直到?jīng)]有新的關(guān)系對被發(fā)現(xiàn),在此過程中,對抽取到的e、Xs、Ys分別進(jìn)行判斷,如果是新挖掘的實(shí)體或概念,則在相應(yīng)函數(shù)中進(jìn)行相似度判斷,如果其可信度較高并且未在已有的Γ 中出現(xiàn),則將其加入Γ。最終在不斷迭代的過程中,完成isA 關(guān)系補(bǔ)全與實(shí)體的消歧。

        2.4 基于neo4j 圖數(shù)據(jù)庫的存儲與維護(hù)

        目前概念圖譜的存儲方法主要是基于圖數(shù)據(jù)庫的存儲,其存儲方式是將實(shí)體存儲為節(jié)點(diǎn),關(guān)系存儲為邊。不同于傳統(tǒng)關(guān)系型數(shù)據(jù)庫以二維表結(jié)構(gòu)存儲的方式,圖數(shù)據(jù)庫更加側(cè)重于關(guān)系的表達(dá),能更簡潔、直觀地表示實(shí)體和概念、概念和概念之間的關(guān)系。neo4j 是目前廣泛使用的圖數(shù)據(jù)庫之一,不僅具有高效的查詢性能,而且在數(shù)據(jù)庫設(shè)計(jì)上具有很大的靈活性,使半結(jié)構(gòu)化數(shù)據(jù)的表示變得容易。另外,neo4j 提供分布式高可用模式,可以支持大規(guī)模的數(shù)據(jù)增長,有利于后期進(jìn)行裝備知識的擴(kuò)展。

        利用Cypher 語句將前期處理好的裝備實(shí)體數(shù)據(jù),以及裝備與概念關(guān)系、概念與概念關(guān)系數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫。最終形成一個完整的軍事裝備概念圖譜,其可視化界面如圖4 所示。圖中只展示了部分?jǐn)?shù)據(jù),中心節(jié)點(diǎn)表示劃分的裝備的大類,與之相連的外圍節(jié)點(diǎn)表示大類下的子類型,最外圍深色節(jié)點(diǎn)則是代表相應(yīng)的武器實(shí)體,實(shí)體與子類型之間的邊表示InstanceOf 關(guān)系,子類型與大類之間的邊表示SubclassOf 關(guān)系。

        圖4 裝備概念圖譜部分可視化數(shù)據(jù)展示

        概念圖譜的維護(hù)主要在于概念的糾錯與更新。雖然在構(gòu)建過程中已經(jīng)通過多源數(shù)據(jù)對數(shù)據(jù)進(jìn)行修正,但仍會存在不可避免的錯誤,這些源于數(shù)據(jù)集的錯誤往往依賴人工進(jìn)行干預(yù)。另外,科學(xué)技術(shù)日新月異,武器裝備也是如此,其更新?lián)Q代頻率較快,部分概念實(shí)體可能會隨著技術(shù)發(fā)展而變化,比如部分裝備退役不再被使用,或者有新型型號甚至新式類型的裝備出現(xiàn)。要想在戰(zhàn)場先發(fā)制人,需要對知識庫進(jìn)行定期更新,知己知彼方能百戰(zhàn)不殆。一方面,定期從互聯(lián)網(wǎng)收集各類軍事信息,通過迭代抽取其中有價(jià)值的信息;另一方面,及時將各類新式裝備的相關(guān)資料輸入數(shù)據(jù)庫,將相應(yīng)概念實(shí)體添加到概念圖譜中,不斷豐富裝備概念圖譜。

        3 裝備概念圖譜在軍事領(lǐng)域的構(gòu)建與應(yīng)用

        隨著信息技術(shù)的深入發(fā)展,當(dāng)前武器更新?lián)Q代的頻率逐漸加快,裝備數(shù)據(jù)日漸龐大且復(fù)雜。新式武器裝備從生產(chǎn)到列裝都面臨著一系列的挑戰(zhàn),研發(fā)人員如何科學(xué)統(tǒng)籌裝備數(shù)據(jù)、確保裝備切實(shí)貼近部隊(duì)實(shí)際需求,指揮人員如何整合繁雜的裝備信息、在戰(zhàn)場上發(fā)揮出裝備最佳性能,以及戰(zhàn)斗人員快速熟悉裝備性能參數(shù)、熟練掌握相應(yīng)使用和維修方法等,這些挑戰(zhàn)對大數(shù)據(jù)時代下的裝備數(shù)據(jù)管理提出了新的需求,而當(dāng)下興起的知識圖譜技術(shù)適逢其時,為裝備數(shù)據(jù)的存儲、分析與應(yīng)用提供了著力點(diǎn)。概念圖譜作為知識圖譜的概念模型和邏輯基礎(chǔ),是構(gòu)建裝備知識圖譜的基石,想要用好裝備數(shù)據(jù)這把利劍,需要從概念圖譜構(gòu)建技術(shù)出發(fā),對裝備概念圖譜進(jìn)行頂層設(shè)計(jì)。因此,本文基于通用知識圖譜的構(gòu)建流程[1],結(jié)合第2 節(jié)中裝備概念圖譜的構(gòu)建技術(shù)以及部隊(duì)實(shí)際應(yīng)用需求,從邏輯架構(gòu)、技術(shù)架構(gòu)和應(yīng)用領(lǐng)域3 個層面,對裝備概念圖譜的構(gòu)建流程與應(yīng)用方向進(jìn)行設(shè)計(jì),整體框架如圖5所示。

        圖5 裝備知識圖譜的構(gòu)建流程及應(yīng)用展望

        3.1 邏輯架構(gòu)

        在邏輯架構(gòu)上,從模式層和數(shù)據(jù)層兩個角度對裝備數(shù)據(jù)進(jìn)行建模,建立起能夠用計(jì)算機(jī)語言表示現(xiàn)實(shí)世界裝備數(shù)據(jù)特征的規(guī)范模型。

        數(shù)據(jù)層存儲真實(shí)的數(shù)據(jù),針對數(shù)據(jù)的流動過程進(jìn)行設(shè)計(jì),主要包括數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)更新和數(shù)據(jù)應(yīng)用。數(shù)據(jù)獲取是第一步,首先需要考慮獲取什么樣的數(shù)據(jù)、從哪些地方獲取數(shù)據(jù)、如何獲取這些數(shù)據(jù)。軍事裝備數(shù)據(jù)由于其軍事特性,保密性高、專業(yè)性強(qiáng),有別于其他領(lǐng)域的數(shù)據(jù)獲取,其來源主要是各類裝備的技術(shù)手冊、操作規(guī)程、培訓(xùn)講義和保障案例等,這些數(shù)據(jù)往往需要更進(jìn)一步的處理,而互聯(lián)網(wǎng)等其他來源僅作為參考依據(jù)以及他國武器數(shù)據(jù)的擴(kuò)展。數(shù)據(jù)處理即對獲取到的數(shù)據(jù)進(jìn)行加工,通過信息融合等技術(shù)手段抽取出有用的信息,并形成結(jié)構(gòu)化的數(shù)據(jù)文檔。數(shù)據(jù)存儲則是如2.4 節(jié)中介紹的利用圖數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行存儲,并通過不斷地迭代構(gòu)建流程來更新數(shù)據(jù),保證裝備概念圖譜的時效性。最后是數(shù)據(jù)的應(yīng)用階段,針對不同使用對象的應(yīng)用需求不同,設(shè)計(jì)不同的算法來對數(shù)據(jù)進(jìn)行深入挖掘并可視化呈現(xiàn),最終達(dá)到科學(xué)統(tǒng)籌裝備數(shù)據(jù)、整合繁雜裝備信息的效果。

        模式層在數(shù)據(jù)層之上,是概念圖譜的核心,通常通過構(gòu)建本體庫來管理模式層。其構(gòu)建內(nèi)容包括層次結(jié)構(gòu)、關(guān)系定義、領(lǐng)域定義和屬性定義。層次結(jié)構(gòu)是裝備類別之間的從屬關(guān)系,例如,“戰(zhàn)斗機(jī)”從屬于“飛行器”,其子類可以繼承其父節(jié)點(diǎn)的屬性。關(guān)系定義則是類之間存在相互的關(guān)系,類之間可以定義單向的關(guān)系,也可以定義雙向的關(guān)系。例如,“艦艇”指向“艦載雷達(dá)”的關(guān)系是裝載,“艦載雷達(dá)”指向“艦艇”的關(guān)系是被裝載。另外,為了管理方便,可以定義多個領(lǐng)域,便于將類進(jìn)行分組管理,如不同軍種的裝備屬于不同的領(lǐng)域,當(dāng)然也可以有跨領(lǐng)域的多域協(xié)同作戰(zhàn)裝備。屬性定義分公共屬性和專有屬性,公共屬性指從公共類里抽取一些基礎(chǔ)的屬性,例如名稱、生產(chǎn)時間等,另外,每個類可以定義自己的專有屬性,例如最大射程、載重量等。

        3.2 技術(shù)架構(gòu)

        裝備更新迭代,其數(shù)據(jù)也需要不斷更新,因此,構(gòu)建概念圖譜是一個迭代更新的過程。根據(jù)知識獲取的邏輯,每輪迭代包含信息抽取、知識融合和知識加工3 個階段。

        信息抽取是從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá),也就是通常所說的“三元組”。實(shí)體抽取也稱為命名實(shí)體識別,即從裝備數(shù)據(jù)文檔中抽取出概念實(shí)體;屬性抽取則是依據(jù)概念圖譜中相關(guān)實(shí)體屬性,從數(shù)據(jù)源中采集特定實(shí)體的屬性信息;將屬性與實(shí)體,或者實(shí)體與實(shí)體之間建立起關(guān)聯(lián)關(guān)系,將其連接起來,最終完成關(guān)系抽取。

        知識融合是在獲得新知識之后對其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個特定稱謂也許對應(yīng)于多個不同的實(shí)體等。知識融合是目前較難的一個部分,概念圖譜的知識融合過程主要包括實(shí)體對齊、屬性對齊、共指消解、規(guī)范化等,因?yàn)椴煌瑏碓?、不同形態(tài)的數(shù)據(jù)缺乏統(tǒng)一的規(guī)范,往往存在許多差異,很難找到一種通用的方法實(shí)現(xiàn)這一過程,需要對不同類型數(shù)據(jù)的特性進(jìn)行針對性地處理,將裝備的“別名”、“代號”與裝備實(shí)際名稱關(guān)聯(lián)起來,確保概念的準(zhǔn)確性。

        知識加工指對經(jīng)過融合后的新知識、新本體,進(jìn)行質(zhì)量評估,為保證概念準(zhǔn)確,部分情況可能需要人工參與鑒別。將合格的部分存儲到概念圖譜中,以確保知識庫的質(zhì)量。此外,還可以基于圖數(shù)據(jù)庫對已有的知識進(jìn)行知識推理,挖掘出數(shù)據(jù)中隱含的知識。

        3.3 應(yīng)用領(lǐng)域

        經(jīng)過多次迭代,裝備概念圖譜可以應(yīng)用于裝備知識圖譜的構(gòu)建,并在相關(guān)的上層服務(wù)中發(fā)揮作用,如裝備數(shù)據(jù)查詢、裝備知識問答等。此外,在實(shí)際應(yīng)用中還需要考慮不同裝備數(shù)據(jù)的密級不同,如通用裝備密級較低,所有使用者都可以查詢到,而最新的裝備密級較高,只有相應(yīng)研發(fā)人員和相關(guān)指揮人員能夠查詢到。綜合以上研究,本文針對3 種不同的使用對象對概念圖譜提出了幾種應(yīng)用方向。

        1)針對研發(fā)人員。裝備研發(fā)主要分為裝備研發(fā)和軟件研發(fā)兩類。對于裝備研發(fā)人員,需要全面了解各類裝備,確保不同類型裝備之間能夠協(xié)同配合。對于軟件研發(fā)人員,裝備概念圖譜能為裝備知識圖譜的構(gòu)建提供邏輯基礎(chǔ),其規(guī)范的本體說明和關(guān)聯(lián)關(guān)系能夠確保知識圖譜的精確性。此外,通過裝備之間的關(guān)聯(lián)關(guān)系進(jìn)行裝備數(shù)據(jù)挖掘,能進(jìn)一步推理出各裝備之間的隱含聯(lián)系,為聯(lián)合作戰(zhàn)提出理論支撐。

        2)針對指揮人員。指揮人員主要指上級領(lǐng)導(dǎo)者,需要統(tǒng)籌全局,不僅要掌握裝備的詳細(xì)信息,從宏觀層面調(diào)配各類裝備的使用部署,還需要對各類情報(bào)有所了解。而利用概念圖譜結(jié)合自然語言處理技術(shù),不僅能有助于情報(bào)挖掘,將互聯(lián)網(wǎng)上的海量信息碎片聯(lián)系在一起,還能夠快速進(jìn)行情報(bào)處理,提取龐雜情報(bào)數(shù)據(jù)中有價(jià)值的內(nèi)容。此外,還有語義問答等應(yīng)用,幫助指揮員快速獲取所需信息,減少指揮員決策時間,將信息優(yōu)勢轉(zhuǎn)化為決策優(yōu)勢。

        3)針對作戰(zhàn)人員。作戰(zhàn)人員是武器裝備的使用者,其主要任務(wù)是熟練掌握武器裝備的使用與維修,因此,需要對相關(guān)裝備的性能參數(shù)、使用方法、維修技巧等有所了解。但記住這么多紛繁復(fù)雜的裝備數(shù)據(jù)需要長期的積累,因此,可以借助裝備知識圖譜構(gòu)建裝備百科搜索引擎,而構(gòu)建一個成熟的搜索系統(tǒng)首先要精準(zhǔn)地理解用戶的搜索意圖。比如,當(dāng)搜索“J-20 維修發(fā)動機(jī)”等關(guān)鍵詞時,用戶的搜索意圖顯然是要搜索戰(zhàn)斗機(jī)發(fā)動機(jī)的維修方式,而不是發(fā)動機(jī)信息或者J-20 的信息,這個時候應(yīng)該返回戰(zhàn)斗機(jī)發(fā)動機(jī)的維修方式。為了幫助機(jī)器產(chǎn)生這樣的理解,就需要使用裝備概念圖譜建立J-20 與戰(zhàn)斗機(jī)之間的從屬關(guān)系,幫助平臺識別搜索核心詞匯,進(jìn)而準(zhǔn)確理解搜索意圖。此外,不能保證每名用戶都擁有相關(guān)的專業(yè)知識,當(dāng)搜索語句出現(xiàn)偏差時,基于關(guān)鍵詞匹配的方式將不再適用。而使用概念圖譜則可通過對搜索的實(shí)體進(jìn)行概念理解,推薦該概念下相關(guān)實(shí)體,幫助用戶進(jìn)行更方便、更精確的查找。除了智慧搜索,智能實(shí)體推薦[23]也是以概念圖譜為基礎(chǔ)建立的智能化應(yīng)用。搜索引擎不僅能通過提供直接答案來提升用戶的信息搜索體驗(yàn),還能進(jìn)一步在搜索結(jié)果中為用戶推薦相關(guān)信息[24]。比如,當(dāng)用戶搜索“81 杠”、“95”等特殊詞匯時,采用概念圖譜的搜索引擎可進(jìn)一步推斷用戶搜索意圖是槍械,然后可以向用戶推薦其他槍械的相關(guān)知識,有利于用戶明確搜索目標(biāo)以及拓展知識面,從而更好地增強(qiáng)用戶的信息發(fā)現(xiàn)體驗(yàn)。

        基于上述應(yīng)用展望,本文以flask 框架為基礎(chǔ),構(gòu)建了web 可視化的智能搜索應(yīng)用實(shí)現(xiàn),其界面如圖6 所示。當(dāng)用戶輸入搜索詞時,能夠自動構(gòu)建cypher 語句,并從數(shù)據(jù)庫中獲得結(jié)點(diǎn)關(guān)系,并依據(jù)關(guān)系進(jìn)行實(shí)體推薦。

        圖6 web 應(yīng)用可視化示意圖

        4 結(jié)論

        在大數(shù)據(jù)時代,利用知識工程技術(shù)為裝備數(shù)據(jù)添加語義,使機(jī)器可以像人一樣產(chǎn)生范疇化概念,是實(shí)現(xiàn)裝備信息化的第一步,有助于用戶利用機(jī)器快速處理數(shù)據(jù)、系統(tǒng)學(xué)習(xí)知識。本文從裝備信息化的實(shí)際需求出發(fā),對軍事裝備概念圖譜的構(gòu)建進(jìn)行了探討與實(shí)現(xiàn)。以環(huán)球軍事網(wǎng)的兵器庫數(shù)據(jù)為基礎(chǔ),在抽取半結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上形成概念層級關(guān)系,完成初步概念圖譜的構(gòu)建。然后從多源數(shù)據(jù)中利用迭代學(xué)習(xí)的方法進(jìn)行實(shí)體補(bǔ)全,確保了最終得到的裝備概念圖譜的精度和廣度。最后從頂層設(shè)計(jì)的角度出發(fā),對裝備知識圖譜的構(gòu)建流程和應(yīng)用領(lǐng)域提出了展望,為下一步裝備知識圖譜構(gòu)建工作的展開和后續(xù)技術(shù)落地提供支撐。

        猜你喜歡
        圖譜實(shí)體裝備
        好裝備這樣造
        港警新裝備
        繪一張成長圖譜
        防曬裝備折起來
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動對接你思維的知識圖譜
        国产精品女人一区二区三区| 91国产视频自拍在线观看| 台湾自拍偷区亚洲综合| 亚洲精品在线一区二区三区| 国产熟女自拍av网站| 黑丝美女被内射在线观看| 日韩中文字幕一区在线| 与最丰满美女老师爱爱视频| 操风骚人妻沉沦中文字幕| 日本一二三区视频在线| 激情影院内射美女| 国产suv精品一区二区69| 国产一区二区三区啪| 中文字幕一区二区网站| 中文字幕有码手机视频| 青青草在线免费播放视频| 免费无遮挡无码永久在线观看视频 | 女同另类一区二区三区| 亚洲女av中文字幕一区二区| 国产玉足榨精视频在线观看 | 免费无码黄动漫在线观看| 最新国产日韩AV线| 日本熟妇hd8ex视频| 免费一区二区三区av| 午夜亚洲精品视频在线| 欧美颜射内射中出口爆在线| 在线观看热码亚洲av每日更新| 亚洲欧美日韩综合久久久| 色老头久久综合网老妇女| 一区二区av日韩免费| 中文字幕久久久人妻人区| 国产播放隔着超薄丝袜进入| 国产涩涩视频在线观看| 久久国产精品不只是精品| 无码流畅无码福利午夜| 亚洲av资源网站手机在线| 亚洲 另类 小说 国产精品| 又爽又黄又无遮挡的视频| 高潮毛片无遮挡高清免费| 久久亚洲成a人片| 久久青青草原亚洲av|