欒瑞鵬, 張 靜, 劉立坤
(1. 中國人民解放軍91550部隊, 遼寧 大連 116023; 2. 中國人民解放軍32801部隊, 北京 100000)
軍事裝備試驗鑒定是指通過規(guī)范化的組織形式和試驗活動,對被試對象進行全面考核并作出評價結(jié)論的檢驗行為,工作內(nèi)容涵蓋武器系統(tǒng)、平臺系統(tǒng)、體系試驗、訓(xùn)練演習(xí),以及相關(guān)理論方法、技術(shù)、試驗專用裝備等領(lǐng)域,涉及面廣、專業(yè)性強,導(dǎo)致試驗鑒定領(lǐng)域數(shù)據(jù)具有高度的復(fù)雜性,為試驗鑒定機構(gòu)(執(zhí)行試驗鑒定任務(wù)的工作主體單位)開展數(shù)據(jù)治理工作,帶來了極大的困難。
數(shù)據(jù)治理是一整套標準、流程、要素、工具以及組織管理行為的統(tǒng)稱[1-2],其目標是支持組織機構(gòu)對自身數(shù)據(jù)的有序管理[3]、應(yīng)用并提升數(shù)據(jù)價值[4]。大數(shù)據(jù)時代,數(shù)據(jù)治理是組織機構(gòu)實現(xiàn)自身數(shù)據(jù)戰(zhàn)略、提質(zhì)增效、管控風(fēng)險、應(yīng)對挑戰(zhàn)的重要保障[5-6]。
本文結(jié)合工作實踐,深入分析試驗鑒定領(lǐng)域數(shù)據(jù)治理難點,提出以知識圖譜為核心的試驗鑒定機構(gòu)開展數(shù)據(jù)治理技術(shù)思路。針對本體建模這一知識圖譜構(gòu)建的關(guān)鍵問題,在分析試驗鑒定領(lǐng)域數(shù)據(jù)特點基礎(chǔ)上,融合斯坦福本體構(gòu)建方法,設(shè)計了一種具有試驗鑒定領(lǐng)域普適性的本體構(gòu)建方法,指導(dǎo)領(lǐng)域本體建模,進一步形成知識圖譜,為試驗鑒定領(lǐng)域數(shù)據(jù)治理工作提供支撐。
裝備試驗鑒定是一個多層次、多維度復(fù)雜系統(tǒng)工程,試驗鑒定領(lǐng)域數(shù)據(jù)有著極強的復(fù)雜性,這種復(fù)雜性體現(xiàn)在數(shù)據(jù)需求、數(shù)據(jù)來源以及試驗數(shù)據(jù)本身3個方面。
數(shù)據(jù)需求的復(fù)雜性源自鑒定評估工作。鑒定評估是根據(jù)試驗數(shù)據(jù),對被試對象進行全面考核并作出評價結(jié)論的過程。鑒定評估既要考核被試對象的技術(shù)性能,也要考核其作戰(zhàn)效能。相應(yīng)的評估目標包括性能指標體系和效能指標體系,以及二者之間的交聯(lián)。被試對象尤其是戰(zhàn)略武器、作戰(zhàn)平臺等現(xiàn)代化裝備,無論自身功能還是所屬作戰(zhàn)體系均極為復(fù)雜,相關(guān)指標評定所采用的方法、技術(shù)、手段均有所不同,造成了數(shù)據(jù)需求的復(fù)雜性。
數(shù)據(jù)來源的復(fù)雜性源自保障條件及試驗活動。試驗保障條件是試驗數(shù)據(jù)的主要獲取載體,其主體是測試測量、環(huán)境構(gòu)設(shè)、基礎(chǔ)保障等一系列試驗專用裝備及設(shè)施。這些裝備設(shè)施組成層次、網(wǎng)狀的試驗保障體系,支撐試驗鑒定任務(wù)的開展;試驗鑒定機構(gòu)是試驗活動的實施主體,試驗活動產(chǎn)生試驗數(shù)據(jù),試驗活動具有階段性,各階段均包括一系列子任務(wù),子任務(wù)又由直接準備、組織實施、結(jié)果分析3個分階段組成,且子任務(wù)之間也可能交叉開展。上述特點造成了數(shù)據(jù)來源的復(fù)雜性。
試驗數(shù)據(jù)本身的復(fù)雜性體現(xiàn)在數(shù)據(jù)格式、存儲介質(zhì)等方面。由于數(shù)據(jù)來源設(shè)備的不同,存儲介質(zhì)上存在紙質(zhì)、膠片、磁帶、磁盤、光盤和硬盤多種存儲型態(tài);數(shù)據(jù)格式上存在著結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多型并存的狀態(tài),增加了數(shù)據(jù)來源、含義等方面的復(fù)雜性。
知識圖譜用符號形式描述概念及其相互關(guān)系,一般可定義為“由作為節(jié)點的實體和作為邊的關(guān)系組成的多關(guān)系圖”[7]。目前,知識圖譜已在網(wǎng)絡(luò)安全[8]、電力建設(shè)[9]、情報分析[10]、醫(yī)療[11]、金融[12]等領(lǐng)域得到廣泛運用并發(fā)揮了顯著效益,涌現(xiàn)出Freebase[13]、Wikidata[14]、CN-DBpedia[15]、Zhishi.me[16]等著名通用領(lǐng)域知識庫,是人工智能技術(shù)的重要基石[17]。
知識圖譜的邏輯結(jié)構(gòu)分為模式層和數(shù)據(jù)層兩部分,模式層描述知識類的層次結(jié)構(gòu)和層級關(guān)系定義,由知識本體構(gòu)成;數(shù)據(jù)層是模式層的實例化,一般采用資源描述框架(resource description framework, RDF)三元組描述。知識本體是一種共享概念模型的形式化規(guī)范說明,其核心思想是提供領(lǐng)域內(nèi)概念、概念與概念間關(guān)系的形式化描述[18]。
知識圖譜構(gòu)建及實際效益發(fā)揮的前提條件,是對知識進行科學(xué)、合理、系統(tǒng)、規(guī)范的建模,即知識本體的構(gòu)建[19-20]。本體構(gòu)建一般分為半自動化和人工構(gòu)建兩類[21],試驗鑒定領(lǐng)域缺乏敘詞表、詞典、知識庫等形式化的數(shù)據(jù)累積,相關(guān)領(lǐng)域敘詞表缺乏內(nèi)容且時間久遠,基于數(shù)據(jù)的本體映射、提取等自動化構(gòu)建方法,往往無法實施;在人工構(gòu)建方法方面,試驗鑒定機構(gòu)承擔(dān)的任務(wù)不同、復(fù)雜性與作用域不同,相應(yīng)的鑒定評估對象和保障條件不同,導(dǎo)致知識體系存在較大差異。領(lǐng)域?qū)<议L期從事指揮鏈路限定的細分崗位工作,不易形成全局知識體系,傳統(tǒng)人工本體構(gòu)建方法缺乏指導(dǎo)性約束,導(dǎo)致本體構(gòu)建的隨意性強、全面性差,影響圖譜構(gòu)建質(zhì)效,特別是難以形成廣域知識鏈接,制約著數(shù)據(jù)作用價值的發(fā)揮[22-23]。由于試驗鑒定工作的特殊性,試驗鑒定領(lǐng)域數(shù)據(jù)治理,以及試驗鑒定領(lǐng)域知識本體建模方法的相關(guān)研究十分匱乏。
數(shù)據(jù)治理的目標是通過對數(shù)據(jù)有序管理、使用,實現(xiàn)數(shù)據(jù)價值的全面發(fā)揮。從數(shù)據(jù)治理的角度看,傳統(tǒng)試驗數(shù)據(jù)管理重點集中在數(shù)據(jù)采集和數(shù)據(jù)使用兩個階段,兩個階段間的獨立性比較強,或是從采集設(shè)備到數(shù)據(jù),或是從數(shù)據(jù)到鑒定評估,總體上缺乏能夠關(guān)聯(lián)全域、輻射全維、整合全局的數(shù)據(jù)體系。沒有數(shù)據(jù)體系支撐的數(shù)據(jù)治理,數(shù)據(jù)關(guān)聯(lián)鏈條短、完成對應(yīng)業(yè)務(wù)后即被閑置,數(shù)據(jù)元、數(shù)據(jù)字典及相關(guān)標準無法深化。特別是數(shù)據(jù)與試驗活動的關(guān)聯(lián)缺失,導(dǎo)致試驗鑒定機構(gòu)在鑒定評估之外的大量工作,如條件建設(shè)、科研訓(xùn)練、組織管理、兵力調(diào)動等,無法通過數(shù)據(jù)描述,也就難以恢復(fù)裝備試驗壽命周期的全貌,數(shù)據(jù)處在關(guān)聯(lián)匱乏的狀態(tài),缺乏反饋、沉淀、激活、增效的過程,難以拓展數(shù)據(jù)應(yīng)用、挖掘數(shù)據(jù)價值。
而試驗鑒定領(lǐng)域數(shù)據(jù)的復(fù)雜性,特別是試驗活動的描述方面,相當一部分源自語義、概念等非結(jié)構(gòu)信息,有很強的知識屬性。傳統(tǒng)關(guān)系型數(shù)據(jù)庫功能重點在結(jié)構(gòu)化數(shù)據(jù),即使完成建模,也會存在建模難度大、模型魯棒性差、計算效率低(多重跨表)等多種問題。也就是說,試驗鑒定領(lǐng)域數(shù)據(jù)的復(fù)雜性直接增加了數(shù)據(jù)體系構(gòu)建的困難程度,是數(shù)據(jù)治理的難點所在。
知識圖譜是一種實體和關(guān)系組成的語義網(wǎng)絡(luò),其實體定義靈活、多樣,可解耦數(shù)據(jù)來源、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性;關(guān)系構(gòu)建便捷、廣域,可有效聯(lián)通鑒定評估、保障條件、試驗活動。適用于復(fù)雜系統(tǒng)的聯(lián)通與整合,是構(gòu)建數(shù)據(jù)體系、拓展數(shù)據(jù)關(guān)聯(lián)、支持試驗鑒定領(lǐng)域數(shù)據(jù)治理的有力技術(shù)手段。具體技術(shù)思路是,面向數(shù)據(jù)治理的數(shù)據(jù)體系,采用“知識圖譜+關(guān)系數(shù)據(jù)庫/數(shù)倉”的雙層結(jié)構(gòu),通過構(gòu)建具有強業(yè)務(wù)針對性的知識圖譜,形成全域關(guān)聯(lián)的“網(wǎng)狀”數(shù)據(jù)體系上層,支持數(shù)據(jù)反饋、沉淀、激活、增效;傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲遙測、外測等數(shù)據(jù),支持傳統(tǒng)業(yè)務(wù)軟件(如數(shù)據(jù)處理、仿真等)的數(shù)據(jù)需求,具體結(jié)構(gòu)如圖1所示。
圖1 基于知識圖譜的數(shù)據(jù)治理鏈路關(guān)系Fig.1 Data governance link relationship based on knowledge graph
現(xiàn)有的領(lǐng)域本體構(gòu)建方法主要包括七步法[24]、五步循環(huán)法[25]、Methonotology法[26]、TOVE(Toronto virtual enterprise)法[27]、IDEF(icam definition method)5[28]、骨架法[29]和Kactus工程法[30]。
IDEF5、骨架法等多用于企業(yè)知識建模,一般建立在詳細的業(yè)務(wù)流程分解基礎(chǔ)上;Methonotology法源自化工領(lǐng)域知識工程建設(shè),在本領(lǐng)域的應(yīng)用實踐效果非常好;Kactus工程法、五步循環(huán)法等,強調(diào)已有本體的演進迭代。其中,七步法是目前使用頻率和成熟度最高的領(lǐng)域本體建模方法,由斯坦福大學(xué)開發(fā),構(gòu)建步驟包括確定范圍、重用考慮、列舉重要術(shù)語、定義類和層級結(jié)構(gòu)關(guān)系、定義屬性、定義約束條件和創(chuàng)建實例。
本文綜合試驗鑒定工作、試驗鑒定機構(gòu)與試驗鑒定數(shù)據(jù)的共性特點,在斯坦福本體構(gòu)建流程(七步法)的基礎(chǔ)上,設(shè)計了一種具有試驗鑒定領(lǐng)域普適性的本體構(gòu)建方法。該方法包括9個步驟,分別是:確定范圍、重用考慮、列舉重要術(shù)語、定義類和層級結(jié)構(gòu)關(guān)系、關(guān)系模型映射、類和層級結(jié)構(gòu)精化、定義屬性、定義約束條件、創(chuàng)建實例(見圖2)。方法的創(chuàng)新工作集中在定義類和層級結(jié)構(gòu)關(guān)系、關(guān)系模型映射、類和層級結(jié)構(gòu)精化3個步驟。
圖2 試驗鑒定領(lǐng)域本體構(gòu)建方法Fig.2 Ontology construction method of test and identification field
定義類和層級結(jié)構(gòu)關(guān)系是本體體系構(gòu)建的關(guān)鍵。試驗鑒定機構(gòu)承擔(dān)的試驗任務(wù)不同,相應(yīng)的試驗評估和保障條件不同,導(dǎo)致知識體系存在較大差異。在缺乏統(tǒng)一框架約束的情況下,各機構(gòu)領(lǐng)域?qū)<要毩㈤_展類和層級結(jié)構(gòu)定義的隨意性較大,加之試驗數(shù)據(jù)的復(fù)雜性,容易出現(xiàn)本體覆蓋不全面的情況,導(dǎo)致數(shù)據(jù)體系無法做到全域聯(lián)通,影響數(shù)據(jù)治理效能,也影響跨機構(gòu)、跨領(lǐng)域之間的知識復(fù)用共享。
本文從試驗鑒定體系共性出發(fā),給出類和層級結(jié)構(gòu)定義指導(dǎo)框架及構(gòu)建步驟,框架包括指標體系、試驗活動、保障條件、試驗數(shù)據(jù)4個一級類,每個一級類均包含相應(yīng)子類及層級結(jié)構(gòu)。在構(gòu)建步驟上,指標體系、保障條件兩個一級類的內(nèi)聚性強,可先行完成構(gòu)建,試驗活動最為復(fù)雜且與保障條件、試驗數(shù)據(jù)之間關(guān)聯(lián)緊密,在步驟3完成,如圖3所示。設(shè)計的重要原則是,最終設(shè)計結(jié)果,所有本體之間全域聯(lián)通,不存在孤立本體。
圖3 總體層級結(jié)構(gòu)Fig.3 Overall hierarchy
(1) 指標體系
指標評定是鑒定評估工作的核心內(nèi)容,各試驗鑒定機構(gòu)任務(wù)不同,但不論武器系統(tǒng)、平臺系統(tǒng)還是演訓(xùn)任務(wù),均需在任務(wù)之初完成相關(guān)指標體系設(shè)計,如性能指標、效能指標、貢獻率指標等,并逐級分解直至不可再分的指標項(實例為具體指標),指標體系之間的關(guān)系可直接映射為層級結(jié)構(gòu)。個別試驗機構(gòu)承擔(dān)任務(wù)確無指標體系的,可嘗試將試驗?zāi)康倪M行指標化,再仿照上述過程處理。
(2) 保障條件
保障條件一級類一般可分為組織指揮、測試測量、分析評估、環(huán)境構(gòu)設(shè)、基礎(chǔ)保障5個子類,每一子類均可根據(jù)自身建設(shè)情況,向下逐級分解,直至具體設(shè)備設(shè)施。其類結(jié)構(gòu)由“包含”“實例”“屬性”“管理約束”“空間約束”5種關(guān)系鏈接,“實例”關(guān)系指向的,均為實際設(shè)備設(shè)施。其中,組織指揮子類包括試驗設(shè)計、方案推演、通信保障、任務(wù)調(diào)度、過程監(jiān)控、運維管理、態(tài)勢綜合子類;測試測量類包括測量系統(tǒng)、測試系統(tǒng)子類;環(huán)境構(gòu)設(shè)子類包括模擬自然環(huán)境、電磁環(huán)境、靶標以及環(huán)境監(jiān)測子類;分析評估類包括數(shù)據(jù)處理、建模仿真、性能評估子類;基礎(chǔ)保障類包括試驗航區(qū)、試驗設(shè)施、測繪導(dǎo)航、技術(shù)基礎(chǔ)、勤務(wù)保障等子類。類結(jié)構(gòu)如圖4所示。
圖4 保障條件一級類的總體層級結(jié)構(gòu)Fig.4 Overall hierarchical structure of the first level class of guarantee condition
(3) 試驗活動
試驗鑒定領(lǐng)域數(shù)據(jù)復(fù)雜,涉及數(shù)據(jù)來源、用途、組成、關(guān)系等方面,但從試驗鑒定機構(gòu),這一數(shù)據(jù)治理主體的角度看,試驗數(shù)據(jù)一定是試驗活動中具體工作產(chǎn)生的結(jié)果,對試驗活動進行類和層級設(shè)計,就是對整個試驗鑒定業(yè)務(wù)流程、試驗數(shù)據(jù)生命周期的全面梳理,是本體建模中最為復(fù)雜、關(guān)鍵的部分。
試驗活動的類和層級設(shè)計,需要按照實施流程結(jié)構(gòu),自頂向下依次開展,逐層分解直至具體事件,如圖5所示。具體事件是關(guān)聯(lián)全局資源的紐帶,是從數(shù)據(jù)角度描述型號裝備試驗壽命周期全貌,貫通性能試驗、作戰(zhàn)試驗等試驗環(huán)路,推動全面數(shù)據(jù)治理的關(guān)鍵。具體事件有嚴格的時間屬性。
圖5 試驗活動類總體結(jié)構(gòu)示意圖Fig.5 Schematic diagram of overall structure of test process
① 總體層。按照裝備型號試驗鑒定全壽命階段展開,分為論證、總案、性能試驗、作戰(zhàn)試驗4個階段,呈遞進關(guān)系。② 子任務(wù)層。包括完成階段試驗任務(wù)所需要的各類子試驗任務(wù),如性能試驗階段需要完成的“飛行試驗”“精度試驗”等。③ 任務(wù)執(zhí)行層。各類子任務(wù)均包括直接準備、組織實施、分析評估3個階段,呈遞進關(guān)系。④ 具體事件層。各階段由具體事件組成,事件是人或單位利用設(shè)備、設(shè)施等保障條件實施某行動并得到結(jié)果的過程,事件根據(jù)任務(wù)情況及相似性進行分類,如陣地測試、文書發(fā)布、協(xié)同程序、飛行測控、數(shù)據(jù)處理、鑒定評估等,再分解至具體事件,如陣地測試事件類的分系統(tǒng)測試、總檢察等具體事件,鑒定評估事件類的指標評定具體事件等。每個具體事件類基本結(jié)構(gòu)包括:人員機構(gòu),如該事件的執(zhí)行人員、參與人員、指揮機構(gòu)等;輸入類,如法規(guī)標準(執(zhí)行該事件所依照的標準、法規(guī)等)、保障條件(執(zhí)行該事件所使用的具體設(shè)備或設(shè)施)、命令指令等;輸出類,該事件生成的輸出,如數(shù)據(jù)、指標評定、指令等。試驗活動類結(jié)構(gòu)由“包含”“遞進”“使能”“輸入”“輸出”5種關(guān)系鏈接,總體結(jié)構(gòu)如圖6所示。
圖6 試驗活動一級類的總體層級結(jié)構(gòu)Fig.6 Overall hierarchy structure of the frist level class of test process
(4) 試驗數(shù)據(jù)
試驗數(shù)據(jù)類分為數(shù)據(jù)庫、數(shù)據(jù)文件、電子表單、影音圖像、人工記錄表、試驗文書、條目數(shù)據(jù)7個子類。試驗數(shù)據(jù)類側(cè)重于描述數(shù)據(jù)的不同持久化狀態(tài),其中數(shù)據(jù)庫、數(shù)據(jù)文件、影音圖像3個子類,是測試、測量、錄取等試驗設(shè)備、保障條件所獲取數(shù)據(jù)的主要持久化狀態(tài)。試驗文書主要包括試驗過程中產(chǎn)生的各類非結(jié)構(gòu)文檔,如“試驗大綱、實施方案、操作規(guī)程”等。人工記錄表指各類人工填寫的紙質(zhì)記錄表單,如“檢查記錄表、戰(zhàn)斗報告表”等。條目數(shù)據(jù)是指直接參與各類事件,特別是鑒定評估事件的具體數(shù)據(jù)記錄,如“射程、高度、分離時間”等。其類結(jié)構(gòu)由“包含”“輸出”兩種關(guān)系鏈接,如圖7所示。除條目數(shù)據(jù)外的子類,都是試驗活動中具體事件的輸出,主要為各類應(yīng)用提供定向鏈接,引導(dǎo)通過關(guān)系型數(shù)據(jù)庫/數(shù)倉實現(xiàn)功能應(yīng)用。
圖7 數(shù)據(jù)類的總體層級結(jié)構(gòu)Fig.7 Overall hierarchy structure of data class
裝備試驗鑒定機構(gòu),通過型號裝備試驗條件建設(shè),建成了大量基于關(guān)系型數(shù)據(jù)庫的業(yè)務(wù)系統(tǒng),這些關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計蘊含了一定的領(lǐng)域知識。需要采用相關(guān)處理技術(shù),從關(guān)系型數(shù)據(jù)庫中提取知識本體,這既是對已有知識的復(fù)用,也是對數(shù)據(jù)資源的繼承,有著重要的實踐價值和意義。關(guān)系模型映射包括以下3個步驟。
步驟 1提取關(guān)系模型要素:提取關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型,得到數(shù)據(jù)庫中所包含的表名稱、列名稱、主鍵、外鍵等信息。
步驟 2關(guān)系模型處理:多數(shù)試驗鑒定機構(gòu)沒有專職信息化部門,其關(guān)系型數(shù)據(jù)庫的設(shè)計(特別是歷史業(yè)務(wù)信息系統(tǒng)),往往不夠科學(xué)。需進行拆分、合并等處理,使其至少滿足數(shù)據(jù)庫設(shè)計的第二范式。
步驟 3本體映射:將數(shù)據(jù)庫的數(shù)據(jù)模型信息映射為本體中的概念、屬性和關(guān)系,具體包括以下3個步驟。
步驟 3.1將關(guān)系數(shù)據(jù)庫模型中的表,映射為相應(yīng)概念(表中的每一行,可以在數(shù)據(jù)層作為該概念的一個實例)。
步驟 3.2將表中外鍵列,映射為與其對應(yīng)表概念的關(guān)系。
步驟 3.3將表中的其他列,映射為概念的屬性。
本方法步驟4“定義類和層級結(jié)構(gòu)關(guān)系”,屬于自上而下的本體構(gòu)建過程,主要目的是構(gòu)建整個試驗鑒定本體的體系結(jié)構(gòu),故強調(diào)覆蓋性,重點是不能缺“結(jié)構(gòu)”,但也難以做到精細。步驟5的“關(guān)系模型映射”,從已有關(guān)系型數(shù)據(jù)庫中提取本體,屬于自下而上的本體構(gòu)建過程,相當于在為步驟4“補漏”。步驟6“類和層級結(jié)構(gòu)精化”是解決二者之間的適配性問題,對本體結(jié)構(gòu)進行全面遍歷,對本體進行過濾、刪除、修改、調(diào)整以達到總體一致性。
該步驟的關(guān)鍵是解決全局命名一致性問題,站在全局高度設(shè)計“全局資源標識符”,試驗鑒定領(lǐng)域的“同名異義”是該問題的典型特征,需要在本體設(shè)計上做出相應(yīng)區(qū)分。例如,“武器系統(tǒng)”,該詞組在試驗活動的論證、總案階段出現(xiàn)時,一般指抽象的概念;在性能試驗階段出現(xiàn)時,一般指有物理實體的具體實例;在作戰(zhàn)試驗階段出現(xiàn)時,所指的具體實例是“小批量試生產(chǎn)”后的產(chǎn)品,與性能試驗階段出現(xiàn)的實例在本體類繼承方面應(yīng)做出區(qū)分。這是試驗鑒定領(lǐng)域知識的突出特點,在本體設(shè)計時,需要在步驟4和步驟5構(gòu)建的本體體系基礎(chǔ)上,再從全局角度進行定義和區(qū)分,完成類和層級結(jié)構(gòu)精化。
本文采用上述方法,構(gòu)建面向該機構(gòu)數(shù)據(jù)治理的本體體系。在本體基礎(chǔ)上,進一步通過實體識別、關(guān)系抽取、實體消歧等技術(shù),完成知識抽取與知識圖譜構(gòu)建。需要指出的是,由于裝備試驗鑒定相關(guān)子領(lǐng)域,有著典型的小樣本特點,當前的主流方法實現(xiàn)效果并不理想,故圖譜的構(gòu)建過程,廣泛采用了領(lǐng)域?qū)<摇叭嗽诨芈贰钡姆绞?包括通過人工標注構(gòu)建基本訓(xùn)練集、專家知識介入/半監(jiān)督關(guān)系抽取等。
構(gòu)建完整的知識圖譜,使用Neo4j數(shù)據(jù)庫作為存儲載體,Neo4j數(shù)據(jù)庫完全支持ACID(atomicity, consistency, isolation, durability)事務(wù),具有良好的穩(wěn)定性和可靠性[31],可以部署在多種平臺上,對當前技術(shù)生態(tài)兼容較好。
知識圖譜覆蓋數(shù)據(jù)范圍如表1所示。試驗鑒定領(lǐng)域數(shù)據(jù)治理知識圖譜,實現(xiàn)了試驗鑒定機構(gòu)開展型號試驗任務(wù)所涉及各類信息的全面覆蓋,通過“試驗活動”中的“具體事件”本體,構(gòu)建了一張關(guān)聯(lián)試驗鑒定機構(gòu)全面工作的“圖”,從而打破了以往不同管理部門對數(shù)據(jù)獨立管控形成的條塊分割狀態(tài),首次實現(xiàn)“人員、試驗對象、保障條件、組織指揮、理論科研”的直接集成,為數(shù)據(jù)治理工作乃至數(shù)字化轉(zhuǎn)型提供了有力支持。
表1 數(shù)據(jù)治理知識圖譜覆蓋數(shù)據(jù)范圍Table 1 Data governance knowledge graph coverage data scope
知識圖譜在支持全面數(shù)據(jù)治理的基礎(chǔ)上,也在具體應(yīng)用方面形成了一些新質(zhì)能力,包括以下3個方面:一是在試驗鑒定方面,貫通了“性能試驗、作戰(zhàn)試驗”兩個關(guān)鍵任務(wù)階段及兩類指標體系,首次成功構(gòu)建面向型號裝備任務(wù)全試驗周期的數(shù)據(jù)體系,為新體制下的試驗鑒定管理數(shù)字化提供了新型數(shù)據(jù)產(chǎn)品;二是首次建立了“被試對象、指標、事件、條件、數(shù)據(jù)、人員”之間的全面關(guān)聯(lián),數(shù)據(jù)追溯能力得到顯著增強,提高了任務(wù)響應(yīng)的“時效性”,支持實現(xiàn)數(shù)據(jù)賦能試驗鑒定機構(gòu)全面管理;三是結(jié)合領(lǐng)域?qū)<抑R,構(gòu)建了如“高度表-脫靶量”之類的子圖結(jié)構(gòu),初步形成面向全域數(shù)據(jù)的圖分析、關(guān)系發(fā)現(xiàn)能力。這里考慮計算能力和顯示效果,提取其中“飛行試驗”子任務(wù)部分數(shù)據(jù),形成局部圖譜作為示例,如圖8所示。
圖8 飛行試驗圖譜(局部)示例Fig.8 Example of flight test graph (local)
廣域、深度的數(shù)據(jù)關(guān)聯(lián)、追溯與分析,是試驗數(shù)據(jù)治理工作的深層次需求。知識圖譜在輔助實現(xiàn)全域數(shù)據(jù)治理的同時,在數(shù)據(jù)關(guān)聯(lián)、追溯與分析方面,相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫建模,具有突出的計算效能優(yōu)勢。
關(guān)系型數(shù)據(jù)庫一直是企業(yè)資源管理等各類信息管理系統(tǒng)的核心支撐,也是數(shù)據(jù)治理的重要工具。關(guān)系型數(shù)據(jù)庫基礎(chǔ)理論中,將關(guān)系定義為“在集合論基礎(chǔ)上構(gòu)建的二維表”,將生產(chǎn)實踐中的各類“關(guān)系”概念,轉(zhuǎn)化成以集合論為基礎(chǔ)的二維表關(guān)系之間的連接操作。而關(guān)系型數(shù)據(jù)庫通過外鍵約束來實現(xiàn)兩個表或多個表之間某些記錄的互相引用,通過外鍵在主表中尋找匹配的主鍵記錄來進行搜索、匹配計算操作。對于多對多關(guān)系,則必須再添加一個中間表,保存兩個參與表的外鍵對應(yīng)關(guān)系,進一步增加了連接操作成本。
例如下面的實踐場景:裝備試驗任務(wù)的飛行試驗中,一個時段內(nèi)被試裝備的二級舵展開,哪些參試光測設(shè)備觀測到該過程?所有觀測到的光測設(shè)備,俯仰角反算精度是多少?歷次任務(wù)中,精度高于該數(shù)值的有哪些設(shè)備?找出該設(shè)備的研制生產(chǎn)單位、操管維護人員以及歷次任務(wù)的履歷書。
可見,通過傳統(tǒng)的關(guān)系型數(shù)據(jù)庫建模,進行復(fù)雜的數(shù)據(jù)關(guān)聯(lián)、追溯與分析,必然需要進行大量的跨表查詢、反向查詢,也就意味著大量的連接操作。同時,試驗任務(wù)實踐中的數(shù)據(jù)關(guān)聯(lián)、分析具有未知性,很難提前建立完備索引,故其資源消耗隨著數(shù)據(jù)體量與表結(jié)構(gòu)復(fù)雜性增長而愈發(fā)嚴重,對于復(fù)雜的深層次關(guān)聯(lián),計算代價幾乎不可接受。
相比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫建模,知識圖譜可基于原生圖數(shù)據(jù)庫(如Neo4j數(shù)據(jù)庫)實現(xiàn),原生圖數(shù)據(jù)庫的每個節(jié)點都會維護與其相臨節(jié)點的引用,相當于擁有與其“相鄰節(jié)點”的微索引。運行類似關(guān)系數(shù)據(jù)庫的連接操作時,將使用微縮引來直接訪問連接的節(jié)點,無需進行記錄的搜索、匹配計算操作。這意味著查詢時間和圖的整體規(guī)模無關(guān),只與其附近節(jié)點的數(shù)量成正比,這在大數(shù)據(jù)量,廣域、復(fù)雜、深層次數(shù)據(jù)關(guān)聯(lián)與追溯方面,與關(guān)系型數(shù)據(jù)庫的連接操作相比,有著巨大的效率優(yōu)勢,特別適合構(gòu)建面向廣域、復(fù)雜數(shù)據(jù)治理的技術(shù)支撐能力。
本文提出通過構(gòu)建知識圖譜輔助試驗鑒定機構(gòu)開展數(shù)據(jù)治理的技術(shù)思路,針對本體建模這一知識圖譜構(gòu)建的關(guān)鍵問題,提出一種具有試驗鑒定領(lǐng)域適用性的本體構(gòu)建方法,該方法在斯坦福七步法的基本流程基礎(chǔ)上,增加了關(guān)系模型映射、類和層級結(jié)構(gòu)精化步驟,在定義類和層級結(jié)構(gòu)關(guān)系步驟,設(shè)計了相應(yīng)的類結(jié)構(gòu)框架。傳統(tǒng)數(shù)據(jù)治理的工作重點在狹義的“數(shù)據(jù)”,故對試驗鑒定機構(gòu)的實際工作支撐有限,本方法從知識建模的角度,提供了方法論和基本框架,擴展了“數(shù)據(jù)”的范圍和內(nèi)涵,實現(xiàn)了對試驗鑒定機構(gòu)業(yè)務(wù)的全面支撐,提升了數(shù)據(jù)治理的層級和能力水平。實踐表明,基于該方法構(gòu)建的試驗鑒定知識本體模型,具有明確的業(yè)務(wù)針對性與體系拓展性,在其基礎(chǔ)上構(gòu)建的知識圖譜,在基本功能、計算效能等方面,相比傳統(tǒng)方法有著顯著優(yōu)勢,是試驗鑒定領(lǐng)域數(shù)據(jù)深度治理工作的有力支撐,具有較強的應(yīng)用推廣價值。