喻凡坤,胡超芳,羅曉亮,梁秀兵
(1.天津大學 電氣自動化與信息工程學院,天津 300072;2.中國人民解放軍軍事科學院 國防科技創(chuàng)新研究院,北京 100071)
近年來,各軍事強國高度重視并積極推進無人系統(tǒng)及相關領域的研究,使其產生顛覆性的應用技術[1]。我國民用無人機在全球的市場占有率高達70%,大疆無人機為代表的民用無人機技術已經走在世界前列[2],但軍用無人機與美英等軍事強國相比仍有較大差距,軍用無人機是我國未來武器裝備發(fā)展的重點方向。
隨著信息化與智能化的深度融合發(fā)展,無人系統(tǒng)在執(zhí)行任務過程中積累了大量數據,國內某型號飛機每小時產生的數據量可高達20 GB[3]。無人系統(tǒng)產生的海量數據大多用故障樹分析法來定性分析故障原因,故障樹具有很強的邏輯性,能夠有效避免初始故障發(fā)生[4- 5],王金鑫[6]等將故障樹向貝葉斯網絡轉化,提出一種基于貝葉斯的故障診斷方法,有效解決了柴油機潤滑系統(tǒng)多故障的解耦與診斷問題;褚景春[7]等通過分析風力發(fā)電機組轉速特征,利用故障樹和概率神經網絡構建故障診斷模型,能有效提高風力發(fā)電機組轉速故障檢測的準確性。故障樹分析法可有效了解系統(tǒng)失效原因,但故障樹模型中的知識元素缺乏語義聯系,不能窮盡所有故障原因,難以滿足無人系統(tǒng)的維修保障需求。
人工智能已經滲透到各行各業(yè),迅速而又深刻地改變我們的日常生活。2017年7月《新一代人工智能發(fā)展規(guī)劃》的發(fā)布,人工智能已逐步成為國家發(fā)展的新興戰(zhàn)略需求,大數據、人機協(xié)同、群體智能等成為人工智能的發(fā)展重點。大數據時代的來臨,數據量呈指數型爆炸增長,海量數據的出現會導致數據處理、數據存儲、數據查詢以及數據集成等技術的變革[8-10],為無人系統(tǒng)的維修保障模式帶來了新的挑戰(zhàn)和機遇。目前,無人系統(tǒng)產生的數據利用故障樹模型分析故障原因,在一定程度上能緩解維修保障問題,但故障數據之間缺乏語義聯系,信息難以共享,未能有效利用數據信息。隨著數據量的暴增,利用故障樹模型分析無人系統(tǒng)的故障原因,會造成海量數據的極大浪費,知識利用率低,如何有效利用無人系統(tǒng)的海量數據亟需解決。
鑒于以上情況,為有效利用無人系統(tǒng)產生的海量數據,滿足現代無人系統(tǒng)的維修保障需求??紤]到數據的海量性、復雜性以及數據之間的語義性,本文利用知識圖譜技術對無人系統(tǒng)的故障數據進行知識抽取、知識融合以及知識加工,形成一系列相互關聯的知識,為構建無人系統(tǒng)領域故障知識圖譜提供一種可行的方法。
知識圖譜(knowledge graph)于2012年5月17日被谷歌(google)正式提出,用于提高其搜索質量的知識庫。知識圖譜的本質是一種語義網絡,其結點代表實體(entity)或者概念(concept),邊(edge)代表實體或者概念之間的各種語義關系。知識圖譜以結構化三元組<“實體-關系-實體”、“實體-屬性-屬性值”>的形式存儲現實世界中的實體(概念)及其之間的關系,即G =
,Head表示頭實體,Relation表示關系集合,Tail表示尾實體,其中,有些“關系”也稱為“屬性”,相應地,尾實體被稱為屬性值[11]。比如在無人系統(tǒng)中,要感知無人機的方向,可將多個三元組表示成一個有向圖知識圖譜,如圖1所示:其中“陀螺儀”、“飛機方向”和“俯仰角”等表示實體,“測量”和“包含”表示實體間的關系,并且在三元組<陀螺儀,測量,飛機方向>中,陀螺儀、飛機方向分別表示該三元組的頭實體和尾實體。圖1 無人系統(tǒng)知識圖譜示意圖
知識圖譜已經成為學術界和工業(yè)界的研究熱點,由最初用于提高搜索引擎的準確率,至今已廣泛應用于機器翻譯[12]、智能問答[13]、推薦系統(tǒng)[14-15]等。我國知識圖譜雖起步較晚,但是研究成果較為豐富。在學術界,中文知識圖譜研究平臺zhishi.me、開放知識圖譜OpenKG以及復旦大學的知識工廠等,它們不但知識來源廣,而且有文本理解、智能搜索等作用,有利于促進知識圖譜的普及與應用。在工業(yè)界,為提高搜索質量,搜狗和百度先后建立起自己的知識庫“知立方”和“知心”,引入語義理解技術,使搜索結果準確地傳遞給用戶。隨著通用知識圖譜的迅速發(fā)展,許多公司相應建立起自己的知識庫,如IBM的Watson Health、阿里的健康百科“醫(yī)知鹿”等,可見,知識圖譜在特殊領域也扮演著重要作用。
目前,國內外利用無人系統(tǒng)故障數據來構建知識圖譜的研究甚少,但知識圖譜在健康醫(yī)療、旅游以及社交網絡等垂直領域有較多研究。侯夢薇[16]等深入解析醫(yī)學知識表示、醫(yī)學知識抽取、醫(yī)學知識融合以及醫(yī)學知識推理,總結了構建醫(yī)學知識圖譜的關鍵技術以及面臨的挑戰(zhàn);徐溥[17]改進了屬性知識擴充以及屬性值融合的方法,提高了知識圖譜構建的質量;程文亮[18]采用最大熵模型使關系抽取的準確率平均高達85%,高質量地構建了企業(yè)間的知識圖譜?;谄渌怪毙袠I(yè)知識圖譜的構建基礎及其關鍵技術,通過無人系統(tǒng)數據采集器獲得的數據來構建領域知識圖譜,形成無人系統(tǒng)健康狀態(tài)知識庫,有利于無人系統(tǒng)的維修保障,無人系統(tǒng)的數據采集及維修保障如圖2所示。
圖2 無人系統(tǒng)數據采集及維修保障示意圖
知識圖譜一般包含邏輯結構和技術(體系)構架。本文從構建無人系統(tǒng)領域故障知識圖譜出發(fā),詳細介紹技術構架。
1.3.1 知識圖譜的邏輯結構
知識圖譜在邏輯上可以分為數據層和模式層。模式層通常由本體庫來管理,本體是結構化知識庫的概念模板,如“無人系統(tǒng)故障”、“飛行控制系統(tǒng)故障”等概念實體,由本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小,由此可見,模式層是知識圖譜的核心。數據層存儲的是具體數據信息,由一系列的事實<“實體-關系-實體”、“實體-屬性-屬性值”>組成,如無人系統(tǒng)常見的故障信息<地磁儀無數據,導致,地磁儀故障>,而知識以事實為單位進行存儲,在工業(yè)界主要由Neo4j圖數據庫來存儲數據。
1.3.2 知識圖譜的體系(技術)構架
隨著無人系統(tǒng)智能化的飛速發(fā)展,傳統(tǒng)數據處理技術難以理解數據之間隱含的關系和規(guī)則,信息共享困難,不能高效地利用無人系統(tǒng)產生的海量數據[3]。知識圖譜技術利用自然語言處理、數據挖掘和機器學習等技術的方法和原理,能夠讓計算機更好地理解數據。無人系統(tǒng)在執(zhí)行任務的飛行及停機維修過程中,積累了大量的結構化數據(狀態(tài)監(jiān)控數據)、半結構化數據(日志文件)和非結構化數據(圖片、文檔、視頻),知識圖譜技術可以有效利用這些數據構建高質量的知識庫。借鑒通用知識圖譜構建的一般流程,給出了無人系統(tǒng)知識圖譜體系構架,構建流程如圖3所示。
圖3 無人系統(tǒng)知識圖譜體系構架
由圖3可知,無人系統(tǒng)知識圖譜主要由知識抽取、知識融合和知識加工三大部分組成。無人系統(tǒng)的知識抽取,通過無人系統(tǒng)飛行時的狀態(tài)參數、運動參數的結構化、半結構化或非結構化信息抽取實體、屬性及其關系,并且將這些信息以三元組的形式存儲到知識庫中。無人系統(tǒng)知識融合,對無人系統(tǒng)知識庫的冗余和錯誤信息通過實體消歧、實體對齊等方法進行整合、消歧,進而提升無人系統(tǒng)知識庫的質量。無人系統(tǒng)知識加工,借助知識推理,推斷出缺失事實,構建本體關系,通過質量評估,確保知識庫的知識不會產生矛盾和不一致性。
無人系統(tǒng)知識圖譜構建方式主要有自底向上(bottom-up)和自頂向下(top-down)兩種。自底向上是通過知識抽取得到實體、屬性及其關系,并通過數據驅動的自動化方式構建本體,進而構建知識圖譜;自頂向下是先構建頂層本體與數據模式,然后通過實體將其豐富,進而形成知識庫。目前,知識圖譜的構建大多采用自底向上的方式,但無人系統(tǒng)故障知識圖譜是領域知識圖譜,涉及知識范圍較窄,本文采用自底向上和自頂向下相結合的方式構建無人系統(tǒng)知識圖譜。
知識抽取(knowledge extraction)是從開放的無人系統(tǒng)數據(半結構化數據、非結構化數據)自動化或人工抽取知識單元,知識單元包括實體、關系及其屬性,顯然,知識抽取由實體抽取、關系抽取和屬性抽取三部分組成。實體抽取可以識別專有名詞和特殊詞語并加以歸類,關系抽取是將眾多離散的實體以網狀的知識結構建立實體間的語義鏈接。實體的屬性是一種特殊的實體間的關系,郭劍毅[19]等利用條件隨機場和支持向量機的方法將景點實體屬性抽取等價為實體關系抽取,因此可以把屬性抽取問題轉化為關系抽取問題。無人系統(tǒng)數據資源包括結構化數據,半結構化數據以及非結構化數據,針對不同類型數據,采用不同方法將其轉化成三元組結構,知識抽取的過程如圖4所示。
圖4 無人系統(tǒng)知識抽取過程
針對無人系統(tǒng)的結構化數據(狀態(tài)監(jiān)控數據),由于數據庫存儲的數據結構性強,可直接通過D2R映射自動抽取,轉化為三元組知識單元。半結構化數據(百科類知識等),可設計專門的包裝器針對性抽取,如王輝[20]等利用CN-DBpedia構建的特殊包裝器可實現高質量的網頁知識抽取。而非結構化數據是以文本、圖像、視頻等文檔形式存在的數據,是知識抽取的難點。非結構數據的信息抽取主要有3種方法,基于規(guī)則的方法需要領域專家制定特定的規(guī)則,不僅耗費大量人力,并且魯棒性較差?;跈C器學習的方法需要標注語料信息訓練模型,且存在標注語料質量參差不齊、需要人工提取特征等不足,目前主要采用半監(jiān)督學習方法,從小樣本學習,在減小人力資源的情況下提高信息抽取的質量。近年來,深度學習的興起為高質量信息抽取提供了更多的途徑,BILSTM-CRF是信息抽取中主流的深度學習模型,L.Luo[21]等用BILSTM-CRF模型應用在生物醫(yī)學領域的信息抽取,使得實體識別、實體關系識別準確率分別高達91.14%和92.57%,且該模型在其它領域也有較好的效果。由于無人系統(tǒng)產生的海量數據具有多樣性、知識本身的復雜性,可以借鑒BILSTM-CRF深度學習模型自動提取無人系統(tǒng)非結構化數據特征,進而完成信息抽取。
知識抽取得到的三元組知識單元具有多樣性、冗余、歧義、甚至錯誤等特點[22],如“無人機系統(tǒng)”、“無人系統(tǒng)”可能均指向同一實體。知識融合(Knowledge Fusion)將來自不同數據源的多源異構、語義多樣的無人系統(tǒng)知識,在同一框架規(guī)范下進行異構數據的整合、沖突檢測、消歧、加工等,對知識進行正確性判斷,去粗取精,構建高質量的知識庫[23]。
2.2.1 實體消歧
實體消歧(entity disambiguation)旨在解決實體指稱與真實世界實體之間的歧義問題,并且實體消歧的難點主要兩大方面[24]:
1)實體指稱的多樣性:同一實體在文本中會有不同的指稱;如不同的實體指稱“飛控”、“飛控系統(tǒng)”、“飛機控制系統(tǒng)”等,可能都對應知識庫中的“無人機飛控”同一實體。
2)實體指稱的歧義性:同一實體指稱在不同的上下文中可以指不同的實體;如相同實體指稱“大疆”可能對應知識庫中的“大疆無人機”、“深圳大疆創(chuàng)新科技有限公司”等不同實體。
實體消歧主要有基于聚類的實體消歧方法和基于實體鏈接的實體消歧方法,示意過程如圖5所示。
圖5 實體消歧示意圖
由圖5可知,當沒有目標實體時,實體消歧大多采用基于聚類的方法。聚類法是基于實體指稱的特征(上下文的詞語、實體屬性等),計算實體指稱之間的相似度,通過聚類算法對實體指稱聚類。李廣一[25]等基于向量空間相似度,使用層次聚合式聚類(HAC)算法對未與知識庫鏈接的文檔進行聚類,實現歧義消解,F值高達88.35%?;趯嶓w鏈接的實體消歧,通過計算實體指稱與目標實體之間的相似度,將實體指稱鏈接到知識庫中與實體指稱相似度最高的目標實體。然而,當知識庫中不存在目標實體與實體指稱對應時,將實體指稱鏈接到空實體。針對無人系統(tǒng)產生的數據,通過信息抽取得到的實體指稱,可先將部分實體指稱鏈接到歷史知識庫,將剩余未鏈接的實體指稱通過基于聚類的方法進行實體消歧。
2.2.2 實體對齊
實體對齊(entity alignment)也稱實體匹配(entity matching),旨在解決相同或不同知識庫中的兩個或多個實體在現實世界是否為相同實體的問題,通過消除異構數據源知識庫中的實體沖突、指向不明等不一致問題,高質量地鏈接多個現有知識庫,從頂層創(chuàng)建一個大規(guī)模統(tǒng)一的知識庫[26-27]。
無人系統(tǒng)產生的海量數據,通過知識抽取得到的實體,也需要實體對齊來提高無人系統(tǒng)知識庫的質量。實體對齊算法是實體對齊技術的核心,主要有成對實體對齊和協(xié)同(集體)實體對齊兩類。成對實體對齊主要通過提取實體及其屬性特征,并計算它們的相似度來實現實體對齊,相似度計算方法主要有基于傳統(tǒng)概率模型和機器學習方法;協(xié)同實體對齊是在實體對齊的基礎上,在計算相似度時考慮與實體相關的其它實體屬性,并賦予權重[16, 26]。
通過知識抽取、知識融合等技術可以從無人系統(tǒng)的原始數據得到基本的事實表達,事實通過特殊的知識加工可形成高質量的知識。知識加工主要包括以下4個方面:本體構建、知識推理、質量評估和知識更新。
1)本體構建:無人系統(tǒng)故障知識圖譜涉及知識范圍較窄,采用自底向上和自頂向下相結合的方式來構建知識圖譜。本體(Ontology)是對共享概念進行規(guī)范,形式化描述對象、屬性及其關系[28]。首先確定無人系統(tǒng)故障知識圖譜的核心概念(“無人系統(tǒng)故障”、“飛控系統(tǒng)故障”、“動力系統(tǒng)故障”等),將抽取到的實體通過數據驅動的方式自動構建本體,其主要步驟:并列關系相似度計算、實體上下位關系抽取和本體生成[29]。
2)知識推理:知識推理是從已有的無人系統(tǒng)知識庫中已有的實體關系出發(fā),建立實體之間的新聯系,拓展和豐富知識庫的知識網絡[30]。知識推理主要有基于邏輯的推理和基于圖的推理兩種方法,能夠從已有的知識中發(fā)現新知識,在無人系統(tǒng)知識庫中若已知(陀螺儀,測量,飛機方向)、(飛機方向,包含,偏航角)和(偏航角,異常,角度),則可以推理出陀螺儀出現故障。
3)質量評估:通過知識抽取得到的無人系統(tǒng)領域的知識元素可能存在錯誤,經過知識推理得到新知識的質量也無法完全保證,因此在將其加入知識庫之前,需要有一個質量評估的過程,質量評估是保障數據的重要手段,并且貫穿在知識圖譜的整個生命周期[30-31]。通過篩選置信度高的數據,可使無人系統(tǒng)知識庫的數據得到進一步保障。
4)知識更新:信息隨著時間不斷積累,是一個動態(tài)過程,無人系統(tǒng)知識圖譜也需要不斷迭代更新。知識庫的更新包括模式層的更新和數據層的更新;模式層的更新是指概念層的更新,新的概念添加到知識庫的概念層后,需要更新概念的屬性及其關系;數據層的更新主要是新增或更新實體、關系和屬性值[30, 32]。
知識圖譜可以提供一種管理與利用海量異構數據的有效方式,使大量數據產生普遍聯系并得到良好表達,有著廣泛的軍事應用。
傳統(tǒng)的搜索是基于關鍵詞匹配索引,搜索引擎不能理解用戶的真正語義,檢索效率低下[33]。知識圖譜本質是一種實體間關系的語義網絡,能夠改變現有的信息檢索方式,通過推理實現概念檢索并且以圖形化的方式展現結構化知識[26, 30],提高搜索精度,知識圖譜在智能搜索方面有著天然的優(yōu)勢。知識圖譜可應用于智能導彈的目標追蹤,如圖6所示,預警機被周圍多種類型飛機保護,對預警機進行目標打擊常常受到周圍飛機或者飛機發(fā)射信號的干擾,裝載有目標(預警機)“知識圖譜”信息的導引頭智能導彈,可以自動篩選匹配目標相關信息,具有電磁、紅外、多光譜、圖像等抗干擾能力,可實現對目標的精準打擊。
圖6 基于知識圖譜的智能導彈
搜索引擎一般能滿足人們信息獲取需求,但隨著互聯網信息的爆炸式增長,使得搜索結果太多,用戶很難快速準確地獲得所需信息,可以更好滿足用戶信息需求的問答系統(tǒng)受到青睞[34-35]。對于問題的輸入,問答系統(tǒng)的輸出是一個簡潔的答案或者可能答案的列表。在日益復雜的軍事問題上,問答系統(tǒng)可以有效提高軍事決策效率,對作戰(zhàn)決策有著重要意義。圖7是問答系統(tǒng)在軍用飛機上的應用,可實現精確簡潔的信息結果。
圖7 某軍事問答系統(tǒng)
由于計算能力、海量數據以及核心算法的出現,基于知識圖譜的輔助決策技術在健康醫(yī)療、金融、智慧城市交通等領域有著廣泛的應用。如IBM的Watson Health借助海量數據形成的知識庫,利用深度學習算法對腫瘤和癌癥領域進行決策判斷,供醫(yī)學專業(yè)人員參考。知識圖譜通過對數據、知識等信息的分析統(tǒng)計,發(fā)現數據信息之間的關聯并挖掘其中規(guī)律,結合歷史知識庫相關經驗做出預判,實現智能化輔助決策,可運用于未來的軍事應用。
本文介紹了知識圖譜的概念性知識,對無人系統(tǒng)的海量數據進行知識抽取、知識融合以及知識加工,形成高質量的三元組知識,為構建無人系統(tǒng)領域故障知識圖譜提供一種可行的途徑。利用海量數據構建的知識圖譜具有智能搜索、系統(tǒng)問答、輔助決策等功能,具有重要的軍事應用前景。