唐荻音, 丁奕州, 王 軒, 劉文靜, 王淑一, 賴?yán)铈戮?/p>
1. 自動化科學(xué)與電氣工程學(xué)院,北京航空航天大學(xué), 北京 100191
2. 北京控制工程研究所, 北京100094
隨著我國航天事業(yè)的蓬勃發(fā)展,在軌運行航天器的數(shù)量不斷增多,為保障航天任務(wù)的正常執(zhí)行,對于航天器的性能維護與故障診斷也愈加重要.現(xiàn)如今,航空航天領(lǐng)域中的系統(tǒng)設(shè)備向著智能化、模塊化、復(fù)雜化和精密化方向發(fā)展.航天器裝備機電系統(tǒng)中傳統(tǒng)的模擬系統(tǒng)逐漸被數(shù)字系統(tǒng)所取代,信息化程度不斷提高,帶來了航天器故障定位、隔離、監(jiān)測以及維護困難等問題.
航天器全生命周期的各個階段產(chǎn)生并積累了大量的數(shù)據(jù)和專家知識,這些數(shù)據(jù)的來源以及存儲介質(zhì)各不相同,數(shù)據(jù)形式不一,結(jié)構(gòu)多樣.如何從這些多源異構(gòu)的海量知識和數(shù)據(jù)中過濾出有用的信息,將其處理形成結(jié)構(gòu)化的知識并在知識間形成有效融合,對航天器故障診斷以及性能維護有著非常重要的意義.
知識圖譜作為描述海量知識、知識屬性及知識間關(guān)系的有效工具,自2012年谷歌提出以來,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.它可以通過機器學(xué)習(xí)、自然語言處理等相關(guān)算法,以資源描述框架和屬性圖的形式進行自動化圖譜構(gòu)建,并實現(xiàn)高效、快速的信息搜索.航天器故障類型多、故障原因復(fù)雜、影響因素廣泛和排查難度大,知識圖譜能夠借助其在構(gòu)建知識網(wǎng)絡(luò)與展現(xiàn)知識關(guān)聯(lián)方面的巨大優(yōu)勢,為具有復(fù)雜關(guān)系的航天器故障知識信息提供一種新的獲取、存儲、組織、管理、更新和展示的手段,并提供更符合認知習(xí)慣的故障知識應(yīng)用與故障推理方式,從而提高故障定位的效率和精準(zhǔn)程度.
目前,在多個領(lǐng)域,已有學(xué)者基于領(lǐng)域故障數(shù)據(jù)構(gòu)建了故障知識圖譜.文獻[1]采用文本挖掘的故障短語抽取方法,建立了高鐵列控車載設(shè)備故障知識圖譜,為高鐵的安全運行和故障排查提供保障.文獻[2]提出了一種發(fā)動機故障知識圖譜構(gòu)建方法,基于BERT和BiLSTM-CRF相結(jié)合的實體識別框架,提取故障資料中的專家知識生成數(shù)據(jù)層中的實體以構(gòu)建知識圖譜.文獻[3]提出了一種自頂向下和自底向上法相結(jié)合的航天軟件信息知識圖譜構(gòu)建方法,并采用改進的骨架法構(gòu)建本體.文獻[4]設(shè)計了一種汽車故障知識圖譜構(gòu)建流程,在傳統(tǒng)構(gòu)建流程的基礎(chǔ)上加入文本預(yù)分類和實體重組流程.
然而,目前故障診斷領(lǐng)域關(guān)于知識圖譜構(gòu)建的方法往往聚焦于從文本和表格數(shù)據(jù)中提取知識,而沒有考慮對象系統(tǒng)在測試、運行期間產(chǎn)生的大量實測數(shù)據(jù)中所蘊含的故障知識.同時,雖然航天器的故障知識來源廣泛,但描述形式差別大、數(shù)據(jù)量也十分有限,因而基于純故障數(shù)據(jù)挖掘?qū)嶓w和關(guān)系的工業(yè)界常用圖譜構(gòu)建方法也并不適用.因此,面對包含時序數(shù)據(jù)在內(nèi)的航天器多源異構(gòu)故障信息,本文提出一種本體-實體雙向約束的知識圖譜構(gòu)建方法.一方面自頂向下基于領(lǐng)域?qū)<抑R初步構(gòu)建本體,另一方面自底向上通過故障數(shù)據(jù)挖掘?qū)嶓w以優(yōu)化本體,通過本體與實體的雙向約束,實現(xiàn)多源異構(gòu)故障信息的知識融合.采用上述方法,本文以航天器控制力矩陀螺為例,構(gòu)建了故障知識圖譜,驗證了方法的可行性和有效性.
當(dāng)前,實際應(yīng)用的航天器故障診斷技術(shù)主要依賴設(shè)計、制造和分系統(tǒng)地面測試期間積累的專家知識.這些知識通過FMEA分析表、故障案例、排故經(jīng)驗和航天器日志等方式積累,故障知識稀疏、分散、獨立且結(jié)構(gòu)形式多樣,難以覆蓋全部故障并實現(xiàn)知識間的共通互享.其次,歷史及在軌遙測數(shù)據(jù)中隱含的大量與故障相關(guān)的信息沒有被有效利用,故障模式之間、數(shù)據(jù)與故障之間的隱性關(guān)聯(lián)關(guān)系沒有得到充分挖掘.
本文首先依據(jù)數(shù)據(jù)結(jié)構(gòu)類型對航天器故障數(shù)據(jù)分類,將多源異構(gòu)故障數(shù)據(jù)劃分為有限數(shù)量的類別進行后續(xù)處理.以航天器控制力矩陀螺為例,根據(jù)目前所掌握的資料,可分為文本非結(jié)構(gòu)化數(shù)據(jù)、表格半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化規(guī)則知識以及航天器運行遙測數(shù)據(jù).
結(jié)構(gòu)化的數(shù)據(jù)一般指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲、可以用二維表來邏輯表達實現(xiàn)的數(shù)據(jù).該類數(shù)據(jù)存儲和排列都符合一定規(guī)則.在航天器故障知識中,專家規(guī)則一般以結(jié)構(gòu)化數(shù)據(jù)的形式進行存儲.專家規(guī)則由領(lǐng)域?qū)<腋鶕?jù)設(shè)計指標(biāo)或經(jīng)驗設(shè)定的相關(guān)規(guī)則組成.本文涉及到的航天器專家規(guī)則存儲在以規(guī)則代號、判別表達式、故障現(xiàn)象和故障等級等為列名的關(guān)系數(shù)據(jù)庫中,如表1所示.因為結(jié)構(gòu)化的規(guī)則數(shù)據(jù)一行表示一個實體信息,每一列數(shù)據(jù)的屬性相同,因此無需過多對結(jié)構(gòu)化規(guī)則知識進行預(yù)處理,可以直接根據(jù)構(gòu)建的本體模型映射生成知識圖譜.
表1 故障事件判別規(guī)則Tab.1 Fault event discriminatory rules
半結(jié)構(gòu)化數(shù)據(jù)是并不符合關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型結(jié)構(gòu).它的特點是,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混合,二者間沒有嚴(yán)格的區(qū)分,但包含相關(guān)標(biāo)記,可以用來分隔語義元素以及對記錄和字段進行分層.航天器故障知識存在著許多以表格形式存在的半結(jié)構(gòu)化數(shù)據(jù),如FMEA分析等.該類數(shù)據(jù)的不能直接映射到知識圖譜中,但較之非結(jié)構(gòu)化的數(shù)據(jù)更加便于被提取為結(jié)構(gòu)化的知識.針對此類資料,采用人工分析構(gòu)建包裝器來提取規(guī)則,從而將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù).
非結(jié)構(gòu)化數(shù)據(jù)是沒有固定結(jié)構(gòu)的數(shù)據(jù).航天器上產(chǎn)生的以文本形式為載體的大量非結(jié)構(gòu)化數(shù)據(jù)主要源于設(shè)計資料、航天器日志、故障記錄以及異常報文等.來源于航天器的非結(jié)構(gòu)化數(shù)據(jù)屬于文本密集型,航天器的故障知識就暗含在這些文本數(shù)據(jù)中.通常,故障文本的形式如圖1所示.文檔中會包含航天器可能發(fā)生的故障現(xiàn)象、故障原因以及維修措施,故障文本按照一定的規(guī)范記錄,便于文本的預(yù)處理和知識的獲取.非結(jié)構(gòu)化數(shù)據(jù)將采用文本處理方法進行實體、關(guān)系和屬性的挖掘.
圖1 文本數(shù)據(jù)示例Fig.1 Text data example
航天器中除了設(shè)計和可靠性專家本身所能提供的專家經(jīng)驗外,其使用過程中的知識挖掘也是對診斷知識的重要補充.這部分數(shù)據(jù)除了航天器日志、異常報文等文字材料,還包括大量運行遙測數(shù)據(jù).通過遙測數(shù)據(jù)的異常表征可以獲得航天器的故障信息.圖2展示了本文案例中涉及的經(jīng)脫敏和預(yù)處理后的遙測數(shù)據(jù)樣例.數(shù)據(jù)隨時間變化,其異常表征與航天器故障模式直接關(guān)聯(lián).遙測數(shù)據(jù)存在著數(shù)量大、范圍廣、實體不明確、關(guān)系不清晰和屬性不全面等缺陷,需借助數(shù)據(jù)挖掘技術(shù),挖掘其隱含的異常規(guī)則,用于擴充故障知識來源,豐富故障知識圖譜.
圖2 遙測數(shù)據(jù)示例Fig.2 Telemetry data example
本文知識圖譜的架構(gòu)包含邏輯框架以及技術(shù)框架,并用三元組作為基本表達方式.邏輯框架由本體層和實體層組成,其中本體層用來規(guī)范實體、關(guān)系以及屬性間的聯(lián)系,實體層中知識圖譜的知識以事實的形式存儲.知識圖譜的技術(shù)框架由構(gòu)建知識圖譜時所采用的技術(shù)手段組成,包含數(shù)據(jù)預(yù)處理、知識抽取、知識融合、知識存儲等方法.
知識圖譜邏輯框架的構(gòu)建方法一般分為自頂向下和自底向上兩種[5].自頂向下的方法指先構(gòu)建知識圖譜的本體層并定義本體,再依據(jù)本體從數(shù)據(jù)中抽取知識,抽取所得的實體、關(guān)系以及屬性與本體定義的實體類型、關(guān)系類型以及屬性類型相對應(yīng),是一個從抽象到具體的過程.而自底向上的方法則是先從數(shù)據(jù)中抽取出實體、關(guān)系和屬性構(gòu)成實體層,再歸納聚類,抽象出本體形成本體層[6].本文所采用的邏輯框架構(gòu)建方法為一種本體-實體雙向約束的方法,具體描述如下節(jié).
雖然航天器的故障知識來源廣泛,并通過FMEA分析表、故障案例、排故經(jīng)驗和航天器日志等多種載體記錄,但數(shù)據(jù)量十分有限,難以直接通過故障知識和數(shù)據(jù)歸納抽象出本體層以及自底向上構(gòu)建圖譜.另一方面,采用自頂向下的方法則被專家定義的領(lǐng)域知識本體框架所限制,無法完全覆蓋從設(shè)計資料、實測數(shù)據(jù)等間接故障信息中挖掘到的新故障知識.因此,本文采用自頂向下和自底向上相結(jié)合方法構(gòu)建航天器故障知識圖譜,構(gòu)建本體-實體雙向約束.該方法具有自頂向下方法準(zhǔn)確性的同時也具有自底向上方法對新故障知識的包容性.
如圖3所示,本文中知識圖譜的構(gòu)建流程為:首先初步分析航天器的多源異構(gòu)數(shù)據(jù),篩選可用的故障信息資料.對于結(jié)構(gòu)化程度高的故障信息,直接提取知識;而對于結(jié)構(gòu)化程度低的間接故障信息,則需對其進行數(shù)據(jù)清洗以及預(yù)處理.其次,本文提出一種改進的IDEF5法,依據(jù)專家定義的領(lǐng)域知識和預(yù)處理的數(shù)據(jù)結(jié)果歸納構(gòu)建知識圖譜本體層,并依據(jù)挖掘的新故障知識不斷優(yōu)化完善本體層.然后,針對不同的故障信息資料采用不同的方法提取知識,生成實體、關(guān)系以及屬性,與本體層中規(guī)范的本體模型相對應(yīng).最后,提取知識在實體層融合后將知識圖譜儲存到圖數(shù)據(jù)庫Neo4j中并可視化展示知識圖譜.
圖3 知識圖譜構(gòu)建框架Fig.3 Knowledge graph construction framework
由于航天器故障知識專業(yè)性強、來源多樣,因此在專家經(jīng)驗的指導(dǎo)下,采用改進的IDEF5法構(gòu)建本體.傳統(tǒng)的IDEF5法[7]的本體構(gòu)建方法流程分為5步包括:組織和范圍、數(shù)據(jù)收集、數(shù)據(jù)分析、初始化本體和本體的確認.本文根據(jù)航天器故障數(shù)據(jù)特點在傳統(tǒng)IDEF5法的基礎(chǔ)上對本體構(gòu)建方法進行改進,增加了優(yōu)化和驗證環(huán)節(jié),以確保本體的準(zhǔn)確率和覆蓋率.
改進后的 IDEF5法流程為:
1)確定本體的領(lǐng)域和范圍.將本體限定在航天器故障診斷領(lǐng)域內(nèi).
2)數(shù)據(jù)收集.收集了多種形式的航天器故障數(shù)據(jù),例如控制力矩陀螺的FMEA分析表、航天器故障專家規(guī)則、維修排故文本資料等.
3)數(shù)據(jù)分析.對原始數(shù)據(jù)分析,將專家規(guī)則和控制力矩陀螺FMEA表格中專業(yè)術(shù)語進行整理分類,并分析故障文本資料確定其中與故障有關(guān)的關(guān)鍵詞.
4)知識本體的初步開發(fā).根據(jù)數(shù)據(jù)分析的結(jié)果和專家經(jīng)驗建立初步本體模型,其主要以專家經(jīng)驗為指導(dǎo)、以現(xiàn)有故障資料為補充,以項目名稱、故障模式以及規(guī)則代號為核心實體類型構(gòu)建.
5)本體的優(yōu)化與驗證.用從間接故障信息中抽取的知識優(yōu)化驗證本體.從遙測數(shù)據(jù)中挖掘新規(guī)則,從非結(jié)構(gòu)的文本數(shù)據(jù)中抽取實體,用以補充知識圖譜,并優(yōu)化本體模型,同時也可用新產(chǎn)生的知識反復(fù)驗證本體的準(zhǔn)確率和覆蓋率.
采用改進的IDEF5法構(gòu)建的知識圖譜本體模型如圖4所示.
圖4 知識圖譜本體模型Fig.4 Knowledge graph ontology model
以控制力矩陀螺故障知識資料以及專家規(guī)則為例構(gòu)建的本體包含14種實體類型(如故障模式、故障原因和故障檢測方法)、8種關(guān)系類型(如判斷、包含和關(guān)聯(lián)).根據(jù)抽取的知識驗證本體模型,其能夠覆蓋原有的專家知識也能容納從航天器遙測數(shù)據(jù)中挖掘產(chǎn)生的新故障知識.
本文中航天器的專家知識來源于專家規(guī)則以及專家經(jīng)驗資料.專家規(guī)則以結(jié)構(gòu)化的形式存儲在關(guān)系型數(shù)據(jù)庫中,而部分專家經(jīng)驗資料以結(jié)構(gòu)以及半結(jié)構(gòu)混雜的形式儲存在FMEA分析表中.本文針對知識的不同形式提出相應(yīng)的提取方法.
關(guān)系型數(shù)據(jù)庫中的知識存儲模式為整套表格的完整設(shè)計,圖數(shù)據(jù)庫中的知識存儲模式為節(jié)點、關(guān)系及其標(biāo)簽、屬性.圖數(shù)據(jù)庫中一個實體(含關(guān)系)是一個基本存儲單元.標(biāo)簽是劃分實體和關(guān)系類型的依據(jù),有標(biāo)簽名這一個要素;屬性存儲節(jié)點信息,有屬性名、屬性值兩個要素.本文將關(guān)系型數(shù)據(jù)庫的模式映射到圖數(shù)據(jù)庫中的模式,以此來實現(xiàn)知識轉(zhuǎn)化.
面對存儲在表文件中的知識,按照圖結(jié)構(gòu)的方式進行轉(zhuǎn)存,統(tǒng)一對有標(biāo)簽的、可結(jié)構(gòu)化處理的故障數(shù)據(jù)進行“實體”、“關(guān)系”的轉(zhuǎn)換.以圖5中控制力矩陀螺的FMEA分析表為例,說明該分析表中的結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)如何將進行三元組構(gòu)建與轉(zhuǎn)儲.由于本文所應(yīng)用與故障診斷領(lǐng)域的知識圖譜較通用知識圖譜的數(shù)據(jù)來源略少、數(shù)據(jù)量級較低,因此知識圖譜的構(gòu)建上多采取以空間換時間的原則,提出兩種知識轉(zhuǎn)化方式.
圖5 某型控制力矩陀螺FMEA分析表Fig.5 FMEA analysis table of a certain type of control torque gyro
(1)直接轉(zhuǎn)儲
對表格中已經(jīng)規(guī)范化的結(jié)構(gòu)化的信息,可以直接進行轉(zhuǎn)儲.關(guān)系數(shù)據(jù)庫中的列名,對應(yīng)于圖數(shù)據(jù)庫中的標(biāo)簽、屬性或關(guān)系,應(yīng)根據(jù)包含信息和功能的不同注意以下事項:1)表格中的某些列名可以同時作為屬性或標(biāo)簽,或者關(guān)系;2)為了查詢或推理的便利,某列表格中的值既可以作為節(jié)點,又可以重復(fù)作為其他節(jié)點的屬性值;3)作為邊的關(guān)系種類應(yīng)盡可能的少,以降低推理的難度.
(2)模式化轉(zhuǎn)儲
表格中的多數(shù)信息是規(guī)范的、格式化的,但存在部分需要清洗的半結(jié)構(gòu)化數(shù)據(jù),直接通過標(biāo)志字符或停用詞檢查對長子句結(jié)構(gòu)化抽取與語句合并.在本體的指導(dǎo)下,對合并結(jié)果進行歸納整理,然后將結(jié)果中的實體、關(guān)系以及屬性與本體相對應(yīng).
圖5以某型控制力矩陀螺FMEA分析表為例展示了本文面向功能需求將結(jié)構(gòu)化數(shù)據(jù)直接進行三元組轉(zhuǎn)儲的過程.在這個過程中根據(jù)本體規(guī)范,列名可以是節(jié)點標(biāo)簽也可以同時是屬性或者關(guān)系.將表格中存在的大部分信息直接轉(zhuǎn)儲,而預(yù)防/糾正措施中的內(nèi)容采用模式化轉(zhuǎn)儲方法,分割內(nèi)容后完成轉(zhuǎn)儲.最終將構(gòu)建的三元組存儲到圖數(shù)據(jù)庫Neo4j中.總共從FMEA表格中共提取出281個實體,512條關(guān)系.
通過Neo4j中Cypher查詢語言對構(gòu)建結(jié)果進行驗證,以項目名稱為核心節(jié)點進行搜索,即可獲得該項目有關(guān)的故障知識,查詢結(jié)果如圖6所示.結(jié)果展示了一次電源等5個項目以及與之有關(guān)的故障模式、導(dǎo)致故障產(chǎn)生的原因以及解決措施等相關(guān)信息,同時體現(xiàn)了不同項目間的關(guān)聯(lián)關(guān)系.驗證了本文(半)結(jié)構(gòu)化數(shù)據(jù)圖譜轉(zhuǎn)化方法的有效性和可行性.
隨著自然語言處理技術(shù)的發(fā)展,涌現(xiàn)出很多較為成熟的中文文本處理工具.航天器故障診斷專業(yè)領(lǐng)域的相關(guān)資料多具備一些規(guī)范的表述和邏輯,但可供中文文本處理工具訓(xùn)練的數(shù)據(jù)稀少.因此,本文充分利用規(guī)范表達的優(yōu)勢,減少數(shù)據(jù)依賴,采用本體-實體雙向約束邏輯,提出關(guān)鍵詞識別+文本分類的方式對具有一定結(jié)構(gòu)的故障文本進行知識抽取.在實體層,采用經(jīng)典CNN模型與多頭注意力機制CNN模型相結(jié)合的方式抽取實體以及關(guān)系,并對比驗證;在本體層,根據(jù)抽取的實體以及關(guān)系對應(yīng)的類型優(yōu)化完善本體.
本文的知識抽取過程,使用現(xiàn)有工具jieba分詞和pyltp,對文本資料預(yù)處理,內(nèi)容包括分詞、停用詞去除、分句等文本清洗工作.
本文采用經(jīng)典的CNN文本分類模型提取實體.在該方法中,模型首先根據(jù)語料庫將文本子句轉(zhuǎn)化成id表示的向量形式,進行序列填充對齊后再接全連接層,作為網(wǎng)絡(luò)輸入;以實體類型作為網(wǎng)絡(luò)輸出.采用關(guān)系分類的多頭自注意機制CNN分類模型提取關(guān)系,則是根據(jù)語料庫對句子進行分詞,將詞轉(zhuǎn)換成向量形式,進行序列填充對齊后再接全連接層,作為詞嵌入特征;同時將每個詞與句中兩個實體的相對距離也轉(zhuǎn)為嵌入向量,作為距離特征;兩特征拼接后才是整體網(wǎng)絡(luò)輸入;以關(guān)系類型作為網(wǎng)絡(luò)輸出.兩種方法互為補充,經(jīng)典的CNN模型解決已知關(guān)系類型的實體標(biāo)簽分類問題,關(guān)系類型由分析文本所得.而多頭自注意機制CNN分類模型,解決實體及標(biāo)簽已知的關(guān)系分類問題.因此方法能夠相互驗證,提高知識抽取的準(zhǔn)確率.故障文本抽取的流程如圖7所示.
以圖1中的文本模塊為例,首先構(gòu)建所需的專業(yè)詞典、語料庫以及關(guān)系類別,并確定用于劃分語句的關(guān)鍵詞,如“故障現(xiàn)象”、“故障原因”等.然后通過分詞確定長文本中關(guān)鍵詞語等詞句的位置,以標(biāo)點、關(guān)鍵詞和停用詞等為標(biāo)識,進行長文本分割.針對實體抽取采用經(jīng)典的CNN文本分類模型.在去符號后構(gòu)建較為規(guī)整的子句,經(jīng)關(guān)系詞提取和文本分類[8-9]得到初步的三元組列表.而針對關(guān)系抽取則采用多頭注意力機制改進的CNN文本分類模型,輸入完整句子并進行實體標(biāo)注,后經(jīng)關(guān)系分類得到初步的三元組列表,將兩種方式得出的三元組列表,對比驗證,得到最終的三元組將其去重后導(dǎo)入知識圖譜.
針對故障文本中提取出的不符合本體模型的三元組可以將其拆分并對應(yīng)本體或?qū)Ρ倔w模型優(yōu)化以覆蓋抽取的新實體,利用本體將不同來源的知識進行融合.例如,故障現(xiàn)象在本體中沒有對應(yīng)的實體類型,經(jīng)分析把內(nèi)容拆分為項目名稱和故障模式,以對應(yīng)本體中的實體類型,從而將由多源異構(gòu)數(shù)據(jù)組成的三元組納入統(tǒng)一本體.由于數(shù)據(jù)來源質(zhì)量高,且有本體指導(dǎo)實體保證知識圖譜的質(zhì)量,只需進一步利用Neo4j中節(jié)點相似度算法計算節(jié)點相似度,并設(shè)置閾值篩選異常節(jié)點,最后人工審核處理異常節(jié)點,刪去或者合并冗余節(jié)點實現(xiàn)知識融合.
將故障文本中提取出的三元組存儲到Neo4j數(shù)據(jù)庫中并可視化展示,利用Cypher查詢語言驗證方法的可行性,查詢結(jié)果如圖8所示.其中以項目名稱為核心節(jié)點,列舉了電源等4個項目有關(guān)的故障模式、故障原因和解決措施等相關(guān)信息.
圖8 故障文本提取結(jié)果Fig.8 Fault texts extraction results
航天器的海量遙測數(shù)據(jù)中暗含著異常信息,如何從中挖掘出故障知識,對生成專家規(guī)則意義重大.而生成的專家規(guī)則是構(gòu)建航天器故障知識圖譜的重要數(shù)據(jù)來源.
本文提出一種基于航天器遙測數(shù)據(jù)規(guī)則挖掘的知識提取方法.首先根據(jù)專家經(jīng)驗以及遙測參數(shù)的物理含義,確定發(fā)生故障的項目名稱以及故障模式,由二者組合形成故障描述,并從中提煉出故障名稱.其次根據(jù)領(lǐng)域?qū)<医?jīng)驗確定與故障相關(guān)的參數(shù),再使用基于圖卷積網(wǎng)絡(luò)的空間模塊挖掘遙測參數(shù)之間的關(guān)聯(lián)關(guān)系.然后對每個涉及的遙測參數(shù)進行單獨的閾值挖掘,確定單個參數(shù)的閾值區(qū)間.最后根據(jù)參數(shù)的關(guān)聯(lián)關(guān)系以及單參數(shù)的閾值生成故障判別表達式,再由人工審核查驗分析規(guī)則的可用性,查驗可行后判定故障等級以及給出該條規(guī)則的規(guī)則代號和預(yù)案編號.規(guī)則生成完成后存儲在關(guān)系數(shù)據(jù)庫中形成結(jié)構(gòu)化的專家知識,以便接下來轉(zhuǎn)化成為知識圖譜進行可視化展示.
針對海量的航天器遙測數(shù)據(jù),在參數(shù)相關(guān)關(guān)系挖掘前,需要對數(shù)據(jù)進行清洗和預(yù)處理.因為遙測參數(shù)序列平穩(wěn)部分占比大的特點,采用分段聚合近似對遙測數(shù)據(jù)采樣處理[10].方法的核心思想是將時間序列分割成子列并求均值,用均值替代原始序列,達到縮減數(shù)據(jù)量的效果.序列分割的方法則是采用等長分割的方法,提前依據(jù)遙測數(shù)據(jù)總量以及特征,設(shè)定子序列長度切割原序列.
本文提出一種基于圖卷積網(wǎng)絡(luò)的空間模塊,并通過它自動創(chuàng)建遙測參數(shù)之間的相關(guān)性網(wǎng)絡(luò)圖,以描述和可視化遙測參數(shù)之間的空間相關(guān)性特征.給定一個有I個輸入?yún)?shù)的數(shù)據(jù)集X,該數(shù)據(jù)集的圖可以表述為G=(V,E),其中V={v1,v2,…,vI}是I個節(jié)點的集合,E是邊的集合.E中的邊可以描述為e=(vi,vj)∈E,其中vi和vj是V中的任意兩個節(jié)點.鄰接矩陣A?RI×I顯示了節(jié)點之間的關(guān)聯(lián)性,其計算方法是
(1)
其中Aij是鄰接矩陣的一個元素,wij表示節(jié)點vi和vj節(jié)點之間的關(guān)系度.
為了構(gòu)建鄰接矩陣,本文將MIC相關(guān)系數(shù)計算方法嵌入到算法中,以捕捉所有的函數(shù)關(guān)系(特別是非線性函數(shù)),以及不同函數(shù)的疊加.
由于缺乏先驗知識,遙測參數(shù)之間的相關(guān)性可能是未知的,所以本文通過訓(xùn)練迭代來自動學(xué)習(xí)鄰接矩陣.動態(tài)構(gòu)建鄰接矩陣的過程如圖9所示,隨著訓(xùn)練樣本和迭代次數(shù)的增加,提取到的參數(shù)相關(guān)性變得更加準(zhǔn)確.
圖9 動態(tài)鏈接結(jié)果Fig.9 Dynamic linking results
(1)獲得每個節(jié)點的嵌入向量
Bi=tanh(yEmb(vi))
(2)
其中,Bi是節(jié)點vi的嵌入向量,它是隨機初始化之后,在訓(xùn)練過程中不斷迭代學(xué)習(xí);γ用于進行線性變換,tanh用于進行非線性變換.
(2)構(gòu)建鄰接矩陣
Aij=Relu(MIC(Bi,Bj))
(3)
其中MIC(Bi,Bj)用于計算節(jié)點嵌入向量Bi和Bj之間的關(guān)聯(lián)性.Relu是用于避免負相關(guān)的激活函數(shù).
(3)使鄰接矩陣稀疏化
(4)
其中,為了降低圖卷積的計算成本,通過設(shè)置預(yù)定義的閾值τ,任何低于τ的Aij將被設(shè)置為零,來消除遙測參數(shù)之間的弱相關(guān)關(guān)系,使鄰接矩陣變得稀疏.
并且設(shè)定終止閾值,若遙測參數(shù)間的相關(guān)性數(shù)值大于終止閾值,則說明參數(shù)間的相關(guān)關(guān)系已挖掘成功.
本文采用流數(shù)據(jù)閥頂點理論模型(streaming peaks over threshold,SPOT)來挖掘遙測數(shù)據(jù)的閾值[11].該算法假設(shè)極值與數(shù)據(jù)分布之間相關(guān)性趨向于0,可以忽略原始數(shù)據(jù)的分布情況,適用于遙測數(shù)據(jù)挖掘.
SPOT算法首先進行POT計算,然后將其作為初始化步驟并將流數(shù)據(jù)作為輸入.采用算法挖掘數(shù)據(jù)閾值的流程為.1)對前n個數(shù)據(jù)進行POT計算,得到初始閾值;2)對新數(shù)據(jù)進行判斷,超出初始閾值為異常數(shù)據(jù),大于經(jīng)驗閾值小于初始閾值則為峰值數(shù)據(jù);3)如果是異常值指標(biāo),則直接標(biāo)出不參與迭代計算,如果是峰值則繼續(xù)參于迭代計算,計算當(dāng)前閾值.
以表1中規(guī)則代號為Fault_011的專家規(guī)則為例,說明如何生成規(guī)則中的判別表達式.首先根據(jù)專家的經(jīng)驗知識可知故障與D1、D2和D3參數(shù)有關(guān),其次通過相關(guān)關(guān)系挖掘得出D1、D2、D3與D4、D5之間存在強相關(guān)關(guān)系,其中一個參數(shù)異常就可判斷故障發(fā)生,則參數(shù)間用or連接.然后挖掘每個參數(shù)的正常閾值,對其取反即可得到參數(shù)異常的不等式,如D1>3.5.最后參數(shù)有機組合得到判別表達式為(D1>3.5或D2>3.5或D3>3.5或D4>3.5或D5>3.5).之后再由專家審核后,便可生成專家規(guī)則.
在生成專家規(guī)則后,需要依照本體將專家規(guī)則,在實體層進行融合.由于專家規(guī)則經(jīng)過嚴(yán)格的審核和校對,知識質(zhì)量高,可利用本體確保知識的準(zhǔn)確性,實現(xiàn)初步知識融合.進一步,在多源數(shù)據(jù)全部存儲在知識圖譜中之后,采用Neo4j中的節(jié)點相似度算法計算節(jié)點相似度,人工處理相似度異常的節(jié)點,實現(xiàn)知識更深層次融合.
利用Cypher查詢語言驗證方法的可行性,搜索知識圖譜中規(guī)則代號為Fault_011與Fault_032的專家規(guī)則融合結(jié)果圖10所示.例如,以濾波母線電路(項目名稱)為核心節(jié)點進行搜索,未融合前只顯示該節(jié)點的故障信息,融合后增加了規(guī)則代碼、嚴(yán)酷度等級以及規(guī)則判別表達式3個節(jié)點,豐富節(jié)點信息,完善知識圖譜.此外,該圖譜還能為基于規(guī)則的航天器故障診斷提供知識支持,可利用網(wǎng)絡(luò)節(jié)點中的規(guī)則信息實現(xiàn)故障判別以及故障嚴(yán)酷度等級劃分,有實際的工程應(yīng)用意義.
圖10 挖掘規(guī)則融合結(jié)果Fig.10 Mining rules fusion results
本文針對航天器多源異構(gòu)故障數(shù)據(jù)的特點,提出一種本體-實體雙向約束的知識圖譜構(gòu)建方法.自頂向下依據(jù)專家知識初步構(gòu)建本體,自底向上挖掘?qū)嶓w以優(yōu)化本體,通過本體-實體雙向約束實現(xiàn)航天器多源故障信息的融合.針對來源不同、結(jié)構(gòu)化程度不同的故障數(shù)據(jù),本文提出3種不同的知識提取方法.以控制力矩陀螺為例,采用上述方法構(gòu)建了航天器故障知識圖譜,并用Neo4j圖數(shù)據(jù)庫可視化展示構(gòu)建結(jié)果.驗證了本文方法的可行性和有效性,為航天器故障知識圖譜構(gòu)建提供了一種新思路.