亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建技術(shù)及應(yīng)用

        2022-09-07 01:52:52聶同攀曾繼炎程玉杰馬梁
        航空學(xué)報(bào) 2022年8期
        關(guān)鍵詞:故障診斷故障模型

        聶同攀,曾繼炎,程玉杰,*,馬梁

        1. 北京航空航天大學(xué) 可靠性工程研究所,北京 100083 2. 航空工業(yè)第一飛機(jī)設(shè)計(jì)研究院,西安 710089 3. 可靠性與環(huán)境工程技術(shù)國(guó)防科技重點(diǎn)實(shí)驗(yàn)室,北京 100083 4. 北京航空航天大學(xué) 可靠性與系統(tǒng)工程學(xué)院,北京 100083

        隨科技水平日益發(fā)展,飛機(jī)系統(tǒng)的復(fù)雜程度日益上升,其故障的嚴(yán)重性也不斷提高。一次嚴(yán)重的飛機(jī)系統(tǒng)故障往往會(huì)造成巨大的財(cái)產(chǎn)損失乃至人員傷亡。為減輕飛機(jī)系統(tǒng)故障帶來(lái)的嚴(yán)重后果,需在故障早期進(jìn)行快速、準(zhǔn)確的故障診斷并予以排除。

        飛機(jī)電源系統(tǒng)是飛機(jī)最重要的系統(tǒng)部件之一,承擔(dān)著為飛行控制、導(dǎo)航和無(wú)線電通信等裝置提供電力的功能,關(guān)系著飛機(jī)上各種用電設(shè)備的正常運(yùn)行和飛行安全。近年來(lái),飛機(jī)機(jī)載設(shè)備的電氣化程度越來(lái)越高,對(duì)作為機(jī)載設(shè)備能量來(lái)源的飛機(jī)電源系統(tǒng)提出了越來(lái)越高的可靠性要求。目前,飛機(jī)電源系統(tǒng)故障診斷方法主要可分為基于數(shù)據(jù)的方法和基于知識(shí)的方法。目前學(xué)者們廣泛研究的是基于數(shù)據(jù)的方法,即通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)等方法挖掘數(shù)據(jù)中的信息,訓(xùn)練模型以進(jìn)行故障診斷?;跀?shù)據(jù)的方法不需要很多的專(zhuān)家知識(shí),在數(shù)據(jù)充足的情況下模型通常能取得較高的準(zhǔn)確度。然而基于數(shù)據(jù)的方法也存在兩個(gè)問(wèn)題:一個(gè)問(wèn)題是可解釋性,傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型對(duì)于使用者來(lái)說(shuō)是一個(gè)黑盒,無(wú)法就輸出的故障診斷結(jié)果給出解釋?zhuān)档土嗽趯?shí)際工程應(yīng)用中的可信度;另一個(gè)問(wèn)題則是無(wú)法有效地利用已有的先驗(yàn)知識(shí),如故障隔離手冊(cè)(Fault Isolation Manual,F(xiàn)IM)等非結(jié)構(gòu)化知識(shí),造成了非結(jié)構(gòu)化數(shù)據(jù)資源的浪費(fèi)。

        知識(shí)圖譜由谷歌公司于2012年提出,是一種從非結(jié)構(gòu)化知識(shí)中抽取實(shí)體和關(guān)系并以有向圖的形式存儲(chǔ)實(shí)體及其間關(guān)系的知識(shí)庫(kù),能實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化知識(shí)的統(tǒng)一規(guī)范化表達(dá)。知識(shí)圖譜是一個(gè)由多個(gè)節(jié)點(diǎn)和多條邊組成的語(yǔ)義圖。每個(gè)節(jié)點(diǎn)代表一個(gè)概念或事物。概念指一類(lèi)事物的總稱(chēng),如學(xué)生等;事物是指一個(gè)具體的人、事或物,如學(xué)生的具體名字。每條邊代表兩個(gè)節(jié)點(diǎn)之間的語(yǔ)義關(guān)系。

        知識(shí)圖譜自誕生以來(lái)得到了廣泛的應(yīng)用,其應(yīng)用形式主要包括搜索、問(wèn)答、推理和推薦等。王萌等考慮到用戶(hù)在不能給出明確的查詢(xún)意圖時(shí)搜索系統(tǒng)難以精準(zhǔn)捕獲用戶(hù)興趣的問(wèn)題,提出了人機(jī)混合的知識(shí)圖譜主動(dòng)搜索。曹明宇等設(shè)計(jì)了基于知識(shí)圖譜的原發(fā)性肝癌知識(shí)問(wèn)答系統(tǒng),針對(duì)成人中常見(jiàn)的原發(fā)性肝癌構(gòu)建了原發(fā)性肝癌知識(shí)圖譜。張鵬舉等提出了一種新的基于多特征實(shí)體消歧的中文知識(shí)圖譜問(wèn)答系統(tǒng)。于娟等提出了基于圖數(shù)據(jù)庫(kù)的人物關(guān)系知識(shí)圖譜推理方法,以此發(fā)現(xiàn)隱含人物關(guān)系并檢測(cè)人物關(guān)系數(shù)據(jù)中存在的不一致,進(jìn)而支持組織基于人物關(guān)系的管理決策。吳運(yùn)兵等提出了一種基于路徑張量分解的知識(shí)圖譜推理算法。余敦輝等提出了基于知識(shí)圖譜和重啟隨機(jī)游走的跨平臺(tái)用戶(hù)推薦方法。李浩等將外部評(píng)分和電影自身知識(shí)相結(jié)合,提出了一種基于循環(huán)知識(shí)圖譜和協(xié)同過(guò)濾的電影推薦模型。

        借鑒知識(shí)圖譜在醫(yī)療、社交和影評(píng)等諸多領(lǐng)域的成功應(yīng)用,國(guó)外已有相關(guān)文獻(xiàn)將知識(shí)圖譜引入故障診斷領(lǐng)域,輔助實(shí)現(xiàn)系統(tǒng)故障診斷。Liu等指出多種鐵路操作故障及危害因其間的聯(lián)系構(gòu)成了因果網(wǎng)絡(luò);該研究針對(duì)鐵路操作故障因果網(wǎng)絡(luò)使用知識(shí)圖譜探索鐵路操作故障,在異構(gòu)網(wǎng)絡(luò)中描述了故障和危害,揭示了故障的潛在規(guī)則并據(jù)此提出預(yù)防措施。Ou等指出隨電網(wǎng)規(guī)模的持續(xù)增長(zhǎng)和智慧電網(wǎng)的快速發(fā)展,電力無(wú)線專(zhuān)網(wǎng)的覆蓋率逐漸上升;在這個(gè)過(guò)程中,如何有效使用電網(wǎng)智慧終端的信息實(shí)現(xiàn)無(wú)人值守網(wǎng)絡(luò)監(jiān)控和自動(dòng)運(yùn)維成為當(dāng)前需要解決的問(wèn)題;該研究針對(duì)電力無(wú)線專(zhuān)網(wǎng),使用終端信息和故障信息等構(gòu)建了知識(shí)圖譜,以此實(shí)現(xiàn)了電力無(wú)線專(zhuān)網(wǎng)故障診斷和決策制定。Feng等指出隨著國(guó)家電網(wǎng)的物聯(lián)網(wǎng)建設(shè),大量異構(gòu)終端的接入使電網(wǎng)的采集和操作壓力驟增,用電信息采集系統(tǒng)故障運(yùn)維知識(shí)庫(kù)(FOM-KB)將難以滿(mǎn)足大量運(yùn)維信息條件下高效智能決策制定的需求;該研究提出了一種用電信息采集系統(tǒng)的知識(shí)問(wèn)答系統(tǒng),實(shí)現(xiàn)了節(jié)點(diǎn)與邊的高效遍歷搜索,提高了推理效率并支持實(shí)現(xiàn)高效和智能化的采集與維護(hù)故障診斷。在中國(guó),目前知識(shí)圖譜在故障診斷領(lǐng)域中的應(yīng)用尚處于起步階段。劉瑞宏等提出了電信領(lǐng)域的知識(shí)圖譜構(gòu)建方法,該方法將電信網(wǎng)絡(luò)領(lǐng)域零散的專(zhuān)家知識(shí)及產(chǎn)品、案例知識(shí)和故障數(shù)據(jù)進(jìn)行了有效關(guān)聯(lián),構(gòu)建了電信領(lǐng)域知識(shí)圖譜;他們使用該知識(shí)圖譜開(kāi)展網(wǎng)絡(luò)故障智能診斷,輔助解決網(wǎng)絡(luò)運(yùn)維領(lǐng)域的故障問(wèn)題。李樂(lè)樂(lè)等研究了面向飛機(jī)維修與維護(hù)的知識(shí)圖譜構(gòu)建和應(yīng)用方法,該方法利用知識(shí)圖譜和SQLite數(shù)據(jù)庫(kù)構(gòu)建了飛機(jī)維護(hù)維修知識(shí)庫(kù);他們使用某航空公司提供的相關(guān)數(shù)據(jù)集建立了知識(shí)庫(kù),并利用數(shù)據(jù)庫(kù)對(duì)飛機(jī)故障進(jìn)行了時(shí)間維度和空間維度的分析。然而,這些研究主要集中在知識(shí)圖譜構(gòu)建層面,涉及應(yīng)用的也只是提出了實(shí)現(xiàn)方法,而未能實(shí)際應(yīng)用,尤其是關(guān)于飛機(jī)電源系統(tǒng)的知識(shí)圖譜構(gòu)建方法及應(yīng)用尚鮮見(jiàn)報(bào)道。

        考慮到飛機(jī)電源系統(tǒng)在研制生產(chǎn)和運(yùn)行使用階段會(huì)產(chǎn)生包括設(shè)計(jì)生產(chǎn)數(shù)據(jù)、運(yùn)行使用數(shù)據(jù)、維修保障數(shù)據(jù)等大量非結(jié)構(gòu)化文本數(shù)據(jù),利用知識(shí)圖譜技術(shù)可從上述非結(jié)構(gòu)化文本中提取知識(shí),實(shí)現(xiàn)非結(jié)構(gòu)化知識(shí)的統(tǒng)一規(guī)范化表達(dá),進(jìn)而支持電源系統(tǒng)的故障診斷,提高基于知識(shí)的故障診斷自主化程度、可解釋性和診斷精度,本文提出了一套面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建及應(yīng)用流程,以利用上述非結(jié)構(gòu)化文本。首先,根據(jù)所用飛機(jī)電源系統(tǒng)非結(jié)構(gòu)化文本特性及專(zhuān)家知識(shí)構(gòu)建知識(shí)圖譜本體;然后,利用BMEO標(biāo)注后的文本訓(xùn)練基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,實(shí)現(xiàn)實(shí)體抽??;進(jìn)一步,利用關(guān)系標(biāo)注后的文本訓(xùn)練基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,實(shí)現(xiàn)關(guān)系抽取;在此基礎(chǔ)上,根據(jù)本體和實(shí)體抽取與關(guān)系抽取結(jié)果構(gòu)建面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜;最后,基于構(gòu)建的知識(shí)圖譜實(shí)現(xiàn)包括搜索、推薦和問(wèn)答等的智能應(yīng)用。

        1 知識(shí)圖譜構(gòu)建的通用方法流程

        知識(shí)圖譜的構(gòu)建可分為自頂向下(Top-down)和自底向上(Bottom-up)兩種方式,其中自頂向下的方式指先構(gòu)建本體,而后根據(jù)本體進(jìn)行實(shí)體和關(guān)系的抽?。蛔缘紫蛏系姆绞街赶冗M(jìn)行實(shí)體和關(guān)系的抽取,而后根據(jù)抽取結(jié)果歸納聚類(lèi),抽象出本體。自頂向下的構(gòu)建方法適合擁有明確知識(shí)范圍的專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜,自底向上的構(gòu)建方法適合知識(shí)覆蓋范圍較廣的通用知識(shí)圖譜。由于在故障診斷領(lǐng)域通常具有較為明確的專(zhuān)業(yè)領(lǐng)域知識(shí),因此主要針對(duì)自頂向下的知識(shí)圖譜構(gòu)建方法進(jìn)行介紹。

        自頂向下的知識(shí)圖譜構(gòu)建方法包含4個(gè)步驟:本體構(gòu)建、實(shí)體抽取、關(guān)系抽取和圖譜構(gòu)建,如圖1所示。

        圖1 知識(shí)圖譜自頂向下構(gòu)建流程圖Fig.1 Flowchart of top-down knowledge graph construction

        1.1 本體構(gòu)建

        本體是對(duì)概念建模的規(guī)則,是對(duì)客觀世界的抽象描述,是針對(duì)概念及概念間的聯(lián)系以形式化方式給出的明確定義。在自頂向下的知識(shí)圖譜構(gòu)建流程中,本體構(gòu)建是從最頂層的概念開(kāi)始構(gòu)建本體,細(xì)化為實(shí)體和關(guān)系。本體構(gòu)建包括確定實(shí)體類(lèi)型和確定關(guān)系類(lèi)型。其中確定關(guān)系類(lèi)型包括確定兩個(gè)實(shí)體類(lèi)型之間是否存在關(guān)系、確定兩個(gè)實(shí)體類(lèi)型之間為何種關(guān)系和兩個(gè)實(shí)體類(lèi)型中頭尾實(shí)體分別是哪個(gè)。

        1.2 實(shí)體抽取

        實(shí)體指現(xiàn)實(shí)中的具體事物或概念,在完成本體構(gòu)建后,根據(jù)本體進(jìn)行實(shí)體抽取。實(shí)體抽取一般方法為采用機(jī)器學(xué)習(xí)技術(shù),從數(shù)據(jù)源中自動(dòng)或半自動(dòng)抽取實(shí)體。將原始數(shù)據(jù)中一部分劃為訓(xùn)練集,進(jìn)行標(biāo)注后用于訓(xùn)練實(shí)體抽取模型。常用的實(shí)體抽取方法包括基于隱馬爾可夫模型(Hidden Markov Model,HMM)的方法、基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的方法和基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的方法。實(shí)體抽取模型的有效性一般通過(guò)準(zhǔn)確率和召回率等指標(biāo)進(jìn)行評(píng)判。

        1.3 關(guān)系抽取

        關(guān)系指實(shí)體間的聯(lián)系,在完成實(shí)體抽取后,根據(jù)實(shí)體進(jìn)行關(guān)系抽取。關(guān)系抽取一般方法為采用機(jī)器學(xué)習(xí)技術(shù)從數(shù)據(jù)源中自動(dòng)或半自動(dòng)地抽取關(guān)系。常用的關(guān)系抽取方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的關(guān)系抽取和基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Attention-Based Bi-directional LSTM)的關(guān)系抽取。關(guān)系抽取模型的有效性一般通過(guò)準(zhǔn)確率和召回率等指標(biāo)進(jìn)行評(píng)判。

        1.4 圖譜構(gòu)建

        根據(jù)抽取出的實(shí)體、關(guān)系構(gòu)建圖數(shù)據(jù)庫(kù)完成知識(shí)圖譜的構(gòu)建。常用的構(gòu)建知識(shí)圖譜工具包括Neo4j、ArangoDB和OrientDB。

        在構(gòu)建好的圖譜基礎(chǔ)上,可實(shí)現(xiàn)搜索、問(wèn)答、推理和推薦等知識(shí)圖譜應(yīng)用。

        2 面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建及應(yīng)用流程

        2.1 總體方法流程

        如圖2所示,面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建及應(yīng)用流程包括本體構(gòu)建、基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取、基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取、基于Neo4j的知識(shí)圖譜構(gòu)建及基于知識(shí)圖譜的智能應(yīng)用。

        圖2 面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建及 應(yīng)用流程圖Fig.2 Flowchart of knowledge graph construction and application for fault diagnosis of aircraft power system

        首先,根據(jù)飛機(jī)電源系統(tǒng)故障診斷語(yǔ)料情況和圖譜需求構(gòu)建本體,確定實(shí)體類(lèi)型和關(guān)系類(lèi)型。

        構(gòu)建本體后,將飛機(jī)電源系統(tǒng)故障診斷手冊(cè)中部分語(yǔ)料分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集和測(cè)試集進(jìn)行實(shí)體標(biāo)注。使用訓(xùn)練集訓(xùn)練基于雙向LSTM的實(shí)體抽取模型,并使用測(cè)試集測(cè)試實(shí)體抽取模型效果。使用訓(xùn)練好的實(shí)體抽取模型抽取故障診斷手冊(cè)語(yǔ)料中的實(shí)體。

        最后,對(duì)訓(xùn)練集和測(cè)試集進(jìn)行關(guān)系標(biāo)注。使用訓(xùn)練集訓(xùn)練基于注意力機(jī)制的雙向LSTM的關(guān)系抽取模型,并使用測(cè)試集測(cè)試關(guān)系抽取模型效果。結(jié)合實(shí)體抽取結(jié)果,使用訓(xùn)練好的關(guān)系抽取模型抽取故障診斷手冊(cè)語(yǔ)料中的關(guān)系。

        完成實(shí)體抽取和關(guān)系抽取后,使用知識(shí)圖譜構(gòu)建工具Neo4j,利用抽取出的飛機(jī)電源系統(tǒng)故障診斷知識(shí)構(gòu)建面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜。

        在上述工作基礎(chǔ)上,基于構(gòu)建的飛機(jī)電源系統(tǒng)知識(shí)圖譜,以智慧搜索與推薦及智能問(wèn)答等形式實(shí)現(xiàn)基于知識(shí)圖譜的智能應(yīng)用。

        2.2 本體構(gòu)建

        在構(gòu)建針對(duì)某一專(zhuān)業(yè)領(lǐng)域的圖譜時(shí),應(yīng)根據(jù)專(zhuān)家知識(shí)先行構(gòu)建該圖譜的本體,為后續(xù)的實(shí)體抽取和關(guān)系抽取提供規(guī)范。本方法為針對(duì)特定領(lǐng)域,即飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜,因而選擇使用專(zhuān)家知識(shí)人工構(gòu)建本體。

        構(gòu)建本體包括規(guī)定實(shí)體類(lèi)型、規(guī)定關(guān)系類(lèi)型和規(guī)定關(guān)系類(lèi)型的頭尾實(shí)體類(lèi)型。

        對(duì)于飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜,可用的實(shí)體類(lèi)型主要為排故手冊(cè)和維修手冊(cè)等故障信息,包括故障類(lèi)型、故障表現(xiàn)、故障原因、故障影響、解決措施等。

        2.3 基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取

        在知識(shí)圖譜中,實(shí)體是其中的一個(gè)個(gè)節(jié)點(diǎn)。使用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建一個(gè)知識(shí)圖譜需先根據(jù)本體對(duì)數(shù)據(jù)進(jìn)行實(shí)體抽取。常用的實(shí)體抽取算法中,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法能像長(zhǎng)短期記憶網(wǎng)絡(luò)算法一樣處理長(zhǎng)期依賴(lài)問(wèn)題,對(duì)于文字這樣字符之間相互影響在距離上跨度較大的數(shù)據(jù)有較好的效果。

        2.3.1 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法

        雙向LSTM算法是一種常用的實(shí)體抽取算法。其原理是將時(shí)序方向相反的兩個(gè)LSTM連接到同一個(gè)輸出。在進(jìn)行實(shí)體抽取時(shí),會(huì)同時(shí)用到上文和下文的信息。傳統(tǒng)的LSTM算法只能使用上文信息,而無(wú)法利用下文信息,難以用于實(shí)現(xiàn)準(zhǔn)確的實(shí)體抽取。雙向LSTM算法通過(guò)將時(shí)序方向相反的兩個(gè)LSTM連接到同一個(gè)輸出,實(shí)現(xiàn)了上下文信息的利用,解決了LSTM算法無(wú)法使用下文信息的問(wèn)題,改善了實(shí)體抽取的效果。雙向LSTM結(jié)構(gòu)圖如圖3所示。

        圖3 雙向LSTM結(jié)構(gòu)示意圖Fig.3 Schematic diagram of bi-directional LSTM

        構(gòu)成雙向LSTM的兩個(gè)不同方向的LSTM之間不共用狀態(tài),即正向LSTM的輸出狀態(tài)只會(huì)對(duì)正向LSTM產(chǎn)生影響,反向LSTM的輸出狀態(tài)只會(huì)對(duì)反向LSTM產(chǎn)生影響,它們之間沒(méi)有直接的連接,不會(huì)互相影響。

        每一個(gè)時(shí)間節(jié)點(diǎn)的輸入會(huì)分別傳到正向和反向LSTM,根據(jù)各自的狀態(tài)產(chǎn)生輸出,這兩份輸出會(huì)一起連接到雙向LSTM的輸出節(jié)點(diǎn),共同組合成最終輸出。雙向LSTM中雖然兩個(gè)方向的LSTM基本沒(méi)有交集,但因它們共同合成了輸出,所以對(duì)當(dāng)前時(shí)間節(jié)點(diǎn)輸出的貢獻(xiàn)和造成的損失就可以在訓(xùn)練中計(jì)算出來(lái),并且它們的參數(shù)也會(huì)根據(jù)梯度被優(yōu)化到合適的值。

        雙向LSTM在訓(xùn)練時(shí)和普通單向LSTM非常類(lèi)似,因?yàn)閮蓚€(gè)不同方向的LSTM之間幾乎沒(méi)有交集,因此可分別展開(kāi)為普通的前饋網(wǎng)絡(luò)。不過(guò)在使用反向傳播算法訓(xùn)練時(shí),無(wú)法同時(shí)更新?tīng)顟B(tài)和輸出。同時(shí)正向狀態(tài)在時(shí)未知,且反向狀態(tài)在時(shí)未知,即狀態(tài)在各自方向的開(kāi)始處都是未知的,在這里就需要進(jìn)行人工設(shè)置。此外,正向狀態(tài)的導(dǎo)數(shù)在時(shí)未知,且反向狀態(tài)的導(dǎo)數(shù)在時(shí)未知,即狀態(tài)的導(dǎo)數(shù)在結(jié)尾處未知,這里一般需設(shè)為0,代表此時(shí)對(duì)參數(shù)更新不重要,然后開(kāi)始正式訓(xùn)練步驟:

        對(duì)數(shù)據(jù)做前向迭代操作,先沿著方向計(jì)算正向LSTM的狀態(tài),再沿著方向計(jì)算反向LSTM的狀態(tài),最后獲得輸出。

        進(jìn)行反向迭代操作,即對(duì)目標(biāo)函數(shù)求導(dǎo)的操作,先對(duì)輸出求導(dǎo),然后沿著方向計(jì)算正向LSTM的狀態(tài)導(dǎo)數(shù),再沿著方向計(jì)算反向LSTM的導(dǎo)數(shù)。

        根據(jù)求得的梯度值更新模型的參數(shù),完成一次迭代訓(xùn)練。

        輸出層是將雙向LSTM神經(jīng)網(wǎng)絡(luò)各個(gè)時(shí)刻的輸出進(jìn)行求和取平均,最終得到了對(duì)象詞在當(dāng)前句子環(huán)境下的語(yǔ)義表示,這個(gè)向量將作為編碼器的輸出傳遞給分類(lèi)器。

        2.3.2 基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取流程

        基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取流程分為數(shù)據(jù)集劃分、實(shí)體標(biāo)注、模型訓(xùn)練、模型測(cè)試和實(shí)體抽取。基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取流程圖如圖4所示。

        圖4 基于雙向LSTM算法的實(shí)體抽取流程圖Fig.4 Flowchart of entity extraction based on bi-directional LSTM

        選取部分原始語(yǔ)料,以8∶2的比例劃分為訓(xùn)練集和測(cè)試集。對(duì)訓(xùn)練集和測(cè)試集進(jìn)行BMEO標(biāo)注。BMEO標(biāo)注是一種常用的實(shí)體標(biāo)注方法,該方法通過(guò)給語(yǔ)料中的每一個(gè)字符添加表征其所在實(shí)體的位置和實(shí)體類(lèi)型而標(biāo)注實(shí)體。例如:語(yǔ)料中存在“故障模式”實(shí)體類(lèi)型,則標(biāo)簽“B-故障模式”代表該字符是一個(gè)故障模式實(shí)體的首字符,B為“Begin”的縮寫(xiě);標(biāo)簽“M-故障模式”代表該字符是一個(gè)故障模式實(shí)體的中間字符,M為“Middle”的縮寫(xiě);標(biāo)簽“E-故障模式”代表該字符是一個(gè)故障模式實(shí)體的尾字符,E為“End”的縮寫(xiě);標(biāo)簽“O”代表該字符不在實(shí)體中,O為“Outside”的縮寫(xiě)。

        在完成實(shí)體標(biāo)注后,以訓(xùn)練集語(yǔ)料為輸入,訓(xùn)練集標(biāo)注結(jié)果為標(biāo)簽,訓(xùn)練基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的實(shí)體抽取模型。

        使用測(cè)試集測(cè)試訓(xùn)練好的模型實(shí)體抽取效果,將模型從測(cè)試集語(yǔ)料中抽取出的標(biāo)簽與人工標(biāo)注的標(biāo)簽進(jìn)行對(duì)比,計(jì)算準(zhǔn)確率和召回率:

        (1)

        (2)

        式中:為準(zhǔn)確率(Precision);為召回率(Recall);為正類(lèi)預(yù)測(cè)為正類(lèi)(True Positive)的數(shù)量,即被實(shí)際抽取結(jié)果為某一標(biāo)簽,且人工標(biāo)注也是該標(biāo)簽的字符數(shù)量;為負(fù)類(lèi)預(yù)測(cè)為正類(lèi)(False Positive)的數(shù)量,即實(shí)際抽取結(jié)果為某一標(biāo)簽,但人工標(biāo)注不是該標(biāo)簽的字符數(shù)量;為正類(lèi)預(yù)測(cè)為負(fù)類(lèi)(False Negative)的數(shù)量,即人工標(biāo)注為某一標(biāo)簽,但實(shí)際抽取結(jié)果不是該標(biāo)簽的字符數(shù)量。此外為負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)(True Negative),即實(shí)際抽取結(jié)果不是某一標(biāo)簽,且人工標(biāo)注也不是該標(biāo)簽的字符數(shù)量。、、、的關(guān)系如圖5所示。

        圖5 TP、FP、TN、FN之間的關(guān)系Fig.5 Relationship between TP, FP, TN, FN

        使用經(jīng)測(cè)試后訓(xùn)練好的模型抽取剩余原始語(yǔ)料中的實(shí)體,完成基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取。

        2.4 基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取

        在知識(shí)圖譜中,關(guān)系是連接兩個(gè)實(shí)體之間的邊。在對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體抽取后,需根據(jù)實(shí)體抽取結(jié)果再進(jìn)行關(guān)系抽取。在常用的關(guān)系抽取算法中,基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)因引入了注意力機(jī)制,可更好地分配計(jì)算資源,提高模型訓(xùn)練的效果?;谧⒁饬C(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)關(guān)系抽取算法是由Zhou等于2016年在自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的國(guó)際頂級(jí)會(huì)議Association for Computational Linguistics (ACL)上提出的。Zhou等指出傳統(tǒng)的關(guān)系抽取算法需詞性和最短依賴(lài)路徑等高階特征,導(dǎo)致計(jì)算量的消耗,同時(shí)注意到在待進(jìn)行關(guān)系抽取的一個(gè)句子中,存在對(duì)關(guān)系有決定性影響的詞匯,而引入注意力機(jī)制可用于找到這個(gè)詞語(yǔ),以此獲取句子中最重要的語(yǔ)義信息。相比于傳統(tǒng)關(guān)系抽取算法,基于注意力機(jī)制的雙向LSTM算法可在不使用詞性和最短依賴(lài)路徑等高階特征的情況下實(shí)現(xiàn)關(guān)系抽取,減少計(jì)算資源的消耗。因此選取基于注意力機(jī)制的雙向LSTM算法進(jìn)行關(guān)系抽取。

        2.4.1 基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法

        基于注意力機(jī)制的雙向LSTM算法是將注意力模型引入雙向LSTM中得到的算法。注意力模型是一種模擬人腦注意力的模型,其核心在于借鑒了人腦在特定時(shí)刻對(duì)事物的注意力會(huì)集中在某一特定的地方、忽略其他部分的特點(diǎn)。注意力模型是一種影響資源分配的模型,其原理是對(duì)于關(guān)鍵部分分配較多的注意力,對(duì)于其他部分分配較少的注意力,合理利用有限的計(jì)算資源,并且還可以去除非關(guān)鍵因素的影響。

        基于注意力機(jī)制的雙向LSTM為在輸出層和隱藏層之間加入了注意力層,調(diào)整隱藏層輸出的權(quán)重。其結(jié)構(gòu)如圖6所示。

        圖6 基于注意力機(jī)制的雙向LSTM結(jié)構(gòu)示意圖Fig.6 Schematic diagram of structure of attention-based bi-directional LSTM

        圖6中,為雙向LSTM中各自獨(dú)立方向最終隱藏層狀態(tài)值的和,稱(chēng)為雙向LSTM的最終狀態(tài);為所有時(shí)刻下隱藏層單元狀態(tài)對(duì)于最終狀態(tài)的注意力概率分布,其中的分量表示時(shí)刻下雙向LSTM狀態(tài)對(duì)最終狀態(tài)的注意力概率,由該時(shí)刻下各自獨(dú)立方向的狀態(tài)相加而得,為經(jīng)注意力加權(quán)后的文本特征向量。

        基于注意力機(jī)制的模型一般都包含了兩部分計(jì)算過(guò)程,一是關(guān)于注意力概率分布的計(jì)算過(guò)程,二是基于注意力分布的最終特征計(jì)算過(guò)程。

        為時(shí)刻下的輸出數(shù)據(jù)對(duì)于最終狀態(tài)的注意力概率,其表達(dá)式為

        (3)

        (4)

        式中:為時(shí)刻下的雙向的隱藏層狀態(tài)值的和;為輸入序列元素的個(gè)數(shù);為類(lèi)別標(biāo)簽的數(shù)量;為權(quán)重矩陣。式(4)利用softmax函數(shù)作為注意力概率分布的計(jì)算方式。

        基于注意力分布的最終特征計(jì)算公式為

        (5)

        在得到基于注意力機(jī)制的文本特征向量后,通過(guò)輸出層的softmax函數(shù),計(jì)算得出分類(lèi)標(biāo)簽的概率分布,計(jì)算過(guò)程表示為

        (6)

        ′=

        (7)

        式中:為模型預(yù)測(cè)出的類(lèi)別的概率分布;為模型輸出層的權(quán)重矩陣;att()為向量′中第個(gè)分量值,向量長(zhǎng)度與分類(lèi)標(biāo)簽的數(shù)量相等。經(jīng)過(guò)softmax函數(shù)分類(lèi)可得基于注意力機(jī)制下文本類(lèi)別概率分布,并與真實(shí)類(lèi)別分布求取交叉熵?fù)p失,表示為

        (,)=-lg()

        (8)

        2.4.2 基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取流程

        基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取分為實(shí)體抽取、數(shù)據(jù)集劃分、關(guān)系標(biāo)注、模型訓(xùn)練、模型測(cè)試和關(guān)系抽取。圖7為基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取流程圖。

        圖7 基于注意力機(jī)制的雙向LSTM的關(guān)系抽取流程圖Fig.7 Flowchart of relation extraction based on attention-based bi-directional LSTM

        使用基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的實(shí)體抽取模型抽取原始語(yǔ)料中的實(shí)體,生成“頭實(shí)體 尾實(shí)體 關(guān)系 所在句子”形式的語(yǔ)料,其中因?yàn)殛P(guān)系是有向的,需要區(qū)分頭實(shí)體與尾實(shí)體,二者在語(yǔ)料中的位置不可互換。如“小明在天安門(mén)”中實(shí)體“小明”和“天安門(mén)”之間的關(guān)系為“所在地點(diǎn)”,則生成的語(yǔ)料為“小明 天安門(mén) 所在地點(diǎn) 小明在天安門(mén)”。

        選取部分生成的語(yǔ)料,以8∶2的比例劃分為訓(xùn)練集和測(cè)試集。對(duì)訓(xùn)練集和測(cè)試集進(jìn)行關(guān)系標(biāo)注。

        完成標(biāo)注后,以訓(xùn)練集語(yǔ)料中頭實(shí)體、尾實(shí)體和所在句子為輸入,關(guān)系為標(biāo)簽,訓(xùn)練基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的關(guān)系抽取模型。

        使用測(cè)試集測(cè)試訓(xùn)練后模型的關(guān)系抽取效果,將模型從測(cè)試集語(yǔ)料中抽取出的關(guān)系與人工標(biāo)注的關(guān)系進(jìn)行對(duì)比計(jì)算準(zhǔn)確率和召回率,計(jì)算方法同實(shí)體抽取。

        使用測(cè)試后訓(xùn)練好的模型抽取剩余語(yǔ)料中的關(guān)系,完成基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法的關(guān)系抽取。

        2.5 基于Neo4j的知識(shí)圖譜構(gòu)建

        在抽取非結(jié)構(gòu)化知識(shí)中的實(shí)體和其間關(guān)系后,需根據(jù)這些抽取的知識(shí)構(gòu)建知識(shí)圖譜。

        在諸多圖譜構(gòu)建工具中,Neo4j擁有多種優(yōu)點(diǎn),包括高性能、設(shè)計(jì)的靈活性和開(kāi)發(fā)的敏捷性。

        Neo4j存儲(chǔ)了原生的圖數(shù)據(jù),可使用圖結(jié)構(gòu)的自然伸展特性設(shè)計(jì)免索引鄰近節(jié)點(diǎn)遍歷的查詢(xún)算法。圖的遍歷是圖數(shù)據(jù)結(jié)構(gòu)具有的獨(dú)特算法,即從一個(gè)節(jié)點(diǎn)開(kāi)始,根據(jù)其連接的關(guān)系可快速、方便地找出它的鄰近節(jié)點(diǎn)。這種查找數(shù)據(jù)的方法并不受數(shù)據(jù)量的影響,因此在面對(duì)大量數(shù)據(jù)時(shí)查找效率更高。

        一個(gè)系統(tǒng)對(duì)數(shù)據(jù)的需求會(huì)隨事件和條件的改變而改變。圖數(shù)據(jù)結(jié)構(gòu)的自然伸展特性及其非結(jié)構(gòu)化的數(shù)據(jù)格式使Neo4j的數(shù)據(jù)庫(kù)設(shè)計(jì)可具有很大的伸縮性和靈活性。隨需求的變化而增加的節(jié)點(diǎn)、關(guān)系及其屬性并不會(huì)影響原來(lái)數(shù)據(jù)的正常使用。

        Neo4j數(shù)據(jù)模型設(shè)計(jì)直觀明了,以其為工具構(gòu)建的知識(shí)圖譜更容易進(jìn)行迭代。

        基于以上優(yōu)點(diǎn),選擇Neo4j作為圖譜構(gòu)建工具。

        2.6 基于知識(shí)圖譜的智能應(yīng)用

        完成知識(shí)圖譜的構(gòu)建后,可通過(guò)知識(shí)圖譜實(shí)現(xiàn)智能應(yīng)用,包括智慧搜索與推薦及智能問(wèn)答。

        2.6.1 基于知識(shí)圖譜的智慧搜索與推薦

        智慧搜索指用戶(hù)向系統(tǒng)輸入實(shí)體名,系統(tǒng)輸出有無(wú)該實(shí)體。在搜索過(guò)程中,用戶(hù)輸入的實(shí)體名中可能存在錯(cuò)別字。為解決該問(wèn)題,本圖譜采用基于相似度的搜索,在沒(méi)有完全匹配的實(shí)體時(shí),將輸出與輸入實(shí)體名相似度較高的實(shí)體。常用的相似度算法包括余弦相似度、歐氏距離相似度和最長(zhǎng)公共子序列(Longest Common Subsequence,LCS)相似度等。最長(zhǎng)公共子序列相似度與兩個(gè)字符串間同順序相同字符數(shù)量有關(guān),相同字符越多,相似度越高,因而能更好地處理用戶(hù)輸入中存在錯(cuò)別字的問(wèn)題。

        子序列指一個(gè)序列刪除若干個(gè)元素得到的新序列,兩個(gè)序列的公共子序列指同時(shí)是兩個(gè)序列子序列的序列,而最長(zhǎng)公共子序列則是兩個(gè)序列所有公共子序列中最長(zhǎng)的序列。

        最長(zhǎng)公共子序列指將兩個(gè)序列分別刪除若干個(gè)字符,得到兩個(gè)子序列,在所有可能的子序列中相同且最長(zhǎng)的一組子序列。計(jì)算兩個(gè)序列之間的最長(zhǎng)公共子序列可使用枚舉法和動(dòng)態(tài)規(guī)劃法。枚舉法先列舉兩個(gè)序列各自所有的子序列,然后將這兩組子序列相互之間一一比較,得到最長(zhǎng)公共子序列。枚舉法的算法復(fù)雜度與兩個(gè)字符串長(zhǎng)度之和成指數(shù)關(guān)系,隨序列長(zhǎng)度增加運(yùn)算次數(shù)顯著增加。字符串普遍較長(zhǎng),因此枚舉法不適用于字符串相似度的計(jì)算。

        動(dòng)態(tài)規(guī)劃法解決了枚舉法難以解決尋找長(zhǎng)字符串最長(zhǎng)公共子序列的問(wèn)題。動(dòng)態(tài)規(guī)劃法求解兩個(gè)字符串之間最長(zhǎng)公共子序列示意圖如圖8所示。

        利用動(dòng)態(tài)規(guī)劃法求解字符串“BDCABA”和“ABCBDAB”之間的最長(zhǎng)公共子序列的過(guò)程如下:

        1) 根據(jù)字符串長(zhǎng)度,生成7×8的矩陣,令0,=,0=0。計(jì)算矩陣中每個(gè)位置的數(shù)值,若兩個(gè)字符串位置和位置對(duì)應(yīng)字符相同,則,=-1,-1+1;若對(duì)應(yīng)字符不同,則,=max(-1,,,-1)。如位置對(duì)應(yīng)的和兩個(gè)字符串的字符均為“B”,則=+1=1;若位置兩字符串對(duì)應(yīng)字符分別為“D”和“B”,則=max(,)=1。

        2) 兩字符串間最長(zhǎng)公共子序列長(zhǎng)度為矩陣右下角位置的值,圖8中長(zhǎng)度為4。

        3) 從矩陣中位置開(kāi)始回溯?;厮菀?guī)則為若當(dāng)前位置為,,選擇-1,、,-1、-1,-1中數(shù)值最大的位置;當(dāng)最大值有多個(gè)時(shí)可隨機(jī)選取。

        圖8 動(dòng)態(tài)規(guī)劃法示意圖Fig.8 Schematic diagram of dynamic programming

        4) 根據(jù)回溯規(guī)則,得到一條回溯路徑→→→→→→→→,=0,回溯結(jié)束。

        5) 選取回溯路徑上所有數(shù)值發(fā)生變化前的矩陣位置,即、、、,將這些位置對(duì)應(yīng)的字符按順序排列即可得兩字符串的最長(zhǎng)公共子序列“BCBA”?;厮萋窂娇赡懿恢挂粭l,對(duì)應(yīng)的最長(zhǎng)公共子序列不止一個(gè)。

        推薦功能指在進(jìn)行智慧搜索的同時(shí),圖譜會(huì)根據(jù)相似度輸出與其擁有相似關(guān)聯(lián)實(shí)體的其他實(shí)體。相似度計(jì)算方法與智慧搜索相同,為基于最長(zhǎng)公共子序列相似度的方法。

        2.6.2 基于知識(shí)圖譜的智能問(wèn)答

        智能問(wèn)答指用戶(hù)向知識(shí)圖譜輸入問(wèn)題,知識(shí)圖譜輸出該問(wèn)題的答案。智能問(wèn)答的關(guān)鍵在于問(wèn)題分類(lèi),即用戶(hù)需要什么類(lèi)型的結(jié)果。常用的問(wèn)題分類(lèi)算法包括K均值聚類(lèi)、貝葉斯分類(lèi)和樸素貝葉斯分類(lèi)。樸素貝葉斯分類(lèi)器具有較高的效率和良好的泛化能力,故選擇樸素貝葉斯分類(lèi)器作為搜索和問(wèn)答的方法。

        樸素貝葉斯分類(lèi)器是概率分類(lèi)器中最簡(jiǎn)單的分類(lèi)器,在很多情況下具有相當(dāng)高的分類(lèi)準(zhǔn)確率,以高效率和良好的泛化能力而著稱(chēng)。該分類(lèi)器假設(shè)在給定類(lèi)變量時(shí)屬性變量之間條件獨(dú)立,即

        (9)

        式中:()為類(lèi)邊緣概率;為種不同的問(wèn)題分類(lèi),={,,…,};為從問(wèn)句中提取的維特征,={,,…,}。在條件獨(dú)立性假設(shè)下,樸素貝葉斯分類(lèi)器具有簡(jiǎn)單的星形結(jié)構(gòu),如圖9所示。

        在樸素貝葉斯分類(lèi)器結(jié)構(gòu)基礎(chǔ)上的聯(lián)合概率分解形式為

        (10)

        圖9 樸素貝葉斯分類(lèi)器結(jié)構(gòu)示意圖Fig.9 Schematic diagram of structure of naive Bayesian classifier

        式中:(|)為條件概率。

        依據(jù)聯(lián)合概率的分解形式,得到樸素貝葉斯分類(lèi)器的表示形式為

        (11)

        使式(11)取最大值的問(wèn)題分類(lèi)即為問(wèn)句所屬問(wèn)題分類(lèi)。

        在利用樸素貝葉斯分類(lèi)器完成問(wèn)題分類(lèi)后,結(jié)合與知識(shí)圖譜中實(shí)體匹配得到的問(wèn)句關(guān)鍵詞,在知識(shí)圖譜中進(jìn)行檢索將得到的答案輸出給用戶(hù),完成智能問(wèn)答。

        3 知識(shí)圖譜在飛機(jī)電源系統(tǒng)故障診斷中的應(yīng)用

        3.1 數(shù) 據(jù)

        案例使用的數(shù)據(jù)來(lái)自飛機(jī)電源系統(tǒng)故障手冊(cè)文檔。該文檔包含飛機(jī)電源系統(tǒng)可能發(fā)生的故障、故障表現(xiàn)、故障原因和解決措施。該文檔部分內(nèi)容為

        “電源參數(shù)顯示系統(tǒng)顯示發(fā)電機(jī)輸出電壓為0V或只有幾伏電壓

        可能原因:① 副勵(lì)磁機(jī)繞組短路。使用萬(wàn)用表檢查繞組電阻為0,或者用兆歐表檢查絕緣電阻為0;② 主發(fā)電機(jī)激磁繞組斷路。

        排除方法:① 將發(fā)電機(jī)從發(fā)動(dòng)機(jī)上取下來(lái),送往修理廠修理,更換副勵(lì)磁機(jī)定子組件;② 將發(fā)電機(jī)從發(fā)動(dòng)機(jī)上取下來(lái),送往修理廠修理,更換主轉(zhuǎn)子組件?!?/p>

        其中“電源參數(shù)顯示系統(tǒng)顯示發(fā)電機(jī)輸出電壓為0V或只有幾伏電壓”是故障模式“無(wú)刷交流發(fā)電機(jī)故障”的故障表現(xiàn);“副勵(lì)磁機(jī)繞組斷路”為故障模式“無(wú)刷交流發(fā)電機(jī)故障”的故障原因;“將發(fā)電機(jī)…更換主轉(zhuǎn)子組件”為故障模式“無(wú)刷交流發(fā)電機(jī)故障”的解決措施。

        對(duì)飛機(jī)電源系統(tǒng)故障手冊(cè)中的內(nèi)容進(jìn)行數(shù)據(jù)預(yù)處理。具體地,將“可能原因”“故障現(xiàn)象”“排除方法”之后編號(hào)項(xiàng)中每一項(xiàng)與其對(duì)應(yīng)的故障模式單獨(dú)成句。經(jīng)數(shù)據(jù)預(yù)處理后的飛機(jī)電源系統(tǒng)故障手冊(cè)部分內(nèi)容為

        “無(wú)刷交流發(fā)電機(jī)故障的故障表現(xiàn)為電源參數(shù)顯示系統(tǒng)顯示發(fā)電機(jī)輸出電壓為0V或只有幾伏電壓。

        無(wú)刷交流發(fā)電機(jī)故障的可能原因?yàn)楦眲?lì)磁機(jī)繞組短路。使用萬(wàn)用表檢查繞組電阻為0,或者用兆歐表檢查絕緣電阻為0。

        無(wú)刷交流發(fā)電機(jī)故障的可能原因?yàn)橹靼l(fā)電機(jī)激磁繞組斷路。

        無(wú)刷交流發(fā)電機(jī)故障的排除方法為將發(fā)電機(jī)從發(fā)動(dòng)機(jī)上取下來(lái),送往修理廠修理,更換副勵(lì)磁機(jī)定子組件。

        無(wú)刷交流發(fā)電機(jī)故障的排除方法為將發(fā)電機(jī)從發(fā)動(dòng)機(jī)上取下來(lái),送往修理廠修理,更換主轉(zhuǎn)子組件。”

        將該文檔中部分語(yǔ)料劃分為訓(xùn)練集和測(cè)試集,用于實(shí)體抽取和關(guān)系抽取模型的訓(xùn)練和測(cè)試。

        3.2 本體構(gòu)建

        基于專(zhuān)家知識(shí),案例構(gòu)建飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜的本體,共包含實(shí)體類(lèi)型4個(gè),關(guān)系類(lèi)型3個(gè)。

        實(shí)體類(lèi)型包含故障模式、故障原因、故障現(xiàn)象和解決方法。關(guān)系類(lèi)型及其頭、尾實(shí)體類(lèi)型如表1 所示。構(gòu)建完成的本體可視化結(jié)果如圖10所示。

        表1 關(guān)系類(lèi)型、頭實(shí)體和尾實(shí)體類(lèi)型Table 1 Relation types, head entity and tail entity types

        圖10 本體可視化結(jié)果Fig.10 Visualization result of ontology

        3.3 實(shí)體抽取結(jié)果

        飛機(jī)電源系統(tǒng)故障手冊(cè)文檔原始語(yǔ)料劃分出的訓(xùn)練集共有137句,4 344字;測(cè)試集共有31句,910字。

        根據(jù)構(gòu)建的本體,使用BMEO格式標(biāo)注訓(xùn)練集中的實(shí)體。共標(biāo)注實(shí)體267個(gè),實(shí)體標(biāo)注結(jié)果如表2所示。

        表2 實(shí)體標(biāo)注結(jié)果Table 2 Entity tagging results

        例如,“交流發(fā)電機(jī)控制保護(hù)器故障”的實(shí)體類(lèi)型為故障模式 (Failure Mode),因此其第一個(gè)字符“交”對(duì)應(yīng)標(biāo)簽為“B-故障模式”,最后一個(gè)字符“障”對(duì)應(yīng)標(biāo)簽為“E-故障模式”。

        對(duì)飛機(jī)電源系統(tǒng)故障手冊(cè)文檔進(jìn)行實(shí)體標(biāo)注后,使用開(kāi)源標(biāo)注工具brat進(jìn)行可視化展示,效果如圖11所示。

        例如,在圖11原始語(yǔ)料中的句子“交流發(fā)電機(jī)控制保護(hù)器故障的故障表現(xiàn)為調(diào)壓輸出為0”中,標(biāo)注出了故障模式實(shí)體“交流發(fā)電機(jī)控制保護(hù)器故障”和故障現(xiàn)象實(shí)體“調(diào)壓輸出為0”。

        圖11 實(shí)體抽取模型訓(xùn)練集文本標(biāo)注可視化Fig.11 Visualization of training text annotation for entity extraction model

        使用標(biāo)注后的訓(xùn)練集文本訓(xùn)練雙向LSTM實(shí)體抽取模型,模型由一個(gè)embedding層、一個(gè)雙向LSTM層和一個(gè)全連接層組成。實(shí)體抽取模型參數(shù)如表3所示;模型配置如圖12所示,圖中為語(yǔ)料中最長(zhǎng)句子的字符數(shù);為所有BMEO實(shí)體標(biāo)簽的種類(lèi)數(shù)加2,增加的兩項(xiàng)為雙向LSTM實(shí)體抽取所需的標(biāo)簽〈unk〉和〈pad〉。

        表3 實(shí)體抽取模型參數(shù)Table 3 Parameters of entity extraction model

        圖12 實(shí)體抽取模型配置Fig.12 Configuration of entity extraction model

        模型輸入為句子中所有的字符,模型輸出為個(gè)維向量,每個(gè)字符對(duì)應(yīng)一個(gè)向量。若某字符對(duì)應(yīng)的向量中數(shù)值最大的維度為,則該字符對(duì)應(yīng)第個(gè)實(shí)體標(biāo)簽。根據(jù)每個(gè)字符對(duì)應(yīng)的實(shí)體標(biāo)簽提取實(shí)體。

        進(jìn)而將測(cè)試集文本送入訓(xùn)練好的模型抽取實(shí)體,并與人工標(biāo)注的實(shí)體進(jìn)行對(duì)比。實(shí)體抽取模型測(cè)試結(jié)果如圖13所示,可看出利用基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的算法成功實(shí)現(xiàn)了對(duì)測(cè)試集文本語(yǔ)料的實(shí)體抽取,共910條知識(shí),準(zhǔn)確率為99.63%,召回率為71.58%。

        圖13 實(shí)體抽取模型測(cè)試結(jié)果Fig.13 Test results of entity extraction model

        完成測(cè)試后,使用實(shí)體抽取模型抽取原始文檔中的實(shí)體,用于知識(shí)圖譜構(gòu)建。

        3.4 關(guān)系抽取結(jié)果

        關(guān)系抽取訓(xùn)練集和測(cè)試集劃分與實(shí)體抽取相同。表4展示了用于進(jìn)行關(guān)系抽取的訓(xùn)練集語(yǔ)料。根據(jù)構(gòu)建的本體,以“頭實(shí)體 尾實(shí)體 關(guān)系 所在句子”的格式整理訓(xùn)練集中的語(yǔ)料,如表5所示。

        例如,在表4中的句子“主交流電源系統(tǒng)故障的故障表現(xiàn)為‘主交流’告警”中,實(shí)體“主交流電源系統(tǒng)故障”與實(shí)體“‘主交流’告警”之間的關(guān)系為“模式_現(xiàn)象”,因此生成的語(yǔ)料為“主交流電源系統(tǒng)故障‘主交流’告警 模式_現(xiàn)象 主交流電源系統(tǒng)故障表現(xiàn)為‘主交流’告警”。表5展示了關(guān)系抽取語(yǔ)料文本整理結(jié)果。

        表4 關(guān)系抽取模型語(yǔ)料Table 4 Corpus of relation extraction model

        表5 關(guān)系抽取模型語(yǔ)料文本整理結(jié)果Table 5 Text arrangement results for corpus of relation extraction model

        使用開(kāi)源標(biāo)注工具brat對(duì)飛機(jī)電源系統(tǒng)故障手冊(cè)文檔中的關(guān)系進(jìn)行標(biāo)注,可視化展示效果如圖14所示。

        圖14 關(guān)系抽取模型訓(xùn)練集文本標(biāo)注可視化效果Fig.14 Visualization of training text annotation for relation extraction model

        圖14原始語(yǔ)料中的句子“交流發(fā)電機(jī)控制保護(hù)器故障的可能原因?yàn)榻涌诎骞收稀敝校瑯?biāo)注出了實(shí)體“交流發(fā)電機(jī)控制保護(hù)器故障”和實(shí)體“接口板故障”之間的關(guān)系“模式_原因”。

        使用處理后的訓(xùn)練集文本訓(xùn)練基于注意力機(jī)制的雙向LSTM關(guān)系抽取模型,模型由1個(gè)詞向量embedding層、2個(gè)位置向量embedding層、1個(gè)雙向LSTM層、1個(gè)Attention層、1個(gè)關(guān)系向量embedding層和1個(gè)softmax層組成。關(guān)系抽取模型參數(shù)如表6所示,模型配置如圖15所示,圖中為本體中關(guān)系類(lèi)型的數(shù)量。

        表6 關(guān)系抽取模型參數(shù)Table 6 Parameters of relation extraction model

        圖15 關(guān)系抽取模型配置Fig.15 Configuration of relation extraction model

        對(duì)于關(guān)系抽取語(yǔ)料中的每個(gè)句子,以一個(gè)實(shí)體的第一個(gè)字符在句中的位置為坐標(biāo)原點(diǎn),詞向量Embedding層輸入為句子中所有的字符,位置向量Embedding層1輸入為句子的頭實(shí)體位置向量,位置向量Embedding層2輸入為句子的尾實(shí)體位置向量。其中,實(shí)體的位置向量指其所在句子中每個(gè)字符距該實(shí)體首字符的距離。關(guān)系向量Embedding層輸入為所有關(guān)系類(lèi)型,每個(gè)關(guān)系類(lèi)型對(duì)應(yīng)一個(gè)數(shù)字。

        模型輸出為維向量,每個(gè)句子對(duì)應(yīng)一個(gè)向量。若某句對(duì)應(yīng)的向量中數(shù)值最大的維度為,則該句中頭尾實(shí)體之間的關(guān)系為第個(gè)關(guān)系。

        根據(jù)實(shí)體標(biāo)注結(jié)果,將測(cè)試集文本組織成“頭實(shí)體 尾實(shí)體 所在句子”的格式,將處理后的測(cè)試集文本送入訓(xùn)練好的模型抽取實(shí)體關(guān)系,并與人工標(biāo)注的關(guān)系進(jìn)行對(duì)比。關(guān)系抽取模型測(cè)試結(jié)果如圖16所示,可看出利用基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)算法成功實(shí)現(xiàn)了對(duì)測(cè)試集文本的關(guān)系抽取,共31條知識(shí),準(zhǔn)確率為75.00%,召回率為75.00%。

        圖16 關(guān)系抽取模型測(cè)試結(jié)果Fig.16 Test result of relation extraction model

        完成測(cè)試后,使用原始文本的實(shí)體抽取結(jié)果將原始文本組織成“頭實(shí)體 尾實(shí)體 所在句子”的格式,并使用關(guān)系抽取模型抽取原始文檔中的關(guān)系,用于圖譜構(gòu)建。

        3.5 知識(shí)圖譜構(gòu)建結(jié)果

        原始語(yǔ)料中每個(gè)實(shí)體作為一個(gè)節(jié)點(diǎn),每個(gè)關(guān)系作為一條連接其頭實(shí)體和尾實(shí)體的邊。使用Neo4j將原始文本中人工標(biāo)注和模型抽取的結(jié)果構(gòu)建為飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜。由于構(gòu)建的知識(shí)圖譜整體包含的內(nèi)容較多,為更清晰地展示效果,選取部分知識(shí)圖譜內(nèi)容進(jìn)行可視化展示,如圖17所示。

        圖17 飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜部分內(nèi)容可視化展示Fig.17 Visualization of part of knowledge graph for aircraft power system fault diagnosis

        構(gòu)建的圖譜共包含實(shí)體74個(gè),其中故障模式16個(gè)、故障原因34個(gè)、故障現(xiàn)象7個(gè)、解決方法17個(gè)。關(guān)系98條,其中模式_原因76條、模式_現(xiàn)象6條、模式_方法16條。構(gòu)建的知識(shí)圖譜詳情如圖18所示。

        圖18 飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜詳情Fig.18 Details of knowledge graph for aircraft power system fault diagnosis

        經(jīng)人工審核可知,該知識(shí)圖譜已將原始文檔中大部分知識(shí)抽取并存儲(chǔ),實(shí)現(xiàn)了飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜的構(gòu)建。

        3.6 智能應(yīng)用結(jié)果

        完成知識(shí)圖譜構(gòu)建后,可通過(guò)智能問(wèn)答系統(tǒng)和智慧搜索與推薦系統(tǒng)進(jìn)行基于飛機(jī)電源系統(tǒng)故障診斷知識(shí)圖譜的搜索、推薦和問(wèn)答。

        3.6.1 智慧搜索與推薦結(jié)果

        智慧搜索與推薦系統(tǒng)支持對(duì)于某一實(shí)體的搜索,在知識(shí)庫(kù)中對(duì)該實(shí)體的相關(guān)信息進(jìn)行檢索并輸出;同時(shí)還會(huì)根據(jù)相關(guān)實(shí)體的相似度進(jìn)行推薦。智慧搜索與推薦效果如圖19所示,可看出智慧搜索與推薦系統(tǒng)能實(shí)現(xiàn)對(duì)于實(shí)體“直流電源系統(tǒng)故障”的搜索及相關(guān)信息展示,并能根據(jù)相似度匹配算法實(shí)現(xiàn)具有相同故障原因和相同解決方法的故障模式推薦。

        圖19 基于知識(shí)圖譜的智慧搜索與推薦Fig.19 Intelligent search and recommendation based on knowledge graph

        3.6.2 智能問(wèn)答結(jié)果

        問(wèn)答系統(tǒng)支持有關(guān)實(shí)體數(shù)量、關(guān)系數(shù)量、某一實(shí)體相關(guān)信息等的提問(wèn)。智能問(wèn)答效果如圖20所示,可看出智能問(wèn)答系統(tǒng)對(duì)于實(shí)體數(shù)量、關(guān)系數(shù)量、實(shí)體“應(yīng)急交流電源故障”相關(guān)信息等的提問(wèn)能給出相關(guān)問(wèn)題的有效答案。

        圖20 基于知識(shí)圖譜的智能問(wèn)答Fig.20 Intelligent Q & A based on knowledge graph

        4 結(jié) 論

        針對(duì)現(xiàn)有故障診斷方法對(duì)非結(jié)構(gòu)化知識(shí)資源利用效率低的問(wèn)題,借鑒知識(shí)圖譜技術(shù)在其他領(lǐng)域成功應(yīng)用的經(jīng)驗(yàn),提出了一套面向飛機(jī)電源系統(tǒng)故障診斷的知識(shí)圖譜構(gòu)建及應(yīng)用全流程方法。利用所提方法能對(duì)飛機(jī)電源系統(tǒng)設(shè)計(jì)、研制、使用等階段產(chǎn)生的非結(jié)構(gòu)化知識(shí)數(shù)據(jù)進(jìn)行充分挖掘,構(gòu)建的知識(shí)圖譜能為故障知識(shí)搜索、問(wèn)答、推理診斷等任務(wù)提供豐富的知識(shí)基礎(chǔ)。以真實(shí)飛機(jī)電源系統(tǒng)故障手冊(cè)語(yǔ)料為例,對(duì)提出的知識(shí)圖譜構(gòu)建及應(yīng)用方法進(jìn)行了案例驗(yàn)證,實(shí)現(xiàn)了非結(jié)構(gòu)化飛機(jī)電源系統(tǒng)故障診斷知識(shí)的結(jié)構(gòu)化存儲(chǔ)、基于知識(shí)圖譜的智慧搜索與推薦以及智能問(wèn)答等應(yīng)用,為知識(shí)圖譜技術(shù)在中國(guó)故障診斷領(lǐng)域的實(shí)際應(yīng)用提供了有力支撐。

        此外,由于航空故障診斷領(lǐng)域語(yǔ)料來(lái)源較少,模型訓(xùn)練語(yǔ)料不充分,僅以飛機(jī)電源系統(tǒng)排故手冊(cè)作為數(shù)據(jù)源構(gòu)建的知識(shí)圖譜體量較小。未來(lái)筆者將在飛機(jī)的運(yùn)行使用過(guò)程中,利用不斷產(chǎn)生的語(yǔ)料數(shù)據(jù)進(jìn)一步提高知識(shí)抽取模型的精度,并對(duì)構(gòu)建的知識(shí)圖譜進(jìn)行動(dòng)態(tài)知識(shí)更新,從而更好地服務(wù)于飛機(jī)電源系統(tǒng)故障診斷。

        猜你喜歡
        故障診斷故障模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        故障一點(diǎn)通
        3D打印中的模型分割與打包
        奔馳R320車(chē)ABS、ESP故障燈異常點(diǎn)亮
        因果圖定性分析法及其在故障診斷中的應(yīng)用
        故障一點(diǎn)通
        江淮車(chē)故障3例
        基于LCD和排列熵的滾動(dòng)軸承故障診斷
        久久国产A∨一二三| 亚洲日韩国产精品乱-久| 日日碰狠狠丁香久燥| 国产美女裸身网站免费观看视频| 国产盗摄一区二区三区av| 日本一区二区三区视频在线观看| 99久久伊人精品综合观看| 无遮挡网站| 成人偷拍自拍在线视频| 美女脱了内裤露出奶头的视频| 国产裸体xxxx视频在线播放| 四虎永久在线精品免费观看地址| 蜜桃在线一区二区三区| 国产亚洲人成在线观看| 自愉自愉产区二十四区| 福利在线国产| 亚洲视频一区二区蜜桃| 国产精品一区二区三区卡 | 亚州AV无码乱码精品国产| 男女啪啪免费视频网址| 午夜天堂一区人妻| 怡红院免费的全部视频| 天天插视频| 暴露的熟女好爽好爽好爽| 亚洲精品一区二区国产精华液| 国产精品亚洲综合色区韩国| 美女裸体无遮挡黄污网站| 伊人久久大香线蕉av最新午夜| 国产动作大片中文字幕| 久操视频新免费伊人| 久久精品国产亚洲一级二级| 在线播放av不卡国产日韩| 亚洲日韩成人av无码网站| 久久精品国产亚洲婷婷| 亚洲综合久久精品少妇av| 朝鲜女人大白屁股ass孕交| 美女扒开内裤让男生桶| 亚洲国产精一区二区三区性色| 久久精品一区午夜视频| 亚洲av成人无码网站…| 亚州AV成人无码久久精品|