亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的汽車故障知識(shí)圖譜構(gòu)建

        2023-02-13 01:38:10李源潔耿黃政易紅衛(wèi)
        汽車工程 2023年1期
        關(guān)鍵詞:嵌套圖譜實(shí)體

        胡 杰,李源潔,耿 號(hào),耿黃政,郭 雄,易紅衛(wèi)

        (1.武漢理工大學(xué),現(xiàn)代汽車零部件技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430070;2.武漢理工大學(xué),現(xiàn)代零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,武漢 430070;3.新能源與智能網(wǎng)聯(lián)車湖北工程技術(shù)研究中心,武漢 430070;4.上汽通用五菱汽車股份有限公司,柳州 545000)

        前言

        2021 年中國(guó)汽車工業(yè)經(jīng)濟(jì)運(yùn)行報(bào)告指出:2021年我國(guó)汽車產(chǎn)銷分別達(dá)到2 608.2 和2 627.5 萬輛,汽車產(chǎn)業(yè)的蓬勃發(fā)展為汽車后市場(chǎng)也帶來了新的機(jī)遇和挑戰(zhàn)。而隨著汽車新四化水平的提高,售后汽車檢測(cè)維修的難度也逐漸加大。據(jù)統(tǒng)計(jì),在汽車維修過程中約有70%的時(shí)間用于尋找故障,而只有30%的時(shí)間是用于故障維修。因此,在汽車故障診斷中如何快速準(zhǔn)確地定位故障是十分必要的。

        汽車故障診斷技術(shù)現(xiàn)有方法中,基于故障現(xiàn)象的故障診斷主要依靠維修技師的個(gè)人經(jīng)驗(yàn)和查閱維修手冊(cè)或知識(shí)庫。技師經(jīng)驗(yàn)需要大量實(shí)踐來沉淀,且這些維修經(jīng)驗(yàn)難以理論化、共享化;維修手冊(cè)或知識(shí)庫雖然實(shí)現(xiàn)了維修知識(shí)的共享,但也存在一定的局限性,例如,維修手冊(cè)并不能囊括用戶使用過程中可能出現(xiàn)的所有故障現(xiàn)象,即內(nèi)容不夠全面;而對(duì)于知識(shí)庫,其一般的構(gòu)建流程是人工手動(dòng)將相關(guān)理論、專家知識(shí)以計(jì)算機(jī)語言的形式表達(dá)和存儲(chǔ),該過程需要耗費(fèi)大量的時(shí)間,構(gòu)建周期較長(zhǎng),同時(shí),采用傳統(tǒng)方式所構(gòu)建的知識(shí)庫時(shí),無法體現(xiàn)知識(shí)之間的關(guān)聯(lián),容易形成知識(shí)孤島。此外,基于故障現(xiàn)象的診斷過程中產(chǎn)生的維修案例數(shù)據(jù)如故障現(xiàn)象、故障原因等過于口語化,這些非結(jié)構(gòu)化數(shù)據(jù)難以有效存儲(chǔ)和使用。所以,亟需一種方式用于實(shí)現(xiàn)知識(shí)庫的自動(dòng)化構(gòu)建,并建立知識(shí)之間的關(guān)聯(lián),完成對(duì)診斷知識(shí)的積累和復(fù)用,輔助技師完成故障診斷。

        知識(shí)圖譜(knowledge graph)這一概念由谷歌公司在2012 年率先提出,以提高其搜索引擎的性能,本質(zhì)上,知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事務(wù)及其相互關(guān)系進(jìn)行形式化的描述[1]。知識(shí)圖譜由多個(gè)三元組組成,三元組的一般結(jié)構(gòu)為“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-值”。自2012 年被提出以來,基于良好的關(guān)聯(lián)性能,知識(shí)圖譜目前已在諸如電商、金融、醫(yī)學(xué)等多個(gè)領(lǐng)域得到廣泛應(yīng)用,而針對(duì)汽車故障領(lǐng)域,國(guó)內(nèi)外也有一些學(xué)者已經(jīng)開展相關(guān)研究,文獻(xiàn)[2]中從互聯(lián)網(wǎng)論壇爬取大量博主分享的診斷和維修經(jīng)驗(yàn),采用CIMAWA 算法提取文本中的診斷操作,并將各診斷操作按邏輯順序依次連接,形成診斷流程圖;文獻(xiàn)[3]中以柴油發(fā)動(dòng)機(jī)為研究對(duì)象,提出引入詞集級(jí)注意力機(jī)制的方法完成實(shí)體抽取,使用融合多尺度注意力機(jī)制和BERT 的方法完成關(guān)系抽取,最后將構(gòu)建的知識(shí)圖譜與貝葉斯網(wǎng)絡(luò)結(jié)合,完成柴油發(fā)動(dòng)機(jī)故障診斷;文獻(xiàn)[4]和文獻(xiàn)[5]中以汽車產(chǎn)業(yè)鏈協(xié)同平臺(tái)上的數(shù)據(jù)為來源,以基于規(guī)則的方法進(jìn)行實(shí)體抽取,構(gòu)建與故障相關(guān)的特征,采用神經(jīng)網(wǎng)絡(luò)和XGBoost分類器完成故障診斷。

        上述相關(guān)研究將知識(shí)圖譜技術(shù)應(yīng)用于汽車故障診斷領(lǐng)域,雖然極大地提升了知識(shí)庫的構(gòu)建效率和關(guān)聯(lián)性能,但是在構(gòu)建過程中仍然是只考慮了平面實(shí)體(flat entity)的獲取,而并未過多關(guān)注故障文本中存在的嵌套實(shí)體(nested entity)和非連續(xù)實(shí)體(discontinuous entity)等問題。本文中基于某公司售后業(yè)務(wù)數(shù)據(jù),針對(duì)故障文本中的嵌套實(shí)體問題和非連續(xù)實(shí)體問題,提出一種知識(shí)圖譜構(gòu)建流程,并利用知識(shí)圖譜技術(shù)、自然語言處理技術(shù),完成汽車故障知識(shí)圖譜的構(gòu)建。

        1 數(shù)據(jù)來源與分析

        1.1 數(shù)據(jù)內(nèi)容

        本文所使用的數(shù)據(jù)為某公司某款新能源車型一年的維修數(shù)據(jù),這些數(shù)據(jù)從系統(tǒng)導(dǎo)出后以表格形式存儲(chǔ),相應(yīng)字段的名稱與數(shù)據(jù)類型如表1 所示。通過觀察發(fā)現(xiàn):數(shù)據(jù)包含了車輛信息、故障信息和維修信息3 部分內(nèi)容,同時(shí)只有故障描述和處理結(jié)果字段為非結(jié)構(gòu)化數(shù)據(jù),其中故障描述字段包含車輛故障現(xiàn)象內(nèi)容,處理結(jié)果字段包含排查步驟、故障原因、更換配件等內(nèi)容。本文的目標(biāo)即是分別從這兩個(gè)字段中抽取出故障現(xiàn)象實(shí)體和故障原因?qū)嶓w,進(jìn)而構(gòu)建汽車故障知識(shí)圖譜。

        表1 業(yè)務(wù)數(shù)據(jù)分類及說明

        1.2 數(shù)據(jù)特點(diǎn)

        與通用領(lǐng)域的文本相比,故障描述字段、處理結(jié)果字段中的文本內(nèi)容具有以下特點(diǎn):

        (1)兩字段包含大量的專有名詞,若直接使用HanLP、Jieba等分詞工具,可能會(huì)造成結(jié)果不準(zhǔn)確;

        (2)兩字段存在嵌套實(shí)體和非連續(xù)實(shí)體的問題,實(shí)體間的邊界模糊、關(guān)系結(jié)構(gòu)復(fù)雜,為后續(xù)的實(shí)體標(biāo)注和抽取工作增加了難度;

        (3)處理結(jié)果字段除了包含關(guān)注的故障原因內(nèi)容,還包含排查流程、更換配件等內(nèi)容,存在信息冗余。

        對(duì)于上述特點(diǎn),本文在構(gòu)建汽車故障知識(shí)圖譜時(shí),特提出如下解決方案:針對(duì)問題1,采用基于字向量的BERT-BiLSTM-MUL-CRF 完成實(shí)體抽取任務(wù),避免了分詞錯(cuò)誤所帶來的影響;針對(duì)問題2,提出了一種新的實(shí)體抽取流程,將故障現(xiàn)象、故障原因預(yù)先拆分為故障部位+失效形式的組合形式,利用深度學(xué)習(xí)模型完成抽取,并設(shè)計(jì)了一種基于語法規(guī)則的匹配模板,對(duì)抽取的故障部位實(shí)體、失效形式實(shí)體進(jìn)行重組,該流程不需要改變模型結(jié)構(gòu),且時(shí)間復(fù)雜度較低,能夠較好解決文本中存在的嵌套實(shí)體和非連續(xù)實(shí)體問題;針對(duì)問題3,構(gòu)建DPCNN文本分類器對(duì)文本中的內(nèi)容進(jìn)行預(yù)分類,使得在對(duì)故障原因?qū)嶓w進(jìn)行抽取時(shí),范圍更加收斂。

        2 汽車故障知識(shí)圖譜構(gòu)建方法

        2.1 構(gòu)建框架

        知識(shí)圖譜有自頂向下和自底向上兩種構(gòu)建方式[6]。自下而上的構(gòu)建方式是指先完成知識(shí)抽取,再定義本體信息;自上而下的方式則是先定義本體信息,再?gòu)臄?shù)據(jù)中完成知識(shí)抽取。由于車輛故障知識(shí)圖譜屬于垂直領(lǐng)域知識(shí)圖譜,專業(yè)性較強(qiáng),圖譜中包含實(shí)體數(shù)量較少,故本文采取自上而下的構(gòu)建方式,構(gòu)建流程如圖1所示。

        圖1 汽車故障知識(shí)圖譜構(gòu)建框架

        2.2 模式層構(gòu)建

        模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實(shí)表達(dá)。本體是結(jié)構(gòu)化知識(shí)庫的模板,通過本體庫而形成的知識(shí)庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較?。?]。本文所構(gòu)建的汽車故障知識(shí)圖譜模式層如圖2 所示,主要包括車型車系、故障現(xiàn)象、故障原因等8 個(gè)實(shí)體和它們之間的7種關(guān)系組成。

        圖2 知識(shí)圖譜模式層構(gòu)建

        2.3 數(shù)據(jù)層構(gòu)建

        數(shù)據(jù)層主要是由一系列的事實(shí)組成,而知識(shí)將以事實(shí)為單位進(jìn)行存儲(chǔ)[1]。數(shù)據(jù)層構(gòu)建主要包括知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)3 個(gè)任務(wù),其中知識(shí)抽取作為主要任務(wù)。知識(shí)抽取包含實(shí)體抽取、關(guān)系抽取和屬性抽取,由于本文數(shù)據(jù)采用表格形式存儲(chǔ),各字段之間的對(duì)應(yīng)關(guān)系明確,因此只需要進(jìn)行實(shí)體抽取。實(shí)體抽取又稱命名實(shí)體識(shí)別NER(name entity recognition),它的主要任務(wù)是從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)化的實(shí)體;針對(duì)抽取后的實(shí)體可能存在一詞多義或近義詞的問題,需要進(jìn)行知識(shí)融合處理,即實(shí)體消歧和共指消解任務(wù);知識(shí)存儲(chǔ)則是選用合適的存儲(chǔ)方案對(duì)獲取的知識(shí)進(jìn)行存儲(chǔ),以便后續(xù)應(yīng)用和維護(hù)。

        文獻(xiàn)[7]中將實(shí)體抽取的方法分為3 類:基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。其中,基于規(guī)則的方法需要制定大量的規(guī)則模板進(jìn)行實(shí)體抽取,該方法存在規(guī)則沖突、組合爆炸、可擴(kuò)展性差等缺點(diǎn);基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)了模型的自學(xué)習(xí),具有一定的擴(kuò)展性,但是模型的效果依賴于人工選擇的特征;基于深度學(xué)習(xí)的方法可實(shí)現(xiàn)端到端的實(shí)體抽取,在實(shí)體抽取任務(wù)中已經(jīng)得到廣泛應(yīng)用。深度學(xué)習(xí)模型結(jié)構(gòu)大致可以分為嵌入層、編碼層和解碼層3 層結(jié)構(gòu)。嵌入層主要用來實(shí)現(xiàn)輸入字符或詞的向量化表示;編碼層使用深度學(xué)習(xí)模型進(jìn)行特征提??;解碼層用于對(duì)深度學(xué)習(xí)模型的輸出進(jìn)行解碼。現(xiàn)有研究主要集中在對(duì)嵌入層和編碼層部分的研究,嵌入層部分相關(guān)研究主要關(guān)注如何更好實(shí)現(xiàn)輸入的語義表示,如使用動(dòng)態(tài)語言模型(BERT[8-9]、ELMO[10]等)、字詞融合方法[10]等增強(qiáng)語義信息;編碼層相關(guān)研究主要關(guān)注如何更好捕獲隱含特征,如加入注意力機(jī)制[11-12]等。

        目前,基于深度學(xué)習(xí)的實(shí)體抽取技術(shù)已經(jīng)比較成熟,但大部分的研究仍然局限于平面實(shí)體的抽取,而對(duì)于嵌套實(shí)體、非連續(xù)實(shí)體的抽取,依舊面臨一些困難。為解決這些問題,本文中針對(duì)故障文本的特點(diǎn),提出了一種汽車故障知識(shí)圖譜構(gòu)建流程,具體包括:文本預(yù)分類、實(shí)體抽取、實(shí)體重組、知識(shí)融合、知識(shí)存儲(chǔ)。

        2.3.1 基于DPCNN的文本預(yù)分類

        處理結(jié)果字段中包含故障描述、排查流程、故障原因、更換配件4個(gè)內(nèi)容,如表2所示。

        表2 文本類別及示例

        若直接對(duì)處理結(jié)果字段進(jìn)行實(shí)體抽取,由于存在其他類別信息會(huì)增加模型抽取難度,因此考慮對(duì)該字段中的文本內(nèi)容預(yù)先進(jìn)行分類處理,即文本分類任務(wù)。目前相關(guān)研究中,通常使用機(jī)器學(xué)習(xí)模型或者深度學(xué)習(xí)模型來實(shí)現(xiàn)文本分類,本文所使用的模型為Johnson 等[13]提出的深度金字塔卷積神經(jīng)網(wǎng)絡(luò)DPCNN 模型。該模型在TextCNN 模型[14]的基礎(chǔ)上進(jìn)行了相應(yīng)改進(jìn),它通過等長(zhǎng)卷積將第i個(gè)詞的編碼信息與其上下文的編碼信息進(jìn)行融合;通過1/2池化層增加了卷積核的感受野,用于捕獲文本長(zhǎng)距離依賴關(guān)系;通過殘差解決CNN 網(wǎng)絡(luò)中的梯度彌散問題。經(jīng)過上述優(yōu)化,與TextCNN 模型相比,DPCNN模型具有更好的文本分類效果,本文所使用的DPCNN模型結(jié)構(gòu)如圖3所示。

        圖3 DPCNN模型結(jié)構(gòu)

        2.3.2 基于BERT-BiLSTM-MUL-CRF 的實(shí)體抽取

        在完成文本分類后,本文須分別從故障描述字段、處理結(jié)果字段中的故障原因文本抽取出故障現(xiàn)象實(shí)體和故障原因?qū)嶓w。經(jīng)過觀察,這兩部分文本中存在嵌套實(shí)體問題和非連續(xù)實(shí)體問題,雖然目前已經(jīng)有大量實(shí)體抽取的相關(guān)工作,但是很少涉及嵌套實(shí)體和非連續(xù)實(shí)體的抽取問題,其中對(duì)于嵌套實(shí)體問題,目前主要有以下幾種思路。(1)基于超圖的方法:如文獻(xiàn)[15]中提出基于遞歸神經(jīng)網(wǎng)絡(luò)的嵌套實(shí)體抽取模型,在解碼時(shí),將超過設(shè)定閾值的類別輸出,并作為當(dāng)前token 的標(biāo)簽;使用KL-divergence 損失函數(shù)來計(jì)算多標(biāo)簽損失,但是模型的閾值設(shè)定存在主觀因素。(2)基于數(shù)據(jù)標(biāo)注的方法:如文獻(xiàn)[16]中采用BILOU 標(biāo)注法,將嵌套的實(shí)體標(biāo)簽進(jìn)行組合,例如文中將“I-ORG”標(biāo)簽和“U-GPE”標(biāo)簽進(jìn)行組合,形成一個(gè)新的標(biāo)簽“I-ORG|U-GPE”,這樣嵌套實(shí)體對(duì)應(yīng)的多分類任務(wù)就轉(zhuǎn)化為單分類任務(wù),該方法由于采用了復(fù)合標(biāo)注,會(huì)造成不同類別樣本分布不均,模型學(xué)習(xí)效果變差。(3)基于狀態(tài)轉(zhuǎn)換的方法:文獻(xiàn)[17]中采用從外到內(nèi)遞歸解碼的方式搜索嵌套實(shí)體,直到不再檢測(cè)到新的嵌套實(shí)體為止,該方法中內(nèi)層嵌套實(shí)體的識(shí)別在外層實(shí)體的內(nèi)部進(jìn)行,因此外層實(shí)體的識(shí)別出現(xiàn)的偏差會(huì)隨遞歸解碼過程傳播。(4)基于閱讀理解的方法:文獻(xiàn)[18]中引入MRC(mechine reading comprehension)框架,將NER任務(wù)轉(zhuǎn)化為閱讀理解任務(wù),通過BERT 模型對(duì)問題和文本進(jìn)行編碼,并分別計(jì)算文本中每個(gè)位置為實(shí)體起始索引以及結(jié)束索引的概率,最后將起始索引與結(jié)束索引匹配,完成實(shí)體識(shí)別任務(wù)。針對(duì)非連續(xù)實(shí)體問題,文獻(xiàn)[19]中提出一種基于最大團(tuán)(maximal clique)發(fā)現(xiàn)的非連續(xù)命名實(shí)體識(shí)別模型,即Mac 模型,其主要思想是采用段圖(seqment graph)的方法,將文本中的連續(xù)或非連續(xù)實(shí)體表示為圖中的節(jié)點(diǎn),并將同一實(shí)體的片段進(jìn)行用邊進(jìn)行連接,此時(shí)非連續(xù)命名實(shí)體識(shí)別問題就轉(zhuǎn)化為發(fā)現(xiàn)圖中最大團(tuán)的問題;文獻(xiàn)[20]中則是分析了嵌套實(shí)體和非連續(xù)實(shí)體的共性問題,并把非連續(xù)實(shí)體轉(zhuǎn)化為嵌套實(shí)體來研究,使用堆棧結(jié)構(gòu),通過乘法注意力機(jī)制去捕獲stack 區(qū)與buffer區(qū)元素之間的非連續(xù)性依賴,并通過該依賴程度決定下一步執(zhí)行何種動(dòng)作,進(jìn)而找出文本中的非連續(xù)實(shí)體。

        通過分析故障文本,得出如下結(jié)論:文本中的嵌套實(shí)體問題主要為故障部位實(shí)體和故障現(xiàn)象實(shí)體的嵌套,如圖4 中的“左前輪”和“左前輪漏氣”,嵌套結(jié)構(gòu)為兩層嵌套;非連續(xù)實(shí)體主要表現(xiàn)為故障部位或失效形式的重疊,如圖4 中的“異響”。在語法結(jié)構(gòu)上,嵌套實(shí)體多為主謂結(jié)構(gòu),即故障部位在前,失效形式在后;非連續(xù)實(shí)體中非連續(xù)部分通常會(huì)以“、”符號(hào)進(jìn)行連接?;谏鲜鎏攸c(diǎn),本文將故障現(xiàn)象、故障原因預(yù)先拆分為故障部位+失效形式的組合形式,構(gòu)建模型完成對(duì)故障部位實(shí)體、失效形式實(shí)體的抽取,解決文本中的嵌套實(shí)體問題;之后對(duì)抽取的結(jié)果基于語法規(guī)則再次重組,解決非連續(xù)實(shí)體問題,最終獲得故障現(xiàn)象實(shí)體和故障原因?qū)嶓w。

        圖4 嵌套實(shí)體與非連續(xù)實(shí)體舉例

        在利用深度學(xué)習(xí)模型進(jìn)行抽取時(shí),模型輸入通常可分為單個(gè)字符輸入、詞輸入以及字詞融合輸入??紤]到本文數(shù)據(jù)為專業(yè)領(lǐng)域文本,分詞結(jié)果可能不準(zhǔn)確,而分詞所產(chǎn)生的誤差最終又會(huì)影響模型的訓(xùn)練和預(yù)測(cè),所以本文采用基于字向量的BERTBiLSTM-MUL-CRF 模型完成實(shí)體抽取,模型結(jié)構(gòu)如圖5所示。

        圖5 BERT-BiLSTM-MUL-CRF 模型結(jié)構(gòu)

        在上述模型結(jié)構(gòu)中,BERT模型作為嵌入層對(duì)每個(gè)輸入字符進(jìn)行編碼,它基于自注意力機(jī)制,使得每個(gè)字符的編碼信息能夠融合上下文其他字符的信息,更好進(jìn)行語義表示;BiLSTM 模型通過左向網(wǎng)絡(luò)和右向網(wǎng)絡(luò)獲取字符的上下文信息,完成特征提??;注意力層用來捕獲BiLSTM 輸出編碼中更加豐富的信息;CRF 層用來對(duì)注意力層的輸出進(jìn)行解碼,與argmax 不同,CRF 層不僅考慮了標(biāo)簽的發(fā)射概率,還考慮了標(biāo)簽之間的轉(zhuǎn)移概率,能夠更好實(shí)現(xiàn)對(duì)輸出標(biāo)簽序列的約束。

        2.3.3 基于語法規(guī)則的實(shí)體重組

        如圖6 所示,由于本文預(yù)先對(duì)故障現(xiàn)象、故障原因進(jìn)行了拆分,因此在完成故障部位實(shí)體、失效形式實(shí)體的抽取后,需要對(duì)實(shí)體進(jìn)行重組,以獲得最終的故障現(xiàn)象實(shí)體和故障原因?qū)嶓w。因此,本節(jié)結(jié)合2.3.2 節(jié)所述故障文本的特點(diǎn),設(shè)計(jì)了一種基于語法規(guī)則的匹配模板,如表3 所示,用來完成對(duì)實(shí)體的重組。

        表3 基于語法規(guī)則的實(shí)體匹配算法

        圖6 實(shí)體匹配示意圖

        為更好解釋本文的實(shí)體匹配算法,現(xiàn)以故障現(xiàn)象“右前門、右前翼子板、前蒙皮發(fā)黃,制動(dòng)燈不亮”為例,對(duì)匹配算法進(jìn)行解釋說明,過程如圖7 所示。首先,經(jīng)過模型抽取,分別得到以下故障部位實(shí)體和失效形式實(shí)體:[右前門,右前翼子板,前蒙皮,制動(dòng)燈],[發(fā)黃,不亮],依次獲取故障部位實(shí)體和失效形式實(shí)體在故障現(xiàn)象文本中的索引列表L1,以及失效形式實(shí)體索引列表L2,本例中,L1為[0,4,10,13,16,19],L2為[13,19];之后,按從小到大的順序?qū)1中的元素依次壓入棧內(nèi),在壓棧之前,判斷該索引是否為失效形式索引,若為真,則將棧內(nèi)所有元素彈出,同時(shí)將彈出的故障部位索引與失效形式索引一一配對(duì);最后,將這些匹配完成的索引對(duì)與故障部位、失效形式進(jìn)行映射,就得到了最終的故障現(xiàn)象。需要注意的是,本例為失效形式不連續(xù)的情形,當(dāng)遇到故障部位不連續(xù)的情形時(shí),首先需要通過語法規(guī)則,將失效形式實(shí)體合并成列表L′,如圖6中例3所示的[異響,刮不干凈],假設(shè)列表L′長(zhǎng)度為n,同時(shí)以n個(gè)失效形式實(shí)體中的最小索引作為列表L′的索引,并將該索引添加至列表L1和L2中。之后采用同樣的方式將列表L′與故障部位實(shí)體進(jìn)行配對(duì),假設(shè)符合配對(duì)條件的故障部位實(shí)體數(shù)量為m,則將L′中的n個(gè)失效形式實(shí)體與m個(gè)故障部位實(shí)體一一匹配,最終得到m×n個(gè)故障現(xiàn)象實(shí)體。

        圖7 實(shí)體匹配示例

        2.3.4 知識(shí)融合

        知識(shí)融合是融合各個(gè)層面的知識(shí),包括不同知識(shí)庫的同一實(shí)體、多個(gè)不同的知識(shí)圖譜、多源異構(gòu)的外部知識(shí)等,并確定知識(shí)圖譜中的等價(jià)實(shí)例、等價(jià)類及等價(jià)屬性,實(shí)現(xiàn)對(duì)現(xiàn)有知識(shí)圖譜的更新[21]。在汽車故障診斷領(lǐng)域,主要是解決近義詞的問題,即共指消解任務(wù),目前,針對(duì)共指消解任務(wù),主要有3 種方法:基于術(shù)語的方法、基于結(jié)構(gòu)的方法和基于深度學(xué)習(xí)的方法?;谛g(shù)語的方法主要關(guān)注實(shí)體的名稱、屬性、標(biāo)簽等信息,常用比較方法有word2vec、TFIDF 值、Jaccard 系數(shù)等;基于結(jié)構(gòu)的方法通過分析實(shí)體結(jié)構(gòu)上的相似度來完成對(duì)齊,該方法與分布式假設(shè)的思想相同;基于深度學(xué)習(xí)的方法是利用知識(shí)表示學(xué)習(xí)將圖譜中的實(shí)體和關(guān)系都映射成低維稠密空間向量,使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)獲取隱式特征,在隱式向量空間計(jì)算實(shí)體相似度。本文中采用術(shù)語相似度和結(jié)構(gòu)相似度相結(jié)合的方法來完成共指消解任務(wù)。

        3 算例分析

        3.1 文本分類實(shí)驗(yàn)

        3.1.1 算例情況

        本文從原數(shù)據(jù)處理結(jié)果字段中選取部分?jǐn)?shù)據(jù)進(jìn)行切分,最終獲得4 000條數(shù)據(jù)。將數(shù)據(jù)標(biāo)注為故障現(xiàn)象、排查流程、故障原因和更換配件4 個(gè)類別,并按照6∶1∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型的訓(xùn)練和測(cè)試。

        3.1.2 評(píng)價(jià)指標(biāo)

        使用準(zhǔn)確率P、召回率R和F1值3個(gè)指標(biāo)對(duì)每個(gè)類別的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià);使用各類別預(yù)測(cè)結(jié)果的加權(quán)平均對(duì)模型整體預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。

        3.1.3 參數(shù)設(shè)置

        本文所使用的DPCNN 模型參數(shù)設(shè)置如表4所示。

        表4 DPCNN參數(shù)及取值

        3.1.4 文本分類結(jié)果與分析

        選用機(jī)器學(xué)習(xí)中的SVM 模型、KNN 模型和深度學(xué)習(xí)中的TextCNN、VDCNN 模型,進(jìn)行對(duì)照實(shí)驗(yàn),各模型的實(shí)驗(yàn)結(jié)果如表5所示。

        表5 文本分類結(jié)果 %

        從上述結(jié)果可知,與機(jī)器學(xué)習(xí)模型相比,3 種深度學(xué)習(xí)模型表現(xiàn)更好,而DPCNN 模型基于前文所述的優(yōu)點(diǎn),取得了最好的實(shí)驗(yàn)結(jié)果。

        3.2 實(shí)體抽取實(shí)驗(yàn)

        3.2.1 算例情況

        從故障描述字段和經(jīng)過處理結(jié)果字段中的故障原因文本中選取4 200 條數(shù)據(jù),采用BIOS 標(biāo)注法進(jìn)行標(biāo)注,并按5∶1∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.2.2 評(píng)價(jià)指標(biāo)

        使用實(shí)體級(jí)別的準(zhǔn)確率P、召回率R和F1值對(duì)模型評(píng)價(jià)外,同時(shí)使用各實(shí)體預(yù)測(cè)結(jié)果的加權(quán)平均來評(píng)價(jià)各模型的整體表現(xiàn)情況。

        3.2.3 參數(shù)設(shè)置

        本文所構(gòu)建的BERT-BiLSTM-MUL-CRF 模型參數(shù)設(shè)置如表6所示。

        表6 BERT-BiLSTM-MUL-CRF 參數(shù)及取值

        3.2.4 實(shí)體抽取結(jié)果與分析

        引入IDCNN-CRF、Lattice LSTM-CRF 等模型進(jìn)行對(duì)照實(shí)驗(yàn),各模型實(shí)體抽取結(jié)果如表7所示。

        表7 實(shí)體抽取結(jié)果 %

        從表7 可以看到:本文所使用的BERTBiLSTM-MUL-CRF 模型在加入BERT預(yù)訓(xùn)練模型和注意力機(jī)制之后,較原模型而言,其各項(xiàng)評(píng)價(jià)指標(biāo)提升了10 多個(gè)百分點(diǎn);同時(shí),也看到Lattice LSTMCRF 模型和LRCNN-CRF 模型也取得了較好的效果,Lattice LSTM 模型在基于字符NER 的基礎(chǔ)上,通過門控單元,將與當(dāng)前字符匹配的所有詞匯信息融入到原LSTM 模型中,同時(shí)利用了字符和詞匯信息。LR CNN 模型采用卷積神經(jīng)網(wǎng)絡(luò)提升了模型的運(yùn)行速度,同時(shí)考慮到在匹配詞匯信息時(shí),多個(gè)詞匯之間可能會(huì)存在沖突。因此該模型通過引入Rethinking反饋機(jī)制,利用高層語義弱化錯(cuò)誤候選詞的權(quán)重。另外,從圖8 也觀察到,相較于其他模型,本文模型分別對(duì)不同實(shí)體抽取時(shí),也都取得了最佳的F1值。

        圖8 各模型F1值情況

        3.3 實(shí)體重組

        在完成故障部位實(shí)體和失效形式實(shí)體的抽取后,采用本文設(shè)計(jì)的匹配模板進(jìn)行重組,以獲取最終的故障現(xiàn)象和故障原因。本文實(shí)驗(yàn)數(shù)據(jù)中,包含嵌套實(shí)體的樣本共計(jì)9 537 條,其中,既包含嵌套實(shí)體又包含非連續(xù)實(shí)體的樣本共計(jì)452條。

        在進(jìn)行實(shí)體重組時(shí),首先選取452 條包含非連續(xù)實(shí)體的樣本,使用本文所提出基于語法規(guī)則的匹配模板,對(duì)得到的故障部位實(shí)體和失效形式實(shí)體進(jìn)行重組,得到故障現(xiàn)象實(shí)體和故障原因?qū)嶓w,最后人工對(duì)重組的結(jié)果進(jìn)行核驗(yàn),經(jīng)過計(jì)算,匹配模板的準(zhǔn)確率可達(dá)到63.3%。之后,選取只包含嵌套實(shí)體的樣本共計(jì)2 000 條,采用同樣的方式進(jìn)行重組,經(jīng)過人工校驗(yàn),準(zhǔn)確率為86.8%。

        從實(shí)驗(yàn)結(jié)果來看,本文所設(shè)計(jì)的模板對(duì)于非連續(xù)實(shí)體的匹配準(zhǔn)確率低于嵌套實(shí)體。這是由于嵌套實(shí)體中,內(nèi)層實(shí)體完全位于外層實(shí)體的內(nèi)部,實(shí)體之間的跨度更小,而非連續(xù)實(shí)體的跨度更長(zhǎng),因此相應(yīng)地會(huì)具有更高的識(shí)別難度。就整體情況而言,本文所設(shè)計(jì)的模板對(duì)于嵌套實(shí)體和非連續(xù)實(shí)體都取得了較高的準(zhǔn)確率,同時(shí)模型的時(shí)間復(fù)雜度較低,提升了圖譜的構(gòu)建效率。

        3.4 知識(shí)融合

        如圖9 所示,本文中采用術(shù)語相似度和結(jié)構(gòu)相似度相結(jié)合的方法,對(duì)重組得到的故障現(xiàn)象實(shí)體和故障原因?qū)嶓w進(jìn)行對(duì)齊融合。通過先前構(gòu)建的汽車故障知識(shí)圖譜模式層了解到,故障原因?qū)嶓w與維修方法實(shí)體鏈接,而維修方法為結(jié)構(gòu)化數(shù)據(jù),可直接進(jìn)行比較,因此可以首先對(duì)故障原因?qū)嶓w進(jìn)行對(duì)齊,之后再對(duì)故障現(xiàn)象實(shí)體進(jìn)行對(duì)齊。在相似度計(jì)算時(shí),由于術(shù)語相似度更容易計(jì)算,因此優(yōu)先計(jì)算實(shí)體的術(shù)語相似度,結(jié)構(gòu)相似度用以輔助判別,考慮到抽取故障現(xiàn)象與故障原因?qū)嶓w文本較短,本文選用Jaccard系數(shù)作為評(píng)價(jià)指標(biāo)。

        圖9 共指消解流程

        3.5 知識(shí)存儲(chǔ)

        在對(duì)故障現(xiàn)象和故障原因?qū)嶓w融合處理后,本文使用Neo4j 圖數(shù)據(jù)庫對(duì)構(gòu)建的汽車故障知識(shí)圖譜進(jìn)行存儲(chǔ),部分存儲(chǔ)結(jié)果如圖10所示。

        圖10 知識(shí)圖譜部分存儲(chǔ)結(jié)果

        4 結(jié)論

        本文中將知識(shí)圖譜應(yīng)用于汽車故障診斷領(lǐng)域,在傳統(tǒng)知識(shí)圖譜構(gòu)建流程的基礎(chǔ)上,針對(duì)文本特點(diǎn),加入了文本預(yù)分類和實(shí)體重組?;贒PCNN 的文本分類模型用于從目標(biāo)字段剝離出故障原因相關(guān)內(nèi)容,縮小了實(shí)體抽取范圍;將故障現(xiàn)象、故障原因拆分為故障部位+失效形式的組合模式,采用基于字向量的BERT-BiLSTM-MUL-CRF 模型完成實(shí)體抽取任務(wù),并使用基于語法規(guī)則的匹配模塊完成實(shí)體重組,有效解決了文本中的嵌套實(shí)體和非連續(xù)實(shí)體問題,提升了圖譜構(gòu)建效率和準(zhǔn)確率,為后續(xù)構(gòu)建基于知識(shí)圖譜的故障診斷奠定了基礎(chǔ)。

        猜你喜歡
        嵌套圖譜實(shí)體
        例析“立幾”與“解幾”的嵌套問題
        基于嵌套Logit模型的競(jìng)爭(zhēng)性選址問題研究
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
        亚洲一区二区三区久久久| 国产999精品久久久久久| 综合网五月| av福利资源在线观看| 精品女同一区二区三区| 狠狠色综合7777久夜色撩人ⅰ| 久久精品岛国av一区二区无码| 国产午夜精品久久久久| 99精品久久精品一区| 久久精品国产精品青草| 亚洲国产精品一区二区第四页 | 正在播放东北夫妻内射| 久草午夜视频| 久久精品国语对白黄色| 曰韩少妇内射免费播放| 成年无码av片完整版| 亚洲va在线va天堂va四虎| 国产中文字幕一区二区视频| 午夜成人理论福利片| 国产免费午夜a无码v视频| 国产经典免费视频在线观看 | 久久久亚洲精品一区二区| 邻居美少妇张开腿让我爽了一夜| 性高朝大尺度少妇大屁股| 色综合一本| 一区二区中文字幕蜜桃| 97色伦图片97综合影院| 日日碰狠狠添天天爽超碰97| 亚洲欧美另类日本久久影院| 久久99国产综合精品女同| 51看片免费视频在观看| 国产美女白浆| 一区二区三区视频偷拍| 国产精品无码一区二区三区在| 国产性一交一乱一伦一色一情| 动漫av纯肉无码av在线播放| 美腿丝袜在线观看视频| 鸭子tv国产在线永久播放| 国产偷国产偷高清精品| 亚洲一区二区三区福利久久蜜桃| 中文无码成人免费视频在线观看 |