亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        汽車故障知識(shí)圖譜構(gòu)建及應(yīng)用研究

        2024-02-29 06:28:36李先旺黃忠祥賀德強(qiáng)劉賽虎秦學(xué)敬
        科學(xué)技術(shù)與工程 2024年4期
        關(guān)鍵詞:汽車文本故障

        李先旺, 黃忠祥, 賀德強(qiáng), 劉賽虎, 秦學(xué)敬

        (廣西大學(xué)機(jī)械工程學(xué)院, 南寧 530004)

        汽車維修領(lǐng)域存在大量的文本數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含豐富的信息,且多數(shù)以非結(jié)構(gòu)化文本的形式散落在各處,沒(méi)得到統(tǒng)一的組織與管理,造成了知識(shí)的浪費(fèi)。如何根據(jù)故障現(xiàn)象快速?gòu)暮A课谋緮?shù)據(jù)中找到故障原因與解決方法,并構(gòu)建一個(gè)完整的面向汽車故障診斷的知識(shí)體系是一個(gè)亟待解決的問(wèn)題。

        知識(shí)圖譜是有效的知識(shí)集成方法之一,它能形式化地描述現(xiàn)實(shí)世界的事物及其相互關(guān)系[1],從而促進(jìn)對(duì)其所包含信息的管理與使用。知識(shí)圖譜目前已被應(yīng)用在多個(gè)領(lǐng)域,如醫(yī)療[2]、制造[3]和公共交通[4]等領(lǐng)域,而針對(duì)汽車維修領(lǐng)域的知識(shí)圖譜也有部分學(xué)者進(jìn)行了研究。趙祥龍[5]基于規(guī)則進(jìn)行知識(shí)抽取,在構(gòu)建的車輛故障知識(shí)圖譜基礎(chǔ)上通過(guò)XGBoost分類算法實(shí)現(xiàn)了故障原因的推薦應(yīng)用。但基于規(guī)則的方法存在召回率底、沖突性高的缺點(diǎn)。葛任賢[6]基于汽車故障案例,使用正則表示式進(jìn)行知識(shí)抽取,構(gòu)建汽車故障事理圖譜。但知識(shí)抽取過(guò)于依賴人工和專家經(jīng)驗(yàn),自動(dòng)化程度不高。徐成現(xiàn)[7]通過(guò)將注意力機(jī)制與BiLSTM-CRF(bidirectional long short-term memory-conditional random field)模型相結(jié)合對(duì)發(fā)動(dòng)機(jī)維修案例進(jìn)行知識(shí)抽取,構(gòu)建發(fā)動(dòng)機(jī)故障維修知識(shí)圖譜,并以關(guān)鍵詞和人工制定規(guī)則的方式進(jìn)行映射實(shí)現(xiàn)故障知識(shí)的查詢。但未能實(shí)現(xiàn)嵌套實(shí)體的識(shí)別,此外故障搜索依賴模板庫(kù)或關(guān)鍵詞庫(kù),后期維護(hù)困難。

        命名實(shí)體識(shí)別(named entity recognition,NER)指將預(yù)定義類別的實(shí)體從非結(jié)構(gòu)化文本中識(shí)別出來(lái),為知識(shí)圖譜構(gòu)建、智能問(wèn)答等下游任務(wù)的開(kāi)展奠定基礎(chǔ)[8]。因此提高實(shí)體識(shí)別效果十分重要。BiLSTM-CRF常作為基線模型用于中文實(shí)體識(shí)別[9],但該模型不能解決實(shí)體嵌套問(wèn)題。Li等[10]提出將嵌套NER任務(wù)轉(zhuǎn)化成機(jī)器閱讀理解(machine reading comprehension,MRC)任務(wù)來(lái)解決,通過(guò)構(gòu)建相應(yīng)問(wèn)題識(shí)別不同類型實(shí)體,使用單層指針網(wǎng)絡(luò)識(shí)別實(shí)體邊界,但該方法用兩個(gè)模塊分別識(shí)別實(shí)體的首尾,將導(dǎo)致訓(xùn)練和預(yù)測(cè)不一致。為此,Su等[11]提出全局指針(gloabal pointer, GP),該框架將實(shí)體首尾視為整體進(jìn)行判別,能實(shí)現(xiàn)訓(xùn)練與預(yù)測(cè)的一致性。

        首先,汽車維修文本具有領(lǐng)域?qū)I(yè)性,實(shí)體結(jié)構(gòu)較為復(fù)雜,存在大量實(shí)體嵌套的情況,如“發(fā)動(dòng)機(jī)無(wú)法啟動(dòng)”是個(gè)故障現(xiàn)象實(shí)體,其內(nèi)嵌套著“發(fā)動(dòng)機(jī)”這個(gè)部件實(shí)體,因此其實(shí)體邊界較難確定。其次,該領(lǐng)域缺乏成熟的公開(kāi)數(shù)據(jù)集,只能人工標(biāo)注小規(guī)模的領(lǐng)域數(shù)據(jù)集。預(yù)訓(xùn)練語(yǔ)言模型BERT (bidirectional encoder representation from transformers)[12]使用大規(guī)模的語(yǔ)料進(jìn)行預(yù)訓(xùn)練,具有通用的語(yǔ)言表征能力,無(wú)需從零開(kāi)始訓(xùn)練字符向量,只需在后續(xù)的任務(wù)中通過(guò)少量標(biāo)注語(yǔ)料進(jìn)行微調(diào)就可得到動(dòng)態(tài)的字符向量,但其采用的是字級(jí)掩碼機(jī)制,因此模型在處理中文時(shí)難以獲得詞級(jí)特征。RoBERTa-wwm(a robustly optimized BERT pre-training approach-whole word masking)[13]增加了全詞掩碼機(jī)制,中文語(yǔ)義表示能力更強(qiáng)。Jiang等[14]研究發(fā)現(xiàn),專業(yè)領(lǐng)域的數(shù)據(jù)集規(guī)模較小,模型在訓(xùn)練中很容易發(fā)生過(guò)擬合,進(jìn)而影響模型的表現(xiàn)。

        針對(duì)汽車維修文本實(shí)體邊界難確定、實(shí)體嵌套和數(shù)據(jù)集規(guī)模較小的問(wèn)題,為全局指針引入中文分詞,并進(jìn)一步提出引入中文分詞的嵌套實(shí)體識(shí)別模型AT-RWSGP (nested named entity recognition using adversarial training and RoBERTa-wwm in the word segmentation GlobalPointer frame),以提高嵌套實(shí)體識(shí)別效果。在構(gòu)建汽車故障知識(shí)圖譜后,實(shí)現(xiàn)基于知識(shí)圖譜的汽車維修知識(shí)問(wèn)答原型系統(tǒng),展示知識(shí)圖譜技術(shù)在汽車維修領(lǐng)域的應(yīng)用前景。該系統(tǒng)為維修人員進(jìn)行汽車故障排查提供了故障知識(shí)問(wèn)答和圖譜可視化功能,為輔助維修人員對(duì)汽車進(jìn)行故障排查提供了理論參考和技術(shù)支撐。

        1 汽車故障知識(shí)圖譜構(gòu)建流程及本體構(gòu)建

        1.1 汽車故障知識(shí)圖譜構(gòu)建流程

        知識(shí)圖譜就覆蓋范圍可分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜[15],而知識(shí)圖譜的構(gòu)建方式可分為自底向上構(gòu)建和自頂向下構(gòu)建[16]。一般而言,自底向上構(gòu)建方式更合適于覆蓋范圍廣泛的通用知識(shí)圖譜,此類圖譜常用于搜索、推薦以及問(wèn)答等。汽車故障知識(shí)圖譜是一個(gè)典型的領(lǐng)域知識(shí)圖譜,此類圖譜需要根據(jù)領(lǐng)域業(yè)務(wù)需求,構(gòu)建出合適的本體模式,確定實(shí)體與關(guān)系的類型。所設(shè)計(jì)的汽車故障知識(shí)圖譜構(gòu)建流程如圖1所示,包括數(shù)據(jù)層、構(gòu)建層和應(yīng)用層。

        圖1 汽車故障知識(shí)圖譜構(gòu)建框架圖Fig.1 Frame chart of building automobile fault knowledge graph

        圖1中,數(shù)據(jù)層為汽車故障知識(shí)的數(shù)據(jù)來(lái)源,這些數(shù)據(jù)作為汽車故障實(shí)體和關(guān)系的基礎(chǔ)語(yǔ)料。構(gòu)建層的工作包括確定實(shí)體與關(guān)系的類型,然后將預(yù)定義好的實(shí)體和關(guān)系從多源異構(gòu)的文本數(shù)據(jù)中抽取出來(lái),并進(jìn)行知識(shí)融合,最后根據(jù)構(gòu)建的本體模式將知識(shí)三元組存儲(chǔ)到知識(shí)庫(kù)中。應(yīng)用層則是將構(gòu)建好的汽車故障知識(shí)圖譜應(yīng)用到汽車故障診斷業(yè)務(wù)中,包括智能問(wèn)答與推薦等。

        1.2 本體構(gòu)建

        領(lǐng)域知識(shí)圖譜本體的構(gòu)建,需要結(jié)合專家知識(shí)進(jìn)行,規(guī)范好實(shí)體和關(guān)系的類型才能保證從文本中抽取出正確的知識(shí)。針對(duì)汽車故障知識(shí)圖譜,其數(shù)據(jù)來(lái)源主要是維修手冊(cè)和汽車維修案例等,而此類數(shù)據(jù)則主要包括品牌車型、故障現(xiàn)象、故障原因以及零部件等實(shí)體,具體實(shí)體和關(guān)系類型如圖2所示。

        圖2 汽車故障知識(shí)圖譜模式層設(shè)計(jì)Fig.2 Design of pattern layer of automobile fault knowledge graph

        2 AT-RWSGP模型

        所提AT-RWSGP模型架構(gòu)如圖3所示,該模型包括三層,分別是RoBERTa-wwm嵌入層、對(duì)抗訓(xùn)練和WSGP(word segmentation global pointer)解碼層。首先將字符序列輸入到RoBERTa-wwm中獲取字符編碼;然后在RoBERTa-wwm后接對(duì)抗訓(xùn)練層,對(duì)嵌入層加入小擾動(dòng),然后一起送到WSGP中識(shí)別實(shí)體的邊界并進(jìn)行分類。

        圖3 AT-RWSGP模型結(jié)構(gòu)圖Fig.3 AT-RWSGP model structure diagram

        2.1 RoBERTa-wwm嵌入層

        RoBERTa-wwm預(yù)訓(xùn)練模型是哈工大訊飛聯(lián)合實(shí)驗(yàn)室提出,其采用了中文全詞掩碼技術(shù),如圖4所示。通過(guò)全詞掩碼技術(shù),RoBERTa-wwm可以在訓(xùn)練的時(shí)候?qū)W到詞級(jí)別的語(yǔ)義表示,有助于提高汽車維修領(lǐng)域文本的實(shí)體識(shí)別效果。

        圖4 RoBERTa-wwm的全詞掩碼示例Fig.4 Example of whole word masking for RoBERta-wwm

        RoBERTa-wwm結(jié)構(gòu)圖如圖5所示,將輸入的句子定義為s= {x1,x2, …,xn},其中xi為序列的第i個(gè)字,i=1,2,…,n。在句子開(kāi)頭加上分類符([CLS]),在句尾處添上分割符([SEP]),經(jīng)由RoBERTa-wwm處理,得到句子s的向量表示E,E= [E1,E2, …,En]。

        圖5 RoBERTa-wwm結(jié)構(gòu)圖Fig.5 Structure Diagram of RoBERTa-wwm

        2.2 對(duì)抗訓(xùn)練層

        對(duì)抗訓(xùn)練的思想是直接在模型的向量表示層加入微小的擾動(dòng)以生成對(duì)抗樣本,然后再用對(duì)抗樣本進(jìn)行訓(xùn)練,借此提升模型的魯棒性。由于FGM (fast gradient method)[17]方法兼顧了性能和效率,因此采用FGM方法來(lái)計(jì)算擾動(dòng)。

        FGM采用的方法是L2歸一化,即將梯度的每個(gè)維度的值除以梯度的L2范數(shù)。擾動(dòng)radv的計(jì)算公式為

        (1)

        g=▽EL(E;θ)

        (2)

        式中:g為梯度,‖g‖2為g的L2范數(shù);ε為超參數(shù);L(E;θ)為損失函數(shù);θ為模型參數(shù)。

        2.3 WSGP解碼層

        GP通過(guò)構(gòu)造一個(gè)上三角矩陣來(lái)遍歷所有有效的實(shí)體邊界,每一個(gè)格子對(duì)應(yīng)一個(gè)實(shí)體邊界,不同的矩陣表示不同類型的實(shí)體。

        經(jīng)過(guò)對(duì)抗訓(xùn)練層,添加小擾動(dòng)后,得到編碼向量序列[h1,h2, …,hn]。然后將每個(gè)token的編碼向量放入兩個(gè)線性層“start_FFN”和“end_FFN”,分別得到屬于每個(gè)實(shí)體類別的開(kāi)始向量和結(jié)束向量,其計(jì)算公式分別為

        qi=Wqhi+bq

        (3)

        ki=Wkhi+bk

        (4)

        式中:hi為向量序列;qi、ki分別為開(kāi)始和結(jié)束向量;Wq、Wk為變換矩陣;bq、bk為權(quán)重偏移指數(shù)。

        為了方便推導(dǎo),將省略式(3)和式(4)的偏置項(xiàng)。

        GP將實(shí)體抽取分為兩個(gè)階段,即先判斷某個(gè)token-pair是否是實(shí)體,然后再對(duì)實(shí)體進(jìn)行分類。通過(guò)式(5) 計(jì)算跨度從i到j(luò)連續(xù)片段是一個(gè)類型為的實(shí)體的分?jǐn)?shù)。

        (5)

        (6)

        為了減少參數(shù),可進(jìn)一步將hi表示為[qi;ki],則式(6)可轉(zhuǎn)化為式(7)。

        (7)

        對(duì)于不同的實(shí)體類別,通過(guò)式(7)可以得到每個(gè)span[i:j]的分?jǐn)?shù)sα(i,j),最后的任務(wù)就是從n(n+1)/2個(gè)候選實(shí)體中,選出k個(gè)真實(shí)的實(shí)體,該問(wèn)題是個(gè)多標(biāo)簽分類問(wèn)題。損失函數(shù)的計(jì)算公式為

        (8)

        式(8)中:Pα為所有實(shí)體類型為α的span集合;Qα為非α實(shí)體類型的span集合,i≤j。

        在解碼階段,只有滿足sα(i,j) >0的片段才會(huì)被視為α類型的實(shí)體,并輸出。log以2為底。

        2.3.1 改進(jìn)思路

        (9)

        2.3.2 方法

        使用開(kāi)源中文分詞工具jieba來(lái)獲取文本的分詞標(biāo)簽,將句子進(jìn)行盡可能細(xì)粒度的分詞。例如存在短句“診斷為電機(jī)控制器故障”。基于細(xì)粒度的分詞會(huì)輸出:[診斷][為][電機(jī)][控制器][故障],對(duì)應(yīng)的詞列表word_list為[(0,1), (2, 2), (3, 4), (5, 7), (8, 9)],數(shù)字代表索引位置,從0開(kāi)始。然后通過(guò)遞歸的方式不斷對(duì)相鄰詞進(jìn)行組合從而生成:[診斷][診斷為][電機(jī)控制][控制器][電機(jī)控制器][電機(jī)控制器故障]等,遞歸的盡頭是改句子本身,從而得到中文分詞的真實(shí)標(biāo)簽seg_labels。seg_labels可視化如圖6所示。

        圖6 seg_labels可視化Fig.6 seg_labels visualization

        最后,將中文分詞的真實(shí)標(biāo)簽引入損失函數(shù)的計(jì)算,式(10)為原版GP的損失函數(shù)計(jì)算公式,式(12)為引入分詞信息后的損失函數(shù)計(jì)算公式。

        loss1=loss_fc(all_logits,labels)

        (10)

        loss2=βloss_fc(logits,seg_labels)

        (11)

        loss=loss1+loss2

        (12)

        3 知識(shí)融合

        從非結(jié)構(gòu)化的汽車維修文本中抽取的故障知識(shí)極大概率存在數(shù)據(jù)語(yǔ)義重復(fù)、質(zhì)量不一的問(wèn)題,知識(shí)融合可以將沖突的知識(shí)進(jìn)行融合,以實(shí)現(xiàn)知識(shí)表示的統(tǒng)一,進(jìn)而構(gòu)建高質(zhì)量的知識(shí)圖譜[18]。知識(shí)融合包括兩方面內(nèi)容,分別是實(shí)體消歧和實(shí)體對(duì)齊[19]。

        實(shí)體消歧技術(shù)旨在解決同名不同意的實(shí)體問(wèn)題,因?yàn)檎Z(yǔ)料均為汽車領(lǐng)域文本,因此基本不存在該問(wèn)題。實(shí)體對(duì)齊技術(shù)則是解決同意不同名的實(shí)體問(wèn)題。例如,“發(fā)動(dòng)機(jī)控制模塊”和“發(fā)動(dòng)機(jī)控制器”均表示“發(fā)動(dòng)機(jī)控制單元”這個(gè)實(shí)體。人工撰寫的故障維修報(bào)告大量存在這種用語(yǔ)不規(guī)范、不統(tǒng)一的情況,因此需要對(duì)知識(shí)進(jìn)行規(guī)范化表示。

        采用計(jì)算相似度的方法進(jìn)行實(shí)體對(duì)齊,預(yù)先設(shè)置好閾值,將實(shí)體間相似度大于設(shè)置閾值的實(shí)體進(jìn)行融合,并將二者統(tǒng)一存入同義詞實(shí)體庫(kù),為后續(xù)實(shí)體鏈接做準(zhǔn)備。采用編輯距離和余弦相似度相結(jié)合的方法來(lái)計(jì)算相似度,任一相似度大于閾值則進(jìn)行融合。

        (1)距離編輯相似度。編輯距離(levenshtein distance)是衡量?jī)蓚€(gè)字符串相似程度的常用方法,指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。操作方法包括插入、刪除或者替換字符[20]。其中插入、刪除編輯次數(shù)為1,替換編制次數(shù)為2。距離編輯相似度則根據(jù)式(13)進(jìn)行計(jì)算。

        (13)

        式(13)中:Sle為距離編輯相似度分?jǐn)?shù);D為編輯次數(shù);L為兩實(shí)體總長(zhǎng)度。

        (2) 余弦相似度。余弦相似度Scos是用來(lái)衡量向量空間中的兩個(gè)向量是否接近、相似,其值越接近1,就表明夾角越接近0°,即兩個(gè)向量越相似,其計(jì)算公式為

        (14)

        式(14)中:S1和S2為實(shí)體。

        Sle、Scos值越大就表示二者相似度越高,表1列出了部分實(shí)體相似度計(jì)算實(shí)例。

        表1 實(shí)體相似度計(jì)算實(shí)例Table 1 Example of entity similarity calculation

        4 基于知識(shí)圖譜的智能問(wèn)答

        問(wèn)答系統(tǒng)的作用是通過(guò)將用戶使用自然語(yǔ)言提出的問(wèn)題進(jìn)行語(yǔ)義解析,轉(zhuǎn)化成結(jié)構(gòu)化的查詢語(yǔ)句,進(jìn)而在知識(shí)圖譜中找到答案,并將答案返回給用戶[21]。因此,對(duì)自然問(wèn)句的語(yǔ)義進(jìn)行解析是關(guān)鍵的一步。采用的語(yǔ)義解析模塊如圖7所示。該模塊包括3個(gè)子模塊,分別是實(shí)體識(shí)別、實(shí)體鏈接以及關(guān)系匹配。實(shí)體識(shí)別模塊的作用是識(shí)別自然問(wèn)句中單個(gè)或多個(gè)關(guān)鍵詞,實(shí)體鏈接模塊的作用則是將識(shí)別到的關(guān)鍵詞正確鏈接到知識(shí)圖譜中的實(shí)體詞。關(guān)系匹配則是將自然問(wèn)句中蘊(yùn)含的關(guān)系與知識(shí)圖譜中的實(shí)體間關(guān)系進(jìn)行匹配。

        領(lǐng)域特定語(yǔ)言(domain-specific language,DSL)圖7 語(yǔ)義解析的流程示意圖Fig.7 Schematic diagram of semantic parsing process

        4.1 基于Albert-WSGP的實(shí)體識(shí)別方法

        Albert[22]是輕量版的BERT,其利用詞嵌入?yún)?shù)因式分解和隱藏層間參數(shù)共享技術(shù),在顯著減少模型參數(shù)量的同時(shí),基本沒(méi)有損失模型的性能??梢?jiàn)Albert比BERT更適合部署在線上,因此選擇Albert獲取字符的上下文表示。解碼層則依然使用WSGP,因?yàn)槠淇梢詿o(wú)差別識(shí)別普通實(shí)體和嵌套實(shí)體,并且較CRF效率更高、速度更快。

        4.2 基于字匹配的實(shí)體鏈接方法

        在具體的業(yè)務(wù)場(chǎng)景下,用戶表達(dá)具有多樣性,為提高答案的正確率,需要通過(guò)實(shí)體鏈接將實(shí)體提及與知識(shí)圖譜中的實(shí)體詞進(jìn)行關(guān)聯(lián)。采用第三節(jié)中構(gòu)建的同義實(shí)體庫(kù)進(jìn)行實(shí)體鏈接,并以字匹配的方式鏈接,為提高匹配的準(zhǔn)確性,加權(quán)實(shí)體間相似度和實(shí)體與問(wèn)句相似度,計(jì)算公式為

        (15)

        式(15)中:X為同義詞庫(kù)檢索的候選實(shí)體詞;Y為實(shí)體提及;S為自然問(wèn)句;α、β為參數(shù),分別取0.8和0.2;X∩Y表示X與Y的公共字符;|·|為字符數(shù)量。

        計(jì)算候選實(shí)體詞的分?jǐn)?shù)并按照降序排序,選擇得分最大的實(shí)體詞。

        4.3 基于Albert的關(guān)系匹配

        在知識(shí)圖譜中準(zhǔn)確找到實(shí)體后,可以根據(jù)該實(shí)體匹配關(guān)系。若該實(shí)體詞的關(guān)系存在與自然問(wèn)句意圖一致的關(guān)系,則基于實(shí)體詞及關(guān)系輸出對(duì)應(yīng)的答案。采用Albert進(jìn)行匹配,構(gòu)造關(guān)系數(shù)據(jù)集對(duì)該模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型部署到問(wèn)答系統(tǒng)。該結(jié)構(gòu)如圖8所示,模型可簡(jiǎn)化為式(16)、式(17)。

        qt為自然問(wèn)句的字符;at為實(shí)體詞及其關(guān)系的字符;[CLS]用于輸入的待匹配文本的語(yǔ)義表示;[SEP]為分隔符;Softmax為歸一化指數(shù)函數(shù);FNN為全連接層;E[CLS]為[CLS]的字符表示的語(yǔ)義編碼圖8 關(guān)系匹配的模型結(jié)構(gòu)圖Fig.8 Model structure diagram of relationship matching

        E=Albert([CLS],q1,q2,…,[SEP],
        a1,a2,…,[SEP])

        (16)

        p=Softmax(WeE[CLS]+be)

        (17)

        式中:qt為自然問(wèn)句的字符,t=1,2,…;at為實(shí)體詞及其關(guān)系的字符;[CLS]用于輸入的待匹配文本的語(yǔ)義表示;[SEP]為分隔符;be為權(quán)重偏移指數(shù);使用Albert模型內(nèi)部的注意力機(jī)制進(jìn)行交互,得到字符的向量表示E;使用Softmax進(jìn)行分類;We為全連接層FFN的網(wǎng)絡(luò)參數(shù);E[CLS]為[CLS]的字符表示的語(yǔ)義編碼;p為分類結(jié)果。

        5 實(shí)驗(yàn)及知識(shí)圖譜的創(chuàng)建與應(yīng)用

        5.1 汽車故障數(shù)據(jù)準(zhǔn)備

        以爬蟲的方式從精通維修網(wǎng)獲取汽車維修案例,對(duì)獲取的案例進(jìn)行清洗和整理,得到2 000個(gè)案例,并對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,作為實(shí)驗(yàn)數(shù)據(jù)集,取訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為8∶1∶1。實(shí)體類別如表2所示,其中故障現(xiàn)象、故障原因以及解決方法實(shí)體中嵌套有零部件實(shí)體。

        表2 汽車故障文本命名實(shí)體分類Table 2 Example of entity similarity calculation

        5.2 實(shí)體環(huán)境及實(shí)驗(yàn)參數(shù)

        本實(shí)驗(yàn)環(huán)境及配置如表3所示。

        表3 環(huán)境配置Table 3 Environment configuration

        5.3 模型評(píng)估

        實(shí)驗(yàn)采用3個(gè)評(píng)價(jià)指標(biāo),分別是精確率(precision,記為P)、召回率(recall,記為R)以及P、R的調(diào)和平均數(shù)F1值(記為F1)[23],計(jì)算公式為

        (18)

        (19)

        (20)

        式中:TP為正確識(shí)別的個(gè)數(shù);FP為將不正確識(shí)別為正確的個(gè)數(shù);FN為數(shù)據(jù)集中存在但未被識(shí)別出來(lái)的個(gè)數(shù)。

        5.4 實(shí)驗(yàn)結(jié)果及分析

        本實(shí)驗(yàn)分析比較了AT-RWSGF模型與BERT-CRF、BERT-MRC、BERT-BinaryPointer(BERT-BP)[24]以及BERT-GP模型在汽車維修數(shù)據(jù)集上的實(shí)體識(shí)別效果,其結(jié)果如表4所示。

        表4 各模型的評(píng)價(jià)結(jié)果Table 4 Evaluation results of each model

        從表4可以看出,所提AT-RWSGP模型在汽車維修數(shù)據(jù)集上取得F1為93.73%的成績(jī)。相對(duì)于BERT-GP而言,本文模型F1提高了3.56%。這是因?yàn)楸疚哪P蛯⒅荒茏盅诖a的BERT替換為擁有全詞掩碼機(jī)制的RoBERTa-wwm,提高了模型學(xué)習(xí)詞級(jí)表征的能力;其次,本文模型還增加了對(duì)抗訓(xùn)練,該舉措有助于提高模型的魯棒性和泛化性;最后,本文模型對(duì)GP進(jìn)行改進(jìn),引入中文分詞信息,可以提升模型實(shí)體識(shí)別性能。而基于序列標(biāo)注的經(jīng)典模型BERT-CRF表現(xiàn)最差,F1只有71%,說(shuō)明BERT-CRF模型不適合用于嵌套命名實(shí)體識(shí)別。

        為了評(píng)估RoBERTa-wwm、對(duì)抗訓(xùn)練模塊以及WSGP的有效性,設(shè)計(jì)如下4組實(shí)驗(yàn)進(jìn)行對(duì)比,模型分別為BERT-GP、RoBERTa-wwm-GP、BERT-AT-GP以及BERT-WSGP。各模型在汽車維修數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表5所示。

        表5 不同組件對(duì)模型性能的影響Table 5 Effect of different components on model performance

        從表5可以看出,將BERT-GP中的BERT換成替換為RoBERTa-wwm后,在汽車維修數(shù)據(jù)集上的F1提升了2.05%,說(shuō)明RoBERTa-wwm模型增加全詞掩碼機(jī)制的措施可以提升汽車維修文本的嵌套命名實(shí)體識(shí)別效果。在BERT-GP基礎(chǔ)上加上對(duì)抗訓(xùn)練,在汽車維修數(shù)據(jù)集上的F1提升了1.45%,這體現(xiàn)了通過(guò)向訓(xùn)練數(shù)據(jù)添加小擾動(dòng)的方式能使模型的魯棒性得到提高,進(jìn)而增強(qiáng)模型的實(shí)體識(shí)別能力。而WSGP相比GP表現(xiàn)也更好,其F1提高了1.78%,可見(jiàn)通過(guò)引入中文分詞可以提升模型的實(shí)體識(shí)別效果。

        5.5 知識(shí)圖譜構(gòu)建與應(yīng)用

        抽取到實(shí)體及其關(guān)系后,需要依托相關(guān)工具將這些知識(shí)構(gòu)建成知識(shí)圖譜。Neo4j是一個(gè)開(kāi)源圖形數(shù)據(jù)庫(kù),與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,Neo4j可以直觀地表示各節(jié)點(diǎn)之間的語(yǔ)義關(guān)系。此外,Neo4j還具有查詢便捷和更新維護(hù)方便等優(yōu)點(diǎn)。因此,選擇Neo4j作為構(gòu)建知識(shí)圖譜的工具。如圖9所示,選取部分內(nèi)容進(jìn)行可視化展示。

        GL8為別克GL8車型;A6L為奧迪A6L車型;VTEC為本田的可變氣門正時(shí)和升程電子控制系統(tǒng)圖9 汽車故障知識(shí)圖譜可視化展示Fig.9 Visual display of automobile fault knowledge graph

        汽車故障知識(shí)圖譜通過(guò)構(gòu)建故障現(xiàn)象、故障原因以及解決方法等信息之間的關(guān)聯(lián)關(guān)系,依托知識(shí)圖譜強(qiáng)大的語(yǔ)義網(wǎng)絡(luò),可以進(jìn)行圖譜可視化,還可依靠智能問(wèn)答系統(tǒng),理解用戶輸入的自然語(yǔ)言問(wèn)題,并返回正確的答案和相關(guān)問(wèn)題推薦。

        以新能源汽車中典型實(shí)例“車輛儀表EV功能受限和請(qǐng)檢查低壓系統(tǒng)是什么原因”進(jìn)行系統(tǒng)演示,在系統(tǒng)的右上角搜索框內(nèi)輸入“車輛儀表EV功能受限和請(qǐng)檢查低壓系統(tǒng)是什么原因”的自然問(wèn)句,系統(tǒng)首先識(shí)別實(shí)體,得到實(shí)體提及“儀表報(bào)EV功能受限”和“請(qǐng)檢查低壓系統(tǒng)”。接著進(jìn)行實(shí)體鏈接,輸出標(biāo)準(zhǔn)名“EV功能受限”“請(qǐng)檢查低壓系統(tǒng)”以及候選的關(guān)系。通過(guò)意圖分類得到關(guān)系“故障原因”,然后將語(yǔ)義解析得到的信息轉(zhuǎn)換成Cypher查詢語(yǔ)句,在知識(shí)圖譜中進(jìn)行檢索,并將輸出答案和圖譜可視化,在本例中可以看出,故障原因“PTC互鎖插頭松動(dòng)”和“OBC內(nèi)部損壞”為故障現(xiàn)象“請(qǐng)檢查低壓系統(tǒng)”和“EV功能受限”的共同原因,以可視化的方式可以通俗易懂地展示出這個(gè)信息,效果如圖10所示。

        6 結(jié)論

        基于汽車故障文本,提出一種嵌套命名實(shí)體識(shí)別模型AT-RWSGP。該模型通過(guò)RoBERTa-wwm獲得輸入信息的向量表示,并引入對(duì)抗訓(xùn)練機(jī)制,最后使用WSGP進(jìn)行解碼。構(gòu)建汽車故障知識(shí)圖譜后,實(shí)現(xiàn)了基于知識(shí)圖譜的汽車維修知識(shí)問(wèn)答原型系統(tǒng)。通過(guò)實(shí)驗(yàn)和知識(shí)圖譜應(yīng)用分析后得到以下結(jié)論。

        (1)所提基于AT-RWSGP的嵌套命名實(shí)體識(shí)別模型可以提高汽車維修領(lǐng)域嵌套命名實(shí)體識(shí)別效果。

        (2)利用本文模型構(gòu)建一定數(shù)據(jù)規(guī)模的汽車故障知識(shí)圖譜,可以為智能問(wèn)答等應(yīng)用提高知識(shí)支持。

        (3)知識(shí)圖譜技術(shù)在汽車故障診斷領(lǐng)域具有良好的應(yīng)用前景。

        猜你喜歡
        汽車文本故障
        故障一點(diǎn)通
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        汽車的“出賣”
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        汽車們的喜怒哀樂(lè)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        故障一點(diǎn)通
        江淮車故障3例
        3D 打印汽車等
        決策探索(2014年21期)2014-11-25 12:29:50
        日本高清www无色夜在线视频| 久草福利国产精品资源| 国产成人亚洲精品无码青| 亚洲欧美成人一区二区在线电影| 国产高潮精品久久AV无码 | 国内精品少妇久久精品| 性欧美丰满熟妇xxxx性久久久| 国产做a爱片久久毛片a片| 免费高清日本中文| 久久精品国产亚洲av试看 | 国产在线看不卡一区二区| 国产免费av手机在线观看片| 亚洲欧美一区二区三区在线| 久久狠狠高潮亚洲精品暴力打| 亚洲av毛片一区二区久久| 韩国av一区二区三区不卡| 久青草久青草视频在线观看| 日本少妇按摩高潮玩弄| 精品一区二区三区国产av| 久久久久久欧美精品se一二三四 | 大胸少妇午夜三级| 久久国产自偷自免费一区100| 日本最新一区二区三区视频 | 五十路熟久久网| 亚洲av第一区综合激情久久久 | 国产女人体一区二区三区| 久久精品熟女亚洲av麻豆永永| 麻豆精品久久久久久中文字幕无码| 99精品电影一区二区免费看| 中文字幕五月久久婷热| 国产一区二区三区久久悠悠色av| 男人激烈吮乳吃奶视频免费| 国产国拍亚洲精品永久不卡| 国产黄色一区二区三区,| 中文字幕亚洲综合久久菠萝蜜| 国产做无码视频在线观看浪潮| 日韩精品人妻少妇一区二区| 中文字幕一区二区三区视频| 丰满人妻被黑人中出849| 一区二区三区国产高潮| 中文字幕有码人妻在线|