亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)控機床設備故障領域的命名實體識別

        2020-06-08 14:40:10朱文球吳岳忠何頻捷萬爛軍
        工程科學學報 2020年4期
        關鍵詞:故障設備實驗

        王 歡,朱文球,吳岳忠?,何頻捷,萬爛軍

        1) 湖南工業(yè)大學計算機學院,株洲 412008 2) 湖南省智能信息感知及處理技術重點實驗室,株洲 412008

        隨著智能制造的快速發(fā)展和云計算[1?2]時代的到來,“互聯(lián)網(wǎng)+工業(yè)”成為了學者研究的重點,工業(yè)設備智能化對數(shù)控機床設備的檢修與診斷提出了嚴峻挑戰(zhàn). 數(shù)控機床設備智能檢修與實時診斷是保障數(shù)控機床設備安全、穩(wěn)定、經(jīng)濟運行的重要手段,是實現(xiàn)數(shù)控機床智能制造的關鍵. 數(shù)控機床設備智能檢修與實時診斷是通過整合海量、多源、異構的設備檢修大數(shù)據(jù),利用自然語言處理、語義匹配、知識圖譜構建等技術對工業(yè)設備故障現(xiàn)象進行全面診斷,實現(xiàn)設備檢修、診斷的智能化管理;數(shù)控機床設備故障命名實體的識別作為圖譜識別、自然語言處理、語義匹配等復雜任務的基礎工作,對數(shù)控機床設備智能檢修與實時診斷起著至關重要的作用. 為了提高命名實體識別系統(tǒng)的性能,為數(shù)控機床故障精準診斷提供保障,延長數(shù)控機床的使用周期,本文對數(shù)控機床設備故障領域的命名實體識別方法展開了研究,通過提高命名實體識別效果為后續(xù)數(shù)控機床智能檢修和故障診斷工作打下了堅實的基礎,進而防止意外故障帶來的毀滅性事故和經(jīng)濟損失.

        淺層機器學習和深度學習[3]是通用領域的兩種常用方法. 淺層機器學習方法包括隱馬爾可夫模型[4]、最大熵模型[5]和條件隨機場[6](Conditional random fields, CRF)等. 俞鴻魁等[7]在雙層隱馬爾可夫模型上進行實體識別,將不同的命名實體的識別結果融合到同一個理論模型中,提高了F值;何炎祥等[8]提出CRF+特定規(guī)則模型,提高了召回率,改善了對實體識別的效果;王路路等[9]針對維吾爾命名實體提出了半監(jiān)督學習方法,減少了對人工特征提取的依賴.

        近年來,命名實體的研究熱點已從傳統(tǒng)的機器學習方法轉(zhuǎn)移到深度學習方法. 與傳統(tǒng)的機器學習方法相比,深度學習速度更快、泛化性更強,并且可以讓計算機自主學習得到模式特征,將其融入實驗模型從而減少對人工特征的依賴,因此使用深度學習進行命名實體識別的識別性能更好. Hochreiter與Schmidhuber[10]提出了一種通過門限機制對歷史信息進行過濾的LSTM,解決了循環(huán)網(wǎng)絡中的梯度消失問題,但是LSTM只能獲取下文信息而無法獲取上文信息. Graves與Schmidhuber[11]構建了BLSTM模塊,可以在輸入的方向獲得長時的上下文信息. 楊紅梅等[12]提出了BLSTM-CRF命名實體識別模型,使標簽結果更為合理. Lin等[13]提出了多通道BILSTM-CRF模型在社交媒體中的新興命名實體識別方法. Bharadwaj等[14]在BILSTMCRF模型上加入了音韻特征和attention機制,對有效的字符關注度更高;Li等[15]針對包裝專業(yè)領域語料匱乏的特點,提出了一個多層神經(jīng)網(wǎng)絡模型進行包裝領域的命名實體識別,該模型可以自動學習分布式單詞特征和部分語音特征,實現(xiàn)NER包裝產(chǎn)品技術;易士翔等[16]針對公共安全事件的觸發(fā)詞識別任務提出BLSTM與前向神經(jīng)網(wǎng)絡相結合的模型,在突發(fā)事件語料庫上取得了較好的識別效果.

        盡管通用領域深度學習的命名實體識別方法取得了較好的成果,但在數(shù)控機床領域中依然存在不足. 陳秋瑗等[17]提出了一種基于緊密度的命名實體識別,使用邏輯回歸方法來計算相鄰字串之間的緊密程度,提高了機械領域新詞的準確率.在數(shù)控機床領域,學者對數(shù)控機床設備故障實體識別的研究較少,現(xiàn)有的研究主要針對數(shù)控機床特定部件存在的故障[18?19];數(shù)控機床的歷史維修記錄是由工作人員撰寫的描述數(shù)控機床異常的信息,該記錄包括設備名稱、故障描述、故障原因以及處理過程,這些都是數(shù)控機床的重要數(shù)據(jù),自動抽取這些信息能夠更加高效、精準的收集案例支持智能檢修問答系統(tǒng),而歷史維修記錄的重復利用主要受數(shù)據(jù)結構化程度的影響,因而對數(shù)據(jù)進行命名實體識別至關重要.

        目前數(shù)控機床故障領域的實體識別存在以下幾個難點[20]:第一,沒有基于數(shù)控機床領域的語料庫;第二,沒有數(shù)控機床故障領域的命名實體標注語料;第三,數(shù)控機床故障描述過于口語化,同一故障存在多種不同的描述. 針對以上難點本文提出了一種基于雙向長短期記憶網(wǎng)絡與具有回路的條件隨機場相結合的命名實體識別方法BLSTML-CRF,首先使用Word2vec[21]對數(shù)據(jù)集進行預訓練獲取字向量,字向量通過詞嵌入層得到字向量序列,然后將字向量序列輸入BLSTM層,經(jīng)過BLSTM層處理捕獲每個字對應的每個標簽的分數(shù),最后將得到的標簽分數(shù)輸入L-CRF層,并通過L-CRF層獲得全局最優(yōu)序列. 與BLSTM-CRF相比,采用具有回路的CRF,約束性更好、識別效果更佳.

        1 命名實體識別模型

        1.1 BLSTM模塊

        長短時記憶網(wǎng)絡(Long-short term memory,LSTM)是一種改進后的循環(huán)網(wǎng)絡. 與傳統(tǒng)循環(huán)網(wǎng)絡相比,LSTM多了一個用來儲存長距離信息的單元狀態(tài),解決了梯度過長而產(chǎn)生的梯度彌散問題;LSTM重復模塊構造不同,包含了四個交互層并以一種十分特別的形式進行交互;LSTM中特殊設計的門結構使得模型能夠決定丟棄信息、確定更新細胞、更新細胞狀態(tài). LSTM的單元結構中內(nèi)部參數(shù)可表達為:

        LSTM有四個輸入和一個輸出,輸入處都經(jīng)過激活函數(shù),sigmoid和tanh是LSTM的兩個激勵函數(shù),激活函數(shù)σ使用的是sigmoid函數(shù),值在0到1之間,用以模擬門打開、關閉的效果.it、ft、ot分別表示t時刻輸入門、忘記門、輸出門的輸出,Ct表示t時刻狀態(tài)向量;為連接兩層的權重矩陣,Wi、Wf、Wo分別表示輸入門、忘記門、輸出門的權重矩陣,Wc表示細胞狀態(tài)下對于輸入的權重矩陣;b為 偏置向量,分別表示隱藏層的輸入門、忘記門、輸出門及細胞狀態(tài)的偏置向量;xt為t時刻輸入層的輸入向量,ht、ht?1分別為t時刻、t?1時刻的輸出,其最終結果是一個高維實向量. LSTM的實驗包括三步,首先,通過忘記門決定丟棄信息;然后,通過輸入門確定更新的信息;最后,采用sigmoid函數(shù)得到細胞狀態(tài)的輸出,將輸出結果與tanh相乘最終確定輸出的信息.

        LSTM僅獲取了文本的過去的信息,但對數(shù)控機床設備故障命名實體識別任務而言,設備故障描述的前后幾個詞對預測結果都有很大的影響,獲取上下文信息對數(shù)控機床設備故障的命名實體識別任務有很大的幫助. 為了獲取上下文信息,本文采用了雙向LSTM(BLSTM)結構,BLSTM由前向的LSTM與后向的LSTM拼接而成. BLSTM對每個句子分別采用正向和反向計算,運用向量拼接將得到的兩種結果進行向量拼接從而獲得最后的隱層表示. BLSTM結構如圖1所示.

        圖 1 BLSTM模型結構Fig.1 BLSTM model structure

        1.2 L-CRF模塊

        條件隨機場是Lafferty等[22]提出的一種新的概率圖模型,該模型能從訓練集數(shù)據(jù)中學習約束,從而獲得了全局最優(yōu)序列,同時解決了最大熵模型中存在的標注偏置問題.

        線性鏈結構的CRF是最常見的CRF,它根據(jù)不同應用模式下CRF中的變量關系描繪出不同的圖形. 例如,可以選擇樹狀條件隨機場[23]描繪具有階層關系的變量. 針對數(shù)控機床歷史維修記錄中同一故障存在多種描述的特點,本文采用LCRF[24]架構來獲取最優(yōu)序列,與傳統(tǒng)的CRF相比,L-CRF能夠獲取過去及未來時間點的信息,使得到的序列準確率更高,L-CRF架構如圖2所示.

        圖 2 L-CRF架構圖Fig.2 L-CRF architecture diagram

        該架構圖中,輸入值與輸出值過去與未來的時間點包含在相互影響的關系中,因而形成具體回路的圖形架構. 為了能按照標準方法來推導模型,按照構建聯(lián)合樹的步驟來檢視圖形,根據(jù)圖2建構了一個聯(lián)合樹,通過對各時間點的聯(lián)合樹進行組合得到與L-CRF架構對應的聯(lián)合樹,如圖3所示,圖中圓節(jié)點代表團結點而方形節(jié)點代表分割結點.

        將圖形模型所代表的聯(lián)合概率分布拆解成:

        定義H為輸入序列,Y為一個聯(lián)合樹所有接口的集合,N為序列的長度;d(y)為與接口相鄰的子圖個數(shù). 并且將μ(ht,yt,yt+1)、μ(ht+1,yt,yt+1)、μ(yt,yt+1)和μ(ht+1,yt+1)分別定義為:

        圖 3 L-CRF架構所形成的聯(lián)合樹Fig.3 Joint tree formed by L-CRF architecture

        當計算正規(guī)化項Z時,可用以下的方法計算邊界分布P(H):

        1.3 BLSTM-L-CRF模型

        數(shù)控機床故障描述存在不同的表達方式,例如:發(fā)動機中的螺絲滑牙、發(fā)動機中的螺釘滑牙、發(fā)動機中的螺釘滑絲和發(fā)動機中的螺絲滑牙都是指同一故障,在命名實體識別中易產(chǎn)生歧義,為了解決上述挑戰(zhàn),本文使用BLSTM-L-CRF模型進行命名實體識別. 在實驗中,將實體分為設備和實體兩類,用“Dev”表示設備,“Fau”表示故障. 首先根據(jù)BIO標注法對實體的定義進行標記,即“B-Dev”表示設備實體首字,“I-Dev”表示設備實體非首字部分,“B-Fau”表示故障實體首字,“I-Fau”表示故障實體非首字部分,“O”表示非實體部分,因此定義標簽集合為(B-Fau、I-Fau、B-Dev、I-Dev、O).然后使用jieba分詞對輸入語句進行分詞,分詞后進行序列標注,以“發(fā)動機中螺釘滑牙”為例進行序列標注,其中發(fā)動機、螺釘是設備,滑牙是故障現(xiàn)象,標注后結果如表1所示.

        表 1 句子序列標注方法Table 1 Sentence sequence labeling method

        獲得標注語料后使用Word2vec進行預訓練獲取字向量,在詞嵌入層將其結果轉(zhuǎn)化為字向量序列X,作為BLSTM層的輸入.t時刻序列正向輸入BLSTM中得到的隱層輸出為,逆向輸入得到的隱層輸出為,將兩者拼接得到的包含上下文字向量.

        通過BLSTM輸出的上下文特征信息ht,得到有效的輸出序列y=(y0,y1,y2,···,yn),僅僅通過這樣的方法進行分類還存在不足之處,序列標注問題一般具有較強的依賴關系,每個字的標簽序列存在一定的局限性,例如:標簽“B-Dev”作為設備實體的首字部分,后面接的應該是“I-Dev”,而不應該“I-Fau”. 只有BLSTM層是不夠的,針對此問題,本文在BLSTM層加上處理標注序列的L-CRF.

        由于輸入值與輸出值之間存在過去與未來的時間點,從而相互影響,為此提出了具有回路的條件隨機場(L-CRF),L-CRF序列用來研究句子級別的序列特征,將BLSTM層的輸出結果輸入LCRF層,L-CRF層對其結果添加約束,從所有可能的標簽序列空間中選出最佳序列路徑,獲得全局最優(yōu)序列. 本文的BLSTM-L-CRF模型架構如圖4所示.

        BLSTM-L-CRF算法流程如下:

        2 實驗設計與結果分析

        2.1 實驗數(shù)據(jù)集

        為了對BLSTM-L-CRF模型進行有效的評估,本文以某工廠獲取歷年的數(shù)控機床歷史故障維修記錄作為數(shù)據(jù)集,對數(shù)據(jù)進行了清洗和整理,共獲得17485條設備故障數(shù)據(jù). 數(shù)據(jù)集按照6∶2∶2的比例進行劃分,即訓練集10491條,驗證集3497條,測試集3497條.

        2.2 實驗參數(shù)設置

        Word2vec是指將語言單詞嵌入到向量空間從而得到詞向量,即該實驗中的標注語料通過訓練模型轉(zhuǎn)換為向量形式. Skip-gram和CBOW是Word2vec的兩種常用模型,文獻[25]對兩種模型進行對比實驗得出以下結論:當實驗訓練語料較少時,Skip-gram模型效果更好,當語料較多時則選用CBOW模型效果更好. 本文采用Skip-gram模型結合數(shù)控機床歷史維修數(shù)據(jù)集預訓練字向量,通過對比實驗獲得最優(yōu)參數(shù),如表2所示.

        為了確定BLSTM-L-CRF模型的參數(shù),通過更改源代碼中的迭代次數(shù)進行對比實驗發(fā)現(xiàn),迭代次數(shù)為100時識別效果最好. 通過采用不同的Dropout的值對模型進行了交叉驗證,結果表明Dropout 值為0.68時達到最好的識別效果. BLSTML-CRF模型參數(shù)如表3所示.

        2.3 評價標準及結果分析

        本文采用信息檢索通用的評價方法作為評價標準,即準確率(Precision)、召回率(Recall)和F-測度值(F-measure,指精確度和召回率的調(diào)和平均,簡稱F). 定義如下:

        其中,n為正確識別的實體個數(shù),M為識別出的實體總數(shù),N為標準結果中的實體個數(shù). 根據(jù)準確率、召回率和F值三個指標對模型的性能進行全面的評價.

        對人民日報1998年1月份的新聞標注語料、MARA語料和玻森NLP語料分別進行實驗,分析了該方法的可行性,不同數(shù)據(jù)集的識別效果如表4所示.

        從實驗結果可知,該模型在不同數(shù)據(jù)集上是可行的,具有有效性.

        使用不同模型在數(shù)控機床設備故障數(shù)據(jù)上進行對比實驗,不同模型下數(shù)控機床設備故障命名實體識別的識別效果如表5所示.

        圖 4 BLSTM-L-CRF模型Fig.4 BLSTM-L-CRF model

        對比L-CRF模型與其他模型的實驗結果發(fā)現(xiàn),L-CRF模型的準確率高,但是單一的L-CRF模型的召回率和F值都比較低;通過對比BLSTM-LCRF模型與其他模型的實驗結果,發(fā)現(xiàn)該模型的準確率、召回率和F值都是最優(yōu)的. 在數(shù)控機床故障診斷領域,故障歷史維修記錄中的故障描述語言的上下文之間關聯(lián)密切,BLSTM能夠獲取上下文語義信息,L-CRF包含過去和未來時間點的信息,對一個序列而不是某個時刻的輸出進行了優(yōu)化,使得標簽結果順序更合理,都適用于數(shù)控機床領域,由實驗結果可知兩種模型組合是本實驗的最佳模型.

        表 2 Word2vec的Skip-gram模型參數(shù)表Table 2 Parameter list of Skip-gram model in Word2vec

        表 3 BLSTM-L-CRF模型參數(shù)表Table 3 BLSTM-L-CRF model parameter table

        表 4 不同數(shù)據(jù)集在BLSTM-L-CRF模型中的識別結果Table 4 Experiment result of BLSTM-L-CRF models in different data set

        表 5 BLSTM-L-CRF與其他模型綜合性能對比Table 5 Comparison of performance of BLSTM-L-CRF and other models

        3 結論

        (1)通過對CRF進行改進,提出L-CRF,對上下文之間的關聯(lián)進行更精準地推斷,通過對比實驗發(fā)現(xiàn),L-CRF得到的序列更合理,命名實體識別效果更好.

        (2)通過使用BLSTM-L-CRF模型對不同語料進行實驗,發(fā)現(xiàn)該模型在不同數(shù)據(jù)集上都是可行的;使用不同模型對數(shù)控機床數(shù)據(jù)集進行命名實體識別工作,發(fā)現(xiàn)文章所提出的BLSTM-L-CRF模型識別性能最好. 為了防止過擬合,在模型中加入dropout,通過調(diào)整dropout值對實驗模型進行對比實驗,發(fā)現(xiàn)dropout為0.68時,防止過擬合的效果最好.

        (3)提出采用BLSTM-L-CRF模型來提高命名實體識別的準確率,在BLSTM層獲取當前詞語的上下文信息,在L-CRF層對輸入信息進行解碼,利用過去和未來時間點的信息獲取最優(yōu)標注序列,該模型在數(shù)控機床設備及故障的命名實體識別上取得了較好的結果. 后續(xù)將進一步完善語料庫,并對數(shù)控機床設備及故障進行實體關系抽取.

        猜你喜歡
        故障設備實驗
        記一次有趣的實驗
        諧響應分析在設備減振中的應用
        故障一點通
        做個怪怪長實驗
        基于MPU6050簡單控制設備
        電子制作(2018年11期)2018-08-04 03:26:08
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        奔馳R320車ABS、ESP故障燈異常點亮
        500kV輸變電設備運行維護探討
        故障一點通
        亚洲精品国产精品av| 人妻系列无码专区久久五月天| 猫咪www免费人成网最新网站| 国产精品国产三级国产AvkTV| 免费视频亚洲一区二区三区| 欧洲女人与公拘交酡视频| 四川丰满少妇被弄到高潮| 国产精品黑色丝袜在线播放| 亚洲国产一区二区,毛片| 免费a级毛片无码a∨蜜芽试看| 啪啪无码人妻丰满熟妇| 无码一区久久久久久久绯色AV| 国产一区二区三区不卡在线播放 | 一本色道久久综合中文字幕| 视频女同久久久一区二区| 国产精品久久久久免费观看| 亚洲 欧美 影音先锋| 第九色区Aⅴ天堂| 中文字幕女同人妖熟女| 亚洲日韩欧美一区、二区| 先锋影音av资源我色资源| 久久婷婷免费综合色啪| 男女av免费视频网站| 亚洲国产精品ⅴa在线观看| 中文字幕不卡在线播放| 日本人妻系列一区二区| 尹人香蕉久久99天天拍| 亚洲男同志网站| 亚洲欧洲日产国码久在线| 国产亚洲中文字幕一区| 久久久亚洲av成人网站 | 久久亚洲av成人无码电影a片 | 绝顶潮喷绝叫在线观看| 东京热久久综合久久88| 狼人av在线免费观看| 青青手机在线观看视频| 在线观看免费人成视频色9| 极品诱惑一区二区三区| 91精品国产九色综合久久香蕉 | 中文字幕亚洲好看有码| av黄色大片久久免费|