亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向工藝操作說明文本的命名實體深度學習識別方法

        2019-11-12 05:02:00張娜娜王裴巖張桂平
        計算機應(yīng)用與軟件 2019年11期
        關(guān)鍵詞:特征工藝文本

        張娜娜 王裴巖 張桂平

        (沈陽航空航天大學計算機學院 遼寧 沈陽 110136)(遼寧省知識工程與人機交互工程技術(shù)研究中心 遼寧 沈陽 110136)

        0 引 言

        命名實體識別[1](Named Entity Recognition,NER)也稱為專名識別,是自然語言處理(Nature Language Processing,NLP)中的一項基礎(chǔ)任務(wù),是正確理解文本的基礎(chǔ)[2]。其在通用領(lǐng)域中的研究已經(jīng)相對成熟,如在新聞?wù)Z料中,人名、地名和機構(gòu)名的識別已經(jīng)取得了較好的效果[3]。相比通用領(lǐng)域,專業(yè)領(lǐng)域中命名實體的識別往往以該領(lǐng)域的知識為依據(jù),兼顧其語言規(guī)律特性,使得專業(yè)領(lǐng)域的命名實體識別具有一定的難度。在飛機裝配工藝中,工藝操作說明文本是用于指導(dǎo)飛機裝配過程中的工藝描述文件。

        面向工藝操作說明文本的命名實體包括工程圖紙、參考標準、結(jié)構(gòu)特征、零件和零件號、屬性和屬性值等11種,其中零件和零件號屬于復(fù)雜實體,是本文識別工作的難點。由于飛機裝配精度要求很高,該文本所涉及的零件總類眾多且構(gòu)成結(jié)構(gòu)復(fù)雜,此類命名實體的長度沒有一定的限制。例如由單個詞的“螺栓”、“高鎖螺栓”到詞和相關(guān)符號組成的“5/32高鎖螺栓”。由于零件的種類眾多,其對應(yīng)的零件號也是多樣,零件號存在簡寫問題,如:“-002”。零件和零件號在工藝操作說明文本中所占的比重較大且表達方式復(fù)雜多樣,并且零件本身沒有嚴格的構(gòu)詞規(guī)律可循。

        針對以上問題,本文提出了一種面向工藝操作說明文本的命名實體識別方法。首先基于BiLSTM-CRF-BERT模型對該文本中的相關(guān)實體進行初始識別;然后利用基于詞典的方法先對零件進行校正;最后,在上述基礎(chǔ)上,充分利用零件和零件號的外部信息,用基于規(guī)則的方法對零件和零件號進行校正。該方法降低了僅使用BiLSTM-CRF-BERT模型對大規(guī)模語料的依賴性,有效地提高了零件和零件號的識別效果。

        1 相關(guān)研究

        命名實體識別是指識別出文本中具有特定意義或者指代性強的短語,并對其進行分類。早期的命名實體包括三大類,即實體類、時間類和數(shù)字類,這三大類又可以進一步細分為人名、地名、組織機構(gòu)名、時間、日期、貨幣和百分比七小類[4]。但隨著科學技術(shù)和社會的快速發(fā)展,命名實體識別的應(yīng)用范圍在不斷擴大,從通用領(lǐng)域逐漸擴展到專業(yè)領(lǐng)域,針對不同領(lǐng)域內(nèi)的不同問題,命名實體的種類也越來越多,不再局限于上述幾類范圍。

        傳統(tǒng)的命名實體識別的主要技術(shù)方法分為:基于詞典和規(guī)則的方法、基于統(tǒng)計的機器學習方法以及上述兩者相合的方法等。

        基于詞典的方法最早應(yīng)用到命名實體識別任務(wù)中,是最簡單的一種方法。在識別過程中,使用完全匹配或者模糊匹配這兩種詞典匹配方式在所構(gòu)建的詞典中查找字符串。Yang等[5]使用了基于詞典的方法,采用改進編輯距離來進行詞典匹配,在JNLPBA2004語料集上達到了53.68%的綜合分類率。該方法雖然簡單,但是由于詞典的容量有限,不能有效識別未登錄詞,總體識別的效果在很大程度上受限于詞典的規(guī)模和質(zhì)量。

        基于規(guī)則的方法多采用領(lǐng)域?qū)<沂止?gòu)造的規(guī)則模板,選用統(tǒng)計信息、標點符號、關(guān)鍵字、指示詞和方向詞、中心詞、詞性、詞形等特征,以模式匹配和字符串相匹配為主要手段來識別文本中的實體。Olsson等[6]構(gòu)建的基于規(guī)則的系統(tǒng)獲得了67.1%的綜合分類率?;谝?guī)則的方法往往依賴于具體語言、領(lǐng)域和文本風格,編制過程耗時且難以涵蓋所有的語言現(xiàn)象。同時這些實體并非按照一定規(guī)則來命名,很難建立一套一致的規(guī)則,系統(tǒng)可移植性不好,對于不同的系統(tǒng)需要語言學專家重新書寫不同的規(guī)則。

        在基于統(tǒng)計的機器學習方法中,命名實體識別被當作序列標注問題,即利用大規(guī)模的語料學習出標注模型,從而對句子的各個位置進行標注。常用的統(tǒng)計機器學習方法有:支持向量機模型[7](Support Vector Machines,SVM)、隱馬爾可夫模型[8](Hidden Markov Model,HMM)、最大熵隱馬爾可夫模型[9](Maximum Entropy Markov Model,MEMM)、條件隨機場模型[10](Conditional Random Fields,CRFs)等,其中條件隨機場模型的表現(xiàn)優(yōu)于其他統(tǒng)計機器學習模型。同以往的方法相比,基于統(tǒng)計機器學習的方法在系統(tǒng)健壯性、遷移性、識別效果等方面表現(xiàn)更好。但單獨使用基于統(tǒng)計機器學習的方法會使得狀態(tài)搜索空間非常龐大,其主要存在以下兩個缺點:(1) 對特征選取的要求較高,需要從文本中選擇出對該項任務(wù)有影響的各種特征,并將這些特征加入到特征向量中,該過程耗時耗力;(2) 對語料庫的依賴比較大,而可以用來建立和評估命名實體識別系統(tǒng)的大規(guī)模通用語料庫又比較少。

        兩者相結(jié)合的方法是指在基于統(tǒng)計的機器學習方法中引入規(guī)則或者加入詞典信息,是近年來解決命名實體識別任務(wù)的主流方法之一。文獻[11]提出了一種CRF與規(guī)則相結(jié)合的方法來實現(xiàn)維吾爾文地名的識別。首先采用CRF的適應(yīng)性優(yōu)勢對維吾爾文地名進行初始識別,然后利用規(guī)則對初始識別錯誤的實體進行后處理。雖然兩者相結(jié)合的方法比上述方法單獨使用時,具有較好的準確性及魯棒性,但是該方法的算法復(fù)雜度較高,并且在面對大規(guī)模多領(lǐng)域復(fù)雜的文本數(shù)據(jù)時,召回率不穩(wěn)定,識別效果較差。

        近年來,深度學習模型被廣泛用在NER任務(wù)中,通過深度神經(jīng)網(wǎng)絡(luò)自動學習高層的特征,不依賴于特征工程,減少了人工定義特征和對領(lǐng)域知識的過度依賴,實現(xiàn)了端到端的學習模式。常用的模型有長短時記憶網(wǎng)絡(luò)[12-13](Long Short-term Memory,LSTM)、卷積神經(jīng)網(wǎng)絡(luò)[14](Convolutional Neural Network,CNN)以及門限循環(huán)單元[15](Gated Recurrent Unit,GRU)等。上述網(wǎng)絡(luò)通常使用語言模型預(yù)訓(xùn)練的詞向量來處理中文NLP任務(wù),如命名實體識別、文本分類、機器翻譯等任務(wù)存在一定的相關(guān)性,底層網(wǎng)絡(luò)參數(shù)抽取的特征可通用,使用預(yù)訓(xùn)練語言模型如BERT(Bidirectional Encoder Representations from Transformers)[16],可將已學到的模型參數(shù)共享給新模型從而加快并優(yōu)化新模型的學習效率。深度學習模型具備較強的序列建模以及神經(jīng)網(wǎng)絡(luò)擬合非線性函數(shù)能力,能夠很好地捕捉上下文信息,這些也是優(yōu)于其他統(tǒng)計機器學習的地方。

        通用領(lǐng)域的命名實體識別已經(jīng)投入了大量的研究,F(xiàn)值可以達到90%以上[17]。但在飛機裝配工藝中,工藝操作說明文本不同于通用領(lǐng)域的命名實體,有其獨特命名法則,識別存在一定的難度,該領(lǐng)域中的命名實體識別的相關(guān)研究較少。本文使用深度學習模型結(jié)合基于詞典和規(guī)則的方法,取詞典和規(guī)則之長,補深度學習之短,不僅能減少機器學習模型中人工設(shè)計特征的工作量,而且能夠自動從字或者詞獲取更為有效的特征。

        2 基于BiLSTM-CRF模型的初始識別

        本文采用的BiLSTM-CRF模型框架如圖1所示,該模型共有三部分組成:向量層、BiLSTM 網(wǎng)絡(luò)層、CRF層。首先將輸入的語句轉(zhuǎn)化為向量形式,然后輸入到BiLSTM網(wǎng)絡(luò)層,最后結(jié)合CRF層來獲取全局最優(yōu)的輸出序列。

        圖1 BiLSTM-CRF模型

        2.1 向量層

        向量的特征表示與傳統(tǒng)的基于統(tǒng)計來記錄上下文特征的方法相比,可以更好地捕捉到數(shù)據(jù)之間的固有聯(lián)系,包含了更豐富的信息,使得深度神經(jīng)網(wǎng)絡(luò)模型具有比傳統(tǒng)模型更強的特征抽取能力。因為神經(jīng)網(wǎng)絡(luò)的輸入是向量形式, 所以應(yīng)先將工藝操作說明文本轉(zhuǎn)化為向量。文本向量化有兩種表示方法: One-hot 表示和分布式表示[18]。在One-hot向量表示方法中,任意兩個詞之間是孤立的,無法表達不同詞之間的語義關(guān)系,容易出現(xiàn)矩陣稀疏和維度災(zāi)難的問題。詞語的分布式表示通過學習文本,用詞向量的方式表征詞的語義信息,能把詞映射到低維的向量空間,用向量空間的相似度表示文本語義上的相似度,可以較好地表達不同詞之間的相似和類比關(guān)系,有利于解決工藝操作說明文本語義含糊的問題。

        本文所使用的神經(jīng)網(wǎng)絡(luò)模型依賴于底層的向量的特征表示,因此本文分別使用了兩種向量生成方法:BERT模型和Word2Vec模型。前者采取Transformer[19]構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)作為特征提取器,第一階段利用雙向語言模型,即根據(jù)當前詞的上下文來預(yù)測當前詞,進行預(yù)訓(xùn)練,把相關(guān)的語言學特征抽取出來并編碼到特定任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)中;第二階段利用第一階段預(yù)訓(xùn)練好的參數(shù)來初始化特定任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu),并通過微調(diào)(Fine-tuning)的模式解決特征集成等下游任務(wù)。對于后者,其包含跳字模型(Skip-gram)和連續(xù)詞袋模型(Continuous Bag of Words,CBOW),由于本文所使用的語料規(guī)模相對較小,所以選用CBOW模型。

        2.2 BiLSTM網(wǎng)絡(luò)層

        工藝操作說明文本中命名實體的正確識別取決于其所在的上下文,即當前狀態(tài)之前的狀態(tài)和之后的狀態(tài)對預(yù)測標簽是同等重要的,句子中各個字或者詞應(yīng)該是平權(quán)的,如果能夠獲取過去和將來的信息,對命名實體識別任務(wù)很有幫助。如工藝操作說明語句:“按某標準檢查去毛刺和倒角質(zhì)量。”和“按某標準檢查安裝質(zhì)量。”這兩個工藝操作說明前面的內(nèi)容是一樣的,僅從當前詞的上文可能預(yù)測出“凸頭高鎖螺栓孔”、“凸頭高鎖螺栓”等,但若融入文本序列的下文信息,那么工藝操作說明一的當前詞是結(jié)構(gòu)特征“凸頭高鎖螺栓孔”,而工藝操作說明二的當前詞是零件“凸頭高鎖螺栓”的概率就增大了。在BiLSTM中,每一個訓(xùn)練序列向前和向后是兩個LSTM,并且都連接著一個輸出層,此結(jié)構(gòu)提供給輸出層輸入序列中每一個點過去和未來的信息,其模型結(jié)構(gòu)如圖2所示。

        圖2 BiLSTM模型

        在BiLSTM層,當輸入為xt、輸出為yt時的概率為:

        (1)

        2.3 CRF層

        CRF模型是Lafferty 等[20]基于最大熵模型和隱馬爾科夫模型,提出的一種判別式概率無向圖學習模型。由于CRF能考慮到相鄰標簽之間的關(guān)系,所以將CRF融合到BiLSTM模塊的最后一層中,即相當于對BiLSTM層的信息進行再利用,進而獲得全局最優(yōu)的標記序列。對于每一個給定的工藝操作說明語句,其對應(yīng)的輸入序列為X={x1,x2,…,xn},將特征向量映射到k維,k是標簽的種類,定義P=(p1,p2,…,pn)∈Rn×k是BiLSTM層輸出的分數(shù)矩陣,n是訓(xùn)練集中詞的個數(shù)。Pij表示的是句子中第i個詞xi分類到第j個標簽的概率值。對于句子長度為n的標簽預(yù)測序列y=(y1,y2,…,yn),它的打分為:

        (2)

        為了描述標簽間的依賴關(guān)系,引入CRF層進行句子級別的序列標注。CRF 層的參數(shù)是一個為(k+2)2的轉(zhuǎn)移分數(shù)矩陣A,其中Aij表示從第i個標簽轉(zhuǎn)移到第j個標簽的概率值。這樣在為一個字或者詞進行標注的時候可以利用之前已經(jīng)標注過的標簽信息。在輸入序列X的條件下產(chǎn)生標記序列y的概率為:

        (3)

        在訓(xùn)練的過程中,我們要最大化正確標簽序列的似然概率:

        (4)

        式中:YX是指一個輸入序列X對應(yīng)的所有可能的標簽序列。預(yù)測時,通過以下公式輸出整體概率最大的一組標記序列:

        (5)

        3 基于詞典與規(guī)則的校正識別

        經(jīng)過人工分析發(fā)現(xiàn),工藝操作說明文本中的零件和零件號的外部構(gòu)成存在一定的規(guī)律。為進一步提高零件和零件號的識別效果,本文通過分析零件和零件號前后的用詞特點,充分發(fā)揮零件和零件號所在上下文對其的約束作用,先用基于詞典的方法對初始識別后的零件進行校正,再用規(guī)則對零件和零件號的標注結(jié)果進行校正。

        3.1 基于詞典的方法

        本文人工收集建立零件命名實體庫即詞典,詞條數(shù)總計1 259個,如“托板螺母”、“剪切角片”等,詞典中的一個詞條表示一個零件類型的命名實體。本文依據(jù)該詞典對BiLSTM-CRF-BERT模型初始識別的結(jié)果進行逆向最大匹配,此處校正的是零件?;谠~典的文本匹配算法流程如圖3所示。

        圖3 基于詞典的文本匹配算法流程

        3.2 基于規(guī)則的方法

        工藝操作說明文本中頻繁使用大量相似的句型句式,如“按照圖紙…制…與…的連接孔(導(dǎo)孔或者終孔)”、“按照…安裝…”、“按…及參考…定位…并鉆定位孔”等,此類句型句式歸納總結(jié)為21條。零件和零件號經(jīng)常嵌套在上述結(jié)構(gòu)中,并且零件后面一般緊跟其對應(yīng)的零件號。

        上述句型句式中,包含一類固定的詞,這些詞的出現(xiàn)預(yù)示著零件或零件號的出現(xiàn),將這些詞稱為觸發(fā)詞。工藝操作說明文本中趨向動詞的使用有助于零件或零件號的識別,如“定位”、“安裝”、“制出”、“鉆制”、“拆除”等,指示詞“零件”后面常跟零件號,此類觸發(fā)詞歸納總結(jié)為15個。這些詞有著鮮明的特征,在一定程度上標識著零件和零件號的類別和邊界。 因此,可通過對相似的句型句式結(jié)合觸發(fā)詞的識別來校正以上兩種實體。如當前句型句式是“根據(jù)…完成對…的安裝?!睍r,首先判斷“對”和“的”之間的字段是包含英文字母及數(shù)字,若沒有,則該字段是零件;若有,繼續(xù)判斷是否包含中文字符。若沒有中文字符,則該字段是零件號,若有中文字符,則中文字符和英文字母及數(shù)字分別是零件和零件號。

        4 實 驗

        4.1 實驗數(shù)據(jù)集

        實驗所使用的數(shù)據(jù)是某型飛機機身安裝的工藝操作說明文本,該文本是由句子級別的工藝操作說明組成,共有10 150條,經(jīng)過人工標注后為實驗語料。本文的實驗都是在十折交叉驗證下進行的,并且取十次結(jié)果的平均值作為對算法精度的估計。文本中需要識別的實體類型及數(shù)量如表1所示。

        表1 工藝操作說明文本數(shù)據(jù)表

        4.2 標注策略

        命名實體識別任務(wù)常用的標注方式有以下三種:BIO、BIEO、BISEO,其中:B表示實體首字,I表示實體中間,S表示單個實體,E表示實體尾字,O表示非實體。理論而言,標注得越精細,識別后的效果也越好。結(jié)合本文所使用的語料中單個字的實體出現(xiàn)次數(shù)非常少的情況,同時為了更好地找出起始和結(jié)束邊界, 本文采用BIEO形式的標注方式,即定義4種實體范圍標簽。以下面的工藝操作說明語句為例:

        按照D02344200要求,制出D02313770-005與框之間的16個螺栓孔。

        其對應(yīng)的標注序列為:

        按/O照/O D/B-TZ 0/I-TZ 2/I-TZ 3/I-TZ 4/I-TZ 4/I-TZ 2/I-TZ 0/I-TZ 0/E-TZ 要/O求/O,/O制/O出/O D/B-LJH 0/I-LJH 2/I-LJH 3/I-LJH 1/I-LJH 3/I-LJH 7/I-LJH 7/I-LJH0/I-LJH -/I-LJH 0/I-LJH 0/I-LJH 5/E-LJH與/O框/B-LJ之/O間/O的/O 1/B-NOP 6/E-NOP個/O螺/B-KLG栓/I-KLG 孔/E-KLG。/O

        4.3 評判標準

        評判一個命名實體是否被正確識別通常包括以下兩個方面:首先,判斷實體的邊界是否正確,即確定哪些字或者詞屬于命名實體;其次,判斷實體的類型是否標注正確。本文主要通過準確率P、召回率R及F1值這三個指標來對工藝操作說明文本的實體識別結(jié)果進行評測,具體公式為:

        (6)

        (7)

        (8)

        4.4 實驗設(shè)計

        本文使用的神經(jīng)網(wǎng)絡(luò)模型能否取得較好的識別效果與其參數(shù)具有密切關(guān)系,影響因子較大的參數(shù)有向量維度、隱藏層數(shù)量、學習率、Dropout、Epoch。本文對這5種參數(shù)進行大量的實驗,把實驗效果取得最好的參數(shù)值作為模型的參數(shù)。實驗表明,以上5種參數(shù)均存在局部最優(yōu)值。圖1中的向量層分別使用Word2Vec工具的CBOW模型和BERT模型生成的向量,各參數(shù)取表2中對應(yīng)的值時,模型的綜合實驗效果達到最佳。

        表2 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

        本文的baseline實驗選取的是機器學習模型中表現(xiàn)最好的CRF模型,該模型的訓(xùn)練使用CRF++0.58工具包來實現(xiàn)。在CRF模型中有一個關(guān)鍵性的問題是,如何針對特定的任務(wù)制定合適的特征模板。本文將窗口大小設(shè)置為5,通過大量的對比實驗,選取效果最好的特征模板作為CRF模型最終的模板,相應(yīng)的特征模板釋義如表3所示。

        表3 特征模板釋義

        為充分說明本文所使用的特征模板含義,我們以基于字的特征選擇為例,做個簡單的解釋說明。假設(shè)C表示單個漢字特征,在工藝操作說明文本的零件序列“加強件”中,當前字C0指的是“強”時,則當前字的前一個字C-1是“加”,當前字的后一個字C1是“件”,C-1C0指的是“加強”,C0C1指的是“強件”,而C-1C0C1則表示的是“加強件”。

        4.5 對比實驗

        本文設(shè)計了11組實驗,通過橫向和縱向的對比來檢驗本文方法的有效性,如表4所示。實驗序號2~9中的char表示的是使用Word2Vec工具并基于COBW模型訓(xùn)練的向量作為圖1中模型的輸入;而實驗序號10~11中的BERT表示的是使用BERT模型預(yù)訓(xùn)練的向量作為圖1中模型的輸入。

        表4 11種模型的對比實驗結(jié)果 %

        對于工程圖紙、圖區(qū)、參考標準、零件數(shù)量、屬性和屬性值等9類沒有進行校正的實體,本文給出了CRF、IDCNN-CRF-char、BiLSTM-CRF-char和BiLSTM-CRF-BERT這四種典型模型下的識別結(jié)果,如表5所示。而零件和零件號是經(jīng)過校正的實體,對應(yīng)的識別效果分別給出了CRF、BiLSTM-CRF-char、BiLSTM-CRF-BERT和BiLSTM-CRF-BERT+校正這四種典型模型下的對比結(jié)果,如表6所示。

        表5 沒有校正的各類實體識別的效果 %

        表6 零件和零件號的識別效果 %

        本文使用統(tǒng)計機器學習模型CRF測試的結(jié)果作為baseline,在十折交叉驗證下,比較其與神經(jīng)網(wǎng)絡(luò)模型以及本文所提方法在工程圖紙、圖區(qū)、參考標準、零件等11類實體識別上的表現(xiàn),如表4-表6所示。表4中實驗11即本文提出的方法在大部分類別的實體識別效果上,取得比baseline和其他神經(jīng)網(wǎng)絡(luò)模型更好的表現(xiàn),F(xiàn)1值比baseline提高了4.14%。通過分析實驗結(jié)果,可推得以下研究結(jié)論:

        (1) 工藝操作說明文本中的方法圖、結(jié)構(gòu)圖、圖區(qū)、屬性、零件數(shù)量都是屬于簡單實體,此類實體的特征相對明顯,如結(jié)構(gòu)圖“US7058240-42”,從詞構(gòu)成而言,結(jié)構(gòu)圖的構(gòu)成具有一定的規(guī)律,主要表現(xiàn)形式是“[US]+數(shù)字和橫線”,雖然構(gòu)成結(jié)構(gòu)圖的各部分數(shù)字具有任意性,但總體還是表現(xiàn)出相對集中的特點。并且結(jié)構(gòu)圖的前綴“US”是此類實體識別的有用知識。所以,baseline和神經(jīng)網(wǎng)絡(luò)模型對以上實體的識別效果表現(xiàn)相當。而baseline 在參考標準這類實體的F1值優(yōu)于神經(jīng)網(wǎng)絡(luò)模型,因為參考標準在工藝操作說明文本中分布較少,并且特征不明顯,神經(jīng)網(wǎng)絡(luò)模型難以更好地抽象出此類實體所包含的特征。

        CRF是通過特征來區(qū)分實體及其類型和非實體,難以捕捉到那些特征不明顯的實體,如零件。工藝操作說明文本中的零件存在一定的嵌套及交叉現(xiàn)象,邊界錯誤是影響此類實體識別正確與否的原因之一。如:零件“高鎖螺栓”覆蓋了零件“高鎖”,在有些工藝操作說明語句中,CRF模型只能識別出“高鎖螺栓”中的“高鎖”;零件“龍骨梁下縱梁”和“翼下縱梁”具有交叉“下縱梁”的現(xiàn)象,CRF只識別出“下縱梁”,即在判斷實體的邊界時發(fā)生錯誤,而BiLSTM-CRF-BERT+校正方法能在一定程度上克服此問題。在零件識別效果上,不加校正的BiLSTM-CRF-BERT模型較baseline的F1值提升了4.73%。究其原因,主要在于向量的分布中隱含了相對豐富的上下文語法和語義信息,經(jīng)過BiLSTM-CRF-BERT模型的抽象,可以較好地學習出來。

        本文提出的方法在BiLSTM-CRF-BERT模型的基礎(chǔ)上,利用零件前后的用詞特點,依次采用基于詞典和規(guī)則的方法對零件的識別結(jié)果進行校正,零件的準確率、召回率和F1值最終可達到83.93%、90.14%和86.92%。該方法在BiLSTM-CRF-BERT模型的基礎(chǔ)上繼承了基于詞典和規(guī)則方法的優(yōu)點,如工藝操作說明語句“按861B3205-000-001的26D區(qū)完成SD541框與補償片、角材、角片間連接的4個標準件的安裝?!敝小癝D541框”在BiLSTM-CRF-BERT模型中被識別為非實體,通過構(gòu)造的零件詞典和規(guī)則可以確定“SD541框”是零件。校正后,零件的準確率、召回率和F1值分別提升了2.23%、4.08%和3.27%。

        (2) 表4中的實驗結(jié)果表明,BiLSTM-CRF-BERT模型對工藝操作說明文本中零件號的識別效果有所提升,較baseline的F1值提升了3.04%,但是其準確率和F1值較其他類型實體如圖紙仍然較差。

        通過文本分析發(fā)現(xiàn),零件號的識別需要更加充分的上下文語境信息來區(qū)分,并且零件號的上下文,即外部信息存在一定的規(guī)律。零件后面一般緊跟其對應(yīng)的單個或多個零件號,且零件號是由大寫的英文字母、數(shù)字和橫線構(gòu)成。若零件識別錯誤,在一定程度上會導(dǎo)致零件號識別出錯,即發(fā)生錯誤傳播現(xiàn)象。對于此類情況,本文先使用基于詞典和句型句式結(jié)合觸發(fā)詞規(guī)則的方法校正標注錯誤的零件,然后再使用句法句式結(jié)合觸發(fā)詞的規(guī)則校正零件號,能在一定程度上提高零件號的識別效果。由表6可知,校正后的零件號的準確率、召回率和F1值與沒有校正的BiLSTM-CRF-BERT模型相比,分別提升了3.02%、3.05%和3.21%。

        此外,有些零件號和某些工程圖紙組成結(jié)構(gòu)相似,造成有些零件號的類型標注發(fā)生錯誤。由于工藝操作說明文本的某些工程圖紙和零件號等是由英文字母、數(shù)字和橫線組成,并且長度一樣,此類實體之間的界限不清晰,特征區(qū)分不明顯,沒有校正的模型將有些零件號識別為工程圖紙或者非實體。例如,工藝操作說明語句:“按照〈DPAS151-010〉〈DPAS157-028〉根據(jù)772C0000-000-001和684B0000-100-001濕安裝緊固件?!?,沒有校正的模型把“684B0000-100-001”識別為零件號,而校正后的模型就能正確識別為工程圖紙。

        (3) 對比表4和表5的實驗結(jié)果,本文方法的表現(xiàn)比IDCNN-CRF要好,原因在于IDCNN在卷積之后,末層神經(jīng)元可能只是得到了原始輸入數(shù)據(jù)中一小塊的信息,即僅僅考慮到整句話的部分字或詞,提供的上下文信息有限。而對NER來講,整個句子的每個字或者詞都有可能都會對當前需要識別的字或者詞做出影響,而使用BiLSTM能控制和保存內(nèi)部記憶,該網(wǎng)絡(luò)的記憶力能記住更長的信息來對某個字或者詞進行識別。比如,下面的工藝操作說明語句:“與頂部蒙皮相連的對接區(qū)域連接帶板需填角密封?!?,IDCNN-CRF把“連接帶板”識別為非實體,而本文方法能正確識別為零件。綜上所述,本文提出的方法在整體識別效果上表現(xiàn)更佳。

        5 結(jié) 語

        針對工藝操作說明文本的命名實體識別的問題,本文提出了BiLSTM-CRF-BERT模型與詞典、規(guī)則相結(jié)合的方法。該方法在BiLSTM-CRF-BERT模型初始識別的基礎(chǔ)上,根據(jù)零件和零件號的外部信息的規(guī)律特征,用詞典和規(guī)則對零件和零件號進行校正。實驗結(jié)果表明,該方法取得了較好的效果,F(xiàn)1值達到了94.03%,比baseline提高了4.14% ,能有效解決工藝操作說明文本的命名實體識別問題。

        本文在初始識別時所使用的BiLSTM-CRF-BERT模型,其輸入是基于字級的向量特征信息,而字級向量可能丟失一部分工藝操作說明句子本身潛在的特征信息。后期將考慮把句子信息作為一種補充輸入,期許在隱層抽象出更加豐富且有針對性的文本信息。

        猜你喜歡
        特征工藝文本
        轉(zhuǎn)爐高效復(fù)合吹煉工藝的開發(fā)與應(yīng)用
        山東冶金(2019年6期)2020-01-06 07:45:54
        如何表達“特征”
        在808DA上文本顯示的改善
        5-氯-1-茚酮合成工藝改進
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        一段鋅氧壓浸出與焙燒浸出工藝的比較
        絡(luò)合鐵脫硫工藝在CK1井的應(yīng)用
        国产无套露脸| 九九综合va免费看| 亚洲香蕉成人av网站在线观看| 久久久久久久人妻无码中文字幕爆| 大陆国产乱人伦| 色哟哟精品中文字幕乱码| 亚洲精品国产精品乱码视色| 忘忧草社区www日本高清| 亚洲欧美偷拍视频| 日本一区二区在线播放观看| 91九色视频在线国产| 女人脱了内裤趴开腿让男躁| 国内露脸中年夫妇交换| 亚洲熟伦在线视频| 亚洲日本中文字幕乱码在线| 国产美女做爰免费视频| 狠狠爱无码一区二区三区| 日韩有码中文字幕第一页| 91成人自拍在线观看| 九九久久精品一区二区三区av| 免费a级毛片在线播放| 另类内射国产在线| 99JK无码免费| 综合成人亚洲网友偷自拍| 又湿又紧又大又爽a视频国产| 免费黄色电影在线观看| 国产三级黄色片子看曰逼大片| 中文字幕丰满人妻av| 亚洲 自拍 另类小说综合图区| 亚洲天堂第一区| 人妻少妇激情久久综合| 波多野结衣中文字幕一区二区三区| 日日av拍夜夜添久久免费| 无码精品一区二区三区免费16| 91九色国产老熟女视频| 无码国产精品一区二区免费式直播| 亚洲综合欧美在线| 亚洲综合有码中文字幕| 少妇伦子伦情品无吗| 婷婷综合久久中文字幕蜜桃三电影| 亚洲区1区3区4区中文字幕码|