亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偏正結(jié)構(gòu)表示的加工命名實體識別方法

        2024-04-10 13:27:46王素琴王鈺玨朱登明李兆歆
        關(guān)鍵詞:文本模型

        王素琴,王鈺玨,石 敏+,朱登明,李兆歆

        (1.華北電力大學(xué) 控制與計算機(jī)工程學(xué)院,北京 102206;2.中國農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)信息研究所,北京 100081)

        0 引言

        機(jī)械設(shè)計與制造技術(shù)是衡量一個國家綜合國力、科技發(fā)展水平的重要標(biāo)志,也是企業(yè)在競爭中獲得認(rèn)可的關(guān)鍵。隨著制造工藝的發(fā)展,累積了大量機(jī)械零件加工經(jīng)驗,從中提取有價值的信息是一項全新的挑戰(zhàn)。以往查找特定經(jīng)驗或概念,需要領(lǐng)域?qū)<依枚喾N軟件進(jìn)行繁瑣檢索與解析,以做出合理決策。此外,機(jī)械零件制造企業(yè)的生產(chǎn)加工經(jīng)驗往往以非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲,例如制造標(biāo)準(zhǔn)、產(chǎn)品規(guī)格、加工手冊和技術(shù)專利等[1]。然而,非結(jié)構(gòu)化的生產(chǎn)經(jīng)驗難以與結(jié)構(gòu)化的零件加工數(shù)據(jù)庫相關(guān)聯(lián),導(dǎo)致工藝人員無法將這些經(jīng)驗熟練地應(yīng)用到零部件的加工工藝規(guī)劃中。因此,對機(jī)械零件加工領(lǐng)域開展以命名實體識別為基礎(chǔ)的信息抽取研究,可為構(gòu)建機(jī)械零件加工數(shù)字孿生體系奠定基礎(chǔ)[2]。

        機(jī)械零件加工命名實體識別是指自動識別零件加工文本中的實體類型和邊界,是領(lǐng)域知識構(gòu)成和知識服務(wù)的關(guān)鍵步驟和重要支撐,因此,在制造領(lǐng)域中使用自然語言處理技術(shù)逐漸得到人們的重視。但是,機(jī)械零件加工命名實體識別存在以下問題:①目前尚未有適用于機(jī)械零件加工領(lǐng)域命名實體識別的公開語料集;②多數(shù)實體屬于偏正結(jié)構(gòu)復(fù)合詞,因此實體邊界難以界定。例如,“硬質(zhì)合金銑刀”可以認(rèn)為是刀具實體,“硬質(zhì)合金”又可以作為材料實體,而“銑刀”認(rèn)為是刀具實體;③相較于通用領(lǐng)域的人名、地名和組織機(jī)構(gòu)名,在機(jī)械零件加工領(lǐng)域,機(jī)床和切削液等實體命名長度更長,精準(zhǔn)識別難度更高。

        針對上述問題,本文研究了一種機(jī)械零件加工領(lǐng)域的偏正實體標(biāo)注規(guī)則,并以此構(gòu)建加工實體語料集。在此基礎(chǔ)上,提出領(lǐng)域自適應(yīng)的多網(wǎng)絡(luò)協(xié)調(diào)中文命名實體識別方法(Domain Adaptive Multi-network Coordinated Chinese named entity recognition method, DAMC),該方法將命名實體識別任務(wù)轉(zhuǎn)化為字符級別的序列標(biāo)注問題?;谒鶚?gòu)造的機(jī)械零件加工領(lǐng)域語料集的實驗結(jié)果表明,本文提出的DAMC模型與當(dāng)前主流的命名實體識別神經(jīng)網(wǎng)絡(luò)模型相比,在機(jī)床、刀具和工件材料等待識別實體上有更好的識別效果。本文貢獻(xiàn)如下:

        (1)通過領(lǐng)域自適應(yīng)機(jī)制引入更多目標(biāo)領(lǐng)域信息,生成更適用于目標(biāo)領(lǐng)域的嵌入空間。

        (2)引入注意力機(jī)制和多門控制的混合專家網(wǎng)絡(luò),減少非必要噪聲的影響,提高在加工實體類型上的輸出權(quán)重,有效提升了加工命名實體識別(Named Entity Recognition, NER)的效果。

        1 相關(guān)研究

        命名實體識別(NER)可以為知識圖譜、智能檢索等后續(xù)工作提供合理的數(shù)據(jù)支撐,一直備受研究者的青睞。早期命名實體識別方法主要通過基于規(guī)則的方式[3]進(jìn)行實體抽取,這類方法需要具有一定領(lǐng)域知識的研究人員手工構(gòu)建,規(guī)則構(gòu)建周期長。隨著人工智能的興起,神經(jīng)網(wǎng)絡(luò)模型通過使用單詞的向量表示對自然語言序列進(jìn)行建模,從而自動提取語義特征,在實體識別效果上取得一定突破。SUTSKEVER等[4]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的Seq2Seq(Sequence to Sequence)模型,它使用神經(jīng)網(wǎng)絡(luò)將一個序列映射到另一個序列。BERT[5]通過在所有層的上下文聯(lián)合調(diào)節(jié)來預(yù)訓(xùn)練深層雙向表示,推進(jìn)了11項NLP任務(wù)的最優(yōu)結(jié)果。在中文命名實體識別中,多數(shù)研究人員通過引入中文字—詞特征[6-8],合并詞匯信息到向量表示以提高中文實體識別的效果,在通用領(lǐng)域的多個中文NER數(shù)據(jù)集上獲得最優(yōu)結(jié)果。

        然而,在缺乏大量訓(xùn)練數(shù)據(jù)的情況下,低資源領(lǐng)域的命名實體識別準(zhǔn)確率會大幅下降,因此研究人員利用遷移學(xué)習(xí)的方法解決低資源跨領(lǐng)域命名實體識問題。LIU[9]等提出基于自注意機(jī)制和多門控制的混合專家網(wǎng)絡(luò)(Mixture of Entity Experts ,MoEE)框架用于改善領(lǐng)域遷移的魯棒性。JIA等[10]提出跨領(lǐng)域的語言模型,通過三次遷移學(xué)習(xí)作為跨域訓(xùn)練NER的橋連,該方法有效地解決跨領(lǐng)域的語言模型的差異。其他領(lǐng)域的命名實體識別研究同樣對本文有所啟發(fā)。WANG等[11]提出一種標(biāo)簽感知雙遷移學(xué)習(xí)框架,在生物醫(yī)學(xué)領(lǐng)域的實體識別任務(wù)取得了較好效果,但是該方法源域與目標(biāo)域都為生物醫(yī)學(xué)領(lǐng)域,在文本構(gòu)成上具有相似性,無法適用于缺少公開語料集的機(jī)械零件加工領(lǐng)域。賈猛等[12]提出利用領(lǐng)域詞典及規(guī)則指導(dǎo)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練方法,在工藝文本命名實體識別方面取得較好的成果,但該方法依賴人工定義的字典與規(guī)則。在法律領(lǐng)域,郭力華等[13]提出利用最大正向匹配策略和社區(qū)注意力機(jī)制提高命名實體識別的準(zhǔn)確率,該方法借助外部詞典樹尋找匹配詞,但是機(jī)械零件加工命名實體與現(xiàn)有詞典不匹配,構(gòu)建該領(lǐng)域詞典人工成本較高。LYU等[14]提出一種基于BERT-BiGRU-CRF的地質(zhì)命名實體識別(GNER)模型,用于從地球科學(xué)報告中提取實體。蘇兆婧等[15]針對產(chǎn)品設(shè)計信息提取,提出基于BERT和知識遷移的實體識別模型,在設(shè)計過程中靈活考慮設(shè)計特征的數(shù)量及其重要度。

        盡管在通用領(lǐng)域與一些特定領(lǐng)域,命名實體識別都取得良好的進(jìn)展。但是,這些領(lǐng)域的語料文本書寫規(guī)范,實體分布密集、上下文特征明顯且實體邊界較明顯,而零件加工領(lǐng)域的文本存在實體邊界和上下文特征不明顯。因此如何在實體邊界模糊的零件加工文獻(xiàn)中進(jìn)行實體識別成為新的研究問題。

        2 語料分析

        2.1 語料采集

        當(dāng)前存在的大多數(shù)實體標(biāo)注數(shù)據(jù)集都是面向通用領(lǐng)域,例如CLUENER2020[16]和Conll2003[17]均是從新聞中標(biāo)注常見實體。目前在零件加工領(lǐng)域暫時沒有公開語料集。

        本文選用《典型零件機(jī)械加工生產(chǎn)實例》[18]、《精密零件機(jī)械加工工藝分析及實例》[19]等零件加工手冊作為原始語料集,這類文本包含機(jī)械零件中典型零件的設(shè)計與工程中最實用的加工工藝。通過光學(xué)字符識別(Optical Character Recognition,OCR)識別算法對兩本書籍作電化和文本格式轉(zhuǎn)換處理,人工修改錯別字和亂碼。

        根據(jù)典型零件加工工藝分析,首先,根據(jù)工件工藝參數(shù)選擇一套合理的方法;其次,由于各型工件所使用的材質(zhì)性能有差異,以及工件結(jié)構(gòu)會限制機(jī)床等設(shè)備的使用,應(yīng)在制造前根據(jù)工件特性選擇合理的設(shè)備;最后,為了提高刀具耐久度選取不同切削液緩解刀具損耗。同時,在實際應(yīng)用過程中,選擇工藝方法要與企業(yè)類型相適應(yīng),大批量零件生產(chǎn)應(yīng)選用效率高且穩(wěn)定的生產(chǎn)方法,單件小批生產(chǎn)選擇簡單通用的生產(chǎn)方法。

        本文結(jié)合領(lǐng)域?qū)<抑R,深入剖析零件加工工藝基本要素,充分挖掘其隱含知識,將機(jī)械零件實體類別劃分為8類,以保證加工實體要素的完整性,包括工件材料、工件外型、刀具、機(jī)床、切削液、工藝參數(shù)、工裝夾具和生產(chǎn)類型,如表1所示。考慮到工藝參數(shù)包含物理量等名詞與數(shù)字形式表示,因此將工藝參數(shù)分為兩種進(jìn)行標(biāo)注。

        表1 機(jī)械零件加工領(lǐng)域?qū)嶓w類型示例

        2.2 語料特點分析

        通過對機(jī)械零件加工語料的全面剖析,發(fā)現(xiàn)該領(lǐng)域命名實體的特點主要體現(xiàn)在以下3個方面:

        (1)對于工件材料、工件外型、刀具、機(jī)床和切削液五類實體,存在較多偏正結(jié)構(gòu)實體,其中偏正實體占比總實體43%,如圖1a所示,例如“含硫、氯等極壓添加劑的乳化液”。

        圖1 實體類型統(tǒng)計

        (2)機(jī)械零件中工藝參數(shù),包含結(jié)構(gòu)參數(shù)與加工參數(shù),數(shù)據(jù)構(gòu)成復(fù)雜。例如“槽間距15±0.03mm”,“輪楔角34°±1°”。

        (3)實體分布不均勻,語料中對于刀具、工件外型等描述出現(xiàn)較多,而對于夾具和生產(chǎn)類型往往出現(xiàn)較少,整體數(shù)據(jù)呈長尾分布,如圖1b所示。

        3 命名實體識別模型

        本文基于偏正結(jié)構(gòu)表示的加工實體提出一種領(lǐng)域自適應(yīng)的零件加工領(lǐng)域命名實體識別模型。該模型在BERT+Bi-LSTM+CRF基礎(chǔ)上,通過建立領(lǐng)域自適應(yīng)字向量作為輸入,并融合注意力機(jī)制與多門控制的混合專家網(wǎng)絡(luò)在目標(biāo)領(lǐng)域自動實現(xiàn)命名實體識別。

        圖2 網(wǎng)絡(luò)結(jié)構(gòu)

        因此,模型在BERT+Bi-LSTM+CRF基礎(chǔ)上進(jìn)行以下改進(jìn):基于BERT的領(lǐng)域自適應(yīng)字向量表示層模型DAPT,同時引入基于自注意機(jī)制和多門控制的混合專家網(wǎng)絡(luò)[9](MoEE)層。

        3.1 領(lǐng)域自適應(yīng)表示學(xué)習(xí)

        機(jī)械加工領(lǐng)域命名實體組成復(fù)雜,包含大量領(lǐng)域?qū)I(yè)術(shù)語,例如,“外圓磨床”、“球頭銑刀”等,這類實體需要先驗領(lǐng)域知識才能達(dá)到更好的識別效果。然而直接使用通用領(lǐng)域預(yù)訓(xùn)練模型,并不具備特定領(lǐng)域知識,導(dǎo)致在目標(biāo)領(lǐng)域嵌入空間表現(xiàn)欠佳。因此,本文引入領(lǐng)域自適應(yīng)預(yù)訓(xùn)練機(jī)制[20],即利用BERT中掩碼語言模型,在目標(biāo)領(lǐng)域文本上,通過上下文預(yù)測被掩碼的字段,從而獲得更貼合目標(biāo)領(lǐng)域的文本向量特征,整體流程如圖3所示。

        圖3 領(lǐng)域自適應(yīng)表示學(xué)習(xí)框架

        3.1.1 領(lǐng)域自適應(yīng)分詞

        通用領(lǐng)域與機(jī)械加工領(lǐng)域文本以及所要識別要素存在差異。作為源領(lǐng)域的通用領(lǐng)域所訓(xùn)練的BERT預(yù)模型,與需要應(yīng)用的機(jī)械零件加工領(lǐng)域產(chǎn)生知識偏差。因此,需要加入目標(biāo)領(lǐng)域特定知識。為了更貼近機(jī)械零件加工領(lǐng)域嵌入空間,需要提高領(lǐng)域分詞的準(zhǔn)確性。在現(xiàn)有的中文分詞基礎(chǔ)上引入目標(biāo)領(lǐng)域?qū)僭~典,如機(jī)械零件加工領(lǐng)域詞典,從而生成領(lǐng)域自適應(yīng)分詞器。分詞器構(gòu)建如圖4所示。

        圖4 分詞器構(gòu)建流程

        首先,通過收集常用機(jī)械加工工藝術(shù)語、機(jī)械加工工藝裝備基本術(shù)語等專業(yè)領(lǐng)域詞匯表,構(gòu)建機(jī)械零件加工領(lǐng)域?qū)僭~典。其次,利用領(lǐng)域?qū)僭~典切分領(lǐng)域文本語料,本文采取雙向最大匹配法對語料進(jìn)行中文分詞。最后,選取子詞粒度分詞算法(subword-level Tokenization algorithm),利用領(lǐng)域文本語料訓(xùn)練分詞器,分詞結(jié)果如表2所示,#表示同一個詞的不同部分。

        表2 分詞器結(jié)果展示

        3.1.2 領(lǐng)域自適應(yīng)預(yù)訓(xùn)練

        利用上述分詞器,本文選用選擇性整詞掩碼策略(Selective whole word masking),即如果序列中包含領(lǐng)域詞典所述詞語,則該詞的部分子詞被掩碼,則同屬該詞的其他部分也會被掩碼。具體而言,根據(jù)上文構(gòu)建的機(jī)械加工領(lǐng)域詞典,對詞典中出現(xiàn)的詞語進(jìn)行全詞掩碼處理,然后采用全詞預(yù)訓(xùn)練模型進(jìn)行二次預(yù)訓(xùn)練,以使模型學(xué)習(xí)到機(jī)械加工領(lǐng)域內(nèi)的先驗知識,得到該領(lǐng)域全詞預(yù)訓(xùn)練模型DAPT,動態(tài)更新預(yù)訓(xùn)練模型向量權(quán)重,讓模型學(xué)到更多目標(biāo)領(lǐng)域語義信息。

        對于如何選擇掩碼詞,定義如式(1)所示,首先,初始化輸入序列為空序列,依次加入序列分詞進(jìn)行詞典匹配,待找出詞典匹配子序列ωi屬于詞典詞,則將ωi進(jìn)行整詞掩碼。

        (1)

        其中:D表示領(lǐng)域詞典,(ω1,ω2,...,ωi)表示輸入序列,ωi表示序列分詞。

        3.2 基于注意力機(jī)制的特征提取

        為了使模型能高度關(guān)注文本中的重要信息,減少噪聲的影響,本文引入注意力機(jī)制。注意力機(jī)制的核心在于結(jié)合上下文信息,感知重要的語義特征。通過給序列層中各隱藏節(jié)點自行分配合適的注意力權(quán)重進(jìn)行重要度的劃分。權(quán)重越大,代表對于實體分類越重要。單詞之間的關(guān)聯(lián)是通過計算實體單詞和其他單詞之間的注意力得分來獲得的,注意力權(quán)重定義為

        (2)

        其中:score(xt,xj)定義為

        (3)

        其中:權(quán)重矩陣Wα為模型參數(shù),·表示兩個元素點乘。

        (4)

        然后,全局變量gt作為每個BiLSTM單元輸出ht的權(quán)重與ht連接成[gt;ht]通過tanh函數(shù)生成注意力層的輸出為

        Zt=tanh(Wt[gt;ht])。

        (5)

        3.3 基于MoEE的實體特征提取

        特定領(lǐng)域的命名實體識別面臨的主要困難是缺乏標(biāo)準(zhǔn)的標(biāo)記語料庫,然而,深度網(wǎng)絡(luò)模型通常需要一個大的標(biāo)記語料庫來訓(xùn)練,否則很容易過擬合。同時,NER模型對偏正結(jié)構(gòu)的實體邊界劃分錯誤,導(dǎo)致模型失去對實體的精準(zhǔn)識別能力。因此,本文引入多門控制的混合專家網(wǎng)絡(luò)(MoEE),將參數(shù)共享層劃分為若干個專家網(wǎng)絡(luò),每個專家網(wǎng)絡(luò)負(fù)責(zé)獨立學(xué)習(xí)多實體間的耦合關(guān)系,不同的專家網(wǎng)絡(luò)不進(jìn)行參數(shù)共享。同時,MoEE針對每類實體分別設(shè)置一個門控單元,負(fù)責(zé)計算每個專家網(wǎng)絡(luò)的權(quán)重,使不同實體類別對專家網(wǎng)絡(luò)的選擇更加靈活,避免了弱相關(guān)實體間的互相干預(yù)。MoEE結(jié)構(gòu)如圖5所示。

        圖5 MoEE網(wǎng)絡(luò)結(jié)構(gòu)

        MoEE網(wǎng)絡(luò)結(jié)構(gòu)由專家網(wǎng)絡(luò)和門控網(wǎng)絡(luò)兩部分組成。由于本文選取8類實體作為機(jī)械加工領(lǐng)域特定實體,因此專家網(wǎng)絡(luò)將每個實體類別作為一個實體專家,例如,刀具實體專家(T Expert)和機(jī)床實體專家(MT Expert),每一個專家都擅長指定實體的預(yù)測。此外,將非實體作為一種特殊的實體類別。每個專家網(wǎng)絡(luò)用于學(xué)習(xí)輸入特征與9類實體(包含非實體)識別任務(wù)的特定關(guān)系,專家網(wǎng)絡(luò)定義如下所示:

        (6)

        其中,L表示線性層,hi表示輸入特征,exp(t)是專家網(wǎng)絡(luò)生成的特征。

        門控網(wǎng)絡(luò)由一個全連接層和一個softmax層組成,后者為實體專家的置信度分布,通過輸出權(quán)重的不同,實現(xiàn)對專家網(wǎng)絡(luò)輸出的靈活控制。模塊定義如下:

        [α1,α2,...,αE]=Softmax(Linear(hi))。

        (7)

        最后,模型的輸出為各個實體專家模塊的輸出與專家門的權(quán)重組合,形式化表達(dá)如式(8)所示

        (8)

        其中:mi為MoEE層生成的專家特征,E為實體類別數(shù)與非實體類別的總和。

        專家特征是根據(jù)注意力層的狀態(tài)特征所生成,輸出為所有專家特征的加權(quán)和。MoEE能夠針對實體類別的特點,多樣化地使用上層網(wǎng)絡(luò)的共享特征,從而提升所有實體類別的識別效果,有效學(xué)習(xí)不同實體之間存在的差異。

        4 實驗及結(jié)果分析

        為了驗證本文方法對機(jī)械零件加工實體識別的有效性,采用Pytorch搭建本文所提出的模型,運行環(huán)境為Python3.6+Pytorch1.9,實驗采用的硬件平臺為: Intel Core i9-10900K CPU @ 3.70 GHz, 內(nèi)存為64 GB,顯卡型號為Nvidia RTX 3090,顯存為24GB。

        4.1 數(shù)據(jù)處理

        本文首先對機(jī)械零件加工文獻(xiàn)進(jìn)行選擇,并生成原始語料集,其次對原始語料集進(jìn)行數(shù)據(jù)清洗,例如,修正識別錯誤的漢字,刪除文本中因圖片、表格所造成的格式錯誤等,然后進(jìn)一步對清洗后的數(shù)據(jù)按照篇章進(jìn)行劃分,最后確定所需標(biāo)注的實體類型。

        4.1.1 零件加工領(lǐng)域數(shù)據(jù)特征及規(guī)則描述

        零件加工領(lǐng)域?qū)嶓w多為偏正結(jié)構(gòu)復(fù)合詞,造成實體邊界模糊難以界定,例如,“硬質(zhì)合金旋刀”可以整體劃分為刀具實體,而中心語為“旋刀”同樣可以劃分為刀具實體,“硬質(zhì)合金”作為修飾語可以劃分為“材料實體”。因此,本文提出偏正結(jié)構(gòu)的零件加工標(biāo)注規(guī)則。

        規(guī)則1 {(adj)+n→entity};

        規(guī)則2 {(n)+n→entity};

        規(guī)則3 {(number)∪(alphabet)+n→entity}。

        其中(*)表示修飾詞,→左邊表示應(yīng)用規(guī)則的條件,→右邊表示規(guī)則的輸出。這些規(guī)則均表示當(dāng)所標(biāo)記的實體存在修飾成分時,將修飾成分連同名詞統(tǒng)一修正為所標(biāo)記的實體類別。通過實體標(biāo)注規(guī)則,準(zhǔn)確區(qū)分不同實體,減少標(biāo)注異議,提高人工標(biāo)注質(zhì)量,解決零件加工領(lǐng)域?qū)嶓w邊界模糊的問題。

        4.1.2 機(jī)械零件加工領(lǐng)域?qū)嶓w標(biāo)注

        本文結(jié)合專家知識與機(jī)械零部件加工工藝過程分析,將機(jī)械零件加工過程主要涉及的機(jī)床、刀具和工件等八大類實體進(jìn)行實體識別,如表2所示。為了獲得高質(zhì)量的標(biāo)簽預(yù)測結(jié)果,本文使用BIO注釋方法[21],將每個元素注釋為“B-實體”、“I-實體”和“O”。其中,“B-實體”表示實體的開始,“I-實體”表示實體的剩余部分,O表示非實體的字符,并結(jié)合考慮實體的模糊邊界, 按照字級別對未經(jīng)標(biāo)注的原始語料庫中的語料進(jìn)行標(biāo)注。首先,選用brat標(biāo)注工具對實體進(jìn)行手工標(biāo)注,其次,利用標(biāo)注程序自動轉(zhuǎn)換成“BIO”標(biāo)注格式,最后自動檢查標(biāo)注錯誤、漏標(biāo)實體等一系列問題,采取字典詞語匹配標(biāo)注方式,即文本存在字典中包含詞語,自動實現(xiàn)補(bǔ)充修改標(biāo)注標(biāo)簽,具體標(biāo)注方式如表3所示。

        表3 實體標(biāo)注類別

        經(jīng)過以上處理,共選取18 426條語句,最終構(gòu)建機(jī)械零件加工實體識別語料庫,其中包含8類實體類別15 000個實體。

        4.2 評估指標(biāo)

        本文選取了精確率(Precision)、召回率(Recall)、F1值作為評估指標(biāo),公式如下:

        (9)

        (10)

        (11)

        4.3 實驗設(shè)置

        實驗預(yù)訓(xùn)練模型選用bert-wwm作為預(yù)訓(xùn)練基礎(chǔ)模型,實驗參數(shù)設(shè)置參考文獻(xiàn)[8]。同時DAMC實驗參數(shù)設(shè)置如表4所示。

        表4 實驗參數(shù)設(shè)置

        4.4 實驗設(shè)計及分析

        4.4.1 不同模型性能對比

        針對機(jī)械零件加工領(lǐng)域命名實體識別,選取ALBERT-BiLSTM-CRF 、BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF、SoftLexicon(LSTM)[10]、LEBERT[11]六種模型分別進(jìn)行實驗。在同一訓(xùn)練集和測試集上,比較上述命名實體識別模型與本文提出的模型的有效性,實驗結(jié)果如表5所示。

        表5 實體識別模型效果對比

        實驗結(jié)果表明,在針對低資源的零件加工領(lǐng)域,本文提出的基于領(lǐng)域自適應(yīng)的DAMC命名實體識別模型識別效果優(yōu)于其他6種模型。相較于BiLSTM-CRF的命名實體識別,本文提出的模型精確率提高7.53%,召回率提高17.12%,表明只采用BiLSTM-CRF框架的方法需要對每個字符的類型進(jìn)行預(yù)測,對于機(jī)械加工領(lǐng)域長實體的預(yù)測更為困難;相較于BERT-BiLSTM-CRF 、BERT-CRF和ALBERT-BiLSTM-CRF命名實體識別模型,本文提出的模型精確率和召回率均得到提高,表明預(yù)訓(xùn)練模型雖能提高識別效果,但無法精準(zhǔn)劃分加工實體邊界,對零件加工領(lǐng)域?qū)嶓w區(qū)分較差。本文提出的模型在預(yù)訓(xùn)練階段引入領(lǐng)域自適應(yīng)過程,充分學(xué)習(xí)領(lǐng)域文本特點,同時,注意力機(jī)制和混合專家網(wǎng)絡(luò)的加入提高了各實體權(quán)重,在一定程度上優(yōu)化模型識別能力;相較于SoftLexicon(LSTM),本文提出的模型精確率提高9.99%,召回率提高13.72%;相較于LEBERT,本文提出的模型精確率提高13.77%,召回率提高18.16%。因為模型結(jié)合特定領(lǐng)域的文本特點,充分考慮機(jī)械零件領(lǐng)域文本的語言結(jié)構(gòu),從字的角度考慮,一定程度緩解詞語劃分的歧義。

        4.4.2 各實體識別效果

        DAMC模型進(jìn)行機(jī)械零件加工命名實體的識別,9類實體具體的精確率、召回率和F1 值如表6所示。

        表6 各實體識別效果

        從表6可以看出,而對于工藝參數(shù)(名詞)、工藝參數(shù)(數(shù)據(jù))、工裝夾具和生產(chǎn)類型的精確率低于80%,分析原因,是因為目前沒有大規(guī)模機(jī)械零件數(shù)據(jù)集,本文所使用的語料集包含這3 類實體數(shù)據(jù)較少。工藝參數(shù)數(shù)據(jù)雜亂,沒有明確的數(shù)據(jù)邊界,造成識別效果質(zhì)量偏低。除了這4類實體,其他5類實體的F1 值均高于80%,說明DAMC模型整體識別性能較好。

        4.4.3 偏正實體與非偏正實體識別效果對比

        為驗證模型在偏正結(jié)構(gòu)實體與非偏正實體識別的有效性,在基線模型BERT-BiLSTM-CRF基礎(chǔ)上,引入領(lǐng)域自適應(yīng)機(jī)制、注意力模塊和多門控制的混合專家網(wǎng)絡(luò)。在只含有偏正結(jié)構(gòu)的實體數(shù)據(jù)集上,比較基線模型與DAMC模型,實驗結(jié)果如表7所示。在僅包含非偏正實體的數(shù)據(jù)集上,實驗結(jié)果如表8所示。

        表7 偏正實體模型對比結(jié)果

        表8 非偏正實體模型對比結(jié)果

        從表7可以看出對于偏正實體識別,DAMC模型能有效提高對于偏正實體的識別效果。說明引入領(lǐng)域自適應(yīng)機(jī)制、注意力模塊和多門控制的混合專家網(wǎng)絡(luò)在訓(xùn)練過程中不斷減少實體之間的相互干擾,提高實體權(quán)重,使網(wǎng)絡(luò)更好區(qū)分偏正實體結(jié)構(gòu),對于實體邊界能進(jìn)行較為準(zhǔn)確的劃分。

        從表8可以看出對于非偏正實體,DAMC識別效果的精確率、召回率、F1值均高于BERT-BiLSTM-CRF,這表明在簡單實體的識別上,DAMC仍然具有識別優(yōu)勢。這是由于模型對于機(jī)械零件加工實體有更準(zhǔn)確的向量表示,同時在訓(xùn)練過程中各實體權(quán)重變化大,模型能更好區(qū)分不同類別實體的差異性。

        4.5 消融實驗

        本文設(shè)計消融實驗,驗證DAMC模型各部分性能。將DAPT模型替換成BERT原始模型記為W/O DAPT;去除注意力機(jī)制,得到模型記為W/O Attention;將模型去掉MoEE模塊,記為W/O MoEE。4種模型在機(jī)械零件加工數(shù)據(jù)集中的實驗結(jié)果如表9所示。

        表9 消融實驗結(jié)果對比

        表9實驗結(jié)果可以看出:

        (1)W/O DAPT與DAMC相比,召回率性能下降4.57%,實驗結(jié)果驗證了領(lǐng)域自適應(yīng)預(yù)訓(xùn)練有效捕捉到特定領(lǐng)域文本特點,從而使生成的向量表示更有差異性。

        (2)W/O Attention 與DAMC相比,召回率下降2.88%,F1值下降1.51%,說明注意力機(jī)制動態(tài)調(diào)整權(quán)重有助于提高實體邊界劃分的準(zhǔn)確性,從而提升識別精確率。

        (3)W/OMoEE相比DAMC,在3種指標(biāo)上分別提升0.4%、3.5%,1.86%,說明在低資源領(lǐng)域的實體識別任務(wù)使用多門控制的混合專家網(wǎng)絡(luò)可以有效緩解實體之間的相互干預(yù),從而提升模型效果。

        4.6 應(yīng)用實例

        為了直觀展示模型優(yōu)勢,本文提出一個實例,如表10所示,其中MT代表機(jī)床,WE代表工件外形,T代表刀具,TY代表生產(chǎn)類型。由表中可以觀察到Bert-BiLSTM-CRF模型對于偏正結(jié)構(gòu)的工件外形實體,“普通萬能銑床”、“錐形指狀銑刀”均沒有將實體完整識別出來,同時對于“蝸桿銑床”實體劃分錯誤,而本文提出的模型以上實體均正確識別,由此可以更直觀地觀察到本文模型改進(jìn)的有效性。

        表10 實體識別實例

        5 結(jié)束語

        命名實體識別技術(shù)作為研究人員整合領(lǐng)域知識的基礎(chǔ),越來越受到關(guān)注,但是目前沒有適用于零件加工領(lǐng)域命名實體識別公開數(shù)據(jù)集。本文提出一種構(gòu)建零件加工領(lǐng)域命名實體識別的方法,首先,提出一種針對實體邊界模糊問題的數(shù)據(jù)標(biāo)注策略和機(jī)械零件加工領(lǐng)域?qū)嶓w分類規(guī)則,建立基于機(jī)械零件加工手冊的命名實體識別語料集;提出一種基于領(lǐng)域自適應(yīng)的機(jī)械零件加工領(lǐng)域命名實體識別模型DAMC,解決了傳統(tǒng)預(yù)訓(xùn)練模型對零件加工領(lǐng)域適用性差的缺點,以及提高在零件加工領(lǐng)域?qū)嶓w識別效果。盡管本文的實例應(yīng)用僅限于零件加工領(lǐng)域,但也可以應(yīng)用于其他特定領(lǐng)域,只需對文本數(shù)據(jù)和相關(guān)參數(shù)進(jìn)行微調(diào)。

        本文所提方法為后續(xù)零件加工領(lǐng)域信息抽取提供了基礎(chǔ),有助于減少領(lǐng)域和非領(lǐng)域?qū)<耀@取信息的障礙。未來的工作需要研究細(xì)粒度的命名實體識別問題,并開展以實體識別為基礎(chǔ)的下一階段任務(wù),構(gòu)建中文零件加工領(lǐng)域圖譜,探索在零件加工領(lǐng)域的知識檢索、工藝推理等實踐應(yīng)用。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产精品亚洲综合色区韩国| 日本高清视频在线观看一区二区| 亚洲最大成人综合网720p| gv天堂gv无码男同在线观看| 玩弄放荡人妻一区二区三区| 人人爽亚洲aⅴ人人爽av人人片 | 91精品国产九色综合久久香蕉 | 日本女优中文字幕亚洲| 亚洲国产av无码精品| 国产亚洲精品aaaaaaa片 | 久久久国产一区二区三区四区小说 | 国内精品人人妻少妇视频| 国产精品国产自产拍高清| 亚洲 中文 欧美 日韩 在线| 丰满多毛少妇做爰视频| 久久精品女人天堂AV一个| 91偷自国产一区二区三区| 少妇精品无码一区二区三区 | 亚洲一级天堂作爱av| 老鲁夜夜老鲁| 日韩精品一区二区三区免费视频| 91久久福利国产成人精品| 国产精品后入内射日本在线观看| 日本真人边吃奶边做爽动态图| 秋霞鲁丝片av无码| 亚洲av中文无码乱人伦在线咪咕| 日韩少妇人妻精品中文字幕| 亚洲国产成人av在线观看| 国产成人亚洲不卡在线观看 | 又紧又大又爽精品一区二区| 日产精品久久久久久久蜜臀 | 久久夜色精品国产噜噜麻豆| 一区二区免费电影| 亚洲精品中文字幕乱码无线| 亚洲精品无码永久在线观看| 3344永久在线观看视频| 日本精品人妻在线观看| 伊人久久大香线蕉av五月| 日韩人妻无码精品-专区| 中文字幕乱偷乱码亚洲| 久久精品国产亚洲av日韩一|