臧凌玉 張應(yīng)中 羅曉芳
(大連理工大學(xué)機械工程學(xué)院 遼寧 大連 116024)
在機械工程領(lǐng)域存在大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化的知識文本,如專利、說明書、期刊和書籍等,這些文本包含豐富的領(lǐng)域?qū)<抑R和專業(yè)技術(shù)知識。自然語言處理能夠通過理解和挖掘文本知識從而獲取專業(yè)知識。命名實體識別是指識別文本中具有特定含義的實體(例如人名、地名、機構(gòu)名和專有名詞等),是自然語言處理基礎(chǔ)性工作,是正確理解文本的基礎(chǔ)[1]。它是信息抽取、文本分類、關(guān)系抽取、知識圖譜、搜索引擎、機器翻譯和自動問答等應(yīng)用領(lǐng)域的基礎(chǔ)性工作[2-7]。
機械工程領(lǐng)域包括機械設(shè)計、制造和工程材料等多個學(xué)科,涉及大量的概念、術(shù)語和專有名詞,這些名詞以自然語言方式表示在文本中。特別是機械專利文本,其包含了新的技術(shù)和原理,體現(xiàn)了領(lǐng)域的最新信息。對機械專利文本進行命名實體識別,及時發(fā)現(xiàn)最新的技術(shù)和應(yīng)用,將有利于確定技術(shù)發(fā)展趨勢。例如,劉宇飛等[8]應(yīng)用命名實體識別技術(shù)識別數(shù)控系統(tǒng)新興技術(shù),陳秋瑗等[9]利用其實現(xiàn)機械設(shè)計領(lǐng)域新詞發(fā)現(xiàn)等。
目前,命名實體識別常用的方法有基于規(guī)則和詞典的方法、基于傳統(tǒng)統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法等[10-13]。其中,由于深度學(xué)習(xí)能夠從原始數(shù)據(jù)中自動獲取特征,提升數(shù)據(jù)的處理能力和識別的準確性,因而被廣泛應(yīng)用于命名實體識別中[14-18]。由于深度學(xué)習(xí)方法需要大量的樣本數(shù)據(jù),基于深度學(xué)習(xí)的命名實體識別研究主要集中于具有成熟數(shù)據(jù)集的通用領(lǐng)域和生物醫(yī)學(xué)等幾個特定領(lǐng)域,而機械工程領(lǐng)域涉及范圍寬,且目前沒有成熟的標注數(shù)據(jù)集,因此極大地限制了命名實體識別方法在機械工程領(lǐng)域中的應(yīng)用。
遷移學(xué)習(xí)能夠利用已獲取的源域知識改善目標任務(wù),所以將遷移學(xué)習(xí)引入命名實體識別中,可以有效地解決模型由于數(shù)據(jù)集少而導(dǎo)致的識別能力不足的問題[19]。Devlin等[20]提出了基于遷移學(xué)習(xí)的BERT(Bidirectional Encoder Representations from Transformers)模型,刷新了包括命名實體識別在內(nèi)的11種NLP測試成績。楊飄等[21]將BERT作為預(yù)訓(xùn)練語言模型,并將其與BiLSTM-CRF模型相結(jié)合解決中文命名實體識別問題,結(jié)果表明在命名實體識別任務(wù)中,結(jié)合后的模型性能有較大提升。由此可知,BERT遷移學(xué)習(xí)模型作為預(yù)訓(xùn)練語言模型遷移,能夠提高模型識別的準確性。
本文針對機械工程領(lǐng)域命名實體識別中成熟標注數(shù)據(jù)集少的問題,以及更好地提高識別精度,提出一種基于雙重深度遷移學(xué)習(xí)的中文命名實體識別方法。該方法應(yīng)用BERT模型對文本語義進行遷移的基礎(chǔ)上,進一步利用模型遷移的方法對命名實體識別模型的預(yù)訓(xùn)練參數(shù)實施整體遷移,建立了雙重深度遷移學(xué)習(xí)模型—DT-BLC模型,從而更好地實現(xiàn)命名實體識別具體任務(wù)知識的遷移,提升了機械工程領(lǐng)域命名實體識別的準確性,有效地解決了深度學(xué)習(xí)在機械工程領(lǐng)域中由于數(shù)據(jù)量少而導(dǎo)致的學(xué)習(xí)能力不足的問題。然后以齒輪專利為例,運用雙重遷移學(xué)習(xí)模型分別對每一年的齒輪發(fā)明專利文獻進行命名實體,運用統(tǒng)計學(xué)的方法分析齒輪的研究重點和最新發(fā)展趨勢。
雙重遷移學(xué)習(xí)模型框架如圖1所示,由兩部分組成:基于BERT的單重深度遷移學(xué)習(xí)和基于整體模型的遷移學(xué)習(xí)。先將源域數(shù)據(jù)集輸入到BERT+BiLSTM-CRF模型中獲得預(yù)訓(xùn)練參數(shù),之后將預(yù)訓(xùn)練參數(shù)輸入到訓(xùn)練模型中,并對訓(xùn)練模型進行參數(shù)凍結(jié)建立凍結(jié)的訓(xùn)練模型,接下來將目標域數(shù)據(jù)集輸入到凍結(jié)的訓(xùn)練模型進行訓(xùn)練,訓(xùn)練好的模型便成為命名實體識別器,最后輸入目標域測試數(shù)據(jù)集就能獲得識別結(jié)果。
圖1 雙重遷移學(xué)習(xí)模型框架
基于BERT的遷移學(xué)習(xí)由BERT預(yù)訓(xùn)練語言模型、BiLSTM-CRF模型組成。在模型中利用BERT預(yù)訓(xùn)練的模型參數(shù)進行模型遷移,將維基百科語料的語義關(guān)系遷移到機械工程領(lǐng)域,實現(xiàn)了模型的第一次遷移學(xué)習(xí)。
BERT的一個重要的應(yīng)用就是作為預(yù)訓(xùn)練語言模型,與其他語言表示模型相比,BERT預(yù)訓(xùn)練模型可以將經(jīng)過大規(guī)模語料所學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)為目標學(xué)習(xí)任務(wù)提供豐富的先驗知識,并將語義知識遷移到具體的模型訓(xùn)練當中,進而能夠提高模型的泛化能力和魯棒性,同時可以減少大量的人工標注工作,尤其適用于處理數(shù)據(jù)量比較少的自然語言任務(wù)。
條件隨機場(CRF)是一種概率無向圖模型,它通過計算某個序列中的聯(lián)合優(yōu)化概率,進而優(yōu)化整個序列的標簽序列。CRF概率計算式為:
(1)
在這一部分中,模型先將輸入文本通過BERT預(yù)訓(xùn)練語言模型獲得語義表示,得到句子中的每個字的向量表示后,再將字向量輸入到BiLSTM中進行序列特征的自動提取,最后通過CRF層輸出概率最大的標簽序列。
基于整體模型的遷移學(xué)習(xí)是建立在模型遷移方法的基礎(chǔ)上,并在目標數(shù)據(jù)進行訓(xùn)練時對深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的幾層權(quán)重因子進行了凍結(jié),實現(xiàn)了模型的第二次遷移學(xué)習(xí)。
模型遷移方法建立在成熟的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,首先利用大量高質(zhì)量的源數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)模型進行相關(guān)訓(xùn)練,并通過調(diào)參后得到可靠的模型。然后用此模型對目標數(shù)據(jù)集進行訓(xùn)練,訓(xùn)練時可以選擇遷移部分或全部參數(shù)。最后通過深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自適應(yīng)性對模型進行微調(diào)。由于模型的可靠性已經(jīng)得到了檢驗,提前得到了底層的模型結(jié)構(gòu)和參數(shù),為目標領(lǐng)域的訓(xùn)練提供了很好的初始化,節(jié)省了目標領(lǐng)域的訓(xùn)練時間,降低了調(diào)參難度,同時也提升了目標領(lǐng)域的建模效果。
在模型中,假設(shè)所有權(quán)重因子為vars,則權(quán)重因子可以分為兩部分:
vars=vars0+v
(2)
式中:vars0代表源域和目標域共享部分;v代表對目標域的特定處理。在模型訓(xùn)練時,將所有需要更新計算的權(quán)重因子v相應(yīng)名稱加入庫中,vars0從預(yù)訓(xùn)練模塊中繼承參數(shù),實現(xiàn)參數(shù)共享。更新時,僅訓(xùn)練更新庫中的權(quán)重因子v,沒有加入庫中的權(quán)重因子vars0在訓(xùn)練過程中只進行調(diào)用,不進行更新,將vars0權(quán)重因子進行凍結(jié)。將模型的部分權(quán)重因子進行凍結(jié)能夠充分利用預(yù)訓(xùn)練模型的先驗知識,且模型的訓(xùn)練更新參數(shù)減少將大大縮短模型每一步的訓(xùn)練時間。
在這一部分中,模型首先將源數(shù)據(jù)(MSRA數(shù)據(jù)集)輸入到預(yù)訓(xùn)練模塊中進行預(yù)訓(xùn)練,在預(yù)訓(xùn)練過程中不斷用Adam優(yōu)化器對參數(shù)進行優(yōu)化,直至達到Pre_epoch參數(shù)值;接下來將預(yù)訓(xùn)練模塊計算出的全部參數(shù)(即預(yù)訓(xùn)練參數(shù))輸入到訓(xùn)練模塊中,對訓(xùn)練模塊的參數(shù)進行初始化;然后對訓(xùn)練模塊的權(quán)重因子vars0進行凍結(jié),建立凍結(jié)的訓(xùn)練模塊,之后將目標訓(xùn)練數(shù)據(jù)(機械工程領(lǐng)域數(shù)據(jù)集)輸入到凍結(jié)的訓(xùn)練模塊中進行訓(xùn)練;最終得到機械工程領(lǐng)域的命名實體識別器。將需要進行命名實體識別的目標域測試數(shù)據(jù)輸入到命名實體識別器中,即可得到命名實體識別結(jié)果。
由于機械工程領(lǐng)域沒有成熟的標注數(shù)據(jù)集,目標域數(shù)據(jù)集采用手工標注的機械工程領(lǐng)域相關(guān)文本,數(shù)據(jù)集采用BIO標注,類別分別為材料、熱處理和零件名稱。目標域訓(xùn)練集有938個標記語句,目標域測試集有163個句子。
源數(shù)據(jù)集(即預(yù)訓(xùn)練數(shù)據(jù)集)為微軟亞洲研究院的MSRA部分數(shù)據(jù)集,數(shù)據(jù)集采用BIO標注,實體類別分別為:人名、地名和組織機構(gòu)名。源數(shù)據(jù)集有19 717個標記語句。
在測試時,只有當識別的實體邊界和實體的類型完全準確時,實體才算識別正確。命名實體識別的常用的評估指標有精確率(P)、召回率(R)和F1值。因此本文用這三個指標來判斷命名實體識別系統(tǒng)的識別效果,指標的計算方法為:
(3)
式中:TP表示模型識別正確的個數(shù);FP表示模型識別錯誤的實體個數(shù);FN表示文本中實體未識別到的個數(shù)。
實驗首先對雙重深度遷移學(xué)習(xí)模型DT-BLC與常用模型BERT+BI-LSTM-CRF在相同參數(shù)條件下的F1值、運算速度進行比較,研究雙重遷移學(xué)習(xí)對模型的改進效果,然后改變模型DT-BLC中對源域的預(yù)訓(xùn)練epoch(Per_epoch)參數(shù),探究Per_epoch參數(shù)對雙重深度遷移學(xué)習(xí)模型的影響。
模型BERT+BiLSTM-CRF和模型DT-BLC進行比較,參數(shù)設(shè)置如表1所示。
表1 模型的比較參數(shù)
對于模型DT-BLC,Pre_epoch參數(shù)分別設(shè)置為0.1、0.15、0.2、0.25、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5。
最后為了驗證實驗的有效性,將模型與BiLSTM-CRF模型和Lattice-LSTM-CRF模型的識別結(jié)果進行比較。
命名實體識別系統(tǒng)常用的評估指標有精確率、召回率和F1值,NER是復(fù)雜的任務(wù)單靠一個指標很難做評判,因此采用綜合指標F1對識別效果做判斷。
DT-BLC模型和BERT+BiLSTM-CRF模型的F1值隨迭代epoch的變化如圖2所示??梢钥闯?,在訓(xùn)練過程中,與BERT+BiLSTM-CRF模型相比,應(yīng)用了雙重遷移學(xué)習(xí)方法的DT-BLC模型的F1值更高,且DT-BLC模型在訓(xùn)練到17個epoch時,其訓(xùn)練F1已達到90%,BERT+BiLSTM-CRF模型在訓(xùn)練到40個epoch才達到90%,能夠在更短的時間達到比較高的F1值。所以基于整體模型的遷移學(xué)習(xí)能達到提升模型的識別效果和縮短訓(xùn)練時間的效果。
圖2 DT-BLC模型和BERT+BiLSTM-CRF模型的F1值隨迭代epoch的變化
雙重深度遷移學(xué)習(xí)模型DT-BLC在訓(xùn)練目標數(shù)據(jù)時,對一部分深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)值因子進行了凍結(jié),使模型訓(xùn)練過程中更新的參數(shù)更少。對DT-BLC模型和BERT+BiLSTM-CRF模型訓(xùn)練時間進行對比,實驗結(jié)果如圖3所示。
(a) DT-BLC模型和BERT+BiLSTM-CRF模型運行時間隨迭代epoch的變化
(b) DT-BLC模型和BERT+BiLSTM-CRF模型訓(xùn)練速度隨迭代epoch的變化圖3 模型的訓(xùn)練速度分析
可以看出,與模型BERT+BiLSTM-CRF相比,運算相同迭代epoch時,模型DT-BLC所需時間明顯減少,運算速度加快。表明雙重遷移學(xué)習(xí)模型在模型遷移的基礎(chǔ)上對訓(xùn)練模型的部分權(quán)重因子進行的凍結(jié),能夠在保證識別效果的同時,使每次的epoch所需要的時間更短,大大縮短了訓(xùn)練時間,提升了模型訓(xùn)練效率。
Pre_epoch參數(shù)指的是在基于整體模型的遷移學(xué)習(xí)中,預(yù)訓(xùn)練模型對源數(shù)據(jù)集訓(xùn)練的epoch,Pre_epoch的值越大代表對源數(shù)據(jù)集訓(xùn)練的迭代步數(shù)和訓(xùn)練時間越久。通過DT-BLC模型的精確率、召回率和F1隨Pre_epoch參數(shù)的變化來研究基于整體模型的遷移學(xué)習(xí)對DT-BLC模型識別效果的影響,如圖4所示。
圖4 DT-BLC模型的精確率、召回率、F1值隨Pre_epoch的變化
可以看出,當Pre_epoch為0.1(即Pre_epoch非常小)時,基于整體模型的遷移學(xué)習(xí)對模型起到抑制的作用,DT-BLC模型的精確率、召回率、F1值均為0;隨著Pre_epoch的增加,DT-BLC模型的精確率、召回率、F1值迅速增加,當Pre_epoch為0.3時,DT-BLC模型的識別效果達到一個比較大的值;而后隨著Pre_epoch的增加,DT-BLC模型精確率、召回率、F1值在一個較小的范圍內(nèi)波動。由此可知,Pre_epoch參數(shù)在值比較小時,其值變化對DT-BLC模型的識別影響比較大,在Pre_epoch參數(shù)值超過0.15后,其值的增加對模型識別影響較小,且很小的Pre_epoch參數(shù)就能對模型產(chǎn)生遷移優(yōu)化的效果。
與BiLSTM-CRF模型和Lattice-LSTM-CRF模型識別效果的比較結(jié)果如表2所示。
表2 不同模型識別效果比較(%)
將DT-BLC模型與BiLSTM-CRF模型、Lattice-LSTM-CRF模型和BERT+BiLSTM-CRF模型進行對比,發(fā)現(xiàn)DT-BLC模型的精確率、召回率和F1值均高于其他三個模型,且基于雙重深度遷移學(xué)習(xí)的DT-BLC模型,與BERT+BiLSTM-CRF模型相比,精確率高出5.01百分點,召回率高出4.84百分點,F(xiàn)1值高出4.93百分點。由此證明基于雙重深度遷移學(xué)習(xí)的DT-BLC模型能夠通過兩次遷移的方法,利用通用領(lǐng)域命名實體識別任務(wù)的參數(shù)提供先驗知識,進而提升機械工程領(lǐng)域的命名實體識別效果。
齒輪是機械領(lǐng)域重要的基礎(chǔ)性零件,其每年都有大量的專利申請受理,其對加工技術(shù)和加工機床的要求也不斷提高。因此,本文以分析齒輪專利文獻為例,分別獲取2010年至2018年的齒輪相關(guān)發(fā)明專利數(shù)據(jù)的摘要,組建面向機械領(lǐng)域的齒輪專利實驗數(shù)據(jù)文本(數(shù)據(jù)文本中有權(quán)發(fā)明專利摘要共計28 707條),然后運用DT-BLC模型對專利文本進行實體識別,通過識別結(jié)果對齒輪專利開展如下兩個方面的分析。
運用DT-BLC模型分別對每一年的齒輪發(fā)明專利文獻進行命名實體識別,然后分別針對識別到的齒輪材料、加工工藝和零部件三類實體類別,統(tǒng)計其在每年齒輪發(fā)明專利中所占的比例,以分析齒輪技術(shù)類別的發(fā)展趨勢。
齒輪發(fā)明專利各個實體類別比例隨著年份的變化趨勢如圖5所示。可以看出,每年齒輪發(fā)明專利文獻識別到的三個技術(shù)類別實體在實體總數(shù)中的比例基本不變,且零部件實體遠遠高于材料實體和加工工藝實體,其所占比例大約在97.5%。這是因為在實體識別的過程中,將機械產(chǎn)品、裝置名稱、零件和部件名稱均歸類為零部件類別,且齒輪是零件,專利研究多集中于將其與其他零件相結(jié)合組成部件或機械產(chǎn)品中。
圖5 實體比率隨年份變化
由此可得,齒輪的發(fā)明專利集中于將零件運用到機械產(chǎn)品,對其新材料在齒輪中的應(yīng)用以及新的加工方法在齒輪中的應(yīng)用相對較少,不過近年來材料實體的比例有所提升。
隨著新材料的不斷發(fā)現(xiàn),齒輪制造過程中越來越注重材料的選擇,使其具有更長的工作壽命和能夠應(yīng)用于更復(fù)雜的工況條件。因此,本文運用統(tǒng)計學(xué)方法對DT-BLC模型識別到的齒輪材料實體進行數(shù)據(jù)挖掘,分析齒輪材料應(yīng)用的研究方向和發(fā)展趨勢。
如圖6所示,對齒輪專利文獻進行命名實體識別后,識別到的材料實體最多是金屬和塑料,然后是齒輪油。由此說明在齒輪材料的研究中還是以金屬為主,而塑料也是研究重點,而齒輪油作為齒輪潤滑必不可少的材料也引起了相關(guān)學(xué)者的重點關(guān)注。對兩種重要的金屬材料不銹鋼和鋁合金進行對比發(fā)現(xiàn),不銹鋼作為齒輪材料應(yīng)用更加廣泛。同時運用新詞發(fā)現(xiàn)來探究齒輪材料新的發(fā)展方向。在DT-BLC模型識別到的材料實體中,2017年發(fā)現(xiàn)的在2010年至2016年未出現(xiàn)的材料實體可以分為三類。一類是應(yīng)用于齒輪的新材料:耐磨自潤滑尼龍、碳纖維復(fù)合材料、玻纖增強尼龍、燒結(jié)鐵合金、鎳包碳化鎢;一類是齒輪材料應(yīng)用于新材料制備,即齒輪的新應(yīng)用,包括PET塑料、芳綸Ⅲ樹脂、聚丙烯酰胺;一類是應(yīng)用于齒輪潤滑的齒輪油新材料,如:全合成超載荷抗磨極壓工業(yè)齒輪油、無硫磷有機鉬減摩劑、聚α烯烴基油。這些識別到的新詞反映了齒輪新的研究方向,對其進行發(fā)現(xiàn)能夠把握齒輪發(fā)展的趨勢,使企業(yè)及時跟進最新發(fā)展動態(tài)。
圖6 材料實體隨年份變化趨勢
本文針對機械工程領(lǐng)域,提出一種基于雙重遷移學(xué)習(xí)的中文命名實體識別方法,建立了DT-BLC模型,并對其性能進行了分析。同時,將DT-BLC模型應(yīng)用于齒輪專利的研究與發(fā)展趨勢分析。研究結(jié)果表明:
(1) 與其他模型相比,雙重深度遷移學(xué)習(xí)模型DT-BLC的精確率、召回率和F1值均得到提升。
(2) 隨著Pre_epoch參數(shù)的增加,雙重深度遷移學(xué)習(xí)模型DT-BLC的識別效果迅速提升,并且穩(wěn)定在一定范圍內(nèi)。
(3) 通過對DT-BLC模型識別后的齒輪專利實體進行分析,得出齒輪發(fā)明專利多集中于將零件運用到機械產(chǎn)品,同時齒輪材料依然以金屬為主,不過近年來新材料的研發(fā)也得到較多關(guān)注。