基于實體級遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實體識別

2022-11-13 07:57:04韋紫君胡小春陳寧江

農(nóng)業(yè)工程學(xué)報 2022年15期

韋紫君，宋玲，胡小春，陳寧江,3

韋紫君1，宋玲2,3※，胡小春4，陳寧江1,3

（1. 廣西大學(xué)計算機與電子信息學(xué)院，南寧 530004；2.南寧學(xué)院信息工程學(xué)院，南寧 530200；3. 廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室，南寧 530004；4.廣西財經(jīng)學(xué)院信息與統(tǒng)計學(xué)院，南寧 530007）

字符的位置信息和語義信息對命名方式繁雜且名稱長度較長的中文農(nóng)業(yè)實體的識別至關(guān)重要。為解決命名實體識別過程中由于捕獲字符位置信息、上下文語義特征和長距離依賴信息不充足導(dǎo)致識別效果不理想的問題，該研究提出一種基于EmBERT-BiLSTM-CRF模型的中文農(nóng)業(yè)命名實體識別方法。該方法采用基于Transformer的深度雙向預(yù)訓(xùn)練語言模型（Bidirectional Encoder Representation from Transformers，BERT）作為嵌入層提取字向量的深度雙向表示，并使用實體級遮蔽策略使模型更好地表征中文語義；然后使用雙向長短時記憶網(wǎng)絡(luò)（Bidirectional Long Short-Term Memory，BiLSTM）學(xué)習(xí)文本的長序列語義特征；最后使用條件隨機場（Conditional Random Field，CRF）在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)標注約束規(guī)則，并利用相鄰標簽之間的信息輸出全局最優(yōu)的標注序列。訓(xùn)練過程中使用了焦點損失函數(shù)來緩解樣本分布不均衡的問題。試驗在構(gòu)建的語料庫上對農(nóng)作物品種、病害、蟲害和農(nóng)藥4類農(nóng)業(yè)實體進行識別。結(jié)果表明，該研究的EmBERT-BiLSTM-CRF模型對4類農(nóng)業(yè)實體的識別性能相較于其他模型有明顯提升，準確率為94.97%，1值為95.93%。

農(nóng)業(yè)；命名實體識別；實體級遮蔽；BERT；BiLSTM；CRF

0 引言

隨著信息化技術(shù)的快速發(fā)展，農(nóng)戶通過線上智能問答解決線下農(nóng)業(yè)問題已成為趨勢。面對龐大的問答數(shù)據(jù)，如何對數(shù)據(jù)進行分類、關(guān)鍵詞定位、深層語義關(guān)系挖掘是實現(xiàn)智能問答的關(guān)鍵，同時也是自然語言處理（Natural Language Processing，NLP）和農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的熱點研究方向[1]。命名實體識別[2]（Named Entity Recognition，NER）是自然語言處理、智能問答[3]和知識圖譜構(gòu)建[4]等領(lǐng)域的關(guān)鍵技術(shù)，其主要任務(wù)是從非結(jié)構(gòu)化文本中識別出有意義的名詞或短語并加以歸類，而農(nóng)業(yè)命名實體識別任務(wù)則是識別出農(nóng)業(yè)文本中的相關(guān)實體，如農(nóng)作物品種、病害、蟲害和農(nóng)藥名稱等。當前中文農(nóng)業(yè)命名實體識別存在以下兩方面的問題：一是農(nóng)業(yè)知識數(shù)據(jù)尤其是標記好的數(shù)據(jù)集難以獲得，導(dǎo)致模型性能和準確率達不到預(yù)期效果；二是農(nóng)業(yè)實體命名方式繁雜多變且名稱長度較長，并缺乏標準的數(shù)據(jù)集和構(gòu)詞規(guī)范，難以對農(nóng)業(yè)語料進行分詞、分類、語義挖掘等操作。

早期的命名實體識別研究大多是基于規(guī)則的方法[5-6]，先根據(jù)特定領(lǐng)域知識手工設(shè)計規(guī)則并做成詞典，然后通過模式匹配等方式來實現(xiàn)命名實體識別。此類方法高度依賴人工設(shè)計規(guī)則，對語料庫與標準構(gòu)詞規(guī)范的依賴性很高，難以準確識別構(gòu)詞復(fù)雜的命名實體。隨著機器學(xué)習(xí)的應(yīng)用，開始將命名實體識別任務(wù)建模為多分類任務(wù)或序列標注任務(wù)，訓(xùn)練模型從標記好的數(shù)據(jù)中學(xué)習(xí)實體的命名模式，再對未標記數(shù)據(jù)進行命名實體預(yù)測。文獻 [7]提出基于條件隨機場（Conditional Random Field，CRF）的農(nóng)作物病蟲害及農(nóng)藥命名實體識別方法，利用標注后的數(shù)據(jù)訓(xùn)練CRF模型并對語料進行分類。文獻[8]使用BIO（Begin, Inside, Outside）和BMES（Begin, Middle, End, Single）2種標注方式，根據(jù)不同分類進行特征選取，再基于CRF模型對農(nóng)業(yè)命名實體進行識別。上述方法通常需要大規(guī)模的標注語料，而中文農(nóng)業(yè)命名實體識別任務(wù)的標準語料庫難以獲得，增加了農(nóng)業(yè)實體的識別難度，影響識別效果。

利用深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)深層語義特征，為命名實體識別任務(wù)提供了更多可借鑒的方法[9]。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN，Recurrent Neural Network）+CRF和卷積神經(jīng)網(wǎng)絡(luò)（CNN，Convolutional Neural Network）+RNN+CRF 2種網(wǎng)絡(luò)結(jié)構(gòu)開始被廣泛應(yīng)用于命名實體識別任務(wù)。RNN+CRF結(jié)構(gòu)[10-11]，將帶有語義信息的字符嵌入輸入到RNN（如雙向長短時記憶網(wǎng)絡(luò)（Bidirectional Long Short-Term Memory，BiLSTM）、雙向門控神經(jīng)網(wǎng)絡(luò)）中，進一步學(xué)習(xí)文本的長序列語義特征；再使用CRF輸出全局最優(yōu)的標注序列。文獻[12]利用連續(xù)詞袋模型預(yù)訓(xùn)練字向量，并引入文檔級注意力機制獲取實體間的相似信息，基于BiLSTM-CRF模型構(gòu)建農(nóng)業(yè)命名實體識別框架，解決農(nóng)業(yè)中分詞不準確和實體標注不一致的問題。文獻[13]針對漁業(yè)領(lǐng)域命名實體長度較長的特點，使用長短時記憶網(wǎng)絡(luò)（LSTM，Long Short-Term Memory）學(xué)習(xí)長距離依賴信息，并將標記信息融入CRF模型，構(gòu)建Character+LSTM+CRF漁業(yè)實體識別模型，解決漁業(yè)實體較長造成識別效果較差的問題。CNN+RNN+CRF結(jié)構(gòu)[14-15]，通常是在RNN+CRF結(jié)構(gòu)的基礎(chǔ)上，先利用CNN提取具有漢字偏旁部首特征信息的部首嵌入，再將部首嵌入與帶有語義信息的字符嵌入相結(jié)合作為最終的輸入，同時考慮中文字符的部首信息和語義信息。文獻[16]采用基于部首嵌入和注意力機制的農(nóng)業(yè)病蟲害命名實體識別模型，將部首嵌入與字符嵌入結(jié)合作為輸入，采用不同尺寸窗口的卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的局部上下文信息，基于BiLSTM-CRF框架對農(nóng)業(yè)病蟲害實體進行識別，緩解了農(nóng)業(yè)中內(nèi)在語義信息缺失的問題。上述方法均使用Word2Vec[17-18]模型作為嵌入層，而Word2Vec輸出的是上下文無關(guān)的淺層特征向量，因此無法表征一詞多義。中文里不少詞匯都具有一詞多義，并且中文農(nóng)業(yè)命名實體具有構(gòu)詞復(fù)雜和實體長度較長的特點，因此字符的位置和上下文依賴信息至關(guān)重要，而上述方法無法充分考慮以上2種信息，就會影響識別效果。預(yù)訓(xùn)練語言模型（BERT[19]、ERNIE[20]等），通過預(yù)訓(xùn)練字向量的深度雙向表示，進一步提高了命名實體識別的性能。文獻[21]基于外部詞典和BERT模型，利用特征向量拼接的方式融合字級特征和詞典特征對農(nóng)業(yè)領(lǐng)域的5類實體進行識別，提高了農(nóng)業(yè)命名實體識別的性能。該方法利用外部詞典來輔助提取詞級特征，但基于詞典提取的詞級特征向量是固定的，即對于具有一詞多義的詞匯來說其不同語義得到的是相同的特征表示，因此并不能很好的區(qū)分其間的語義差異。并且基于詞典的方法具有一定的局限性，不能很好地處理輸入句子中出現(xiàn)詞典中不存在的詞。文獻[22]采用基于BERT+BiLSTM+Attention模型，利用BERT預(yù)訓(xùn)練字向量，再融合BiLSTM與注意力機制去重點關(guān)注文本中的主要特征，解決中醫(yī)病歷文本有效信息識別和抽取困難的問題。文獻[23]采用融合注意力機制與BERT+BiLSTM+CRF模型，利用BERT提高模型語義表征能力和使用注意力機制計算序列詞間相關(guān)性，解決漁業(yè)標準定量指標識別準確率不高的問題。上述方法針對特定領(lǐng)域和具有明顯實體特征的命名實體識別效果較好，但不同領(lǐng)域的實體特征間存在差異，并且在農(nóng)業(yè)中存在具有邊界模糊特點的命名實體，因此無法將以上方法直接應(yīng)用于農(nóng)業(yè)領(lǐng)域。

基于以上農(nóng)業(yè)命名實體識別任務(wù)中缺少標準語料庫、模型無法充分表征中文語義和名稱長度較長的實體識別準確率低的問題，本文做了以下工作：1）基于權(quán)威農(nóng)業(yè)信息網(wǎng)站的相關(guān)信息，構(gòu)建一個中文農(nóng)業(yè)命名實體識別語料庫；2）使用預(yù)訓(xùn)練語言模型BERT作為嵌入層，從無標簽的文本中預(yù)訓(xùn)練出字向量的深度雙向表示，并根據(jù)中文的特點改進原有的語言遮蔽方法，使用實體級遮蔽策略讓模型對文本中的完整實體進行遮蔽和預(yù)測，使模型更好地表征中文的語義；3）使用焦點損失函數(shù)緩解樣本分布不均衡問題，提高模型對難識別樣本的識別能力；4）使用BiLSTM-CRF模型作為下游任務(wù)模型，將BERT中獲取的字向量深度雙向表示序列輸入到雙向長短時記憶網(wǎng)絡(luò)（BiLSTM）中做進一步的語義編碼，學(xué)習(xí)文本的長序列語義特征；最后通過CRF層輸出概率最大的標注序列，實現(xiàn)農(nóng)業(yè)命名實體的準確識別。并通過對比試驗，驗證本文方法對中文農(nóng)業(yè)命名實體的有效識別。

1 數(shù)據(jù)集構(gòu)建

1.1 數(shù)據(jù)獲取

本文語料是在各大權(quán)威農(nóng)業(yè)信息網(wǎng)站（如中國作物種質(zhì)信息網(wǎng)、中國農(nóng)業(yè)信息網(wǎng)、中國農(nóng)業(yè)知識網(wǎng)等）爬取的包含農(nóng)作物病蟲害、農(nóng)作物品種和農(nóng)藥品種相關(guān)的文本。原始數(shù)據(jù)中包含大量非結(jié)構(gòu)化數(shù)據(jù)，因此在數(shù)據(jù)標注前對原始數(shù)據(jù)進行預(yù)處理，包括非文本數(shù)據(jù)、鏈接及特殊字符刪除和去停用詞等操作，從而得到一個規(guī)范的語料庫。該語料庫包含37 243個農(nóng)業(yè)領(lǐng)域的中文句子，29 790個農(nóng)業(yè)類實體，共約180萬個中文字符。其中訓(xùn)練集、驗證集和測試集按7:2:1的比例進行分配。語料庫信息如表1所示。

表1 語料庫信息

1.2 標注體系

本文采用BIO體系對語料進行標注，共設(shè)計9個標簽，分別是“B-CROP”、“I-CROP”、“B-DIS”、“I-DIS”、“B-PEST”、“I-PEST”、“B-PC”、“I-PC”、“O”。其中“B”表示實體名稱的開始，“I”表示實體名稱的內(nèi)部，“O”表示非實體部分。實體類型表示如下：“CROP”表示農(nóng)作物品種，“DIS”表示農(nóng)作物病害，“PEST”表示農(nóng)作物蟲害，“PC”表示農(nóng)藥品種。語料標注示例如圖1所示。標注后的數(shù)據(jù)集有29 790個命名實體，其中農(nóng)作物實體11 057個，農(nóng)藥實體8 121個，病害實體4 505個，蟲害實體6 107個。

圖1 語料標注示例

2 農(nóng)業(yè)命名實體識別方法的設(shè)計

2.1 方法流程及模型架構(gòu)

農(nóng)業(yè)命名實體識別方法流程如圖2所示，該方法主要分為中文農(nóng)業(yè)命名實體識別語料庫構(gòu)建、預(yù)訓(xùn)練和下游NER模型訓(xùn)練3個部分。該方法在預(yù)訓(xùn)練中根據(jù)中文語義的特點改進了語言遮蔽方法，使用實體級遮蔽策略代替單個字符遮蔽策略，使訓(xùn)練得到的模型能夠更好地表征中文語義。

圖2 農(nóng)業(yè)命名實體識別方法流程

使用EmBERT-BiLSTM-CRF模型實現(xiàn)中文農(nóng)業(yè)命名實體識別任務(wù)，模型由輸入層、BERT層、BiLSTM層和CRF層4部分組成。其中BERT層用于生成字向量的深度雙向表示；BiLSTM層用于挖掘文本的長序列語義信息，使模型充分考慮上下文語境；CRF層用于學(xué)習(xí)標注約束規(guī)則，并對BiLSTM的輸出進行標注合法性檢驗，最終輸出全局最優(yōu)的標注序列，模型輸出的不是獨立的標簽序列，而是考慮規(guī)則和順序的最佳序列。模型結(jié)構(gòu)如圖3所示。

2.2 BERT層和實體級遮蔽策略

BERT[19]是基于Transformer[24]的深度雙向預(yù)訓(xùn)練語言模型，能夠通過對所有層的上下文進行聯(lián)合調(diào)節(jié)，從無標簽文本中預(yù)訓(xùn)練出特征的深度雙向表示，使特征向量可充分表征上下文語義信息，可有效解決傳統(tǒng)Word2Vec模型無法解決的一詞多義問題。多數(shù)中文農(nóng)業(yè)實體的命名方式繁雜多變且名稱長度較長，其識別過程中，每個字符的位置和語義信息是關(guān)鍵。BERT模型的輸入表示由字符的位置嵌入、段嵌入與token嵌入3種特征嵌入表示求和來構(gòu)建的，充分考慮了字符的位置信息。預(yù)訓(xùn)練期間使用遮蔽語言模型，使訓(xùn)練得到的特征向量攜帶上下文語義信息，因此本文使用BERT作為模型的嵌入層。

圖3 EmBERT-BiLSTM-CRF模型結(jié)構(gòu)

為訓(xùn)練出深度雙向表示，采用對輸入文本進行隨機遮蔽的方式，讓模型預(yù)測那些被遮蔽的字符。BERT原有的遮蔽方法是使用單個[MASK]標志對文本中的單個字符進行遮蔽，但中文的一個實體往往是由多個中文字符組成的，如果依然使用原有的遮蔽方法則無法將整個實體完整遮蔽，導(dǎo)致模型在預(yù)測被遮蔽詞時會產(chǎn)生偏差，從而無法準確預(yù)測。因此本文將改進BERT原有的語言遮蔽方法，使用實體級遮蔽策略（Entity-level Masking，EM）對中文文本進行遮蔽。EM首先對文本進行中文分詞和利用實體詞典進行實體分析，然后使用多個連續(xù)的[MASK]標志對整個中文實體進行遮蔽，再讓模型預(yù)測完整實體中被[MASK]標志替換的所有字符，獲得實體級的特征信息，從而緩解在進行中文預(yù)測時因語義不完整造成的偏差。在訓(xùn)練過程中，模型對全文中的實體進行隨機遮蔽，組成所有被遮蔽實體的中文字符共占全文總字符的15%。被選中遮蔽的實體中，80%被連續(xù)的[MASK]標志替換，10%被語料庫中任意的實體替換，10%保持不變。EM方法如圖4所示，示例如表2所示。

注：x1～ xn表示輸入序列中的字符。[MASK]表示當前字符被遮蔽。

表2 實體級遮蔽示例

由于使用了遮蔽策略，訓(xùn)練過程中Transformer編碼器并不知道將預(yù)測哪些字符或哪些字符已經(jīng)被替換，所以保留了所有字符的上下文分布表示，使每一個字符最終攜帶其上下文語義信息。并且實體級遮蔽策略能讓模型學(xué)習(xí)到實體級的特征信息，對于不同語義的同一實體或一個句子中不同位置的同一實體都能產(chǎn)生不同的特征向量，從而有效緩解中文中一詞多義的問題。

2.3 BiLSTM層

農(nóng)業(yè)領(lǐng)域的實體命名中有不少病害和蟲害實體長度為8個或以上中文字符，例如“水稻東格魯病毒病”、“水稻菲島毛眼水蠅”、“水稻顯紋縱卷葉螟”等；農(nóng)藥實體長度為7個或以上中文字符，例如“丁硫克百威乳油”、“吡蟲啉可濕性粉劑”等。農(nóng)業(yè)命名實體具有較大的上下文長距離依賴性，因此利用BiLSTM網(wǎng)絡(luò)學(xué)習(xí)文本的長序列語義特征。

LSTM[27]只能捕獲當前時刻狀態(tài)之前的信息，無法捕獲之后的信息，因此無法同時考慮文本的上下文語境。雙向長短時記憶網(wǎng)絡(luò)（BiLSTM）[28-29]由前向LSTM和后向LSTM構(gòu)成，前向LSTM利用上文的信息來預(yù)測當前詞，后向LSTM利用下文的信息來預(yù)測當前詞，因此可同時利用文本上下文信息，學(xué)習(xí)文本的長序列語義特征，提高模型的識別能力。

2.4 焦點損失函數(shù)

構(gòu)建語料庫時，數(shù)據(jù)為基于爬蟲技術(shù)從網(wǎng)絡(luò)中爬取的各種文本信息，數(shù)據(jù)存在一定的隨機性，導(dǎo)致語料庫通常存在樣本分布不均衡的問題。例如語料庫中某一種標簽的樣本數(shù)量遠多于其他標簽的樣本數(shù)量，導(dǎo)致訓(xùn)練過程中損失函數(shù)的分布失衡，使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標簽，造成樣本數(shù)量少的標簽的識別性能較差。

為了緩解樣本分布不均衡帶來的問題，本文利用焦點損失函數(shù)[30]（Focal Loss，F(xiàn)L）在訓(xùn)練過程中平衡樣本的權(quán)重，通過減少易識別樣本在損失函數(shù)中的權(quán)重，讓模型更關(guān)注于難識別樣本。FL在交叉熵損失函數(shù)的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來平衡樣本分布，算法見公式（7）。

2.5 CRF層

BiLSTM的輸出相互獨立，無法考慮相鄰標簽之間的信息，直接使用BiLSTM的輸出結(jié)果預(yù)測標簽容易出現(xiàn)非法標注的問題，如表3所示。因此，本文在BiLSTM層之上加入CRF層來緩解標注偏置問題，從而提高序列標注的準確性。利用條件隨機場[31]（CRF）在訓(xùn)練數(shù)據(jù)中自動學(xué)習(xí)標注的約束規(guī)則，例如標注序列只能以“B-”或“O”開頭，不能以“I-”開頭；實體標注序列只能以“B-”開頭，不能以“O”或“I-”開頭；標注序列“B-label1 I-label2 I-label3...”中的labe1、label2、label3...應(yīng)該為同一種標簽等，CRF將學(xué)習(xí)到的約束規(guī)則在預(yù)測時用于檢測標注序列是否合法。

表3 非法標注序列示例

序列標注中，CRF不僅考慮當前時刻的觀察狀態(tài)，也考慮之前時刻的隱藏狀態(tài)，因此能夠充分利用相鄰標簽之間的信息，使最終的輸出不是獨立的標簽序列，而是考慮規(guī)則和順序的最佳序列。設(shè)={1,2,3,…,x}為輸入的觀察序列，={1,2,3,…,y}為對應(yīng)的輸出標注序列，CRF層在給定需要標注的觀察序列的條件下，計算整個序列的聯(lián)合概率分布，最終輸出一個全局最優(yōu)的標注序列，算法見公式（8）。

3 試驗與結(jié)果分析

試驗數(shù)據(jù)集采用第1小節(jié)構(gòu)建的農(nóng)業(yè)命名實體識別語料庫，其中訓(xùn)練集、驗證集和測試集的比例為7:2:1。采用實體級遮蔽策略的BERT模型（EmBERT），網(wǎng)絡(luò)層數(shù)為12層，隱藏層維度為768，多頭注意力機制中自注意力（Self Attention）頭的數(shù)量為12。下游模型中使用的雙向長短時記憶網(wǎng)絡(luò)（BiLSTM）的隱藏層維度（lstm_dim）為128。為預(yù)防過擬合同時提高模型的泛化能力，在模型中引入了Dropout[32]機制。

3.1 試驗設(shè)置

試驗過程中需要優(yōu)化調(diào)整的參數(shù)主要有學(xué)習(xí)率（learning_rate）、失活率（dropout_rate）、批處理規(guī)模（batch_size）和迭代次數(shù)（epochs）。學(xué)習(xí)率過大容易導(dǎo)致模型的損失增大、準確率降低；學(xué)習(xí)率過小則容易導(dǎo)致模型的收斂速度下降，因此合適的學(xué)習(xí)率是模型整體獲得良好性能的保證。失活率是模型訓(xùn)練時神經(jīng)元不更新權(quán)重的概率，用于防止模型過擬合，通常失活率設(shè)置為0.5。批處理規(guī)模即每批次訓(xùn)練的樣本數(shù)量，其在一定程度上影響模型的數(shù)據(jù)處理速度和收斂精度；batch_size過大模型容易收斂到一些較差的局部最優(yōu)點上，batch_size過小則容易導(dǎo)致模型不收斂或需要很大的epochs才能收斂。epochs為模型進行全數(shù)據(jù)訓(xùn)練的次數(shù)（如1個epoch表示模型完整訓(xùn)練一次），通常需要多個epochs來保證模型獲得最好的學(xué)習(xí)效果。經(jīng)過多次對比試驗得到的最優(yōu)參數(shù)設(shè)置如下，使用Adam[33]優(yōu)化器，learning_rate為7e-5，dropout_rate為0.5，batch_size為32，epochs為150。

3.2 評價指標

試驗采用召回率、準確率和1值來衡量模型的性能，評價指標計算公式如下：

式中TruePositive為準確識別的農(nóng)業(yè)實體個數(shù)，ActualPositive為數(shù)據(jù)集中存在的農(nóng)業(yè)實體總數(shù)，PredictPositive為識別出的農(nóng)業(yè)實體總數(shù)。

3.3 結(jié)果與分析

面向農(nóng)業(yè)領(lǐng)域4類實體（農(nóng)作物、農(nóng)藥、病害、蟲害），利用構(gòu)建的農(nóng)業(yè)命名實體識別語料庫，設(shè)置3組對比試驗驗證分析本文提出的農(nóng)業(yè)命名實體識別方法的有效性。

1）不同遮蔽策略性能的比較分析

為驗證實體級遮蔽策略對提高中文農(nóng)業(yè)命名實體推理和識別能力的有效性，分別對不使用遮蔽策略(No Masking)的模型Word2Vec+BiLSTM+CRF、使用字符級遮蔽策略(Word-level Masking(Chinese character))的模型Word-level Masking BERT+BiLSTM+CRF和使用實體級遮蔽策略(Entity-level Masking)的模型Entity-level masking BERT+BiLSTM+CRF進行對比試驗，試驗結(jié)果如表4所示。

表4 不同遮蔽策略試驗結(jié)果

由表4可看出，使用實體級遮蔽策略的模型性能最好，準確率達到了94.56%。此外，使用實體級遮蔽策略相較于使用字符級遮蔽策略，模型的準確率、召回率和1值分別提高了2.59、1.7和2.15個百分點；相較于不使用遮蔽策略，模型的準確率、召回率和F1值分別提高了5.79、2.08和4個百分點。不使用遮蔽策略時，模型輸出的字向量不包含上下文語義信息，難以解決一詞多義的問題，因此模型識別性能相對較弱，準確率僅為88.77%。使用字符級遮蔽策略，通過對文本中的字符進行隨機遮蔽，再讓模型預(yù)測被遮蔽的字符，使編碼器保留了每個字符的上下文分布表示，通過利用上下文信息在一定程度上解決了一詞多義的問題，因此模型識別性能有較好的提升，準確率為91.97%。與字符級遮蔽策略相比，實體遮蔽策略是對文本中的完整實體進行隨機遮蔽，再讓模型預(yù)測被遮蔽實體中所有被[MASK]標志替換的中文字符，使模型可以學(xué)習(xí)到完整的實體級語義信息，提高對中文語義的推理和表征能力，因此模型的性能得到了進一步的提升，準確率為94.56%。

2）不同損失函數(shù)性能的比較分析

為驗證焦點損失函數(shù)對提高中文農(nóng)業(yè)命名實體識別能力的有效性，分別利用不同損失函數(shù)在EmBERT-BiLSTM-CRF模型上進行消融試驗，試驗結(jié)果如表5所示。

表5 不同損失函數(shù)試驗結(jié)果

注：CE為交叉熵損失，CRF為條件隨機場損失，F(xiàn)L為焦點損失。“√”表示模型中用到的損失函數(shù)。

Note: CE is the cross entropy loss, CRF is the conditional random field loss, FL is the focal loss. “√” indicates that the loss function is used in the model.

由試驗結(jié)果可看出，使用CRF損失+FL的模型識別性能最好，1值為95.93%。其中，使用交叉熵損失（Cross Entropy，CE）的模型在樣本分布不均衡時，損失函數(shù)的分布發(fā)生傾斜，使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標簽，導(dǎo)致樣本數(shù)量少的標簽的識別效果較差，模型的整體識別性能較差，1值為91.20%。使用焦點損失（FL）的模型，在CE的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來在增大數(shù)量少的標簽樣本在損失函數(shù)中的權(quán)重，讓模型在訓(xùn)練過程中傾向于難識別樣本，提高了模型對難識別樣本的識別能力，緩解了樣本分布不均衡導(dǎo)致數(shù)量少的標簽樣本識別效果較差的問題，因此相較于CE其識別性能有所提升，模型1值為91.89%。使用CRF損失的模型，通過計算標簽間的轉(zhuǎn)移分數(shù)來建模標簽轉(zhuǎn)移路徑，然后訓(xùn)練模型最大化真實路徑的概率，讓模型利用相鄰標簽的信息來輸出最優(yōu)的標注序列，因此相較于單獨使用CE和FL的模型，其識別性能有較大提升，模型1值達到95.50%。使用CRF損失+FL的模型涵蓋了CRF損失和FL的優(yōu)點，不僅能緩解樣本分布不均衡帶來的問題還能利用相鄰標簽之間的信息，因此其識別性能優(yōu)于上述所有模型，模型1值為95.93%。同時本文通過對FL中和的不同取值進行對比試驗，由試驗結(jié)果得出=0.25，=2.0時模型獲得最優(yōu)性能，試驗結(jié)果如表6所示。

表6 FL不同α和γ的試驗結(jié)果

注：為權(quán)重因子，為聚焦參數(shù)。

Note:is the weighting factor,is the focusing parameter.

3）不同模型性能的比較分析

為驗證EmBERT-BiLSTM-CRF模型對中文農(nóng)業(yè)命名實體識別的性能，分別與BiLSTM、LSTM-CRF[13]、BiLSTM-CRF[28]和BERT-BiLSTM-CRF模型進行對比試驗，試驗結(jié)果如表7所示。由試驗結(jié)果可看出，本文模型的識別性能優(yōu)于其他對比模型。

表7 不同模型試驗結(jié)果

注：EmBERT-BiLSTM-CRF*為使用了實體級遮蔽策略但沒有使用FL的模型。EmBERT-BiLSTM-CRF為使用了實體級遮蔽策略和FL的模型。

Note: EmBERT-BiLSTM-CRF* is a model that uses an entity-level masking strategy but does not use FL. EmBERT-BiLSTM-CRF is a model that uses an entity-level strategy and FL.

BiLSTM模型的輸出相互獨立，在進行標簽預(yù)測時會出現(xiàn)標注偏置問題，因此其識別效果相對較差，模型1值為89.55%。LSTM-CRF和BiLSTM-CRF模型在LSTM和BiLSTM模型的基礎(chǔ)上增加了CRF層，通過學(xué)習(xí)標注約束規(guī)則和利用相鄰標簽的信息，獲得一個全局最優(yōu)的標注序列來緩解標注偏置問題,與模型①相比，增加了CRF層的模型②③識別效果有所提升，1值分別為91.04%、91.50%。BERT-BiLSTM-CRF模型在BiLSTM-CRF模型的基礎(chǔ)上引入了BERT預(yù)訓(xùn)練語言模型作為嵌入層，使模型更充分的考慮了字符的位置信息和上下文語義信息，與模型①②③相比其識別效果有所提升，1值為93.35%。

EmBERT-BiLSTM-CRF*模型不僅使用了BERT作為嵌入層學(xué)習(xí)字符的深度雙向表示，并且根據(jù)中文語義的特點改進了語言遮蔽方法，使用實體級遮蔽策略（EM）對文本中的實體進行完整的遮蔽和預(yù)測，使模型能更好地表征中文語義，其識別效果相較于模型①②③④有了較大提升，1值為95.50%。EmBERT-BiLSTM-CRF模型在EmBERT-BiLSTM-CRF*的基礎(chǔ)上引入焦點損失函數(shù)來緩解樣本分布不均衡問題，通過增大數(shù)量少的標簽樣本在損失函數(shù)中的權(quán)重，讓模型在訓(xùn)練過程中更關(guān)注難識別樣本，提高模型對難識別樣本的識別能力，模型的識別效果優(yōu)于上述所有模型，1值為95.93%。試驗驗證了在中文農(nóng)業(yè)命名實體識別的過程中，字符的位置信息和提高模型對實體完整語義的推理能力，對于農(nóng)業(yè)實體的準確識別起到重要作用。

圖5為不同模型對于農(nóng)業(yè)領(lǐng)域4類命名實體識別的效果。從圖5中可以看到，在所有實體類別中各個模型對農(nóng)作物、農(nóng)藥和蟲害實體的識別效果相對較好，對病害實體的識別效果相對較差。通過分析得到，蟲害和農(nóng)藥實體的識別效果較好是因為農(nóng)藥實體大多以“劑”、“乳油”等字詞結(jié)尾，蟲害實體大多以“虱”、“蟲”、“蟬”、“蚜”等字結(jié)尾，這兩類實體均具有較為明顯的實體特征，從而使模型對于這兩類實體的識別效果較好。農(nóng)作物實體的長度相對較短，大多為2至3個中文字符，因此模型對農(nóng)作物實體特征的捕獲更完整，對其識別效果也相對較好。病害實體中存在一些類似于“水稻倒伏”、“小麥混雜退化”、“花生爛種”等實體特征不太明顯的實體，并且大多數(shù)病害實體存在實體嵌套的現(xiàn)象，例如“玉米圓斑病”、“水稻惡苗病”、“水稻東格魯病毒病”等，這使得模型對于病害實體識別的效果相對較差。本文的EmBERT-BiLSTM-CRF模型對病害實體的識別準確率均高于其他幾個模型，說明使用實體級遮蔽策略對實體進行完整遮蔽和預(yù)測，使模型更充分地捕獲和表征字符的完整語義信息，從而提高農(nóng)業(yè)命名實體的識別效果。

圖5 不同模型對4類農(nóng)業(yè)命名實體識別結(jié)果

4 結(jié) 論

本文針對中文農(nóng)業(yè)命名實體長度較長且命名方式繁雜多變，導(dǎo)致識別準確率較低的問題，提出基于EmBERT-BiLSTM-CRF模型的農(nóng)業(yè)命名實體識別方法。通過使用BERT（Bidirectional Encoder Representation from Transformers）預(yù)訓(xùn)練語言模型作為嵌入層，充分考慮字符的位置信息和上下文語義信息，并根據(jù)中文語義的特點改進了BERT原有的語言遮蔽方法，使用實體級遮蔽策略讓模型對中文實體進行完整遮蔽，學(xué)習(xí)獲得實體級的特征信息，從而緩解模型在預(yù)測時因語義不完整造成的偏差，增強模型對中文語義的表征能力。同時在訓(xùn)練過程中使用焦點損失函數(shù)，增大數(shù)量少的標簽樣本在損失函數(shù)中的權(quán)重，提高模型對難識別樣本的識別能力。利用雙向長短時記憶網(wǎng)絡(luò)學(xué)習(xí)文本的長距離依賴信息，再使用條件隨機場去獲得全局最優(yōu)標注序列，使得整個模型的識別效果得到了明顯提升。模型的準確率為94.97%，召回率為96.92%，1值為95.93%。由于農(nóng)業(yè)實體中存在著實體嵌套和實體特征不明顯的問題，因此本文的下一步研究方向?qū)⒅赜趯嶓w特征不明顯、實體邊界模糊的實體的識別方法的研究。

[1] 金寧，趙春江，吳華瑞，等. 基于BiGRU＿MulCNN的農(nóng)業(yè)問答問句分類技術(shù)研究[J]. 農(nóng)業(yè)機械學(xué)報，2020，51(5)：199-206.

Jin Ning, Zhao Chunjiang, Wu Huarui, et al. Classification technology of agricultural questions based on BiGRU_MulCNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 199-206. (in Chinese with English abstract)

[2] Li J, Sun A, Han J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.

[3] Mollá D, van Zaanen M, Smith D. Named entity recognition for question answering[C]// Proceedings of the Australasian Language Technology Workshop 2006, Carlton, Vic, Australasian Language Technology Association, 2006: 51-58.

[4] 吳賽賽，周愛蓮，謝能付，等. 基于深度學(xué)習(xí)的作物病蟲害可視化知識圖譜構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報，2020，36(24)：177-185.

Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

[5] Hanisch D, Fundel K, Mevissen H T, et al. ProMiner: Rule-based protein and gene entity recognition[J]. BMC Bioinformatics, 2005, 6(1): 1-9.

[6] Kim J H, Woodland P C. A rule-based named entity recognition system for speech input[C]// Sixth International Conference on Spoken Language Processing, Beijing, China, ISCA, 2000: 521-524

[7] 李想，魏小紅，賈璐，等. 基于條件隨機場的農(nóng)作物病蟲害及農(nóng)藥命名實體識別[J]. 農(nóng)業(yè)機械學(xué)報，2017，48(S1)：178-185.

Li Xiang, Wei Xiaohong, Jia Lu, et al. Recognition of crops, diseases and pesticides named entities in Chinese based on conditional random fields[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1):178-185. (in Chinese with English abstract)

[8] 王春雨，王芳. 基于條件隨機場的農(nóng)業(yè)命名實體識別研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報，2014，37(1)：132-135.

Wang Chunyu, Wang Fang. Study on recognition of chinese agricultural named entity with conditional random fields[J]. Journal of Agricultural University of Hebei, 2014, 37(1): 132-135. (in Chinese with English abstract)

[9] Zhai F, Potdar S, Xiang B, et al. Neural models for sequence chunking[C]//Proceedings of the AAAI Conference on Artificial Intelligence, San Francisco, California, USA, AAAI, 2017: 3365-3371.

[10] Gridach M. Character-level neural network for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2017, 70: 85-91.

[11] Dong C, Zhang J, Zong C, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M]//Natural Language Understanding and Intelligent Applications. Cham: Springer, 2016: 239-250.

[12] 趙鵬飛，趙春江，吳華瑞，等. 基于注意力機制的農(nóng)業(yè)文本命名實體識別[J]. 農(nóng)業(yè)機械學(xué)報，2021，52(1)：185-192.

Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Research on named entity recognition of Chinese Agricultural based on attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(1): 185-192. (in Chinese with English abstract)

[13] 孫娟娟，于紅，馮艷紅，等. 基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實體識別[J]. 大連海洋大學(xué)學(xué)報，2018，33(2)：265-269.

Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)

[14] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[C]//Proceedings of the 2nd Workshop on Representation Learning for NLP, Vancouver, Canada, Association for Computational Linguistics, 2017: 252-256.

[15] 李麗雙，郭元凱. 基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實體識別[J]. 中文信息學(xué)報，2018，32(1)：116-122.

Li Lishuang, Guo Yuankai. Biomedical named entity recognition with CNN-BLSTM-CRF [J]. Journal of Chinese information Processing, 2018, 32(1):116-122. (in Chinese with English abstract)

[16] 郭旭超，唐詹，刁磊，等. 基于部首嵌入和注意力機制的病蟲害命名實體識別[J]. 農(nóng)業(yè)機械學(xué)報，2020，51(S2)：335-343.

Guo Xuchao, Tang Zhan, Diao Lei, et al. Recognition of chinese agricultural diseases and pests named entity with joint adical-embedding and self-attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 335-343. (in Chinese with English abstract)

[17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013.09.07) [2022.06.29]. https://doi.org/10.48550/arXiv.1301.3781.

[18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Advances in Neural Information Processing Systems, Lake Tahoe, US: MIT Press, 2013, 26: 3111-3119.

[19] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019: 4171-4186.

[20] Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[EB/OL]. (2019.04.09) [2022.06.29]. https://doi.org/10.48550/arXiv.1904.09223.

[21] 趙鵬飛，趙春江，吳華瑞，等. 基于 BERT 的多特征融合農(nóng)業(yè)命名實體識別[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(3)：112-118.

Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Recognition of the agricultural named entities with multi-feature fusion based on BERT[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 112-118. (in Chinese with English abstract)

[22] 杜琳，曹東，林樹元，等. 基于BERT與Bi-LSTM融合注意力機制的中醫(yī)病歷文本的提取與自動分類[J]. 計算機科學(xué)，2020，47(S2)：416-420.

Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)

[23] 任媛，于紅，楊鶴，等. 融合注意力機制與BERT+ BiLSTM+CRF模型的漁業(yè)標準定量指標識別[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(10)：135-141.

Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract)

[24] Ashish V, Noam S, Niki P,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems, Long Beach, California, USA, Curran Associates Inc, 2017: 6000-6010.

[25] Hasim A, Andrew S, Fran?oise B. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition[J]. Computer Science, 2014, 4(1):338-342.

[26] Felix A, Jürgen S. Lstmrecurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340.

[27] Hammerton J. Named entity recognition with long short-term memory[C]//Proceedings of the Seventh Conference on Natural language learning at HLT-NAACL 2003, Edmonton, Canada, Association for Computational Linguistics, 2003: 172-175.

[28] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, IEEE, 2013: 6645-6649.

[29] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science, 2015, 4(1): 1508-1519.

[30] Lin T, Priya G, Ross G, et al. Focal Loss for Dense Object Detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, IEEE, 2017: 2999-3007.

[31] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning 2001, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 2001: 282-289.

[32] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[33] Kingma D, Ba J. Adam: A method for stochastic optimization[C]// Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015: 1-15.

Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF

Wei Zijun1, Song Ling2,3※, Hu Xiaochun4, Chen Ningjiang1,3

(1.530004; 2.530200,;3530004; 4.530007)

An intelligent question-answering of agricultural knowledge can be one of the most important parts of information agriculture. Among them, named entity recognition has been a key technology for intelligent question-answering and knowledge graph construction in the fields of agricultural domain. It is also a high demand for the accurate identification of named entities. Furthermore, the Chinese named entity recognition can be confined to the location and semantic information of characters, due to the long length of agricultural entity and complex naming. Therefore, it is very necessary to improve the recognition performance in the process of named entity recognition, particularly for the sufficient capture of character position, contextual semantic features, and long-distance dependency information. In this study, a novel Chinese named entity recognition of agriculture was proposed using EmBERT-BiLSTM-CRF model. Firstly, the Bidirectional Encoder Representation from Transformers (BERT) pre-trained language model was applied as the layer of word embedding. The context semantic representation of the model was then improved to alleviate the polysemy, when pre-training the depth bidirectional representation of word vectors. Secondly, the language masking of BERT was enhanced significantly, according to the characteristics of Chinese. An Entity-level Masking strategy was utilized to completely mask the Chinese entities in the sentence with the consecutive tokens. The Chinese semantics was then better represented to alleviate the bias caused by incomplete semantics. Thirdly, the Bidirectional Long Short-Term Memory Network (BiLSTM) model was adopted to learn the semantic features of long-sequence using two LSTM networks (forward and backward), considering the contextual information in both directions at the same time. The long-distance dependency information of text was then captured during this time. Finally, the Conditional Random Field (CRF) was used to learn the labelling constraint in the training data. Among them, the learned constraint rules were used to detect whether the label sequence was legal during prediction. After that, the CRF also utilized the information of adjacent labels to output the globally optimal label sequence. Thus, the output of the model was a dependent label sequence, but an optimal sequence was considered the rules and order. A focal loss function was also used to alleviate the unbalanced sample distribution. A series of experiments were performed to construct the corpus of named entity recognition. As such, the corpus contained a total of 29 790 agricultural entities after BIO labelling, including 11 057 crops, 8 121 pesticides, 4 505 diseases, and 6 107 pest entities, in which the training, validation, and test set were divided, according to the ratio of 7:2:1. Four types of agricultural entities from the text were identified, including the crop varieties, pesticides, diseases, and insect pests, and then to label them. The experimental results show that the recognition accuracy of the EmBERT-BiLSTM-CRF model for the four types of entities was 94.97%, and the F1 score was 95.93%. Which compared with the models based on BiLSTM-CRF and BERT-BiLSTM-CRF, the recognition performance of EmBERT-BiLSTM-CRF is significantly improved, proved that used pre-trained language model as the a word embedding layer can represent the characteristics of characters well and the Entity-level Masking strategy can alleviate the bias caused by incomplete semantics, thereby enhanced the Chinese semantic representation ability of the model, so that enabling the model to more accurately identify Chinese agricultural named entities. This research can not only provide arelatively high entity recognition accuracy for tasks such as agricultural intelligence question answering, but also offer new ideas for the identification of Chinese named entities in fishery, animal husbandry, Chinese medical, and biological fields.

agriculture; named entity recognition; entity-level masking; BERT; BiLSTM; CRF

10.11975/j.issn.1002-6819.2022.15.021

TP391

1002-6819(2022)-15-0195-09

韋紫君，宋玲，胡小春，等. 基于實體級遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實體識別[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(15)：195-203.doi：10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

Wei Zijun, Song Ling, Hu Xiaochun, et al. Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 195-203. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

2021-12-20

2022-06-29

國家重點研發(fā)計劃課題（2018YFB1404404）；廣西重點研發(fā)計劃項目（桂科AB19110050）；南寧市科技重大專項（20211005）

韋紫君，研究方向為自然語言處理。Email：1034268781@qq.com

宋玲，教授，研究方向為物聯(lián)網(wǎng)及大數(shù)據(jù)計算。Email：731486203@qq.com

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于實體級遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實體識別

0 引 言

1 數(shù)據(jù)集構(gòu)建

1.1 數(shù)據(jù)獲取

1.2 標注體系

2 農(nóng)業(yè)命名實體識別方法的設(shè)計

2.1 方法流程及模型架構(gòu)

2.2 BERT層和實體級遮蔽策略

2.3 BiLSTM層

2.4 焦點損失函數(shù)

2.5 CRF層

3 試驗與結(jié)果分析

3.1 試驗設(shè)置

3.2 評價指標

3.3 結(jié)果與分析

4 結(jié) 論

0 引言