亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT嵌入和對抗訓(xùn)練的農(nóng)業(yè)領(lǐng)域命名實體識別

        2022-10-29 05:25:24費凡楊林楠
        湖北農(nóng)業(yè)科學(xué) 2022年18期
        關(guān)鍵詞:命名語料庫實體

        費凡,楊林楠

        (云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,昆明 650201)

        隨著人工智能技術(shù)不斷涌入各個行業(yè),農(nóng)業(yè)領(lǐng)域的服務(wù)平臺及電商產(chǎn)業(yè)也在不斷升級。在每天呈幾何級數(shù)增長的農(nóng)業(yè)文本數(shù)據(jù)中,高效且無誤地找出所需的實體信息以及解析出更復(fù)雜的語義知識都是在實現(xiàn)智慧農(nóng)業(yè)道路上所必須面臨的挑戰(zhàn)。命名實體識別屬于自然語言處理領(lǐng)域中基礎(chǔ)的信息技術(shù),可以看作是序列標(biāo)注的一種特殊形式[1],在此主要解決的問題是從海量的非結(jié)構(gòu)化農(nóng)業(yè)文本數(shù)據(jù)中識別出專有的實體及其類型,常見的實體類型有農(nóng)作物、病害、蟲害等。這為農(nóng)技服務(wù)平臺問答系統(tǒng)的實現(xiàn)搭建了基礎(chǔ),也為農(nóng)業(yè)領(lǐng)域中的信息抽取和挖掘研究明確了方向[2]。

        在命名實體識別的研究道路中,最初是采用規(guī)則和字典匹配的方法。例如Liu等[3]通過設(shè)計和調(diào)整最佳模板來識別數(shù)字和時間表達式。字典匹配方法是通過字典中內(nèi)置的實體從目標(biāo)序列中提取所有匹配的字符串。這些方法可能會在某些特定領(lǐng)域取得成功,但是都未能解決OOV(Out-of-vocabulary)問題[4]。另外,這兩種方法都嚴(yán)重依賴于耗時的手工特性。后來,統(tǒng)計機器學(xué)習(xí)的方法逐步興起,CRF結(jié)構(gòu)[5]成為命名實體識別最常用的方法。Li等[6]和Malarkodi等[7]使用CRF結(jié)構(gòu)在其自構(gòu)建的注釋語料庫上識別農(nóng)業(yè)命名實體,如作物、疾病和農(nóng)藥等,通過選擇不同的特征組合得到合理的試驗結(jié)果。統(tǒng)計的機器學(xué)習(xí)方法雖然有效地提高了中文命名實體識別的精度,但是其仍然依賴于特征工程,導(dǎo)致工序十分耗時和繁瑣[8]。

        基于深度學(xué)習(xí)的模型由于其不需要手工設(shè)計特征的端到端學(xué)習(xí)[9]而被廣泛應(yīng)用于命名實體識別。其中,代表性的網(wǎng)絡(luò)模型就是雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)神經(jīng)網(wǎng)絡(luò)[10]。Huang等[11]提出了第一個用于識別命名實體的BiLSTM-CRF機制。此外,Espejo-Garcia等[12]首次提出了一種基于BiLSTM和Softmax的深度學(xué)習(xí)架構(gòu),用來開發(fā)一個端到端的序列標(biāo)簽植物檢疫規(guī)則。研究表明,基于BiLSTM的模型擅長捕獲句子的局部上下文特征,但對于更長距離的全局上下文特征的提取能力微弱,在捕獲遠程依賴關(guān)系方面受到限制。因此,最近的研究使用了預(yù)訓(xùn)練語言模型,如基于Transformer的雙向編碼器表示模型BERT[13,14],以此動態(tài)生成更長距離的上下文嵌入表示。試驗結(jié)果表明,BERT預(yù)訓(xùn)練階段在大規(guī)模的語料庫和較高的硬件性能支持下,可以顯著提高許多自然語言處理任務(wù)的性能。近年來,深度學(xué)習(xí)與對抗訓(xùn)練機制[15]相結(jié)合的方式在自然語言處理領(lǐng)域開始流行,它作為一種正則化方法成為文本研究的另一條道路。Miyato等[16]利用深度學(xué)習(xí)技術(shù),首次提出在詞向量層添加擾動,進行半監(jiān)督文本分類任務(wù)。Chen等[17]將對抗訓(xùn)練應(yīng)用到實體識別和關(guān)系抽取的聯(lián)合模型中,取得了跨語言、多數(shù)據(jù)集的優(yōu)秀效果。Zhou等[18]則在詞嵌入層添加擾動,提升了低資源下命名實體識別模型的泛化能力。

        1 數(shù)據(jù)收集與處理

        由于農(nóng)業(yè)領(lǐng)域的命名實體識別語料庫大多尚未公開[19,20],因此本研究利用Scrapy框架爬取了中國農(nóng)業(yè)科學(xué)院版權(quán)下的中國作物種質(zhì)資源網(wǎng)的關(guān)于農(nóng)作物病蟲害的相關(guān)知識,經(jīng)過正則表達式、字符格式規(guī)范化等操作去除了不必要的字符、網(wǎng)址等非文本數(shù)據(jù)。經(jīng)統(tǒng)計,本研究爬取并清洗的文字共800余篇農(nóng)業(yè)文本,5 600個句子。接下來就是標(biāo)注標(biāo)簽工作,由于是自己定義的標(biāo)簽類別,所以需要人工手動標(biāo)注,而實體的標(biāo)注需要大量特定領(lǐng)域的知識,從而又增加了注釋的難度。另外,本研究通過查閱資料和咨詢專家的方法,選擇校驗農(nóng)業(yè)領(lǐng)域的專有名稱實體,包括了農(nóng)作物和疾病?;诂F(xiàn)有研究本文進一步將疾病類別劃分為更細粒度的實體,分別為“病害”和“蟲害”。此外與農(nóng)作物相關(guān)的一些實體,比如農(nóng)藥和肥料以及病原也被考慮在內(nèi)。采取BMES的實體標(biāo)注方式,B代表實體名稱的開始位置,M代表實體名稱的中間位置,E代表實體名稱結(jié)束位置,S代表只有單個字的實體名稱,O代表文本中的非實體。后面緊跟的實體類別信息分別用以下英文來表示:CROP(農(nóng)作物)、DISEASE(病害)、PEST(蟲害)、AC(農(nóng)藥)、FERTILIZER(肥料)、MICROBE(病原)。部分語料庫標(biāo)記示例如圖1所示。

        圖1 語料庫標(biāo)記示例

        另外,針對數(shù)據(jù)集中存在的錯標(biāo)現(xiàn)象,選取實體在數(shù)據(jù)集中標(biāo)記最多的類別作為真實類別,將錯標(biāo)實體進行矯正,針對存在的漏標(biāo)現(xiàn)象對實體進行文本匹配,對漏標(biāo)實體進行標(biāo)記,以此達到降低數(shù)據(jù)噪聲、優(yōu)化訓(xùn)練的目的。為了更好地捕捉上下文信息以及預(yù)訓(xùn)練語言模型的輸入序列長度限制問題,將長文本按照512個字符長度進行切分,同時為保證句子的完整性而不喪失上下文語義信息,以句號作為切分符,對長度為512的子句向前索引進行截斷,剩下句子加入到下一個序列中去。

        經(jīng)統(tǒng)計,最終得到的標(biāo)記實體數(shù)目共16 048個,其中農(nóng)作物名稱6 287個,病害名稱2 176個,蟲害名稱1 538個,農(nóng)藥名稱3 514個,肥料名稱1 425個,病原名稱1 108個,為方便后續(xù)試驗,將所有類別數(shù)據(jù)按照7∶2∶1的比例劃分為訓(xùn)練集、測試集以及驗證集,具體詳情如圖2所示。

        圖2 農(nóng)業(yè)語料庫實體類別的分布

        2 模型架構(gòu)

        本研究總體模型架構(gòu)(BERT-Adv-BiGRUCRF)的處理流程是:首先以單個字符作為輸入單元,將BERT預(yù)訓(xùn)練語言模型作為模型嵌入層,接著對每個嵌入向量進行擾動,將得到的對抗樣本radv和嵌入向量T一同輸入BiGRU網(wǎng)絡(luò),最后連接CRF架構(gòu)優(yōu)化輸出序列,最終得到所需的實體及其類別標(biāo)簽。整體模型架構(gòu)如圖3所示。

        圖3 總體模型框架

        2.1 BERT預(yù)訓(xùn)練語言模型

        由Transformer組成的雙向編碼器表示的BERT,是一種用于預(yù)訓(xùn)練的無監(jiān)督和深度的語言表示模型。為了準(zhǔn)確地表示與上下文相關(guān)的語義信息,需要調(diào)用模型的接口,以獲取語料庫中每個漢字的嵌入表示。BERT采用深層雙向Transformer編碼器作為模型的主要結(jié)構(gòu),它主要引入了自注意機制,并利用了卷積神經(jīng)網(wǎng)絡(luò)的殘差機制使模型的訓(xùn)練速度更快、表達能力更強。同時,摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的循環(huán)結(jié)構(gòu),BERT模型的整體結(jié)構(gòu)如圖4所示。

        圖4 BERT模型

        En是單詞的編碼表示,Tn是經(jīng)過訓(xùn)練后的詞向量。該模型的工作原理是利用Transformer結(jié)構(gòu)構(gòu)造多層雙向編碼器網(wǎng)絡(luò),一次性讀取整個文本序列,使每一層都可以集成上下文信息。模型的輸入采用嵌入加法方法,通過添加詞向量(Token Embedding)、句向量(Segment Embedding)和位置量(Position Embedding)這3個向量實現(xiàn)了預(yù)訓(xùn)練和預(yù)測下一個句子的目的,組成結(jié)構(gòu)如圖5所示。

        圖5 BERT模型輸入

        在中文農(nóng)業(yè)語料的文本處理中,不同位置的字符或詞語具有不同的語義,Transformer表明標(biāo)簽序列中嵌入的信息為其相對位置或絕對位置信息,計算公式如下。

        式中,Ppos是單詞在文本中的位置,i表示維數(shù),dmodel是編碼向量的維數(shù)。利用余弦函數(shù)對奇數(shù)位置進行編碼,偶數(shù)位置也用一個正弦函數(shù)進行編碼。

        為了更好地捕捉詞級和句級信息,采用掩碼語言模型和下一句預(yù)測(Next Sentence Prediction,NSP)2個任務(wù)對BERT預(yù)訓(xùn)練語言模型進行聯(lián)合訓(xùn)練。掩碼語言模型類似于完形填空,隨機屏蔽掉語料庫中15%的單詞,用[mask]形式來標(biāo)記,接著要求BERT模型正確預(yù)測被屏蔽的單詞。訓(xùn)練中采用的具體策略是,對于這15%的單詞,其中只有80%的單詞被[mask]替換,10%的單詞被隨機替換為其他單詞,剩余10%維持不變。NSP任務(wù)是通過訓(xùn)練模型來理解句子之間的關(guān)系,即判斷下一個句子是否是前一個句子的下一個句子。具體方法是從文本語料庫中隨機選擇50%的正確句子對,并從文本語料庫中隨機選擇剩下50%的句子對來判斷句子對的正確性。掩碼語言模型的詞匯處理和下一句預(yù)測的句子處理是聯(lián)合訓(xùn)練的,確保每個單詞的向量都能代表全局信息,使模型表達語義更加準(zhǔn)確充分,能夠描述字符級、詞級、句子級甚至句子之間的關(guān)系,從而提高整體模型的泛化能力。

        2.2 BiGRU編碼層

        門控循環(huán)單元(GRU)[21]是長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的一種變體,LSTM網(wǎng)絡(luò)包括遺忘門、輸入門和輸出門。在傳統(tǒng)遞歸神經(jīng)網(wǎng)路(RNN)訓(xùn)練過程中,常常出現(xiàn)梯度消失或爆炸問題,LSTM僅在一定程度上解決了梯度消失問題,并且計算耗時。GRU結(jié)構(gòu)包括了更新門和重置門,它是將LSTM中的遺忘門和輸入門合并為更新門。因此,GRU不僅具有LSTM的優(yōu)勢,而且簡化了其網(wǎng)絡(luò)結(jié)構(gòu),可以有效地進行特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 GRU結(jié)構(gòu)單元

        xt

        在GRU網(wǎng)絡(luò)結(jié)構(gòu)中,更新門為z,重置門為r,更新門zt是計算需要將多少前一隱藏層的序列信息傳輸?shù)疆?dāng)前隱藏狀態(tài)。假設(shè)zt取值[0,1],則當(dāng)值接近于1時表明需要傳遞,而當(dāng)值接近于0時表明需要忽略信息。重置門rt的計算公式與更新門原理相似,但權(quán)重矩陣不同,zt和rt的計算公式見(3)和(4)。首先,在t時刻輸入的序列數(shù)據(jù)xt,之前時刻隱藏層的狀態(tài)ht-1,以及相應(yīng)的權(quán)重分別被相乘,并添加到σ函數(shù)中。在zt和rt計算完成后,可以計算出在t時刻需要記憶的內(nèi)容。其次,利用重置門確定t-1處序列信息的隱藏狀態(tài),在時刻t需要被忽略的信息,輸入rt、ht和xt,并使用tanh函數(shù)計算候選隱藏狀態(tài)。最后,將當(dāng)前單位保留的序列信息轉(zhuǎn)移到下一單位,即是在t時刻zt和??的乘積,??表示隱藏單元ht需要保留的序列信息,(1-zt)和ht的乘積則表示需要多少信息,詳細計算公式如下所示。

        式中,xt表示t時刻序列信息的輸入,?t-1表示前一隱藏層的狀態(tài),?t表示t時刻的隱藏狀態(tài),w為權(quán)重矩陣,wz為更新門權(quán)重矩陣,wr為重置門權(quán)重矩陣;σ為sigmoid非線性變換函數(shù),tanh為激活函數(shù),??為候選隱藏狀態(tài)。

        從GRU單元的工作原理來看,它可以丟棄一些無用的信息并且模型的結(jié)構(gòu)簡單,從而降低了計算的復(fù)雜度。然而,簡單的GRU并不能充分利用文本的上下文信息。因此,本研究設(shè)計添加后向GRU來學(xué)習(xí)后向語義,GRU前向和后向神經(jīng)網(wǎng)絡(luò)一起提取序列信息的關(guān)鍵特征,即BiGRU網(wǎng)絡(luò)模型,如圖7所示。

        圖7 BiGRU網(wǎng)絡(luò)結(jié)構(gòu)

        2.3 CRF網(wǎng)絡(luò)

        命名實體識別問題可以看作是一個序列標(biāo)記問題,BiGRU層輸出隱藏狀態(tài)上下文特征向量h,表示為h={h1,h2,…,hn},這個向量只考慮了數(shù)據(jù)中的上下文信息,而不考慮標(biāo)簽之間的依賴關(guān)系。CRF是一種基于EM模型和HMM模型提出的序列標(biāo)記算法,通過考慮標(biāo)簽序列的全局信息,可以解決標(biāo)簽偏差問題,并更好地預(yù)測標(biāo)簽。命名實體識別的CRF模型是使用輸入句子中的單詞序列作為觀察序列,標(biāo)注過程是根據(jù)已知的單詞序列推斷出最有可能的標(biāo)簽序列。

        因此,本研究添加了1個CRF層來對全局最優(yōu)序列進行標(biāo)記,并將隱藏狀態(tài)h={h1,h2,…,hn}轉(zhuǎn)換為最優(yōu)標(biāo)簽序列y={y1,y2,…,yn}。CRF的計算原理:首先對于指定的文本輸入序列x={x1,x2,…,xn},計算每個位置的得分,如公式(10)所示。其次,通過Softmax函數(shù)計算歸一化序列y的概率,如公式(11)所示。最后,使用維特比算法計算得分最高的標(biāo)簽序列,如公式(12)所示。

        式中,Ayt-1,yt代表轉(zhuǎn)移矩陣,表示從標(biāo)簽yt-1到標(biāo)簽yt的轉(zhuǎn)移概率,Wt,yt代表發(fā)射矩陣,表示從詞xt得到標(biāo)簽yt的發(fā)射概率,T為序列長度,score(H,y)表示輸入取值為H的條件下,輸出標(biāo)簽序列取值為y的得分函數(shù)。y′∈Y(?)為所有可能標(biāo)簽序列表示歸一化后得到的關(guān)于輸出序列y的概率分布。y*表示解碼后得到的最大分?jǐn)?shù)的輸出序列。

        2.4 對抗訓(xùn)練

        對抗訓(xùn)練就是在原始輸入樣本中添加一些擾動,雖然變化不大,但是很容易造成分類錯誤,然后訓(xùn)練網(wǎng)絡(luò)來適應(yīng)這些變化,使得對擾動樣本更具魯棒性,以此提高模型的泛化能力。對抗訓(xùn)練的數(shù)學(xué)原理可以概括為如下公式。

        它可以看成由2個部分組成,分別是內(nèi)部損失函數(shù)的最大化以及外部經(jīng)驗風(fēng)險的最小化。前者目的是尋找最壞情況下的擾動,其中radv表示在輸入樣本中添加的擾動,Ω表示擾動的范圍空間,L表示損失函數(shù),θ表示模型參數(shù),x表示輸入樣本,y表示樣本的標(biāo)簽。后者目的是基于對抗方式的基礎(chǔ)上,尋找損失最小的模型參數(shù),使得模型具有一定的魯棒性,其中,D表示輸入樣本的空間分布。

        關(guān)于設(shè)計合適的擾動,Miyato等[22]提出了FGSM和FGM算法,思路都是讓擾動的方向沿著損失增大的方向,也即梯度提升的方向。它們的區(qū)別在于采用歸一化方法不同,F(xiàn)GSM是通過Sgn函數(shù)對梯度采取max歸一化:

        其中,?為常數(shù),通常設(shè)為0.25。?x(L(x,y;θ))表示損失函數(shù)L對于輸入x的梯度,Sgn為符號函數(shù),即如果梯度上的某個維度的值為正,則為1,如果為負,則為0。FGM則是采取L2歸一化:

        式中,g為梯度,||g||2表示梯度的L2范數(shù),即用L2范數(shù)做了1個scale,從公式(15)來看,L2歸一化更加保留了梯度的方向,而max歸一化不一定和原始梯度的方向相同。當(dāng)然它們都有1個共同的前提,就是損失函數(shù)L必須是線性或至少是局部線性的,以此保證梯度提升的方向是最優(yōu)的方向。

        選用FGM對抗訓(xùn)練算法,在模型訓(xùn)練過程中,直接對由BERT模型得到的每個嵌入向量組成的參數(shù)矩陣進行擾動,并且是將1個batch數(shù)據(jù)當(dāng)成整體,統(tǒng)一進行歸一化計算,因為本來范數(shù)的計算也只是起到scale的作用,所以這樣做影響很大,還能實現(xiàn)更加高效的調(diào)用。

        3 結(jié)果與分析

        3.1 試驗參數(shù)和環(huán)境配置

        模型的參數(shù)配置都經(jīng)過了反復(fù)的試驗證明。采用ADAM優(yōu)化算法,模型訓(xùn)練的批處理參數(shù)為24,迭代次數(shù)設(shè)定為8,學(xué)習(xí)率為2e-5,還引入了dropout機制以減輕模型的過擬合問題,dropout的值對模型的性能有直觀的影響,設(shè)定為0.5。模型訓(xùn)練最大序列長度為128,評估最大序列長度為512。此外,試驗的運行環(huán)境配置如表1所示。

        表1 試驗環(huán)境配置

        3.2 試驗結(jié)果與分析

        在不依靠人工設(shè)計特征的情況下,通過不斷地調(diào)整模型參數(shù),在自構(gòu)建的農(nóng)業(yè)注釋語料庫上測試模型的識別效果。語料庫中的訓(xùn)練集、測試集、驗證集的劃分比例合理,三者之間無重疊部分,因此,將測試集的輸出結(jié)果作為實體識別效果的評價指標(biāo)是恰當(dāng)?shù)?。農(nóng)業(yè)領(lǐng)域中的實體抽取和類別標(biāo)注的試驗結(jié)果常采用以下3個評價指標(biāo),分別是準(zhǔn)確率、召回率和F值。其中,準(zhǔn)確率是指正確識別命名實體的識別率,召回率是指測試集中正確識別命名實體的識別率,F(xiàn)值是以上兩者的調(diào)和平均值,這是模型的綜合評價指標(biāo)。

        為了表明本研究提出的BERT-Adv-BiGRUCRF模型在農(nóng)業(yè)領(lǐng)域命名實體識別的表現(xiàn)效果,在其他模型上進行對比和消融試驗,其他模型包括IDCNN-CRF、BiLSTM-CRF、BiGRU-CRF、BERTSoftmax、BERT-CRF、BERT-BiLSTM-CRF、BERTBiGRU-CRF、ERNIE-BiGRU-CRF和RoBERTa-WWM-BiGRU-CRF,其對比識別結(jié)果如表2所示。

        表2 不同模型試驗結(jié)果對比(單位:%)

        由表2可知,IDCNN-CRF、BiLSTM-CRF和BiGRU-CRF模型通過隱藏層獲取了豐富的上下文的序列信息,通過添加CRF層,動態(tài)規(guī)劃實體間相鄰的標(biāo)簽獲取最優(yōu)的序列標(biāo)注,模型識別F值分別達到83.81%、85.37%和86.40%。但由于它是基于詞向量的輸入,會出現(xiàn)實體被錯誤拆分的情況,導(dǎo)致有些復(fù)雜的實體不會被正確識別。例如:水稻品種鄂汕雜1號會被錯誤拆分成鄂汕/雜/1號。另外分析結(jié)果發(fā)現(xiàn),同一文本中,部分農(nóng)藥實體“順天星1號”會被錯誤標(biāo)記為農(nóng)作物名稱,出現(xiàn)這種標(biāo)記不一致的現(xiàn)象,是由于“順天星1號”與許多農(nóng)作物名稱構(gòu)詞方式相同,都是詞語加上數(shù)字的形式,在識別過程中,雖然這些模型獲得了上下文的局部特征信息,但是并沒有考慮到更長距離以及全局的語境,從而導(dǎo)致整體識別效果不夠理想。

        基于BERT模型的輸入是基于字向量且完整保存了全局的語義信息,它很好地解決了不同語境下同一詞語的不同語義以及指代問題,與前3個模型相比,準(zhǔn)確率、召回率和F值均得到明顯提升,BERT-BiLSTM-CRF和BERT-BiGRU-CRF準(zhǔn) 確 率分別達到91.15%和91.42%,召回率分別為91.68%和91.82%;F值 分 別 為91.41%和91.62%,其 中BERT-BiGRU-CRF模型相比較BERT-BiLSTMCRF稍優(yōu)一點。在BERT-BiGRU-CRF模型基礎(chǔ)上,依次去掉上下文編碼層BiGRU和輸出層CRF,以此進行消融試驗,得到的BERT-CRF和BERT-Softmax模型識別的F值分別降低了0.90和2.71個百分點。這表明了BiGRU網(wǎng)絡(luò)是提高編碼質(zhì)量的有效方法,以及CRF層對于中文命名實體識別至關(guān)重要。

        在BERT-BiGRU-CRF模型的試驗結(jié)果基礎(chǔ)上,進一步將預(yù)訓(xùn)練語言模型換成ERNIE和Ro-BERTa-WWM,以此進行其他預(yù)訓(xùn)練語言模型的效果評估,結(jié)果顯示F值分別下降0.88和0.70個百分點,這表明BERT模型對于本研究自構(gòu)建農(nóng)業(yè)數(shù)據(jù)集的識別效果最優(yōu),其他改進預(yù)訓(xùn)練語言模型在農(nóng)業(yè)命名實體識別上可能不一定會奏效。

        最后,加入對抗訓(xùn)練后的BERT-BiGRU-CRF模型的準(zhǔn)確率提升了1.33個百分點,召回率下降了0.29個百分點,F(xiàn)值提升了0.87個百分點。這表明本研究添加的對抗訓(xùn)練算法確實可以在一定程度上提高識別結(jié)果。為了驗證對抗訓(xùn)練機制的通用性,選用中文領(lǐng)域的命名實體識別數(shù)據(jù)集Resume NER進行試驗,該數(shù)據(jù)集是根據(jù)新浪財經(jīng)網(wǎng)(https://finance.sina.com.cn/)關(guān)于上市公司的高級經(jīng)理人的簡歷摘要數(shù)據(jù)進行篩選過濾和人工標(biāo)注生成的。它包含1 027份簡歷摘要,實體標(biāo)注分為人名、國籍、籍貫、種族、專業(yè)、學(xué)位、機構(gòu)、職稱8個類別,試驗結(jié)果如表3所示,它成功驗證了對抗訓(xùn)練機制對于提升模型泛化性和魯棒性的作用。

        表3 不同模型試驗結(jié)果對比(單位:%)

        如圖8所示,利用本研究模型對于農(nóng)作物、病害、蟲害、農(nóng)藥、肥料以及病原六類實體的識別結(jié)果F值,可以看出模型對農(nóng)作物和蟲害的識別結(jié)果F值普遍較高,其余類別則相對降低一些。分析其原因,農(nóng)作物的實體數(shù)目眾多,所以訓(xùn)練程度較為充分,而且一些培育品種名稱常常是詞語加數(shù)字的組成方式,例如豫粳6號、桂引901,這些明顯的特征信息在一定程度上提高了農(nóng)作物實體識別的準(zhǔn)確率。大部分蟲害名稱也具有較為規(guī)則的后綴組成詞,例如葉蟬、薊馬等,因此識別準(zhǔn)確率也比較高。而對于一些病害名稱,它們往往存在實體嵌套情況,例如水稻倒伏等,模型還不能獲取相關(guān)特征信息來有效解決此類問題。肥料名稱大多構(gòu)詞比較單一,比如氮肥、鉀肥等,但是卻存在大量的一詞多義現(xiàn)象,比如氮、磷、硫酸銨、過磷酸鈣等,它們在某些地方只是化學(xué)名詞,并不代表肥料的意思,模型不能有效地區(qū)分干擾信息。病原名稱構(gòu)詞復(fù)雜、冗長且邊界模糊,而且大部分存在實體嵌套情況,如茶擬盤多毛孢、水稻條紋葉枯病毒等,模型很難得到較好的語義和邊界信息,所以識別效果普遍較差。對于上述提及的問題,可以通過提升模型整體的復(fù)雜度方法,以此獲取更豐富的額外特征信息,或者構(gòu)建相關(guān)的領(lǐng)域詞典等方法以期達到更高的識別效果。

        圖8 農(nóng)業(yè)實體試驗結(jié)果F值對比

        總體來說,本研究提出的BERT-Adv-BiGRUCRF模型對農(nóng)作物、病害、蟲害、農(nóng)藥、肥料以及病原六類農(nóng)業(yè)實體的識別結(jié)果F值分別達到了95.30%、84.00%、94.68%、84.96 %、86.67%、86.27%,表明模型在不使用任何字典或外部注解資源的情況下,在自構(gòu)建的農(nóng)業(yè)標(biāo)注語料庫上對于命名實體識別任務(wù)的有效性和合理性。

        4 小結(jié)

        針對農(nóng)業(yè)領(lǐng)域標(biāo)注語料庫稀缺有限的問題,首先自構(gòu)建了一個農(nóng)業(yè)領(lǐng)域的注釋語料庫,其中包含了6類實體和16 048個樣本。此外,對于農(nóng)業(yè)領(lǐng)域中文命名實體識別任務(wù),提出了引入BERT預(yù)訓(xùn)練語言模型的識別方法,提升了模型的識別效果。最后,對輸入樣本進行對抗訓(xùn)練,以此提高模型整體的泛化性和魯棒性,一定程度上提升了命名實體識別效果??傮w模型架構(gòu)BERT-Adv-BiGRU-CRF在自構(gòu)建的農(nóng)業(yè)注釋語料庫中對6類農(nóng)業(yè)實體都達到了良好的識別效果。今后的工作將集中在以下3個方面:一是將自構(gòu)建的農(nóng)業(yè)注釋語料庫進一步擴充以及對于存在的噪音誤差進行修正或增強,對類別數(shù)目少的樣本進行平衡處理,以此達到模型的更好識別效果。二是引入更加豐富的特征信息,比如radical-level特征[23]和工業(yè)詞典等,提升對于構(gòu)詞復(fù)雜冗長和邊界模糊實體的識別效果。三是嘗試一些模型壓縮方法,比如知識蒸餾、剪枝等以此來減少訓(xùn)練時間和算力,降低模型空間復(fù)雜度,以此達到工業(yè)級的需求和應(yīng)用。

        猜你喜歡
        命名語料庫實體
        命名——助力有機化學(xué)的學(xué)習(xí)
        《語料庫翻譯文體學(xué)》評介
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        把課文的優(yōu)美表達存進語料庫
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        夜夜综合网| 豆国产96在线 | 亚洲| 欧美日韩国产精品自在自线| 国产主播一区二区三区在线观看| 亚洲人成网站久久久综合| 亚洲av综合色区久久精品| 久久精品国产亚洲超碰av| 久久久无码人妻精品一区| 国产综合自拍| 日本人妻系列一区二区| 又黄又刺激的网站久久| 精品成人av一区二区三区| 国产精品无码片在线观看| 国产无套粉嫩白浆内精| 亚洲 欧美 偷自乱 图片| 国产69精品久久久久999小说| 国产精品久久久久…| 国产麻豆极品高清另类| 婷婷五月六月激情综合色中文字幕| 欧美尺寸又黑又粗又长| 久久夜色精品国产亚洲噜噜| 久久老熟女一区二区三区| 狂野欧美性猛xxxx乱大交| 亚洲gv白嫩小受在线观看| 丝袜 亚洲 另类 欧美| 国产饥渴的富婆一凶二区| 狠狠噜天天噜日日噜无码| 不卡视频一区二区三区| 最新日本免费一区二区三区| 99久久99久久精品国产片| 熟妇高潮一区二区三区| 99精品久久久中文字幕| 国产精品日韩亚洲一区二区| 色婷婷亚洲一区二区三区| 国产亚洲日韩欧美一区二区三区| 在线免费观看亚洲天堂av| 日本二一三区免费在线| 国产精品18久久久久久麻辣| 免青青草免费观看视频在线| 日日麻批免费高清视频| 欧美牲交a欧美牲交aⅴ免费真 |