李洋邢林林蔡紅珍徐航蘇展鵬
(1.山東理工大學農(nóng)業(yè)工程與食品科學學院,山東 淄博 255000;2.山東理工大學計算機科學與技術(shù)學院,山東 淄博 255000)
農(nóng)業(yè)生物質(zhì)材料是指以植物及加工產(chǎn)品和廢棄物作為基本原料,通過高技術(shù)手段進行加工變?yōu)樾阅軆?yōu)異、節(jié)能環(huán)保的新屬性材料。對于生物質(zhì)[1]能源的開發(fā)和利用,農(nóng)業(yè)生物質(zhì)材料的應(yīng)用可以使農(nóng)業(yè)由數(shù)量型向質(zhì)量型進行轉(zhuǎn)變,推進農(nóng)業(yè)的可持續(xù)發(fā)展,實現(xiàn)美麗鄉(xiāng)村建設(shè);農(nóng)業(yè)生物質(zhì)材料有諸多優(yōu)點,如種類多、分布廣、儲量豐富等,這給材料的制備和研發(fā)提供了源頭支持。
隨著技術(shù)的進步,越來越多的農(nóng)業(yè)生物質(zhì)新材料在市場上出現(xiàn),但是對于其屬性的檢測有很多問題。如,在送檢過程當中,用戶很難找到適合自己材料屬性檢測的服務(wù)提供商,并且服務(wù)提供商在提供服務(wù)過程中會對材料的尺寸大小作出嚴格要求,對于生物質(zhì)材料而言,不同規(guī)模的材料可能呈現(xiàn)出的屬性效果會略有差異。在尋找服務(wù)的過程中,材料的保存與儲藏也會影響材料的屬性效果,這也對生物質(zhì)材料的檢測提出了時效性的要求。
目前許多學者開始關(guān)注農(nóng)業(yè)信息技術(shù)的重要性,并提出了相應(yīng)的技術(shù)方法,但大多數(shù)是從理論角度出發(fā)而忽略了農(nóng)業(yè)信息挖掘技術(shù)的實際應(yīng)用。很多線上生物質(zhì)材料檢測平臺對于服務(wù)的描述過于單一,無法使用戶精確地檢索信息,因此,本文通過引入對抗訓練和自注意力機制命名實體識別技術(shù)可以幫助用戶挖掘產(chǎn)業(yè)信息,提升農(nóng)業(yè)檢測服務(wù)效率,降低工作成本。
命名實體識別技術(shù)是自然語言處理的基礎(chǔ)任務(wù),利用網(wǎng)絡(luò)模型識別出某一概念的實例,如人名、地名、機構(gòu)名稱等,其演變過程也是由最初基于規(guī)則的方法到目前深度學習的方法。目前,農(nóng)業(yè)領(lǐng)域的命名實體識別技術(shù)也隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展而不斷更新,趙鵬飛等[2]通過引入自注意力機制來解決農(nóng)業(yè)領(lǐng)域文本實體標記不一致的問題,并通過比較不同數(shù)據(jù)庫之間的識別效果,發(fā)現(xiàn)其準確率得到一定提升。宋林鵬[3]等通過對比傳統(tǒng)CRF和基于詞向量的雙向長短期記憶網(wǎng)絡(luò)模型來提升對于農(nóng)業(yè)轉(zhuǎn)移技術(shù)中的識別提取效果。李想等[4]針對農(nóng)業(yè)平臺問答效率問題,提取數(shù)據(jù)庫中關(guān)鍵實體,利用條件隨機場技術(shù)進行自動構(gòu)建關(guān)聯(lián)三元組,提升了模型的識別準確率。郭旭超等[5]針對農(nóng)業(yè)病蟲害命名實體識別技術(shù),提出一種基于注意力機制和部首嵌入的神經(jīng)網(wǎng)絡(luò)模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取農(nóng)業(yè)實體的部首特征,進而通過長短期記憶網(wǎng)絡(luò)和條件隨機場來保證實體輸出結(jié)果的準確率。Guo X等[6]提出一種多尺度局部上下文特征和自注意力機制的中文命名實體識別模型,通過不同核大小的卷積神經(jīng)網(wǎng)絡(luò)提取上下文特征,采取自注意力機制來緩解Bi-LSTM-CRF在遠程依賴上的限制。
實體標注任務(wù)[7]作為自然語言處理當中較為簡單的基礎(chǔ)步驟,用于解決數(shù)據(jù)文本中字符的分類問題。實體標注是將文本序列中的每個信息單元進行有規(guī)則的標記,一般待標注的序列表示為X=x1,x2,x3…xn,對于不同領(lǐng)域的任務(wù),實體標注的形式也不同。分詞任務(wù)的標注和實體識別的實體標注不相同,分詞任務(wù)只是將實體定義為開始、結(jié)束、單一實體等;而命名實體識別任務(wù)要將實體分為符合概念定義的序列。
對抗訓練[8]是通過定義的生成器與判別器之間的互相博弈來輸出更加準確的結(jié)果,計算公式:
(1)
式中,X為輸入信息;δ為輸入信息的擾動;y為樣本的標簽;L(fθ(X+δ),y)為在樣本X上添加擾動δ,進而通過max(L)進行優(yōu)化目標。
在農(nóng)業(yè)生物質(zhì)領(lǐng)域數(shù)據(jù)集中,命名實體識別任務(wù)和分詞任務(wù)共享著較多的邊界信息,每個任務(wù)都有自己特有的信息特征,因此對抗訓練的方式可以過濾掉分詞任務(wù)中的特有信息,將共享信息融入到命名實體識別任務(wù)中,提升輸出結(jié)果的準確率。
李靜等[9]通過局部對抗訓練的方法來解決實體內(nèi)部邊界信息的歧義問題,通過對抗訓練增強神經(jīng)網(wǎng)絡(luò)模型對于邊界信息的識別能力,提高了樣本的輸出質(zhì)量。張慶林等[10]通過互補對抗學習的方法,提高分類器的魯棒性能和泛化性能。董哲等[11]首先引入BERT來獲取字向量,并通過對抗訓練的方式來降低中文分詞任務(wù)對于命名實體識別任務(wù)的噪聲影響。
本文在對抗訓練階段,通過在每一次的迭代過程中選擇實體識別任務(wù)或者分詞任務(wù)進行參數(shù)的更新,選擇Adam優(yōu)化器來優(yōu)化損失,計算過程:
Loss=LossNER·I(X)+LossCWS·(1-I(X))+γLossAdv
(2)
LSTM長短期記憶網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的變體,有效解決了在循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的訓練過程當中所產(chǎn)生的梯度爆炸和梯度消失問題,其結(jié)構(gòu)如圖1所示;但是單向的長短期記憶網(wǎng)絡(luò)在同一時間內(nèi)處理數(shù)據(jù)集的上下文語義信息,而且LSTM針對有序的數(shù)據(jù)集,只能處理方向為從前向后的語義信息,對于從后往前的信息則無法獲取。
圖1 LSTM結(jié)構(gòu)圖
在更細粒度的分類時,如對于強程度的褒義、弱程度的褒義、中性、弱程度的貶義、強程度的貶義的5分類任務(wù)需要注意情感詞、程度詞、否定詞之間的交互,本文采用的前后雙向長短期記憶網(wǎng)絡(luò)Bi-LSTM能夠更好地捕獲雙向的語義依賴。LSTM模型的計算過程可以分為以下幾個步驟:
Bi-LSTM[12]神經(jīng)網(wǎng)絡(luò)模型相較于傳統(tǒng)的自然語言處理方法,其優(yōu)勢在于雙向的LSTM模型不僅可以更好地利用以前的上下文信息,還可以利用未來的上下文信息。在實際的命名實體識別任務(wù)當中,由于應(yīng)用場景眾多,所以預測過程可能會使用到整個序列的輸入信息。
Bi-LSTM雙向長短期記憶模型在命名實體識別任務(wù)中可以很好處理長距離的語義關(guān)系,但是對于臨近的標簽依賴關(guān)系,Bi-LSTM則無法處理,因此通過添加CRF條件隨機場能夠有效地解決這一問題。CRF是通過考慮詞向量特征,計算條件可能性的概率模型。CRF條件隨機場可以在相鄰的標簽信息關(guān)系中找到最優(yōu)的預測序列,從而保證預測標簽的合法性。Bi-LSTM-CRF總體結(jié)構(gòu)如圖2所示。
圖2 Bi-LSTM-CRF結(jié)構(gòu)圖
對于一個輸入序列Z={z1,z2…,zn},在命名實體識別框架中所得到的預測序列為Y={y1,y2…,yn},得到預測序列Score函數(shù):
(3)
式中,A為分數(shù)轉(zhuǎn)移矩陣,表示前一標簽到下一標簽的分數(shù);P為模型輸出矩陣,計算一個實體的得分情況。預測序列Y的產(chǎn)生概率:
(4)
采用極大似然估計原理,通過取對數(shù)得到預測序列Y的似然函數(shù):
(5)
基于極大似然估計原理,優(yōu)化目標函數(shù):
(6)
生物質(zhì)材料檢測領(lǐng)域文本語句相對較長,Bi-LSTM在訓練的過程中丟失關(guān)鍵數(shù)據(jù)信息。而且中文字詞在不同的語義環(huán)境中所呈現(xiàn)的含義也不同,注意力機制的主要目的在于根據(jù)目標信息去關(guān)注部分細節(jié)而不是基于全局進行分析,因此多頭注意力機制的引入可以緩解LSTM在訓練過程中的遺失問題,提高檢驗檢測領(lǐng)域的識別效果。主要公式:
(7)
(8)
多頭注意力機制的表達式:
Multihead(Q,K,V)=Concat(head1,…,headn)WO
(9)
式中,Q、K、V分別代表從一開始輸入的向量矩陣。
本文所采用的數(shù)據(jù)集通過網(wǎng)絡(luò)爬取各大檢驗檢測網(wǎng)站的生物質(zhì)材料檢測信息,選取檢測機構(gòu)名稱、檢測內(nèi)容及位置信息作為實驗目標,訓練集共包含標簽數(shù)量178834,測試集標簽數(shù)量為47106,其數(shù)據(jù)樣例如表1所示。
表1 數(shù)據(jù)文本樣例
2.2.1 標簽標注方式及結(jié)果
本文采用BIO的標注方式,B表示單位實體的開始,I表示實體的剩余部分,而O則表示非實體類型。由于數(shù)據(jù)集中選擇檢測機構(gòu)、檢測內(nèi)容和檢測設(shè)備作為識別目標,所以標注方式共有7種,其標注結(jié)果如表2所示。
表2 標注結(jié)果
2.2.2 分詞與實體識別任務(wù)標簽比較
通過對于農(nóng)業(yè)生物質(zhì)材料檢測領(lǐng)域的數(shù)據(jù)分析,發(fā)現(xiàn)分詞任務(wù)與實體識別任務(wù)都有著不同的邊界信息,如果單純采用簡單的神經(jīng)網(wǎng)絡(luò)模型進行訓練,很難取得良好的實驗效果,因此通過引入對抗訓練來減少分詞任務(wù)和命名實體識別之間的共享信息問題。
表3 NER與CWS對比
本文所采用的實驗環(huán)境基于Tensorflow搭建,具體配置如表4所示。
表4 實驗環(huán)境
為使得本文所采用的方法及神經(jīng)網(wǎng)絡(luò)模型識別效果最優(yōu),本文選擇了多種超參數(shù)設(shè)置并在公開訓練集上進行實驗效果對比,經(jīng)對比發(fā)現(xiàn)部分參數(shù)的設(shè)置確實會對實驗效果產(chǎn)生影響,其中不同學習率對于輸出結(jié)果影響較為明顯,如圖3所示。因此,本文的參數(shù)設(shè)置為字詞向量維度100,學習率0.001,dropout為0.1,batch size為20,lstm層為100。
圖3 不同學習率對比
選擇準確率Precision、召回率Recall、F1值作為本文實驗的評價指標。準確率和召回率是廣泛應(yīng)用于信息檢索和統(tǒng)計學分類領(lǐng)域的2個度量值,F(xiàn)1值是二者的綜合評價手段,計算公式:
(10)
(11)
(12)
對于農(nóng)業(yè)生物質(zhì)材料數(shù)據(jù)集按照7∶3的比例劃分為訓練集和測試集,不同標簽的實驗結(jié)果如表5所示。
表5 生物質(zhì)材料文本識別效果
根據(jù)實驗結(jié)果,采用對抗訓練的模型所呈現(xiàn)的識別效果要優(yōu)于其余方法,這表明對抗訓練的引入影響了普通樣本的分類能力,提升了神經(jīng)網(wǎng)絡(luò)的魯棒性,其輸出結(jié)果如表6所示。
表6 輸出結(jié)果樣例
本文通過引入對抗網(wǎng)絡(luò)和自注意力機制應(yīng)用于命名實體識別技術(shù)提升農(nóng)業(yè)信息識別效果,爬取了各大農(nóng)業(yè)生物質(zhì)檢測領(lǐng)域相關(guān)數(shù)據(jù),針對檢測機構(gòu)名稱、檢測設(shè)備和檢測內(nèi)容進行數(shù)據(jù)分析和標簽標注工作;實驗效果表明,本文所提出的模型效果與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比,呈現(xiàn)出更好的效果。但目前實驗所爬取的數(shù)據(jù)相對不夠完善,部分數(shù)據(jù)存在標簽缺失遺漏等問題,因此在后續(xù)的研究工作中,應(yīng)當提升數(shù)據(jù)質(zhì)量,不斷完善數(shù)據(jù)規(guī)模,優(yōu)化實驗模型。
隨著中國農(nóng)業(yè)的不斷發(fā)展,各類不同特性的農(nóng)業(yè)生物質(zhì)材料在市場上出現(xiàn),加快了農(nóng)業(yè)高效率轉(zhuǎn)化的步伐,因此對于農(nóng)業(yè)生物質(zhì)材料的屬性檢測也為創(chuàng)造高效、優(yōu)質(zhì)、低耗的農(nóng)業(yè)生產(chǎn)體系起到了推動性的作用,也是完善農(nóng)業(yè)信息挖掘技術(shù)的供需匹配、服務(wù)解耦和個性化推薦的關(guān)鍵步驟。