亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義融合與模型蒸餾的農(nóng)業(yè)實(shí)體識(shí)別

        2021-09-10 15:02:17李亮德王秀娟康孟珍華凈樊夢(mèng)涵
        智慧農(nóng)業(yè)(中英文) 2021年1期
        關(guān)鍵詞:農(nóng)業(yè)知識(shí)圖譜實(shí)體

        李亮德 王秀娟 康孟珍 華凈 樊夢(mèng)涵

        摘要: 當(dāng)前農(nóng)業(yè)實(shí)體識(shí)別標(biāo)注數(shù)據(jù)稀缺,部分公開的農(nóng)業(yè)實(shí)體識(shí)別模型依賴手工特征,實(shí)體識(shí)別精度低。雖然有的農(nóng)業(yè)實(shí)體識(shí)別模型基于深度學(xué)習(xí)方法,實(shí)體識(shí)別效果有所提高,但是存在模型推理延遲高、參數(shù)量大等問題。本研究提出了一種基于知識(shí)蒸餾的農(nóng)業(yè)實(shí)體識(shí)別方法。首先,利用互聯(lián)網(wǎng)的海量農(nóng)業(yè)數(shù)據(jù)構(gòu)建農(nóng)業(yè)知識(shí)圖譜,在此基礎(chǔ)上通過遠(yuǎn)程監(jiān)督得到弱標(biāo)注語料。其次,針對(duì)實(shí)體識(shí)別的特點(diǎn),提出基于注意力的BERT層融合模型(BERT-ALA),融合不同層次的語義特征;結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)和條件隨機(jī)場(chǎng)CRF,得到BERT-ALA+BiLSTM+CRF模型作為教師模型。最后,用BiLSTM+CRF模型作為學(xué)生模型蒸餾教師模型,保證模型預(yù)測(cè)耗時(shí)和參數(shù)量符合線上服務(wù)要求。在本研究構(gòu)建的農(nóng)業(yè)實(shí)體識(shí)別數(shù)據(jù)集以及兩個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示,BERT-ALA+BiLSTM+CRF模型的macro-F1相對(duì)于基線模型BERT+ BiLSTM+CRF平均提高1%。蒸餾得到的學(xué)生模型BiLSTM+CRF的macro-F1相對(duì)于原始數(shù)據(jù)訓(xùn)練的模型平均提高3.3%,預(yù)測(cè)耗時(shí)降低了33%,存儲(chǔ)空間降低98%。試驗(yàn)結(jié)果驗(yàn)證了基于注意力機(jī)制的BERT層融合模型以及知識(shí)蒸餾在農(nóng)業(yè)實(shí)體識(shí)別方面具有有效性。

        關(guān)鍵詞: 遠(yuǎn)程監(jiān)督;農(nóng)業(yè)知識(shí)圖譜;農(nóng)業(yè)問答系統(tǒng);實(shí)體識(shí)別;知識(shí)蒸餾;深度學(xué)習(xí);BERT;雙向長(zhǎng)短期記憶網(wǎng)絡(luò)

        中圖分類號(hào): TP391??????????? 文獻(xiàn)標(biāo)志碼: A???????????? 文章編號(hào): 202012-SA001

        引用格式:李亮德, 王秀娟, 康孟珍, 華凈, 樊夢(mèng)涵. 基于語義融合與模型蒸餾的農(nóng)業(yè)實(shí)體識(shí)別[J]. 智慧農(nóng)業(yè)(中英文), 2021, 3 (1): 118-128.

        Citation:LI Liangde, WANG Xiujuan, KANG Mengzhen, HUA Jing, FAN Menghan. Agricultural named entity recognition based on semantic aggregation and model distillation[J]. Smart Agriculture, 2021, 3 (1): 118-128. (

        1? 引? 言

        隨著農(nóng)業(yè)互聯(lián)網(wǎng)的發(fā)展與農(nóng)業(yè)從業(yè)人員的新老更替,需要進(jìn)行農(nóng)業(yè)知識(shí)的快速傳播和應(yīng)用,以解決農(nóng)業(yè)技術(shù)人員不足的問題。目前,互聯(lián)網(wǎng)上的農(nóng)業(yè)知識(shí)技術(shù)問答主要由人工專家來完成,這樣不僅效率低,而且受技術(shù)專家資源稀缺的限制。如果計(jì)算機(jī)能夠理解用戶輸入的農(nóng)業(yè)問題,通過建立農(nóng)業(yè)知識(shí)圖譜來進(jìn)行智能回答,將大大提高農(nóng)業(yè)知識(shí)問答效率。

        農(nóng)業(yè)智能問答系統(tǒng)包括信息抽?。?]、知識(shí)圖譜構(gòu)建、問句理解和基于知識(shí)庫的問答四個(gè)環(huán)節(jié)。信息抽取用于理解問題并基于農(nóng)業(yè)知識(shí)圖譜回答問題,對(duì)于農(nóng)業(yè)智能問答系統(tǒng)至關(guān)重要。命名實(shí)體識(shí)別[2]是指識(shí)別出文本中的實(shí)體指稱項(xiàng)及其類別,是自然語言處理中一項(xiàng)基礎(chǔ)任務(wù)?;谵r(nóng)業(yè)實(shí)體識(shí)別可抽取文本中關(guān)鍵信息,構(gòu)建農(nóng)業(yè)知識(shí)圖譜,實(shí)現(xiàn)農(nóng)業(yè)知識(shí)結(jié)構(gòu)化,進(jìn)而基于知識(shí)圖譜進(jìn)行農(nóng)業(yè)知識(shí)問答?;ヂ?lián)網(wǎng)上儲(chǔ)存著大量的非結(jié)構(gòu)化農(nóng)業(yè)文本,如何將這些雜亂無章的農(nóng)業(yè)文本轉(zhuǎn)化成結(jié)構(gòu)化的農(nóng)業(yè)知識(shí),構(gòu)建農(nóng)業(yè)知識(shí)圖譜,是實(shí)現(xiàn)農(nóng)業(yè)智能問答系統(tǒng)的重要環(huán)節(jié)。

        農(nóng)業(yè)知識(shí)數(shù)據(jù)特別是標(biāo)注數(shù)據(jù)難以獲取,有關(guān)農(nóng)業(yè)知識(shí)圖譜構(gòu)建以及信息抽取的研究相對(duì)較少。已有研究的農(nóng)業(yè)實(shí)體識(shí)別方案往往需要大量的訓(xùn)練數(shù)據(jù)訓(xùn)練,因此應(yīng)用這些方案時(shí),需要人工標(biāo)注實(shí)體識(shí)別數(shù)據(jù),成本很高。使用的模型也存在需要手工提取特征、實(shí)體識(shí)別效果不佳等問題;或者沒有考慮實(shí)際線上對(duì)預(yù)測(cè)耗時(shí)、模型大小的要求,停留在實(shí)驗(yàn)驗(yàn)證階段。李貫峰和張鵬[3]使用詞典來實(shí)現(xiàn)實(shí)體識(shí)別,構(gòu)建了基于農(nóng)業(yè)本體的web知識(shí)抽取模型,因?yàn)閣eb知識(shí)庫難以覆蓋所有的農(nóng)業(yè)實(shí)體,因此存在著召回率低的缺點(diǎn)。王春雨和王芳[4]用條件隨機(jī)場(chǎng)[5]來進(jìn)行命名實(shí)體識(shí)別。但這種方法需要手工構(gòu)造特征且模型容量低,難以完成復(fù)雜的實(shí)體識(shí)別任務(wù)。印度的Malarkodi等[6]應(yīng)用了條件隨機(jī)場(chǎng)模型,輸入一些句法詞匯特征,同樣存在依賴手工構(gòu)造特征的問題。劉曉?。?]使用了基于密集連接的雙向長(zhǎng)短記憶網(wǎng)絡(luò)(Dense Connected Bi-directional Long Short-Term Memory,DC-LSTM)+ (Conditional Random Field,CRF)架構(gòu)進(jìn)行面向農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別研究。由于這是一種多層的密集連接的結(jié)構(gòu),推理耗時(shí)長(zhǎng)、模型參數(shù)量多,難以在線上進(jìn)行實(shí)際使用。Biswas等[8]利用WordNet[9]進(jìn)行農(nóng)業(yè)實(shí)體識(shí)別,該方法本質(zhì)上與詞典匹配差別不大,但是利用WordNet詞的相關(guān)性,擴(kuò)充了詞典。

        目前,無論是基于條件隨機(jī)場(chǎng)等傳統(tǒng)方法,還是基于深度學(xué)習(xí)[10]的實(shí)體識(shí)別模型,都是數(shù)據(jù)驅(qū)動(dòng)的,需要海量的標(biāo)注數(shù)據(jù)作為支撐。在農(nóng)業(yè)領(lǐng)域缺乏大量現(xiàn)成的標(biāo)注數(shù)據(jù)情況下,直接套用通用領(lǐng)域的實(shí)體識(shí)別方案難以奏效。因此,本研究提出了一種基于遠(yuǎn)程監(jiān)督[11]的農(nóng)業(yè)領(lǐng)域數(shù)據(jù)標(biāo)注方案,以解決農(nóng)業(yè)實(shí)體識(shí)別標(biāo)注數(shù)據(jù)稀缺的問題。

        遠(yuǎn)程監(jiān)督的思想由Mintz于第47屆計(jì)算語言協(xié)會(huì)年會(huì)上(Association for Computational Linguistics)上首次提出,通過將知識(shí)庫與文本對(duì)齊來自動(dòng)構(gòu)建大量訓(xùn)練數(shù)據(jù),減少模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴,增強(qiáng)模型跨領(lǐng)域適應(yīng)能力,被大量運(yùn)用在關(guān)系抽取領(lǐng)域[12]。遠(yuǎn)程監(jiān)督提出的動(dòng)機(jī)是解決關(guān)系抽取標(biāo)注數(shù)據(jù)難以獲取的問題,而農(nóng)業(yè)實(shí)體識(shí)別數(shù)據(jù)存在標(biāo)注數(shù)據(jù)難以獲取的問題,因此本文將遠(yuǎn)程監(jiān)督的思想遷移到實(shí)體識(shí)別領(lǐng)域。通用領(lǐng)域具有一詞多義性質(zhì),在通用領(lǐng)域給遠(yuǎn)程監(jiān)督帶來很大的噪聲。但是,在農(nóng)業(yè)等專有領(lǐng)域,雖然存在漏標(biāo)注的情況,但是詞的語義固定,整體上噪聲比較小,因此遠(yuǎn)程監(jiān)督是可行的方案,可以很好地規(guī)避農(nóng)業(yè)領(lǐng)域缺乏標(biāo)注數(shù)據(jù)的問題。

        本研究采用目前在自然語言處理領(lǐng)域流行的大規(guī)模預(yù)訓(xùn)練模型基于轉(zhuǎn)換器的雙向編碼表征(Bidirectional Encoder Representations from Transformers,BERT)[13],一方面,預(yù)訓(xùn)練模型在海量互聯(lián)網(wǎng)數(shù)據(jù)上的訓(xùn)練,模型容量大,能夠擬合復(fù)雜的實(shí)體識(shí)別任務(wù);另一方面,農(nóng)業(yè)實(shí)體識(shí)別標(biāo)注數(shù)據(jù)比較稀缺,而預(yù)訓(xùn)練模型基于大規(guī)模語料訓(xùn)練的,包含了很多基礎(chǔ)的語言知識(shí),在大規(guī)模預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào),農(nóng)業(yè)實(shí)體識(shí)別模型也包含了這部分基礎(chǔ)的語言知識(shí)。此外,本研究還結(jié)合農(nóng)業(yè)實(shí)體識(shí)別的特點(diǎn),提出了基于注意力的層融合機(jī)制(Attention-Based Layer Aggregation)對(duì)BERT做出改進(jìn)。

        在線問答系統(tǒng)需要時(shí)間和空間復(fù)雜度低的模型。前面提出了基于BERT的模型,但是BERT因?yàn)閰?shù)量大導(dǎo)致推理耗時(shí)高,很難滿足實(shí)時(shí)推理需求。模型蒸餾[14]是將訓(xùn)練好的復(fù)雜模型推廣“知識(shí)”能力遷移到一個(gè)結(jié)構(gòu)更為簡(jiǎn)單的網(wǎng)絡(luò)中,或者通過簡(jiǎn)單的網(wǎng)絡(luò)去學(xué)習(xí)復(fù)雜模型中的“知識(shí)”。其中,訓(xùn)練好的復(fù)雜模型稱為教師模型,而學(xué)習(xí)的簡(jiǎn)單模型稱為學(xué)生模型。本研究考慮到模型上線對(duì)于預(yù)測(cè)耗時(shí)和模型大小的要求,用BiLSTM + CRF[15]作為學(xué)生模型,蒸餾前面得到的基于BERT的系列模型。

        2? 研究方法

        2.1整體架構(gòu)

        本研究提出的農(nóng)業(yè)實(shí)體識(shí)別架構(gòu)主要包括了弱標(biāo)注[16]語料構(gòu)建模塊、模型訓(xùn)練模塊以及線上推理模塊(圖1)。

        其中,弱標(biāo)注語料構(gòu)建模塊采用了遠(yuǎn)程監(jiān)督的思想,分為兩個(gè)階段:一是農(nóng)業(yè)知識(shí)圖譜構(gòu)建階段,爬取互聯(lián)網(wǎng)的農(nóng)業(yè)資源,過濾得到農(nóng)業(yè)實(shí)體,構(gòu)建農(nóng)業(yè)知識(shí)圖譜;二是數(shù)據(jù)弱標(biāo)注階段,通過前向最大匹配標(biāo)注出文本里面的農(nóng)業(yè)實(shí)體,用于模型訓(xùn)練。其中,模型訓(xùn)練模塊又包含了兩個(gè)階段:一是教師模型訓(xùn)練階段,用弱標(biāo)注數(shù)據(jù)去訓(xùn)練本文提出的教師模型;二是模型蒸餾階段[14],用參數(shù)量少的模型作為學(xué)生模型蒸餾教師模型。線上推理模塊接受用戶端發(fā)送的文本,合并詞典、學(xué)生模型的結(jié)果,返回給用戶端。

        2.2數(shù)據(jù)來源

        目前農(nóng)業(yè)領(lǐng)域缺乏開源的中文農(nóng)業(yè)知識(shí)圖譜和農(nóng)業(yè)實(shí)體識(shí)別語料?;?dòng)百科、百度百科都是開源的中文百科網(wǎng)站,包含了大量農(nóng)業(yè)方面的實(shí)體和知識(shí),很多農(nóng)業(yè)網(wǎng)站上相關(guān)的農(nóng)業(yè)知識(shí)也與百科網(wǎng)站上相同,不同的百科網(wǎng)站里面農(nóng)業(yè)方面的知識(shí)類似??紤]到互動(dòng)百科比其他百科類網(wǎng)站以及開源的農(nóng)業(yè)信息網(wǎng)站更容易爬取,本研究選擇爬取互動(dòng)百科數(shù)據(jù),建立農(nóng)業(yè)知識(shí)圖譜,用于構(gòu)建農(nóng)業(yè)知識(shí)圖譜以及標(biāo)注實(shí)體識(shí)別訓(xùn)練語料。將互動(dòng)百科數(shù)據(jù)庫下的農(nóng)業(yè)實(shí)體對(duì)應(yīng)的文檔進(jìn)行分句,得到農(nóng)業(yè)實(shí)體識(shí)別語料。

        2.3基于遠(yuǎn)程監(jiān)督的農(nóng)業(yè)命名實(shí)體識(shí)別語料標(biāo)注

        將遠(yuǎn)程監(jiān)督思想用在實(shí)體識(shí)別領(lǐng)域,是假設(shè)一個(gè)句子中的某個(gè)詞與知識(shí)圖譜里面的某個(gè)實(shí)體對(duì)應(yīng)的名稱或者別稱相同,那么這個(gè)詞就對(duì)應(yīng)知識(shí)圖譜里面的實(shí)體。遠(yuǎn)程監(jiān)督的思想存在兩方面的問題:首先,對(duì)于一詞多義的實(shí)體會(huì)存在標(biāo)注錯(cuò)誤,例如把Apple手機(jī)的“蘋果”對(duì)應(yīng)到水果的“蘋果”,但是一詞多義在農(nóng)業(yè)等專業(yè)領(lǐng)域的文本里面是可以忽略的;其次,對(duì)于不在農(nóng)業(yè)知識(shí)圖譜里面的實(shí)體,存在漏標(biāo)注。通過遠(yuǎn)程監(jiān)督方法對(duì)文本進(jìn)行弱標(biāo)注可以分為兩個(gè)階段:一是爬取互聯(lián)網(wǎng)上多人協(xié)作的寫作系統(tǒng)(Wiki)建立農(nóng)業(yè)知識(shí)圖譜,通過對(duì)Wiki本體的標(biāo)簽信息應(yīng)用規(guī)則匹配,推斷出實(shí)體的類型,過濾得到實(shí)體類型為作物、病害、農(nóng)藥等的實(shí)體,構(gòu)建農(nóng)業(yè)知識(shí)圖譜;二是對(duì)語料進(jìn)行弱標(biāo)注,將農(nóng)業(yè)知識(shí)圖譜的實(shí)體用前綴樹[17]保存起來,作為詞典,對(duì)文本中的句子進(jìn)行前向最大匹配,從而得到實(shí)體弱標(biāo)注的結(jié)果。例如句子“怎樣進(jìn)行番茄分苗”通過前向最大匹配,就可以得到番茄兩字對(duì)應(yīng)農(nóng)業(yè)知識(shí)圖譜里面“番茄”這個(gè)實(shí)體,番茄實(shí)體的類別是作物(crop)。進(jìn)而生成標(biāo)簽O(“怎”) O(“樣”) O(“進(jìn)”) O(“行”) B_crop (“番”) I_crop (“茄”)O(“分”) O(“苗”)。其中,O (other)表示非實(shí)體,B(begin)表示實(shí)體開始位置,I(interior)表示實(shí)體內(nèi)部以及結(jié)束位置,crop表示實(shí)體類型為作物類型。B_crop I_crop表示類型為作物的實(shí)體,分別對(duì)應(yīng)于實(shí)體的開始和結(jié)束的位置,在句子中為第4和第5個(gè)詞(“番茄”)。

        2.4教師模型

        深度學(xué)習(xí)模型+條件隨機(jī)場(chǎng)[15,18,19]是命名實(shí)體識(shí)別領(lǐng)域的主流模型[15]。深度學(xué)習(xí)模型指具有BiLSTM[20]和BERT[13]一類的模型,用于提取文本的語義特征,得到詞到每個(gè)實(shí)體類別的概率;條件隨機(jī)場(chǎng)用于計(jì)算各個(gè)實(shí)體類別的轉(zhuǎn)移概率,結(jié)合生成概率和轉(zhuǎn)移概率,進(jìn)行end2end的訓(xùn)練。

        2.4.1BERT模型

        BERT模型是谷歌AI團(tuán)隊(duì)于2018年發(fā)布的預(yù)訓(xùn)練模型,在11種不同自然語言處理驗(yàn)證任務(wù)中創(chuàng)造了最佳成績(jī)。簡(jiǎn)單來說,BERT在大量文本語料上使用自監(jiān)督的方式訓(xùn)練了一個(gè)通用的語言理解模型,然后在這個(gè)模型上設(shè)置輕量級(jí)的下游任務(wù)接口去執(zhí)行特定的自然語言處理任務(wù)。BERT模型結(jié)構(gòu)如圖2所示。

        BERT模型主要包含三個(gè)部分:輸入層、多轉(zhuǎn)換器(transformer encoder),以及輸出層。輸入層由詞嵌入(token-embedding)、位置嵌入(position-embedding)和段嵌入(segment-embedding)組成。詞嵌入是將文本分為詞,將詞轉(zhuǎn)化為向量;位置嵌入是將詞的位置信息編碼為特征向量,從而讓模型獲取到詞的位置信息;段嵌入用于區(qū)分模型輸入的兩個(gè)句子。Transformer encoder[21]通過自注意力機(jī)制(self attention),實(shí)現(xiàn)詞與詞的相互交互,獲得句子的語義表征。輸出層在句子的語義表征基礎(chǔ)上,根據(jù)下游任務(wù)來定具體的結(jié)構(gòu)。BERT訓(xùn)練分為預(yù)訓(xùn)練階段和微調(diào)階段兩個(gè)階段。在預(yù)訓(xùn)練階段采用自監(jiān)督的訓(xùn)練,主要任務(wù)是Masked Language Model,也即隨機(jī)掩蓋句子里面的某些詞,預(yù)測(cè)這些詞,這個(gè)過程無需標(biāo)注語料,可以直接通過互聯(lián)網(wǎng)上的海量文本獲??;在微調(diào)階段,針對(duì)特定任務(wù),設(shè)置不同的輸出層和目標(biāo)函數(shù),利用少量標(biāo)注數(shù)據(jù)進(jìn)一步更新模型參數(shù),即可完成針對(duì)特定領(lǐng)域的模型訓(xùn)練。

        2.4.2長(zhǎng)短記憶網(wǎng)絡(luò)

        長(zhǎng)短記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[20]用門機(jī)制去改善循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的梯度消失問題,雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)由兩個(gè)單向的LSTM網(wǎng)絡(luò)構(gòu)成,兩個(gè)網(wǎng)絡(luò)中一個(gè)隨時(shí)間正向傳播,另一個(gè)隨時(shí)間逆向傳播。對(duì)于文本序列而言,BiLSTM能有效的捕獲上下文信息,在實(shí)體識(shí)別等序列標(biāo)注任務(wù)上有效。

        2.4.3條件隨機(jī)場(chǎng)

        條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型[5]是一種概率無向圖模型,可以解決序列標(biāo)注任務(wù)。給定觀察序列X的條件下求Y,Y隱狀態(tài)序列的概率為P(Y|X)。在命名實(shí)體識(shí)別上使用的CRF主要是CRF線性鏈,建模的數(shù)學(xué)公式下所示。

        P(y|x)=1/(Z(x)) exp ??????????????????????????? (∑_(k=1)^K?〖w_k f_k (y,x〗)) (1)

        Z(x)=∑_y?〖exp∑_(k=1)^K?w_k 〗 f_k (y,x)? (2)其中,f_k是特征函數(shù);w_k是特征函數(shù)的權(quán)重;Z(x)是歸一化因子。模型在預(yù)測(cè)的時(shí)候使用維特比算法,這是一種動(dòng)態(tài)規(guī)劃算法,在給定觀察序列X和參數(shù)的條件下,求出最大的標(biāo)記序列Y的概率。

        2.4.4深度學(xué)習(xí)模型+條件隨機(jī)場(chǎng)

        深度學(xué)習(xí)模型本質(zhì)上是把深度模型視為文本特征提取器,得到文本特征后,通過全連接層后得到詞到實(shí)體類別的得分,記為P,輸入到CRF層中。CRF層包含一個(gè)轉(zhuǎn)移矩陣A,表示兩個(gè)標(biāo)簽的轉(zhuǎn)移得分。模型對(duì)句子x標(biāo)簽等于y打分,打分經(jīng)過softmax后得到概率,表達(dá)式如下所示。

        score(x,????????????????????????????????????? y)=∑_(i=1)^n?P_(i,???????????????????????????? ??????? y_i ) +∑_(i=1)^(n+1)?A_(y_(i-1),????????????????????????????????????? y_i ) (3)

        P(y|x)=(exp ?????????????????????????????????? (score(x,??????????????????????????????????????? ??? y)))/(∑_(y^')?〖exp ?????????????????????????????????????? (score(x,??????????????????? ??????????????????????????? y^' ))〗) (4)

        可以看出,整個(gè)句子的打分等于各個(gè)位置的打分之和,每個(gè)位置的打分由深度學(xué)習(xí)模型的輸出P以及轉(zhuǎn)移得分A決定。模型訓(xùn)練時(shí),最大化對(duì)數(shù)損失函數(shù)即可。

        深度模型可以是BERT、BiLSTM、空洞卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Network,IDCNN)等。目前在實(shí)體識(shí)別領(lǐng)域用的最多的是BERT和BiLSTM。BiLSTM+CRF 2016年由Dong等[22]提出,用于通用領(lǐng)域命名實(shí)體識(shí)別;BERT+CRF由Souza等[19]提出,用于葡萄牙語的命名實(shí)體識(shí)別;但是BERT的transformer的自注意力機(jī)制會(huì)破壞BERT的相對(duì)位置信息[23]。為解決BERT相對(duì)位置信息抽取能力不足的問題,一種方法是用BERT+BiLSTM[22]作為深度模型,BERT+BiLSTM+CRF由Jiang等[24]提出,用于通用領(lǐng)域的命名實(shí)體識(shí)別。BERT起到提供動(dòng)態(tài)詞向量的作用,BiLSTM用于建模相對(duì)位置信息。因此,本研究設(shè)置了三種基線模型BiLSTM + CRF[22]、BERT + CRF[19]和BERT + BiLSTM + CRF[24]來進(jìn)行農(nóng)業(yè)實(shí)體識(shí)別實(shí)驗(yàn),進(jìn)而選擇出試驗(yàn)效果較好的模型作為教師模型,蒸餾輕量化的學(xué)生模型。這三種基線模型在其他領(lǐng)域都被驗(yàn)證有效。

        2.4.5基于注意力的BERT層融合模型機(jī)制

        實(shí)體識(shí)別任務(wù)對(duì)于底層的語法、語義特征需求比較大,對(duì)于上層語義特征的需求反而沒有那么強(qiáng)烈。BERT是一個(gè)多層transformer[21]的特征提取器,BERT-base模型一共包含了12層。多層transformer一方面減慢模型的推理速度。另一方面,Jawahar等[25]在ACL 2019發(fā)表的論文指出,BERT的低層網(wǎng)絡(luò)學(xué)習(xí)到了短語級(jí)別的信息表征,BERT的中層網(wǎng)絡(luò)學(xué)習(xí)到了豐富的語言學(xué)特征,而BERT的高層網(wǎng)絡(luò)則學(xué)習(xí)到了豐富的語義信息特征。對(duì)于通用領(lǐng)域的實(shí)體識(shí)別而言,模型專注于頂層語義特征而忽視了實(shí)體識(shí)別任務(wù)亟需的底層特征。對(duì)于垂直領(lǐng)域,如農(nóng)業(yè)的實(shí)體識(shí)別而言,判別實(shí)體的邊界比判別實(shí)體的類別更難,因?yàn)榇怪鳖I(lǐng)域?qū)嶓w含義相對(duì)通用領(lǐng)域的判別容易一些。因此底層特征包含的短語級(jí)別的信息表征對(duì)于判別實(shí)體邊界更重要,僅僅考慮頂層的高層語義信息顯然不合理。另外一方面,本研究遠(yuǎn)程監(jiān)督得到的標(biāo)注數(shù)據(jù)的量有限,直接取高層的信息容易導(dǎo)致過擬合。因此,本研究提出一種基于注意力的BERT層融合機(jī)制。BERT模型包含多層transformer encoder,不同大小的BERT模型transformer encoder層數(shù)不同,一般有12、24、48三種,將BERT的層數(shù)記為L(zhǎng),做基于注意力機(jī)制的層融合,其中α和γ都是可訓(xùn)練的參數(shù),如公式(5)和公式(6)所示。

        h=γ∑_(i=1)^N?〖w_i h_i 〗 (5)

        w_i=(exp ????????????????????????????????? (α_i))/(∑exp ???????????????????????????????? (α_j))??? (6)其中,h為BERT模型中間層輸出;w為每一層的權(quán)重。

        本研究將基于注意力的BERT層融合模型命名為BERT-ALA(Attention Based Layer Aggregation for BERT),后面的試驗(yàn)統(tǒng)一用這個(gè)名稱,此機(jī)制可以應(yīng)用在任意基于BERT的模型中。將BERT-ALA應(yīng)用在BERT+BiLSTM+CRF中,得到BERT-ALA+BiLSTM+CRF,主要結(jié)構(gòu)如圖3所示。BERT模型不同層的輸出通過一組可以學(xué)習(xí)的權(quán)重參數(shù)加權(quán)得到最后的特征表示,再送入后續(xù)的BiLSTM以及CRF里面進(jìn)行實(shí)體識(shí)別。

        2.5模型蒸餾

        模型蒸餾[14]就是將訓(xùn)練好的復(fù)雜模型推廣能力“知識(shí)”遷移到一個(gè)結(jié)構(gòu)更為簡(jiǎn)單的網(wǎng)絡(luò)中,或者通過簡(jiǎn)單的網(wǎng)絡(luò)去學(xué)習(xí)復(fù)雜模型中的“知識(shí)”。前面提出了基于BERT的幾種模型,但是BERT因?yàn)閰?shù)量大導(dǎo)致推理耗時(shí)高,很難滿足實(shí)時(shí)推理需求。因此,本研究用BiLSTM+CRF作為學(xué)生模型,蒸餾前面提出的教師模型。相對(duì)于傳統(tǒng)模型蒸餾只是蒸餾最后一層的輸出而言,本研究還蒸餾了教師模型中間的BiLSTM層。蒸餾的損失函數(shù)一共分為3項(xiàng),目標(biāo)函數(shù)表達(dá)如下。

        (loss=α_1 MSEloss(h_BiLSTM (T),h_BiLSTM (S) )+@α_2 CEloss(h_CRF (T),h_CRF (S) )+)

        α_3 CRFloss(y_true,h_CRF (S))? (7)其中,S表示學(xué)生模型;T表示教師模型; 表示model的layer層(BiLSTM層,CRF層)輸出。因此,蒸餾損失的3項(xiàng)分別表示為:(1)學(xué)生模型BiLSTM層輸出擬合教師模型BiLSTM層的輸出,擬合損失是平均平方誤差MSE;(2)學(xué)生模型CRF層輸出的概率分布,與教師模型CRF層輸出的概率分布求交叉熵;(3)原來的CRF損失[15]。其中,由CRF層輸出概率與真實(shí)的實(shí)體識(shí)別標(biāo)簽計(jì)算得到。

        2.6模型推理

        在推理階段,接受用戶端文本輸入后,包含三個(gè)階段的流程。

        (1)通過詞典匹配得到句子里面的農(nóng)業(yè)類型實(shí)體S1。

        (2)通過學(xué)生模型預(yù)測(cè)得到句子里面的農(nóng)業(yè)實(shí)體S2。

        (3)模型和詞典得到的標(biāo)注結(jié)果用求并集的方法聚合,返回給用戶端;對(duì)于在S2而不在S1中的實(shí)體,是詞典中還不存在的,返回人工專家復(fù)查,得到新詞加入詞典,以提高詞典的覆蓋率。

        3? 試驗(yàn)驗(yàn)證與分析

        3.1評(píng)價(jià)指標(biāo)

        試驗(yàn)指標(biāo)采用精確匹配模式,被實(shí)體識(shí)別模型識(shí)別出來的稱為mention,mention和ground truth里面的實(shí)體都表示為(start,end,type)的形式,start和end表示mention或者entity的邊界,type表示類型。對(duì)于實(shí)體識(shí)別領(lǐng)域來說,TP、FP和FN的定義如下。

        (1)True Positive(TP):農(nóng)業(yè)實(shí)體識(shí)別模型識(shí)別出來的mention,與ground truth里面的實(shí)體能對(duì)應(yīng)上;

        (2)False Positive(FP):農(nóng)業(yè)實(shí)體識(shí)別模型識(shí)別出來的mention,與ground truth里面的實(shí)體不能對(duì)應(yīng)上,這里也包含了邊界識(shí)別正確,但是類型識(shí)別錯(cuò)誤的情況;

        (3)False Negative(FN):ground truth里面存在的entity,沒有被農(nóng)業(yè)實(shí)體識(shí)別模型識(shí)別出來。

        根據(jù)上面定義的TP、FP和FN可以計(jì)算Precision、Recall和F1分?jǐn)?shù)值,分別表示準(zhǔn)確率、召回率以及F1分?jǐn)?shù)值如下。

        Precison=TP/(TP+FP)?? (8)

        Recall=TP/(TP+FN)? (9)

        F1= (2×Precision×Recall)/(Precision+Recall)??? (10)

        實(shí)體包含多種類型,不同類型的實(shí)體分別計(jì)算實(shí)體識(shí)別的F1,然后計(jì)算整體的F1,整體F1采用macro-F1[26]的方式計(jì)算,是各個(gè)類別F1的平均,公式如下所示。

        macroF1= (∑_(i=1)^c?〖F1_i 〗)/2?? (11)

        3.2試驗(yàn)設(shè)計(jì)

        本研究選取了農(nóng)業(yè)和醫(yī)學(xué)兩個(gè)領(lǐng)域,總共三個(gè)數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)驗(yàn)證。選取醫(yī)學(xué)領(lǐng)域的原因是因?yàn)獒t(yī)學(xué)領(lǐng)域與農(nóng)業(yè)領(lǐng)域一樣,都屬于特定領(lǐng)域,另外,醫(yī)學(xué)領(lǐng)域?qū)嶓w識(shí)別相對(duì)農(nóng)業(yè)領(lǐng)域數(shù)據(jù)研究的比較多,容易獲取開源的實(shí)驗(yàn)識(shí)別標(biāo)注數(shù)據(jù)。第一個(gè)數(shù)據(jù)集是本研究構(gòu)建的數(shù)據(jù)集,后面兩個(gè)數(shù)據(jù)集是公開的數(shù)據(jù)集。

        數(shù)據(jù)一:從互動(dòng)百科獲取的農(nóng)業(yè)領(lǐng)域文本,按照句子進(jìn)行切分。采用基于遠(yuǎn)程監(jiān)督的方式構(gòu)建訓(xùn)練集,驗(yàn)證集由人工標(biāo)注。其中包含作物實(shí)體4662個(gè),疾病實(shí)體695個(gè)。訓(xùn)練集和測(cè)試集的比例是8:2,訓(xùn)練集有10,277條數(shù)據(jù),測(cè)試集有2532條數(shù)據(jù)。數(shù)據(jù)集已經(jīng)在數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái)kaggle上開源(https://www.kaggle.com/supportvectordevin/agriculture-pedia.)。

        數(shù)據(jù)二:來源于訊飛開放平臺(tái)的“農(nóng)業(yè)問答數(shù)據(jù)處理挑戰(zhàn)賽”里面的實(shí)體識(shí)別任務(wù)(http://challenge.xfyun.cn/topic/info?type=agriculture.)[25],標(biāo)注出農(nóng)作物、病蟲害和農(nóng)藥的命名實(shí)體標(biāo)簽。數(shù)據(jù)集包含病蟲害實(shí)體100,660個(gè),農(nóng)藥實(shí)體250,740,作物實(shí)體5796個(gè)。訓(xùn)練集包含15,624個(gè)樣本,測(cè)試集包含3906個(gè)樣本。

        數(shù)據(jù)三:醫(yī)學(xué)領(lǐng)域數(shù)據(jù),來源于ccks 2017的task 2,面向電子病歷的命名實(shí)體識(shí)別(Clinical Named Entity Recognition,CNER)(https://github.com/zjy-ucas/ChineseNER)。即對(duì)于給定的一組電子病歷文檔(純文本文件),任務(wù)的目標(biāo)是識(shí)別并抽取出與醫(yī)學(xué)臨床相關(guān)的實(shí)體名字。數(shù)據(jù)集包含癥狀和體征實(shí)體12,821個(gè)、檢查和檢驗(yàn)實(shí)體17,655個(gè)、疾病和診斷實(shí)體4560個(gè)、治療實(shí)體4940個(gè)、身體部位實(shí)體17,556個(gè)。訓(xùn)練集包含10,787個(gè)樣本,測(cè)試集包含2697個(gè)樣本。

        模型超參數(shù)方面,LSTM+CRF的詞向量采用fast text Chinese word embedding[27],LSTM隱含層數(shù)量是128。訓(xùn)練方面,采用Adam優(yōu)化器[28],BERT層學(xué)習(xí)速率為10-5,其他層為10-3,batch size是32,每個(gè)batch采用batch內(nèi)部最長(zhǎng)的句子做padding,以減少內(nèi)存消耗,但是最長(zhǎng)截?cái)嚅L(zhǎng)度設(shè)置為64。

        3.3基線模型對(duì)比驗(yàn)證

        在三個(gè)數(shù)據(jù)集上,測(cè)試了三種基線模型的macro-F1,結(jié)果如表1所示。

        分析驗(yàn)證結(jié)果得到三個(gè)結(jié)論。

        (1)關(guān)于數(shù)據(jù)一的結(jié)果表明,遠(yuǎn)程監(jiān)督的訓(xùn)練集訓(xùn)練的模型在人工標(biāo)注的測(cè)試集上表現(xiàn)良好,證明了通過遠(yuǎn)程監(jiān)督構(gòu)建數(shù)據(jù)集的有效性。

        (2)引入大規(guī)模預(yù)訓(xùn)練模型BERT相對(duì)于BiLSTM能顯著提高模型的表現(xiàn);相對(duì)于數(shù)據(jù)一的macro-F1提高7.75%,數(shù)據(jù)二的marco-F1提高13.39%,數(shù)據(jù)三是醫(yī)療實(shí)體識(shí)別數(shù)據(jù),提升相對(duì)小一些,為1.64%。

        (3)在BERT后面加入BiLSTM,能在一定程度上緩解BERT相對(duì)位置捕獲不強(qiáng)的缺陷,在數(shù)據(jù)一上,macro-F1相對(duì)于BERT+CRF提高了0.71%;在數(shù)據(jù)二上,提高了0.36%;在數(shù)據(jù)三上,提高了0.69%。

        3.4基于注意力的BERT層融合機(jī)制有效性驗(yàn)證

        針對(duì)BERT+CRF和BERT+BiLSTM+CRF兩個(gè)BERT系模型,分別用層融合機(jī)制改進(jìn)BERT,驗(yàn)證結(jié)果是否對(duì)實(shí)體識(shí)別結(jié)果有提高。結(jié)果如表2所示。

        驗(yàn)證結(jié)果表明,基于注意力的層融合機(jī)制在三個(gè)數(shù)據(jù)集上都能提高實(shí)體識(shí)別的效果。說明層融合機(jī)制在實(shí)體識(shí)別領(lǐng)域具有一定普適性。BERT-ALA+CRF和BERT-ALA+BiLSTM+CRF相對(duì)于基準(zhǔn)模型分別有大約1%的macro-F1的提高。

        BERT-ALA+BiLSTM+CRF在所有模型里面的效果最好,所以被選擇為教師模型,指導(dǎo)蒸餾部分的學(xué)生模型學(xué)習(xí)。本研究主要是將BERT-ALA+BiLSTM+CRF應(yīng)用在農(nóng)業(yè)實(shí)體識(shí)別領(lǐng)域。

        3.5模型蒸餾效果驗(yàn)證

        通過模型蒸餾的方法得到的教師模型是BERT-ALA+BiLSTM+CRF,學(xué)生模型是BiLSTM+CRF。與教師模型相比,學(xué)生模型的時(shí)間和空間復(fù)雜度都有改善。本研究用預(yù)測(cè)1000個(gè)樣本的平均耗時(shí)表示模型的預(yù)測(cè)耗時(shí),用于比較學(xué)生模型時(shí)間復(fù)雜度的改善;模型大小用模型占據(jù)的存儲(chǔ)空間表示,用于驗(yàn)證學(xué)生模型空間復(fù)雜度的提高。由于這兩個(gè)指標(biāo)與數(shù)據(jù)無關(guān),因此本研究在3個(gè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)后取平均值。結(jié)果表明,蒸餾后的學(xué)生模型相對(duì)于教師模型每預(yù)測(cè)千個(gè)樣本的耗時(shí)減少了33%,模型大小減少了98%,時(shí)間復(fù)雜度和空間復(fù)雜度都有了很大的改善,更加適用于線上預(yù)測(cè)場(chǎng)景。

        本研究測(cè)試了蒸餾得到學(xué)生模型相對(duì)于用標(biāo)注數(shù)據(jù)訓(xùn)練的同等模型的效果提高,maro-F1指標(biāo)的對(duì)比結(jié)果如表3所示。

        驗(yàn)證結(jié)果表明,采用模型蒸餾的訓(xùn)練方法,相對(duì)于訓(xùn)練數(shù)據(jù)訓(xùn)練的同等模型,學(xué)生模型學(xué)到了更多的暗知識(shí)。蒸餾得到的學(xué)生模型在數(shù)據(jù)一上,macro-F1提高了3.1%。在數(shù)據(jù)二上,提高了4.09%,在數(shù)據(jù)三上,提高了2.82%。

        3.6學(xué)生模型效果展示

        本研究主要應(yīng)用場(chǎng)景是農(nóng)業(yè)實(shí)體識(shí)別,因此以番茄為例,選取了幾個(gè)番茄的百問百答[27]問句以及回答,驗(yàn)證最終線上蒸餾的學(xué)生模型效果,句子及其識(shí)別的結(jié)果如下。

        提問1:番茄病毒病癥狀及防治方法是什么?

        識(shí)別結(jié)果:{'mention':'番茄病毒病', 'type':'disease', 'offset':0}

        提問2:番茄筋腐病是怎樣產(chǎn)生的,如何防止?

        識(shí)別結(jié)果:{'mention':'番茄筋腐病', 'type':'disease', 'offset':0}

        提問3:癥狀:番茄細(xì)菌性斑疹病主要危害葉、莖、花、葉柄和果實(shí)。

        識(shí)別結(jié)果:{'mention':'番茄細(xì)菌性斑疹病', 'type':'disease', 'offset':3}

        上述提問1、2和3的實(shí)體都能完整識(shí)別出來。其中,提問2和3中的實(shí)體“番茄筋腐病”和“番茄細(xì)菌性斑疹病”都沒有出現(xiàn)在詞典中,也就是不存在于標(biāo)注數(shù)據(jù)中,但是模型能識(shí)別成功,驗(yàn)證了模型具有良好的泛化性能。

        4? 結(jié)? 論

        本研究提出用遠(yuǎn)程監(jiān)督構(gòu)建農(nóng)業(yè)實(shí)體識(shí)別數(shù)據(jù),標(biāo)注數(shù)據(jù)存在漏標(biāo)注的問題。基于漏標(biāo)注的句子遠(yuǎn)比標(biāo)注正確的句子少的假設(shè),解決的思路是用弱標(biāo)注的數(shù)據(jù)訓(xùn)練一個(gè)初級(jí)版本的實(shí)體識(shí)別模型,再用實(shí)體識(shí)別模型選擇訓(xùn)練集里面一些置信度低的結(jié)果,返回來進(jìn)行校正,最后用校正后的數(shù)據(jù)對(duì)基礎(chǔ)版本模型進(jìn)行微調(diào)。

        (1)主要研究了農(nóng)業(yè)領(lǐng)域的實(shí)體識(shí)別問題。針對(duì)農(nóng)業(yè)領(lǐng)域缺乏實(shí)體識(shí)別標(biāo)注數(shù)據(jù)的問題,提出爬取互聯(lián)網(wǎng)開源數(shù)據(jù)庫“互動(dòng)百科”構(gòu)建農(nóng)業(yè)知識(shí)圖譜,遠(yuǎn)程監(jiān)督實(shí)現(xiàn)實(shí)體識(shí)別數(shù)據(jù)弱標(biāo)注的方案。

        (2)針對(duì)過往研究使用的模型識(shí)別效果不佳、依賴手工特征的問題,結(jié)合農(nóng)業(yè)實(shí)體識(shí)別的特點(diǎn),提出了基于注意力層融合機(jī)制的BERT-ALA+BiLSTM+CRF模型,在3個(gè)數(shù)據(jù)集上都取得了最優(yōu)的效果,驗(yàn)證了層融合機(jī)制的有效性。本研究的目的主要是將這個(gè)模型應(yīng)用在農(nóng)業(yè)實(shí)體識(shí)別領(lǐng)域。

        (3)針對(duì)基于BERT的模型預(yù)測(cè)耗時(shí)長(zhǎng)的問題,用BiLSTM+CRF模型作為學(xué)生模型提出的蒸餾BERT-ALA+BiLSTM+CRF模型,大大降低了線上模型的時(shí)間復(fù)雜度和空間復(fù)雜度,使得訓(xùn)練后的模型在移動(dòng)端應(yīng)用成為可能。

        本研究提出的實(shí)體識(shí)別方法在解決農(nóng)業(yè)領(lǐng)域?qū)嶓w識(shí)別問題方面實(shí)現(xiàn)了農(nóng)業(yè)智能化究方法,還可以拓展應(yīng)用到其他標(biāo)注數(shù)據(jù)缺失的垂直領(lǐng)域?qū)嶓w識(shí)別場(chǎng)景,如醫(yī)學(xué)、教育、軍事等。

        致? 謝

        感謝中國農(nóng)業(yè)科學(xué)院蔬菜與花卉研究所賀超興研究員為本研究提供意見。

        參考文獻(xiàn):

        [1]??? COWIE J, LEHNERT W. Information extraction[J]. Communications of the ACM, 1996, 39(1): 80-91.

        [2]??? LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2016: ID N16-1030.

        [3]??? 李貫峰, 張鵬. 一個(gè)基于農(nóng)業(yè)本體的 Web 知識(shí)抽取模型[J]. 江蘇農(nóng)業(yè)科學(xué), 2018, 46(4): 201-205.LI G, ZHANG P. A web knowledge extraction model based on agricultural ontology[J]. Jiangsu Agricultural Sciences, 2018, 46 (4): 201-205.

        [4]??? 王春雨, 王芳. 基于條件隨機(jī)場(chǎng)的農(nóng)業(yè)命名實(shí)體識(shí)別研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào), 2014, 37(1): 132-135.WANG C, WANG F. Research on agricultural named entity recognition based on conditional random field[J]. Journal of Hebei Agricultural University, 2014, 37 (1): 132-135.

        [5]??? TSENG H, CHANG P-C, ANDREW G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]// Proceedings of the fourth SIGHAN workshop on Chinese language Processing. San Diego, USA: Association for Computational Linguistics, 2005.

        [6]??? MALARKODI C, LEX E, DEVI S L J. Named entity recognition for the agricultural domain[J]. Research in Computing Science, 2016, 117(1): 121-132.

        [7]??? 劉曉俊. 面向農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別研究[D]. 合肥: 安徽農(nóng)業(yè)大學(xué), 2019.LIU X. Research on named entity recognition for agriculture[D]. Hefei: Anhui Agricultural University, 2019.

        [8]??? BISWAS P, SHARAN A, VERMA S. Named entity recognition for agriculture domain using word net[J]. IInternational Journal of Computer & Mathematical Sciences 2016, 5(10): 29-36.

        [9]??? MILLER G A. WordNet: An electronic lexical database[M]. Massachusetts: MIT press, 1998.

        [10]? LI J, SUN A, HAN J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge Data Engineering, 2020 (99): 1.

        [11]? MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. San Diego, USA: Association for Computational Linguistics, 2009: 1003-1011.

        [12]? ZENG D, LIU K, CHEN Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]// Proceedings of the 2015 conference on empirical methods in natural language processing. Lisbon, Portugal: Association for Computational Linguistics, 2015: 1753-1762.

        [13]? DEVLIN J, CHANG M-W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2018.

        [14]? POLINO A, PASCANU R, ALISTARH D. Model compression via distillation and quantization[EB/OL]. 2018. arXiv:1802.05668.

        [15]? HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. 2015. arXiv:1508.01991.

        [16]? ZHOU Z. A brief introduction to weakly supervised learning[J]. National Science Review, 2018, 5(1): 44-53.

        [17]? 米嘉. 大規(guī)模中文文本檢索中的高性能索引研究[D]. 北京: 中國科學(xué)院, 2005.MI J. Research on high performance index in large scale Chinese text retrieval[D]. Beijing: Chinese Academy of Sciences, 2005.

        [18]? LUO L, YANG Z, YANG P, et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): 1381-1388.

        [19]? SOUZA F, NOGUEIRA R, LOTUFO R. Portuguese named entity recognition using BERT-CRF[EB/OL]. 2019. arXiv:1909.10649.

        [20]? GREFF K, SRIVASTAVA R K, KOUTN?K J, et al. LSTM: A search space odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(10): 2222-2232.

        [21]? VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, US: Carran Associates Inc., 2017: 6000-6010.

        [22]? DONG C, ZHANG J, ZONG C, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[C]//International Conference on Computer Processing of Oriental Languages National CCF Conference on Natural Language Processing and Chinese Computing. Berlin, German: Springer, 2016: 239-250.

        [23]? YAN H, DENG B, LI X, et al. Tener: Adapting transformer encoder for name entity recognition[EB/OL]. 2019. arXiv:1911.04474.

        [24]? JIANG S, ZHAO S, HOU K, et al. A BERT-BiLSTM-CRF model for chinese electronic medical records named entity recognition[C]// 2019 12th International Conference on Intelligent Computation Technology and Automation. Piscataway, New York, USA: IEEE, 2019: 166-169.

        [25]? JAWAHAR G, SAGOT B, SEDDAH D. What does BERT learn about the structure of language?[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. San Diego, USA: Association for Computational Linguistics, 2019.

        [26]? OPITZ J, BURST S. Macro F1 and Macro F1[EB/OL]. 2019. arXiv:1911.03347.

        [27]? GRAVE E, BOJANOWSKI P, GUPTA P, et al. Learning word vectors for 157 languages[C]// Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA) , 2018.

        [28]? KINGMA D P, BA J J A P A. Adam: A method for stochastic optimization[EB/OL]// 3rd International Conference on Learning Representations. Ithaca, NY: arXiv. org. 2015: 13.

        Agricultural Named Entity Recognition Based on Semantic Aggregation and Model Distillation

        LI Liangde1,2, WANG Xiujuan1,3, KANG Mengzhen1,2*, HUA Jing1,4, FAN Menghan1,2

        (1.The State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;2.School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049, China;3.Beijing Engineering Research Center of Intelligent Systems and Technology, Beijing 100190, China;4.Qingdao Smart AgriTech.,Ltd, Qingdao 266000, China)

        Abstract: With the development of smart agriculture, automatic question and answer (Q&A) of agricultural knowledge is needed to improve the efficiency of agricultural information acquisition. Agriculture named entity recognition plays a key role in automatic Q&A system, which helps obtaining information, understanding agriculture questions and providing answer from the knowledge graph. Due to the scarcity of labeled ANE data, some existing open agricultural entity recognition models rely on manual features, can reduce the accuracy of entity recognition. In this work, an approach of model distillation was proposed to recognize agricultural named entity data. Firstly, massive agriculture data were leveraged from Internet, an agriculture knowledge graph (AgriKG) was constructed. To overcome the scarcity of labeled named agricultural entity data, weakly named entity recognition label on agricultural texts crawled from the Internet was built with the help of AgriKG. The approach was derived from distant supervision, which was used to solve the scarcity of labeled relation extraction data. Considering the lack of labeled data, pretraining language model was introduced, which is fine tuned with existing labeled data. Secondly, large scale pretraining language model, BERT was used for agriculture named entity recognition and provided a pretty well initial parameters containing a lot of basic language knowledge. Considering that the task of agriculture named entity recognition relied heavily on low-end semantic features but slightly on high-end semantic features, an Attention-based Layer Aggregation mechanism for BERT(BERT-ALA) was designed in this research. The aim of BERT-ALA was to adaptively aggregate the output of multiple hidden layers of BERT. Based on BERT-ALA model, Bidirectional LSTM (BiLSTM) and conditional random field (CRF) were coupled to further improve the recognition precision, giving a BERT-ALA+BiLSTM+CRF model. Bi-LSTM improved BERT's insufficient learning ability of the relative position feature, while conditional random field models the dependencies of entity recognition label. Thirdly, since BERT-ALA+BiLSTM+CRF model was difficult to serve online because of the extremely high time and space complexity, BiLSTM+CRF model was used as student model to distill BERT-ALA+BiLSTM+CRF model. It fitted the BERT-ALA+BiLSTM+CRF model's output of BiLSTM layer and CRF layer. The experiment on the database constructed in the research, as well as two open datasets showed that (1) the macro-F1 of the BERT-ALA + BiLSTM + CRF model was improved by 1% compared to the baseline model BERT + BiLSTM + CRF, and (2) compared with the model trained on the original data, the macro-F1 of the distilled student model BiLSTM + CRF was increased by an average of 3.3%, the prediction time was reduced by 33%, and the storage space was reduced by 98%. The experimental results verify the effectiveness of the BERT-ALA and knowledge distillation in agricultural entity recognition.

        Key words: distant supervision; agriculture knowledge graph; agriculture Q&A system; named entity recognition; knowledge distillation;deep learning; BERT; Bi-LSTM

        猜你喜歡
        農(nóng)業(yè)知識(shí)圖譜實(shí)體
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        新媒體在農(nóng)業(yè)知識(shí)科普宣傳中的應(yīng)用探究
        新媒體研究(2019年2期)2019-03-29 12:05:58
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        論廣播記者如何做好“三農(nóng)”新聞報(bào)道
        采寫編(2017年3期)2017-07-21 11:15:24
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        苗木繁育技能訓(xùn)練通識(shí)教育課程探索與實(shí)踐
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        好大好湿好硬顶到了好爽视频| 狠狠躁天天躁无码中文字幕图| 国产高清精品在线二区| 欧美午夜精品久久久久久浪潮| 国产精品无码一区二区三区电影 | 黑丝美女被内射在线观看| 亚洲精品国产精品国自产观看 | 国模gogo无码人体啪啪| 亚洲女同性恋在线播放专区| 午夜a福利| 精品国产一区二区三区久久狼| 久久无码字幕中文久久无码| 中文乱码字幕在线亚洲av| 少妇高潮紧爽免费观看| 国产综合自拍| 精品国内自产拍在线观看| 97久久精品人妻人人搡人人玩| 一区二区三区国产色综合| 国产一区二区三区蜜桃av| 免费毛片在线视频| 久久久无码中文字幕久...| 久久精品国产99久久无毒不卡| 亚洲激情一区二区三区不卡| 大量老肥熟女老女人自拍| 天天干夜夜躁| 亚洲第一网站免费视频| 国产在线精品一区在线观看| 免费不卡在线观看av| 久久女人精品天堂av影院麻 | 消息称老熟妇乱视频一区二区| 极品人妻少妇av免费久久| 亚洲av日韩综合一区尤物| 色青青女同性恋视频日本熟女| 久久国产免费观看精品| 亚洲综合无码一区二区三区| 国产真实强被迫伦姧女在线观看| 久久精品国产字幕高潮| 亚洲av免费不卡在线观看| 国产精品自拍盗摄自拍| 亚洲女同精品一区二区久久| 婷婷精品国产亚洲av|