劉永波,黃 強,高文波,何 鵬,許鈺莎
(1. 四川省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息與農(nóng)村經(jīng)濟研究所, 成都 610066; 2. 四川農(nóng)業(yè)大學(xué), 四川 雅安 625014)
【研究意義】知識圖譜(Knowledge Graph)是一種結(jié)構(gòu)化的語義知識庫,常以“實體—關(guān)系—實體”的三元組形式來表示實體間的關(guān)系[1],它通過將某領(lǐng)域的多源異構(gòu)知識結(jié)構(gòu)化,解決該領(lǐng)域內(nèi)數(shù)據(jù)缺失、信息碎片化、知識孤島化等問題,目前已在科研、金融、互聯(lián)網(wǎng)、人工智能等領(lǐng)域得到廣泛使用[2]。隨著人工智能、機器學(xué)習(xí)、大數(shù)據(jù)等學(xué)科的不斷發(fā)展,知識圖譜在領(lǐng)域知識管理方面取得較好的成績,農(nóng)業(yè)特定領(lǐng)域的知識圖譜構(gòu)建逐漸成為國內(nèi)外科研人員研究的重點。【前人研究進展】陳亞東等[3]從蘋果產(chǎn)業(yè)的知識來源、知識獲取、知識融合和知識表達4個方面對我國蘋果產(chǎn)業(yè)知識圖譜架構(gòu)進行設(shè)計,提出面向蘋果產(chǎn)業(yè)數(shù)據(jù)關(guān)聯(lián)的知識圖譜構(gòu)建思路。王丹丹[4]通過調(diào)研寧夏自治區(qū)水稻產(chǎn)業(yè)發(fā)展的需求,以知識表示為基礎(chǔ),利用模式匹配的方法構(gòu)建了寧夏水稻知識圖譜。許鑫等[5]利用Neo4j、NLP及圖譜構(gòu)建技術(shù),構(gòu)建了小麥品種知識圖譜體系,解決了品種數(shù)據(jù)中知識重復(fù)率高、知識關(guān)聯(lián)不明確等問題?!颈狙芯壳腥朦c】知識圖譜構(gòu)建的研究在國內(nèi)農(nóng)業(yè)領(lǐng)域取得了一定進展,但依然存在圖譜規(guī)模小,體系不完整,實體命名識別效果差,缺少自主演進手段等問題。茶葉是我國重要的經(jīng)濟作物,茶葉生產(chǎn)和銷售過程中會面臨種植、管理、加工等多個環(huán)節(jié),每個環(huán)節(jié)都需要科學(xué)的技術(shù)指導(dǎo)[6]。但當前絕大多數(shù)的茶葉領(lǐng)域開源知識都以非結(jié)構(gòu)化數(shù)據(jù)形式集中在百科全書或開放領(lǐng)域的百科網(wǎng)站,存在知識數(shù)據(jù)信息化程度低、聚合能力差、利用效率低、知識共建共享困難等問題[7]?!緮M解決的關(guān)鍵問題】本研究以茶葉百科網(wǎng)站、百科全書等多源異構(gòu)數(shù)據(jù)為基礎(chǔ),茶葉專家經(jīng)驗為指導(dǎo),根據(jù)茶葉全產(chǎn)業(yè)鏈中文本實體所呈現(xiàn)的關(guān)系特征,提出一種基于BERT-WWM-BiLSTM-AttTea-CRF模型的茶葉知識圖譜構(gòu)建方法。該方法通過提取茶葉全產(chǎn)業(yè)鏈中的有效命名實體,構(gòu)建了包含茶葉品種、茶葉病蟲害、茶樹生長環(huán)境、茶園適用技術(shù)4個類別的知識圖譜。旨在利用茶葉全產(chǎn)業(yè)鏈知識圖譜構(gòu)建及自主演進技術(shù)建立供需關(guān)聯(lián)規(guī)則,實現(xiàn)茶葉生產(chǎn)社會化服務(wù)的供需精準匹配,同時為農(nóng)業(yè)經(jīng)營主體關(guān)系可視化、農(nóng)時指導(dǎo)問答系統(tǒng)、農(nóng)業(yè)知識圖譜的應(yīng)用等研究提供參考。
知識圖譜根據(jù)數(shù)據(jù)源中數(shù)據(jù)格式的規(guī)范程度不同,可分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化3種數(shù)據(jù)類型[8]。結(jié)構(gòu)化數(shù)據(jù)由規(guī)范的數(shù)據(jù)庫制表構(gòu)成,此類數(shù)據(jù)可通過D2R工具直接轉(zhuǎn)換為三元組數(shù)據(jù),但目前互聯(lián)網(wǎng)尚未有開源的茶葉數(shù)據(jù)庫可供提取,因此本研究的茶葉知識圖譜數(shù)據(jù)源主要由非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成。茶葉全產(chǎn)業(yè)鏈命名實體識別缺少公開的語料數(shù)據(jù)集,本研究采集的非結(jié)構(gòu)化數(shù)據(jù)主要來自《中國茶葉大辭典》《茶樹栽培學(xué)》《茶樹栽培技術(shù)》等紙質(zhì)書籍或電子書文件,對紙質(zhì)書籍經(jīng)過掃描形成PDF文件,采用OCR(Optical Character Recognition)文字識別技術(shù)將PDF文字轉(zhuǎn)換文本數(shù)據(jù),便于對數(shù)據(jù)進行管理和標注。采集的語料數(shù)據(jù)集包含茶葉品種262種,茶葉病害105種(包含32種病害和73種蟲害),茶葉生長環(huán)境179篇(包含水分、溫度、海拔、光照等),茶園適用技術(shù)232篇(包含耕作、施肥、修剪、采摘等),總計4大類778篇語料文本,約70萬個中文字符。
知識圖譜的架構(gòu)一般分為兩個層次:模式層和數(shù)據(jù)層。模式層是知識圖譜結(jié)構(gòu)的核心,建立在數(shù)據(jù)層之上,通常采用本體管理來實現(xiàn)知識圖譜的模式層[9-10]。本體構(gòu)建是對整個茶葉知識圖譜框架的構(gòu)建,本體構(gòu)建的目的在于理清茶葉知識圖譜中實體與實體之間的關(guān)系,為本研究提出的模型智能提取茶葉文本語料數(shù)據(jù)提供依據(jù)。為構(gòu)建茶葉全生產(chǎn)過程的本體模型,本研究借鑒茶葉專家經(jīng)驗將茶葉知識圖譜定義為茶葉品種、茶葉病蟲害、茶葉生長環(huán)境、茶園適用技術(shù)4個大類。每一大類再分為若干小類,例如將茶葉病蟲害分為茶葉病害和茶葉蟲害2個子類,將茶葉生長環(huán)境分為水分、溫度、海拔、光照等子類。每一個子類包含一級圖譜,再根據(jù)子類細分為多個小類,形成二級圖譜,最后根據(jù)茶葉命名實體的特性來定義每類中的實體、關(guān)系、屬性。茶葉知識圖譜的部分本體構(gòu)建關(guān)系如圖1所示,其中茶葉品種、茶葉病蟲害、茶葉生長環(huán)境、茶園適用技術(shù)4個大類的一級圖譜通過不同顏色區(qū)分。
圖1 本體構(gòu)建關(guān)系Fig.1 Ontology building relationgship
目前最常用的序列標注方法有三位標注(Beginning Inside Outside,BIO)、五位標注(Beginning Inside Outside End Singleton,BIOES)、反向三位標注(Inside Outside Beginning,IOB) 3種,其中IBO因為缺少B-tag作為實體標注的頭部表示,丟失了部分標注信息,導(dǎo)致文本提取效果不佳,BIO很好地解決了這一問題,文本提取效果優(yōu)于IBO[11]。而BIO相較于BIOES擁有更簡易的標簽,且提取效果相近,因此本研究選擇BIO作為數(shù)據(jù)標注的主要方式。BIO方法將文本中元素標注為“B-X”“I-X”“O” 3種形式。其中“B-X”代表“Beginning”,表示被該標簽標注的元素位于X類型實體的開頭位置;“I-X”代表“Inside”,表示該元素處于X類型實體片段的中間位置(包含尾部位置);“O”代表“Outside”,表示該元素為非所需的實體類型[12]。以抽取書籍中茶葉品種的文字描述為例,茶葉品種的語料具有以下特征:關(guān)于茶葉品種的描述通常是一段獨立文字圍繞一個茶葉品種展開,因此該段文字中茶葉品種作為頭部實體是固定的,重點在于對尾部實體和實體關(guān)系的提取。根據(jù)上述特征,以茶葉品種中的‘福鼎大白茶’為例,按圖2所示標注文字序列。
圖2 文字序列標注Fig.2 Text sequence annotation
將‘福鼎大白茶’頭部實體標注為NAME,其中實體第一個字為B-NA,其余文字標注為I-NA。由于‘福鼎白毫’是‘福鼎大白茶’的別名,故將‘福鼎白毫’標注為別名(Another Name,AN)?!6Υ蟀撞琛c“福建省福鼎市”之間為原產(chǎn)地關(guān)系,則將‘福建省福鼎市”標注為原產(chǎn)地(PLACE,PL)。‘福鼎大白茶’與“無性系”之間為繁殖方式關(guān)系,則將“無性系”標注為繁殖方式(BREED,BR),其余文字序列標注以此類推。當模型匹配到主實體B-NA和關(guān)系B-AN的標簽集合時即生成三元組(‘福鼎大白茶’,別名,‘福鼎白毫’);匹配到NA和BR的標簽集合時,即生成三元組(福鼎大白茶,繁殖方式,無性系)。當模型檢測到下一個茶葉品種的實體標簽出現(xiàn)時,則表示上一個品種實體的三元組標簽全部抽取完成。
1.4.1 模型總體架構(gòu)設(shè)計 BERT-BiLSTM-CRF的模型組合方式是當前命名實體識別領(lǐng)域的代表性模型,其優(yōu)良的性能已在各大開源文本數(shù)據(jù)集測試中得到驗證。但由于模型未針對農(nóng)業(yè)體系命名實體做針對性改進,而茶葉作為農(nóng)業(yè)體系中一大分支體系,其領(lǐng)域涵蓋大量生僻詞匯和專業(yè)性描述語句,如何提升原有模型對茶葉語料文本的識別效率,是當前茶葉知識領(lǐng)域有待解決的問題。針對上述問題,本研究擬采用基于全詞掩碼的BERT-WWM(Whole Word Masking)層預(yù)訓(xùn)練模型替換原有模型中的單字隨機掩碼BERT層,解決茶葉領(lǐng)域生僻詞匯提取不完整的問題,并根據(jù)茶葉領(lǐng)域語料數(shù)據(jù)的全局文本特征,設(shè)計可實現(xiàn)茶葉關(guān)鍵實體權(quán)重分配的Attention_Tea注意力機制層,以提高文本提取的準確率。
本研究提出的融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型結(jié)構(gòu)如圖3所示,它由全詞掩碼的BERT-WWM層、BiLSTM層、融合注意力機制Attention_Tea層和CRF層組成。該模型的主要步驟為:第1步,將輸入的文本經(jīng)過基于全詞掩碼BERT-WWM層預(yù)訓(xùn)練,提取文本中與茶葉領(lǐng)域知識相關(guān)的語義特征;第2步,文本經(jīng)上游處理后輸入到下游BiLSTM層,結(jié)合上下文進行雙向編碼處理,并輸出特征值;第3步,利用Attention_Tea層注意力機制分配茶葉領(lǐng)域?qū)嶓w提取的權(quán)重,降低無效詞匯的權(quán)重;第4步,以CRF層對分配權(quán)重后提取的預(yù)測值進行解碼,得到1個預(yù)測標注序列,通過對序列中的各個實體進行提取分類, 從而完成中文實體識別的整個流程。
圖3 BERT-WWM-BiLSTM-AttTea-CRF模型框架Fig.3 BERT-WWM-BiLSTM-AttTea-CRF model framework
1.4.2 基于全詞掩碼的BERT-WWM層 對于實體識別的上游任務(wù)語言預(yù)處理方面, 當前常用的語義表示學(xué)習(xí)模型(如Word2Vec[13]、Glove[14]、ELMO等)無法很好的表征漢語語言環(huán)境中的字詞多義性。因此本研究選擇基于Transformers的雙向編碼器表示層語言模型(Bidirectional Encoder Representations from Transformers,BERT)作為圖譜構(gòu)建的語言預(yù)處理模型, 以此來獲取高質(zhì)量的詞向量,利于下游任務(wù)進行實體提取和分類。BERT語言模型是Google AI研究院在2018年提出的一種預(yù)訓(xùn)練模型,在針對英文的詞向量提取中表現(xiàn)突出。中文領(lǐng)域的語義理解不同于英文,兩者最大區(qū)別在于英文單詞存在空格,預(yù)處理模型對英文的分詞更容易,而中文語句中不存在天然的分隔符,每個詞由多個單字組成[15]。若直接使用BERT原有模型對茶葉領(lǐng)域的語料進行分詞,會把一個完整的名詞拆分為若干個單字,例如茶葉品種中的“櫧葉齊”一詞,在處理時會被拆分為“櫧”“葉”“齊”3個字,在BERT模型預(yù)訓(xùn)練過程中,這些單字會被隨機[mask]替換,這樣的處理方式顯然無法很好地提取茶葉文本數(shù)據(jù)中的有效語義信息。針對茶葉語料數(shù)據(jù)的特征,本研究采用基于全詞掩碼的BERT-WWM預(yù)訓(xùn)練模型,當茶葉領(lǐng)域詞組中的某個字在訓(xùn)練過程中被[mask]時,同屬該詞組的其他字也會被同時[mask]。茶葉領(lǐng)域全詞掩碼生成樣例如表1所示。
表1 全詞掩碼生成樣例
基于全詞掩碼的BERT-WWM詞向量預(yù)訓(xùn)練模型,由Embedding層和Transformer層組成。其預(yù)訓(xùn)練過程主要包含以下步驟:第1步,定義模型的輸入句子為e=(e1,e2,….,en),其中ei表示輸入句子的第i個字符,n表示句子長度。第2步,將Embedding層中的輸入句子以詞嵌入向量(Token Embeddings)、分割向量(Segment Embeddings)和位置向量(Position Embeddings)三者求和的方式轉(zhuǎn)換為輸入序列T=(t1,t2,….,tn)。其中,詞向量通過查詢字向量表得到,分割向量用來表示該詞屬于的句子,位置向量表示該詞的位置信息。第3步,將序列T=(t1,t2,….,tn)輸入Transformer層以提取特征,得到語義豐富的輸出序列h0=(h1,h2,….,hn)作為后續(xù)實體關(guān)系聯(lián)合抽取的句子編碼。
BERT預(yù)訓(xùn)練模型的關(guān)鍵部分在Transformer層,Transformer層的核心是通過自注意力函數(shù)Attention()來計算詞與詞之間的關(guān)聯(lián)度,以此來分配詞的權(quán)重[16]。
(1)
式中,以headi表示單頭Attention,MultiHead表示多頭注意力,W是權(quán)重矩陣,通過多個不同的線性變換對Q、K、V投影,再用拼接函數(shù)Concat()將自注意力機制結(jié)果拼接乘以權(quán)重,通過計算來得到不同空間維度的位置信息。
(2)
MultiHead(Q,K,V)=Concat(head1,head2…h(huán)eadn)W0
(3)
1.4.3 雙向長短時記憶BiLSTM層 長短時記憶網(wǎng)絡(luò)LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,BiLSTM模型不同于單向的LSTM神經(jīng)網(wǎng)絡(luò)模型,BiLSTM模型的優(yōu)勢在于可實現(xiàn)對文本前句和后句的雙向分析,有效處理梯度爆炸和梯度消失的問題,在實體抽取任務(wù)中效果更優(yōu)[17]。茶葉領(lǐng)域的語料文本結(jié)構(gòu)復(fù)雜多樣化,需結(jié)合上下文信息才能精確提取目標實體。LSTM模型的弊端在于只能獲取目標實體的前向信息,比如,名為“茶赤葉斑病”的病害實體,若采用LSTM模型,則只能獲取到“斑”字的前向信息“葉”,而無法預(yù)測到后向的“病”字。LSTM的單個神經(jīng)元(CELL)結(jié)構(gòu)如圖4所示。
圖4 LSTM的單個神經(jīng)元Fig.4 Single neuron of LSTM
在LSTM模型中,包含遺忘門、輸入門和輸出門3種門結(jié)構(gòu)。遺忘門負責(zé)管控上一時刻Ct-1到當前時刻Ct的保有量,輸入門負責(zé)管控網(wǎng)絡(luò)輸入xt到當前時刻Ct的保有量,輸出門控制Ct輸出到at。
ft=σ(Wf×[at-1,xt]+bf)
(4)
it=σ(Wi×[at-1,xt]+bi)
(5)
(6)
(7)
最后LSTM的輸出值at由輸出門的值ot和單元狀態(tài)Ct計算所得,如公式(8)(9)所示:
ot=σ(Wa×[at-1,xt]+b0)
(8)
at=ot×tanh(Ct)
(9)
將前向LSTM和后向LSTM組成雙向長短時記憶網(wǎng)絡(luò)BiLSTM分別將從左右2個方向拼接成一個長輸入序列,并輸出到模型下一層,其結(jié)構(gòu)如圖5所示。
圖5 BiLSTM雙向結(jié)構(gòu)Fig.5 Bilstm bidirectional structure
1.4.4 融合自注意力機制Attention_Tea層 注意力機制(Attention Mechanism)一詞起源于人類對觀察事物的研究。由于人類的視覺對客觀世界的信息處理存在瓶頸,注意力機制會將注意力集中在具有明顯特征的信息上,選擇性忽略一些次要信息[18]。在茶葉領(lǐng)域命名實體抽取任務(wù)中,存在較多茶葉專用名詞和生僻漢字,且同一命名實體可能存在多篇語料數(shù)據(jù)中,實體所處位置不同,表達的含義也存在差異。若忽略實體在全文的語境,僅關(guān)注實體在所處句子的上下文信息,會出現(xiàn)同一實體前后標注不一致的問題。例如品種‘福選9號’的文本描述如下:福選9號是因從福鼎大白茶中選育而得名,選自福建福鼎縣。小喬木型、中葉類,特早品系,雨水節(jié)左右萌發(fā)采摘。文本中出現(xiàn)了2個品種名,即“福選9號”和“福鼎大白茶”,從文本的描述中不難看出來,該句描述的品種主實體應(yīng)該是‘福選9號’,但‘福鼎大白茶’在多篇語料數(shù)據(jù)中以實體形式出現(xiàn),在脫離全文語境,僅對該句進行識別的情況下,很大概率會對‘福選9號’錯標或漏標。本研究根據(jù)茶葉語料數(shù)據(jù)中實體分布不均勻、實體多樣化等特點,引入茶葉語料數(shù)據(jù)全局信息解決實體標注不準確的問題。為選擇最適合的注意力計算函數(shù),分別以感知機、余弦距離、皮爾遜相關(guān)系數(shù)進行注意力機制實驗,表明,余弦距離對茶葉命名實體的識別效果最優(yōu)。因此,本研究選擇余弦距離公式做相似性計算,重點關(guān)注分布在不同篇幅語料數(shù)據(jù)的同一實體[19-20]。
本研究通過注意矩陣處理BiLSTM層輸出的特征序列,計算文檔中所有字與目標實體的相關(guān)性。注意力權(quán)重向量ri的計算公式如下:
(10)
式中,yj表示BiLSTM層的輸出的特征序列。bij為當前字與全局文檔字的相關(guān)性概率,其計算公式為:
(11)
(12)
式中,wi、wj為當前字和文檔中字的權(quán)重,Wa為訓(xùn)練過程的參數(shù),f(wi,wj)為余弦距離。
1.4.5 條件隨機場CRF層 條件隨機場(Conditional random field,CRF)以BERT層、BiLSTM層和Attention_Tea層提取上下文特征向量為輸入,其主要目的是對語句進行有序列的輸出,利用CRF層中的轉(zhuǎn)移矩陣找出標簽之間的聯(lián)系。當Attention_Tea層輸出的序列為x,標簽序列為y的概率計算公式為:
s=∑iPE(xi,yi) +PT(yi-1,yi)
(13)
式中,PE為注意力層輸出概率,PT為CRF層轉(zhuǎn)移概率。
1.5.1 本模型與基準模型對比試驗 本研究以BERT-BiLSTM-CRF為基準模型,提出融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型。為驗證該模型改進后的有效性,以BiLSTM-CRF、BERT-BiLSTM-CRF、BERT-BiLSTM-AttTea-CRF 3種模型分別搭配全詞掩碼和單字掩碼進行模型性能對比,為驗證改進算法對模型識別效率的提升,所有模型均采用相同的參數(shù)、學(xué)習(xí)率和Transformer層數(shù),且茶葉語料訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均為同一數(shù)據(jù)集。
1.5.2 不同類別的茶葉數(shù)據(jù)對比試驗 為進一步驗證模型改進對茶葉各大類語料數(shù)據(jù)識別的性能提升,在BERT-BiLSTM-CRF基準模型的基礎(chǔ)上分別加入全詞掩碼和注意力機制層,形成4組模型分別對試驗材料中的茶葉品種、茶葉病害、茶葉生長環(huán)境、茶葉適用技術(shù)4類數(shù)據(jù)進行分類實驗。
1.5.3 本模型與其他模型對比試驗 本研究模型是基于BERT-BiLSTM-CRF的改進模型,為驗證本模型相對其他模型在茶葉領(lǐng)域?qū)嶓w抽取的有效性。本模型選擇在中文命名實體任務(wù)中取得較好成績的3種模型。其中BERT-IDCNN-CRF模型在醫(yī)療和軍事領(lǐng)域表現(xiàn)突出[21],RoBERTa-BiLSTM-CRF在特定中文領(lǐng)域的實體識別任務(wù)中F1值達到96%[22],ALBERT-BiLSTM-CRF在大規(guī)模中文事件數(shù)據(jù)集準確率達95%[23]。本研究實驗過程中所使用的茶葉語料訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均為同一數(shù)據(jù)集。
模型訓(xùn)練需要消耗大量的算力資源,只依靠計算機CPU計算會占用大量時間,因此本研究選擇使用NVIDIA Quadro RTX 4000顯卡對模型進行訓(xùn)練,詳細的實驗環(huán)境配置表如表2所示。
表2 實驗環(huán)境配置
在評價指標方面,本研究采用自然語言處理領(lǐng)域最常用的準確率(Precision)、召回率(Recall)及F1值(F1-Score)3項基本指標來評價模型[24-25]。各項指標的計算公示如下:
(14)
(15)
(16)
式中,TP表示結(jié)果為正類,且預(yù)測正確;FP結(jié)果為正類,但預(yù)測錯誤;FN表示結(jié)果為負類,且預(yù)測錯誤。
由表3可知,在原有的BiLSTM_CRF模型上加入BERT預(yù)訓(xùn)練層后,模型識別準確率顯著提升,其中準確率提升5.91個百分點,召回率提升6.34個百分點,F(xiàn)1值提升5.88個百分點,說明位置信息是茶葉語料數(shù)據(jù)中的重要特征。通過后4組模型的實驗對比可以看出,加入全詞掩碼的BERT層與單字掩碼的BERT層對比,模型識別率有1~2個百分點的提升。而同樣為全詞掩碼的2組模型中,融入茶葉語料特征注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型,相對BERT-WWM-BiLSTM-CRF模型,準確率、召回率、F1值分別提升4.11、5.46、4.81個百分點。融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型的準確率、召回率、F1值分別達到92.03%、90.36%、91.19%,為本試驗中的最優(yōu)模型。
表3 模型的性能對比
由圖6可知,在不同類別的茶葉語料數(shù)據(jù)對比試驗中,與茶葉品種和茶葉病害相比,本研究模型對于生長環(huán)境、適用技術(shù)的提取結(jié)果較差。對茶葉語料數(shù)據(jù)的分析可知,造成提取結(jié)果較差的原因是由于茶葉品種和茶葉病害的文本描述格式較為統(tǒng)一,語序較為固定,模型可以較好地提取到文本中的實體與實體關(guān)系數(shù)據(jù)。而茶葉生長環(huán)境數(shù)據(jù)和適用技術(shù)中包含大量的指標名稱和指標數(shù)值,且描述方式規(guī)律性較弱,例如:幼樹一般要進行3~4次定剪,以春季茶芽未萌發(fā)之前(3月驚蟄前后)為佳,最遲必須保證在春季茶萌芽前進行,內(nèi)容中包含類似“前后”、“最遲”的指標描述,若模型只提取到時間關(guān)鍵詞“3月”而對“前后”漏標,形成的知識數(shù)據(jù)與原文即存在較大誤差??梢?,本研究根據(jù)茶葉語料數(shù)據(jù)做針對性改進后的全詞掩碼BERT-WWM-BiLSTM-AttTea-CRF模型對基礎(chǔ)模型的提升效果顯著,但同時也存在全詞掩碼策略對茶葉生長環(huán)境識別提升不明顯的問題。
圖6 不同類別的茶葉數(shù)據(jù)對比試驗Fig.6 Comparative test on data of different types of tea
BERT-BiLSTM-CRF基準模型對茶葉品種、茶葉病害的提取效果較為一般(表4),經(jīng)過本研究改進的BERT-WWM-BiLSTM-AttTea-CRF模型,對茶葉品種、茶葉病害等4類數(shù)據(jù)的識別效率都有顯著提升。
表4 BERT-WWM-BiLSTM-AttTea-CRF在各類實體上的識別
由表5可知,本研究提出的BERT-WWM-BiLSTM-AttTea-CRF模型相較BERT-IDCNN-CRF、RoBERTa-BiLSTM-CRF、ALBERT-BiLSTM-CRF 3類模型在準確率上分別提升10.66、9.06、3.76個百分點;在召回率上分別提升8.27、9.24、6.94個百分點;在F1值上分別提升9.28、9.16、5.41個百分點。BERT-WWM-BiLSTM-AttTea-CRF模型在茶葉領(lǐng)域命名實體識別任務(wù)中準確率、召回率、F1值分別達到92.03%、90.36%、91.19%,均優(yōu)于其他主流模型,因此在茶葉全產(chǎn)業(yè)鏈知識圖譜構(gòu)建研究中采用本模型作為非結(jié)構(gòu)化數(shù)據(jù)抽取的主要方法。
表5 模型對比
伴隨著計算機硬件能算力的提升,基于規(guī)則和詞典的方法在深度學(xué)習(xí)技術(shù)的加持下,對處理實體抽取任務(wù)表現(xiàn)出較高的效率。文本提取不再只依賴于人工特征,圖譜構(gòu)建過程中特征提取的成本有效降低[26],為農(nóng)業(yè)領(lǐng)域知識圖譜的完整構(gòu)建提供了新的可能。吳賽賽等[27]提出一種基于BERT+BiLSTM+CRF的作物病蟲害知識圖譜構(gòu)建方法,并利用Neo4j實現(xiàn)作物病蟲害知識圖譜的可視化展示。袁培森等[28]根據(jù)植物本體論提出利用BERT模型實現(xiàn)水稻的基因、環(huán)境、表型等實體與實體關(guān)系的抽取。宋林鵬等[29]使用傳統(tǒng)的CRF和詞向量+BiLSTM+CRF 2種模型對農(nóng)業(yè)技術(shù)文本實體進行提取,得出詞向量+BiLSTM+CRF模型提取效果優(yōu)于傳統(tǒng)CRF的結(jié)論。以上研究均利用BERT等實體抽取模型,在農(nóng)業(yè)領(lǐng)域的文本實體抽取任務(wù)中取得一定成效,但上述實體抽取方法多為現(xiàn)有模型,未根據(jù)農(nóng)業(yè)領(lǐng)域文本特征做出針對性的創(chuàng)新和改進。本研究對茶葉語料數(shù)據(jù)的位置信息和全局文本中的權(quán)重信息進行改進,相對于傳統(tǒng)BERT-BiLSTM-CRF模型而言,識別和抽取效率有效提高。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不適合用于處理實體之間的關(guān)系,因此,知識圖譜通常以圖數(shù)據(jù)庫作為存儲引擎。目前,市面上常用的圖數(shù)據(jù)庫包括JanusGraph[30]、Neo4j[31]、TigerGraph[32]、ArangoDB等。在性能方面,Neo4j和TigerGraph的數(shù)據(jù)存儲基于點和邊,計算過程中不需經(jīng)過邏輯層和物理層轉(zhuǎn)換,在執(zhí)行速度上更快。在存儲容量方面,JanusGraph利用HBase實現(xiàn)后端分布式存儲,在支持大容量存儲方面有一定優(yōu)勢。本研究中的茶葉知識圖譜屬于特定領(lǐng)域知識圖譜,與通用型知識圖譜相比數(shù)據(jù)量較小,圖譜演進速度較慢,但圖譜維度更深。因此,Neo4j作為一款開源圖數(shù)據(jù)庫系統(tǒng),具體執(zhí)行速度快、輕量級部署、組件豐富等優(yōu)勢,更適用于茶葉知識圖譜的數(shù)據(jù)存儲。通過對茶葉非結(jié)構(gòu)化數(shù)據(jù)的知識抽取,利用關(guān)系數(shù)據(jù)找出知識抽取中的等價實體,實現(xiàn)知識融合,最后結(jié)合專家經(jīng)驗進行知識補全,初步形成的茶葉知識圖譜共有實體2690種,關(guān)系數(shù)據(jù)277種,三元組數(shù)據(jù)5610條。由于茶葉知識圖譜的數(shù)據(jù)體量并不龐大,因此本研究采用 Neo4j 數(shù)據(jù)庫自帶 Cypher 查詢語言將解析獲取的實體節(jié)點和關(guān)系數(shù)據(jù)保存在import目錄下的.csv文件中。為避免因?qū)胫形臄?shù)據(jù)出現(xiàn)的亂碼,將文本轉(zhuǎn)換為UTF-8格式,再通過LOAD CSV的方式導(dǎo)入import目錄下的.csv文件,并結(jié)合JavaScript Driver讀取Neo4j圖數(shù)據(jù)庫中茶葉全產(chǎn)業(yè)鏈圖譜數(shù)據(jù),將讀取后的數(shù)據(jù)解析為JSON格式,最后利用D3.js可視化框架實現(xiàn)茶葉圖譜數(shù)據(jù)可視化。
本研究提出的BERT-WWM-BiLSTM-AttTea-CRF模型可自動提取茶葉知識文本數(shù)據(jù),形成一種覆蓋茶葉全產(chǎn)業(yè)鏈的知識圖譜構(gòu)建方法。結(jié)果表明該方法對茶葉文本數(shù)據(jù)的抽取效果優(yōu)于ALBERT-BiLSTM-CRF、RoBERTa-BiLSTM-CRF等主流模型,準率去、召回率、F1值分別達到92.03%、90.36%、91.19%。茶葉知識圖譜的構(gòu)建也為農(nóng)事指導(dǎo)問答系統(tǒng)、農(nóng)業(yè)知識圖譜的應(yīng)用、特定領(lǐng)域知識圖譜構(gòu)建等研究方向提供了參考。