曾蘭蘭,王以松,陳攀峰
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025)
近年來,大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展使得法院信息化建設(shè)的進(jìn)程不斷加快,多種自然語言處理技術(shù)被應(yīng)用到了法律領(lǐng)域中[1]。命名實(shí)體識別(Named Entity Recognition,NER)是構(gòu)建法律知識圖譜的一項(xiàng)關(guān)鍵技術(shù)[2],而目前針對裁判文書的命名實(shí)體識別的研究尚且處于起步階段,相關(guān)工作并不多。裁判文書具有一定的格式規(guī)范,對于一些格式規(guī)范、表達(dá)方式單一的實(shí)體可以直接利用規(guī)則進(jìn)行抽取,如佘貴清等[3]利用正則表達(dá)式構(gòu)建規(guī)則模板來對刑事判決書中的被告人信息、辯護(hù)人信息和量刑情節(jié)等進(jìn)行抽取;宋傳寶[4]通過編寫基于規(guī)則的實(shí)體識別引擎(Java Annotation Patterns Engine,JAPE)規(guī)則實(shí)現(xiàn)了對案號、案件類型和審判時間等實(shí)體的抽取。但如受害人、作案工具和案發(fā)起因之類實(shí)體的表達(dá)方式復(fù)雜多樣,并不能通過直接通過規(guī)則進(jìn)行抽取。目前針對這類復(fù)雜的實(shí)體可使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行識別,但需解決以下兩個方面的問題:
1)多義詞表示問題。裁判文書中存在大量的多義詞,例如“他一下把刀奪了過來”和“他推了董某一下”中“一下”這個詞的上下文語境理應(yīng)是不一樣,如果使用Word2vec[5]等靜態(tài)詞向量作為模型輸入將無法對這些多義詞進(jìn)行表示。
2)實(shí)體邊界識別錯誤問題。雖然使用詞向量作為模型的輸入能給模型提供一些實(shí)體的邊界信息,但詞向量的構(gòu)建首先需要對文本進(jìn)行分詞,由于裁判文書中專業(yè)術(shù)語較多,單獨(dú)利用分詞工具進(jìn)行分詞則會帶來分詞錯誤,如分詞工具會將“不銹鋼碗”這個實(shí)體分成“不/銹/鋼碗”,這可能會導(dǎo)致模型將該實(shí)體識別成“鋼碗”。
針對上述問題,在BiLSTM-CRF(Bidirectional Long Short-Term Memory with a sequential Conditional Random Field)模型[6]的基礎(chǔ)上,本文提出了一種基于聯(lián)合學(xué)習(xí)和BERT(Bidirectional Encoder Representation from Transformers)[7]的BiLSTM-CRF模型,即JLB-BiLSTM-CRF(BiLSTM-CRF based on Joint Learning and BERT)模型。與僅使用雙向長短期記憶(BiLSTM)網(wǎng)絡(luò)來提取文本特征的BiLSTM-CRF 模型不同,除使用BiLSTM 網(wǎng)絡(luò)建模長文本信息外,JLB-BiLSTM-CRF 模型還使用BERT 對輸入的字符序列進(jìn)行編碼,在避免分詞錯誤的同時通過對BERT 進(jìn)行微調(diào)可以提升詞向量的表征能力,從而解決一詞多義問題;此外,該模型將命名實(shí)體識別任務(wù)與分詞任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),通過讓它們共享相同的BERT嵌入層,以此來提升實(shí)體的邊界識別率。由于尚未有公開的裁判文書數(shù)據(jù)集可供使用,本文針對2 700 篇刑事裁判文書進(jìn)行了標(biāo)注。在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型能有效提升多類實(shí)體的識別效果。
基于詞典和規(guī)則的命名實(shí)體識別方法需要人工去制定規(guī)則或詞典,可移植性差,代價高。隨著語料集的豐富,一些統(tǒng)計(jì)學(xué)習(xí)方法如隱馬爾可夫模型(Hidden Markov Model,HMM)[8]、條件隨機(jī)場(Conditional Random Field,CRF)[9]、支持向量機(jī)(Support Vector Machine,SVM)[10]也被應(yīng)用于命名實(shí)體識別中,但特征的提取依賴于人工,泛化能力不強(qiáng)。神經(jīng)網(wǎng)絡(luò)模型能自動進(jìn)行特征的提取,不依賴于繁瑣的特征工程,所以近年來神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于命名實(shí)體識別任務(wù)中,如Hammerton[11]首次將長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)應(yīng)用于命名實(shí)體識別任務(wù)中;相較于LSTM 的單向編碼,Lample等[6]提出的BiLSTM-CRF 模型則使用BiLSTM 捕獲句子的雙向語義,并通過CRF 層預(yù)測出每個詞的標(biāo)簽;Zhang等[12]利用外部詞典將詞向量信息融入到了字向量中,有效避免了分詞錯誤問題;Dong等[13]提出的Radical-BiLSTM-CRF 模型能學(xué)習(xí)到中文字符級別及其部首級別的表示,在無需精心設(shè)計(jì)特征的情況下能獲得更好的性能。除了利用BiLSTM 網(wǎng)絡(luò)提取特征之外,也有一些工作將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用到了命名實(shí)體識別領(lǐng)域中,如Strubell等[14]使用迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated CNN,IDCNN)替代BiLSTM,與CRF層結(jié)合組成IDCNN-CRF 模型,在捕獲到更大范圍的序列信息的同時還能加快模型的訓(xùn)練速度;而Ma等[15]提出的BiLSTM-CNNs-CRF 模型能夠自動學(xué)習(xí)到詞級別和字符級別的表示。由于Word2vec 之類的靜態(tài)語言模型無法對多義詞進(jìn)行表示,而BERT[7]模型具有表征一詞多義的能力,在多個領(lǐng)域的命名實(shí)體識別任務(wù)上都取得了很好的效果,如Liu等[16]利用BERT-BiLSTM-CRF 從非結(jié)構(gòu)化的歷史文本數(shù)據(jù)中提取實(shí)體信息,在歷史文化領(lǐng)域的命名實(shí)體識別任務(wù)中取得了良好的效果;針對中文電子病歷命名實(shí)體識別任務(wù),Li等[17]為了利用到未標(biāo)記的特定領(lǐng)域知識,使用未標(biāo)記的中文電子病歷對BERT 模型進(jìn)行了預(yù)訓(xùn)練,并加入了字典特征和部首特征以提升模型性能;使用相關(guān)任務(wù)聯(lián)合訓(xùn)練命名實(shí)體識別模型能有效提升實(shí)體的識別效果,如Wang等[18]通過讓在不同數(shù)據(jù)集上訓(xùn)練的生物醫(yī)學(xué)命名實(shí)體識別模型共享參數(shù)以學(xué)習(xí)到更通用的詞向量表示;Tong等[19]將實(shí)體的分類任務(wù)作為輔助任務(wù)聯(lián)合訓(xùn)練命名實(shí)體識別模型,能在低資源場景下取得更好性能。
在司法領(lǐng)域也有一些關(guān)于命名實(shí)體識別的研究,如Huang等[20]使用了句向量 的分布記憶模 型(Distributed Memory model of Paragraph Vector,PV-DM)來學(xué)習(xí)更魯棒的句子向量表示并改進(jìn)了Viterbi 算法來提升模型的效率;Wang等[21]提出的Attention-BiLSTM-CRF 模型除使用BiLSTM進(jìn)行序列建模外還利用了注意力機(jī)制提取句子內(nèi)部的局部特征;王得賢等[22]提出的融合字、詞和自注意力的雙重LSTM(Join Character Word and Attenion-Dual Long Short-Term Memory,JCWA-DLSTM)模型分別使用了字符模型和自注意力機(jī)制獲取詞語的表示和句子的內(nèi)部表示,將這兩種語義表示進(jìn)行拼接融合后的句子語義表示能有效提升法律實(shí)體的邊界識別率。
上述法律命名實(shí)體識別模型大多利用靜態(tài)的詞向量作為模型的輸入,但靜態(tài)的詞向量表示并不能區(qū)分詞語在不同上下語境中的含義,故本文在BiLSTM-CRF 模型的基礎(chǔ)上利用BERT 來動態(tài)生成含有豐富上下文信息的詞向量。此外,受多任務(wù)學(xué)習(xí)的啟發(fā),本文將分詞任務(wù)作為輔助任務(wù),通過讓分詞任務(wù)和命名實(shí)體識別任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)以提升實(shí)體的邊界識別率。
本章將詳細(xì)介紹JLB-BiLSTM-CRF 模型的組成部分和中文分詞(Chinese Word Segmentation,CWS)任務(wù)作為輔助任務(wù)聯(lián)合訓(xùn)練命名實(shí)體識別模型的實(shí)現(xiàn)過程。
JLB-BiLSTM-CRF 模型的整體結(jié)構(gòu)如圖1 所示,模型主要由三層構(gòu)成:第一層是嵌入層,該層利用BERT 對輸入的字符序列進(jìn)行編碼,生成字符的語義向量表示;第二層是BiLSTM層,BiLSTM 對輸入的字符向量進(jìn)行雙向編碼,捕獲字符序列的長距離依賴關(guān)系;第三層是CRF層,CRF 用來對上層的輸出進(jìn)行解碼,它通過學(xué)習(xí)標(biāo)簽之間的約束關(guān)系可得到最優(yōu)的標(biāo)注序列。
2.1.1 BERT預(yù)訓(xùn)練模型
靜態(tài)語言模型如N-Gram、Word2vec 等無法對多義詞進(jìn)行表示,而BERT 可以動態(tài)生成含有上下文信息的詞向量。如圖2 所示,BERT 的輸入是由詞的嵌入信息(Token Embedding)、句子中詞的位置信息(Position Embedding)以及用于區(qū)分不同句子的向量表示(Segment Embedding)疊加而成。每個序列的第一個token 是[CLS],在分類問題中可當(dāng)作序列的表示,而[SEP]則用來分隔兩個句子。
BERT-base-Chinese 是使用中文維基百科相關(guān)語料預(yù)訓(xùn)練的中文BERT 模型,本文將在模型訓(xùn)練過程中使用本文的數(shù)據(jù)集對它進(jìn)行微調(diào)。如圖3 所示,BERT 利用Transformer[23]進(jìn)行特征的提取,給定一個句子輸入{w1,w2,…,wn},將它輸入到BERT 模型中可得到輸出向量{x1,x2,…,xn}。
2.1.2 BiLSTM層
與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)相比,LSTM 能捕獲到更長距離的依賴關(guān)系。在LSTM 的單元結(jié)構(gòu)中,t時刻LSTM 的輸入分別是t -1 時刻的隱藏層向量ht-1和t時刻的特征向量xt,輸出是ht,同時ht又是下一個LSTM 單元的輸入;而ct-1和ct屬于記憶單元,ct-1會在遺忘門作用下選擇性地遺忘部分歷史信息,然后在輸入門作用下加入部分當(dāng)前的輸入信息生成ct,最后在輸出門控制下生成新的輸出ht。整個LSTM 的更新過程如下所示:
其中:σ表示Sigmoid 函數(shù);W、U表示權(quán)重矩陣;b表示偏置向量;it、ft、ot分別表示輸入門、遺忘門、輸出門的輸出向量。
因?yàn)長STM 在對句子進(jìn)行建模時,無法編碼從后到前的信息,而通過將當(dāng)前時刻LSTM 層的前向和后向輸出進(jìn)行級聯(lián)可以捕捉到雙向的語義信息,所以t時刻BiLSTM 的輸出ht可表示為:
2.1.3 CRF層
CRF 能學(xué)習(xí)到標(biāo)簽之間約束關(guān)系,降低輸出的錯誤率。假設(shè)BiLSTM 的輸出矩陣為P,其中Pi,j代表第i個詞對應(yīng)的標(biāo)簽是j的得分,而A表示CRF 學(xué)習(xí)到的轉(zhuǎn)移矩陣,Ai,j表示標(biāo)簽i的下一個標(biāo)簽是j的得分。
對于輸入序列X={x1,x2,…,xn} 對應(yīng)的預(yù)測序列是Y={y1,y2,…,yn}的得分可表示為:
利用Softmax 函數(shù)指數(shù)歸一化思想,可以得到預(yù)測序列Y概率值為:
其中:YX表示X對應(yīng)的所有可能的預(yù)測標(biāo)注序列。
為了方便計(jì)算,利用了對數(shù)似然,則NER 的損失函數(shù)可定義為:
其中:S表示訓(xùn)練數(shù)據(jù)中所有句子的集合;表示句子s對應(yīng)的輸入序列;表示句子s對應(yīng)的預(yù)測序列。
NER 的識別過程包括兩個部分:一是正確識別出實(shí)體邊界;二是確定實(shí)體類型。由于中文文本不像英文文本那樣具有明確的分隔符,所以對于某些中文實(shí)體而言,很難正確識別對實(shí)體的邊界位置。而在自然語言處理領(lǐng)域,中文分詞(CWS)是對文本中的詞語進(jìn)行劃分,即確定詞的邊界位置。由此可見CWS 和中文命名實(shí)體識別(Chinese Named Entity Recognition,CNER)具有高度的相關(guān)性。
多任務(wù)學(xué)習(xí)通過共享某些層可以讓模型從相關(guān)任務(wù)中獲取到有用的信息,因?yàn)槟P托枰瑫r兼顧多個任務(wù),所以多任務(wù)學(xué)習(xí)還能夠減少模型的過擬合以及提高模型的魯棒性[24]。受多任務(wù)學(xué)習(xí)思想的啟發(fā),如圖1 所示,本文將CWS和CNER 進(jìn)行聯(lián)合學(xué)習(xí),使其共享相同的BERT 嵌入層,使用不同的CRF 解碼層進(jìn)行輸出。通過這種方式,模型可以對CWS 中有用的信息進(jìn)行編碼,以學(xué)習(xí)到含有詞邊界信息的上下文字符向量表示,這有助于模型提升實(shí)體的邊界識別率。
分詞任務(wù)也屬于序列標(biāo)注任務(wù),其損失函數(shù)可表示為:
其中:S表示訓(xùn)練數(shù)據(jù)中所有句子的集合;表示句子s對應(yīng)的輸入序列;表示句子s對應(yīng)的預(yù)測序列。
為了使命名實(shí)體識別任務(wù)能得到充分訓(xùn)練,本文將命名實(shí)體識別任務(wù)損失的權(quán)重置為1,然后通過λ來調(diào)節(jié)分詞任務(wù)損失所占的權(quán)重,其中λ∈[0,1],兩個任務(wù)的聯(lián)合損失L可表示為:
JLB-BiLSTM-CRF 模型的訓(xùn)練過程如算法1 所示,對于每個epoch,模型在獲取到訓(xùn)練數(shù)據(jù)Dt后分別進(jìn)行命名實(shí)體識別任務(wù)和分詞任務(wù)的訓(xùn)練,然后根據(jù)這兩個任務(wù)的損失來計(jì)算聯(lián)合損失函數(shù),最后進(jìn)行梯度的更新。
算法1 訓(xùn)練JLB-BiLSTM-CRF 模型。
由于法律領(lǐng)域沒有直接可供使用的命名實(shí)體識別數(shù)據(jù)集和分詞數(shù)據(jù)集。本文先構(gòu)建兩個數(shù)據(jù)集,然后設(shè)置了多組對比實(shí)驗(yàn)來驗(yàn)證本文模型的有效性。
3.1.1 數(shù)據(jù)集
本文所使用的命名實(shí)體識別數(shù)據(jù)集是自主構(gòu)建的,所用的語料來自于上海市高級人民法院公開的裁判文書(http://www.hshfy.cn),共收集了2 萬篇一審刑事判決書,通過統(tǒng)計(jì)分析,選取了其中犯罪率較高且實(shí)體類別具有一定相似性的3 種案由(尋釁滋事罪、故意傷害罪和盜竊罪)進(jìn)行標(biāo)注。由于刑事裁判文書中案情描述復(fù)雜,實(shí)體類別豐富,為了減少其他無關(guān)信息的影響,本文先利用規(guī)則將這3 種案由里面的案情提取出來,然后選取了案情描述部分提取完整的2 700條數(shù)據(jù)進(jìn)行人工標(biāo)注,共標(biāo)注了9 類實(shí)體,各類實(shí)體數(shù)目如表1 所示。
表1 各類實(shí)體數(shù)目Tab.1 Number of entities in each category
本文中的命名實(shí)體識別數(shù)據(jù)集采用的是“BIO”標(biāo)注法,對于每個實(shí)體,將第一個字標(biāo)記為“B-實(shí)體名稱”,其余部分標(biāo)記為“I-實(shí)體名稱”。對于非實(shí)體,一律標(biāo)記為O。如“王某某”這個受害人實(shí)體每個字對應(yīng)的標(biāo)簽分別是“B-VIC”“IVIC”“I-VIC”。
在法律領(lǐng)域也尚無公開的分詞數(shù)據(jù)集可供使用,如果利用人工去標(biāo)注分詞數(shù)據(jù)會耗費(fèi)大量的人力,但若是直接利用分詞工具進(jìn)行分詞又會帶來分詞錯誤。通過觀察語料集發(fā)現(xiàn)除了標(biāo)注的實(shí)體詞之外,剩下的大部分屬于日常用詞。為了減少分詞錯誤,本文在jieba 分詞工具中加入了搜狗中文詞 典(https//github.com/liujunxin/CWS_with_Dictionary/blob/master/data/cidian.txt),然后利用jieba 分詞工具來對除實(shí)體詞以外的部分進(jìn)行分詞,而對于已經(jīng)標(biāo)注的實(shí)體則單獨(dú)劃分成一個詞。由于只在模型訓(xùn)練過程中使用到分詞信息,所以只需對2 160 條訓(xùn)練數(shù)據(jù)進(jìn)行分詞即可。
對于分詞數(shù)據(jù)集采用的是“BMES”標(biāo)注法,即將一個詞語開頭標(biāo)記為B,詞語結(jié)尾標(biāo)記為E,中間部分全部標(biāo)記成M,而S 用來標(biāo)記單個字的詞。例如“李某因情感糾紛”的分詞標(biāo)簽為“BESBMME”。
3.1.2 實(shí)驗(yàn)參數(shù)配置和評價指標(biāo)
本實(shí)驗(yàn)使用PyTorch 1.7.0 進(jìn)行模型結(jié)構(gòu)搭建,在顯存容量為24 GB 的NVIDA TITAN RTX 上進(jìn)行模型的訓(xùn)練;實(shí)驗(yàn)采用Adam 優(yōu)化器,學(xué)習(xí)率為8E-5,衰減系數(shù)為1E-5;批處理大小為64;BERT 預(yù)訓(xùn)練詞向量維度為768,多頭注意力個數(shù)為12,由于訓(xùn)練文本的長度普遍在150 與300 之間,故選取最大長度為256,如果文本長度超過256 部分則直接進(jìn)行截斷;LSTM 的隱藏層維度設(shè)為128,丟棄率為0.5;聯(lián)合損失函數(shù)中的超參數(shù)λ為0.3;訓(xùn)練集、驗(yàn)證集、測試集的比例為8∶1∶1。
實(shí)驗(yàn)的評估指標(biāo)采用的是精確率、召回率和F1值,計(jì)算方式如下:
3.2.1 不同模型的性能
為了驗(yàn)證模型的有效性,本文與以下對比模型進(jìn)行了對比實(shí)驗(yàn):
1)BiLSTM-CRF[6]:BiLSTM-CRF 是命名實(shí)體識別領(lǐng)域的常用模型,與LSTM-CRF[11]相比,它能捕捉到雙向的語義依賴關(guān)系。
2)BiLSTM-CRF(Word2vec):使用2018 年法研杯語料集預(yù)訓(xùn)練100 維Word2vec 詞向量,將其作為BiLSTM-CRF[6]的輸入來探究預(yù)訓(xùn)練的靜態(tài)詞向量對模型識別效果的影響。
3)ID-CNN-CRF[14]:該模型利用空洞卷積來學(xué)習(xí)全局特征,能在不引入過多超參數(shù)的同時捕獲到更長的上下文序列信息。
4)Lattice-LSTM[12]:該模型在字向量中融入了外部詞典中的詞向量信息,能在避免分詞錯誤的同時引入詞級別的信息。
5)BERT-CRF[25]:BERT 具有強(qiáng)大的特征提取能力,能根據(jù)上下文語境預(yù)測出每個字符對應(yīng)的標(biāo)簽類型。
6)BERT-BiLSTM-CRF[16]:雖然BERT 模型在訓(xùn)練時加入了位置信息,但隨著層數(shù)的加深,這些信息會減弱,而通過加入BiLSTM 層能更好地捕捉到長距離依賴關(guān)系。
實(shí)驗(yàn)結(jié)果的對比如表2 所示。為了驗(yàn)證聯(lián)合學(xué)習(xí)的效果,本文還對比了3 種不同模型在示例上的表現(xiàn),不同類型的實(shí)體使用不同的下劃線來進(jìn)行標(biāo)記,標(biāo)記結(jié)果如表3 所示。由表2~3 可得出以下結(jié)論:
表2 不同模型的實(shí)驗(yàn)結(jié)果對比 單位:%Tab.2 Comparison of experimental results of different models unit:%
1)BiLSTM-CRF(Word2vec)模型的F1 值比隨機(jī)初始化輸入向量的BiLSTM-CRF 模型高1.05 個百分點(diǎn),表明預(yù)訓(xùn)練Word2vec 詞向量里面包含了更多有助于模型進(jìn)行實(shí)體識別的信息。
2)ID-CNN-CRF 模型的F1值比BiLSTM-CRF 低0.74 個百分點(diǎn),表明雖然該模型使用了空洞卷積進(jìn)行長序列特征的提取,但對于長文本而言,它的識別效果并沒有優(yōu)于BiLSTM-CRF。
3)Lattice-LSTM 模型在測試集上的F1 值比BiLSTM-CRF(Word2vec)低0.53 個百分點(diǎn),原因是雖然Lattice-LSTM 能引入詞級別信息,但若是文本中詞的匹配數(shù)過多,不僅會減慢模型的訓(xùn)練速度,還會引入過多的噪聲影響模型的性能。
4)BERT-CRF 模型的F1 值比BiLSTM-CRF(Word2vec)高1.58 個百分點(diǎn),表明與Word2vec 這類靜態(tài)語言模型相比,BERT 的字符表征能力更強(qiáng)。而BERT-BiLSTM-CRF 模型的F1 值則比BERT-CRF 模型高0.35 個百分點(diǎn),原因是在BERT之后加入BiLSTM 能讓模型捕捉到句子的序列信息。
5)JLB-BiLSTM-CRF 模型的性能均優(yōu)于其他對比模型,一方面是因?yàn)锽ERT 增強(qiáng)了字符的表征能力;另外一方面是因?yàn)槁?lián)合學(xué)習(xí)框架能有效利用CNER 和CWS 的相關(guān)性,從而讓模型學(xué)習(xí)到了有用分詞信息。
6)由表3 可知,BiLSTM-CRF 和BERT-BiLSTM-CRF 均未識別出“方管托盤”這個實(shí)體,而JLB-BiLSTM-CRF 模型不僅能將其識別出來,并且相較于BERT-BiLSTM-CRF 還能正確識別出“救護(hù)車”“嚴(yán)1”和“嚴(yán)2”的實(shí)體邊界,表明利用分詞任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)的確能夠提升實(shí)體的邊界識別率。
表3 三個模型對示例的標(biāo)記結(jié)果Tab.3 Marking results of three models on examples
3.2.2 超參數(shù)λ對實(shí)體識別效果的影響
JLB-BiLSTM-CRF 模型在訓(xùn)練過程中需要調(diào)節(jié)聯(lián)合損失函數(shù)中超參數(shù)的值,不同的λ值對實(shí)體識別效果的影響如圖4 所示。當(dāng)λ取值在0.1 到0.3 之間時,JLB-BiLSTM-CRF模型的精確率和召回率較為接近;大于0.3時,明顯存在高召回率低精確率的現(xiàn)象,這主要是因?yàn)榉衷~任務(wù)只關(guān)注邊界信息,不關(guān)注詞的類型,當(dāng)分詞任務(wù)占比增大時會使得識別出的實(shí)體數(shù)遠(yuǎn)大于識別正確的實(shí)數(shù),從而導(dǎo)致精確率降低,因此對于本文的模型而言選擇一個合適的λ值是很重要的。通過觀察圖4 中F1 值可以發(fā)現(xiàn),不同λ對應(yīng)的F1 值都比BERT-BiLSTM-CRF 模型的93.88%高出0.25 個百分點(diǎn)以上,這是因?yàn)樵诒WC命名實(shí)體識別任務(wù)得到充分訓(xùn)練的情況下,引入分詞任務(wù)能夠讓模型學(xué)習(xí)到額外的信息,該結(jié)果也說明了本文的模型具有一定魯棒性。
3.2.3 BERT和聯(lián)合學(xué)習(xí)對實(shí)體識別效果的影響
通過分析 BiLSTM-CRF、BERT-BiLSTM-CRF、JLBBiLSTM-CRF 對9 類實(shí)體的識別結(jié)果可以得出BERT 和聯(lián)合學(xué)習(xí)對實(shí)體識別效果的影響程度。在圖5中,BERT、NER+CWS、BERT+NER+CWS 分別表示BERT-BiLSTM-CRF 相較于BiLSTM-CRF,JLB-BiLSTM-CRF 相較于BERT-BiLSTM-CFR,JLB-BiLSTM-CRF 相較于BiLSTM-CRF 在各實(shí)體上的F1 值提升率。通過分析圖5 中的BERT 可知,BERT-BiLSTM-CRF 相較于BiLSTM-CRF 在被告人、受害人、損失物品和作案工具這四類實(shí)體上的F1 值提升率均超過5.00 個百分點(diǎn),這表明BERT 依靠強(qiáng)大特征提取能力能學(xué)習(xí)到豐富的語義特征,使得多類實(shí)體的識別效果得到了大幅度提升。由圖5 中的NER+CWS可知,JLB-BiLSTM-CRF 相較于BERT-BiLSTMCRF 在案發(fā)起因、損失物品和作案工具這三類實(shí)體上的F1值提升率均超過了1.00 個百分點(diǎn),這表明對于一些較難識別的實(shí)體而言利用分詞任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)可以進(jìn)一步提升它的識別效果。
3.2.4 JLB-BiLSTM-CRF模型的性能
由圖5 中的BERT+NER+CWS 可知,JLB-BiLSTM-CRF 相較于BiLSTM-CRF 在作案時間、作案地點(diǎn)、人身損傷和損失金額這四類實(shí)體上的F1 值提升率僅在1.00 個百分點(diǎn)左右,主要是因?yàn)檫@四類實(shí)體易于識別,基準(zhǔn)模型(BiLSTM-CRF)的識別率很高,所以本文模型對它們影響程度較小。此外,由表4 可知,作案工具和損失物品的F1 值分別為86.99%和85.92%,顯著低于其他幾類實(shí)體,這主要是由于作案工具和損失物品的表達(dá)方式復(fù)雜多樣且標(biāo)注量少,從而導(dǎo)致了它們的識別效果低于其他幾類實(shí)體。但從圖5 中的BERT+NER+CWS 可知,JLB-BiLSTM-CRF 相較于BiLSTM-CRF 在作案工具和損失物品的F1 值提升率均超過了7.00 個百分點(diǎn),在被告人、受害人和案發(fā)起因這三類實(shí)體上的F1 值提升率也都超過了4.00 個百分點(diǎn),表明JLB-BiLSTM-CRF 可以顯著提升多類實(shí)體的識別效果。
表4 JLB-BiLSTM-CRF模型對各類實(shí)體的識別效果 單位:%Tab.4 Recognition effect of JLB-BiLSTM-CRF model to each category of entities unit:%
針對法律裁判文書的命名實(shí)體識別任務(wù),本文提出了JLB-BiLSTM-CRF 模型。該模型不僅利用BERT 動態(tài)生成含有豐富上下文語境信息的詞向量,還通過聯(lián)合學(xué)習(xí)框架利用到了兩個任務(wù)之間的相關(guān)性,讓模型能夠?qū)W習(xí)到有用的分詞信息。實(shí)驗(yàn)結(jié)果表明,該模型能夠有效提升實(shí)體的邊界識別率,對多類實(shí)體的識別效果顯著優(yōu)于BiLSTM-CRF 模型。
為了避免繁瑣手工調(diào)參,下一步將會考慮如何在模型訓(xùn)練過程中自動化調(diào)整聯(lián)合損失函數(shù)中分詞任務(wù)的權(quán)重。此外,針對本文中存在部分實(shí)體標(biāo)注數(shù)量少、識別效果不佳的問題,未來的研究也會考慮使用數(shù)據(jù)增強(qiáng)或是遷移學(xué)習(xí)的方式來進(jìn)一步提升標(biāo)注量少的實(shí)體的識別效果。