曹重陽,楊品莉
(四川大學(xué)計算機學(xué)院,成都610065)
由于司法領(lǐng)域中各種司法文件種類繁多、數(shù)量巨大、案件復(fù)雜等特點,司法信息自動化已經(jīng)迫在眉睫。司法信息自動化有助于實現(xiàn)司法信息共享[1],完善司法業(yè)務(wù)流程,優(yōu)化司法系統(tǒng),極大地提高相關(guān)從業(yè)人員工作效率。
近年來,深度學(xué)習(xí)加持下的自然語言處理技術(shù)得到了迅猛發(fā)展,其中越來越多的相關(guān)技術(shù),例如實體識別[2]、知識圖譜[3]等被運用到司法領(lǐng)域,這極大促進了司法信息自動化,提高了司法領(lǐng)域的發(fā)展。法律案例文本中存在大量司法領(lǐng)域?qū)嶓w,例如“張三”、“安徽省人民法院”、案卷編號、犯罪類型等,這些司法領(lǐng)域?qū)嶓w的準確識別是后續(xù)實現(xiàn)司法事件抽取,構(gòu)建司法領(lǐng)域知識圖譜等技術(shù)的前提。
命名實體識別(NER)的任務(wù)是在句子中找到一個實體的開始和結(jié)束,并為這個實體指定一個類。由于命名實體識別在問題生成[4]、關(guān)系提取[5]和參考文獻分辨率[6]方面的潛在幫助,命名實體識別在自然語言處理領(lǐng)域得到了廣泛研究。命名實體識別通常被看作是一個序列標注任務(wù),神經(jīng)模型通常包含三個部分:詞嵌入層、上下文編碼器層和解碼器層[10-12],不同命名實體識別模型之間的差異主要體現(xiàn)在這三層。命名實體識別的方法大致可以分為有監(jiān)督、半監(jiān)督、無監(jiān)督和混合方法幾種。有監(jiān)督的實體識別方法:數(shù)量巨大的已標注語料庫作為模型的輸入,比較流行的方法有隱馬爾可夫模型、最大熵模型、支持向量機、決策樹和條件隨機場(Conditional Random Field,CRF)等,其中,基于CRFs的模型在實體識別任務(wù)上獲得了比較好了效果。半監(jiān)督的實體識別方法:數(shù)據(jù)規(guī)模小的已標注的小數(shù)據(jù)集(種子數(shù)據(jù))作為模型的輸入,讓模型自舉學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),大體思路是使用大量的無標注語料庫訓(xùn)練了一個雙向神經(jīng)網(wǎng)絡(luò)語言模型,然后使用這個訓(xùn)練好的語言模型來獲取當(dāng)前要標注詞的語言模型向量,然后將該向量作為特征加入到原始的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型中。無監(jiān)督的實體識別方法:利用詞匯資源(如WordNet)等進行上下文聚類。近年來,算力得到不斷提升,各種神經(jīng)模型被引入命名實體識別以避免手工制作的特征[7-9],基于深度學(xué)習(xí)的命名實體識別方法也展現(xiàn)出很高的識別準確率,此類方法無需大量人工特征,只需詞向量和字符向量便可以產(chǎn)生很不錯的識別性能,若再加入高質(zhì)量的詞典特征可以是性能更強。此類方法主要思路是把實體識別等價為一個序列標注任務(wù),比較經(jīng)典的是GRUCRF(Gated Recurrent Unit,GRU)和BiLSTM-CRF[13]等RNN模型。
最近,Transformer[14]開始在各種NLP任務(wù)中盛行,如機器翻譯[14]、語言建模[15]和預(yù)訓(xùn)練模型[16]。Transform?er Encoder采用全連接的自我注意結(jié)構(gòu)對遠程上下文進行建模,這是RNNs的缺點。此外,Transformer比RNNs具有更充分利用GPUs并行計算的能力。然而,在命名實體識別任務(wù)中,Transformer Encoder已經(jīng)被報告表現(xiàn)不佳[17],因為它既不感知距離,又不感知方向。這個問題在司法裁定書的實體識別任務(wù)中更為嚴重。如圖1所示,觀察裁定書發(fā)現(xiàn):“審判長、審判員”的后面一般是姓名,“罪犯”的后面一般是姓名,“犯”的后面一般是犯罪類型等;此外詞與詞之間的距離也很重要,因為只有連續(xù)的文字才能形成一個實體,每個實體之間是有間隔的。總之,實體方向和實體距離對司法實體識別任務(wù)十分重要。
圖1 裁定書標記文本
基于此,本文提出一種距離感知和方向感知的Transformer Encoder模型(DDATE)用于司法領(lǐng)域?qū)嶓w識別系統(tǒng),實驗表明這種距離感知和方向感知是十分有效的。此外本文不僅使用DDATE建模詞級上下文,還使用它建模字符級特征。字符編碼器不但能夠有效捕獲字符級特征,而且減緩了OOV問題[8-9,18]。在命名實體識別中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛作為字符編碼器[11,19],其有限的感受野限制了字符編碼能力[17],而DDATE作為字符編碼器能夠感知長程上下文且更高效的利用GPUs的并行計算。本文的總體流程圖如圖2所示,首先對司法案例文本進行規(guī)范格式和去除空格等操作,把已標記文本作為實驗數(shù)據(jù)集并輸入模型,不同的模型在合理的實驗配置下分別進行訓(xùn)練后,對比各個模型的實體識別效果。綜上所述,本文利用DDATE對字符級特征和字級特征進行建模,在合理的實驗配置下,與基于BiLSTM-CRF模型和普通Transformer模型相比,DDATE大大提升了司法實體識別的性能。
圖2 司法領(lǐng)域?qū)嶓w識別流程
本文利用DDATE進行裁定書的實體識別,整個網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 DDAFE模型
為了緩解數(shù)據(jù)稀疏性和OOV的問題,大多數(shù)NER模型采用了CNN字符編碼器。由于Transformer能充分利用GPU的并行性,且具有不同感受野和提取不連續(xù)字符的特征的能力,因此將Transformer作為字符編碼器是一項很有意義的工作。最終的詞嵌入是前訓(xùn)練的詞嵌入和字符編碼器提取的特征的合并。
Transformer在2017年被Vaswani提出[14],它在各種NLP任務(wù)中取得了巨大的成功。Transformer Encoder首先接受一個矩陣H∈Rl×d,其中l(wèi)是序列長度,d是輸入維度。然后三個大小為Rl×dk的可學(xué)習(xí)矩陣Wq,Wk,Wv與H相乘分別得到Q,K,V,其中dk是超參數(shù),公式如下:
其中Qt是第t個token的query向量,j是上下文token的下標。Kj是第j個token的key向量,當(dāng)使用多組Wq,Wk,Wv時,稱為多頭自注意力,其計算公式為:
其中n是head個數(shù),h是head索引,通常dk×n=d,所以的大小為WO的大小為Rd×d。多頭注意力的輸出被前饋網(wǎng)絡(luò)進一步處理,可以表示為:
其中W1∈Rd×dff,W2∈Rdff×d,b1∈Rdff,b2∈Rd是可學(xué)習(xí)參數(shù),dff是超參數(shù)。Transformer Encoder的其他組件還有層歸一化和殘差連接。
由于Transformer中使用的自注意力機制不感知距離,為了避免這一不足,文獻[14]使用了正弦位置嵌入,第t個token的位置嵌入可以用如下公式表示:
因此,為了使Transformer具有距離感知和方向感知的屬性,提升司法實體識別的準確率,本文基于文獻[17,20-21],改進的注意力的公式如下:
其中t是目標token的索引,j是上下文token的索引。為了得到Hdk∈Rl×dk,首先在第二維分割H為d/dk個部分,然后每個head使用一部分。u∈Rdk,v∈Rdk是可學(xué)習(xí)參數(shù)。Rt-j∈Rdk是相關(guān)位置編碼,是兩個token的注意力分數(shù),是第t個token在某一相對位置上的偏置,是第j個token的偏置是某一距離和方向上的偏置。
本文為了減少參數(shù)量,沒有使用Wk,避免了兩個可學(xué)習(xí)參數(shù)的直接相乘,因為它們可以用一個可學(xué)習(xí)參數(shù)表示。多頭注意力仍然利用公式(6)。如圖3所示,上述改進的能夠感知距離和方向的Transformer En?coder既被作為字符編碼器,又被作為詞編碼器。
為了利用不同標簽之間的依賴關(guān)系,所提出的模型和所有對比實驗的模型均使用了條件隨機場。給定序列,金標準標簽,所有的有效標簽序列的可能性計算公式如下:
把裁判文書網(wǎng)下載的1000份裁定書作為本文的數(shù)據(jù)集,主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書,隨機將其分為6:2:2,分別作為訓(xùn)練集、驗證集和測試集。首先進行文本處理,將1000份裁判文書規(guī)范格式,去掉空格;然后標記標簽,利用語料標注工具YDEEA將裁定書標記為BIO字標簽形式,標記好文本后讓法學(xué)專家進行修改和完善。如表1所示,本實驗定義了5類實體類別:姓名、地點、司法單位、案卷編號、犯罪類型,即11類字標簽。
表1 BIO字標簽類別
在實體識別任務(wù)上,最常用的指標為F1值(F-measure),為了和對比實驗進行充分評估,本文還采用準確率(precision)、召回率(recall)作為評價指標。三個評價指標的計算公式如下所示:
所有實驗環(huán)境由存儲空間為8GB的NVIDIA RTX 2070 GPU和PyTorch 1.3框架實現(xiàn)。實驗中使用的超參數(shù)的設(shè)置如表2所示。
表2 訓(xùn)練BiLSTM-CRF模型參數(shù)設(shè)置
2.4.1 BiLSTM-CRF
長短期記憶模型(LSTM)改進了RNN的長度依賴問題,能夠獲取任意長度的上下文特征信息。BiLSTM[18]模型由前向LSTM模型和后向LSTM模型組成,可以得到雙向的語義信息。本文實現(xiàn)了BiLSTM-CRF模型,其實驗結(jié)果如圖4和表3所示。
表3 不同模型的評價指標比較
圖4 不同模型的評價指標比較
2.4.2 GRU-CRF
門控循環(huán)單元(GRU)是LSTM的變體,它較LSTM網(wǎng)絡(luò)的結(jié)構(gòu)更加簡單,只留下能夠分別獲取序列中長距離依賴關(guān)系和斷距離依賴關(guān)系的更新門和重置門,文也實現(xiàn)了GRU-CRF模型。如表3和圖4所示,在三個評價指標上,所提出的模型DDATE與BiLSTMCRF和GRU-CRF模型相比,實體識別性能提升明顯。在F1值、召回率和準確率上,DDATE比BiLSTMCRF模型大約分別提升0.6、0.5、0.6。
2.4.3 Transformer-CRF
所提出的模型DDATE是在Transformer Encoder的基礎(chǔ)上進行改進的,本文在合理的實驗配置下,讓普通的Transformer也用于字符編碼器和詞編碼器。如表3和圖4所示,在F1值和召回率評價指標上,Trans?former-CRF模型高于基于RNNs的模型。但卻與所提出的模型DDATE有較大差距。
根據(jù)表3,DDATE模型的F1值為0.928,召回率為0.914,準確率為0.941,表明本文所提出的方法具有很好的司法實體識別性能。
圖5 是減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點、司法單位、案卷編號、犯罪類型等5類實體進行識別的F1值??梢娫诓门形臅胁煌瑢嶓w類型的識別中,DDATE模型的實體識別性能均優(yōu)于Trans?former-CRF模型。此外發(fā)現(xiàn)司法單位這類實體的評價指標比較低,這可能是由于司法單位實體在裁判文書的位置比較復(fù)雜,其前后文字變化較大,這影響了基于Transformers模型的實體識別性能。
圖5 所提出的模型對不同實體識別的性能比較
本文所提出的DDATE模型用于司法領(lǐng)域?qū)嶓w識別系統(tǒng),使該系統(tǒng)能在法學(xué)專家的容忍下,準確的識別出減刑案件,假釋案件及暫予監(jiān)外案件的裁判文書中的姓名、司法單位、地點、案卷編號、犯罪類型等實體,優(yōu)化司法業(yè)務(wù)系統(tǒng),極大地提高相關(guān)從業(yè)人員的工作效率,為實現(xiàn)司法信息自動化,研究司法事件抽取,構(gòu)建司法領(lǐng)域知識圖譜打下了基礎(chǔ)。
該實體識別系統(tǒng)也存在一些待改進的地方,例如可以通過增加語料,實現(xiàn)更多司法實體類別如法條的識別;還可以通過細分實體類別,如姓名類進一步分出被告人,來獲得更準確的實體識別結(jié)果。接下來將融合公共數(shù)據(jù)集與司法領(lǐng)域的數(shù)據(jù)集來訓(xùn)練模型,這在一定程度上,能有助于模型識別更多的重要實體和提升司法領(lǐng)域?qū)嶓w識別的性能。此外,可以發(fā)現(xiàn)圖5中的司法單位這類實體識別指標低于其他實體,這是由于如果某類實體在裁判文書中的前后文字的改變幅度大,基于Transformers的模型受長程上下文的影響,使該類實體識別性能下降,這是基于Transformers的模型與生俱來的瓶頸。DDATE雖然能夠感知到裁判文書中文字的距離和方向,大大提高了司法實體識別的性能,卻逃脫不了這種瓶頸屬性。因此,下一步將繼續(xù)改進Transformers結(jié)構(gòu),使其能對實體周圍的文字進行權(quán)重優(yōu)化,進一步提升司法領(lǐng)域?qū)嶓w識別系統(tǒng)的性能。