周裕林 鹿安琪 周雯童 劉林紅
(1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室 貴陽 550025)(2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)
近年來,人工智能技術(shù)在司法審判案件中受到日益關(guān)注,相繼提出了許多法律人工智能任務(wù),例如,司法摘要自動生成[1]、案件多標(biāo)簽分類[2]和法律智能問答[3]等。而證據(jù)作為了解案件事實(shí)的依據(jù),在司法審判過程中起著至關(guān)重要的作用。從裁判文書中抽取證據(jù)實(shí)體有利于支撐證據(jù)鏈的自動構(gòu)建,從而支持“智慧法院”的建設(shè)。因此,抽取證據(jù)實(shí)體成為法律人工智能中極為重要的任務(wù)。
當(dāng)前證據(jù)抽取模型主要基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別(NER)方法,NER在過去數(shù)十年以及取得了飛速進(jìn)步。NER方法采用序列標(biāo)注形式,而傳統(tǒng)的序列標(biāo)注模型有CRF[4]、LSTM[5]、CNN-CRF[6]、LSTM-CRF[7]以及楊健等[8]提出基于邊界組合的證據(jù)抽取模型,它們在信息抽取上都取得了不錯的性能。近幾年來,隨著大規(guī)模語言模型BERT[9]以及ELMo[10]等面世,自然語言處理的信息抽取任務(wù)上進(jìn)一步刷新了性能。由于證據(jù)實(shí)體在不同案件環(huán)境下存在判別的不同,傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差。Levy等[11]將關(guān)系抽取任務(wù)轉(zhuǎn)換成智能問答任務(wù)。Li等[12]將Levy等[11]的方法應(yīng)用于命名實(shí)體識別任務(wù)中,他將每一個實(shí)體類型轉(zhuǎn)換成帶有問題及答案的形式。此外,由于問題編碼了豐富的先驗(yàn)知識,實(shí)驗(yàn)結(jié)果表明它能豐富輸入特征。McCann等[13]也將情感分析任務(wù)轉(zhuǎn)換成智能問答任務(wù)。
本文在以上研究的基礎(chǔ)上,面向傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差的問題,提出融合標(biāo)簽信息的的裁判文書證據(jù)抽取方法。在2293篇裁判文書數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了本文提出方法的有效性。本文的主要貢獻(xiàn)如下:
1)采用基于機(jī)器閱讀理解模型的方法,通過融合證據(jù)的標(biāo)簽信息作為先驗(yàn)知識輸入模型,來解決序列標(biāo)注模型特征使用不充分問題。
2)本文首次將融合標(biāo)簽信息的方法應(yīng)用于裁判文書證據(jù)抽取任務(wù)中,為證據(jù)抽取任務(wù)提供一種新思路。
Transformer架構(gòu)最早是由Vaswani等[14]提出的。它通過利用注意力機(jī)制,學(xué)習(xí)句子中詞與詞之間的關(guān)聯(lián)程度,從而增強(qiáng)上下文特征的學(xué)習(xí)能力。其注意力機(jī)制公式為
其中,Q、K、V表示3個矩陣向量;d為Q向量的維度;通過softmax對得到的分?jǐn)?shù)歸一化。由于此部分不是本文的重點(diǎn),這里不作過多的敘述。
BERT預(yù)訓(xùn)練模型是在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)的。它由3層Embedding拼接而成,分別為Token Embeddings、Segment Embeddings和Position Embeddings。它們分別表示為詞向量、句向量和位置向量。通過拼接3層向量,增強(qiáng)了模型學(xué)習(xí)文本語義特征的能力。
本文是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建融合標(biāo)簽信息的證據(jù)抽取模型。給定一個句子X={x1,x2,…,xn},其中xn代表在句子X中的第n個字。為解決序列標(biāo)注模型格式在拼接標(biāo)簽信息上存在困難的特點(diǎn),首先,需要將序列標(biāo)注格式轉(zhuǎn)換為(LABEL_INFO,ANSWER,CONTENT)三元組的格式,其中,LABEL_INFO表示為標(biāo)簽信息,ANSWER表示為答案對應(yīng)的下標(biāo)索引,CONTENT表示為輸入的文本。由于標(biāo)簽信息定義的不同,會產(chǎn)生不同的特征輸入,從而影響最終證據(jù)抽取的性能。在本文中,采用問句式、定義式和標(biāo)注指南來構(gòu)建標(biāo)簽信息。3種標(biāo)簽信息構(gòu)建內(nèi)容如表1所示。
表1 標(biāo)簽信息構(gòu)建內(nèi)容
融合標(biāo)簽信息的證據(jù)抽取模型結(jié)構(gòu)如圖1所示。在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,融合證據(jù)實(shí)體的標(biāo)簽信息,輸入到BERT編碼器中得到隱藏層向量,最后通過解析輸出結(jié)果。
圖1 融合標(biāo)簽信息的證據(jù)抽取模型
輸入包含了標(biāo)簽信息以及文本內(nèi)容,通過BERT預(yù)訓(xùn)練模型,通過Embedding的拼接輸出隱藏表征矩陣:
其中,L為標(biāo)簽信息;C為文本內(nèi)容;E為模型輸出的表征矩陣。
通過多層感知機(jī)(MLP)[15]解析表征矩陣得到預(yù)測的證據(jù)實(shí)體的下標(biāo)索引。在MLP中,獲得句子中每個字是證據(jù)開始和結(jié)束下標(biāo)的概率公式為
其中,Tstart和Tend是學(xué)習(xí)權(quán)重。對Pstart和Pend每一行使用argmax函數(shù),得到預(yù)測的每個證據(jù)實(shí)體的開始和結(jié)束索引,公式為
最后,訓(xùn)練一個二元分類器來預(yù)測句中每一個證據(jù)實(shí)體匹配的概率來組成范圍概率矩陣,并定義一個學(xué)習(xí)權(quán)重m,公式為
本次實(shí)驗(yàn)數(shù)據(jù)集均來自貴州省人民法院提供的2293篇裁判文書。其中,包括刑事裁判文書1696篇和民事裁判文書597篇,并將數(shù)據(jù)集按8:2劃分為訓(xùn)練集和測試集。通過人工標(biāo)注的方式對2293篇裁判文書進(jìn)行標(biāo)注得到本文所用數(shù)據(jù)集,如表2所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)信息
所有實(shí)驗(yàn)所用指標(biāo)均為精準(zhǔn)率(P)、召回率(R)和F1值。計(jì)算公式如下所示:
其中,TP是預(yù)測結(jié)果為正,樣本也為正;FP是預(yù)測結(jié)果為正,樣本為負(fù);FN是預(yù)測結(jié)果為負(fù),樣本為正。
超參數(shù)選擇的不同,對模型結(jié)果會產(chǎn)生較大的影響。本文優(yōu)化算法使用Adam,初始學(xué)習(xí)率為5e-5,以0.05速度進(jìn)行衰減。設(shè)置每個batch_size為32,迭代10輪。最后獲得的span概率分布矩陣閾值threshold設(shè)置為0.5。選擇BERT中的base版本。如表3所示。
表3 超參數(shù)設(shè)置
在本文實(shí)驗(yàn)中,比較了5個傳統(tǒng)的序列標(biāo)注模型,分別為CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT。實(shí)驗(yàn)結(jié)果如表4所示。
表4 模型對比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,5個傳統(tǒng)序列標(biāo)注模型CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT的F1值分別為78.16%、82.83%、85.39%、86.16%、87.19%,而本文模型取得的F1值為89.12%,為所有實(shí)驗(yàn)中最高。比CRF模型的F1值高了10.96%,比BiLSTM模 型 的F1值 高 了6.29%,比BiLSTM-CRF模型的F1值高了3.73%,比ATT-BiLSTM-CRF模型的F1值高了2.96%,比BERT模型的F1值高了1.93%。其原因在于:1)本文模型是基于BERT大規(guī)模預(yù)訓(xùn)練,它區(qū)別于傳統(tǒng)詞向量模型,能夠更好地理解文本語義信息;2)本文模型是在BERT模型的基礎(chǔ)上,融合證據(jù)實(shí)體的標(biāo)簽信息,豐富了模型的輸入特征,使得模型能更好地識別證據(jù)實(shí)體;3)對數(shù)據(jù)集格式轉(zhuǎn)換的有效預(yù)處理。
在進(jìn)一步實(shí)驗(yàn)中發(fā)現(xiàn),如何定義標(biāo)簽信息,成為影響模型在證據(jù)抽取性能上的關(guān)鍵。本文根據(jù)表1提出的3種標(biāo)簽信息定義方式進(jìn)行實(shí)驗(yàn)對比,如表5所示。
表5 標(biāo)簽信息對模型實(shí)驗(yàn)結(jié)果影響
從表5中可以看出,標(biāo)注指南的標(biāo)簽信息定義方式取得了最高的F1值。比問句式的F1值高了0.81%,比定義式的F1值高了0.62%。原因在于:標(biāo)注指南的方式相較于問句式和定義式,具有更為豐富的語義信息,能為模型的輸入帶來更多的標(biāo)簽信息特征,從而提高了模型在證據(jù)抽取上的性能。
由于融合了標(biāo)簽信息從而豐富了模型的輸入特征,本文在訓(xùn)練集樣本數(shù)量少的情況下進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。本文將訓(xùn)練集按10%、20%、40%、80%的比例劃分,測試集保持不變,如表6所示。
表6 小樣本下標(biāo)簽信息對模型的影響結(jié)果
從表6中可以看出,在訓(xùn)練集比例10%、20%、40%和80%情況下,本文模型相較于BERT的序列標(biāo)注模型,分別提高了2.70%、2.87%、2.02%和1.73%。充分證明了本文方法在BERT基礎(chǔ)上融合標(biāo)簽信息的有效性,也為小樣本學(xué)習(xí)提供了一種新思路。
本文提出了一種融合標(biāo)簽信息的證據(jù)抽取方法,解決了序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得抽取裁判文書中的證據(jù)實(shí)體性能較差的問題。本文通過定義證據(jù)實(shí)體的標(biāo)簽信息,與文本想融合來增強(qiáng)輸入特征,進(jìn)而提高證據(jù)實(shí)體的抽取性能。實(shí)驗(yàn)結(jié)果表明本文的方法相比于傳統(tǒng)的序列標(biāo)注抽取模型更具優(yōu)勢。
本文方法還有進(jìn)一步改進(jìn)的空間。在未來工作中,可以設(shè)計(jì)新的模型架構(gòu)來更好捕捉文本間的語義信息,進(jìn)一步提升模型在證據(jù)抽取上的性能。