張 虎 潘邦澤 張 穎
(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006)
近年來(lái),大數(shù)據(jù)與人工智能技術(shù)的快速發(fā)展引起了各個(gè)行業(yè)和領(lǐng)域的高度重視。2017年7月,國(guó)家人工智能戰(zhàn)略《新一代人工智能發(fā)展規(guī)劃》對(duì)人工智能理論、技術(shù)和應(yīng)用做出前瞻布局,呼吁加強(qiáng)人工智能相關(guān)法律、倫理和社會(huì)問(wèn)題研究。同時(shí),新規(guī)劃力挺智慧法庭建設(shè),提出促進(jìn)人工智能在證據(jù)收集、案例分析、法律文件閱讀與分析中的應(yīng)用,實(shí)現(xiàn)法院審判體系和審判能力智能化。顯然,人工智能與法律服務(wù)的結(jié)合,法律人與法律機(jī)器人之間的協(xié)同已成為一個(gè)顯著的趨勢(shì)。人們正在邁入智能法律服務(wù)的新時(shí)代,無(wú)論是律師、法官等法律人,還是普通消費(fèi)者都將受到或多或少的影響。在智慧司法服務(wù)的體系下人們對(duì)糾紛解決、正義實(shí)現(xiàn)方式等概念的理解將被重塑,同時(shí),利用人工智能技術(shù)提升法律服務(wù)水平的思想也將被進(jìn)一步普及。
判決預(yù)測(cè)是智慧司法服務(wù)體系下一項(xiàng)重要研究任務(wù),其在學(xué)術(shù)界和企業(yè)界受到廣泛關(guān)注。為了促進(jìn)自然語(yǔ)言處理技術(shù)在智慧司法研究中的深入應(yīng)用,中國(guó)司法大數(shù)據(jù)研究院和中國(guó)中文信息學(xué)會(huì)等機(jī)構(gòu)從2018年起啟動(dòng)了中國(guó)“法研杯”司法人工智能挑戰(zhàn)賽,使用裁判文書(shū)網(wǎng)中的真實(shí)法律文書(shū)作為比賽數(shù)據(jù),分別就判決預(yù)測(cè)、要素識(shí)別和法律閱讀理解等任務(wù)開(kāi)展了公開(kāi)評(píng)測(cè)。法律文書(shū)主要由案件類型、事實(shí)描述和判決結(jié)果等部分組成。事實(shí)描述是一個(gè)司法案件的核心,包含邏輯清晰的原被告關(guān)系、事情的起因經(jīng)過(guò)、案件涉及到的傷亡程度和損失金額等相對(duì)關(guān)鍵的信息,這些信息是判決預(yù)測(cè)的重要依據(jù),一般被認(rèn)為是案件的判決要素。如圖1所示,事實(shí)描述中的三個(gè)要素句分別對(duì)應(yīng)判決結(jié)果中的婚后有子女(DV1)標(biāo)簽、不履行家庭義務(wù)(DV6)標(biāo)簽與婚后分居(DV13)標(biāo)簽,三個(gè)要素都是案件判決的重要依據(jù),因此以案件的事實(shí)描述部分為原始數(shù)據(jù),研究事實(shí)描述要素抽取具有重要的意義。
圖1 判決要素對(duì)判決結(jié)果的影響
法律案件種類眾多,本文主要針對(duì)2019中國(guó)“法研杯”要素識(shí)別任務(wù)中的離婚、勞動(dòng)和借貸三種案件類型進(jìn)行判決要素抽取研究。數(shù)據(jù)分析結(jié)果顯示,不同類型案件的判決要素相差較大。離婚類案件關(guān)注要素包括:有無(wú)夫妻共同財(cái)產(chǎn)、有無(wú)夫妻共同債務(wù)和婚后有無(wú)子女等要素。勞動(dòng)類案件關(guān)注是否存在勞務(wù)關(guān)系、是否支付足額勞動(dòng)報(bào)酬和是否擁有法人資格等要素。借貸類案件關(guān)注有無(wú)借貸證明、有無(wú)還款承諾和承擔(dān)借貸的人數(shù)等要素?;诖?,要素識(shí)別評(píng)測(cè)任務(wù)將每類案件的事實(shí)描述部分分別標(biāo)注為20個(gè)要素類別。
本文將判決要素句抽取任務(wù)形式化為對(duì)事實(shí)描述語(yǔ)句的多標(biāo)簽分類模型,主要難點(diǎn)包括:1) 判決要素分類任務(wù)是一個(gè)經(jīng)典的一對(duì)一或一對(duì)多的問(wèn)題,判定每條事實(shí)描述屬于一個(gè)或多個(gè)要素標(biāo)簽是傳統(tǒng)方法較難解決的問(wèn)題;2) 事實(shí)描述語(yǔ)句的長(zhǎng)度參差不齊,最短要素句的長(zhǎng)度為30~40字,較長(zhǎng)要素句的長(zhǎng)度會(huì)達(dá)到300字以上,傳統(tǒng)模型多采用固定參數(shù)作為向量維度,對(duì)短句采用0填充的方式補(bǔ)齊向量,不能有效捕獲不同長(zhǎng)度句子的特征表示。
近年來(lái),越來(lái)越多的自然語(yǔ)言處理研究任務(wù)開(kāi)始使用BERT[1]等預(yù)訓(xùn)練模型作為詞嵌入方法,可以得到更好的文本表示?;诖?,本文提出融合BERT和CNN(BERT-CNN)的判決要素抽取方法,同時(shí),為了弱化不同句子的長(zhǎng)度差異對(duì)模型效果的負(fù)面影響,進(jìn)一步在BERT-CNN模型上融入基于Mask方法的多頭自注意力機(jī)制(MAT)。為了驗(yàn)證模型的有效性,本文在2019中國(guó)“法研杯”司法人工智能挑戰(zhàn)賽的“要素識(shí)別”任務(wù)公開(kāi)數(shù)據(jù)上進(jìn)行了多項(xiàng)對(duì)比實(shí)驗(yàn)。
早在20世紀(jì)50年代法律研究者就開(kāi)始使用數(shù)據(jù)分析方法得到的結(jié)果作為法律判決的重要依據(jù)。Kort使用數(shù)學(xué)與統(tǒng)計(jì)學(xué)的經(jīng)典算法來(lái)分析法律問(wèn)題,用數(shù)學(xué)方法預(yù)測(cè)了最高法院的判決,同時(shí)對(duì)“律師權(quán)利”案例進(jìn)行了定量分析[2]。文獻(xiàn)[3]使用規(guī)則分析了不同法律案件的數(shù)據(jù),達(dá)到了協(xié)助法官梳理案件證據(jù)的目的。文獻(xiàn)[4]通過(guò)研究大量法律數(shù)據(jù)得到了一些法律變量來(lái)為法官服務(wù),并幫助公眾更好地得到法律援助。文獻(xiàn)[5]使用數(shù)學(xué)建模的方法研究了法律案件的判決預(yù)測(cè)。文獻(xiàn)[6]以環(huán)境民事訴訟為例研究了司法判決。文獻(xiàn)[7]利用不同案例之間的相似度信息來(lái)估計(jì)不同法律問(wèn)題的相似性。這些研究的思路是從法律文本[8]或法律案例概要[9]中提取出相應(yīng)的特征。這種使用表面文本特征和人為設(shè)計(jì)要素的方法不僅需要耗費(fèi)大量人力,并且對(duì)新推出法條的泛化能力也十分有限。
近年來(lái),基于深度學(xué)習(xí)的方法在文本分類任務(wù)上獲得了較好的效果。文獻(xiàn)[10]使用卷積濾波器處理滑動(dòng)窗口中的文本序列,并使用最大池化的方法來(lái)捕獲有效的局部特征。文獻(xiàn)[11]提出了一種動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò),利用動(dòng)態(tài)k-max池操作對(duì)句子進(jìn)行語(yǔ)義上的建模。Lei等[12]提出了一種新的特征映射算子來(lái)生成不連續(xù)的n-gram特征,以更好地處理文本數(shù)據(jù)。文獻(xiàn)[13]利用大量的分類知識(shí)庫(kù)來(lái)增強(qiáng)模型性能。文獻(xiàn)[14]直接將CNN應(yīng)用到高維文本數(shù)據(jù)中,提出了卷積層中的詞袋轉(zhuǎn)換變量,以提高文本分類的準(zhǔn)確性。文獻(xiàn)[15]提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)利用卷積和循環(huán)層對(duì)輸入字符進(jìn)行有效編碼,通過(guò)較少的參數(shù)可以獲得更好的性能。文獻(xiàn)[16]使用微調(diào)的BERT模型進(jìn)行短文本分類研究得到了高于深度學(xué)習(xí)的效果,證明了BERT模型對(duì)文本分類任務(wù)同樣可以獲得較好的實(shí)驗(yàn)效果,為BERT模型應(yīng)用于司法等其他領(lǐng)域提供了理論基礎(chǔ)。
受上述研究的啟發(fā),Kim[17]嘗試將神經(jīng)網(wǎng)絡(luò)模型與法律知識(shí)相結(jié)合,進(jìn)行法律判斷預(yù)測(cè)。Luo等[18]提出了一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),將法律條文加入到指控預(yù)測(cè)的任務(wù)中。Hu等[19]試圖用10個(gè)法律判別屬性來(lái)預(yù)測(cè)易混淆的法律案件。以上研究均采用刑事案件作為實(shí)驗(yàn)數(shù)據(jù)集。Ye等[20]使用seq2seq模型,根據(jù)案件事實(shí)描述和民事法律文件中的指控預(yù)測(cè)生成可解釋的法院意見(jiàn)。針對(duì)法律文章預(yù)測(cè)的任務(wù),Liu等[21]設(shè)計(jì)了一種基于文本挖掘的方法,讓普通大眾使用日常詞匯來(lái)描述他們的問(wèn)題,并為他們的案例找到相關(guān)的法律文章。Liu等[22]在法律論文分類任務(wù)中采用基于實(shí)例分類和強(qiáng)化學(xué)習(xí)的方法。Zhang等[23]使用了融合CNN的方法預(yù)測(cè)案件適用的法條,又針對(duì)普通模型對(duì)金額、年齡等數(shù)字信息普遍關(guān)注度較低的問(wèn)題提出了數(shù)據(jù)離散化的方法進(jìn)一步提升了法條預(yù)測(cè)的效果[24]。
現(xiàn)有研究主要圍繞類案推薦和判決預(yù)測(cè)等任務(wù),主要利用了具體任務(wù)相關(guān)的詞特征,基于句子級(jí)特征要素的研究還相對(duì)較少。在此基礎(chǔ)上,本文進(jìn)行了深入的數(shù)據(jù)分析,提出了面向法律文書(shū)事實(shí)描述的判決要素抽取方法。
判決要素抽取模型主要包括三個(gè)部分:基于BERT的句子語(yǔ)義表示、MAT注意力機(jī)制和基于CNN的句子標(biāo)簽預(yù)測(cè)。句子語(yǔ)義表示利用BERT模型生成句子向量表示。MAT注意力機(jī)制弱化輸入向量的填充部分,并為其賦予真實(shí)向量字符級(jí)的權(quán)重。句子標(biāo)簽預(yù)測(cè)對(duì)輸入向量做三重卷積與最大池化后,再使用Softmax分類器預(yù)測(cè)最終的標(biāo)簽。結(jié)構(gòu)如圖2所示。
圖2 模型結(jié)構(gòu)圖
具體描述如下:
輸入是一個(gè)字?jǐn)?shù)長(zhǎng)度為n的字序列E=(w1,w2,…,wn),將每個(gè)字分別映射為一個(gè)對(duì)應(yīng)的向量xi∈Rd,字序列E最終可以被表示為矩陣S=x1⊕x2⊕…⊕xn,S∈Rn×d。
要素標(biāo)簽被映射為集合L={l1,l2,…,lq},q為該類法律文書(shū)要素標(biāo)簽種類個(gè)數(shù),li∈(0,1),若事實(shí)描述屬于第i種要素,則li為1,其他為0。
將事實(shí)描述句S的向量表示作用于函數(shù)f,可得到對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽L:
f(S)=L
(1)
BERT模型可以充分地表示出字、詞、句與句子之間的關(guān)系特征,使用BERT模型作為詞嵌入方法可以使模型的效果得到較高的提升。法律判決要素的句子長(zhǎng)度大都在100字以內(nèi),而B(niǎo)ERT模型最好效果的句子長(zhǎng)度參數(shù)通常為512,句子長(zhǎng)度相差較大。傳統(tǒng)模型多采用固定參數(shù)規(guī)定所有向量維度,對(duì)短句采用0填充的方式補(bǔ)齊維度,該方法很難精確地捕獲到句子的有效特征。為了弱化這種差異對(duì)模型效果的負(fù)面影響,本文提出了基于Mask方法的多頭自注意力機(jī)制。以事實(shí)描述中“婚后生有一子?!钡木渥酉蛄繛槔?,Mask方法弱化了不代表任何含義的填充向量,如圖3所示,在進(jìn)行Softmax操作時(shí),無(wú)關(guān)0向量將幾乎不會(huì)再被分配權(quán)重,有效減少無(wú)關(guān)向量對(duì)真實(shí)向量的影響。
圖3 Mask方法效果圖
基于Mask方法的多頭自注意力機(jī)制具體實(shí)現(xiàn)方法如下:
① 使用BERT模型對(duì)事實(shí)描述進(jìn)行語(yǔ)義表示得到矩陣S,將矩陣S與自身轉(zhuǎn)置矩陣ST做非線性變換得到中間變量S′:
(2)
式中:dk表示隱藏層的向量維度。
②S′是一個(gè)事實(shí)描述真實(shí)向量與填充0向量組合矩陣,為了使填充0向量對(duì)真實(shí)句向量的權(quán)重影響降到最低,本文將得到的矩陣S′使用Mask方法弱化填充向量得到矩陣a,弱化方法為將矩陣的事實(shí)描述向量進(jìn)行高數(shù)量級(jí)的定量變換,本文使用的數(shù)量級(jí)為e10,從而讓矩陣S′的填充向量數(shù)值比足夠小,則填充向量在進(jìn)行Softmax權(quán)重分配時(shí)分配到的權(quán)重也足夠小從而被忽略達(dá)到去除的效果。
a=S′-(1-m)×e10
(3)
式中:矩陣m為BERT模型輸出的Mask矩陣。
③ 將得到的矩陣a進(jìn)行Softmax歸一化操作得到事實(shí)描述矩陣的字向量關(guān)聯(lián)強(qiáng)度a′:
a′=softmax(a)
(4)
④ 將關(guān)聯(lián)強(qiáng)度a′與矩陣S一一對(duì)應(yīng)進(jìn)行向量的權(quán)重計(jì)算得到最終的事實(shí)描述矩陣oi:
oi=(a′?S)Wi
(5)
⑤ 使用n個(gè)不同的Wi得到n個(gè)不同的oi,通過(guò)式(6)將全部的oi拼接后得到融入詞義權(quán)重的事實(shí)描述矩陣Hatt,將Hatt作為卷積的輸入部分。
Hatt=concat(o1,o2,…,on)
(6)
本文使用了多卷積核的卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采用滑動(dòng)卷積核的方式可以較為準(zhǔn)確地提取到卷積核內(nèi)的局部特征信息,而多卷積核融合可以擴(kuò)大采集信息范圍的大小。將Hatt矩陣使用三個(gè)濾波器W1、W2、W3,分別用于大小為h1、h2、h3的窗口生成局部特征:
(7)
Z1=[C1,1,C2,1,…,Cq,1]
(8)
Z2=[C1,2,C2,2,…,Cq,2]
(9)
Z3=[C1,3,C2,3,…,Cv,3]
(10)
整個(gè)特征提取層提取到事實(shí)描述的總特征Zall為:
Zall=concat(Z1,Z2,Z3)
(11)
將Zall使用Max Pooling的池化方法選取局部最優(yōu)特征得到ZM:
ZM=max(Zall)
(12)
再將ZM經(jīng)過(guò)全連接層后作為模型的最終分類器進(jìn)行判決要素種類預(yù)測(cè)。
本文統(tǒng)計(jì)了每種法律文書(shū)中案情描述所涉及到的標(biāo)簽組合,將多種單標(biāo)簽組合全部轉(zhuǎn)換成一個(gè)獨(dú)立的單標(biāo)簽。則整個(gè)要素種類預(yù)測(cè)問(wèn)題被等價(jià)轉(zhuǎn)化成多個(gè)單標(biāo)簽的分類問(wèn)題。具體的實(shí)現(xiàn)方法如下:
首先將每種要素種類標(biāo)簽都映射成為[l1,l2,…,lq]的標(biāo)簽向量。設(shè)標(biāo)簽的真實(shí)概率分布為p(xi),標(biāo)簽的預(yù)測(cè)概率分布為q(xi),p(xi)由one-hot映射得到,q(xi)則由Softmax函數(shù)對(duì)logitsi進(jìn)行激活后得到logitsi為未經(jīng)過(guò)歸一化的預(yù)測(cè)概率分布。
q(xi)=softmax(logitsi)
(13)
本文使用交叉熵?fù)p失函數(shù)對(duì)標(biāo)簽預(yù)測(cè)概率分別進(jìn)行損失值計(jì)算。單個(gè)標(biāo)簽的損失值計(jì)算如下:
(14)
整體事實(shí)描述的loss值lossall如下:
lossall=loss1+loss2+…+lossn
(15)
Adam優(yōu)化函數(shù)優(yōu)化lossall后,將新的lossall反向傳遞給模型使模型迭代更新模型參數(shù),使用最優(yōu)參數(shù)對(duì)標(biāo)簽進(jìn)行預(yù)測(cè)得到預(yù)測(cè)概率q(xi),選取概率最高的標(biāo)簽即為該事實(shí)描述的預(yù)測(cè)標(biāo)簽。
本文實(shí)驗(yàn)采用了2019中國(guó)“法研杯”司法人工智能挑戰(zhàn)賽中要素識(shí)別任務(wù)的數(shù)據(jù)集,包含離婚、勞動(dòng)、借貸三種類型案件。每類數(shù)據(jù)集分別包含1 000篇事實(shí)描述,其中每一個(gè)語(yǔ)句有0到多個(gè)要素標(biāo)簽。圖4為判決要素識(shí)別任務(wù)的一條原始數(shù)據(jù),“l(fā)abels”表示對(duì)應(yīng)的標(biāo)簽,“sentence”表示句子。
圖4 原始數(shù)據(jù)樣例
為了便于模型處理,本文將數(shù)據(jù)集中的事實(shí)描述段落轉(zhuǎn)變?yōu)閷?duì)應(yīng)的多個(gè)事實(shí)描述語(yǔ)句,把多標(biāo)簽合并為單標(biāo)簽,加入“0”標(biāo)簽對(duì)應(yīng)非要素語(yǔ)句,處理后的實(shí)驗(yàn)數(shù)據(jù)如圖5所示。并且為了提升訓(xùn)練數(shù)據(jù)的質(zhì)量和降低數(shù)據(jù)集的非平衡性,本文舍棄了一些如離婚數(shù)據(jù)中的“按月支付撫養(yǎng)費(fèi)”和勞動(dòng)數(shù)據(jù)中的“勞動(dòng)仲裁階段為提起”等出現(xiàn)次數(shù)占比少于約0.1%的標(biāo)簽與數(shù)據(jù)。處理后的數(shù)據(jù)集樣本數(shù)量與標(biāo)簽數(shù)量統(tǒng)計(jì)如表1所示。
圖5 處理后數(shù)據(jù)樣例
表1 各類型數(shù)據(jù)集的樣本數(shù)目
根據(jù)各標(biāo)簽數(shù)據(jù)量在整體數(shù)據(jù)量中的比重從三種數(shù)據(jù)集中分別劃分出1 500條數(shù)據(jù)作為評(píng)價(jià)實(shí)驗(yàn)結(jié)果的測(cè)試數(shù)據(jù),并將剩余數(shù)據(jù)按照8 ∶1的比例劃分為訓(xùn)練集與驗(yàn)證集。
實(shí)驗(yàn)所用的評(píng)價(jià)指標(biāo)包括精確度P、召回率R和F1值。
(16)
(17)
(18)
式中:TP表示屬于該類也被劃分為該類的樣本數(shù)量;TN表示沒(méi)有分為該類且不屬于該類的樣本數(shù)量;FN表示沒(méi)有分到該類但屬于該類的樣本數(shù)量;FP表示分到該類但不屬于該類的樣本數(shù)量。
實(shí)驗(yàn)采用了5種基線模型:卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)模型(LSTM)、BERT配合全連接層模型(BER-ALL)、BERT融合循環(huán)神經(jīng)網(wǎng)絡(luò)模型(BERT-LSTM)、BERT融合卷積神經(jīng)網(wǎng)絡(luò)模型(BERT-CNN)。
在參數(shù)設(shè)置上,所有模型均在訓(xùn)練集上使用0.000 05的學(xué)習(xí)率進(jìn)行5個(gè)epoch的訓(xùn)練;學(xué)習(xí)衰減率設(shè)為0.9,dropout設(shè)為0.5,優(yōu)化器使用AdamOptimizer。MAT方法使用了12頭5層的多頭自注意力機(jī)制進(jìn)行權(quán)重劃分。卷積神經(jīng)網(wǎng)絡(luò)中的三重卷積核窗口大小分別為2、3、4。
利用劃分好的3種數(shù)據(jù)集在5種基線模型上分別進(jìn)行了判決要素抽取實(shí)驗(yàn),結(jié)果如表2所示。顯然,在3種數(shù)據(jù)集上CNN模型的結(jié)果均優(yōu)于LSTM模型,同樣,利用BERT作為詞嵌入方法的實(shí)驗(yàn)中BERT-CNN模型在3種數(shù)據(jù)集上的結(jié)果都明顯好于所有基線模型。
表2 5種基線模型的實(shí)驗(yàn)結(jié)果
續(xù)表2
在使用BERT模型作為詞嵌入方法時(shí),最大句子長(zhǎng)度參數(shù)的設(shè)置會(huì)直接影響實(shí)驗(yàn)結(jié)果。為了驗(yàn)證不同句子長(zhǎng)度對(duì)結(jié)果的影響,本文使用BERT-CNN模型分別進(jìn)行了不同句子長(zhǎng)度的對(duì)比實(shí)驗(yàn),在其余參數(shù)均相同的前提下分別將最大句子長(zhǎng)度參數(shù)設(shè)置為64、128、256、512,實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 最大句子長(zhǎng)度對(duì)結(jié)果的影響
圖6顯示,3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果都會(huì)隨著最大句子長(zhǎng)度參數(shù)的增大而提高。為了讓模型在最優(yōu)的參數(shù)配置下還能適應(yīng)司法類數(shù)據(jù)中句子普遍較短的特點(diǎn),本文分別在BERT-CNN和BERT-LSTM兩個(gè)模型中融入了基于Mask方法的多頭自注意力機(jī)制(MAT)。BERT-MAT-LSTM模型和BERT-MAT-CNN模型在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示,結(jié)果顯示BERT-MAT-CNN模型在3個(gè)數(shù)據(jù)集上取得的F1值分別為0.765、0.820和0.710,均優(yōu)于其他模型。
表3 兩種模型融入MAT后的實(shí)驗(yàn)結(jié)果
續(xù)表3
在三個(gè)數(shù)據(jù)集中,每種標(biāo)簽對(duì)應(yīng)的樣本數(shù)目分布不均勻?qū)е碌哪P陀?xùn)練偏置是影響最終分類效果的重要原因。在法律文書(shū)的事實(shí)描述中,屬于法律判決要素的句子樣本數(shù)目?jī)H占到整個(gè)事實(shí)描述句子數(shù)目的40%~45%,且每種類型的要素必定會(huì)有涉及較為頻繁與涉及相對(duì)較少的要素種類,這就決定了數(shù)據(jù)集中每種標(biāo)簽的樣本數(shù)目會(huì)大不相同,并且代表非要素部分的0標(biāo)簽一定是占比最多的標(biāo)簽種類。圖7中列出了每種數(shù)據(jù)集部分標(biāo)簽樣本數(shù)目的條形圖??梢钥闯?,離婚數(shù)據(jù)集中的“0”標(biāo)簽(DV0)樣本數(shù)目與“DV6DV7”標(biāo)簽樣本數(shù)目比約為107 ∶1,勞動(dòng)數(shù)據(jù)集中的“0”標(biāo)簽(LB0)樣本數(shù)目與“LB18LB1”標(biāo)簽樣本數(shù)目比約為148 ∶1,借貸數(shù)據(jù)集中的“0”標(biāo)簽(LN0)樣本數(shù)目與“LN2”標(biāo)簽樣本數(shù)目比約為111 ∶1。
圖7 三種數(shù)據(jù)集部分標(biāo)簽樣本數(shù)目條形圖
另外,由于本文使用的數(shù)據(jù)集全部是由人工標(biāo)注獲得的,每種數(shù)據(jù)集中都存在一些標(biāo)注錯(cuò)誤的樣本,如離婚訓(xùn)練數(shù)據(jù)中樣本“準(zhǔn)予原告吳某與被告喬某甲離婚”被標(biāo)注“DV9(法定離婚)”標(biāo)簽,樣本“準(zhǔn)予原告張某與被告薛某甲離婚”被標(biāo)注“DV12(準(zhǔn)予離婚)”標(biāo)簽,但兩個(gè)樣本應(yīng)為同一種標(biāo)簽。顯然,一定數(shù)量的錯(cuò)誤標(biāo)注樣本會(huì)影響模型的分類效果。
本文研究了智慧司法領(lǐng)域的要素抽取任務(wù),將判決要素句抽取任務(wù)形式化為對(duì)事實(shí)描述語(yǔ)句的多標(biāo)簽分類模型,提出融合BERT和CNN(BERT-CNN)的判決要素抽取方法。同時(shí),為了弱化不同句子的長(zhǎng)度差異對(duì)模型效果的負(fù)面影響,進(jìn)一步在BERT-CNN模型上融入基于Mask方法的多頭自注意力機(jī)制(MAT)。相比現(xiàn)有的抽取方法本文構(gòu)建的模型能更準(zhǔn)確地提取司法類數(shù)據(jù)的特征。然而,法官選擇案件判決的參考因素不僅僅依賴案件的事實(shí)描述,通常案件相關(guān)的法條也是案件判決要素選擇的重要依據(jù)。因此,探索融入相關(guān)法條的要素抽取模型也是接下來(lái)重要的研究點(diǎn)。