亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分層注意力循環(huán)神經(jīng)網(wǎng)絡的司法案件刑期預測

2022-04-01 11:36:34李大鵬趙琪琿邢鐵軍趙大哲

東北大學學報(自然科學版) 2022年3期

李大鵬, 趙琪琿, 邢鐵軍, 趙大哲

(1. 東北大學計算機科學與工程學院, 遼寧沈陽 110169; 2. 東軟集團股份有限公司, 遼寧沈陽 110179)

近年來,隨著人工智能等新一代信息技術的發(fā)展,司法辦案智能化成為司法領域信息技術的研究熱點,尤其是案件判決預測(legal judgment prediction,簡稱LJP)日益受到關注[1].LJP使用自然語言處理等技術分析案件卷宗文本,預測案件罪名、刑罰和適用法律等判決結果,該技術是司法機關智能輔助辦案系統(tǒng)的核心關鍵技術之一,可以減少法官、檢察官等辦案人員的大量案件分析工作并輔助其作出決策,提高工作效率,減少犯錯的風險.同時,缺少法律知識的普通人也可通過該技術了解他們所關心案件的預期判決情況.

LJP包括罪名預測、刑期預測等多個子任務.近年來隨著計算能力的提高及深度學習技術的發(fā)展,卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等方法被廣泛地應用在LJP領域.2017年,Luo等[2]使用支持向量機和循環(huán)神經(jīng)網(wǎng)絡預測案件的適用罪名和適用法律,為LJP任務提出了新的解決方法.同年Vaswani等[3]提出了基于多頭自注意力機制的Transformer模型,提高了文本特征的提取能力.2018年,Google公布BERT(bidirectional encoder representation from transformers)在11項NLP(natural language processing)任務中刷新紀錄[4],引起了業(yè)界的廣泛關注.陳劍等[5]在司法文書命名實體識別問題上引入BERT模型,有效提升了實體識別效果.近兩年,許多學者對深度學習在LJP領域的應用進行了深入的探索.Li等[6]在2019年設計了一個基于注意力循環(huán)神經(jīng)網(wǎng)絡模型,同時完成案件的罪名預測、刑期預測和法條推薦任務.2020年,Xu等[7]提出了一種新型的基于Bi-GRU(bidirectional gated recurrent unit)神經(jīng)網(wǎng)絡的多任務LJP框架,引入了被告人位置信息和不同刑期的注意力提升預測的準確率;同年,Xu等[8]提出了一種基于圖蒸餾算子的端到端注意力模型LADAN,該模型通過利用相似罪名之間的差異很好地解決了LJP任務中罪名易混淆的問題.

2018年“中國法研杯”司法人工智能挑戰(zhàn)賽(CAIL2018)提出了刑事案件的罪名預測、法條推薦和刑期預測三個LJP挑戰(zhàn)任務,罪名預測和法條推薦任務準確率均達到95%以上,相比較而言,刑期預測任務準確率較差.產(chǎn)生這種情況的原因主要有兩個:1)分析數(shù)據(jù)的不全面.CAIL2018的刑期預測任務是通過分析一段描述案件犯罪情節(jié)的文本來預測刑期,而在實際的司法實踐中,法官或檢察官在量刑時需要考慮的因素不僅僅包括被告人的犯罪情節(jié),還包括被告人的基本信息(例如健康狀況、年齡、前科等)、被捕后的態(tài)度表現(xiàn)(坦白、自首、立功情節(jié)等)等其他因素,僅僅依靠犯罪情節(jié)來預測量刑結果是不準確的.2)預測模型的局限性.首先,刑期預測是歸結為分類問題還是回歸問題還沒有定論,相比較而言,用回歸方式預測刑期效果較差,準確率不高;其次,模型如何能夠提取案件文本深層次的語義特征并生成有效表征案件文本的向量表示也是影響刑期預測準確性的關鍵問題.

為了解決已有研究中存在的上述問題,本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(multi-channel hierarchical attentive recurrent neural network,MHARNN)的司法案件刑期預測模型.相比傳統(tǒng)刑期預測模型,本文在以下三個方面進行了改進:1)BERT預訓練模型,使用BERT預訓練中文詞向量作為MHARNN模型的輸入,其強大的詞向量表征能力能夠有效提升分類器性能.2)多通道模式,MHARNN模型引入多通道模式,將被告人基本信息、犯罪情節(jié)和被告人態(tài)度表現(xiàn)三類文本信息分別輸入到編碼器中各自生成向量表示,最后三個表示向量拼接后再輸入到分類器中.3)分層注意力機制,MHARNN模型引入基于分層注意力機制的Bi-GRU神經(jīng)網(wǎng)絡模型來進行輸入文本隱含特征的提取,其中分層注意力機制可以從詞語和句子兩個層面捕獲不同詞語和不同句子對于刑期預測任務的重要性.實驗結果表明,相比其他刑期預測模型,本文模型預測準確率等性能得到了顯著提高.

1 模型描述

為了完成案件的刑期預測,本文提出了MHARNN刑期預測模型,如圖1所示,模型可分為三個層次.

圖1 刑期預測模型

1) 輸入層.輸入層引入多通道模式和BERT中文預訓練模型,將被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)三類文本轉化為BERT 詞向量序列輸入到模型編碼層中.

2) 編碼層.本文選擇使用Bi-GRU神經(jīng)網(wǎng)絡作為編碼器用于生成三類文本的向量表示.編碼器是一個雙層結構,首先將詞向量序列作為輸入并結合詞語級注意力上下文向量cpw,cfw和caw生成句子向量,再將生成的多個句子向量序列作為輸入并結合句子級注意力上下文向量cps,cfs和cas生成三類文本的向量,包括基本信息向量dp、犯罪情節(jié)向量df和態(tài)度表現(xiàn)向量da.

3) 輸出層.本文將dp,df和da拼接在一起后輸入到Softmax分類器中.分類器會輸出不同刑期區(qū)間的概率分布Pt,從而得出該案件的刑期預測結果.

相比于傳統(tǒng)的預測模型將案件文書整體輸入到編碼器中,MHARNN模型多通道模式的優(yōu)勢可歸納為如下兩點:1) 多通道模式下各類輸入信息擁有單獨的編碼器,編碼器能夠更好地學習深層特征,生成的向量表示也能夠更準確地表征輸入文本數(shù)據(jù),從而提高模型的預測準確率;2) 多通道模式下,模型的輸入也更加靈活,比如被告人的態(tài)度表現(xiàn),除了可以將文本向量作為輸入外,也可以使用One-hot編碼對被告人的坦白、自首和立功等情節(jié)進行編碼,生成一個代表被告人態(tài)度表現(xiàn)的向量,之后可以將其輸入到一個多層感知機中生成與其他兩個通道相同維度的特征向量.

1.1 文本編碼器

案件文本可以視作具有兩層結構的序列集合,即一個案件文本是多個句子組成的序列集合,而其中每個句子則是由多個詞語組成的序列集合.如圖2所示,本文基于Bi-GRU神經(jīng)網(wǎng)絡構建一個具有兩層結構的編碼器來學習案件文本的向量表示,兩層結構分為詞語級編碼器和句子級編碼器.

假設一個文本由n個句子組成,其中第i個句子si(i∈[1,n])包含m個詞語,用wij(j∈[1,m])表示該句子中的第j個詞語，則文本表示向量d可以表示為

d=f([s1,s2,…,sn]) ,

(1)

si=g([wi1,wi2,…,wim]) .

(2)

其中f和g函數(shù)分別代表句子級編碼器和詞語級編碼器.

圖2 雙層文本編碼器

本文選擇Bi-GRU神經(jīng)網(wǎng)絡構建文本編碼器.GRU是循環(huán)神經(jīng)網(wǎng)絡的一種變體, GRU有兩個門,分別為更新門和重置門.更新門控制前一時刻的狀態(tài)信息被輸入到當前狀態(tài)中的程度,更新門的值越大說明前一時刻的狀態(tài)信息輸入越多.重置門控制忽略前一時刻的狀態(tài)信息的程度,重置門的值越小說明忽略的信息越多.在任意時刻t,GRU的隱藏狀態(tài)計算如式(3)～式(6)所示.

rt=σ(Wrxt+Urht-1+br);

(3)

zt=σ(Wzxt+Uzht-1+bz);

(4)

(5)

(6)

其中:rt表示更新門結果;zt表示重置門結果;ht-1代表上一時刻隱藏狀態(tài);xt表示輸入的文本序列信息;Wr,Wz,Wn為權重參數(shù);σ是sigmoid函數(shù); ⊙代表兩個矩陣求Hadamard積的操作.Bi-GRU通過引入第二個層來擴展單向的GRU網(wǎng)絡,在這個層中隱藏的連接以相反的順序流動,從而有效利用文本中的上下文信息.給定一組文本數(shù)據(jù)[x1,x2,…,xT],其中第t個元素為xt(t∈[1,T]).對于xt,前向GRU隱藏狀態(tài)hft和后向GRU隱藏狀態(tài)hbt分別為

hft=GRU([x1,x2,…,xt]) ,

(7)

hbt=GRU([xT,xT-1,…,xt]) .

(8)

最后通過拼接ht=[hft,hbt]作為最終的Bi-GRU輸出.

1.2 雙層注意力機制

對于一個案件文本來說,每個句子包含的信息不同,對于量刑預測結果的影響是不同的.同樣,一個句子中的詞語既可能是與案情緊密相關的詞語,也可能是無關的詞語,它們對于量刑預測結果的重要性也是不同的.因此,本文在模型中引入分層注意力機制,給不同的句子或詞語賦予不同的權重,從而摒棄一些噪音數(shù)據(jù),以此來提高分類器的性能.注意力機制本質上是為了對數(shù)據(jù)中更有價值的部分分配較多的計算資源.

如圖3所示,本文引入全局的注意力上下文向量cw和cs[9],分別參與詞語級和句子級的注意力計算,生成句子表示向量s和文本表示向量d.使用隨機值初始化cw和cs,并在模型訓練過程中迭代優(yōu)化.給定一組GRU編碼器輸出[hi1,hi2,…,hiM],每個詞的注意力值為[αi1,αi2,…,αiM],其中αij∈[0,1],∑jαij=1.句子表示向量si計算過程如下:

uij=tanh(Wwhij+bw) ,

(9)

(10)

si=∑jαijhij.

(11)

同理,文本表示向量d的計算過程如下:

ui=tanh(Wshi+bs) ,

(12)

(13)

d=∑iαihi.

(14)

其中:Ww,Ws分別是詞語級和句子級的權重參數(shù);bw,bs分別是詞語級和句子級的偏置參數(shù).通過如上的計算過程,就可以計算結合了分層注意力機制的文本表示向量.

1.3 Softmax分類器

Softmax分類器的輸入是來自三個通道的文本向量拼接后形成的向量d:

d=[dp,df,da] ,

(15)

p=softmax(Wpd+bp) .

(16)

將案件表示向量d輸入到分類器后會得到屬于各個刑期標簽的概率pi(pi∈[0,1],i∈[1,I]),其中pi代表案件刑期屬于該區(qū)間的概率,I是刑期區(qū)間劃分的標簽數(shù)量.由于刑期預測問題屬于單分類問題,選取概率值最大的區(qū)間為刑期預測結果.

本文使用交叉熵作為模型的損失函數(shù),記為LossF:

(17)

其中,ri表示標簽指示變量,如果該預測結果和樣本案件的標簽相同就是1,否則是0.

圖3 雙層注意力機制

2 實驗與結果分析

2.1 實驗數(shù)據(jù)集

目前,國內公開的司法案件數(shù)據(jù)集較少,比較知名的是2018年“中國法研杯”提供的 CAIL2018數(shù)據(jù)集[10].CAIL2018數(shù)據(jù)集涵蓋了202個罪名共260余萬份真實案件,可用于LJP相關模型的訓練和測試.但通過分析發(fā)現(xiàn),CAIL2018中的案件數(shù)據(jù)僅包含被告人姓名(已脫敏),并不包含被告人詳細信息,即無法獲取被告人的年齡、身體狀況及前科等與量刑結果息息相關的信息,同時,部分案件也沒有被告人的態(tài)度表現(xiàn)信息.基于此種情況,本文通過中國裁判文書網(wǎng)收集了海量案件判決書,得益于其比較規(guī)范的格式;通過程序將判決書中的被告人基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)、罪名和判決結果等內容自動提取并結構化為實驗數(shù)據(jù)集.該數(shù)據(jù)集中的案件數(shù)據(jù)包含了模型所需的完整內容,可以有效驗證本文提出的MHARNN模型的性能.實驗數(shù)據(jù)集涵蓋了58個罪名共20萬個案件,所有案件均是單被告人且判罰結果均是有期或無期徒刑(不考慮緩刑).數(shù)據(jù)集不同罪名案件數(shù)量的分布是不均衡的,數(shù)量最多的前10個罪名的案件占數(shù)據(jù)集案件總數(shù)的72.1%.本文將數(shù)據(jù)集隨機分為三部分作為訓練集、驗證集、測試集,三者的文書數(shù)量比例約為8∶1∶1.

本文將刑期歸一化處理為以月份為單位的時間常數(shù),然后劃分成不同的區(qū)間(單罪名有期徒刑最少為6個月,最多為15年,數(shù)罪并罰不超過25年),例如6～8個月、8～12個月,每個區(qū)間為一個類別,其中無期徒刑單獨歸類.具體劃分規(guī)則見表1.

表1 刑期區(qū)間劃分

2.2 數(shù)據(jù)預處理過程

針對從網(wǎng)上下載的案件判決書,數(shù)據(jù)預處理主要包括三個步驟.

1) 結構化:首先通過關鍵字對判決書進行段落級別的劃分,將其分為包含基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)和判決結果等段落,然后通過關鍵字和正則表達式從判決結果中提取罪名、刑期等信息,最終將一份判決書結構化為實驗所需的數(shù)據(jù)樣本.

2) 數(shù)據(jù)清洗:針對包含基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的文本,去掉其中的冗余詞、停用詞以及語氣助詞等沒有意義的內容.

3) 向量化:將清洗后的三部分文本進行分詞,然后使用中文預訓練模型ALBERT_TINY將文本中的詞轉為詞向量,詞向量的維度設置為400.

2.3 實驗設計

為了驗證本文提出的MHARNN模型在刑期預測性能方面的優(yōu)越性,在相同數(shù)據(jù)集上進行一系列對比實驗,包括:

1) 從分析模型性能優(yōu)越性的角度,選擇了CAIL2018比賽中使用的TextCNN[11],RCNN[12],DPCNN[13]和HAN[14]四種刑期預測模型與本文提出的MHARNN模型進行比較.考慮到這些模型不是多通道模型,在實驗過程中,將三類數(shù)據(jù)按照基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的順序整合在一起輸入到模型中.

2) 從分析BERT詞向量、多通道數(shù)據(jù)和雙層注意力機制對性能影響的角度,設計了多組消融實驗進行分析比較.

實驗選擇TensorFlow工具訓練以上提到的所有神經(jīng)網(wǎng)絡模型,超參數(shù)設定隱藏層數(shù)為3,隱藏層節(jié)點數(shù)為200,被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的Embedding長度分別設置為50,100和50.本文使用Adam算法來優(yōu)化訓練過程,學習率設置為0.001,Dropout設置為0.5;使用宏精度(macro-precision,MP)和宏召回率(macro-recall, MR)和宏F1分數(shù)三個指標來評價模型性能.

2.4 實驗結果分析

在相同數(shù)據(jù)集上,不同文本分類模型在刑期預測任務上的實驗結果如表2所示.

表2 不同模型結果對比

從結果可以看到, MHARNN模型取得了所有對比模型中最好的效果,此外,引入注意力機制的循環(huán)神經(jīng)網(wǎng)絡模型HAN也取得了較好的性能.相較于HAN模型,MHARNN模型的F1分數(shù)提升了14%.從5類模型的實驗結果可見,TextCNN和DPCNN的性能較差,即卷積神經(jīng)網(wǎng)絡在自然語言處理任務上的效果沒有循環(huán)神經(jīng)網(wǎng)絡的效果好,畢竟案件文本作為序列數(shù)據(jù),使用循環(huán)神經(jīng)網(wǎng)絡模型處理更加適合.參考CAIL2018的刑期預測任務的準確率, MHARNN模型在MP和MR性能上均得到顯著的提升.但是,相比于罪名預測和法條推薦任務,刑期預測任務的F1分數(shù)仍然相對較低,除了前文分析的原因外,數(shù)罪并罰導致刑期變化以及案件情節(jié)的復雜性仍是困擾刑期預測任務的難題.

為了深入分析多通道數(shù)據(jù)和雙層注意力機制對刑期預測任務性能的影響,設計消融實驗進行分析比較.模型名字中w/o是without的縮寫,w/o BERT代表用word2vec詞向量替代BERT,w/o attention模型即無雙層注意力機制;w/o hierarchical模型即不使用包括詞語級和句子級的雙層Bi-GRU編碼器,輸入文本后直接通過Bi-GRU編碼器獲得文本表示向量;w/o persona模型是指輸入文本只有犯罪情節(jié)和態(tài)度表現(xiàn)內容;w/o attitude模型是指輸入文本只有犯罪情節(jié)和基本信息內容.實驗結果如表3所示.

表3 消融實驗結果

從實驗結果可知,本文模型中使用的BERT詞向量、注意力機制以及分層編碼器均有效提高了刑期預測的性能,沒有它們,分類性能都有一定程度的下降.BERT預訓練模型通過雙向訓練Transformer編碼器從海量的無標注語料中學習詞語信息特征、語言學特征和一定程度的語義信息特征,具有強大的詞向量表征能力.使用BERT Word Embedding作為輸入,使模型F1分數(shù)提升6%.注意力機制給不同的句子或詞語賦予不同的權重,起到了摒棄噪音數(shù)據(jù)的效果.而從數(shù)據(jù)類別來看,態(tài)度表現(xiàn)內容對刑期預測任務的影響更大,因為被告人的態(tài)度表現(xiàn)與量刑的從輕和從重判罰息息相關.基本信息內容中對量刑有影響的是年齡(如未成年人)、身體狀況(如聾啞人)和前科(如累犯認定)等信息,可見大部分案件的基本信息內容對量刑結果的影響較小,但對少量案件來說,缺少基本信息內容會造成較大的預測誤差,可見三類數(shù)據(jù)一起輸入到模型中才會提高預測準確率.

3 結語

針對案件判決預測中的刑期預測任務,本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡的司法案件刑期預測模型.該模型引入了BERT預訓練模型、多通道模式和分層注意力機制,能夠有效提升刑期預測的準確率.對比實驗結果表明,多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡模型的學習能力更強,具備學習深層次語義特征的能力,從而有效提升刑期預測的性能.下一步工作主要包含兩個方面:一方面需要進一步提升該模型在刑期預測方面的性能;另一方面,針對數(shù)罪并罰案件在模型架構上進一步改進.