王 悅,王平輝,許 諾,陳 龍,楊 鵬,吳 用
西安交通大學(xué) 智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點實驗室,西安 710049
在經(jīng)濟(jì)快速發(fā)展,社會急劇轉(zhuǎn)型的背景下,公民的權(quán)利意識逐漸增強(qiáng),法院收案量高速增長。相關(guān)數(shù)據(jù)顯示,截至2019 年7 月31 日,全國法院新收案件總數(shù)同比增加189.0 萬件,上升14.54%(http://www.xinhuanet.com/2019-07/31/c_1124822269.htm),“案多人少”矛盾異常突出。準(zhǔn)確高效地識別案件審判難度,對于緩解“案多人少”矛盾,提高審判效率具有重要意義。
審判難度預(yù)測是指在給定起訴狀案情描述文本的情況下,自動預(yù)測案件審判難易程度?,F(xiàn)階段,案件審判難度預(yù)測工具嚴(yán)重依賴專家知識,其實現(xiàn)方式為:(1)根據(jù)辦案專家經(jīng)驗,人工構(gòu)建審判難度判別規(guī)則庫。(2)對任意受理的案件,匹配相關(guān)規(guī)則,實現(xiàn)對案件審判難易程度的劃分[1]。
現(xiàn)有方法過于依賴專家經(jīng)驗,由于不同專家對案件難易程度的判斷標(biāo)準(zhǔn)具有主觀性,存在較大差異,導(dǎo)致不同專家對相同案件的審判難度判斷結(jié)果存在較大偏差。此外,現(xiàn)階段審判難度預(yù)測相關(guān)研究較少,而此項工作的順利開展對于緩解法院“案多人少”矛盾極其重要。
針對上述問題,結(jié)合審判難度預(yù)測的定義,本文將其歸結(jié)為自然語言處理中的文本分類問題。通過綜合考慮不同專家的判斷結(jié)果對原始案件的審判難度進(jìn)行標(biāo)注,利用文本分類的方法,解決不同專家下,相同案件審判難度偏差大的問題。
常見的文本分類方法是基于序列建模的。然而,起訴狀本身是半結(jié)構(gòu)化文本,由判別要素組成,且判別要素間具有明顯的結(jié)構(gòu)獨特性和邏輯依賴性。具體地,如圖1 所示,以民事案件為例,起訴狀的內(nèi)容包括原告情況、被告情況、訴訟請求及事實理由四大要素,各要素位置結(jié)構(gòu)相對固定:首先描述原告情況、被告信息,接著表明訴訟請求、事實理由,要素間具有明顯的結(jié)構(gòu)獨特性;“原告、被告”是“訴訟請求、事實理由”的訴訟主體,后者內(nèi)容緊緊圍繞前者展開,存在著嚴(yán)格的關(guān)聯(lián)關(guān)系,具有明顯的邏輯依賴性。
Fig.1 Sample of indictment圖1 起訴狀示例
本文在序列建模的基礎(chǔ)上,充分考慮起訴狀中審判要素間的結(jié)構(gòu)獨特性和邏輯依賴性,提出了一種新的神經(jīng)網(wǎng)絡(luò)模型——基于掩碼注意力拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)的審判難度預(yù)測模型(mask-attention and topological association network,MAT-TAN)。
具體地,該模型首先采用掩碼注意力網(wǎng)絡(luò)(maskattention,MAT)聚焦審判要素特定位置,提取各要素全面、準(zhǔn)確的特征信息,實現(xiàn)案情細(xì)粒度分析。其次利用拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)(topological association network,TAN)對審判要素間的司法邏輯依賴關(guān)系進(jìn)行建模,并有效融合不同要素的特征,最終實現(xiàn)案件審判難度預(yù)測。本文在某法院提供的真實數(shù)據(jù)集上進(jìn)行了實驗,實驗結(jié)果表明,在審判難度預(yù)測任務(wù)上,本文方法與現(xiàn)有文本分類方法相比,宏平均F1 值提高0.03 以上。
本文的貢獻(xiàn)主要包括:(1)首次將深度學(xué)習(xí)方法應(yīng)用到審判難度預(yù)測任務(wù)中,實際應(yīng)用中僅需輸入案件內(nèi)容即可預(yù)測審判難度,相比于現(xiàn)有方法,本文提出的MAT-TAN 模型無需人工構(gòu)建審判難度判別規(guī)則庫,進(jìn)一步解放人力,并有效解決現(xiàn)有方法過于依賴專家經(jīng)驗導(dǎo)致預(yù)測結(jié)果不準(zhǔn)確的問題。(2)相關(guān)審判要素的引入,使得神經(jīng)網(wǎng)絡(luò)具備一定的可解釋性,有利于MAT-TAN 模型在各級法院推廣應(yīng)用。(3)基于法院真實數(shù)據(jù)的實驗結(jié)果表明,本文提出的MAT-TAN 模型與基準(zhǔn)的文本分類方法相比,宏平均F1 值提升了0.036,在審判難度預(yù)測任務(wù)上具備較好的使用效果。
審判難度預(yù)測任務(wù)可歸納為自然語言處理中的文本分類問題,且與近年來利用人工智能算法輔助司法辦案的研究息息相關(guān)。本章從文本分類和司法智能化系統(tǒng)兩方面對相關(guān)工作進(jìn)行介紹。
隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域(natural language processing,NLP)研究的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[2]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[3]等各種深度學(xué)習(xí)算法被廣泛應(yīng)用于文本分類任務(wù)中,與傳統(tǒng)方法相比,此類算法在許多類型的文本分類任務(wù)中都取得了優(yōu)異的成績[2-4]。
Kim[4]將CNN 模型推廣用于文本分類,他直接將卷積應(yīng)用于句子,這種方法通過最大池化操作獲得最重要特征,輕松處理高維數(shù)據(jù),但忽視了文本本身的順序性質(zhì)。RNN 能夠很好地表達(dá)時序信息,近年來出現(xiàn)了多種改進(jìn)方法,包括長短時記憶網(wǎng)絡(luò)(long short term memory networks,LSTM)[5]、門控循環(huán)單元(gated recurrent unit,GRU)[6]、雙向長短時記憶網(wǎng)絡(luò)(bidirectional LSTM network,Bi-LSTM)[7]等。注意力機(jī)制[8]的出現(xiàn)進(jìn)一步提升了深度神經(jīng)網(wǎng)絡(luò)在語義層面的理解。隨之而來的層次注意力模型(hierarchical attention network,HAN)[9]在詞語層和句子層分別應(yīng)用注意力機(jī)制,進(jìn)一步提高文本分類準(zhǔn)確率。自注意力機(jī)制[10]是注意力機(jī)制的改進(jìn),其減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。來自變換器的雙向編碼器表征量(bidirectional encoder representations from transformers,BERT)[11]的出現(xiàn),刷新了11 個NLP 任務(wù)中的成績,是一項里程碑式的工作。然而上述模型在審判難度預(yù)測任務(wù)中未考慮起訴狀內(nèi)要素間的結(jié)構(gòu)獨特性和邏輯依賴性,丟失了文本重要的結(jié)構(gòu)信息和邏輯信息,很難準(zhǔn)確識別案件的難易程度。
隨著人工智能技術(shù)的飛速發(fā)展,利用深度學(xué)習(xí)算法輔助司法辦案的問題引起了眾多研究者的關(guān)注,為法院智能信息化應(yīng)用帶來了巨大便利。近些年的主要研究包括:(1)判決結(jié)果預(yù)測[12]。利用深度學(xué)習(xí)的算法學(xué)習(xí)以往案例,將案情描述作為輸入,預(yù)測案件判決結(jié)果,為法官判案提供輔助性建議。(2)相似案件智能推薦[13]。利用深度學(xué)習(xí)的算法,尋找與待判案件事實相同或相似的其他案件,將其作為判案結(jié)果的參考,保證同案同判。(3)智能問答服務(wù)[14]。對于一個法律問題,利用深度學(xué)習(xí)算法檢索相關(guān)法律條文,為法律專業(yè)人士和社會公眾提供便捷、高效的服務(wù)。
雖然深度學(xué)習(xí)算法在司法智能化系統(tǒng)中取得了優(yōu)秀的效果,然而針對審判難度預(yù)測任務(wù),目前尚未有人使用此類方法進(jìn)行分析。
本章首先介紹了法院提供真實案例數(shù)據(jù)集的形式,然后定義了案情描述序列的概念和審判難度的劃分標(biāo)準(zhǔn),最后給出了審判難度預(yù)測問題的定義。
具體地,X=[x1,x2,…,xn]∈Rn×d,其中,xi∈Rd是案情描述中第i個單詞的詞向量,n是案情描述文本中的單詞個數(shù),d是詞向量嵌入的維數(shù);y∈[y1,y2,y3],其中,y1表示復(fù)雜案件,即案情疑難、復(fù)雜,社會影響較大的案件,y2表示普通案件,即案情普通,社會影響一般的案件,y3表示簡單案件,即案情簡單,事實條理清楚的案件。
Fig.2 Framework of MAT-TAN圖2 MAT-TAN 模型結(jié)構(gòu)圖
本文的目標(biāo)是訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型MAT-TAN,對于受理的任意案件Xnew,自動預(yù)測案件審判難度ynew。
本文通過對起訴狀的研究,結(jié)合案件難易審判要素,提出一種基于掩碼注意力拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)的審判難度預(yù)測模型(MAT-TAN),如圖2 所示,此模型由案情編碼模塊、掩碼注意力網(wǎng)絡(luò)和拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)三部分組成。其中,案情編碼模塊通過對原始案情描述序列編碼,初步實現(xiàn)案情文本特征提取的功能;掩碼注意力網(wǎng)絡(luò)通過掩碼機(jī)制和注意力機(jī)制,聚焦審判要素結(jié)構(gòu)特征,實現(xiàn)對案情描述文本特征的細(xì)粒度分析;拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò),通過充分考慮起訴狀中各審判要素間的拓?fù)潢P(guān)系,關(guān)聯(lián)融合不同要素及其依賴特征,實現(xiàn)案件審判難度預(yù)測。
為初步提取案情描述文本特征,本文選擇GRU網(wǎng)絡(luò)[6]作為案情編碼器。在時刻t∈[1,n],對于給定的輸入xt,GRU 的隱藏層輸出為ht,其計算過程如下所示:
其中,rt、zt分別代表重置門和更新門的輸出結(jié)果,⊙表示對應(yīng)元素相乘操作,σ是sigmoid 激活函數(shù),W、U和b為連接兩個時刻的權(quán)重矩陣和偏置向量。
對所有案情描述序列X=[x1,x2,…,xn]進(jìn)行分析,得到案情文本初始特征向量F={h1,h2,…,hn}。
起訴狀是半結(jié)構(gòu)化文本,其案情描述內(nèi)容包含原告、被告、訴訟請求和事實理由,每個審判要素側(cè)重內(nèi)容不同且對應(yīng)位置不同。不同審判要素的細(xì)節(jié)將深刻影響案件難易程度,如原告數(shù)量、被告數(shù)量、訴訟請求中標(biāo)的大小等對預(yù)測案件難易程度起決定性作用。
在獲得初始特征向量的基礎(chǔ)上,為實現(xiàn)對各審判要素的細(xì)粒度分析,本文提出一種掩碼注意力網(wǎng)絡(luò)(MAT),如圖3 所示。其中的掩碼機(jī)制扮演了一個智能門控者的角色,起到了聚焦審判要素特定位置的作用,結(jié)合注意力機(jī)制,實現(xiàn)了各審判要素全面、準(zhǔn)確的特征提取。
Fig.3 Framework of MAT圖3 MAT 結(jié)構(gòu)圖
3.2.1 掩碼機(jī)制
在獲得初始特征向量F的基礎(chǔ)上,為了更好地聚焦每個審判要素對應(yīng)案情描述的位置結(jié)構(gòu)特征,本文定義了一組可訓(xùn)練的掩碼序列集masks,masks=[m1,m2,…,me]∈Re×n,其中e是審判要素的數(shù)量,n是起訴狀內(nèi)案情描述的長度。
對于任意審判要素k,如圖3 所示,利用一個可訓(xùn)練的掩碼序列作為其案情描述的位置捕獲器,實現(xiàn)聚焦審判要素特定位置的作用。詳細(xì)分析如下。
首先,初始化可訓(xùn)練掩碼序列mk,聚焦要素特定位置。
其中,β∈{0,1},β=1 表示位置z與要素k對應(yīng)關(guān)系成立。
將案情文本初始特征向量F與mk對應(yīng)元素相乘,實現(xiàn)聚焦審判要素特定位置特征的作用。
其中,為要素k的掩碼輸出向量。
3.2.2 自注意力機(jī)制
在獲得要素k的掩碼輸出向量的基礎(chǔ)上,本文結(jié)合自注意力機(jī)制[10],提取對要素k有重要意義的信息。如圖3 所示,將線性變換,得到Qk、Kk、Vk三個矩陣。具體地:
圖1 中,“原告、被告”是“訴訟請求、事實理由”的訴訟主體,它們之間存在著嚴(yán)格的關(guān)聯(lián)依賴關(guān)系,這些關(guān)系作為審判要素的補(bǔ)充信息,對案件審判難度的準(zhǔn)確預(yù)測具有重要意義。
在獲得各要素掩碼注意力輸出向量的基礎(chǔ)上,為正確識別并有效融合各審判要素間的司法邏輯依賴,本文提出一種拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)(TAN),如圖4 所示,通過建模各審判要素間的依賴關(guān)系并融合各審判要素的編碼特征,實現(xiàn)案件審判難度預(yù)測。
Fig.4 Framework of TAN圖4 TAN 結(jié)構(gòu)圖
3.3.1 拓?fù)潢P(guān)系建模
為得到各審判要素間的拓?fù)湟蕾囮P(guān)系,假設(shè)各審判要素間的依賴關(guān)系形成一個有向無環(huán)圖,用Ei→Ej定義要素j依賴于要素i,用Dj={Ei|Ei→Ej}定義依賴集合。具體地:
其中,j=1,2,3,4 時,Dj分別為“原告、被告、訴訟請求、事實理由”四大審判要素間的依賴情況。
3.3.2 特征融合
在獲得要素k掩碼注意力輸出向量Hk的基礎(chǔ)上,為綜合考慮此要素及其依賴關(guān)系,本文遵循拓?fù)漤樞颍瑢k及其依賴要素編碼向量進(jìn)行拼接,并利用卷積等非線性組合操作對其建模,實現(xiàn)特征充分融合。具體計算公式如下:
其中,INk為要素融合輸入向量,concat代表拼接操作,F(xiàn)(·)代表非線性組合函數(shù),Ck為要素k的特征融合輸出向量。
進(jìn)一步地,定義F(·)為批量歸一化(batch normalization,BN)[15]和卷積操作(convolution,conv)[4]連續(xù)執(zhí)行的組合函數(shù),則F(·)可表示為:
3.3.3 審判難度預(yù)測
在對各審判要素處理完畢之后,本文拼接所有審判要素的特征融合輸出向量,其次利用非線性組合函數(shù)F(·),獲得拓?fù)潢P(guān)聯(lián)輸出向量。
最后,TAN 網(wǎng)絡(luò)利用非線性分類器softmax 得到審判難度預(yù)測向量,實現(xiàn)案件審判難度預(yù)測。
實驗數(shù)據(jù)來自某法院實際審判數(shù)據(jù),共涉及41 060 條民事案件起訴狀(civil complaints,CLCT)。案件審判難度標(biāo)注時,綜合考慮不同專家的判斷結(jié)果,保證每個案件的標(biāo)注由三位專家預(yù)測結(jié)果綜合判定,從而解決不同專家下,相同案件審判難度判斷結(jié)果偏差大的問題。其中,訓(xùn)練集占80%,驗證集占10%,測試集占10%。實驗數(shù)據(jù)集如表1 所示。
Table 1 CLCT statistics表1 CLCT 數(shù)據(jù)集說明 條
本文設(shè)計了6 組對比實驗,使用了不同的文本分類模型作為基準(zhǔn),分別為傳統(tǒng)機(jī)器學(xué)習(xí)中的Naive Bayes[16]、SVM(support vector machine)[17]和深度學(xué)習(xí)中的GRU[6]、TEXT-CNN[4]、HAN[9]和BERT[11]。
具體實驗中,本文采用Adam 算法[18]作為優(yōu)化器,設(shè)置學(xué)習(xí)率為0.001,Dropout 比例[19]為0.5,批處理大小為64。所采用的評價指標(biāo)包括平均準(zhǔn)確率(averaged accuracy,Acc)、宏平均精度(macro averaged precision,MP)、宏平均召回率(macro averaged recall,MR)和宏平均F1 值(macro averagedF1,F1)。
在相同的實驗數(shù)據(jù)集、實驗設(shè)置和評估指標(biāo)下,模型對比實驗結(jié)果如表2 所示。
由實驗結(jié)果得知,針對案件審判難度預(yù)測任務(wù),深度學(xué)習(xí)模型的效果整體上優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,這表明深度學(xué)習(xí)模型能更好地提取傳統(tǒng)機(jī)器學(xué)習(xí)算法提取不到的文本信息。與基準(zhǔn)模型相比,本文提出的MAT-TAN 模型在四種評價指標(biāo)上分別提高0.032、0.037、0.009、0.036,這表明本文的模型更加適用于審判難度預(yù)測任務(wù)。
Table 2 Comparison result of models表2 模型對比結(jié)果 %
其原因在于,MAT-TAN 模型能夠充分考慮起訴狀中審判要素間的結(jié)構(gòu)獨特性和邏輯依賴性,更好地獲取基準(zhǔn)模型學(xué)習(xí)不到的文本細(xì)粒度結(jié)構(gòu)信息和語義信息,這些信息在審判難度預(yù)測任務(wù)中是極其重要的;此外,MAT-TAN 模型通過細(xì)粒度分析不同審判要素特征并融合其拓?fù)潢P(guān)系,使獲得的特征更加全面、具體,進(jìn)而有利于案件審判難度的預(yù)測。
為了進(jìn)一步說明考慮不同要素及其拓?fù)潢P(guān)系的意義,本文對MAT-TAN 模型進(jìn)行消融實驗。為了驗證掩碼注意力網(wǎng)絡(luò)MAT 的有效性,本文構(gòu)建了一個去除掩碼注意力網(wǎng)絡(luò)的模型(表3 中的“-no MAT”),它直接在案情文本初始特征向量F上應(yīng)用TAN 來獲取最終向量表示C。為了驗證拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)TAN 的有效性,建立了一個無關(guān)聯(lián)網(wǎng)絡(luò)的模型(表3 中的“-no TAN”),它直接拼接每個要素的特征向量作為最終向量表示C。消融實驗結(jié)果如表3 所示。
Table 3 Ablation experiment analysis表3 消融實驗分析 %
從表3 可以看出,MAT 和TAN 都有效地提高了案件審判難度預(yù)測任務(wù)的性能,這充分表明MAT 網(wǎng)絡(luò)和TAN 網(wǎng)絡(luò)對提高案件審判難度預(yù)測任務(wù)的準(zhǔn)確率是極其重要的。
消融實驗下,僅考慮MAT 網(wǎng)絡(luò)能夠?qū)崿F(xiàn)細(xì)粒度聚焦不同審判要素特征的目的,而僅考慮TAN 網(wǎng)絡(luò),丟失了不同要素特征提取的過程,無法編碼不同審判要素間的拓?fù)湟蕾?,故其實驗結(jié)果低于前者。這充分說明了細(xì)粒度分析不同審判要素特征,融合不同審判要素間拓?fù)潢P(guān)系的重要性。
接著,本文將語料庫進(jìn)一步劃分,以測試模型在不同訓(xùn)練樣本數(shù)量下的效果。
從圖5、圖6 可以看出,與基準(zhǔn)模型中效果較好的HAN 和TEXT-CNN相比,本文提出的MAT-TAN 模型在不同數(shù)量的訓(xùn)練集下均能取得較好的效果。證明MAT-TAN 能夠從訓(xùn)練樣本中挖掘更多隱含信息,具有很強(qiáng)的魯棒性。
Fig.5 F1 of models under different training samples圖5 不同訓(xùn)練樣本數(shù)量下模型的平均F1 值
Fig.6 Acc of models under different training samples圖6 不同訓(xùn)練樣本數(shù)量下模型的平均準(zhǔn)確率
最后,本文對MAT-TAN 模型的性能進(jìn)行了評估,以進(jìn)一步探討其優(yōu)劣。
從圖7 可以看出,與基準(zhǔn)深度學(xué)習(xí)模型相比,MAT-TAN 模型雖然準(zhǔn)確率高,但是訓(xùn)練耗時較長,僅次于BERT。然而,MAT-TAN 模型測試單批數(shù)據(jù)(批處理大小為64)所需時間為0.45 s,與基準(zhǔn)模型相差不大,這意味著MAT-TAN 模型在實際使用過程中,預(yù)測效率不會產(chǎn)生過多影響。
以上實驗結(jié)果有力地證明了MAT-TAN 模型在解決審判難度預(yù)測問題上的使用價值和可行性。
Fig.7 Performance evaluation of experiment圖7 實驗性能評估
本文首次將神經(jīng)網(wǎng)絡(luò)引入案件審判難度預(yù)測任務(wù),結(jié)合案件繁簡判別要素,提出了一種新型的基于掩碼注意力拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)的審判難度預(yù)測模型(MAT-TAN)。
具體地,該模型首先采用一種掩碼注意力網(wǎng)絡(luò)(MAT)聚焦審判要素,實現(xiàn)對案情描述文本的細(xì)粒度分析。其中的掩碼機(jī)制扮演智能門控者的角色,起到聚焦審判要素特定位置的作用,結(jié)合自注意力機(jī)制,實現(xiàn)了對各審判要素全面、準(zhǔn)確的特征提取。其次,提出一種拓?fù)潢P(guān)聯(lián)網(wǎng)絡(luò)(TAN)對要素間的司法邏輯依賴關(guān)系進(jìn)行建模,并有效地融合不同要素的特征,最終實現(xiàn)案件審判難度的預(yù)測。在真實數(shù)據(jù)集上的實驗結(jié)果表明,本文的模型相對基準(zhǔn)的文本分類方法,宏平均F1 值提高0.03 以上,在審判難度預(yù)測任務(wù)上具備較好的使用效果。
在未來的工作中,將研究基于本文模型的遷移學(xué)習(xí),以適用不同法院案件審判難度預(yù)測任務(wù)。此外,將致力于數(shù)據(jù)脫敏工作,去除法院實際案件的敏感信息,補(bǔ)充相關(guān)手續(xù)流程,公開脫敏后的數(shù)據(jù)集,以供后續(xù)對比研究。