馬志柔,馬新宇,2,劉 杰,葉 丹
1(中國科學(xué)院 軟件研究所 軟件工程技術(shù)研究開發(fā)中心,北京 100190)
2(中國科學(xué)院大學(xué),北京 100049)
隨著知識(shí)經(jīng)濟(jì)的迅猛發(fā)展和民主法制建設(shè)的不斷完善,人民法院維護(hù)社會(huì)穩(wěn)定的職能和任務(wù)不斷增多和加重,各級(jí)法院在完成繁重審判任務(wù)的同時(shí),還需更好地解決審判質(zhì)量問題.在法院立案-審判-執(zhí)行全流程階段,多起案件中存在當(dāng)事人或者案件事實(shí)相同的情況,即“一人多案”的處理情況,比如一人起訴多案或被訴多案、相同當(dāng)事人之間的多起類似案件等[1].對(duì)此類案件合并處理有利于此類案件的快速解決,不僅能夠有效提升司法機(jī)關(guān)的工作效率、減少司法資源的無端消耗、優(yōu)化社會(huì)資源的合理使用,而且在面臨問題時(shí)可以從相同的案件類型中獲取一個(gè)可靠的參照.同樣也有利于當(dāng)事人相關(guān)問題的解決,從社會(huì)與公民個(gè)人兩個(gè)層面實(shí)現(xiàn)經(jīng)濟(jì)利益的最大化.
為了提高司法人員在案件處理環(huán)節(jié)的效率,本文提出了一種基于深度學(xué)習(xí)的“一人多案”智能風(fēng)險(xiǎn)預(yù)警系統(tǒng),利用深度學(xué)習(xí)與自然語言處理技術(shù)對(duì)法律文書進(jìn)行案由識(shí)別預(yù)測和相似度量匹配,并與法律業(yè)務(wù)規(guī)則相結(jié)合,解決當(dāng)前信息化系統(tǒng)無法有效分辨“一人多案”的技術(shù)難題,實(shí)現(xiàn)法院立案-審判-執(zhí)行全流程階段的“一人多案”的關(guān)聯(lián)識(shí)別,為跨區(qū)域跨層級(jí)的司法資源統(tǒng)籌提供技術(shù)支持,為法院公正、高效地審理和執(zhí)行案件提供保障.
我國法院信息化水平在世界處于領(lǐng)先水平,近年來我國法院信息化領(lǐng)域建成了全面覆蓋各級(jí)人民法院和法庭的網(wǎng)絡(luò)設(shè)施、業(yè)務(wù)應(yīng)用、數(shù)據(jù)管理和安全保障體系,極大地提升了審判執(zhí)行、司法為民和司法管理質(zhì)效.但在法院內(nèi)部協(xié)同智能水平相對(duì)薄弱,尤其訴訟服務(wù)中“一人多案”方面的信息融合共享和服務(wù)高效協(xié)同需要亟待提升.從法學(xué)的角度,“一人多案”的理論日趨完備,依據(jù)訴訟法對(duì)重復(fù)起訴識(shí)別的不同學(xué)說進(jìn)行分析評(píng)述,給出了民事重復(fù)起訴的識(shí)別要素、判別規(guī)則及處置方法的法律釋明[1,2].重復(fù)起訴的判斷要素包括當(dāng)事人、案由和訴訟請(qǐng)求,關(guān)鍵要判斷是否是同一當(dāng)事人基于同一法律關(guān)系、同一法律事實(shí)提出的同一訴訟請(qǐng)求[3].
當(dāng)前深度學(xué)習(xí)技術(shù)日趨成熟,其端到端的學(xué)習(xí)避免了繁重的特征工程和自然語言處理工具帶來的錯(cuò)誤傳播問題,在文本處理任務(wù)中取得了顯著的成功,達(dá)到了遠(yuǎn)超傳統(tǒng)方法的性能[4,5].在文本特征表示方面,Mikolov等提出了通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量的方法Word2Vec[6];之后Joulin 等基于詞向量提出了一種高效的文本分類和表征學(xué)習(xí)的方法fastText[7],使用n-gram 模型可以更有效的表達(dá)詞前后的之間的關(guān)系;而BERT[8]預(yù)訓(xùn)練模型的提出將文本特征表示推向頂峰.在文本分類匹配方面,Kim 提出了TextCNN 方法[9]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類任務(wù),該網(wǎng)絡(luò)通過一維卷積核捕獲句子中類似n-gram 的關(guān)鍵信息;Liu 等的工作提出了將RNN 用于分類問題的網(wǎng)絡(luò)設(shè)計(jì)[10],考慮文本的時(shí)序特征;之后涌現(xiàn)一些網(wǎng)絡(luò)變體LSTM、RCNN,以及引入attention[11]機(jī)制的網(wǎng)絡(luò)模型.
近些年來,隨著以裁判文書為代表的司法大數(shù)據(jù)不斷公開,以及自然語言處理技術(shù)的不斷突破,如何將人工智能技術(shù)應(yīng)用在司法領(lǐng)域來提高司法人員在案件處理環(huán)節(jié)的效率逐漸成為法律科技研究的熱點(diǎn),一些學(xué)者已經(jīng)在研究與深度學(xué)習(xí)相關(guān)的法律文本處理技術(shù).Luo 等[12]提出了一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)方法,在罪名預(yù)測任務(wù)中融入法條信息,使罪名預(yù)測更具有合理性,有助于提高法律助理系統(tǒng)效率.Hu 等[13]提出一個(gè)屬性-注意力罪名預(yù)測模型,根據(jù)法律屬性把罪名分類,通過人工將相關(guān)罪名屬性信息進(jìn)行標(biāo)記,顯著提升低頻罪名與易混淆罪名的預(yù)測精度.Zhong 等[14]利用有向無環(huán)拓?fù)鋱D來建模多任務(wù)之間的邏輯依賴關(guān)系,將法條、罪名與刑期之間的依賴關(guān)系融合到統(tǒng)一的司法判決框架中,所有任務(wù)的效果在多個(gè)數(shù)據(jù)集上取得了一致和顯著的提升.
在“一人多案”的關(guān)聯(lián)識(shí)別時(shí),其關(guān)鍵技術(shù)是如何判別兩個(gè)案件是否同一個(gè)案由和兩個(gè)案件的訴訟請(qǐng)求是否相似,以起訴狀文本語義理解為核心,利用自然語言處理技術(shù)與機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)起訴書中的當(dāng)事人、案由、訴訟請(qǐng)求等關(guān)鍵信息進(jìn)行智能識(shí)別與語義理解.通常起訴狀文本的內(nèi)容格式如圖1所示,包含原告、被告、訴訟請(qǐng)求、事實(shí)與理由4 部分信息.
圖1 起訴狀文本內(nèi)容
案由識(shí)別是指通過訴訟文書中的事實(shí)與理由描述文本來認(rèn)定民事起訴狀的法律糾紛,比如民間借貸糾紛、房屋買賣合同糾紛、物業(yè)服務(wù)合同糾紛等.將此類問題看作是分類問題,深度學(xué)習(xí)方法自動(dòng)抽取文本特征,可端到端地解決文本分類問題.但在案由識(shí)別任務(wù)中,訴訟事實(shí)和理由的文本長度在400~600 字左右,面臨文本過長難以分析的問題.單一的網(wǎng)絡(luò)結(jié)構(gòu)造成了語義匹配的不完善,CNN 網(wǎng)絡(luò)無法很好獲取問題的全局信息,而RNN 網(wǎng)絡(luò)存在無法并行和梯度消失的問題,訓(xùn)練速度不佳.本系統(tǒng)提出一種多粒度融合模型,能夠結(jié)合CNN 和RNN 各自的優(yōu)勢,利用CNN 處理語法層面的局部匹配信息,抽取不同位置上的特征,處理與空間相關(guān)的數(shù)據(jù);利用RNN 對(duì)句子整體進(jìn)行編碼,提取到語義層面的匹配信息,處理語句中的前后序列信息.該模型結(jié)構(gòu)如圖2所示,模型中CNN 采用TextCNN 來實(shí)現(xiàn),RNN 采用Bi-LSTM 來實(shí)現(xiàn).
圖2 案由識(shí)別算法模型結(jié)構(gòu)圖
(1)嵌入表示層,對(duì)法律文本進(jìn)行詞級(jí)別的特征表示.將法律文本中的每一個(gè)詞表示為一個(gè)固定維度的向量,其由詞向量(Word Embedding,WE)和位置向量(Position Embedding,PE)的拼接而成.其中,詞向量表示詞匯的語義特征,位置向量表示詞在文本中的位置信息與相對(duì)距離特征.所用的詞向量由提前使用Word2Vec 在中文維基百科語料預(yù)訓(xùn)練得到,訓(xùn)練過程中詞向量并不是固定的,會(huì)隨著模型的訓(xùn)練而更新.所用的位置向量由不同維度上使用不同的模型函數(shù)學(xué)習(xí)得到,這樣高維的表示空間才有意義.在偶數(shù)位置使用式(1)計(jì)算位置編碼,在奇數(shù)位置使用式(2)計(jì)算位置編碼.位置向量為隨機(jī)初始化,并通過模型訓(xùn)練得到最終的參數(shù)值.
(2)特征抽取層,對(duì)法律文本進(jìn)行文檔級(jí)別的特征表示.通過特征抽取器提取文檔的特征,包括句子結(jié)構(gòu)、句子語義、上下句子關(guān)系等.該部分由兩個(gè)子層組成,第一子層是TextCNN 網(wǎng)絡(luò)層,第二子層是Bi-LSTM網(wǎng)絡(luò)層.TextCNN 網(wǎng)絡(luò)層為句子特征抽取器,卷積核大小決定了網(wǎng)絡(luò)能夠提取的局部特征范圍,大尺寸的卷積核可以提取較長距離的特征,小尺寸的卷積核可以提取細(xì)粒度的特征,使用多個(gè)大小不同的卷積核,可抽取更長更復(fù)雜的句子特征.同樣,卷積核數(shù)量的提升可以使網(wǎng)絡(luò)從多角度進(jìn)行特征提取,但是計(jì)算量會(huì)隨之上升,網(wǎng)絡(luò)復(fù)雜度增加,容易導(dǎo)致過擬合.為了能夠從多角度、多范圍內(nèi)提取文本中包含的特征又不過分增加計(jì)算量,保證泛化能力,本文選用了大小分別為{2,3,5,7}的卷積核各128 個(gè).同時(shí)在每層的卷積后面加入了批量標(biāo)準(zhǔn)化層(batch normalization)和線性整流激活函數(shù)(ReLU),避免了梯度消失問題,加速模型訓(xùn)練的收斂速度與穩(wěn)定性.為了從文本序列中得到的句子表示,對(duì)每個(gè)卷積核的輸出使用了max-mean 池化,即將最大池化(max pooling)與平均池化(mean pooling)的結(jié)果拼接.其中,最大池化得到的句子表示包含了當(dāng)前文本序列的最大貢獻(xiàn),平均池化得到的句子表示包含了整個(gè)文本中每個(gè)詞的貢獻(xiàn).將所有卷積核的結(jié)果拼接得到法律文本中句子的表示向量.Bi-LSTM 網(wǎng)絡(luò)層為文檔特征抽取器,將得到的各個(gè)句子向量作為輸入.該層由兩個(gè)LSTM 網(wǎng)絡(luò)組合而成,一個(gè)向前傳播、一個(gè)向后傳播,可以有效地利用文本上下文語義信息,學(xué)習(xí)到句子之間的時(shí)序特征,從而得到法律文本的文檔級(jí)別特征表示向量.
(3)類別輸出層,通過法律文本的表示向量分類得到每個(gè)法律糾紛的概率大小.模型的輸出層由雙層的全連接網(wǎng)絡(luò)、Dropout 和Softmax 組成.其中雙層的網(wǎng)絡(luò)結(jié)構(gòu),提高了本層網(wǎng)絡(luò)的非線性表達(dá)能力,并將結(jié)果映射到每個(gè)相應(yīng)的類別.Dropout 有效緩解了網(wǎng)絡(luò)的過擬合問題,Softmax 歸一化得到每個(gè)法律糾紛的概率.
案件的特征量很多,很難通過具體的規(guī)則來判斷兩個(gè)案件是否相同或相似,需要研究案件相似度度量,由于近幾年深度學(xué)習(xí)在眾多領(lǐng)域獲得了突破性的成果,已經(jīng)有許多將深度學(xué)習(xí)和度量學(xué)習(xí)算法結(jié)合的嘗試,并且在許多數(shù)據(jù)集上得到了先進(jìn)的結(jié)果.本系統(tǒng)中提出了一種基于深度度量學(xué)習(xí)的案件相似匹配算法,將有監(jiān)督的距離度量學(xué)習(xí)的優(yōu)化目標(biāo)與深度學(xué)習(xí)強(qiáng)大的特征表示能力結(jié)合,從而更加準(zhǔn)確且符合法律語義地刻畫案件之間的相似性.
為了方便后續(xù)的描述,這里首先給出案件類型相關(guān)的定義:
定義1.同構(gòu)案件:記為,是與案件Di具有完全相同語義表述的案件樣本.
本系統(tǒng)提出的算法相比于傳統(tǒng)度量學(xué)習(xí)更好地進(jìn)行案件特征與算法模型的結(jié)合,更加適用于法律文本語義度量匹配的場景使用,如圖3所示其算法框架由3 部分組成.
圖3 案件相似度算法框架圖
(1)輸入層,首先將案件文本分詞,然后計(jì)算每個(gè)詞的詞向量與位置向量,最后將詞向量和位置向量拼接得到案件文本的分布式向量化表示.這里的案件文本的嵌入式表示方法可參見2.1 小節(jié)文本案由識(shí)別算法中的法律文本特征表示描述.每次輸入一個(gè)案件文本三元組案件文本之間的相似性滿足以下公式:
(2)表示層,對(duì)應(yīng)案件文本三元組輸入設(shè)置3 個(gè)網(wǎng)絡(luò),即圖3中的D網(wǎng)絡(luò)、D+網(wǎng)絡(luò)、D?網(wǎng)絡(luò),網(wǎng)絡(luò)之間共享參數(shù),該層的網(wǎng)絡(luò)作為非線性變換表示函數(shù)將案件的原始特征轉(zhuǎn)換為分布式表示(embedding)特征,即案件文本的特征抽取器.在案件相似匹配任務(wù)中,訴訟請(qǐng)求文本長度在50~100 字之間,上下文之間邏輯性較強(qiáng).為了高效學(xué)習(xí)文本表示,需要對(duì)特征抽取器進(jìn)行仔細(xì)選擇,常用的特征抽取器為LSTM 或CNN.LSTM雖然擅長對(duì)于序列建模,然而由于其本身的序列依賴結(jié)構(gòu)導(dǎo)致很難進(jìn)行并行計(jì)算,運(yùn)算效率低;CNN 的卷積核滑動(dòng)窗口位置之間則沒有依賴關(guān)系,可以并行計(jì)算,故其運(yùn)算效率高,但其缺點(diǎn)在于難以捕獲長距離特征,大小為k的卷積核只能覆蓋k-gram 片段的特征.Transformer 的核心思想是基于自注意力機(jī)制,不存在序列依賴問題,能夠通過并行計(jì)算提高運(yùn)算效率.在注意力計(jì)算中,通過每個(gè)詞與其他詞的交互解決了長距離依賴特征獲取問題;根據(jù)不同詞之間的相似度計(jì)算得到權(quán)重的方法,使得模型能夠捕獲特征內(nèi)部的相關(guān)性,結(jié)合多頭機(jī)制,從不同角度捕獲特征,增強(qiáng)了語義特征提取能力.故該層子網(wǎng)絡(luò)使用Transformer 網(wǎng)絡(luò)作為特征提取器代替LSTM 和CNN 的編碼方式,既能對(duì)句子整體進(jìn)行編碼,提取到語義層面的匹配信息;又能提取語法層面的局部匹配信息.針對(duì)法律訴訟請(qǐng)求文本設(shè)計(jì)一種基于多注意機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)由兩個(gè)子層組成,第一子層是multi-head 的自注意力結(jié)構(gòu),第二子層是position-wise 的全連接前饋網(wǎng)絡(luò).Multihead 的自注意力結(jié)構(gòu)從不同視角匹配計(jì)算案件序列各位置的權(quán)重,其中加法方法(additive attention)考慮了位置的匹配程度,乘法方法(multiplicative attention)能夠捕捉文本摘要信息,序列注意力方法(sequential attention)考慮了位置上下文的信息.對(duì)文本序列進(jìn)行多個(gè)不同的線性變換,然后通過自注意力機(jī)制學(xué)習(xí)不同子空間下文本的表示,最后將多個(gè)文本表示向量拼接起來作為輸出.Position-wise 的全連接前饋網(wǎng)絡(luò)由兩個(gè)線性變換組成,并且線性變換在不同位置上參數(shù)相同,類似于卷積核為1 的兩層CNN 網(wǎng)絡(luò).
(3)度量層,在embedding 空間上對(duì)案件向量計(jì)算距離來刻畫相似度,使用triplet loss[15]作為整體框架的優(yōu)化目標(biāo),最終通過該層得到案件特征在embedding空間上的表示,從而在訴訟請(qǐng)求的度量中得到應(yīng)用.
采用曼哈頓距離度量兩個(gè)案件之間的距離,即在歐幾里德空間的固定直角坐標(biāo)系上兩點(diǎn)所形成的線段對(duì)軸產(chǎn)生的投影的距離總和,其計(jì)算公式如下:
其中,x,y表示兩個(gè)不同案件的文檔向量,n表示文檔向量的維度,xk,yk表示文檔向量的第k個(gè)元素.
采用式(5)作為triplet loss 損失函數(shù),訓(xùn)練的目標(biāo)是讓相似案件在新的編碼空間里的距離盡可能小,讓不相似案件在新的編碼空間里的距離盡可能大,即大于其中d(x,y)表示兩個(gè)案件之間的距離,margin為閾值.在訓(xùn)練過程中對(duì)于某一個(gè)案件,將同構(gòu)鄰居拉近,將異構(gòu)鄰居推遠(yuǎn),從而學(xué)習(xí)出一個(gè)間隔.
為了解決“一人多案”的處理問題,本文設(shè)計(jì)一套基于深度學(xué)習(xí)的“一人多案”風(fēng)險(xiǎn)預(yù)警系統(tǒng).本系統(tǒng)實(shí)現(xiàn)采用的程序開發(fā)語言為Python、深度學(xué)習(xí)框架為Tensorflow、Web 服務(wù)框架為Flask.整個(gè)系統(tǒng)的組織架構(gòu)如圖4所示,分為線下訓(xùn)練模塊和線上預(yù)警模塊兩部分.
圖4 “一人多案”風(fēng)險(xiǎn)預(yù)警系統(tǒng)架構(gòu)圖
為了不破壞原有業(yè)務(wù)系統(tǒng)的結(jié)構(gòu),系統(tǒng)通過RESTful API 的方式提供用戶與現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)交互與分析功能,包括立案階段風(fēng)險(xiǎn)判別、審理階段風(fēng)險(xiǎn)判別、執(zhí)行階段風(fēng)險(xiǎn)判別、按當(dāng)事人查詢案件、按律師查詢案件、按財(cái)產(chǎn)查詢案件等.也提供若干API 供系統(tǒng)二次開發(fā)使用,包括文本案由識(shí)別、文本相似度量等.
該模塊通過構(gòu)造法律文本標(biāo)注語料,利用2.1 節(jié)文本案由識(shí)別算法和2.2 節(jié)文本相似度量算法,訓(xùn)練得到案由識(shí)別模型和相似度量模型,為線上預(yù)警模塊提供算法模型支持.
3.1.1 案由識(shí)別模型
數(shù)據(jù)語料庫構(gòu)建:從中國裁判文書網(wǎng)抓取民事案件文書10 萬篇,涉及判決書、裁定書、決定書、調(diào)解書4 類文書,其中裁定書、決定書、調(diào)解書這3 類文書中沒有案情描述,無法預(yù)測文書案由,不能作為訓(xùn)練模型的數(shù)據(jù)集.經(jīng)篩選后,取83 979 篇民事判決書作為案由識(shí)別模型的數(shù)據(jù)語料庫,按照18:1:1 的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,總共涉及78 類案由,涵蓋了常用的民事糾紛.
模型驗(yàn)證與分析:采用準(zhǔn)確率來評(píng)價(jià),取top1、top3、top5 三種情況計(jì)算,分別代表分類概率最高的前1 名、前3 名、前5 名中類別包含正確的類別,其在測試集上的準(zhǔn)確率分別為97.18%、99.45%、99.59%.經(jīng)驗(yàn)證分析,民事案由識(shí)別效果滿足需求.而預(yù)測錯(cuò)誤的糾紛類型有兩種,一種是樣本數(shù)量太少(沒超過5 篇),一種是語義混淆(比如侵害發(fā)明專利權(quán)糾紛與侵害外觀設(shè)計(jì)專利權(quán)糾紛),可以通過增加語料改進(jìn).
3.1.2 相似度量模型
數(shù)據(jù)語料庫構(gòu)建:從上文中的民事判決書數(shù)據(jù)集中提取消費(fèi)者權(quán)益保護(hù)糾紛類文書2000 篇,兩兩對(duì)比文書訴訟請(qǐng)求描述的語義,構(gòu)造三元組對(duì)數(shù)據(jù)集8000個(gè),按照8:1:1 的比例劃分訓(xùn)練集、驗(yàn)證集和測試集.其中每份數(shù)據(jù)由3 篇法律文書組成,以三元組集合形式存儲(chǔ),對(duì)于每份數(shù)據(jù)用(d0,d1,d2)來代表該組數(shù)據(jù),約定文書d0和文書d1的相似度比文書d0和文書d2的相似度高,即sim(d0,d1)>sim(d0,d2),不符合的需要調(diào)整d1和d2的順序.
模型訓(xùn)練及驗(yàn)證:采用準(zhǔn)確率來衡量模型的好壞.對(duì)于測試數(shù)據(jù)集,打亂(d0,d1,d2)的順序,不再保證sim(d0,d1)>sim(d0,d2).模型需要預(yù)測最終的結(jié)果是sim(d0,d1)>sim(d0,d2)還是sim(d0,d1)<sim(d0,d2).如果預(yù)測正確,那么該測試點(diǎn)可以得到1 分,否則是0 分.實(shí)驗(yàn)對(duì)比了傳統(tǒng)度量學(xué)習(xí)方法與深度度量學(xué)習(xí)方法,在傳統(tǒng)度量學(xué)習(xí)方法中用TF-IDF 算法的準(zhǔn)確率為53.76%;而在深度度量學(xué)習(xí)方法中的準(zhǔn)確率為70.76%.經(jīng)對(duì)比分析,該模型方法比傳統(tǒng)方法提高了將近17 個(gè)百分點(diǎn),可以對(duì)法律文本進(jìn)行細(xì)粒度的相似度量,滿足訴訟請(qǐng)求相似判斷的需求.
該模塊實(shí)現(xiàn)了“一人多案”的關(guān)聯(lián)識(shí)別和風(fēng)險(xiǎn)預(yù)警,輸入一個(gè)起訴狀文本,首先通過案件要素識(shí)別模型得到案件要素信息,然后利用案由識(shí)別模型和相似度量模型對(duì)案件要素信息進(jìn)行相似預(yù)測,最后到風(fēng)險(xiǎn)預(yù)警判別模型中判斷該案件是否屬于“一人多案”,并給出風(fēng)險(xiǎn)預(yù)警報(bào)告和協(xié)同處置方案.該系統(tǒng)主要包括案件要素識(shí)別模塊、案由識(shí)別模塊、相似度量模塊和風(fēng)險(xiǎn)預(yù)警模塊,其中案由識(shí)別模塊和相似度量模塊見上文,這里不再贅述.
3.2.1 案件要素識(shí)別模塊
案件要素識(shí)別模塊是該系統(tǒng)的基礎(chǔ)模塊,主要是對(duì)起訴狀文本進(jìn)行分析,利用機(jī)器學(xué)習(xí)和自然語言處理技術(shù)得到案件要素信息,包括當(dāng)事人信息、訴訟請(qǐng)求、事實(shí)與理由.其過程分兩步:
⑴ 基本信息識(shí)別.起訴狀文本的內(nèi)容格式如圖1所示,其文字描述帶有一定的格式.通過“原告”、“被告”、“訴訟請(qǐng)求”、“起訴請(qǐng)求”、“事實(shí)”、“理由”等關(guān)鍵詞,將文本拆分為當(dāng)事人文本信息、訴訟請(qǐng)求文本信息、事實(shí)與理由文本信息3 部分.
⑵ 當(dāng)事人信息識(shí)別.當(dāng)事人信息包括原告和被告,其有可能是自然人、也可能是企業(yè).文本格式如下“某某,男,xxxx年xx月xx日出生,某族,住xxx 省xxx市”或“被告:某某有限公司,住xxx 省xxx 市”.利用正則表達(dá)式建立模式匹配,從中提取當(dāng)事人的人名、地名、機(jī)構(gòu)名;以及自然人的性別、民族、出生日期.
3.2.2 風(fēng)險(xiǎn)預(yù)警判別模塊
風(fēng)險(xiǎn)預(yù)警判別模塊是該系統(tǒng)的核心模塊,主要是將當(dāng)事人信息構(gòu)造成查詢語句,從法律業(yè)務(wù)系統(tǒng)中得到候選案件集合進(jìn)行判別,給出具有“一人多案”風(fēng)險(xiǎn)的處置建議.其過程分兩步:
(1)獲取候選案件集合.調(diào)用待關(guān)聯(lián)的法律業(yè)務(wù)系統(tǒng)API 查詢構(gòu)建候選案件集合,比如法院立案系統(tǒng)、執(zhí)行辦案系統(tǒng)等.查詢語句由當(dāng)事人信息(自然人、法人、其他組織)的姓名、性別、住址以及企業(yè)名稱等構(gòu)成,執(zhí)行查詢語句從系統(tǒng)中檢索出原告和被告符合當(dāng)事人信息條件的案件,案件文本包含案號(hào)、當(dāng)事人、代理律師、審理法院、案由、訴訟請(qǐng)求等文本信息,形成候選案件集合以待進(jìn)一步分析.
(2)“一人多案”判別分析.調(diào)用案由識(shí)別模型和相似度量模型進(jìn)行“一人多案”判別,并給出風(fēng)險(xiǎn)預(yù)警報(bào)告.
為了方便后續(xù)的描述,這里給出“一人多案”相關(guān)概念及判定規(guī)則:
定義3.“一人多案”:“一人多案”情況主要是指重復(fù)立案,重復(fù)立案與重復(fù)起訴有關(guān),重復(fù)起訴是指當(dāng)事人就已經(jīng)提起訴訟的事項(xiàng)在訴訟過程中或者裁判生效后再次起訴.特別針對(duì)相同當(dāng)事人、同一訴案由、同一法律關(guān)系以及主要訴訟請(qǐng)求相同.按照當(dāng)事人之間的糾紛類型不同,“一人多案”的判定規(guī)則可分為3 種情況,見表1.
表1 “一人多案”判定規(guī)則
根據(jù)“一人多案”的判定規(guī)則,將新起訴狀和候選案件集進(jìn)行各個(gè)案件要素的相似判定,返回該案件是否存在“一人多案”,具體流程如圖5所示.
圖5 “一人多案”判定流程圖
(1)判斷當(dāng)事人是否相同:如果存在身份證號(hào)或統(tǒng)一社會(huì)信用代碼,則可以直接判斷是否同一人.如果沒有身份證號(hào)或統(tǒng)一社會(huì)信用代碼,則先根據(jù)姓名、性別、出生日期、企業(yè)名稱等結(jié)構(gòu)化信息進(jìn)行判斷是否是同一個(gè)人;然后將地址信息拆分成省、市、區(qū)縣、鄉(xiāng)鎮(zhèn)、村5 級(jí)行政區(qū)劃,作為輔助信息進(jìn)一步排查同名同姓的人,如果兩個(gè)地址在同一區(qū)縣或經(jīng)緯度距離小于25 公里,則可以認(rèn)為是同一個(gè)人.
(2)判斷案由是否相同:將獲取到的新起訴狀中的事實(shí)和理由文本輸入到文本案由識(shí)別算法模型中,得到一個(gè)案由,并和候選案件集合中的案件案由對(duì)比,判斷是否有相同案由的案件.根據(jù)案由的級(jí)別,案由相同又可分為案由強(qiáng)相同和案由弱相同.比如“人格權(quán)糾紛”的子案由包含“姓名權(quán)糾紛”、“肖像權(quán)糾紛”、“名譽(yù)權(quán)糾紛”等.如果兩個(gè)案由同為“姓名權(quán)糾紛”,則屬于案由強(qiáng)相同;如果一個(gè)案由為“肖像權(quán)糾紛”,一個(gè)案由為“名譽(yù)權(quán)糾紛”,兩個(gè)案由同屬“人格權(quán)糾紛”的子案由,則屬于案由弱相同.
(3)判斷訴求請(qǐng)求是否相同:調(diào)用案件相似度量模塊得到新起訴狀與候選案件的訴訟請(qǐng)求的特征向量表示,通過計(jì)算曼哈頓距離來判定兩者之間是否相似.這里不僅要判斷一個(gè)案件與其他案件是否相似,還要計(jì)算一個(gè)案件與其他案件的相似度值是多少,能夠按照相似度值大小排序,并設(shè)定閾值篩選出相似案件.
(4)建立“一人多案”關(guān)聯(lián)預(yù)警:通過對(duì)新起訴狀和候選案件集之間的案件要素進(jìn)行相似認(rèn)定,判定是否同一當(dāng)事人認(rèn)定、是否同一案由認(rèn)定、是否同一訴訟請(qǐng)求認(rèn)定,利用“一人多案”判定規(guī)則建立以當(dāng)事人為中心的案件之間的關(guān)聯(lián),根據(jù)要素相似性的高低,設(shè)立高、中、低不同級(jí)別的風(fēng)險(xiǎn)等級(jí),針對(duì)不同情況給出不同的風(fēng)險(xiǎn)提示和處置建議.
本文介紹了基于深度學(xué)習(xí)的“一人多案”風(fēng)險(xiǎn)預(yù)警系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).該系統(tǒng)充分利用現(xiàn)有的司法大數(shù)據(jù)資源,采用深度學(xué)習(xí)和自然語言處理技術(shù)對(duì)裁判文書文本挖掘分析,設(shè)計(jì)了文本案由識(shí)別和文本相似度量算法,解決了法律長文本的分類和細(xì)粒度度量問題,實(shí)現(xiàn)了“一人多案”的關(guān)聯(lián)識(shí)別和風(fēng)險(xiǎn)預(yù)警,幫助法院合理分配案件審理、法官識(shí)別立案風(fēng)險(xiǎn),具有重要的應(yīng)用價(jià)值.在接下來的工作中,將研究如何運(yùn)用法律知識(shí),設(shè)計(jì)深度學(xué)習(xí)與知識(shí)圖譜相結(jié)合的方法,對(duì)法律文本進(jìn)行深入挖掘分析.此外,文本預(yù)訓(xùn)練模型的司法應(yīng)用也是一個(gè)有價(jià)值的研究方向.