趙晉斌, 王 凱, 李 盼
(1. 中國人民解放軍61646部隊(duì), 北京 100191;2. 中經(jīng)柏誠科技(北京)有限責(zé)任公司, 北京 100000;3. 中國司法大數(shù)據(jù)研究院有限公司,北京 100043)
新時(shí)期,人民群眾對(duì)法制的認(rèn)識(shí)大大提高,對(duì)司法部門要求具有多樣性。對(duì)知識(shí)的全面性、溝通的距離感和互動(dòng)的時(shí)效性提出了新的要求。為公眾提供便捷的訴訟服務(wù)是“智慧法院”建設(shè)的核心,是“公平司法”的邏輯起點(diǎn),是“司法為民”的重要窗口。因此,推進(jìn)便民惠民能力智能化,是司法系統(tǒng)智能化、人民檢察院司法部門智能化的主要要求。
此外,隨著社會(huì)發(fā)展和法制建設(shè)的發(fā)展人民法庭審理的案件在緩慢逐增,但是“多案少案”的差異日益突出,傳統(tǒng)的案件審理方式早已不能適應(yīng)當(dāng)今社會(huì)的要求。人工智能技術(shù)、互聯(lián)網(wǎng)大數(shù)據(jù)等技術(shù)應(yīng)用的發(fā)展,使人民法院能夠以高縱橫比信息化管理的形式,為司法審判、訴訟服務(wù)和司法部門提供支持和幫助[1]。現(xiàn)階段,自然語言理解解決方案[2]、知識(shí)圖譜[3]等AI人工智能技術(shù)[4]應(yīng)用的發(fā)展,為證據(jù)鏈的自動(dòng)邏輯推理提供了突破口[5]。從各種司法證據(jù)來源和證據(jù)性質(zhì)出發(fā)[6],形成一個(gè)可信的證據(jù)鏈,能夠有效地減少司法工作人員的任務(wù)量,進(jìn)一步提高辦案效率,同時(shí)基于數(shù)據(jù)分析得出的可信證據(jù)鏈條也避免了司法人員在案件審理過程中的情感色彩和主觀偏好。
本文基于規(guī)則推理和貝葉斯網(wǎng)絡(luò)算法的多方證據(jù)關(guān)聯(lián)分析方法,可以對(duì)司法數(shù)據(jù)進(jìn)行高效分類和處理,對(duì)其有效信息進(jìn)行快速提取,不僅可以有效節(jié)約法院訴訟服務(wù)的人力和空間資源,還可以隨時(shí)為公眾提供簡單、安全、智能、高效的訴訟情報(bào)服務(wù),從而提供全面的訴訟決策指導(dǎo),合理分流訴訟準(zhǔn)備階段不必要的訴訟請(qǐng)求,大大提高公眾對(duì)法院訴訟服務(wù)的滿意度和法院公信力。
目前,部分研究機(jī)構(gòu)、公司在多方證據(jù)分析和訴訟風(fēng)險(xiǎn)分析方面進(jìn)行了較為深入的研究,并取得了重要技術(shù)突破。文本分類的研究始于國外,根據(jù)已有的相關(guān)歷史資料,從20世紀(jì)的中期—20世紀(jì)的80年代,這一時(shí)期正是國外關(guān)于文本分類的早期發(fā)展階段,國際商用機(jī)器公司的盧恩[7]提出了單詞頻率統(tǒng)計(jì)的概念,并從《ACM》雜志上發(fā)表第一篇關(guān)于貝葉斯公式的文本分類應(yīng)用文章Maron[8-9];關(guān)于方法向量空間模型[10],Salton提出了經(jīng)典的文本分類方法,此方法目前被國內(nèi)外研究學(xué)者普遍應(yīng)用。我國對(duì)文本分類的研究發(fā)展起步時(shí)間較晚,始于20世紀(jì)80年代,轟動(dòng)一時(shí)[11]。國內(nèi)研究學(xué)者提出了一個(gè)關(guān)于文本分類的研究報(bào)告,將計(jì)算機(jī)與文本分類相結(jié)合,將國內(nèi)文本分類的計(jì)算機(jī)統(tǒng)計(jì)分析方法研究逐步推廣應(yīng)用。因此,國內(nèi)多所高校進(jìn)而開始研究文本分類的計(jì)算機(jī)數(shù)據(jù)應(yīng)用,如南京大學(xué)開發(fā)設(shè)計(jì)的CTDCS系統(tǒng)[12],在英文文本分類的數(shù)據(jù)預(yù)處理中,不需要對(duì)分詞進(jìn)行處理,只需對(duì)空格進(jìn)行處理,相比于英文文本分類,中文文本分類中的分詞處理復(fù)雜,基于此,關(guān)于知識(shí)學(xué)習(xí)的非智能化實(shí)現(xiàn)有待于進(jìn)一步開發(fā)設(shè)計(jì)。由于將知識(shí)學(xué)習(xí)的計(jì)算機(jī)數(shù)據(jù)處理能力通過相關(guān)文本分類算法實(shí)現(xiàn),將消耗大量的人力和物力,因此,許多研發(fā)人員將精力放在了基于機(jī)器學(xué)習(xí)的智能文本分類[13-14],該方法不僅省時(shí)省力,而且大大提高了分類精度,成為迄今為止最受歡迎的分類模型。經(jīng)典的機(jī)器學(xué)習(xí)算法包括:支持向量機(jī)[15]、k-最近鄰[16]、樸素貝葉斯[17]、決策樹[18]、最大熵模型[19]、Logistic回歸[20]等。其中,k-近鄰、決策樹、支持向量機(jī)和樸素貝葉斯在文本分類領(lǐng)域應(yīng)用廣泛,但這些算法各有優(yōu)缺點(diǎn)。k-最近鄰算法分類法精度高,但對(duì)異常值的精確查找有限,以及對(duì)各個(gè)文本中的訓(xùn)練、測(cè)試樣本的距離難以控制,易發(fā)生維數(shù)方面的問題;決策樹有助于科研工作者的理解與分析,但對(duì)數(shù)據(jù)的敏感有些高,且對(duì)文本中的連續(xù)字段預(yù)測(cè)精度有限;支持向量機(jī)算法具有較高的分類精度和靈活性,但對(duì)異常值不敏感,計(jì)算復(fù)雜度較高,執(zhí)行效率有待提高。綜合所述,樸素貝葉斯的算法不僅效率高,而且很簡樸,概率表達(dá)能力強(qiáng),同時(shí)對(duì)于文本分類中相關(guān)屬性獨(dú)立性的假設(shè)合理且有效,相應(yīng)的管理預(yù)期滿足客戶對(duì)文本的需求[21-23]。將其應(yīng)用于文本分類對(duì)分類管理有很好的期望。本文采用這種方法對(duì)司法數(shù)據(jù)進(jìn)行制度化、標(biāo)記化處理,以獲取有效的證據(jù)信息,提高案件處理速度。
在實(shí)際研究過程中,針對(duì)海量文本數(shù)據(jù)對(duì)象,首先對(duì)數(shù)據(jù)對(duì)象質(zhì)量置信度進(jìn)行考核,對(duì)文本數(shù)據(jù)集進(jìn)行結(jié)構(gòu)化以及類別標(biāo)簽化處理,得到數(shù)據(jù)對(duì)象多要素信息判定鏈,同時(shí),對(duì)數(shù)據(jù)進(jìn)行集中的去噪,提取有效信息并進(jìn)行分類,獲得數(shù)據(jù)元庫;然后,通過多因素信息決策鏈與數(shù)據(jù)源構(gòu)建多因素信息網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表一條信息,邊代表信息之間的相關(guān)概率,借助貝葉斯網(wǎng)絡(luò)的先驗(yàn)知識(shí),建立信息之間的關(guān)聯(lián)約束關(guān)系,實(shí)現(xiàn)基于多因素信息關(guān)聯(lián)條件的概率計(jì)算,通過將元素中的信息與規(guī)則庫中的規(guī)則進(jìn)行匹配,形成多元素信息融合的關(guān)聯(lián)模型,同時(shí),利用遺傳算法對(duì)數(shù)據(jù)要素群體進(jìn)行交叉組合,得到全部可能的信息鏈組合,實(shí)現(xiàn)模型優(yōu)化和推理過程;最后,根據(jù)每一條信息鏈條的概率值,選擇其中概率值最大的信息鏈作為最有價(jià)值的信息鏈,由此,得到本文基于規(guī)則推理和貝葉斯網(wǎng)絡(luò)算法的多方證據(jù)關(guān)聯(lián)分析模型。司法領(lǐng)域多方證據(jù)關(guān)聯(lián)模型構(gòu)建框架,如圖1所示。
圖1 司法領(lǐng)域多方證據(jù)關(guān)聯(lián)分析模型構(gòu)建框架
基于多要素融合的關(guān)聯(lián)概率分析模型中,要素相關(guān)概率計(jì)算過程基于最大共現(xiàn)概率以及最大熵原理,自動(dòng)學(xué)習(xí)不同要素之間的相關(guān)性,計(jì)算多要素信息的轉(zhuǎn)移權(quán)重,其中,要素A對(duì)要素B的轉(zhuǎn)移概率公式可簡單表示為P(A→B) =P(B|A),由此,可以得到所有要素間的狀態(tài)轉(zhuǎn)移概率,并且以狀態(tài)轉(zhuǎn)移矩陣記錄。在模型中,將不同要素在數(shù)據(jù)中的轉(zhuǎn)移概率看作是貝葉斯網(wǎng)絡(luò)中連接的權(quán)重。
本文以司法領(lǐng)域案件證據(jù)鏈的獲得過程來進(jìn)一步說明基于多要素融合的關(guān)聯(lián)概率分析模型的具體構(gòu)建過程,在司法領(lǐng)域中,以基于多要素融合的關(guān)聯(lián)概率分析模型中的要素為案件證據(jù),我們將該模型叫做多方證據(jù)關(guān)聯(lián)模型。針對(duì)司法領(lǐng)大數(shù)據(jù):
1)首先基于海量訴訟材料,裁判文書,以及雙方質(zhì)證情況及開庭雙方答辯的案件卷宗,對(duì)歷史案件置信度考核,并對(duì)文書進(jìn)行結(jié)構(gòu)化處理,相關(guān)案件的證據(jù)分類標(biāo)簽化處理,得到多案由、多類型的事實(shí)判定鏈,同時(shí),對(duì)當(dāng)事人訴訟資料有效信息進(jìn)行去噪、抽取歸類處理,最終獲得證據(jù)要素庫。
2)通過事實(shí)判定鏈和證據(jù)來源等各個(gè)要素信息構(gòu)建多方證據(jù)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)表示一個(gè)證據(jù),邊表示證據(jù)之間的相關(guān)概率,通過貝葉斯網(wǎng)絡(luò)確立證據(jù)間的關(guān)聯(lián)約束關(guān)系,得到基于多方證據(jù)關(guān)聯(lián)條件的概率,對(duì)證據(jù)要素中的信息與法律知識(shí)規(guī)則庫中的條目進(jìn)行匹配,形成多方證據(jù)融合的關(guān)聯(lián)圖。
3)利用遺傳網(wǎng)絡(luò)對(duì)證據(jù)要素群體進(jìn)行交叉組合,得到全部可能的證據(jù)鏈組合,最終實(shí)現(xiàn)多方證據(jù)關(guān)聯(lián)模型優(yōu)化,并得到最優(yōu)證據(jù)鏈條。
多方證據(jù)關(guān)聯(lián)模型及推理:貝葉斯證據(jù)網(wǎng)絡(luò)主要用于多方多類的弱證據(jù)推理,試圖從多類、多個(gè)互相印證或者互相矛盾的證據(jù)中,尋求最可信,最有說服力的證據(jù)鏈條,期望通過多個(gè)弱證據(jù)組合出可信證據(jù)鏈,發(fā)揮有力證據(jù)的作用,基于具有多證據(jù)和證據(jù)轉(zhuǎn)移概率的多證據(jù)關(guān)聯(lián)模型,用遺傳算法推理多證據(jù)關(guān)聯(lián)網(wǎng)絡(luò),計(jì)算所有可能的證據(jù)鏈組合,根據(jù)每個(gè)證據(jù)鏈的概率值,選擇概率最高的鏈作為最可信的證據(jù)鏈。原理如圖2所示。
圖2 證據(jù)鏈推理過程
多方證據(jù)關(guān)聯(lián)系統(tǒng)模型算法步驟為:1)構(gòu)建多方證據(jù)關(guān)聯(lián)分析模型;2)構(gòu)建法律知識(shí)規(guī)則庫;3)將法律、法規(guī)、裁判文書、電子文件等進(jìn)行標(biāo)準(zhǔn)化、格式化后,形成判斷證據(jù)要素、判斷證據(jù)整體、判斷證據(jù)之間關(guān)系的事實(shí)判斷節(jié)點(diǎn);4)將多個(gè)節(jié)點(diǎn)串聯(lián)成鏈,這些判斷鏈的集合構(gòu)成法律知識(shí)規(guī)則庫,其中,部分開發(fā)重點(diǎn)關(guān)注法規(guī)矢量化和K-MEANS的無監(jiān)督算法。
Word2Vec包括兩個(gè)淺層神經(jīng)網(wǎng)絡(luò)模型,一個(gè)是CBOW模型,另一個(gè)是Skip-Gram模型,一般來說,這兩種淺層神經(jīng)網(wǎng)絡(luò)模型利用上下文來預(yù)測(cè)當(dāng)前單詞出現(xiàn)的概率與當(dāng)前單詞上下文中其他單詞出現(xiàn)的概率,從而獲得相應(yīng)的語義特征,詞向量法不僅可以根據(jù)用戶需求確定限定詞向量的維數(shù),還可以獲取上下文的語義信息,兩個(gè)相似或者相近的詞之間的余弦相似度將特別小,從而達(dá)到理解句意的效果。具體如圖3所示。
圖3 詞向量模型
K-Means無監(jiān)督聚類模型對(duì)法律法規(guī)進(jìn)行聚類處理,K-Means中最重要的一步就是聚類促的選擇,即分幾個(gè)類,在目前階段的輸入主要是兩種案由的法律,采用手肘法對(duì)樣本中的誤差及SSE進(jìn)行計(jì)算,確定使用分類的簇,圖4為目前對(duì)兩個(gè)案由的電子證據(jù)采用手肘法計(jì)算獲得的結(jié)果,SSE的計(jì)算方法為
圖4 法律法規(guī)聚類處理
式中:Ci為第i個(gè)簇,即第i個(gè)類;mi為Ci的質(zhì)心。根據(jù)上述方法確定簇的個(gè)數(shù)及可生成一個(gè)K-Means模型,將電子證據(jù)及案由生成相應(yīng)的法律知識(shí)規(guī)則庫。
為驗(yàn)證本文所討論的各個(gè)模型在多維證據(jù)關(guān)聯(lián)關(guān)系分析任務(wù)中在測(cè)試數(shù)據(jù)集上的表現(xiàn),采用精確率P、召回率R與F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),對(duì)應(yīng)的計(jì)算公式為
本文采用司法領(lǐng)域數(shù)據(jù),驗(yàn)證基于多要素融合的關(guān)聯(lián)概率分析模型的有效性。試驗(yàn)中所用數(shù)據(jù)集是通過裁判文書網(wǎng)爬取的真實(shí)數(shù)據(jù)集,以及通過司法機(jī)關(guān)獲取的脫敏司法數(shù)據(jù),對(duì)其中借貸類、道路交通類和刑事類三類案件各5 000例數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,總計(jì)15 000例。首先,由司法業(yè)務(wù)專家對(duì)這三類案件標(biāo)注訴訟案件的證據(jù)鏈條;然后,通過這些標(biāo)注的證據(jù)數(shù)據(jù)檢測(cè)基于多要素融合的關(guān)聯(lián)概率分析模型的實(shí)驗(yàn)結(jié)果。
在實(shí)驗(yàn)過程中,證據(jù)元素的提取主要是針對(duì)文本數(shù)據(jù)的識(shí)別和信息的提取,通過自然語言提取技術(shù),從獲得的數(shù)據(jù)中快速提取出明文數(shù)據(jù)信息,去除特殊的控制信息,通過消除語義噪聲,利用觸發(fā)詞從文本中過濾出相關(guān)句子,提取關(guān)鍵信息并根據(jù)匹配模式識(shí)別證據(jù)元素。在識(shí)別和提取證據(jù)元素的過程中,首先,手動(dòng)建立證據(jù)元素模板;然后,基于模板,通過程序自動(dòng)提取證據(jù)元素;最后,根據(jù)數(shù)據(jù)中當(dāng)事人的訴訟材料,形成結(jié)構(gòu)化的證據(jù)要素,這些證據(jù)實(shí)體是多方證據(jù)關(guān)聯(lián)模型中的基本元素。具體如圖5所示。
圖5 結(jié)構(gòu)化證據(jù)要素抽取過程
從數(shù)據(jù)集中人工篩選出借貸類案件用于實(shí)驗(yàn)分析。首先,由司法業(yè)務(wù)專家給每例案件標(biāo)注3大類維度特征并將其量化;隨后,兩組專家交叉校驗(yàn)對(duì)方標(biāo)注的證據(jù)特征,這些標(biāo)注的證據(jù)特征可以作為真實(shí)值來檢測(cè)多方證據(jù)關(guān)聯(lián)模型的效果;最后,利用深度神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)注的證據(jù)特征進(jìn)行學(xué)習(xí),得到訴訟風(fēng)險(xiǎn)評(píng)估結(jié)果,以證實(shí)訴訟請(qǐng)求的合理性。實(shí)驗(yàn)結(jié)果如表1所示。
表1 在借貸類案例中預(yù)測(cè)訴訟請(qǐng)求合理性的評(píng)估結(jié)果
表1對(duì)11例借貸類案件進(jìn)行了訴訟請(qǐng)求合理性評(píng)估,在這11例案件中,有8例案件的訴訟請(qǐng)求是合理的,并且有兩個(gè)案件的合理性達(dá)到了100%,此外另有三個(gè)案件的訴訟請(qǐng)求是不合理的,均未超過60%。
為了驗(yàn)證本文模型的有效性,三種典型案例在本文多方證據(jù)關(guān)聯(lián)模型中證據(jù)鏈條實(shí)驗(yàn)結(jié)果與真實(shí)證據(jù)鏈條相似度計(jì)算結(jié)果,如表2所示。
表2 證據(jù)鏈條相似度比較實(shí)驗(yàn)結(jié)果
由表2可知,三類案件證據(jù)鏈條的相似度的總體均值為0.644,即本文多方證據(jù)關(guān)聯(lián)模型得到的證據(jù)鏈條與真實(shí)證據(jù)鏈條總體相似,該模型能夠?qū)崿F(xiàn)對(duì)可靠證據(jù)鏈條的有效獲取。
本文模型實(shí)驗(yàn)結(jié)果與真實(shí)證據(jù)鏈條的相似度比較,如圖6所示。
圖6 三類案件相似度值比較結(jié)果
在實(shí)驗(yàn)過程中,設(shè)定不同的閾值,如果真實(shí)的證據(jù)鏈條和預(yù)測(cè)證據(jù)鏈條的相似度大于該閾值,則兩個(gè)證據(jù)鏈條是匹配的,說明該案例的證據(jù)鏈條預(yù)測(cè)是準(zhǔn)確的;如果真實(shí)的證據(jù)鏈條和預(yù)測(cè)證據(jù)鏈條的相似度小于該閾值,則表示方法推理的證據(jù)鏈條是不可信或不準(zhǔn)確的。
不同閾值下的準(zhǔn)確率結(jié)果如表3所示。
表3 不同閾值準(zhǔn)確率實(shí)驗(yàn)結(jié)果 %
不同閾值下,本文模型的可信證據(jù)鏈條預(yù)測(cè)準(zhǔn)確率變化結(jié)果,如圖7所示。
圖7 不同閾值準(zhǔn)確率
由圖7可以看出,本文提出的基于多要素融合的關(guān)聯(lián)概率分析模型(多方證據(jù)關(guān)聯(lián)模型)在借貸類案件中效果最好。當(dāng)閾值為0.5時(shí),借貸類準(zhǔn)確率達(dá)到82.1%,刑事類和道路交通類分別為71.3%、49.6%。分析這三類案件準(zhǔn)確率的差別,由于在司法案件中存在強(qiáng)證據(jù)和弱證據(jù)的區(qū)分,因此對(duì)于不同類型的案件,其證據(jù)鏈條的長度也不一樣,證據(jù)鏈條越長,則證據(jù)鏈條推理的難度越大;反之,難度越小。由于借貸類案件術(shù)語強(qiáng)證據(jù)可以直接推定案件結(jié)論的類型,因此其證據(jù)鏈較短,證據(jù)鏈條的預(yù)測(cè)效果也是最好,道路交通及刑事類的案件由于證據(jù)鏈較長,本文模型對(duì)證據(jù)鏈條的預(yù)測(cè)效果也相對(duì)低于借貸類案件,但在閾值為0.5情況下,三類案件準(zhǔn)確率平均達(dá)到67.7%。
通過對(duì)實(shí)驗(yàn)結(jié)果的分析,本文提出的基于規(guī)則推理和貝葉斯網(wǎng)絡(luò)算法的多證據(jù)關(guān)聯(lián)模型可以實(shí)現(xiàn)多元素融合的關(guān)聯(lián)分析。在司法證據(jù)鏈分析中,可以有效地實(shí)現(xiàn)對(duì)可信證據(jù)鏈的挖掘,從而加快司法數(shù)據(jù)的處理速度,節(jié)省時(shí)間和精力,分類準(zhǔn)確率大大提高。在未來的工作中,將嘗試使用深度學(xué)習(xí)算法挖掘多方證據(jù)的關(guān)聯(lián)關(guān)系,減少領(lǐng)域?qū)<业娜肆Τ杀尽?/p>