亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合特征提取的判決預(yù)測(cè)模型

2021-12-01 05:26:14劉璐瑤

智能計(jì)算機(jī)與應(yīng)用 2021年8期

劉璐瑤，李實(shí)

（東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院，哈爾濱 150006）

0 引言

在傳統(tǒng)的司法領(lǐng)域中，案件判決依賴于法官、律師等法律相關(guān)人士的專業(yè)解答和辯論流程。對(duì)于普通人而言，復(fù)雜的法律條文構(gòu)成了專業(yè)壁壘，對(duì)于案件結(jié)果的預(yù)判也與專業(yè)人士存在較大差距［1］。對(duì)于專業(yè)人士而言，大部分案件都屬于常見(jiàn)案件，預(yù)測(cè)過(guò)程較為簡(jiǎn)單。如果能用技術(shù)手段學(xué)習(xí)到這些案件的共性，讓量刑過(guò)程實(shí)現(xiàn)自動(dòng)化或者半自動(dòng)化，輔助法官的決策過(guò)程，一方面能將司法工作者從瑣碎的事務(wù)中解放出來(lái)，另一方面也有利于消除人的主觀因素的影響［2］，實(shí)現(xiàn)同案同判。

當(dāng)今時(shí)代，隨著法律的不斷完善，人民的法律意識(shí)也不斷提高，與此同時(shí)歷史案件在不斷累積，新案件也在不斷的增加［3］，司法領(lǐng)域的各種公開案件量已足夠滿足深度學(xué)習(xí)需求，使得用深度學(xué)習(xí)技術(shù)進(jìn)行司法領(lǐng)域相關(guān)問(wèn)題的研究成為可能。

國(guó)外的研究者已經(jīng)開展了大量的關(guān)于人工智能在司法領(lǐng)域各個(gè)方向的研究。Vlek 等通過(guò)貝葉斯網(wǎng)絡(luò)對(duì)案件的現(xiàn)有證據(jù)進(jìn)行建模、分析與推理，在刑事案件的審判中，能夠更好的通過(guò)模型從文本中提取出當(dāng)前案件的場(chǎng)景描述，并能夠直接的向法官或者陪審團(tuán)提供對(duì)于現(xiàn)有證據(jù)的分析與結(jié)果展示［4］；Ashley 等人通過(guò)建立案件數(shù)據(jù)庫(kù)，從已判決案件的文本描述中提取信息，并應(yīng)用這些信息使用決策樹算法完成自動(dòng)預(yù)測(cè)新案件的結(jié)果［5］。

英美司法智能研究與中國(guó)在許多方面有所不同。首先，英美量刑模式為普通法體系，又稱為判例法，而中國(guó)的量刑模式是基于成文法；其次，英語(yǔ)與漢字的差異導(dǎo)致文本處理方法的不同；另外，漢語(yǔ)法律詞匯與非法律詞匯的差異很大，一些流行的文本分類方法難以直接應(yīng)用?；诖?，在關(guān)于機(jī)器學(xué)習(xí)的研究中，高菲等在研究和借鑒英美法系的量刑模式后，提出了改進(jìn)中國(guó)量刑模式的新思路［6］。通過(guò)對(duì)盜竊案件中年齡、主共犯、認(rèn)罪態(tài)度等的量刑情節(jié)進(jìn)行統(tǒng)計(jì)和數(shù)值化后，使用支持向量機(jī)技術(shù)預(yù)測(cè)刑期，使刑期結(jié)果精確到月份。本文是基于深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)中文司法智能領(lǐng)域的罪名預(yù)測(cè)和刑期預(yù)測(cè)，擬利用抽取式文本摘要，對(duì)案情描述文本進(jìn)行預(yù)處理，同時(shí)提出基于BiGRU－Attention－CapsNet 的文本分類模型進(jìn)行罪名預(yù)測(cè)和28 類刑期預(yù)測(cè)。

本研究的主要貢獻(xiàn)如下：

（1）提出了一種基于注意力機(jī)制的混合特征提取網(wǎng)絡(luò)的文本分類模型，解決全局和局部特征的不完全特征提取問(wèn)題。

（2）由于硬件和模型的限制，每條案情描述文本長(zhǎng)度有限，通過(guò)對(duì)案情描述文本進(jìn)行壓縮，在文本長(zhǎng)度和文本信息量中找到平衡，在指定長(zhǎng)度中保留盡可能多的信息。

（3）在刑期分類中，實(shí)現(xiàn)了較小的分類粒度，有更高的實(shí)際應(yīng)用和參考價(jià)值。

1 相關(guān)工作

近年來(lái)判決預(yù)測(cè)的研究越來(lái)越受到人們的關(guān)注。目前在智能司法領(lǐng)域的研究方法主要分為3類：數(shù)學(xué)統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。

早期的判決自動(dòng)預(yù)測(cè)主張使用統(tǒng)計(jì)學(xué)方法，試圖分析大量歷史案例找出共性規(guī)律并使用統(tǒng)計(jì)學(xué)模型模擬判決流程。典型工作如文獻(xiàn)［7］中提出的量化分析法和如文獻(xiàn)［8］提出的關(guān)聯(lián)分析法。但此類方法僅在特定領(lǐng)域的數(shù)據(jù)上有效，較難推廣到一般性案件中。

隨著機(jī)器學(xué)習(xí)的發(fā)展，一些研究者開始從案件文書中提取特征，利用機(jī)器學(xué)習(xí)模型來(lái)解決智能司法領(lǐng)域的問(wèn)題。代表性工作如文獻(xiàn)［9］中基于文書淺層文本特征的K 近鄰算法分類預(yù)測(cè)模型；文獻(xiàn)［10］中將3 層神經(jīng)網(wǎng)絡(luò)與退火算法相結(jié)合，通過(guò)定義和量化28 種監(jiān)禁情況的特征，預(yù)測(cè)有期徒刑、死刑和無(wú)期徒刑；文獻(xiàn)［11］中利用多元伯努利模型進(jìn)行分類的不均勻分布，然后采用樸素貝葉斯算法進(jìn)行分類。該方法大大提高了分類的精度，但提取出的淺文本特征只能針對(duì)特定案例，泛化能力不強(qiáng)。雖然機(jī)器學(xué)習(xí)模型極大地自動(dòng)化了學(xué)習(xí)，并且總是隨著經(jīng)驗(yàn)而改進(jìn)，但其需要手動(dòng)對(duì)大量的特性進(jìn)行標(biāo)記，這需要大量的時(shí)間和專業(yè)知識(shí)。

由于深度學(xué)習(xí)模型具有不需要標(biāo)注大量特征的優(yōu)點(diǎn)，研究者們開始基于文本分類框架構(gòu)建預(yù)測(cè)模型，即以大量歷史法律文書作為訓(xùn)練文本，以罪名為類別標(biāo)簽，訓(xùn)練深度學(xué)習(xí)分類模型［12－15］。Ye 等人從事實(shí)描述中生成法院視圖來(lái)解釋判決預(yù)測(cè)［16］。代表性工作如文獻(xiàn)［17］和文獻(xiàn)［18］中提出的基于深度神經(jīng)網(wǎng)絡(luò)罪名分類模型；文獻(xiàn)［19］在2018 年使用“中國(guó)法研杯”司法人工智能挑戰(zhàn)賽（CAIL－2018）的數(shù)據(jù)集，提出了一種長(zhǎng)文本分類的混合深度神經(jīng)網(wǎng)絡(luò)模型HAC（hybrid attention and CNN model），利用殘差網(wǎng)絡(luò)，融合了改進(jìn)的層次注意力網(wǎng)絡(luò)和深度金字塔卷積神經(jīng)網(wǎng)絡(luò)，使用分類方法將刑期分為18 類對(duì)刑期進(jìn)行預(yù)測(cè)；文獻(xiàn)［20］中，在CAIL－2018small 數(shù)據(jù)集上，針對(duì)單人多罪名多法條的刑事案件對(duì)比了3 種平均詞向量模型，并在多核CNN模型中加入不同層次的Attention 機(jī)制，融合BERT句向量特征，提出了BERT－ACNN 模型。

此類方法在預(yù)測(cè)效果上取得了一定的進(jìn)步，但對(duì)特征提取不夠完整，沒(méi)有考慮局部特征和全局特征的融合。因此，本文使用膠囊網(wǎng)絡(luò)提取局部語(yǔ)義特征信息后，再使用加入注意力機(jī)制的BiGRU 提取全局語(yǔ)義特征信息，最后將兩個(gè)網(wǎng)絡(luò)合并，提取更加完整的信息來(lái)提升罪名預(yù)測(cè)和刑期預(yù)測(cè)的性能。

2 基于BiGRU－Attention－CapsNet 的預(yù)測(cè)模型

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包括案情描述預(yù)處理和標(biāo)簽預(yù)處理。在案情描述預(yù)處理部分，考慮到法律文本的關(guān)鍵句經(jīng)常在句子結(jié)尾才出現(xiàn)，而部分文本的長(zhǎng)度超過(guò)了允許讀入的最大長(zhǎng)度，本文先對(duì)數(shù)據(jù)進(jìn)行抽取式摘要處理以確保關(guān)鍵句被讀入。抽取式摘要采用TextRank 算法抽取重要度最高的10 個(gè)句子作為摘要，之后主要是加入自定義詞典對(duì)摘要進(jìn)行分詞去停、構(gòu)建事實(shí)詞典、將分詞去停后的文本序列化、將序列處理為同一長(zhǎng)度等預(yù)處理。在標(biāo)簽預(yù)處理部分：對(duì)于罪名標(biāo)簽，將202 種罪名放到一個(gè)文本文件中，再將其轉(zhuǎn)化為數(shù)字編號(hào)；而對(duì)于刑期標(biāo)簽，考慮到以月為單位進(jìn)行分類效果不佳，所以以年為單位將0～25 年的刑期分為26 類，無(wú)期徒刑和死刑各為一類，刑期一共分為28 類。

2.2 BiGRU－Attention－CapsNet 模型研究

2.2.1 BiGRU－Attention－CapsNet 模型

本文搭建的基于BiGRU－Attention－CapsNet 的文本分類模型結(jié)構(gòu)如圖1 所示。文本分類模型主要包含輸入層、Embedding 嵌入層、BiGRU－Attention－CapsNet 層、全連接層、輸出層幾個(gè)部分。

圖1 BiGRU－Attention－CapsNet 模型Fig.1 BiGRU－Attention－CapsNet model

其中，BiGRU－Attention－CapsNet 層合并了BiGRU－Attention 層提取的全局特征向量和CapsNet模塊提取的局部特征向量。

2.2.2 BiGRU 層

門控循環(huán)單元GRU 是對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)的一種改進(jìn)，保留長(zhǎng)期序列信息的同時(shí)通過(guò)門控機(jī)制優(yōu)化了參數(shù)的規(guī)模［21］。在GRU 網(wǎng)絡(luò)中信息只能單向傳遞，但詞語(yǔ)可能與上下文的詞語(yǔ)都有依賴關(guān)系，使用BiGRU 融合上下文的語(yǔ)義信息，實(shí)現(xiàn)信息的雙向傳遞，模型效果會(huì)更好。本文BiGRU 層的目的是對(duì)輸入文本詞向量進(jìn)行文本深層次特征的提取。式（1）、式（2）表示對(duì)輸入詞向量xi正向、反向編碼。式（3）表示對(duì)、進(jìn)行向量拼接操作。

2.2.3 詞級(jí)別注意力層

為捕獲更準(zhǔn)確的語(yǔ)義表達(dá)，本文在BiGRU 層后引入注意力機(jī)制，對(duì)案情描述語(yǔ)句進(jìn)行編碼。不同的詞對(duì)句子意思的表達(dá)所起的作用也有所不同，因此采用詞級(jí)別Attention 機(jī)制來(lái)提取對(duì)句子含義重要的詞語(yǔ)。

詞級(jí)別Attention 機(jī)制可通過(guò)以下3 個(gè)步驟實(shí)現(xiàn)：

式中，wi為模型權(quán)重，bi為偏置。

（2）計(jì)算ui和上下文向量uc的相似性，并歸一化得到度量詞語(yǔ)重要性指標(biāo)，如式（5）所示。

其中，上下文向量uc是對(duì)輸入的一種語(yǔ)義表示，是在訓(xùn)練過(guò)程中隨機(jī)初始化和共同學(xué)習(xí)的，ε是一個(gè)很小的正數(shù)，是為了避免出現(xiàn)除零異常而添加的。

（3）計(jì)算詞語(yǔ)的加權(quán)向量得到句子向量，如式（6）所示。

2.2.4 膠囊網(wǎng)絡(luò)模塊

網(wǎng)絡(luò)使用了CapsNet 算法的最后一層DigitCaps層，將池化層用動(dòng)態(tài)路由代替。該膠囊網(wǎng)絡(luò)模塊包括以下4 層：

第一層：卷積層

要在最嚴(yán)格水資源管理制度試點(diǎn)工作帶動(dòng)下，全面推進(jìn)最嚴(yán)格水資源管理各項(xiàng)工作，確保各項(xiàng)制度有措施、能落地。一是按照“節(jié)水優(yōu)先、空間均衡、系統(tǒng)治理、兩手發(fā)力”的治水思路，以水定需，量水而行，因水制宜，嚴(yán)格水資源論證、取水許可管理和水資源有償使用制度。二是把節(jié)約用水貫穿于經(jīng)濟(jì)社會(huì)發(fā)展和群眾生活全過(guò)程，優(yōu)化用水結(jié)構(gòu)，切實(shí)轉(zhuǎn)變用水方式，全面實(shí)行計(jì)劃用水管理，加快推進(jìn)節(jié)水技術(shù)改造。三是全面落實(shí) 《全國(guó)重要江河湖泊水功能區(qū)劃》，從嚴(yán)核定水域納污容量，切實(shí)加強(qiáng)水污染防控，加強(qiáng)飲用水水源保護(hù)，推進(jìn)水生態(tài)文明建設(shè)。四是按照最嚴(yán)格水資源管理制度考核工作要求，積極有序開展轄區(qū)內(nèi)考核工作，切實(shí)落實(shí)水資源管理責(zé)任制。

通過(guò)不同的卷積核在句子的不同位置提取Ngram 特征。其輸入是文本詞向量，卷積操作就是卷積核矩陣Ma和對(duì)應(yīng)輸入層中一小塊矩陣的點(diǎn)積相乘。卷積核通過(guò)權(quán)重共享的方式，按照步幅上下左右的在輸入層滑動(dòng)，提取特征，以此將輸入層做特征映射作為輸出層。具體形式如下：

其中，b0是偏置項(xiàng)，f是非線性激活函數(shù)ReLU。

第二層：主膠囊層（第一個(gè)膠囊層）

膠囊將卷積操作的標(biāo)量輸出替換為矢量輸出，從而保留實(shí)例化參數(shù)。每一個(gè)膠囊pi可由式（8）得到：

其中：g（）表示非線性壓縮函數(shù)；b1為膠囊的偏置項(xiàng)；W是不同滑動(dòng)窗口的共享濾波器；Mi是Ma中第i行向量。

第三層：卷積膠囊層

在這一層中，每個(gè)膠囊僅與下面層中的一個(gè)局部區(qū)域相連。這些膠囊與轉(zhuǎn)換矩陣相乘來(lái)計(jì)算子膠囊（低層膠囊）與父膠囊（高層膠囊）之間的關(guān)系，然后根據(jù)協(xié)議路由計(jì)算出上層的父膠囊。

第四層：全連接膠囊層

上一層的膠囊被展平成一個(gè)膠囊列表，并送入全連接膠囊層。在全連接膠囊層中，膠囊乘以變換矩陣，然后按協(xié)議路由生成最終的膠囊及其對(duì)每個(gè)類別的概率。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集為“中國(guó)法研杯”司法人工智能挑戰(zhàn)賽（CAIL－2018）的數(shù)據(jù)集［22］，數(shù)據(jù)集是來(lái)自中國(guó)裁判文書網(wǎng)公開的刑事法律文書。其中每份數(shù)據(jù)由法律文書中的案情描述和事實(shí)部分組成，同時(shí)也包括每個(gè)案件所涉及的法條、被告人被判的罪名和刑期長(zhǎng)短內(nèi)容。數(shù)據(jù)集共包括268 萬(wàn)條刑法法律文書，共涉及202 條罪名、183 條法條，刑期長(zhǎng)短包括0～25 年，無(wú)期徒刑和死刑。數(shù)據(jù)格式如圖2所示。

圖2 數(shù)據(jù)示例Fig.2 Sample data

其中，fact 表示案情描述；meta 表示標(biāo)簽信息；punish_of_money 表示罰金（單位：元）；accusation 表示罪名；relevant_articles 為相關(guān)法條；term_of_imprisonment 為刑期。刑期分為：是否死刑（death_penalty）、是否無(wú)期（life_imprisonment）、有期徒刑刑期（imprisonment）等。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

參數(shù)設(shè)置上，使用word2vec 模型訓(xùn)練詞向量，維度為100。由于本文訓(xùn)練樣本的字符長(zhǎng)度為1 000時(shí)，樣本覆蓋全部語(yǔ)料集的90%以上，故設(shè)定讀取的序列長(zhǎng)度為1 000。對(duì)于長(zhǎng)度不符的樣例進(jìn)行padding 或cut 處理。訓(xùn)練時(shí)部分參數(shù)見(jiàn)表1。

表1 部分參數(shù)設(shè)置Tab.1 Some parameters settings

3.3 結(jié)果與分析

表2 列出了CAIL2018 數(shù)據(jù)集在TextCNN，BiGRUAttention，CapsNet 和BiGRU－Attention－CapsNet4 個(gè)模型上的罪名和刑期的預(yù)測(cè)結(jié)果。評(píng)估指標(biāo)為測(cè)試集的準(zhǔn)確率和損失值。

表2 比較實(shí)驗(yàn)Tab.2 Model comparison experiments

TextCNN 是2014 年由Yoon Kim 提出的經(jīng)典文本分類模型；BiGRU－Attention 融合上下文的語(yǔ)義信息，實(shí)現(xiàn)信息雙向傳遞，注意力機(jī)制能對(duì)文本重要部分賦予更高的權(quán)重，起到優(yōu)化特征向量的目的；CapsNet 與TextCNN 相比，具有空間同變性，將數(shù)個(gè)連續(xù)的神經(jīng)元封裝為一個(gè)膠囊輸出，保留了文本中詞的本地順序和詞的語(yǔ)義表示。由表2 可知，在罪名預(yù)測(cè)和28 類刑期預(yù)測(cè)上，兩模型的分類準(zhǔn)確率均優(yōu)于TextCNN，而融合了全局特征和局部特征的BiGRUAttention－CapsNet 是一種雙向門循環(huán)單元注意機(jī)制混合膠囊神經(jīng)網(wǎng)絡(luò)模型，其全局特征由BiGRUAttention 提取，局部特征由CapsNet 提取。由此表明，由于合并特征提取，提高了模型學(xué)習(xí)的語(yǔ)義信息，該模型的分類精度高于兩個(gè)獨(dú)立模型的分類精度。

本研究使用了與文獻(xiàn)［1］相同的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。由表3 中數(shù)據(jù)表明，結(jié)合全局和局部特征的模型BiGRU－Attention－CapsNet 具有最佳的精度。

表3 不同模型實(shí)驗(yàn)結(jié)果Tab.3 Prediction results for different models

對(duì)于刑期預(yù)測(cè)，文獻(xiàn)［19］與本文數(shù)據(jù)集相同，把預(yù)測(cè)刑期與真實(shí)刑期的差異作為評(píng)估指標(biāo)。假設(shè)第i起案件的真實(shí)刑期是ti，而預(yù)測(cè)的結(jié)果是ˉti。其定義差異di如下：

然后，將得分函數(shù)f（v）定義如下：

最終得分如下：

文獻(xiàn)［19］將刑期分為18 類。為了便于比較，本研究也將刑期分為18 類。表3 顯示，BiGRU－Attention－CapsNet 的得分為82.76 分，比HAC 的得分高5.62 分。

4 結(jié)束語(yǔ)

本文在預(yù)處理部分對(duì)長(zhǎng)文本采用TextRank 算法抽取關(guān)鍵句作為模型輸入，提出BiGRU－Attention－CapsNet 模型，將全局特征和局部特征進(jìn)行融合，在罪名預(yù)測(cè)和28 類刑期預(yù)測(cè)的準(zhǔn)確率上都有所提升。在未來(lái)的工作中，可以考慮引入外部法律知識(shí)庫(kù)或融合更多知識(shí)模型。實(shí)際司法過(guò)程中，刑期還受到許多因素的影響，如被告和受害者的年齡，是否存在自首行為等。因此，在刑期預(yù)測(cè)中還可以添加命名實(shí)體識(shí)別和實(shí)體關(guān)系提取等技術(shù)，以提高預(yù)測(cè)的準(zhǔn)確率。