亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向刑事裁判文書的罪名自動(dòng)預(yù)測(cè)技術(shù)

        2019-12-13 07:18:08李艾林
        中文信息 2019年11期

        李艾林

        摘 要:法律文書智能化處理作為司法人工智能技術(shù)的基礎(chǔ)工作,特別是基于裁判文書的法律判決預(yù)測(cè)逐漸引起自然語(yǔ)言處理領(lǐng)域?qū)W者的關(guān)注。罪名預(yù)測(cè)作為是法律判決預(yù)測(cè)的重要子任務(wù),決定著自動(dòng)量刑、案件推薦等任務(wù)的準(zhǔn)確率。本文以海量的刑事裁判文書為數(shù)據(jù)集,利用HanLP對(duì)裁判文書文本進(jìn)行分詞和詞性標(biāo)注,再借助word2vec工具訓(xùn)練詞向量進(jìn)行文本表示,通過對(duì)比實(shí)驗(yàn)SVM-TFIDF和深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)(DPCNN)算法實(shí)現(xiàn)罪名預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文方法能夠較好的實(shí)現(xiàn)罪名自動(dòng)預(yù)測(cè)。

        關(guān)鍵詞:司法人工智能 自然語(yǔ)言處理 罪名預(yù)測(cè) 深度神經(jīng)網(wǎng)絡(luò)

        中圖分類號(hào):DF81文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-9082(2019)11-0-02

        公正是法治的生命,證據(jù)是訴訟的靈魂。但是,在傳統(tǒng)的司法領(lǐng)域中,由于各種主客觀因素的影響,不可避免的會(huì)出現(xiàn)量刑偏差。近年來,研究人員開始在法律的背景下應(yīng)用人工智能(artificial intelligence , AI)技術(shù)來補(bǔ)充和增強(qiáng)法律[1]。隨著司法人工智能技術(shù)的不斷融合發(fā)展,希望能進(jìn)一步防范冤假錯(cuò)案、避免“類案不同判”、破解“案多人少”難題。

        近些年,基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)快速發(fā)展,利用深度學(xué)習(xí)算法解決諸如分詞、詞性標(biāo)注、機(jī)器翻譯、信息抽取、分類、自動(dòng)摘要等問題的模型逐漸成為研究主流。法律判決預(yù)測(cè) (legal judgment prediction, LJP )是一項(xiàng)自然語(yǔ)言處理技術(shù)在法律領(lǐng)域上的應(yīng)用,不僅能夠提高法律專業(yè)人士的工作效率、給予更加專業(yè)的法律建議,而且能打消部分技術(shù)壁壘,使得公眾更為廣泛的了解法律知識(shí),清楚案件形勢(shì)。本文主要研究法律判決預(yù)測(cè)環(huán)節(jié)中的罪名預(yù)測(cè)子任務(wù),通過神經(jīng)網(wǎng)絡(luò)模型研究適用于司法文書罪名自動(dòng)預(yù)測(cè)。

        一、相關(guān)工作

        罪名預(yù)測(cè)指機(jī)器在分析案件事實(shí)描述之后預(yù)測(cè)法律案件的罪名,如欺詐、盜竊或殺人等罪名。目前,大多數(shù)現(xiàn)有工作都是在文本分類框架下進(jìn)行研究,由于公開案例的局限性,早期工作通常對(duì)少數(shù)案例的判決結(jié)果進(jìn)行統(tǒng)計(jì)分析,而不是進(jìn)行預(yù)測(cè)。隨著機(jī)器學(xué)習(xí)的發(fā)展,越來越多的法律研究工作采用機(jī)器學(xué)習(xí)的方法提取稀疏特征解決罪名預(yù)測(cè)問題。Liu 等人[5]在罪名預(yù)測(cè)任務(wù)中考慮了短語(yǔ)特征信息。 Lin 等人[4]融合21種法律要素解決案例分類問題。Luo等人[2]采用基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型在罪名預(yù)測(cè)任務(wù)中融入法條信息,使罪名預(yù)測(cè)更具有合理性。Hu 等人[3]把罪名分為10大類,通過人工將相關(guān)罪名屬性信息進(jìn)行標(biāo)記,在此基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)模型解決易混淆罪名問題。

        二、裁判文書數(shù)據(jù)處理

        1.數(shù)據(jù)說明

        本項(xiàng)目采用 CAIL2018 發(fā)布裁判文書數(shù)據(jù),該數(shù)據(jù)由 2676075 份刑事裁判文書、183條刑法條文、202 條罪名以及刑期等相關(guān)信息組成,每份裁判文書結(jié)構(gòu)良好分為若干個(gè)部分,如案件事實(shí)描述、法院觀點(diǎn)、當(dāng)事人、判決結(jié)果和其他信息;然后將刑事裁判數(shù)據(jù)集進(jìn)行劃分,劃分策略為訓(xùn)練集(97%)和驗(yàn)證集(3%)。上述裁判文書數(shù)據(jù)分布很不均勻,例如在罪名分布中,盜竊和故意傷害罪名占數(shù)據(jù)的大部分,而引誘和敲詐勒索罪名占數(shù)據(jù)的很少一部分,這個(gè)問題也為罪名預(yù)測(cè)的準(zhǔn)確分析提供了難度。

        2.數(shù)據(jù)預(yù)處理

        裁判文書屬于文本數(shù)據(jù),文本由各類字詞句構(gòu)成,每類裁判文書文本經(jīng)過分詞之后,均有部分字詞對(duì)于裁判文書的主題無關(guān),如:“判決書”,“意見書”等司法術(shù)語(yǔ)占 90%以上。為了提高后續(xù)模型訓(xùn)練效率和準(zhǔn)確率,必須去除主題無關(guān)和無意義的詞匯數(shù)據(jù)質(zhì)量很大程度地影響后續(xù)模型的訓(xùn)練效果,為提高數(shù)據(jù)質(zhì)量,本文對(duì)裁判文書進(jìn)行大量的預(yù)處理工作。首先是數(shù)據(jù)清洗,去除一些無效樣本。其次,根據(jù)分詞和分句的分析結(jié)果,對(duì)部分詞語(yǔ)以及一些無效短句作為停用詞予以去除。再次,將大量的干擾信息進(jìn)行歸一化處理。

        3.文本表示

        文字是人類認(rèn)知過程中產(chǎn)生的高層認(rèn)知抽象實(shí)體,因此,需要將其轉(zhuǎn)換為計(jì)算機(jī)可以處理的數(shù)據(jù)類型,即向量。目前文本表示主要包括兩類方法one hot encoding和word-embedding方法。其中,one hot encoding方法主要應(yīng)用的詞袋模型(BOW)+TF-IDF技術(shù),優(yōu)點(diǎn)是簡(jiǎn)單粗暴配合LR效果也不賴,缺點(diǎn)也明顯,維度太高且有詞義鴻溝問題,不適合大語(yǔ)料。word-embedding方法中的word2vec +TF-IDF加權(quán)平均方法訓(xùn)練詞向量效率和效果均表現(xiàn)不俗,首先通過word2vec訓(xùn)練詞向量,再通過簡(jiǎn)單的詞加權(quán)/關(guān)鍵tag加權(quán)/tf-idf加權(quán)平均得到文檔向量表示。根據(jù)當(dāng)前研究熱點(diǎn),結(jié)合本文數(shù)據(jù)體量要求,本文采用word2vec進(jìn)行文本表示。

        三、學(xué)習(xí)模型

        本文借鑒劉宗林等[6]的相關(guān)工作進(jìn)行學(xué)習(xí)模型的建立。裁判文書中都是基于段落對(duì)案情進(jìn)行描述的,而段落由一系列句子組成。那么,段落編碼問題可以轉(zhuǎn)換對(duì)詞和句子進(jìn)行序列編碼,即基于詞級(jí)別的序列編碼和詞級(jí)別的注意力機(jī)制和基于句子級(jí)別的序列編碼和句子級(jí)別的注意力機(jī)制。

        為了能夠充分捕捉文本上下文特征信息,本文采用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(bi-directional long short-term memory , BiLSTM)對(duì)詞和句子進(jìn)行編碼。那么,對(duì)于案情描述可以進(jìn)行這樣輸入: ,則詞的向量集合 作為神經(jīng)網(wǎng)絡(luò)模型的輸入。那么,將詞向量集合經(jīng)過式(1)得到BiLSTM的隱層向量表示。

        為了解決BiLSTM隱層向量對(duì)詞語(yǔ)重要程度信息缺失的問題,本文利用注意力機(jī)制(attention)得到詞級(jí)別的向量表示。注意力機(jī)制的計(jì)算公式如下:

        式(2)中,N表示詞的數(shù)量;g表示最終的向量; 表示詞的貢獻(xiàn)度值;W是權(quán)重矩陣; 表示全局向量,以達(dá)到區(qū)分有信息詞和無信息詞。其中,初始值利用隨機(jī)初始化形式產(chǎn)生,并且在訓(xùn)練過程中不斷進(jìn)行權(quán)值更新,BiLSTM 的隱層向量表示作為輸入。

        采用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),先利用式(3)的Softmax計(jì)算金標(biāo)答案概率;最后再采用式(4)的交叉熵?fù)p失函數(shù)計(jì)算真實(shí)概率分布與預(yù)測(cè)概率分布的差距。

        四、實(shí)驗(yàn)及結(jié)果分析

        1.實(shí)驗(yàn)設(shè)置

        目前,自然語(yǔ)言處理研究領(lǐng)域成熟的分詞工具包括 JieBa、HanLP、LTP;由于缺乏法言法語(yǔ)專用詞典,那么在沒有詞典的情況下,HanLp 的分詞效果最佳。因此,本文采用HanLP分詞器(http://hanlp.com/)對(duì)案情描述進(jìn)行中文分詞。使用Word2vec在CAIL2018全部數(shù)據(jù)集上訓(xùn)練外部詞向量。詞向量中的向量維度設(shè)置為200,BiLSTM隱層維度設(shè)置為200, Dropout值設(shè)置為0.5,批處理大小為70,優(yōu)化器采用的是Adam ( adaptive moment estimation ),學(xué)習(xí)率為0.001。

        2.評(píng)價(jià)方法

        刑事裁判文書數(shù)據(jù)存在數(shù)據(jù)分布不平衡問題,僅有不足300條訓(xùn)練數(shù)據(jù)的罪名數(shù)量占到50%以上,而有3000條以上訓(xùn)練數(shù)據(jù)的罪名僅有7個(gè)。因此,本文采用分類任務(wù)中的微平均F1值(Micro-F1-measure)、宏平均F1值(Macro-F1- measure) 以及這上述兩類的平均值作為模型的評(píng)價(jià)指標(biāo)作為模型評(píng)價(jià)指標(biāo)。

        3.實(shí)驗(yàn)?zāi)P?/p>

        實(shí)驗(yàn)中采用以下模型進(jìn)行對(duì)比分析:

        SVM-TFIDF:利用TF-IDF抽取案情描述部分的特征信息。其中 TF-IDF 提取的特征個(gè)數(shù)設(shè)置為5000,并且使SVM 作為分類器。

        DPCNN:它能夠?qū)W習(xí)更復(fù)雜的非線性特征,提取更深層次特征,從而高效地建立長(zhǎng)距離文本的語(yǔ)義。

        4.實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)結(jié)果如表(1)所示,本文采用了SVM-TFIDF 和DPCNN模型對(duì)罪名預(yù)測(cè)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于DPCNN罪名預(yù)測(cè)模型的罪名預(yù)測(cè)的性能較好。但是,實(shí)驗(yàn)中仍然存在一些罪名的預(yù)測(cè)準(zhǔn)確率不高的問題,比如對(duì)破壞交通設(shè)施罪名的預(yù)測(cè)。通過對(duì)實(shí)驗(yàn)進(jìn)一步的研究發(fā)現(xiàn),破壞交通設(shè)施的訓(xùn)練數(shù)據(jù)不足100條,而其他幾個(gè)罪名的至少300條訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)極度不均衡。 因此,本文方法在訓(xùn)練數(shù)據(jù)不足的情況下還不能達(dá)到很好的效果。

        另外,本文通過對(duì)預(yù)測(cè)結(jié)果的觀察,發(fā)現(xiàn)導(dǎo)致實(shí)驗(yàn)結(jié)果準(zhǔn)確度不高的另外一個(gè)原因是存在大量的易混淆罪名案例,實(shí)驗(yàn)?zāi)P蜔o法辨識(shí),例如存在很多的盜竊案例被預(yù)測(cè)成為非法侵入住宅。

        五、結(jié)論

        本文借助自然語(yǔ)言處理相關(guān)技術(shù)理論,基本實(shí)現(xiàn)了對(duì)裁判文書罪名的自動(dòng)預(yù)測(cè),但是實(shí)驗(yàn)過程中仍然存在諸多問題,如訓(xùn)練資源不均衡、易混淆罪名等。接下來,本文將圍繞兩方面工作進(jìn)行開展,首先,對(duì)相關(guān)算法和模型進(jìn)行對(duì)比實(shí)驗(yàn)分析并及時(shí)優(yōu)化;其次,建立優(yōu)質(zhì)的覆蓋面廣的刑事案件術(shù)語(yǔ)詞匯庫(kù)。

        參考文獻(xiàn)

        [1]Firat O , Cho K , Sankaran B , et al. Multi-way, multilingual neural machine translation[J]. Computer Speech & Language, 2016:S0885230816301097.

        [2]Luo B , Feng Y , Xu J , et al. Learning to Predict Charges for Criminal Cases with Legal Basis[J]. 2017.

        [3]Zikun Hu, Xiang Li, Cunchao Tu, Zhiyuan Liu, and Maosong Sun. 2018. Few-shot charge prediction with discriminative legal attributes[J]. In Proceedings of COLING.

        [4]Liu C L , Hsieh C D . Exploring Phrase-Based Classification of Judicial Documents for Criminal Charges in Chinese[C]// International Conference on Foundations of Intelligent Systems. Springer-Verlag, 2006.

        [5]LIN W C , KUO T T , CHANG T J.Exploiting machine learning models for Chinese legal documents labeling, case classification , and sentencing prediction [C]// Proceedings of the 24th Conference on Computational Linguistics and Speech Processing (ROCLING 2012) .Chung-Li, Taiwan, China :ACL-CLP, 2012: 140-141.

        [6] 劉宗林, 張梅山, 甄冉冉,等.融入罪名關(guān)鍵詞的法律判決預(yù)測(cè)多任務(wù)學(xué)習(xí)模型[J]. 清華大學(xué)學(xué)報(bào) (自然科學(xué)版), 2019,59(7):497-503.

        第一九区另类中文字幕| 中文字幕一区二区三区四区在线| 中文字幕有码高清| 亚洲午夜经典一区二区日韩 | 日本大肚子孕妇交xxx| 少妇饥渴xxhd麻豆xxhd骆驼| 亚洲日本在线电影| 国产女高清在线看免费观看| 成人一区二区三区蜜桃| 久久精品亚洲熟女av蜜謦 | 国产在线精品一区二区三区不卡| 在线观看免费人成视频| 亚洲成片在线看一区二区| 久久精品亚洲熟女av麻豆| 性生交片免费无码看人| 暖暖免费 高清 日本社区在线观看| 国产在线观看精品一区二区三区| 少妇高潮精品在线观看| 亚洲国产精品久久电影欧美| 亚洲一区二区三区国产精华液| 色优网久久国产精品| 国产高清精品一区二区| 丰满少妇被粗大的猛烈进出视频| 美女在线国产| 中文字幕一区二区区免| 国产精品日日做人人爱| 免费a级毛片无码a∨免费软件| 欧美性爱一区二区三区无a| 久久老熟女一区二区三区| 蜜臀亚洲av无码精品国产午夜.| 婷婷综合缴情亚洲| 不打码在线观看一区二区三区视频| 国产精品亚洲精品国产| 午夜福利试看120秒体验区| XXXXBBBB欧美| 日韩精品人妻一区二区三区蜜桃臀| 亚洲一区二区三区国产| 伊人久久大香线蕉av网禁呦| 亚洲精品黄网在线观看| 免费观看一区二区三区视频| 99久热在线精品视频观看|