亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合多源分析的罪名預(yù)測(cè)研究

        2023-02-28 09:20:18毛國(guó)慶林鴻飛
        關(guān)鍵詞:文本實(shí)驗(yàn)模型

        彭 韜,楊 亮,張 琍,毛國(guó)慶,林鴻飛,任 璐

        1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024

        2.北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所,北京 100854

        3.北京國(guó)雙科技有限公司,北京 100083

        隨著人工智能的發(fā)展和司法信息化體系的構(gòu)建,運(yùn)用人工智能解決司法領(lǐng)域的需求成為近年來(lái)自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。一系列人工智能在法律行業(yè)的應(yīng)用被提出,例如法律判決預(yù)測(cè)、法律檢索、法律文件生成等應(yīng)用場(chǎng)景[1-3],這些法律人工智能應(yīng)用與云平臺(tái)和人機(jī)對(duì)話等技術(shù)結(jié)合,催生出在線法律服務(wù)、法律智能客服等新的法律電商平臺(tái)LegalZoom、法信等,正逐步改變現(xiàn)在的法律服務(wù)市場(chǎng)。法律人工智能一方面可以為司法工作者提供輔助服務(wù),如法律文書(shū)的整理分析和生成,簡(jiǎn)化司法人員的工作流程,另一方面為廣大人民群眾提供便捷、廉價(jià)的法律咨詢(xún)服務(wù),促進(jìn)法律咨詢(xún)行業(yè)標(biāo)準(zhǔn)化、透明化發(fā)展。人工智能在未來(lái)數(shù)十年間將會(huì)引起法律行業(yè)的一場(chǎng)大變革。

        法律判決預(yù)測(cè)一般包括多類(lèi)子任務(wù):罪名預(yù)測(cè)、法條預(yù)測(cè)和刑期預(yù)測(cè)等[4]。本文主要關(guān)注于罪名預(yù)測(cè)任務(wù),該任務(wù)是基于刑事法律文書(shū)中的案情描述和事實(shí)部分,預(yù)測(cè)被告人被判的罪名[5]。因?yàn)樗痉▽?shí)踐中存在被告犯有多個(gè)罪名的情形,所以罪名預(yù)測(cè)一般是多標(biāo)簽文本分類(lèi)問(wèn)題[6-7]?,F(xiàn)有的罪名預(yù)測(cè)研究中使用的刑事法律文書(shū)數(shù)據(jù)集基本來(lái)源于裁判文書(shū),裁判文書(shū)記錄了當(dāng)事人的訴辯主張、認(rèn)定事實(shí)及說(shuō)理部分和主文裁判結(jié)果部分[8]。裁判文書(shū)主要是司法人員在案件審理完成后整理撰寫(xiě)出來(lái)的書(shū)面性文本,精煉客觀地描述了案件的經(jīng)過(guò),是提取案件描述內(nèi)容的優(yōu)質(zhì)數(shù)據(jù)來(lái)源。但是,裁判文書(shū)側(cè)重于對(duì)客觀事實(shí)的描述(如司法鑒定結(jié)果)以及法院推定的案件邏輯,文書(shū)中往往省略了案發(fā)時(shí)雙方的主觀動(dòng)機(jī)以及案件細(xì)節(jié)等因素,而這些因素往往在司法案件中難以確定,且對(duì)案件的判決結(jié)果起關(guān)鍵指導(dǎo)作用。為了進(jìn)一步補(bǔ)充和豐富裁判文書(shū)中的細(xì)節(jié),本文收集了部分裁判文書(shū)對(duì)應(yīng)的庭審文書(shū),結(jié)合裁判文書(shū)和庭審文書(shū)進(jìn)行罪名預(yù)測(cè)。

        針對(duì)目前罪名預(yù)測(cè)數(shù)據(jù)集依賴(lài)于裁判文書(shū),但裁判文書(shū)對(duì)案件細(xì)節(jié)記錄不夠詳實(shí)的問(wèn)題,本文構(gòu)建了一個(gè)裁判文書(shū)和庭審文書(shū)一一對(duì)應(yīng)的多源聯(lián)合分析數(shù)據(jù)集,并實(shí)現(xiàn)了罪名預(yù)測(cè)的部分深度學(xué)習(xí)模型探究單一文書(shū)對(duì)預(yù)測(cè)結(jié)果的影響。最后通過(guò)兩種文書(shū)聯(lián)合分析的實(shí)驗(yàn)結(jié)果,驗(yàn)證了庭審文書(shū)確實(shí)能補(bǔ)充裁判文書(shū)中缺乏的案件細(xì)節(jié),增強(qiáng)模型罪名預(yù)測(cè)的準(zhǔn)確性。

        1 相關(guān)研究

        法律判決預(yù)測(cè)任務(wù)起源于20 世紀(jì)六七十年代,受限于當(dāng)時(shí)的研究手段,主要以統(tǒng)計(jì)方法結(jié)合司法知識(shí),從文書(shū)法條表示、推理決策等角度構(gòu)建系統(tǒng)化的判決預(yù)測(cè)模型[9-11]。基于數(shù)學(xué)模型和法律規(guī)則的這些方法的可解釋性較好,但是模型的預(yù)測(cè)效果卻不甚理想,法律判決任務(wù)還有較大的提升空間。

        隨著司法信息化和人工智能的發(fā)展,研究者逐漸開(kāi)始利用機(jī)器學(xué)習(xí)算法處理法律判決預(yù)測(cè)問(wèn)題,主要思路是手動(dòng)構(gòu)造與提取案情描述的文本特征進(jìn)行文本分類(lèi)。Liu 等[12]收集了12 類(lèi)罪名的刑事訴訟文檔,從這些文檔中提取重要的法律信息構(gòu)建案件實(shí)例,然后通過(guò)k近鄰(k-nearest neighbors,KNN)算法合并相似的案例,提取每一類(lèi)案由的淺層文本特征作為依據(jù),用以對(duì)訴訟文書(shū)進(jìn)行判決預(yù)測(cè)。Sulea 等[13]通過(guò)提取犯罪事件、犯罪事實(shí)和法律依據(jù)等特征構(gòu)建支持向量機(jī)(support vector machine,SVM)分類(lèi)模型,在所構(gòu)建的法國(guó)最高法院司法文書(shū)數(shù)據(jù)集上取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。Lin等[14]將研究重點(diǎn)放在“強(qiáng)盜罪”和“恐嚇取財(cái)罪”兩類(lèi)罪名的區(qū)分上,通過(guò)定義21種法律要素標(biāo)簽,采用條件隨機(jī)場(chǎng)(conditional random field,CRF)模型自動(dòng)化標(biāo)記文書(shū)中涉及的法律要素,將這些手動(dòng)構(gòu)造的特征輸入廣義加性模型進(jìn)行分類(lèi)?;跈C(jī)器學(xué)習(xí)方法的法律判決預(yù)測(cè)主要有兩方面局限性:一方面依賴(lài)于手動(dòng)提取文本特征,這往往需要先驗(yàn)的領(lǐng)域知識(shí)為指導(dǎo)且操作較為繁瑣;另一方面受限于較小的數(shù)據(jù)規(guī)模和有限的案件類(lèi)別,這些機(jī)器學(xué)習(xí)模型往往只能在部分罪名案件類(lèi)別實(shí)現(xiàn)較好的結(jié)果,當(dāng)遷移到其他罪名的案件時(shí),由于不同罪名的案件要素不同,機(jī)器學(xué)習(xí)模型的效果不甚理想,泛化性能較差。

        深度學(xué)習(xí)技術(shù)的興起不僅推動(dòng)了許多自然語(yǔ)言處理應(yīng)用的落地,也為法律判決預(yù)測(cè)提供了新的思路與解決方案。由于深度學(xué)習(xí)規(guī)模對(duì)數(shù)據(jù)的需求量較大,許多大規(guī)模的高質(zhì)量司法文書(shū)數(shù)據(jù)集發(fā)布。以中國(guó)大數(shù)據(jù)司法研究院在2018年“法研杯”法律智能挑戰(zhàn)賽發(fā)布的CAIL2018司法數(shù)據(jù)集[7]影響力最大,其中包含了268萬(wàn)份刑法法律文書(shū),共涉及183 項(xiàng)罪名,極大地促進(jìn)了深度學(xué)習(xí)算法在司法領(lǐng)域的落地與應(yīng)用。一系列文本分類(lèi)算法率先被遷移到法律判決任務(wù)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[15]因其優(yōu)秀的序列建模能力被用于對(duì)文本上下文建模。為了進(jìn)一步增強(qiáng)RNN的長(zhǎng)文本雙向建模能力,長(zhǎng)短期記憶網(wǎng)絡(luò)(long shortterm memory,LSTM)[16]作為RNN的變種在文本分類(lèi)問(wèn)題中性能進(jìn)一步加強(qiáng)。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)因其易并行性和捕捉局部特征的能力,首先被大規(guī)模用在計(jì)算機(jī)視覺(jué)領(lǐng)域。隨著TextCNN[17]模型的提出,CNN才開(kāi)始逐步被用于文本分類(lèi)任務(wù)中。TextCNN 模型利用多個(gè)不同大小的卷積核捕捉文本上下文中的n-gram 特征,通過(guò)池化層提取全局信息中的差異化部分實(shí)現(xiàn)文本建模。深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(deep pyramid CNN,DPCNN)[18]為提升CNN提取深層特征的能力,采用了殘差連接和步長(zhǎng)為2的池化層,使得多層CNN 模型的收斂性能和算法復(fù)雜度都得到了保證。DPCNN模型如圖1所示。Wang等[19]將CNN與LSTM模型相結(jié)合,提出了CRNN(convolutional recurrent neural network)模型用于文本分類(lèi)。

        圖1 深度金字塔卷積神經(jīng)網(wǎng)絡(luò)Fig.1 Deep pyramid convolutional neural network

        許多研究人員對(duì)罪名預(yù)測(cè)任務(wù)也研發(fā)了許多特定的深度學(xué)習(xí)模型。Jiang等[20]2018年在ACL會(huì)議上提出了一種基于深度強(qiáng)化學(xué)習(xí)的罪名預(yù)測(cè)模型,該模型可以提取案件描述中的關(guān)鍵性要素,模型的可解釋性和實(shí)驗(yàn)性能都獲得了較好的實(shí)驗(yàn)結(jié)果。Xu等[21]針對(duì)易混淆罪名的語(yǔ)義相似導(dǎo)致錯(cuò)誤分類(lèi)的問(wèn)題,使用了圖蒸餾算子計(jì)算相似罪名之間的差異化信息,再通過(guò)注意力機(jī)制[22]提取這些差異化信息,提高了CAIL2018 數(shù)據(jù)集上罪名預(yù)測(cè)任務(wù)的準(zhǔn)確率。以上工作主要是基于單一的裁判文書(shū)進(jìn)行,但裁判文書(shū)只對(duì)案件進(jìn)行了概括性描述,內(nèi)容不夠全面詳實(shí)。

        2 多源聯(lián)合分析數(shù)據(jù)集構(gòu)建

        2.1 多源數(shù)據(jù)集構(gòu)建

        為了進(jìn)一步擴(kuò)充數(shù)據(jù)來(lái)源,本文選擇司法信息化程度較高的上海市,從上海法院網(wǎng)的網(wǎng)絡(luò)直播板塊(http://shfy.chinacourt.gov.cn/chat/more/state/4/page/1.shtml)中收集了上海市地區(qū)的高質(zhì)量庭審對(duì)話文本,包含了上海市14個(gè)區(qū)人民法院以及上海市第一、第二、鐵路運(yùn)輸中級(jí)人民法院的4 863 個(gè)案件,時(shí)間跨度從2010 年3 月至2020 年8 月。本文依據(jù)庭審文書(shū)的時(shí)間、法院名、罪名等要素,在中國(guó)裁判文書(shū)網(wǎng)(https://wenshu.court.gov.cn/)上檢索對(duì)應(yīng)的裁判文書(shū),將庭審文書(shū)與裁判文書(shū)一一對(duì)應(yīng),總計(jì)獲得2 647個(gè)相互匹配的案件文書(shū),其中包含刑事案件1 743個(gè),民事案件820個(gè),以及行政案件84個(gè)。刑事案件案由占比如圖2所示。

        圖2 刑事案件案由分布Fig.2 Distribution of criminal cases

        本文主要研究罪名預(yù)測(cè)任務(wù)。鑒于民事案件主要是關(guān)于民事權(quán)利、義務(wù)性質(zhì)的糾紛,不涉及罪名判決,因此只選擇刑事案件數(shù)據(jù)展開(kāi)后續(xù)研究。

        2.2 數(shù)據(jù)篩選與標(biāo)注

        由于多人多節(jié)案件涉及的作案主體比較復(fù)雜,本文參考CAIL2018 數(shù)據(jù)集的形式,進(jìn)一步篩選了單人犯罪案件1 426起,針對(duì)這些案件,結(jié)合裁判文書(shū)與庭審文書(shū)一一標(biāo)注其罪名。因?yàn)閿?shù)據(jù)規(guī)模比較有限,本文標(biāo)注完成后發(fā)現(xiàn)所有案件均只涉及單一罪名,不存在數(shù)罪并罰的情況,所以本文的罪名預(yù)測(cè)任務(wù)為單標(biāo)簽分類(lèi)任務(wù),不同于CAIL2018中的多標(biāo)簽分類(lèi)。

        本文運(yùn)用正則表達(dá)式進(jìn)一步去除裁判文書(shū)和庭審文書(shū)中出現(xiàn)的罪名,并考慮到法律條文與罪名之間可能有較強(qiáng)的關(guān)聯(lián)關(guān)系,因此本文也進(jìn)一步去除了所有正則匹配成功的法律條文信息,從而本數(shù)據(jù)集中裁判文書(shū)和庭審文書(shū)中所有罪名均用“###”符號(hào)替代,所有法律條文均用“$$$”符號(hào)替代。對(duì)標(biāo)注后的1 426 條數(shù)據(jù)統(tǒng)計(jì)分析后,發(fā)現(xiàn)數(shù)據(jù)集分布極不均衡,部分罪名(例如非法狩獵、偷越國(guó)邊境等)出現(xiàn)頻次極低,不超過(guò)5 次,對(duì)后續(xù)劃分?jǐn)?shù)據(jù)集和模型預(yù)測(cè)都會(huì)造成較大困難。為更好地驗(yàn)證多源聯(lián)合分析數(shù)據(jù)集的有效性,將罪名出現(xiàn)頻次30次以下的數(shù)據(jù)全部篩去,最終保留了1 104條數(shù)據(jù),其中涉及了8類(lèi)罪名,各類(lèi)罪名對(duì)應(yīng)的數(shù)據(jù)規(guī)模如表1所示。

        表1 刑事案件罪名分布Table 1 Distribution of crimes in criminal cases

        2.3 多源數(shù)據(jù)分析

        本文針對(duì)裁判文書(shū)和庭審文書(shū)進(jìn)行了一些初步的統(tǒng)計(jì)分析,統(tǒng)計(jì)分析結(jié)果如表2 所示,其中詞表大小為采用jieba分詞工具的精確模式分詞后統(tǒng)計(jì)得出。從統(tǒng)計(jì)數(shù)據(jù)中不難分析得出,庭審文書(shū)的文本長(zhǎng)度普遍長(zhǎng)于裁判文書(shū),且平均文本長(zhǎng)度相差了7.8倍,從詞表大小亦可觀察出庭審文書(shū)的詞匯更加豐富,可能與庭審文書(shū)中較多的口語(yǔ)化表達(dá)有關(guān)。

        表2 裁判文書(shū)與庭審文書(shū)文本特征統(tǒng)計(jì)值Table 2 Statistical values of text characteristics of judgment documents and court documents

        為進(jìn)一步分析兩類(lèi)文書(shū)的區(qū)別,本文選取了一個(gè)故意傷害案件作為樣例,由于文本長(zhǎng)度過(guò)長(zhǎng),只節(jié)選了部分內(nèi)容,裁判文書(shū)全文和庭審文書(shū)全文鏈接已給出。示例如圖3所示。

        圖3 裁判文書(shū)與庭審文書(shū)示例Fig.3 Examples of judgment document and court document

        庭審文書(shū)主要由審判員、公訴人、被告人、辯護(hù)人等的對(duì)話內(nèi)容組成,依據(jù)司法機(jī)關(guān)提供的各項(xiàng)證據(jù),公訴人對(duì)被告人提出對(duì)案件關(guān)鍵細(xì)節(jié)的質(zhì)詢(xún),而被告人和辯護(hù)人為自己的動(dòng)機(jī)和行為等進(jìn)行辯護(hù),審判員則通過(guò)雙方提供的信息挖掘案件事實(shí)進(jìn)行司法判決。從圖3 中裁判文書(shū)與庭審文書(shū)的對(duì)比可以看出,裁判文書(shū)對(duì)案件的概述較為精煉簡(jiǎn)潔,而庭審文書(shū)對(duì)案件動(dòng)機(jī)、案發(fā)過(guò)程、案后處理等多個(gè)角度進(jìn)行了補(bǔ)充,一方面為司法人員的審判提供了細(xì)節(jié),另一方面庭審文書(shū)為實(shí)現(xiàn)基于庭審過(guò)程的法律判決人工智能系統(tǒng)提供了新的可能。

        3 模型訓(xùn)練與結(jié)果分布

        為了驗(yàn)證本文構(gòu)建的多源聯(lián)合分析罪名預(yù)測(cè)數(shù)據(jù)集的效果,在該數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)及分析。

        3.1 實(shí)驗(yàn)設(shè)置

        數(shù)據(jù)集劃分:本文在上一節(jié)構(gòu)造的數(shù)據(jù)集的基礎(chǔ)上按照每一類(lèi)罪名85%、5%、15%的比例劃分了訓(xùn)練集、驗(yàn)證集、測(cè)試集,數(shù)據(jù)規(guī)模如表3所示。

        表3 數(shù)據(jù)集分布Table 3 Dataset distribution

        評(píng)價(jià)指標(biāo):本文采用的評(píng)價(jià)指標(biāo)參考CAIL2018 評(píng)測(cè)中罪名預(yù)測(cè)的評(píng)價(jià)指標(biāo)[23],假定數(shù)據(jù)集中共有M類(lèi)罪名,對(duì)每一類(lèi)罪名i,計(jì)算得出TPi(真陽(yáng)性)、TNi(真陰性)、FPi(假陽(yáng)性)、FNi(假陰性)。宏平均指標(biāo)計(jì)算公式如下:

        微平均指標(biāo)計(jì)算公式如下:

        3.2 基線模型

        本文主要實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的基線模型。

        3.2.1 基于機(jī)器學(xué)習(xí)的模型

        機(jī)器學(xué)習(xí)方法主要采取了數(shù)據(jù)預(yù)處理、特征工程和模型選擇三個(gè)步驟。數(shù)據(jù)預(yù)處理主要包括分詞、去除停用詞等步驟。特征工程主要提取句子中的一元分詞(unigram)和二元分詞(bigram)的詞頻逆文檔頻率(TFIDF)。模型選擇部分本文選擇了以下四個(gè)機(jī)器學(xué)習(xí)算法:

        (1)支持向量機(jī)(SVM)[24]

        (2)基于高斯分布先驗(yàn)的樸素貝葉斯(Gaussian naive Bayes,GNB)[25]

        (3)梯度提升樹(shù)(gradient boosting decision tree,GBDT)[26]

        (4)隨機(jī)森林(random forest classifier,RFC)[27]

        3.2.2 基于深度學(xué)習(xí)的模型

        LSTM[16]:先用一個(gè)雙向LSTM 得到句子的上下文表示,然后通過(guò)兩層LSTM提取高層語(yǔ)義特征,取序列尾部的隱層向量送入分類(lèi)器分類(lèi)。

        TextCNN[17]:使用大小分別為2、3、4、5 的一維卷積核建模文本的局部特征,再通過(guò)最大池化層提取特征,拼接不同卷積核的特征后送入分類(lèi)器分類(lèi)。

        DPCNN[18]:如圖1所示。

        CRNN[19]:用CNN提取局部特征后,通過(guò)兩層LSTM提取序列特征,取序列尾部的隱層向量送入分類(lèi)器分類(lèi)。

        3.2.3 超參數(shù)設(shè)置

        本文采用基于百度百科預(yù)訓(xùn)練的中文300 維詞向量[28],學(xué)習(xí)率為0.000 3,訓(xùn)練最大輪次為50 輪,dropout值為0.5。LSTM的隱藏層維度為256,由于裁判文書(shū)和庭審文書(shū)的長(zhǎng)度不同,LSTM 針對(duì)兩類(lèi)文本的最大序列長(zhǎng)度分別設(shè)置為300 和2 000。CNN 的輸出通道數(shù)為250。

        3.3 實(shí)驗(yàn)結(jié)果

        綜合分析表4實(shí)驗(yàn)結(jié)果,可以得出一些結(jié)論:(1)基于深度學(xué)習(xí)的模型效果遠(yuǎn)高于機(jī)器學(xué)習(xí)的方法,說(shuō)明在判決預(yù)測(cè)任務(wù)上深度學(xué)習(xí)方法確實(shí)提取特征的能力更強(qiáng)。(2)機(jī)器學(xué)習(xí)方法中,梯度提升樹(shù)算法的效果遠(yuǎn)優(yōu)于其他機(jī)器學(xué)習(xí)算法,但與深度學(xué)習(xí)算法的表現(xiàn)尚有一段差距。(3)深度學(xué)習(xí)算法中卷積神經(jīng)網(wǎng)絡(luò)類(lèi)算法的整體表現(xiàn)優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)的表現(xiàn),其中TextCNN模型表現(xiàn)最佳,說(shuō)明裁判文書(shū)中的局部特征對(duì)于罪名預(yù)測(cè)任務(wù)有重要價(jià)值。

        表4 裁判文書(shū)罪名預(yù)測(cè)分類(lèi)實(shí)驗(yàn)結(jié)果Table 4 Experimental results of charge prediction classification of judgment documents

        結(jié)合表4 與表5 的實(shí)驗(yàn)結(jié)果,可以得出一些新的結(jié)論:(1)庭審文書(shū)的實(shí)驗(yàn)結(jié)果與裁判文書(shū)對(duì)比可發(fā)現(xiàn),整體上實(shí)驗(yàn)結(jié)果遜色于裁判文書(shū)的結(jié)果。這可能由兩部分原因構(gòu)成,一是庭審文書(shū)的文本長(zhǎng)度較長(zhǎng),且表達(dá)過(guò)于口語(yǔ)化,這對(duì)于模型的文本建模能力提出了巨大挑戰(zhàn),二是庭審文書(shū)中部分?jǐn)?shù)據(jù)記錄并不十分詳細(xì),只記錄了一些司法審判的程序性對(duì)話內(nèi)容,不包含案件的細(xì)節(jié)性信息。(2)LSTM 模型和CRNN 模型在裁判文書(shū)上效果較好,但是在庭審文書(shū)上模型效果崩潰。這可能是由于庭審文書(shū)文本長(zhǎng)度過(guò)長(zhǎng),循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間步上進(jìn)行反向梯度傳播時(shí)會(huì)導(dǎo)致梯度消失,從而導(dǎo)致模型參數(shù)無(wú)法得到有效訓(xùn)練。(3)Text-CNN 模型和DPCNN 模型依然表現(xiàn)最為良好,說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)較適用于長(zhǎng)文本的建模,也表明了庭審文書(shū)在一定程度上也可以作為罪名預(yù)測(cè)的原始文本,盡管其效果遜色于裁判文書(shū),但是庭審文書(shū)不需要專(zhuān)業(yè)的司法人員撰寫(xiě),獲取成本較低,可作為切入罪名預(yù)測(cè)任務(wù)的另一角度。

        表5 庭審文書(shū)罪名預(yù)測(cè)分類(lèi)實(shí)驗(yàn)結(jié)果Table 5 Experimental results of charge prediction classification of court documents

        為研究裁判文書(shū)和庭審文書(shū)的互補(bǔ)性,本文進(jìn)一步結(jié)合兩類(lèi)文本進(jìn)行罪名預(yù)測(cè)研究。對(duì)于機(jī)器學(xué)習(xí)模型,本文將兩個(gè)文本拼接起來(lái)輸入到機(jī)器學(xué)習(xí)模型中。對(duì)于深度學(xué)習(xí),鑒于循環(huán)神經(jīng)網(wǎng)絡(luò)在長(zhǎng)文本中的不佳表現(xiàn),且其訓(xùn)練時(shí)間較長(zhǎng),因此未進(jìn)行相關(guān)實(shí)驗(yàn)。而Text-CNN 和DPCNN 模型,則分別建模兩個(gè)文書(shū)后,拼接其隱藏層向量再送入分類(lèi)器分類(lèi)。實(shí)驗(yàn)結(jié)果如表6所示。

        表6 裁判文書(shū)結(jié)合庭審文書(shū)罪名預(yù)測(cè)分類(lèi)實(shí)驗(yàn)結(jié)果Table 6 Experimental results of charge prediction classification of judgement documents combining court documents

        從表6 實(shí)驗(yàn)結(jié)果可看出:(1)SVM、GNB 和RFC 模型效果相較于單一的庭審文書(shū)的結(jié)果略有上升,但是較單一的裁判文書(shū)的結(jié)果相差較遠(yuǎn)。這可能是兩類(lèi)文本拼接會(huì)導(dǎo)致“噪聲”,“噪聲”對(duì)模型的影響占主導(dǎo)作用。(2)對(duì)于GBDT、TextCNN和DPCNN這些文本建模能力較強(qiáng)的模型,兩類(lèi)文本聯(lián)合分析的實(shí)驗(yàn)結(jié)果優(yōu)于任一單一文本的實(shí)驗(yàn)結(jié)果。說(shuō)明庭審文書(shū)確實(shí)在一定程度上豐富了裁判文書(shū)的信息,兩者具有一定的互補(bǔ)關(guān)系,也側(cè)面驗(yàn)證了GBDT、TextCNN和DPCNN模型的魯棒性,能夠消除兩類(lèi)文本中的“噪聲”因素,提取有效的司法語(yǔ)義信息。

        3.4 消融實(shí)驗(yàn)

        為研究不同領(lǐng)域的預(yù)訓(xùn)練詞向量對(duì)模型的影響,本文采用Li等人[26]在百度百科、人民日?qǐng)?bào)和微博等語(yǔ)料上預(yù)訓(xùn)練的詞向量,分別評(píng)估對(duì)實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 詞向量對(duì)模型的影響Fig.4 Influence of word vector on model

        分析圖4可得:(1)對(duì)裁判文書(shū)分析,人民日?qǐng)?bào)詞向量的實(shí)驗(yàn)結(jié)果最好,微博詞向量的實(shí)驗(yàn)結(jié)果不佳,可能是由于裁判文書(shū)與人民日?qǐng)?bào)都是書(shū)面性表達(dá)。(2)對(duì)庭審文書(shū)分析,微博詞向量表現(xiàn)最佳,人民日?qǐng)?bào)詞向量表現(xiàn)不佳,這可能是由于庭審文書(shū)與微博均為口語(yǔ)性表達(dá)。(3)對(duì)兩類(lèi)文書(shū)聯(lián)合分析時(shí),百度百科詞向量結(jié)果表現(xiàn)最佳,可能是由于百度百科詞向量的詞匯覆蓋度較好,能夠兼顧兩類(lèi)文書(shū)的詞匯表達(dá)進(jìn)行向量表示。

        4 結(jié)束語(yǔ)

        針對(duì)目前罪名預(yù)測(cè)任務(wù)主要基于單一的裁判文書(shū),可能存在案件細(xì)節(jié)缺失的問(wèn)題,本文構(gòu)建了一個(gè)結(jié)合裁判文書(shū)和庭審文書(shū)的多源聯(lián)合分析司法罪名預(yù)測(cè)數(shù)據(jù)集,并采用了一系列機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型驗(yàn)證兩類(lèi)文書(shū)在罪名預(yù)測(cè)任務(wù)中的作用。實(shí)驗(yàn)結(jié)果表明,兩類(lèi)文書(shū)在信息上確實(shí)存在一定的互補(bǔ)性,可以提升罪名預(yù)測(cè)任務(wù)的準(zhǔn)確性。

        在下一步工作中,將從兩方面延續(xù)本文的研究?jī)?nèi)容:(1)繼續(xù)挖掘庭審文書(shū)中的多人對(duì)話文本結(jié)構(gòu),嘗試采用一些對(duì)話建模技術(shù)進(jìn)一步提升分析庭審文書(shū)的能力。(2)將該數(shù)據(jù)集的任務(wù)繼續(xù)拓展到法條預(yù)測(cè)、刑期預(yù)測(cè)、司法問(wèn)答等其他法律智能領(lǐng)域之中,以新的角度看待法律智能面臨的各個(gè)問(wèn)題,進(jìn)一步促進(jìn)法律人工智能的落地與應(yīng)用。

        猜你喜歡
        文本實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        少妇无码av无码去区钱| 久久国产加勒比精品无码| 国产熟人av一二三区| 国产精品原创巨作av无遮| 亚洲中文有码一区二区| 亚洲av手机在线网站| 男女做爰猛烈啪啪吃奶动| 91久久青青草原线免费| 亚洲人av毛片一区二区| 日本久久久免费观看视频| 国产又色又爽又高潮免费视频麻豆| 牛鞭伸入女人下身的真视频| 波多野结衣一区二区三区免费视频| 白白色日韩免费在线观看| 无套熟女av呻吟在线观看| 亚洲欧美日韩人成在线播放| 伊人婷婷色香五月综合缴激情 | 欧美性猛交xxxx乱大交蜜桃| 亚洲无码毛片免费视频在线观看 | 亚洲色图三级在线观看| 无人视频在线观看免费播放影院| 亚洲色成人网站www观看入口| 日本人妻伦理片在线观看| 日韩精品第一区二区三区| 疯狂撞击丝袜人妻| 亚州无线国产2021| 亚洲激情视频在线观看a五月| 亚洲国产精品综合久久网络 | 噜噜噜噜私人影院| 亚洲精品久久久无码av片软件| 久久国产精品99精品国产987| 精品国产亚洲av高清日韩专区| 久久人妻少妇嫩草av| 中文字幕精品无码一区二区| 国产成人精品蜜芽视频| 在线a亚洲视频播放在线播放| 51国产黑色丝袜高跟鞋| 亚洲国产精品久久久天堂不卡海量| 国产盗摄一区二区三区av| 久久99国产精品久久| 成全视频高清免费|