亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BERT與改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的盜竊案刑期預(yù)測(cè)方法研究

2022-03-09 21:02:04郭彬彬

軟件工程 2022年2期

文章編號(hào)：2096-1472（2022）-02-06-03

DOI：10.19644/j.cnki.issn2096-1472.2022.002.002

摘? 要：為了應(yīng)對(duì)智慧法院項(xiàng)目中刑期預(yù)測(cè)任務(wù)的實(shí)際需求，提出了基于BERT與改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的刑期預(yù)測(cè)模型。以盜竊案為切入點(diǎn)，剖析相關(guān)案情要素，介紹刑期預(yù)測(cè)的整體框架和具體過程?；诖罅空鎸?shí)案件數(shù)據(jù)，結(jié)合法官的審理流程，首先使用BERT識(shí)別裁判文書中的案情要素，然后基于規(guī)則抽取對(duì)應(yīng)的涉案金額，最后使用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)刑期，并與傳統(tǒng)模型對(duì)比。實(shí)驗(yàn)證明，提出的模型刑期預(yù)測(cè)的平均誤差小于2.5 個(gè)月，優(yōu)于進(jìn)行對(duì)比的傳統(tǒng)模型。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò);刑期預(yù)測(cè);盜竊案件;BERT

中圖分類號(hào)：TP39? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

Research on Prediction Model of Sentence for Theft based on?BERT and Improved BP Neural Network

GUO Binbin1，2

（1. College of Computer Science and Technology， Guizhou University， Guiyang 550025， China;

2.State Key Laboratory of Public Big Data， Guiyang 550025， China）

gbb96@qq.com

Abstract： In order to meet the actual needs of sentence prediction task in the smart court project， this paper proposes a sentence prediction model based on BERT （Bidirectional Encoder Representation from Transformers） and improved BP neural network. Starting the theft cases， relevant case elements are analyzed， and the overall framework and specific process of sentence prediction are introduced. Based on a large amount of real case data and the judge's trial process， BERT is used to identify the case elements in the judgment documents. Then the amount of money involved based on the rules is extracted. Finally， the improved BP neural network is used to predict the sentence period and the proposed model is compared with the traditional one. Experiments show that the average error of the proposed sentence prediction model is less than 2.5 months， which is better than the traditional model used for comparison.

Keywords： neural network; sentence prediction; theft case; BERT

1? ?引言（Introduction）

智慧法院是我國(guó)2016 年提出的一項(xiàng)任務(wù)，主要目的是提高案件受理、審判、執(zhí)行、監(jiān)督等環(huán)節(jié)的信息化水平，推動(dòng)司法信息公開，促進(jìn)司法公平正義。在當(dāng)前的“智慧法院”建設(shè)中，刑期預(yù)測(cè)是其中一項(xiàng)重要任務(wù)，其核心目標(biāo)是通過分析裁判文書中案情描述部分，自動(dòng)預(yù)測(cè)出案件的判決刑期。該任務(wù)的實(shí)現(xiàn)結(jié)果可以作為補(bǔ)充來提高法官的審判效率，且促進(jìn)同案同判。

早在20 世紀(jì)，自動(dòng)法律判決預(yù)測(cè)就已經(jīng)引起研究者的關(guān)注，這個(gè)時(shí)期主要是利用數(shù)學(xué)模型和統(tǒng)計(jì)學(xué)原理對(duì)法律案件進(jìn)行分析^[1-3]。這種方法對(duì)專業(yè)性知識(shí)要求較高，且效率低下。隨著人工智能的發(fā)展，研究人員逐漸將AI應(yīng)用到法律方面。KATZ^[4]使用隨機(jī)森林（Random Forest）從案情描述中提取有效特征對(duì)美國(guó)最高法院的判決結(jié)果進(jìn)行預(yù)測(cè)。王文廣等^[5]將層次注意力網(wǎng)絡(luò)^[6]（Hybrid Attention Network， HAN）應(yīng)用到刑期預(yù)測(cè)模型中，提出混合注意力和卷積神經(jīng)網(wǎng)絡(luò)模型（Hybrid Attention and CNN model， HAC）。譚紅葉等^[7]采用多模型投票方法結(jié)合量刑屬性進(jìn)行刑期預(yù)測(cè)。ZHONG等^[8]認(rèn)為法律審判的多個(gè)子任務(wù)之間存在依賴關(guān)系，提出了多任務(wù)拓?fù)湟蕾噷W(xué)習(xí)模型TOPJUDGE。YANG等^[9]基于多個(gè)子任務(wù)之間的拓?fù)湟蕾囮P(guān)系，引入詞與詞之間的組合語(yǔ)義關(guān)系，提出了多視角雙向反饋網(wǎng)絡(luò)MPBFN。以上這些模型均是基于分類的方法進(jìn)行刑期預(yù)測(cè)，并沒有給出最終的預(yù)測(cè)刑期;且不同類型的案件存在一定的差異，缺乏對(duì)某一類型案件的針對(duì)性。

本文獲取了近十年某省的裁判文書，分析發(fā)現(xiàn)其中盜竊案件占比最大，達(dá)到27%以上，且盜竊案件審判流程和案情要素較為清晰，因此以盜竊案為切入點(diǎn)進(jìn)行刑期預(yù)測(cè)實(shí)驗(yàn)。

真實(shí)的盜竊案審判中，法官的審判流程如圖1所示。首先從案情描述中識(shí)別對(duì)應(yīng)的案情要素和涉案金額，然后根據(jù)相關(guān)法條和涉案金額確定基準(zhǔn)刑期，再根據(jù)案情要素對(duì)基準(zhǔn)刑期進(jìn)行修改，最終在修改后的基準(zhǔn)刑期的一定幅度內(nèi)確定宣告刑期。由于法官自身的影響，本模型的任務(wù)是預(yù)測(cè)修改后的基準(zhǔn)刑期。根據(jù)法官的要求，刑期預(yù)測(cè)的誤差在3 個(gè)月以內(nèi)是可以被認(rèn)可的。

本文借鑒了法官的真實(shí)審判流程，使用當(dāng)下性能較強(qiáng)的預(yù)訓(xùn)練模型BERT作為要素識(shí)別模型，將要素識(shí)別作為多標(biāo)簽分類任務(wù);然后使用基于規(guī)則的方法獲取裁判文書中的涉案金額，將涉案金額和要素識(shí)別的結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸入，最終輸出預(yù)測(cè)刑期。經(jīng)實(shí)驗(yàn)證明，本文所提出的盜竊案刑期預(yù)測(cè)方法平均誤差達(dá)到2.5 個(gè)月以內(nèi)，已經(jīng)具有實(shí)用價(jià)值。

2? ?數(shù)據(jù)集和案情要素（Data set and case elements）

2.1? ?數(shù)據(jù)集

本文數(shù)據(jù)集使用由貴州省高級(jí)人民法院提供的盜竊案件裁判文書，共包含8，000余篇帶有標(biāo)簽的裁判文書。由于數(shù)據(jù)標(biāo)注可能存在不規(guī)范或者標(biāo)注錯(cuò)誤的情況，因此對(duì)數(shù)據(jù)進(jìn)行清洗。首先刪除數(shù)據(jù)集中某些非初審案件的數(shù)據(jù)，原因在于非初審案件的裁判文書中一般不包含案情描述或者只有較少的案情描述;然后去除某些標(biāo)注數(shù)據(jù)明顯錯(cuò)誤的文本，通過規(guī)則識(shí)別案情描述中的涉案金額和刑期的比例，剔除某些明顯錯(cuò)誤的案例，如涉案金額1，000 元、審判刑期10 年;最終選取6，000 篇裁判文書作為本次實(shí)驗(yàn)的數(shù)據(jù)集。

2.2? ?案情標(biāo)簽

案情標(biāo)簽是審理過程中的重要組成部分，主要是依據(jù)相關(guān)案情確定是否符合某一法條的某一部分，如未成年、累犯、扒竊等。對(duì)于某一案件，可能有多個(gè)案情標(biāo)簽同時(shí)存在，因此，案情要素的識(shí)別任務(wù)是一個(gè)多標(biāo)簽分類任務(wù)。

根據(jù)法官和相應(yīng)法律文書的指導(dǎo)，本文選取了16 個(gè)案情標(biāo)簽作為BP神經(jīng)網(wǎng)絡(luò)的輸入，這些標(biāo)簽及標(biāo)簽相應(yīng)的數(shù)量如表1所示。

3? ?模型構(gòu)建（Model building）

模型構(gòu)建分為兩部分，分別是案情要素識(shí)別部分和刑期預(yù)測(cè)部分。案情要素識(shí)別的結(jié)果將會(huì)作為刑期預(yù)測(cè)模型的輸入。

3.1? ?基于BERT的案情標(biāo)簽識(shí)別

2019 年，谷歌提出了預(yù)訓(xùn)練模型BERT，在自然語(yǔ)言處理領(lǐng)域各個(gè)方面都具有非常好的效果。圖2展示了基于BERT的案情要素識(shí)別模型圖。

本文所使用的BERT模型為谷歌官方發(fā)布的中文版，最大句子長(zhǎng)度設(shè)為128。根據(jù)BERT模型的設(shè)置，句子長(zhǎng)度超過該設(shè)置的部分將會(huì)被截?cái)?，同時(shí)該參數(shù)如果設(shè)置過大，將會(huì)影響訓(xùn)練效率及增加設(shè)備內(nèi)存要求。因此，無(wú)法將整段裁判文本放入模型。

將裁判文書以句子為單位進(jìn)行劃分，使用句子中所包含的案情要素作為標(biāo)簽。在BERT模型的最后添加一個(gè)768×16的輸出層，同時(shí)以Sigmoid作為激活函數(shù)，設(shè)置0.5為閾值，計(jì)算方法如公式（1）所示。多標(biāo)簽分類事實(shí)上可以看作多個(gè)二分類問題的集合，因此可以直接使用二分類的交叉熵?fù)p失函數(shù)，計(jì)算方法如公式（2）所示。

3.2? ?基于自適應(yīng)學(xué)習(xí)率的BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)之一，其特點(diǎn)是可以很好地?cái)M合一些非線性的函數(shù)。根據(jù)對(duì)盜竊案審判流程的分析，法官依據(jù)案情要素對(duì)基準(zhǔn)刑期的修改過程就可以看作一個(gè)非線性函數(shù)的計(jì)算過程。因此，本文選取BP神經(jīng)網(wǎng)絡(luò)作為最終的刑期計(jì)算模型。

圖3展示了具有三個(gè)隱藏層的簡(jiǎn)單BP神經(jīng)網(wǎng)絡(luò)。其中即是隱藏層的計(jì)算過程，后面的兩個(gè)隱藏層的計(jì)算方式相同，所使用的是Relu激活函數(shù)。最終的輸出相當(dāng)于是對(duì)輸入的矩陣X的一個(gè)函數(shù)映射。

在模型的輸入中，將會(huì)增加一個(gè)維度，即通過規(guī)則提取出的金額，相當(dāng)于一個(gè)特殊的要素。最終的輸出節(jié)點(diǎn)只有一個(gè)，使其可以做回歸分析。

本文所使用BP模型共有17 個(gè)輸入節(jié)點(diǎn)，1 個(gè)輸出節(jié)點(diǎn)，289 個(gè)隱藏節(jié)點(diǎn)，以及三層隱藏層。通過輸入層、隱藏層、輸出層進(jìn)行前向傳播得到預(yù)測(cè)值，利用MSE損失函數(shù)來衡量真實(shí)值和預(yù)測(cè)值之間的誤差。MSE損失函數(shù)的計(jì)算方法如公式（3）所示。利用梯度下降的方法來不斷更新權(quán)重參數(shù)和偏置參數(shù)，不斷縮小誤差，最終獲取和真實(shí)值最接近的預(yù)測(cè)結(jié)果。

在梯度下降的過程中，學(xué)習(xí)率的設(shè)置會(huì)對(duì)結(jié)果和效率產(chǎn)生一定的影響。學(xué)習(xí)率設(shè)置過大，有可能會(huì)錯(cuò)過極值點(diǎn)，且有一定可能無(wú)法收斂。學(xué)習(xí)率設(shè)置過小，將會(huì)消耗大量的時(shí)間來收斂，或者由于梯度的消失而無(wú)法收斂，即梯度趨近0，且固定學(xué)習(xí)率也有可能會(huì)使函數(shù)陷入局部最小值。因此，本文使用自適應(yīng)學(xué)習(xí)率方法，主要思路是使用前后兩次迭代的誤差來確定是增加還是減少學(xué)習(xí)率。同時(shí)根據(jù)差值的大小，確定學(xué)習(xí)率的變化幅度，最終使用差值的log函數(shù)值作為學(xué)習(xí)率變化的參考值。使用對(duì)數(shù)函數(shù)可以減緩變化的速度，同時(shí)減少網(wǎng)絡(luò)發(fā)散的可能。

如圖4所示，固定學(xué)習(xí)率的梯度下降曲線較為平滑，但有可能會(huì)陷入局部最小值，且隨著loss越來越小，相對(duì)較大的學(xué)習(xí)率還會(huì)使曲線出現(xiàn)振蕩。而可變學(xué)習(xí)率雖然下降曲線波動(dòng)幅度較大，但最終也會(huì)趨向最小值，且可以探測(cè)到更多的極值點(diǎn)。

4? ?實(shí)驗(yàn)與結(jié)果分析（Experiment and result analysis）

本文按照7∶3的比例劃分訓(xùn)練集和測(cè)試集，同時(shí)采用保留交叉驗(yàn)證，每次隨機(jī)選擇數(shù)據(jù)作為訓(xùn)練集和測(cè)試集。在進(jìn)行10 次訓(xùn)練后，選取模型在測(cè)試集上的平均值作為模型最終得分。模型在要素識(shí)別部分的最終結(jié)果如表2所示?？梢钥吹?，其他模型在要素識(shí)別部分的效果均低于BERT模型，BERT模型的F1值可以達(dá)到0.89。其中，全文輸入的BERT模型效果較差，原因便是上文所說的最長(zhǎng)句子截?cái)鄦栴}，導(dǎo)致輸入和輸出不再匹配。

使用效果最優(yōu)的BERT模型的預(yù)測(cè)結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸入，在衡量模型的優(yōu)越性方面使用直觀的MAE誤差，即真實(shí)值和預(yù)測(cè)值的平均絕對(duì)值偏差。最終模型的效果如表3所示。同樣可以看到，BP神經(jīng)網(wǎng)絡(luò)的MAE偏差小于其他模型，達(dá)到了2.5 個(gè)月以內(nèi)。

5? ?結(jié)論（Conclusion）

刑期預(yù)測(cè)作為當(dāng)前智慧法院建設(shè)的重要組成部分，引起了眾多學(xué)者的關(guān)注，無(wú)論是案情要素識(shí)別還是最終的刑期預(yù)測(cè)，都提出了很多新方法。本文所提出的刑期預(yù)測(cè)方法以盜竊案為切入點(diǎn)，將刑期預(yù)測(cè)的誤差縮小到了2.5 個(gè)月以內(nèi)，具有實(shí)用價(jià)值，且本文對(duì)盜竊案裁判文書所預(yù)測(cè)的案情要素可以在法官判案時(shí)提供較多的參考。本文同樣存在一定的不足：盜竊案件案情要素較為清晰，相對(duì)其他類型案件更易識(shí)別。如果拓展到其他類型的案件，需要對(duì)案情要素進(jìn)一步分析，劃分更具細(xì)粒度的案情要素，以保證刑期預(yù)測(cè)的準(zhǔn)確率。此外，需要重新篩選案情要素，才能應(yīng)用到其他類型的案件中。

參考文獻(xiàn)（References）

[1] KORT F. Predicting supreme court decisions mathematically： A quantitative analysis of the "right to counsel" cases[J]. American Political Science Review， 1957， 51（1）：1-12.

[2] RINGQUIST E J， EMMERT C E. Judicial policymaking in published and unpublished decisions： The case of environmental civil ligaton[J]. Political Research Quarterly， 1999， 52（1）：7-37.

[3] LAUDERDALE B E， CLARK T S. The supreme court's?many median justices[J]. American Political Science Review， 2012， 106（4）：847-866.

[4] KATZ D M. Quantitative legal prediction-or-how I learned to stop worrying and start preparing for the data-driven future of the legal services industry[J]. Emory Law Journal， 2012， 62：909.

[5] 王文廣，陳運(yùn)文，蔡華，等.基于混合深度神經(jīng)網(wǎng)絡(luò)模型的司法文書智能化處理[J].清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2019，59（07）：505-511.

[6] YANG Z， YANG D， DYER C， et al. Hierarchical attention networks for document classification[C]// KNIGHT K. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. San Diego， California： ACL， 2016：1480-1489.

[7] 譚紅葉，張博文，張虎，等.面向法律文書的量刑預(yù)測(cè)方法研究[J].中文信息學(xué)報(bào)，2020，34（03）：107-114.

[8] ZHONG H， GUO Z， TU C， et al. Legal judgment prediction via topological learning[C]// RILOFF E. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels， Belgium： EMNLP， 2018：3540-3549.

[9] YANG W M， JIA W J， ZHOU X J， et al. Legal judgment prediction via multi-perspective bi-feedback network[J/OL].（2019-05-16） [2021-10-04]. https：//arxiv.org/abs/1905.03969.

作者簡(jiǎn)介：

郭彬彬（1996-），男，碩士生.研究領(lǐng)域：自然語(yǔ)言處理.

軟件工程2022年2期

軟件工程的其它文章: 城市交通網(wǎng)絡(luò)中救援車輛路徑優(yōu)化研究; 基于MQTT的掃碼支付系統(tǒng)數(shù)據(jù)交互層的設(shè)計(jì)與應(yīng)用; 基于一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的植物葉片圖像識(shí)別研究; 智慧居家養(yǎng)老安防系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn); 萬(wàn)維網(wǎng)虛擬現(xiàn)實(shí)全景應(yīng)用的設(shè)計(jì)與實(shí)現(xiàn); 基于圖像識(shí)別的濕地外來入侵物種監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)