亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT與改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的盜竊案刑期預(yù)測方法研究

        2022-03-09 21:02:04郭彬彬
        軟件工程 2022年2期
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

        文章編號:2096-1472(2022)-02-06-03

        DOI:10.19644/j.cnki.issn2096-1472.2022.002.002

        摘? 要:為了應(yīng)對智慧法院項目中刑期預(yù)測任務(wù)的實際需求,提出了基于BERT與改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的刑期預(yù)測模型。以盜竊案為切入點,剖析相關(guān)案情要素,介紹刑期預(yù)測的整體框架和具體過程。基于大量真實案件數(shù)據(jù),結(jié)合法官的審理流程,首先使用BERT識別裁判文書中的案情要素,然后基于規(guī)則抽取對應(yīng)的涉案金額,最后使用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測刑期,并與傳統(tǒng)模型對比。實驗證明,提出的模型刑期預(yù)測的平均誤差小于2.5 個月,優(yōu)于進(jìn)行對比的傳統(tǒng)模型。

        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);刑期預(yù)測;盜竊案件;BERT

        中圖分類號:TP39? ? ?文獻(xiàn)標(biāo)識碼:A

        Research on Prediction Model of Sentence for Theft based on?BERT and Improved BP Neural Network

        GUO Binbin1,2

        (1. College of Computer Science and Technology, Guizhou University, Guiyang 550025, China;

        2.State Key Laboratory of Public Big Data, Guiyang 550025, China)

        gbb96@qq.com

        Abstract: In order to meet the actual needs of sentence prediction task in the smart court project, this paper proposes a sentence prediction model based on BERT (Bidirectional Encoder Representation from Transformers) and improved BP neural network. Starting the theft cases, relevant case elements are analyzed, and the overall framework and specific process of sentence prediction are introduced. Based on a large amount of real case data and the judge's trial process, BERT is used to identify the case elements in the judgment documents. Then the amount of money involved based on the rules is extracted. Finally, the improved BP neural network is used to predict the sentence period and the proposed model is compared with the traditional one. Experiments show that the average error of the proposed sentence prediction model is less than 2.5 months, which is better than the traditional model used for comparison.

        Keywords: neural network; sentence prediction; theft case; BERT

        1? ?引言(Introduction)

        智慧法院是我國2016 年提出的一項任務(wù),主要目的是提高案件受理、審判、執(zhí)行、監(jiān)督等環(huán)節(jié)的信息化水平,推動司法信息公開,促進(jìn)司法公平正義。在當(dāng)前的“智慧法院”建設(shè)中,刑期預(yù)測是其中一項重要任務(wù),其核心目標(biāo)是通過分析裁判文書中案情描述部分,自動預(yù)測出案件的判決刑期。該任務(wù)的實現(xiàn)結(jié)果可以作為補(bǔ)充來提高法官的審判效率,且促進(jìn)同案同判。

        早在20 世紀(jì),自動法律判決預(yù)測就已經(jīng)引起研究者的關(guān)注,這個時期主要是利用數(shù)學(xué)模型和統(tǒng)計學(xué)原理對法律案件進(jìn)行分析[1-3]。這種方法對專業(yè)性知識要求較高,且效率低下。隨著人工智能的發(fā)展,研究人員逐漸將AI應(yīng)用到法律方面。KATZ[4]使用隨機(jī)森林(Random Forest)從案情描述中提取有效特征對美國最高法院的判決結(jié)果進(jìn)行預(yù)測。王文廣等[5]將層次注意力網(wǎng)絡(luò)[6](Hybrid Attention Network, HAN)應(yīng)用到刑期預(yù)測模型中,提出混合注意力和卷積神經(jīng)網(wǎng)絡(luò)模型(Hybrid Attention and CNN model, HAC)。譚紅葉等[7]采用多模型投票方法結(jié)合量刑屬性進(jìn)行刑期預(yù)測。ZHONG等[8]認(rèn)為法律審判的多個子任務(wù)之間存在依賴關(guān)系,提出了多任務(wù)拓?fù)湟蕾噷W(xué)習(xí)模型TOPJUDGE。YANG等[9]基于多個子任務(wù)之間的拓?fù)湟蕾囮P(guān)系,引入詞與詞之間的組合語義關(guān)系,提出了多視角雙向反饋網(wǎng)絡(luò)MPBFN。以上這些模型均是基于分類的方法進(jìn)行刑期預(yù)測,并沒有給出最終的預(yù)測刑期;且不同類型的案件存在一定的差異,缺乏對某一類型案件的針對性。

        本文獲取了近十年某省的裁判文書,分析發(fā)現(xiàn)其中盜竊案件占比最大,達(dá)到27%以上,且盜竊案件審判流程和案情要素較為清晰,因此以盜竊案為切入點進(jìn)行刑期預(yù)測實驗。

        真實的盜竊案審判中,法官的審判流程如圖1所示。首先從案情描述中識別對應(yīng)的案情要素和涉案金額,然后根據(jù)相關(guān)法條和涉案金額確定基準(zhǔn)刑期,再根據(jù)案情要素對基準(zhǔn)刑期進(jìn)行修改,最終在修改后的基準(zhǔn)刑期的一定幅度內(nèi)確定宣告刑期。由于法官自身的影響,本模型的任務(wù)是預(yù)測修改后的基準(zhǔn)刑期。根據(jù)法官的要求,刑期預(yù)測的誤差在3 個月以內(nèi)是可以被認(rèn)可的。

        本文借鑒了法官的真實審判流程,使用當(dāng)下性能較強(qiáng)的預(yù)訓(xùn)練模型BERT作為要素識別模型,將要素識別作為多標(biāo)簽分類任務(wù);然后使用基于規(guī)則的方法獲取裁判文書中的涉案金額,將涉案金額和要素識別的結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸入,最終輸出預(yù)測刑期。經(jīng)實驗證明,本文所提出的盜竊案刑期預(yù)測方法平均誤差達(dá)到2.5 個月以內(nèi),已經(jīng)具有實用價值。

        2? ?數(shù)據(jù)集和案情要素(Data set and case elements)

        2.1? ?數(shù)據(jù)集

        本文數(shù)據(jù)集使用由貴州省高級人民法院提供的盜竊案件裁判文書,共包含8,000余篇帶有標(biāo)簽的裁判文書。由于數(shù)據(jù)標(biāo)注可能存在不規(guī)范或者標(biāo)注錯誤的情況,因此對數(shù)據(jù)進(jìn)行清洗。首先刪除數(shù)據(jù)集中某些非初審案件的數(shù)據(jù),原因在于非初審案件的裁判文書中一般不包含案情描述或者只有較少的案情描述;然后去除某些標(biāo)注數(shù)據(jù)明顯錯誤的文本,通過規(guī)則識別案情描述中的涉案金額和刑期的比例,剔除某些明顯錯誤的案例,如涉案金額1,000 元、審判刑期10 年;最終選取6,000 篇裁判文書作為本次實驗的數(shù)據(jù)集。

        2.2? ?案情標(biāo)簽

        案情標(biāo)簽是審理過程中的重要組成部分,主要是依據(jù)相關(guān)案情確定是否符合某一法條的某一部分,如未成年、累犯、扒竊等。對于某一案件,可能有多個案情標(biāo)簽同時存在,因此,案情要素的識別任務(wù)是一個多標(biāo)簽分類任務(wù)。

        根據(jù)法官和相應(yīng)法律文書的指導(dǎo),本文選取了16 個案情標(biāo)簽作為BP神經(jīng)網(wǎng)絡(luò)的輸入,這些標(biāo)簽及標(biāo)簽相應(yīng)的數(shù)量如表1所示。

        3? ?模型構(gòu)建(Model building)

        模型構(gòu)建分為兩部分,分別是案情要素識別部分和刑期預(yù)測部分。案情要素識別的結(jié)果將會作為刑期預(yù)測模型的輸入。

        3.1? ?基于BERT的案情標(biāo)簽識別

        2019 年,谷歌提出了預(yù)訓(xùn)練模型BERT,在自然語言處理領(lǐng)域各個方面都具有非常好的效果。圖2展示了基于BERT的案情要素識別模型圖。

        本文所使用的BERT模型為谷歌官方發(fā)布的中文版,最大句子長度設(shè)為128。根據(jù)BERT模型的設(shè)置,句子長度超過該設(shè)置的部分將會被截斷,同時該參數(shù)如果設(shè)置過大,將會影響訓(xùn)練效率及增加設(shè)備內(nèi)存要求。因此,無法將整段裁判文本放入模型。

        將裁判文書以句子為單位進(jìn)行劃分,使用句子中所包含的案情要素作為標(biāo)簽。在BERT模型的最后添加一個768×16的輸出層,同時以Sigmoid作為激活函數(shù),設(shè)置0.5為閾值,計算方法如公式(1)所示。多標(biāo)簽分類事實上可以看作多個二分類問題的集合,因此可以直接使用二分類的交叉熵?fù)p失函數(shù),計算方法如公式(2)所示。

        3.2? ?基于自適應(yīng)學(xué)習(xí)率的BP神經(jīng)網(wǎng)絡(luò)

        BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)之一,其特點是可以很好地擬合一些非線性的函數(shù)。根據(jù)對盜竊案審判流程的分析,法官依據(jù)案情要素對基準(zhǔn)刑期的修改過程就可以看作一個非線性函數(shù)的計算過程。因此,本文選取BP神經(jīng)網(wǎng)絡(luò)作為最終的刑期計算模型。

        圖3展示了具有三個隱藏層的簡單BP神經(jīng)網(wǎng)絡(luò)。其中即是隱藏層的計算過程,后面的兩個隱藏層的計算方式相同,所使用的是Relu激活函數(shù)。最終的輸出相當(dāng)于是對輸入的矩陣X的一個函數(shù)映射。

        在模型的輸入中,將會增加一個維度,即通過規(guī)則提取出的金額,相當(dāng)于一個特殊的要素。最終的輸出節(jié)點只有一個,使其可以做回歸分析。

        本文所使用BP模型共有17 個輸入節(jié)點,1 個輸出節(jié)點,289 個隱藏節(jié)點,以及三層隱藏層。通過輸入層、隱藏層、輸出層進(jìn)行前向傳播得到預(yù)測值,利用MSE損失函數(shù)來衡量真實值和預(yù)測值之間的誤差。MSE損失函數(shù)的計算方法如公式(3)所示。利用梯度下降的方法來不斷更新權(quán)重參數(shù)和偏置參數(shù),不斷縮小誤差,最終獲取和真實值最接近的預(yù)測結(jié)果。

        在梯度下降的過程中,學(xué)習(xí)率的設(shè)置會對結(jié)果和效率產(chǎn)生一定的影響。學(xué)習(xí)率設(shè)置過大,有可能會錯過極值點,且有一定可能無法收斂。學(xué)習(xí)率設(shè)置過小,將會消耗大量的時間來收斂,或者由于梯度的消失而無法收斂,即梯度趨近0,且固定學(xué)習(xí)率也有可能會使函數(shù)陷入局部最小值。因此,本文使用自適應(yīng)學(xué)習(xí)率方法,主要思路是使用前后兩次迭代的誤差來確定是增加還是減少學(xué)習(xí)率。同時根據(jù)差值的大小,確定學(xué)習(xí)率的變化幅度,最終使用差值的log函數(shù)值作為學(xué)習(xí)率變化的參考值。使用對數(shù)函數(shù)可以減緩變化的速度,同時減少網(wǎng)絡(luò)發(fā)散的可能。

        如圖4所示,固定學(xué)習(xí)率的梯度下降曲線較為平滑,但有可能會陷入局部最小值,且隨著loss越來越小,相對較大的學(xué)習(xí)率還會使曲線出現(xiàn)振蕩。而可變學(xué)習(xí)率雖然下降曲線波動幅度較大,但最終也會趨向最小值,且可以探測到更多的極值點。

        4? ?實驗與結(jié)果分析(Experiment and result analysis)

        本文按照7∶3的比例劃分訓(xùn)練集和測試集,同時采用保留交叉驗證,每次隨機(jī)選擇數(shù)據(jù)作為訓(xùn)練集和測試集。在進(jìn)行10 次訓(xùn)練后,選取模型在測試集上的平均值作為模型最終得分。模型在要素識別部分的最終結(jié)果如表2所示??梢钥吹?,其他模型在要素識別部分的效果均低于BERT模型,BERT模型的F1值可以達(dá)到0.89。其中,全文輸入的BERT模型效果較差,原因便是上文所說的最長句子截斷問題,導(dǎo)致輸入和輸出不再匹配。

        使用效果最優(yōu)的BERT模型的預(yù)測結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸入,在衡量模型的優(yōu)越性方面使用直觀的MAE誤差,即真實值和預(yù)測值的平均絕對值偏差。最終模型的效果如表3所示。同樣可以看到,BP神經(jīng)網(wǎng)絡(luò)的MAE偏差小于其他模型,達(dá)到了2.5 個月以內(nèi)。

        5? ?結(jié)論(Conclusion)

        刑期預(yù)測作為當(dāng)前智慧法院建設(shè)的重要組成部分,引起了眾多學(xué)者的關(guān)注,無論是案情要素識別還是最終的刑期預(yù)測,都提出了很多新方法。本文所提出的刑期預(yù)測方法以盜竊案為切入點,將刑期預(yù)測的誤差縮小到了2.5 個月以內(nèi),具有實用價值,且本文對盜竊案裁判文書所預(yù)測的案情要素可以在法官判案時提供較多的參考。本文同樣存在一定的不足:盜竊案件案情要素較為清晰,相對其他類型案件更易識別。如果拓展到其他類型的案件,需要對案情要素進(jìn)一步分析,劃分更具細(xì)粒度的案情要素,以保證刑期預(yù)測的準(zhǔn)確率。此外,需要重新篩選案情要素,才能應(yīng)用到其他類型的案件中。

        參考文獻(xiàn)(References)

        [1] KORT F. Predicting supreme court decisions mathematically: A quantitative analysis of the "right to counsel" cases[J]. American Political Science Review, 1957, 51(1):1-12.

        [2] RINGQUIST E J, EMMERT C E. Judicial policymaking in published and unpublished decisions: The case of environmental civil ligaton[J]. Political Research Quarterly, 1999, 52(1):7-37.

        [3] LAUDERDALE B E, CLARK T S. The supreme court's?many median justices[J]. American Political Science Review, 2012, 106(4):847-866.

        [4] KATZ D M. Quantitative legal prediction-or-how I learned to stop worrying and start preparing for the data-driven future of the legal services industry[J]. Emory Law Journal, 2012, 62:909.

        [5] 王文廣,陳運(yùn)文,蔡華,等.基于混合深度神經(jīng)網(wǎng)絡(luò)模型的司法文書智能化處理[J].清華大學(xué)學(xué)報(自然科學(xué)版),2019,59(07):505-511.

        [6] YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// KNIGHT K. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California: ACL, 2016:1480-1489.

        [7] 譚紅葉,張博文,張虎,等.面向法律文書的量刑預(yù)測方法研究[J].中文信息學(xué)報,2020,34(03):107-114.

        [8] ZHONG H, GUO Z, TU C, et al. Legal judgment prediction via topological learning[C]// RILOFF E. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: EMNLP, 2018:3540-3549.

        [9] YANG W M, JIA W J, ZHOU X J, et al. Legal judgment prediction via multi-perspective bi-feedback network[J/OL].(2019-05-16) [2021-10-04]. https://arxiv.org/abs/1905.03969.

        作者簡介:

        郭彬彬(1996-),男,碩士生.研究領(lǐng)域:自然語言處理.

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)
        BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識別上的應(yīng)用研究
        基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個人信用評估
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
        電子制作(2019年24期)2019-02-23 13:22:36
        基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
        基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
        電測與儀表(2014年2期)2014-04-04 09:04:04
        中文乱码字幕高清在线观看| 国模雨珍浓密毛大尺度150p| 男女啪啪无遮挡免费网站| 国产农村妇女毛片精品久久久| 亚洲一区二区成人在线视频| 国产精品久久久黄色片| 超碰色偷偷男人的天堂| 中文字幕日韩一区二区三区不卡| 2021国产最新无码视频| 国产一区精品二区三区四区| 国产区女主播在线观看| 久久人人爽人人爽人人av| 国产精品27页| 国产精品亚洲一区二区三区久久 | 一本一道vs无码中文字幕| 国产精品毛片无码| 国产精品亚洲综合天堂夜夜| 一区二区三区国产精品麻豆| 国内精品久久久久久久97牛牛 | 国产亚洲精品综合在线网站| 欧美性受xxxx黑人猛交| 中文字幕爆乳julia女教师| 国产h视频在线观看网站免费 | 亚洲日韩av无码中文字幕美国| 无码不卡免费一级毛片视频| 亚洲精品综合久久国产二区| 国产 高潮 抽搐 正在播放| 狼色精品人妻在线视频| 欧美国产伦久久久久久久| 日本av天堂一区二区三区| 久久99精品国产麻豆不卡| 亚洲 国产 哟| 国产精品视频一区二区久久| 精品人妻大屁股白浆无码| 红杏亚洲影院一区二区三区| 中文无码制服丝袜人妻AV| 熟女肥臀白浆一区二区| 又粗又粗又黄又硬又深色的| 国产精品久久久久久久专区| 亚洲国产日韩一区二区三区四区| 久久久久久久综合综合狠狠|