亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進KG-BERT算法的涉毒案件法條預測方法

        2022-05-26 08:56:18楊通超唐向紅
        軟件導刊 2022年5期
        關鍵詞:法條案情三元組

        楊通超,唐向紅,2

        (1.貴州大學計算機科學與技術學院;2.貴州大學省部共建公共大數(shù)據(jù)重點實驗室,貴州貴陽 550025)

        0 引言

        司法判決預測任務主要包含法條預測、罪名預測和刑期預測,其中法條預測旨在根據(jù)案情信息,尋找出適用于案情描述的法條。案情描述信息往往錯綜復雜,致使法官和律師不得不反復閱讀與分析案情,從眾多法條中尋找適合于該案情的法條,從而大大延長了案件審判周期,增加了審判難度。法條預測作為智慧法院建設的重要一環(huán),一方面減輕了法官和律師審判的負擔,造就更高效的法庭;另一方面,法條預測的好壞會直接影響罪名預測和刑期預測結果。因此,法條預測意義重大。

        特別地,程豪等[1]指出了涉毒法條的易混淆性,其案情描述存在差異性很小的情況,但這種細微差別可能對應不同的法條規(guī)定,使得審判結果截然不同。如圖1 所示的案情描述差異性示例,兩個案情都包含“駕駛”“車”“車內查獲”等元素,但是分別被判為運輸和非法持有毒品罪,在相同毒品級別的情況下,其刑期卻相差巨大。法條預測大體可分為基于規(guī)則、基于機器學習和基于神經(jīng)網(wǎng)絡三大類。

        Fig.1 Examples of similarity in case descriptions圖1 案情描述相似性示例

        基于規(guī)則的法條預測:通過手動定義大量規(guī)則,當案情滿足某些條件時,根據(jù)規(guī)則匹配相應法條,其特點是人力資源耗費多、泛化能力差[2];基于機器學習的法條預測:采用隨機森林、支持向量機、樸素貝葉斯等方法對案情文本作分類,其特點是具有一定的可解釋性,可取得較穩(wěn)定的效果[3-5];基于神經(jīng)網(wǎng)絡的法條預測:此類方法利用神經(jīng)網(wǎng)絡從不同角度挖掘與增強案情信息,或尋找法條之間的相關性,并一條條地輸出法條。由于其具有較強的泛化能力和優(yōu)異性能,基于神經(jīng)網(wǎng)絡的方法是目前法條預測的主流方法[6-12]。

        然而,現(xiàn)有方法并未充分利用涉毒案件法條的文本知識。為了解決該問題,本文引入知識圖譜補全算法KGBERT,將其改進后成為KG-Lawformer 算法,將案情描述和法條文本分別看作三元組中的頭實體和尾實體描述信息,使用KG-Lawformer 算法進行其之間連接關系的學習,預測出案情與法條之間的對應關系。實驗結果證明,該方法有效提升了涉毒案件法條預測的有效性。

        1 相關工作

        1.1 KG-BERT

        KG-BERT(BERT for Knowledge Graph Completion)[13]是應用于知識圖譜補全領域的算法。傳統(tǒng)補全算法僅探索實體與實體之間的連接關系[14],KG-BERT 將實體進行語義上的擴充,并將擴充后的語義描述作為實體特征,如將實體“蘋果”的語義擴充為“蘋果為世界四大水果之一,性味甘酸而平,無毒,具有生津止渴、益脾止瀉、和胃降逆的功效?!比缓髮U充后的語義特征輸入BERT 預訓練神經(jīng)網(wǎng)絡模型,進行特征提取與分類預測。

        1.2 BERT與Lawformer異同

        BERT 和Lawformer 同為預訓練語言模型,BERT 預訓練數(shù)據(jù)是公共領域的維基百科[15],而Lawformer 采用法律領域真實的民事和刑事案件數(shù)據(jù)作為預訓練語料庫[16]。兩者在預訓練過程中的異同如表1所示。

        2 KG-Lawformer模型

        2.1 模型結構

        KG-Lawformer 模型結構如圖2 所示,輸入格式為頭實體、關系和尾實體描述組成的三元組,將輸入序列第一個字符[CLS]的輸出作為分類結果輸出。頭實體(Head Entity)對應案情描述的字序列,如“王某在房間販賣毒品給李某”,尾實體(Tail Entity)對應法條描述的字序列,如“明知是毒品而非法銷售……”,關系(Relation)對應“正確連接”或“錯誤連接”的字序列,實體和關系序列固定用[SEP]字符隔開。整體輸入是由各個部分的字序列、位置順序序列和句子標識序列進行向量嵌入后的聯(lián)合輸入,詳情可參考文獻[15]。

        Table 1 Similarities and differences between BERT and Lawformer表1 BERT與Lawformer異同

        不同于原生BERT,這里實體都采用相同的句子標識向量eA,關系用向量eB表示,位置向量i∈{1,2,3,...,512}由[SEP]隔開后重新開始計算,并對字向量、位置標識向量和句子標識向量3 部分向量輸入原生的雙向Transformer編碼機制。隱藏層最后一層第一個字符C 的輸出向量為C∈RH,H 為BERT 模型隱藏狀態(tài)的向量維度大小。在字符C 處接入一個全連接層的分類網(wǎng)絡,參數(shù)W∈RH。最終,對于輸入的一組頭、尾實體和關系三元組s=(h,r,t),其得分函數(shù)為st=f(h,r,t)=sigmoid(CWT)。其中,st是一個二維向量,滿足st0,st1∈[0,1],且st0+st1=1。給定正例三元組集合D+和負例三元組集合D-,交叉熵損失函數(shù)計算公式如式(1)所示。

        式中,yt∈{0,1}為三元組標簽(負例或正例),負例t′由隨機替換尾實體產生,如式(2)所示。

        其中,Et為所有法條描述組成的尾實體集合。如果隨機負例三元組已經(jīng)在正例三元組集合中,則拋棄該負例三元組,最后輸入模型通過梯度下降優(yōu)化模型參數(shù)。

        Fig.2 KG-Lawformer model structure圖2 KG-Lawformer模型結構

        2.2 數(shù)據(jù)輸入結構

        模型輸入為知識圖譜中三元組結構對應的描述字符串,其中知識圖譜由若干結點和邊組成,三元組由兩個結點和一個關系構成,表達了兩個結點之間的事實關系。如“[拜登,總統(tǒng),美國]”表達了“拜登是美國總統(tǒng)”這一事實,正確的事實標簽為1。相反的,如果將連接關系改為“平民”,組成三元組“[拜登,平民,美國]”,就會得到一個不成立的三元組,對應標簽為0。

        模型三元組的結點分為案情描述結點和法條描述結點,例如案情描述結點“2014 年5 月份以來,被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣毒品大麻給吸毒人員曾某人吸食,并容留吸毒人員易某在自家倉庫內吸食毒品海洛因”和法條描述結點“明知是毒品而非法銷售…”。模型三元組的關系有“正確連接”和“錯誤連接”兩種,如上示例可構成一個正例“[被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣…,正確連接,明知是毒品而非法銷售…]”,和一個負例[被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣…,錯誤連接,明知是毒品而非法銷售…]”。為了讓法條描述結點更具特征性,本文構建并加入了不同犯罪類型的高頻語義特征信息,如表2 所示,例如“非法種植毒品原植物罪”相應的強語義特征詞有種植、播種、種在、撒在等。

        在多標簽分類任務(一個案例對應一個或多個標簽)中,區(qū)別于傳統(tǒng)方法,KG-Lawformer 能快速預測法條而不用訓練多個二分類模型,具體做法是:①模型訓練階段:對于一個訓練集中的案例,分別與所有標簽進行1-1 的輸入(其中有正例和負例),從而訓練模型;②模型預測階段:對于一個需要預測的案例,分別與所有標簽進行1-1 的輸入(其中有正例和負例),取所有輸出結果中1 所對應的標簽作為該案例對應的預測標簽集合;③整個過程只需要訓練一個模型。

        Table 2 High-frequency semantic features of different crime types表2 不同犯罪類型高頻語義特征

        3 應用實驗

        3.1 數(shù)據(jù)集及評價指標

        實驗數(shù)據(jù)集來源于貴州省高級人民法院2010-2019年有關單被告人多犯罪類型的涉毒案件,共16 480 條。為聚焦涉毒法條預測,只對《刑法》中有關涉毒的法條,即第347~357 條進行預測。數(shù)據(jù)集總表如表3 所示,訓練集與測試集按7.5:2.5的比例進行隨機抽取。

        Table 3 Overview of data set表3 數(shù)據(jù)集總表

        從表3 可以看出,真實數(shù)據(jù)的分布是極不均衡的。各標簽案件數(shù)量中,最多數(shù)據(jù)和最少數(shù)據(jù)量比達到127:1,因而考驗了模型對少量數(shù)據(jù)的識別能力。為驗證模型是否能均衡識別出各個法條,評價指標采用準確率accuracy(Acc)、宏精確率macro-precision(MP)、宏召回率macro-recall(MR)和宏macro-F1(MF1)作為評價指標,分別為Acc=其 中,,n表示數(shù)據(jù)的標簽數(shù)量。

        3.2 基線模型及參數(shù)

        TFIDF+SVM:淺層模型,使用詞頻—逆文本頻率(TFIDF)提取輸入的文本特征,并采用支持向量機(SVM)作為分類[17]。

        TextCNN:采用卷積神經(jīng)網(wǎng)(Convolutional Neural Networks)對句子級別進行語義抽取與分類,在一些自然處理任務中具有不錯的表現(xiàn)[18]。

        BiLSTM:能獲取句子的長距離依賴,是自然語言處理任務中比較常用的方法,在一些任務中具有較好性能[19]。

        BERT:基于雙向Transformer 層模型,一經(jīng)推出,在包括文本分類、閱讀理解等各項自然語言處理任務中展現(xiàn)出強大的性能[15]。

        對于以上所有模型,設置案件文本最大長度為128 個字;對于淺層模型,采用詞袋TF-IDF 作為特征輸入;對于所有神經(jīng)網(wǎng)絡模型,使用Adam 優(yōu)化器優(yōu)化損失函數(shù),設置學習率為0.001。特別地,BiLSTM 中每個LSTM 大小為128。TextCNN 模型卷積核窗口為(1,2,3,4),大小為128。

        3.3 實驗結果

        實驗結果如表4 所示,從表中可以看出,各項指標中KG-Lawformer 都優(yōu)于對比模型。分析實驗結果可得到以下結論:①該模型能有效提升法條預測性能;②由于數(shù)據(jù)稀疏性較強,法條編號為“第347 條”的案件數(shù)量占總案件的93%,導致測試級的精確率(Acc)都大于90%;③宏準確率(MP)和宏召回率(MR)作為兩個相互均衡、相互制約的指標,除本文模型外,BiLSTM 也取得了不錯的結果,原因是其在長文本語義提取中具有優(yōu)勢;④宏F1 值(MF1)是最能反映模型優(yōu)劣的指標,本文模型的該值最大,反映了其在數(shù)據(jù)不均衡情況下依然有良好的學習表現(xiàn),且能較好地學習到小量數(shù)據(jù)特征;⑤KG-BERT 模型性能最差,甚至不如只使用BERT 模型,造成該情況的原因為:使用單BERT模型的預測方法是同時訓練多個二分類模型,降低了預測難度,使BERT 取得了接近0.5 的MF1 值,而KG-BERT 只使用一個模型預測多標簽任務,在KG-BERT 模型基于維基百科語料庫進行預訓練且實驗數(shù)據(jù)標簽分布十分稀疏的背景下,KG-BERT 無法有效區(qū)分各個標簽之間微小的差異,從而惰性地將大部分案件都分類到數(shù)量較多的“347”標簽上,造成Acc高而其他指標低的現(xiàn)象。

        Table 4 Experimental results表4 實驗結果

        3.4 消融實驗分析

        本文對KG-Lawformer 進行消融實驗,驗證法條知識在法條預測中是否有效。KG-Lawformer 模型輸入包含案情信息和法條信息兩部分,Lawformer 模型輸入只包含案情信息。消融實驗所使用的評價指標與3.1 節(jié)一樣,都為Acc、MP、MR 和MF1,模型輸入文本長度均為128,2 個epoch,學習率為10e-5。消融實驗結果如表5 所示,可以看出在每個指標上,KG-Lawformer 都優(yōu)于僅輸入案情信息的模型,體現(xiàn)了法條知識在法條預測任務中的有效性。

        Table 5 Results of ablation experiments表5 消融實驗結果

        4 結語

        本文針對涉毒案件法條預測任務中存在案情信息易混淆的問題,提出使用基于KG-BERT 改進后的KG-Lawfromer 模型。實驗結果證明,該方法有效提升了涉毒案件法條的預測性能,同時該方法作為多標簽分類模型,區(qū)別于傳統(tǒng)模型需要進行多次二分類實驗,該模型僅需進行一次訓練與預測,從而大大提升了效率。本文模型還存在以下問題:法條文本的定義靈活多樣,哪個定義能最大程度提升法條預測的性能尚不明確;知識圖譜補全算法如何結合矢量偏移模型進一步提升模型性能。在未來工作中,將嘗試將不同法條文本作為輸入特征,同時探索結合transE模型[15]等矢量偏移模型的可能性。

        猜你喜歡
        法條案情三元組
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
        關于余撓三元組的periodic-模
        是誰下的毒
        從法條的公司法到實踐的公司法
        論民法對人身權的保護
        從法條的公司法到實踐的公司法
        商(2016年20期)2016-07-04 01:04:28
        刑法“從業(yè)禁止”法條的法律性質及改革方向
        報案者
        “兩高”刑事指導性案例的文本分析及改進
        国产乱妇乱子在线播视频播放网站| 青青草在线公开免费视频| 日本一二三区在线不卡| 亚洲精品第一页在线观看 | 色和尚色视频在线看网站| 中文字幕人妻丝袜成熟乱| 一本一本久久aa综合精品| 亚洲精品自产拍在线观看| 粉嫩小泬无遮挡久久久久久 | 中文字幕无码人妻丝袜| 放荡人妻一区二区三区| 免费人成黄页网站在线一区二区| 精品一区二区三区芒果| 曰韩亚洲av人人夜夜澡人人爽 | 久久国产亚洲av高清色| av黄色在线免费观看| 国产强被迫伦姧在线观看无码| 亚洲永久无码7777kkk| 日韩亚洲欧美精品| 精品久久精品久久精品| 色大全全免费网站久久| 国产亚洲欧美精品久久久| 国产精品三级一区二区按摩| 日韩精品视频免费福利在线观看 | 久久亚洲国产精品五月天| 日韩女优在线一区二区| 一区二区三区四区国产99| 午夜视频在线在免费| 亚洲国产精品嫩草影院久久| 国内自拍视频在线观看| 亚洲国产色婷婷久久精品| 大地资源网高清在线播放| 蜜桃精品免费久久久久影院 | 日韩精品无码av中文无码版| 性无码国产一区在线观看| 国产精品女同av在线观看| 乱老年女人伦免费视频| 一本色道久久综合亚洲精品不卡| 中文字幕天天躁日日躁狠狠| 亚洲中文字幕第一页免费| 中文亚洲av片不卡在线观看|