亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的盜竊罪構(gòu)成要件識別方法①

        2022-05-10 08:40:44費志偉艾中良
        計算機系統(tǒng)應(yīng)用 2022年4期
        關(guān)鍵詞:文本模型

        費志偉,艾中良,張 可,曹 禹

        1(華北計算技術(shù)研究所,北京 100083)

        2(中國司法大數(shù)據(jù)研究院,北京 100043)

        近年來,人工智能技術(shù)取得了長足的進步,并深入到生活的方方面面,在司法領(lǐng)域也是如此.2018年,司法部印發(fā)《“十三五”全國司法行政信息化發(fā)展規(guī)劃》,明確提出我國到2020年全面建成智能高效的司法行政信息化體系3.0 版.在頂層政策大力推動下,全國各級法院參與研制了多種司法智能裁判輔助系統(tǒng)和裝備,例如,北京市高級人民法院的“睿法官”智能研判系統(tǒng)、上海市法院的“上海刑事案件智能輔助辦案系統(tǒng)”、杭州互聯(lián)網(wǎng)法院的“智能立案”系統(tǒng)、浙江省高級人民法院的小AI 做庭審筆錄等.

        本文認(rèn)為現(xiàn)有的司法領(lǐng)域中的人工智能系統(tǒng)可分為兩種:

        (1)利用人工智能技術(shù)建立的信息化系統(tǒng).此類系統(tǒng)主要通過目前成熟的人工智能技術(shù)將案卷文書,庭審信息等材料信息化,錄入到系統(tǒng)中.如通過OCR 技術(shù),識別審問訊問筆錄錄入系統(tǒng).通過語音識別技術(shù)將庭審過程中庭審語音轉(zhuǎn)換成文字記錄下來,輔助記錄員記錄信息[1]等.這種系統(tǒng)不涉及審理過程,不需要結(jié)合法律相關(guān)知識.直接利用現(xiàn)有成熟的人工智能技術(shù),在這些任務(wù)上效果也很好.

        (2)結(jié)合人工智能技術(shù)輔助法官審理的智能審判系統(tǒng).此類系統(tǒng)面向司法領(lǐng)域中的任務(wù),設(shè)計相關(guān)算法,來輔助法官審理案件,如量刑系統(tǒng),通過人工智能算法根據(jù)案件事實得出量刑結(jié)果.這類系統(tǒng)需要面向司法領(lǐng)域的需求,結(jié)合法律知識和計算機知識設(shè)計相應(yīng)算法,并設(shè)計相應(yīng)的交互流程,以法官判案邏輯為主導(dǎo),結(jié)合審理流程,來實現(xiàn)智能化判案的效果.

        目前利用人工智能技術(shù)建立司法信息化系統(tǒng)已經(jīng)取得了很好的效果,上述的庭審語音輔助系統(tǒng)切實的減少了記錄員的工作量,讓法院庭審過程更加高效.但在智能化輔助審理上效果不理想,如類案推薦系統(tǒng)一些法官表示無法提供精準(zhǔn)類案,類案沒有起到真正的參考價值.在江蘇智慧審判系統(tǒng)的應(yīng)用情況來看,部分法官甚至表示未使用該系統(tǒng)[2].本文認(rèn)為目前智能化輔助審理系統(tǒng)主要面臨著以下挑戰(zhàn):

        計算機系統(tǒng)設(shè)計與司法領(lǐng)域知識結(jié)合不足.現(xiàn)有的輔助審判算法在設(shè)計時未考慮司法判案過程,未結(jié)合司法審判知識.如2018年“法研杯”量刑預(yù)測任務(wù)中,在算法設(shè)計時使用自然語言處理相關(guān)技術(shù)基于案件事實直接得到罪名以及判刑刑期結(jié)果,與法院通常的審理流程不符,及不具備法理上的解釋性,在刑期任務(wù)中結(jié)果仍有很大的提升空間[3].

        面對上述問題,本文認(rèn)為在實際量刑人工智能系統(tǒng)的構(gòu)建中需要引入量刑理論,依據(jù)司法判案中審理流程來構(gòu)建相應(yīng)算法.在我國,刑事案件判案過程中通常根據(jù)犯罪構(gòu)成理論,目前主流的犯罪構(gòu)成理論為四要件理論與三階層理論,在實際司法審判中四要件理論使用更為廣泛.犯罪構(gòu)成是指依照我國刑法規(guī)定,決定某一行為的社會危害性及其程度而為該行為構(gòu)成犯罪所必須的一切客觀和主觀要件的有機統(tǒng)一[4],依據(jù)四要件理論,主要包括犯罪客體、犯罪客觀方面、犯罪主體和犯罪主觀這4 方面.我國犯罪四要件理論起源于蘇聯(lián),司法實踐至今仍在沿用這一理論.在構(gòu)建智能審判系統(tǒng)時應(yīng)延續(xù)司法中四要件理論,將四要件識別引入系統(tǒng)設(shè)計中,在構(gòu)成要件的基礎(chǔ)上進一步來做刑期預(yù)測、類案推送等任務(wù),為法官提供司法上的解釋,來進一步輔助法官量刑.

        本文主要貢獻如下:

        (1)梳理了盜竊罪構(gòu)成要件標(biāo)簽體系,分析了構(gòu)成要件識別的難點和挑戰(zhàn),并詳細(xì)分析了識別構(gòu)成要件所需的前置條件和內(nèi)容.

        (2)設(shè)計了構(gòu)成要件識別模型,利用機器學(xué)習(xí)技術(shù)來識別構(gòu)成要件,包括數(shù)據(jù)集的構(gòu)建和構(gòu)成要件模型的設(shè)計.

        (3)對比了常見的方法與本文設(shè)計的方法,在本文構(gòu)建的數(shù)據(jù)集上,對現(xiàn)有方法做了充分的測試.

        本文設(shè)計的構(gòu)成要件識別任務(wù)符合當(dāng)下司法審理流程,在構(gòu)成要件的基礎(chǔ)上進一步來做刑期預(yù)測、類案推送等任務(wù)能提高現(xiàn)有方法的可解釋性,能更加有效的輔助法官審理案件.

        1 相關(guān)工作

        案件構(gòu)成要件識別根據(jù)構(gòu)成要件理論,從案件事實中識別出構(gòu)成要件.目前在構(gòu)成要件識別中的工作較少,與之有一定關(guān)聯(lián)的是案情關(guān)鍵要素識別,在計算機任務(wù)上可以看做文本分類任務(wù).在案件要素識別方面主要有CAIL2019 法研杯提出的案情要素識別任務(wù),該任務(wù)在案情描述中重要事實描述基礎(chǔ)上,識別案情要素.基于速裁案件要素式審判的理論,法律專家梳理了婚姻家庭、勞動爭議和借款合同3 個領(lǐng)域的案情要素體系.該數(shù)據(jù)集包含民事案件內(nèi)容,不包括刑事案件內(nèi)容.王得賢[5]提出基于層次注意力的模型在該數(shù)據(jù)集上進行測試.劉海順等人[6]提出編碼器解碼器結(jié)構(gòu),利用BERT 對文本內(nèi)容進行編碼,提出BERT 模型后三層參數(shù)融合策略,然后使用LSTM 作為解碼器得到最終的預(yù)測結(jié)果.其他工作在可解釋性上,也使用了案情要素這一概念,Devlin 等人[7]構(gòu)建了一個可解釋的智能量刑模型,該模型一定程度上能解釋模型如何確定其最終輸出.但機器關(guān)注的關(guān)鍵部分與司法審理中關(guān)注的焦點并不相同,現(xiàn)有的通過注意力機制等方法提取出的案件要素并不具備司法上的解釋性.鐘皓曦等[8]基于強化學(xué)習(xí)和深度學(xué)習(xí),提出通過問答的方式,獲取案件事實中的影響定罪的元素,并通過這些元素來確定最終量刑并提供一定的解釋性.但是該文并未詳細(xì)闡述如何篩選案件要素,在單個罪名下的案件要素量少,該文選出的案件要素在司法上的支撐薄弱,在實際審理中的參考價值模糊.在實際司法中需要考慮更多的信息,按照本文所述的構(gòu)成要件來進行審理.

        案件構(gòu)成要件識別的難點在于不同的案件構(gòu)成要素不同,在梳理時需要法律人士參與,需要針對每個罪名梳理對應(yīng)的構(gòu)成要件體系.其次是利用大數(shù)據(jù)技術(shù)或深度學(xué)習(xí)技術(shù)依賴大規(guī)模標(biāo)注數(shù)據(jù)集,如何利用現(xiàn)有的公開信息,構(gòu)建一個構(gòu)成要件數(shù)據(jù)集,減少人工標(biāo)注工作量也是案件構(gòu)成要件識別面臨的挑戰(zhàn).

        2 盜竊罪構(gòu)成要件分析

        2.1 盜竊罪構(gòu)成要件

        根據(jù)刑法第二百六十四條,盜竊罪是指以非法占有為目的,盜竊公私財物數(shù)額較大或者多次盜竊、入戶盜竊、攜帶兇器盜竊、扒竊公私財物的行為.審理一起盜竊案件時,根據(jù)犯罪構(gòu)成中四要件理論,要判斷一起案件的主體要件、主觀要件、客體要件和客觀要件這4 個構(gòu)成要件是否存在.主體要件刻畫了行為人是否具有刑事責(zé)任能力,主觀要件分析了行為人對自己實施的危害社會的行為及其結(jié)果所持的心理態(tài)度,客體要件描述犯罪侵犯的法益,客觀要件描述了犯罪行為事實.

        本文詳細(xì)梳理了盜竊罪的構(gòu)成要件部分,并闡述了構(gòu)成要件與法院認(rèn)定事實之間的關(guān)系.在盜竊罪主體要件中主要從主體行為人是否具有刑事責(zé)任能力,是否為未成年人,是否有犯罪前科和是否為中國居民這些方面來判斷.

        主觀要件可從5 點進行考察,故意、非法占有為目的、牟利為目的、對特殊情節(jié)的明知和轉(zhuǎn)化為其他罪名.故意主要從犯罪嫌疑人有主動參與作案的動機、犯罪過程中有無策劃、是否事先通謀、事后銷贓的行為人,通謀的內(nèi)容包括盜竊行為和有無共犯這4 個方面進行識別.非法占有為目的從對他人財物的明知和對盜竊后果的明知兩點進行識別.牟利為目的,主要從盜竊他人通信線路、復(fù)制他人電信碼或者明知是盜竊、復(fù)制的電信設(shè)備、設(shè)施使用來判斷.對特殊情節(jié)的明知,可依常識推論犯罪嫌疑人是否知道被害人是殘疾人、孤寡老人或者喪失勞動能力的人、被盜財物是否為珍貴文物,或者救災(zāi)、搶險、防汛、優(yōu)撫、扶貧、移民、救濟款物,盜竊地點是自然災(zāi)害、事故災(zāi)害、社會安全事件等突發(fā)事件期間的事件發(fā)生地.轉(zhuǎn)化為其他罪名從犯罪嫌疑人對行為對象的性質(zhì)、功能等特征是否存在明確的認(rèn)知來判斷是否構(gòu)成特別罪名.

        客體要件從他人占有的財物和價值來考察,他人占有的財物主要從實踐中的表現(xiàn)和學(xué)理解釋來認(rèn)定,如被害人對所盜財物擁有合法權(quán)利.學(xué)理解釋根據(jù)法學(xué)理論判斷客體的一些屬性如是否為遺忘物,基于委托關(guān)系的占有等.價值在確定刑事處罰時有重要意義,根據(jù)被盜物品價值確定案件的基準(zhǔn)刑以及在相應(yīng)的量刑格中確定增減刑.

        客觀要件從客觀行為事實來對案件進行考量,不同的客觀行為事實會影響盜竊罪的認(rèn)定.在盜竊罪的客觀行為事實中需要考慮時間、地點、犯罪參與人、動機、手段、方法、被害人、行為對象、情節(jié)和后果這些方面.

        法官依據(jù)證據(jù)以構(gòu)成要件為指導(dǎo)歸納、認(rèn)定案件事實,在司法證據(jù)中識別案件構(gòu)成要件,并最終歸納總結(jié)出案件事實,最終認(rèn)定的案件事實包含這起案件所涉及的全部構(gòu)成要件.盜竊罪構(gòu)成要件標(biāo)簽體系如表1中所示.

        表1 盜竊罪構(gòu)成要件標(biāo)簽體系

        本文選取了客觀要件作為識別對象,進一步分析客觀行為事實,篩選識別的要件內(nèi)容.在案件審理中,法官以客觀要件中的客觀行為事實來判定罪名以及量刑.在上述客觀行為事實中主要考察時間、地點,犯罪參與人、動機、手段方法、被害人、行為對象、情節(jié)和后果這些內(nèi)容,其中手段方法在審理中對案件的罪名有關(guān)鍵的作用,是判斷一起案件是否構(gòu)成盜竊罪,區(qū)別此罪與比罪的核心.

        審理過程中犯罪情節(jié)和后果對最終處罰的基準(zhǔn)刑有著關(guān)鍵作用.參考《最高人民法院量刑規(guī)范化的指導(dǎo)意見》第三節(jié)盜竊罪相關(guān)量刑基準(zhǔn)中涉及到的情節(jié),本文認(rèn)為在情節(jié)和后果中可將盜竊情節(jié)分為一般盜竊行為、量刑從輕、減輕的情節(jié)和從重處罰情節(jié)這3 種方面.一般盜竊行為中根據(jù)盜竊數(shù)額來判斷對該案件處以多重的刑罰.如設(shè)立盜竊財物金額標(biāo)準(zhǔn),劃分?jǐn)?shù)額較大,數(shù)額巨大和數(shù)額特別巨大這幾檔來確定基準(zhǔn)刑.對被盜物品和時間以及行為人和后果進行劃分,可設(shè)立量刑從輕、減輕情節(jié),如盜竊近親屬財物,初犯、偶犯,未成年人犯罪等.對盜竊行為進行劃分可確定從重處罰情節(jié),如多次盜竊,入戶盜竊,教唆未成年人盜竊等.

        2.2 盜竊罪構(gòu)成要件識別任務(wù)

        本文提出的構(gòu)成要件識別任務(wù)根據(jù)法院認(rèn)定的犯罪事實來識別包含的構(gòu)成要件.在形式上通過給系統(tǒng)輸入案件的事實描述部分,得到該事實中包含的構(gòu)成要件標(biāo)簽.給定法官認(rèn)定的事實句子序列X={x1,x2,x3,···,xm},預(yù)測與X對應(yīng)的構(gòu)成要件標(biāo)簽集合其中m是序列X的長度,xi表示序列中的第i個詞.Y={y1,y2,y3,···,yn}為構(gòu)成要件標(biāo)簽集合.n為構(gòu)成要件類別總數(shù),一個案件事實至少對應(yīng)一個構(gòu)成要件標(biāo)簽,可能對應(yīng)多個構(gòu)成要件標(biāo)簽,所以是Y的子集.

        2.3 盜竊罪構(gòu)成要件數(shù)據(jù)集構(gòu)建

        在構(gòu)建數(shù)據(jù)集時,本文充分利用公開信息,在上述分析基礎(chǔ)上,首先確定構(gòu)成要件標(biāo)簽,之后在裁判文書網(wǎng)上篩選相應(yīng)的數(shù)據(jù)作為本文的訓(xùn)練和測試數(shù)據(jù).主要方法如下:

        (1)本文在盜竊罪客觀構(gòu)成要件客觀行為事實中情節(jié)和后果的基礎(chǔ)上,依據(jù)無需金額標(biāo)準(zhǔn)的情形構(gòu)建數(shù)據(jù)集,無需金額標(biāo)準(zhǔn)的情形主要包含四類,依據(jù)《最高人民法院、最高人民檢察院關(guān)于辦理盜竊刑事案件適用法律若干問題的解釋》第三條,分別是多次盜竊,入戶盜竊、攜帶兇器盜竊和扒竊.選取入戶盜竊、攜帶兇器盜竊、多次盜竊和扒竊作為本文分析的盜竊罪構(gòu)成要件中客觀要件需要識別的部分.并加入其他標(biāo)簽來區(qū)分其他構(gòu)成要件和其他情形.

        (2)從中國裁判文書網(wǎng)[9],通過下載裁判文書網(wǎng)上刑事案件中的盜竊罪一審判決書,分析判決書中本院認(rèn)為部分,查找上述分析出的關(guān)鍵詞.圖1所示,一則盜竊罪案例中,本院認(rèn)為部分中包含“以非法占有為目的,在公共場所扒竊他人財物,其行為已構(gòu)成盜竊罪”.從中獲取關(guān)鍵詞“扒竊”.將該文書的認(rèn)定事實部分、被告人基本信息部分抽取出來,作為數(shù)據(jù)集中文本的內(nèi)容.

        圖1 裁判文書中構(gòu)成要件示例

        上述構(gòu)成要件識別主要依據(jù)認(rèn)定的犯罪事實.無需個人信息、過往犯罪經(jīng)過等信息,本文在構(gòu)建數(shù)據(jù)集時,將法院裁判文書中認(rèn)定的事實部分作為數(shù)據(jù)輸入,將構(gòu)成要件作為標(biāo)簽.盜竊罪構(gòu)成要件數(shù)據(jù)實例如表2所示.

        表2 盜竊罪構(gòu)成要件數(shù)據(jù)集示例

        3 基于BERT 的構(gòu)成要件識別模型

        3.1 模型整體流程

        本文先構(gòu)建盜竊罪構(gòu)成要件數(shù)據(jù)集,然后基于預(yù)訓(xùn)練模型設(shè)計構(gòu)成要件識別模型,在本文構(gòu)建的盜竊罪構(gòu)成要件數(shù)據(jù)集上進行訓(xùn)練,并取驗證集上最優(yōu)模型作為最終的模型,整體流程如圖2所示.

        圖2 構(gòu)成要件識別流程圖

        3.2 BERT-BiLSTM-Att 模型

        本文提出基于BERT的盜竊罪構(gòu)成要件識別模型首先通過BERT 獲取語句的向量表示,之后運用BiLSTM模型提取句特征,并結(jié)合注意力機制進一步.

        獲取對分類結(jié)果有重要影響的特征.具體流程如下:

        (1)通過預(yù)訓(xùn)練語言模型獲取句向量.預(yù)訓(xùn)練模型的大小會影響下游任務(wù)的效果.本文選用了BERTbase 模型,能接受的最長文本長度m=512字符.隱藏層維度d=768,編碼層層數(shù)為l=12.在預(yù)訓(xùn)練模型上使用了目前最新的公開中文預(yù)訓(xùn)練數(shù)據(jù)集.

        (2)構(gòu)建盜竊罪客觀要件識別模型.使用BERT 最后一層輸出向量作為文本表示,并拼接BiLSTM-Att 模型,下游任務(wù)設(shè)置為多分類任務(wù),通過下游任務(wù)對預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進行微調(diào).具體結(jié)構(gòu)如圖3所示,將得到的文本向量送入BiLSTM-Att 模型中,通過該模型識別盜竊罪構(gòu)成要件并在最后使用交叉熵?fù)p失函數(shù)進行訓(xùn)練.

        圖3 BERT-BiLSTM-Att 模型結(jié)構(gòu)圖

        在訓(xùn)練時設(shè)置學(xué)習(xí)率為3e-5,參數(shù)優(yōu)化使用BERT-Adam 優(yōu)化器.訓(xùn)練epoch 為60,batch-size 大小為16.

        3.3 BERT 模型獲取句向量

        BERT 模型[10]在雙向Transformer[11]編碼器的基礎(chǔ)上實現(xiàn),其中每個Transformer 編碼單元由6 個Encoder 堆疊在一起,Transformer 編碼器單個Encoder架構(gòu)圖如圖4所示.

        圖4 中N代表編碼器層數(shù),一個Transformer 編碼器包含兩層,一個是多頭的自注意力層,另一個是前饋神經(jīng)網(wǎng)絡(luò)層.多頭自注意力層中自注意力機制能彌補循環(huán)神經(jīng)網(wǎng)絡(luò)面臨的長依賴問題,不僅關(guān)注當(dāng)前幾個詞,能夠獲取更長的全文信息.并通過多頭的方式獲取不同的交互關(guān)系.

        圖4 Transformer encoder 模塊結(jié)構(gòu)圖

        自注意力機制的可以看做在一個線性投影空間中建立模型輸入中不同向量之間的交互關(guān)系.自注意力機制的運算過程中,首先會計算出3 個新的向量:Q(query),K(key),V(value),這3 個向量是詞嵌入向量與一個矩陣相乘得到的結(jié)果,該矩陣是隨機初始化的維度為(64,512)的矩陣.當(dāng)輸入一個句子時,該句子中的每個詞都與其他的詞進行Attention計算,Attention的計算公式如下:

        其中,dk表示每個字的query 和key 向量的維度,Softmax()是歸一化指數(shù)函數(shù).最終得到的Attention值是一個矩陣值,矩陣值的每一行代表輸入句子中相應(yīng)字的Attention向量,其中包含了句子中該詞和其他位置的詞的相互關(guān)系信息,是一個新的向量表示.由此,我們可以看到,BERT 模型使用帶有自注意力機制的雙向Transformer 模型獲得了句子的前后語義關(guān)系,從而更好地獲得了一個句子的語義表達.

        在預(yù)訓(xùn)練過程中,BERT 使用MLM(masked language model)任務(wù)和NSP(next sentence prediction)任務(wù)進行預(yù)訓(xùn)練.一般使用BERT 做文本分類任務(wù)時使用BERT 最后一層池化后的輸出,在其基礎(chǔ)上使用全連接層和交叉熵?fù)p失函數(shù)進行訓(xùn)練,如圖5所示.文本選取BERT 輸出作為文本向量表示.

        圖5 BERT 文本分類模型

        3.4 BiLSTM-Att 分類模型

        LSTM(long short-term memory network)[12,13]是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,通過引入門控機制來控制信息的累計速度,包括有選擇地加入新的信息,并有選擇地遺忘之前累積的信息來改善循環(huán)網(wǎng)絡(luò)的長依賴問題.BiLSTM-Attention[14]模型在LSTM 基礎(chǔ)上,以其作為基礎(chǔ)的網(wǎng)絡(luò)層,通過增加一個逆句子順序的網(wǎng)絡(luò)層,來獲取一個詞的上下文關(guān)系,增強網(wǎng)絡(luò)的表示能力.并在獲取的表示后加入注意力機制來更好的獲取關(guān)鍵的信息.

        BiLSTM-Att 模型如圖6所示,其中et為詞向量,為某一順序上LSTM 在該時刻的向量,為將兩個向量拼接后的向量,最后將yt通過注意力層得到該句子的表示.在得到的句子表示上加入Attention層之后為BiLSTM-Attention 模型.

        圖6 BiLSTM-Att 文本分類模型

        4 實驗結(jié)果分析

        4.1 測試數(shù)據(jù)

        本文從裁判文書網(wǎng)上下載盜竊罪一審判決書1 萬份,通過正則的方式獲取文書中案件事實部分,之后對判決書提取判決結(jié)果.通過本院認(rèn)為部分,提取判決結(jié)果中包含上述標(biāo)簽的案件構(gòu)建2 400 條數(shù)據(jù),篩選標(biāo)簽示例如圖7所示,樣例數(shù)據(jù)如表2所示.

        圖7 判決書中標(biāo)簽示例

        通過對案件事實和標(biāo)簽進行統(tǒng)計分析,本文構(gòu)建的數(shù)據(jù)集在文本長度上按字符統(tǒng)計,平均文本長度為235 字,最大文本長度653 字,最小文本長度為124 字.統(tǒng)計相應(yīng)的占比,本文構(gòu)建的數(shù)據(jù)集中其他文書600 份,入戶盜竊587 份,攜帶兇器盜竊122 份,扒竊836 份,多次盜竊483 份.占比如圖8所示.

        圖8 各標(biāo)簽占數(shù)據(jù)集比例

        4.2 測試環(huán)境

        實驗硬件設(shè)備如表3所示.

        表3 實驗環(huán)境

        4.3 評價指標(biāo)

        將數(shù)據(jù)集劃分為2 000 條作為訓(xùn)練數(shù)據(jù),200 條作為評測在200 份測試數(shù)據(jù)中進行,評測上述所有的標(biāo)簽分類結(jié)果,從精度(precision),召回率(recall),F1值3 方面評測算法的結(jié)果.

        精度(precision)是指標(biāo)記為正類的元組實際為正類的百分比,計算方法為:

        其中,Tp為被分類器正確分類的正元組個數(shù),Fp為錯誤標(biāo)記為正元組的負(fù)元組個數(shù).

        召回率計算方法為:

        其中,Tp為模型預(yù)測出的標(biāo)簽正確的標(biāo)簽個數(shù),Fn為被錯誤標(biāo)記為負(fù)元組的正元組個數(shù),即假負(fù)例個數(shù).

        F1值計算方式為:

        其中,precision為上述精度,recall為上述召回率.

        對上述3 個指標(biāo)從micro 指標(biāo)進行考察,計算方式如下:

        其中,B(·)為計算precision,recall和F1算符.

        4.4 結(jié)果分析

        數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)2 000 條,驗證數(shù)據(jù)200 條,測試數(shù)據(jù)200 條.實驗對比了目前文本分類中常用的模型和最新的模型.對比了多個預(yù)訓(xùn)練模型,主要有科大訊飛開源的中文預(yù)訓(xùn)練語言模型[15],和清華大學(xué)開源的司法數(shù)據(jù)上的預(yù)訓(xùn)練語言模型.

        常用的模型比較了LSTM 和基于LSTM的一些改進模型,主要有LSTM、BiLSTM 和BiLSTM-Att.模型輸入的詞向量本文使用Google 團隊發(fā)布的Word2Vec工具[16],通過在CAIL2018 罪名預(yù)測數(shù)據(jù)集[17]的事實部分作為訓(xùn)練語料庫,使用結(jié)巴分詞將語料分詞后進行訓(xùn)練.Word2Vec 中選擇的方法為CBOW,該方法通過中心詞周圍的詞來預(yù)測中心詞.預(yù)訓(xùn)練詞向量維度為300 維,訓(xùn)練設(shè)置的相關(guān)參數(shù)如表4所示.

        表4 Word2Vec 參數(shù)設(shè)置

        主要比較的預(yù)訓(xùn)練模型如下:

        BERT-xs:該預(yù)訓(xùn)練模型在663 萬篇刑事文書上進行預(yù)訓(xùn)練,未采用全詞覆蓋訓(xùn)練策略,訓(xùn)練時以字為力度進行切分.

        BERT-wwm:該預(yù)訓(xùn)練模型在中文維基百度上進行訓(xùn)練,采用全詞覆蓋訓(xùn)練策略,訓(xùn)練時一個完整的詞的部分子詞被覆蓋,則同屬該詞的其他部分也會被覆蓋.

        BERT-wwm-ext:該預(yù)訓(xùn)練模型在上述預(yù)訓(xùn)練方法的基礎(chǔ)上增加了數(shù)據(jù),其中EXT 數(shù)據(jù)包括:中文維基百科,其他百科、新聞、問答等數(shù)據(jù),總詞數(shù)達5.4 B.

        RoBERTa-wwm-ext:使用RoBERTa 并使用上述的訓(xùn)練策略和訓(xùn)練數(shù)據(jù),將模型換為RoBERTa,RoBERTa 相比于原始的BERT 做了如下改進:訓(xùn)練時間更久,并增大了batch size;移除了BERT 預(yù)訓(xùn)練任務(wù)中的NSP 任務(wù);訓(xùn)練了更長的序列和動態(tài)調(diào)整mask策略.

        經(jīng)計算得到本文使用的模型precisionmicro為 93.54%,recallmicro為95.75%,F1micro為94.63%.

        表5 中BiA 表示BiLSTM-Att 部分,BERT-xs-BiA 代表使用BERT-xs 預(yù)訓(xùn)練模型得到文本句向量,再送入BiLSTM-Att 中做分類,識別構(gòu)成要件.BERT-xs表示只使用BERT 做分類,識別構(gòu)成要件,其他模型標(biāo)識同理可得.

        表5 測試結(jié)果(%)

        從實驗結(jié)果可以看到,相比于BiLSTM 和帶注意力層的BiLSTM,BERT 預(yù)訓(xùn)練模型優(yōu)于傳統(tǒng)的模型,這表明BERT 模型能夠在訓(xùn)練數(shù)據(jù)較少的情形下,通過面向下游任務(wù)進行微調(diào),取得較好的結(jié)果.

        通過BERT-xs 和BERT-xs-BiA 對比和其他預(yù)訓(xùn)練模型間比較可知使用了BERT 提取句向量做為輸入比使用Word2Vec 訓(xùn)練得到詞向量得到的結(jié)果好.這表明通過BERT 模型獲取的文本向量能夠更好的表示文本,通過與BiLSTM-Att 結(jié)合能進一步提高識別效果.

        在基于預(yù)訓(xùn)練語言模型的對比中,預(yù)訓(xùn)練語言模型的選擇也相當(dāng)重要,選擇合適的預(yù)訓(xùn)練模型能提高一定的準(zhǔn)確率,如BERT-wwm、BERT-wwm-ext 和RoBERTa-wwm-ext 模型三者模型大小相差不大,使用RoBERTa-wwm-ext 能提高一定的準(zhǔn)確率.在訓(xùn)練時BERT-xs 能夠更快的學(xué)習(xí)到司法任務(wù)相關(guān)的內(nèi)容,在前幾個epoch 結(jié)果優(yōu)于其他模型.但在最終結(jié)果上并非最優(yōu),本文認(rèn)為這與下游任務(wù)有關(guān),在司法文本分類任務(wù)上通用語料庫上預(yù)訓(xùn)練的語言模型能達到司法文本上預(yù)訓(xùn)練的語言模型的結(jié)果.

        5 總結(jié)

        本文設(shè)計了盜竊罪構(gòu)成要件識別任務(wù),結(jié)合量刑理論,提出結(jié)合構(gòu)成要件的司法智能系統(tǒng)構(gòu)建思路.從案件審理的四要件角度,詳細(xì)梳理了盜竊罪的構(gòu)成要件和識別該要件所需的前置條件.之后構(gòu)建了首個盜竊罪的構(gòu)成要件數(shù)據(jù)集,從公開數(shù)據(jù)上利用搜索和正則匹配等方式篩選數(shù)據(jù),構(gòu)建了數(shù)據(jù)集.最后設(shè)計了基于BERT 模型的構(gòu)成要件識別模型,對該數(shù)據(jù)集進行分類,并測試了相關(guān)結(jié)果.在本文構(gòu)建的數(shù)據(jù)集上,該模型達到了93.54%的準(zhǔn)確率,優(yōu)于傳統(tǒng)模型.本文提出的構(gòu)成要件識別任務(wù)有很強的司法理論支撐,能夠指導(dǎo)規(guī)范案情要素識別的內(nèi)容,并且在本文工作基礎(chǔ)上構(gòu)建智能審判相關(guān)算法,能夠更好的為法官提供指引,有很強的實際意義.

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        天天摸天天做天天爽水多| 亚洲一级av大片在线观看| 中文字幕国产91| 在线观看中文字幕一区二区三区 | 日韩综合无码一区二区| 少妇性荡欲视频| 亚洲最大成av人网站| 在线看不卡的国产视频| 蜜臀av一区二区三区免费观看| 人人妻人人澡人人爽欧美一区九九| 国精品无码一区二区三区在线| 精品国产高清一区二区广区| 国产成人高清精品亚洲一区| 精品国产三区在线观看| 日本精品久久久久中文字幕| 国产成人精品999在线观看| 免费国产99久久久香蕉| 在线亚洲精品国产成人二区| 按摩师玩弄少妇到高潮av| 夜夜高潮夜夜爽夜夜爱爱一区 | 99久久免费看少妇高潮a片特黄| 亚洲最大在线精品| 男女男生精精品视频网站| 久久精品国产亚洲av麻豆瑜伽| 免费女人高潮流视频在线观看| 又硬又粗又大一区二区三区视频| 狠狠综合亚洲综合亚色 | 久久午夜夜伦鲁鲁片免费无码| 无码人妻AⅤ一区 二区 三区| 黄片亚洲精品在线观看| 国产在线无码精品无码| 精品久久久中文字幕人妻| 夜夜综合网| 欧洲无码一级毛片无遮挡| 日本a爱视频二区三区| 午夜无遮挡男女啪啪免费软件| 麻豆第一区MV免费观看网站| 冲田杏梨av天堂一区二区三区| 亚洲精品无码不卡| 中文字幕有码无码av| 欧美日韩一二三区高在线|