亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合案件要素序列的罪名預(yù)測(cè)方法

        2021-11-22 02:00:50孫倩秦永彬黃瑞章劉麗娟陳艷平
        大數(shù)據(jù) 2021年6期
        關(guān)鍵詞:文本實(shí)驗(yàn)模型

        孫倩,秦永彬,2,黃瑞章,2,劉麗娟,陳艷平,2

        1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025;2.公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;3.貴州師范學(xué)院,貴州 貴陽(yáng) 550018

        1 引言

        隨著智能司法建設(shè)的穩(wěn)固推進(jìn),人工智能技術(shù)逐漸滲透到法院審判工作中。法律查詢(xún)、信息檢索等智能輔助辦案功能被不斷地探索和實(shí)踐,極大地促進(jìn)了審判體系的現(xiàn)代化。當(dāng)前,法院在長(zhǎng)期的司法實(shí)踐中積累了大量的裁判文書(shū),裁判文書(shū)是法院的審理過(guò)程和結(jié)果的載體,其中蘊(yùn)含了重要的案情信息和隱藏的知識(shí)價(jià)值。利用裁判文書(shū)的案情事實(shí)部分,發(fā)現(xiàn)隱含的特征信息,是支撐智慧法院輔助辦案的核心,是提升法院工作效率和保障司法公平的重要途徑[1]。

        罪名預(yù)測(cè)是智能司法輔助辦案中的重要任務(wù)。在具體的司法實(shí)踐中,法官通常從案情事實(shí)出發(fā),依據(jù)案情特征及其邏輯關(guān)系進(jìn)行判定。在此過(guò)程中,案件要素發(fā)揮了重要作用。案件要素是指案情事實(shí)描述中的關(guān)鍵行為詞及與行為相關(guān)的要素。

        案例1故意殺人罪:“XX市人民檢察院指控,被告人黨某在家中因生活瑣事與其婆婆吳某發(fā)生爭(zhēng)執(zhí),在爭(zhēng)吵與打斗過(guò)程中,黨某持磚頭擊打吳某頭部,致其當(dāng)場(chǎng)死亡。”

        案例2搶劫罪:“XX市人民檢察院指控,被告人王某某竄至X市X區(qū)X路X超市門(mén)口,持刀對(duì)被害人段某某進(jìn)行威脅,從段某某包內(nèi)搶走現(xiàn)金400余元后,逃至X小區(qū)旁一網(wǎng)吧內(nèi),王某某在網(wǎng)吧內(nèi)被公安民警抓獲?!?/p>

        案例1和案例2分別是故意殺人罪和搶劫罪的案情事實(shí)部分。案例1是由于雙方發(fā)生爭(zhēng)執(zhí),行為人黨某故意使用兇器擊打被害人吳某頭部,導(dǎo)致被害人吳某死亡。案例2是由于行為人王某某單方面原因,持刀威脅被害人并搶走財(cái)物。兩個(gè)案例在犯罪起因和經(jīng)過(guò)、適用罪名、包含案件要素等方面均不同。由此可見(jiàn),案件要素的獲取可以實(shí)現(xiàn)案情事實(shí)和判決結(jié)果的關(guān)聯(lián)。此外,案情事實(shí)中通常包含多個(gè)行為動(dòng)作,其中某些行為對(duì)判決結(jié)果產(chǎn)生的影響不大。如何找到句子的中心行為要素并建立關(guān)聯(lián)關(guān)系對(duì)于案情過(guò)程表示有重要影響。

        因此,本文將犯罪過(guò)程表示為一系列以“行為”為核心且具有時(shí)序關(guān)系的案件要素,即案件要素序列,并融合文本語(yǔ)義表示,實(shí)現(xiàn)結(jié)合案件要素序列的罪名預(yù)測(cè)。本文主要貢獻(xiàn)如下。

        ● 本文提出了一種結(jié)合案件要素序列的罪名預(yù)測(cè)方法。該方法利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)模型獲取案件要素序列表示,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型獲取文本語(yǔ)義表示,然后融合進(jìn)行罪名預(yù)測(cè)。

        ● 在實(shí)驗(yàn)部分,通過(guò)與現(xiàn)有方法進(jìn)行對(duì)比,融合案件要素序列表示能顯著提高罪名預(yù)測(cè)性能,本文方法的有效性得到驗(yàn)證。特別地,該方法對(duì)易混淆罪名區(qū)分也有良好的表現(xiàn)。

        2 相關(guān)工作

        作為法律審判預(yù)測(cè)的重要任務(wù)之一,罪名預(yù)測(cè)指根據(jù)給定的案件預(yù)測(cè)罪名。在早期罪名預(yù)測(cè)任務(wù)中,大部分工作使用統(tǒng)計(jì)分析方法。后來(lái)量化分析[2]和關(guān)聯(lián)分析[3]被提出,但這類(lèi)方法局限性較強(qiáng),只針對(duì)特定領(lǐng)域的數(shù)據(jù)集。

        隨著機(jī)器學(xué)習(xí)的發(fā)展,罪名預(yù)測(cè)任務(wù)可以分為基于特征工程和基于神經(jīng)網(wǎng)絡(luò)的方法。Lin W C等人[4]重點(diǎn)討論了強(qiáng)盜罪和恐嚇取財(cái)罪,并定義了21種法律要素標(biāo)簽,利用這些要素標(biāo)簽進(jìn)行罪名分類(lèi)。Liu Y H等人[5]提出一種基于文本挖掘的方法,使用支持向量機(jī)(support vector machine,SVM)進(jìn)行分類(lèi)。在人工智能技術(shù)的加持下,法律研究逐漸變得智能化、自動(dòng)化。Jiang X等人[6]通過(guò)深度強(qiáng)化學(xué)習(xí)方法提取事實(shí)部分的依據(jù)并將該依據(jù)信息融入分類(lèi)模型,從而提高準(zhǔn)確性。Kang L Y等人[7]針對(duì)刑事案件的事實(shí)部分,根據(jù)罪名的定義來(lái)創(chuàng)建輔助事實(shí)以擴(kuò)充其表示,從而提高預(yù)測(cè)準(zhǔn)確率。Yang X T等人[8]從事實(shí)描述中提取出相關(guān)片段進(jìn)行特征增強(qiáng),將罪名作為監(jiān)督標(biāo)簽進(jìn)行預(yù)測(cè)。劉宗林等人[9]從事實(shí)描述中抽取有助于區(qū)分易混淆罪名的指示性罪名關(guān)鍵詞,從而解決罪名預(yù)測(cè)任務(wù)中的罪名易混淆問(wèn)題。除了使用案情事實(shí)部分,相關(guān)研究者還引入案件相關(guān)信息來(lái)輔助預(yù)測(cè)。Luo B F等人[10]提出基于注意力的神經(jīng)網(wǎng)絡(luò)方法,并引入法條信息進(jìn)行罪名預(yù)測(cè)。Hu Z K等人[11]針對(duì)低頻罪名和易混淆罪名引入10個(gè)有代表性的屬性進(jìn)行區(qū)分,利用注意力機(jī)制生成與屬性相關(guān)的事實(shí)表示,依據(jù)不同屬性進(jìn)行預(yù)測(cè)。He C Q等人[12]提出一種序列增強(qiáng)的膠囊網(wǎng)絡(luò)模型來(lái)解決低頻罪名,并設(shè)計(jì)一個(gè)注意力殘差單元來(lái)提供輔助信息。敖紹林等人[13]利用三元組損失(triplet loss)技術(shù)調(diào)節(jié)CNN,從而更好地學(xué)習(xí)案件表示的語(yǔ)義特征向量。當(dāng)前研究大多采用增強(qiáng)案情事實(shí)信息或引入輔助信息的方式。通過(guò)分析真實(shí)案例發(fā)現(xiàn)案件要素和行為發(fā)生順序?qū)τ趯徟薪Y(jié)果有顯著影響,但上述研究沒(méi)有考慮該情況。在司法要素方面,黃輝等人[14]提出了基于BERT閱讀理解框架的司法要素抽取方法,該方法建立了輔助問(wèn)句和裁判文書(shū)之間的語(yǔ)義聯(lián)系,增強(qiáng)了模型的學(xué)習(xí)能力。張虎等人[15]通過(guò)抽取判決要素,結(jié)合法條與語(yǔ)義差異性進(jìn)行罪名預(yù)測(cè)。

        近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)被作為圖數(shù)據(jù)挖掘領(lǐng)域的熱門(mén)研究方向之一,相關(guān)研究者將圖神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理任務(wù)結(jié)合并取得了一定的成果。在此過(guò)程中,他們提出了文本數(shù)據(jù)的多種構(gòu)圖方式,將文本分類(lèi)任務(wù)轉(zhuǎn)換為圖分類(lèi)或節(jié)點(diǎn)分類(lèi)任務(wù)。Yao L等人[16]將文檔和詞作為圖節(jié)點(diǎn),對(duì)文本語(yǔ)料庫(kù)構(gòu)建文本圖,將文本分類(lèi)問(wèn)題看作節(jié)點(diǎn)分類(lèi)問(wèn)題。Zhang Y F等人[17]認(rèn)為每個(gè)文檔都有自己的結(jié)構(gòu)圖,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的歸納式文本分類(lèi)方法,將文本分類(lèi)轉(zhuǎn)換為圖分類(lèi)任務(wù)。Hu L M等人[18]提出一種異質(zhì)圖注意力(heterogeneous graph attention,HGAT)網(wǎng)絡(luò)來(lái)學(xué)習(xí)短文本的表示并進(jìn)行分類(lèi)。Huang L Z等人[19]提出了一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的模型,該模型能為每個(gè)輸入文本生成一個(gè)文本級(jí)別的圖。在司法領(lǐng)域,Xu N等人[20]提出一種圖神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)易混淆法律文本間的細(xì)微差別,并設(shè)計(jì)了一種利用學(xué)習(xí)到的差異從事實(shí)描述中提取有效的區(qū)別特征的注意力機(jī)制。

        上述研究表明,圖神經(jīng)網(wǎng)絡(luò)對(duì)文本處理有積極意義。然而在司法研究領(lǐng)域,圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用較少。由于每個(gè)案件文本都可以表示為圖結(jié)構(gòu),為了更好地捕獲案件事實(shí)特征,本文將圖神經(jīng)網(wǎng)絡(luò)與司法數(shù)據(jù)結(jié)合,以此來(lái)聚合關(guān)聯(lián)案件的表示,捕獲更多潛在信息。

        3 罪名預(yù)測(cè)模型結(jié)構(gòu)

        本文的罪名預(yù)測(cè)模型主要分為4個(gè)部分,其結(jié)構(gòu)如圖1所示。第一部分,案件要素圖構(gòu)建。針對(duì)案件要素識(shí)別中存在的缺乏訓(xùn)練數(shù)據(jù)集、識(shí)別困難等問(wèn)題,采用基于BERT(bidirectional encoder representation from transformer)模型[21]的案件要素識(shí)別方法進(jìn)行要素識(shí)別,并根據(jù)案件要素及要素間的關(guān)聯(lián)關(guān)系構(gòu)建案件要素圖。第二部分,案件要素序列表示。本文引入雙層圖卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)案件要素圖進(jìn)行建模,捕獲案件間的潛在關(guān)系,形成案件要素序列表示。第三部分,文本語(yǔ)義表示。根據(jù)模型特點(diǎn),使用文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)模型[22]捕獲文本語(yǔ)義特征表示。第四部分,模型輸出。將文本語(yǔ)義特征與案件要素序列特征融合,并經(jīng)過(guò)全連接(fully connected,F(xiàn)C)層輸出。

        圖1 罪名預(yù)測(cè)模型結(jié)構(gòu)

        3.1 案件要素圖構(gòu)建

        在司法案例數(shù)據(jù)中,每個(gè)案件都有自己的圖結(jié)構(gòu)。本文將案件要素作為圖節(jié)點(diǎn),案件要素間的關(guān)聯(lián)關(guān)系作為邊,構(gòu)建案件要素圖。從案情事實(shí)中獲取案件要素需要著重考慮3個(gè)問(wèn)題。首先,刑事案件犯罪過(guò)程復(fù)雜,案件要素之間關(guān)系眾多,如何捕獲要素間的特征關(guān)系對(duì)于案情事實(shí)表示較為關(guān)鍵;其次,在案情事實(shí)的單個(gè)句子中可能出現(xiàn)多個(gè)行為要素,極大地增加了面向單一行為要素識(shí)別的訓(xùn)練壓力;最后,由于司法數(shù)據(jù)的特點(diǎn),缺乏相關(guān)訓(xùn)練數(shù)據(jù)集。

        針對(duì)以上問(wèn)題,本文使用刑事判決書(shū)中的事實(shí)部分,經(jīng)過(guò)人工標(biāo)注形成案件要素?cái)?shù)據(jù)集。結(jié)合中文謂語(yǔ)動(dòng)詞標(biāo)注方法的規(guī)則及句法要素識(shí)別方法[23-24],本文使用BERT-CRF框架實(shí)現(xiàn)案件要素識(shí)別。BERT的雙向Transform框架能很好地融合上下文信息,增加的條件隨機(jī)場(chǎng)(conditional random field,CRF)層可以捕獲標(biāo)簽間的概率轉(zhuǎn)換信息。本文將案件要素識(shí)別任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù)。

        本文采用BERT作為主要模型,模型的輸入為對(duì)應(yīng)的詞向量、位置向量、句向量3個(gè)嵌入特征。的輸入向量可以表示為:

        經(jīng)過(guò)BERT模型后將向量表示輸入CRF層進(jìn)行標(biāo)簽預(yù)測(cè)。本文使用“BIO”標(biāo)簽體系預(yù)測(cè)所屬標(biāo)簽:

        其中,“B-ε”表示該元素是案件要素的開(kāi)始字符;“I-ε”表示該元素是案件要素的中間字符,也可以表示單個(gè)詞語(yǔ);“O”表示該元素不屬于任何類(lèi)型。ε∈{SUB,ADV,PRE,RAI,TEM,LOC},“SUB”表示犯罪主體;“ADV”表示犯罪行為描述;“PRE”表示犯罪行為;“RAI”表示犯罪行為導(dǎo)致的結(jié)果;“TEM”表示犯罪時(shí)間;“LOC”表示犯罪地點(diǎn)。由于單字形式不利于案件要素圖構(gòu)建,本文在識(shí)別模型輸出后增加了一個(gè)數(shù)據(jù)后處理操作,即將當(dāng)前B標(biāo)簽位置開(kāi)始到下一個(gè)B標(biāo)簽位置結(jié)束之間的漢字進(jìn)行拼接。經(jīng)過(guò)數(shù)據(jù)后處理后,得到被包含在各句子中的案件要素集合,最終形成案情事實(shí)kd包含的案件要素kdV:

        其中,h表示句子中存在的案件要素?cái)?shù)量。進(jìn)一步地,去除案件要素集合V中重復(fù)的案件要素,得到不重復(fù)案件要素集合V′:

        其中,r表示案例數(shù)據(jù)集包含的不重復(fù)案件要素個(gè)數(shù)。本文將案件要素作為節(jié)點(diǎn),案件要素之間存在的關(guān)聯(lián)關(guān)系作為邊。具體來(lái)說(shuō),對(duì)于案件要素vi、vj∈V′,本文依據(jù)案件要素的共現(xiàn)信息構(gòu)建邊,邊的權(quán)重通過(guò)點(diǎn)互信息(pointwise mutual information,PMI)計(jì)算,這一過(guò)程可以表示為:

        其中,eij表示案件要素vi與vj之間的邊,當(dāng)vi=vj時(shí),eij表示當(dāng)前節(jié)點(diǎn)的自環(huán)邊。PMI主要用于計(jì)算詞語(yǔ)間的語(yǔ)義相似度,計(jì)算過(guò)程可以表示為:

        若 PMI(vi,vj)為正,則表示語(yǔ)義相關(guān)度較高;若PMI(vi,vj)為負(fù),則表示相關(guān)度較低;若PMI(vi,vj)為0,則表示不相關(guān)。面向整個(gè)案例數(shù)據(jù)集D,案件要素之間的邊集合E可以表示為:

        為了后續(xù)獲取節(jié)點(diǎn)自身的特征信息,每個(gè)案件要素節(jié)點(diǎn)都存在一個(gè)自環(huán)邊。本文將案件要素作為圖節(jié)點(diǎn),案件要素之間的關(guān)聯(lián)關(guān)系作為邊,構(gòu)建案件要素圖G= (V′,E)。由于每個(gè)案件都有屬于自身的圖結(jié)構(gòu),案件要素圖G可被認(rèn)為由K個(gè)案件要素子圖組成,即:

        3.2 案件要素序列表示

        GCN可以利用邊和節(jié)點(diǎn)的信息聚合生成新的節(jié)點(diǎn)表示,從而對(duì)圖結(jié)構(gòu)數(shù)據(jù)信息進(jìn)行有效提取,GCN在圖表示學(xué)習(xí)領(lǐng)域具有強(qiáng)大的優(yōu)勢(shì)。從圖節(jié)點(diǎn)角度出發(fā),節(jié)點(diǎn)的學(xué)習(xí)過(guò)程是將自身的特征信息傳送給鄰居節(jié)點(diǎn),再將鄰居節(jié)點(diǎn)的特征信息收集,以此來(lái)聚合節(jié)點(diǎn)間的特征信息。結(jié)合案件犯罪過(guò)程及案件要素圖的構(gòu)建方式,本文利用雙層GCN模型進(jìn)行序列建模。

        在GCN中當(dāng)前隱藏層到下一個(gè)隱藏層對(duì)節(jié)點(diǎn)的特征變換可以表示為:

        其中,W(l)、b(l)分別表示在l層的權(quán)重、截距;σ表示非線性變換;X(l)表示在l層的節(jié)點(diǎn)特征;當(dāng)層數(shù)為零時(shí),X0表示初始節(jié)點(diǎn)狀態(tài);A為鄰接矩陣,可以表示為:

        其中,Aij=eij。為了相對(duì)保持?jǐn)?shù)據(jù)間關(guān)系并獲取自身節(jié)點(diǎn)特征信息,對(duì)鄰接矩陣進(jìn)行歸一化處理并加入節(jié)點(diǎn)自環(huán)信息。該過(guò)程可表示為:

        其中,cij表示歸一化因子。案情描述dk在第l+1層上的特征可以表示為:

        根據(jù)dk的案件要素特征集合形成其案件要素序列表示kdL。

        3.3 文本語(yǔ)義表示

        文本語(yǔ)義表示使用了TextCNN模型,該模型網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且能獲得不同抽象層次的語(yǔ)義信息。TextCNN主要分為輸入層、卷積層、池化層和全連接層。在卷積層進(jìn)行特征向量計(jì)算時(shí),設(shè)置不同尺寸的卷積核實(shí)現(xiàn)局部特征的捕捉,使得提取到的特征向量具有代表性。

        其中,W∈Rhm為濾波器尺寸,b是一個(gè)偏置常量,f是非線性函數(shù)。本文通過(guò)設(shè)置不同大小的濾波器得到dk的多個(gè)特征表示C= [c1,c2,…,cT-h(huán)+1]。為了獲取有效特征,本文采用最大池化獲得案情事實(shí)kd的文本語(yǔ)義表示kdC。該過(guò)程可以表示為:

        3.4 模型輸出

        圖卷積神經(jīng)網(wǎng)絡(luò)擅于捕獲全局信息,除了挖掘自身節(jié)點(diǎn)信息,還可以獲取相鄰節(jié)點(diǎn)關(guān)系蘊(yùn)含在圖結(jié)構(gòu)中的其他信息。TextCNN可以較好地捕捉句子的局部信息,但在卷積池化操作中容易丟失文本序列信息??紤]到兩個(gè)模型的特點(diǎn),為了豐富案情事實(shí)表示,本文將案件要素序列表示kdL與文本語(yǔ)義表示kdC融合輸入全連接層,以獲取其最終表示p。該過(guò)程可形式化表示為:

        最后輸出到Softmax層中預(yù)測(cè)出其類(lèi)別z,該過(guò)程可形式化表示為:

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文使用的案件要素?cái)?shù)據(jù)集含有6類(lèi)案件要素,共計(jì)46000個(gè)標(biāo)簽。罪名預(yù)測(cè)數(shù)據(jù)集來(lái)源于貴州省某人民法院的搶劫、搶奪、詐騙、敲詐勒索、危險(xiǎn)駕駛和交通肇事6類(lèi)案件。為了驗(yàn)證案件要素序列對(duì)罪名預(yù)測(cè)的效果,本文罪名預(yù)測(cè)數(shù)據(jù)集中的罪名均為單罪名。本文首先從6類(lèi)案件中均勻抽取10000個(gè)案件作為實(shí)驗(yàn)原始數(shù)據(jù);然后使用正則匹配方式提取案情事實(shí)部分,刪除缺失、無(wú)效、重復(fù)的案情事實(shí)文本,修正亂碼等情況,并對(duì)數(shù)據(jù)進(jìn)行脫敏和清洗;最后將案情事實(shí)作為內(nèi)容,其對(duì)應(yīng)罪名作為標(biāo)簽,形成罪名預(yù)測(cè)數(shù)據(jù)集。該罪名預(yù)測(cè)數(shù)據(jù)集涉及6類(lèi)罪名,共有8690個(gè)案情事實(shí)。其中,搶劫罪1544個(gè)、搶奪罪1546個(gè)、詐騙罪1656件、敲詐勒索罪725個(gè)、危險(xiǎn)駕駛罪1547個(gè)、交通肇事罪1672個(gè)。

        4.2 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)

        為了更好地體現(xiàn)模型實(shí)際表現(xiàn),在保證標(biāo)簽分布均勻的情況下,本文將罪名預(yù)測(cè)數(shù)據(jù)集按照7:2:1的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。

        由于模型輸入層需要輸入一個(gè)定長(zhǎng)的文本序列,而案情事實(shí)長(zhǎng)度表達(dá)不固定,本文對(duì)數(shù)據(jù)集中的文本分布長(zhǎng)度進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)超過(guò)90%的案情文本字符數(shù)量集中在區(qū)間[100,500],如圖2所示。綜合分析文本長(zhǎng)度分布情況,本文將400個(gè)字符作為數(shù)據(jù)輸入定長(zhǎng)。

        圖2 數(shù)據(jù)集文本長(zhǎng)度分布

        本文采用機(jī)器學(xué)習(xí)算法中的常用評(píng)測(cè)指標(biāo)(即精確率、召回率、綜合評(píng)價(jià)指標(biāo)(F1))對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和評(píng)判。另外,宏平均(macro-average)和微平均(micro-average)也是衡量文本分類(lèi)器的指標(biāo)。宏平均是計(jì)算每一類(lèi)別指標(biāo)值的平均值,微平均是結(jié)合不同類(lèi)別指標(biāo)值的貢獻(xiàn)來(lái)計(jì)算平均值。綜合本文罪名預(yù)測(cè)數(shù)據(jù)集的類(lèi)別和數(shù)量分布情況,本文實(shí)驗(yàn)結(jié)果均使用宏平均計(jì)算產(chǎn)生。

        4.3 結(jié)果及分析

        為了驗(yàn)證所提方法的有效性,本文設(shè)計(jì)了3組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)一使用本文所提方法與SVM、TextRNN等模型進(jìn)行對(duì)比;實(shí)驗(yàn)二是用于驗(yàn)證案件要素序列有效性的消融實(shí)驗(yàn);實(shí)驗(yàn)三使用本文方法在易混淆罪名預(yù)測(cè)上進(jìn)行實(shí)驗(yàn)分析。

        (1)模型對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證結(jié)合案件要素序列的罪名預(yù)測(cè)方法的有效性,本文將所提方法與傳統(tǒng)方法進(jìn)行對(duì)比。TFIDF_SVM采用詞頻逆向文檔頻率(term frequencyinverse document frequency,TFIDF)進(jìn)行文本特征抽取,再使用SVM進(jìn)行分類(lèi)。TextRNN采用雙層長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)獲取文本特征。采用單層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的FastText對(duì)文本進(jìn)行bi-gram和trigram特征提取。TextCNN采用多個(gè)不同尺寸的卷積和最大池化進(jìn)行分類(lèi)。本文實(shí)現(xiàn)了兩個(gè)融合案件要素序列表示的模型,TextRNN_seq表示在TextRNN的基礎(chǔ)上引入案件要素序列表示,TextCNN_seq表示在TextCNN的基礎(chǔ)上引入案件要素序列表示。除了TFIDF_SVM模型,其余實(shí)驗(yàn)?zāi)P椭械脑~嵌入維度均為400維。TextCNN的卷積核尺寸為(2,3,5)。

        實(shí)驗(yàn)結(jié)果見(jiàn)表1,本文方法的實(shí)驗(yàn)性能明顯優(yōu)于傳統(tǒng)方法。由于案情事實(shí)長(zhǎng)度表達(dá)不固定,有些案情事實(shí)長(zhǎng)度較長(zhǎng),TextRNN模型在選取最后一個(gè)時(shí)間步的向量表示時(shí)容易對(duì)前面的部分信息造成遺忘。FastText由于模型結(jié)構(gòu)特點(diǎn),容易造成文本結(jié)構(gòu)信息丟失問(wèn)題。而TextCNN模型能對(duì)文本的局部特征進(jìn)行有效感知,在此類(lèi)數(shù)據(jù)上表現(xiàn)優(yōu)異。進(jìn)一步地,本文將案件要素維度的案情事實(shí)表示與文本語(yǔ)義表示進(jìn)行融合實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,融合案件要素序列方法的實(shí)驗(yàn)結(jié)果均有一定提升,TextCNN_seq模型取得了最優(yōu)效果。其主要原因是案件要素序列的加入能獲取案件關(guān)鍵特征,結(jié)合TextCNN提取的文本語(yǔ)義特征,從多維度豐富案情事實(shí)表示,實(shí)現(xiàn)案情事實(shí)的深層分析。

        表1 罪名預(yù)測(cè)實(shí)驗(yàn)結(jié)果

        (2)消融實(shí)驗(yàn)

        本文對(duì)預(yù)測(cè)錯(cuò)誤的案例數(shù)據(jù)進(jìn)行輸出分析,發(fā)現(xiàn)錯(cuò)誤案例數(shù)據(jù)中普遍存在案情事實(shí)文本較短、案件行為要素較少的情況。為了驗(yàn)證行為要素的關(guān)鍵性,本文對(duì)案件要素序列的行為要素進(jìn)行了消融實(shí)驗(yàn)。簡(jiǎn)單來(lái)說(shuō),在案件要素圖構(gòu)建過(guò)程中故意丟失全部行為要素后再進(jìn)行實(shí)驗(yàn),以達(dá)到實(shí)驗(yàn)?zāi)康摹?/p>

        為了充分表達(dá)行為要素對(duì)實(shí)驗(yàn)結(jié)果的影響,本文將行為要素作為控制變量共進(jìn)行了3組不同的實(shí)驗(yàn)。第一組實(shí)驗(yàn)使用TextCNN,表示僅使用案情事實(shí)文本特征;第二組實(shí)驗(yàn)使用TextCNN_seq,表示在第一組實(shí)驗(yàn)的基礎(chǔ)上融合了完整的案件要素序列;第三組實(shí)驗(yàn)使用TextCNN_seq_nopre,表示在第一組實(shí)驗(yàn)的基礎(chǔ)上融合了缺失行為要素的案件要素序列。

        實(shí)驗(yàn)結(jié)果見(jiàn)表2,TextCNN_seq相比,TextCNN_seq_nopre的性能下降明顯。其主要原因是行為要素的缺失導(dǎo)致案件間重復(fù)要素急劇減少,在使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)案件要素序列建模學(xué)習(xí)時(shí)不能很好地聚合關(guān)聯(lián)案件的特征,使得獲取到的案情事實(shí)特征不具備足夠的代表性。由此可見(jiàn),行為要素的存在可以學(xué)習(xí)潛在關(guān)聯(lián)信息,更好地獲取案件關(guān)鍵特征。另外,TextCNN_seq_nopre的性能低于TextCNN。由此表明,大量非關(guān)鍵特征的加入使得特征變得稀疏,導(dǎo)致實(shí)驗(yàn)性能不佳。

        表2 消融實(shí)驗(yàn)結(jié)果

        (3)易混淆罪名預(yù)測(cè)實(shí)驗(yàn)

        為了驗(yàn)證本文所提方法預(yù)測(cè)易混淆罪名的性能較好,本文選取了兩組常見(jiàn)的易混淆罪名進(jìn)行實(shí)驗(yàn),即交通肇事罪和危險(xiǎn)駕駛罪。

        實(shí)驗(yàn)結(jié)果見(jiàn)表3,本文所提方法對(duì)易混淆罪名的預(yù)測(cè)性能有明顯提升。實(shí)現(xiàn)結(jié)果表明,通過(guò)對(duì)案件要素的抽取,建模學(xué)習(xí)案件要素序列表示,在獲取案件獨(dú)有表示的同時(shí)使犯罪結(jié)果更加清晰,這對(duì)于易混淆罪名的區(qū)分具有積極意義,能提升易混淆罪名的預(yù)測(cè)性能。

        表3 易混淆罪名實(shí)驗(yàn)結(jié)果

        5 結(jié)束語(yǔ)

        在當(dāng)前的罪名預(yù)測(cè)研究中,主要使用文本內(nèi)容或引入輔助信息進(jìn)行預(yù)測(cè),往往忽略了關(guān)鍵案件要素。針對(duì)此問(wèn)題,本文將案件要素引入罪名預(yù)測(cè)任務(wù),提出了一種結(jié)合案件要素序列的罪名預(yù)測(cè)方法,從案件要素和文本內(nèi)容維度豐富案情事實(shí)表示,深度挖掘案情事實(shí)潛在語(yǔ)義結(jié)構(gòu)。本文在單罪名情況下驗(yàn)證了所提方法的有效性,并凸顯了案件要素序列的重要性。在下一步研究工作中,筆者將在多罪名情況下對(duì)所提方法進(jìn)行探索驗(yàn)證。

        猜你喜歡
        文本實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        偷拍美女上厕所一区二区三区| 欧美久久久久中文字幕 | 亚洲熟妇av一区二区三区hd| 丰满少妇人妻无码| 朝鲜女人大白屁股ass| 精品日韩国产欧美在线观看| 国产一区二区内射最近人| 蜜乳一区二区三区亚洲国产| 日本中国内射bbxx| 久久99精品国产99久久6尤物| 久久久久久久一线毛片| 午夜国产精品一区二区三区| 亚洲成av人片一区二区密柚| 欧美最猛性xxxxx免费| 国产成+人+综合+亚洲专| 久久久人妻丰满熟妇av蜜臀| 亚洲综合另类小说色区| 国产女主播喷水视频在线观看| 免费看国产精品久久久久| 老岳肥屁熟女四五十路| 日本真人边吃奶边做爽电影| 97久久天天综合色天天综合色hd| 久久精品无码一区二区三区不卡| 韩国一区二区三区黄色录像| 又粗又大又硬毛片免费看| 亚洲av鲁丝一区二区三区| 国产av91在线播放| 欧美日韩中文亚洲另类春色| 国产视频免费一区二区| 亚洲av无码专区国产不卡顿| 日本巨大的奶头在线观看| 亚洲AV成人综合五月天在线观看| 亚洲成人精品在线一区二区 | 少妇高清精品毛片在线视频| 久草热这里只有精品在线| 国产愉拍91九色国产愉拍| 成人在线免费电影| 亚洲性无码av在线| 国产好片日本一区二区三区四区| 青青河边草免费在线看的视频| 久久综合狠狠色综合伊人|