亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一個(gè)新的上下文感知類案匹配與推薦方法

        2022-01-27 13:39:36許梓濤黃炳森潘微科
        關(guān)鍵詞:類案語(yǔ)義向量

        許梓濤,黃炳森,潘微科,明 仲

        (深圳大學(xué) a.大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室,b.人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(深圳),c.計(jì)算機(jī)與軟件學(xué)院,廣東 深圳 518060)

        隨著司法體制改革的推進(jìn),我國(guó)有關(guān)政法領(lǐng)域的各項(xiàng)改革任務(wù)逐步完成,司法體系正不斷得到完善。而隨著改革的推進(jìn),“類案不同判”現(xiàn)象成為改革中一塊難啃的“硬骨頭”。為了解決該問(wèn)題,我國(guó)最高人民法院早在2010年11月便出臺(tái)了《最高人民法院關(guān)于案例指導(dǎo)工作的規(guī)定》。但作為普適性文件,指導(dǎo)書(shū)無(wú)法全面涵蓋各類案件,同時(shí)各個(gè)基層法官對(duì)案件的解讀不同,對(duì)法律裁判尺度的把握也可能存在差異,“類案不同判”的問(wèn)題仍得不到很好地解決。基于該背景,大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)開(kāi)始應(yīng)用于司法體系,輔助司法人員進(jìn)行“類案同判”,進(jìn)而提高司法公信力,保證司法公正并提升司法效率[1]。

        類案是指與待決案件在基本事實(shí)、爭(zhēng)議焦點(diǎn)、法律適用問(wèn)題等方面具有相似性且經(jīng)人民法院裁判生效的案件[2]。類案匹配和推薦則是利用深度學(xué)習(xí)等人工智能技術(shù)對(duì)案件裁判文書(shū)進(jìn)行智能分析,進(jìn)而在數(shù)據(jù)庫(kù)中找到類案,達(dá)到對(duì)比分析輔助判案的目的。進(jìn)行類案匹配和推薦的研究,能提高分析和匹配大量法律文本的效率,減少法官查找相似案件的時(shí)間,提高工作效率。

        現(xiàn)有常用的類案推薦方式主要有三種[1]:1) 根據(jù)關(guān)鍵詞進(jìn)行檢索(如輸入“民間借貸”檢索查詢相關(guān)的案件);2) 選擇標(biāo)簽進(jìn)行檢索,其中標(biāo)簽的設(shè)置較為寬泛(例如借貸、故意殺人、醉駕、入室盜竊等與案件相關(guān)的標(biāo)簽);3) 利用詞頻統(tǒng)計(jì)等初級(jí)的自然語(yǔ)言處理和文本匹配算法進(jìn)行類案匹配。上述三種類案推薦方法的優(yōu)點(diǎn)是查找速度快、運(yùn)行效率高。但都缺乏對(duì)文本上下文信息和局部重點(diǎn)信息的提取和建模。

        為了解決這一問(wèn)題,本文提出了一種基于上下文感知的類案匹配和推薦方法(context-aware similar case matching and recommendation,CASCMR).通過(guò)雙向LSTM(Bi-LSTM)[3]獲取法律文本的上下文信息,確保模型能從兩個(gè)方向上捕獲文本序列信息。之后利用CNN獲取文本的局部信息,從而捕獲文本中的重點(diǎn)法律信息。訓(xùn)練時(shí)通過(guò)多文本間的比對(duì)來(lái)提高模型在類案匹配上的精度,得到的模型可以實(shí)現(xiàn)端到端的類案推薦。

        本文主要貢獻(xiàn)如下:

        1) 提出了一個(gè)新的基于上下文感知的類案匹配和推薦模型,能同時(shí)解決法律人工智能中的匹配和推薦問(wèn)題。

        2) 根據(jù)中國(guó)“法研杯”2018(CAIL2018)的數(shù)據(jù)集,構(gòu)建了一個(gè)新的三元組法律文本數(shù)據(jù)集,可用于類案推薦任務(wù)的訓(xùn)練與測(cè)試。

        3) 將本文提出的模型應(yīng)用于CAIL2019的相似案件匹配任務(wù),與目前最好的方法相比,匹配精度的提升效果較為明顯。

        1 相關(guān)工作

        本文提出的模型是文本匹配技術(shù)在法律人工智能中的應(yīng)用,下面將對(duì)相關(guān)工作進(jìn)行介紹。

        1.1 文本匹配

        文本匹配是自然語(yǔ)言處理中的一項(xiàng)基本任務(wù)。法律人工智能中的許多任務(wù)可以描述為文本匹配問(wèn)題,如法律問(wèn)答、類案匹配等。用于文本匹配的深度學(xué)習(xí)模型可以分為三類:基于單語(yǔ)義文檔表達(dá)的深度學(xué)習(xí)模型、基于多語(yǔ)義文檔表達(dá)的深度學(xué)習(xí)模型和直接建模匹配模式的深度學(xué)習(xí)模型[4]。

        單語(yǔ)義模型使用孿生網(wǎng)絡(luò)架構(gòu)[5],即利用CNN、RNN等深度學(xué)習(xí)模型進(jìn)行獨(dú)立編碼,之后在輸出的高維度向量上構(gòu)建分類器以預(yù)測(cè)輸出結(jié)果。編碼的獨(dú)立性使得模型可以提前計(jì)算并存儲(chǔ)文本向量,從而提高運(yùn)算速度,但單語(yǔ)義模型忽略了句子的局部結(jié)構(gòu),且無(wú)法處理長(zhǎng)序列文本。

        為了解決單語(yǔ)義模型的缺點(diǎn),多語(yǔ)義文檔表達(dá)模型綜合考慮了文本的局部信息(如單詞、短語(yǔ)等)和全局信息(如句子、段落等),從多個(gè)粒度獲取文本向量表達(dá),從而彌補(bǔ)了單語(yǔ)義模型在學(xué)習(xí)文本表征過(guò)程中信息丟失的問(wèn)題[6-9]。因此,多語(yǔ)義模型不僅具備單語(yǔ)義模型的優(yōu)點(diǎn),而且能從多個(gè)粒度捕捉文本信息,增強(qiáng)模型對(duì)長(zhǎng)序列文本的處理能力。本文提出的CASCMR模型就是參考多語(yǔ)義模型進(jìn)行設(shè)計(jì)的。

        上述兩種模型都注重優(yōu)化單個(gè)文本的語(yǔ)義表達(dá)能力,而不能識(shí)別可用于匹配文本的有用信息。直接建模匹配模型則考慮編碼過(guò)程中文本對(duì)之間的交互[8,10-12],它們結(jié)合文本對(duì)的特征,使編碼器能專注于對(duì)匹配任務(wù)最有用的特征。但是,因?yàn)闊o(wú)法對(duì)文本進(jìn)行預(yù)先編碼和存儲(chǔ),所以存在耗時(shí)的缺點(diǎn)。

        1.2 法律人工智能

        法律人工智能(legal artificial intelligence,LegalAI)主要專注于應(yīng)用人工智能技術(shù)來(lái)幫助解決法律任務(wù)。人工智能與法律的結(jié)合,不但使該領(lǐng)域的工作者受益匪淺,也使人們能獲得更多的法律援助。近年來(lái),LegalAI在法律判決預(yù)測(cè)、法律問(wèn)答、類案匹配等方向取得了一定的研究與應(yīng)用成果[13]。

        法律判決預(yù)測(cè)是根據(jù)案件的事實(shí)描述和法律法條內(nèi)容來(lái)預(yù)測(cè)判決結(jié)果[14-18]。最新的研究大多會(huì)考慮法條預(yù)測(cè)、刑期預(yù)測(cè)和判決預(yù)測(cè)間的相互關(guān)系[19-20],并根據(jù)三者之間的關(guān)系進(jìn)行建模。法律問(wèn)答則注重回答法律領(lǐng)域的問(wèn)題,為非法律專業(yè)人士提供可靠的法律咨詢服務(wù)[21-24]。類案匹配與推薦則是本文研究的問(wèn)題,相關(guān)內(nèi)容在引言中已做出介紹。

        中國(guó)“法研杯”2019相似案例匹配評(píng)測(cè)競(jìng)賽[25]主要是針對(duì)多篇法律文書(shū)進(jìn)行相似度的計(jì)算和判斷。具體而言,對(duì)于每份文書(shū)提供的事實(shí)描述文本,需要從兩篇候選文書(shū)中找到與查詢文書(shū)更為相似的一篇文書(shū)。本文的類案匹配任務(wù)和相關(guān)數(shù)據(jù)集與該競(jìng)賽一致。

        類案推薦任務(wù)是在類案匹配任務(wù)的基礎(chǔ)上進(jìn)一步提出來(lái)的,目標(biāo)是從包含多篇文書(shū)的法律文本庫(kù)中,找到與查詢文書(shū)最為相似的若干篇文書(shū)。

        2 上下文感知類案匹配和推薦模型

        本文提出了一個(gè)基于上下文感知的類案匹配和推薦模型,下面首先給出問(wèn)題的定義,然后介紹模型的網(wǎng)絡(luò)架構(gòu),最后討論如何將模型用于類案匹配和推薦任務(wù)。

        2.1 問(wèn)題定義

        本文主要研究法律人工智能中的類案匹配和推薦問(wèn)題。在訓(xùn)練時(shí),給定一個(gè)四元組的集合{(da,db,dc,y)},其中da是錨文本,db和dc是樣本數(shù)據(jù),而y∈{0,1}是標(biāo)簽。如果y=0,表示da與db的相似度大于da與dc的相似度,即sim(da,db)>sim(da,dc).反之,當(dāng)y=1時(shí),sim(da,db)

        2.1.1類案匹配

        類案匹配的目標(biāo)是,給定一個(gè)三元組的集合{(da,db,dc)},判斷錨文本da與待匹配文本db和dc中的哪一個(gè)文本更加相似。

        2.1.2類案推薦

        類案推薦的目標(biāo)是,對(duì)于給定的查詢文本dq,從法律文本庫(kù)D中找到與dq最相似的若干個(gè)文本。

        2.2 上下文感知類案匹配和推薦框架

        本文提出的基于上下文感知的類案匹配和推薦模型的架構(gòu)主要包括3層:編碼層(又稱詞嵌入層)、上下文信息提取層和局部語(yǔ)義特征提取層。模型采用三元組的形式作為輸入,包括錨點(diǎn)、正樣本(類案)和負(fù)樣本(非類案)。文本輸入后先經(jīng)過(guò)編碼層進(jìn)行詞嵌入,再經(jīng)過(guò)文本信息提取層進(jìn)行特征提取,文本信息提取層又可分為上下文信息提取層和局部語(yǔ)義特征提取層,最后通過(guò)損失函數(shù)來(lái)實(shí)現(xiàn)類案靠攏和非類案遠(yuǎn)離的效果。CASCMR的架構(gòu)如圖 1所示,下面對(duì)各層進(jìn)行詳細(xì)介紹。

        圖1 上下文感知類案匹配和推薦模型架構(gòu)示意圖Fig.1 Illustration of the architecture of the context-aware similar case matching and recommendation model

        2.2.1基于BERT的詞嵌入

        相比其他用于詞嵌入的深度神經(jīng)網(wǎng)絡(luò)(例如LSTM[26]、ELMO[27]等),兩階段模型BERT[28]具有更好的普適性,其中第一個(gè)階段是利用語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,第二階段通過(guò)微調(diào)(fine-tuning)的方式解決下游任務(wù),讓它能更適用于案情復(fù)雜的法律文本。此外,BERT的每層自注意力網(wǎng)絡(luò)均是雙向結(jié)構(gòu),能更好地建模法律文本上下文的語(yǔ)義信息,捕獲文本長(zhǎng)距離依賴信息。因此,使用BERT模型對(duì)文本進(jìn)行編碼。同時(shí),為了讓BERT更適用于法律文本領(lǐng)域,使用了基于中文民事文本預(yù)訓(xùn)練的民事文本BERT[29].對(duì)于輸入的四元組法律文本數(shù)據(jù){(da,db,dc,y)},分別求取文本da、db和dc的詞嵌入向量,

        xwdai=BERT(da,i),xwdai∈R1×k,
        ?i∈{1,…,Nda} .

        (1)

        xwdbj=BERT(db,j),xwdbj∈R1×k,
        ?j∈{1,…,Ndb}.

        (2)

        xwdcm=BERT(dc,m),xwdcm∈R1×k,
        ?m∈{1,…,Ndc} .

        (3)

        式中:k是BERT模型的隱藏層數(shù)量。Nda、Ndb和Ndc分別代表文本da、db和dc中的token數(shù)量。

        最終,通過(guò)BERT詞嵌入模型,可以得到文本的詞嵌入向量:

        Xda=[xwda1;…;xwdaNda]∈RNda×k).

        (4)

        Xdb=[xwdb1;…;xwdbNdb]∈RNdb×k).

        (5)

        Xdc=[xwdc1;…;xwdcNdc]∈RNdc×k).

        (6)

        2.2.2基于Bi-LSTM的上下文信息提取

        在這一層中,使用雙向LSTM(Bi-LSTM)模型對(duì)文本的詞嵌入向量Xda、Xdb和Xdc進(jìn)行更深層次的特征提取。利用Bi-LSTM對(duì)序列中長(zhǎng)距離依賴信息的捕捉能力來(lái)實(shí)現(xiàn)對(duì)文本的上下文信息的提取。

        LSTM是RNN的一種特例,相比最原始的RNN單元,LSTM通過(guò)增加記憶單元來(lái)緩解長(zhǎng)序列數(shù)據(jù)訓(xùn)練時(shí)所產(chǎn)生的梯度消失問(wèn)題,適用于序列數(shù)據(jù)的信息提取。LSTM的結(jié)構(gòu)[26]如圖2所示。

        圖2 LSTM網(wǎng)絡(luò)架構(gòu)Fig.2 Illustration of the architecture of LSTM

        其中,At是LSTM在t時(shí)刻的計(jì)算單元,xt為當(dāng)前時(shí)刻的詞嵌入向量輸入,vt-1為收到的上一時(shí)刻LSTM的輸出值,ct-1為上一時(shí)刻的單元狀態(tài),每個(gè)單元中LSTM通過(guò)遺忘門(mén)、輸入門(mén)和輸出門(mén)來(lái)共同保護(hù)和控制每個(gè)神經(jīng)單元的狀態(tài),可以有效提取序列數(shù)據(jù)中的信息。但是,LSTM是沿序列信息方向單向進(jìn)行的,只能建模一個(gè)方向的序列信息。

        Bi-LSTM[3]包含一個(gè)正向LSTM和一個(gè)反向LSTM,并在兩個(gè)方向上捕獲信息,能夠更加有效地提取文本的上下文信息,其結(jié)構(gòu)如圖3所示。

        圖3 Bi-LSTM網(wǎng)絡(luò)架構(gòu)Fig.3 Illustration of the architecture of Bi-LSTM

        圖3中Bi-LSTM從兩個(gè)方向處理輸入的嵌入向量,并得到如下向量:

        (7)

        (8)

        (9)

        于是,通過(guò)Bi-LSTM模型,我們可以得到包含上下文信息的文本特征:

        (10)

        (11)

        (12)

        2.2.3基于CNN的局部語(yǔ)義特征提取

        除了對(duì)文本的上下文信息進(jìn)行提取,還對(duì)文本的局部信息進(jìn)行提取。這里采用了對(duì)文本局部信息抽取能力較為出色的TextCNN[30]模型。

        TextCNN[30]是CNN在自然語(yǔ)言領(lǐng)域中的一個(gè)應(yīng)用,其網(wǎng)絡(luò)架構(gòu)和經(jīng)典的CNN模型類似,文本局部特征的抽取能力較強(qiáng),具有效果好、速度快等優(yōu)點(diǎn),其網(wǎng)絡(luò)架構(gòu)[30]如圖4所示。

        圖4 TextCNN網(wǎng)絡(luò)架構(gòu)Fig.4 Illustration of the architecture of TextCNN

        這里TextCNN的輸入是Bi-LSTM提取后的特征文本矩陣Vda、Vdb和Vdc.在池化過(guò)程中,采取了最大池化加平均池化的方法,從而更大程度地保留文本特征,而拼接后的最終文本特征不再像傳統(tǒng)TextCNN中的一樣直接用于分類,而是用來(lái)表征法律文本。

        經(jīng)過(guò)第i個(gè)卷積核卷積后得到的特征向量為:

        (13)

        (14)

        (15)

        (16)

        (17)

        (18)

        最大池化可以表示為:

        (19)

        (20)

        (21)

        (22)

        (23)

        (24)

        另外,曾嘗試將BERT學(xué)習(xí)到的詞嵌入向量、雙向LSTM學(xué)習(xí)到的向量和CNN學(xué)習(xí)到的向量這3種向量進(jìn)行多種組合搭配(包括拼接),并作為最終的文本特征。而實(shí)驗(yàn)結(jié)果表明,使用BERT以及雙向LSTM和CNN結(jié)合起來(lái)逐層學(xué)習(xí)的向量作為最終的文本特征能夠取得最好的效果。

        2.3 訓(xùn)練預(yù)測(cè)

        在這一層中,利用從TextCNN網(wǎng)絡(luò)中得到的向量對(duì)模型進(jìn)行訓(xùn)練,之后利用相同的網(wǎng)絡(luò)去計(jì)算查詢文本dq與法律文本庫(kù)中的文本di的距離,最后根據(jù)距離進(jìn)行排序,選出與dq最相似的若干個(gè)法律文本。

        2.3.1Triplet損失函數(shù)

        Triplet損失函數(shù)[31]的輸入是一個(gè)三元組,刻畫(huà)的是兩個(gè)候選文本與查詢文本之間的距離差。為了方便說(shuō)明,這里假設(shè)文本da與文本db的相似程度要大于文本dc.

        在模型訓(xùn)練時(shí),通過(guò)最小化Triplet損失函數(shù)使得查詢文本da與兩篇候選文本中相似的文本db越來(lái)越相似,而與不相似的文本dc越來(lái)越不相似。

        具體來(lái)說(shuō),Triplet損失函數(shù)輸入的參數(shù)是一個(gè)三元組向量,包括錨點(diǎn)向量、正樣本向量和負(fù)樣本向量,具體的計(jì)算公式如(25)所示。其中dis(Uda,Udb)是錨點(diǎn)與正樣本的距離,dis(Uda,Udc)是錨點(diǎn)與負(fù)樣本的距離,并通過(guò)間隔(margin)增加類間距離。

        L=max(dis(Uda,Udb)-dis(Uda,Udc)+margin,0).

        (25)

        本文選擇Triplet損失函數(shù),使得相似文本間的特征Uda與Udb更加接近,不相似文本間的特征Uda與Udc更加遠(yuǎn)離,這樣有利于更好地表征不同的文本,讓文本能夠直接嵌入到向量空間中。這樣,不僅能實(shí)現(xiàn)案件之間進(jìn)行比較的任務(wù),也便于后續(xù)進(jìn)行類案推薦。

        2.3.2類案匹配

        由于已經(jīng)獲取了文本最終的表征向量Uda、Udb和Udc,因此可以通過(guò)計(jì)算兩兩之間的文本相似度來(lái)進(jìn)行類案匹配。

        文本間的相似度可以用向量間的二范數(shù)來(lái)度量:

        dis(Uda,Udb)=‖Uda-Udb‖2.

        (26)

        dis(Uda,Udc)=‖Uda-Udc‖2.

        (27)

        其中,如果dis(Uda,Udb)sim(da,dc).需要說(shuō)明的是,早期的初步試驗(yàn)表明,在該任務(wù)中,二范數(shù)比一范數(shù)和余弦距離要更加有效。

        2.3.3類案推薦

        完成模型訓(xùn)練之后,使用相同結(jié)構(gòu)的網(wǎng)絡(luò),計(jì)算輸入的法律文本dq與文本庫(kù)D中的法律文本的距離:

        Eqi=‖Udq-Udi‖2,i∈{1,…,|D|}.

        (28)

        然后根據(jù)得到的距離值Eqi進(jìn)行排序,并根據(jù)需要推薦的法律文本數(shù)量進(jìn)行案件推送。

        需要說(shuō)明的是,由于文本庫(kù)D中的文本是確定的,因此只需要在開(kāi)始時(shí)對(duì)文本庫(kù)D進(jìn)行一次計(jì)算,將表征出來(lái)的文本向量Udi保存下來(lái)。在進(jìn)行推薦時(shí),只需要對(duì)查詢文本dq進(jìn)行表征,得到Udq后再求與Udi的距離,并進(jìn)行排序即可完成類案推薦。本文的方法不需要每次都將所有案件經(jīng)過(guò)線性層計(jì)算相似度,因此,在效率上會(huì)明顯優(yōu)于傳統(tǒng)的方法,在實(shí)際應(yīng)用中能夠較好地保證實(shí)時(shí)性。

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文提出的方法的有效性,我們將其應(yīng)用到CAIL2019數(shù)據(jù)集上進(jìn)行類案匹配和推薦。

        3.1 數(shù)據(jù)集

        本文使用的是中國(guó)人工智能與法律2019類案匹配第二階段比賽的數(shù)據(jù)集(CAIL2019-SCM).數(shù)據(jù)集包含8 138條由“民間借貸”相關(guān)案件組成的四元組{(da,db,dc,y)},數(shù)據(jù)集的劃分如表1所示。每個(gè)案件均摘自中國(guó)裁判文書(shū)網(wǎng),案件內(nèi)容一般分為原被告信息、原告訴求、事實(shí)陳述和法院裁決4個(gè)部分,案件字?jǐn)?shù)范圍為500~800字。

        表1 數(shù)據(jù)集劃分Table 1 Dataset partition

        3.2 評(píng)價(jià)指標(biāo)和模型參數(shù)

        因?yàn)镃AIL2019-SCM數(shù)據(jù)集沒(méi)有包含案件罪名、刑期、法條等方面的標(biāo)簽,所以無(wú)法對(duì)類案推薦結(jié)果進(jìn)行直接評(píng)估。但是,類案匹配和類案推薦在編碼層和文本信息提取層的架構(gòu)是一樣的,只在最后的全連接輸出層存在差異,所以可以利用類案匹配的準(zhǔn)確率來(lái)評(píng)估模型性能,進(jìn)而評(píng)估類案推薦的效果。

        在詞嵌入層,由于訓(xùn)練使用的數(shù)據(jù)是中文法律文檔,屬于民事案件,所以使用了OpenCLaP[29]中獲得的預(yù)訓(xùn)練BERT模型,該模型使用2 654萬(wàn)件民事案件進(jìn)行了預(yù)訓(xùn)練。由于BERT只能處理長(zhǎng)度不超過(guò)512的序列,因此使用尾部截?cái)鄟?lái)處理輸入序列,這是因?yàn)楹竺娴奈谋就ǔ0男畔⒏?。在使用BERT時(shí),保持了模型默認(rèn)的超參數(shù)。

        將BERT的隱藏層數(shù)量k設(shè)置為768, LSTM的隱藏層數(shù)量k2設(shè)置為256,CNN卷積核個(gè)數(shù)k3設(shè)置為64×3,采用3種區(qū)域大小不同的卷積核{(lán)3,4,5}進(jìn)行卷積,每種區(qū)域大小的卷積核有64個(gè);設(shè)置epoch的范圍為{4,6,8,10},批處理的范圍為batch size∈{16,20,24,32},優(yōu)化學(xué)習(xí)率的范圍設(shè)置為learning rate∈{2×10-5,3×10-5,5×10-5}.其中批處理的值需要根據(jù)顯存大小進(jìn)行選擇,本文中使用的數(shù)據(jù)集CAIL2019-SCM相對(duì)較小,所以epoch可以選擇較大的值,從而提高內(nèi)存利用率,且能獲得更加準(zhǔn)確的梯度下降方向。而learning rate與batch size的大小密切相關(guān),當(dāng)調(diào)大批處理大小時(shí),也需按比例調(diào)高優(yōu)化學(xué)習(xí)率的大小,從而使收斂更加穩(wěn)定。參數(shù)的范圍和數(shù)值選擇如表2所示。

        表2 實(shí)驗(yàn)過(guò)程中超參數(shù)的設(shè)置范圍Table 2 Ranges of the values for the hyper-parameters to be tuned in the experiments

        使用Adam[32]對(duì)模型進(jìn)行優(yōu)化,采用權(quán)重衰減代替L2正則化。相比Adam,通過(guò)AdamW能得到更好的訓(xùn)練損失和泛化誤差。此外,使用NVIDIA Apex實(shí)現(xiàn)混合精度訓(xùn)練,用于加快訓(xùn)練過(guò)程。訓(xùn)練時(shí)使用兩塊NVIDIA Tesla V100 GPU,其顯存大小為32 GB.

        本文所涉及的源代碼和腳本可從https:∥github.com/zitaozz/CASCMR獲得。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        表3展示了基準(zhǔn)模型(CNN、LSTM和BERT)、CAIL2019比賽相似案件匹配任務(wù)前3名(AlphaCourt、11.2yuan和backward)[25]以及本文模型CASCMR的實(shí)驗(yàn)結(jié)果,表格數(shù)據(jù)為模型的預(yù)測(cè)準(zhǔn)確率(百分比顯示)。為了便于與比賽結(jié)果直接進(jìn)行比較,實(shí)驗(yàn)中僅使用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

        表3 模型在CAIL2019-SCM數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the models on CAIL2019-SCM

        對(duì)于基準(zhǔn)算法中的CNN和LSTM,實(shí)驗(yàn)中先使用GloVe進(jìn)行詞嵌入,然后分別經(jīng)過(guò)CNN層和LSTM層,再進(jìn)行最大池化,得到特征h,最后用一個(gè)帶有softmax激活函數(shù)的線性層來(lái)計(jì)算相似度,并使用交叉熵作為損失函數(shù)。對(duì)于BERT,則是直接使用預(yù)訓(xùn)練好的中文BERT模型編碼,得到特征h,后面同樣經(jīng)過(guò)線性層計(jì)算相似度。

        線性層的相似度計(jì)算公式如下:

        S(Aj)=softmax(exp(hAWhj)),j=B,C.

        (29)

        從這個(gè)公式中,也可以很清晰地看到,對(duì)于基準(zhǔn)算法,其相似度計(jì)算需要對(duì)兩篇文本進(jìn)行兩兩交互,因此在進(jìn)行類案推薦時(shí),由于數(shù)據(jù)庫(kù)中文本較多,會(huì)導(dǎo)致很大的時(shí)間開(kāi)銷,很難進(jìn)行實(shí)際應(yīng)用,而本文設(shè)計(jì)的模型能夠很好地解決這一問(wèn)題。

        從表3中可以看出,在測(cè)試集上相比基準(zhǔn)模型提高了5%~6%,且比目前最好的方法提高了1.08%.實(shí)驗(yàn)結(jié)果說(shuō)明,模型通過(guò)提取上下文信息、提取局部特征和修改損失函數(shù)等方法,能提高法律文本的語(yǔ)義表征能力,使模型能學(xué)習(xí)更多文本間的相關(guān)性信息,進(jìn)而提高匹配精度。

        3.4 消融實(shí)驗(yàn)

        為了驗(yàn)證主要模塊的作用,在數(shù)據(jù)集CAIL2019-SCM上設(shè)計(jì)了多個(gè)消融實(shí)驗(yàn)來(lái)評(píng)估模型的性能:

        1) 探究特征提取對(duì)模型精度的影響,使用缺少特征的數(shù)據(jù)訓(xùn)練模型,即只使用BERT進(jìn)行編碼,觀察模型預(yù)測(cè)的準(zhǔn)確率。通過(guò)基于成對(duì)偏好假設(shè)的方式進(jìn)行訓(xùn)練。

        2) 探究局部語(yǔ)義特征提取對(duì)模型精度的影響,去掉模型中的CNN網(wǎng)絡(luò),訓(xùn)練模型,觀察模型預(yù)測(cè)的準(zhǔn)確率。

        3) 探究上下文信息提取對(duì)模型精度的影響,去掉模型中的Bi-LSTM網(wǎng)絡(luò),訓(xùn)練模型,觀察模型預(yù)測(cè)的準(zhǔn)確率。

        消融實(shí)驗(yàn)的結(jié)果如表4所示。

        表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation studies

        由表4可以看到,使用BERT編碼后的特征直接計(jì)算的結(jié)果并不理想,而如果在BERT編碼基礎(chǔ)上增加CNN和LSTM進(jìn)行更深層次的特征抽取,能有效提升模型預(yù)測(cè)的準(zhǔn)確率。對(duì)比基準(zhǔn)模型,LSTM是通過(guò)捕獲法律文本上下文信息來(lái)提高模型對(duì)法律文本的表征能力,而CNN是通過(guò)突出局部關(guān)鍵法律文本信息從而提高模型對(duì)法律文本的辨識(shí)能力。從表4中可以看出CNN的特征抽取效果要略優(yōu)于LSTM,而如果將兩者結(jié)合則準(zhǔn)確率能提升8%~10%.

        3.5 類案推薦數(shù)據(jù)集

        數(shù)據(jù)集從CAIL2018-small[33]中生成,數(shù)據(jù)為三元組(A,B,C),用于類案匹配任務(wù)。數(shù)據(jù)集共分為兩類,分別包含92 322和69 741條數(shù)據(jù),共計(jì)162 063條數(shù)據(jù)。

        CAIL2018-small處理前包含10個(gè)屬性,共151 254條數(shù)據(jù),只取其中的fact(事實(shí)陳述)、accusation(罪名)、relevant articles(相關(guān)法條)3個(gè)屬性,之后對(duì)數(shù)據(jù)進(jìn)行篩選:1) 去掉多罪名數(shù)據(jù),2) 選擇fact字?jǐn)?shù)在150~600的數(shù)據(jù),3) 去除重復(fù)的數(shù)據(jù)。

        篩選后,數(shù)據(jù)包含190個(gè)罪名,共計(jì)92 325條數(shù)據(jù)。完成上面的操作后,定義了兩類數(shù)據(jù)(分別記為category1和category2):1) 第一類數(shù)據(jù)僅根據(jù)accusation(罪名)屬性進(jìn)行劃分,即法律文本A和B的罪名相同,法律文本A和C的罪名不同;2) 第二類數(shù)據(jù)根據(jù)accusation(罪名)和relevant-articles(相關(guān)法條)屬性進(jìn)行劃分,其中A、B的relevant-articles為單法條,C的relevant-articles為多法條,使得法律文本A和B的罪名和法條都相同,而法律文本A和C的罪名相同但法條數(shù)量不同,從而確保A和B之間的相似度大于A和C之間的相似度。

        將上述數(shù)據(jù)集按8∶1∶1比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.6 實(shí)驗(yàn)結(jié)果和分析

        CASCMR模型使用自定義數(shù)據(jù)集(CAIL2018-CASCMR)得到類案推薦結(jié)果,從圖5-圖8中可以判斷模型推薦的案例與查詢案例高度相關(guān)。但僅靠觀察難以評(píng)估模型的性能,為此把CASCMR應(yīng)用到類案匹配任務(wù)中,測(cè)試其匹配精度,從而確定模型的推薦性能。

        表5展示了本文提出的模型在CAIL2018-CASCMR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表格數(shù)據(jù)為模型進(jìn)行類案匹配時(shí)的預(yù)測(cè)準(zhǔn)確率。

        表5 模型在CAIL2018-CASCMR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of the model on CAIL2018-CASCMR

        從表5的結(jié)果可以知道,CASCMR可以精準(zhǔn)區(qū)分不同罪名的案例,準(zhǔn)確率達(dá)到了99.14%.在同罪名不同法條的易混淆案例上的準(zhǔn)確率也能達(dá)到95.53%,總的準(zhǔn)確率達(dá)到了98.67%.說(shuō)明本文的模型對(duì)易混淆(同罪名不同法條)案例具有很好的辨別能力,因此在類案推薦上也能對(duì)相關(guān)案例進(jìn)行精準(zhǔn)推薦。

        由于在CAIL2018-CASCMR數(shù)據(jù)集中,負(fù)樣本的罪名或法條與查詢案件不同,因此相比案件類型均為“民間借貸”的CAIL2019-SCM數(shù)據(jù)集更容易區(qū)分開(kāi)來(lái),且從數(shù)據(jù)集大小來(lái)看模型能夠得到更加充分的訓(xùn)練,因此準(zhǔn)確率也就更高了。

        由于模型具有表征法律文本的特性,不難知道越相似的法律文本表征后在向量空間中就越接近,由此可以對(duì)所有向量進(jìn)行排序,將與輸入文本特征向量最接近的前若干個(gè)向量選取出來(lái),并記錄它們對(duì)應(yīng)的文本,以及判決結(jié)果,然后返回給用戶。

        模型訓(xùn)練完成之后,在實(shí)際應(yīng)用時(shí)并不需要每次都將所有案例重新進(jìn)行特征抽取??梢允褂糜?xùn)練后的模型,預(yù)先對(duì)所有法律文本進(jìn)行表征,將它們轉(zhuǎn)換為向量,并保存在本地。在實(shí)際應(yīng)用時(shí),只需要對(duì)新輸入的文本用訓(xùn)練好的模型進(jìn)行特征抽取,然后將該特征和已保存的特征向量進(jìn)行比較。

        下面對(duì)類案推薦結(jié)果進(jìn)行分析。在完成對(duì)文本的所有表征后,選用的測(cè)試樣例如圖5所示,可以看到案例關(guān)鍵信息包括“無(wú)申報(bào)通道進(jìn)境,無(wú)書(shū)面向海關(guān)申報(bào),被海關(guān)關(guān)員截查”、“偷逃應(yīng)繳稅款人民幣216.90元”等。

        圖5 查詢案件Fig.5 Query case

        經(jīng)過(guò)計(jì)算和排序得到的前3個(gè)類案分別如圖6、圖7、圖8所示。

        圖6 類案1Fig.6 Similar case 1

        圖7 類案2Fig.7 Similar case 2

        圖8 類案3Fig.8 Similar case 3

        在此案件中,可見(jiàn)前3個(gè)相似案件的關(guān)鍵字都為“無(wú)申報(bào)通道進(jìn)境,無(wú)書(shū)面向海關(guān)申報(bào),被海關(guān)關(guān)員截查”,偷逃應(yīng)繳稅款金額較為接近。推薦的類案均為海關(guān)走私相關(guān)的案件,經(jīng)驗(yàn)證,這些案件的罪名、依據(jù)法條也都一致,且刑期接近,富有較高的參考價(jià)值。

        4 總結(jié)

        針對(duì)類案匹配和推薦中存在的效率和準(zhǔn)確率低的問(wèn)題,本文提出了一個(gè)基于上下文感知的類案匹配和推薦模型。該模型使用多語(yǔ)義文檔表達(dá)框架,通過(guò)文本向量的預(yù)計(jì)算,進(jìn)而提高文本匹配的效率。同時(shí),模型通過(guò)Bi-LSTM和CNN處理文本,分別提取文本的上下文序列信息和局部信息,用于提高模型的預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的模型的有效性。之后,針對(duì)法律文本的長(zhǎng)文本、半結(jié)構(gòu)等的特點(diǎn),我們計(jì)劃嘗試其他文本壓縮和特征提取的方案,以進(jìn)一步提高文本的表征能力,進(jìn)而提升模型的準(zhǔn)確率。

        猜你喜歡
        類案語(yǔ)義向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        類案同判的司法裁判方法分析*——以“類比的運(yùn)用”為考察點(diǎn)
        法律方法(2021年3期)2021-03-16 05:57:22
        推進(jìn)“類案同判”構(gòu)筑司法公平正義
        類案裁判中的法律方法運(yùn)用
        法律方法(2020年2期)2020-11-16 01:23:18
        大數(shù)據(jù)助力“類案類判”的邏輯技術(shù)突破
        法大研究生(2020年1期)2020-07-22 06:04:54
        語(yǔ)言與語(yǔ)義
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        国产黄大片在线观看画质优化| 国产三级自拍视频在线| 亚洲一区二区av免费观看| 在线人成视频播放午夜| 日产无人区一线二线三线乱码蘑菇| 538在线啪在线观看| 扒下语文老师的丝袜美腿| 婷婷丁香开心五月综合| 亚洲一区自拍高清亚洲精品| 国产精品免费久久久久影院| 亚洲国产精品综合久久20| 国产一区二区不卡av| 伊人久久亚洲综合av影院| 久久国语露脸国产精品电影| 欧美国产精品久久久乱码| 午夜精品一区二区三区无码不卡| 精品国产麻豆免费人成网站| 亚洲深深色噜噜狠狠网站| 久久国产热这里只有精品| 亚洲高清有码在线观看| 久久精品国产亚洲av四区| 日日拍夜夜嗷嗷叫国产| 少妇熟女视频一区二区三区| 激情综合网缴情五月天| 亚洲国产女性内射第一区二区| 无码av一区二区大桥久未| 欧美在线播放一区二区| 国产自拍精品视频免费观看| 无码av专区丝袜专区| 国产免费无码一区二区三区| 国产成人亚洲综合小说区| 极品尤物在线精品一区二区三区| 国产精品自在拍在线拍| 欧美a在线播放| 人妻丰满精品一区二区| 日本一二三区视频在线| 亚洲人成网站77777在线观看 | 日韩精品极品在线观看视频| 亚洲国产精品亚洲一区二区三区| 国产精品夜间视频香蕉| 人妻少妇一区二区三区|