李培林, 龐彥燕, 賀巧琳*, 王 竹, 張世全
(1. 四川大學 數(shù)學學院, 四川 成都 610064; 2. 四川大學 法學院, 四川 成都 610207)
近幾年,自然語言處理技術飛速發(fā)展.自語言模型中的word2vec提出之后,一大批詞嵌入方法涌現(xiàn),如GloVe[1]和fastText[2]等,它們從不同的方向都得到了表現(xiàn)優(yōu)異的嵌入表征.2018年,Peters等[3]首次提出Elmo語言模型,實現(xiàn)了對無標注數(shù)據(jù)的使用.隨后,Google團隊在文獻[4]中先通過無標注文本去訓練生成語言模型,再根據(jù)具體的下游任務使用標注數(shù)據(jù)對模型進行fine-tuning.2018年末,Google發(fā)布了BERT[5]語言模型,融合了Transformer、OpenAI-GPT等工作的核心思想,并在NLP領域的11個方向大幅刷新了精度.BERT在各大數(shù)據(jù)集上取得的優(yōu)異成績,無疑將自然語言處理的發(fā)展推向了又一個高潮.2020至2021年,大量基于BERT的語言模型不斷涌現(xiàn),其中不乏對Attention機制的改進.Choromanski等[6]使用隨機特征改進了Attention并推出了Performer. Kitaev等[7]發(fā)布了Reformer,通過哈希函數(shù)優(yōu)化了Attention的計算速度. Cao[8]推出了Galerkin Transformer,在原有BERT的基礎上改進了算法的精度與速度.
自2013年裁判文書網(wǎng)上線以來,人工智能在法律方面的運用也變得更為廣泛.Luo等[9]使用Attention-based神經(jīng)網(wǎng)絡結構建立了罪名預測模型.Li等[10]實現(xiàn)了在CNN模型下的半監(jiān)督學習,使大量庭審數(shù)據(jù)可以在無需人工標記的情況下使用.Long等[11]以法律事實、原告訴求以及涉及法條作為數(shù)據(jù),將標簽分類問題轉化為閱讀理解,推出了LRC模型以及“自動審判”系統(tǒng).Chalkidis等[12]研究發(fā)現(xiàn)對模型引入Self-attention能提高模型在多標簽分類任務中的表現(xiàn).Wang等[13]在使用深度學習訓練法條推斷相關模型的基礎上引入了分級制度,實現(xiàn)對訓練過程中的標簽數(shù)量的削減.
在法學人工智能和智慧法院建設中,法條推薦是關鍵任務,需要根據(jù)實時變化的法律事實等文本信息,通過人工智能技術自動推送對案件適用的法律條款,其本質上屬于多標簽分類問題.現(xiàn)有的法條推薦工作[14]直接以判決書中使用的法條作為標簽,在模型訓練中存在標簽空間大、難分類數(shù)據(jù)樣本較多等難點,推薦效果往往并不理想,對司法人員的幫助較為有限.
基于此,本文提出“要素標注+法條對應”的推薦模式.首先組織法學專業(yè)人員對研究領域涉及的法條和要素進行梳理和標注,得到案件事實的要素標注數(shù)據(jù)集,再利用機器學習訓練案件事實和要素的對應關系,最后通過事先建立的要素與法條對應關系得出最終法條的推薦結果.這種方式克服了直接文本方式訓練過程中標簽數(shù)量過多的難題,提高了法條推送的全面性和針對性,能夠推薦適用于具體案件的司法解釋,減少法律適用中的遺漏風險.
基于要素標注的模式在訓練模型過程中主要有2個難點:1) 實驗涉及的要素標簽在NLP分類任務中相對較多;2) 標注的訓練數(shù)據(jù)集中部分標簽正樣本比例相對較少.為此,本文采用基于BERT的語言模型,根據(jù)裁判文書的數(shù)據(jù)特點從模型構建、分類器優(yōu)化等方面對模型訓練過程進行改進,得到了能夠根據(jù)輸入案件事實文本全面準確推薦適用法條的推薦模型.
本文剩余部分安排如下:第1節(jié)分別介紹了直接文本學習和基于要素標注2種不同的法條推薦模式;第2節(jié)介紹數(shù)據(jù)集的構成、分布與模型的選擇;第3節(jié)基于裁判文書網(wǎng)獲取并進行要素人工標注的數(shù)據(jù)集,使用不同的模型進行了對比,詳細介紹了針對問題進行改進和優(yōu)化的模型訓練方法;第4節(jié)展示了不同案由下模型的推薦結果和分析;最后,在第5節(jié)總結了本文推薦模型的特點和下一步的研究方向.
法條推薦旨在于庭審過程中,根據(jù)變化的案件事實等數(shù)據(jù)文本通過人工智能模型實時自動完成推薦適用的法律條款等任務,能減輕司法人員的負擔,提高審批的效率和質量.
1.1 直接文本學習的法條推薦模式自2013年中國裁判文書網(wǎng)①上線以來,海量裁判文書可以用于人工智能研究.上述裁判文書具有實時性、分類性、規(guī)范性的優(yōu)勢特點.
直接文本學習法條推薦則是指在法條推薦任務中,以判決書中法律事實部分作為輸入,并將該判決書中裁判依據(jù)部分法官引用的法條作為對應的標簽,通過語言模型進行訓練.裁判文書網(wǎng)上的數(shù)據(jù)與文本法條推薦有著很好的契合度,不需要額外的人工標注,研究人員可以輕松地篩查數(shù)據(jù),通過程序自動對裁判文書數(shù)據(jù)進行適用法條標注,從而獲得大量的訓練數(shù)據(jù).
然而,這種傳統(tǒng)的法條推薦模式存在以下幾個缺陷:1) 法條數(shù)量龐大,一個案由下的法條數(shù)量會有好幾百條甚至更多,導致模型訓練標簽數(shù)量過多,會嚴重影響模型訓練效果與速度;2) 大部分法條使用頻率極少,數(shù)據(jù)量少,模型學習困難;3) 法條推送不夠全面,數(shù)據(jù)與輸出結果往往未能包含針對性的司法解釋和量刑意見等.
與此同時,司法人員對常用法條已經(jīng)足夠熟悉,比起傳統(tǒng)的法條精確推薦,更傾向于機器推薦對當前具體案件具有針對性的司法解釋和地方法規(guī).
1.2 基于要素標注的法條推薦模式要素是指針對某一案由下所有涉及的法律問題、法律文本進行專業(yè)分析、歸納,形成若干個關鍵的核心詞語或短語,用以代替某種特定的具有法律涵義的情形或者狀態(tài).這種確定要素的方式存在以下必要性:1) 法院系“依法審判”,其作出的每一個裁判結果都必須有法律依據(jù),只有對應相關的法條,才能在審理過程中具有法律意義,產(chǎn)生相應的法律后果,所以針對事實文本的分析也必須以法條為依歸;2) 本文的研究目的系針對事實文本進行法條推薦,所以進行要素標注的目的也仍然是圍繞法條推薦,因此,每一個要素的確定都應當有對應的法條.比如刑法中的累犯、自首、退贓、認罪、未遂等,民法中的合同效力、履行期限、違約金、管轄條款等,這些都屬于本文所指的“要素”.
在對數(shù)據(jù)集進行要素標注時,筆者組織了法律專業(yè)人員對基礎數(shù)據(jù)進行逐一審查后,通過自身的法律專業(yè)判斷,為該數(shù)據(jù)逐一貼上要素標簽,使這些基礎數(shù)據(jù)成為經(jīng)過專業(yè)化處理的優(yōu)化數(shù)據(jù),且上述標注完成后將由其他同樣具備法律專業(yè)知識的人進行復核,確保要素標注的準確度.
基于要素標注的法條推薦模式與直接文本學習不同,在訓練中不再以法條作為標簽,而是用要素做標簽對案件事實的文本進行人工標注,再用標注數(shù)據(jù)進行訓練.該模式首先通過人工整理要素集和要素與法條之間的對應關系,然后對事實文本進行要素標注,繼而對這些有要素標簽的標注數(shù)據(jù)集進行機器學習,訓練得到事實文本與要素之間的對應關系.對新的事實文本進行分析時,模型會先推送出涉及的要素,每個要素都有人工整理的對應法條,從而完成對新的事實文本進行適用法條推薦.
2種法條推薦模式的流程如圖1所示.對比直接文本法條推薦,要素標注模式需要首先進行要素的人工整理和標注.在模型訓練上,由于要素在單個案由下數(shù)量比法條少得多,降低了模型的標簽數(shù)量,改善了標簽空間過大的問題,并且要素能更準確、簡練地抽取法學特征,難分類樣本的出現(xiàn)也遠少于傳統(tǒng)法條推薦標注.同時要素與法條之間有合理的法學解釋與專業(yè)人工整理對應關系,在實際使用中,只要要素推薦的準確率高,則適用法條推薦的準確率就會高.
圖 1 直接文本學習法條推薦與要素標注法條推薦流程
本文從刑事、民事中各自選取一個案由作為研究對象,選取案件類型的標準需要具有以下特點:1) 案件事實本身較為復雜;2) 涉及的法條、司法解釋較多.這不僅使得研究過程更具有難度,而且對于法條推薦來說更具有實踐價值.基于以上選取標準,本文在刑事中選取了詐騙罪這一案件類型,而民事中選取了離婚糾紛.
“要素標注+法條對應”模式相較于傳統(tǒng)的法條推薦在使用上更為便利.首先,可以根據(jù)不同區(qū)域的需求就法條推薦進行區(qū)域性的專屬設置.不同地區(qū)存在著不同的地方性法規(guī)、地方法院的指導意見等,而要素與法條的對應系人工整理得出的,則可以根據(jù)所處區(qū)域不同進行專屬性推送,無需重新學習.其次,要素所對應的法條可以實時更新,包括對修改的法條進行修改、增加新發(fā)布的法律、司法解釋等,而已有的要素無需更改.
表1為人工專業(yè)整理的部分法條與要素對應關系示例②.在“要素-法條”對應關系中,離婚案由對應36個要素,共計涉及24個法條;詐騙案由對應32個要素,共計涉及19個法條.其中,“多對一”與“一對多”的情況均出現(xiàn)在要素與法條的對應關系中.2021年《民法典》正式實施,只需修改“要素-法條”對應關系即可繼續(xù)使用.例如,在表1中列舉出的“要素-法條”對應關系中,詐騙要素對應的法條尚未存在修訂等情況,離婚要素“賭博、吸毒等惡習”原對應法條為“《婚姻法》第32條”,現(xiàn)對應法條為“《民法典》第1079條”.
表 1 部分要素與法條對應關系
2.1 數(shù)據(jù)集構成與分布本文從中國裁判文書網(wǎng)上公開的裁判文書中隨機抽取了46 300份離婚案由裁判文書與57 240份詐騙案由裁判文書,這些裁判文書包含了法律事實與涉案法條等部分.通過抽取其中涉案法條與法律事實建立了對應關系,形成了數(shù)據(jù)集1,其中各個案由中每篇裁判文書標簽分布統(tǒng)計如圖2所示.之后繼續(xù)在中國裁判文書網(wǎng)公開的判決書中隨機抽取10 000份詐騙罪的刑事判決書與13 200份離婚糾紛的民事判決書,提取了判決書中事實查明部分的文字作為基礎數(shù)據(jù),并組織法學專業(yè)人員進行要素的人工標注,最終得到具有要素標注的文本數(shù)據(jù)③,作為本文的數(shù)據(jù)集2,其中各個案由中每篇裁判文書標簽分布統(tǒng)計如圖3所示.
圖 2 數(shù)據(jù)集1中各個案由中每篇裁判文書標簽分布統(tǒng)計
數(shù)據(jù)集2的標注過程如下:首先提取數(shù)據(jù)集中裁判文書的法律事實部分,然后按照要素對該部分進行人工標注.要素標注在遵循庭審與法律的邏輯的同時,極大地降低了傳統(tǒng)法條推薦任務中的維度,減輕了后續(xù)模型訓練的負擔.這里選取法院事實認定部分,目的在于以下幾點:1) 判決文書的查明事實部分存在大量其他案件事實的描述,對法條推薦任務沒有直接聯(lián)系;2) 擯棄了指控與辯護意見等文字部分,最大程度上還原事實本身;3) 法院事實認定部分用語相對精煉、專業(yè),有利于對該事實做出性質判斷.因此,為了保障案件還原的完整性和標注的有效性,本文進行要素標注時選取了法院事實認定的一整段文本作為標注對象.
數(shù)據(jù)集1中,離婚案由共計667個不同的涉案法條,平均每篇裁判文書包含了2.27個法條標簽.詐騙案由共計638個涉案法條,平均每篇裁判文書包含了5.11個法條標簽.將出現(xiàn)頻率低于20%的標簽歸為“其他”,故圖2中“其他”包含了超過500個標簽,數(shù)據(jù)集1為不均衡數(shù)據(jù)集.這是由庭審流程與法律條款本身的特點決定的,也是適用法條推薦中時常遇到的問題,在模型訓練時優(yōu)化難度較高.
由圖3可知,在數(shù)據(jù)集2的離婚案由中,共計36個要素,平均每篇裁判文書被標注了1.00個標簽.詐騙案由中,共計32個要素,平均每篇裁判文書被標注了3.03個標簽.數(shù)據(jù)集2同樣存在數(shù)據(jù)不平衡的問題,但相較于數(shù)據(jù)集1已經(jīng)得到明顯改善.
大部分現(xiàn)有經(jīng)典分類數(shù)據(jù)集的正負標簽比例以及標簽數(shù)量更為均衡.例如:ChnSentiCorp_htl_all④數(shù)據(jù)集包含7 000多條評論,正向評論約占5 000條,負向評論約占2 000條;Simplifyweibo_4_moods⑤數(shù)據(jù)集包含了36萬條數(shù)據(jù)以及4類情感,“喜悅”約占20萬條,“憤怒、厭惡、低落”各約5萬條;今日頭條新聞數(shù)據(jù)集⑥共計約38萬條,15個標簽,其中正樣本占比低于10%的僅有1類.
從統(tǒng)計的角度來講,隨機抽取裁判文書是合理的,但是作為針對深度學習的數(shù)據(jù)集而言,抽取的裁判文書仍然存在樣本分布不均的問題,部分要素在訓練過程中仍會面臨正樣本過少的問題;這是在訓練模型時需要解決的主要問題.
2.2 模型選擇不均衡數(shù)據(jù)集是深度學習模型訓練中的難點之一.2019年,Geng等[15]將帶有Self-attention的Bi-lstm塊對輸入文本進行編碼,從而將Few-shot方法與Attention進行結合,緩解了不均衡數(shù)據(jù)集帶來的困難.基于此,本文將使用基于BERT的語言模型,來訓練法律事實與要素之間的對應關系.
Attention是BERT中最為核心的機制.在BERT中,Attention機制負責實現(xiàn)特征提取,并取代了RNN與CNN.首先對于輸入的句子,BERT會對其進行編碼,其值為詞向量信息、句子分割信息以及詞位置信息的和.其中,詞向量信息(token-embeddings)是根據(jù)詞表生成,句子分割信息(segment-embeddings)根據(jù)中文中的逗號以及句號進行分割.BERT的詞位置嵌入信息(position-embeddings)在編碼中的公式如下:
(1)
(2)
詞向量維度dmodel取32,即每個單詞的位置信息將被編碼成32維的向量;pos最大值取值為100,即在這個句子中共計100個單詞.可以觀察到,不同位置的詞對應的向量存在差異,詞語在句子中的位置信息被很好地記錄下來.最終,針對段落的編碼可以寫為
Tensor_embedding=
Token+Segment+Position.
(3)
在一個Attention層中內(nèi)置了WQ、WK、WV這3個可訓練的矩陣.當一段文本以Tensor的形式進入Self-attention層中后會以矩陣相乘的方式生成對應的Q、K與V,最后通過上述公式計算得出Attention層的輸出矩陣Z.
Q=Tensor*WQ,
(4)
K=Tensor*WK,
(5)
V=Tensor*WV,
(6)
(7)
(8)
注意到在(3)式中生成Tensor_embedding時,3個embedding的模長均為1,故(7)式中QKT的大小可以表示該Attention塊中輸入的query與key的關聯(lián)程度,其值越大代表兩者關聯(lián)度越高.最終Self-attention輸出的矩陣Z記錄了一個句子中各個單詞與句內(nèi)其他單詞的關聯(lián)度,不同于傳統(tǒng)的NLP語言模型,BERT主要在以下方面進行了創(chuàng)新:1) 使用了雙向Transformer連接,增加了句段中各個句子前后的聯(lián)系,使得模型能夠捕捉上下文信息;2) 支持模型預訓練,能針對不同的下游任務更針對性地優(yōu)化模型;3) 支持通過遮蔽語言模型來挖掘和搜索文本序列內(nèi)部的隱藏關系;4) embedding方面選擇了詞向量嵌入信息(token-embeddings)、句子分割嵌入信息(segment-embeddings)以及詞位置嵌入信息(position-embeddings)3部分構成.
雖然BERT在NLP領域中大部分數(shù)據(jù)集上刷新了精度,但Attention機制存在局部信息捕捉過弱的隱患.由于實際計算能力的限制,當句子超過一定數(shù)量時多出來的詞將被程序忽略掉.目前,NLP領域中大部分實驗也是將BERT與RNN、CNN等思想結合.
與文獻[16]類似,本文實驗選擇了BERT中的Position-embedding,并分別在BERT后接入了Bi-LSTM、RCNN、RNN與LSTM進行了對比.通過將BERT提取的特征輸入后續(xù)模型,進行進一步特征提取.
2.3 模型預訓練本文針對不同案由進行了預訓練.在預訓練中,BERT將使用無標注數(shù)據(jù)記錄不同案由下的語義特征.分別使用數(shù)據(jù)集1中的離婚裁判文書與詐騙裁判文書的法律事實部分形成無標記數(shù)據(jù),構建了2個不同案由下的預訓練模型.不同領域的法律事實主要涉及的詞語差異較大,預訓練后模型在不同案由下的針對性更強.
本文將數(shù)據(jù)集2中90%劃為訓練集、5%劃為測試集、5%劃為預測集,并根據(jù)案由的不同加載訓練集1中得出的預訓練模型,訓練本文案件事實與要素的對應關系.
3.1 評估指標與模型參數(shù)選取考慮到BERT使用的Attention機制存在局部信息捕捉弱的風險,本文在BERT后分別接入了RCNN、Bi-LSTM、RNN與LSTM,并使用數(shù)據(jù)集2中的訓練集與測試集進行訓練,對模型在預測集上的表現(xiàn)進行評估.
評估指標使用的是宏平均下的F1分數(shù),即準確率P(precision)與召回率R(recall)的調(diào)和平均.首先,準確率與召回率的計算公式為:
(9)
(10)
其中,TP(truepositive)表示預測為正且實際也為正的樣本,FP(falsepositive)表示預測為正實際為負的樣本,FN(falsenegative)表示預測為負實際為正的樣本.宏平均下的準確率與召回率如下:
(11)
(12)
其中,Si表示第i的標簽的正樣本數(shù)量總和,n表示標簽總數(shù),{Si|i=1,2,…,n}表示全體標簽所組成的集合.接著對宏平均下的準確率與召回率求調(diào)和平均即得宏平均下的F1分數(shù)
(13)
本文實驗的軟件環(huán)境為Ubuntu 20.04.3,代碼基于Tensorflow(版本1.13.1)進行開發(fā).在訓練超參數(shù)設定上,選擇文本分類任務常用預設初始值,BERT向量化維度設為768,讀取字符最大長度為512,訓練最小批量為128,迭代epoch次數(shù)為40,學習率指數(shù)采取衰減策略,損失函數(shù)選擇如下公式[17]
Focal_loss=
(14)
其中,p表示模型輸出的預測概率值,y為真實數(shù)據(jù)(真則y=1,否則y=0),α的取值決定了模型對正樣本的關注程度,γ的取值決定了模型對難分類樣本的關注程度.
相較于傳統(tǒng)的交叉熵損失函數(shù),Focal_loss在不均衡數(shù)據(jù)集、難分類樣本上的表現(xiàn)更好,適合作為本文訓練案件事實與要素關系的損失函數(shù).本文直接使用BERT模型進行訓練,關于Focal_loss中α取值進行了實驗,在(0,1)上以0.05為步長分別驗證了模型精度,最后發(fā)現(xiàn)α=0.4、γ=2時,模型在數(shù)據(jù)集1與2上均有較優(yōu)的表現(xiàn),后續(xù)研究將以此為基礎.
3.2 分類器優(yōu)化從上述分析中可以發(fā)現(xiàn)不同要素之間分布不均,這是法條推薦任務必須解決的難題.在實驗中發(fā)現(xiàn)由于數(shù)據(jù)集中正樣本比例偏少,模型輸出的預測值往往低于0.5,這干擾了模型在大部分標簽上的判斷.針對這一情況,本文采用閾值移動對模型訓練過程進行了優(yōu)化.
閾值移動是指在模型訓練過程中,使分類器中預測閾值被調(diào)整為超參數(shù)錄入模型.語言模型執(zhí)行分類任務時將會針對每一個標簽輸出一個概率值,當概率值大于某一個閾值時模型輸出為是,反之為否.在模型訓練結束后,模型會在測試集上進行預測.加入了閾值移動的模型將針對每個標簽在0至1之間以F1分數(shù)作為指標篩選閾值,并記錄下模型在測試集上的表現(xiàn),最終對每個標簽篩選出最合適的閾值.本文以0.01為步長進行篩選,并將篩選的結果以超參數(shù)的形式錄入了模型.例如在詐騙案由中,標簽“累犯”的閾值為0.33(模型預測“累犯”的概率值大于0.33,則輸出為是).以詐騙案由為例,部分標簽的閾值見表2.觀察可知由于數(shù)據(jù)集正樣本比例較少,多數(shù)標簽最佳閾值均為0.5以下.顯然若以0.5為閾值的話,模型在大部分標簽上的表現(xiàn)都會受到影響.
表 2 部分標簽最佳閾值與正樣本占比
除此之外,由于訓練數(shù)據(jù)系從裁判文書網(wǎng)上隨機取樣,與法院受理案件有極高的相關性,故針對每個要素的最佳閾值錄入模型后對之后模型投入實際使用具有積極的影響.
表3為不同模型在2個案由下F1分數(shù).觀察可知,離婚案由表現(xiàn)最好的模型為BERT+RCNN,詐騙案由表現(xiàn)最好的模型為BERT+Bi-LSTM.首先,本文嘗試了SVM、RNN與LSTM,其中詞嵌入部分與后續(xù)實驗相同,均包含位置信息;同時對比了fastText(實驗方法與參數(shù)設置見文獻[11]);加入了BERT部分后,模型表現(xiàn)均優(yōu)于機器學習模型.
之后嘗試了BERT和BERT后接單向或雙向語言模型.其中,BERT后接入LSTM與RNN后表現(xiàn)會降低,且與fastText不相上下.BERT后接入雙向語言模型后模型表現(xiàn)會得到穩(wěn)定的提升.
表 3 不同模型在各個案由下的F1分數(shù)
分析表3可以得到以下結論:
1) RCNN與Bi-LSTM均為雙向模型,LSTM與RNN均為單向模型.BERT后接入雙向模型可提升模型表現(xiàn),均優(yōu)于BERT本身.這可能是BERT使用了雙向Transformer結構,單向的語言模型會對BERT提取的特征造成干擾,而雙向的語言模型能一定程度上彌補BERT使用Attention機制帶來的風險.
2) 分類器優(yōu)化后模型表現(xiàn)均能得到大幅度提升.由于數(shù)據(jù)集正樣本比例較少,對于正樣本少的標簽模型輸出的概率值往往會偏低.對分類器進行優(yōu)化后可以顯著地改善這個問題.
完成以上工作后,輸入案件事實的文本,首先通過分類模型得到對應的要素,再基于事先建立的要素與法條的對應關系實現(xiàn)適用法條的推薦.由于要素-法條對應關系是法學專業(yè)人員人工整理建立,可以認為這一步?jīng)]有誤差,從而表3要素推斷的F1分數(shù)值即可以作為最終法條推薦的精度衡量指標.
接下來討論要素標注模式與傳統(tǒng)法條推薦模式的對比.
4.1 評估指標與數(shù)據(jù)集選取本文以宏觀下的F1分數(shù)作為評估指標,同時為了控制變量,只選取要素所對應的法條的集合進行計算,即離婚案由中24個與詐騙案由中的19個法條.
本文從數(shù)據(jù)集1中2個案由分別抽取1%的數(shù)據(jù),分別對其使用傳統(tǒng)法條推薦與“要素-法條”推薦模型.其中“要素-法條”推薦模型在不同案由上根據(jù)表3選擇精度最高的模型.
4.2 實驗結果與樣本案例展示經(jīng)過實驗得知:在離婚與詐騙案由中,傳統(tǒng)法條推薦F1分數(shù)分別為0.760 9與0.735 7,“要素-法條”推薦模式分別為0.821 1與0.761 6,高于傳統(tǒng)法條推薦,在庭審輔助系統(tǒng)中能有更高的精度.
除此之外,要素標注模式具有更好的適應性.2021年,《中華人民共和國民法典》正式施行,婚姻法、繼承法、民法通則、收養(yǎng)法、擔保法、合同法、物權法、侵權責任法、民法總則同時廢止,文本學習推薦模式的模型將需要重新訓練;而要素標注推薦模型不需要重新訓練,只需修改要素所對應的法條,即可繼續(xù)投入使用.
本文使用基于BERT的語言模型,以數(shù)據(jù)集1作為語料庫對模型進行了預訓練.在此基礎上使用數(shù)據(jù)集2中的要素標注數(shù)據(jù)訓練了要素推斷模型,極大改善了傳統(tǒng)法條推薦任務中標簽數(shù)量過多的難題,取得了更高的法條推薦精度,并且能夠根據(jù)案件事實文本推薦具有針對性的地方法規(guī)和司法解釋.同時本文實驗探索了BERT與傳統(tǒng)語言模型的契合度,并在數(shù)據(jù)不均衡問題上尋找了一種可能的改善方案.
本文研究的要素在法學上不僅與適用法條相關,還與涉案證據(jù)等庭審因素有類似的對應關系,后續(xù)研究將嘗試把要素推薦模型運用到智慧法院建設的其他場景中,以充分發(fā)揮該模式的最大價值.
注釋
① 中國裁判文書網(wǎng)地址:https://wenshu.court.gov.cn/.
② 《婚姻法》于1981年起開始實行,2021年1月1日廢止,同時《民法典》實行.
③ 標注數(shù)據(jù)集樣本示例地址:https://github.com/OpenWaygate/Law-article-recommendation.
④ChnSentiCorp_htl_all數(shù)據(jù)集下載地址:https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv.
⑤Simplifyweibo_4_moods數(shù)據(jù)集下載地址:https://pan.baidu.com/s/16c93E5x373nsGozyWevITg#list/path=%2F.
⑥ 今日頭條新聞數(shù)據(jù)集下載地址:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset.