□朱福勇,高 帆
(西南政法大學(xué) 人工智能法學(xué)院,重慶401120)
在人工智能技術(shù)迅猛發(fā)展的今天,各國司法系統(tǒng)正經(jīng)歷著從專家審判司法體系向智能人工司法體系的轉(zhuǎn)型[1](p33-48)。目前,人工智能技術(shù)在我國司法領(lǐng)域主要應(yīng)用于司法文書處理、庭審智能化、輔助辦案三個方面,在案件事實要素的自動抽取場景中,存在著專業(yè)術(shù)語抽取錯誤、難以搭建證據(jù)規(guī)則模型等諸多問題。對此,域外學(xué)者嘗試將證據(jù)之間的相似度計算方法作為研究重點,抽取知識以司法信息、律師信息和當(dāng)事人信息為主。例如,某一特定法律問題中不同法官所持的態(tài)度,律師所持的辯護意見以及特定案由案件中不同當(dāng)事人在不同法院的勝訴率等。典型應(yīng)用諸如Premo?nition公司和Hodge Jones&Allen公司的審判結(jié)果預(yù)測系統(tǒng),重點描述如何在案例表示、檢索、改編、重用和案例庫維護中使用軟計算(一個由模糊邏輯、神經(jīng)網(wǎng)絡(luò)理論、進化計算和概率推理組成的聯(lián)合體),然后簡要總結(jié)使用軟計算技術(shù)的六個CBR應(yīng)用。我國學(xué)者或認為利用案例文本組織結(jié)構(gòu)和線索詞,運用正則表達式構(gòu)建抽取規(guī)則模板,并將抽取結(jié)果經(jīng)過語義標注,構(gòu)建案例信息庫[2](p23-29);或主張基于相似案例的檢索推薦,對知識元、神經(jīng)網(wǎng)絡(luò)、案例表示與檢索方法、案例推理等進行探究[3](p54);或提出要件事實型民事裁判論與司法人工智能的生成規(guī)律具有內(nèi)生契合性,可作為神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),分詞設(shè)置,知識圖譜設(shè)計的基礎(chǔ)與前端理論,具體應(yīng)用路徑是依要件事實論不斷進行層級解構(gòu)等[4](p68-82),均難以精準抽取案件事實要素,制約依法裁判作出。隨著最高人民法院《人民法院第五個五年改革綱要(2019—2023)》“健全順應(yīng)時代進步和科技發(fā)展的訴訟制度體系”和“建設(shè)現(xiàn)代化智慧法院應(yīng)用體系”,《人民法院信息化建設(shè)五年發(fā)展規(guī)劃(2019—2023)》“要利用商業(yè)智能、大數(shù)據(jù)分析和可視化手段,對司法審判信息資源庫中的數(shù)據(jù)進行挖掘、分析和展現(xiàn),支持多維分析、關(guān)聯(lián)分析、趨勢預(yù)測等大數(shù)據(jù)智能服務(wù)”的穩(wěn)步推進,本文認為,以要素式審判為基礎(chǔ),運用深度學(xué)習(xí)技術(shù)自動識別、抽取、分析當(dāng)事人或者相關(guān)工作人員提供的案卷材料,以司法場景專用大數(shù)據(jù)與人工智能技術(shù)為驅(qū)動,集合法律法規(guī)庫、文書卷宗庫、司法信息庫等司法知識庫,智能生成案件事實,對化解日益凸顯的人案矛盾,統(tǒng)一法律適用以及公正裁判訴訟目標的實現(xiàn)意義重大。
案件事實要素又稱涉法事實要素或者法律事實要素,是引起法律關(guān)系發(fā)生、變更和消滅的客觀事實情況,是案件事實得以成立的必要條件。它是從涉案材料和審判信息庫中提取出來,以證據(jù)為基石,以法律規(guī)則為紐帶,構(gòu)成案件事實的基本元素。案件事實要素智能抽取的核心在于,圍繞結(jié)構(gòu)化證據(jù)要素搭建出較為完整的案件畫像,通常需要結(jié)合專業(yè)知識對結(jié)構(gòu)化證據(jù)要素進行可信度評估,一般由何時、何地、何人、何事、何因、怎樣和意義(有本質(zhì)的含義)七個部分組成。由于案件的性質(zhì)不同,案件事實要素存在一些差異。總體而言,案件事實要素包括實體法的事實和程序法的事實兩個部分。以民事案件為例,前者是能夠引起民事實體法律關(guān)系發(fā)生、變更和消滅的事實,如合同的簽訂、履行、違約的事實,侵權(quán)損害結(jié)果發(fā)生的事實以及當(dāng)事人之間因民事權(quán)利義務(wù)的享有、履行發(fā)生爭議、解決紛爭和訴諸人民法院的事實。后者是當(dāng)事人主張的訴訟程序事實,可以影響到民事訴訟程序的啟動、進行和終止,間接地對審判結(jié)果產(chǎn)生影響,主要包括當(dāng)事人主張的程序法的事實和法院依職權(quán)查明的程序法事實。其中,當(dāng)事人主張的程序法的事實主要有管轄權(quán)協(xié)議、管轄異議的事實等,法院依職權(quán)查明的程序法的事實包括當(dāng)事人是否適格、法院是否具有管轄權(quán)等。值得注意的是,在適用外國法律法規(guī)和其他地方性法規(guī)、習(xí)慣時,這些法律、法規(guī)和習(xí)慣均可能成為證明對象。為了更好地獲取案件事實要素,需要將法律所關(guān)注的事實要素形式進行泛化描述,通過司法專家和自然語言處理專家共同梳理及機器半自動標注的方式構(gòu)建案件事實要素標簽體系。
這里以機動車交通事故損害賠償糾紛案件為例(圖1),將中國裁判文書網(wǎng)上500份機動車交通事故損害賠償案件的人民法院裁判文書事實部分進行梳理,可以歸結(jié)該類案件的核心事實要素包括當(dāng)事人信息、肇事車輛信息、交通事故發(fā)生時間、交通事故發(fā)生地點、交通事故發(fā)生經(jīng)過、責(zé)任劃分、受傷及治療情況、傷殘等級情況、損失構(gòu)成、受害方已獲得賠償情況、機動車使用人、機動車所有人、機動車實際控制、肇事車輛駕駛?cè)伺c賠償義務(wù)主體、各賠償義務(wù)主體之間的關(guān)系、機動車交強險承保公司和機動車商業(yè)險承保公司等。
案件事實要素作為構(gòu)成案件事實的基本元素有其固有的特性,正是這些特性為其應(yīng)用語義智能抽取技術(shù)提供了可能。第一,同一案由案件事實要素具有相對確定性。如上文所述的機動車交通事故損害賠償糾紛,該類案件中的關(guān)鍵事實要素往往是相對固定的,這使得法律專家人工抽取和利用歷史案例材料訓(xùn)練深度學(xué)習(xí)模型成為可能。第二,案件事實要素關(guān)聯(lián)概率具有可計算性。基于海量的歷史案件,計算特定案件中事實要素的證據(jù)支持度和置信度,將事實要素間的印證關(guān)系進行機器語言表達,使得利用人工智能技術(shù)搭建案件事實證據(jù)鏈條成為可能。第三,案件事實要素的推理軌跡具有可復(fù)現(xiàn)性。法律推理尤其是抗辯式審判中的司法推理,以明確的規(guī)則、理性標準、充分的辯論,為人工智能觀察、學(xué)習(xí)審判思維活動的軌跡提供了可以記錄和回放的樣本[5](p54)。第四,案件事實要素要以證據(jù)為基礎(chǔ),且對法律適用構(gòu)成一定影響。在機動車交通事故損害賠償糾紛案件中,對交通事故發(fā)生的時間需要提供相關(guān)的書證等予以證明的同時,對一方當(dāng)事人提出訴訟時效抗辯時,人民法院還要根據(jù)《民法典》第188條和第195條規(guī)定進行判別,即向法院請求保護民事權(quán)利的訴訟時效期間為三年,自權(quán)利人知道或者應(yīng)當(dāng)知道權(quán)利受到損害以及義務(wù)人之日起計算。但自權(quán)利受到損害之日起超過二十年的,人民法院不予保護;有特殊情況的,法院可以根據(jù)權(quán)利人的申請決定延長。有權(quán)利人向義務(wù)人提出履行請求,義務(wù)人同意履行義務(wù),權(quán)利人提起訴訟或者申請仲裁或者與提起訴訟或者申請仲裁具有同等效力的其他情形之一的,訴訟時效中斷,從中斷、有關(guān)程序終結(jié)時起,訴訟時效期間重新計算。
圖1:機動車交通事故損害賠償糾紛案件核心要素
1.對審判體系的內(nèi)向價值。一是人案矛盾的緩解。根據(jù)最高人民法院近年來工作報告中的數(shù)據(jù)顯示,2013—2017年全國地方各級法院受理案件8896.7萬件,同比上升58.6%;2018年全國地方各級法院受理案件2800萬件,同比上升8.8%;2019年全國地方各級法院受理案件3156.7萬件,同比上升12.7%。在員額法官人數(shù)未予增加的情勢下,案件數(shù)量的激增使法院的訴訟服務(wù)壓力不斷增加,司法資源的稀缺性與民眾日益增強的需求之間的矛盾日益凸顯,給法官的身心健康帶來極大的壓力,難以避免導(dǎo)致審判效率低下、質(zhì)量不高。人工智能技術(shù)的引入,及時為審判賦能。通過對審判活動中案件事實要素的智能抽取,構(gòu)建案件畫像并自動生成裁判文書,確保法官從大量重復(fù)、煩瑣的審判工作中解脫出來。二是審判質(zhì)效的提升。公正、高效和經(jīng)濟是審判活動的終極目標??梢?,成本與收益是審判活動關(guān)注的重要因素。在案件事實要素智能化運行的語境下,首先應(yīng)當(dāng)重視人工智能與法官的關(guān)系問題。有學(xué)者認為,人工智能取代法官是未來必定會發(fā)生的事,而另一觀點則堅持人工智能與法官相互補充,在不同案件中的主、輔作用相互置換,共同構(gòu)成一種全新的審判模式[6](48-55)。我國理論界與實踐界普遍認為,人工智能是法官的重要輔助力量,無法像法官一樣對糾紛作出有溫情的判定。本文認為,人工智能技術(shù)對常規(guī)性案件預(yù)測有較為精準的裁判結(jié)果,并非由機器代替法官進行審判,而是利用法院裁判的大數(shù)據(jù)分析與人工智能技術(shù)生成案件畫像,不斷整合審判信息資源庫中的事實數(shù)據(jù),為法官在案件審理階段提供全面、智能的案件事實要素判定的決策指引,保障法官準確認定案件事實,顯著提升審判質(zhì)效。
2.對法治建設(shè)的外向價值。一是便于當(dāng)事人訴訟。在司法改革進程中,推動便民服務(wù)能力現(xiàn)代化是人民法院審判體系與審判能力現(xiàn)代化建設(shè)的根本需求,也是落實公正司法與司法為民基本國策的關(guān)鍵所在。法院審判案件事實要素的智能抽取,可以根據(jù)訴訟當(dāng)事人所提供的訴訟材料形成基本的案件事實,對審判結(jié)果進行初步預(yù)測,方便訴訟當(dāng)事人及時調(diào)整訴訟策略,節(jié)約訴訟成本。二是避免恣意裁判。在審判活動中,存在不同法院或者同一個法院的不同法官就相同或相似的事實要素得出不同的判定結(jié)果的現(xiàn)象,影響了案件事實的判定和裁判結(jié)果的準確作出。運用人工智能技術(shù)對案件事實要素進行智能抽取,生成案件畫像,在一定程度上能夠避免法官對案件事實要素判定的恣意,消解對案件事實認定不一的現(xiàn)象,對統(tǒng)一裁判標準和尺度,提升審判權(quán)威和審判公信力意義非凡。
1.法律語言的模糊性。要實現(xiàn)案件事實要素的自動抽取,首要問題便是如何克服法律語言的模糊性。法律語言模糊是法律條文在語義表達上的不確定性,包括法的類屬邊界的不確定性和立法時故意附加模糊詞的情形[7(]p1)。這一模糊性是法律語言發(fā)展過程中所不可避免的。也正因為法律語言的模糊性,在一定程度上緩解了法律具有滯后性的弊端,賦予了法官自由裁量的空間,使得法律更具普適性。在審判活動中,法官需要綜合考量各類涉案司法文書材料,司法文書材料又由法律語言所組成。所以,法律語言的模糊性決定了法官需要根據(jù)自己的專業(yè)知識和歷史經(jīng)驗,對法律語言在法律允許的范圍內(nèi)進行解讀。這就導(dǎo)致遵循相對確定規(guī)則的機器學(xué)習(xí)模型在處理模糊法律術(shù)語時存在障礙,如“顯著輕微”“特別惡劣”等法律表達僅依算法均難以識別。
2.證據(jù)可信程度的評估。證據(jù)是認定案件事實的基石,它為法官搭建案件畫像提供了“砌磚”。證據(jù)的證明力直接決定了所搭建的案件事實的可信程度。證據(jù)的證明力評估涉及如何圍繞證據(jù)“三性”對抽取到的證據(jù)要素進行甄別,對劣質(zhì)證據(jù)進行駁斥,摒棄薄弱和不確定的證據(jù),最大程度上還原案件真相。運用單一機器學(xué)習(xí)模型提取證據(jù)要素時,往往會在一定程度上弱化對證據(jù)的審核力度,難以實現(xiàn)對全案證據(jù)的綜合分析,從而降低了證據(jù)的證明力。證據(jù)證明力評估的缺陷,會使得司法工作人員必須承擔(dān)系統(tǒng)做出瑕疵甚至錯誤審判決策指引的風(fēng)險。
1.專業(yè)詞匯的提取。案件事實要素智能抽取需要對司法領(lǐng)域的專業(yè)術(shù)語進行篩選和識別。語義自動抽取技術(shù)主要有基于詞典與規(guī)則、基于統(tǒng)計以及規(guī)則與統(tǒng)計相結(jié)合等方法。技術(shù)層面的困境在于如何抽取司法領(lǐng)域的專業(yè)術(shù)語,在統(tǒng)計階段忽視分詞抽取的重要性會給賦值階段帶來難以彌補的漏洞。在分詞抽取的過程中,由于不同領(lǐng)域詞匯的構(gòu)成規(guī)則及含義不同,專業(yè)領(lǐng)域的詞匯容易被錯誤地切割成多個詞語碎片,將詞語碎片作為分詞抽取結(jié)果納入候選詞進行統(tǒng)計計算,可能會給詞句的整體性和領(lǐng)域性帶來損害[8](p6716-6718)。在實踐中,運用傳統(tǒng)方法對證據(jù)材料進行語義抽取,容易導(dǎo)致司法領(lǐng)域的專業(yè)術(shù)語抽取錯誤,如“法定代表人”被錯誤地切分為“法定代表”和“人”兩個單詞碎片,進而導(dǎo)致法律關(guān)系錯亂。
2.關(guān)鍵事實要素的甄別。案件事實要素自動抽取的關(guān)鍵在于,將從法院案例數(shù)據(jù)和案例事實要素中抽取的詞語圈定在司法場域內(nèi)。如前所述,事實要素的自動抽取是以要素式審判為基礎(chǔ),要素式審判的核心就在于圍繞關(guān)鍵案件事實展開審理,實際案件中往往包含實體事實、程序事實等多種要素,只有對復(fù)現(xiàn)案件事實具有意義的要素,才可能成為事實要素[9](p74-78)。對數(shù)據(jù)進行清洗圈定關(guān)鍵案件事實要素,既可以大大降低案件事實要素自動抽取過程中存在的噪音,也可以在一定程度上從數(shù)據(jù)源頭減少機器學(xué)習(xí)模型的算法偏見。但是,涉案訴訟材料中存在大量與案件無關(guān)的案件事實要素,在數(shù)據(jù)挖掘過程中,單一的文本識別技術(shù)難以抓取目標數(shù)據(jù)。
3.推理規(guī)則的機器表達。在案件事實要素的智能抽取中,需要將抽取的要素進行法律推理,但由于機器學(xué)習(xí)模型要按照嚴格的數(shù)理推理模式,如何把法律推理的邏輯過程進行機器語言表達,將證明標準進行量化處理是案件事實要素智能抽取面臨的主要問題。目前,主流的法律推理模型主要有基于規(guī)則的推理模型、歷史判例的推理模型和數(shù)據(jù)的推理模型三種。但是,無論哪一種單一推理模型,均很難實現(xiàn)準確的案件事實要素抽取。法律推理既不是依循純粹的規(guī)則,也不是完全局限于歷史案例,因為它總是需要抽象規(guī)則和具體法律適用之間的一種相互作用。將推理過程階段化,不同階段采取不同的推理模式,實現(xiàn)多模型層疊是復(fù)現(xiàn)法律推理軌跡的解決之道。
法律形式主義以邏輯推理為基礎(chǔ),嚴格遵循司法三段論的演繹推理模式,基本思路為“案件事實→法律規(guī)則→裁判結(jié)果”。將系統(tǒng)化的法律規(guī)則作為大前提,將特定案件事實作為小前提,把具體案件帶入法律規(guī)則中推導(dǎo)出裁判結(jié)果。在法律形式主義者看來,法官只需要依照現(xiàn)行法律進行規(guī)范的邏輯推理即可得出良好的裁判結(jié)果[10](p146-155)。這一傳統(tǒng)的法學(xué)理論常常因為過于封閉和僵化遭到學(xué)者們的詬病,但也因為法律形式主義演繹推理的“機械性”為人工智能技術(shù)引入司法領(lǐng)域找到了突破口。技術(shù)專家可以預(yù)先將系統(tǒng)化的法律規(guī)則進行機器語言表達,再將識別到的具體案件信息輸入規(guī)則模型,推理出審判結(jié)果。
案件事實的發(fā)現(xiàn)是準確適用證據(jù)規(guī)則的過程:T→R大前提:具備T的要件,適用R的法律效果;S=T小前提:特定糾紛事實S符合T的要件;A1、A2、A3…=S1、S2、S3(證明事實構(gòu)成特定的糾紛事實要件);S1、S2、S3…=T1、T2、T3(特定的糾紛事實要件符合證據(jù)規(guī)則要件);S→R得出結(jié)論:S適用R的證據(jù)規(guī)則適用效果。當(dāng)然,在對案件事實的建構(gòu)中,應(yīng)當(dāng)滿足大前提法律規(guī)范T所有要素被窮盡描述,小前提法律事實S被具有T所描述要素刻畫,以及保證語言、思想與現(xiàn)實具有相同的邏輯一致性三個條件。大數(shù)據(jù)技術(shù)的出現(xiàn)為法律現(xiàn)實主義的發(fā)展帶來了新的機遇,使案件事實要素的智能抽取成為可能。如有學(xué)者所言,“法律現(xiàn)實主義不得不面臨對法官預(yù)測能力的質(zhì)疑,客觀上法官的這種預(yù)測也必然存在較大的風(fēng)險,大數(shù)據(jù)與人工智能可以使后果預(yù)測從宏大敘事轉(zhuǎn)為精耕細作,從充滿感性轉(zhuǎn)為富有理性,可以最大限度保證預(yù)測的準確性”[11](p101-106)。
為了實現(xiàn)案件事實要素的智能抽取,采用層疊注意力機制,對大量的案件事實要素進行相關(guān)性計算,模擬法官在面對眾多案件事實要素時的考量。人體的視覺器官在獲取畫面時,對于不同目標的注意力分布不同,以便大腦在讀取信息時可以快速捕捉到畫面重點區(qū)域,從而分配更多注意力資源用于重點目標的分析和理解,從而減少不相干區(qū)域給大腦所帶來的干擾。根據(jù)人體這一特殊的機制,學(xué)者提出了注意力機制(Attention Model)[12](p62-74)。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和數(shù)據(jù)規(guī)模的增加,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的注意力機制被廣泛運用于機器翻譯、自然語言處理和圖片識別等眾多領(lǐng)域。在Encoder-Decoder框架下引入注意力機制,使輸入信息(Source)通過En?coder-Decoder框架計算出目標信息(Target)。注意力機制在運算過程中將Source中的輸入信息要素構(gòu)成一系列相關(guān)性待計算數(shù)列,每次運行時通過給定Target中的一個要素Query,通過Query和各個Key的相關(guān)性計算,得到每個Key對應(yīng)Value的權(quán)重分布情況,最后對Value進行加權(quán)求和,使用常用的Softmax分類器對整個文本進行分類處理。Attention機制實質(zhì)上是將Target中的目標要素置于Source中進行相關(guān)性計算,得出權(quán)重最大的要素。
層疊注意力機制與普通注意力機制的不同在于,其將構(gòu)建多層神經(jīng)網(wǎng)絡(luò),在實現(xiàn)對詞級的分類基礎(chǔ)上,再進行句級的分類。層疊注意力機制神經(jīng)網(wǎng)絡(luò)把復(fù)雜的句式結(jié)構(gòu)切割為多個語句碎片,對每一個語句碎片運行RNN注意力機制計算,將得到的映射向量再次運行RNN注意力機制實現(xiàn)對語句的分類賦值。層疊注意力機制可以明顯改善復(fù)雜語義信息的提取質(zhì)量。簡言之,在機動車交通事故損害賠償糾紛中,以輸入交通事故責(zé)任認定書為例。Source為“A駕駛機動車違反《××××××》第××條之規(guī)定,在本次事故中承擔(dān)全部責(zé)任”,Tar?get為“A為賠償義務(wù)主體”,注意力機制先將該句式結(jié)構(gòu)分割為“A”“機動車”“《××××》第××條”等語句碎片,再把Target中的“賠償義務(wù)主體”作為Que?ry值代入Source中與每一個語句碎片進行對齊(相關(guān)性計算),相關(guān)性的值通過Softmax函數(shù)歸一化后,得到對齊概率值,找到權(quán)重系數(shù)最大的“A”。
1970年布坎南和黑德里克發(fā)表的《關(guān)于人工智能與法律推理的思考》,開啟了法律推理機器建模的先河[13](p40)。早期學(xué)者們針對法律推理的機器建模主要是基于相對封閉的單調(diào)演繹推理,搭建法律專家系統(tǒng)。典型應(yīng)用如1977年問世的TAX?MAN系統(tǒng)[14](p837-893),基于經(jīng)典的演繹推理模式,針對公司稅法問題,將法學(xué)知識拆分為一系列的概念和規(guī)則,搭建起了一個相對封閉的法律專家系統(tǒng)。這些早期的法律推理模型因理論和技術(shù)的限制,如國家社科“七五”研究課題《量刑綜合平衡與電腦輔助量刑專家系統(tǒng)研究》,難以在法律知識庫的基礎(chǔ)上取得更多的成果。
隨著理論認識的不斷深入,學(xué)者們逐漸認識到,法律推理和論證過程具有開放性和可廢止性。可廢止性是指法律推理具有被擊敗的傾向,它發(fā)生在新的信息被發(fā)現(xiàn)或加入之前推導(dǎo)的前提集中,但之后的推導(dǎo)并沒有撤銷之前較弱推導(dǎo)的任何前提[15](p139-150)。與演繹推理相比,可廢止推理的前提條件中并不包括得出結(jié)論的所有因素,其得出的推理結(jié)果會根據(jù)新因素的介入而處于一個動態(tài)的變化過程中,使法律規(guī)范和其形式化之間保持結(jié)構(gòu)上的相似性成為可能。由于法規(guī)之間可能存在沖突,若用經(jīng)典演繹系統(tǒng)來表示,很容易得出相互矛盾的結(jié)論而導(dǎo)致系統(tǒng)崩潰[16](p99-104)。
為了使推理事實更加接近案件事實真相,可借助貝葉斯網(wǎng)絡(luò)在抽取到的相互印證或相互矛盾的眾多證據(jù)中,尋找證據(jù)之間印證關(guān)系最強、最具說服力的證據(jù)鏈。在無新事實要素介入的情況下,生成暫定案件事實,避免因為之后增加的新事實要素的介入導(dǎo)致系統(tǒng)崩潰。貝葉斯網(wǎng)絡(luò)是一種將目標變量之間的概率關(guān)系進行編碼的圖形模型。當(dāng)貝葉斯網(wǎng)絡(luò)與統(tǒng)計技術(shù)結(jié)合使用時,此種圖形模型在數(shù)據(jù)分析方面具有強大的推理和知識表達能力。首先,由于模型對所有變量之間的關(guān)聯(lián)關(guān)系進行計算,因此它很容易處理某些數(shù)據(jù)項丟失或不完整的情況;其次,貝葉斯網(wǎng)絡(luò)可以用來學(xué)習(xí)因果關(guān)系[17](p49-52),因此可以用來獲得對問題域的理解和預(yù)測干預(yù)的結(jié)果;再次,由于該模型同時具有因果語義和概率語義,因此它是結(jié)合先驗知識和數(shù)據(jù)的理想表示;最后,統(tǒng)計學(xué)方法與貝葉斯網(wǎng)絡(luò)相結(jié)合,為避免數(shù)據(jù)的過度擬合提供了一種有效的、有原則的方法。在數(shù)據(jù)挖掘過程中,通過歷史案例構(gòu)建訓(xùn)練數(shù)據(jù)集來訓(xùn)練機器學(xué)習(xí)模型,再使用循環(huán)訓(xùn)練后的模型對目標數(shù)據(jù)進行預(yù)測。但是,訓(xùn)練數(shù)據(jù)集中包含抽樣誤差,不可能涵蓋所有的樣例,機器學(xué)習(xí)模型可能處于過擬合狀態(tài),即對訓(xùn)練數(shù)據(jù)來說過于完美而偏離了真實的曲線,從而導(dǎo)致預(yù)測結(jié)果失真。本文利用先驗知識構(gòu)造貝葉斯網(wǎng)絡(luò)的方法,計算涉案證據(jù)之間的關(guān)聯(lián)概率,以求對案件事實進行推理和表達。
貝葉斯網(wǎng)絡(luò)與其他數(shù)據(jù)挖掘方法相比,貝葉斯網(wǎng)絡(luò)因其不確定性知識表達形式和便于計算任意隨機變量組合的聯(lián)合條件概率分布的優(yōu)勢,將先驗信息和樣本信息綜合起來,一方面,可以修正單一先驗信息帶來的主觀偏見,減少采集的樣本信息中的數(shù)據(jù)噪音;另一方面,在貝葉斯網(wǎng)絡(luò)中,將事件的出現(xiàn)概率分為先驗概率(根據(jù)現(xiàn)有數(shù)據(jù)材料或主觀經(jīng)驗知識判定的概率)、后驗概率(導(dǎo)入樣本信息對先驗概率進行優(yōu)化后獲取更加可信的概率),并將兩者聯(lián)系起來計算聯(lián)合概率(交叉概率)?;谪惾~斯網(wǎng)絡(luò)搭建證據(jù)關(guān)聯(lián)概率模型,需要將特定案由案件中證據(jù)要素轉(zhuǎn)移率當(dāng)作隨機變量,根據(jù)專家知識搭建的司法知識庫對證據(jù)的轉(zhuǎn)移概率進行推定,確定先驗分布。利用海量歷史司法文書,利用OCR等識別技術(shù),從不同案由案件中提取涉案證據(jù)要素,計算不同證據(jù)要素之間的相關(guān)性,得到后驗分布密度,對案件事實做出推斷。
以簡化的機動車交通事故損害賠償糾紛為例(圖2),一方面,利用機動車交通事故賠償糾紛歷史案例數(shù)據(jù)結(jié)合專家知識,計算證據(jù)之間的證據(jù)相關(guān)性,構(gòu)建貝葉斯證據(jù)關(guān)聯(lián)概率網(wǎng)絡(luò);另一方面,對當(dāng)事人提交的起訴狀、原被告有效證件、事故證明、治療證明、誤工證明、支付憑證等涉案材料,通過分句、分詞、句法分析和實體識別對證據(jù)要素以及證據(jù)屬性進行抽取。同時,結(jié)合層遞注意力機制,篩選數(shù)據(jù)源,定義、尋找案件關(guān)鍵要素。將識別到的司法要素圈定在機動車交通事故損害賠償糾紛內(nèi),獲取用于構(gòu)建案件畫像的案件事實要素。此外,利用貝葉斯證據(jù)關(guān)聯(lián)概率網(wǎng)絡(luò),選定證據(jù)之間印證關(guān)系最強、最具說服力的證據(jù)鏈條,生成案件畫像。
圖2:獲取證據(jù)鏈條流程
圖3:事實要素自動抽取模型流程
案件事實要素自動抽取與歸納賦值的難點在于,對特定案由案件關(guān)鍵證據(jù)要素的提取以及使用機器語言表達各類涉案證據(jù)之間的印證關(guān)系。事實要素自動抽取模型(圖3)將基于注意力機制深度學(xué)習(xí)模型、基于貝葉斯網(wǎng)絡(luò)的證據(jù)關(guān)聯(lián)概率模型兩大關(guān)鍵技術(shù)進行系統(tǒng)集成,將自動抽取出的詞語圈定在司法領(lǐng)域內(nèi)部,搭建案件事實證據(jù)鏈,能夠有效地減少案件事實要素自動抽取過程中存在的噪音。
為了應(yīng)對法律語言的模糊性,提高案件事實要素抽取的準確性,避免分詞抽取錯誤,需要通過司法專家和自然語言處理專家共同梳理及機器半自動標注的方式,構(gòu)建案件事實要素標簽體系。構(gòu)建案件事實要素標簽體系是法律本體研究的一種實踐嘗試[18](p53-66),需要以要素式審判為基礎(chǔ)。在具體操作過程中,并不是案件所有的事實要素均能夠成為要素式審判的關(guān)注對象,只有案件雙方爭議的關(guān)鍵要素才能成為審判過程中需要重點考慮的要素。構(gòu)建案件要素集合需要法律專家預(yù)先根據(jù)不同案由案件,收集相關(guān)案件法律法規(guī)、訴訟材料、案件卷宗、裁判文書等作為研究及機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)。對法律法規(guī)、案件卷宗、裁判文書進行無監(jiān)督機器學(xué)習(xí),自動對案件事實要素進行標簽及歸類,形成法律知識規(guī)則庫。基于海量法律法規(guī)、訴訟材料、裁判文書、雙方質(zhì)證情況及開庭中雙方答辯的案件卷宗對涉案文書進行結(jié)構(gòu)化處理,并對相關(guān)案件事實要素的證據(jù)進行分類標簽化處理,確定不同案由案件中需要重點考慮的案件事實要素。
圖4:案件實體特征識別流程
圖5:案件事實要素歸納賦值流程
通過OCR等技術(shù)識別,對涉案訴訟材料中的案件實體特征信息進行識別,將涉案訴訟材料轉(zhuǎn)化為電子證據(jù)集,針對電子證據(jù)集中的有效信息進行去噪。為了進一步提高證據(jù)的可信程度,需要人工專家對識別到的結(jié)構(gòu)化證據(jù)要素進行校驗標注。
如圖4所示,將具體案件的電子卷宗、訴訟材料等涉案文書,通過OCR自然語言識別技術(shù)將涉案文書從PDF或者TXT格式中,識別案情中法律關(guān)系、時間、地點、人物、事件、行為等關(guān)鍵要素,快速提取出純文本數(shù)據(jù)信息,對提取到的純文本數(shù)據(jù)信息進行數(shù)據(jù)降噪,完成關(guān)鍵信息的抽取和案件要素的識別。對于不適用OCR識別技術(shù)的案件材料,由涉案人員進行證據(jù)輸入。最后由涉案人員及司法工作人員對抽取到的案件事實進行甄別,特別是對證據(jù)的真實性和合法性做出預(yù)先判定后,形成結(jié)構(gòu)化案件事實要素。
為了構(gòu)建案件畫像,將法律推理規(guī)則進行邏輯表達,必須對識別到的案件事實要素的實體特征進行歸納賦值,以事實要素標簽體系為基礎(chǔ),根據(jù)事實證據(jù)鏈條,將多方證據(jù)進行關(guān)聯(lián)形成證據(jù)網(wǎng)絡(luò),對證明標準進行量化處理。案件事實要素的歸納賦值是將司法領(lǐng)域提取到的結(jié)構(gòu)化證據(jù)要素,利用基于層疊注意力機制,生成特定案由的案件關(guān)鍵要素,并確定多方證據(jù)之間的證據(jù)相關(guān)性和證據(jù)轉(zhuǎn)移概率,得到目標的證據(jù)鏈條,構(gòu)建案件事實畫像。具言之,案件事實要素的歸納賦值可分為兩個階段(圖5):
第一階段:提取證據(jù)要素。利用基于注意力機制的深度學(xué)習(xí)模型和Word2vec網(wǎng)絡(luò)模型,對識別到的結(jié)構(gòu)化證據(jù)要素進行抽取、歸類處理和相關(guān)性計算,將識別到的案件事實要素圈定在目標范圍內(nèi),獲取用于構(gòu)建案件畫像的關(guān)鍵要素。從司法源數(shù)據(jù)中獲取案件事實要素進行實體識別和關(guān)系識別,根據(jù)證據(jù)規(guī)則,構(gòu)建各事實要素之間的關(guān)系,形成訓(xùn)練數(shù)據(jù)集,用于搭建和訓(xùn)練基于注意力機制的深度學(xué)習(xí)模型,并進行循環(huán)學(xué)習(xí)。將新的司法數(shù)據(jù)導(dǎo)入搭建好的注意力機制模型,進行各要素之間的相關(guān)性計算,最后生成特定案由的案件事實的關(guān)鍵要素,以抽取到符合要求的目標要素。
第二階段:構(gòu)建案件畫像。將甄別后的結(jié)構(gòu)化證據(jù)要素與法律知識規(guī)則庫中的司法規(guī)則相結(jié)合,將結(jié)構(gòu)化證據(jù)要素中的信息與法律知識規(guī)則庫中的條目進行匹配。通過貝葉斯網(wǎng)絡(luò)搭建,基于證據(jù)關(guān)聯(lián)概率模型生成案件畫像。構(gòu)建案件事實證據(jù)鏈條是對構(gòu)建案件基本畫像的必要支持。構(gòu)建事實證據(jù)鏈條是對構(gòu)建案件基本畫像的必要支持。證據(jù)鏈條是指由兩個或者兩個以上不同的證據(jù)鏈節(jié)(或證據(jù))所組成的,通過鏈頭的相互聯(lián)結(jié)形成的聯(lián)結(jié)點,以及鏈頭與鏈體的客觀聯(lián)系,使內(nèi)容得到相互印證并體現(xiàn)或者提高證據(jù)的證明力,用以證明案件事實的證據(jù)集合體[19](p128-136)。證據(jù)鏈條包括一系列的鏈節(jié)和聯(lián)結(jié)點,前者為我國訴訟法中規(guī)定的適格證據(jù),后者為證據(jù)與證據(jù)之間相互印證的交叉關(guān)系[20](p65-68)。證據(jù)鏈條中鏈節(jié)為抽取到的結(jié)構(gòu)化證據(jù)要素,為了獲取聯(lián)結(jié)點需要結(jié)合專家知識預(yù)先從歷史案件文書中進行證據(jù)支持度和置信度計算。支持度說明了A和B兩個證據(jù)事實之間的關(guān)聯(lián)關(guān)系,即在特定案由的案件中A和B兩個證據(jù)事實同時出現(xiàn)的概率。置信度用于揭示在特定案由案件中A證據(jù)事實出現(xiàn)時,B證據(jù)事實是否會出現(xiàn)以及出現(xiàn)概率大小的問題。基于海量的歷史案件,計算特定案由案件中各類證據(jù)的支持度和置信度,以獲取事實證據(jù)鏈條中的聯(lián)結(jié)點,插入結(jié)構(gòu)化證據(jù)要素,構(gòu)建事實證據(jù)鏈條,并采用法律專家參與的方式提高事實證據(jù)鏈的準確性,最大限度發(fā)揮專家知識在信息抽取過程中的作用。換言之,在語義信息的智能抽取過程中,專家知識與多模型相結(jié)合的方式,能夠大幅度地提高目標信息抽取的準確性。搭建好事實證據(jù)鏈條后,根據(jù)涉案訴訟材料選定與之相對應(yīng)的案件事實證據(jù)鏈條,利用多條事實要素證據(jù)鏈條,基于貝葉斯網(wǎng)絡(luò)搭建多方證據(jù)關(guān)聯(lián)模型生成案件畫像。
理論認識的不斷深入和人工智能技術(shù)的漸進發(fā)展,為人工智能技術(shù)與審判活動的契合提供了更多的可能。人民法院應(yīng)當(dāng)順勢而為,積極擁抱大數(shù)據(jù)和人工智能新時代,不斷創(chuàng)造更高水平的社會主義司法文明[21]。客觀地說,案件事實要素智能抽取是以基于注意力機制的深度學(xué)習(xí)模型為抽取工具,輔以基于貝葉斯網(wǎng)絡(luò)的證據(jù)關(guān)聯(lián)概率模型推理引擎,旨在提高案件事實要素智能抽取的準確性,對證據(jù)要素進行歸納賦值,進而生成案件畫像,奠定了司法裁判的基礎(chǔ),為審判權(quán)依法有序地推進帶來難以估量的正向影響,如緩解人案矛盾,提升審判質(zhì)效,實現(xiàn)裁判尺度統(tǒng)一等,同時也拓展了人工智能科學(xué)的研究范圍,對發(fā)現(xiàn)和推動認知科學(xué)及人工智能等理論研究意義深遠。然而,由于審判過程中涉案訴訟材料的多源性和多樣性,在一定程度上抑制了案件事實要素的自動抽取的準確率。就案件事實要素智能抽取的研究和現(xiàn)實運行而言,仍處于一個初步的、低水平階段。在未來的研究工作中,將基于案件事實要素的智能抽取技術(shù),對當(dāng)事人圍繞案件事實提交的證據(jù)通過關(guān)聯(lián)分析,自動提取案件事實特征要素,通過規(guī)則推理和隨機森林算法預(yù)測裁判結(jié)果,利用神經(jīng)網(wǎng)絡(luò)模型定位相關(guān)法條,構(gòu)建候選法條緩存,從法條數(shù)據(jù)中自動推薦與案情匹配的法條,實現(xiàn)輸出更為準確可靠的法條推薦結(jié)果,同時獲得法律適用判別的依據(jù)。隨著人工智能技術(shù)的不斷發(fā)展,如何有效通過法律大數(shù)據(jù)、機器深度學(xué)習(xí)模型,為當(dāng)事人及法官提供涉案證據(jù)材料識別、分類、判定并自動生成案件事實畫像,并結(jié)合糾紛情況,為當(dāng)事人乃至司法工作人員提供訴訟風(fēng)險告知及訴訟決策指引,仍需理論與實務(wù)界吸納域外人工智能發(fā)展的先進技術(shù)和理念。