丁 鈺 張 翔
(西南政法大學,重慶 401120)
在智慧法院建設實踐中,最高人民法院要求法官“基于案件事實、爭議焦點、法律適用類腦智能推理,滿足辦案人員對法律、案例、專業(yè)知識的精準化需求,促進法官類案同判和量刑規(guī)范化”①。然而,人工智能尚處于以模型學習驅動的數(shù)據(jù)智能階段,而類腦智能則屬于較高技術水平的認知仿生驅動[1],有限的技術能力與迫切的司法需求之間形成巨大張力。即便以數(shù)據(jù)智能為基礎搭建“類案推送系統(tǒng)”并輔之以“類案強制檢索”制度,但類案檢索結果“不精準”已然成為當下類案檢索機制遭遇的最大困境。這背后固然有數(shù)據(jù)輸入端案例數(shù)量不足、案例質量不佳等原因掣肘,但數(shù)據(jù)加工過程本身扮演著承上啟下的重要角色,特別是以“圖譜化”為核心的類案識別,既是數(shù)據(jù)輸入端案例結構化的重要標準,反向制約了案例數(shù)據(jù)的篩選,又是數(shù)據(jù)輸出端類案檢索報告所要闡釋的檢索方法的基本構成,關乎檢索結論的可靠性。因此,類案識別“圖譜化”在理論依據(jù)、規(guī)范基礎以及語義識別方式等方面暴露出的問題,均是影響類案檢索結果精準度的結構性因素。
本文秉持“技術—制度協(xié)同演化”[2]的基本立場,沿循“提出問題—分析問題—解決問題”進路展開論述。首先,闡明類案識別“圖譜化”擬解決的問題是“類案檢索不精確”并分析其成因;在確定問題面向后,揭示智慧司法實踐中類案識別“圖譜化”所遭遇的三重困境。其次,從“圖譜化”的結構要素(語詞及語義)、生成路徑(圖譜本身)以及類型關系(圖譜之間)三個維度剖析類案識別“圖譜化”推進困難的原因。最后,針對類案識別“圖譜化”的實踐難題,分別從知識圖譜的構建前提(理論依據(jù))、過程(深度學習)和未來方向(事理圖譜及抽象語義框架)三個層次提出破解類案識別“圖譜化”難題的可能方案。
類案檢索不精準是當下類案檢索制度實踐效果不佳的主要表現(xiàn),而類案識別既是方法論意義上類案檢索的前提,也是類案檢索系統(tǒng)的核心技術支撐。類案識別“圖譜化”正是為了消解類案檢索不精確之弊,但其自身在語義識別等方面也存在不少問題,亟待反思并闡明痛點。
類案檢索不精準主要表現(xiàn)為檢索不到類案的“隱性缺失”(事實上有類案)和檢索到表面關聯(lián)案件的“顯性缺位”(貌合神離)。也即,現(xiàn)階段只是篩選了形式上法條援引相同、實質上事實不同的案件進行比對,以至于形式上關聯(lián)案件數(shù)量龐大而實質上多為高頻詞匯簡單重疊[3]。從現(xiàn)行類案檢索系統(tǒng)的運行原理(如圖1所示)看,輸入端往往采用關鍵詞檢索確定目標語義,處理端則通常依據(jù)案由對案例數(shù)據(jù)類型化后,再拆解該類裁判文書語詞并進行數(shù)據(jù)標注,通過目標語義與案例數(shù)據(jù)庫比對,依據(jù)關鍵詞重合度及復現(xiàn)頻次高低篩選類案。
圖1 現(xiàn)行類案檢索系統(tǒng)的運行原理
事實上,案由是立案、分案等審判管理工作的標準,其內在邏輯與法官依據(jù)爭議焦點提煉的法律關系并不完全一致,加上數(shù)據(jù)處理只是語詞之間機械性的字符串匹配,雖然比對結果具有概率論意義上的高度相關性,但卻與目標語義下潛藏的法律關系的結構性關聯(lián)相距甚遠。譬如,當前中國裁判文書網(wǎng)中民事案件數(shù)量總計8000余萬件,在種類最豐富的473個三級民事案由中,平均每個案由下就有裁判文書17.3萬篇②,但實踐中相同案由的案情錯綜復雜,以此種檢索方式試圖在17.3萬篇相同案由的案例中精準定位與待決案件高度相似的類案,無異于大海撈針。
究其原因,人工數(shù)據(jù)標注無法窮盡各類語境中語詞的真實語義,而數(shù)據(jù)結構化也并非建立在知識圖譜基礎上,使得當下的數(shù)據(jù)標注只能實現(xiàn)低層次的數(shù)據(jù)結構化,搜索技術因知識圖譜缺失也必然會減損語詞之間可能的深層語義關聯(lián)。
為了提升類案檢索的精準度,必須將類案識別建立在知識圖譜的基礎上,以法律知識圖譜為線索建構語詞之間深層次的語義關聯(lián)。知識圖譜是由節(jié)點和連接節(jié)點組成的一種知識性的結構化圖解,反饋由實體表示的現(xiàn)實世界中存在的有關事物或抽象概念[4]。以刑法適用領域構建類案識別的法律知識圖譜為例。首先,從判決書中提取刑事案件基本信息;其次,對案情介紹、犯罪行為、判決主文等進行數(shù)據(jù)標注;接著,實施法律規(guī)則匹配。若匹配成功,則將標注信息列為案例標簽信息;若匹配失敗,則重新開始匹配直至識別成功[5]。
類案識別“圖譜化”面臨的第一重困境是“非結構化文本的語義難識別”。法律知識圖譜構建所需要的裁判文書包括類結構化的案件基本信息和非結構化文本[6]。類案識別所依賴的法律知識圖譜構建難點在于,基本案情中非結構化文本如何進行技術處理。譬如,當事人陳述的自然語言特征千差萬別,法院認定事實的敘事方式不盡統(tǒng)一,釋法說理方式更是風格迥異。這些非結構化文本都增加了語義識別的難度。
類案識別“圖譜化”面臨的第二重困境是“語義識別的理論依據(jù)難選擇”。刑法適用領域當下類案識別的法律知識圖譜構建主要從技術原理出發(fā)[7],重點關注了刑事案件的表面相似信息,沒有穿透語詞并深入規(guī)范語義探尋語詞之間的實質關聯(lián)[8]。刑法領域存在“四要件”“階層論”等構成要件理論,學說分歧亦是刑法不同價值取向的折射,且不論依據(jù)何種刑法理論才能有效適配知識圖譜構建,僅數(shù)據(jù)標注這一前提程序而言,就會率先面臨上述構成要件的選擇難題。
類案識別“圖譜化”面臨的第三重困境是“規(guī)范之間的體系關系難協(xié)調”。例如,刑法條文中罪狀描述相似但定罪結論不同的情況較多,一個犯罪行為牽涉多個法條適用的情形也不在少數(shù)[9]。事實上,基于刑法的法律知識圖譜構建僅局限于從某一個罪名展開,再去關聯(lián)此罪與彼罪、此案與彼案[5]。這種為了技術實施便利而割裂罪名或案件之間內在聯(lián)系的不當操作,導致復雜案件的類案識別實質上只是相似罪名重合度高低的判斷,而不是罪數(shù)關系差異所映射的案件情節(jié)不同,因而流于形式化且識別精準度不高。
類案識別“圖譜化”的三重困境根源于技術與制度協(xié)同演化不順暢。其中,語義識別層面表現(xiàn)為“算法框架不協(xié)調”;在圖譜生成層面沒有區(qū)分簡繁案件,致使復雜案件的圖譜構建模式不適配;在圖譜關系層面,單一法律部門或特定法律關系的預設,使得不同類型圖譜之間難有交集。
在構建語義識別的算法模型時,一方面,實體類型和關系類型都由算法設計者進行選擇和解釋,其中難免摻雜非專業(yè)性的主觀判斷和帶有偏好的語詞選擇;另一方面,當前技術水平下無法搭建出具有“全適應性”的模型,技術人員最多只能就某一類型案件或者特定事件進行模型構建,而這些模型之間存在較大的技術壁壘,不僅難以互通,也無法進行通用性擴展。譬如,陳彥光等人采取的是CNN句子分類模型[5],喬鋼柱等人采用OWL進行語言本體描述[10]。合并基于不同底層邏輯構建的語義知識圖譜,需要在不同機器語言之間進行算法轉譯。然而,語義匹配絕大多數(shù)情況下不是元素間一對一的匹配,元素間隱含關聯(lián)的語義關系需要相似匹配,而相似性的確立又依賴于匹配的不斷學習,這就要求語義匹配還需進一步挖掘框架間、詞元間及框架元素間的語義聯(lián)系[11]。
從技術迭代規(guī)律看,數(shù)據(jù)標注的算法設計“由簡到繁”無可厚非,但從類案檢索的制度預期反思,各類部門法交叉案件才是法律知識圖譜建構時應當關注的重點,簡單案件的檢索需求并不迫切且對類案同判意義不大。司法實踐中出現(xiàn)圖譜構建的“避重就輕”現(xiàn)象,根源在于,沒有認識到簡單案件的圖譜構建路徑應側重于“從數(shù)據(jù)到圖譜”的自下而上方式,而復雜案件的圖譜構建路徑應側重于“從圖譜到數(shù)據(jù)”的自上而下方式。也即,簡單案件的類案識別容易“圖譜化”而疑難案件的類案識別不容易“圖譜化”。這就意味著,技術理性引發(fā)路徑依賴,類案識別“圖譜化”的主要對象已然偏離了類案檢索的制度初衷。由此造成復雜案件圖譜設計的技術難題非但遲遲未能攻破,巨大的制度運行成本和類案檢索質量不高的現(xiàn)實困境,早已阻礙了智慧法院建設繼續(xù)向深入推進。
在智能司法實踐中,不同類型的司法案件,其類案識別“圖譜化”的構建方式多元異構。類案識別“圖譜化”的標準大致可以從形式和內容兩個維度進行區(qū)分。就形式標準而言,裁判文書必須依照法定程序生成,其格式也有相關規(guī)范予以限定③;就內容標準而言,圖譜構建受制于規(guī)范化的法律語言、客觀化的事實描述。然而,不同法律部門對客觀事實的“轉譯”并不統(tǒng)一,許多法律概念只是名稱相同但在不同部門法之下其內涵和外延差異較大。這就迫使當前類案識別大多選擇單一法律關系的案例為樣板,建構專用“知識圖譜”進行建模。這些圖譜的設定標準及模型實驗參數(shù)不僅受限于不同的算法邏輯,而且各部門法內部再進一步以具體案件類型為標準構建專門的實驗基準。因此,無論是刑事法律適用中“數(shù)罪并罰”還是民事法律適用中“讓與擔?!?諸如此類多重法律關系疊加的案件,都難以在規(guī)則層面找到圖譜設計的交集,遑論超越部門法界限的刑民交叉、刑行交叉、民行交叉等復雜案件。
破解類案識別“圖譜化”的難題,特別是化解語義識別困境,需要首先從法學原理出發(fā)優(yōu)化規(guī)范體系并通過“抽象規(guī)范定型化”填充語義間隙;在該定型化過程中,可以利用深度學習實現(xiàn)法律知識圖譜的邏輯架構不斷具化;當然,知識圖譜并非類案識別技術優(yōu)化的終點,發(fā)揮事理圖譜和抽象語義框架在語義關系判定方面的優(yōu)勢是未來技術迭代的突破口。
我國已形成案例指導制度,指導性案例的裁判要點、敘事結構及其適用方法,成為案例類型化的重要理據(jù)[12]。法律知識圖譜構建,不僅需要從文意出發(fā),還應當如指導性案例一般,對法律行為進行抽象并且定型化處理,形成圖譜搭建的基本要素。當然,也要兼顧各類案件對不同圖譜的差異化需求。
其一,在刑法領域,圖譜構建不應直接以“一類行為”或“一類罪名”出發(fā),而是需要首先構建刑法總則的概念模型,再以分則中各罪名、構成要件以及量刑情節(jié)為充盈。其二,在民法領域推進類案識別,更要重視“應然理論”與“實然案例”之間聯(lián)動,先類型化民事案件,后搭建類案識別模型。有學者提出,以“請求權基礎”為底層邏輯,同時輔以“要件審判九步法”作為核查程序,實現(xiàn)人工智能在民法圖譜構建中嵌入[13]。其三,在行政法領域,需要強化規(guī)范本身的體系性,由法律專家將行政法類案關聯(lián)和識別標準先行抽象,然后再介入模型構建,著重判斷模型本身的合法性、合理性和可行性。其四,交叉類案件的圖譜構建依賴于不同部門法的圖譜設計,但這并不意味著該類案件只是各種圖譜的簡單疊加,而應當發(fā)揮事理圖譜的技術優(yōu)勢,減少不同部門法各自知識圖譜對事實篩選的過度限制,回歸交叉案件本身的內在事實關聯(lián)。
在此基礎上,進一步發(fā)揮深度學習的優(yōu)勢,逐步實現(xiàn)從知識圖譜到事理圖譜演化,再向抽象語義框架邁進。
首先,需要利用無監(jiān)督學習進行類案事實提取,充盈類案同判規(guī)則數(shù)據(jù)庫;其次,依據(jù)法律規(guī)范構成要件要素將待決案件拆分后,整體置入類案同判規(guī)則數(shù)據(jù)庫;最后,通過基于深度學習的知識圖譜進行事實關系匹配,將無維度標簽的數(shù)據(jù)進行聚類整合[14],以實現(xiàn)類別歸納[15]。
較之于關鍵詞檢索遍歷結點固定順序的“盲目搜索”策略[16],基于深度學習構建知識圖譜后,可以通過非線性檢索方式,避免案由具化檢索有限性帶來的檢索結果隱性缺失,還可以在案例之間建構“去中心化”的深度關聯(lián)從而避免檢索結果的顯性錯位。
減少了對外部工具和人工特征選擇的依賴,可以有效完成端到端的實體識別、關系抽取和關系補全等任務,實現(xiàn)知識圖譜的自動構建與內外協(xié)調,進而使類案得以精準呈現(xiàn)。
事理圖譜強化了在數(shù)據(jù)密集情況下對類案信息本身的處理,偏向于邏輯描述與演繹推理,是基于事理邏輯的知識推導。較之于知識圖譜,事理圖譜可以彌補知識圖譜在案件關聯(lián)、邏輯推演、舉證說理等方面的不足。
首先,利用結構化數(shù)據(jù)搭建知識圖譜的效率較高,但類案識別所依附的數(shù)據(jù)還包括半結構化數(shù)據(jù)和類結構化數(shù)據(jù),事理圖譜在應對這兩者時,較之于知識圖譜更有利于類案相似點與不同點的呈現(xiàn)[17]。譬如,周京艷等人將事理圖譜應用于情報研究,情報與類案識別的相同之處在于,信息文字對于兩者而言均至關重要,兩者都涉及信息判讀[18]。
其次,情報存在有效情報信號與情報噪音的區(qū)別,類案識別過程也需要在案例之間判斷相似性及差異性,同時在相似性要素與差異性要素的比重之間進行衡量,最終做出是否屬于類案的決斷,而這一判斷過程與“情報區(qū)分”原理相近。
再次,情報事理圖譜依據(jù)事件的內在邏輯來消除“情報噪音”,其運行的關鍵機理是事件間的順承、因果等邏輯關系在識別分析時的輔證,這一方法對于優(yōu)化案例數(shù)據(jù)識別機制、提高案例識別精準,在類案判定層面可以借鑒[18]。
知識圖譜和事理圖譜均側重于法律規(guī)則形式化的表示方法,著重提煉概念之間的符號邏輯關聯(lián),導致這些專用概念在表意上或多或少脫離了語言本意?;凇巴纳x”所建構的類案識別模型,造成類案檢索結果“貌合神離”也在所難免。因此,從知識圖譜演進至事理圖譜,并未成為類案識別模型優(yōu)化的終點,有學者進一步提出“抽象語義框架”的可能進路[19]。該種方法是“抽象—抽象”的表示邏輯,在生成相關內容時,句法和語義呈現(xiàn)不僅取決于概念本身,還取決于其上下文[20]。
事實上,法律語言較之于自然語言,不僅在內涵上更具有抽象性,而且大量存在的專有名詞、特殊的解釋學方法以及與“符號主義”漸趨分離的諸如“可辯駁推理”這類新型推理模式出現(xiàn),抽象語義框架較之于知識圖譜和事理圖譜而言,更契合類案識別的基本原理。不容忽視的是,因“抽象語義框架”重點關注真實語義的最終輸出,需要克服專有名詞、解釋方法、可辯駁推理層面的理論局限后,才能實現(xiàn)最終輸出語義的貼合性,這顯然加大了其嵌入類案識別模型的難度。
實踐中,日本學者首先從日本民法典的英文版本中提取出構建抽象語義框架的數(shù)據(jù)集JCivil-Code;然后,增補越南民法典英文版的內容以擴充模型體量,創(chuàng)建了對應的抽象語義框架。目前,雖然該模型與“人標人注”的情形相去甚遠,但是在框架層搭建方面取得了初步進展,實現(xiàn)了抽象語義框架應用于法律文件的可能性證成[21]。
類案識別“圖譜化”是法律人工智能建模的關鍵原理性支撐,關乎技術理性與制度理性能否有效兼容、二者之間怎樣搭建高質量溝通對話的橋梁,因而成為“類腦智能推理”模型建構的“牛鼻子”。然而,在類案識別“圖譜化”構建的司法實踐中,非結構化文本存在語義識別困難,沒有穿透語詞并深入規(guī)范語義探尋語詞之間的實質關聯(lián),也即在語義識別的理論依據(jù)和規(guī)范體系尚存爭議時,智能司法實踐向技術理性不當“妥協(xié)”,因語義算法框架不協(xié)調、簡繁案件的圖譜生成路徑顛倒以及關系圖譜之間存在壁壘,這些因素疊加使得類案識別“圖譜化”并未有效解決類案檢索不精準的難題。為了解決上述問題,在“技術—制度協(xié)同演化”理念指導下,提出制度優(yōu)化應當著眼于定型化的案例模型抽象,技術優(yōu)化可以通過深度學習提升圖譜的適配性,而事理圖譜和抽象語義框架則是類案識別“圖譜化”的迭代方向。當然,打通技術原理、思維模式和制度邏輯三者之間的隔閡并非易事,本文側重于原理端進行了破除壁壘的初步嘗試,在技術端,特別是在模型搭建上,仍然需要繼續(xù)深化。
注釋:
① 《最高人民法院關于加快建設智慧法院的意見》(法發(fā)〔2017〕12號)第5條“運用大數(shù)據(jù)和人工智能技術,按需提供精準智能服務”第(十四)項:“支持辦案人員最大限度減輕非審判性事務負擔……深挖法律知識資源潛力,提高海量案件案情理解深度學習能力,基于案件事實、爭議焦點、法律適用類腦智能推理,滿足辦案人員對法律、案例、專業(yè)知識的精準化需求,促進法官類案同判和量刑規(guī)范化。”
② 根據(jù)2022年6月23日14時53分訪問“中國裁判文書網(wǎng)”所顯示的民事案件數(shù)量86704896件估算得出,https://wenshu.court.gov.cn/ 。
③ 參見《最高人民法院關于深化人民法院司法體制綜合配套改革的意見——人民法院第五個五年改革綱要(2019—2023)》(法發(fā)〔2019〕8號)。