楊貝
裁判文書說理已成為近年司法改革的熱點,其重要性不言而喻。如果不能確保說理評價的客觀性,借助提升裁判文書說理水平以提升司法公信力的愿景就難以變成現(xiàn)實。在諸多客觀評價裁判文書說理的方案中,量化評價具有顯見的優(yōu)勢。本文擬以最近組織的一次北京市判決書論證質量調查(以下簡稱“2017調查”)為例,探討量化評價裁判文書說理的可欲性、可能性、可行性和可靠性問題。
隨著大數據時代的到來,我國的法治研究也進入了指數化時代,各種法治指標都有了數字化評價。法學研究正在經歷“一場新的范式革命。”〔1〕左衛(wèi)民:《一場新的范式革命?——解讀中國法律實證研究》,載《清華法學》2017年第3期。在這一背景下,可以說,量化評價裁判文書說理是新時代對裁判文書說理研究提出的必然要求。2017調查結果表明,量化評價裁判文書說理不僅是適應時代趨勢的順勢之舉,更具有以下四個方面的優(yōu)越性:
不同于以往用“優(yōu)秀”“良好”“不理想”等形容詞進行描繪式評價,量化評價方法運用數字標識裁判文書說理狀況。事實上,說理不是全有或全無的問題,而是一個程度概念。因此,數字化的表達方式更適合描述說理狀況。
就單個樣本而言,其得分可以讓公眾直觀地了解判決書說理的程度,其失分之處可以讓公眾直觀地了解判決書說理的不足。量化評價還使不同案件的裁判文書說理獲得了可比性。傳統(tǒng)的質性評價模式下,個案的特殊性常常被放大為阻卻裁判文書對比的藩蘺,人們往往只能就個案談個案,難以將其與其他個案相提并論。量化評價卻使各裁判文書說理的優(yōu)劣變得一目了然。
就全部樣本而言,整體得分情況將直觀地描繪調研對象的說理狀況。2017調查組設計了兩套滿分分別為100和1的評價標準(以下分別簡稱“標準I”“標準II”),通過統(tǒng)計抽檢樣本的得分,得出下表:
表1
表1中的數值清楚地顯示,北京市判決書的論證得分普遍較高,但仍存在低分判決。
各裁判文書說理得失分的匯集整理可以使裁判文書說理的規(guī)律變得清晰。2017調查組按不同類型匯總判決書說理得分,使得不同性質、審級、案由判決書的得分規(guī)律得以呈現(xiàn)。按照標準II,民事、刑事、行政三類判決書的基本得分情況如下:
表2
表3
表2和表3顯示,三類判決書的論證得分都比較高,其中行政判決書的論證高分尤為突出。97份受檢的行政判決書中,有80份滿分,占比高達82%。整體來看,刑事判決樣本得分較為均衡,0.7-1分的判決書數量大致相當。與此相應,0.7-0.8分的刑事判決書占比顯著高于民事、行政判決書,這也導致刑事判決書的平均分位居三類判決書之末。另值一提的是,低于0.7分的民事判決書數量顯著高于另兩類判決書,且此次受檢樣本的最低分亦為民事判決書,這反映出民事判決書的論證得分區(qū)間較大,這與民事判決說理更具自主性有關。
通過統(tǒng)計分析裁判文書說理的失分之處,裁判文書說理的主要問題得以顯現(xiàn)。盡管直觀的經驗觀察往往也能得出與量化評價相近的結論,但經驗觀察的準確度不及量化評價。如果說以往的經驗觀察類似中醫(yī)的望聞問切,那么量化評價就似西醫(yī)操作的X光機,它使裁判文書存在的說理問題得到更精確的描述。2017調查共涉及97份行政判決書樣本,有17份未獲滿分。統(tǒng)計發(fā)現(xiàn),其中10份判決書未討論原告指出的程序違法問題,因其他原因失分的判決書數量則為1-4份不等。這表明,行政判決書說理的最大問題是欠缺關于程序合法性的討論。又如,在所有未獲滿分的民事判決中,有三分之一是因為提供最終支持的論據證明力不足,而這一失分原因在刑事、行政判決中極少見到。
大數據為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力,也對人類的數據駕馭能力提出了新的挑戰(zhàn)?!?〕[英]維克托·邁爾·舍恩伯格、肯尼思·庫克耶:《大數據時代》,盛楊燕、周濤譯,浙江人民出版社2013 年版,第94頁。在法治指數化時代,基礎數據的抓取對于準確評估法治現(xiàn)狀具有重要意義。量化評價裁判文書說理能為司法、法治評估提供數據支持,畢竟判決書是法院與當事人、律師以至社會公眾溝通的主要媒介。不管法院的法定和憲法地位如何,最終是以書面文字作為法院權威的來源和衡量標準?!?〕Federal Judicial Center, Judicial Writing Manual: A Pocket Guide for Judges, second edition, 2013,p.vii.在《中國司法文明指數報告2015》中,指標“9.5 司法活動的結果受到信任與認同”就與裁判文書說理緊密相關?!?〕中國司法文明指數項目組:《中國司法文明指數報告2015》,中國政法大學出版社2016年版,第28-29頁。該指標目前僅通過一個問題“您對自己所在地區(qū)法院司法公信力的滿意程度如何?”來測評?!?〕前引〔4〕,中國司法文明指數項目組書,第35頁。不難想見,裁判文書說理的量化評價可以為該指標的測評提供更準確、更可靠的數據。
社會科學的成功經驗表明,只要以合理的抽象為基礎,數學方法可以幫助我們認識、分析、評價甚至預測一些社會現(xiàn)象。量化評價以“概念化”和“可操作化”為必要前提?!?〕[美]艾爾·巴比:《社會研究方法》(第10版),邱澤奇譯,華夏出版社2005年版,第116-145頁。如果滿足這兩項條件,量化評價裁判文書說理即為可能。2017調查組設計的兩套評價標準印證了量化評價的可能性。其中標準II是對傳統(tǒng)評價模式的顛覆,是依據論證模式理論重構判決書論證之后,依據論證規(guī)范、法律規(guī)范等賦值、評分。標準II借助論證理論對裁判文書的說理進行結構化抽象,為量化評價提供了有力支持。下文將以標準II為例說明量化評價裁判文書說理的可能性。該評價機制主要由重構、賦值、計算三個環(huán)節(jié)構成。
結構本質上是人們在思維層面對事物組成元素的重組。二維空間關系圖能夠幫助我們清晰地認識論證的結構?!?〕[美]歐文·M·柯匹、卡爾·科恩:《邏輯學導論》,張建軍、潘天群等譯,中國人民大學出版社2007年版,第14頁。鑒于此,標準II基于以下四項假定擬定判決書論證結構圖:
假定1:論證通過三段論展開。三段論是對人類普遍的思維結構的概括,是基本的思維形式?!?〕姚介厚:《奠立分析理性傳統(tǒng)——論亞里士多德的邏輯學和形而上學的內在聯(lián)系》,載《復旦哲學評論》,上海辭書出版社1990年版。不論是法律規(guī)范的確定,還是法律事實的建構,抑或最終的法律決定的作出,以理性為依歸的法律思維過程都離不開三段論的支持。理想的論證是連環(huán)進行的三段論。在一個完美的論證體系中,每一個論斷都應該有兩個以上的論據支持。除了最終的結論與最后出現(xiàn)的論據之外,論證過程中的論斷都具有論據與結論的雙重屬性。一個理想的論證結構可能如下圖所示:
圖1〔9〕L1-L4代表論據層次。為了行文方便,下文述及表中某一論據時,就以這一論據所處的層次及論據在這一層次的序號為該論據的編號,如,位于L3的論據3,其編號即為L3-3。
假定2:簡略三段論在必要的情況下允許存在。所謂簡略三段論就是省略了大前提或者小前提或者結論的三段論?!?0〕金岳霖:《形式邏輯》,人民出版社1979年版,第169頁。亞里士多德認為,所有的簡略三段論最終都能還原成三段論。但是因為聽眾喜歡能讓人預知結論又不流于膚淺的三段論,所以言說者應當精煉其表達方式,以取得贏得聽眾的效果?!?1〕Aristotle: Rhetorik, übersetzt von Gernot Krapinger, Stuttgart: Philipp Reclam jun. GmbH & Co.,1999, 1400b 26-35.一個好的簡略三段論就是聽眾能自行補充被缺省的前提或結論的簡略三段論。如果聽眾無法自行補充缺省的前提或結論,就意味著簡略三段論在此不能適用,論證者應當將三段論中的前提與結論補充完整。可以想見,如果論證過程中允許存在一定的簡略三段論,而圖1中的L2-4、L3-4與L3-6能由聽眾自行補充(甚至在人們的日常思維中毋須補充),那么圖1中的論證結構就會變更為下圖:
圖2
假定3:論證存在結構層次。圖1、圖2說明,不同的論據在論證結構中的位置不一。根據這些論據(論斷)距離最終結論的遠近,我們可以將它們劃分為不同的層次。位于同一層次,支持同一論斷的論據為平行論據,如圖1中L2-1、L2-2、L2-3、L2-4;位于不同層次,支持同一論斷,存在遞進關系的論據為縱向論據,如圖2中的 L1-1、L2-3、L3-4。
假定4:論證存在終點。就理想狀態(tài)而言,每一個論斷的得出都應當有論據支持。但這樣一種設定不免陷入明希豪森的三重困境:無窮論證、循環(huán)論證與戛然而止?!?2〕有關論證困境的論述參見舒國瀅:《走出“明希豪森困境”》,載[德]羅伯特·阿列克西:《法律論證理論》, 舒國瀅譯,中國法制出版社2002年版。在第一重困境下,論證將永無休止地繼續(xù)下去,這不符合司法活動的效率原則;在第二重困境下,之前出現(xiàn)過的結論成為后續(xù)論證的論據,從而陷入循環(huán)論證,這不符合理性原則,也容易為法官擅權提供便利。因此,我們不得不在某一特定時刻人為地中斷論證。這雖然可以被視為第三重困境,但只要終止的節(jié)點選取得當,仍符合理性思維。在論證結構體系中最后出現(xiàn),位于結構圖末端的為末端論據,如圖2中的L2-2、L3-4等沒有進一步論據支撐的論據。理論上,末端論據應當是終止性論據,應當具備理性地終止論證的能力?!?3〕在佩雷爾曼等人的著作中,論證被視作一個從前提(論據)向結論(論斷)傳遞可接受性的過程,前提即為論證的起點。為了更好地顯示結論的支持結構,本文的結構圖采取倒置方式,將論證的起點作為終止性論據置于論證結構的末端。
法律論證理論已就各類判決理由及推論關系的證明力進行充分研究并給出各自的認定,其中的共識成為賦值的基礎。如圖1、圖2所示,最終的判決證成程度(即裁判文書說理強度)其實由位于結構圖最下端的末端論據的證明力層層傳遞而來。因此,初始賦值僅涉及末端論據的證明力與論據的支持力兩部分。具體賦值如下:
1. 末端論據的證明力賦值
評判末端論據的證明力,主要考察該論據是否具備不證自明的特質,換言之,可否作為終止性論據。根據末端論據與終止性論據相符合的程度,可以將末端論據劃分為三種類型:終止性論據,需要進一步論述的論據以及本身無效的論據。
終止性論據具有充分證明力,論證人不必就此提供進一步的論據。它可以分為確定終止性論據與推定終止性論據。前者主要包括法律明文規(guī)定、自然規(guī)律(定理)以及雙方共同承認的事實;后者則主要包括生效法律文件確認的事實、眾所周知的事實與主流意見。二者的區(qū)別在于,前者在任何情況下都可以起到結束論證的作用,而后者在面臨挑戰(zhàn)時必須繼續(xù)論證。需要進一步論述的論據不具有不證自明的特質,其內容或意義需要進一步的證明,證明力相對終止性論據較弱。本身無效的論斷則因不符合論證規(guī)范而不能稱為支持性論據,也不體現(xiàn)在論證結構中,其對判決的證成有害無益。最終,標準II形成了終止性論據賦值為1,需進一步論述的論斷賦值為0.5,本身無效的論斷不計分的賦值體系。
2. 論據的支持力賦值
論證理論通常認為,法律判斷的證成程度就是該判斷的可接受程度。法律判斷的可接受性系由論據的可接受性傳遞而來,因此,法律判斷的證成程度取決于論據的證明力和支持力,前者是指論據自身的說服力,后者則指論據能在多大程度上支持論斷。根據支持程度不同,論據的支持力可分為四種情形:必然性支持、不充分支持、或然性支持和不支持。其中,必然性支持指上層論斷是下層論據的必然結果,不充分支持指推論不符合簡略三段論要求,隱藏了本應列明的前提(通常為規(guī)范性前提),或然性支持指論斷與論據之間不具備必然關系,不支持則指下層論據與上層論斷之間不具備相關性。該四種支持關系的賦值設為1,0.75,0.5和0。
由于判決的證成程度是由末端論據層層推導的結果,論據的支持程度實際反映的是其傳遞可接受性的能力,由此,判決的證成程度其實是一個概率問題:即,在論據具備可接受性的概率為P(A),其提供支持的概率為P(S)的前提下,最終判決具備可接受性的概率是多少。概率統(tǒng)計理論為此提供了基礎支持。
標準II以貝葉斯網絡為原型,主要采取乘法計算判決證成程度。貝葉斯網絡是基于推理的圖形化網絡,該網絡中的每個節(jié)點(即箭頭)代表因果關系,且每一因果關系都是獨立的。換言之,假設A1→A2→A3→A4,其中A1能夠推出A2,與A2推出A3、A3推出A4沒有關系。因此,A1,A2,A3,A4共同存在的幾率為:
A1推出A2的幾率 × A2推出A3的幾率× A3推出A4的幾率×初始因果關系A1為真的幾率
將此公式代入圖2就可以清晰地看到,圖2中L1-1的可接受程度取決于L3-4自身的證明力(可接受性),以及L3-4對L2-3,L2-3對L1-1的支持程度。因此,在L1-1只有L2-3一個論據的情形下,其可接受程度的計算公式如下:
然而,正如圖2所示,L2-3并非L1-1的唯一論據,L1-1其實由L2-1,L2-2和L2-3共同支持。此時,運用除法的平均值和運用加法的全概率計算法等都有可能被納入,這取決于裁判文書的具體類型。
2017 調查系首次大規(guī)模運用前述評價模型對判決書論證質量進行量化評價。調研過程及結果表明,裁判文書說理的量化評價完全可行。
首先,2017調查實現(xiàn)了對全部受檢樣本的說理重構,以結構圖的形式梳理了受檢判決書的論證思路,并按上文的計算方式進行評分。單個樣本的具體計算過程如下圖示:
圖3
其次,2017調查組對調查員進行為期1個月的培訓,以小組討論的形式反復校驗評價標準的適用過程,盡量消除調查員主觀因素的影響。通過比照各調查員的給分過程和給分結果發(fā)現(xiàn),大多數調查員往往就相同判決書的論證質量給出相同評分。
再次,2017調查組設計的兩套量化評價機制呈現(xiàn)出相近的得分結果。2017調查組設計的標準I是一套內含3項一級指標、7項二級指標、20項三級指標,滿分為100分的評分表。調查組抽選了23份判決,同時適用標準I、II進行評估,結果發(fā)現(xiàn),大部分判決的評分結果趨同。〔14〕為方便比較,課題組將標準II的得分全部乘以100,換算為百分制。兩套標準的評分趨向基本一致,23個案例中僅有6個案例沒有實現(xiàn)同向波動。具體如下圖示:
圖4
不止如此,如下圖所示,大部分案件的分差都在10分以內。
圖5
最后,2017調查組的量化評價結論與以往的質性評價結論一致。通過統(tǒng)計受檢樣本的失分點,調查組對北京市判決書論證存在的問題進行了總結,指出北京市判決書寫作存在論證思路不清晰、論據運用不適當、法律依據不完整等問題。這與許多專家學者根據直觀的經驗觀察得出的結論一致?!?5〕鄒碧華:《要件審判九步法》,法律出版社2010年版,第156-158頁。
2017 調查獲得的基礎數據為評價北京市判決書的說理水平提供了客觀依據,為過往專家學者對于判決書說理給出的評價提供了數據佐證。然而,越是依賴大數據,越須警惕數據的可靠性。2017調查雖然完成了對全部受檢樣本的評分,但調查過程中出現(xiàn)的插曲折射出影響裁判文書說理評分可靠性的三大因素:評價標準、計算方法和調查員。
評價標準直接反映評價人的說理理念。在司法機關尚未頒布統(tǒng)一的說理規(guī)范之前,評價標準只能是評價者基于自己的理解作出,量化評價的結果可能受到評價者主觀偏好的影響。2017調查采用的兩套評價標準均經歷過數十個版本的迭代。每次更新后都會對樣本進行試評分,而評分結果每次都有不同。以標準I為例,標準I涵括20個三級指標,其中一項為“爭議焦點的寫明”。顯然,這一指標的設立是基于判決書應當列明案件爭議的假設。在現(xiàn)有裁判文書制作規(guī)范并未就此作出明確要求的情況下,23份接受標準I檢驗的樣本中有19份失分??梢韵胍?,如果刪除或變更這一指標,受檢樣本的得分將普遍上升。
鑒于此,最大程度保證評價標準的可靠性的方案是出臺統(tǒng)一的說理規(guī)范。將說理規(guī)范轉換為評價標準的路徑既可以避免“不教而誅”的指責,也可以實現(xiàn)評價標準的一致化,避免因評價者的主觀認知差異而產生迥然不同的評價結果。
選擇與評估對象相適應的算法是獲取準確數據的關鍵。2017調查過程中對計算方法的調適顯現(xiàn)出計算方法的重大影響。
在比照標準I、II的評分結果時,調查組發(fā)現(xiàn),計算方法是導致評分差異的三大原因之一?!?6〕另外兩個原因在于兩套標準的評估范圍和評估方式不同。就評估范圍而言,標準I評價的對象是判決書中所有與論證有關的要素,而標準II只關注論據以及論據之間的關系;就評估方式而言,標準I是就判決書原件進行評判,標準II則是對評估者重構的判決論證思路進行評價。標準I以加減法為基本計算方法,標準II則以乘除法為基本計算方法,這使得基于評估范圍、評估方式導致的評分差異被進一步放大。原因在于,加減法的運用將使得各項得分對最終得分產生直接的、不可修復的影響;而乘除法的運用則使得各項得分對于最終得分僅產生間接的、漸趨弱化的影響。
在適用標準II的過程中,調查組發(fā)現(xiàn),上文的平均值算法面臨與構成要件理論的潛在沖突。例如,就名譽侵權案而言,《最高人民法院關于審理名譽權若干問題的解答》(以下簡稱《名譽權解答》)第7條對侵害名譽權的構成要件進行了規(guī)定:“是否構成侵害名譽權的責任,應當根據受害人確有名譽被損害的事實、行為人行為違法、違法行為與損害后果之間有因果聯(lián)系、行為人主觀上有過錯來認定?!彼捻椧币徊豢桑瑯嫵梢那啡睂乐赜绊懛膳袛嗟淖C成。一律求平均值的做法不能體現(xiàn)對這一欠缺的否定性評價。為此,調查組將這一層級的論據的計算方法加以調整。不論判決書實際就幾項構成要件展開論述,都必須除以法定構成要件數。
由上,選擇適當的計算方法取決于兩方面要素:一是關于概率統(tǒng)計學的知識,二是擬評價的判決的實質法律依據。
2017 調查共招募20余名在讀法學專業(yè)學生作為調查員。通過觀察調查員的評分過程,調查組發(fā)現(xiàn)了兩項影響評分結果的因素。
其一是調查員的知識儲備與人生經驗。這項因素直接影響調查員對受檢判決書說理是否充分的判斷。標準II要求法官在判決書中列明其作出法律判斷的全部依據。雖然法官們在審案時的確沿循了相關司法解釋的思路,但判決書往往并未列明。2017調查選取的刑事判決書限定為非法集資犯罪,有15.6%的判決依據退賠情節(jié)減輕了被告人的刑罰,卻沒有引用《最高人民法院關于審理非法集資刑事案件具體應用法律若干問題的解釋》(以下簡稱《非法集資解釋》)第3條的規(guī)定?!?7〕該條規(guī)定非法吸收公眾存款罪被告人如能歸還所吸收的犯罪資金,法院可以將其作為量刑情節(jié)酌情考量。如果調查員并不了解《非法集資解釋》的內容,必然發(fā)現(xiàn)不了法官此處缺失。此外,調查員的人生經驗在其就法官論述,尤其是民事判決書中的論述是否充分,論據是否具有支持力,法官的論證是否構成簡略三段論等作出判斷時影響顯著。
其二是調查員的邏輯思維能力。標準II評估的是隱藏在判決書中的論證結構,這要求調查員具備較強的邏輯思維能力。以下是兩位調查員就同一判決書做的結構圖:
圖6
圖7
顯然,不同的調查員對判決理由的理解有所不同,在提煉判決理由并進行重構時出現(xiàn)偏差在所難免。
調查組主要通過培訓及小組討論的形式保證評價的一致性。調查組對調查員進行了為期一個月的培訓,期間向調查員講授論證的基本知識和評價機制的設計,重點講解評價方法。正式調查開始后,將調查員分為若干小組,小組定期匯總、討論調查員在評估個案中遇到的問題,必要時提交調查組討論。
總之,裁判文書說理的量化評價不能完全形式化,關于具體問題的探討必須深入實質,與法律專業(yè)知識相結合。鑒于此,裁判文書說理的量化評價工作必須委托給專業(yè)人士,并對專業(yè)人士進行說理評價的專門培訓。調查過程中還需建立小組討論等糾偏機制,促進評價的一致性。不過,大數據時代對精確度的依賴大幅減少?!俺思m結于數據的準確性、正確性、純潔度和嚴格度之外,我們也應該容許一些不精確的存在。數據不可能是完全對或完全錯的。當數據的規(guī)模以數量級增加時,這些混亂也就算不上問題了?!薄?8〕前引〔2〕,[英]維克托·邁爾·舍恩伯格、肯尼思·庫克耶書,第27頁。
2017 調查證明了量化評價裁判文書說理的可欲性、可能性、可行性,也指出了量化評價在可靠性方面值得注意的問題。盡管法律論證理論為量化評價提供了堅實的理論基礎,但這次調查也顯露出論證理論不足以支撐全部的說理評價。一方面,論證理論的一些預設可能在實踐中碰壁。例如,依據法律論證的融貫性原則,當論證的鏈條越長,論證的融貫性就越強,論證也就越為充分。〔19〕Robert Alexy and Aleksander Peczenik, “The Concept of Coherence and Its Signif i cance for Discursive Rationality”, 3 Ratio Juris (1990), pp. 132-134.但在實踐中,往往是層次少的論證容易得高分。評分結果表明,豐富的縱向論據與平行論據并不一定帶來理想的評價結果,反而容易陷入“言多必失”的魔咒。另一方面,在評價裁判文書說理的過程中,徒論證理論不足以自行,它還必須與訴訟制度、證據制度及司法實踐緊密結合,才有可能形成客觀、合理、現(xiàn)實可行的評價標準。