◎ 文 白建軍
白建軍是北京大學法學院教授、犯罪學研究專家,也是國內從事法律實證分析的旗幟性人物。白老師在一次分享中闡述了他進行法律實證分析的經歷、研究總結、教學培養(yǎng)和對未來的期待
從犯罪學轉向刑法,中間可能有一個橋梁就是實證研究。實證研究其實不是典型的刑法學方法,而是犯罪學研究方法。犯罪學研究對象就是犯罪問題,早有實證方法,所以一腳邁進刑法學是一種很自然的結果。我甚至覺得,實證研究還是整個刑法現象和社會學理論之間的橋梁。沒有實證研究的刑法社會學和沒有社會學理論的純刑法研究,即使相互參照,但基本上是隔岸相望。但自從有了實證研究,它們之間的界限就有可能打通了。
做實證研究于我而言,既有趣,又好玩,它有一種發(fā)現的樂趣,而不是研究各種理論。當然各種理論之間的比較和分析也是很有趣的,但是實證研究對客觀邏輯的發(fā)現是一種非常奢侈的享受。
比如,當你把50個國家的刑法典和年鑒數據都買齊了,你會發(fā)現這里不僅有刑法現象的各種數據,還有關于它們的政治、經濟、文化的數據。它們之間有什么關聯嗎?怎么把它們關聯起來?
于是,我就把50個國家的刑法分則中一萬三千多個罪名按照不同的維度和視角進行分類,一個罪名為一條,罪名后邊跟著各種變量:有的有死刑,有的沒有死刑,有的是暴力犯罪,有的是財產犯罪等等。然后,你就可以從不同的側面去觀察這些犯罪背后的關系。
比如,我發(fā)現一個“剪刀差”,這個關于犯罪率的研究發(fā)表在《中國社會科學》上。我發(fā)現,中國的犯罪率在20年間是往上升的,但重刑率,也就是5年以上有期徒刑、無期徒刑、死刑的適用率其實是在走低。這顯得有些不符合常理,因為看起來犯罪多了,應當是投入更多的懲戒資源,但重刑率卻走低,而且是法官群體20年間的集體選擇,背后的理性到底是什么?
實證的意義是揭示事實和真相,不能夠輕信任何所謂的定論、通說、“應然”和那些告訴應當怎樣的說法。所以,需要做“一些留得下的東西”。
那么,什么是“留得下的東西”?
像“我認為如何如何”的這種學問,以后肯定很少留得下。與其留不下來,還不如做一點“我發(fā)現”,做一點規(guī)范的實證數據和分析結果。這些規(guī)范數據和分析結果,在幾十年以后留得下,可以發(fā)現一段時期的犯罪率分析跟變量有哪些關聯,前人都用了哪些維度,他們的模型是怎么樣的,他們的系數是怎樣設定的。
其實,“留得住的東西”首先就看樣本。實證研究是觀察、挖掘、篩選和運用樣本說故事的藝術,基本是點石成金,“石”就是樣本,因為真理藏在大量事件背后。
樣本的規(guī)模,是首要關注的。在我看來,那種人為地、有選擇地篩選極端事件、個別事件而造就的所謂“典型”,其實是非典型事件。這種事情之所以不可靠,就在于它們不是使用真正的大樣本去分析。當然,大小樣本是相對而言,規(guī)模大一點會比較可靠。
目前存在的一種質疑是,像孔飛力的《叫魂》、費孝通的《江村經濟》、朱曉陽的《小村故事》雖是小樣本,但也都成為了經典,這些作品實際上也是一個田野點的大數據。如果作為樣本,要考慮到這些調查有多長的時間跨度和包含多少維度。
比如,喬布斯有錢,為了靶向給藥,他的癌癥分析覆蓋了全部基因序列測量,以便更有計劃、更科學地給藥。雖然喬布斯是一個個體,但也是大數據。
再比如,費孝通在英國出版《江村經濟》的時候,當時的英國編輯就讓他把名字改成《中國農村經濟》,費先生堅持不改,這就是實證研究的規(guī)則——看到什么說什么,看不見的和想象出來的事,都不是真實的。但誰能說費先生的《江村經濟》不具有代表性和可推論性呢?誰都不會這么說。所以這就是一個解釋樣本規(guī)模的典型例子。
第二點是隨機性。不一定是全樣本和大數據,但隨機生成的數據不可或缺。
第三點是要有多維度。用盡可能多的視角去觀察大樣本。維度越多,能運用的統計分析工具就越多,你就感覺越能夠在研究當中自由表達一些想法,進行信息挖掘。具體來說,我的樣本策略有幾個:有的是全樣本,像搜集全部國家的法條;有的是準全樣本,像搜集最高人民法院全部公開的數據和案例、
舉例來看,在裁判文書網出現之前,我就把所有最高人民法院出版單位的真實案例全都收集起來。比如,我曾搜集和統計過三峽工程的全部貪腐案件,能算出來這個工程八百億當中有百分之幾涉貪,這個數據中外矚目。這種樣本不是全國范圍,但也是一種局部意義上的全樣本,且很有意義。中國這種大型移民項目太多了,房地產、修機場、修路都要移民,移民就會出現錢財分配到村落的情況,產生貪腐的可能性。所以,一個大型項目就具有研究的代表性。
但是,研究中還要避免對小樣本抱有過分自信的傾向,夸大小樣本的作用。這樣會給人一種錯覺,以為現實世界就是這樣的。
比如,我們出去隨便問三個人:你贊成廢除死刑嗎?也許有兩個贊成,一個不贊成。如果研究者只是把這三個數據輸入SPSS,回歸、做圖、交互分析照樣可以得出結論。但是,這樣的結果能夠相信嗎?所以,我有一個判斷:好的研究不是定量與不定量的問題,不是做不做實證的問題,而是在不在乎事實與真相,在不在乎理論和實踐的深度關聯。
另外,應該以“世界的方法,中國的問題”的視角思考??茖W方法是通行的,但問題一定是不一樣的,就連美國的今天跟美國的昨天和明天的問題也不一樣。所以只要方法是通用的,任何時空的問題都是它的特定性。強調“體用相合”就是強調發(fā)現的樂趣,發(fā)現實證的方法和社會學理論、刑法學理論、犯罪學理論的融合。
在長期使用實證方法之后產生了一個信念——公正具有可檢驗性。在我看來,從大樣本的意義上說,任何審判結果的質量都是可以測量和檢驗的,進而可以推出任何裁判結果都是可預測的。這類似于韋伯談到的法律機器:這邊塞進事實,那邊出判決書。它的原理就在于公正是可檢驗的。而檢驗公正的方法其實也是“體用相合”的。
最近,許多大學也開始著手做法律實證研究,需要警惕的問題是“不要打著大樣本的旗號,最后出來的其實是小樣本”。這一點,我在《探索與爭鳴》剛發(fā)表的那篇文章,就提出了“從上千萬案例當中輸入若干個條件以后,找出來幾十個案例”,認為這就是跟當下案件最相近的案例,并稱之為“類案檢索”。
類案檢索其實埋藏著一個邏輯上的問題:憑什么那個案件那么判,你這個案件跟它很相似,所以你也得這么判?現在大家都不去想這個問題,都覺得通過大數據直接找出結果就是同案同判。但這里其實有一個巨大的邏輯空缺就是案外因素。
這里其實存在無法排除的幾個風險,特別是那些未被寫進判決書的因素。一是法官收受賄賂,所以這么判;二是法官有非常正當的理由,但不愿寫進判決書,這也是可能的。分析者無法判斷是否屬于這兩個因素之一且沒有任何根據。
我認為,“同等情況同等對待”這是“人人平等”的權利,但問題在于什么叫“同案”,是不是和檢索出來的那個案件一樣就視為“同案”,對此深有懷疑。在這個問題上,理論上說得最清楚的就是張志銘。他認為“同案”中的“同”,是法律基本事實的“同”,不是所有自然事實的“同”。
沿著這個基本思想,我們可以從技術上尋找突破口。也就是說,不局限于檢索出來的幾個案例的基本情況,而是把所有樣本的所有因素都輸進去之后再觀察裁判結果,這可以通過SPSS軟件來實現。
只要將全樣本作為尺度,任何一個個案的實際判決結果和預測出來的結果都會存在一個殘差,殘差越大,說明個案判決離譜的程度越大;殘差越小,說明它越符合法官集體理性選擇的結果。以所有案件為基數的時候,看殘差越小的預測才是越準的預測,這是我對“同案同判”的看法。
需要明確的是,通過大樣本統計出的結果,既不是法律本身,也不是對某個特定問題的回答,而是大量法官根據法律對真問題做出的回答。它已經不是規(guī)則本身的機器,而是規(guī)則和具體問題的結合,是理論和實踐的融合。把這種東西歸納和集中起來,數據才能成為人們作為判斷的依據。這才是大數據和大樣本的精髓。
那么,裁判文書網公布的幾千萬文書,是大樣本或大量數據嗎?我覺得,距離大數據本身還是有差距的。簡單的說,大數據就是全樣本。喬布斯身上所有基因的排列組合對喬布斯本人來說就是大數據和全樣本。
實際上我們拿到的大多數數據都不可能是全樣本,只能是大樣本。這時候就有幾個標準,一是是否具有可推論性,是否可靠;二是看它是人為挑選還是隨機形成。如果隨機抽樣得到的大樣本達到一定程度,那也是可靠的。
比如,儲槐植老師曾經猜測人口過億的大國不會廢除死刑。然后我就使用50個國家做了個驗證,發(fā)現有死刑的國家平均人口一億七千萬,而廢除死刑和沒有死刑的國家平均人口是兩千多萬,結果后來聯合國教科文組織全體會員國的數據也進一步支持了這一說法。
所謂樣本“大不大”,就是可信不可信,如果發(fā)布出來的東西是可信的,我覺得就可以了。甚至可能有一兩個國家沒參加統計,但還是可信的。