亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)對法學(xué)研究的些許影響

2015-01-21 00:35:15白建軍

中外法學(xué) 2015年1期

關(guān)鍵詞：研究

白建軍(北京大學(xué)法學(xué)院教授)

到底是相對封閉些，堅守自身特有的話語模式，還是適當(dāng)打開自己，接受其他學(xué)科的影響，一直以來都是法學(xué)研究時不時面臨的選擇。比如，經(jīng)濟學(xué)之于法學(xué)、社會學(xué)之于法學(xué)、政治學(xué)之于法學(xué)，等等?，F(xiàn)如今，大數(shù)據(jù)的概念來了。不管是不是情愿，法學(xué)可能又得有所準(zhǔn)備，思考如何回應(yīng)無處不在的大數(shù)據(jù)及其影響。

什么是大數(shù)據(jù)？有一本英國學(xué)者寫的《大數(shù)據(jù)時代：生活、工作與思維的大變革》，從中大概得知何為大數(shù)據(jù)。所謂大數(shù)據(jù)，有三個特征：全樣本、混雜性、相關(guān)性。其中，最重要的就是全樣本。做經(jīng)驗研究的都知道，當(dāng)樣本等于總體時，抽樣誤差為零。但是，由于財力、人力、分析技術(shù)等條件的限制，人們很難拿到全樣本。最早，國家為了知道納稅人的實際情況，就發(fā)展出各種消減、控制抽樣誤差的統(tǒng)計技術(shù)。而現(xiàn)在，隨著計算機技術(shù)的發(fā)展，人們驚訝地發(fā)現(xiàn)，即使面對海量的信息，獲取某類現(xiàn)象的全樣本也并非完全不可能?；谶@種全樣本，人們可能更好地了解現(xiàn)實社會中的各種真實。于是，根據(jù)這些真實去預(yù)測某種現(xiàn)象的發(fā)生概率，就更可靠了?？梢?，大數(shù)據(jù)并不在于樣本絕對量的大小，關(guān)鍵在于“全”。

比如，蘋果公司的喬布斯身患癌癥，嘗試了許多種治療方法，成為世界上第一個對自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此，他支付了高昂的費用。他得到的不是一個只有一系列標(biāo)記的樣本，而是包括整個基因密碼的數(shù)據(jù)文檔。對于一個普通癌癥患者，醫(yī)生只能期望他或她的DNA排列同試驗中使用的樣本足夠相似。而喬布斯的醫(yī)生能夠基于喬布斯的特定基因組成，按所需效果用藥。盡管他仍然死于癌癥，但這種獲得所有數(shù)據(jù)而不僅是有限樣本的方法還是將他的生命延長了好幾年。從這個意義上說，某個研究的樣本再大，哪怕達(dá)到上億，如果相對總體而言只是幾分之一，也只是大樣本而不是嚴(yán)格意義上的大數(shù)據(jù)。反過來，即使對一個個體，也可能進(jìn)行全樣本的大數(shù)據(jù)研究。

于是，我們理解了為什么說費孝通的《江村經(jīng)濟》、孔飛力的《叫魂》、吉爾茨的巴厘島人類學(xué)研究、朱曉陽的《小村故事》，盡管只聚焦某個點，但都盡最大可能收集與這個點有關(guān)的全部信息，因而也是某種意義上的大數(shù)據(jù)。例如，美國學(xué)者孔飛力是個漢學(xué)家，他研究專制權(quán)力如何凌駕于法律之上而不是受到法律的限制；官僚機制如何試圖通過操縱通訊體系來控制最高統(tǒng)治者；最高統(tǒng)治者如何試圖擺脫這種控制。對這樣的大題目，孔飛力也是從發(fā)生在清代乾隆時期浙江的“剪辮案”這個個案著手?！敖谢辍笔且环N民間迷信的妖術(shù)，換句話說，是一種能給他人帶來不利后果的超自然的行為方式。在1768年的春天到秋天這大半年的時間里，因這種行為而引發(fā)的恐慌蔓延至大半個中國，使得整個國家陷入動蕩不安?？罪w力發(fā)現(xiàn)，可以從小故事中發(fā)現(xiàn)大道理。于是，他在中國第一歷史檔案館收集研究了海量的文獻(xiàn)，至少有《朱批奏折》、《宮中上諭》、《宮中廷寄》、《附錄奏折· 法律·其他》、《上諭檔方本》，以及圖書集成局1886年版的《刑案匯覽》、薛允升的《讀例存疑》、臺北故宮博物院的《宮中檔乾隆朝奏折》、1899年版的《大清會典事例》、光緒年編輯的《大清十朝圣訓(xùn)》等等，最終寫出了《叫魂：1768年中國妖術(shù)大恐慌》一書。書中詳細(xì)觀察百姓、官僚、皇帝三個層面在叫魂案中的不同反應(yīng)，發(fā)現(xiàn)每個群體對叫魂事件都有基于自己的利益而做的重新解釋和塑造，并且這種再解釋很大程度上已經(jīng)遠(yuǎn)離了叫魂事件本身。可以說，叫魂事件是中國放大版的羅生門。我們從中看到的是犯罪定義者是如何從自身利益出發(fā)，千方百計對社會事實本身進(jìn)行符合自身利益的再定義，從而獲得有利于自己的結(jié)果。于是，犯罪定義過程就成了利益博弈過程，犯罪定義就成為一個并非純粹客觀的對于社會現(xiàn)實的反映，不可避免地帶有濃重的定義者的主觀色彩。

由此我想起，一位學(xué)者曾經(jīng)計劃深入到某個縣法院，收集該法院全部文革前的判決書進(jìn)行觀察，看看在沒有法律的情況下，法院是如何處理糾紛的。這無疑是一個極有價值的想法，盡管樣本范圍只限于一個縣，但在這個范圍內(nèi)，如果做到全樣本研究，那也是標(biāo)準(zhǔn)的經(jīng)驗研究，也是法律大數(shù)據(jù)研究。只可惜，這個計劃未能成行。

可見，我們對大數(shù)據(jù)來襲的恐懼或反感，可能與我們對大數(shù)據(jù)的誤解有關(guān)。形式上，大數(shù)據(jù)好像意味著大量的數(shù)據(jù)運算、統(tǒng)計甚至大型計算機的運用。其實，大數(shù)據(jù)的核心是尊重經(jīng)驗真實，敬畏經(jīng)驗真實，在乎經(jīng)驗的代表性。哪怕從一個小故事切入，只要收集足夠的信息，也可能得到大張力、大格局的結(jié)論，用來解釋、預(yù)測較大時間跨度和空間跨度的社會現(xiàn)象。正是由于不懂得這一點，我們一方面會排斥大樣本經(jīng)驗研究，同時會夸大、輕信個案甚至只是幾經(jīng)裁剪的教學(xué)案例的可推論性，以為理解了這種個案，也就理解了所有個案。可是，天下沒有兩片一樣的樹葉，法律現(xiàn)象的異質(zhì)性越大，某片樹葉的代表性以及某個案件的可推論性就越有限。除非你堅持認(rèn)為，天下所有的麻雀都沒有任何差異，那你只解剖一只麻雀當(dāng)然可以認(rèn)為知道了所有麻雀。而在法律世界中，如果說所有案例都一個樣，你自己信嗎？

說到樣本與數(shù)據(jù)，還有一點需要特別說明：大數(shù)據(jù)與大樣本的區(qū)別其實也是相對的。當(dāng)樣本大到一定程度，即使不完全等于總體，只要其代表性和可推論性已經(jīng)基本上不是問題了，就是近似的大數(shù)據(jù)。比如，谷歌基于5000萬條最頻繁出現(xiàn)的檢索詞條進(jìn)行分析推算，成功地早于官方兩周準(zhǔn)確預(yù)測到流感的傳播。那么，這個5000萬是全樣本嗎？未必，只能說是最大的樣本，其預(yù)測的可靠性其實也來自于這個樣本的巨大。所以，當(dāng)我們接受大數(shù)據(jù)時，切忌走到另一個極端，放棄所有大樣本研究，一味地追求全樣本。

用大樣本做研究，結(jié)論不一定是科學(xué)的；科學(xué)的結(jié)論也不都出自大樣本研究。但我還是偏好大樣本研究，也常常受益于大樣本研究。因為我相信，真理藏在大量事件背后。有人常會說，不用大樣本，不是一樣能得出你現(xiàn)在得出的結(jié)論嗎？只用一兩個故事，不是一樣能表達(dá)你想表達(dá)的思想嗎？沒錯。我不否認(rèn)，幸運的淘寶者一伸手就能抓到個金娃娃。從一兩個案例中，也可以提煉出某些宏大理論、原則或者規(guī)則。我不知道我有沒有這個運氣，但我知道我沒這個勇氣。不論怎樣，多觀察一些現(xiàn)象，得出結(jié)論所冒的犯錯誤的風(fēng)險總會小一點。

一次，一個學(xué)生想寫篇論文，題目是“從貪污罪看……犯罪學(xué)原理”。下面是我和這位學(xué)生的對話：

提問：貪污罪的確可以反映出……犯罪學(xué)原理。不過，刑法規(guī)定有幾百個犯罪，何以見得某某犯罪學(xué)原理可以從A罪中抽象出來，因而也一定能從B罪、C罪……等其他各種犯罪中抽象出來呢？換句話說，你為什么對幾百分之一的個罪足以代表所有犯罪抱有如此的自信或把握呢？

答辯：據(jù)我所知，著名社會學(xué)家費孝通先生的博士論文《江村經(jīng)濟》就是以一個鄉(xiāng)村的材料為樣本對中國農(nóng)村狀況的研究。

(好厲害！一個問題就惹出了費先生，要再問一個問題，恩格斯還不舉著《英國工人階級狀況》出來幫他理論？按照他的意思，費先生可以用一個江村代表中國農(nóng)村，我為什么不能用一個犯罪代表所有犯罪？)

提問：很好，你讀了不少書。的確，費先生的博士論文在倫敦大學(xué)通過的當(dāng)晚，他的導(dǎo)師就將其介紹給英國Routledge書局出版。書局的編輯拿到書稿后，還建議把書名《開弦弓，一個中國農(nóng)村的經(jīng)濟生活》中的“開弦弓”(村)和“一個”去掉，直接稱作《中國農(nóng)民的生活》呢！不過，我們現(xiàn)在看到的該書中文版，書名仍是《江村經(jīng)濟》，而不是“中國農(nóng)村經(jīng)濟”什么的。這是為什么呢？當(dāng)然，費先生能不能幫得了你，要看你怎么回答這樣一個問題：江村的確是中國農(nóng)村的一部分，貪污罪也的確是犯罪的一部分。問題是，江村與中國其他鄉(xiāng)村之間的關(guān)系，和貪污罪與其他犯罪之間的關(guān)系一樣嗎？

(我暗想，這可是第一個陷阱，看他怎么辦。為了證明用一個犯罪代表所有犯罪的合理性，他很可能回答說，兩個關(guān)系之間沒什么根本區(qū)別，都是部分與整體的關(guān)系。正因此，江村可以代表中國農(nóng)村，貪污罪也可以代表所有犯罪。言外之意，費先生做得，我為什么做不得。不過，他要真這么答就慘了，因為這將使他自己陷于一個被動境地，他沒辦法把“鄉(xiāng)村”與“個罪”這兩個分析單位完全不同的事物做簡單類比。這顯得多不嚴(yán)謹(jǐn)呀！果然，他非常審慎地繞開了這個陷阱。既沒有說兩者具有可比性，又沒有說兩者不具有可比性。)

答辯：這個，不一定，兩者既有相同點，又有不同之處。不過，費先生可是社會科學(xué)大家，嫻熟運用實證分析的研究方法研究許多社會問題，是我們每個學(xué)者的榜樣。

(你看，博士就是博士。不僅繞開了我設(shè)下的陷阱，還用費先生堵我的嘴——意思是別在費先生面前擺弄實證研究！不過，該竊喜的還指不定是誰呢。他已經(jīng)走近另一個陷阱。)

提問：你說的很好。也就是說，我們沒有根據(jù)說，江村與其他鄉(xiāng)村之間的關(guān)系，等同于貪污罪與其他個罪之間的關(guān)系。是，亦或不是？

答辯：嗯，是。

(因為真的太聰明，所以他已經(jīng)意識到被套牢，可憐的學(xué)生一臉的沮喪。)

提問：既然沒有足夠的根據(jù)，從江村與其他農(nóng)村之間的關(guān)系直接推論貪污罪與其他犯罪之間的關(guān)系，那你憑什么從一個貪污罪就抽象出那么大一個犯罪學(xué)理論呢？

……

我用這個例子是想說明，有的研究者對大樣本、大數(shù)據(jù)的偏見，源自于并不真正理解小樣本及個案研究。結(jié)果，在誤解大樣本研究的同時，也在誤用小樣本研究。

其實，我們生活中也常常見到缺乏樣本意識的例子。一個城市中有一家大醫(yī)院和一家小醫(yī)院。根據(jù)記錄，大醫(yī)院三天來每天接生的新生兒中，男女各占約50%。而那家小醫(yī)院三天來每天接生的新生兒中，恰巧60%是男孩，40%是女孩。這時，一對年輕父母盡管每天都夢想著生男孩，也不會僅僅根據(jù)這個統(tǒng)計數(shù)據(jù)就做出決定，到那家小醫(yī)院產(chǎn)子。因為誰都知道，出生率的性別比是大約男女各占50%。大醫(yī)院每天接產(chǎn)數(shù)量大，所以樣本性別比更可能接近實際比例。但是，可以設(shè)想，如果這對夫婦并不知道這個一般的統(tǒng)計數(shù)據(jù)，或者說，如果他們腦子里沒有這個先驗概率，我們還敢肯定他們不選擇小醫(yī)院產(chǎn)子嗎？這樣提問有點可笑，因為他們不會蠢到分不清懷孕在先還是產(chǎn)子在先。但很難說類似的低級錯誤不以高級的形式發(fā)生在我們中間。

當(dāng)然，要想證明一種理論，人們隨時可以找到一兩個事例作為支持這種理論的證據(jù)，這種個別事例也是一種意義上的真實。但嚴(yán)格地說，個別事例作為證據(jù)，不僅可能隨時遭遇反例，而且其誤差是不可控的。因此，只有一兩個事例作為證據(jù)的所謂理論，很可能只能是一種意見、猜想或者判斷，無法作為規(guī)律性認(rèn)識為人所接受，更不能作為社會政策制定過程的決策基礎(chǔ)。因為個別事件可能處在正態(tài)分布中的任何一個位置上，既可能碰巧代表大量同類事件的集中趨勢，也可能只是極端事件。從這個意義上說，實證分析所追求的客觀真實來自符合科學(xué)抽樣程序性、規(guī)模性和可重復(fù)性要求的樣本。

有學(xué)者就指出：大數(shù)定律保證非常大的樣本確實能高度代表它從中抽出的總體。而如果一個研究人員信守小數(shù)律，就會對在小樣本基礎(chǔ)上得出的結(jié)論的有效性抱有夸大的自信。因為小數(shù)律的信徒是這樣從事科學(xué)研究的：①在檢驗研究假設(shè)時，他把賭注放在小樣本上，而未意識到他的失敗機會非常之高。他高估了檢驗力。②他對于初期的趨勢(如最早的幾個被試的數(shù)據(jù))以及觀察到的模式的穩(wěn)定性(如顯著結(jié)果的數(shù)量和屬性)，有過分的自信。他高估了結(jié)果的顯著性。③在評價自身或別人的重復(fù)實驗的時候，他對顯著結(jié)果的可重復(fù)性，抱有非分的高預(yù)期。他低估了置信區(qū)間的范圍。④他很少將實際結(jié)果與預(yù)期間的偏離歸結(jié)為樣本的變異性，因為對于任意的偏差，他都能發(fā)現(xiàn)因果“解釋”?？傊?，人們對樣本的直覺往往會產(chǎn)生不適當(dāng)?shù)暮蠊?/p>

當(dāng)然，也許有人會說，這里所說的是發(fā)現(xiàn)真理的過程，而不是敘述真理的過程。發(fā)現(xiàn)真理時，當(dāng)然要多觀察些現(xiàn)象，得到更多個案的數(shù)據(jù)支持。而敘述真理時，樣本就不需要太多。當(dāng)你在課堂上講授故意殺人罪的概念時，沒必要歷數(shù)幾百個故意殺人案甚至窮盡所有個案后再告訴學(xué)生什么是故意殺人罪。沒錯，這其實正是我要說的。研究性論文或?qū)Ｖ皇墙炭茣皇菍W(xué)習(xí)心得或者綜述。在教科書中，可以例舉少量故事說理。但通過一項研究，你要告訴人們你發(fā)現(xiàn)了什么，而不是告訴人們你認(rèn)為怎樣。既然如此，怎么能剛看見一棵樹就宣告說，我發(fā)現(xiàn)了一片森林？

由此還可以看出，就是對定量研究而言，樣本規(guī)模不同，研究結(jié)果也可能不同。關(guān)鍵不在于定量不定量，而在于是否對經(jīng)驗(集體經(jīng)驗、群體經(jīng)驗)心懷敬畏。我們可以掰著手指做樣本，把十個手指的特征輸入SPSS，照樣可以運行交互分析、T檢驗、方差分析、多元線性回歸、降維分析等幾乎所有量化分析過程，然后用圖表、餅圖、線圖等形式熱熱鬧鬧地表現(xiàn)出來。我們還可以上街隨便找來三個路人，問他們是否贊成廢除死刑。然后我們照樣可以報告說，有66.6666%的民眾贊成或反對廢除死刑。這都是在做量化分析，但都是對經(jīng)驗的褻瀆，是對現(xiàn)實生活的褻瀆，是對科學(xué)的褻瀆，也是對學(xué)者這個稱謂的褻瀆。換個角度看，我們不能說，一百個樣本中的經(jīng)驗才是經(jīng)驗，一個樣本中的經(jīng)驗就不是經(jīng)驗。更不能說，我的經(jīng)驗才是經(jīng)驗，你的經(jīng)驗就不是經(jīng)驗。關(guān)鍵在于，誰報告的經(jīng)驗相對更加接近生活現(xiàn)實的總體。

這樣想問題便不難理解大樣本研究的幾個好處：第一，只要抽樣過程符合隨機性要求，樣本越大，抽樣誤差就越小，由此所得結(jié)論偏離現(xiàn)實世界的可能性就越小。理論上說，當(dāng)樣本等于總體時，誤差為零。第二，樣本越大，所含信息、類型就越豐富，所研究的對象就能以更多的方式展現(xiàn)自己。通常，人們對定量分析有一個誤解，認(rèn)為量化過程對現(xiàn)象進(jìn)行壓縮處理，脫水后的研究對象失去了生氣，面無血色。的確，這正是小樣本量化分析可能有的效果。但隨著樣本的增大，人們可以靈活運用各種觀察手段，看到事物更多的側(cè)面。大樣本用得好，可以讓研究對象表情豐富，百般風(fēng)情；而用極端個案說事，展現(xiàn)的往往是說故事者自己。極端個案的確有血有肉，生動具體。但是，由于無法控制某個極端個案在多大程度上代表了總體，因此，也無從知道這種用極端個案說故事的方法是否掩蓋、侵吞甚至扭曲了多少客觀真實。第三，樣本越大，可供選擇的分析工具也就越多，其結(jié)論也越可信。如果只有二、三十個樣本，就算用上多元線性回歸，統(tǒng)計軟件也會報告結(jié)果，但這樣的結(jié)果連你自己都不信。換句話說，樣本越大，可選的分析工具越多，你就越自由。難道，你不想要這種自由嗎？

當(dāng)然，我們不能無條件地說，樣本越大越好。我們把某個省的全部案件都拿來分析，有幾十萬，夠大了吧？但我們還是不能把結(jié)論直接推論到全中國。樣本是否具有代表性，還要看抽樣程序是否規(guī)范。

抽樣是從研究總體中抽取部分單位加以研究，并用所得結(jié)果推斷總體特征的方法，是實證研究的基本功之一。之所以需要抽樣，首先因為樣本與總體是個別與一般的關(guān)系。研究總體，沒有必要對總體中每個單位進(jìn)行逐一調(diào)查。只要符合統(tǒng)計要求，可以認(rèn)為樣本特征近似于總體特征。第二，由于需要研究的總體巨大，受人力、財力所限，除國家實施的大規(guī)模人口普查以外，不可能逐一調(diào)查所有研究對象的個體。所以，不僅可以借助樣本觀察總體，也只能借助樣本觀察總體。第三，被研究的總體本身具有程度不同的異質(zhì)性，只抽取其中一個單位，不可能代表總體中其他未被抽取單位的情況。因此，用來觀察總體的樣本盡管不可能太多，但也不能過少。過多的樣本耗費調(diào)查資源，過少的樣本可能產(chǎn)生過大的抽樣誤差。

具體來說，抽樣分為隨機抽樣(概率抽樣)和非隨機抽樣(非概率抽樣)兩種。在隨機抽樣中，總體中的每個單位都有同等機會被抽取成為樣本。其特點有四：第一，按隨機原則抽取而非隨意抽取。第二，每個單位被抽取的概率是已知的，而非未知的。第三，由樣本推論到總體的可靠程度可計算，可控制。第四，抽樣前，對總體邊界已知。隨機抽樣分為簡單隨機抽樣、分層抽樣、系統(tǒng)抽樣、聚類抽樣等等。與隨機抽樣不同，非隨機抽樣是無法精確給出抽樣誤差因而無法將研究結(jié)論直接推論到研究對象的總體的抽樣方法。非隨機抽樣包括方便抽樣、立意抽樣等等。抽樣技術(shù)的關(guān)鍵，就在于盡可能減少誤差，控制誤差，抽出真正代表總體的樣本。

作為社會現(xiàn)象的一部分，法律現(xiàn)象與自然現(xiàn)象之間有著顯著區(qū)別。法是由人制定的，法是由人實施的，法是由人違反的。所以，法律現(xiàn)象有著太多的異質(zhì)性和不確定性。但另一方面，法律現(xiàn)象的總體又往往巨大無比，每年法院處理的各類案件幾百萬件，每個達(dá)到一定責(zé)任年齡的公民都是潛在的違法者，所有公民都是潛在的被害人。那么，法學(xué)研究該如何迎接大數(shù)據(jù)的到來，至少做出一些像樣的的大樣本研究呢？

首先，全樣本選題。在法律現(xiàn)象的研究中，并不是所有問題的對象總體都是十三億人或者百萬、千萬計的案件。比如，截止到2006年6月《刑法》修正案(六)通過頒布以前，中國《刑法》規(guī)定有425個罪名，截止到2003年12月23日，最高司法當(dāng)局發(fā)布的刑事司法解釋共有1233個，某一筆專項資金總額400億元，涉及該項資金的全部職務(wù)犯罪案件共幾百件。這些，都是力所能及的全樣本選題。此外，某個行業(yè)的行業(yè)性規(guī)范、某個部門的執(zhí)法活動等等，也都可以成為全樣本研究的選題。除了這些以全國范圍為總體的選題以外，還可以將有代表性的某個省、某個市、某個地區(qū)，甚至某個縣、鄉(xiāng)的全部某類案件、某些司法文書、判決結(jié)果、政策文件等確定為全樣本研究的對象。此類全樣本雖非全國范圍的全樣本，但為什么研究對象及其結(jié)論一定要能推論到全國才算是科學(xué)呢？為什么學(xué)術(shù)活動一定要左右于一個中心才算是觸摸到了真理呢？其實，這本身就是一種關(guān)于學(xué)術(shù)研究的誤解，一種盲目追求宏大敘事而不屑于細(xì)微具體研究的浮躁。既然如此，法律實證研究中豐富的全樣本選題，是盡可能降低抽樣誤差的一個較好對策。

其次，合理確定抽樣框架。所謂抽樣框架，就是一份與總體非常相似的用來選取具體樣本的名單。例如，1936年是美國的選舉年，民主黨競選人是競選連任的總統(tǒng)富蘭克林·羅斯福，共和黨的競選人是來自堪薩斯州的阿爾弗·蘭登。為了預(yù)測誰將在選舉中獲勝，美國的《文摘》雜志進(jìn)行了一次美國歷史上規(guī)模最大的民意測驗，它調(diào)查了240萬美國人的選舉傾向。根據(jù)調(diào)查結(jié)果，《文摘》雜志宣布，蘭登將以57%對43%擊敗羅斯福。而實際的選舉結(jié)果卻是，羅斯福以62%對38%獲得大勝。預(yù)測失敗的問題就出在抽樣框架上。《文摘》雜志總共寄出了1000萬份調(diào)查表，地址與姓名大都取自于電話簿與汽車俱樂部會員名單。但在1936年，大多數(shù)美國人沒有安裝電話，很多人也沒有汽車。這樣，低收入的窮人就被完全排斥在調(diào)查之外，而正是這部分窮人支持了羅斯福，造成了同樣是美國歷史上規(guī)模最大的抽樣誤差。這個例子中的抽樣框架就是《文摘》所選定的電話簿和汽車俱樂部會員名單。從抽樣原理來看，這個抽樣框架與美國全體選民這個總體之間的相似性程度不大，所以才會預(yù)測失敗。

由此也可以看出，關(guān)鍵不在于樣本的數(shù)量大小，也不在于抽樣框架是出于何種目的確定的，而在于根據(jù)某個框架所獲得的樣本與總體之間是否相似。而所謂是否相似，其實又有多個可能的側(cè)面：年齡、性別、職業(yè)、文化，還是社會地位？只要對既定研究目的而言，抽樣框架與總體之間具有相似性即可，而兩者不可能在所有方面都滿足相似性要求。調(diào)查者所以選定電話簿和俱樂部名單，也是因為他們真的相信這個框架的選舉意向能代表總體。否則，他們?yōu)槭裁匆幸庵圃熳约旱念A(yù)測失敗呢？所以，當(dāng)無力于全國普查時，我們可以根據(jù)研究目的的要求確定一個抽樣框架，假定這個抽樣框架可能代表總體，然后或者基于這個框架進(jìn)行全樣本研究，或者在這個框架內(nèi)進(jìn)行隨機抽樣。這樣，研究結(jié)論能否推論到總體首先可以基本上排除主觀偏好或者其他人為因素對樣本獲取過程的影響，而剩下的問題只是人們在多大程度上相信這個框架與總體之間的相似性，或者說兩者之間的差異在多大程度上可能對研究結(jié)論向總體推論構(gòu)成根本性影響。

例如，我們不可能首先獲得全國所有刑事案件的名單，然后據(jù)此進(jìn)行隨機抽樣，但我們可以把來自最高法院各業(yè)務(wù)庭、研究機構(gòu)、出版單位、網(wǎng)站等權(quán)威機構(gòu)公開發(fā)布、發(fā)表的全部真實判決設(shè)定為抽樣框架，并稱其為“示范性案例”，然后抽取其中的某類案件進(jìn)行全樣本研究。這種案例的代表性在于：第一，由于這些案件來自全國各地，由各地各級法院選送，具有對全國總體的代表性；第二，由于是最高法院各權(quán)威機構(gòu)認(rèn)可并公開的案件，因而具有對司法實踐的指導(dǎo)性；第三，由于其中絕大部分案件屬于生效判決，因而具有一定的有效性；第四，由于各地選送案件以及最高法院各單位選取案件時充分考慮到案件類型和性質(zhì)的多樣化，因而對學(xué)術(shù)研究而言具有一定的標(biāo)志性；第五，由于是公開發(fā)布的案件，因而對公民行為而言具有相當(dāng)?shù)囊?guī)范性、模范性和可預(yù)測性；最后，由于提取了這個范圍內(nèi)的幾乎全部某類案例，將抽樣誤差降低為零，因而具有研究依據(jù)上的準(zhǔn)確性。其實，如果可能將總體的所有特征一模一樣地微縮到某個隨手可得的抽樣框架中的話，無異于對總體完成了一次嚴(yán)格的隨機抽樣，并以其結(jié)果為抽樣框架進(jìn)行二次抽樣，其實這已經(jīng)不是在選擇抽樣框架而是進(jìn)行多段抽樣了。

再次，避免盲目放大樣本容量。一般而言，研究總體本身的異質(zhì)性程度越大，需要分析的變量的個數(shù)越多，則所需要的樣本規(guī)模就越大。但是，一個占總體5%的樣本，未必要比一個只占總體1%的樣本要好上5倍。有研究證明，在總體小于1000的情況下，如果樣本占總體的比例低于30%，那么，樣本誤差將會很大。但是，當(dāng)總體的規(guī)模增加時，樣本比例的作用趨向于越來越小，當(dāng)總體為10000時，我們只需有10%的樣本比例，當(dāng)總體為150000時，1%的樣本比例就已經(jīng)足夠。當(dāng)總體為1000萬或者以上時，樣本比例的增加實際上已經(jīng)不起作用。換言之，樣本規(guī)模絕對數(shù)值的重要性大大超過樣本占總體比例的重要性。

最后需要說明，最高法院已經(jīng)從2013年起開通了裁判文書網(wǎng)，公開了幾乎全部司法判決文書。盡管在技術(shù)上還有待改進(jìn)，但這件事的意義之大，超出了許多人的想象。至少今后我們不能再說，拿不到全樣本，所以無法做大數(shù)據(jù)?，F(xiàn)在的問題是，司法當(dāng)局已經(jīng)為法律大數(shù)據(jù)研究提供了相應(yīng)的條件，學(xué)界能跟上嗎？