本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“刑事案件事實(shí)認(rèn)定中的經(jīng)驗(yàn)法則研究”(項(xiàng)目編號(hào):19BFX091)的階段性成果。
內(nèi)容摘要:囿于海量基礎(chǔ)數(shù)據(jù)的混亂性與算法的專(zhuān)業(yè)性、復(fù)雜性,大數(shù)據(jù)證據(jù)的真實(shí)性審查難以適用傳統(tǒng)證據(jù)的審查規(guī)則,而處于無(wú)規(guī)則可循的窘境,亟需建構(gòu)符合其特性的真實(shí)性審查規(guī)則,以實(shí)現(xiàn)其證明價(jià)值。具體來(lái)講,作為基礎(chǔ)的海量數(shù)據(jù)在“數(shù)量”上需滿(mǎn)足采集全量性規(guī)則,確保分析挖掘出的潛在信息、規(guī)律的正確性和穩(wěn)定性。同時(shí),在“質(zhì)量”上需滿(mǎn)足大數(shù)據(jù)整體真實(shí)性規(guī)則,避免虛假數(shù)據(jù)產(chǎn)生虛假結(jié)果,減損大數(shù)據(jù)證據(jù)的真實(shí)性;作為分析工具的算法模型應(yīng)具備準(zhǔn)確性、適配性與可解釋性,滿(mǎn)足法律與技術(shù)雙重面向的科學(xué)性要求,為大數(shù)據(jù)證據(jù)的真實(shí)性提供支撐;從印證的普遍適用性、數(shù)據(jù)經(jīng)驗(yàn)的強(qiáng)客觀性以及間接證據(jù)定罪的規(guī)范要求來(lái)看,建構(gòu)分析結(jié)果的可印證性規(guī)則存在充足理由。通過(guò)引入故事模型理論,可發(fā)現(xiàn)分析結(jié)果的可印證性規(guī)則包括內(nèi)部面向的基礎(chǔ)數(shù)據(jù)印證與外部面向的分析結(jié)果印證,其中前者為其他規(guī)則提供保障,后者契合大數(shù)據(jù)證據(jù)的證明邏輯。
關(guān)鍵詞:大數(shù)據(jù)證據(jù);全量性;科學(xué)性;內(nèi)外部印證
中圖分類(lèi)號(hào):D925.2 """"""文獻(xiàn)標(biāo)識(shí)碼:A ""文章編號(hào):2095-7076(2024)01-0069-14
DOI:10.19563/j.cnki.sdfx.2024.01.006
近些年來(lái),大數(shù)據(jù)、人工智能等技術(shù)廣泛應(yīng)用于司法證明領(lǐng)域,并通過(guò)算法模型的數(shù)理邏輯替代人的主觀經(jīng)驗(yàn)進(jìn)行事實(shí)推理,引發(fā)了司法證明的“數(shù)智化”變革。大數(shù)據(jù)證據(jù)的司法運(yùn)用便是其表現(xiàn)之一。一般認(rèn)為,大數(shù)據(jù)證據(jù)是指通過(guò)數(shù)據(jù)清洗(Data cleaning)、數(shù)據(jù)挖掘(Data mining)、數(shù)據(jù)碰撞(Data collision)等算法運(yùn)算,揭示凌亂無(wú)章的海量數(shù)據(jù)之間相關(guān)關(guān)系的具有“價(jià)值增值”①" ①此處的“價(jià)值增值”是指通過(guò)算法對(duì)海量基礎(chǔ)數(shù)據(jù)二次加工后可挖掘出潛在信息和規(guī)律,而這些信息和規(guī)律使得大數(shù)據(jù)證據(jù)具有獨(dú)立的、超越海量基礎(chǔ)數(shù)據(jù)的證明價(jià)值。這種“價(jià)值增值”與美國(guó)司法中的“鑲嵌論”契合,屬于典型的1+1>2。的分析性材料。解析大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu),可以概括為“采集數(shù)據(jù)—設(shè)計(jì)算法—結(jié)果表達(dá)”。大數(shù)據(jù)證據(jù)僅指數(shù)據(jù)分析的“結(jié)果”,即“海量電子數(shù)據(jù)凝練的規(guī)律性認(rèn)識(shí)”②" ②劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評(píng)論》2019年第1期,第25頁(yè)。,而分析報(bào)告是大數(shù)據(jù)證據(jù)最主要的表現(xiàn)方式。從證據(jù)到定案根據(jù)的轉(zhuǎn)變,需要經(jīng)過(guò)審查判斷環(huán)節(jié),而真實(shí)性是證據(jù)審查判斷的重心,大數(shù)據(jù)證據(jù)亦概莫能外。為了實(shí)現(xiàn)證據(jù)真實(shí)性的實(shí)質(zhì)性審查,立法者為傳統(tǒng)證據(jù)設(shè)計(jì)了專(zhuān)門(mén)的審查規(guī)則,如物證、書(shū)證的最佳證據(jù)規(guī)則、證人證言的傳聞證據(jù)規(guī)則、電子數(shù)據(jù)的鑒真規(guī)則等。③" ③《最高人民法院關(guān)于適用〈中華人民共和國(guó)刑事訴訟法〉的解釋》(法釋〔2021〕1號(hào))第83條、第84條規(guī)定了物證、書(shū)證的最佳證據(jù)規(guī)則,第91條規(guī)定了證人證言的傳聞證據(jù)規(guī)則,第110條規(guī)定了電子數(shù)據(jù)的鑒真規(guī)則。與傳統(tǒng)證據(jù)相比,大數(shù)據(jù)證據(jù)的真實(shí)性審查更為復(fù)雜,其不僅要關(guān)注證據(jù)本身的真實(shí)性,還要考慮作為基礎(chǔ)的海量電子數(shù)據(jù)的真實(shí)性,以及分析加工的算法模型的科學(xué)性。毫不夸張地說(shuō),基礎(chǔ)數(shù)據(jù)的真實(shí)性與算法模型的科學(xué)性在一定程度上決定著大數(shù)據(jù)證據(jù)的可靠性。囿于海量基礎(chǔ)數(shù)據(jù)的混亂性與算法的專(zhuān)業(yè)性、復(fù)雜性,大數(shù)據(jù)證據(jù)的真實(shí)性審查難以完全適用于傳統(tǒng)證據(jù)的審查規(guī)則,而處于無(wú)規(guī)則可循的窘境,有必要建構(gòu)符合大數(shù)據(jù)證據(jù)特性的真實(shí)性審查規(guī)則,以裨益于大數(shù)據(jù)證據(jù)在案件事實(shí)認(rèn)定中證明作用的充分發(fā)揮。
事實(shí)上,大數(shù)據(jù)證據(jù)獨(dú)特的生成結(jié)構(gòu),是其無(wú)法完全適用現(xiàn)有審查規(guī)則的根本原因。欲實(shí)現(xiàn)大數(shù)據(jù)證據(jù)真實(shí)性的實(shí)質(zhì)性審查,充分發(fā)揮其證明價(jià)值,必須明確一切可能影響其真實(shí)性的要素,而后在此基礎(chǔ)上建構(gòu)真實(shí)性審查規(guī)則。大數(shù)據(jù)證據(jù)真實(shí)性審查規(guī)則是指符合大數(shù)據(jù)證據(jù)生成結(jié)構(gòu),能夠有效審查其內(nèi)容客觀真實(shí)性的證據(jù)規(guī)則。因?yàn)榛A(chǔ)數(shù)據(jù)、算法模型、分析結(jié)果是影響其真實(shí)性的三大要素,本文認(rèn)為大數(shù)據(jù)證據(jù)真實(shí)性審查規(guī)則應(yīng)包括采集全量性規(guī)則、大數(shù)據(jù)整體真實(shí)性規(guī)則、算法科學(xué)性規(guī)則及分析結(jié)果的可印證性規(guī)則。其中,前兩項(xiàng)子規(guī)則用于審查基礎(chǔ)數(shù)據(jù)的數(shù)量與質(zhì)量以保障基礎(chǔ)數(shù)據(jù)的真實(shí)性,后兩項(xiàng)子規(guī)則分別用于審查算法模型的科學(xué)性與分析結(jié)果的真實(shí)性。
一、數(shù)據(jù)“量”層面的采集全量性規(guī)則
如前述,大數(shù)據(jù)證據(jù)是海量數(shù)據(jù)經(jīng)過(guò)機(jī)器算法運(yùn)算形成的結(jié)論,故其真實(shí)性與海量數(shù)據(jù)的真實(shí)性及機(jī)器算法的科學(xué)性休戚相關(guān)。其中,海量數(shù)據(jù)的真實(shí)性應(yīng)從兩個(gè)方面把握:一是數(shù)據(jù)的“全量”,即數(shù)據(jù)在數(shù)量上能否滿(mǎn)足分析樣本的需要;二是數(shù)據(jù)的“質(zhì)量”,即海量數(shù)據(jù)是否滿(mǎn)足整體上的真實(shí)。從數(shù)據(jù)的“全量”出發(fā),可得到大數(shù)據(jù)證據(jù)真實(shí)性審查規(guī)則的一個(gè)子規(guī)則,即采集全量性規(guī)則。從語(yǔ)義學(xué)角度看,“全量”是“量”范疇的子集,指最大范圍的量的整體。①" ①王銘子:《現(xiàn)代漢語(yǔ)全量范疇及其教學(xué)研究》,華中師范大學(xué)2018屆博士學(xué)位論文,第1頁(yè)。具體到基礎(chǔ)數(shù)據(jù)而言,采集全量性規(guī)則要求取證人員收集盡可能多的數(shù)據(jù),達(dá)到現(xiàn)有狀況范圍內(nèi)的全樣本。事實(shí)上,學(xué)界早就對(duì)基礎(chǔ)數(shù)據(jù)的海量特征形成共識(shí),如馬明亮教授指出海量數(shù)據(jù)是大數(shù)據(jù)證據(jù)的構(gòu)成要素之一。②" ②馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學(xué)》2021年第6期,第648頁(yè)。但以往學(xué)者未對(duì)“海量”的具體意蘊(yùn)作出界定。而且在實(shí)踐中,如何判斷基礎(chǔ)數(shù)據(jù)的“海量”成為困擾大數(shù)據(jù)證據(jù)運(yùn)用的難題。鑒于此,筆者提出采集全量性規(guī)則,主張基礎(chǔ)數(shù)據(jù)的“海量”需達(dá)到“全量”。
(一)“全量”采集數(shù)據(jù)的必要性
或許有觀點(diǎn)提出疑問(wèn),為什么大數(shù)據(jù)證據(jù)的真實(shí)性需要滿(mǎn)足采集全量性規(guī)則?通常來(lái)講,證據(jù)數(shù)量與證據(jù)質(zhì)量(真實(shí)性)無(wú)實(shí)質(zhì)關(guān)聯(lián),證據(jù)的真實(shí)性需作個(gè)別化、具體化判斷。該質(zhì)疑建立在傳統(tǒng)證據(jù)的認(rèn)識(shí)之上,具有一定的合理性,但對(duì)于大數(shù)據(jù)證據(jù)卻難以成立,后者的作用機(jī)制決定了這一問(wèn)題的答案。從大數(shù)據(jù)證據(jù)的兩種作用方式來(lái)看,其中通過(guò)將犯罪嫌疑人的數(shù)據(jù)與為偵查取證、刑罰執(zhí)行等目的事先建成的數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),可以發(fā)現(xiàn)潛在信息,進(jìn)而實(shí)現(xiàn)人機(jī)的同一性認(rèn)定,如混合DNA識(shí)別。而大數(shù)據(jù)分析則通過(guò)專(zhuān)門(mén)編寫(xiě)的算法模型對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,挖掘出潛在規(guī)律并將其整合為結(jié)構(gòu)化信息,從而揭開(kāi)事實(shí)迷霧的面紗,如資金分析報(bào)告、傳銷(xiāo)人員層級(jí)報(bào)告。③" ③李某某等組織、領(lǐng)導(dǎo)傳銷(xiāo)活動(dòng)案中,通過(guò)分析“永豐有機(jī)項(xiàng)目平臺(tái)”的數(shù)據(jù),發(fā)現(xiàn)該傳銷(xiāo)組織共有22級(jí),使用會(huì)員投資款共計(jì)2 600萬(wàn)元,李某某、王某某作為公司所有人,占據(jù)了網(wǎng)格結(jié)構(gòu)中的一至四級(jí)會(huì)員位置,是傳銷(xiāo)網(wǎng)絡(luò)的最高層級(jí)。李某某等組織、領(lǐng)導(dǎo)傳銷(xiāo)活動(dòng)案,山東省濟(jì)南市中級(jí)人民法院(2017)魯01刑終88號(hào)刑事裁定書(shū)??梢?jiàn),大數(shù)據(jù)證據(jù)的證明力體現(xiàn)在潛在信息和規(guī)律之上,其正確與否決定著大數(shù)據(jù)證據(jù)的可靠程度。信息和規(guī)律的正確性依賴(lài)于基礎(chǔ)數(shù)據(jù)的規(guī)模,故基礎(chǔ)數(shù)據(jù)的量不再是可有可無(wú)的因素,其通過(guò)影響潛在信息和規(guī)律的發(fā)現(xiàn)、客觀性及穩(wěn)定程度,間接地決定著大數(shù)據(jù)證據(jù)的真實(shí)性與可靠性。
首先,“全量”采集數(shù)據(jù)是發(fā)現(xiàn)潛在信息和規(guī)律的底線(xiàn),也是大數(shù)據(jù)證據(jù)的真實(shí)性基石。多數(shù)觀點(diǎn)認(rèn)為,算法模型是能否發(fā)現(xiàn)潛在信息和規(guī)律的關(guān)鍵,大數(shù)據(jù)證據(jù)的質(zhì)量嚴(yán)格依賴(lài)于算法的質(zhì)量。①" ①參見(jiàn)馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學(xué)》2021年第6期,第654頁(yè)。但事實(shí)上,基礎(chǔ)數(shù)據(jù)亦會(huì)影響潛在信息和規(guī)律的發(fā)現(xiàn)?;A(chǔ)數(shù)據(jù)是算法模型分析的對(duì)象,潛在信息和規(guī)律都隱藏其中,如果基礎(chǔ)數(shù)據(jù)不能滿(mǎn)足一定數(shù)量,再科學(xué)、高效的算法模型也無(wú)能為力。在美國(guó)維特利案中,為證明被告維特利公司采取不標(biāo)識(shí)管道原產(chǎn)國(guó)的方式逃避合法關(guān)稅,海關(guān)欺詐調(diào)查局對(duì)維特利公司在eBay網(wǎng)站的數(shù)據(jù)進(jìn)行了大數(shù)據(jù)分析,得出的結(jié)論是至少75%的管道沒(méi)有標(biāo)識(shí)原產(chǎn)國(guó),調(diào)查局便將該分析報(bào)告作為證據(jù)提交。但法院并未采納,理由是eBay網(wǎng)站的數(shù)據(jù)沒(méi)有滿(mǎn)足全數(shù)據(jù)要求,無(wú)法代表維特利公司的整體銷(xiāo)售情況。②" ②United States ex rel. Customs Fraud Investigations, Llc. v. Victaulic Co, 839 F.3d 242.可見(jiàn),基礎(chǔ)數(shù)據(jù)未達(dá)到一定量無(wú)法生成真實(shí)的大數(shù)據(jù)證據(jù),此可謂“巧婦難為無(wú)米之炊”。
其次,“全量”采集數(shù)據(jù)可以避免偏見(jiàn),進(jìn)而確保分析結(jié)果的客觀公正性。當(dāng)提到大數(shù)據(jù)證據(jù)的偏見(jiàn)時(shí),很多人都默認(rèn)指算法歧視或算法欺詐,但偏見(jiàn)也可能由基礎(chǔ)數(shù)據(jù)誘發(fā)而與算法無(wú)關(guān)。用一個(gè)不恰當(dāng)?shù)谋扔鳌咨鬃訌暮谏鬯幸ǖ降囊彩呛谏鬯?。在美?guó),有專(zhuān)家以貧窮和非白人社區(qū)的毒品犯罪數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集,經(jīng)過(guò)分析后認(rèn)為相關(guān)地區(qū)的危險(xiǎn)程度較高,而后調(diào)派更多警力到這些地區(qū),于是更多的犯罪案件被發(fā)現(xiàn),相關(guān)數(shù)據(jù)反饋至算法模型后,進(jìn)一步強(qiáng)化了相關(guān)地區(qū)的危險(xiǎn)程度。③" ③See Kristian Lum and William Isaac, To predict and serve?, 13 Significance 14-19(2016).又如,美國(guó)部分人臉識(shí)別系統(tǒng)在識(shí)別男性白人的準(zhǔn)確率上,遠(yuǎn)遠(yuǎn)高于其他人群,其原因也是訓(xùn)練數(shù)據(jù)集存在偏差。④" ④Drew Harwell, Federal study confirms racial bias of many facial-recognition systems,casts doubt on their expanding use,The Washington Post, Dec.19, 2019.可見(jiàn),海量數(shù)據(jù)的偏見(jiàn)和算法模型的歧視,都會(huì)影響大數(shù)據(jù)證據(jù)在事實(shí)認(rèn)定上的客觀性。反過(guò)來(lái)講,采集全量性規(guī)則要求收集與案件有關(guān)的全樣本數(shù)據(jù),自然可避免數(shù)據(jù)集的偏見(jiàn),進(jìn)而保障大數(shù)據(jù)證據(jù)的客觀公正性。
最后,“全量”采集數(shù)據(jù)是挖掘出穩(wěn)定可靠的潛在信息和規(guī)律的前提,對(duì)大數(shù)據(jù)證據(jù)的真實(shí)性發(fā)揮著保障作用。如果僅為了發(fā)現(xiàn)潛在信息和規(guī)律,沒(méi)有必要追求全量性,通過(guò)一定量的抽樣數(shù)據(jù)分析亦能實(shí)現(xiàn)目的,但后者無(wú)法保證潛在信息和規(guī)律的穩(wěn)定性,不能對(duì)大數(shù)據(jù)證據(jù)的真實(shí)性作出有效背書(shū)。通過(guò)全量數(shù)據(jù)分析得到的潛在信息和規(guī)律則不同,其穩(wěn)定性經(jīng)過(guò)了多番檢驗(yàn),具有較強(qiáng)的生命力。舍恩伯格亦指出,為了預(yù)測(cè)的準(zhǔn)確性,應(yīng)盡量避免使用隨機(jī)分析的捷徑,而采用所有數(shù)據(jù),即“樣本=總體”⑤" ⑤[英]維克托·邁爾·舍恩伯格、肯尼思·庫(kù)克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維大變革》,盛楊燕等譯,浙江人民出版社2013年版,第39頁(yè)。?!叭俊辈杉瘮?shù)據(jù)對(duì)于大數(shù)據(jù)證據(jù)真實(shí)性的保障,可通過(guò)公認(rèn)的概率公式——貝葉斯定理,進(jìn)行合理解釋。貝葉斯定理的表達(dá)式為P(A|B)=P(A)*P(B|A)/P(B),其中P(A)表示A出現(xiàn)的概率;而P(B|A)表示事件A發(fā)生的條件下,事件B發(fā)生的概率;P(A|B)正好相反,表示事件B發(fā)生的條件下,事件A發(fā)生的概率。貝葉斯公式能依靠與事物本質(zhì)相關(guān)的其他事件的出現(xiàn)概率,去判斷本質(zhì)屬性的概率。因而,貝葉斯公式往往被用于溯因推理,與司法證明活動(dòng)天然契合,被多數(shù)法學(xué)者用以評(píng)估證據(jù)證明力。⑥" ⑥參見(jiàn)杜文靜:《證據(jù)證明力評(píng)價(jià)的似然率模型》,載《華東政法大學(xué)學(xué)報(bào)》2017年第1期,第151頁(yè)。當(dāng)越來(lái)越多的數(shù)據(jù)納入考慮范圍,即P(B)的導(dǎo)入量增大(B1、B2、B3……Bn),P(A|B)的概率會(huì)不斷調(diào)整,概率評(píng)估韌性也會(huì)明顯增加。⑦" ⑦參見(jiàn)豐葉:《職務(wù)犯罪大數(shù)據(jù)證據(jù)研究》,載《科技與法律》2020年1期,第78頁(yè)。簡(jiǎn)言之,建立在全量數(shù)據(jù)的分析基礎(chǔ)上,大數(shù)據(jù)證據(jù)的似真度將會(huì)明顯提升,無(wú)限接近于客觀真實(shí)。
(二)采集全量性規(guī)則的內(nèi)容與審查
從審查判斷視角來(lái)講,一項(xiàng)真實(shí)性審查規(guī)則應(yīng)有合理實(shí)現(xiàn)的可能,否則其不但不能合理評(píng)價(jià)相關(guān)證據(jù),甚至?xí)璧K原本可用于事實(shí)認(rèn)定的證據(jù)發(fā)揮作用,進(jìn)一步惡化證據(jù)資源短缺的司法現(xiàn)狀。同理,采集全量性規(guī)則不能是取證人員無(wú)法承擔(dān)的“規(guī)則之重”。部分觀點(diǎn)認(rèn)為在不過(guò)度浪費(fèi)司法資源的同時(shí),無(wú)法實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)的全量采集。羅文華教授指出,追求海量數(shù)據(jù)的全樣本是不現(xiàn)實(shí)的,能實(shí)現(xiàn)的只是局部樣本。①" ①羅文華:《大數(shù)據(jù)證據(jù)之實(shí)踐與思考》,載《中國(guó)刑事警察》2019年第5期,第20頁(yè)。事實(shí)上,此說(shuō)法是將“全量”=“全部”,誤以為采集全量性規(guī)則就是要收集全部數(shù)據(jù)。全部數(shù)據(jù)幾乎不可能實(shí)現(xiàn),因?yàn)閿?shù)據(jù)量非常巨大并不斷增加,但全量數(shù)據(jù)完全可以實(shí)現(xiàn),為了大數(shù)據(jù)證據(jù)的真實(shí)性也必須實(shí)現(xiàn)。
“全量”不是“全部”,其內(nèi)在意蘊(yùn)不僅包括數(shù)量,還涉及指向。具體到大數(shù)據(jù)證據(jù)而言,“全量”數(shù)據(jù)是指與案件事實(shí)有關(guān)的所有數(shù)據(jù),與案件事實(shí)無(wú)關(guān)的數(shù)據(jù)不在范疇之內(nèi),背后的理?yè)?jù)是證據(jù)相關(guān)性。相關(guān)性是證據(jù)的根本屬性,它反映的是證據(jù)與待證事實(shí)之間的邏輯關(guān)系,對(duì)相關(guān)事實(shí)的證明具有實(shí)質(zhì)性作用,沒(méi)有相關(guān)性的材料不是證據(jù)。②" ②張保生、陽(yáng)平:《證據(jù)客觀性評(píng)判》,載《清華法學(xué)》2019年第6期,第51頁(yè)。大數(shù)據(jù)證據(jù)的證明力體現(xiàn)在潛藏于海量數(shù)據(jù)的信息和規(guī)律之上,故海量基礎(chǔ)數(shù)據(jù)同樣要具備相關(guān)性。但基礎(chǔ)數(shù)據(jù)的相關(guān)性與傳統(tǒng)證據(jù)的相關(guān)性有些許差別,前者基于相關(guān)關(guān)系而后者則是基于因果關(guān)系。③" ③因果關(guān)系關(guān)注事物之間引起與被引起的關(guān)系,屬于“為什么”問(wèn)題,而相關(guān)關(guān)系關(guān)注事物之間的伴隨聯(lián)系,屬于“是什么”命題。在對(duì)待相關(guān)關(guān)系的態(tài)度上,多數(shù)學(xué)者認(rèn)為應(yīng)當(dāng)認(rèn)可機(jī)器的邏輯判斷,積極接納相關(guān)關(guān)系。④" ④參見(jiàn)林喜芬:《大數(shù)據(jù)證據(jù)在刑事司法中的運(yùn)用初探》,載《法學(xué)論壇》2021年第3期,第33頁(yè)。言下之意就是認(rèn)為,有價(jià)值的基礎(chǔ)數(shù)據(jù)范圍是廣泛的,沒(méi)有必要作嚴(yán)格的相關(guān)性檢驗(yàn)。但證據(jù)法上的相關(guān)關(guān)系,不是哲學(xué)意義上的普遍聯(lián)系,不能一概評(píng)價(jià)為具有相關(guān)性。只有飛躍成為因果關(guān)系或逼近因果的相關(guān)關(guān)系,才能評(píng)價(jià)為具有相關(guān)性,⑤" ⑤相關(guān)關(guān)系是因果關(guān)系的派生,當(dāng)找到背后原因,發(fā)現(xiàn)隱藏在“是什么”背后的“為什么”時(shí),相關(guān)關(guān)系就可以飛躍為因果關(guān)系。而無(wú)法找到背后原因的相關(guān)關(guān)系,可以通過(guò)數(shù)據(jù)與數(shù)據(jù)之間的強(qiáng)數(shù)理關(guān)系表明其無(wú)限靠近因果關(guān)系,具有較強(qiáng)的穩(wěn)定性。符合此種情況的基礎(chǔ)數(shù)據(jù)才有證明價(jià)值,在“全量”范疇之內(nèi)。
除明確“全量”的意蘊(yùn)外,還有必要提供審查判斷路徑。審查標(biāo)準(zhǔn)的判斷需結(jié)合相關(guān)性的實(shí)質(zhì)性方面。一般認(rèn)為,相關(guān)性包括兩方面:一是證據(jù)對(duì)事實(shí)主張的證明性;二是事實(shí)主張對(duì)審判的實(shí)質(zhì)性。⑥" ⑥鄭飛:《證據(jù)屬性層次論——基于證據(jù)規(guī)則結(jié)構(gòu)體系的理論反思》,載《法學(xué)研究》2021年第3期,第124頁(yè)?;趯徟械膶?shí)質(zhì)性,只有對(duì)訴訟中的要件事實(shí)有重要意義的證據(jù)才具有相關(guān)性。同理,全量數(shù)據(jù)應(yīng)對(duì)要件事實(shí)有重要意義,而要件事實(shí)均由法律規(guī)定,這為全量數(shù)據(jù)的審查提供了標(biāo)準(zhǔn)。具言之,當(dāng)判斷基礎(chǔ)數(shù)據(jù)是否滿(mǎn)足全量時(shí),可從該大數(shù)據(jù)證據(jù)意圖證明的要件事實(shí)入手,如果涉及相關(guān)要件事實(shí)的數(shù)據(jù)均已收集,采集全量性規(guī)則即得到滿(mǎn)足。王燃教授從分析對(duì)象行為的完整性切入,認(rèn)為全樣本的關(guān)鍵在于能夠滿(mǎn)足分析對(duì)象、分析任務(wù)的要求。⑦" ⑦參見(jiàn)王燃:《大數(shù)據(jù)證明的機(jī)理及其可靠性探究》,載《法學(xué)家》2022年第3期,第67頁(yè)。但筆者認(rèn)為,分析對(duì)象、分析任務(wù)的表述未突出本質(zhì),要件事實(shí)立足于相關(guān)性的實(shí)質(zhì)性方面更具理論厚度和表達(dá)精度。從審查方法而言,可通過(guò)時(shí)間段錨定、關(guān)鍵詞檢索等技術(shù)手段,對(duì)海量數(shù)據(jù)進(jìn)行清理與篩選,進(jìn)而實(shí)現(xiàn)全量數(shù)據(jù)的審查判斷。
二、數(shù)據(jù)“質(zhì)”層面的大數(shù)據(jù)整體真實(shí)性規(guī)則
全量數(shù)據(jù)中可能存在虛假或偽造數(shù)據(jù),所以基于全量的大數(shù)據(jù)證據(jù)并不必然可靠。例如,羅某等傳播淫穢物品牟利案中,公訴機(jī)關(guān)最初提交的報(bào)告顯示28張淫穢圖片的點(diǎn)擊量達(dá)25萬(wàn)余次,但由于沒(méi)有考慮WAP業(yè)務(wù)60%頁(yè)面訪(fǎng)問(wèn)成功率、一頁(yè)多圖等因素,相關(guān)報(bào)告沒(méi)有被法院認(rèn)可。在經(jīng)過(guò)專(zhuān)用算法工具計(jì)算頁(yè)面點(diǎn)擊數(shù)并排除自點(diǎn)擊后,淫穢圖片的實(shí)際被點(diǎn)擊數(shù)只有82 973次,法院最終依此作出裁判。⑧" ⑧北京市第一中級(jí)人民法院(2009)一中刑終字第548號(hào)刑事裁定書(shū)。在美國(guó)的一些網(wǎng)絡(luò)詐騙案中也有類(lèi)似情況,如被告人使用機(jī)器制造“僵尸賬號(hào)”虛假擴(kuò)大自身的影響力,進(jìn)而騙取廣告費(fèi)、代理費(fèi)。⑨" ⑨See Dwight Steward and Roberto Cavazos, Big Data Analytics in US Courts: Uses, Challenges,and Implications, Palgrave Macmillan, 2019, p. 52.為確保大數(shù)據(jù)證據(jù)的真實(shí)性,基礎(chǔ)數(shù)據(jù)除滿(mǎn)足“全量”外,還要符合一定的“質(zhì)量”。對(duì)此,學(xué)界存在兩種觀點(diǎn):一種觀點(diǎn)認(rèn)為,只有每項(xiàng)原始電子數(shù)據(jù)都能符合電子數(shù)據(jù)審查規(guī)范時(shí),這些電子數(shù)據(jù)分析得出的大數(shù)據(jù)證據(jù)才是可靠的。①" ①?gòu)埣?、孔德倫:《論刑事訴訟中的大數(shù)據(jù)證據(jù)》,載《貴州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2020年第4期,第87頁(yè)。另一種觀點(diǎn)認(rèn)為,海量數(shù)據(jù)的全部真實(shí)沒(méi)有必要,而且?guī)缀醪豢赡軐?duì)這些數(shù)據(jù)逐一審查,所以只要數(shù)據(jù)集真實(shí)即可,無(wú)須要求數(shù)據(jù)庫(kù)中每一條信息都具體真實(shí)。②" ②參見(jiàn)劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評(píng)論》2019年第1期,第29頁(yè)。筆者支持后者觀點(diǎn),主張將聚焦于數(shù)據(jù)集而非單個(gè)數(shù)據(jù)的真實(shí)觀稱(chēng)為整體真實(shí)觀,并在此基礎(chǔ)上提出大數(shù)據(jù)整體真實(shí)性規(guī)則。
(一)大數(shù)據(jù)整體真實(shí)觀的證成
部分學(xué)者在客觀真實(shí)理念引導(dǎo)下,對(duì)整體真實(shí)性抱有抵觸心理,認(rèn)為其無(wú)法滿(mǎn)足案件事實(shí)認(rèn)定的證明標(biāo)準(zhǔn),尤其是刑事案件的排除合理懷疑。但事實(shí)上,大數(shù)據(jù)整體真實(shí)性不但不會(huì)影響事實(shí)認(rèn)定的準(zhǔn)確性,反而有利于解決數(shù)量激增的新型網(wǎng)絡(luò)犯罪。具言之,首先,大數(shù)據(jù)整體真實(shí)觀契合數(shù)據(jù)時(shí)代的司法需求,能有效緩解證據(jù)資源短缺,證明難度劇增的現(xiàn)實(shí)困境。當(dāng)下,越來(lái)越多的案件痕跡以數(shù)據(jù)形式留存,而數(shù)據(jù)存在隱匿性強(qiáng)、穩(wěn)定性差的特點(diǎn),導(dǎo)致案件事實(shí)的查明愈發(fā)困難。于是各國(guó)采取了一些針對(duì)性方案,包括消減證明負(fù)擔(dān)和容許非法證據(jù)證明兩類(lèi),大數(shù)據(jù)整體真實(shí)性規(guī)則便屬于前者。其次,大數(shù)據(jù)整體真實(shí)性符合大數(shù)據(jù)證據(jù)的證明機(jī)制,不會(huì)影響結(jié)論的可靠性。由于大數(shù)據(jù)證據(jù)是利用隱藏在海量數(shù)據(jù)中的潛在信息和規(guī)律證明案件事實(shí),所以其是以“面”而非“點(diǎn)”的方式發(fā)揮證明作用。③" ③大數(shù)據(jù)證據(jù)之所以是“面”而非“點(diǎn)”的證明方式,是因?yàn)闈撛谛畔⒑鸵?guī)律是碎片化數(shù)據(jù)的價(jià)值整合,通過(guò)反映行為整體趨勢(shì)發(fā)揮作用,能還原案件事實(shí)的“整體樣貌”。這與基于單個(gè)數(shù)據(jù)信息證明案件事實(shí)有本質(zhì)差別。“面”的證明方式容錯(cuò)性強(qiáng),即便某個(gè)數(shù)據(jù)出現(xiàn)問(wèn)題,也不會(huì)完全破壞其價(jià)值。劉品新教授亦認(rèn)為,“只要在整體上達(dá)到一定規(guī)模的具體數(shù)據(jù)屬實(shí),對(duì)案件事實(shí)的認(rèn)定就不會(huì)產(chǎn)生實(shí)質(zhì)性影響?!雹? ④劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評(píng)論》2019年第1期,第30頁(yè)。最后,大數(shù)據(jù)整體真實(shí)性固然與全部真實(shí)有差距,或多或少帶來(lái)一定風(fēng)險(xiǎn),但該風(fēng)險(xiǎn)會(huì)通過(guò)印證規(guī)則得到消弭。大數(shù)據(jù)證據(jù)具有衍生性,屬于間接證據(jù),無(wú)法單獨(dú)證明案件事實(shí),而要與其他證據(jù)形成印證關(guān)系。在大數(shù)據(jù)證據(jù)與其他證據(jù)印證過(guò)程中,因整體真實(shí)觀產(chǎn)生的風(fēng)險(xiǎn)將會(huì)暴露無(wú)遺,無(wú)法對(duì)最終意義上的事實(shí)裁判造成實(shí)際威脅。
(二)數(shù)據(jù)來(lái)源的整體真實(shí)性
證據(jù)的真實(shí)性包括形式真實(shí)性和實(shí)質(zhì)真實(shí)性,前者要求證據(jù)的載體、來(lái)源具有原始性,而且在訴訟流轉(zhuǎn)過(guò)程中始終保持完整性、同一性;后者要求證據(jù)記載的內(nèi)容符合客觀現(xiàn)實(shí),不能是虛假的或者偽造的。這兩種真實(shí)性缺一不可,形式真實(shí)性是證據(jù)資格意義上的真實(shí)性,而實(shí)質(zhì)真實(shí)性是證明力意義上的真實(shí)性。同理,大數(shù)據(jù)整體真實(shí)性應(yīng)包括數(shù)據(jù)來(lái)源的整體真實(shí)性和數(shù)據(jù)內(nèi)容的整體真實(shí)性。數(shù)據(jù)來(lái)源的整體真實(shí)性,是指海量基礎(chǔ)數(shù)據(jù)來(lái)源于現(xiàn)場(chǎng),而且這些數(shù)據(jù)在訴訟流轉(zhuǎn)過(guò)程中整體上保持著同一性。電子數(shù)據(jù)取證存在“一體收集”模式和“單獨(dú)提取”模式。⑤" ⑤謝登科:《電子數(shù)據(jù)的取證主體:合法性與合技術(shù)性之間》,載《環(huán)球法律評(píng)論》2018年第1期,第86頁(yè)。不同取證模式下,數(shù)據(jù)來(lái)源的整體真實(shí)性的表現(xiàn)形式也不同:“一體收集”模式下,海量數(shù)據(jù)儲(chǔ)存在原始存儲(chǔ)介質(zhì)之中,整體真實(shí)性以原始載體的真實(shí)性進(jìn)行表現(xiàn);“單獨(dú)提取”模式下,海量數(shù)據(jù)沒(méi)有所謂的原始存儲(chǔ)介質(zhì),整體真實(shí)性以電子數(shù)據(jù)集的真實(shí)性進(jìn)行表現(xiàn)。
對(duì)證據(jù)來(lái)源真實(shí)性的審查,實(shí)際上就是鑒真,其為證明奠定基礎(chǔ)。⑥" ⑥[美]羅納德·艾倫等:《證據(jù)法:文本、問(wèn)題和案例》,張保生等譯,高等教育出版社2006年版,第205頁(yè)。傳統(tǒng)鑒真方法主要包括“獨(dú)特性確認(rèn)”和“保管鏈證明”,其中“獨(dú)特性確認(rèn)”是根據(jù)證據(jù)獨(dú)有的特征、標(biāo)識(shí)進(jìn)行的真實(shí)性確認(rèn),而“保管鏈證明”則是依靠從證據(jù)收集到法庭出示的整個(gè)期間,所有持有、接觸、處置、保管該證據(jù)的人所提供的證言進(jìn)行的真實(shí)性證明。⑦" ⑦參見(jiàn)陳瑞華:《實(shí)物證據(jù)的鑒真問(wèn)題》,載《法學(xué)研究》2011年第5期,第131頁(yè)。這兩種方法在美國(guó)《聯(lián)邦證據(jù)規(guī)則》均有規(guī)定,分別對(duì)應(yīng)規(guī)則901(b)和規(guī)則902,最近規(guī)則902新增了(13)“數(shù)字驗(yàn)證軟件的驗(yàn)證”和(14)“電子記錄驗(yàn)證”,專(zhuān)門(mén)用于電子數(shù)據(jù)鑒真。從我國(guó)現(xiàn)有規(guī)范來(lái)看,電子數(shù)據(jù)鑒真主要是利用形式化的“保管鏈證明”,即通過(guò)取證筆錄、辨認(rèn)筆錄、檢查筆錄等筆錄類(lèi)證據(jù)從數(shù)據(jù)收集、提取、保管等環(huán)節(jié)進(jìn)行真實(shí)性證明。該做法導(dǎo)致我國(guó)電子數(shù)據(jù)鑒真存在形式化流弊,難以實(shí)現(xiàn)對(duì)電子數(shù)據(jù)形式真實(shí)性的有效審查。對(duì)此,學(xué)界提出諸多方案,如謝登科教授認(rèn)為信息技術(shù)可在不同方面克服電子數(shù)據(jù)自身特征所帶來(lái)的鑒真難題,故可利用完整性校驗(yàn)、數(shù)字簽名等技術(shù)性手段進(jìn)行有效鑒真。①" ①參見(jiàn)謝登科:《電子數(shù)據(jù)的技術(shù)性鑒真》,載《法學(xué)研究》2022年第2期,第210-211頁(yè)?;A(chǔ)數(shù)據(jù)是海量電子數(shù)據(jù)的集合體,對(duì)其形式真實(shí)性的審查既要利用傳統(tǒng)鑒真方法,也要發(fā)揮技術(shù)性鑒真的作用。
具體來(lái)講,對(duì)于存在原始存儲(chǔ)介質(zhì)的基礎(chǔ)數(shù)據(jù),可通過(guò)審查證據(jù)保管鏈?zhǔn)欠駭嗔褜?shí)現(xiàn)鑒真:審查取證時(shí)是否扣押封存原始存儲(chǔ)介質(zhì),并制作相關(guān)筆錄記錄情況;如果是封存手機(jī)等具有無(wú)線(xiàn)通信功能的存儲(chǔ)介質(zhì),審查取證人員是否采取了信號(hào)屏蔽、信號(hào)阻斷或者切斷電源等措施。為避免實(shí)踐中存在形式化流弊,對(duì)證據(jù)保管鏈?zhǔn)欠駭嗔训膶彶檫€需從兩個(gè)方面完善:其一,不但要審查原始載體是否“封口嚴(yán)實(shí)”和“未受破壞”,還應(yīng)參考域外的“證據(jù)標(biāo)簽”審查連貫證據(jù)記錄的有無(wú);②" ②證據(jù)標(biāo)簽要求對(duì)證據(jù)附加具體情況記錄,具體包括:(1)證據(jù)涉及的案件編號(hào);(2)發(fā)現(xiàn)證據(jù)人員姓名;(3)收集人員姓名;(4)發(fā)現(xiàn)、收集的時(shí)間、地點(diǎn)等情況;(5)該證據(jù)的特征,如大小、外形等。其二,除審查書(shū)面證言和相關(guān)筆錄外,還可要求接觸基礎(chǔ)數(shù)據(jù)的相關(guān)人員出庭發(fā)表意見(jiàn)并接受質(zhì)證。對(duì)于沒(méi)有原始存儲(chǔ)介質(zhì)的基礎(chǔ)數(shù)據(jù),要充分利用好技術(shù)性鑒真方法:審查數(shù)據(jù)集是否計(jì)算了哈希值(HASH)以及哈希值是否同一;審查數(shù)據(jù)集是否上傳至可信的區(qū)塊鏈以及上傳時(shí)間、次數(shù)、人員等;審查數(shù)據(jù)集是否具有數(shù)字簽名或可信時(shí)間戳。舉例而言,區(qū)塊鏈采取分布式記賬技術(shù),對(duì)數(shù)據(jù)進(jìn)行分布式存儲(chǔ),具有防篡改、防抵賴(lài)的功能。一旦基礎(chǔ)數(shù)據(jù)經(jīng)過(guò)計(jì)算哈希值并上傳至區(qū)塊鏈,便可以通過(guò)審查區(qū)塊鏈資質(zhì)、哈希值是否同一實(shí)現(xiàn)對(duì)基礎(chǔ)數(shù)據(jù)形式化真實(shí)性的判斷。技術(shù)性鑒真對(duì)象不是海量數(shù)據(jù)中的單一數(shù)據(jù),而是數(shù)據(jù)集,如包括數(shù)千條數(shù)據(jù)的壓縮文件。海量基礎(chǔ)數(shù)據(jù)的逐一鑒真很難做到,也會(huì)極大地增加鑒真成本,得不償失。如果以數(shù)據(jù)集為單位,不論其體量多大,經(jīng)過(guò)MD5幾分鐘的計(jì)算就得到128位的哈希值,再依據(jù)哈希值“唯一性”特征,③" ③唯一性是指,兩個(gè)不同數(shù)據(jù)經(jīng)過(guò)哈希函數(shù)運(yùn)算后得到的哈希值不同。就可簡(jiǎn)單高效地解決鑒真難題。
值得注意的是,技術(shù)性鑒真并非完美無(wú)缺,比如區(qū)塊鏈只能保證“入鏈后”數(shù)據(jù)的真實(shí)性,如果存入的數(shù)據(jù)本身就有問(wèn)題,區(qū)塊鏈反而會(huì)為虛假信息“背書(shū)”。對(duì)此,劉品新教授提出三種優(yōu)化路徑,即縮短入鏈前階段、機(jī)器操作入鏈、多次入鏈。④" ④參見(jiàn)劉品新:《論區(qū)塊鏈證據(jù)》,載《法學(xué)研究》2021年第6期,第143頁(yè)。筆者認(rèn)為,以上路徑明顯改善了“入鏈前”數(shù)據(jù)的鑒真,除此之外還可以借助傳統(tǒng)鑒真方法,如讓接觸過(guò)數(shù)據(jù)的人出庭接受質(zhì)證。
(三)數(shù)據(jù)內(nèi)容的整體真實(shí)性
數(shù)據(jù)內(nèi)容的整體真實(shí)性,不同于數(shù)據(jù)來(lái)源的整體真實(shí)性,兩者屬于形式與實(shí)質(zhì)的關(guān)系。來(lái)源真實(shí)的數(shù)據(jù)不一定內(nèi)容真實(shí),內(nèi)容的真實(shí)性需要專(zhuān)門(mén)的審查判斷。謝登科教授亦指出,鑒真僅能解決電子數(shù)據(jù)的形式真實(shí)性問(wèn)題,而無(wú)法保障其實(shí)質(zhì)真實(shí)性,后者仍然需要由法官結(jié)合其他證據(jù),運(yùn)用經(jīng)驗(yàn)法則、邏輯法則等進(jìn)行認(rèn)定。⑤" ⑤參見(jiàn)謝登科:《電子數(shù)據(jù)的技術(shù)性鑒真》,載《法學(xué)研究》2022年第2期,第223頁(yè)。內(nèi)容真實(shí)性關(guān)乎證明力問(wèn)題,所以傳統(tǒng)證據(jù)的內(nèi)容真實(shí)性要求較高,需逐一審查判斷,但此做法并不適合于海量數(shù)據(jù)。理由有二:其一,基礎(chǔ)數(shù)據(jù)要求“全量”,即便經(jīng)過(guò)相關(guān)性篩選之后,其數(shù)量仍然非常龐大,有限的司法資源和訴訟期限無(wú)法實(shí)現(xiàn)逐條數(shù)據(jù)的內(nèi)容真實(shí)性審查;其二,海量數(shù)據(jù)中多數(shù)數(shù)據(jù)的證明力并不強(qiáng),與案件事實(shí)屬于“弱關(guān)聯(lián)關(guān)系”⑥" ⑥洪濤:《大數(shù)據(jù)證據(jù)研析》,載《行政與法》2022年第3期,第86頁(yè)。,否則也無(wú)須利用算法模型挖掘潛在信息和規(guī)律,來(lái)提升證據(jù)的證明力進(jìn)而實(shí)現(xiàn)案件事實(shí)的準(zhǔn)確認(rèn)定。從前文提到的數(shù)據(jù)時(shí)代的司法需要、大數(shù)據(jù)證據(jù)的證明機(jī)制、潛在風(fēng)險(xiǎn)三方面來(lái)看,數(shù)據(jù)內(nèi)容的整體真實(shí)性顯然更具合理性和說(shuō)服力。
對(duì)內(nèi)容整體真實(shí)性的審查,主要采取反面式的排除路徑。
首先,來(lái)源不真實(shí)的數(shù)據(jù),其內(nèi)容也很難真實(shí),可以排除在訴訟之外?;A(chǔ)數(shù)據(jù)在鑒真時(shí)以數(shù)據(jù)集而不是單條數(shù)據(jù)為單位,但鑒真失敗不意味整個(gè)數(shù)據(jù)集都失真,現(xiàn)實(shí)情況往往是數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)被修改、刪減,此時(shí)如果直接否認(rèn)整個(gè)數(shù)據(jù)集的真實(shí)性并不合適,而可以通過(guò)鑒定將有問(wèn)題的數(shù)據(jù)識(shí)別出來(lái)并排除。舉例而言,在快播案中,辯護(hù)方就對(duì)涉案服務(wù)器中的淫穢視頻的真實(shí)性提出質(zhì)疑,而該案正是通過(guò)司法鑒定方式進(jìn)行了數(shù)據(jù)的真實(shí)性審查。
其次,基礎(chǔ)數(shù)據(jù)中可能存在天生虛假的數(shù)據(jù),形式上滿(mǎn)足來(lái)源真實(shí),但其內(nèi)容并不具備真實(shí)性,如機(jī)器自動(dòng)點(diǎn)擊、“僵尸賬戶(hù)”“惡意刷單”。對(duì)于此類(lèi)數(shù)據(jù)的審查識(shí)別,有學(xué)者建議借助算法來(lái)完成,虛假數(shù)據(jù)往往具有不同尋常的行為規(guī)律,可利用這一點(diǎn)將其檢索出來(lái)。①" ①參見(jiàn)王燃:《大數(shù)據(jù)證明的機(jī)理及其可靠性探究》,載《法學(xué)家》2022年第3期,第67頁(yè)。比如,機(jī)器點(diǎn)擊數(shù)往往間隔非常短,遠(yuǎn)超人工點(diǎn)擊。又如,“僵尸賬戶(hù)”的活躍程度非常低。再如,“惡意刷單”者的IP地址是一致的,而且在短時(shí)間內(nèi)多次重復(fù)相同行為。該學(xué)者認(rèn)為以上異常數(shù)據(jù)可直接排除,但筆者認(rèn)為應(yīng)當(dāng)維持謹(jǐn)慎心理,不宜簡(jiǎn)單作出蓋棺定論式的處理,可指令相關(guān)人員對(duì)數(shù)據(jù)異常情況作出合理解釋?zhuān)粲修q論反駁的余地。
最后,大數(shù)據(jù)雖然追求全量分析,但并不意味著其完全否認(rèn)抽樣分析的價(jià)值,其同樣認(rèn)可抽樣分析在數(shù)據(jù)時(shí)代的必要性。舍恩伯格亦指出:“在大數(shù)據(jù)時(shí)代,我們?nèi)匀豢梢允褂脴颖痉治龇?,但可能不再是分析?shù)據(jù)的主要方法?!雹? ②[英]維克托·邁爾·舍恩伯格、肯尼思·庫(kù)克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維大變革》,盛楊燕等譯,浙江人民出版社2013年版,第43頁(yè)。抽樣分析是指從較大數(shù)量的物品中提取具有代表性的一定量的物品作為樣本證據(jù),并以樣本狀況反映整體數(shù)據(jù)的情況。③" ③萬(wàn)毅、縱博:《論刑事訴訟中的抽樣取證》,載《江蘇行政學(xué)院學(xué)報(bào)》2014年第4期,第120頁(yè)。抽樣分析方法對(duì)于檢測(cè)證據(jù)內(nèi)容真實(shí)性同樣有效,只不過(guò)需要挑選出具有代表意義的數(shù)據(jù),有學(xué)者對(duì)4 985份判決開(kāi)展實(shí)證研究,發(fā)現(xiàn)多數(shù)判決書(shū)承認(rèn)抽樣取證證據(jù),將其作為案件裁判的依據(jù)。④" ④參見(jiàn)楊帆:《海量證據(jù)背景下刑事抽樣取證的法治應(yīng)對(duì)》,載《法學(xué)評(píng)論》2019年第5期,第106頁(yè)。當(dāng)使用抽樣分析法來(lái)審查基礎(chǔ)數(shù)據(jù)內(nèi)容的真實(shí)性時(shí),必須采取科學(xué)、合理的樣本篩選標(biāo)準(zhǔn),如對(duì)數(shù)據(jù)群分塊分區(qū)抽取、隨機(jī)和抽簽等多種方法抽取、確定最低比例樣本等。
三、分析算法層面的科學(xué)性規(guī)則
自大數(shù)據(jù)證據(jù)成為研究對(duì)象以來(lái),算法問(wèn)題始終是學(xué)界最為關(guān)切的事項(xiàng),一方面是因?yàn)樵诖髷?shù)據(jù)“躍遷”為大數(shù)據(jù)證據(jù)的過(guò)程中,算法擔(dān)任著不可或缺的媒介與橋梁角色;另一方面則是算法不公開(kāi)引發(fā)“算法黑箱”,算法人為編造埋下“算法歧視”風(fēng)險(xiǎn),使得人們對(duì)算法總是抱有懷疑心理。因而,現(xiàn)有研究集中在兩方面:一是探究大數(shù)據(jù)證明的機(jī)制或機(jī)理,即分析算法模型的功能應(yīng)用;二是主張公開(kāi)算法以打破“算法黑箱”,進(jìn)而消除“算法歧視”。事實(shí)上,現(xiàn)有研究存在過(guò)度“技術(shù)化”傾向,我們應(yīng)當(dāng)貫徹法律與技術(shù)雙重面向,積極建構(gòu)算法科學(xué)性規(guī)則。算法科學(xué)性規(guī)則包括算法準(zhǔn)確性、算法適配性與算法可解釋性三方面,其中前兩個(gè)側(cè)重技術(shù)層面的科學(xué)性,而第三個(gè)則是法律層面的科學(xué)性。分析結(jié)論準(zhǔn)確是算法科學(xué)的邏輯結(jié)果,故算法科學(xué)性規(guī)則無(wú)疑屬于大數(shù)據(jù)證據(jù)真實(shí)性審查規(guī)則的子規(guī)則。
(一)算法科學(xué)性規(guī)則之算法準(zhǔn)確性
算法是貫穿計(jì)算機(jī)程序設(shè)計(jì)的基本概念,在計(jì)算機(jī)科學(xué)中“特指計(jì)算機(jī)用來(lái)解決某一問(wèn)題的方法”,具有明確性與有限性特征。由于算法使用專(zhuān)門(mén)語(yǔ)言表達(dá)和語(yǔ)法結(jié)構(gòu),在呈現(xiàn)時(shí)往往體現(xiàn)出一種形式邏輯的美,外行人士通常對(duì)其具有高度信賴(lài)。程龍教授通過(guò)分析典型案例,發(fā)現(xiàn)法院對(duì)大數(shù)據(jù)證據(jù)認(rèn)證率極高,只有極個(gè)別案件中會(huì)對(duì)基礎(chǔ)數(shù)據(jù)真實(shí)性提出質(zhì)疑。⑤" ⑤程龍:《論大數(shù)據(jù)證據(jù)質(zhì)證的形式化及其實(shí)質(zhì)化路徑》,載《政治與法律》2022年第5期,第99頁(yè)。陳學(xué)權(quán)教授對(duì)DNA算法證據(jù)的采納報(bào)告作了分析,發(fā)現(xiàn)法院對(duì)此類(lèi)證據(jù)的采信率高達(dá)99.65%。①" ①陳學(xué)權(quán):《科學(xué)對(duì)待DNA證據(jù)的證明力》,載《政法論壇》2010年第5期,第51頁(yè)。但算法并非沒(méi)有錯(cuò)誤,否則也不會(huì)出現(xiàn)BUG一詞,有技術(shù)人士歸納過(guò)數(shù)據(jù)挖掘中10種常見(jiàn)錯(cuò)誤,如輕信預(yù)測(cè)(Extrapolate)、隨便地進(jìn)行抽樣(Sample Casually)等。波士頓大學(xué)的Douglas Starr教授曾對(duì)DNA技術(shù)進(jìn)行過(guò)檢測(cè),結(jié)果發(fā)現(xiàn)71%的實(shí)驗(yàn)室都出現(xiàn)過(guò)錯(cuò)誤。②" ②See Starr Douglas, When DNA Is Lying, 351 Science 1133-1135(2016).澳大利亞的一款DNA分析軟件STRmix同樣存在算法錯(cuò)誤問(wèn)題,經(jīng)昆士蘭當(dāng)局確認(rèn)該錯(cuò)誤至少造成了60個(gè)案件的錯(cuò)判。③" ③See David Murray, Queensland authorities confirm‘miscode’affects DNA evidence in criminal cases, The Courier Mail, https://www.couriermail.com.au/news/queensland/queensland-authorities-confirm-miscode-affects-dna-evidence-in-criminal-cases/news-story/,2023年1月15日訪(fǎng)問(wèn)。美國(guó)2019年“無(wú)辜者項(xiàng)目”的數(shù)據(jù)顯示,被證明無(wú)辜的350多起冤案中,有45%的冤案是由科學(xué)證據(jù)的不當(dāng)使用導(dǎo)致的。④" ④See Overturning Wrongful Convictions Involving Misapplied Forensics, Innocence Project, https://www.innocenceproject.org/causes/misapplication-forensic-science/,2023年1月15日訪(fǎng)問(wèn)。因此,對(duì)大數(shù)據(jù)證據(jù)中的算法模型有必要進(jìn)行準(zhǔn)確性審查,以確保相關(guān)算法實(shí)現(xiàn)預(yù)設(shè)目的。
對(duì)于算法模型的準(zhǔn)確性審查,有學(xué)者提出“黑箱測(cè)試”的辦法,即將軟件程序看作一個(gè)不能打開(kāi)的黑盒子,在不考慮其內(nèi)部結(jié)構(gòu)和內(nèi)部特性的情況下,在軟件程序接口處進(jìn)行測(cè)試。⑤" ⑤參見(jiàn)劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評(píng)論》2019年第1期,第31頁(yè)。也有學(xué)者提出“白箱測(cè)試”的審查路徑。⑥" ⑥參見(jiàn)林喜芬:《大數(shù)據(jù)證據(jù)在刑事司法中的運(yùn)用初探》,載《法學(xué)論壇》2021年第3期,第34頁(yè)。筆者認(rèn)為,以上兩種路徑有一定的審查作用,但均有明顯缺陷:“黑箱測(cè)試”一方面會(huì)受制于測(cè)試樣本的有限性,另一方面忽略了部分智能化算法的錯(cuò)誤欺詐情況;⑦" ⑦科學(xué)研究表明,智能化算法甚至?xí)扇∧撤N欺詐的方式,去完成人類(lèi)為其設(shè)定的既定目標(biāo),且這種欺詐的方式、自我學(xué)習(xí)錯(cuò)誤的能力很難被識(shí)別。See Andrea Roth, Machine Testimony, 1 Yale Law Journal 126(2017).“白箱測(cè)試”看到了公開(kāi)算法對(duì)于準(zhǔn)確性審查的助益,卻未提供評(píng)估算法是否準(zhǔn)確的標(biāo)準(zhǔn)。鑒于此,筆者建議對(duì)算法模型的準(zhǔn)確性審查分成兩步:第一步,如果個(gè)案中使用的算法有國(guó)家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn)的,可直接參照相應(yīng)的標(biāo)準(zhǔn)進(jìn)行判斷,且國(guó)家標(biāo)準(zhǔn)優(yōu)于行業(yè)標(biāo)準(zhǔn);第二步,如果個(gè)案中使用的算法沒(méi)有國(guó)家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn)的,可以參照道伯特標(biāo)準(zhǔn)處理,即算法能否被重復(fù)檢驗(yàn)、算法是否經(jīng)過(guò)同行審議、算法能否為職業(yè)團(tuán)體普遍接受、算法已知的錯(cuò)誤率或潛在的錯(cuò)誤率是否可接受。
(二)算法科學(xué)性規(guī)則之算法適配性
算法是解決特定問(wèn)題的方法,具有特定指向性,即不同的算法模型適用于不同技術(shù)場(chǎng)景。以大數(shù)據(jù)分析中常用的Naive Baye算法(樸素貝葉斯算法)、Apriori算法(關(guān)聯(lián)規(guī)則挖掘算法)、Artificial Neural Network算法(人工神經(jīng)網(wǎng)絡(luò)算法)為例,樸素貝葉斯算法能求解待分類(lèi)項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,從而進(jìn)行數(shù)據(jù)分類(lèi);關(guān)聯(lián)規(guī)則挖掘算法,通過(guò)連接和剪枝運(yùn)算挖掘出頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集得到關(guān)聯(lián)規(guī)則,并在滿(mǎn)足最小置信度的要求時(shí)導(dǎo)出關(guān)聯(lián)規(guī)則;神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,可通過(guò)監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)自我發(fā)展與完善,超過(guò)設(shè)計(jì)者原有的知識(shí)水平??梢?jiàn),各種算法均有適用場(chǎng)景,一旦算法模型與場(chǎng)景不匹配,分析結(jié)論便不具備真實(shí)可靠性。有學(xué)者亦指出,大數(shù)據(jù)證據(jù)面臨因算法不同而出現(xiàn)不同結(jié)論的情況,算法模型的適用性很大程度上決定著分析結(jié)果的準(zhǔn)確性和可采性。⑧" ⑧劉緒崇等:《智慧警務(wù)——大數(shù)據(jù)環(huán)境下新時(shí)代公安信息化建設(shè)模式探索》,清華大學(xué)出版社2018年版,第69頁(yè)。在美國(guó)訴威廉姆斯案中,法官就認(rèn)為,BulletProof(混合DNA分析軟件)的算法只適用于檢測(cè)四個(gè)及以下來(lái)源者的DNA混合物,而本案中的混合DAN材料無(wú)法確定來(lái)源者數(shù)量,最終排除了相關(guān)證據(jù)。⑨" ⑨See United States v. Williams,382F. Supp.3d 928 (N.D.Cal.2019).
當(dāng)預(yù)設(shè)目標(biāo)與使用算法不匹配時(shí),除了影響算法結(jié)論的可靠性外,還會(huì)帶來(lái)算法偏見(jiàn)或歧視問(wèn)題。例如,犯罪預(yù)測(cè)算法中需要選取評(píng)估的變量,如犯罪嫌疑人年齡、犯罪動(dòng)機(jī)、犯罪行為等,但部分變量可能造成偏見(jiàn)而與此類(lèi)算法不適配,如地區(qū)、種族等。如果某犯罪預(yù)測(cè)算法將地區(qū)作為變量,但僅用于同一地區(qū),這可能不會(huì)造成歧視。然而,一旦將該算法用于全國(guó)范圍的犯罪分析,地區(qū)變量很可能成為歧視源,上文提到的以貧窮和非白人社區(qū)為訓(xùn)練數(shù)據(jù)的毒品犯罪預(yù)測(cè)算法便是典型例子??赡軙?huì)有人發(fā)問(wèn),基礎(chǔ)數(shù)據(jù)偏差引起的偏見(jiàn)與算法模型不適配引起的歧視是否無(wú)差別?答案是否定的。數(shù)據(jù)偏見(jiàn)與算法偏見(jiàn)有著密切關(guān)系,算法使用的變量通常是從基礎(chǔ)數(shù)據(jù)中抽取的節(jié)點(diǎn),但兩者絕非同一事物,即便使用中立無(wú)偏差的數(shù)據(jù)集,有時(shí)也會(huì)因歧視性變量而產(chǎn)生不公正的結(jié)論。①" ①參見(jiàn)[美]凱倫·楊等:《馴服算法:數(shù)據(jù)歧視與算法規(guī)制》,林少偉等譯,上海人民出版社2020年版,第95頁(yè)。大數(shù)據(jù)證據(jù)運(yùn)用的典型案例——盧米斯案中,法院使用的COMPAS算法(Correctional Offender Management Profiling for Alternative Sanction)中就存在著歧視性變量,其將性別、種族用于犯罪可能性評(píng)估,導(dǎo)致黑人被告的再犯風(fēng)險(xiǎn)概率遠(yuǎn)遠(yuǎn)高于白人被告。目前,COMAPS算法的評(píng)估體系包括動(dòng)態(tài)因素與靜態(tài)因素,共有測(cè)試題目287個(gè)(通用為174,女性專(zhuān)用113)。在這些題目中除種族外,還有其他歧視性變量,如家庭犯罪情況、職業(yè)情況等,因而如何避免算法變量不適配帶來(lái)的算法歧視是COMPAS研究者亟須解決的問(wèn)題。②" ②參見(jiàn)張振聲:《犯罪人風(fēng)險(xiǎn)行為評(píng)估技術(shù)新進(jìn)展——COMPAS系統(tǒng)評(píng)介》,載《遼寧公安司法管理干部學(xué)院學(xué)報(bào)》2022年第3期,第6-7頁(yè)。
對(duì)算法適配性的審查判斷,關(guān)鍵在于評(píng)估使用的變量是否滿(mǎn)足客觀中立性,這需要確立算法模型的場(chǎng)景釋明機(jī)制。具言之,其一,經(jīng)訴訟當(dāng)事人向法官申請(qǐng)或法官依職權(quán)決定,可要求算法模型的研究開(kāi)發(fā)者出庭對(duì)數(shù)據(jù)集涵蓋范圍、選取的變量及理由進(jìn)行釋明,但其不需要也不應(yīng)當(dāng)對(duì)算法模型的歧視問(wèn)題作出回應(yīng)。③" ③根據(jù)《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南——人工智能倫理安全風(fēng)險(xiǎn)防范指引》2.2條的規(guī)定,研究開(kāi)發(fā)者是指開(kāi)展人工智能理論發(fā)展、技術(shù)創(chuàng)新、數(shù)據(jù)歸集、算法迭代等相關(guān)活動(dòng)的組織或個(gè)人。是否歧視的問(wèn)題屬于法律問(wèn)題,應(yīng)由法官作出抉擇。其二,數(shù)據(jù)集與變量的釋明情況,需作為附件附在大數(shù)據(jù)分析報(bào)告之后,交由司法人員及控辯雙方展開(kāi)審查。最新研究表明,通過(guò)設(shè)計(jì)、使用可直接解釋的算法模型,用戶(hù)能直接觀察到變量的運(yùn)用及其變化,這對(duì)于諸如人身危險(xiǎn)性評(píng)估等高風(fēng)險(xiǎn)決策算法的審查判斷頗有價(jià)值。④" ④See Cynthia Rudin, Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead, 1 Nature Machine Intelligence 206(2019).
(三)算法科學(xué)性規(guī)則之算法可解釋性
大數(shù)據(jù)證據(jù)畢竟要用于案件事實(shí)認(rèn)定,所以算法科學(xué)性應(yīng)具有法律面向,不能只符合技術(shù)理性而偏離法治軌道。從審查判斷的角度來(lái)看,科學(xué)的算法應(yīng)具有可解釋性,能夠說(shuō)服控辯雙方及事實(shí)認(rèn)定者?,F(xiàn)有文獻(xiàn)提及算法的法律面向時(shí),主要集中在證據(jù)開(kāi)示以保障當(dāng)事人知情權(quán)、質(zhì)證權(quán)。但事實(shí)上,算法的可解釋性與算法的公開(kāi)并不一致,前者要求讓非專(zhuān)業(yè)人員能夠理解算法模型的結(jié)構(gòu)和運(yùn)行規(guī)律,進(jìn)而實(shí)質(zhì)性判斷算法是否具備準(zhǔn)確性與適配性,后者只是實(shí)現(xiàn)此目的的手段之一,甚至不是必要手段。有學(xué)者同樣指出,算法透明不等于算法可知,前者只是通向后者的一個(gè)階梯。⑤" ⑤參見(jiàn)沈偉偉:《算法透明原則的迷思——算法規(guī)制理論的批判》,載《環(huán)球法律評(píng)論》2019年第6期,第31頁(yè)。應(yīng)當(dāng)說(shuō),算法的可解釋性才是未來(lái)趨勢(shì)。美國(guó)《2022年算法責(zé)任法案》被視為一個(gè)具有里程碑意義的法案,該法案特別規(guī)定了算法的可解釋性,并認(rèn)為其是實(shí)現(xiàn)軟件、算法和其他自動(dòng)化系統(tǒng)公平公正運(yùn)行的關(guān)鍵。算法可解釋性命題下需要回應(yīng)兩個(gè)問(wèn)題:一是如何對(duì)待算法公開(kāi),涉案算法是否有必要公開(kāi)?如果要公開(kāi),該如何公開(kāi)?二是依靠何種路徑或程序來(lái)審查算法是否具備可解釋性?
目前,多數(shù)觀點(diǎn)主張涉案算法應(yīng)當(dāng)公開(kāi),否則質(zhì)證方會(huì)喪失對(duì)質(zhì)權(quán)和訴訟防御權(quán),嚴(yán)重違反基本的訴訟法原則。⑥" ⑥See Freeman K, Algorithmic injustice: How the Wisconsin Supreme Court failed to protect due process rights in State v. Loomis, 5 North Carolina Journal of Law amp; Technology 75(2016).更有觀點(diǎn)指出,如果不公開(kāi)涉案算法,由此生成的大數(shù)據(jù)證據(jù)也難以滿(mǎn)足真實(shí)性要求。算法公開(kāi)固然重要,但不宜過(guò)高看待其作用。美國(guó)洛斯教授指出,當(dāng)事人面對(duì)公認(rèn)比較準(zhǔn)確的信息(如谷歌地球衛(wèi)星圖像分析報(bào)告),不能僅僅以自己無(wú)從獲取源代碼,而主張法庭排除相關(guān)證據(jù)。①" ①See Andrea Roth, Machine Testimony, 1 Yale Law Journal 126(2017).算法是否應(yīng)當(dāng)公開(kāi)并非無(wú)爭(zhēng)議問(wèn)題,司法判例中存在著相互矛盾的做法。在查布斯案中,上訴法院以商業(yè)秘密特免權(quán)拒絕了被告人有關(guān)TrueAllele(DNA測(cè)試軟件)算法的開(kāi)示請(qǐng)求。②" ②People v. Chubbs CA2/4, B258569 (Cal.Ct.App.2015).但在柯林斯案中,法院以FST(The Forensic Statistical Tool)算法沒(méi)有公開(kāi)為由,排除了相應(yīng)的分析結(jié)論。③" ③See Katherine Kwong, The Algorithm Says You Did It: The Use of Black Box Algorithms to Analyze Complex DNA Evidence, 31 Harvard Journal of Law & Technology 281(2017).筆者認(rèn)為,為了算法的可解釋性有必要公開(kāi)算法,但不能無(wú)條件地一律公開(kāi),而應(yīng)符合以下要求:(1)必要性原則。只有當(dāng)控辯雙方對(duì)算法科學(xué)性問(wèn)題產(chǎn)生激烈爭(zhēng)議,一方當(dāng)事人向法院提出公開(kāi)算法的請(qǐng)求,并且法官也認(rèn)為有必要公開(kāi)算法時(shí),才需要公開(kāi)。必要性原則兼顧了大數(shù)據(jù)證據(jù)作為辯護(hù)方武器的可能性,可以避免強(qiáng)制公開(kāi)損害其權(quán)利。(2)針對(duì)性公開(kāi)。算法本身很復(fù)雜包含相當(dāng)多的信息(如TrueAllele有170 000行代碼),引起爭(zhēng)議可能僅僅是部分內(nèi)容,因此出于保護(hù)商業(yè)秘密與節(jié)省訴訟資源的考慮,只需公開(kāi)爭(zhēng)議部分的算法。(3)嚴(yán)格的保密措施。公開(kāi)與保密不是絕對(duì)對(duì)立的,可從公開(kāi)對(duì)象限定在訴訟當(dāng)事人及審理法官、以研究開(kāi)發(fā)者出庭口頭解釋為原則、獲悉信息者簽署保密協(xié)議、庭前會(huì)議階段公開(kāi)等四個(gè)方面,盡可能地協(xié)調(diào)算法公開(kāi)與商業(yè)秘密保護(hù)的訴求。(4)強(qiáng)制性排除規(guī)則。當(dāng)法院指令舉證方公開(kāi)涉案算法或者研究開(kāi)發(fā)者出庭質(zhì)證后,舉證方和研究開(kāi)發(fā)者如無(wú)正當(dāng)理由拒不公開(kāi)或出庭的,可認(rèn)定相關(guān)算法不具備科學(xué)性,相應(yīng)的大數(shù)據(jù)證據(jù)也不得作為定案根據(jù)。
至于算法是否具備可解釋性的審查判斷,可從以下路徑展開(kāi):(1)賦予訴訟當(dāng)事人申請(qǐng)算法解釋權(quán)。多數(shù)學(xué)者主張賦予當(dāng)事人算法公開(kāi)的申請(qǐng)權(quán),但如前文所述,算法公開(kāi)只是算法解釋的一個(gè)階梯。故應(yīng)賦予當(dāng)事人算法解釋的申請(qǐng)權(quán),即申請(qǐng)研究開(kāi)發(fā)者解釋算法模型的設(shè)計(jì)原理及運(yùn)行機(jī)制,并對(duì)是否準(zhǔn)確、是否適配等問(wèn)題作出回應(yīng)。(2)確立研究開(kāi)發(fā)者的解釋義務(wù)。如果訴訟當(dāng)事人提出的算法解釋申請(qǐng)得到法院認(rèn)可,那么研究開(kāi)發(fā)者必須出庭發(fā)表意見(jiàn)并接受質(zhì)證。如果研究開(kāi)發(fā)者無(wú)正當(dāng)理由拒不出庭的,或者出庭后的解釋未能得到法院認(rèn)可的,相關(guān)算法便不具備可解釋性,相應(yīng)的大數(shù)據(jù)證據(jù)也不可用于事實(shí)認(rèn)定。(3)完善控辯力量平衡機(jī)制??剞q雙方在證據(jù)收集能力上差距懸殊,而這一差距又被算法放大,造就“算法霸權(quán)”現(xiàn)象。在對(duì)大數(shù)據(jù)證據(jù)進(jìn)行審查判斷時(shí),有必要平衡控辯雙方的力量。這種平衡表現(xiàn)在一方當(dāng)事人可以申請(qǐng)有專(zhuān)門(mén)知識(shí)的人出庭輔助,對(duì)算法的準(zhǔn)確性、適配性等問(wèn)題進(jìn)行實(shí)質(zhì)性辯論。(4)標(biāo)準(zhǔn)化建設(shè)。大數(shù)據(jù)證據(jù)與鑒定意見(jiàn)具有形式上的親緣性、可比性,雖然因運(yùn)用的專(zhuān)門(mén)性知識(shí)、人機(jī)作用主次關(guān)系不同,無(wú)法完全等同視之,但質(zhì)證思路可資借鑒。簡(jiǎn)言之,可通過(guò)標(biāo)準(zhǔn)化建設(shè)實(shí)現(xiàn)算法可解釋性的審查,即確定常用算法模型的標(biāo)準(zhǔn)樣態(tài),進(jìn)而判斷涉案算法是否滿(mǎn)足準(zhǔn)確性與適配性。美國(guó)眾議員馬克·高野在2019年提出《法庭算法的正義法案》,該法案主張由美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所確立一套算法的法庭科學(xué)標(biāo)準(zhǔn)和測(cè)試程序。④" ④Gwyneth K.Shaw, Berkeley Law Duo Sparks Proposed Bill for More Forensic Algorithm Access, Berkeley Law, Sept.24,2019.加州大學(xué)麗貝卡·韋克斯勒教授主張組建公共性的算法審查監(jiān)督委員會(huì),從中挑選個(gè)案中需要的專(zhuān)家證人,并積累實(shí)踐經(jīng)驗(yàn)形成算法標(biāo)準(zhǔn)化運(yùn)用的資源庫(kù)。⑤" ⑤Rebecca Wexler, Life, Liberty, and Trade Secrets: Intellectual Property in the Criminal Justice System, 70 Stanford Law Review 1343(2018).標(biāo)準(zhǔn)化建設(shè)是一項(xiàng)長(zhǎng)期工程,需從行業(yè)標(biāo)準(zhǔn)到地方標(biāo)準(zhǔn)再到國(guó)家標(biāo)準(zhǔn)逐步推進(jìn),切忌急于求成。
四、分析結(jié)果層面的可印證性規(guī)則
目前,學(xué)界普遍認(rèn)為大數(shù)據(jù)證據(jù)難以適用傳統(tǒng)證據(jù)規(guī)則,如無(wú)法通過(guò)交叉詢(xún)問(wèn)對(duì)機(jī)器證言進(jìn)行審查,因而主張放棄傳統(tǒng)的證據(jù)審查軌道,建構(gòu)專(zhuān)門(mén)性的證據(jù)審查規(guī)則。大數(shù)據(jù)證據(jù)真實(shí)性的確需要專(zhuān)門(mén)的證據(jù)規(guī)則,但傳統(tǒng)證據(jù)規(guī)則并未完全喪失作用。如果不能認(rèn)識(shí)到這一點(diǎn),很可能因趨附技術(shù)而熱衷于審查規(guī)則的開(kāi)放性,破壞證據(jù)法體系的穩(wěn)定性。數(shù)據(jù)時(shí)代的證據(jù)法應(yīng)具備“開(kāi)放的穩(wěn)定性”之品格,并以“穩(wěn)定性”為基本底色,“開(kāi)放”為附屬色彩。①" ①參見(jiàn)占善剛、王超:《從法定電子數(shù)據(jù)邁向電子數(shù)據(jù)法定》,載《湖北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》2021年第2期,第119頁(yè)??v觀之下,筆者認(rèn)為傳統(tǒng)證據(jù)法中的印證規(guī)則仍可用于大數(shù)據(jù)證據(jù)真實(shí)性的審查判斷,并能為采集全量性規(guī)則、大數(shù)據(jù)整體真實(shí)性規(guī)則、算法科學(xué)性規(guī)則提供保障,幫助它們平穩(wěn)融入證據(jù)法體系之中。
(一)可印證是證據(jù)真實(shí)性審查的基本方法
有觀點(diǎn)認(rèn)為,如果大數(shù)據(jù)證據(jù)的審查判斷仍然保守地依附于傳統(tǒng)的印證,將會(huì)帶來(lái)諸多弊端,如法官不展開(kāi)實(shí)質(zhì)性審查而徑直采信大數(shù)據(jù)證據(jù)。②" ②參見(jiàn)馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學(xué)》2021年第6期,第650頁(yè)。此觀點(diǎn)看到了印證證明的固有缺陷,即注重“外部性”而輕視“內(nèi)省性”,容易出現(xiàn)因虛假印證或人為制造的印證而錯(cuò)誤認(rèn)定事實(shí)的情況。但是,不應(yīng)否認(rèn)印證證明的積極作用,而且大數(shù)據(jù)證據(jù)與印證證明內(nèi)在契合,分析結(jié)果的可印證性規(guī)則不但可以降低虛假印證的風(fēng)險(xiǎn),還能充分發(fā)揮大數(shù)據(jù)證據(jù)的證明價(jià)值,實(shí)現(xiàn)制度與功能的雙贏。兩者的契合性基于三個(gè)方面,具體如下。
1.印證的普遍適用性
證據(jù)法領(lǐng)域的印證,通常指利用不同證據(jù)的信息內(nèi)容同一或信息指向同一證明案件事實(shí)。關(guān)于印證的性質(zhì),學(xué)界有爭(zhēng)論而無(wú)定論,存在兩種說(shuō)法:一是認(rèn)為印證是一種證明模式,可以歸入自由心證體系。③" ③參見(jiàn)龍宗智:《印證與自由心證——我國(guó)刑事訴訟證明模式》,載《法學(xué)研究》2004年第2期,第109頁(yè)。二是認(rèn)為印證是一種證明方法,可用于證據(jù)的審查判斷,包括檢驗(yàn)證據(jù)的真實(shí)可靠性。④" ④參見(jiàn)方光成:《各類(lèi)案件證據(jù)的實(shí)用》,長(zhǎng)春出版社1990年版,第46頁(yè)。筆者支持后者,認(rèn)為印證是一種證明方法,更準(zhǔn)確地說(shuō)是一種思維方式,即利用同一信息(包括內(nèi)容同一和指向同一)加強(qiáng)認(rèn)知信念,對(duì)未知事項(xiàng)作出更準(zhǔn)確的判斷。印證具有普遍適用性,從適用領(lǐng)域來(lái)看,其不僅是案件事實(shí)認(rèn)定領(lǐng)域的一道利器,也是史學(xué)研究領(lǐng)域中“多重證據(jù)法”的凝練表達(dá);⑤" ⑤史學(xué)研究的核心是依靠史料認(rèn)識(shí)已發(fā)生的事實(shí),當(dāng)代歷史學(xué)家李良玉教授一貫主張,歷史學(xué)應(yīng)當(dāng)“以真實(shí)為原則,以事實(shí)為基礎(chǔ),以材料為根據(jù)”,這與證據(jù)法學(xué)的學(xué)理是一致的。從具體功能上看,印證可用于判斷全案證據(jù)是否滿(mǎn)足證明標(biāo)準(zhǔn),也能檢驗(yàn)單個(gè)證據(jù)的證據(jù)能力和證明力。何家弘教授指出,印證的主要功能就是分析證據(jù)的真實(shí)可靠性并判斷其證明力。⑥" ⑥何家弘:《司法證明模式的學(xué)理重述——兼評(píng)“印證證明模式”》,載《清華法學(xué)》2021年第5期,第14頁(yè)。由此可見(jiàn),印證的普遍適用性為建構(gòu)分析結(jié)果的可印證性規(guī)則奠定了可行性基礎(chǔ)。
2.數(shù)據(jù)經(jīng)驗(yàn)的強(qiáng)客觀性
面對(duì)實(shí)踐中的虛假印證和人為制造的印證,學(xué)者們進(jìn)行了反思,如龍宗智教授認(rèn)為印證的弊端主要來(lái)自經(jīng)驗(yàn)法則(心證)運(yùn)用的不足,導(dǎo)致其只能做到真理融貫而無(wú)法實(shí)現(xiàn)真理符合,所以應(yīng)當(dāng)在印證主導(dǎo)的基礎(chǔ)上加強(qiáng)“心證”功能。⑦" ⑦參見(jiàn)龍宗智:《刑事印證證明新探》,載《法學(xué)研究》2017年第2期,第164頁(yè)。陳瑞華教授指出,對(duì)印證的過(guò)分強(qiáng)調(diào)導(dǎo)致司法證明的機(jī)械化,應(yīng)當(dāng)注意發(fā)揮法官的心證作用。⑧" ⑧參見(jiàn)陳瑞華:《論證據(jù)相互印證規(guī)則》,載《法商研究》2012年第1期,第121-123頁(yè)??梢?jiàn),學(xué)者們普遍將經(jīng)驗(yàn)法則作為印證缺陷填平的手段。經(jīng)驗(yàn)法則是人們通過(guò)歸納總結(jié)日常生活經(jīng)驗(yàn)得到的一般性知識(shí),帶有主觀性色彩,同一命題在不同人眼里可能屬于經(jīng)驗(yàn)法則,也可能只是個(gè)體經(jīng)驗(yàn)。比如,有人認(rèn)為公安機(jī)關(guān)通常不會(huì)非法取證是經(jīng)驗(yàn)法則,但也有人認(rèn)為這并非經(jīng)驗(yàn)法則,否則立法無(wú)須設(shè)置非法證據(jù)排除規(guī)則。此外,經(jīng)驗(yàn)法則穩(wěn)定性較弱,某一條件或情景輕微變動(dòng)都可能引發(fā)經(jīng)驗(yàn)法則劇烈震蕩,如證人通常講真話(huà)是經(jīng)驗(yàn)法則,但與當(dāng)事人有利害關(guān)系的證人可能作出有偏向性證言也是經(jīng)驗(yàn)法則。當(dāng)利用傳統(tǒng)經(jīng)驗(yàn)法則的力量去彌補(bǔ)印證的缺陷時(shí),可能因其具有的主觀性而目的落空。但大數(shù)據(jù)證據(jù)不同,其經(jīng)驗(yàn)基礎(chǔ)不再是日常生活經(jīng)驗(yàn)而是數(shù)據(jù)經(jīng)驗(yàn),即通過(guò)算法模型分析海量數(shù)據(jù)得出的規(guī)律性認(rèn)識(shí)。數(shù)據(jù)經(jīng)驗(yàn)來(lái)自基礎(chǔ)數(shù)據(jù)的科學(xué)分析,具有可重復(fù)性和可檢驗(yàn)性——使用相同算法模型對(duì)同一批數(shù)據(jù)進(jìn)行分析得出的結(jié)論一致,基于數(shù)據(jù)經(jīng)驗(yàn)的經(jīng)驗(yàn)法則具有較強(qiáng)的客觀性。是故,數(shù)據(jù)經(jīng)驗(yàn)的強(qiáng)客觀性為建構(gòu)分析結(jié)果的可印證性規(guī)則確立了正當(dāng)性基礎(chǔ)。
3.間接證據(jù)定罪的強(qiáng)制印證
學(xué)界就大數(shù)據(jù)證據(jù)的證據(jù)種類(lèi)進(jìn)行過(guò)討論,出現(xiàn)獨(dú)立證據(jù)說(shuō)、電子數(shù)據(jù)說(shuō)、鑒定意見(jiàn)說(shuō)等觀點(diǎn),但這些觀點(diǎn)均基于法定證據(jù)分類(lèi),而法定證據(jù)分類(lèi)本身存在較大爭(zhēng)議,導(dǎo)致相關(guān)問(wèn)題久無(wú)定論。實(shí)際上,除法定證據(jù)分類(lèi)之外,證據(jù)的學(xué)理分類(lèi)同樣會(huì)影響審查問(wèn)題。元軼教授敏銳地看到這一點(diǎn),從實(shí)物證據(jù)與言辭證據(jù)的分類(lèi)上對(duì)大數(shù)據(jù)證據(jù)進(jìn)行了分析,提出大數(shù)據(jù)證據(jù)是實(shí)物證據(jù)并建構(gòu)了客觀校驗(yàn)標(biāo)準(zhǔn)。①" ①參見(jiàn)元軼:《大數(shù)據(jù)證據(jù)二元實(shí)物證據(jù)屬性及客觀校驗(yàn)標(biāo)準(zhǔn)》,載《山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》2021年第5期,第149頁(yè)。受此啟發(fā),筆者從直接證據(jù)與間接證據(jù)的分類(lèi)入手,提出大數(shù)據(jù)證據(jù)屬于間接證據(jù),無(wú)法單獨(dú)證明案件事實(shí)。基于此,并結(jié)合《最高人民法院關(guān)于適用〈中華人民共和國(guó)刑事訴訟法〉的解釋》(以下簡(jiǎn)稱(chēng)《刑訴法解釋》)第140條間接證據(jù)定罪的規(guī)定,可發(fā)現(xiàn)分析結(jié)果的可印證性規(guī)則存在法律依據(jù)。有法官同樣認(rèn)為,大數(shù)據(jù)分析報(bào)告在刑事訴訟中只能作為間接證據(jù)使用,必須經(jīng)過(guò)證據(jù)印證補(bǔ)強(qiáng)之后方可成為證據(jù)鏈條的一環(huán)。②" ②童飛霜、向培權(quán):《大數(shù)據(jù)分析報(bào)告作為刑事證據(jù)的可能與限度》,載胡云騰主編:《司法體制綜合配套改革與刑事審判問(wèn)題研究》,人民法院出版社2019年版,第1761頁(yè)。綜上可知,分析結(jié)果的可印證性規(guī)則存在充足理由,它為印證的普遍適用性奠定了可行性基礎(chǔ),數(shù)據(jù)經(jīng)驗(yàn)的強(qiáng)客觀性確立了正當(dāng)性基礎(chǔ),間接證據(jù)定罪的規(guī)范要求提供了法律依據(jù)。
(二)分析結(jié)果的雙重印證與審查
由于傳統(tǒng)證據(jù)的內(nèi)部結(jié)構(gòu)單一,所以其真實(shí)性印證主要面向外部,即與其他證據(jù)所含信息的同一性比對(duì)。大數(shù)據(jù)證據(jù)的內(nèi)部結(jié)構(gòu)復(fù)雜,其真實(shí)性印證包括內(nèi)部數(shù)據(jù)信息的同一性比對(duì),外部與其他證據(jù)所含信息的同一性比對(duì)。分析結(jié)果的雙重印證與大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu)和證明邏輯(間接證明)密切相關(guān),可引入故事模型理論進(jìn)行解釋。故事模型是主流的證據(jù)推理方法之一,其主張運(yùn)用現(xiàn)有證據(jù)構(gòu)建具有因果關(guān)系和片段結(jié)構(gòu)的故事,然后比較所有可能故事找到最佳故事,最終根據(jù)最佳故事作出裁判。③" ③參見(jiàn)杜文靜:《法律證據(jù)推理的模型研究》,北京大學(xué)出版社2021年版,第102頁(yè)。最佳故事有兩方面要求:一是故事要具備融貫性;二是故事要與證據(jù)相容。④" ④See Bex F J, Arguments, Stories and Criminal Evidence: A formal hybrid Theory, Springer Science amp; Business Media, 2011, p. 90.只具備融貫性的故事可能是一個(gè)好故事,但如果其不能與證據(jù)相容,那它注定不是真故事。例如,神話(huà)傳說(shuō)邏輯周延具有融貫性,但沒(méi)有相關(guān)證據(jù)材料支撐,只能是“傳說(shuō)”而不是“歷史”。最佳故事是有效印證的體現(xiàn),虛假印證和人為制造的印證只能得到具備融貫性而不與證據(jù)相容的故事。此外,故事模型理論還認(rèn)為一個(gè)故事是嵌套片段的分層結(jié)構(gòu),其中某些片段又嵌套著更進(jìn)一步的片段,而片段是證據(jù)支持的故事。⑤" ⑤參見(jiàn)[荷]瓦格納、范科本等:《錨定敘事理論:刑事證據(jù)心理學(xué)》,盧俐利譯,中國(guó)政法大學(xué)出版社2019年版,第46-47頁(yè)。基于此,可得到抽象的故事模型,見(jiàn)圖1。
在此基礎(chǔ)上,一旦結(jié)合大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu)和證明邏輯(間接證明),并將故事改換為證據(jù)性事實(shí)之后,抽象的故事模型便演變?yōu)榫唧w的大數(shù)據(jù)故事模型,見(jiàn)圖2。
通過(guò)解析圖2,可以明顯看到大數(shù)據(jù)證據(jù)的故事模型有兩個(gè):一是從基礎(chǔ)數(shù)據(jù)得到大數(shù)據(jù)證據(jù)的故事模型;二是從大數(shù)據(jù)證據(jù)、物證、書(shū)證等證據(jù)得出案件事實(shí)的故事模型。如上文所述,最佳故事也是有效印證的體現(xiàn),由此可以論證大數(shù)據(jù)證據(jù)的印證包括兩個(gè)面向的結(jié)論。其中,內(nèi)部數(shù)據(jù)信息的同一性,表現(xiàn)為基礎(chǔ)數(shù)據(jù)與分析結(jié)果相印證;外部與其他證據(jù)所含信息的同一性,表現(xiàn)為分析結(jié)果與物證、書(shū)證等其他證據(jù)相印證。
從審查判斷的視角看,大數(shù)據(jù)證據(jù)的雙重印證特征要求對(duì)審查判斷作對(duì)應(yīng)展開(kāi),不能忽略任何一方。故事模型理論下,對(duì)證據(jù)是否印證的審查就是對(duì)故事融貫性的檢驗(yàn)。對(duì)此,彭寧頓和黑斯蒂提出三項(xiàng)成熟標(biāo)準(zhǔn),即故事內(nèi)部一致性、故事成分似真性和故事結(jié)構(gòu)完備性。①" ①See Nancy Pennington and Reid Hastie, A Cognitive Theory of Juror Decision Making: The Story Model, 13 Cardozo Law Review 519(1991).同理,我們也可將該標(biāo)準(zhǔn)用于審查大數(shù)據(jù)證據(jù)的雙重印證,而且在此過(guò)程中也能證成相關(guān)命題,即分析結(jié)果的可印證性規(guī)則為采集全量性規(guī)則、大數(shù)據(jù)整體真實(shí)性規(guī)則、算法科學(xué)性規(guī)則提供保障。首先,故事內(nèi)部一致性要求故事中各個(gè)子故事(證據(jù)性事實(shí))沒(méi)有內(nèi)在矛盾,彼此同一。這需要內(nèi)部印證中作為基礎(chǔ)的數(shù)據(jù)與數(shù)據(jù)之間信息內(nèi)容或指向同一。如果部分?jǐn)?shù)據(jù)之間相互矛盾,說(shuō)明存在虛假數(shù)據(jù),需作進(jìn)一步審查判斷。外部印證中則需分析結(jié)果與物證、書(shū)證等其他證據(jù)信息內(nèi)容或指向同一。如果經(jīng)審查發(fā)現(xiàn)分析結(jié)果與其他證據(jù)之間存在無(wú)法排除的矛盾和無(wú)法解釋的疑問(wèn),即可認(rèn)定外部未形成印證。其次,故事成分似真性要求組成故事的成分(子故事)真實(shí)可信,沒(méi)有明顯虛假。這需要內(nèi)部印證中海量數(shù)據(jù)整體的來(lái)源與內(nèi)容真實(shí)可信,沒(méi)有明顯虛假數(shù)據(jù)。故事成分的似真性從正面提出了大數(shù)據(jù)整體真實(shí)性的要求,可采取相同的審查路徑。外部印證中則需分析結(jié)果與其他證據(jù)均真實(shí)可信,可對(duì)應(yīng)審查相關(guān)證據(jù)是否查證屬實(shí)。最后,故事結(jié)構(gòu)完備性要求故事應(yīng)有結(jié)構(gòu)被填滿(mǎn)。此需要內(nèi)部印證中作為基礎(chǔ)的海量數(shù)據(jù)符合“全量”要求,具體審查路徑詳見(jiàn)上文。外部印證中則需分析結(jié)果與其他證據(jù)是充分的,能夠還原出完整的案件事實(shí),可對(duì)應(yīng)審查全案證據(jù)是否形成完整的證明體系。
五、結(jié)語(yǔ)
證據(jù)制度與科技發(fā)展存在同頻共振效應(yīng),每一次科技水平的躍升都會(huì)引發(fā)證據(jù)制度的變革,大數(shù)據(jù)技術(shù)亦不例外。通過(guò)大數(shù)據(jù)技術(shù)分析挖掘海量數(shù)據(jù)得到的大數(shù)據(jù)證據(jù),已經(jīng)在學(xué)界和實(shí)務(wù)界掀起研究熱浪,但現(xiàn)有研究遠(yuǎn)未達(dá)到終點(diǎn)。在如何對(duì)待數(shù)據(jù)司法問(wèn)題上,筆者認(rèn)為應(yīng)堅(jiān)守證據(jù)法“開(kāi)放的穩(wěn)定性”品質(zhì),既不能固守傳統(tǒng)證據(jù)規(guī)則而無(wú)視技術(shù)特性,也不能盲目趨從數(shù)字技術(shù)而脫離法治軌道?;谠摾砟睿P者解構(gòu)了影響大數(shù)據(jù)證據(jù)真實(shí)性的三大要素,進(jìn)而提出采集全量性規(guī)則、大數(shù)據(jù)整體真實(shí)性規(guī)則、算法科學(xué)性規(guī)則及分析結(jié)果的可印證性規(guī)則。為具體落實(shí)以上規(guī)則,筆者設(shè)計(jì)了相應(yīng)的審查路徑,如結(jié)合要件事實(shí)判斷全量是否滿(mǎn)足、技術(shù)鑒真識(shí)別大數(shù)據(jù)的來(lái)源真實(shí)等。在所有路徑中算法標(biāo)準(zhǔn)化建設(shè)是亟待完成的,直接關(guān)乎技術(shù)性手段能否在司法證明領(lǐng)域合法合規(guī)地運(yùn)用,以及司法人員尤其是事實(shí)認(rèn)定者能否開(kāi)展實(shí)質(zhì)性審查。
需要指出的是,盡管大數(shù)據(jù)證據(jù)尚未成為獨(dú)立的證據(jù)種類(lèi),但其獨(dú)立化處理已是普遍共識(shí)。至此,本文提出的大數(shù)據(jù)證據(jù)真實(shí)性審查規(guī)則便可通過(guò)專(zhuān)門(mén)立法、法律修改等途徑納入證據(jù)法規(guī)范體系。舉例而言,可參照“兩高一部”發(fā)布的《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問(wèn)題的規(guī)定》第22條之規(guī)定,將影響大數(shù)據(jù)證據(jù)真實(shí)性的重要內(nèi)容逐一在立法中列明。總而言之,在技術(shù)理性與法律理性并重的思維下,如何讓司法駕馭技術(shù),讓技術(shù)服務(wù)于司法是數(shù)據(jù)司法時(shí)代的永恒議題,值得法律界人士投入精力與心血。
The Construction of Rules for the Authenticity of Big Data Evidence
Hong Tao
Abstract: Due to the chaotic nature of massive basic data and the professionalism and complexity of algorithms, it is difficult to apply the review rules of traditional evidence for the authenticity of big data evidence, and it is in the dilemma of lacking the relevant rules, and it is urgent to construct the authenticity review rules in line with its characteristics in order to realise its evidential value. Specifically, as a foundation, massive amounts of data must meet the rules of completeness in terms of “quantity” to ensure the correctness and stability of potential information and patterns mined from analysis. At the same time, in terms of “quality,” it is necessary to meet the overall authenticity rules of big data to avoid 1 results from 1 data and reduce the authenticity of big data evidence. As an analytical tool, algorithmic models should have accuracy, adaptability, and interpretability to meet the scientific requirements of both legal and technical aspects and provide support for the authenticity of big data evidence. In terms of universal applicability of verification, strong objectivity of data experience, and normative requirements for indirect evidence conviction, there is sufficient reason to construct verifiability rules for analysis results. By introducing story model theory, it can be found that the verifiability rules for analysis results include internal-oriented basic data verification and external-oriented analysis result verification. The former provides protection for other rules while the latter fits the logic of big data evidence.
Keywords: Big Data Evidence; Fullness; Scientific; Internal and External Corroboration
(責(zé)任編輯:吳" ?。?/p>