盧新玉
河南師范大學法學院,河南 新鄉(xiāng) 453000
大數(shù)據(jù)一詞最早是由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶合著的《大數(shù)據(jù)時代》一書中提出,認為大數(shù)據(jù)“不是隨機樣本,而是全體數(shù)據(jù)”②;麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面都遠遠超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。③因此,大數(shù)據(jù)的“大”不僅體現(xiàn)在數(shù)量的龐大上,更是代表著數(shù)據(jù)被處理應用之后產(chǎn)生的一系列效應和巨大的意義。阿里巴巴的創(chuàng)始人馬云也曾在一次公開講演中提到:未來的時代將不是IT(Information Technology:信息科技)時代,而是DT(Data Technology:數(shù)據(jù)科技)的時代,顯示了大數(shù)據(jù)在阿里巴巴集團的未來發(fā)展戰(zhàn)略中的重要性。
同理,在司法領(lǐng)域也是如此。在將人工智能技術(shù)應用到司法領(lǐng)域中所要使用的法律數(shù)據(jù)也應當來自于全國各地司法機構(gòu)的全部數(shù)據(jù);同時由于行業(yè)自身具有的特殊屬性,使得法律數(shù)據(jù)還具有權(quán)威性、準確性、客觀性這三個特點。因此,在全國司法機構(gòu)范圍內(nèi)具有權(quán)威性、準確性、客觀性的數(shù)據(jù)才能被稱為是司法大數(shù)據(jù)。
自從阿爾法狗及其后代打敗人類圍棋高手李世石、柯潔之后,其他棋類的高手也紛紛被打敗,但卻從來沒有聽說過阿爾法狗打敗過中國象棋高手。阿爾法狗之所以能夠獲得成功,一是因為開發(fā)阿爾法狗的研發(fā)團隊為其設(shè)置了一個包含十幾萬份公開的人類職業(yè)棋手的弈棋棋譜的數(shù)據(jù)庫,這也就意味著只要能在所有能夠在棋盤上呈現(xiàn)的對弈方式都被編碼存入到阿爾法狗的數(shù)據(jù)庫中,大大方便了阿爾法狗能夠模仿人類的落子方式且能從不同的角度應付各種類型的對手;二是因為中國的象棋棋譜從其產(chǎn)生之初就有流傳,但皆有殘缺,未見有完整的棋譜。與有完整的圍棋棋譜相比,阿爾法狗不能從殘缺的象棋棋譜中獲得充分的信息。這個典型的例子能夠充分說明,擁有完整且充分數(shù)據(jù)信息是人工智能得以發(fā)揮預期效用的基本前提。
但是,這樣豐富的數(shù)據(jù)資源目前在中國并不存在,一方面,中國裁判文書網(wǎng)中的裁判文書是目前作為發(fā)展法律人工智能發(fā)展基礎(chǔ)的數(shù)據(jù)來源,雖然在裁判文書網(wǎng)中所公開的文書數(shù)量已有上億件,但可能也只占我國全部審結(jié)案件的50%,④,部分涉及到國家秘密、商業(yè)秘密、個人隱私的案件是不會向社會公開;而且中國裁判文書網(wǎng)在2013年6月28日正式上線,里面大多數(shù)的裁判文書也都是在網(wǎng)站建立之后才開始進行上傳工作。因此,網(wǎng)站里公布的文書大都集中在2013年之后,此前的文書仍舊難以查閱到,這也就導致我們難以獲得具有連貫性的法律文書信息去支撐人工智能技術(shù)在司法領(lǐng)域的應用。另一方面,用刑事案件來舉例,一個刑事案件的終結(jié)要經(jīng)過立案、偵查、起訴、審判、執(zhí)行五個階段,公檢法機關(guān)按照自身職權(quán)的范圍在不同的階段會有產(chǎn)生不同的法律文書:例如在起訴階段人民檢察院會制作起訴意見書、在審判階段人民法院會制作判決書、裁定書等,而裁判文書網(wǎng)上卻只公布判決書這一種,其他類型的文書都未公布,種類不夠豐富。顯然,如果我們只依賴這樣有限的裁判文書及其所記載的有限內(nèi)容去發(fā)展人工智能,就好比用一方有殘缺的地基去建設(shè)萬丈高樓,其結(jié)果可想而知。
數(shù)據(jù)信息不聯(lián)動是我們目前發(fā)展司法大數(shù)據(jù)的一道邁不過的坎兒。盡管全國有多個法院響應最高人民法院的號召,紛紛依據(jù)本院的需要建設(shè)“智慧法院系統(tǒng)”,如北京的智能庭審系統(tǒng)、上海高院開發(fā)出的C2J刑事審判平臺、深圳市鹽田區(qū)人民法院的無紙化辦案系統(tǒng)等等,這些法院確實做出了成效,但是這些成功系統(tǒng)的數(shù)據(jù)支撐,大部分仍舊只是本院多年來所收集的法律數(shù)據(jù),可能還包括本地區(qū)或者本省市的數(shù)據(jù),但這也是極少數(shù)。況且我國國土遼闊,各地經(jīng)濟發(fā)展也是有較大差異,僅用一個地區(qū)的法律數(shù)據(jù)法院做出的系統(tǒng)不具有普適性,況且公眾仍然對大數(shù)據(jù)研究存在一定的錯誤認識,如將“大量數(shù)據(jù)”與“大數(shù)據(jù)”這兩個概念相等同?!叭珮颖尽笔谴髷?shù)據(jù)最顯著的特征,然而,目前國內(nèi)所謂的法律大數(shù)據(jù)實質(zhì)上只是部分數(shù)據(jù),稱其為“大量數(shù)據(jù)”或更合適。⑤
其次,除了上述的全國各地的法院數(shù)據(jù)不聯(lián)動、不統(tǒng)一之外,就連同地區(qū)內(nèi)的公安司法系統(tǒng)的數(shù)據(jù)也不聯(lián)動,未形成完整的數(shù)據(jù)鏈條?!皵?shù)據(jù)割裂”是因部門保護、制度設(shè)置等使得部門數(shù)據(jù)不能互聯(lián)互通而形成的割據(jù)化現(xiàn)象。⑥尤其是目前的司法系統(tǒng)內(nèi)部的數(shù)據(jù)共享還存在著一定的壁壘,數(shù)據(jù)的共享權(quán)限呈現(xiàn)“倒金字塔”型,⑦以人民法院的大數(shù)據(jù)管理與服務平臺為例,自2014年上線以來,已累計匯集1.4億案件信息,盡管在上線不到一年的時間里實現(xiàn)了全國四級法院都可以向平臺成功地匯集案件數(shù)據(jù),但匯集案件不等于都能夠查閱到其他法院的案件。一般認為,權(quán)限的開放程度會隨著法院的等級的提高而逐漸提高??v向上,上級法院擁有比下級法院更高、更開放的權(quán)限;橫向上,同一等級不同地區(qū)的法院之間數(shù)據(jù)互不流通,大部分的數(shù)據(jù)仍是處于分散、孤立的“冬眠”狀態(tài),仍是一種不對等的、有限的共享。
司法數(shù)據(jù)的生命力不僅在于公開,還能要能夠被社會公眾隨時地使用,通過挖掘、探究司法數(shù)據(jù)背后的價值來促進社會的治理和司法改革,這就對司法數(shù)據(jù)的格式提出了要求。數(shù)據(jù)能夠被人工智能技術(shù)識別的重要前提是數(shù)據(jù)須具有結(jié)構(gòu)化特征。在我們的日常生活中,想要聽懂一些地方方言或者外語之類的自然語言已屬不易,要想識別法律語言這類的專業(yè)術(shù)語更是難上加難。相比于政府數(shù)據(jù)開放的結(jié)構(gòu)化數(shù)據(jù),法律數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù),給數(shù)據(jù)的后續(xù)利用、分析帶來不便之處。除了法律文書數(shù)據(jù)可供人工智能系統(tǒng)直接分析外,庭審直播視頻數(shù)據(jù)、審判流程等非結(jié)構(gòu)化數(shù)據(jù)利用程度并不高。而且,對當前的法學研究者而言,數(shù)據(jù)的收集、清洗、處理及分析等方面都存在著天然的技術(shù)門檻限制。⑧司法數(shù)據(jù)結(jié)構(gòu)化不足,法學研究者對算法技術(shù)的掌握度不足、公安司法機關(guān)對數(shù)據(jù)的開放程度不足都會直接地影響到司法數(shù)據(jù)的可用性,進而影響人工智能技術(shù)在司法領(lǐng)域應用的準確度。
綜上,未來的人工智能技術(shù)在司法領(lǐng)域的應用研究應當著重于獲取全面、充分、多樣化的司法數(shù)據(jù),警惕“數(shù)據(jù)陷阱”帶來的弊端,更加合理地獲取、開發(fā)司法數(shù)據(jù),讓司法大數(shù)據(jù)更好地助力司法智能化建設(shè)的實現(xiàn),為法治中國建設(shè)、國家治理體系和治理能力現(xiàn)代化作出貢獻。
注釋:
①左為民.關(guān)于法律人工智能在中國應用前景的若干思考[J].清華法學,2018(2):108-124.
②維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.27.
③ Mc Kinsey Globe Institute.Big date:The next frontier for innovation,competition,and productivity[EB/OL].
④馬超,于曉紅,何海波.大數(shù)據(jù)分析:中國司法裁判文書上網(wǎng)公開報告[J].中國法律評論,2016(4):195-246.
⑤左為民.邁向法律大數(shù)據(jù)研究[J].法學研究,2018(4):139-150.
⑥王佳云.司法大數(shù)據(jù)與司法公正的實現(xiàn)[J].吉首大學學報,2020(2):137-143.
⑦王燃,徐笑菁,龔向柏.智慧法治背景下司法數(shù)據(jù)開放共享研究[J].人民法治,2018(11):18-21.
⑧左為民.基于裁判文書網(wǎng)的大數(shù)據(jù)法律研究:反思與前瞻[J].華東政法大學學報,2020(2):64-74.