吳菊萍上海市人民檢察院第二分院第三檢察部副主任、三級(jí)高級(jí)檢察官、法學(xué)博士,華東政法大學(xué)兼職教授,上海市優(yōu)秀公訴人、全國檢察機(jī)關(guān)網(wǎng)絡(luò)犯罪檢察人才,上海檢察機(jī)關(guān)網(wǎng)絡(luò)犯罪專業(yè)化辦案團(tuán)隊(duì)召集人
沒有法律規(guī)制的數(shù)據(jù)爬蟲,很可能變異為“害蟲”。高懸達(dá)摩克利斯之劍,才能確保數(shù)據(jù)爬蟲在推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展中發(fā)揮正向價(jià)值。
數(shù)據(jù)作為數(shù)字經(jīng)濟(jì)的重要生產(chǎn)要素,必須充分流動(dòng)和利用起來。數(shù)據(jù)爬蟲技術(shù)推動(dòng)了數(shù)據(jù)的分享與利用,也引發(fā)了市場的惡性競爭,帶來了技術(shù)濫用的法律風(fēng)險(xiǎn)?,F(xiàn)象層面的“技術(shù)中立”,涉及科學(xué)技術(shù)倫理判斷,基于一定的動(dòng)機(jī)、目的使用爬蟲技術(shù)的行為,則更涉及利用技術(shù)的行為人及其行為的規(guī)范評(píng)價(jià)。探究數(shù)據(jù)爬蟲的技術(shù)邏輯,給出相關(guān)行為的合法界限與非法判斷標(biāo)準(zhǔn),是當(dāng)下數(shù)據(jù)行為立法與司法的重點(diǎn)課題,也是推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的題中應(yīng)有之義。
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,我們將迎來一個(gè)數(shù)據(jù)、勞動(dòng)力、資本和技術(shù)共同驅(qū)動(dòng)的新時(shí)代。“數(shù)據(jù)”成了其中全新的變量。2017年12月,習(xí)近平總書記在主持中共中央政治局學(xué)習(xí)時(shí)指出,“要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì)”。2019年10月,黨的十九屆四中全會(huì)作出決定,“健全勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬的機(jī)制”。2020年4月,中共中央、國務(wù)院發(fā)布了《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,明確將土地、勞動(dòng)力、資本、技術(shù)和數(shù)據(jù)并列為五大要素。
隨著數(shù)據(jù)成為經(jīng)濟(jì)發(fā)展的“新石油”,數(shù)據(jù)之爭日趨激烈,數(shù)據(jù)的權(quán)利歸屬以及獲取、利用數(shù)據(jù)的行為規(guī)則尚未達(dá)成共識(shí)。與數(shù)據(jù)的獲取和利用最直接相關(guān)的一項(xiàng)技術(shù)——網(wǎng)絡(luò)爬蟲,從一項(xiàng)中立的技術(shù)逐漸演變成侵權(quán)甚至犯罪的工具,引發(fā)了諸多法律爭議。
網(wǎng)絡(luò)爬蟲(Web Crawler),又稱“網(wǎng)絡(luò)蜘蛛(Web Spider)”或“網(wǎng)絡(luò)機(jī)器人(Web Robot)”,是一項(xiàng)在互聯(lián)網(wǎng)時(shí)代普遍運(yùn)用的網(wǎng)絡(luò)信息搜索技術(shù)。它的基本原理是:根據(jù)搜索目的建立待爬取的URL隊(duì)列,并將其取出,對(duì)該URL所對(duì)應(yīng)的網(wǎng)頁進(jìn)行解析。當(dāng)爬蟲訪問整個(gè)網(wǎng)頁時(shí),會(huì)自動(dòng)識(shí)別網(wǎng)頁中所有的URL并將其添加為待爬取URL,如此循環(huán)往復(fù),直到URL隊(duì)列中所有URL全部爬取完畢或滿足一定要求為止。換言之,網(wǎng)絡(luò)爬蟲就是一個(gè)高效的下載系統(tǒng),能夠?qū)⒑A康木W(wǎng)頁數(shù)據(jù)傳送到本地,在本地形成互聯(lián)網(wǎng)網(wǎng)頁的鏡像備份。網(wǎng)絡(luò)爬蟲的運(yùn)行模式是:獲取網(wǎng)頁——解析網(wǎng)頁——存儲(chǔ)數(shù)據(jù),即按照一定的規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或者腳本。
有業(yè)內(nèi)人士稱,互聯(lián)網(wǎng)50%以上,甚至更高的流量其實(shí)都是爬蟲貢獻(xiàn)的。對(duì)某些熱門網(wǎng)頁,爬蟲的訪問量甚至可能占據(jù)了該頁面總訪問量的90%以上。
當(dāng)前網(wǎng)絡(luò)爬蟲的應(yīng)用場景主要有:新聞資訊的搜索、分類、排序及動(dòng)態(tài)推送,如“今日頭條”等聚合媒體、“新浪微博”等網(wǎng)絡(luò)信息平臺(tái)等;電商平臺(tái)的商品瀏覽、銷售、評(píng)價(jià)等數(shù)據(jù)的市場調(diào)研與分析;政務(wù)公開數(shù)據(jù)的優(yōu)化及商業(yè)使用,如對(duì)“裁判文書網(wǎng)”海量判決文書的搜索及數(shù)據(jù)優(yōu)化后推出付費(fèi)版數(shù)據(jù)庫,又如對(duì)工商、稅務(wù)、司法等信息搜索及數(shù)據(jù)優(yōu)化后推出企業(yè)信息查詢;等等。
網(wǎng)絡(luò)爬蟲也被一些不法分子用來大量下載文字作品、音頻視頻等轉(zhuǎn)售牟利;用來竊取競爭對(duì)手的商業(yè)數(shù)據(jù)進(jìn)行不正當(dāng)競爭;更有甚者,用網(wǎng)絡(luò)爬蟲爬取各類公民個(gè)人信息,成為網(wǎng)絡(luò)賭博、電信詐騙等犯罪的黑產(chǎn)。即使目的正當(dāng),如果爬蟲整日無休地、自動(dòng)持續(xù)地大量訪問網(wǎng)站,對(duì)于那些小網(wǎng)站或者技術(shù)實(shí)力弱的網(wǎng)站,還可能因服務(wù)器無法承受激增的流量,導(dǎo)致網(wǎng)站崩潰。
網(wǎng)絡(luò)爬蟲運(yùn)行模式圖
綜上,爬蟲技術(shù)本身沒有善惡之分,但是基于一定的動(dòng)機(jī)、目的使用爬蟲技術(shù)的行為,必然面臨是非善惡的價(jià)值評(píng)判,以及由此產(chǎn)生的法律責(zé)任評(píng)價(jià)。
誠然,并不是所有的互聯(lián)網(wǎng)場景都排斥數(shù)據(jù)爬蟲,有些網(wǎng)站和應(yīng)用希望被搜索以提高曝光率,但是大多數(shù)網(wǎng)站基于服務(wù)器的承受能力、風(fēng)險(xiǎn)以及對(duì)商業(yè)數(shù)據(jù)的保密等原因,并不希望被爬取數(shù)據(jù)。后者會(huì)制定相應(yīng)的策略,采取一定的技術(shù)手段,來防止爬蟲對(duì)數(shù)據(jù)的抓取。
常見的應(yīng)對(duì)策略是在網(wǎng)站根目錄下放置Robots協(xié)議(也稱Robots.txt),該協(xié)議由荷蘭工程師馬丁·科斯特(Martijn Koster)在1994年編寫,由于簡單高效,當(dāng)前Robots協(xié)議已成為解決爬取方和被爬取方之間關(guān)于爬取意愿的通用且被遵守的技術(shù)規(guī)范,對(duì)于維護(hù)互聯(lián)網(wǎng)的正常秩序與當(dāng)事人合法權(quán)益具有重要意義。Robots協(xié)議通常會(huì)告訴網(wǎng)絡(luò)搜索引擎的漫游器,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。2012年中國互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布的《中國互聯(lián)網(wǎng)行業(yè)自律公約》也將遵守Robots協(xié)議認(rèn)定為“國際通行的行業(yè)管理與商業(yè)規(guī)則”。
但是,Robots協(xié)議更像“君子協(xié)議”,只能起到告示作用。有的爬蟲會(huì)通過“模擬真人訪問”“協(xié)議破解”等方法來爬取數(shù)據(jù)。于是,很多網(wǎng)站和應(yīng)用不得不采用反爬蟲技術(shù)攔截手法。爬蟲、反爬機(jī)制、反反爬機(jī)制,如此無休止的攻防對(duì)抗,造成了大量的社會(huì)資源浪費(fèi)。
Robots協(xié)議文件的作用
爬蟲與反爬機(jī)制攻防對(duì)抗的實(shí)質(zhì)是數(shù)據(jù)之爭。在數(shù)據(jù)已成為經(jīng)濟(jì)社會(huì)的重要生產(chǎn)要素、是互聯(lián)網(wǎng)企業(yè)核心競爭力的當(dāng)下,數(shù)據(jù)爬蟲首先引發(fā)了許多競爭法范疇的糾紛。在競爭法視野下,司法裁判一般考慮兩方面利益權(quán)衡:一方面,要遵從契約精神,既然設(shè)置了Robots協(xié)議,那么在競爭過程中就應(yīng)當(dāng)遵守競爭規(guī)范,確保有序的市場秩序;另一方面,要防止市場壟斷,避免因Robots協(xié)議對(duì)爬蟲的限制而形成數(shù)據(jù)孤島,從而構(gòu)成數(shù)據(jù)壟斷。數(shù)據(jù)作為重要的生產(chǎn)要素,只有在流通過程中才能產(chǎn)生價(jià)值。數(shù)據(jù)壟斷對(duì)握有數(shù)據(jù)的經(jīng)營者而言會(huì)產(chǎn)生競爭優(yōu)勢,但是長遠(yuǎn)來說,對(duì)社會(huì)經(jīng)濟(jì)可能帶來負(fù)面影響。
數(shù)據(jù)爬蟲的不斷發(fā)展變異還引發(fā)了刑事風(fēng)險(xiǎn)。在刑法視野下,司法裁判主要考慮以下因素:一是數(shù)據(jù)是否公開。通常認(rèn)為,數(shù)據(jù)犯罪所侵害的法益為數(shù)據(jù)安全,包括數(shù)據(jù)的保密性、完整性、可用性。二是手段是否具備“侵入性”。在數(shù)據(jù)權(quán)利人采取了協(xié)議、反爬機(jī)制等手段的情況下,通過反反爬技術(shù)繼續(xù)爬取數(shù)據(jù)的行為,就具備了較為明顯的侵入性。三是行為是否具有社會(huì)危害性。社會(huì)危害性是犯罪的本質(zhì)特征,如果一個(gè)行為沒有社會(huì)危害性,或是社會(huì)危害性不明顯,也沒有必要啟動(dòng)刑事追責(zé)。
從當(dāng)前的刑事判例來看,數(shù)據(jù)爬蟲涉刑的主要罪名有:破壞計(jì)算機(jī)信息系統(tǒng)罪,非法侵入計(jì)算機(jī)信息系統(tǒng)罪,非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪,提供侵入與非法控制計(jì)算機(jī)程序、工具罪,侵犯著作權(quán)罪,侵犯公民個(gè)人信息罪,傳播淫穢物品牟利罪,開設(shè)賭場罪,盜竊罪,詐騙罪等。在這些刑事案件中,網(wǎng)絡(luò)爬蟲突破了其原有的中立技術(shù)的內(nèi)涵,目的也從高效的搜索、下載,延伸至竊取他人信息進(jìn)而非法牟利。
那么,合法使用網(wǎng)絡(luò)爬蟲技術(shù)的邊界又在哪里呢?我們認(rèn)為,網(wǎng)絡(luò)爬蟲要體現(xiàn)并保持技術(shù)的中立性,可以從以下三個(gè)方面進(jìn)行合法性限定:其一,就爬取對(duì)象來說,應(yīng)當(dāng)限定為公開數(shù)據(jù)。其二,就技術(shù)手段來說,網(wǎng)絡(luò)爬蟲不應(yīng)具有侵入性。是否具有侵入性應(yīng)當(dāng)從技術(shù)本身是否具有侵入性和數(shù)據(jù)爬取行為是否遵守爬蟲協(xié)議與合同約定兩個(gè)方面來判定。其三,從爬取的目的來說,要具有正當(dāng)性、合理性、公平性。
數(shù)據(jù)爬蟲從誕生至今,經(jīng)歷了中立技術(shù)到一般違法,再到刑事犯罪的演變過程,其中不僅有爬蟲技術(shù)本身的變異,也有人們認(rèn)識(shí)深入、觀念變化的原因。法律要規(guī)范的并非技術(shù)本身,除非該技術(shù)本身就有倫理問題。法律要調(diào)整的是由于技術(shù)運(yùn)用而帶來的當(dāng)事人之間的利益分配問題,要傳遞的是公平合理的價(jià)值追求。
編輯:黃靈? yeshzhwu@foxmail.com