饒傳平
內(nèi)容摘要:網(wǎng)絡(luò)爬蟲能夠高效抓取數(shù)據(jù),是釋放數(shù)據(jù)價值的重要手段。現(xiàn)行立法過于碎片化,難以有效規(guī)制不法爬蟲、引導正當爬蟲的使用;司法對網(wǎng)絡(luò)爬蟲侵入性的認定具有擴大化傾向,阻礙了數(shù)據(jù)的正常流通與合理使用。就法律而言,網(wǎng)絡(luò)爬蟲是一種能夠自動化收集并存儲數(shù)據(jù)的技術(shù)?!盎陲L險的方法”在網(wǎng)絡(luò)數(shù)據(jù)治理中得到廣泛應(yīng)用,利用該方法規(guī)制數(shù)據(jù)抓取技術(shù)具有正當性與可行性。通過既有案例歸納數(shù)據(jù)抓取場景中不同爬蟲的行為樣態(tài),并依據(jù)影響對象和影響程度為其匹配不同風險等級, 構(gòu)建爬蟲抓取數(shù)據(jù)法律風險的流程化管理框架,形成基于風險的合規(guī)和基于風險的監(jiān)管,為數(shù)據(jù)處理者和監(jiān)管者提供一個具體的風險管理指南。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)抓取風險管理自動化數(shù)據(jù)治理合規(guī)
中圖分類號:DF41 文獻標識碼:A 文章編號:1674-4039-(2023)06-0028-42
網(wǎng)絡(luò)爬蟲能夠高效收集所需數(shù)據(jù),是釋放數(shù)據(jù)價值的重要技術(shù)手段,在各行業(yè)不同場景中得到廣泛應(yīng)用。與此同時,由于缺少對正當爬蟲的引導與對不法爬蟲的規(guī)制,惡意使用爬蟲侵害他人合法權(quán)益或公共利益的行為屢見不鮮。在既往研究中,對于爬蟲法律層面的分析停留在競爭法和刑法的框架下。比如,基于反不正當競爭的角度將“競爭關(guān)系”和“行為正當性”作為爬蟲抓取數(shù)據(jù)行為違法性的核心判斷因素,〔1"〕或基于刑法的角度,通過認定行為的“非法性”與行為對象的“層次性”來劃定爬蟲抓取數(shù)據(jù)的刑事犯罪邊界。〔2"〕但在實踐中,競爭法與刑法難以全面有效規(guī)制網(wǎng)絡(luò)爬蟲并維持數(shù)據(jù)保護與數(shù)據(jù)流通之間的平衡。近年來,為加快提升數(shù)據(jù)安全和個人信息保護,網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法和個人信息保護法以及一系列行政法規(guī)相繼出臺。這些立法的共同之處是均強調(diào)須對數(shù)據(jù)進行“風險管理”,這也是歐盟相關(guān)立法中所提到的“基于風險的方法”的思想。然而,由于風險管理的立法依然具有非結(jié)構(gòu)化、非流程化、非標準化的缺陷,難以為數(shù)據(jù)處理者與監(jiān)管者提供一個風險識別與管理的有效工具?;诖?,本文試圖從爬蟲抓取數(shù)據(jù)的技術(shù)原理出發(fā),識別不同場景下不同爬蟲行為樣態(tài)中的法律風險,構(gòu)建爬蟲技術(shù)使用全階段法律風險管理的框架,使“基于風險的方法”真正成為可用于實踐的數(shù)據(jù)保護工具。
一、規(guī)制爬蟲抓取數(shù)據(jù)的法律困境
目前,對爬蟲抓取數(shù)據(jù)的立法規(guī)制呈現(xiàn)部門化、碎片化傾向,無法應(yīng)對不法爬蟲更新快、具有不確定性和復雜性等技術(shù)特點,由此導致司法實踐中只能生搬硬套地將相關(guān)法律適用范圍延伸至網(wǎng)絡(luò)治理領(lǐng)域,難以起到良好的治理效果。
(一)立法困境:部門化、碎片化的法律規(guī)范難以有效規(guī)制爬蟲
在早期,反不正當競爭法、民法中有關(guān)網(wǎng)絡(luò)空間行為的法律規(guī)定較為籠統(tǒng),幾乎沒有適用于數(shù)據(jù)抓取爭議案件的具體條款。刑法也無法明確具體地劃出網(wǎng)絡(luò)爬蟲的合法邊界。〔3"〕作為不斷革新的數(shù)據(jù)收集技術(shù)手段,網(wǎng)絡(luò)爬蟲具有技術(shù)的發(fā)展性和法律關(guān)系的復雜性,傳統(tǒng)單一立法難以完全覆蓋。因此,部門化、碎片化的立法對各類不法爬蟲行為并不能作出全面有效規(guī)制。司法實踐便不得不將相關(guān)法律條款適用范圍延伸至網(wǎng)絡(luò)治理領(lǐng)域,這不僅違反了技術(shù)中立原則,而且可能造成規(guī)范的重疊與缺漏,最終導致規(guī)則缺乏可行性?!?"〕網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法和個人信息保護法等一系列立法相繼引入行政管理理念,〔5"〕這對維持互聯(lián)網(wǎng)行業(yè)競爭秩序、維護網(wǎng)絡(luò)數(shù)據(jù)安全和個人信息安全起到了重要作用,不僅有利于充分發(fā)揮行政機關(guān)化解矛盾糾紛的“分流閥”作用,同時為規(guī)制爬蟲抓取行為提供了新的規(guī)范依據(jù)和規(guī)制思路。有學者認為,行政規(guī)制對網(wǎng)絡(luò)爬蟲的不法行為覆蓋面更廣,能夠?qū)Σ划數(shù)呐老x行為進行有效規(guī)制,亦能引導合法的網(wǎng)絡(luò)爬蟲,達成“立體化”的規(guī)制效果?!?"〕但本文認為,上述立法依然無法有針對性地有效解決爬蟲亂象。一是,這些立法直接針對爬蟲行為合法性的界定較少,只是通過行為規(guī)制的方式進行引導管理,因此并不能闡明“合法”與“非法”的明確邊界,數(shù)據(jù)處理者缺乏合規(guī)的具體指引;二是,行政規(guī)制難以與刑法規(guī)制相銜接,如果動輒適用刑法懲治不法爬蟲行為,則有違刑法的謙抑性要求?!?"〕
考察我國有關(guān)爬蟲規(guī)制的既有立法,可以發(fā)現(xiàn),其具有明顯的滯后性與被動性,對行為合法與否的認定標準依然模糊,難以發(fā)揮法律的指引作用,導致數(shù)據(jù)處理者和監(jiān)管者依然無法可依,這一定程度上阻礙了數(shù)據(jù)的流通與利用。
(二)司法困境:司法擴張爬蟲含義阻礙其正當使用
在司法實踐中,爬蟲的含義相較于技術(shù)領(lǐng)域被擴大化,其侵入性與“惡性”進一步凸顯。尤其是進入刑事領(lǐng)域后,數(shù)據(jù)抓取行為違法程度的提高使“網(wǎng)絡(luò)爬蟲技術(shù)”和“爬蟲的侵入性”不斷脫離中立的技術(shù)定義,向更寬泛的概念演進,具有從“客觀侵入”到“主觀惡意”轉(zhuǎn)變的趨勢。有學者將技術(shù)與法律針對此概念的不對稱性稱之為爬蟲的“異變”,〔8"〕也有學者認為這體現(xiàn)了技術(shù)層面與法律層面關(guān)于“技術(shù)性標準”和“控制性標準”的差異?!?"〕出于對法益保護的目的,司法實踐更強調(diào)保護數(shù)據(jù)被抓取方對數(shù)據(jù)的控制意志,因而違背被抓取方意志抓取數(shù)據(jù)被認為具有非法性。而被抓取方的意志在技術(shù)層面體現(xiàn)在為數(shù)據(jù)設(shè)置robots協(xié)議以及反抓取技術(shù)上,在這樣的場景中,突破兩者措施的數(shù)據(jù)抓取行為即可能被法院認定為手段不正當甚至是對計算機系統(tǒng)的“侵入”。在“全國首例爬蟲入刑”案中,〔10"〕法官將突破用戶身份認證與反爬蟲抓取措施相關(guān)聯(lián),將其認定為構(gòu)成對計算機信息系統(tǒng)的“侵入”?!?1"〕從法益保護而言,侵入類犯罪所保護的法益是計算機信息系統(tǒng)數(shù)據(jù)的“機密性”。有學者認為該案爬蟲抓取的對象是公開數(shù)據(jù),難以滿足保護法益“機密性”的要求,〔12"〕因為單純的爬蟲技術(shù)只能抓取由后臺傳輸至前端的數(shù)據(jù),并不具有侵害計算機系統(tǒng)的可能性。但是,該案并非簡單的爬蟲,而是與破解技術(shù)結(jié)合后形成的新的“變異體”?!?3"〕在這種情形下,爬蟲成為其他不法技術(shù)或行為的“背鍋俠”,整個技術(shù)集合被定義成“惡意爬蟲”,成為一個新的被法律所否定評價的廣義概念。在刑法的擴張解釋下,廣義網(wǎng)絡(luò)爬蟲的使用被認定為“未經(jīng)授權(quán)”違背被抓取方的意志獲取數(shù)據(jù),數(shù)據(jù)處理者對用戶自由訪問的允許并不等同于對網(wǎng)絡(luò)爬蟲訪問該數(shù)據(jù)的允許,使得對真實用戶而言的“公開數(shù)據(jù)”對爬蟲來說具有了“機密性”。是否有必要通過刑法保護該種只對爬蟲才具有機密性的數(shù)據(jù)?本文認為,該種“公開數(shù)據(jù)”并無刑法需要保護的“機密性”法益,但該數(shù)據(jù)有可能涉及數(shù)據(jù)處理者的競爭利益。就技術(shù)而言,突破反抓取技術(shù)手段的風險也與“侵入”計算機系統(tǒng)的風險不相當。因此,基于刑法的謙抑性精神, 司法實踐未能充分考慮爬蟲技術(shù)的本質(zhì)特征———模仿真實用戶的收集數(shù)據(jù)的自動化工具,對爬蟲“侵入性”的擴張性認定會放大數(shù)據(jù)處理者的主觀意圖,使技術(shù)層面的使用價值被壓制,不利于數(shù)據(jù)價值的挖掘與開發(fā)。
由于爬蟲抓取數(shù)據(jù)的行為難以從反不正當競爭法的具體條款中尋求依據(jù), 因此大部分判決依據(jù)一般條款對爬蟲抓取后數(shù)據(jù)不當使用行為進行規(guī)制。典型案例如“酷米客”訴“車來了”案〔14"〕和微博頭條數(shù)據(jù)抓取糾紛案〔15"〕均依據(jù)反不正當競爭法第2條認定違反robots協(xié)議抓取數(shù)據(jù)具有不正當性。問題在于:第一,robots協(xié)議目前僅能構(gòu)成搜索引擎行業(yè)的行業(yè)準則,并不能解決抓取后數(shù)據(jù)的使用問題。即使遵守robots協(xié)議抓取數(shù)據(jù),也不意味著抓取方可以對抓取所得數(shù)據(jù)任意使用。與此同時,robots協(xié)議的設(shè)置本身也難以具有商業(yè)道德的正當性,因為robots協(xié)議并無標準,不能僅因一方的數(shù)據(jù)防抓取意向即認定具有正當性,否則會造成抓取方與被抓取方利益失衡,違背反不正當競爭法鼓勵并保護公平競爭的目的。第二,行業(yè)慣例并不能夠等同于商業(yè)道德。行業(yè)慣例合法性并未確定,行業(yè)慣例也可能是陋習,即行業(yè)“潛規(guī)則”,〔16"〕良好的行業(yè)慣例應(yīng)以能夠協(xié)調(diào)各方利益的平衡為根據(jù),而非以遵從者的數(shù)量來確定?!?7"〕因此,訴諸直覺的不正當競爭判斷標準并不合理,司法實踐中應(yīng)盡量避免以道德標準作為判決依據(jù),應(yīng)關(guān)注行為對競爭秩序的客觀影響。〔18"〕
二、從技術(shù)到法律:數(shù)據(jù)抓取/反抓取技術(shù)的法律性質(zhì)
要明確網(wǎng)絡(luò)爬蟲的內(nèi)涵和外延,首先要厘清數(shù)據(jù)“爬?。–rawl)”與數(shù)據(jù)“抓?。⊿crap)”的技術(shù)概念及其差異,由此才能進一步界定數(shù)據(jù)抓取與反抓取技術(shù)的法律性質(zhì)。
(一)“爬取”與“抓取”概念之辨
就法律而言,數(shù)據(jù)“抓取”與“爬取”在司法文書中均有使用,但并未形成統(tǒng)一用語,“抓取”的使用次數(shù)明顯多于“爬取”。有學者從行為性質(zhì)的角度對兩者進行區(qū)分, 網(wǎng)頁爬取者是經(jīng)過許可且遵守robots協(xié)議的“善意爬蟲”,網(wǎng)頁抓取者是指能夠破解技術(shù)防范措施的“惡意爬蟲”;〔19(〕亦有學者從抓取范圍的角度出發(fā),認為數(shù)據(jù)抓取的含義大于數(shù)據(jù)爬取,數(shù)據(jù)抓取不僅包括通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的技術(shù)手段,還包括應(yīng)用編程接口(API)———一種企業(yè)間數(shù)據(jù)獲取的授權(quán)行為?!?0(〕本文認為前者對網(wǎng)頁抓取者的概念界定得過于狹隘,而后者又擴大了數(shù)據(jù)抓取的界限。在API的應(yīng)用情形中,數(shù)據(jù)處理者的數(shù)據(jù)共享行為往往是知情且同意的,由此引起的糾紛通過民法典合同編即可解決,因此API已實際超出了抓取本身的含義,同時API技術(shù)與爬蟲技術(shù)的原理完全不同,并非本文的研究對象。
就詞源而言,網(wǎng)絡(luò)爬蟲基于技術(shù)框架不同有網(wǎng)頁爬取者和網(wǎng)頁抓取者之分。爬取的特點是支持多種數(shù)據(jù)庫,能夠高效抓取網(wǎng)頁;而Scrapy框架較為成熟,能夠提取Web頁面中的結(jié)構(gòu)化數(shù)據(jù)?!?1(〕隨著網(wǎng)絡(luò)爬蟲技術(shù)的不斷完善,兩者之間的差異也越來越小,乃至在技術(shù)領(lǐng)域可以相互替代。就技術(shù)而言,爬取與抓取的工作流程有所不同,“爬取”首先要從一個初始種子URL開始,通過該網(wǎng)頁存在的URL形成新的URL合集,從而遍歷整個網(wǎng)絡(luò);〔22(〕而“抓取”的第一步是請求目標網(wǎng)站提供特定URL的內(nèi)容接著對網(wǎng)頁內(nèi)容進行解析和提取,最后一步是下載數(shù)據(jù)并將其保存。由此可以認為,“爬取”主要以網(wǎng)頁為目標,其目的是聚合大量、全面的信息,因而常常用于搜索引擎中;而“抓取”的工作過程更具有針對性,主要用于提取特定的數(shù)據(jù),可以自動捕捉到抓取者想要的數(shù)據(jù)信息?!?3(〕爬取與抓取的區(qū)別總結(jié)如下表所示:
由于數(shù)據(jù)資源的爆炸式增長,為了更好滿足網(wǎng)絡(luò)爬蟲使用者的需要,聚焦式網(wǎng)絡(luò)爬蟲由通用網(wǎng)絡(luò)爬蟲演化發(fā)展而生,〔24(〕而在司法領(lǐng)域中更多的糾紛源自非搜索引擎的使用場景。綜上所述,本文的研究將聚焦于“抓取”而非“爬取”。
(二)抓取方:網(wǎng)絡(luò)爬蟲的法律釋義
有學者認為,爬蟲按照指定的規(guī)則循環(huán)遍歷網(wǎng)頁中的內(nèi)容并下載所需數(shù)據(jù)到本地,其本質(zhì)是一套高效的下載系統(tǒng)?!?5(〕從技術(shù)角度而言,該定義與現(xiàn)行法律術(shù)語存在不一致,極易帶來司法適用上的混亂。為使技術(shù)分析與法律術(shù)語相統(tǒng)一,本文認為,應(yīng)將網(wǎng)絡(luò)爬蟲定義為一種能夠自動化收集并存儲數(shù)據(jù)的技術(shù)。
“自動化”體現(xiàn)在:地址解析的循環(huán)性;請求發(fā)送的自動性;數(shù)據(jù)獲取的高效性。網(wǎng)絡(luò)爬蟲通過循環(huán)解析URL(Uniform(resource(locator,同一資源定位符)來獲取數(shù)據(jù),而URL是完全開放的,實際是在模仿普通用戶正常發(fā)送數(shù)據(jù)請求,〔26(〕隨后等待服務(wù)器向其傳輸數(shù)據(jù)并在客戶端抓取數(shù)據(jù)。網(wǎng)絡(luò)爬蟲可以自動地不斷發(fā)送數(shù)據(jù)請求,因此比普通用戶從網(wǎng)頁上直接獲取信息的效率高得多。但也基于此,部分網(wǎng)絡(luò)爬蟲可以被數(shù)據(jù)被抓取方識別出來。
“收集存儲”體現(xiàn)在:使用網(wǎng)絡(luò)爬蟲的目的是下載所需數(shù)據(jù)到本地。有學者認為爬蟲是網(wǎng)站的主要數(shù)據(jù)“采集”方式,然而數(shù)據(jù)采集的客體不僅包含網(wǎng)絡(luò)數(shù)據(jù),還包括從傳感器和其他待測設(shè)備等模擬和數(shù)字被測單元中自動采集的數(shù)據(jù)?!?7#〕顯然網(wǎng)絡(luò)爬蟲的抓取對象并非來自傳感器或真實世界的數(shù)據(jù),數(shù)據(jù)僅經(jīng)歷了設(shè)備之間的“復制性”轉(zhuǎn)移,若使用“采集”一詞則會造成抓取客體范圍的擴大化。網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法和個人信息保護法關(guān)于數(shù)據(jù)的獲取均使用“收集”一詞,考慮到法律條例及其適用的語義一致性,本文認為“收集”比“采集”更為恰當。同時,網(wǎng)絡(luò)爬蟲在循環(huán)遍歷網(wǎng)絡(luò)數(shù)據(jù)時會將所需數(shù)據(jù)下載到本地,該下載行為即可定義為“存儲”。
(三)反抓取方:robots協(xié)議與反抓取技術(shù)措施的法律性質(zhì)
從網(wǎng)站來講,網(wǎng)絡(luò)爬蟲的惡意使用不僅增加了服務(wù)器數(shù)據(jù)泄露的風險,也增加了網(wǎng)站運營成本,因此越來越多的網(wǎng)站采取反爬蟲手段來遏制網(wǎng)絡(luò)爬蟲的濫用。數(shù)據(jù)被抓取方對網(wǎng)絡(luò)爬蟲的應(yīng)對與防范即反抓取手段,主要包括robots協(xié)議和反抓取技術(shù)措施。
robots協(xié)議是規(guī)范網(wǎng)絡(luò)爬蟲抓取行為的非強制性“君子協(xié)議”,其存在或生效與否,不影響網(wǎng)站數(shù)據(jù)的公開狀態(tài),也不會對執(zhí)意抓取的爬蟲帶來技術(shù)上的障礙。有學者認為爬蟲逐漸表現(xiàn)出其手段的競爭性特征,由于越來越多的數(shù)據(jù)抓取方以不勞而獲、“搭便車”的態(tài)度利用網(wǎng)絡(luò)爬蟲收集數(shù)據(jù),因此被抓取者往往將其視為商業(yè)競爭工具。〔28#〕
目前,我國法律并沒有明確規(guī)定robots協(xié)議的法律屬性,僅旨在提高搜索引擎服務(wù)行業(yè)水平的《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第7條規(guī)定,互聯(lián)網(wǎng)平臺應(yīng)遵守robots協(xié)議,第8條規(guī)定互聯(lián)網(wǎng)站所有者設(shè)置限制性機器人協(xié)議時應(yīng)有正當合理的理由。在司法實踐中,有關(guān)robots協(xié)議的爭議主要體現(xiàn)為三種場景,一是被抓取方未設(shè)置robots協(xié)議,二是被抓取方不正當設(shè)置robots協(xié)議,三是抓取方違反robots協(xié)議。在浙江泛亞公司訴百度一案中,〔29#〕法院將泛亞公司未設(shè)置robots協(xié)議的行為視作允許被搜索引擎抓取的“默示許可”。同樣,在美國Field訴Google一案中,〔30#〕法院認為Field并未設(shè)置爬蟲協(xié)議來告知Google一方不得抓取數(shù)據(jù),即推定為對Google網(wǎng)頁快照行為的默示許可。在奇虎360訴百度不正當競爭案件中, 〔317〕法院認為百度通過設(shè)置robots協(xié)議白名單的形式來限制360進行抓取的行為具有不正當性,不僅損害了360一方的利益,也損害了消費者的利益,同時百度一方未能就其限制行為提供合理正當?shù)睦碛?,不符合自律公約的相關(guān)約定,違反了誠實信用原則和互聯(lián)網(wǎng)搜索行業(yè)公認的商業(yè)道德。從抓取方的角度來說, 法院在大眾點評訴百度案中認為,robots協(xié)議不能解決數(shù)據(jù)使用行為的合法性判定問題?!?2#〕總而言之,目前司法實踐中將“未設(shè)置robots協(xié)議”的行為認定為被抓取的默示許可,且認定“設(shè)置robots協(xié)議”時應(yīng)當有合理、正當理由,但并未直接將“違反robots協(xié)議”的行為等同于違反商業(yè)道德或行業(yè)準則。
反爬蟲技術(shù)措施是指通過區(qū)分爬蟲訪問和真實用戶訪問,排除非真實用戶訪問的技術(shù)手段?!?3#〕IP訪問量限制、Session#訪問量限制、User-Agent7限制以及設(shè)置登錄驗證碼都屬于常見的反爬措施?!?47〕與robots協(xié)議相比,反爬蟲技術(shù)更具強制性,后者更體現(xiàn)了數(shù)據(jù)提供者的“強保護意愿”?!?57〕司法實務(wù)中將突破反爬蟲技術(shù)措施抓取數(shù)據(jù)的行為認定為具有“侵入”性,如在首例爬蟲入刑案中,法院將繞過身份驗證的行為定義為具有侵入性,抓取方構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪?!?6#〕
三、網(wǎng)絡(luò)爬蟲行為規(guī)制的路徑選擇:基于風險的流程化管理
本文認為,規(guī)制不法爬蟲技術(shù)的有效途徑是引入“基于風險的方法”。該方法的本質(zhì)是對技術(shù)復雜性和風險多樣性的規(guī)制,并在實質(zhì)上為爬蟲的合法性劃定一條新邊界,要求數(shù)據(jù)處理者基于風險的方法形成有效的自我合規(guī)模式,監(jiān)管者則應(yīng)基于風險的方法制定標準和監(jiān)管體系。
(一)數(shù)據(jù)抓取適用“基于風險的方法”的正當性
首先,數(shù)據(jù)抓取技術(shù)的固有特征滿足基于風險方法的適用前提。爬蟲技術(shù)不斷更新迭代具有復雜性、多樣性,新技術(shù)可能造成的損害不能被證明是必然發(fā)生的,這是適用基于風險的方法的前提。因此,基于風險的方法可以有針對地對傳統(tǒng)規(guī)范難以評價的新技術(shù)進行管理與規(guī)制,即基于風險的數(shù)據(jù)保護理念對風險的防范預設(shè)了更有效和情境化的數(shù)據(jù)保護, 而不僅僅是基于合規(guī)的規(guī)定性框架?!?7#〕換言之,基于風險的方法將使數(shù)據(jù)保護從形式保護轉(zhuǎn)變?yōu)閷嵸|(zhì)保護,依據(jù)不同等級的風險課以數(shù)據(jù)處理者相應(yīng)的義務(wù),從而得以在二者之間進行相應(yīng)的風險分配。
其次,基于風險的方法能夠體現(xiàn)場景完整性理論的一般原理。Helen#Nissenbaum提出了著名的場景完整性理論。〔38#〕基于風險的方法同樣要求考慮不同場景下的技術(shù)使用目的、方式和對象,考慮數(shù)據(jù)處理的性質(zhì)、范圍、場景與目的,和數(shù)據(jù)處理對人權(quán)自由的影響概率和風險程度,數(shù)據(jù)處理者應(yīng)采用合理的技術(shù)措施,保證數(shù)據(jù)處理行為符合條例的規(guī)定。在“告知-同意”原則流于勾畫復選框的現(xiàn)狀之下,從數(shù)據(jù)流動能否促進重要價值或目的實現(xiàn)的角度,在數(shù)據(jù)保護的實踐中劃出一條實質(zhì)性的界線;在利用爬蟲抓取數(shù)據(jù)的場景之下,應(yīng)考慮抓取方收集數(shù)據(jù)的目的、性質(zhì)和范圍等因素判斷正當性,從而應(yīng)對被抓取方robots協(xié)議形同虛設(shè)的現(xiàn)狀。
最后,基于風險的方法的本質(zhì)是對技術(shù)風險的規(guī)制,具有目的同一性。數(shù)據(jù)保護是對多樣復雜的技術(shù)可能引發(fā)的風險的控制,基于風險的方法是在既有的數(shù)據(jù)權(quán)利保護方案之上的拓展。技術(shù)的發(fā)展不僅擴大了計算機系統(tǒng)安全的潛在威脅,更使人權(quán)尤其是隱私權(quán)置于風險之中。但與此同時,不應(yīng)將對隱私權(quán)的保護和數(shù)據(jù)保護混為一談。〔39#〕數(shù)據(jù)保護的目的是防止包括隱私權(quán)在內(nèi)的各項權(quán)利被侵害,也是有效防止新技術(shù)所引發(fā)的各項風險。Mayer8Sch觟nberger證實了這一假設(shè),他認為數(shù)據(jù)保護在其成立時是一種風險監(jiān)管制度,數(shù)據(jù)保護的治理規(guī)范則是針對特定技術(shù)的立法。因此,制定了大量復雜的程序來控制和規(guī)范技術(shù)的使用,旨在不同階段有效控制數(shù)據(jù)處理潛在的風險?!?08〕爬蟲屬于數(shù)據(jù)自動收集的技術(shù)手段,僅僅從技術(shù)形式進行合法性判斷易產(chǎn)生更多規(guī)避手段,這也是我國刑事領(lǐng)域爬蟲的侵入性含義擴張化的原因之一,基于風險的方法可以極大程度上避免該種技術(shù)規(guī)避行為。
(二)數(shù)據(jù)抓取適用“基于風險的方法”的可行性
首先,基于風險的方法能夠彌補現(xiàn)行法律規(guī)制爬蟲的滯后性。以形式合法的方式劃定數(shù)據(jù)處理技術(shù)的合法性邊界,難以有效遏制爬蟲造成的損害后果,且不利于爬蟲的正當使用。不少學者已經(jīng)意識到此種局限性,蘇宇認為可以利用行政規(guī)制的立體化治理能力引導爬蟲技術(shù)的合理利用;〔41#〕孫禹認為可以引入形式合規(guī)的理念,確保合法的爬蟲技術(shù)不受形式規(guī)制的干擾;〔42#〕朱崢認為應(yīng)以內(nèi)部管理型機制為基點,通過橫向和縱向的體系化構(gòu)建對爬蟲失范行為進行規(guī)制?!?3#〕這表明,學界已經(jīng)認識到事后救濟模式在數(shù)據(jù)與技術(shù)治理上的不足,視角逐漸擴展到社會控制、行政規(guī)制、內(nèi)部規(guī)制等治理模式。采取傳統(tǒng)權(quán)利的保護路徑難以實現(xiàn)促進數(shù)據(jù)流通與共享的目標,而公法規(guī)制專注于治理造成嚴重后果的不法爬蟲,不能作為常態(tài)化的治理手段。相比之下,基于風險的方法要求數(shù)據(jù)處理者對數(shù)據(jù)處理行為的風險進行動態(tài)評估,側(cè)重預防數(shù)據(jù)處理過程中產(chǎn)生的數(shù)據(jù)安全風險,基于不同風險等級配置相應(yīng)的合規(guī)措施并科學配置監(jiān)管資源,因而塑造了數(shù)據(jù)處理者與監(jiān)管者之間的義務(wù)與責任關(guān)系,將規(guī)制重心從數(shù)據(jù)處理完成后轉(zhuǎn)移至數(shù)據(jù)處理過程當中,同時場景化的風險劃分方式能夠有效應(yīng)對未來技術(shù)發(fā)展的靈活性?!?4#〕
其次,基于風險的方法能夠針對不法爬蟲行為隱蔽性的特征,更加公平合理地分配數(shù)據(jù)處理風險。第一,爬蟲使用者是技術(shù)的控制者,也是數(shù)據(jù)的控制者,有更多的技術(shù)能力對該數(shù)據(jù)處理行為進行風險控制;第二,數(shù)據(jù)安全風險來自爬蟲行為,且爬蟲使用者從該數(shù)據(jù)處理活動中獲得利益,理應(yīng)承擔數(shù)據(jù)安全風險;第三,可以倒逼被爬取方完善數(shù)據(jù)合規(guī)行為,建立更加完備的數(shù)據(jù)安全合規(guī)體系。那么,將更多的合規(guī)義務(wù)賦予爬蟲使用者是否會阻礙數(shù)據(jù)流通的效率? 當爬蟲使用者面臨不確定、不明晰的爬蟲法律規(guī)范時,意味著數(shù)據(jù)處理行為風險的不確定性,正如懸在程序員頭上的達摩克利斯之劍,基于風險的方法貫穿整個數(shù)據(jù)生命周期,從數(shù)據(jù)處理行為全流程的角度將風險情景化、具體化,這使得爬蟲使用者要以最大程度和最高效率設(shè)計爬蟲程序,規(guī)范數(shù)據(jù)使用活動。
再次,基于風險的方法能夠?qū)⑴老x可能造成的不確定的損害轉(zhuǎn)化為確定性的合規(guī)行為,將損害的無形性、不可控性、隱蔽性轉(zhuǎn)化為合規(guī)行為的可操作性。在一般侵權(quán)損害中,損害事實應(yīng)具有客觀性,既指損害已客觀發(fā)生,又指依照社會一般認識損害必然發(fā)生?!?5#〕當數(shù)據(jù)抓取方的技術(shù)已然造成損害時,一般侵權(quán)損害的構(gòu)成要件很容易證明,可當數(shù)據(jù)抓取尚未造成現(xiàn)實損害,而是增加了數(shù)據(jù)安全的風險,則難以構(gòu)成侵權(quán)損害客觀性的認定,此時被抓取方無計可施。田野認為,在個人信息侵權(quán)領(lǐng)域應(yīng)當將實質(zhì)性風險作為未來損害的確定性標準,這是解決風險的不確定性與損害的客觀性之間矛盾的有效出路?!?6#〕然而實質(zhì)性的風險標準亦不具有確定性,唯有依賴基于風險的方法,在場景中將實質(zhì)性的風險標準轉(zhuǎn)化為數(shù)據(jù)處理者的合規(guī)義務(wù)與監(jiān)管者的監(jiān)管義務(wù),才能夠解決爬蟲風險性損害的認定問題,緩解了爬蟲治理中技術(shù)認定模糊的困境。
(三)“基于風險的方法”的流程化實現(xiàn)
考察近年來的數(shù)據(jù)立法趨勢,“風險管理” 逐漸成為保障數(shù)據(jù)處理和數(shù)據(jù)安全的工具。Spina指出,歐盟的數(shù)據(jù)保護立法正在經(jīng)歷一場漸進的“風險化(riskification)”治理,他將其定義為“從數(shù)據(jù)處理的形式合法性和對公司行使權(quán)利的有限邊界”向“在不確定的情況下管理技術(shù)創(chuàng)新的‘強制自律’模式”的轉(zhuǎn)變?!?7#〕實際上,風險已成為數(shù)據(jù)保護領(lǐng)域的一個新邊界,也是決定在特定情況下是否需要額外的法律和程序保障的一個關(guān)鍵指標,以保護數(shù)據(jù)主體免受特定數(shù)據(jù)處理活動產(chǎn)生的潛在負面影響。〔48#〕在我國,“風險”一詞在網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法、個人信息保護法和網(wǎng)絡(luò)數(shù)據(jù)安全管理條例(征求意見稿)中共出現(xiàn)了51次。然而,這些法律規(guī)范雖然新增了風險評估與風險管理機制,但“基于風險的方法”卻仍然沒有為數(shù)據(jù)處理者和行政監(jiān)管提供有效范式。
現(xiàn)有立法在宏觀上構(gòu)建了風險管理的大方向,亟須在實踐中構(gòu)建“將問題、事件和損害描述為風險”的步驟。實質(zhì)性風險的認定標準只能從個例出發(fā)進行判斷,本文即試圖通過總結(jié)既有數(shù)據(jù)抓取司法案例,識別網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)過程中的典型場景及其法律風險,并基于風險的方法對可預期的法律風險進行動態(tài)控制與防范,以便為數(shù)據(jù)處理者提供數(shù)據(jù)抓取領(lǐng)域風險控制的合規(guī)重點,同時為監(jiān)管機構(gòu)提供風險評估指南,進一步選擇需要優(yōu)先評估和重點監(jiān)管的高風險數(shù)據(jù)處理行為。
四、網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的法律風險管理框架
本文以爬蟲的法律含義———“數(shù)據(jù)收集”為中心,將爬蟲抓取數(shù)據(jù)的過程分為數(shù)據(jù)收集前、數(shù)據(jù)收集中和數(shù)據(jù)收集后三個階段,以此構(gòu)建爬蟲法律風險管理框架。
(一)數(shù)據(jù)收集前:數(shù)據(jù)分類分級下的風險管理
數(shù)據(jù)安全法第22條要求建立“數(shù)據(jù)安全風險評估機制”,這不僅要求數(shù)據(jù)處理者有效應(yīng)對數(shù)據(jù)安全風險,更要求監(jiān)管者協(xié)調(diào)有關(guān)部門加強重要數(shù)據(jù)的保護。本文參考《網(wǎng)絡(luò)安全標準實踐指南———網(wǎng)絡(luò)數(shù)據(jù)分類分級指引》(簡稱《指南》)對數(shù)據(jù)進行分類分級,并在此基礎(chǔ)上基于風險的方法評估不同數(shù)據(jù)可能涉及的風險等級。
從數(shù)據(jù)分類的視角出發(fā),由于數(shù)據(jù)抓取場景下被抓取一方往往是企業(yè)的網(wǎng)站數(shù)據(jù),根據(jù)《指南》中對組織經(jīng)營數(shù)據(jù)的分類,將數(shù)據(jù)分類為用戶數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、經(jīng)營管理數(shù)據(jù)和系統(tǒng)運行與安全數(shù)據(jù)。
《指南》將用戶數(shù)據(jù)定義為企業(yè)在開展業(yè)務(wù)過程中從個人用戶收集的數(shù)據(jù)或在服務(wù)過程中歸屬于用戶的數(shù)據(jù),其中包括個人信息。當抓取對象為個人信息時,應(yīng)考慮到個人信息保護法第13條第2款規(guī)定的個人信息收集的“知情-同意”原則,若數(shù)據(jù)抓取者并未清晰地告知用戶并經(jīng)用戶明確同意便利用爬蟲抓取其個人信息,則違反個保法中有關(guān)個人信息收集的相關(guān)規(guī)定,構(gòu)成違法行為,情節(jié)嚴重時構(gòu)成“侵犯公民個人信息罪”。典型如馬某編寫爬蟲程序竊取App網(wǎng)站用戶包括姓名、聯(lián)系方式等個人信息約20萬條,非法獲利2.4萬元,最終法院認定該情形下構(gòu)成侵犯公民個人信息罪?!?9.〕
業(yè)務(wù)數(shù)據(jù)是指在業(yè)務(wù)生產(chǎn)過程中收集和產(chǎn)生的非用戶類數(shù)據(jù),被抓取對象包括具有競爭權(quán)益的業(yè)務(wù)數(shù)據(jù)以及涉著作權(quán)數(shù)據(jù)。當抓取對象為涉著作權(quán)數(shù)據(jù)時,抓取方可能構(gòu)成侵犯著作權(quán),情節(jié)嚴重者同樣將落入刑法的規(guī)制框架。有兩類典型不法爬蟲行為樣態(tài):一是數(shù)據(jù)抓取者以網(wǎng)絡(luò)傳播為目的,利用爬蟲抓取公開的涉著作權(quán)內(nèi)容并直接將其“復制”公開提供;二是通過深度鏈接的技術(shù)手段提供內(nèi)容,并使得用戶無法區(qū)分內(nèi)容的真實網(wǎng)站來源。在刑法和著作權(quán)法的交叉領(lǐng)域,關(guān)于后者是否構(gòu)成信息網(wǎng)絡(luò)傳播行為,司法中存在不同標準。在段某侵犯著作權(quán)案中,〔50.〕被告人利用爬蟲技術(shù)收集大量影視資源并上架個人網(wǎng)站,該網(wǎng)站則起到聚合、鏈接作品內(nèi)容的作用。該案中,法院將該行為視為發(fā)行,因而構(gòu)成侵犯著作權(quán)罪;但在另一案件中,〔51.〕法院認為信息網(wǎng)絡(luò)傳播應(yīng)采用“服務(wù)器標準”,即深層鏈接行為不該被認定為信息網(wǎng)絡(luò)傳播行為。因此,在刑法和著作權(quán)法領(lǐng)域,存在技術(shù)標準認定沖突問題。具有競爭權(quán)益的業(yè)務(wù)數(shù)據(jù)是指在商業(yè)中可以構(gòu)成企業(yè)競爭優(yōu)勢的數(shù)據(jù)。例如,在大眾點評案、〔52#〕微博訴脈脈案中,〔53#〕法院均認定被告作為數(shù)據(jù)處理者未經(jīng)網(wǎng)站許可抓取并使用原告網(wǎng)站數(shù)據(jù)的行為,違背誠實信用原則,損害了原告既有的競爭優(yōu)勢,構(gòu)成不正當競爭行為。針對具有競爭權(quán)益的業(yè)務(wù)數(shù)據(jù), 司法實踐中往往通過反不正當競爭法中的一般原則條款對不當數(shù)據(jù)使用行為加以規(guī)制。丁曉東認為對于惡意抓取企業(yè)公開數(shù)據(jù)并搭便車的行為,反不正當競爭法的一般原則條款可以場景化地判定數(shù)據(jù)使用爭議,因而優(yōu)于其他傳統(tǒng)私法路徑;〔54#〕而劉琳更強調(diào)反不正當競爭法第2條的不穩(wěn)定性與滯后性的弊端, 為了防止對一般原則條款的濫用, 應(yīng)在第二章對商業(yè)數(shù)據(jù)“搭便車”的行為進行單獨列舉,明確禁止利用爬蟲等技術(shù)手段抓取企業(yè)商業(yè)數(shù)據(jù)并破壞他人的競爭利益?!?5#〕
經(jīng)營管理數(shù)據(jù)是指機構(gòu)經(jīng)營管理過程中收集和產(chǎn)生的數(shù)據(jù),如經(jīng)營戰(zhàn)略、財務(wù)數(shù)據(jù)等,若屬于不為公眾所知悉、能為權(quán)利人帶來經(jīng)濟利益的數(shù)據(jù)則屬于商業(yè)秘密。抓取對象為商業(yè)秘密時,往往存在內(nèi)部職務(wù)越權(quán)的情形,因為商業(yè)秘密顯然不可能以公開數(shù)據(jù)的方式存在,一般依賴破壞性技術(shù)手段或“越權(quán)登錄+抓取”的方式實現(xiàn),因此只有通過技術(shù)的“侵入性”才能實現(xiàn)對數(shù)據(jù)處理者權(quán)益的侵害,即具備“對象不法”和“技術(shù)不法”的雙重違法性。根據(jù)《反不正當競爭法》第9條,爬蟲應(yīng)當屬于獲取他人商業(yè)秘密的不正當手段之一,即已經(jīng)構(gòu)成侵犯商業(yè)秘密,后續(xù)是否對該商業(yè)秘密公開、泄露、使用都不影響侵犯商業(yè)秘密行為已然構(gòu)成的事實。如果數(shù)據(jù)處理者使用侵入式或破壞性的爬蟲,獲取到不為公眾知悉且具有商業(yè)價值的數(shù)據(jù),則涉及侵犯商業(yè)秘密的風險。
系統(tǒng)運行和安全數(shù)據(jù)主要存在于計算機系統(tǒng)內(nèi)部,僅能通過侵入型爬蟲技術(shù)進行抓取,因此該部分法律風險實質(zhì)上是由技術(shù)的侵入性引起的,下文將展開論述。
當然,待抓取對象為上述具有特殊法益需要保護的數(shù)據(jù)時,并不必然構(gòu)成違法犯罪行為。例如,上文提到的迅雷訴豌豆莢一案,豌豆莢作為全網(wǎng)搜索視頻軟件,法律不應(yīng)苛責其審查義務(wù),因而豌豆莢不構(gòu)成侵犯信息網(wǎng)絡(luò)傳播權(quán)。以涉著作權(quán)數(shù)據(jù)作為待抓取對象時,可以將爬蟲技術(shù)〔56#〕拆解為瀏覽階段、下載階段和使用階段進行分析。在爬蟲瀏覽或稱之為遍歷網(wǎng)頁階段,爬蟲實質(zhì)上在模擬真實用戶瀏覽網(wǎng)頁,就技術(shù)而言,該過程相當于爬蟲與網(wǎng)頁數(shù)據(jù)的“接觸”,在我國著作法保護“接觸控制行為”的正當性存在極大爭議,也不存在所謂的“接觸權(quán)”,〔57#〕因此該階段并不涉及侵害著作權(quán)的風險。在爬蟲下載數(shù)據(jù)階段,實質(zhì)上是作品的復制過程,但該過程與“緩存”所對應(yīng)的“臨時復制”有所不同,爬蟲使用者復制作品的意圖明確為“主動復制”,因而受到著作權(quán)法中關(guān)于復制權(quán)的約束與規(guī)制。在使用階段,應(yīng)當充分考慮著作權(quán)法中關(guān)于“合理使用”的規(guī)定以防止對著作權(quán)的過度保護,這主要包括私人復制、公務(wù)復制和社會復制等合理使用類型,〔58#〕合理使用以外的情形,作品的傳播行為應(yīng)受到侵犯信息網(wǎng)絡(luò)傳播權(quán)的規(guī)制。以公民個人信息為抓取對象時,若屬于用戶自愿公開的一般個人數(shù)據(jù),且未設(shè)置防抓取技術(shù)措施的前提下,首先應(yīng)當允許被爬蟲抓取,其次在權(quán)限范圍內(nèi)以提高效率為目的利用爬蟲收集個人信息的行為也不應(yīng)認定其違法性,即在實質(zhì)上數(shù)據(jù)抓取行為對法益的侵害或威脅并未達到實質(zhì)違法犯罪的程度?!?9#〕
在此基礎(chǔ)上,考慮影響對象、影響程度兩個要素進行分級風險評估,可以將數(shù)據(jù)劃分為核心數(shù)據(jù)、重要數(shù)據(jù)和一般數(shù)據(jù)三個等級。在流程方面,數(shù)據(jù)處理者應(yīng)首先考慮是否為核心數(shù)據(jù)、重要數(shù)據(jù),再依據(jù)一般數(shù)據(jù)的不同細分等級制定不同的風險合規(guī)措施,針對核心數(shù)據(jù)要嚴格管理,針對重要數(shù)據(jù)要重點保護,一般數(shù)據(jù)則采用全流程的分級保護措施。
核心數(shù)據(jù)和重要數(shù)據(jù)均指對國家安全或公共安全可能造成相應(yīng)危害的數(shù)據(jù),只是危害程度上有所差異,前者具有較高的風險等級,故應(yīng)采用最完善的合規(guī)措施和最嚴格的監(jiān)管控制。《指南》認為,基于海量個人信息形成的統(tǒng)計數(shù)據(jù)、衍生數(shù)據(jù)也有可能屬于重要數(shù)據(jù)。當數(shù)據(jù)涉及大量個人信息時,也具有侵害國家安全的風險。例如,2022年7月21日,國家互聯(lián)網(wǎng)信息辦公室公布對滴滴公司依法作出網(wǎng)絡(luò)安全行政處罰的決定,認為滴滴公司在經(jīng)營過程中存在過度收集個人信息和精準位置信息等情形,且存在嚴重影響國家安全的數(shù)據(jù)處理活動?!?0<〕根據(jù)司法解釋,對“公民個人信息”的概念界定并未要求具有隱秘性,因此公民個人信息可以以公開數(shù)據(jù)的形式存在,在刑事規(guī)制的視角下,侵犯公民個人信息罪中的“公民個人信息”包含公開信息?!?1<〕當爬蟲的抓取目標是個人信息時,首先應(yīng)明確數(shù)據(jù)處理者無論是否利用爬蟲手段收集個人信息均需在個人信息保護法的框架下進行。因此當企業(yè)需要利用爬蟲抓取公開的個人信息時,首先應(yīng)考量是否為公民自愿公開的個人信息即是否落實“告知-同意”的要求,尤其是若待抓取對象為敏感數(shù)據(jù),更要征得被收集人的明示同意。合法收集的個人信息是爬蟲合規(guī)的前提,在此基礎(chǔ)上,大量抓取個人信息應(yīng)當是具有一定的數(shù)據(jù)保護能力。
一般數(shù)據(jù)是指對國家安全和公共安全無危害, 但可能損害個人或組織合法權(quán)益的數(shù)據(jù),《指南》指出應(yīng)采用全流程的分級保護措施保護,因此一般數(shù)據(jù)可能引起的法律風險,應(yīng)當綜合考慮行為性質(zhì)進行風險評估。以大眾點評訴百度地圖不正當競爭案為例,法院從主體關(guān)系、行為性質(zhì)和因果關(guān)系三個方面來判定百度地圖是否構(gòu)成不正當競爭?!?2<〕法院在認定百度公司的行為性質(zhì)時,重點評述了以下幾個事實:一是大眾點評被抓取的數(shù)據(jù)屬于其核心競爭資源,二是百度使用爬蟲的行為違背了商業(yè)道德,三是百度的行為對大眾點評的經(jīng)營業(yè)務(wù)足以形成實質(zhì)性替代。因此,該行為不僅破壞了商業(yè)市場的競爭環(huán)境,亦損害了消費者的福祉,該爬蟲抓取數(shù)據(jù)的行為構(gòu)成不正當競爭行為。本文認為,數(shù)據(jù)使用行為具有不正當性是爬蟲不法的必要條件,即不能“一刀切”地禁止對公開經(jīng)營數(shù)據(jù)的抓取,應(yīng)當考慮到雙方主體的競爭關(guān)系、主體體量、數(shù)據(jù)性質(zhì)和數(shù)量、使用目的等情景綜合判斷,法律應(yīng)當對具有強大經(jīng)濟實力的企業(yè)的有害行為進行行政監(jiān)管來保護競爭過程,而不是禁止特定類型的行為?!?3<〕若爬蟲抓取非競爭關(guān)系企業(yè)的經(jīng)營數(shù)據(jù),利用抓取到的數(shù)據(jù)進行創(chuàng)造性使用,則數(shù)據(jù)使用行為沒有侵害被抓取企業(yè)的利益,也沒有侵害消費者和公共利益,應(yīng)當認定為爬蟲的合理使用?!?4<〕
(二)數(shù)據(jù)收集中:對于爬蟲抓取技術(shù)的風險管理
由抓取技術(shù)引起的法律風險主要是指由于技術(shù)的不當使用或幫助不當使用的行為所帶來的風險,以及侵害被抓取方的計算機系統(tǒng)或帶來安全風險,具體可以將該行為細分為爬蟲技術(shù)的侵入與防侵入行為、破壞行為和提供行為。
1.爬蟲的侵入與防侵入行為
侵入與防侵入行為主要包括三種行為樣態(tài):違反robots協(xié)議的抓取與防抓取行為、突破反爬蟲技術(shù)措施的侵入與防侵入行為、利用授權(quán)登錄系統(tǒng)后的數(shù)據(jù)抓取行為。
首先,違反robots協(xié)議數(shù)據(jù)抓取行為是指未經(jīng)被抓取方授權(quán),或抓取方違反robots協(xié)議的公示可抓取范圍而抓取數(shù)據(jù)的行為。該情景下,爬蟲技術(shù)違反《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》第17條第2款的規(guī)定,屬于“違反行業(yè)自律公約利用自動化工具訪問、收集數(shù)據(jù)”的行為。同時,該行為也受反不正當競爭法第2條的約束,即認定為構(gòu)成“違反誠實信用原則和商業(yè)道德”的技術(shù)手段,如在騰訊訴字節(jié)跳動案中,〔65A〕字節(jié)跳動公司通過規(guī)避robots而抓取大量數(shù)據(jù)信息,法院認為字節(jié)跳動的爬蟲行為即違反了上述規(guī)范, 是不正當競爭的違法行為。辯證地看, 僅僅突破robots協(xié)議的手段并不當然具有不正當性。robots協(xié)議的強制力在不同的行業(yè)領(lǐng)域中也有所區(qū)分。在搜索引擎領(lǐng)域,被抓取一方無正當理由利用robots協(xié)議設(shè)置數(shù)據(jù)抓取白名單進而排除其他搜索引擎抓取的行為在競爭法領(lǐng)域具有不正當性。在搜索引擎以外的行業(yè)中,該行為并不能說明robots協(xié)議違反商業(yè)道德。在360訴百度一案中,〔66A〕百度設(shè)置robots白名單限制360使用爬蟲抓取數(shù)據(jù),法院認為針對百度所設(shè)置白名單將360排除在外的行為缺乏合理、正當?shù)睦碛?,違反搜索引擎領(lǐng)域中的商業(yè)道德,構(gòu)成不正當競爭;而在另一起不正當競爭案中,〔67A〕微博將頭條設(shè)置為robots黑名單阻礙其使用爬蟲抓取數(shù)據(jù),法院則認為設(shè)置robots協(xié)議黑名單的行為沒有違反商業(yè)道德,而是經(jīng)營自決權(quán)的體現(xiàn)。因此,同樣是利用robots協(xié)議限制爬蟲的數(shù)據(jù)抓取行為卻有不同的法律后果,這是因為robots協(xié)議并非各個行業(yè)的商業(yè)道德,僅在搜索引擎領(lǐng)域具有較強的行業(yè)準則效力。〔68A〕因此,在判斷數(shù)據(jù)處理者設(shè)置robots協(xié)議的正當性時,應(yīng)結(jié)合具體場景進行綜合判斷, 例如雙方主體的經(jīng)營領(lǐng)域和商業(yè)地位、robots協(xié)議限制的技術(shù)方式、robots協(xié)議的限制對商業(yè)環(huán)境和消費者福利的影響等?!?9A〕
其次,突破反爬蟲技術(shù)相較于違反robots協(xié)議則更具有侵入性,強行突破網(wǎng)站設(shè)置反爬蟲技術(shù)措施,情節(jié)嚴重的行為可能落入刑法的規(guī)制框架。刑法第285條規(guī)定不得采用其他技術(shù)手段獲取計算機信息系統(tǒng)中存儲的數(shù)據(jù)。如果網(wǎng)站運營者已經(jīng)采取了一定的反爬蟲措施,而爬蟲強行突破網(wǎng)站運營者采取的反爬蟲技術(shù)措施,并客觀影響到被抓取網(wǎng)站的正常運行,則可能構(gòu)成上述規(guī)定所規(guī)制的犯罪行為。那么,所有突破反爬蟲技術(shù)措施的手段都被認為具有不正當性嗎? 本文認為是否定的,常見的反爬蟲技術(shù)有加密算法、驗證程序、IP訪問限制、驗證碼措施等?!?0A〕在“車來了”一案中,〔71A〕法院認定突破加密算法的爬蟲具有不正當性;在“極致了”網(wǎng)站抓取“微信公眾號平臺”文章一案中,〔72A〕法院認為突破IP訪問限制的手段具有不正當性;在智聯(lián)招聘訴51Job案中,法院認為通過設(shè)置程序讀取驗證碼不屬于破解技術(shù)措施?!?3A〕因此,有些網(wǎng)站通過JS腳本如設(shè)置驗證碼、滑動解鎖等方式限制爬蟲的抓取,但該類措施是爬蟲限制性措施而非禁止性措施,主觀上更多是為了降低爬蟲對網(wǎng)站運營帶來的負擔,且網(wǎng)站經(jīng)營者對該技術(shù)較易突破的現(xiàn)狀應(yīng)當有一定的認知,因此被抓取方主觀上對數(shù)據(jù)的保護意志并非很強。從客觀技術(shù)層面而言,突破驗證碼抓取數(shù)據(jù)的方式并未侵入被抓取方服務(wù)器中,依然是模仿真實用戶進行抓取的行為,并不產(chǎn)生對被抓取方的系統(tǒng)安全造成影響的風險。此外,若網(wǎng)絡(luò)爬蟲技術(shù)僅違反robots協(xié)議但并沒有突破反爬蟲技術(shù)措施的抓取行為是否具有違法性?關(guān)于爬蟲協(xié)議的性質(zhì),大致有行業(yè)慣例說(或稱為商業(yè)道德說)、技術(shù)標準說和單方意思表示說三大類。〔74A〕本文認為,robots協(xié)議難以作為爬蟲違法性標準,盡管在司法實踐中,搜索引擎行業(yè)中繞過被訪問網(wǎng)站的爬蟲協(xié)議獲取數(shù)據(jù)的行為可能因違反反不正當競爭法第2條一般條款而構(gòu)成不正當競爭, 但其實質(zhì)是由于數(shù)據(jù)抓取方對數(shù)據(jù)的不當使用造成的,并非由抓取行為違反robots協(xié)議導致,則難以認定該行為的不法性。若賦予robots協(xié)議法律效力,則相當于給予大型互聯(lián)網(wǎng)平臺絕對權(quán)力,易形成行業(yè)壟斷,會阻礙數(shù)據(jù)的流通與共享。因此,僅違反robots協(xié)議的爬蟲不能當然認定其具有違法性,應(yīng)當結(jié)合robots協(xié)議本身的正當性、數(shù)據(jù)的使用目的等因素綜合判斷爬蟲行為的風險。
再次,抓取方利用授權(quán)登錄系統(tǒng)后的數(shù)據(jù)抓取行為,是指數(shù)據(jù)抓取者在擁有單位提供的賬號、密碼的情況下,合法登錄之后使用網(wǎng)絡(luò)爬蟲收集由單位所保存的非公開的數(shù)據(jù)。法院認為該行為屬于違背他人意愿對計算機信息系統(tǒng)的侵入,如在馬某等非法獲取計算機信息系統(tǒng)數(shù)據(jù)案中,〔75/〕馬某在未經(jīng)用戶同意且無網(wǎng)站授權(quán)的前提下, 擅自利用云盤搜索爬蟲抓取百度網(wǎng)盤的分享鏈接和提取碼,并將其置于自己的網(wǎng)站上公開提供給其他用戶進行牟利活動,法院認定該爬蟲行為屬于“其他技術(shù)手段”獲取計算機信息系統(tǒng)數(shù)據(jù)的行為,且由于爬蟲抓取數(shù)據(jù)量巨大,情節(jié)嚴重,認定其構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪。
2.破壞行為
破壞行為是指非法對計算機信息系統(tǒng)功能的破壞或?qū)ζ渲写鎯Φ臄?shù)據(jù)和應(yīng)用程序的破壞。由于不加控制地利用網(wǎng)絡(luò)爬蟲技術(shù),導致頻繁的大規(guī)模訪問超過了服務(wù)器的承載限度造成網(wǎng)站崩潰的行為,該行為可能違反《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》第17條關(guān)于數(shù)據(jù)處理者使用自動化工具收集數(shù)據(jù)的規(guī)定,和網(wǎng)絡(luò)安全法第27條“干擾他人網(wǎng)絡(luò)正常功能”的規(guī)定。當該行為達到能影響公共秩序的程度,〔76/〕則可能違反刑法第286條“破壞計算機信息系統(tǒng)罪”的有關(guān)規(guī)定?!?7/〕
由于具有“侵入性”與“破壞性”的爬蟲使用者主觀惡性十分明顯且后果嚴重,因而無論抓取者是何目的,也無論其是否抓取到數(shù)據(jù),均會落入刑事管制范圍內(nèi)。例如,只要爬蟲使用者未經(jīng)授權(quán)擅自進入或侵入特定的計算機信息系統(tǒng)中,即使尚未利用爬蟲抓取該系統(tǒng)的數(shù)據(jù),也已然構(gòu)成犯罪行為。若侵入非特定保護的計算機信息系統(tǒng)當中,破壞性爬蟲干擾服務(wù)器正常運行造成嚴重后果,也可能構(gòu)成破壞計算機信息系統(tǒng)罪。
3.提供行為
提供行為是指提供爬蟲技術(shù)或提供突破反爬蟲措施技術(shù)的行為,該行為涉及《網(wǎng)絡(luò)安全法》第27條關(guān)于提供侵入網(wǎng)絡(luò)程序、工具的規(guī)定,以及刑法規(guī)定的“提供侵入計算機信息系統(tǒng)程序、工具罪”。典型案例如“快啊答題”販賣驗證碼識別服務(wù)案,〔78/〕李某與楊某創(chuàng)建“快啊答題”平臺,有償提供批量圖文驗證碼識別服務(wù)。該技術(shù)可以快速、批量實現(xiàn)對騰訊公司服務(wù)器下發(fā)圖文驗證碼的識別,以完成騰訊QQ密碼的驗證。后眾多軟件用戶以向“快啊答題”平臺充值的形式有償使用上述程序,并侵入騰訊公司服務(wù)器。法院認為,被告雖然不清楚這些原始數(shù)據(jù)的來源和用途,但會意識到正常情況下不會有那么多原始數(shù)據(jù)需要識別,即存在犯罪故意,因此被認定為提供侵入計算機信息系統(tǒng)程序、工具罪。爬蟲技術(shù)提供行為的風險主要依附于真正使用者對爬蟲技術(shù)的使用是否合法,明知是違法組織或活動而為其提供爬蟲技術(shù)的行為應(yīng)當被列為禁止行為。
(三)數(shù)據(jù)收集后:數(shù)據(jù)使用目的的風險管理
數(shù)據(jù)使用目的是對數(shù)據(jù)抓取的實質(zhì)正當性要求,可以通過對數(shù)據(jù)使用目的正當性的判定不斷調(diào)控數(shù)據(jù)安全與數(shù)據(jù)流通的利益平衡。數(shù)據(jù)使用目的看似已脫離爬蟲技術(shù)可能引起法律風險的范圍,但爬蟲使用者利用爬蟲的目的正是為了實現(xiàn)數(shù)據(jù)使用的目的,因此對數(shù)據(jù)使用目的正當性的要求也可表達為對爬蟲技術(shù)使用的正當性要求。
“正當使用”的概念最先應(yīng)用于商標法領(lǐng)域。商標法“正當使用”制度的立法目的是以保護公眾的正當使用為本位,防止商標權(quán)人濫用權(quán)利導致公眾不能自由地使用公共信息資源。〔79/〕與之類似,著作權(quán)法領(lǐng)域也存在“合理使用”制度,該制度保障公眾對作品的合理接近,從根本上反映出對公眾利益的關(guān)注。〔80#〕在個人信息保護領(lǐng)域同樣規(guī)定了“合理使用”制度,旨在基于公共利益的角度對人格權(quán)益進行一定的限制。個人信息保護法第13條規(guī)定了個人信息合理使用的五種情形,程嘯教授將其總結(jié)為三項:一是為維護公共利益,二是為保護個人合法權(quán)益,三是處理已經(jīng)合法公開的個人信息。〔81#〕商標權(quán)、著作權(quán)和個人信息權(quán)益都采用“強保護”的制度設(shè)計對該部分信息進行專門的法律保護,即以保護為前提兼顧信息數(shù)據(jù)的分享。而對于不具有特殊權(quán)益內(nèi)容需要保護的數(shù)據(jù)而言,法律的保護強度應(yīng)弱于類型化保護的數(shù)據(jù),即應(yīng)以信息數(shù)據(jù)的分享為前提兼顧利益保護。可以說,“合理使用”制度或“正當使用”制度在此語境下并不等同于“使用具有正當性”,前者是指為了公共利益對個人權(quán)益作出的犧牲,而后者是在并無法定權(quán)益需要保護的前提下,所作出的對公共利益和個人(或組織)利益的平衡。因而,在明晰一般公開數(shù)據(jù)的“合理使用”標準時,應(yīng)以禁止性規(guī)定為底線,界定數(shù)據(jù)“不合理使用”的情形,底線以上均可稱之為合理使用。因此數(shù)據(jù)使用目的的正當性體現(xiàn)為兩個方面:一是不損害國家安全、公共利益;二是不損害公民、組織合法權(quán)益。
綜上所述,本文構(gòu)建爬蟲法律風險管理框架可總結(jié)如表2。
(四)風險管理的主體:數(shù)據(jù)處理者與監(jiān)管者的協(xié)同
基于風險的方法對數(shù)據(jù)處理者和監(jiān)管者兩方主體都將起到指導作用。Macenaite認為“風險管理”概念在歐盟數(shù)據(jù)治理中的重要性正急劇增長,并帶來了兩個轉(zhuǎn)變,一是在實踐層面上轉(zhuǎn)向基于風險的數(shù)據(jù)保護的實施與合規(guī),二是在更廣泛的監(jiān)管層面上轉(zhuǎn)向風險監(jiān)管?!?2#〕簡言之,基于風險的方法需要數(shù)據(jù)處理者和監(jiān)管者雙主體的協(xié)同參與。原因在于,基于算法的不透明性和技術(shù)的專業(yè)性、復雜性,數(shù)據(jù)監(jiān)管者單方作為規(guī)制主體的監(jiān)管成本過高,數(shù)據(jù)處理者作為享受數(shù)據(jù)收益權(quán)的主體承擔與之匹配的社會義務(wù)具有正當性;同時,數(shù)據(jù)處理者所承擔的數(shù)據(jù)安全義務(wù)、技術(shù)安全注意義務(wù)應(yīng)當具有一定的范圍,過重的合規(guī)成本會阻礙數(shù)據(jù)的流通利用,政府或第三方機構(gòu)應(yīng)作為該種“強制自律”模式的監(jiān)管者和督促者,并合理分配主體之間的風險承擔。
以數(shù)據(jù)處理者和監(jiān)管者雙主體為坐標,可以將“基于風險的方法”細分為“基于風險的監(jiān)管”和“基于風險的合規(guī)”。兩者的相互協(xié)同是采用基于風險的方法的內(nèi)在應(yīng)有之義。
一是基于風險的監(jiān)管。將風險作為監(jiān)管工具使用,標志著“對風險的監(jiān)管”向“通過風險監(jiān)管”的轉(zhuǎn)變?!?3#〕這是一種有針對性的監(jiān)管模式,即依據(jù)風險評估賦予與數(shù)據(jù)處理者相對稱的義務(wù),或依據(jù)風險等級采用不同的監(jiān)管方式?!?4#〕簡言之,它允許根據(jù)相關(guān)風險的嚴重程度優(yōu)先考慮監(jiān)管執(zhí)行或標準制定?!?5#〕風險為監(jiān)管者提供了監(jiān)管對象,并且成為監(jiān)管活動正當化的依據(jù)。例如,歐洲議會全體會議于2023年6月14日表決通過的人工智能法案采用基于風險的監(jiān)管的方法, 將人工智能分為禁止型人工智能、高風險型人工智能、有限風險人工智能和無或低風險人工智能,其中對高風險型人工智能的參與者賦予更嚴格的全生命周期合規(guī)義務(wù), 規(guī)定了專門針對高風險型人工智能的風險管理系統(tǒng)條款?!?6#〕基于風險的監(jiān)管允許監(jiān)管機構(gòu)根據(jù)對受監(jiān)管者存在的風險進行評估,確定優(yōu)先事項并明確解釋其選擇性決策?!?7+〕在基于風險的監(jiān)管之下,監(jiān)管者將其監(jiān)管資源和監(jiān)管成本集中在風險最大和最有害的活動上,從而能夠解決更廣泛的合法性和問責問題。
二是基于風險的合規(guī)。政府作為監(jiān)管者受到信息不對稱的影響需要付出較高的監(jiān)管成本,需要將監(jiān)管責任一部分轉(zhuǎn)移至數(shù)據(jù)處理者,使之承擔相應(yīng)的合規(guī)義務(wù)。如歐盟《通用數(shù)據(jù)保護條例》所采用的基于風險的方法主要依賴于私人實體,即數(shù)據(jù)處理者,并在很大程度上委托他們對與其數(shù)據(jù)處理活動相關(guān)的社會風險進行詳細的定義、評估和管理,體現(xiàn)一定的自律性。〔88#〕有學者指出,在對監(jiān)管的深入理解下,可以將數(shù)據(jù)處理者本身視為從事基于風險的監(jiān)管機構(gòu)?!?9#〕數(shù)據(jù)安全法第四章明確規(guī)定了數(shù)據(jù)處理者的數(shù)據(jù)安全保護義務(wù),這即是基于風險的合規(guī),如第27條規(guī)定,開展數(shù)據(jù)處理活動應(yīng)當依照法律、法規(guī)的規(guī)定,建立健全全流程數(shù)據(jù)安全管理制度,組織開展數(shù)據(jù)安全教育培訓,采取相應(yīng)的技術(shù)措施和其他必要措施,保障數(shù)據(jù)安全。同時,本條第2款規(guī)定,要求重要數(shù)據(jù)處理者明確數(shù)據(jù)安全負責人和管理機構(gòu),落實數(shù)據(jù)安全保護責任。
本文認為,基于風險的方法的目標并非禁止所有具有風險損害行為或消除所有損害風險,而是從概率和成本的角度出發(fā),數(shù)據(jù)處理者對風險不同的技術(shù)措施予以不同的關(guān)注和合規(guī)措施,監(jiān)管者同樣應(yīng)基于數(shù)據(jù)處理行為風險的高低予以不同的監(jiān)管力度。在上述四個爬蟲風險場景下,數(shù)據(jù)處理者和監(jiān)管者應(yīng)當實施動態(tài)的合規(guī)制度和監(jiān)管措施。以數(shù)據(jù)處理者為例,首先,企業(yè)應(yīng)嚴格遵守爬蟲紅線,禁止任何確認違法的爬蟲行為。其次,除了一般的合規(guī)義務(wù)外,數(shù)據(jù)處理者進行高風險的數(shù)據(jù)抓取行為還要求構(gòu)建完善的事前合規(guī)評估、重大事件報告機制,建立詳細的風險管理流程機制,嚴格實施人員權(quán)限管理,對重要數(shù)據(jù)和核心數(shù)據(jù)的處理活動進行嚴格管理并留存記錄,不得以任何理由、任何方式對銷毀的核心數(shù)據(jù)和重要數(shù)據(jù)進行恢復;通過間接途徑獲取重要數(shù)據(jù)和核心數(shù)據(jù)的,應(yīng)當與數(shù)據(jù)提供方以簽署相關(guān)協(xié)議、承諾書等方式,明確雙方法律責任。再次,針對中風險的數(shù)據(jù)抓取行為,應(yīng)當具有數(shù)據(jù)質(zhì)量控制義務(wù)、數(shù)據(jù)安全保護義務(wù),同時具備爬蟲技術(shù)控制能力。
結(jié)論
網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)引發(fā)的爭議愈演愈烈,可以歸結(jié)為兩大原因:一是立法方面,傳統(tǒng)部門法具有一定的滯后性與被動性,行政法規(guī)制路徑存在邊界不清晰、難以和傳統(tǒng)部門法有效銜接等問題;二是司法方面,主要以傳統(tǒng)部門法為依據(jù),導致刑事領(lǐng)域?qū)ε老x概念的認定較技術(shù)領(lǐng)域有所擴張,競爭法領(lǐng)域則存在過于依賴原則性條款,商業(yè)道德的標準認定不明晰。面對以上立法與司法困境,本文認為應(yīng)以“基于風險的方法”作為爬蟲規(guī)制的路徑,形成基于風險的合規(guī)和基于風險的監(jiān)管。進而,通過歸納既有司法判例,并對不同數(shù)據(jù)抓取行為構(gòu)建流程化的風險場景識別框架,將其劃分為禁止行為、高風險、中風險、低風險或無風險四個風險等級,數(shù)據(jù)處理者對風險不同的技術(shù)措施予以不同的關(guān)注和合規(guī)措施,監(jiān)管者同樣應(yīng)基于數(shù)據(jù)處理行為風險的高低予以不同的監(jiān)管力度。該種“基于風險的方法”與我國數(shù)據(jù)安全法第29條規(guī)定開展數(shù)據(jù)處理活動應(yīng)當加強風險監(jiān)測的方法相吻合,可以為數(shù)據(jù)處理者和監(jiān)管者提供一個具體的風險管理指南,不僅為企業(yè)提供具有引導性、可操作性的數(shù)據(jù)抓取規(guī)則和合規(guī)目標,對可預期的法律風險進行動態(tài)的防范與控制,也使行政機關(guān)能夠?qū)︼L險較大的抓取行為進行全階段的有針對性監(jiān)管,以提高行政效能。