摘 要:人工智能聊天機器人ChatGPT橫空出世,瞬間成為全世界關(guān)注的焦點,全球用戶量激增的背后,也蘊含了人們對于個人信息安全的擔(dān)憂,特別是對敏感個人信息的保護問題。ChatGPT利用網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)數(shù)據(jù)引發(fā)合法性與合規(guī)性的爭議,算法黑箱的不透明性始終挑戰(zhàn)著數(shù)據(jù)處理透明化的原則,而深究沖突的本質(zhì),是人工智能時代下數(shù)據(jù)的自由流通、共享與敏感個人信息保護之間的矛盾。為此,在規(guī)范網(wǎng)絡(luò)爬蟲的使用、提高人工智能算法透明度的同時,也要加強對人工智能各個階段的監(jiān)管與問責(zé)以提高ChatGPT和類ChatGPT系統(tǒng)保護敏感個人信息的安全性和可信性。
關(guān)鍵詞:ChatGPT;人工智能;敏感個人信息;《個人信息保護法》
2022年11月,美國人工智能公司Open AI推出了人工智能聊天機器人程序ChatGPT。ChatGPT在正式上線的第一周用戶數(shù)量便突破百萬,兩個月內(nèi)全球活躍用戶數(shù)量破億,打敗TikTok(抖音海外版)和Instagram(照片墻),成為史上用戶數(shù)增速最快的應(yīng)用程序,被譽為“繼2016年打敗人類圍棋冠軍的AlphaGo之后,人工智能的又一重要突破”。并迅速引領(lǐng)新一代人工智能發(fā)展的浪潮。2023年初,微軟成功將ChatGPT接入其搜索引擎Bing中,在短短14個小時內(nèi)被推上了美國iOS下載總榜的第23名;幾乎同一時間,谷歌CEO官宣了其對標(biāo)ChatGPT的產(chǎn)品——巴德(Bard);Meta首席執(zhí)行官馬克·扎克伯格表示,他的目標(biāo)是讓Meta成為內(nèi)容生成式人工智能的領(lǐng)導(dǎo)者。國內(nèi)層面,百度、阿里巴巴等科技公司也正在投入大量人力物力研發(fā)類ChatGPT系統(tǒng)。
ChatGPT不僅代表了AIGC(AI Generated Content,人工智能內(nèi)容生成)技術(shù)的最新成果和當(dāng)前自然語言生成式AI發(fā)展的最高成就,而且?guī)砹松虡I(yè)模式的創(chuàng)新和產(chǎn)業(yè)結(jié)構(gòu)的升級;但同時以ChatGPT為代表的內(nèi)容生成式AI也在不斷挑戰(zhàn)著社會倫理的界限和數(shù)據(jù)安全的底線,ChatGPT需要在海量自然語言數(shù)據(jù)基礎(chǔ)上進(jìn)行訓(xùn)練,并使用機器學(xué)習(xí)算法生成與訓(xùn)練數(shù)據(jù)相似的新內(nèi)容。這些語料庫大部分來自互聯(lián)網(wǎng)抓取,原始數(shù)據(jù)的抓取是否合法?如何在人工智能時代實現(xiàn)數(shù)據(jù)的流通共享與個人信息的保護?本文將以ChatGPT的誕生、發(fā)展為切入口,探討ChatGPT沖擊之下如何保護敏感個人信息。
一、ChatGPT的基本概念和技術(shù)架構(gòu)
(一)何為ChatGPT
ChatGPT全稱為“Chat Generative Pre-trained Transformed”,是一款基于GPT-3.5語言模型的聊天機器人。ChatGPT可以處理自然語言,與用戶進(jìn)行溝通,當(dāng)用戶輸入指令(Prompt)后,它可以準(zhǔn)確理解用戶意圖,根據(jù)指令生成或長或短的回答,并可以與其他AIGC聯(lián)動,生成圖片、視頻等。ChatGPT不僅可以應(yīng)用于日常對話,還可以進(jìn)行語言翻譯、撰寫商業(yè)計劃書、法律咨詢和編寫代碼等活動,并且能夠敢于質(zhì)疑、承認(rèn)錯誤、拒絕不合理請求,做到與人類流暢且?guī)缀鯚o差別的交流。20世紀(jì)50年代,英國數(shù)學(xué)家圖靈提出“圖靈測試”,即處于密閉小屋內(nèi)的測試者通過打字分別與兩個測試對象進(jìn)行對話,其中一個測試對象是計算機,另一個則是活生生的人,測試者通過不斷提出問題、接收測試對象的回答來判斷小屋外是人還是計算機,如果計算機能夠非常好的模仿人類的回答而讓測試者產(chǎn)生了誤判,則代表通過了“圖靈測試”[1],ChatGPT被認(rèn)為是如今最接近“圖靈測試”的AI模型。
從ChatGPT輸入和輸出的邏輯來看,ChatGPT是在生成式預(yù)訓(xùn)練變換模型(Generative Pre-Trained Transformer,GPT)的底層技術(shù)之上,經(jīng)由不斷迭代發(fā)展而來的。GPT-1、GPT-2、GPT-3以及ChatGPT都是采用Transformer為核心結(jié)構(gòu)的模型,2018年Open AI公司推出的GPT-1,其參數(shù)量為1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約為5GB,而在2020年5月推出的GPT-3,參數(shù)量就已達(dá)到了驚人的1750億,預(yù)訓(xùn)練數(shù)據(jù)量約45TB,海量數(shù)據(jù)通過Transformer的“自注意力機制”(Self Attention)被GPT深度學(xué)習(xí),在無監(jiān)督訓(xùn)練模式下,得到通用的“預(yù)訓(xùn)練”版本模型。ChatGPT在GPT-3的基礎(chǔ)上,新加入RLHF(Reinforcement Learning from Human Feedback,人類反饋強化學(xué)習(xí)),通過人工對模型的多個回答進(jìn)行標(biāo)注排序,進(jìn)而形成了無限接近人類自身的回答。
(二)ChatGPT的模型基礎(chǔ)
1. 大規(guī)模語言模型
近年來,“大規(guī)模預(yù)訓(xùn)練+微調(diào)”已經(jīng)成為深度學(xué)習(xí)多領(lǐng)域處理目標(biāo)任務(wù)的新范式,預(yù)訓(xùn)練技術(shù)需要利用廣泛的文本數(shù)據(jù)訓(xùn)練深層網(wǎng)絡(luò)結(jié)構(gòu),并得到一個通用的大規(guī)模語言模型(Large Language Model,LLM)。語言模型是自然語言生成式AI的基礎(chǔ),它要求打造一個核心函數(shù)P,這個函數(shù)可以根據(jù)一個句子前面的所有單詞來計算下一個單詞出現(xiàn)的概率,把這些單詞的概率相乘,如果數(shù)值越大,則代表越接近人類的語言。自“神經(jīng)網(wǎng)絡(luò)”概念被提出以來,AI研究人員一直試圖在計算機中打造類人腦神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu),語言模型的提出讓人們開始探索“神經(jīng)網(wǎng)絡(luò)語言模型”(Neural Network Language Model,NNLM)的可能性。
2017年底,Google研究人員發(fā)表了里程碑式的論文:《Attention Is All You Need》,提出在機器翻譯上大量采用“自注意力機制”進(jìn)行深度學(xué)習(xí),“自注意機制”疊加所構(gòu)成的深度網(wǎng)絡(luò)也就是目前GPT和Bard等自然語言生成式AI的核心模型——Transformer?!白宰⒁饬C制”改變了過去人們在NNLM領(lǐng)域關(guān)注輸入要素與輸出要素之間關(guān)系的研究方向,將重點放在輸入要素或者輸出要素之間的內(nèi)在聯(lián)系機制上,以此為基礎(chǔ)的AI模型更能從邏輯上理解人類單詞之間的語義關(guān)系。同時,正是因為Transformer模型能夠計算出輸入元素之間的關(guān)聯(lián),它可以實現(xiàn)不需要標(biāo)注樣本的自我監(jiān)督式學(xué)習(xí),大大節(jié)省了預(yù)訓(xùn)練進(jìn)行人工標(biāo)注的金錢和時間成本。這也就是GPT能夠在短短幾年時間內(nèi)完成迭代,并將1750億參數(shù)作為其訓(xùn)練數(shù)據(jù)源的原因。
2. 人類反饋強化學(xué)習(xí)
GPT模型通過Transformer機制可以理解句子中各個單詞之間的邏輯關(guān)系,但是純粹基于Transformer機制來進(jìn)行學(xué)習(xí)未必能使AI了解人類Prompt真實的意圖,而且給出的答案也未必符合人類社會的公序良俗和語言習(xí)慣,Google-BERT和GPT-2就曾經(jīng)出現(xiàn)過生成有害答案的趨勢,因此ChatGPT在GPT-3的基礎(chǔ)之上加入了新的訓(xùn)練方法——人類反饋強化學(xué)習(xí)(RLHF)。
RLHF訓(xùn)練是通過人工標(biāo)注好的數(shù)據(jù)對GPT-3.5模型進(jìn)行微調(diào)(fine-tuned),對模型生成的答案進(jìn)行打分排序,高質(zhì)量的答案進(jìn)行獎勵(reward)、反饋錯誤的答案進(jìn)行懲罰,使ChatGPT可以模仿人類偏好,經(jīng)過反復(fù)迭代生成更高質(zhì)量的回答。因此,ChatGPT相較于其他問答式AI有著更強的道德約束性,當(dāng)被詢問到一些敏感或者超越道德邊界的問題時,ChatGPT基本都能察覺并且回避。但是,雖然ChatGPT通過RLHF進(jìn)行強化學(xué)習(xí),仍然存在生成錯誤或者偏見性答案的情況,并且ChatGPT在前期大規(guī)模預(yù)訓(xùn)練中抓取來自不同國家、不同平臺的海量信息,對全球數(shù)據(jù)安全帶來不小的沖擊。
二、敏感個人信息的概述和保護現(xiàn)狀
(一)敏感個人信息概述
1. 敏感個人信息的界定
在《個人信息保護法》出臺之前,我國并沒有對敏感個人信息的保護作特別規(guī)定,也沒有在個人信息中區(qū)分一般個人信息和敏感個人信息?!睹穹ǖ洹返?034條原則性地規(guī)定了“自然人的個人信息受法律保護”,雖然沒有直接采用敏感個人信息的概念,但在第2款列舉的受法律保護的個人信息中,可以看到身份證件號碼、生物識別信息、健康信息、行蹤信息等實質(zhì)上屬于敏感個人信息;第3款對“私密信息”作出了規(guī)定,私密信息與敏感個人信息存在交叉,所以實質(zhì)上也增強了對敏感個人信息的保護?!墩餍艠I(yè)管理條例》第14條規(guī)定征信機構(gòu)不得采集個人宗教信仰、血型、基因等個人信息,并且在第2款規(guī)定不得采集個人收入、存款、有價證券等信息,除非信息主體同意;《最高人民法院關(guān)于審理使用人臉識別技術(shù)處理個人信息相關(guān)民事案件適用法律若干問題的規(guī)定》從司法實踐的角度對人臉信息進(jìn)行保護。由此可見,盡管《個人信息保護法》首次提出“敏感個人信息”的概念并作出了具體、全面的規(guī)定,但是之前已經(jīng)有了立法和實踐的經(jīng)驗,而且對敏感個人信息的保護一直秉持“告知+同意”的處理原則。
《個人信息保護法》第28條通過“概括+列舉”的方式對敏感個人信息下定義,敏感個人信息是指一旦泄露或者被非法使用,容易導(dǎo)致自然人的人格尊嚴(yán)受到侵害或者人身、財產(chǎn)安全受到危害的個人信息,包括生物識別、宗教信仰、醫(yī)療健康等信息。該概念雖然是從敏感個人信息受到侵害時的認(rèn)定標(biāo)準(zhǔn)出發(fā)對敏感個人信息作出的界定,但也明確了敏感個人信息是與自然人的人格尊嚴(yán)或者人身財產(chǎn)安全具有密切聯(lián)系的個人信息[2],與一般個人信息進(jìn)行區(qū)分。
2. 敏感個人信息的保護路徑
(1)限定處理敏感個人信息的要件
因為敏感個人信息的特殊性,其處理一方面給信息主體帶來巨大風(fēng)險,另一方面又具有極高的利用價值和公共價值,因此幾乎沒有國家完全禁止個人信息處理者處理敏感個人信息,只是在立法價值上有所取舍。例如歐盟的《通用數(shù)據(jù)保護條例》(GDPR)和韓國的《個人信息保護法》都采用的是“一般禁止+例外”的模式;但是我國沒有采取這種模式,而是規(guī)定一般個人信息和敏感個人信息都可以處理,但是對敏感個人信息的處理作出特別規(guī)定,即必須滿足三要件——特定的目的、充分的必要性、采取嚴(yán)格保護措施。
《個人信息保護法》第6條規(guī)定:處理個人信息應(yīng)當(dāng)具有明確、合理的目的。這是處理個人信息的一般原則性規(guī)定,但是處理敏感信息在此基礎(chǔ)上還要求具有“特定目的”。特定目的意味著,個人信息處理者的職業(yè)或者活動決定了其能否為某一目的而處理該敏感個人信息[3],例如醫(yī)務(wù)人員只有在治療患者疾病時才能處理患者的醫(yī)療健康信息。
充分的必要性要求信息處理者處理敏感個人信息是實現(xiàn)其特定目的不可或缺的、必不可少的。例如金融理財服務(wù)提供者只有掌握了金融賬戶信息才能開展理財活動。相反,如果可以在不收集敏感個人信息的情況下也能實現(xiàn)特定目的,則不滿足此項要求。
敏感個人信息的不當(dāng)處理極易造成信息主體的人格權(quán)益和人身、財產(chǎn)權(quán)益受到侵害,因此在滿足特定目的、充分必要性的基礎(chǔ)之上,還需要對敏感個人信息進(jìn)行嚴(yán)格保護。所謂嚴(yán)格保護措施主要規(guī)定在《個人信息保護法》第五章中,個人信息處理者應(yīng)當(dāng)對一般個人信息和敏感個人信息進(jìn)行分類,并采取加密、去標(biāo)識化等安全技術(shù)措施,在處理敏感個人信息時,應(yīng)當(dāng)事前進(jìn)行評估和記錄處理情況。
(2)敏感個人信息處理中的“特別告知+單獨同意”規(guī)則
處理個人信息一般應(yīng)遵循“告知+同意”規(guī)定,但是處理敏感個人信息時,《個人信息保護法》為個人信息處理者強加了“特別告知”義務(wù)和取得信息主體“單獨同意”的規(guī)定。
《個人信息保護法》第17條規(guī)定了個人信息處理者告知義務(wù)的“一般規(guī)定”,第30條規(guī)定處理敏感個人信息時還需要另行告知處理的必要性和對個人權(quán)益的影響。一是處理的必要性,并不能由信息處理者自行決定處理是否必要,而是應(yīng)當(dāng)要求處理者將信息處理的必要性告知個人,由個人判斷信息處理是否必要;二是對個人權(quán)益的理解,個人權(quán)益是指個人享有的所有法律上賦予的權(quán)利,信息處理者在處理個人敏感信息時對個人權(quán)益帶來的或大或小的損害都應(yīng)及時告知,保障個人的知情權(quán)。
“單獨同意”意味著敏感信息的處理同意不能歸入一攬子授權(quán)之中,而是應(yīng)該將敏感個人信息區(qū)分開來,單獨告知并取得同意,這才是所謂的“單獨同意”。如果信息處理者將敏感個人信息同意與其他授權(quán)進(jìn)行捆綁,則該同意無效。
盡管法條對“告知+同意”有了明確規(guī)定,但是信息不對稱以及市場中消費者與商家地位的不平等,實踐中的“單獨同意”多數(shù)情況下流于形式,個人很難理解敏感個人信息帶來的風(fēng)險并做出選擇,“同意”的作用正在虛化和異化。目前必須針對大數(shù)據(jù)中越來越普遍的數(shù)據(jù)采集和信息爬取,完善“告知+同意”規(guī)則。
(二)比較法視角下敏感個人信息的保護
敏感個人信息的概念出現(xiàn)較早,20世紀(jì)70年代德國黑森州《個人資料保護法》和瑞典《資料法》中就曾出現(xiàn)過敏感資料的概念。但目前普遍認(rèn)為敏感個人信息的概念濫觴于1980年經(jīng)濟合作與發(fā)展組織(OECD)起草的《隱私保護與個人數(shù)據(jù)跨境流動準(zhǔn)則》(Guidelines on the Protection of Privacy and Transborder Flows of Personal Data,以下簡稱OECD《指南》)。OECD《指南》對敏感個人信息問題進(jìn)行了探討,但是最終并沒有進(jìn)行特別規(guī)定,因為OECD專家組認(rèn)為數(shù)據(jù)的敏感性來源于其所處的環(huán)境,因此對何謂敏感數(shù)據(jù)無法達(dá)成共識。
目前世界主要國家都對敏感個人信息作出特別保護,歐盟GDPR使用“特殊類型數(shù)據(jù)”這一概念;日本《日本個人信息保護法》將其稱為“需注意的個人信息”;美國聯(lián)邦層面至今尚未出臺有關(guān)個人信息的專門立法[4],只在零散的州法規(guī)以及各個行業(yè)的軟法中出現(xiàn)。這可能是因為敏感個人數(shù)據(jù)并不是一個達(dá)成普遍共識的法律術(shù)語,而且因為新類型敏感數(shù)據(jù)的層出不窮,其歸入與擇出標(biāo)準(zhǔn)也存在爭議[5]。
歐盟GDPR對個人信息進(jìn)行了分層處理,一是對一般個人信息的規(guī)定,包括種族、政治觀點、宗教信仰等,這些數(shù)據(jù)可以處理,但是不得泄露;二是個人敏感數(shù)據(jù),包括個人基因信息、生物特征信息這種可以識別到特定主體的信息,原則上禁止以識別為目的的處理;三是關(guān)于健康數(shù)據(jù)、性生活、性取向信息原則上禁止處理[6]。美國加利福尼亞州于2020年11月通過《加州隱私法案》(California Privacy Rights Act of 2020,CPRA),將敏感個人信息作為新的個人信息類別并單獨監(jiān)管,還規(guī)定了企業(yè)如果計劃收集或使用任何敏感個人信息,必須對個人進(jìn)行特別通知,并且個人可以要求企業(yè)停止出售、共享和使用這些信息。并且在金融領(lǐng)域、通信領(lǐng)域、教育領(lǐng)域都出臺了特定敏感信息法案。
由以上歐美立法經(jīng)驗可知,相對于一般信息,主要國家和地區(qū)的立法中均對敏感個人信息實行強化保護,這種強化保護是指信息處理者在處理有關(guān)敏感個人信息問題時,不僅要遵循法律關(guān)于一般個人信息使用的規(guī)定,而且還要提高注意義務(wù),遵守針對敏感個人信息保護的特別規(guī)定,在適用順序上,首先選擇適用敏感個人信息的保護規(guī)則。具體規(guī)范上,采用“一般禁止+例外”的立法模式,一方面,明確了禁止收集和處理的原則;另一方面,規(guī)定了嚴(yán)格限定的例外情形。
三、現(xiàn)實沖擊,ChatGPT與敏感個人信息保護之間的矛盾
(一)網(wǎng)絡(luò)爬蟲造成的數(shù)據(jù)爬取合法合規(guī)性風(fēng)險
ChatGPT訓(xùn)練大型語言模型所使用的數(shù)據(jù)主要依靠網(wǎng)絡(luò)爬蟲技術(shù)在互聯(lián)網(wǎng)爬取大量信息。根據(jù)OpenAI公司公開的文檔顯示,ChatGPT的原始訓(xùn)練集有至少60%的數(shù)據(jù)來自互聯(lián)網(wǎng)抓取,其來源包括博客平臺、維基百科、獨立網(wǎng)站等,這些數(shù)據(jù)都是由網(wǎng)絡(luò)爬蟲進(jìn)行技術(shù)支撐。網(wǎng)絡(luò)爬蟲本質(zhì)上是一段計算機程序或腳本,它按照一定的邏輯和算法規(guī)則自動爬取萬維網(wǎng)信息,并可以自動采集所有其能夠訪問到的頁面數(shù)據(jù),還可以對采集到的數(shù)據(jù)進(jìn)行后續(xù)的挖掘分析[7]。目前,爬蟲技術(shù)被廣泛地應(yīng)用于互聯(lián)網(wǎng)搜索引擎或其他網(wǎng)站,比如百度搜索引擎的爬蟲叫百度蜘蛛、360的爬蟲叫360Spider、搜狗的爬蟲叫Sougouspider。
但是,網(wǎng)絡(luò)爬蟲有其固有的缺點,特別是針對ChatGPT這種數(shù)據(jù)需求量巨大的AI模型,數(shù)據(jù)的采集難免會涉及個人信息,甚至可能是敏感個人信息,這些信息作為ChatGPT訓(xùn)練集的一部分,被反復(fù)迭代學(xué)習(xí),構(gòu)成對敏感個人信息的侵權(quán);而且這種大規(guī)模的采集數(shù)據(jù)也一般不可能滿足敏感個人信息“特別告知+單獨同意”的規(guī)定。盡管從OpenAI公開策略來看,其收集信息還是會遵循Robots協(xié)議(Robots Exclusion Protocol,爬蟲排除標(biāo)準(zhǔn)),但是Robots協(xié)議目前只是一種道德規(guī)范和行業(yè)標(biāo)準(zhǔn),并不具有法律效力,且OpenAI目前公布的隱私政策并沒有涉及它在數(shù)據(jù)采集階段如何保護個人敏感信息,因此ChatGPT收集的訓(xùn)練數(shù)據(jù)是否合法有待商榷。
(二)算法黑箱與數(shù)據(jù)處理透明化之間的矛盾
從一開始,人們制定數(shù)據(jù)保護法的目的就是構(gòu)建和限制對個人數(shù)據(jù)的處理,并使其對數(shù)據(jù)主體透明。1977年《德國聯(lián)邦數(shù)據(jù)保護法》第3節(jié)已經(jīng)規(guī)定了除非有法定依據(jù)或者征得了個人的同意,原則上禁止處理個人信息。此后這一數(shù)據(jù)處理方式得以沿用,并體現(xiàn)在《通用數(shù)據(jù)保護條例》(GDPR)中。我國《個人數(shù)據(jù)保護法》在一定程度上借鑒了GDPR,并且在敏感個人信息的處理上有更為嚴(yán)格的規(guī)定:個人信息處理者不僅要有明確、特定的目的和處理敏感個人信息的充分必要性,還要告知個人處理敏感個人信息的相關(guān)事宜并取得個人的單獨同意??傊F(xiàn)行的數(shù)據(jù)保護法的傳統(tǒng)目標(biāo)是使數(shù)據(jù)處理合理化,即只允許在法定基礎(chǔ)上、為特定目的、以透明的方式處理個人數(shù)據(jù)。用漢堡大學(xué)馬里昂·阿爾伯斯(Marion Albers)教授的話說:“整個方式的指導(dǎo)思想是,行動方針的決策過程幾乎完全可以通過法律手段加以預(yù)見、規(guī)劃和指導(dǎo)?!盵8]顯然,人工智能的發(fā)展與這一目標(biāo)相違背。
當(dāng)前常規(guī)的基于機器學(xué)習(xí)的人工智能通常要求輸入大量用于訓(xùn)練和測試的數(shù)據(jù)進(jìn)行深度學(xué)習(xí),最后輸出結(jié)果。這種算法運作雖然是由人類編寫,但是機器深度學(xué)習(xí)的過程卻是人類無法通過外部觀察獲知的,這也就是所謂的“算法黑箱”理論。算法應(yīng)用于生活的方方面面,算法黑箱作為難以消弭的弊端亦是接踵而來,算法的不透明性和不可解釋性引發(fā)開發(fā)者和消費者之間的信息不對稱,并帶來算法歧視和偏見[9]。人工智能的開發(fā)離不開算法,因此算法黑箱帶來的影響不可避免的波及人工智能領(lǐng)域,其中一個重要體現(xiàn)就是當(dāng)前人工智能與現(xiàn)行數(shù)據(jù)保護法的基本理念發(fā)生了沖突,特別是ChatGPT采用“自注意力機制”進(jìn)行深度學(xué)習(xí),也就是無監(jiān)督學(xué)習(xí)的情況下,即使是程序員,也無法理解人工智能獲得其結(jié)果的過程。敏感個人信息處理所需要的透明度與算法黑箱截然相反,《個人信息保護法》關(guān)于敏感個人信息的保護面臨著人工智能的部分失控和完全不可控的挑戰(zhàn)。
(三)數(shù)據(jù)開放與敏感個人信息受保護之間的矛盾
近年來,隨著數(shù)字經(jīng)濟的繁榮,對數(shù)據(jù)的獲取、共享和使用已經(jīng)成為增強經(jīng)濟發(fā)展和社會福祉的核心驅(qū)動力,數(shù)據(jù)的大規(guī)模流動與傳輸,已經(jīng)成為經(jīng)濟全球化背景下每個經(jīng)濟部門不可或缺的組成部分。在云端儲存大量的個人信息,甚至是敏感信息或關(guān)鍵信息,是以信息網(wǎng)絡(luò)為主要載體的數(shù)字經(jīng)濟時代發(fā)展的必然趨勢。ChatGPT與敏感個人信息保護之間的沖突,集中體現(xiàn)在數(shù)據(jù)處理方式的沖突,而究其本質(zhì),是一種在數(shù)字經(jīng)濟時代,數(shù)據(jù)越來越頻繁地被采集、流通、共享與敏感個人信息需要受到特殊保護之間的矛盾。
人工智能的發(fā)展要求數(shù)據(jù)傳輸?shù)目焖傩?、信息獲取的便捷性和調(diào)取的便利性。這一點也體現(xiàn)在ChatGPT對數(shù)據(jù)的采集和應(yīng)用中。而敏感個人數(shù)據(jù)保護則代表了一種信息領(lǐng)域的保守性。在信息技術(shù)和市場的雙重作用下,人們不可避免地被卷入數(shù)字的洪流,但是不能由此倒因為果的推斷出人們愿意為了數(shù)據(jù)的開放犧牲自身的敏感信息[10],正相反的是,數(shù)字經(jīng)濟越發(fā)展,個人信息保護的問題就越受到人們的關(guān)注與強調(diào)。實現(xiàn)信息開放與信息保護之間的平衡,不僅需要ChatGPT提高信息處理的透明度,也有賴于相關(guān)立法政策的出臺以及政府的監(jiān)管。
四、路徑探索,ChatGPT時代敏感個人信息的保護
(一)規(guī)范ChatGPT網(wǎng)絡(luò)爬蟲信息采集方式
ChatGPT運用網(wǎng)絡(luò)爬蟲采集原始訓(xùn)練庫中的數(shù)據(jù),目前飽受合法性的爭議。筆者認(rèn)為,規(guī)范網(wǎng)絡(luò)爬蟲信息采集行為,一方面需要OpenAI公司規(guī)范ChatGPT的網(wǎng)絡(luò)爬蟲技術(shù);另一方面需要數(shù)據(jù)被爬取方,即數(shù)據(jù)權(quán)利方積極采用“反爬”策略。
網(wǎng)絡(luò)爬蟲作為一種利用邏輯和算法自動爬取互聯(lián)網(wǎng)信息的計算機程序,想要保持其技術(shù)上的中立性,需要法律對其進(jìn)行合法性限定[11]。首先,網(wǎng)絡(luò)爬蟲應(yīng)保證只針對開放數(shù)據(jù)爬取,這不僅要求爬取對象上,網(wǎng)絡(luò)爬蟲不能采集具有非公開特性的敏感個人信息,也體現(xiàn)在技術(shù)手段上不能具有明顯的侵入性;其次,使用網(wǎng)絡(luò)爬蟲應(yīng)當(dāng)基于明確、合理的目的,ChatGPT官方可以公開其信息采集的目的、方式、手段、采集到的信息如何利用、保護等,在證明其網(wǎng)絡(luò)爬蟲技術(shù)符合法律規(guī)定的同時,緩解公眾對于信息安全問題的擔(dān)憂。
當(dāng)然,避免敏感個人信息被不當(dāng)爬取不僅需要數(shù)據(jù)爬取方規(guī)范網(wǎng)絡(luò)爬蟲的應(yīng)用,也需要數(shù)據(jù)被爬取方積極運用“反爬”策略。其一,因為OpenAI公司表示其會遵從Robots協(xié)議,因此可能會被ChatGPT網(wǎng)絡(luò)爬蟲爬取的網(wǎng)站、特別是內(nèi)含敏感個人信息的網(wǎng)站,可以充分利用Robots協(xié)議,引導(dǎo)或限制網(wǎng)絡(luò)爬蟲的爬取行為。其二,利用User-Agent限制網(wǎng)絡(luò)爬蟲,User-Agent指的是用戶在訪問網(wǎng)站時所使用的客戶端種類和版本[12],相當(dāng)于客戶端向網(wǎng)站站點表明身份的一種標(biāo)識,知名的爬蟲都有其固定的User-Agent,可以通過設(shè)置User-Agent黑名單來限制網(wǎng)絡(luò)爬蟲的訪問。
(二)打開黑箱,提高ChatGPT數(shù)據(jù)處理透明度
過去幾年,人工智能的不透明性已經(jīng)成為一個顯要的政治和社會議題。隨著人工智能對社會的影響逐步加深,公眾越發(fā)認(rèn)為那些監(jiān)管、使用或受人工智能影響的人們應(yīng)該對這項技術(shù)有足夠的了解。打開黑箱對于識別侵犯用戶敏感個人信息、發(fā)現(xiàn)偏見和防止其他潛在危害是必不可少的。目前各國紛紛出臺政策和立法文件,確立人工智能透明度的目標(biāo)。然而,我們也應(yīng)該認(rèn)識到的是,“完全”透明是不可能的、也不可取的。提高人工智能透明度的價值在于產(chǎn)生知識和引發(fā)有關(guān)技術(shù)的辯論,激發(fā)個人對基于人工智能的決策提出疑問,并從長遠(yuǎn)來看將加強社會對新技術(shù)的接受[11]。
從這個角度出發(fā),我們應(yīng)該對透明度有一個更廣度的認(rèn)知??评飦喫梗–ary Coglianese)認(rèn)為算法透明包含兩種:“魚缸型透明”(fishbowl transparency)和“原因型透明”(reasoned transparency),前者是指公開數(shù)據(jù)的源代碼、數(shù)據(jù)訓(xùn)練集等;后者指公開算法工作的原理,強調(diào)公開信息的實用性,在實踐中,公開算法原理更具有可行性,它既可以提高公眾對于人工智能的了解,又能保護公司的知識產(chǎn)權(quán)。其二,將算法披露與解釋權(quán)結(jié)合起來,這種解釋是一種嵌入制度環(huán)境中的社會實踐,即公民可以了解到人工智能決策的依據(jù)、產(chǎn)生的影響、以及明確可以啟動司法程序捍衛(wèi)自己的權(quán)利。
打開黑箱對于識別侵犯用戶敏感個人信息的行為是必不可少的,ChatGPT引發(fā)的對侵犯敏感個人信息的質(zhì)疑和恐慌一定程度上來源于社會普遍對于人工智能興起的無知和被剝奪公民權(quán)的感受。因此,一方面,為了消除這些不利影響,ChatGPT官方應(yīng)當(dāng)定期公布其保護敏感信息的隱私政策,包括信息保護算法原理、實踐情況以及用戶反饋,并根據(jù)現(xiàn)實情況不斷進(jìn)行調(diào)整;另一方面,ChatGPT官方以及各國行政或司法機關(guān)也應(yīng)及時告知公民可以依據(jù)ChatGPT侵犯公民敏感個人信息的行為提起司法訴訟,保障公民的敏感個人信息保護權(quán)得到救濟。
(三)建立全鏈條監(jiān)管和問責(zé)機制
ChatGPT的沖擊暴露了現(xiàn)實中敏感個人信息保護的不足,一方面體現(xiàn)在對人工智能監(jiān)管的缺失,無法從事前和事中避免人工智能給敏感個人信息帶來的不利影響;另一方面則體現(xiàn)在法條理論與實踐的脫節(jié),法條內(nèi)容流于形式,無法很好地指導(dǎo)實踐。
首先,從國家層面,需要建立事前、事中和事后的全鏈條監(jiān)管。具體而言:第一,確立對人工智能事前監(jiān)管模式。歐盟最早將人工智能的監(jiān)管由理論邁向?qū)嵺`,2021年4月,歐盟委員會頒布全球首部《人工智能法案》,確立以技術(shù)風(fēng)險分級為核心的監(jiān)管模式[13],對于高風(fēng)險的人工智能,歐盟要求供應(yīng)商在投入市場前提交評估報告,如果提交的目的或性質(zhì)有根本改變則需要重新評估[14];目前我國沒有針對人工智能的專門立法,關(guān)于數(shù)據(jù)算法或者人工智能的主要規(guī)定分散在《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》以及一些零散的政策文件中,因此可以借鑒歐盟的立法路徑,建立專門的人工智能法案,規(guī)定涉及敏感信息安全問題的人工智能投入市場前進(jìn)行評估備案。第二,對人工智能進(jìn)行事中、事后監(jiān)管,可以參考《個人信息保護法》中第六章的規(guī)定,國家網(wǎng)信部門負(fù)責(zé)敏感個人信息保護監(jiān)管工作,完善敏感個人信息保護投訴、舉報機制,對風(fēng)險較大的個人信息處理者進(jìn)行約談①。目前,ChatGPT并沒有進(jìn)入中國市場,但是諸如阿里巴巴、百度等國內(nèi)互聯(lián)網(wǎng)公司已開始著手研發(fā)類ChatGPT系統(tǒng)。建立全生命周期監(jiān)管機制,不僅可以預(yù)防有朝一日ChatGPT進(jìn)入中國后帶來的問題,也可以避免投入市場的類ChatGPT系統(tǒng)脫離法治軌道。
其次,建立問責(zé)評估體系,使法條規(guī)定能夠落實到實踐,例如“特別告知+單獨同意”規(guī)則的完善。告知義務(wù)是信息主體知情權(quán)的基礎(chǔ),告知義務(wù)后續(xù)的責(zé)任應(yīng)貫穿于信息收集和使用的全部環(huán)節(jié)[15]。目前被合法獲取的敏感個人信息可能被ChatGPT采集并“二次使用”,但卻并沒有取得信息主體的同意,這也是目前該規(guī)則飽受爭議的重要原因。對此,應(yīng)加強對初步信息處理者的問責(zé)制度,防止其在履行完特別告知義務(wù)后進(jìn)入“免責(zé)”狀態(tài),或者在發(fā)生敏感個人信息泄露事件時將責(zé)任轉(zhuǎn)嫁第三方;同時,也可以加入獨立的第三方機構(gòu)進(jìn)行評估,確保敏感個人信息處理者在合乎規(guī)范的閾值內(nèi)運行。
五、結(jié)語
人工智能的前進(jìn)與發(fā)展已然勢不可擋,在ChatGPT發(fā)布短短幾個月后,2023年3月15日凌晨,GPT-4橫空出世,它擁有比ChatGPT更強大的圖片識別能力和推理能力,使科技的發(fā)展邁向了不可預(yù)測的新階段。我們必須認(rèn)識到,內(nèi)容生成式AI的發(fā)展不可能被按下暫停鍵或倒退鍵,但它們帶來的敏感個人信息安全問題卻不可能在短時間內(nèi)消弭,而這些沖突的背后是大數(shù)據(jù)時代不可避免的數(shù)據(jù)流通與信息保護之間的矛盾,因此需要不斷平衡技術(shù)創(chuàng)新與傳統(tǒng)信息保護領(lǐng)域之間的關(guān)系。這一方面要求規(guī)范網(wǎng)絡(luò)爬蟲信息采集行為、提高人工智能透明度以滿足法律和社會倫理的需要;另一方面也要建立全生命周期的監(jiān)管和問責(zé)制度,警惕人工智能的失控。使未來人工智能的發(fā)展不是潘多拉的魔盒,而是通往未來世界的一把鑰匙。
注 釋:
① 參見《個人信息保護法》第60條、62條、64條。
參考文獻(xiàn):
[1] 馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J].語言戰(zhàn)略研究,2023,8(2):20-24.
[2] 王利明.敏感個人信息保護的基本問題——以《民法典》和《個人信息保護法》的解釋為背景[J].當(dāng)代法學(xué),2022,36(1):3-14.
[3] 程嘯.個人信息保護法理解與適用[M].北京:中國法制出版社,2021:267.
[4] 楊合慶.中華人民共和國個人信息保護法釋義[M].北京:法律出版社,2022:85.
[5] 王苑.敏感個人信息的概念界定與要素判斷——以《個人信息保護法》第28條為中心[J].環(huán)球法律評論,2022,44(2):85-99.
[6] 中國信息通訊研究院互聯(lián)網(wǎng)法律研究中心.個人信息保護立法研究[M].北京:中國法制出版社,2021:222.
[7] 賈寧.大數(shù)據(jù)爬取、清洗與可視化教程[M].北京:中國工信出版集團,2021.
[8] [德]托馬斯·威施邁耶,蒂莫·拉德馬赫,編,韓至旭,李輝,等,譯.人工智能與法律的對話[M].上海:上海人民出版社,2020:39.
[9] 吳椒軍,郭婉兒.人工智能時代算法黑箱的法治化治理[J].科技與法律(中英文),2021,1(1):19-28.
[10] 彭岳.跨境數(shù)據(jù)隱私保護的貿(mào)易法維度[J].法律適用,2022(6):16-28.
[11] 蘇青.網(wǎng)絡(luò)爬蟲的演變及其合法性限定[J].比較法研究,2021,175(3):89-104.
[12] 胡俊瀟,陳國偉.網(wǎng)絡(luò)爬蟲反爬策略研究[J].科技創(chuàng)新與應(yīng)用,2019(15):137-138+140.
[13] 劉軒,陳海彬.人工智能監(jiān)管:理論、模式與趨勢[J/OL].[2023-03-17].情報理論與實踐:1-9http://kns.cnki.net/kcms/detail/11.1762.G3.20230316.0934.002.html.
[14] 鄧建鵬,朱懌成.ChatGPT模型的法律風(fēng)險及應(yīng)對之策[J/OL].[2023-03-17].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2023(5):1-11.
[15] 范海潮,顧理平.探尋平衡之道:隱私保護中知情同意原則的實踐困境與修正[J].新聞與傳播研究,2021,28(2):70-85+127-128.
作者簡介:張煒羿(1999- ),女,山東濰坊人,對外經(jīng)濟貿(mào)易大學(xué)法學(xué)院碩士研究生,研究方向為數(shù)據(jù)法學(xué)、個人信息保護法。