劉羿鳴,林梓瀚
(1.武漢大學(xué) 網(wǎng)絡(luò)治理研究院,湖北 武漢 430072;2.上海數(shù)據(jù)交易所,上海 201203)
生成式大模型(以下簡稱大模型)是指基于海量數(shù)據(jù)訓(xùn)練的、能夠通過微調(diào)等方式適配各類下游任務(wù),并根據(jù)用戶指令生成各類內(nèi)容的人工智能模型。大模型具有極為寬廣的應(yīng)用前景,且使用門檻較低,用戶可通過開源或開放API工具等形式進(jìn)行模型零樣本/小樣本數(shù)據(jù)學(xué)習(xí),便可識別、理解、決策、生成效果更優(yōu)和成本更低的開發(fā)部署方案。
然而,大模型的訓(xùn)練及其應(yīng)用的落地都需要大量的數(shù)據(jù)作為支撐,由此帶來的諸如個人隱私泄露和數(shù)據(jù)篡改等數(shù)據(jù)安全風(fēng)險已成為法律所必須因應(yīng)的重要議題。本文將基于大模型數(shù)據(jù)安全風(fēng)險的系統(tǒng)性分析,對國內(nèi)外既有規(guī)制路徑的不足進(jìn)行梳理,最后提出我國大模型治理的完善建議,以期推動大模型應(yīng)用的可信有序發(fā)展。
大模型的廣泛應(yīng)用與內(nèi)生性技術(shù)局限的疊加引發(fā)了對大模型所導(dǎo)致的數(shù)據(jù)安全風(fēng)險的擔(dān)憂。在理論界,已有不少學(xué)者分別從大模型的訓(xùn)練數(shù)據(jù)治理[1]、國家安全風(fēng)險[2]、大模型數(shù)據(jù)合規(guī)的管理原則[3]等方面對大模型數(shù)據(jù)安全監(jiān)管進(jìn)行了探討;而在實踐中,多國發(fā)布了有關(guān)大模型監(jiān)管的政策文件,試圖將大模型數(shù)據(jù)安全風(fēng)險納入相對可控的法治軌道。例如,意大利的個人數(shù)據(jù)保護(hù)局曾對大模型的應(yīng)用發(fā)布禁止令,歐盟也對大模型的數(shù)據(jù)安全風(fēng)險展開了調(diào)查。2023年7月,我國出臺了《生成式人工智能服務(wù)管理暫行辦法》,針對大模型的數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量、個人信息保護(hù)等問題進(jìn)行立法規(guī)制。
但既有的大模型數(shù)據(jù)安全風(fēng)險監(jiān)管在理論和實踐層面仍面臨不少困境。一方面,或是囿于對大模型的本質(zhì)與特征的認(rèn)識不足,既有研究要么將數(shù)據(jù)安全風(fēng)險與個人隱私保護(hù)混同[4],要么僅僅關(guān)注大模型運行中的某一環(huán)節(jié)中的數(shù)據(jù)安全風(fēng)險而忽視了其他環(huán)節(jié)[5],總體來看尚未形成對大模型數(shù)據(jù)安全風(fēng)險的統(tǒng)一性和系統(tǒng)性認(rèn)識;另一方面,我國現(xiàn)有的立法和監(jiān)管政策存在表述模糊、責(zé)任分配不清等問題,恐難以充分化解大模型應(yīng)用引發(fā)的數(shù)據(jù)安全風(fēng)險。
由此可見,大模型的可信發(fā)展需要加強對大模型數(shù)據(jù)安全風(fēng)險的系統(tǒng)性認(rèn)知,并在借鑒域外大模型治理經(jīng)驗的基礎(chǔ)上有針對性地完善我國的大模型治理規(guī)則,以期形塑兼具鼓勵創(chuàng)新和控制風(fēng)險的具有我國特色的大模型數(shù)據(jù)安全風(fēng)險監(jiān)管路徑。
認(rèn)知風(fēng)險是風(fēng)險治理的邏輯起點。基于對大模型數(shù)據(jù)風(fēng)險的既有觀點及其不足的分析,結(jié)合數(shù)據(jù)安全的本質(zhì)特征,或可為化解大模型數(shù)據(jù)安全風(fēng)險提供更為多元、全面的視角。
安全與風(fēng)險是一組二元對立的概念。根據(jù)《現(xiàn)代漢語詞典》,安全的詞義是“沒有危險;不受威脅;不出事故”[6]。與之相對應(yīng),風(fēng)險則是一種“未來的不確定性”[7],而正是這種“不確定性”侵害了安全的“自然狀態(tài)”,此時則需要法律通過風(fēng)險治理來實現(xiàn)和保障安全。
規(guī)避風(fēng)險的前提是對可能存在的風(fēng)險形成充分的認(rèn)知。在生產(chǎn)力較為低下的古代,人與人之間的交往并不頻繁,風(fēng)險的種類也較為單一,因此當(dāng)時的法律主要關(guān)注對個體人身和財產(chǎn)安全的保障[8]。到了近代,工業(yè)革命帶來便捷的交通方式,人際間愈加頻繁的交往使得社會風(fēng)險特征從點對點、偶發(fā)性和個體性,轉(zhuǎn)向群體性、區(qū)域性,引發(fā)對集體安全和國家安全的關(guān)注[9]。進(jìn)入當(dāng)代,以人工智能為代表的新技術(shù)的迅猛發(fā)展使得數(shù)據(jù)成為“二十一世紀(jì)的石油”,同時也帶來了數(shù)據(jù)泄露、個人隱私侵犯等問題,安全的保障范圍由物理空間向賽博空間(Cyberspace)擴(kuò)張,數(shù)據(jù)安全的概念由此產(chǎn)生。
區(qū)別于傳統(tǒng)安全風(fēng)險,大模型數(shù)據(jù)安全風(fēng)險具有多重含義,需要建立基于“動-靜”雙重視角的風(fēng)險認(rèn)知體系。一方面,數(shù)據(jù)之上承載著多方主體的利益,大模型數(shù)據(jù)安全不僅僅關(guān)乎數(shù)據(jù)自身的安全,還體現(xiàn)對數(shù)據(jù)持有者、數(shù)據(jù)來源者的權(quán)益以及社會公共利益以及國家利益的保障[10];另一方面,數(shù)據(jù)的價值在于利用,因此對大模型數(shù)據(jù)安全的探討應(yīng)當(dāng)具體到大模型數(shù)據(jù)的使用、加工、傳輸、提供、公開等數(shù)據(jù)處理活動中,而不是局限于對數(shù)據(jù)靜態(tài)安全的泛泛而談[11]。因此,一個更加符合大模型技術(shù)特征以及實踐認(rèn)知的解決方案是,將大模型的數(shù)據(jù)安全風(fēng)險劃分為靜態(tài)和動態(tài)兩個層面,前者以數(shù)據(jù)安全保障的不同主體利益為觀察視角,梳理大模型對個人數(shù)據(jù)安全、企業(yè)數(shù)據(jù)安全以及國家數(shù)據(jù)安全帶來的挑戰(zhàn);后者則以大模型的運行流程為視角,分析大模型的數(shù)據(jù)采集、模型搭建以及模型產(chǎn)出等各個階段的數(shù)據(jù)安全風(fēng)險。圖1所示為“動-靜”視角下大模型數(shù)據(jù)安全風(fēng)險全景圖。
圖1 大模型數(shù)據(jù)安全風(fēng)險全景圖
安全難以脫離不同主體所構(gòu)筑起來的諸多社會關(guān)系和社會結(jié)構(gòu),“安全從一開始就作為我們與自身的關(guān)系,與他人的關(guān)系以及與世界的關(guān)系,被理性地加以規(guī)定”[12]。從這個角度來看,不能僅僅討論大模型應(yīng)用中的數(shù)據(jù)自身的安全,而需要從不同主體的不同利益訴求出發(fā),分析個體、企業(yè)以及國家在數(shù)據(jù)安全中的權(quán)益保障。
其一,大模型的個人數(shù)據(jù)安全風(fēng)險。雖然學(xué)界對個體對數(shù)據(jù)是否享有財產(chǎn)性權(quán)益尚存在爭議[13],但毋庸置疑的是數(shù)據(jù)之上承載著由《民法典》《個人信息保護(hù)法》等法律所明確或暗示的個體享有的包括知情、決定、查閱、復(fù)制、更正、補充、刪除在內(nèi)的一系列人格權(quán)益。然而,大模型的數(shù)據(jù)采集、模型搭建和結(jié)果輸出無一不涉及對個人數(shù)據(jù)的處理,其在醫(yī)療、金融等領(lǐng)域的應(yīng)用更是涉及個人的敏感信息,但囿于現(xiàn)階段大模型技術(shù)的局限性,難以做到對個人數(shù)據(jù)的全面性保障。例如,當(dāng)用戶對ChatGPT進(jìn)行提問時,可能會暴露其不愿公開的個人信息。而根據(jù)OpenAI的說明,ChatGPT只支持用戶刪除個人賬戶,而無法做到完全刪除用戶的個人信息,這使得OpenAI不得不在其網(wǎng)站提示用戶“不要在談話中分享任何敏感信息”[14]。
其二,大模型的企業(yè)數(shù)據(jù)安全風(fēng)險。企業(yè)基于對數(shù)據(jù)的實質(zhì)性加工和創(chuàng)造性勞動獲取了對數(shù)據(jù)及數(shù)據(jù)產(chǎn)品的財產(chǎn)性利益,對此我國在政策和地方法規(guī)層面予以認(rèn)可,并在司法實踐中通過著作權(quán)保護(hù)或反不正當(dāng)競爭法的有關(guān)規(guī)定予以保護(hù)。然而,大模型在應(yīng)用過程中頻繁地從互聯(lián)網(wǎng)大量地爬取數(shù)據(jù),而大模型在挖掘、使用數(shù)據(jù)的過程中卻難以對所利用數(shù)據(jù)的權(quán)利狀態(tài)進(jìn)行一一辨析,若被爬取的數(shù)據(jù)中包含企業(yè)的商業(yè)秘密或可被納入著作權(quán)法保護(hù)范圍的內(nèi)容則極易構(gòu)成侵權(quán)。
其三,大模型的國家數(shù)據(jù)安全風(fēng)險主要體現(xiàn)在數(shù)據(jù)的跨境流通過程中。在大數(shù)據(jù)時代,數(shù)據(jù)被視為國家的一種基礎(chǔ)性戰(zhàn)略資源,各國紛紛主張對本國數(shù)據(jù)進(jìn)行生產(chǎn)、開發(fā)、利用,并提出一系列有關(guān)數(shù)據(jù)本地化存儲和限制輸出的規(guī)定[15]。例如,針對個人數(shù)據(jù)的出境監(jiān)管,我國《個人信息保護(hù)法》就規(guī)定了數(shù)據(jù)出境安全評估、個人信息保護(hù)認(rèn)證以及簽訂個人信息出境標(biāo)準(zhǔn)合同三種路徑,并通過《數(shù)據(jù)出境安全評估辦法》《個人信息出境標(biāo)準(zhǔn)合同辦法》《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實踐指南 個人信息跨境處理活動安全認(rèn)證規(guī)范V2.0》等對個人數(shù)據(jù)出境規(guī)制的具體內(nèi)容予以細(xì)化。在此背景下,大模型在全球范圍內(nèi)收集和使用用戶的個人數(shù)據(jù)將面臨極大的合規(guī)風(fēng)險。例如,若國內(nèi)的ChatGPT用戶出于數(shù)據(jù)分析或信息統(tǒng)計等目的,將其收集的一定規(guī)模的個人數(shù)據(jù)傳輸至OpenAI的境外數(shù)據(jù)處理中心,就很可能構(gòu)成事實上的數(shù)據(jù)出境行為,如果未經(jīng)審批許可將導(dǎo)致極大的合規(guī)隱患[16]。
大模型的應(yīng)用是一個動態(tài)的過程,大致可以分為數(shù)據(jù)采集階段、模型訓(xùn)練階段以及應(yīng)用階段。由于不同階段涉及的數(shù)據(jù)處理行為不同,相應(yīng)的數(shù)據(jù)安全風(fēng)險也存在差異,需要分別展開分析。
其一,訓(xùn)練數(shù)據(jù)的采集階段。大模型的搭建依托于海量的訓(xùn)練數(shù)據(jù),由于訓(xùn)練數(shù)據(jù)的來源屬性具有多元性,所可能引發(fā)的數(shù)據(jù)安全風(fēng)險也將是多重而非單一的。以個人數(shù)據(jù)為例,根據(jù)我國《個人信息保護(hù)法》的有關(guān)規(guī)定,采集個人信息主體的個人數(shù)據(jù)需要得到信息主體的同意,并遵循目的最小化原則,若采集的數(shù)據(jù)屬于個人敏感信息則更需要得到個人單獨或書面同意。但由于具體的數(shù)據(jù)訓(xùn)練環(huán)節(jié),大模型的訓(xùn)練數(shù)據(jù)一般都以“太字節(jié)”(Terabyte)為計量單位,難以保障模型開發(fā)者對每個主體都完全符合知情同意的具體要求。
其二,在模型的訓(xùn)練與調(diào)整階段,開發(fā)者利用獎勵機制和強化學(xué)習(xí)技術(shù)對模型進(jìn)行不斷訓(xùn)練和調(diào)整,不斷提升內(nèi)容生成模型的回答質(zhì)量[17]。在該階段,如何保障模型內(nèi)存儲數(shù)據(jù)免遭黑客攻擊或內(nèi)部工作人員非法披露導(dǎo)致數(shù)據(jù)泄露風(fēng)險是一個值得思考的問題。對此,盡管各大科技公司都聲明將采取加密等措施來保障數(shù)據(jù)安全,但根據(jù)外國媒體的報道,在模型構(gòu)建階段的數(shù)據(jù)安全泄露問題可能已經(jīng)發(fā)生[18]。
其三,在模型的應(yīng)用階段,用戶通過prompt指令向大模型“發(fā)出命令”,大模型隨后便會在數(shù)據(jù)庫中進(jìn)行檢索,而后通過對用戶指令內(nèi)涵的分析,將搜索結(jié)果由數(shù)字序列形式逆向翻譯為自然語言形式,并為用戶輸出相應(yīng)的結(jié)果。然而,容易被忽視的問題是,用戶通過prompt指令輸入的內(nèi)容可能也屬于用戶的個人信息,仍需要按照《個人信息保護(hù)法》的有關(guān)規(guī)定采取相應(yīng)措施進(jìn)行保護(hù)。值得注意的是,我國的人工智能立法也意識到了這點,在2023年7月10日正式頒布的《生成式人工智能服務(wù)管理暫行辦法》中明確規(guī)定了生成式人工智能服務(wù)提供者對使用者的輸入信息和使用記錄履行保護(hù)義務(wù),且應(yīng)當(dāng)依法及時受理和處理個人關(guān)于查閱、復(fù)制、更正、補充、刪除其個人信息等的請求。
隨著人工智能應(yīng)用全球化進(jìn)程的不斷加快,世界各國的人工智能立法也被提上日程。根據(jù)斯坦福大學(xué)發(fā)布的《2023年度人工智能指數(shù)報告》,2016至2022年間,全球已有31個國家頒布了共123項與AI相關(guān)的法案。以下以歐盟、美國的治理模式為例,總結(jié)其經(jīng)驗與不足,并對我國既有的治理策略進(jìn)行評析。
總體來看,或許是受到強調(diào)人權(quán)保護(hù)的法律傳統(tǒng)以及一體化的政治體制的影響,歐盟的大模型治理采用了較高強度的監(jiān)管力度[19],自2016年起就不斷探索推進(jìn)對人工智能技術(shù)應(yīng)用的風(fēng)險監(jiān)管體系建構(gòu)。2021年4月,《人工智能法案(提案)》(以下簡稱“AIA”)正式發(fā)布,并在2023年通過談判形成了最新版本。
從2023年最新修改的AIA來看,歐盟已形成了基于風(fēng)險的大模型分類分級治理路徑。具體而言,AIA以具體應(yīng)用場景中引發(fā)風(fēng)險程度的高低為基準(zhǔn)將人工智能系統(tǒng)劃分為四類,即不可接受的風(fēng)險(unacceptable risk)、高風(fēng)險(high risk)、有限風(fēng)險(limited risk)和較低或者最低限度的風(fēng)險(low and minimal risk),法律應(yīng)對策略分別對應(yīng)禁止(prohibition)、事前合格性評定和認(rèn)證標(biāo)志(exante conformity assessment and CE marking)、信息披露(transparency)和無義務(wù)(no obligations)。其中,大模型作為泛用性極高的人工智能系統(tǒng),因其在教育、金融、法律等領(lǐng)域廣闊的應(yīng)用場景,屬于AIA附錄3所列舉的特定領(lǐng)域AI系統(tǒng),將很可能被定性為高風(fēng)險人工智能系統(tǒng),并被要求履行建立全生命周期內(nèi)持續(xù)反復(fù)運行的風(fēng)險和質(zhì)量管理機制、對訓(xùn)練數(shù)據(jù)中的個人數(shù)據(jù)采取假名化措施等數(shù)據(jù)安全保障義務(wù)。歐盟的大模型監(jiān)管路徑對大模型的研發(fā)者、提供者提出了較高的義務(wù),有利于保障數(shù)據(jù)安全。
然而,歐盟的風(fēng)險分類分級監(jiān)管思路以人工智能的應(yīng)用場景為標(biāo)準(zhǔn),可能導(dǎo)致大模型被一律定性為高風(fēng)險人工智能,難以實現(xiàn)大模型的精細(xì)化治理,可能阻礙大模型技術(shù)的創(chuàng)新性發(fā)展。另外,以統(tǒng)一性立法開展的大模型治理相較于分散性立法缺乏了一定的靈活性,面對瞬息萬變的大模型技術(shù)發(fā)展難以實現(xiàn)“敏捷性治理”。
在聯(lián)邦層面,美國尚未形成統(tǒng)一的大模型立法,而以一些不具有強制適用性的政策文件為主。而在州層面,針對大模型的數(shù)據(jù)隱私保護(hù),美國各州的立法采取了較為寬松的監(jiān)管策略,為大模型企業(yè)的發(fā)展留下了更多容錯空間。一方面,在知情同意模式的選擇上,區(qū)別于歐盟GDPR的“選擇加入”(opt-in)原則,美國采用了“選擇退出”(opt-out)模式[20],大模型企業(yè)在模型訓(xùn)練數(shù)據(jù)的收集過程中滿足一定條件則無需事先征得數(shù)據(jù)主體同意;另一方面,美國各州立法提出了企業(yè)更正期、中小企業(yè)豁免權(quán)等創(chuàng)新容錯措施。其中,企業(yè)更正期是指面臨行政處罰和行政訴訟的企業(yè)若一定的更正期內(nèi)(《加州消費者隱私法案》(CCPA)規(guī)定更正期原則上為30天)進(jìn)行合規(guī)性整改,便可以免除相應(yīng)的處罰。中小企業(yè)豁免權(quán)則是指通過在法案中設(shè)置以企業(yè)營業(yè)額或處理數(shù)據(jù)量為標(biāo)準(zhǔn)的適用門檻,將部分中小企業(yè)排除在法案的適用范圍之外。例如,弗吉尼亞州的《消費者數(shù)據(jù)保護(hù)法》(CDPA)規(guī)定該法僅適用于一年內(nèi)控制或處理超過10 萬名弗吉尼亞州州消費者數(shù)據(jù)的企業(yè)。類似地,被視為聯(lián)邦隱私立法潛在模型的CCPA僅適用于在加州開展業(yè)務(wù)并滿足以下條件之一企業(yè):(1)營業(yè)年收入超過2 500萬美元且年收入的50%以上系源自于銷售加州消費者的個人信息;(2)基于商業(yè)目的處理的加州消費者信息每年超過50 000個。
可見,美國對大模型的監(jiān)管策略更多是基于商業(yè)邏輯而非人權(quán)保護(hù)的邏輯[21],“監(jiān)管”被視為一種反對自由市場的負(fù)擔(dān)[22]。循此理念,美國不把強制監(jiān)管放在首位,而是最大程度發(fā)揮企業(yè)自治和市場的自我條件,意圖激發(fā)大模型研發(fā)的創(chuàng)新動力[23]。但這一監(jiān)管策略忽視了對大模型應(yīng)用中各類數(shù)據(jù)安全的保障,或難以防范大模型廣泛應(yīng)用對個人、企業(yè)甚至國家數(shù)據(jù)安全利益帶來的潛在威脅。
我國一貫重視技術(shù)發(fā)展的風(fēng)險治理,遵循發(fā)展與安全并重、創(chuàng)新與倫理并行的治理思路[24],通過引導(dǎo)“科技向善”來促進(jìn)高科技產(chǎn)業(yè)的健康發(fā)展。在國家層面,2017年,我國發(fā)布《新一代人工智能發(fā)展規(guī)劃》,為我國的人工智能健康發(fā)展提供綱領(lǐng)性指引;2021年9月、11月,《數(shù)據(jù)安全法》和《個人信息保護(hù)法》先后施行,為規(guī)范人工智能應(yīng)用中的數(shù)據(jù)安全和隱私保障提供了合規(guī)指引;2022年以來,為因應(yīng)大模型廣泛應(yīng)用帶來的技術(shù)風(fēng)險,我國先后頒布了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》(以下簡稱《辦法》)等一系列監(jiān)管規(guī)范,提出了算法備案、數(shù)據(jù)安全審核以及訓(xùn)練數(shù)據(jù)治理等制度要求,初步構(gòu)建起我國大模型治理的監(jiān)管體系。在地方層面,深圳、上海等地出臺有關(guān)人工智能產(chǎn)業(yè)的促進(jìn)條例,積極探索人工智能風(fēng)險的分類分級監(jiān)管體系。例如,《上海市促進(jìn)人工智能產(chǎn)業(yè)發(fā)展條例》第65條就將人工智能產(chǎn)品和服務(wù)分為高風(fēng)險以及中低風(fēng)險兩級,分別適用“清單式管理”和“事前披露+事后控制”兩種不同的監(jiān)管方式。
然而,就大模型的數(shù)據(jù)安全風(fēng)險治理而言,我國既有的監(jiān)管方案還存在一些不足,體現(xiàn)為以下幾點:
其一,分類分級監(jiān)管的標(biāo)準(zhǔn)不夠清晰,難以落地。根據(jù)監(jiān)管對象的不同特征實施分類分級監(jiān)管是我國實現(xiàn)治理精細(xì)化與科學(xué)化的一貫思路。然而,在大模型治理領(lǐng)域,《辦法》第3條僅在原則層面提出要開展分類分級監(jiān)管,卻未明確究竟以何標(biāo)準(zhǔn)作為分類依據(jù)、具體分為幾種類型以及對應(yīng)的差異化規(guī)制方式。上海市頒布的人工智能產(chǎn)業(yè)條例中雖探索性提出將人工智能分為高風(fēng)險和中低風(fēng)險兩級,但也未詳細(xì)說明分類的依據(jù),且囿于其效力位階較低和適用范圍有限而難以實現(xiàn)大模型敏捷治理[25]的目標(biāo)。
其二,我國既有監(jiān)管規(guī)范未明確提出大模型研發(fā)者的概念,可能導(dǎo)致大模型數(shù)據(jù)安全風(fēng)險的責(zé)任分配不清。在“小模型”時代,模型采用高度定制化的“手工作坊式”生產(chǎn)方式,研發(fā)、部署和運行的主體可清晰界分[26]。然而,大模型采用“無需定制”“協(xié)同部署”“輕量通用”等方式實現(xiàn)快速普及,使得作為大模型服務(wù)提供者的平臺企業(yè)難以形成對模型定義、設(shè)計和部署的終局影響力,對模型數(shù)據(jù)安全具有影響力的研發(fā)者卻可能并未與應(yīng)用層用戶產(chǎn)生直接交互??梢?,在大模型治理中,界分模型研發(fā)者和服務(wù)提供者并課以不同的數(shù)據(jù)安全保障義務(wù)是數(shù)據(jù)安全風(fēng)險化解的應(yīng)有之義。然而,我國頒布的《辦法》第22條僅規(guī)定了生成式人工智能服務(wù)提供者和使用者的概念,未單獨規(guī)定作為大模型技術(shù)支持方的研發(fā)者,易導(dǎo)致兩者在模型數(shù)據(jù)安全保障義務(wù)的責(zé)任邊界模糊,不利于監(jiān)管部門對兩者開展監(jiān)督與追責(zé)。
其三,如前文所言,數(shù)據(jù)安全是一個動態(tài)而非靜態(tài)的概念,對大模型數(shù)據(jù)安全的風(fēng)險治理也應(yīng)相應(yīng)地針對數(shù)據(jù)采集、模型訓(xùn)練以及應(yīng)用服務(wù)三個階段展開。但我國目前既有的管理規(guī)范多以大模型的應(yīng)用服務(wù)為視角,強調(diào)模型應(yīng)用過程中的數(shù)據(jù)安全以及個人信息保護(hù),尚未建立起大模型運行全過程的數(shù)據(jù)安全風(fēng)險防范體系。
20世紀(jì)中葉,波蘭尼提出的“雙重運動理論”揭示了政府規(guī)制在市場發(fā)展與技術(shù)創(chuàng)新中的作用[27]。面對大模型帶來的風(fēng)險,應(yīng)當(dāng)確立的一個認(rèn)知是,大模型并非一種簡單的技術(shù)工具,更是一種對社會建構(gòu)產(chǎn)生強烈沖擊的新型社會權(quán)力。基于此,大模型的數(shù)據(jù)安全風(fēng)險規(guī)制應(yīng)摒棄純粹的技術(shù)工具主義視角,而應(yīng)針對我國既有的大模型監(jiān)管路徑的缺陷,結(jié)合國外大模型數(shù)據(jù)安全風(fēng)險防范的有益經(jīng)驗,從建立分類監(jiān)管方案、完善責(zé)任機制以及探索創(chuàng)新監(jiān)管工具三個方面完善我國的大模型數(shù)據(jù)安全風(fēng)險監(jiān)管模式(如圖2所示)。
圖2 大模型數(shù)據(jù)安全的監(jiān)管框架
其一,建立以數(shù)據(jù)安全風(fēng)險為基準(zhǔn)的分級監(jiān)管路徑?!鞍踩弊鳛橐粋€外延相對模糊的法律概念,通過類型化分析來精準(zhǔn)度量其內(nèi)涵成為一種理性且可欲的選擇[28]。如前文所言,我國目前并未明確人工智能分級監(jiān)管的具體標(biāo)準(zhǔn),而歐盟則采用了基于人工智能應(yīng)用場景的風(fēng)險分級監(jiān)管方式。然而,此種監(jiān)管方式并不是特別適合應(yīng)用于大模型領(lǐng)域,這主要是因為大模型技術(shù)具有泛用性,應(yīng)用場景十分多元,若按照歐盟的分類標(biāo)準(zhǔn),則幾乎所有的大模型都將被歸入高風(fēng)險人工智能,難以實現(xiàn)對數(shù)據(jù)安全風(fēng)險的精細(xì)化治理。鑒于數(shù)據(jù)將直接影響人工智能算法模型的訓(xùn)練效果和泛化能力[29],或可將大模型內(nèi)含的數(shù)據(jù)安全風(fēng)險程度納入人工智能分級監(jiān)管的評價標(biāo)準(zhǔn),建立起以數(shù)據(jù)安全風(fēng)險為基準(zhǔn)的分級監(jiān)管路徑。具體而言,影響大模型數(shù)據(jù)安全風(fēng)險程度的兩個主要因素是大模型所采集和使用數(shù)據(jù)的敏感度以及訓(xùn)練數(shù)據(jù)集的規(guī)模。其中,數(shù)據(jù)的敏感度是指數(shù)據(jù)遭到攻擊、篡改、破壞或非法獲取和利用等安全事故后對個人、社會和國家?guī)淼奈:Τ潭萚30]。《個人信息保護(hù)法》根據(jù)個人信息的敏感程度將個人信息分為一般個人信息和敏感個人信息,《數(shù)據(jù)安全法》則將數(shù)據(jù)類型化為一般數(shù)據(jù)和重要數(shù)據(jù)。結(jié)合《個人信息保護(hù)法》和《數(shù)據(jù)安全法》的有關(guān)規(guī)定,可借鑒《上海市促進(jìn)人工智能產(chǎn)業(yè)發(fā)展條例》第65條的規(guī)定,將大模型分為高風(fēng)險和中低風(fēng)險兩類,前者涉及大規(guī)模的敏感個人信息和重要數(shù)據(jù)的處理行為,后者則僅在小范圍內(nèi)采集并處理一般個人信息和一般數(shù)據(jù)。對于高風(fēng)險的大模型,國家采用負(fù)面清單制管理,開展負(fù)面清單內(nèi)產(chǎn)品、服務(wù)的研發(fā)以及提供活動前,應(yīng)當(dāng)取得國家有關(guān)主管部門的行政許可;對于中低風(fēng)險的大模型,則采用事前披露和事后跟蹤的監(jiān)管模式,促進(jìn)先行先試。
其二,完善大模型運行全過程的數(shù)據(jù)安全責(zé)任機制。責(zé)任機制是法律開展制度設(shè)計所關(guān)注的核心內(nèi)容。如前文所述,我國現(xiàn)階段的大模型監(jiān)管文件僅提及模型服務(wù)提供者以及使用者的安全責(zé)任,卻忽視了大模型的技術(shù)研發(fā)者在數(shù)據(jù)安全保障中的作用。鑒于此,結(jié)合數(shù)據(jù)要素的動態(tài)特征,建議在現(xiàn)有的監(jiān)管體制基礎(chǔ)上對模型的服務(wù)提供者和技術(shù)研發(fā)者作區(qū)分處理,完善基于大模型運行全過程的數(shù)據(jù)安全責(zé)任機制。首先,在模型的數(shù)據(jù)采集階段,模型的研發(fā)者應(yīng)確保模型數(shù)據(jù)來源的合法性,涉及個人數(shù)據(jù)的應(yīng)確保符合《個人信息保護(hù)法》的有關(guān)規(guī)定,涉及公共數(shù)據(jù)的則需要依據(jù)與政府簽訂的授權(quán)協(xié)議履行相關(guān)的數(shù)據(jù)安全保障義務(wù),若數(shù)據(jù)系利用爬蟲技術(shù)從公開互聯(lián)網(wǎng)中獲取則需要確保符合robots協(xié)議的要求;其次,模型訓(xùn)練與調(diào)整階段,模型的研發(fā)者應(yīng)采用必要的技術(shù)和組織措施保障數(shù)據(jù)安全,并在投放市場前進(jìn)行數(shù)據(jù)安全測試;最后,在模型的應(yīng)用服務(wù)階段,模型服務(wù)的提供者應(yīng)自行或委托第三方對模型數(shù)據(jù)來源的合規(guī)性開展形式審查[31],對于用戶輸入的數(shù)據(jù)則應(yīng)當(dāng)采取必要的保密和安全保障措施,若用戶輸入數(shù)據(jù)涉及個人信息的,則需要參照《個人信息保護(hù)法》的有關(guān)規(guī)定保障用戶的撤回同意、查閱、復(fù)制、更正、刪除等信息權(quán)益。
其三,探索以監(jiān)管沙盒為代表的包容審慎監(jiān)管措施。“包容審慎”原是政府為了應(yīng)對互聯(lián)網(wǎng)新業(yè)態(tài)的監(jiān)管困境所提出的一項創(chuàng)新性監(jiān)管原則,這種監(jiān)管原則一方面鼓勵、寬容、保護(hù)創(chuàng)新,為新業(yè)態(tài)、新產(chǎn)業(yè)留足發(fā)展空間,不得“簡單封殺”;另一方面則強調(diào)要對新事物發(fā)展過程中所帶來的潛在風(fēng)險進(jìn)行積極預(yù)防和控制,不得放任不管[32]。大模型是人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展的產(chǎn)物,對于新興事物,既要包容其失誤,同時更要防范其風(fēng)險,慎重處理好創(chuàng)新發(fā)展與風(fēng)險控制之間的關(guān)系?;谶@一理念,歐盟AIA法案提出了人工智能監(jiān)管沙盒(AI Regulatory Sandbox)機制。通過這套機制,大模型在沙盒試運行階段若遭遇個人數(shù)據(jù)的處理活動,只要滿足一定條件便可以突破歐盟GDPR中有關(guān)信息主體授權(quán)的限制,將“為其他目的合法收集的個人數(shù)據(jù)”用于沙盒中人工智能系統(tǒng)的開發(fā)和測試中,意圖實現(xiàn)數(shù)據(jù)利用與個人隱私保護(hù)之間的平衡。借鑒歐盟的做法,建議我國遵循包容審慎理念,探索大模型領(lǐng)域的“監(jiān)管沙盒”制度。一方面,需要明確監(jiān)管沙盒的“入盒”條件,此處可參考?xì)W盟AIA法案中的有關(guān)規(guī)定,明確監(jiān)管沙盒主要向保障公共安全、公共衛(wèi)生、改善環(huán)境治理等重大公共利益的大模型或中小型企業(yè)研發(fā)的大模型開放;另一方面,需要進(jìn)一步探索監(jiān)管沙盒中運行機制、數(shù)據(jù)風(fēng)險責(zé)任豁免機制、試運行期限、退出條件等內(nèi)容,具體規(guī)則可以由國家網(wǎng)信辦牽頭,會同工信部、市場監(jiān)管總局等相關(guān)部委制定[33]。
技術(shù)發(fā)展和法律規(guī)制之間的互動貫穿于時代發(fā)展的每一進(jìn)程。大模型應(yīng)用的智能時代已至,我們?nèi)孕柚?jǐn)記霍金所言:“人工智能的發(fā)展可能意味著人類的終結(jié)……它可以自主決定采取措施并以不斷增長的速度重新設(shè)計自身?!睘榉乐勾竽P彤惢癁槿祟悷o法控制的“技術(shù)利維坦”[34],需要在對大模型應(yīng)用的數(shù)據(jù)安全風(fēng)險進(jìn)行全面分析的基礎(chǔ)上建立起“全過程”“多主體”的數(shù)據(jù)安全責(zé)任制度,并在創(chuàng)新發(fā)展與風(fēng)險化解之間探尋出一個合適的平衡點,為大模型應(yīng)用的可信未來提供堅實的法治保障。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2023年12期