[摘要]在AI研究與應(yīng)用中,訓(xùn)練數(shù)據(jù)是基礎(chǔ)資源,對模型訓(xùn)練和實際應(yīng)用有重大影響。數(shù)據(jù)資源不足和質(zhì)量問題,導(dǎo)致國內(nèi)AI技術(shù)與國際水平有一定差距。訓(xùn)練數(shù)據(jù)需滿足量大、多樣、準確、完整的特點,但收集面臨法律限制、數(shù)據(jù)安全義務(wù)重、通知成本高等問題,同時存在數(shù)據(jù)來源不規(guī)范的困境。為平衡數(shù)據(jù)收集與權(quán)利保護,本文建議在法律框架下引入包容審慎監(jiān)管,優(yōu)化授權(quán)流程,制定分級監(jiān)管策略,鼓勵匿名化技術(shù),以促進AI技術(shù)發(fā)展并保護數(shù)據(jù)主體權(quán)益。
[關(guān)鍵詞]訓(xùn)練數(shù)據(jù);數(shù)據(jù)安全;包容審慎監(jiān)管" " "[DOI]:10.20122/j.cnki.2097-0536.2025.02.015
一、問題的提出
在生成式AI領(lǐng)域,訓(xùn)練數(shù)據(jù)是核心資源,其收集階段對數(shù)據(jù)量和質(zhì)量有直接影響,且對后續(xù)處理具有指導(dǎo)作用。目前,訓(xùn)練數(shù)據(jù)收集面臨法律規(guī)制過嚴和數(shù)據(jù)隱私保護的雙重挑戰(zhàn)。《網(wǎng)絡(luò)安全法》和《個人信息保護法》的嚴格限制增加了企業(yè)合規(guī)成本和數(shù)據(jù)獲取的難度。為促進AI發(fā)展,需適當(dāng)放寬法律要求,給予企業(yè)適當(dāng)?shù)氖占臻g。同時,放寬收集可能導(dǎo)致AI企業(yè)與數(shù)據(jù)主體間利益沖突增多,尤其在數(shù)據(jù)隱私方面。因此,需采取包容性數(shù)據(jù)收集策略,并配以適當(dāng)救濟機制,確保法律對訓(xùn)練數(shù)據(jù)收集既不嚴苛也不縱容。在包容與救濟原則下,應(yīng)重新審視和調(diào)整法律規(guī)制,為AI發(fā)展提供靈活有效的支持。
二、訓(xùn)練數(shù)據(jù)收集的現(xiàn)實困境
(一)現(xiàn)行法律規(guī)范對訓(xùn)練數(shù)據(jù)收集的限制與要求
當(dāng)下,人工智能發(fā)展迅速,訓(xùn)練數(shù)據(jù)安全合規(guī)受關(guān)注,相關(guān)法規(guī)紛紛出臺,構(gòu)建起保障體系。2017年6月1日《網(wǎng)絡(luò)安全法》生效,全國人大常委會制定,要求訓(xùn)練數(shù)據(jù)收集處理具安全性等,嚴禁非法數(shù)據(jù)行為。2021年7月27日,《機器學(xué)習(xí)算法安全評估規(guī)范》發(fā)布,開發(fā)運營機器學(xué)習(xí)要確保算法等信息安全,防范未授權(quán)訪問篡改,遵守法規(guī)保護隱私與脫敏。同年9月1日《數(shù)據(jù)安全法》實施,規(guī)范了數(shù)據(jù)收集使用的合法性。11月1日《個人信息保護法》生效,規(guī)定數(shù)據(jù)處理合法性等要求。2023年1月10日《深度合成管理規(guī)定》發(fā)布,規(guī)定訓(xùn)練數(shù)據(jù)應(yīng)符合個人信息保護規(guī)定。5月29日《人工智能安全標準化白皮書》發(fā)布,提出數(shù)據(jù)需具透明性等特性。7月10日《生成式人工智能服務(wù)管理暫行辦法》發(fā)布,要求企業(yè)確保數(shù)據(jù)來源合法防侵權(quán),自判侵權(quán)情況,選數(shù)據(jù)防歧視[1]。
1.數(shù)據(jù)安全義務(wù)繁重
當(dāng)前法律對數(shù)據(jù)安全義務(wù)提出了嚴格要求,增加了企業(yè)的技術(shù)難度和資源投入。首先,企業(yè)需采取技術(shù)和管理措施保護數(shù)據(jù)安全,如使用高級加密算法和訪問控制系統(tǒng),這給企業(yè)帶來財務(wù)壓力和運營成本。其次,面對網(wǎng)絡(luò)違法犯罪增多的問題,企業(yè)必須建立強大的安全防護系統(tǒng),如防火墻、IDS、IPS等,這些安全措施的實施和維護增加了技術(shù)和運營成本,分散了資源,影響了數(shù)據(jù)收集和處理效率。最后,增加的數(shù)據(jù)安全保障成本影響了企業(yè)其他部門,導(dǎo)致AI企業(yè)需持續(xù)投入技術(shù)研發(fā)和安全運維,增加了運營成本,可能影響核心業(yè)務(wù)發(fā)展。
AI企業(yè)作為數(shù)據(jù)安全主體,除了要承擔(dān)一般性的數(shù)據(jù)安全義務(wù),因其所在行業(yè)的特殊性,還要承擔(dān)對于AI企業(yè)的額外義務(wù)。其一,深度合成內(nèi)容標識義務(wù):企業(yè)有義務(wù)按照《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》對生成的圖片、視頻等內(nèi)容進行標識。AI企業(yè)不僅要專注于生成高質(zhì)量的文本、圖片、音頻或視頻內(nèi)容,還必須在技術(shù)層面設(shè)計并集成標識機制,以標識哪些內(nèi)容是通過AI生成的。其二,數(shù)據(jù)標注的規(guī)則和質(zhì)量監(jiān)督:在數(shù)據(jù)標注過程中,提供者需制定清晰、具體的標注規(guī)則,并進行標注質(zhì)量評估。數(shù)據(jù)標注本來就是生成式AI中至關(guān)重要的一環(huán),而這個義務(wù)要求企業(yè)在數(shù)據(jù)標注過程中制定清晰、具體的標注規(guī)則,并對標注結(jié)果進行質(zhì)量評估。其三,數(shù)據(jù)質(zhì)量提升:企業(yè)有義務(wù)采取有效措施,提高訓(xùn)練數(shù)據(jù)的質(zhì)量,增強數(shù)據(jù)的真實性、準確性、客觀性和多樣性。這對企業(yè)來說是額外的技術(shù)挑戰(zhàn),要求更加精細的數(shù)據(jù)管理和處理能力。提升數(shù)據(jù)質(zhì)量不僅僅是簡單地清洗數(shù)據(jù)或去除錯誤數(shù)據(jù),它涉及更復(fù)雜的數(shù)據(jù)收集、整理、驗證和處理過程。
2.對網(wǎng)絡(luò)用戶的通知成本過高
征求數(shù)據(jù)主體同意和信息告知對企業(yè),尤其是需要大規(guī)模數(shù)據(jù)的AI企業(yè),構(gòu)成巨大挑戰(zhàn)。企業(yè)需設(shè)計詳盡的告知流程,包括編寫隱私政策、開發(fā)用戶友好的同意界面,并與每個數(shù)據(jù)主體溝通,這需要大量行政和技術(shù)資源及時間。實踐中,這一程序幾乎無法執(zhí)行,尤其是處理數(shù)百萬數(shù)據(jù)的企業(yè),會導(dǎo)致數(shù)據(jù)收集效率大幅降低。現(xiàn)實中,許多AI企業(yè)未經(jīng)通知就使用用戶數(shù)據(jù),直到用戶投訴才停止,這種做法雖提高效率、降低成本,但本質(zhì)上違法。
(二)訓(xùn)練數(shù)據(jù)來源不規(guī)范
1.未經(jīng)授權(quán)或未獲得用戶同意
訓(xùn)練數(shù)據(jù)未經(jīng)授權(quán)的收集包括兩種方式:一方面,顯性的訓(xùn)練數(shù)據(jù)收集。AI系統(tǒng)會依賴大量數(shù)據(jù)進行訓(xùn)練,這些數(shù)據(jù)包括用戶的瀏覽歷史、社交媒體互動、地理位置、購物記錄等。這些數(shù)據(jù)通常是在用戶不知情的情況下被收集的,用戶甚至可能不知道這些數(shù)據(jù)會被用于AI訓(xùn)練;另一方面,還有隱性數(shù)據(jù)收集。許多應(yīng)用程序和服務(wù)在用戶不知情的情況下,通過后臺操作或嵌入式追蹤技術(shù)(如cookies、像素追蹤)收集數(shù)據(jù)[2]。這種隱性數(shù)據(jù)收集可能包括用戶的設(shè)備信息、IP地址、網(wǎng)絡(luò)活動等,這些數(shù)據(jù)能夠組合起來形成個人的詳細信息。
2.爬蟲技術(shù)濫用
網(wǎng)絡(luò)爬蟲技術(shù)的濫用問題在數(shù)據(jù)收集領(lǐng)域愈發(fā)突出。一些企業(yè)通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)上大量抓取數(shù)據(jù),而忽視了網(wǎng)站的使用條款和版權(quán)保護,這種行為不僅可能侵犯知識產(chǎn)權(quán),還可能涉及用戶隱私和法律責(zé)任。Clearview AI是一家面部識別技術(shù)公司,通過從社交媒體平臺(如Facebook、Twitter、YouTube等)爬取公開的用戶圖片,用于訓(xùn)練其面部識別算法。Clearview AI并未獲得這些平臺或用戶的同意,導(dǎo)致多家平臺對其提起訴訟。被指控侵犯隱私權(quán)和知識產(chǎn)權(quán),特別是在未得到用戶許可的情況下收集生物識別數(shù)據(jù)。此行為違反了美國《伊利諾伊州生物識別信息隱私法》(BIPA),以及各平臺的服務(wù)條款。結(jié)果Clearview AI面臨多個州的隱私訴訟,并在伊利諾伊州的集體訴訟中同意達成和解。此外,Twitter、Facebook等社交媒體平臺也要求Clearview AI刪除所有從其平臺上抓取的用戶數(shù)據(jù)。
3.數(shù)據(jù)來源不透明
無法驗證數(shù)據(jù)的合法性。許多企業(yè)在使用訓(xùn)練數(shù)據(jù)時,并未充分披露數(shù)據(jù)的來源細節(jié),也沒有提供足夠的證據(jù)證明數(shù)據(jù)的合法性。這種缺乏透明度的做法,使得公眾和監(jiān)管機構(gòu)難以判斷數(shù)據(jù)是否通過合法途徑獲取,尤其是在跨境數(shù)據(jù)交易和共享中,數(shù)據(jù)來源的驗證更加困難。2018年美國Cambridge Analytica事件中,F(xiàn)acebook的數(shù)據(jù)被第三方公司違規(guī)利用,數(shù)據(jù)合法性受到廣泛質(zhì)疑。
第三方合作數(shù)據(jù)的透明度問題。許多企業(yè)通過與其他機構(gòu)或公司合作獲取數(shù)據(jù),但合作伙伴的合規(guī)性和數(shù)據(jù)來源是否合法,往往未被企業(yè)充分披露。這導(dǎo)致數(shù)據(jù)的來源變得更加復(fù)雜,難以驗證。2020年,谷歌與英國國家醫(yī)療服務(wù)體系(NHS)合作,Google旗下的AI部門DeepMind與英國國家醫(yī)療服務(wù)系統(tǒng)(NHS)合作,獲取了超過160萬患者的醫(yī)療數(shù)據(jù),用于開發(fā)應(yīng)用程序。盡管雙方的合作協(xié)議試圖確保數(shù)據(jù)的合法性,但公眾和隱私倡導(dǎo)者質(zhì)疑這些數(shù)據(jù)是否在完全告知和同意的前提下收集,最終引發(fā)巨大爭議。
三、訓(xùn)練數(shù)據(jù)收集現(xiàn)實困境的解決路徑
(一)包容審慎監(jiān)管理論的提出
1.包容審慎監(jiān)管的理論內(nèi)涵
“包容審慎”監(jiān)管原則是國務(wù)院辦公廳提出的構(gòu)想,旨在為新技術(shù)、新產(chǎn)業(yè)等提供靈活應(yīng)對機制。該原則在《優(yōu)化營商環(huán)境條例》(2019年)、《科學(xué)技術(shù)進步法》(2021年)及《生成式AI服務(wù)管理暫行辦法》(2023年)均有體現(xiàn),并逐步從原則轉(zhuǎn)化為具體規(guī)則。面對AI技術(shù)的廣泛應(yīng)用及帶來的數(shù)據(jù)隱私、算法公平性等挑戰(zhàn),傳統(tǒng)法律框架難以適應(yīng),而包容審慎監(jiān)管則提供了一種靈活的解決方案。它要求在制定法規(guī)和政策時,既要促進技術(shù)創(chuàng)新,又要保護社會公共利益和個人權(quán)利,實現(xiàn)技術(shù)與社會責(zé)任的平衡。在立法、執(zhí)法、司法層面,包容審慎監(jiān)管需考慮不同利益相關(guān)方的需求,確保企業(yè)、消費者、學(xué)術(shù)界和社會公眾在數(shù)據(jù)收集和使用中的權(quán)利和利益得到尊重。同時,法律法規(guī)對待新興事物不能一味遏制或放縱,而應(yīng)在發(fā)展中加以規(guī)制,實現(xiàn)更快發(fā)展。這一監(jiān)管原則的提出,能在一定程度上減輕企業(yè)在數(shù)據(jù)安全義務(wù)上的負擔(dān),促進AI技術(shù)的健康發(fā)展。
2.包容審慎監(jiān)管的比較優(yōu)勢
首先,這種規(guī)制方式減少了數(shù)據(jù)收集和使用過程中的繁瑣授權(quán)程序,使得研究機構(gòu)和企業(yè)能夠更快速地獲取所需數(shù)據(jù)進行算法訓(xùn)練。傳統(tǒng)的嚴格數(shù)據(jù)收集法律框架往往要求企業(yè)遵循復(fù)雜的授權(quán)流程和嚴格的合規(guī)要求,不放任公開的數(shù)據(jù)被任意爬取,數(shù)據(jù)爬取應(yīng)保持謙抑性,劃定爬蟲技術(shù)使用的合理邊界[2]。部分AI企業(yè)在數(shù)據(jù)收集時存在未嚴格遵循法律法規(guī)的現(xiàn)象,常采取“先侵權(quán)、后補救”的行為模式,凸顯了法律規(guī)制體系的不足。因此,提出包容審慎的監(jiān)管方式,旨在優(yōu)化授權(quán)流程、減少合規(guī)成本,使企業(yè)更專注于技術(shù)創(chuàng)新,減少侵權(quán)情況。包容審慎的數(shù)據(jù)收集監(jiān)管有助于建立開放的數(shù)據(jù)共享環(huán)境,促進數(shù)據(jù)流動與整合,提高利用效率,避免數(shù)據(jù)孤島。同時,它還能激勵更多企業(yè)和個人參與數(shù)據(jù)收集和共享,豐富數(shù)據(jù)多樣性和質(zhì)量,提升AI算法性能。此外,包容審慎的監(jiān)管能促進AI技術(shù)在醫(yī)療、交通等領(lǐng)域的迅速落地和普及,提高智能化水平和運行效率。該監(jiān)管方式具備動態(tài)調(diào)整優(yōu)勢,能靈活適應(yīng)技術(shù)快速變化,確保在保護社會利益的同時,給予AI企業(yè)創(chuàng)新空間。在整體考量下,隱私權(quán)、知情同意權(quán)和數(shù)據(jù)安全處于首要位置,社會整體利益則建立在保護個體權(quán)利和實現(xiàn)公平的基礎(chǔ)上。
(二)包容審慎監(jiān)管的實施路徑
1.優(yōu)化數(shù)據(jù)授權(quán)流程
通過法律和政策規(guī)范數(shù)據(jù)授權(quán)流程,制定標準化數(shù)據(jù)授權(quán)協(xié)議是關(guān)鍵。政府主導(dǎo)制定模板,明確收集目的、數(shù)據(jù)類型、使用方式、用戶權(quán)利等,增強用戶信任。行業(yè)根據(jù)數(shù)據(jù)類型制定協(xié)議,保護敏感數(shù)據(jù)。利用數(shù)字化技術(shù)構(gòu)建在線授權(quán)平臺,政府與企業(yè)合作,平衡公信力與技術(shù)創(chuàng)新,資源整合,提高效率與規(guī)范。平臺簡化授權(quán)流程,自動記錄存檔,化解數(shù)據(jù)來源不規(guī)范問題,降低未授權(quán)和數(shù)據(jù)不透明風(fēng)險,確保企業(yè)使用透明可信的安全數(shù)據(jù)進行訓(xùn)練。
2.制定分級的數(shù)據(jù)監(jiān)管策略
在數(shù)據(jù)保護與使用的背景下,實施分層次的數(shù)據(jù)監(jiān)管策略是實現(xiàn)包容審慎監(jiān)管的關(guān)鍵。由于數(shù)據(jù)的敏感性和風(fēng)險差異,單一監(jiān)管策略難以滿足需求。根據(jù)《數(shù)據(jù)安全法》,可將數(shù)據(jù)分為一般、重要、核心三個級別。對于一般數(shù)據(jù),特別是無法識別具體個人或組織的數(shù)據(jù),可以采取寬松監(jiān)管策略,鼓勵數(shù)據(jù)收集與使用,放寬收集限制。重要數(shù)據(jù)需嚴格訪問控制和加密,僅限授權(quán)人員訪問,所有數(shù)據(jù)存儲和傳輸均需加密。核心數(shù)據(jù)則需更高層級管控,訪問權(quán)限嚴格限制,僅特定機構(gòu)或人員可接觸,優(yōu)先使用國家批準的加密技術(shù)和安全設(shè)施,傳輸需國家批準,禁止未經(jīng)授權(quán)的跨境傳輸。政府應(yīng)加強監(jiān)督,定期安全審計和風(fēng)險評估,及時整改安全隱患。對核心數(shù)據(jù)泄露、篡改或非法利用,應(yīng)制定嚴厲的法律責(zé)任和懲罰機制。同時,分層次監(jiān)管策略也應(yīng)強調(diào)數(shù)據(jù)使用的透明性。
3.鼓勵匿名化和去標識化技術(shù)的使用
去標識化和匿名化技術(shù)幫助企業(yè)在保護隱私的同時合規(guī)使用數(shù)據(jù)。去標識化通過去除個人識別信息保留數(shù)據(jù)分析價值,而匿名化技術(shù)則完全消除可識別信息。對于未匿名化的存量數(shù)據(jù),需評估必要性和技術(shù)成本。匿名化比例的設(shè)置可由行業(yè)自律決定,以靈活找到最佳比例,避免侵權(quán)。對于動態(tài)訓(xùn)練數(shù)據(jù),法律應(yīng)鼓勵建立識別和匿名化機制,直接使用無個人信息數(shù)據(jù)訓(xùn)練模型。對遵守匿名化標準的企業(yè)提供稅收優(yōu)惠,激勵技術(shù)研發(fā)和實施。
合成數(shù)據(jù)的開發(fā)和使用可降低訓(xùn)練數(shù)據(jù)中的秘密性信息比例,規(guī)避數(shù)據(jù)泄露風(fēng)險。合成數(shù)據(jù)不涉及真實隱私或商業(yè)秘密,避免泄漏風(fēng)險,且在法律和倫理上合規(guī)?;旌蠑?shù)據(jù)策略結(jié)合合成數(shù)據(jù)與真實數(shù)據(jù),提高AI模型訓(xùn)練效果和泛化能力,減少對真實數(shù)據(jù)的依賴,降低隱私泄露風(fēng)險。合成數(shù)據(jù)增強技術(shù)提升合成數(shù)據(jù)集的多樣性和代表性,增強模型訓(xùn)練效果。
參考文獻:
[1]Gilles Mertens,et al. Google Tag Manager: Hidden Data Leaks and its Potential Violations under EU Data Protection Law,arXiv,Dec.14,2023.
[2]陳兵,傅小鷗.生成式AI數(shù)據(jù)訓(xùn)練的法治基調(diào)及展開[J]遼寧師范大學(xué)學(xué)報(社會科學(xué)版),2024,47(3):1-10.