亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理:歐盟經(jīng)驗及其啟示

        2025-05-01 00:00:00徐偉韋紅梅
        現(xiàn)代情報 2025年5期

        摘 要: [目的/ 意義] 生成式人工智能模型的性能依賴于訓(xùn)練數(shù)據(jù)的安全性, 而頻發(fā)的訓(xùn)練數(shù)據(jù)安全風(fēng)險已經(jīng)成為人工智能技術(shù)發(fā)展的障礙。保障訓(xùn)練數(shù)據(jù)安全對技術(shù)的健康發(fā)展具有重要意義。[方法/ 過程] 通過文獻、經(jīng)驗和比較分析, 揭示了生成式人工智能訓(xùn)練數(shù)據(jù)的安全風(fēng)險, 并在借鑒歐盟治理經(jīng)驗的基礎(chǔ)上, 結(jié)合我國實踐提出了應(yīng)對策略。[結(jié)果/ 結(jié)論] 研究發(fā)現(xiàn), 當(dāng)前訓(xùn)練數(shù)據(jù)存在數(shù)據(jù)來源不透明、標注不規(guī)范、內(nèi)容不安全及泄露風(fēng)險等問題。歐盟已建立以保障數(shù)據(jù)來源、標注、內(nèi)容及泄露防控為核心的監(jiān)管體系。未來, 我國應(yīng)加強數(shù)據(jù)來源管理、統(tǒng)一標注標準、完善內(nèi)容安全規(guī)則, 強化數(shù)據(jù)保護技術(shù)以確保訓(xùn)練數(shù)據(jù)安全, 推動技術(shù)健康發(fā)展。

        關(guān)鍵詞: 生成式人工智能; 訓(xùn)練數(shù)據(jù); 數(shù)據(jù)安全; 數(shù)據(jù)風(fēng)險治理; 歐盟經(jīng)驗

        DOI:10.3969 / j.issn.1008-0821.2025.05.009

        〔中圖分類號〕D922. 17; TP18 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 05-0089-10

        生成式人工智能作為推動新質(zhì)生產(chǎn)力發(fā)展的重要引擎, 具有顯著的“頭雁” 效應(yīng), 是我國在新一輪科技革命和產(chǎn)業(yè)變革中占得先機的重要戰(zhàn)略抓手。訓(xùn)練數(shù)據(jù)是生成式人工智能的關(guān)鍵“養(yǎng)料”, 其輸出內(nèi)容的準確性與安全性在很大程度上取決于訓(xùn)練數(shù)據(jù)來源的合規(guī)性、標注的準確性、內(nèi)容的安全性以及數(shù)據(jù)的保密性[1] 。然而, 隨著生成式人工智能的快速發(fā)展, 數(shù)據(jù)來源、數(shù)據(jù)標注、數(shù)據(jù)內(nèi)容和數(shù)據(jù)泄露等方面的風(fēng)險不斷涌現(xiàn), 因此, 生成式人工智能訓(xùn)練數(shù)據(jù)的風(fēng)險治理已迫在眉睫。

        盡管當(dāng)前學(xué)術(shù)界對生成式人工智能訓(xùn)練數(shù)據(jù)的風(fēng)險已有一定程度的關(guān)注和研究, 但具體的治理方案和實施細則尚未成熟和完善。歐盟作為數(shù)據(jù)安全保護的先驅(qū), 其在數(shù)據(jù)風(fēng)險治理方面的成功經(jīng)驗可以為我國提供有益的參考。鑒于此, 本文在歸納生成式人工智能訓(xùn)練數(shù)據(jù)安全風(fēng)險的基礎(chǔ)上, 借鑒歐盟的成功經(jīng)驗, 并結(jié)合我國訓(xùn)練數(shù)據(jù)風(fēng)險治理的實際情況, 制定科學(xué)、系統(tǒng)的風(fēng)險治理方案。這將有效應(yīng)對生成式人工智能訓(xùn)練數(shù)據(jù)面臨的各種風(fēng)險,確保其健康、有序發(fā)展, 為我國在新一輪科技革命和產(chǎn)業(yè)變革中贏得主動權(quán)奠定堅實基礎(chǔ)。

        1 相關(guān)研究

        在生成式人工智能的發(fā)展中, 訓(xùn)練數(shù)據(jù)的安全風(fēng)險及其治理路徑已引起學(xué)術(shù)界的廣泛關(guān)注。針對日益凸顯的訓(xùn)練數(shù)據(jù)安全問題, 現(xiàn)有研究主要集中于3 個方面: 訓(xùn)練數(shù)據(jù)的安全風(fēng)險、治理困境及治理路徑。

        1. 1 訓(xùn)練數(shù)據(jù)安全風(fēng)險

        當(dāng)前的研究主要探討了數(shù)據(jù)標注風(fēng)險、數(shù)據(jù)內(nèi)容風(fēng)險和數(shù)據(jù)泄露風(fēng)險三大領(lǐng)域。首先, 數(shù)據(jù)標注風(fēng)險包括因培訓(xùn)和分工機制不完善導(dǎo)致的標注不當(dāng)[2] , 以及監(jiān)督審核制度不健全引發(fā)的數(shù)據(jù)污染和數(shù)據(jù)投毒[3] , 有學(xué)者還關(guān)注到西方資本主義文化價值觀對數(shù)據(jù)標注結(jié)果的影響, 這可能削弱模型的文化和價值觀兼容性, 威脅我國的意識形態(tài)安全[4] ;其次, 數(shù)據(jù)內(nèi)容風(fēng)險涵蓋了未經(jīng)授權(quán)使用作品進行機器學(xué)習(xí)引發(fā)的知識產(chǎn)權(quán)侵權(quán)[5] 、非法獲取和使用個人信息導(dǎo)致的隱私侵權(quán)[6] , 以及因語料庫數(shù)據(jù)質(zhì)量不高或相關(guān)數(shù)據(jù)不足而產(chǎn)生的“模型幻覺” 風(fēng)險[7] ; 最后, 數(shù)據(jù)泄露風(fēng)險貫穿從模型預(yù)訓(xùn)練到模型輸出的各個階段, 主要表現(xiàn)為模型迭代訓(xùn)練導(dǎo)致的數(shù)據(jù)泄露[8] 和黑客攻擊帶來的數(shù)據(jù)泄露隱患[9] 。

        1. 2 訓(xùn)練數(shù)據(jù)治理困境

        學(xué)界一般認為, 顛覆性技術(shù)的發(fā)展往往會導(dǎo)致法律的不適應(yīng), 進而造成規(guī)則與現(xiàn)實的“脫節(jié)”。在生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險的治理中, 這種脫節(jié)主要表現(xiàn)為現(xiàn)有著作權(quán)保護和個人信息保護法律規(guī)則的不足。其一, 在著作權(quán)保護方面, 現(xiàn)行制度面臨治理困境。傳統(tǒng)的法定許可模式與人工智能技術(shù)的特性不匹配[10] 、運行成本高昂[11] , 加上訓(xùn)練數(shù)據(jù)來源難以追溯, 使得“許可使用” 模式難以適應(yīng)大規(guī)模人工智能模型的訓(xùn)練[12] 。此外, 現(xiàn)有的封閉合理使用標準難以應(yīng)對生成式人工智能模型訓(xùn)練的多變需求, 例如, 現(xiàn)有合理使用的情形無法涵蓋生成式人工智能模型的訓(xùn)練需求[13] , 且其特性也挑戰(zhàn)了“三步檢驗法” 的適用前提[14] ; 其二, 個人信息保護規(guī)則也面臨治理挑戰(zhàn)。生成式人工智能模型訓(xùn)練中使用個人信息的過程, 對“告知—同意規(guī)則”[15]“目的限定原則”[16] “場景理論”[17] 等核心原則構(gòu)成沖擊。

        1. 3 訓(xùn)練數(shù)據(jù)治理路徑

        學(xué)術(shù)界有關(guān)生成式人工智能訓(xùn)練數(shù)據(jù)治理路徑的探討, 主要聚焦訓(xùn)練數(shù)據(jù)內(nèi)容安全和數(shù)據(jù)泄露防范兩個維度。其一, 在數(shù)據(jù)內(nèi)容安全治理方面, 統(tǒng)籌協(xié)調(diào)訓(xùn)練數(shù)據(jù)安全工作, 定期開展數(shù)據(jù)安全評估[18] 。需對合理使用制度的適用界限進行明確[19] ,進一步完善著作權(quán)許可使用制度[20] , 以便保障數(shù)據(jù)處理的合規(guī)性。倡導(dǎo)包容審慎的個人信息安全監(jiān)管態(tài)度, 拓寬個人信息處理活動的合法性基礎(chǔ)[21] , 落實個人信息保護影響評估制度用以防范個人信息保護風(fēng)險[22] 。其二, 在防范數(shù)據(jù)泄露方面, 完善相關(guān)制度設(shè)計, 多方面發(fā)力切實保障數(shù)據(jù)安全。利用合成數(shù)據(jù)進行模型訓(xùn)練以應(yīng)對高質(zhì)量數(shù)據(jù)供給不足的問題, 從而降低隱私信息泄露的可能性[23] 。確保法律的靈活性和前瞻性, 推動法律和技術(shù)的融合發(fā)展, 以新興技術(shù)提升數(shù)據(jù)安全性[24] 。

        1. 4 總體評述

        總體來看, 現(xiàn)有研究雖從多個角度探討了生成式人工智能訓(xùn)練數(shù)據(jù)的治理問題與對策, 初步奠定了研究基礎(chǔ)和方向, 但仍存在明顯不足。其一, 訓(xùn)練數(shù)據(jù)安全風(fēng)險的分析不夠全面, 過于側(cè)重數(shù)據(jù)內(nèi)容和數(shù)據(jù)泄露風(fēng)險, 對數(shù)據(jù)標注風(fēng)險的分析深度不足, 對因數(shù)據(jù)來源管理不完善帶來的潛在風(fēng)險關(guān)注甚少。其二, 訓(xùn)練數(shù)據(jù)治理的研究多集中在數(shù)據(jù)內(nèi)容安全和數(shù)據(jù)泄露防范上, 缺乏全方位、多維度的綜合治理思維, 尤其在數(shù)據(jù)來源安全管理和數(shù)據(jù)標注安全的治理路徑上, 分析不夠深入, 缺乏細致的探討。

        2 生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險的解析

        研究發(fā)現(xiàn), 在生成式人工智能模型迭代優(yōu)化的過程中, 訓(xùn)練數(shù)據(jù)主要存在數(shù)據(jù)來源風(fēng)險、數(shù)據(jù)標注風(fēng)險、數(shù)據(jù)內(nèi)容風(fēng)險和數(shù)據(jù)泄露風(fēng)險。

        2. 1 數(shù)據(jù)來源風(fēng)險

        生成式人工智能訓(xùn)練數(shù)據(jù)來源安全是保障訓(xùn)練數(shù)據(jù)安全的起點, 訓(xùn)練數(shù)據(jù)來源風(fēng)險是數(shù)據(jù)安全風(fēng)險的源頭。訓(xùn)練數(shù)據(jù)來源風(fēng)險是在生成式人工智能模型訓(xùn)練過程中, 因?qū)?shù)據(jù)來源安全監(jiān)管不力引發(fā)的安全風(fēng)險, 包括以下4 個子類型:

        1) 數(shù)據(jù)來源驗證不充分的風(fēng)險。訓(xùn)練數(shù)據(jù)來源驗證要求在模型訓(xùn)練階段, 依照法定程序?qū)彶楹痛_認數(shù)據(jù)的來源。訓(xùn)練數(shù)據(jù)來源驗證旨在確保訓(xùn)練數(shù)據(jù)的合法性、真實性、準確性與時效性, 為技術(shù)的健康發(fā)展提供堅實的數(shù)據(jù)安全屏障。實踐中, 訓(xùn)練數(shù)據(jù)來源驗證不充分易導(dǎo)致訓(xùn)練數(shù)據(jù)來源安全風(fēng)險。

        2) 數(shù)據(jù)來源不可追溯的風(fēng)險。人工智能模型訓(xùn)練的質(zhì)量高低很大程度上依賴于訓(xùn)練數(shù)據(jù)來源的真實可靠。訓(xùn)練數(shù)據(jù)來源不可追溯容易引發(fā)諸多問題, 威脅生成式人工智能的健康發(fā)展。一是引發(fā)公眾信任危機。使用來源不透明的數(shù)據(jù)進行訓(xùn)練的人工智能模型, 無法保障其決策過程和決策結(jié)果的準確性與合法性, 從而引發(fā)公眾對人工智能的質(zhì)疑和擔(dān)憂; 二是陷入責(zé)任落實困境。對于來源不可追溯的數(shù)據(jù), 其處理過程的監(jiān)管難度很大, 無法保障處理全過程的透明可溯, 一旦發(fā)生數(shù)據(jù)質(zhì)量問題, 很難對各方責(zé)任落實到位。

        3) 數(shù)據(jù)來源搭配不豐富的風(fēng)險。訓(xùn)練數(shù)據(jù)來源搭配不豐富不利于生成式人工智能模型性能的提高。一是導(dǎo)致模型過擬合。如果人工智能模型在訓(xùn)練時只使用了單一來源或有限來源的數(shù)據(jù), 則易導(dǎo)致模型泛化能力不足, 在應(yīng)對新類型或不常見的問題時表現(xiàn)不佳; 二是放大數(shù)據(jù)偏見。若模型使用的訓(xùn)練數(shù)據(jù)來源不夠豐富, 可能會使得模型只學(xué)習(xí)到某一類數(shù)據(jù)的特征和含義, 放大模型已有的偏見。

        4) 數(shù)據(jù)采集偏差的風(fēng)險。在數(shù)據(jù)采集過程中存在無法避免的偏見[25] , 不同國家和地區(qū)的模型在選擇訓(xùn)練數(shù)據(jù)時, 傾向于選擇符合自身價值觀的數(shù)據(jù)集, 這可能導(dǎo)致模型學(xué)到這些主觀判斷, 導(dǎo)致對其他群體產(chǎn)生不公平傾向的問題。

        2. 2 數(shù)據(jù)標注風(fēng)險

        數(shù)據(jù)標注是指對未經(jīng)處理的音頻、視頻、圖片和文本等原始數(shù)據(jù)進行數(shù)據(jù)標記和分類, 使其成為可被機器識別的結(jié)構(gòu)化數(shù)據(jù)的過程。數(shù)據(jù)標注是人工智能感知世界的起點, 數(shù)據(jù)標注活動的準確性直接影響到模型的理解和泛化能力。經(jīng)總結(jié), 生成式人工智能訓(xùn)練數(shù)據(jù)標注風(fēng)險主要表現(xiàn)為以下4 個子類型:

        1) 標注人員不專業(yè)的風(fēng)險。高質(zhì)量的數(shù)據(jù)標注是開發(fā)高質(zhì)量生成式人工智能模型的基礎(chǔ)和前提,而數(shù)據(jù)標注人員的專業(yè)性是保障訓(xùn)練數(shù)據(jù)標注質(zhì)量的決定性因素。現(xiàn)階段, 數(shù)據(jù)標注人員能力參差不齊, 存在數(shù)據(jù)標注人員、審核人員、仲裁人員和監(jiān)督人員將主觀偏見映射到模型的價值判斷過程的風(fēng)險。

        2) 標注規(guī)則不清晰的風(fēng)險。不清晰的數(shù)據(jù)標注規(guī)則會增加數(shù)據(jù)標注工作的不確定性。一是標注結(jié)果偏差。不清晰的數(shù)據(jù)標注規(guī)則會導(dǎo)致數(shù)據(jù)標注人員對數(shù)據(jù)的特征產(chǎn)生誤解, 進而其根據(jù)個人理解對歧義性數(shù)據(jù)標注, 導(dǎo)致數(shù)據(jù)標注結(jié)果不一致。二是標注成本增加。不清晰的數(shù)據(jù)標注規(guī)則會造成標注人員理解障礙, 增加標注人員數(shù)據(jù)處理成本。

        3) 標注工具不可靠的風(fēng)險。數(shù)據(jù)標注工具根據(jù)其自動化程度的不同, 可以分為完全自動化標注工具、半自動化標注工具和非自動化標注工具。完全自動化標注工具通過預(yù)先訓(xùn)練好的模型對數(shù)據(jù)進行分類和標注, 在這個過程中無需人工干預(yù)。一方面, 完全自動化標注模型需要喂養(yǎng)質(zhì)量極高的樣本標注數(shù)據(jù)集, 如果喂養(yǎng)的數(shù)據(jù)質(zhì)量不高, 則易引發(fā)標注結(jié)果準確性隱憂; 另一方面, 在對新類型或者不常見的數(shù)據(jù)進行標注時, 完全自動化標注工具的標注效果可能無法達到預(yù)期效果。而半自動化標注工具的標注質(zhì)量往往受到預(yù)標注結(jié)果的直接影響,這就意味著, 一旦預(yù)標注結(jié)果出現(xiàn)偏差則會影響到后續(xù)人工審核的效率和最終標注結(jié)果的質(zhì)量。

        4) 標注管理不合理的風(fēng)險。主要表現(xiàn)為: 一方面, 由于內(nèi)部人員權(quán)限管理不當(dāng)或者在眾包、外包標注時對合作方管理不善導(dǎo)致數(shù)據(jù)泄露[26] ; 另一方面, 由于數(shù)據(jù)標注資源配置不合理或缺乏有效的監(jiān)督協(xié)調(diào)機制, 導(dǎo)致任務(wù)協(xié)調(diào)困難, 影響數(shù)據(jù)標注的效率和質(zhì)量。

        2. 3 數(shù)據(jù)內(nèi)容風(fēng)險

        《中華人民共和國數(shù)據(jù)安全法》第3 條指出,數(shù)據(jù)是“任何以電子或者其他方式對信息的記錄”。由此可以得出這樣一個結(jié)論, 即數(shù)據(jù)具有雙層結(jié)構(gòu):數(shù)據(jù)的載體層和數(shù)據(jù)的信息層(內(nèi)容層)。數(shù)據(jù)的載體層是數(shù)據(jù)的表現(xiàn)形式, 即0 和1 代碼本身; 數(shù)據(jù)的信息層(內(nèi)容層)是對數(shù)據(jù)客觀存在的表達, 往往涉及數(shù)據(jù)本身的利益主體和利益形態(tài)。數(shù)據(jù)的信息層(內(nèi)容層)不同, 則侵犯的數(shù)據(jù)權(quán)益也不同。研究發(fā)現(xiàn), 生成式人工智能訓(xùn)練數(shù)據(jù)內(nèi)容風(fēng)險主要表現(xiàn)為以下3 個子類型:

        1) 侵犯著作權(quán)的風(fēng)險。生成式人工智能訓(xùn)練數(shù)據(jù)可分為公共領(lǐng)域的數(shù)據(jù)、經(jīng)授權(quán)許可的數(shù)據(jù)和未經(jīng)授權(quán)許可的數(shù)據(jù)。前兩類數(shù)據(jù)不會涉及著作權(quán)問題, 但未經(jīng)授權(quán)許可的作品可能引發(fā)以下爭議: 一是侵犯復(fù)制權(quán)。盡管有學(xué)者認為生成式人工智能享有機器閱讀權(quán), 機器學(xué)習(xí)與復(fù)制權(quán)無涉, 但實際上大模型在訓(xùn)練過程中會將數(shù)據(jù)保存在硬盤、內(nèi)存或云服務(wù)中, 這超出了著作權(quán)人對作品的控制范圍,存在侵犯復(fù)制權(quán)的風(fēng)險[27] ; 二是侵犯翻譯權(quán)。有學(xué)者認為, 機器學(xué)習(xí)只是將作品轉(zhuǎn)化為機器語言, 不涉及思想表達, 因此不會侵犯翻譯權(quán)[28] 。但機器學(xué)習(xí)還可能將一種語言的作品轉(zhuǎn)化為另一種語言的作品, 如將英文作品翻譯為中文作品, 這明顯存在侵犯翻譯權(quán)的可能; 三是侵犯改編權(quán)。有學(xué)者認為,人工智能只是根據(jù)預(yù)設(shè)程序生成內(nèi)容, 未對任何作品進行改編, 侵權(quán)主體是實際使用者而非人工智能研發(fā)者。然而, 在將作品輸入模型進行訓(xùn)練前, 研發(fā)者通常會對作品進行噪聲添加、特征提取和壓縮等操作, 這些行為類似于改編, 應(yīng)當(dāng)被視為侵犯改編權(quán)。

        2) 侵犯個人信息權(quán)益的風(fēng)險。生成式人工智能模型訓(xùn)練階段對個人信息權(quán)益的侵犯主要表現(xiàn)為以下形式: 一是非法收集與處理個人信息。根據(jù)《中華人民共和國個人信息保護法》第17 條的規(guī)定,除個人信息處理的“法定許可” 外, 信息主體依法對其個人信息享有信息自決權(quán)。但在實踐中, 生成式人工智能的模型訓(xùn)練未經(jīng)信息主體同意, 非法收集和處理個人信息的情況屢見不鮮; 二是不合理使用已公開個人信息。根據(jù)《中華人民共和國個人信息保護法》的規(guī)定, 對已公開個人信息的使用應(yīng)當(dāng)保持在“合理范圍” 內(nèi)。實踐中, 生成式人工智能模型訓(xùn)練對已公開個人信息的處理存在目的不合理、范圍不合理和方式不合理等困境[29] , 這些行為使個人信息保護面臨較大風(fēng)險。

        3) 含違法不良信息的風(fēng)險。訓(xùn)練數(shù)據(jù)可能包含違法或其他不良信息, 如色情、暴力、仇恨內(nèi)容或其他倫理合規(guī)問題。生成式人工智能模型在訓(xùn)練時如果學(xué)習(xí)到這些不良內(nèi)容, 可能會導(dǎo)致生成違法內(nèi)容。

        2. 4 數(shù)據(jù)泄露風(fēng)險

        在生成式人工智能模型訓(xùn)練過程中, 面臨訓(xùn)練數(shù)據(jù)被泄露的風(fēng)險。根據(jù)攻擊者利用的信息類型,訓(xùn)練數(shù)據(jù)泄露可分為基于模型輸出的數(shù)據(jù)泄露和基于梯度更新的數(shù)據(jù)泄露。模型反向工程、成員推斷攻擊和模型蒸餾屬于前者, 模型參數(shù)泄露和中間層梯度攻擊屬于后者。

        1) 模型反向工程導(dǎo)致數(shù)據(jù)泄露的風(fēng)險。模型反向工程是通過分析機器學(xué)習(xí)模型的輸出、行為或內(nèi)部結(jié)構(gòu), 推斷或重建模型所學(xué)習(xí)的信息, 包括訓(xùn)練數(shù)據(jù)、模型參數(shù)和決策邏輯。

        2) 成員推斷攻擊導(dǎo)致數(shù)據(jù)泄露的風(fēng)險。攻擊者通過黑盒測試不斷攻擊目標模型, 以推斷某樣本是否存在于目標模型的訓(xùn)練數(shù)據(jù)集中。通常, 模型過擬合程度越高, 越容易導(dǎo)致訓(xùn)練數(shù)據(jù)集成員關(guān)系信息泄露[30] 。

        3) 模型蒸餾導(dǎo)致數(shù)據(jù)泄露的風(fēng)險。模型蒸餾是一種知識遷移技術(shù), 將大型復(fù)雜模型(教師模型)的知識轉(zhuǎn)移到小型簡單模型(學(xué)生模型)。盡管學(xué)生模型未直接接觸教師模型的原始訓(xùn)練數(shù)據(jù), 但通過學(xué)習(xí)教師模型的輸出, 可能隱式獲取到教師模型的數(shù)據(jù)信息, 導(dǎo)致隱式數(shù)據(jù)泄露。

        4) 模型參數(shù)泄露導(dǎo)致數(shù)據(jù)泄露的風(fēng)險。模型參數(shù)的安全關(guān)系到人工智能模型運行的穩(wěn)定和可靠,保障模型參數(shù)的安全為保障數(shù)據(jù)的安全提供堅實的基礎(chǔ)。模型參數(shù)的安全影響到模型攻擊的成功與否,如果模型參數(shù)泄露, 則會極大增加模型被攻擊成功的風(fēng)險, 進而威脅數(shù)據(jù)安全。人工智能模型在訓(xùn)練過程中會學(xué)習(xí)到輸入的數(shù)據(jù), 一旦模型參數(shù)泄露,也有可能會威脅數(shù)據(jù)的安全。

        5) 中間層梯度攻擊導(dǎo)致數(shù)據(jù)泄露的風(fēng)險。神經(jīng)網(wǎng)絡(luò)的中間層能有效捕捉到輸入數(shù)據(jù)的特征, 如果攻擊者利用中間層的梯度信息攻擊人工智能模型,則會對模型的安全性和魯棒性造成較大威脅, 進而影響到訓(xùn)練數(shù)據(jù)的安全。

        3 生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理的歐盟經(jīng)驗

        為了完善人工智能和數(shù)據(jù)安全監(jiān)管, 歐盟采取了一系列措施推動監(jiān)管框架的落地實施。

        歐盟的做法對于保障數(shù)據(jù)的安全和發(fā)展具有重要作用, 借鑒歐盟在訓(xùn)練數(shù)據(jù)安全治理的相關(guān)經(jīng)驗,有利于完善我國訓(xùn)練數(shù)據(jù)安全治理框架。

        3. 1 生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理的歐盟經(jīng)驗考察

        在訓(xùn)練數(shù)據(jù)的風(fēng)險治理問題上, 歐盟采取較為謹慎的治理策略, 整體上確立了以《人工智能法案》(以下簡稱AIA)為核心的數(shù)據(jù)安全監(jiān)管框架。

        3. 1. 1 數(shù)據(jù)來源管理: 確立以“透明可溯” 為核心的規(guī)制體系

        歐盟在生成式人工智能訓(xùn)練數(shù)據(jù)來源管理方面,確立了以數(shù)據(jù)處理“透明可溯” 為核心的規(guī)制體系,強調(diào)數(shù)據(jù)來源的合法性和透明性, 確保數(shù)據(jù)收集和使用過程中的可追溯性。

        1) 規(guī)范數(shù)據(jù)收集與處理活動。首先, 根據(jù)AIA第10 條第1 款的規(guī)定, 開發(fā)使用數(shù)據(jù)訓(xùn)練模型技術(shù)的高風(fēng)險人工智能系統(tǒng)時, 訓(xùn)練、驗證和測試數(shù)據(jù)集必須基于符合特定質(zhì)量標準和人工智能系統(tǒng)預(yù)期目的的數(shù)據(jù)處理實踐[31] ; 其次, 提供者需要建立嚴格的數(shù)據(jù)治理流程, 確保數(shù)據(jù)處理活動的合規(guī)性, 這些實踐應(yīng)涉及: 數(shù)據(jù)收集過程和來源、數(shù)據(jù)準備處理操作、數(shù)據(jù)的評估、數(shù)據(jù)偏差的審查、數(shù)據(jù)偏見的預(yù)防與減少, 以及數(shù)據(jù)差距和缺陷的解決等; 最后, 訓(xùn)練、驗證和測試數(shù)據(jù)集應(yīng)具有相關(guān)性和代表性, 確保能夠反映預(yù)期操作的環(huán)境和目標用戶群體。如果單一數(shù)據(jù)集無法完全滿足所有的質(zhì)量標準, 可以通過組合多個數(shù)據(jù)集來補充和完善所需的特性。

        2) 定期進行合規(guī)審查與認證。2024 年3 月22日, 法國國家信息與自由委員會(Commission Na?tionale de l‘Informatique et des Libertes, CNIL)發(fā)布的《個人數(shù)據(jù)安全實務(wù)指南: 2024 版》指出, 人工智能設(shè)計和訓(xùn)練必須包括審查數(shù)據(jù)來源的可靠性[32] 。歐盟數(shù)據(jù)保護認證機制以《通用數(shù)據(jù)保護條例》(以下簡稱GDPR)第42 條和第43 條為基石,并由其他條款和部分序言進行補充, 明確了數(shù)據(jù)保護認證的目標, 并對認證程序、認證機構(gòu)及其監(jiān)督機制提出基本要求[33] 。數(shù)據(jù)認證是歐盟實施制裁的重要考量因素, GDPR 第83 條第2 款規(guī)定“在具體案件中決定是否應(yīng)當(dāng)進行行政處罰, 以及決定行政處罰的金額, 應(yīng)當(dāng)充分考慮是否符合已生效的認證機制等因素”。

        3. 1. 2 數(shù)據(jù)標注管理: 確立以“高效高質(zhì)” 為核心的規(guī)制體系

        歐盟在生成式人工智能訓(xùn)練數(shù)據(jù)標注安全管理方面, 確立以“高效高質(zhì)” 為核心的規(guī)制體系, 多措并舉提高數(shù)據(jù)標注的效率和質(zhì)量, 確保訓(xùn)練數(shù)據(jù)的準確性。

        1) 明確數(shù)據(jù)標注原則。2024 年6 月10 日,CNIL 發(fā)布《人工智能—數(shù)據(jù)標注》[34] , 首次就數(shù)據(jù)標注相關(guān)要求回應(yīng)了公眾咨詢。最小化原則要求僅處理“充分、相關(guān)且僅限于處理目的所需的數(shù)據(jù)”(GDPR 第5. 1(c)條)。在實踐中, 這意味著要標注的訓(xùn)練數(shù)據(jù)必須限于訓(xùn)練模型所需的數(shù)據(jù)。值得注意的是, 對于那些可以提高模型性能但與預(yù)期功能相關(guān)的數(shù)據(jù)的標注并不需要遵循最小化原則。準確性原則要求數(shù)據(jù)標注的標簽必須準確, 并在必要時保持最新。由于數(shù)據(jù)標簽通常采用單個單詞或簡短表達的形式, 不足以描述數(shù)據(jù)的全部特征, 因此在訓(xùn)練數(shù)據(jù)標注時應(yīng)當(dāng)嚴格遵守準確性原則, 避免不準確的數(shù)據(jù)標注。

        2) 多措并舉保障數(shù)據(jù)標注質(zhì)量。設(shè)置連續(xù)驗證程序, 即用于監(jiān)督保障標注質(zhì)量的程序必須在數(shù)據(jù)標注活動開始后不久實施, 并在標注期間連續(xù)實施。限制數(shù)據(jù)標簽的選擇, 即所選擇的標簽須與訓(xùn)練結(jié)束時預(yù)期的功能相對應(yīng); 數(shù)據(jù)標簽的選擇須以公平的方式做出, 禁止任何侮辱性、貶義性術(shù)語或涉及可能損害人們聲譽的價值判斷的術(shù)語。規(guī)范數(shù)據(jù)標注過程。包括: 對整個標注環(huán)節(jié)記錄在案; 依賴可靠、穩(wěn)健且受控的標注工具; 加強數(shù)據(jù)標注人員標注能力綜合培訓(xùn); 在整個數(shù)據(jù)標注階段考慮讓道德委員會委員參與進來以確保數(shù)據(jù)標注結(jié)果合乎倫理。

        3. 1. 3 數(shù)據(jù)內(nèi)容安全保障: 確立以“利益平衡” 為核心的規(guī)制體系

        歐盟在生成式人工智能訓(xùn)練數(shù)據(jù)內(nèi)容安全保障方面, 確立了以“利益平衡” 為核心的規(guī)制體系,強調(diào)在數(shù)據(jù)使用中保護隱私權(quán)和公共利益的平衡,確保數(shù)據(jù)內(nèi)容的安全和合規(guī)。

        1) 審慎平衡版權(quán)保護與科技創(chuàng)新。為彌補《數(shù)據(jù)庫保護指令》和《信息社會版權(quán)指令》對著作權(quán)例外條款封閉式立法的缺陷, 建立起協(xié)調(diào)一致的高水平版權(quán)保護體系, 歐盟于2019 年通過了《數(shù)字化單一市場版權(quán)指令》(以下簡稱《DSM 指令》)[35] ?!叮模樱?指令》采取“雙軌制” 的辦法, 區(qū)分了基于科學(xué)研究目的的TDM 例外和不限目的的TDM 例外。前者不允許版權(quán)人或數(shù)據(jù)庫權(quán)利人通過合同條款排除適用, 后者則允許權(quán)利人通過適當(dāng)方式保留該例外的適用。盡管如此, 《DSM 指令》仍然對基于科研目的的TDM 例外在適用主體、適用客體及適用的行為類型方面作出嚴格限制??梢?, 歐盟在版權(quán)保護與科技創(chuàng)新孰輕孰重的問題上舉棋不定, 試圖驅(qū)動兩者并行不悖、相得益彰。

        2) 重視個人信息權(quán)益保護。歐盟對已公開個人信息和未公開個人信息實行一體保護, GDPR 有關(guān)個人信息處理原則(第5 條)和處理合法性基礎(chǔ)(第6 條)的規(guī)定均未涉及已公開個人信息處理的例外。這就意味著信息處理者在獲取已公開個人信息時仍需個人同意或具備其他合法性基礎(chǔ)。當(dāng)然, 歐盟在已公開個人信息規(guī)則的具體適用中, 也會體現(xiàn)一些特殊性。例如, GDPR 第9.2(e)條規(guī)定, “處理被信息主體明確無疑公開的個人信息” 不受第9. 1條“禁止處理特定敏感類型的個人信息” 的限制。

        3. 1. 4 防范數(shù)據(jù)泄露: 確立以“技術(shù)治理” 為核心的規(guī)制體系

        歐盟在防范生成式人工智能訓(xùn)練數(shù)據(jù)泄露方面,確立了以“技術(shù)治理” 為核心的規(guī)制體系。采用先進的數(shù)據(jù)池和安全標準, 防止數(shù)據(jù)泄露和未授權(quán)訪問, 保障數(shù)據(jù)的安全性。

        1) 確立統(tǒng)一數(shù)據(jù)安全立法下的技術(shù)治理規(guī)范。2018 年4 月通過的GDPR, 為歐盟搭建起一套統(tǒng)一完備的數(shù)據(jù)安全治理體系。2020 年4 月, 歐盟委員會(European Commission)發(fā)布《歐洲數(shù)據(jù)戰(zhàn)略》,明確要建立數(shù)據(jù)池以確保數(shù)據(jù)分析和機器學(xué)習(xí)的安全和信任[36] 。同年6 月, 歐洲數(shù)據(jù)保護監(jiān)管機構(gòu)(EDPS)發(fā)布《EDPS 戰(zhàn)略計劃(2020—2024)—塑造更安全的數(shù)字未來》, 表示將積極關(guān)注“對隱私和數(shù)據(jù)保護產(chǎn)生影響的技術(shù)的發(fā)展”[37] 。由此可見,歐盟正布局以GDPR 為核心的數(shù)據(jù)安全保護技術(shù)治理戰(zhàn)略。

        2) 加強歐盟和成員國積極參與數(shù)據(jù)安全標準制定。包括歐盟層面的指南參考及各成員國具體制定的國家標準共同構(gòu)成了歐盟數(shù)據(jù)安全標準體系。一方面, 歐盟層面發(fā)布多個數(shù)據(jù)安全保護標準文件,如《關(guān)于公平訪問和使用數(shù)據(jù)的統(tǒng)一規(guī)則的條例》[38]《開放數(shù)據(jù)和政府部門信息再利用指令》[39] 和《人工智能白皮書—通往卓越和信任的歐洲路徑》[40] 等,為保障人工智能時代數(shù)據(jù)安全筑起強大的“防御屏障”; 另一方面, 歐盟成員國積極參與國際標準化組織人工智能數(shù)據(jù)安全相關(guān)標準的制定工作, 明確數(shù)據(jù)安全標準底線。如IEEE 標準協(xié)會有關(guān)P7002 數(shù)據(jù)隱私處理標準、P7004 兒童和學(xué)生數(shù)據(jù)治理標準、P7005 透明雇主數(shù)據(jù)治理標準與P7006 個人數(shù)據(jù)人工智能代理標準等。

        3. 2 生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理的歐盟經(jīng)驗借鑒

        通過考察歐盟在訓(xùn)練數(shù)據(jù)風(fēng)險治理方面的經(jīng)驗,結(jié)合我國實際情況, 可以為我國生成式人工智能訓(xùn)練數(shù)據(jù)的治理提供有益啟示。

        1) 倡導(dǎo)數(shù)據(jù)處理透明可溯, 保障數(shù)據(jù)來源安全。在訓(xùn)練數(shù)據(jù)處理治理中強調(diào)透明度, 是確保數(shù)據(jù)來源安全和可追溯的重要前提。透明處理使事后問責(zé)“有跡可循”, 減少數(shù)據(jù)處理者的風(fēng)險。

        2) 細化數(shù)據(jù)標注規(guī)范, 確保標注質(zhì)量。數(shù)據(jù)標注工作在數(shù)字化時代尤為重要。制定具備可操作性的數(shù)據(jù)標注規(guī)范, 指導(dǎo)標注人員進行高質(zhì)量的數(shù)據(jù)加工, 為人工智能系統(tǒng)的訓(xùn)練和優(yōu)化奠定堅實基礎(chǔ)。

        3) 強調(diào)利益平衡, 保護權(quán)利主體。數(shù)據(jù)安全治理須統(tǒng)籌數(shù)據(jù)的安全和發(fā)展, 不能為了發(fā)展不要安全, 也不能為了安全不要發(fā)展。我國應(yīng)確立包容審慎的訓(xùn)練數(shù)據(jù)監(jiān)管框架, 切實平衡數(shù)據(jù)的安全利益和發(fā)展利益, 推動我國訓(xùn)練數(shù)據(jù)安全治理邁向新階段。

        4) 嵌入技術(shù)治理, 實現(xiàn)法律和技術(shù)的融合。生成式人工智能訓(xùn)練數(shù)據(jù)安全治理需要法律手段也需要技術(shù)手段。應(yīng)綜合運用法律和技術(shù)手段完善訓(xùn)練數(shù)據(jù)安全治理框架, 全方位保障數(shù)據(jù)安全。

        4 歐盟生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理對我國的啟示

        我國有關(guān)訓(xùn)練數(shù)據(jù)安全保障要求的三項國家標準分別是《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能服務(wù)安全基本要求》《信息安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》以及《信息安全技術(shù) 生成式人工智能數(shù)據(jù)標注安全規(guī)范》。我國關(guān)于生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險治理的法律法規(guī)主要體現(xiàn)在《生成式人工智能服務(wù)管理暫行辦法》中。以上文件為規(guī)范生成式人工智能的發(fā)展并保障數(shù)據(jù)安全提供參考, 但在實際操作中仍面臨諸多挑戰(zhàn)。首先, 驗證訓(xùn)練數(shù)據(jù)的合法來源及保護知識產(chǎn)權(quán)的過程較為復(fù)雜, 特別是在處理大型數(shù)據(jù)集時, 企業(yè)難以逐一核實數(shù)據(jù)的合法性, 從而面臨潛在的合規(guī)問題; 其次, 涉及個人信息的數(shù)據(jù)必須取得用戶同意, 但在大規(guī)模數(shù)據(jù)處理和多次轉(zhuǎn)手的情況下, 獲取并證明用戶同意的過程非常具有挑戰(zhàn)性, 可能導(dǎo)致合規(guī)性問題; 最后, 雖然《生成式人工智能服務(wù)管理暫行辦法》強調(diào)了數(shù)據(jù)質(zhì)量的重要性, 但在真實性、準確性、客觀性和多樣性方面缺乏明確標準,可能導(dǎo)致實際應(yīng)用中相關(guān)主體各行其是, 進而影響模型的性能。推動公共數(shù)據(jù)開放雖然有助于獲取高質(zhì)量的數(shù)據(jù)資源, 但由于數(shù)據(jù)分類分級標準不統(tǒng)一可能導(dǎo)致敏感信息的誤公開。實踐中很多中小企業(yè)缺乏相應(yīng)的資源和技術(shù)能力, 無法切實落實數(shù)據(jù)安全保障的相關(guān)技術(shù)措施。監(jiān)管和執(zhí)行也是一大難題,監(jiān)管部門需要具備足夠的執(zhí)法能力和水平, 否則再好的制度設(shè)想也只能淪為空想。《生成式人工智能服務(wù)管理暫行辦法》在規(guī)范人工智能行業(yè)發(fā)展方面雖然已邁出重要一步, 但在具體實施細則和執(zhí)行效果等方面仍需進一步完善。

        4. 1 加強數(shù)據(jù)來源前端防控, 促“ 被動治理” 向“主動治理”轉(zhuǎn)變

        生成式人工智能訓(xùn)練數(shù)據(jù)治理應(yīng)注重數(shù)據(jù)來源管理的早期介入和預(yù)防性控制, 秉持數(shù)據(jù)治理“小中見大” 的治理理念, 對數(shù)據(jù)來源問題“抓早抓小”, 實現(xiàn)對訓(xùn)練數(shù)據(jù)安全問題“被動響應(yīng)” 到“主動治理” 的前瞻性解決。

        1) 完善數(shù)據(jù)來源審查機制, 確保數(shù)據(jù)來源可信可靠。首先, 確立對數(shù)據(jù)來源的全流程審查, 對數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)進行全流程監(jiān)控, 確保數(shù)據(jù)來源合法、收集程序合規(guī)以及處理過程透明[41] ; 其次,強化數(shù)據(jù)來源的透明度和可追溯性, 借助區(qū)塊鏈等技術(shù), 對數(shù)據(jù)來源進行管理, 提高數(shù)據(jù)來源的透明度; 最后, 加強對數(shù)據(jù)來源審查的責(zé)任追究, 通過立法明確數(shù)據(jù)處理者的數(shù)據(jù)來源審查義務(wù), 并對違反特定義務(wù)的行為規(guī)定相應(yīng)的懲處措施。

        2) 開展定期采集偏差檢測, 確保數(shù)據(jù)樣本全面均衡。數(shù)據(jù)采集偏差檢測是一個系統(tǒng)性工程, 這就需要確立一個詳細的數(shù)據(jù)采集偏差檢測框架, 這個框架應(yīng)該包含對數(shù)據(jù)采集流程的全面審視。首先,在樣本選擇階段確保數(shù)據(jù)樣本的隨機性和代表性,避免因特定群體過度或不足代表而導(dǎo)致的偏差, 因此, 需要對訓(xùn)練數(shù)據(jù)樣本選擇方法進行定期審查和調(diào)整; 其次, 在數(shù)據(jù)收集階段要保持客觀和中立,從多個數(shù)據(jù)源收集信息, 避免只選擇支持預(yù)設(shè)假設(shè)的數(shù)據(jù); 最后, 要定期審查并調(diào)整數(shù)據(jù)收集流程,并根據(jù)模型性能反饋進行必要的更新和優(yōu)化。

        3) 倡導(dǎo)多源數(shù)據(jù)整合校驗, 提升模型泛化能力。首先, 注重對多源數(shù)據(jù)的整合校驗, 確保不同數(shù)據(jù)源的數(shù)據(jù)能夠在一個統(tǒng)一的框架下進行分析和處理, 對于不同數(shù)據(jù)源的數(shù)據(jù), 其價值密度不一,導(dǎo)致在使用這些數(shù)據(jù)進行分析時得出的結(jié)果也會有所偏差, 因此需注重對多源數(shù)據(jù)的整合校驗; 其次,強化多源數(shù)據(jù)校驗機制, 多源數(shù)據(jù)校驗機制是保障生成式人工智能模型輸出結(jié)果準確性的前提和基礎(chǔ),為了保障數(shù)據(jù)質(zhì)量, 有必要規(guī)范數(shù)據(jù)校驗流程以確保數(shù)據(jù)處理安全。數(shù)據(jù)清洗是這一流程的核心部分,旨在去除無關(guān)或冗余信息, 提升數(shù)據(jù)質(zhì)量。

        4. 2 統(tǒng)一數(shù)據(jù)標注規(guī)范, 促“ 無序治理” 向“ 有序治理”轉(zhuǎn)變

        質(zhì)量數(shù)據(jù)標注是生成式人工智能訓(xùn)練數(shù)據(jù)安全的試金石, 也是打造高質(zhì)量生成式人工智能的“第一塊多米諾骨牌”。在缺乏統(tǒng)一的數(shù)據(jù)標注規(guī)范和標準的“無序治理” 狀態(tài)下, 加劇了數(shù)據(jù)標注的不一致性。因而, 統(tǒng)一數(shù)據(jù)標注規(guī)范是促使數(shù)據(jù)標注“無序治理” 向“有序治理” 轉(zhuǎn)變的關(guān)鍵一招。

        1) 制定綜合培養(yǎng)方案, 提升數(shù)據(jù)標注人員專業(yè)素養(yǎng)。2021 年11 月, 人力資源和社會保障部發(fā)布《人工智能訓(xùn)練師 國家職業(yè)技能標準(2021 年版)》, 從數(shù)據(jù)采集和處理、數(shù)據(jù)標注、智能系統(tǒng)運維、業(yè)務(wù)分析、智能訓(xùn)練、智能系統(tǒng)設(shè)計等維度劃分了L5~L1 的5 個等級, 并對各個等級人工智能訓(xùn)練師提出不同的職業(yè)技能要求和理論知識要求,為人工智能訓(xùn)練師這一新職業(yè)提供職業(yè)發(fā)展指引。人工智能是一個快速發(fā)展的領(lǐng)域, 展望未來, 應(yīng)持續(xù)更新和完善人工智能訓(xùn)練師職業(yè)技能標準, 使人工智能更“懂” 人性、“通” 人性。

        2) 明確數(shù)據(jù)標注規(guī)則, 保障數(shù)據(jù)標注的一致性和準確性。數(shù)據(jù)標注是法律監(jiān)督算法模型的“眼睛”, 制定人工智能時代數(shù)據(jù)標注規(guī)則應(yīng)堅持以下要求: 一是堅持人工輔助、權(quán)責(zé)明晰、權(quán)責(zé)一致。要科學(xué)把握數(shù)據(jù)標注的價值內(nèi)涵和目標, 秉持社會主義法治理念。對于特定場景, 如司法人工智能模型訓(xùn)練的數(shù)據(jù)標注, 要貫徹標注責(zé)任“無盲區(qū)”、定責(zé)追責(zé)“無死角”。二是堅持透明可信可解釋。制定與優(yōu)化數(shù)據(jù)標注規(guī)則, 要將透明可信、可解釋確立為基本原則, 并建立相應(yīng)的配套機制。對于關(guān)鍵場景、爭議場景, 應(yīng)有效銜接訓(xùn)練數(shù)據(jù)處理機制, 明確預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理規(guī)范,小切口、重規(guī)制、強集成, 確保算法賦能公開公正。

        3) 優(yōu)化數(shù)據(jù)標注工具, 提高數(shù)據(jù)標注工具的性能。優(yōu)化數(shù)據(jù)標注工具有助于提高標注工具的性能, 保障數(shù)據(jù)標注安全。一是要加強國際交流合作, 關(guān)注國外相關(guān)的前沿技術(shù), 在必要時, 還可以選擇性引入國外成熟的解決方案。二是要為相關(guān)技術(shù)研發(fā)提供充足的資源保障, 沒有資源保障的技術(shù)研發(fā)猶如無水之魚, 需要加大相關(guān)技術(shù)的研發(fā)投入以提升數(shù)據(jù)標注工具的性能。

        4) 完善數(shù)據(jù)標注管理, 保障數(shù)據(jù)標注工作的質(zhì)量。數(shù)據(jù)標注管理應(yīng)科學(xué)、合理, 這是保障數(shù)據(jù)標注工作的質(zhì)量的關(guān)鍵和基礎(chǔ)。一是要建立數(shù)據(jù)標注的分層審核機制, 分層分級對數(shù)據(jù)標注工作進行全方位審核, 把對數(shù)據(jù)標注過程的審核“抓嚴抓實”,并確保發(fā)現(xiàn)的問題可以得到及時解決。二是確立數(shù)據(jù)標注倫理評估制度, 由數(shù)據(jù)標注倫理委員會牽頭,對數(shù)據(jù)標注過程中涉及的重大倫理問題依照特定程序進行評估, 保障數(shù)據(jù)標注工作合乎倫理。

        4. 3 完善數(shù)據(jù)內(nèi)容安全規(guī)則, 促“ 常規(guī)治理” 向“創(chuàng)新治理”轉(zhuǎn)變

        在全球化和信息化的浪潮中, 數(shù)據(jù)的價值日益凸顯。然而, 隨之而來的訓(xùn)練數(shù)據(jù)安全問題也日益嚴峻, 傳統(tǒng)的訓(xùn)練數(shù)據(jù)內(nèi)容安全治理規(guī)則在應(yīng)對新型數(shù)據(jù)風(fēng)險時顯得“捉襟見肘”。因此, 完善現(xiàn)有訓(xùn)練數(shù)據(jù)內(nèi)容安全規(guī)則, 是促生成式人工智能訓(xùn)練數(shù)據(jù)治理由“常規(guī)治理” 向“創(chuàng)新治理” 轉(zhuǎn)變的制勝法寶。

        1) 重塑著作權(quán)合理使用制度, 確保技術(shù)創(chuàng)新和產(chǎn)權(quán)保護“同頻共振”。我國著作權(quán)合理使用制度的設(shè)計遵循《伯爾尼保護文學(xué)和藝術(shù)作品公約》第9 條和《與貿(mào)易有關(guān)的知識產(chǎn)權(quán)協(xié)定》第13 條確立的“三步檢驗法” 模式?!吨腥A人民共和國著作權(quán)法》第24 條規(guī)定的包括“個人學(xué)習(xí)研究例外”“科學(xué)研究例外” “文化機構(gòu)例外” 及“其他情形兜底例外” 在內(nèi)的13 種合理使用制度適用情形無法突破我國合理使用制度適用的局限性, 面臨諸多現(xiàn)實困境。例如, “科學(xué)研究例外” 僅限于基于科學(xué)研究目的使用少量數(shù)據(jù)的行為, 現(xiàn)實中大量基于商業(yè)目的使用他人作品的行為無法獲得合理使用侵權(quán)豁免, 嚴重掣肘人工智能技術(shù)發(fā)展。因此, 重塑我國著作權(quán)合理使用制度刻不容緩。在適用主體和目的上, 參照歐盟《DSM 指令》區(qū)分一般情形和科研教育情形下TDM 的立法做法, 我國應(yīng)區(qū)分基于商業(yè)目的和非商業(yè)目的的TDM。對于非商業(yè)目的的TDM, 允許使用者在未經(jīng)著作權(quán)人許可且未支付任何報酬的情況下率先使用著作權(quán)人作品。在豁免行為范圍上, 不同于歐盟僅限于對數(shù)據(jù)的復(fù)制和提取的做法, 我國可以考慮將豁免行為擴大至復(fù)制行為、提取和分析行為及向公眾傳播行為, 最大限度為技術(shù)發(fā)展“保駕護航”。

        2) 明確已公開個人信息合理使用范圍認定路徑, 保障技術(shù)發(fā)展。對于未公開個人信息的使用,實務(wù)和理論界的通行做法是需要征得信息主體的明確同意。但是對已公開個人信息的使用則存在較大爭議, 而生成式人工智能處理已公開個人信息的行為是否在“合理范圍” 內(nèi)則是爭議的“暴風(fēng)眼”。筆者認為, 生成式人工智能處理個人信息是否屬于“合理范圍” 應(yīng)當(dāng)根據(jù)該行為對個人信息權(quán)益的影響程度來判斷。生成式人工智能出于模型訓(xùn)練的目的處理已合法公開的個人信息時, 并不會對信息主體進行個性化分析, 對個人信息權(quán)益的減損微乎其微。因此, 當(dāng)生成式人工智能處理已公開個人信息對信息主體權(quán)益的影響小于個人信息合法公開時的影響時, 可以認定該處理行為在“合理范圍” 內(nèi)。

        3) 建立違法不良信息特征庫, 保障訓(xùn)練數(shù)據(jù)內(nèi)容“向上向善”。可以考慮參照《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》的做法, 建立健全訓(xùn)練數(shù)據(jù)違法和不良信息的特征庫, 一旦發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中含有違法和不良信息, 立即采取相應(yīng)措施予以處置。

        4. 4 厚植數(shù)據(jù)保護技術(shù)土壤, 促“ 單一治理” 向“綜合治理”轉(zhuǎn)變

        過往的數(shù)據(jù)安全治理多關(guān)注法律對策, 對技術(shù)層面的治理重視度不夠。但是數(shù)據(jù)安全治理并非僅是法律問題, 這種“單一治理” 模式具有天然局限性, 數(shù)據(jù)安全治理需要法律治理和技術(shù)治理的融合。因此, 需厚植數(shù)據(jù)安全保護技術(shù)土壤, 推動數(shù)據(jù)安全保護從“單一治理” 走向法律治理和技術(shù)治理相結(jié)合的“綜合治理” 模式。

        1) 善用同態(tài)加密技術(shù), 保障個體信息安全。同態(tài)加密技術(shù)允許在數(shù)據(jù)不解密的前提下對數(shù)據(jù)加密計算。由此得到的計算結(jié)果與明文狀態(tài)下的計算結(jié)果一致, 實現(xiàn)了數(shù)據(jù)的“可用不可見” 效果。同態(tài)加密技術(shù)實現(xiàn)了數(shù)據(jù)在不暴露的情況下對數(shù)據(jù)的加工與處理, 極大保障數(shù)據(jù)的安全。因此, 要保障訓(xùn)練數(shù)據(jù)的安全, 應(yīng)善用同態(tài)加密技術(shù), 切實保障數(shù)據(jù)安全。

        2) 革新安全多方計算技術(shù), 增強數(shù)據(jù)協(xié)同處理的安全性。安全多方計算(MPC)允許各參與方在不暴露各自的輸入數(shù)據(jù)的情況下對數(shù)據(jù)進行協(xié)同處理[42] 。MPC 保障了數(shù)據(jù)的協(xié)同處理安全, 促進了數(shù)據(jù)的流通和利用, 統(tǒng)籌了數(shù)據(jù)的安全和發(fā)展。

        3) 部署聯(lián)邦學(xué)習(xí)技術(shù), 保障數(shù)據(jù)共享安全。聯(lián)邦學(xué)習(xí)技術(shù)允許各參與方在不共享原始數(shù)據(jù)的前提下, 共同訓(xùn)練同一個人工智能模型, 極大保障數(shù)據(jù)的共享安全。該技術(shù)有助于解決“數(shù)據(jù)孤島” 問題,在充分保障安全的前提下實現(xiàn)數(shù)據(jù)的最大化利用。

        5 結(jié) 語

        生成式人工智能訓(xùn)練數(shù)據(jù)的安全治理是一個關(guān)鍵且持續(xù)演進的話題, 其過程如同“摸著石頭過河”, 在復(fù)雜環(huán)境中難免面臨挑戰(zhàn), 但不能“因噎廢食”。黨的二十屆三中全會提出建立人工智能安全監(jiān)管制度, 訓(xùn)練數(shù)據(jù)的安全與人工智能技術(shù)的發(fā)展密切相關(guān), 缺一不可。歐盟通過多項戰(zhàn)略和法律法規(guī), 逐步建立了完善的訓(xùn)練數(shù)據(jù)治理體系, 形成了具有代表性的“歐盟模式”。在這一背景下, 我國在生成式人工智能訓(xùn)練數(shù)據(jù)安全治理中面臨實施細節(jié)、可行性和執(zhí)行效果等挑戰(zhàn)。因此, 深入研究歐盟的治理內(nèi)容和實踐效果, 將為我國制定切實可行的治理方案提供重要參考。

        在借鑒歐盟經(jīng)驗時, 應(yīng)對歐盟經(jīng)驗選擇性吸收,“取其精華, 去其糟粕”, 制定生成式人工智能訓(xùn)練數(shù)據(jù)安全治理的本土化方案。優(yōu)化訓(xùn)練數(shù)據(jù)安全治理, 應(yīng)加強數(shù)據(jù)來源前端防控, 保障數(shù)據(jù)來源安全; 統(tǒng)一數(shù)據(jù)標注規(guī)范, 保障數(shù)據(jù)標注安全; 完善數(shù)據(jù)內(nèi)容安全規(guī)則, 保障數(shù)據(jù)內(nèi)容安全; 厚植數(shù)據(jù)保護技術(shù)土壤, 防范數(shù)據(jù)泄露。遺憾的是, 盡管本研究致力于全面分析生成式人工智能訓(xùn)練數(shù)據(jù)的安全風(fēng)險并提出相應(yīng)治理對策, 但是技術(shù)的發(fā)展日新月異, 無法窮盡所有人工智能適用場景, 可能限制了對某些風(fēng)險分析的深度。未來, 應(yīng)采取更為靈活的治理策略, 以便及時回應(yīng)技術(shù)更迭帶來的新問題,為技術(shù)的創(chuàng)新發(fā)展預(yù)留足夠空間。同時, 加強跨學(xué)科合作, 探索系統(tǒng)性生成式人工智能訓(xùn)練數(shù)據(jù)安全治理策略。

        參考文獻

        [1] Kramcsák P T. Can Legitimate Interest be an Appropriate LawfulBasis for Processing Artificial Intelligence Training Datasets? [ J].Computer Law & Security Review, 2023, 48: 105765.

        [2] 劉云開. 人工智能生成內(nèi)容的著作權(quán)侵權(quán)風(fēng)險與侵權(quán)責(zé)任分配[J]. 西安交通大學(xué)學(xué)報(社會科學(xué)版), 2024, 44 (6): 166-177.

        [3] 張凌寒. 加快建設(shè)人工智能大模型中文訓(xùn)練數(shù)據(jù)語料庫[J]. 人民論壇·學(xué)術(shù)前沿, 2024 (13): 57-71.

        [4] 吳靜. 生成式人工智能的數(shù)據(jù)風(fēng)險及其法律規(guī)制———以ChatGPT為例[J]. 科技管理研究, 2024, 44 (5): 192-198.

        [5] 張濤. 生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風(fēng)險與包容審慎規(guī)制[J]. 比較法研究, 2024 (4): 86-103.

        [6] 郭海玲, 劉仲山, 衛(wèi)金金. 我國數(shù)據(jù)跨境流動協(xié)同治理現(xiàn)實困境及紓解路徑研究[J]. 現(xiàn)代情報, 2024, 44 (9): 142-153.

        [7] 徐峰. 人工智能大模型發(fā)展帶來的風(fēng)險挑戰(zhàn)和對策[ J]. 人民論壇·學(xué)術(shù)前沿, 2024 (13): 72-78.

        [8] 李毅, 鄭鵬宇, 張婷. ChatGPT 賦能教育評價變革的現(xiàn)實前提、作用機理及實踐路徑[J]. 現(xiàn)代遠距離教育, 2024 (3): 9-17.

        [9] 張欣. 生成式人工智能的數(shù)據(jù)風(fēng)險與治理路徑[J]. 法律科學(xué)(西北政法大學(xué)學(xué)報), 2023, 41 (5): 42-54.

        [10] 謝惠加, 譚鈞豪. 基礎(chǔ)模型訓(xùn)練使用作品的版權(quán)保護困境及出路[J]. 中國出版, 2024 (15): 5-12.

        [11] 高雅文, 來小鵬. 生成式人工智能語料版權(quán)問題研究[J]. 出版廣角, 2024 (5): 27-34.

        [12] 焦和平. 人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權(quán)風(fēng)險及化解路徑[J]. 當(dāng)代法學(xué), 2022, 36 (4): 128-140.

        [13] 周文康, 費艷穎. 生成式人工智能創(chuàng)作使用作品的合理使用調(diào)適[J]. 科技與法律(中英文), 2024 (3): 77-87.

        [14] 徐小奔. 技術(shù)中立視角下人工智能模型訓(xùn)練的著作權(quán)合理使用[J]. 法學(xué)評論, 2024, 42 (4): 86-99.

        [15] 陳易, 何麗新. 個人信息處理中同意規(guī)則的功能主義闡釋[J].法律適用, 2024 (3): 141-157.

        [16] 鈄曉東. 風(fēng)險與控制: 論生成式人工智能應(yīng)用的個人信息保護[J]. 政法論叢, 2023 (4): 59-68.

        [17] 趙藝, 楊潔. 論依法公開個人信息的“ 合理” 處理[ J]. 人權(quán), 2023 (1): 157-182.

        [18] 梅傲, 陳子文. 總體國家安全觀視域下我國數(shù)據(jù)安全監(jiān)管的制度構(gòu)建[J]. 電子政務(wù), 2023 (11): 104-115.

        [19] 劉禹. 機器利用數(shù)據(jù)行為構(gòu)成著作權(quán)合理使用的經(jīng)濟分析[J]. 知識產(chǎn)權(quán), 2024 (3): 107-126.

        [20] 孫山, 張雯雯. 生成式人工智能預(yù)訓(xùn)練中權(quán)利限制制度的選擇與建構(gòu)[J]. 科技與出版, 2024 (7): 6-15.

        [21] 黃锫. 生成式AI 對個人信息保護的挑戰(zhàn)與風(fēng)險規(guī)制[ J]. 現(xiàn)代法學(xué), 2024, 46 (4): 101-115.

        [22] 丁曉東. 論人工智能促進型的數(shù)據(jù)制度[J]. 中國法律評論,2023 (6): 175-191.

        [23] 陳永偉. 作為GPT 的GPT———新一代人工智能的機遇與挑戰(zhàn)[J]. 財經(jīng)問題研究, 2023 (6): 41-58.

        [24] 劉曉遷, 許飛, 馬卓, 等. 聯(lián)邦學(xué)習(xí)中的隱私保護技術(shù)研究[J]. 信息安全研究, 2024, 10 (3): 194-201.

        [25] 徐偉, 何野. 生成式人工智能數(shù)據(jù)安全風(fēng)險的治理體系及優(yōu)化路徑———基于38 份政策文本的扎根分析[J]. 電子政務(wù), 2024(10): 42-58.

        [26] 粟瑜. 人工智能時代數(shù)據(jù)標注眾包勞動的法律保護[ J]. 暨南學(xué)報(哲學(xué)社會科學(xué)版), 2023, 45 (1): 64-77.

        [27] 魏遠山. 生成式人工智能訓(xùn)練數(shù)據(jù)的著作權(quán)法因應(yīng): 確需設(shè)置合理使用規(guī)則嗎? [J]. 圖書情報知識, 2025, 42 (1): 78-88.

        [28] 王國柱. 人工智能機器翻譯場景下翻譯權(quán)制度的重釋[J]. 政法論叢, 2023 (3): 79-89.

        [29] 宋才發(fā). 個人信息保護的法律規(guī)制與法治路徑[J]. 重慶郵電大學(xué)學(xué)報(社會科學(xué)版), 2022, 34 (5): 48-56.

        [30] 林偉. 人工智能數(shù)據(jù)安全風(fēng)險及應(yīng)對[ J]. 情報雜志, 2022,41 (10): 105-111, 88.

        [31] European Parliament. Artificial Intelligence Act [EB/ OL]. [2024-08-21]. https:/ / www.europarl.europa.eu/ doceo/ document/ TA-9-2024-03-13_EN.html#title2_1.。

        [32] Commission Nationale de l’information et des Libertés. PracticeGuide for the Security of Personal Data: 2024 Edition [ EB/ OL].[2024-08-23]. https:/ / www.cnil.fr/ en/ practice-guide-securitypersonal-data-2024-edition.

        [33] The European Data Protection Board. General Data ProtectionRegulation [EB/ OL]. [2024-08-24]. https: / / gdpr-info.eu/ .

        [ 34] Commission Nationale de linformation et des Libertés. IA: Annoterles Données [EB/ OL]. [2024-08-25]. https:/ / www.cnil.fr/ fr/ia-annoter-les-donnees.

        [35] European Commission. Directive on Copyright in the Digital Sin?gles Market [EB/ OL]. [2024-08-25]. https: / / eur-lex.europa.eu/ eli/ dir/2019/790/ oj.

        [36] European Commission. A European Strategy for Data [ EB/ OL].[2024-08-27]. https: / / eur-lex.europa.eu/ legal-content/ EN/TXT/ ?uri=CELEX%3A52020DC0066.

        [37] European Data Protection Supervisor. EDPS Strategy 2020-2024:Shaping a Safer Digital Future [EB/ OL]. [2024-08-28]. https:/ /www.edps.europa.eu/ data-protection/ our-work/ publications/ strate?gy/ edps-strategy-2020-2024-shaping-safer-digital-future_en.

        [38] Council of the European Union, European Parliament. Regulationon Harmonized Rules on Fair Access to and Use of Data [EB/ OL].[2024-08-28]. https: / / eur-lex.europa.eu/ eli/ reg/2023/2854.

        [ 39] European Parliament, Council of the European Union, EuropeanCommission. Directive on the Reuseof Public Sector Information [EB/OL]. [2024-08-30]. https:/ / eur-lex.europa.eu/ EN/ legal-con?tent/ summary/ open-data-and-the-reuse-of-public-sector-infor?mation.html.

        [40] European Commission. White Paper on Artificial Intelligence: AEuropean Approach to Excellence and Trust [EB/ OL]. [2024-08-31]. https:/ / commission.europa.eu/ publications/ white-paper-arti?ficial-intelligence-european-approach-excellence-and-trust_en.

        [41] 司馬航. 歐盟公共數(shù)據(jù)共享的制度構(gòu)造和經(jīng)驗借鑒———以歐盟《數(shù)據(jù)治理法》為視角[J]. 德國研究, 2023, 38 (4): 67-87,126-127.

        [42] 李軒. 隱私計算賦能公共數(shù)據(jù)開放的邏輯進路與風(fēng)險規(guī)制[J].科學(xué)學(xué)研究, 2024, 42 (8): 1716-1723.

        (責(zé)任編輯: 郭沫含)

        基金項目: 國家社會科學(xué)基金重大項目“健全網(wǎng)絡(luò)綜合治理體系研究” (項目編號: 23ZDA086)。

        √天堂中文官网8在线| 亚洲处破女av日韩精品中出| 国产精品人人做人人爽| 久久老子午夜精品无码怎么打| 中文人妻无码一区二区三区信息| 免费观看在线视频一区| 亚洲婷婷久悠悠色悠在线播放| 亚洲精品一品区二品区三品区| 日本55丰满熟妇厨房伦| 女人被躁到高潮嗷嗷叫免费软| 在线日本国产成人免费精品| 中文字幕日韩精品一区二区三区| 久久久久无码国产精品不卡| 亚洲色偷偷偷综合网另类小说| 亚洲一区二区三区视频免费看 | 精品一区2区3区4区| 人人妻人人澡人人爽国产| 久久水蜜桃亚洲av无码精品麻豆| 1精品啪国产在线观看免费牛牛| 久久综合加勒比东京热| 亚洲av永久无码精品网站| 风韵饥渴少妇在线观看| 青春草在线视频精品| 亚洲午夜经典一区二区日韩| 亚洲精品色午夜无码专区日韩| 日本a级特黄特黄刺激大片| 亚洲美女性生活一级片| 国产一区二区三区不卡在线观看 | 午夜精品免费视频一区二区三区| 色欲综合一区二区三区| 风流少妇又紧又爽又丰满| 亚洲av色香蕉一区二区三区蜜桃 | 91国内偷拍一区二区三区 | 国产精品女丝袜白丝袜美腿| 无码无套少妇毛多18pxxxx| 欧美喷潮久久久xxxxx| av亚洲在线一区二区| 国产毛片视频一区二区| 怡红院免费的全部视频| 国产成人福利在线视频不卡 | 欧美最猛黑人xxxx黑人表情|