人工智能(AI)技術(shù)正處于快速發(fā)展的關(guān)鍵階段,我國以DeepSeek為代表的本土企業(yè)通過技術(shù)創(chuàng)新,成功突破算力與成本瓶頸,在關(guān)鍵領(lǐng)域能力躋身世界第一梯隊。這些技術(shù)突破的實現(xiàn)高度依賴數(shù)據(jù)要素的支撐——數(shù)據(jù)作為人工智能發(fā)展的“新石油”,已經(jīng)成為重塑全球創(chuàng)新格局的基礎(chǔ)性要素。從國際競爭態(tài)勢看,主要經(jīng)濟體正加速構(gòu)建數(shù)據(jù)戰(zhàn)略優(yōu)勢:2025年1月,美國啟動千億美元級“星際之門”新基建計劃強化數(shù)據(jù)儲備;2024年3月,歐盟通過《人工智能法案》搶先構(gòu)建全球首個數(shù)據(jù)治理標準體系。然而值得注意的是,我國在數(shù)據(jù)要素領(lǐng)域仍面臨著諸多挑戰(zhàn),若不能有效破解,我國人工智能技術(shù)更新迭代及未來發(fā)展將面臨制約,各行業(yè)的智能化轉(zhuǎn)型和創(chuàng)新能力也將受限,不利于在全球競爭中保持領(lǐng)先地位。
一、當前我國人工智能發(fā)展的數(shù)據(jù)支撐
(一)數(shù)據(jù)資源規(guī)模持續(xù)擴容,法律治理體系逐步建立
數(shù)據(jù)體量穩(wěn)定增長,產(chǎn)業(yè)基礎(chǔ)持續(xù)夯實?!度珖鴶?shù)據(jù)資源調(diào)查報告(2023年)》顯示,2023年,我國數(shù)據(jù)生產(chǎn)總量達到32.85澤字節(jié)(ZB),同比增長22.44%?!秶倚畔⒒l(fā)展報告(2023)》數(shù)據(jù)顯示,我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模逐年遞增(見圖1),在2023年達1.74萬億元,同比增長10.45%。國家數(shù)據(jù)局統(tǒng)計顯示,截至2025年3月,中國七個數(shù)據(jù)標注基地的數(shù)據(jù)標注總規(guī)模已達17282TB,相當于中國國家圖書館數(shù)字資源總量的6倍左右。這些基地已形成醫(yī)療、工業(yè)、教育等行業(yè)的高質(zhì)量數(shù)據(jù)集335個,賦能121個國產(chǎn)人工智能大模型研發(fā)。
法律框架持續(xù)完善,監(jiān)管規(guī)則逐漸立體。我國先后頒布了《網(wǎng)絡安全法》《數(shù)據(jù)安全法》和《個人信息保護法》等重要法律文件,為數(shù)據(jù)治理提供了法律基礎(chǔ)。針對人工智能領(lǐng)域,國家互聯(lián)網(wǎng)信息辦公室還于2023年出臺了《生成式人工智能服務管理暫行辦法》,對生成式人工智能服務的數(shù)據(jù)治理、算法設計、內(nèi)容管理等方面提出了具體要求,形成覆蓋研發(fā)、應用全流程的監(jiān)管框架。2024年實施的《數(shù)據(jù)安全技術(shù) 數(shù)據(jù)分類分級規(guī)則》國家標準規(guī)定了數(shù)據(jù)分類分級的原則、框架、方法和流程,有效降低數(shù)據(jù)安全風險,提高數(shù)據(jù)管理的科學性和規(guī)范性。
(二)政策體系多維賦能發(fā)展,數(shù)據(jù)要素價值加速釋放
頂層設計驅(qū)動要素市場化改革。2025年《政府工作報告》明確提出,要持續(xù)推進“人工智能+”行動,將數(shù)字技術(shù)與制造優(yōu)勢、市場優(yōu)勢更好結(jié)合起來,支持大模型廣泛應用,大力發(fā)展智能網(wǎng)聯(lián)新能源汽車、人工智能手機和電腦、智能機器人等新一代智能終端以及智能制造裝備。國家數(shù)據(jù)局等部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》也在智能制造、智慧醫(yī)療等12個重點領(lǐng)域開展數(shù)據(jù)應用試點,國家數(shù)據(jù)局還聯(lián)合多部門共同發(fā)布了48個“數(shù)據(jù)要素×”的典型案例合集,展示了數(shù)據(jù)要素在不同行業(yè)中的創(chuàng)新應用和顯著成效。目前全國22個省市已制定地方數(shù)據(jù)條例,數(shù)據(jù)交易所數(shù)量擴展至52家,2023年場內(nèi)交易規(guī)模突破1200億元,年度增幅達38%。
系統(tǒng)性規(guī)劃可信數(shù)據(jù)空間發(fā)展路徑。2024年11月,國家數(shù)據(jù)局印發(fā)《可信數(shù)據(jù)空間發(fā)展行動計劃(2024—2028年)》,是我國首個針對可信數(shù)據(jù)空間的系統(tǒng)性規(guī)劃文件。通過構(gòu)建可信、高效的數(shù)據(jù)流通基礎(chǔ)設施,破解數(shù)據(jù)孤島、流通效率低、安全風險高等問題,推動數(shù)據(jù)要素市場化配置改革,助力數(shù)字經(jīng)濟與實體經(jīng)濟深度融合。2025年作為《可信數(shù)據(jù)空間發(fā)展行動計劃(2024—2028年)》執(zhí)行的關(guān)鍵年,其落地將推動數(shù)據(jù)從“資源”向“資產(chǎn)”轉(zhuǎn)化,推動人工智能大模型訓練、智能制造等領(lǐng)域的創(chuàng)新發(fā)展,為探索數(shù)據(jù)治理方案提供實踐經(jīng)驗。
(三)構(gòu)建跨境流動管理體系,積極推動國際數(shù)據(jù)合作
構(gòu)建與高質(zhì)量發(fā)展相適應的數(shù)據(jù)跨境流動管理體系。建立高效便利安全的數(shù)據(jù)跨境流動機制,是激活數(shù)據(jù)要素價值、賦能人工智能發(fā)展的重要環(huán)節(jié)。2024年3月,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《促進和規(guī)范數(shù)據(jù)跨境流動規(guī)定》,大幅提升數(shù)據(jù)流動效率,降低企業(yè)合規(guī)成本,激發(fā)創(chuàng)新潛力,推動數(shù)據(jù)安全有序流動。2025年3月27日,首個促進數(shù)據(jù)跨境流動便利化的綜合性配套改革文件《北京市數(shù)據(jù)跨境流動便利化綜合配套改革實施方案》正式發(fā)布,統(tǒng)籌提出了一攬子創(chuàng)新舉措,全力打造國家數(shù)據(jù)領(lǐng)域高水平開放的展示窗口、全國數(shù)據(jù)跨境流動便利化政策的創(chuàng)新實踐高地、全球數(shù)據(jù)資源流通的重要樞紐。
積極推動國際數(shù)據(jù)安全合作。在日益加劇的全球人工智能競爭格局中,地緣政治也在影響全球數(shù)據(jù)流動。2022年8月,美國《芯片與科學法案》通過技術(shù)出口管制清單,將14類人工智能關(guān)鍵數(shù)據(jù)列入限制共享范圍;2022年4月,歐盟則依據(jù)《數(shù)據(jù)治理法案》實施數(shù)據(jù)跨境流動白名單制度,要求第三方國家企業(yè)必須通過“充分性認定”審查方可接入歐盟數(shù)據(jù)市場。在此背景下,中國不斷深化數(shù)據(jù)安全國際合作與政策溝通,力求在全球數(shù)據(jù)治理中爭取更大話語權(quán)。自習近平主席在“一帶一路”國際合作高峰論壇上首次提出建設“數(shù)字絲綢之路”以來,中國推動達成《全球數(shù)據(jù)安全倡議》《中阿數(shù)據(jù)安全合作倡議》和《“中國+中亞五國”數(shù)據(jù)安全合作倡議》,并在第三屆高峰論壇期間提出《全球人工智能治理倡議》,呼吁各國加強數(shù)據(jù)交流合作,共同做好風險防范。根據(jù)《全球數(shù)字經(jīng)濟白皮書(2024年)》統(tǒng)計,全球人工智能大模型數(shù)量已達1328個,其中中國占比36%,美國占比44%,如表1所示。
二、國際人工智能數(shù)據(jù)管理的經(jīng)驗及發(fā)展趨勢
(一)美國:分散式法律框架與市場驅(qū)動型治理
采取技術(shù)優(yōu)先的發(fā)展策略。美國數(shù)據(jù)管理策略以維持技術(shù)領(lǐng)先地位為核心目標,優(yōu)先支持產(chǎn)業(yè)發(fā)展。在市場的驅(qū)動下,谷歌、微軟、Meta、OpenAI等科技巨頭主導 AI 數(shù)據(jù)采集、標注與治理,積極參與國際標準組織、行業(yè)協(xié)會和公共政策對話,再通過與高校、科研機構(gòu)等建立緊密的合作關(guān)系,形成以技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展為主要目標的數(shù)據(jù)管理建設。
分層治理保持政策彈性。美國的人工智能立法呈現(xiàn)分散性的特點。在聯(lián)邦層面,美國主要依賴《算法問責法案》等柔性規(guī)范;在州級層面,截至2025年,亞拉巴馬州、亞利桑那州、加利福尼亞州等超過40個州政府已經(jīng)頒布了關(guān)于人工智能治理的區(qū)域性法案進行補充性規(guī)制,如《加州消費者隱私法案》(CCPA)等。
(二)歐盟:體系化治理架構(gòu)與數(shù)字主權(quán)戰(zhàn)略
歐盟采取了體系化的立法治理架構(gòu)。自2018年《人工智能協(xié)調(diào)計劃》實施以來,歐盟逐步構(gòu)建了以《通用數(shù)據(jù)保護條例》(GDPR)為基礎(chǔ)、《人工智能倫理準則》為指導、《人工智能法案》為核心的多層次治理體系,高風險 AI 需遵守嚴格的數(shù)據(jù)透明與審計要求。2022年歐盟出臺《數(shù)據(jù)治理法案》,通過建立數(shù)據(jù)跨境流動白名單制度,確保歐盟對自身數(shù)據(jù)的控制和治理能力,防止數(shù)據(jù)被外部力量過度獲取和利用。
注重“數(shù)字主權(quán)”,區(qū)域協(xié)同提升國際話語權(quán)。歐盟通過建設Gaia-X云數(shù)據(jù)基礎(chǔ)設施,著力擺脫對美國云計算服務的技術(shù)依賴,構(gòu)建自主可控的數(shù)據(jù)存儲與處理體系,強化技術(shù)自主性。歐盟還依托歐洲人工智能聯(lián)盟(AI4EU)等區(qū)域性合作平臺,建立成員國間的數(shù)據(jù)共享機制與技術(shù)標準互認制度,有效提升了集體議價能力與全球治理話語權(quán)。
(三)日本:協(xié)作式治理模式與應用導向型管理
注重場景化技術(shù)應用,推動數(shù)據(jù)跨境流通。日本的數(shù)據(jù)管理以應用為導向,注重在醫(yī)療、交通、教育等領(lǐng)域的應用實踐?!度斯ぶ悄軕?zhàn)略》明確提出將醫(yī)療、農(nóng)業(yè)、基礎(chǔ)設施等作為利用人工智能的優(yōu)先領(lǐng)域,并制定針對性措施加強技術(shù)應用的透明度。還提出“基于信任的數(shù)據(jù)自由流動”(DFFT)框架,與歐美加強數(shù)據(jù)合作,為數(shù)據(jù)自由流動、個人數(shù)據(jù)保護、數(shù)字市場開放等一系列問題提供解決方案。
遵循“軟法范式”,依靠非約束性的指導原則。2023年8月,日本政府宣布制定《人工智能指導方針》,為人工智能企業(yè)的研發(fā)與應用提供參考,促進人工智能企業(yè)自愿采取行動。2024年發(fā)布的《AI企業(yè)指南》以指導原則的形式,對人工智能開發(fā)人員、供應商和業(yè)務用戶提出安全要求,便于產(chǎn)業(yè)界據(jù)此制定相關(guān)規(guī)則和標準,引導企業(yè)規(guī)避AI全生命周期風險。同時,政府提出的“隱私保護”“公平競爭”等七大原則也采用非強制實施路徑,依托企業(yè)認證制度等激勵措施推動合規(guī)實踐,形成以企業(yè)為中心、多方利益相關(guān)者共同參與治理的監(jiān)管格局。
三、當前我國人工智能發(fā)展面臨的數(shù)據(jù)困境
(一)數(shù)據(jù)生產(chǎn)環(huán)節(jié):語料開發(fā)不足,質(zhì)量標準缺失
數(shù)據(jù)留存率低,復用不足。2023年,我國生產(chǎn)數(shù)據(jù)資源32ZB(澤字節(jié)),新增數(shù)據(jù)存儲量為0.95ZB,生產(chǎn)總量中只有2.9%的數(shù)據(jù)被保存,數(shù)據(jù)留存率遠低于美國的7.3%。而在存儲下來的數(shù)據(jù)中,超六成數(shù)據(jù)被長期閑置,利用率亟待提升。若過于依賴境外數(shù)據(jù)訓練AI,核心模型的迭代升級恐將受到國際數(shù)據(jù)政策變動的制約。
中文訓練語料占比失衡,影響AI文化表達。在全球通用的大模型數(shù)據(jù)訓練集中,中文語料占比僅為1.3%;在世界知名人工智能平臺Hugging Face的開源訓練數(shù)據(jù)集中,中文數(shù)據(jù)集占比僅5.1%,不到英文數(shù)據(jù)集的十分之一。當模型缺乏中文語料的訓練數(shù)據(jù)時,會更傾向于輸出西方價值判斷,從而影響文化話語權(quán)。
眾包標注模式缺乏統(tǒng)一標準,易引發(fā)AI系統(tǒng)性偏見問題。大部分數(shù)據(jù)需要被人工標注后才能被AI學習,當前數(shù)據(jù)標注市場中79%的服務由眾包平臺承接,再分發(fā)給非專業(yè)標注員來完成。該模式雖具成本優(yōu)勢和靈活性,但缺乏統(tǒng)一的標注審核標準,易導致標注質(zhì)量參差不齊,使AI“學會”了標注人員的偏見,從而導致在實際應用中出現(xiàn)性別歧視、種族偏見等問題。
(二)數(shù)據(jù)流通過程:權(quán)屬界定不清,交易效能低下
數(shù)據(jù)版權(quán)保護規(guī)則缺失,抑制市場主體參與積極性。我國現(xiàn)行《著作權(quán)法》對人工智能訓練數(shù)據(jù)的采集、使用及模型訓練等環(huán)節(jié)未作明確規(guī)定,易引發(fā)著作權(quán)侵權(quán)爭議,影響數(shù)據(jù)供應商的服務積極性。
數(shù)據(jù)要素市場化不足,資源配置效率低。數(shù)據(jù)價值的釋放離不開高效匹配的數(shù)據(jù)交易,《全國數(shù)據(jù)資源調(diào)查報告》顯示,2023年數(shù)據(jù)交易所需求方是供給方的1.75倍,數(shù)據(jù)產(chǎn)品成交率僅為17.9%,場內(nèi)交易供需匹配率較低,大量數(shù)據(jù)需求方找不到合適的數(shù)據(jù)供應方。
行業(yè)數(shù)據(jù)壟斷嚴重,抑制市場良性競爭。全球AI數(shù)據(jù)中心市場集中度較高,亞馬遜、谷歌及微軟等前五大美國科技公司占據(jù)了約54%的市場份額,使得新進入者難以獲取充足且高質(zhì)量的數(shù)據(jù)來訓練高質(zhì)量AI模型,從而提高了市場進入壁壘,限制了市場競爭,這無疑阻礙了科技創(chuàng)新與進步。
(三)數(shù)據(jù)治理體系:法規(guī)建設滯后,風險防控薄弱
人工智能專項立法滯后。我國尚未出臺專門針對生成式AI數(shù)據(jù)訓練的法律法規(guī),目前主要依據(jù)《生成式人工智能服務管理暫行辦法》實施監(jiān)管,而歐盟已出臺全球首部《人工智能法案》。專門法的缺位將削弱數(shù)據(jù)安全、隱私保護及算法濫用等問題的管控效力。
數(shù)據(jù)收集機制不健全,濫用權(quán)限問題突出。數(shù)據(jù)采集過程中的權(quán)限濫用行為,既危及用戶隱私安全,又破壞數(shù)據(jù)使用秩序。2024年工信部通報的160款侵害用戶權(quán)益的App(應用程序)及SDK(軟件開發(fā)工具包)中,半數(shù)以上存在強制、頻繁、過度索取權(quán)限問題。
存在數(shù)據(jù)污染風險。數(shù)據(jù)污染是指對數(shù)據(jù)集進行惡意篡改,從而導致模型產(chǎn)生錯誤的輸出。以醫(yī)療大模型為例,數(shù)據(jù)污染可能致使病灶識別錯誤,增加患者誤診風險。對于一個40億參數(shù)的大模型來說,僅需5美元成本生成2000篇惡意文章注入訓練集,即可導致有害內(nèi)容輸出量提升4.8%。
(四)數(shù)據(jù)管理支撐:管理成本較高,人才儲備不足
數(shù)據(jù)訓練成本高。相較于傳統(tǒng)數(shù)據(jù)管理,人工智能需額外進行數(shù)據(jù)標注,致使管理成本顯著攀升。以自動駕駛領(lǐng)域為例,數(shù)據(jù)標注成本占整個數(shù)據(jù)管理成本的 60% 以上,在高精度和高合規(guī)的場景下,單張圖片標注成本可達10元以上。
數(shù)據(jù)管理人才短缺,專業(yè)能力供給不足。數(shù)字人才是影響數(shù)據(jù)驅(qū)動決策的關(guān)鍵因素,據(jù)《2024數(shù)字人才白皮書》調(diào)查,高達74%的企業(yè)面臨數(shù)字人才不足的問題,其中44%的企業(yè)認為其數(shù)字人才“非常緊缺”。
四、對策建議
(一)完善人工智能數(shù)據(jù)監(jiān)管體系
一是完善數(shù)據(jù)治理法律法規(guī)體系。盡快明確人工智能數(shù)據(jù)從采集、存儲、處理、共享到銷毀等全生命周期各環(huán)節(jié)的法律要求與主體責任,為數(shù)據(jù)治理提供全面系統(tǒng)的法律依據(jù)。二是強化數(shù)據(jù)全生命周期監(jiān)管。明確數(shù)據(jù)采集的范圍、方式和告知義務,確保數(shù)據(jù)主體的知情權(quán)和選擇權(quán),定期對數(shù)據(jù)存儲系統(tǒng)進行安全評估和審計,及時發(fā)現(xiàn)和修復安全隱患。三是完善建立數(shù)據(jù)監(jiān)管協(xié)調(diào)機制。建立由網(wǎng)信辦、工信部、公安部、市場監(jiān)管總局等多部門參與的數(shù)據(jù)監(jiān)管協(xié)調(diào)機制,明確各部門在數(shù)據(jù)監(jiān)管中的職責和分工,加強信息共享和執(zhí)法協(xié)作,形成監(jiān)管合力。
(二)優(yōu)化數(shù)據(jù)流通與交易機制
一是推動數(shù)據(jù)分類分級與共享機制。依據(jù)行業(yè)特性制定數(shù)據(jù)分類標準(如政務、醫(yī)療、金融數(shù)據(jù)),建立分級的訪問權(quán)限和共享規(guī)則,將部分數(shù)據(jù)向社會開放共享,提高數(shù)據(jù)的可獲得性和利用率。二是建立健全數(shù)據(jù)交易規(guī)則。制定統(tǒng)一的數(shù)據(jù)交易標準和規(guī)范,明確數(shù)據(jù)的權(quán)屬、質(zhì)量、格式、定價等關(guān)鍵要素,為數(shù)據(jù)交易提供明確的指導。三是培育數(shù)據(jù)服務市場。鼓勵和支持數(shù)據(jù)服務企業(yè)的發(fā)展,提供數(shù)據(jù)清洗、標注、分析、挖掘等專業(yè)服務,提高數(shù)據(jù)的質(zhì)量和價值。
(三)加強數(shù)據(jù)跨境流動與國際合作
一是積極參與國際規(guī)則制定。積極參與國際標準化組織(ISO)等機構(gòu)的人工智能相關(guān)標準制定工作,將我國在人工智能數(shù)據(jù)標注質(zhì)量規(guī)范、模型性能評估等方面的標準提案推向國際舞臺,從而增加中文語料在世界范圍的認可度,爭取更多國際標準的話語權(quán)。二是建立雙邊與多邊合作機制。與主要貿(mào)易伙伴和數(shù)據(jù)流動需求大的國家或地區(qū)建立雙邊或多邊的數(shù)據(jù)跨境流動合作機制,通過簽署合作備忘錄、協(xié)議等方式,明確各方在數(shù)據(jù)跨境流動中的權(quán)利和義務,促進數(shù)據(jù)流動的便利化和規(guī)范化。三是建立數(shù)據(jù)跨境流動的安全評估機制。制定數(shù)據(jù)跨境流動的安全評估標準和流程,對涉及國家安全、公共利益和個人隱私的數(shù)據(jù)跨境傳輸進行嚴格的安全評估,確保數(shù)據(jù)跨境流動的安全可控?!?/p>
(郗胡平,國家發(fā)展改革委國際合作中心副研究員。何海鑫,中國人民大學經(jīng)濟學院碩士在讀)