摘要:探討AI 大模型數(shù)據(jù)訓(xùn)練語境下出版內(nèi)容數(shù)據(jù)保護(hù)問題,提出出版內(nèi)容數(shù)據(jù)保護(hù)的多元路徑,推進(jìn)出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型。文章采取文獻(xiàn)研究方法,分析AI 大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的多維價(jià)值,指出出版內(nèi)容數(shù)據(jù)保護(hù)存在的多重困境,包括出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)規(guī)范不明確、授權(quán)交易機(jī)制缺失、侵權(quán)判定困難、主體利益分配失衡。為推進(jìn)出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型,提出完善建議:探索出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)保護(hù)與行為規(guī)制路徑,構(gòu)建開放型的出版內(nèi)容數(shù)據(jù)授權(quán)交易模式,設(shè)立可信可控的出版內(nèi)容數(shù)據(jù)合規(guī)審查機(jī)制,優(yōu)化出版內(nèi)容數(shù)據(jù)參與者的利益分配。
關(guān)鍵詞:數(shù)智化轉(zhuǎn)型;大模型數(shù)據(jù)訓(xùn)練;出版內(nèi)容數(shù)據(jù);數(shù)據(jù)保護(hù);數(shù)據(jù)交易
DOI:10.19619/j.issn.1007-1938.2025.00.009
作者單位:中南財(cái)經(jīng)政法大學(xué)知識(shí)產(chǎn)權(quán)學(xué)院
引文格式:葉悅. AI大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的理據(jù)與進(jìn)路[J]. 出版與印刷,2025(1):27-36.
在“人工智能+”和“數(shù)據(jù)要素×”的產(chǎn)業(yè)發(fā)展背景下,推進(jìn)出版數(shù)據(jù)的保護(hù)對(duì)AI 大模型產(chǎn)業(yè)發(fā)展和出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型均具有重要意義。2023年,國(guó)家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》的通知,指出發(fā)揮數(shù)據(jù)要素的乘數(shù)效應(yīng), 構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的經(jīng)濟(jì)。
2024年,中共中央網(wǎng)絡(luò)安全和信息化委員會(huì)辦公室等部門發(fā)布《信息化標(biāo)準(zhǔn)建設(shè)行動(dòng)計(jì)劃(2024—2027年)》指出要“推進(jìn)重點(diǎn)領(lǐng)域高質(zhì)量數(shù)據(jù)集建設(shè)”。數(shù)據(jù)是AI 大模型產(chǎn)業(yè)發(fā)展的重要因素,當(dāng)前相較于英文語料庫而言中文語料庫數(shù)據(jù)嚴(yán)重不足,存在數(shù)據(jù)獲取違法性高、數(shù)據(jù)開發(fā)利用不足、數(shù)據(jù)保護(hù)與版權(quán)保護(hù)不協(xié)調(diào)等問題,嚴(yán)重制約著AI 大模型產(chǎn)業(yè)的發(fā)展。[1] 出版產(chǎn)業(yè)作為數(shù)據(jù)的供給端掌握著大量高質(zhì)量的中文語料資源,因缺乏規(guī)范引導(dǎo),此類資源的資產(chǎn)轉(zhuǎn)化率以及供給效率仍然較低?,F(xiàn)實(shí)中AI 大模型無償利用出版內(nèi)容數(shù)據(jù)開展數(shù)據(jù)訓(xùn)練,嚴(yán)重?fù)p害了出版產(chǎn)業(yè)的利益。
圍繞AI 大模型數(shù)據(jù)訓(xùn)練,既有研究探討了數(shù)據(jù)訓(xùn)練面臨的法律風(fēng)險(xiǎn),包括侵犯著作權(quán)[2]、侵犯?jìng)€(gè)人信息權(quán)益[3] 等。圍繞出版數(shù)據(jù)保護(hù),既有研究探討了數(shù)據(jù)要素在出版領(lǐng)域的定位和應(yīng)用[4]、融媒體語境下的數(shù)據(jù)出版問題[5]、數(shù)據(jù)出版產(chǎn)業(yè)平臺(tái)的數(shù)據(jù)合規(guī)問題[6] 等。關(guān)于出版數(shù)據(jù)的分類,有觀點(diǎn)將出版數(shù)據(jù)分為“個(gè)體數(shù)據(jù)、經(jīng)營(yíng)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)”[7] 四類,還有觀點(diǎn)將出版數(shù)據(jù)分為“出版內(nèi)容數(shù)據(jù)、用戶行為數(shù)據(jù)、交互數(shù)據(jù)”[8]。
但在涉及出版商對(duì)出版內(nèi)容數(shù)據(jù)享有何種權(quán)益,以及出版內(nèi)容數(shù)據(jù)如何交易、交易后如何分配利益等細(xì)化的出版內(nèi)容數(shù)據(jù)保護(hù)問題上,既有研究仍顯不足?;诖?,本文以AI大模型數(shù)據(jù)訓(xùn)練為視角,聚焦對(duì)出版產(chǎn)業(yè)而言具有行業(yè)專屬性和高價(jià)值性優(yōu)勢(shì)的出版內(nèi)容數(shù)據(jù)及其保護(hù)問題,論證出版內(nèi)容數(shù)據(jù)保護(hù)的多維價(jià)值,剖析出版內(nèi)容數(shù)據(jù)保護(hù)面臨的多重困境,并在此基礎(chǔ)上提出出版內(nèi)容數(shù)據(jù)保護(hù)的多元路徑。
一、AI 大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的多維價(jià)值
出版內(nèi)容數(shù)據(jù)是出版數(shù)據(jù)的重要組成部分,出版內(nèi)容數(shù)據(jù)資源化意味著出版內(nèi)容數(shù)據(jù)由信息載體向獨(dú)立生產(chǎn)要素轉(zhuǎn)化。從出版產(chǎn)業(yè)鏈價(jià)值實(shí)現(xiàn)的角度出發(fā),保護(hù)出版內(nèi)容數(shù)據(jù)對(duì)產(chǎn)業(yè)鏈的供給端和需求端具有重要價(jià)值,將為大模型數(shù)據(jù)訓(xùn)練提供高質(zhì)量數(shù)據(jù)集,推進(jìn)出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型。AI 大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的價(jià)值具體體現(xiàn)為以下幾點(diǎn)。
1. 促使出版內(nèi)容數(shù)據(jù)成為獨(dú)立的生產(chǎn)要素
出版內(nèi)容數(shù)據(jù)資源化是保護(hù)出版內(nèi)容數(shù)據(jù)的邏輯前提。出版內(nèi)容數(shù)據(jù)資源化是指將個(gè)別的、分散的出版相關(guān)信息,通過采集、標(biāo)注、集成、匯聚、標(biāo)準(zhǔn)化等環(huán)節(jié),形成可采、互通、可信的高質(zhì)量出版數(shù)據(jù)資源。[9] 出版內(nèi)容數(shù)據(jù)資源化使得出版內(nèi)容數(shù)據(jù)演變?yōu)楠?dú)立的生產(chǎn)要素。在大模型語境下,面對(duì)海量的數(shù)據(jù)投喂,那些單一的或零散的出版內(nèi)容,其邊際價(jià)值幾近于零,[10] 但通過數(shù)據(jù)化處理,這些出版內(nèi)容將轉(zhuǎn)變?yōu)樾碌慕灰卓腕w。
對(duì)出版內(nèi)容數(shù)據(jù)提供專門的保護(hù)意味著將出版內(nèi)容數(shù)據(jù)作為獨(dú)立的生產(chǎn)要素進(jìn)行保護(hù)。過去,出版產(chǎn)業(yè)在推進(jìn)“資源數(shù)字化”方面取得顯著成效,然而,“資源數(shù)字化”與“資源數(shù)據(jù)化”不完全相同,前者僅將“數(shù)據(jù)”視為信息內(nèi)容的承載“介質(zhì)”,后者將“數(shù)據(jù)”視為行業(yè)基底的“原材料”[11]?!俺霭鎯?nèi)容數(shù)字化”聚焦于出版內(nèi)容的信息層面,關(guān)聯(lián)主體包括著作權(quán)人、出版商、網(wǎng)絡(luò)服務(wù)提供商、消費(fèi)者。在數(shù)智化時(shí)代,生成式人工智能對(duì)信息的應(yīng)用方式發(fā)生轉(zhuǎn)變,通過數(shù)據(jù)抓取、數(shù)據(jù)語料喂養(yǎng)、大模型訓(xùn)練等方式運(yùn)用出版內(nèi)容,由此催生出“出版內(nèi)容數(shù)據(jù)化”的變革?!皵?shù)據(jù)”已然超越消費(fèi)者實(shí)際運(yùn)用層面的“介質(zhì)”屬性,而成為可以被重復(fù)利用、單獨(dú)交易流轉(zhuǎn)的“生產(chǎn)要素”?!俺霭鎯?nèi)容數(shù)據(jù)化”關(guān)注的是出版內(nèi)容的生產(chǎn)要素屬性,關(guān)聯(lián)主體包括數(shù)據(jù)內(nèi)容的提供者、數(shù)據(jù)收集者、數(shù)據(jù)持有者、數(shù)據(jù)使用者等。
2. 有助于推進(jìn)出版產(chǎn)業(yè)的數(shù)智化轉(zhuǎn)型
保護(hù)出版內(nèi)容數(shù)據(jù)有助于推進(jìn)出版產(chǎn)業(yè)的數(shù)智化轉(zhuǎn)型。在數(shù)據(jù)、算法、算力等技術(shù)的驅(qū)動(dòng)下,出版產(chǎn)業(yè)正由“數(shù)字化時(shí)代”向“數(shù)智化時(shí)代”邁進(jìn)。[12] 從出版產(chǎn)品維度看,產(chǎn)品和服務(wù)的呈現(xiàn)形態(tài)正在發(fā)生變革,由“互聯(lián)網(wǎng)+”產(chǎn)品或服務(wù)轉(zhuǎn)向“人工智能+”產(chǎn)品或服務(wù)。從出版產(chǎn)業(yè)維度看,出版產(chǎn)業(yè)正在由“ 互聯(lián)網(wǎng)” 驅(qū)動(dòng)轉(zhuǎn)向由“ 人工智能、大數(shù)據(jù)”驅(qū)動(dòng)。出版產(chǎn)業(yè)的勞動(dòng)對(duì)象也在發(fā)生變化,傳統(tǒng)的勞動(dòng)對(duì)象主要是指“知識(shí)、作品素材、紙質(zhì)稿件”,新型勞動(dòng)對(duì)象主要是指“內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)、出版治理數(shù)據(jù)”。[13]25在出版產(chǎn)業(yè)的數(shù)智化轉(zhuǎn)型中,出版內(nèi)容數(shù)據(jù)具有內(nèi)容專題化、質(zhì)量?jī)?yōu)質(zhì)化的優(yōu)勢(shì),推進(jìn)出版內(nèi)容數(shù)據(jù)保護(hù)將成為出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型的突破口。
數(shù)據(jù)正在成為提升出版競(jìng)爭(zhēng)力的關(guān)鍵生產(chǎn)要素和戰(zhàn)略資源。[14] 保護(hù)出版內(nèi)容數(shù)據(jù)在出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型的價(jià)值體現(xiàn)如下:一方面,保護(hù)出版內(nèi)容數(shù)據(jù),是認(rèn)可出版商對(duì)出版內(nèi)容數(shù)據(jù)的勞動(dòng)投入,此舉將激勵(lì)出版商對(duì)出版產(chǎn)業(yè)數(shù)字化發(fā)展成果進(jìn)行再挖掘,激活出版業(yè)在多年數(shù)字化改革中所積累的海量出版內(nèi)容信息資源。[13]22另一方面,保護(hù)出版內(nèi)容數(shù)據(jù)將推進(jìn)出版方式升級(jí),由“數(shù)字出版”向“數(shù)據(jù)出版”轉(zhuǎn)型,拓寬出版商的合作領(lǐng)域,助推出版產(chǎn)業(yè)與人工智能產(chǎn)業(yè)的合作,在產(chǎn)業(yè)合作中全方位推進(jìn)出版產(chǎn)業(yè)的智能化升級(jí)。
3. 為大模型數(shù)據(jù)訓(xùn)練提供高質(zhì)量數(shù)據(jù)集
通過高質(zhì)量的數(shù)據(jù)投喂促成更成熟的大模型訓(xùn)練效果,已成為當(dāng)前人工智能升級(jí)和迭代的必由之路。強(qiáng)化對(duì)出版內(nèi)容數(shù)據(jù)的保護(hù),能激勵(lì)出版商生成出版內(nèi)容數(shù)據(jù),為大模型數(shù)據(jù)訓(xùn)練提供源源不斷的高質(zhì)量數(shù)據(jù)集。由于出版內(nèi)容數(shù)據(jù)契合大模型訓(xùn)練數(shù)據(jù)“合法性”“高質(zhì)量性”“行業(yè)多元性”等需求,一些國(guó)家為推進(jìn)本國(guó)AI 產(chǎn)業(yè)的發(fā)展,豁免了AI 大模型訓(xùn)練階段的版權(quán)責(zé)任。例如,日本《著作權(quán)法》第30條第4 款明確“不以欣賞作品原有價(jià)值為目的的利用”構(gòu)成合理使用,在一定程度上豁免了大模型訓(xùn)練使用版權(quán)作品的責(zé)任。但我國(guó)《著作權(quán)法》目前尚無法涵攝AI 大模型訓(xùn)練使用版權(quán)作品的情形。2023年頒布的《生成式人工智能服務(wù)管理暫行辦法》第7 條規(guī)定,生成式人工智能服務(wù)提供者開展各類數(shù)據(jù)訓(xùn)練活動(dòng),須“使用具有合法來源的數(shù)據(jù)”,“不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)”。2024 年頒布的《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范(征求意見稿)》第6 條規(guī)定不應(yīng)使用存在知識(shí)產(chǎn)權(quán)侵權(quán)問題的數(shù)據(jù)。立足于我國(guó)語境,由出版商授權(quán)大模型數(shù)據(jù)訓(xùn)練使用出版內(nèi)容數(shù)據(jù)的方式,契合“合法性”的要求,能降低大模型數(shù)據(jù)訓(xùn)練侵權(quán)的風(fēng)險(xiǎn)。
出版內(nèi)容數(shù)據(jù)的供給滿足大模型數(shù)據(jù)訓(xùn)練對(duì)“高質(zhì)量數(shù)據(jù)集”的需求。投喂數(shù)據(jù)的質(zhì)量決定著大模型的輸出能力。在算力可獲得性提升和算法同質(zhì)化的趨勢(shì)下,訓(xùn)練數(shù)據(jù)的質(zhì)量成為影響AI 大模型生成能力的重要因素。生成式人工智能的發(fā)展方向從“以模型為中心”轉(zhuǎn)變?yōu)椤耙詳?shù)據(jù)為中心”。[15]58出版內(nèi)容數(shù)據(jù)作為高質(zhì)量數(shù)據(jù)集具有多模態(tài)性、專業(yè)性、高價(jià)值性,以及反映行業(yè)特色等優(yōu)勢(shì),能滿足AI 大模型對(duì)多元行業(yè)數(shù)據(jù)的需要,有助于AI 大模型性能和運(yùn)用效果的提升。
二、AI大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的多重困境
AI大模型時(shí)代需要重視對(duì)出版內(nèi)容數(shù)據(jù)的保護(hù),但保護(hù)出版內(nèi)容數(shù)據(jù)面臨出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)規(guī)范不明、授權(quán)交易機(jī)制缺失、侵權(quán)判定困難、主體利益分配失衡等多方面的困境。
1. 出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)規(guī)范不明確
出版內(nèi)容數(shù)據(jù)權(quán)益的界定和確定是出版內(nèi)容數(shù)據(jù)產(chǎn)業(yè)化、市場(chǎng)化的前提和基礎(chǔ)。對(duì)于著作權(quán)人而言,AI 大模型訓(xùn)練主體通過文本數(shù)據(jù)挖掘技術(shù)獲取出版內(nèi)容并用于大模型數(shù)據(jù)訓(xùn)練,可能侵犯著作權(quán)人的復(fù)制權(quán)、信息網(wǎng)絡(luò)傳播權(quán)等核心權(quán)利。然而,出版商對(duì)出版內(nèi)容數(shù)據(jù)享有何種權(quán)利在規(guī)范層面存在分歧。雖然從產(chǎn)業(yè)政策的視角出發(fā),出版內(nèi)容數(shù)據(jù)是新質(zhì)生產(chǎn)力的關(guān)鍵生產(chǎn)要素,但從立法、理論和實(shí)踐層面出發(fā),出版內(nèi)容數(shù)據(jù)的法律屬性尚不明確。在立法層面,《民法典(草案)》曾將數(shù)據(jù)納入知識(shí)產(chǎn)權(quán)客體之列,但在正式文本中被刪除,現(xiàn)行《民法典》第127 條對(duì)數(shù)據(jù)的法律保護(hù)持開放態(tài)度。在理論層面,對(duì)于數(shù)據(jù)的保護(hù)存在觀點(diǎn)分歧,主要有數(shù)據(jù)用益物權(quán)保護(hù)說[16]、數(shù)據(jù)新型財(cái)產(chǎn)權(quán)利保護(hù)說[17]、數(shù)據(jù)知識(shí)產(chǎn)權(quán)保護(hù)說[18] 等觀點(diǎn)。在實(shí)踐層面,若數(shù)據(jù)集整體被采取技術(shù)措施、具有商業(yè)價(jià)值和秘密性,權(quán)利人可以尋求商業(yè)秘密的保護(hù),然而出版內(nèi)容數(shù)據(jù)往往具有公開性,難以通過商業(yè)秘密的方式進(jìn)行保護(hù)。若出版內(nèi)容數(shù)據(jù)集融入了出版商對(duì)數(shù)據(jù)的編排、加工等獨(dú)創(chuàng)性貢獻(xiàn),則可以將其視為匯編作品進(jìn)行保護(hù)。然而,要證明出版內(nèi)容數(shù)據(jù)集具備獨(dú)創(chuàng)性較為困難。結(jié)合既有的數(shù)據(jù)保護(hù)相關(guān)司法實(shí)踐,盡管《反不正當(dāng)競(jìng)爭(zhēng)法》可以為數(shù)據(jù)保護(hù)提供行為規(guī)制路徑,但行為規(guī)制路徑對(duì)數(shù)據(jù)侵權(quán)行為的調(diào)整具有消極性、事后性,通常以市場(chǎng)競(jìng)爭(zhēng)秩序受損為立法干預(yù)的條件,無法為出版商開展出版內(nèi)容數(shù)據(jù)交易磋商提供積極的、事前的談判依據(jù)。
2. 出版內(nèi)容數(shù)據(jù)授權(quán)交易機(jī)制缺失
由于缺乏規(guī)范化的出版內(nèi)容數(shù)據(jù)授權(quán)交易機(jī)制,實(shí)踐中對(duì)于出版內(nèi)容數(shù)據(jù)的運(yùn)用主要包括“事前授權(quán)合作模式”和“事后侵權(quán)救濟(jì)模式”。事前授權(quán)合作模式是指出版商與AI 大模型數(shù)據(jù)訓(xùn)練商之間簽訂內(nèi)容數(shù)據(jù)許可協(xié)議。對(duì)于出版商而言,此種方式是探索出版產(chǎn)業(yè)收益的新模式,也有助于出版產(chǎn)業(yè)快速融入智能化浪潮,實(shí)現(xiàn)數(shù)據(jù)化轉(zhuǎn)型。而對(duì)于AI 大模型數(shù)據(jù)訓(xùn)練商而言,通過這種模式的合作不僅可以獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)以優(yōu)化和改進(jìn)模型,還能避免侵權(quán)。事后侵權(quán)救濟(jì)模式是指AI 大模型數(shù)據(jù)訓(xùn)練商未經(jīng)出版商許可使用出版內(nèi)容數(shù)據(jù),由出版商事后主張侵權(quán)救濟(jì)的方式。此種方式將產(chǎn)生額外的訴訟成本。
實(shí)踐中已有出版商將出版內(nèi)容數(shù)據(jù)授權(quán)給AI 大模型數(shù)據(jù)訓(xùn)練商開展數(shù)據(jù)訓(xùn)練,但在規(guī)范層面仍然存在以下問題。
第一,授權(quán)的正當(dāng)性不明確。若AI 大模型使用出版內(nèi)容數(shù)據(jù)訓(xùn)練的行為并不構(gòu)成侵權(quán),則意味著出版商授權(quán)AI 大模型使用出版內(nèi)容數(shù)據(jù)進(jìn)行訓(xùn)練的行為缺乏正當(dāng)性理由。既有學(xué)說主要從著作權(quán)人角度出發(fā)探討AI 大模型利用出版內(nèi)容數(shù)據(jù)進(jìn)行訓(xùn)練的行為屬性,大致形成三類觀點(diǎn)。①“非作品性使用說”。該觀點(diǎn)認(rèn)為,人工智能數(shù)據(jù)訓(xùn)練中的使用行為具有“非特定性”,無需以補(bǔ)償激勵(lì)為由將版權(quán)保護(hù)延伸至數(shù)據(jù)訓(xùn)練階段。[19] 這意味著AI 大模型運(yùn)用出版內(nèi)容數(shù)據(jù)進(jìn)行數(shù)據(jù)訓(xùn)練在著作權(quán)法層面并不構(gòu)成侵權(quán),無須授權(quán)和付費(fèi)。②“合理使用說”。該觀點(diǎn)認(rèn)為AI 大模型利用數(shù)據(jù)的行為構(gòu)成合理使用,[20] 應(yīng)當(dāng)以我國(guó)《著作權(quán)法》第24 條關(guān)于合理使用的條款“法律、行政法規(guī)規(guī)定的其他情形”為基礎(chǔ),通過修訂《著作權(quán)法實(shí)施條例》的方式引入關(guān)于數(shù)據(jù)挖掘的例外規(guī)定。[21] 假如采取“合理使用說”,則需要針對(duì)具體個(gè)案判斷訓(xùn)練行為是否需要授權(quán)或付費(fèi)。③“法定許可說”。該觀點(diǎn)認(rèn)為可以通過法定許可簡(jiǎn)化AI 大模型運(yùn)用數(shù)據(jù)進(jìn)行訓(xùn)練的流程,在保障著作權(quán)人利益的同時(shí),免去版權(quán)授權(quán)談判的成本。[22] 假如采取“法定許可說”,則AI大模型運(yùn)用出版內(nèi)容數(shù)據(jù)無須經(jīng)著作權(quán)人許可,但需要支付報(bào)酬。概言之,在著作權(quán)法框架下AI 大模型未經(jīng)許可使用出版內(nèi)容數(shù)據(jù)進(jìn)行訓(xùn)練的行為是否構(gòu)成侵權(quán)仍然不明確,進(jìn)而使得出版商授權(quán)AI 大模型使用出版內(nèi)容數(shù)據(jù)的行為缺乏正當(dāng)性理由。
第二,授權(quán)的可行性存疑。既有授權(quán)模式存在缺陷,授權(quán)出版內(nèi)容數(shù)據(jù)的權(quán)利主體不明。出版內(nèi)容數(shù)據(jù)涉及海量的版權(quán)作品,為新型權(quán)利客體,不同于版權(quán)意義上的作品。但對(duì)出版內(nèi)容數(shù)據(jù)的授權(quán)運(yùn)用可能侵害著作權(quán)人的在先權(quán)利,存在版權(quán)侵權(quán)的風(fēng)險(xiǎn)。我國(guó)《著作權(quán)法》中并未規(guī)定著作權(quán)人關(guān)于數(shù)據(jù)的相關(guān)權(quán)利,實(shí)踐中也尚未形成有關(guān)出版內(nèi)容數(shù)據(jù)授權(quán)交易的規(guī)范化模式,在既有的實(shí)踐中往往由出版商與AI 大模型訓(xùn)練商開展磋商,并未涉及著作權(quán)人授權(quán)相關(guān)事宜。與此同時(shí),傳統(tǒng)版權(quán)領(lǐng)域的授權(quán)機(jī)制主要是“事前授權(quán)”“單一主體授權(quán)”和“著作權(quán)集體管理組織授權(quán)”,不能滿足AI 大模型語境下對(duì)出版內(nèi)容數(shù)據(jù)授權(quán)的需求。一方面,大模型數(shù)據(jù)訓(xùn)練需要持續(xù)的、海量的數(shù)據(jù),若沿用傳統(tǒng)授權(quán)模式則存在協(xié)商成本高、效率低的問題;另一方面,當(dāng)前我國(guó)的著作權(quán)集體管理組織主要是針對(duì)特定類型的作品設(shè)立的,在融合出版視域下,出版內(nèi)容涉及的作品類別諸多,通過現(xiàn)有的著作權(quán)集體管理組織進(jìn)行作品授權(quán)存在局限性,表現(xiàn)為許可條件過于嚴(yán)格、許可范圍過窄等問題。
3. AI大模型對(duì)出版內(nèi)容數(shù)據(jù)侵權(quán)判定困難
在AI大模型的數(shù)據(jù)訓(xùn)練中,出版內(nèi)容數(shù)據(jù)屬于優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)。在國(guó)外,已經(jīng)發(fā)生了出版商與模型訓(xùn)練商的侵權(quán)糾紛。例如,《紐約時(shí)報(bào)》2023 年向紐約聯(lián)邦地方法院起訴OpenAI和微軟公司,指控這兩家公司未經(jīng)許可使用其數(shù)百萬篇文章用于訓(xùn)練GPT 模型,創(chuàng)建包括ChatGPT 和Copilot在內(nèi)的AI產(chǎn)品?!都~約時(shí)報(bào)》在訴狀中指出,新聞報(bào)道是工作人員的勞動(dòng)成果,其為雇傭工作人員花費(fèi)了高昂的成本,被告未經(jīng)許可使用新聞報(bào)道內(nèi)容,存在“搭便車”的不當(dāng)行為,無償使用這些成果,將使得AI產(chǎn)品分流了原本屬于《紐約時(shí)報(bào)》的網(wǎng)絡(luò)流量,令該公司損失了廣告、許可和訂閱收入。[23] 當(dāng)前在我國(guó)的實(shí)踐中尚未發(fā)生出版商與模型訓(xùn)練商關(guān)于AI 大模型侵權(quán)的糾紛,但已出現(xiàn)著作權(quán)人與模型訓(xùn)練商的侵權(quán)糾紛。例如,2024年北京互聯(lián)網(wǎng)法院開庭審理的全國(guó)首例涉及AI 繪畫大模型訓(xùn)練著作權(quán)侵權(quán)案。在該案件中,畫師作為原告起訴AI 繪畫軟件開發(fā)運(yùn)營(yíng)者未經(jīng)許可抓取其作品進(jìn)行模型訓(xùn)練,認(rèn)為這一行為侵犯了其著作權(quán),目前此案正在審理中。[24] 與出版內(nèi)容數(shù)據(jù)密切關(guān)聯(lián)的還有中國(guó)知網(wǎng)與上海秘塔網(wǎng)絡(luò)科技有限公司(簡(jiǎn)稱“秘塔科技”)的人工智能訓(xùn)練數(shù)據(jù)侵權(quán)之爭(zhēng)。2024年,中國(guó)知網(wǎng)向秘塔科技發(fā)出侵權(quán)警告函,指出后者未經(jīng)許可挖掘了其網(wǎng)站上大量學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),且數(shù)據(jù)量巨大,嚴(yán)重侵犯了中國(guó)知網(wǎng)的合法權(quán)益。盡管秘塔科技最終宣布不再收錄中國(guó)知網(wǎng)的文獻(xiàn)數(shù)據(jù),但并不認(rèn)為該行為會(huì)對(duì)中國(guó)知網(wǎng)造成實(shí)質(zhì)性損害。
相較于傳統(tǒng)領(lǐng)域的侵權(quán),AI 大模型數(shù)據(jù)訓(xùn)練對(duì)出版內(nèi)容數(shù)據(jù)的侵權(quán)更為復(fù)雜。生成式人工智能存在“算法黑箱”現(xiàn)象,即算法對(duì)海量數(shù)據(jù)開展深度學(xué)習(xí)并完成人工智能優(yōu)化的過程難以完全被外部知悉。[25] 在算法系統(tǒng)內(nèi),從數(shù)據(jù)輸入到結(jié)果輸出,存在不透明且難以被解釋的隱層,[26] 包括AI 大模型研發(fā)者和審查者在內(nèi)都無法完全決定生成內(nèi)容的具體細(xì)節(jié)。在此語境中,AI 大模型對(duì)出版內(nèi)容數(shù)據(jù)的侵權(quán)判定存在難點(diǎn),主要表現(xiàn)在以下幾方面。其一,侵權(quán)發(fā)現(xiàn)難。相較于傳統(tǒng)網(wǎng)絡(luò)侵權(quán)行為,AI 大模型數(shù)據(jù)訓(xùn)練侵權(quán)具有隱蔽性。AI 大模型所生成的內(nèi)容并不具有直接公開性,而是提供給特定的用戶,這使得出版內(nèi)容數(shù)據(jù)的權(quán)利人難以發(fā)現(xiàn)內(nèi)容已被AI大模型所使用。其二,侵權(quán)舉證難。AI 大模型數(shù)據(jù)訓(xùn)練使用的數(shù)據(jù)具有數(shù)量大、范圍廣、不特定等特點(diǎn),由此導(dǎo)致生成式人工智能生成內(nèi)容與輸入數(shù)據(jù)之間的可驗(yàn)證性、可解釋性削弱。[15]54利用出版內(nèi)容數(shù)據(jù)進(jìn)行大模型數(shù)據(jù)訓(xùn)練的行為與傳統(tǒng)版權(quán)侵權(quán)的作品利用行為之間存在差異,前者為機(jī)器內(nèi)部的運(yùn)用行為,權(quán)利人往往難以找到有力的證據(jù)。其三,侵權(quán)判定難。在出版內(nèi)容數(shù)據(jù)保護(hù)立法失范的背景下,雖然AI 大模型使用出版內(nèi)容數(shù)據(jù)的行為在事實(shí)層面存在“搭便車”的現(xiàn)象,但在法律層面該行為具體侵犯了出版商何種權(quán)益并不明確。
4. 傳統(tǒng)出版產(chǎn)業(yè)利益分配秩序受到?jīng)_擊,產(chǎn)生主體利益分配失衡問題
AI大模型使用出版內(nèi)容數(shù)據(jù)進(jìn)行數(shù)據(jù)訓(xùn)練的行為,沖擊著基于傳統(tǒng)商業(yè)模式形成的出版產(chǎn)業(yè)利益分配秩序。其一,延長(zhǎng)了出版產(chǎn)業(yè)利益鏈。傳統(tǒng)出版產(chǎn)業(yè)以知識(shí)內(nèi)容、作品素材、紙質(zhì)稿件等為主要的勞動(dòng)對(duì)象,著作權(quán)人的利益在授權(quán)作品出版環(huán)節(jié)中得到實(shí)現(xiàn),出版商的利益在版權(quán)作品的市場(chǎng)推廣、銷售環(huán)節(jié)得以實(shí)現(xiàn)。在AI 大模型訓(xùn)練語境下,出版內(nèi)容的利益實(shí)現(xiàn)方式更加多元,出版內(nèi)容數(shù)據(jù)可供大模型開展數(shù)據(jù)訓(xùn)練,由此出版商不僅可以在紙質(zhì)出版或數(shù)字化出版環(huán)節(jié)獲利,還可以通過將出版內(nèi)容數(shù)據(jù)化并授權(quán)AI大模型使用獲利。其二,出版產(chǎn)業(yè)利益分配主體范圍擴(kuò)大。在傳統(tǒng)出版流程中,利益分配主要集中于著作權(quán)人和出版商之間。隨著出版內(nèi)容數(shù)據(jù)逐步產(chǎn)業(yè)化、市場(chǎng)化,供給AI大模型進(jìn)行數(shù)據(jù)訓(xùn)練的現(xiàn)象日益普遍。在這一過程中,出版商既是版權(quán)作品的傳播者,也是數(shù)據(jù)的提供者或控制者,而AI 大模型訓(xùn)練商、生成式人工智能服務(wù)提供者等成為新的利益關(guān)聯(lián)方。其三,利益分配難度趨于復(fù)雜。出版商通過對(duì)版權(quán)作品進(jìn)行篩選、編排、數(shù)字出版、數(shù)據(jù)化處理等形成出版內(nèi)容數(shù)據(jù),這些數(shù)據(jù)與其他無形財(cái)產(chǎn)一樣較難評(píng)估價(jià)值。出版內(nèi)容數(shù)據(jù)源自所涉及的海量作品,然而單一作品對(duì)出版內(nèi)容數(shù)據(jù)語料庫的價(jià)值貢獻(xiàn)難以確定,導(dǎo)致著作權(quán)人和出版商的利益難以分割。
著作權(quán)法基于作品表達(dá)性使用確立的利益分配秩序,難以很好地適用于出版內(nèi)容數(shù)據(jù)供給AI 大模型開展數(shù)據(jù)訓(xùn)練這一新興商業(yè)模式下的利益分配,可能產(chǎn)生利益分配失衡問題。一是出版產(chǎn)業(yè)與人工智能產(chǎn)業(yè)間的利益分配失衡問題。出版內(nèi)容數(shù)據(jù)是基于出版商的收集、處理、加工等勞動(dòng)投入而形成的高質(zhì)量數(shù)據(jù)產(chǎn)品,若允許AI 大模型開發(fā)者無償獲取并使用,人工智能產(chǎn)業(yè)將從中獲利,但對(duì)于出版產(chǎn)業(yè)而言,出版商的勞動(dòng)投入將無法獲得應(yīng)有的回報(bào)。此外,人工智能利用出版內(nèi)容數(shù)據(jù)所生成的內(nèi)容還可能對(duì)與之相關(guān)的版權(quán)作品產(chǎn)生替代效應(yīng)。二是著作權(quán)人和出版商之間的利益分配平衡問題。出版內(nèi)容數(shù)據(jù)作為新型客體融合了著作權(quán)人和出版商的勞動(dòng)投入,兩者對(duì)于出版內(nèi)容數(shù)據(jù)的貢獻(xiàn)程度難以界分,導(dǎo)致利益分配標(biāo)準(zhǔn)較難確定。一方面,出版商的貢獻(xiàn)不容忽視。對(duì)于AI 大模型而言,單一且分散的版權(quán)作品,其價(jià)值微乎其微;相反,呈現(xiàn)集合性、規(guī)模性特征的出版內(nèi)容數(shù)據(jù),其價(jià)值得以凸顯。另一方面,著作權(quán)人的利益分配權(quán)限不可剝奪,出版內(nèi)容數(shù)據(jù)之所以能成為大模型訓(xùn)練的“高價(jià)值數(shù)據(jù)”,主要原因在于出版內(nèi)容數(shù)據(jù)大多以版權(quán)作品為內(nèi)容,融合了著作權(quán)人的智力勞動(dòng)成果。
三、AI大模型時(shí)代出版內(nèi)容數(shù)據(jù)保護(hù)的多元路徑
在AI大模型時(shí)代,對(duì)出版內(nèi)容數(shù)據(jù)的保護(hù)應(yīng)當(dāng)擺脫對(duì)著作權(quán)保護(hù)的路徑依賴,區(qū)分著作權(quán)人對(duì)出版內(nèi)容享有的權(quán)益與出版商對(duì)出版內(nèi)容數(shù)據(jù)享有的權(quán)益。對(duì)此需要從出版內(nèi)容數(shù)據(jù)價(jià)值實(shí)現(xiàn)的各環(huán)節(jié)出發(fā),推進(jìn)對(duì)出版內(nèi)容數(shù)據(jù)的產(chǎn)權(quán)保護(hù),促進(jìn)出版內(nèi)容數(shù)據(jù)流通交易。
1. 權(quán)利保護(hù):探索出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)保護(hù)與行為規(guī)制路徑
從對(duì)出版商的利益保護(hù)視角出發(fā),應(yīng)當(dāng)區(qū)分著作權(quán)人的勞動(dòng)投入與出版商的勞動(dòng)投入。數(shù)據(jù)權(quán)與版權(quán)不同,以出版內(nèi)容數(shù)據(jù)為例,出版內(nèi)容數(shù)據(jù)中的信息內(nèi)容與版權(quán)密切關(guān)聯(lián),但兩者無法等價(jià)。出版內(nèi)容數(shù)據(jù)的形成融入了出版商的勞動(dòng)付出、產(chǎn)品投入、市場(chǎng)投資,不屬于傳統(tǒng)商業(yè)模式下的版權(quán)作品。尤其是在AI 大模型運(yùn)用出版內(nèi)容數(shù)據(jù)的語境下,不能僅關(guān)注著作權(quán)人的利益,忽視出版商的利益,應(yīng)當(dāng)將出版內(nèi)容數(shù)據(jù)作為新型的客體,即“出版內(nèi)容數(shù)據(jù)產(chǎn)品或數(shù)據(jù)服務(wù)”,予以專門保護(hù)。
可以采取數(shù)據(jù)產(chǎn)權(quán)與反不正當(dāng)競(jìng)爭(zhēng)協(xié)同保護(hù)的立法模式。既有的數(shù)據(jù)保護(hù)司法實(shí)踐主要通過《反不正當(dāng)競(jìng)爭(zhēng)法》第2 條對(duì)數(shù)據(jù)提供保護(hù),規(guī)定“經(jīng)營(yíng)者在生產(chǎn)經(jīng)營(yíng)活動(dòng)中,應(yīng)當(dāng)遵循自愿、平等、公平、誠信的原則,遵守法律和商業(yè)道德”。2022 年,《反不正當(dāng)競(jìng)爭(zhēng)法(修訂草案征求意見稿)》第18 條新增了“商業(yè)數(shù)據(jù)條款”,規(guī)定商業(yè)數(shù)據(jù)是指“依法收集”“具有商業(yè)價(jià)值”“采取相應(yīng)技術(shù)管理措施”的數(shù)據(jù),明確禁止不正當(dāng)?shù)孬@取和使用其他經(jīng)營(yíng)者的商業(yè)數(shù)據(jù)。在缺乏專門的數(shù)據(jù)立法的語境下,出版內(nèi)容數(shù)據(jù)可以通過《反不正當(dāng)競(jìng)爭(zhēng)法》予以保護(hù),然而《反不正當(dāng)競(jìng)爭(zhēng)法》的調(diào)整機(jī)制具有事后性,難以從確權(quán)層面肯定出版商對(duì)出版內(nèi)容數(shù)據(jù)的權(quán)益,不利于出版商與AI 大模型訓(xùn)練商開展磋商。對(duì)此需要完善出版內(nèi)容數(shù)據(jù)的產(chǎn)權(quán)保護(hù)路徑,明確出版內(nèi)容數(shù)據(jù)受保護(hù)的客體屬性和權(quán)利內(nèi)容。首先,需要將出版內(nèi)容數(shù)據(jù)視為新型的知識(shí)產(chǎn)權(quán)客體或財(cái)產(chǎn)權(quán)客體,從而將出版內(nèi)容數(shù)據(jù)與數(shù)字化版權(quán)作品區(qū)分開來。其次,在客體構(gòu)成要件方面,明確受到保護(hù)的出版內(nèi)容數(shù)據(jù)需滿足集合條目處于公開狀態(tài)、具有實(shí)質(zhì)性數(shù)量的數(shù)據(jù)條目、出版商付出實(shí)質(zhì)性的投入成本等條件。[27] 再次,明確出版商作為出版內(nèi)容數(shù)據(jù)的收集者、持有者和控制者是出版內(nèi)容數(shù)據(jù)的權(quán)利人。最后,出版內(nèi)容數(shù)據(jù)是由版權(quán)衍生的數(shù)據(jù)產(chǎn)品,出版商可以將其作為數(shù)據(jù)產(chǎn)品進(jìn)行交易,亦可以提供出版內(nèi)容數(shù)據(jù)接入服務(wù),將其作為數(shù)據(jù)服務(wù)進(jìn)行交易。著作權(quán)人作為出版內(nèi)容的信息提供者享有一定的獲酬權(quán)。
2. 交易流轉(zhuǎn):構(gòu)建開放型的出版內(nèi)容數(shù)據(jù)授權(quán)交易模式
在出版內(nèi)容數(shù)據(jù)資源化后,出版內(nèi)容數(shù)據(jù)的價(jià)值并不當(dāng)然得到釋放,出版內(nèi)容數(shù)據(jù)價(jià)值的真正實(shí)現(xiàn)仍然依賴于數(shù)據(jù)的交易流通。對(duì)此應(yīng)當(dāng)打通傳統(tǒng)出版領(lǐng)域中關(guān)于出版內(nèi)容的授權(quán)壁壘, 推進(jìn)出版內(nèi)容數(shù)據(jù)的“ 聚”“通”“用”。一方面,要實(shí)現(xiàn)出版內(nèi)容數(shù)據(jù)的產(chǎn)品化。出版內(nèi)容數(shù)據(jù)是在出版內(nèi)容的基礎(chǔ)上投入勞動(dòng)形成的新客體,表現(xiàn)為“數(shù)據(jù)產(chǎn)品”或“數(shù)據(jù)服務(wù)”,應(yīng)強(qiáng)化出版內(nèi)容數(shù)據(jù)的市場(chǎng)應(yīng)用價(jià)值,提供契合AI 大模型數(shù)據(jù)訓(xùn)練需求的出版內(nèi)容數(shù)據(jù)。對(duì)此,可以構(gòu)建數(shù)據(jù)供需磋商機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)供給;同時(shí),優(yōu)化出版內(nèi)容數(shù)據(jù)的分類機(jī)制,進(jìn)一步提升數(shù)據(jù)供給質(zhì)量。另一方面,要疏通出版內(nèi)容數(shù)據(jù)產(chǎn)品交易流通的“堵點(diǎn)”。積極落實(shí)出版內(nèi)容數(shù)據(jù)產(chǎn)權(quán)登記,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)確權(quán)、可信交易、數(shù)據(jù)監(jiān)管等功能;[28] 搭建出版內(nèi)容數(shù)據(jù)交易平臺(tái),推進(jìn)出版內(nèi)容數(shù)據(jù)的開放交易;推進(jìn)出版商、AI 大模型訓(xùn)練服務(wù)商和數(shù)據(jù)交易服務(wù)機(jī)構(gòu)之間的三方合作,為出版內(nèi)容數(shù)據(jù)交易保駕護(hù)航。
3. 安全保障:設(shè)立可信可控的出版內(nèi)容數(shù)據(jù)合規(guī)審查機(jī)制
以確保安全與合規(guī)作為出版內(nèi)容數(shù)據(jù)資產(chǎn)化的首要原則,保障出版內(nèi)容數(shù)據(jù)在來源、處理、流通等環(huán)節(jié)的合法性。其一,對(duì)出版內(nèi)容數(shù)據(jù)來源的合規(guī)性審查應(yīng)著眼于出版商取得出版內(nèi)容授權(quán)的環(huán)節(jié),優(yōu)化授權(quán)出版內(nèi)容數(shù)據(jù)化的合作協(xié)議;鼓勵(lì)探索出版內(nèi)容數(shù)據(jù)的開放式授權(quán)模式;根據(jù)數(shù)據(jù)運(yùn)用的營(yíng)利性與非營(yíng)利性區(qū)分授權(quán)機(jī)制;完善出版內(nèi)容數(shù)據(jù)資產(chǎn)權(quán)益歸屬相關(guān)立法。其二,對(duì)出版內(nèi)容數(shù)據(jù)處理階段的合規(guī)審查應(yīng)著眼于AI 大模型數(shù)據(jù)訓(xùn)練商對(duì)出版內(nèi)容數(shù)據(jù)的使用,規(guī)定AI 大模型數(shù)據(jù)訓(xùn)練商的數(shù)據(jù)安全保障義務(wù);制定出版內(nèi)容數(shù)據(jù)使用的合規(guī)保障機(jī)制,引入出版商請(qǐng)求AI 大模型數(shù)據(jù)訓(xùn)練商刪除并停止使用不合規(guī)出版內(nèi)容數(shù)據(jù)的規(guī)則;對(duì)歪曲、篡改、偽造出版內(nèi)容數(shù)據(jù)的數(shù)據(jù)使用行為設(shè)置懲戒后果。其三,對(duì)出版內(nèi)容數(shù)據(jù)流通環(huán)節(jié)的合規(guī)審查應(yīng)著眼于出版商、AI 大模型數(shù)據(jù)訓(xùn)練商和數(shù)據(jù)交易平臺(tái)之間,針對(duì)國(guó)內(nèi)數(shù)據(jù)交易和國(guó)際數(shù)據(jù)交易的合規(guī)審查需設(shè)置不同標(biāo)準(zhǔn)。對(duì)此出版商應(yīng)當(dāng)構(gòu)建出版內(nèi)容數(shù)據(jù)的風(fēng)險(xiǎn)評(píng)估機(jī)制和安全審查機(jī)制,結(jié)合出版內(nèi)容的形態(tài)和行業(yè)標(biāo)準(zhǔn)制定具體的審查規(guī)則,例如,針對(duì)圖書、期刊、視頻等不同形態(tài)的出版內(nèi)容需制定差異化的安全審查標(biāo)準(zhǔn)。
4. 利益分配:優(yōu)化出版內(nèi)容數(shù)據(jù)參與者的利益分配
出版內(nèi)容數(shù)據(jù)資產(chǎn)化后,需優(yōu)化出版內(nèi)容數(shù)據(jù)參與者的利益分配,明確利益分配主體、健全利益分配標(biāo)準(zhǔn)、構(gòu)建利益實(shí)現(xiàn)保障機(jī)制。其一,在利益分配主體層面,需在立法中規(guī)定數(shù)據(jù)收集者、控制者對(duì)數(shù)據(jù)資產(chǎn)所享有的權(quán)益,明確出版商作為出版內(nèi)容數(shù)據(jù)的控制者對(duì)出版內(nèi)容數(shù)據(jù)資產(chǎn)所享有的權(quán)益。其二,在利益分配標(biāo)準(zhǔn)方面,需要遵循《中共中央 國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(俗稱“數(shù)據(jù)二十條”)確定的“誰投入、誰貢獻(xiàn)、誰受益”的原則。積極推進(jìn)出版內(nèi)容數(shù)據(jù)資產(chǎn)入表工作,在此過程中逐步結(jié)合實(shí)踐需要完善配套法律規(guī)則,[29] 同時(shí)健全出版內(nèi)容數(shù)據(jù)價(jià)值評(píng)估機(jī)制,探索出版內(nèi)容數(shù)據(jù)利益分配磋商機(jī)制。其三,在利益實(shí)現(xiàn)層面,基于出版內(nèi)容數(shù)據(jù)侵權(quán)舉證較難,且侵權(quán)隱蔽性強(qiáng),需健全出版內(nèi)容數(shù)據(jù)利益實(shí)現(xiàn)保障機(jī)制,規(guī)范出版內(nèi)容數(shù)據(jù)侵權(quán)認(rèn)定標(biāo)準(zhǔn),引入侵權(quán)舉證責(zé)任倒置規(guī)則,對(duì)AI 大模型數(shù)據(jù)訓(xùn)練服務(wù)商施加未侵權(quán)的舉證責(zé)任,并輔之以出版內(nèi)容數(shù)據(jù)侵權(quán)保險(xiǎn)制度。
四、結(jié)語
出版內(nèi)容數(shù)據(jù)是出版產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型的關(guān)鍵要素。在AI 大模型使用出版內(nèi)容數(shù)據(jù)廣泛開展數(shù)據(jù)訓(xùn)練的語境下,既要關(guān)注人工智能產(chǎn)業(yè)的發(fā)展利益,也要關(guān)注出版產(chǎn)業(yè)的發(fā)展利益;既要關(guān)注著作權(quán)人對(duì)出版內(nèi)容享有的版權(quán),也要關(guān)注出版商對(duì)出版內(nèi)容數(shù)據(jù)享有的數(shù)據(jù)權(quán)益。出版產(chǎn)業(yè)應(yīng)與人工智能產(chǎn)業(yè)聯(lián)動(dòng),推動(dòng)出版內(nèi)容數(shù)據(jù)資源化,提升出版內(nèi)容數(shù)據(jù)的供給質(zhì)量和應(yīng)用效率。通過出版產(chǎn)業(yè)供給優(yōu)質(zhì)的出版內(nèi)容數(shù)據(jù),將豐富AI 大模型數(shù)據(jù)訓(xùn)練的中文語料,提升生成式人工智能在中文語境下的應(yīng)用水平,助力出版產(chǎn)業(yè)鏈的價(jià)值延伸,增益著作權(quán)人和出版商,推進(jìn)出版產(chǎn)業(yè)的數(shù)智化轉(zhuǎn)型。