亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成式人工智能訓(xùn)練數(shù)據(jù)獲取的版權(quán)障礙及反壟斷進路

        2025-07-30 00:00:00譚袁
        科技與法律 2025年3期
        關(guān)鍵詞:服務(wù)提供者許可人工智能

        中圖分類號:D923 文獻標(biāo)志碼:A 文章編號:2096-9783(2025)03-0081-12

        生成式人工智能作為人工智能發(fā)展的最新階段和集大成者,正成為國際競爭的新陣地。2017年7月,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確我國應(yīng)將人工智能發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動謀劃,牢牢把握人工智能發(fā)展新階段國際競爭的戰(zhàn)略主動①。此后,為落實規(guī)劃要求,工業(yè)和信息化部、科技部等部門出臺了一系列政策。2023年和2024年,人工智能法草案連續(xù)兩年被納入國務(wù)院年度立法工作計劃。

        美國、歐盟和日本等國家和地區(qū)也已開始制定以通用人工智能為核心的第四次工業(yè)革命發(fā)展戰(zhàn)略,促進生成式人工智能的落地應(yīng)用1]。2023年5月23日,美國白宮發(fā)布《國家人工智能研發(fā)戰(zhàn)略計劃》,旨在確保美國在研發(fā)和應(yīng)用可信賴的人工智能系統(tǒng)方面繼續(xù)處于領(lǐng)導(dǎo)地位[2。2024年3月,歐洲議會通過《人工智能法案》,意在引領(lǐng)人工智能領(lǐng)域的監(jiān)管。2022年4月,日本政府發(fā)布《人工智能戰(zhàn)略 2022) ,以指導(dǎo)日本人工智能技術(shù)的戰(zhàn)略發(fā)展。

        生成式人工智能產(chǎn)業(yè)的發(fā)展以高質(zhì)量的訓(xùn)練數(shù)據(jù)為基礎(chǔ),訓(xùn)練數(shù)據(jù)在整個生成式人工智能研發(fā)過程中具有無可取代的重要性3。然而,這些優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)往往是受版權(quán)保護的作品。如果生成式人工智能服務(wù)提供者無法獲得這些作品來訓(xùn)練大模型,則無法保證生成式人工智能的先進性。為了解決生成式人工智能發(fā)展過程中訓(xùn)練數(shù)據(jù)獲取所面臨的版權(quán)障礙,歐盟和美國通過制定新的規(guī)則或?qū)ΜF(xiàn)行版權(quán)法進行解釋的方式尋求突破。然而,歐盟所制定的新的規(guī)則設(shè)定了諸多例外規(guī)定,為版權(quán)人禁止生成式人工智能服務(wù)提供者獲取數(shù)據(jù)留下了很大的空間。同時,生成式人工智能對版權(quán)作品的使用方式難以契合傳統(tǒng)版權(quán)法中的合理使用原則,因此,版權(quán)法在解決生成式人工智能服務(wù)提供者獲取訓(xùn)練數(shù)據(jù)的問題上,存在局限性。

        生成式人工智能服務(wù)提供者無法獲得版權(quán)作品,也可能因版權(quán)人等從事壟斷行為所致。對此,需要依據(jù)反壟斷法進行有效規(guī)制,避免因壟斷行為而阻礙生成式人工智能服務(wù)提供者獲取必要的版權(quán)作品。反壟斷可以成為解決這種版權(quán)障礙的一種補充性方案。不過同樣需要注意的是,反壟斷規(guī)制本身也面臨諸多挑戰(zhàn)。壟斷行為的認定并非易事。從實踐角度來看,目前尚無依據(jù)反壟斷對生成式人工智能訓(xùn)練數(shù)據(jù)獲取障礙實施規(guī)制的經(jīng)驗。生成式人工智能訓(xùn)練數(shù)據(jù)所涉及的版權(quán)問題,當(dāng)前主要為版權(quán)法學(xué)者所關(guān)注,相關(guān)探討也主要集中在版權(quán)法領(lǐng)域。無論是國內(nèi)還是國際,均沒有基于反壟斷法的規(guī)制實踐。國內(nèi)反壟斷法學(xué)者對涉及生成式人工智能問題的關(guān)注,主要集中在生成式人工智能本身所可能引發(fā)的壟斷風(fēng)險上[4-5],雖然也有學(xué)者關(guān)注到數(shù)據(jù)、模型、人才和算力等關(guān)鍵資源領(lǐng)域的壟斷行為可能會阻礙生成式人工智能的發(fā)展,但并未探討訓(xùn)練數(shù)據(jù)獲取方面涉及版權(quán)的壟斷問題。

        知識產(chǎn)權(quán)法和反壟斷法之間具有非常密切的關(guān)聯(lián)性,知識產(chǎn)權(quán)本身就是一種法定壟斷。盡管與專利相關(guān)的反壟斷問題隨著標(biāo)準(zhǔn)必要專利相關(guān)產(chǎn)業(yè)的發(fā)展而受到廣泛關(guān)注,但版權(quán)反壟斷由于在很長一段時間內(nèi)缺乏實踐而被忽視。即便是生成式人工智能產(chǎn)業(yè)已經(jīng)發(fā)展得如火如荼,其中可能涉及的版權(quán)反壟斷問題也鮮受關(guān)注。學(xué)術(shù)界最先關(guān)注的是人工智能生成內(nèi)容的作品性認定問題,對產(chǎn)業(yè)界首先遭遇的訓(xùn)練數(shù)據(jù)合法性指控問題研究較少7],這與訓(xùn)練數(shù)據(jù)在生成式人工智能中的重要地位不相適應(yīng)8。根據(jù)知識產(chǎn)權(quán)反壟斷發(fā)展規(guī)律,版權(quán)反壟斷問題也是一種必然會出現(xiàn)的問題。生成式人工智能產(chǎn)業(yè)的發(fā)展,不僅為版權(quán)反壟斷提供了難得的契機,也為理論界深人探討版權(quán)反壟斷問題提供了重要的時代背景。

        一、生成式人工智能發(fā)展的訓(xùn)練數(shù)據(jù)需求及版權(quán)障礙

        自2022年夏天以來,生成式人工智能應(yīng)用逐漸進入大眾化階段,由最早的\"文生圖\"(text-to-image)應(yīng)用發(fā)展到“文生文\"(text-to-text)應(yīng)用。生成式人工智能之所以能夠在全球范圍內(nèi)取得成功,主要得益于其規(guī)?;⑵脚_化和數(shù)據(jù)化。2024年2月15日,OpenAI發(fā)布了基于“文生視頻\"(text-to-video)技術(shù)的大模型工具Sora,將生成式人工智能的發(fā)展推進到新的階段。生成式人工智能的發(fā)展依賴海量高質(zhì)量數(shù)據(jù)的“投喂”,而這些數(shù)據(jù)往往受版權(quán)保護,導(dǎo)致生成式人工智能獲取訓(xùn)練數(shù)據(jù)面臨巨大的版權(quán)障礙。

        (一)生成式人工智能發(fā)展的訓(xùn)練數(shù)據(jù)需求

        生成式人工智能實現(xiàn)了由代碼定義型到數(shù)據(jù)訓(xùn)練型的技術(shù)迭代,通過輸入海量數(shù)據(jù)進行模型訓(xùn)練,以生成類似于人類思維創(chuàng)作文本的內(nèi)容,其運作大體包括三個階段,即數(shù)據(jù)輸入、機器訓(xùn)練和結(jié)果生成[10]。生成式人工智能發(fā)展的基本保證和必要條件就是需要獲得大量的訓(xùn)練數(shù)據(jù),這是大語言模型能夠獲得生成、推理、預(yù)測等能力的基礎(chǔ)。生成式人工智能的發(fā)展對訓(xùn)練數(shù)據(jù)在量和質(zhì)方面都有較高要求。

        一方面,訓(xùn)練數(shù)據(jù)的“量\"對生成式人工智能的發(fā)展至關(guān)重要。生成式人工智能的發(fā)展需要大量的訓(xùn)練數(shù)據(jù),只有通過海量的學(xué)習(xí)、嘗試,生成式人工智能才能夠歸納總結(jié)出若干模型、風(fēng)格與規(guī)則12。例如,文本到圖像生成模型StableDiffusion使用非營利組織LAION收集的三個大型數(shù)據(jù)集進行訓(xùn)練,包括58.5億個圖像-文本對。自然語言處理模型GPT-3從45TB原始數(shù)據(jù)中過濾出570GB數(shù)據(jù)進行訓(xùn)練,這些數(shù)據(jù)包括網(wǎng)站抓取數(shù)據(jù)集、網(wǎng)頁文本數(shù)據(jù)集、圖書語料庫和英語維基百科,共設(shè)置了1750億個參數(shù)8。而GPT-4的參數(shù)量則已經(jīng)達到了百萬億級,隨著GPT技術(shù)的迭代,其技術(shù)模型參數(shù)和數(shù)據(jù)量也在不斷倍增[13]。海量的數(shù)據(jù)需求,契合了生成式人工智能所具有的涌現(xiàn)性、泛化性和通用性三大區(qū)別于傳統(tǒng)人工智能的技術(shù)特征[14]。訓(xùn)練數(shù)據(jù)越廣泛,越有助于降低生成式人工智能的錯誤率[15]。尺度定律表明,隨著模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的提升,模型的能力也會不斷攀升,這促使以GPT-4o為代表的生成式人工智能模型在功能性和有用性上取得了巨大突破[??梢姡A康臄?shù)據(jù)有助于提升模型的訓(xùn)練效果,增強模型的理解能力,提升生成內(nèi)容的質(zhì)量,對生成式人工智能的發(fā)展具有不可或缺的價值。

        另一方面,訓(xùn)練數(shù)據(jù)的“質(zhì)\"對生成式人工智能的發(fā)展尤為關(guān)鍵。生成式人工智能的發(fā)展不僅依賴于海量的訓(xùn)練數(shù)據(jù),而且還取決于這些數(shù)據(jù)的質(zhì)量。本質(zhì)上而言,生成式人工智能就是通過大量學(xué)習(xí)人類的語言以及藝術(shù)創(chuàng)作規(guī)則、模式等,生成符合人類語言習(xí)慣并具有審美價值的內(nèi)容[7。如果輸入模型的數(shù)據(jù)本身是低質(zhì)量的,那么最終生成的內(nèi)容也將同樣低質(zhì)量,無法契合用戶的需求。這將產(chǎn)生所謂的“垃圾進,垃圾出\"(garbage in,garbage out)問題[8]。如果輸入的數(shù)據(jù)是錯誤的、不完整的或者低質(zhì)量的,那么無論算法或模型有多先進,最終生成的結(jié)果也很有可能同樣是錯誤的、不完整的或者低質(zhì)量的。高質(zhì)量的數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強模型能力[19]。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量在很大程度上決定了生成內(nèi)容的效果和可靠性。以Sora為例,其可根據(jù)指令生成時長達1分鐘的高質(zhì)量連貫視頻,在全球引發(fā)了廣泛關(guān)注,其之所以能夠取得巨大成功,與其使用高度描述性字幕短視頻等優(yōu)質(zhì)樣本具有直接關(guān)系[20]。然而,我國當(dāng)前面臨訓(xùn)練數(shù)據(jù)尤其是高質(zhì)量中文數(shù)據(jù)不足的困境,限制了生成式人工智能技術(shù)的發(fā)展[21]。中文領(lǐng)域優(yōu)質(zhì)數(shù)據(jù)缺失嚴重,例如,就可供直接爬取的網(wǎng)頁數(shù)據(jù)而言,在規(guī)模排名世界前100萬的互聯(lián)網(wǎng)網(wǎng)站中,中文網(wǎng)站僅占 1.3% ,而英文網(wǎng)站占比則達到了 59.3% ,正是基于這種困境,有觀點主張打破版權(quán)壁壘,充分利用我國大規(guī)模且高質(zhì)量的作品,以解決我國優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)不足的問題,滿足我國人工智能發(fā)展的數(shù)據(jù)需求[22]。我國《生成式人工智能服務(wù)管理暫行辦法》也要求生成式人工智能服務(wù)提供者“采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性\"②

        受版權(quán)保護的作品之所以是生成式人工智能優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù),是因為其具有豐富的語言結(jié)構(gòu)、創(chuàng)意性表達和思想內(nèi)容[23]。生成式人工智能服務(wù)提供者能否在競爭中占據(jù)優(yōu)勢,在很大程度上取決于其是否能夠獲得大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。由于這種優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)往往是受版權(quán)保護的作品,這意味著生成式人工智能服務(wù)提供者在獲取優(yōu)質(zhì)數(shù)據(jù)時將面臨版權(quán)障礙。

        (二)訓(xùn)練數(shù)據(jù)獲取的版權(quán)障礙

        作為生成式人工智能發(fā)展所需要的訓(xùn)練數(shù)據(jù),不僅來源于公共領(lǐng)域的作品數(shù)據(jù),而且也來源于尚在版權(quán)保護范圍內(nèi)的作品數(shù)據(jù)。相比于其他數(shù)據(jù),作品數(shù)據(jù)是典型的高質(zhì)量數(shù)據(jù)資料,具有無與倫比的算法訓(xùn)練價值24。如果生成式人工智能模型無法使用受版權(quán)保護的作品,則這些模型的價值將大大降低。正如OpenAI在提交給美國眾議院通信和數(shù)字特別委員會的文件中明確指出:由于現(xiàn)在的版權(quán)幾乎涵蓋了所有的人類表達,包括博客文章、照片、論壇帖子、軟件代碼片段等,因此如果生成式人工智能模型不使用受版權(quán)保護的內(nèi)容,就不可能訓(xùn)練領(lǐng)先的人工智能模型。如果僅將訓(xùn)練數(shù)據(jù)限定為一個多世紀前創(chuàng)作的、已進人公共領(lǐng)域的書籍和畫作,盡管這可能會是一個有趣的實驗,但無法提供能夠滿足如今公眾所需求的人工智能系統(tǒng)[25]。然而,生成式人工智能服務(wù)提供者在獲取作品數(shù)據(jù)時仍面臨著版權(quán)方面的障礙,這既包括未經(jīng)許可使用這些作品數(shù)據(jù)可能面臨的侵權(quán)風(fēng)險,也包括獲得版權(quán)許可所面臨的實際困難。

        1.未經(jīng)許可使用版權(quán)作品所面臨的侵權(quán)風(fēng)險將阻礙生成式人工智能的發(fā)展

        對于受版權(quán)保護的作品,生成式人工智能服務(wù)提供者在尋求將其作為訓(xùn)練數(shù)據(jù)時,應(yīng)當(dāng)獲得版權(quán)人的許可。如果生成式人工智能使用這些數(shù)據(jù)時未經(jīng)版權(quán)人授權(quán),有可能會侵害版權(quán)[26。具體而言,生成式人工智能在發(fā)展過程中,在通過爬蟲技術(shù)等手段爬取版權(quán)作品數(shù)據(jù)時,可能侵犯版權(quán)人的復(fù)制權(quán),在訓(xùn)練數(shù)據(jù)輸人階段,為了將所收集的版權(quán)作品轉(zhuǎn)碼為結(jié)構(gòu)化數(shù)據(jù),又可能涉及侵犯版權(quán)人的改編權(quán)、匯編權(quán)、翻譯權(quán)等[7]。

        生成式人工智能訓(xùn)練數(shù)據(jù)獲取和使用過程中所涉及的版權(quán)侵權(quán)風(fēng)險,也引起了監(jiān)管機構(gòu)的關(guān)注和重視。2023年5月,美國版權(quán)局舉行了關(guān)于人工智能和視覺藝術(shù)的玲聽會議,關(guān)注訓(xùn)練數(shù)據(jù)使用版權(quán)作品的問題③。我國更是直接作出了明確規(guī)定。2023年7月,國家網(wǎng)信辦等七部門共同發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》第七條規(guī)定,“生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動”,“不得侵害他人依法享有的知識產(chǎn)權(quán)”。2024年3月1日,全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化委員會發(fā)布《生成式人工智能服務(wù)安全基本要求》,其中對識別語料內(nèi)容涉及知識產(chǎn)權(quán)侵權(quán)作出了具體規(guī)定④。包括我國在內(nèi)的主要國家和地區(qū)都在人工智能立法中要求生成式人工智能服務(wù)提供者主動披露訓(xùn)練數(shù)據(jù)中涉及版權(quán)作品的信息

        從全球來看,已經(jīng)出現(xiàn)了諸多版權(quán)人起訴生成式人工智能企業(yè)的訴訟。2023年1月,美國蓋帝圖像有限公司(GettyImages)在倫敦高等法院起訴人工智能企業(yè) Stability AI侵犯蓋帝圖像所擁有的版權(quán)內(nèi)容[27]。藝術(shù)家針對StabilityAI等提起集體訴訟,指控Stabili-ty AI等復(fù)制、轉(zhuǎn)換和利用他們作品。2023年6月,文學(xué)作家針對OpenAI提起集體訴訟,指控OpenAI在未獲授權(quán)的情況下利用這些作家的版權(quán)作品訓(xùn)練其ChatGPT?。2023年12月,《紐約時報》提起訴訟,指控OpenAI的ChatGPT和微軟的Copilot未經(jīng)許可使用其內(nèi)容開發(fā)生成式人工智能產(chǎn)品,這些產(chǎn)品接受了數(shù)百萬條《紐約時報》內(nèi)容的訓(xùn)練,并利用這些材料為用戶生成答案[28]。在我國也出現(xiàn)了類似的案件。2024年1月,擁有奧特曼系列形象版權(quán)獨占授權(quán)的上海某文化發(fā)展公司選擇將人工智能生成網(wǎng)站Tab(化名)訴至廣州互聯(lián)網(wǎng)法院,理由是Tab未經(jīng)授權(quán)即擅自利用原告享有權(quán)利的作品訓(xùn)練其大模型并生成實質(zhì)性相似的圖片[29]。如無法有效解決訓(xùn)練數(shù)據(jù)版權(quán)問題,生成式人工智能的發(fā)展就始終存在“阿喀琉斯之踵”。

        2.主動尋求獲得版權(quán)許可存在實際困難

        由于生成式人工智能自身的技術(shù)特性,決定其依據(jù)傳統(tǒng)版權(quán)許可模式尋求獲得許可時將面臨諸多實際困難。

        其一,識別版權(quán)人并與其取得聯(lián)系存在困難。大多數(shù)生成式人工智能服務(wù)提供者并未主動披露其訓(xùn)練數(shù)據(jù)中所包含的版權(quán)作品情況。不過,即便版權(quán)作品在訓(xùn)練數(shù)據(jù)中所占比例較低,但鑒于訓(xùn)練數(shù)據(jù)的海量規(guī)模,其中所涉及的版權(quán)作品數(shù)量也將十分龐大。由于訓(xùn)練數(shù)據(jù)的來源可能不明確或不可追溯,因此被用作訓(xùn)練數(shù)據(jù)的作品的版權(quán)人確切身份可能很難確定,從而無法獲得有效的版權(quán)許可[8。同時,即便生成式人工智能服務(wù)提供者主觀上具有向版權(quán)人尋求獲得授權(quán)的意愿,由于版權(quán)人數(shù)量眾多,因此逐一向所有版權(quán)人尋求許可,在實踐中也將面臨極大的困難。要求生成式人工智能服務(wù)提供者從“海量作者”中點對點地獲得“海量作品\"的“海量許可\"在現(xiàn)實中幾乎不太可能[30。盡管集體管理組織可以發(fā)揮一定作用,互聯(lián)網(wǎng)平臺理論上也可以發(fā)展一些對接機制,但仍然存在許多非常突出的困難[31]。

        其二,許可成本高昂。即便生成式人工智能服務(wù)提供者能夠識別版權(quán)人并與之取得聯(lián)系,每個版權(quán)人哪怕僅收取數(shù)額極少的許可費,累積的總許可費可能仍然是一個巨大的金額,超出生成式人工智能服務(wù)提供者所能夠承受的范圍。如果訓(xùn)練數(shù)據(jù)都必須獲得作品版權(quán)人許可、向其支付報酬、指明作者姓名或者作品名稱,即使大型企業(yè)也很難做到,遑論初創(chuàng)企業(yè)[32。除了這種直接的許可費用成本外,與數(shù)量眾多的版權(quán)人進行許可談判,也會產(chǎn)生極高的交易成本,經(jīng)過權(quán)衡之后,生成式人工智能服務(wù)提供者最終可能不得不放棄繼續(xù)研發(fā),這將造成社會福利損失。

        其三,版權(quán)法本身的復(fù)雜性進一步加劇了這種困難。由于版權(quán)的地域性割裂,這導(dǎo)致同一作品在不同地區(qū)的版權(quán)保護情況也可能不同,需要考慮全球范圍內(nèi)的版權(quán)法律規(guī)定,極大的增加了訓(xùn)練數(shù)據(jù)合規(guī)的難度[33]

        二、訓(xùn)練數(shù)據(jù)獲取的版權(quán)法路徑及其局限性

        為了解決生成式人工智能發(fā)展中的訓(xùn)練數(shù)據(jù)版權(quán)問題,歐盟和美國都從版權(quán)法內(nèi)部尋找可能的解決途徑,但仍然面臨較大的局限性。

        (一)版權(quán)法路徑的嘗試

        1.歐盟制定專門法

        2019年4月17日,歐洲議會和歐盟理事會制定了《數(shù)字化單一市場版權(quán)指令》(以下簡稱《指令》)?!吨噶睢返?條和第4條是關(guān)于文本和數(shù)據(jù)挖掘(textanddatamining)的特別規(guī)定,旨在適應(yīng)數(shù)字和跨境環(huán)境下的版權(quán)例外要求,為人工智能數(shù)據(jù)訓(xùn)練行為提供合理使用的依據(jù)7。不過,這兩條規(guī)定針對的對象并不相同。

        第3條規(guī)定的豁免僅限于研究機構(gòu)和文化遺產(chǎn)機構(gòu)為科學(xué)研究目的所展開的文本和數(shù)據(jù)挖掘行為,因此是一種非商業(yè)使用。與生成式人工智能訓(xùn)練數(shù)據(jù)獲取相關(guān)的是該《指令》第4條對基于文本和數(shù)據(jù)挖掘目的而使用作品的行為進行豁免的規(guī)定。該條貫徹的是“閱讀權(quán)應(yīng)當(dāng)是挖掘權(quán)”的理念,認為文本和數(shù)據(jù)挖掘的行為等同于人類閱讀文本獲取信息的行為,因而機器閱讀也應(yīng)該像人類閱讀一樣不構(gòu)成侵權(quán)[34]。與第3條規(guī)定不同,第4條規(guī)定的豁免并不限于非商業(yè)使用。該條第1款規(guī)定,如果他人基于文本和數(shù)據(jù)挖掘之目的而對能夠合法訪問的作品等進行復(fù)制和摘錄的話,則成員國應(yīng)當(dāng)對版權(quán)人的權(quán)利作出例外或限制性規(guī)定。第2款規(guī)定,他人依據(jù)第1款所進行的復(fù)制和摘錄,可以在為實現(xiàn)文本和數(shù)據(jù)挖掘目的所必需的期限內(nèi)予以保留。不過,第3款也對他人所享有的這種復(fù)制和摘錄的權(quán)利進行了限制。該款規(guī)定,只有當(dāng)?shù)?款所規(guī)定的作品等的使用尚未被版權(quán)人通過適當(dāng)?shù)姆绞接枰悦鞔_保留(expresslyre-served),如對線上公開提供的內(nèi)容以機器可讀的方式進行保留的情況下,第1款所規(guī)定的例外或限制才可適用。

        《指令》第4條實際上為生成式人工智能模型訓(xùn)練的文本數(shù)據(jù)挖掘創(chuàng)設(shè)了版權(quán)例外規(guī)則,實現(xiàn)了作品使用從“選擇一進人\"到“選擇一退出\"的轉(zhuǎn)變,顛覆了事前授權(quán)模式[35。這為人工智能數(shù)據(jù)訓(xùn)練行為提供了合理使用的依據(jù)。不過這仍然只是一種有限的合理使用。因為《指令》保留了版權(quán)人“選擇退出權(quán)”,在版權(quán)人明確保留對其作品選擇退出權(quán)的情況下,生成式人工智能的提供者若想使用這些作品就必須獲得版權(quán)人的授權(quán)[1]。

        2.解釋版權(quán)法中的合理使用原則

        美國選擇通過解釋版權(quán)法中的合理使用原則來應(yīng)對新的數(shù)字背景下技術(shù)發(fā)展對版權(quán)作品使用的需求。美國《版權(quán)法》規(guī)定,在個案中認定是否構(gòu)成合理使用時,應(yīng)當(dāng)考量四個方面的因素:(1)使用的目的及其性質(zhì);(2)受版權(quán)保護的作品的性質(zhì);(3)對受版權(quán)保護作品使用的數(shù)量及其程度;(4)這種使用行為對于受版權(quán)保護作品的潛在市場或價值的影響

        美國法院在谷歌案中,將谷歌對書籍進行數(shù)字化的行為解釋為符合美國《版權(quán)法》的合理使用行為。在作家協(xié)會訴谷歌公司(AuthorsGuildv.Googleinc)案中,谷歌啟動圖書項目計劃,與幾家主要的研究型圖書館合作,將其藏書數(shù)字化,通過編入索引以創(chuàng)建一個“所有語言的所有圖書的虛擬卡片目錄”,使讀者們能夠在線進行檢索。作家協(xié)會提起訴訟指控谷歌構(gòu)成版權(quán)侵權(quán)。法院認為谷歌對版權(quán)作品的使用是一種轉(zhuǎn)換性使用,其向公眾展示的內(nèi)容有限,所披露的內(nèi)容也并沒有對版權(quán)作品形成重要的市場替代,并且被告的商業(yè)性質(zhì)和盈利動機也并不構(gòu)成否定合理使用的正當(dāng)理由。生成式人工智能模型在學(xué)習(xí)過程中對版權(quán)作品的使用,與創(chuàng)造性使用版權(quán)作品之間存在明顯不同,法院可能將其認定為是一種轉(zhuǎn)換性使用,并構(gòu)成合理使用,正如谷歌將書籍進行數(shù)字化那樣[25]。

        生成式人工智能服務(wù)提供者也主張,將受版權(quán)保護的作品用作生成式人工智能的訓(xùn)練數(shù)據(jù),這僅僅是一種暫時且非消耗性的使用,并沒有實質(zhì)性干擾版權(quán)人的版權(quán),因此,這種使用應(yīng)當(dāng)構(gòu)成美國法中的合理使用[3。生成式人工智能對版權(quán)作品的復(fù)制本身可能非常短暫,以至短暫到不構(gòu)成侵權(quán)。至于短暫到何種程度才不構(gòu)成版權(quán)法上的復(fù)制,CartoonNetwork訴CSC案提供了一定的指導(dǎo)標(biāo)準(zhǔn)。在該案中,原告認為被告的遠程存儲數(shù)字視頻錄像系統(tǒng)在未經(jīng)授權(quán)的情況下將原告版權(quán)作品存儲在數(shù)據(jù)緩沖區(qū)內(nèi),“復(fù)制”了受版權(quán)保護的作品,構(gòu)成版權(quán)侵權(quán)行為。被告則認為,存儲在緩沖區(qū)中的數(shù)據(jù)并未持續(xù)足夠長的時間,因此不滿足版權(quán)法中關(guān)于“固定”的要求,不構(gòu)成“復(fù)制”。美國第二巡回上訴法院認為,原告版權(quán)作品在被告緩沖區(qū)中存儲的時間不超過1.2秒,這一時間過短從而不滿足版權(quán)法中關(guān)于“固定”的要求,因而不構(gòu)成\"復(fù)制\"①。生成式人工智能將版權(quán)作品進行復(fù)制以用作訓(xùn)練數(shù)據(jù)可能與之類似,也是非常短暫的[37],因此也可能不構(gòu)成版權(quán)法上的復(fù)制。

        美國多次運用合理使用原則以應(yīng)對新技術(shù)所帶來的挑戰(zhàn),合理使用的先例經(jīng)驗使得美國技術(shù)開發(fā)市場更具有活力,促使技術(shù)公司和資本家對新技術(shù)進行投資,而無需擔(dān)心陷入著作權(quán)糾紛的風(fēng)險[15]。

        (二)版權(quán)法方案的局限性

        1.難以直接豁免

        生成式人工智能對版權(quán)作品的使用難以直接被豁免。即便歐盟《指令》第4條規(guī)定了豁免條款,但該條第3款同時允許版權(quán)人以適當(dāng)?shù)姆绞阶鞒霰A?。這意味著,如果數(shù)量眾多的版權(quán)人都作出保留,則生成式人工智能服務(wù)提供者將無法依據(jù)第4條所規(guī)定的豁免條款使用版權(quán)作品。事實上,生成式人工智能服務(wù)提供者也無法一一核驗版權(quán)人是否作出過這種保留,因為版權(quán)人數(shù)量眾多,而且其作出的保留形式多樣,逐一判斷是否構(gòu)成《指令》所規(guī)定的保留也不具有可行性。此外,歐盟版權(quán)法通常也并不禁止版權(quán)人通過合同、技術(shù)或其他方式限制生成式人工智能服務(wù)提供者獲取或利用版權(quán)作品[38]。

        為生成式人工智能的發(fā)展“開綠燈”,對其使用版權(quán)作品的行為進行豁免,雖然能夠在短期內(nèi)促進生成式人工智能的發(fā)展,但從長遠來看最終會削弱生成式人工智能發(fā)展的基礎(chǔ)。如果生成式人工智能提供者可以無條件使用他人受版權(quán)法所保護的作品,無疑會損害作品創(chuàng)作者的積極性,導(dǎo)致作品創(chuàng)作水平的低下,最終又會反噬生成式人工智能的發(fā)展。如何處理好二者之間的關(guān)系,在既確保我國生成式人工智能國家戰(zhàn)略實現(xiàn)的同時,又保護版權(quán)人的基本利益,是我國生成式人工智能發(fā)展過程中面臨的亟須解決的問題。

        2.難以被認定為合理使用

        我國最高人民法院也提出了認定合理使用的四要素,與美國《版權(quán)法》第107條所規(guī)定的四要素基本相同。生成式人工智能服務(wù)提供者將版權(quán)作品用作訓(xùn)練數(shù)據(jù),很難被認定為符合版權(quán)法中的合理使用認定標(biāo)準(zhǔn)。

        第一,“作品使用行為的性質(zhì)和目的\"要素在實踐中主要可以歸結(jié)為判斷版權(quán)作品的使用是否構(gòu)成一種\"轉(zhuǎn)換性使用”?!稗D(zhuǎn)換性使用\"分析的是新作品是否僅僅是“取代\"原版權(quán)作品的對象,還是相反增加了一些新的東西,具有更進一步的目的或者特征,用新的表達、含義或者信息改變了原版權(quán)作品。有觀點認為,生成式人工智能在“輸人\"階段的作品使用具有隨機性、非接觸性、非感知性的特征,具有“私人使用”“合理借鑒\"\"轉(zhuǎn)換性使用\"的成分,因此構(gòu)成一種合理使用[12。但是,明晰訓(xùn)練階段生成式人工智能大模型使用作品的目的,必須統(tǒng)合考慮后續(xù)內(nèi)容輸出行為,經(jīng)訓(xùn)練后的生成式人工智能大模型并不能完全排除對既有作品獨創(chuàng)性表達的“模仿\"和“借鑒”,就使用作品的目的和性質(zhì)而言,并不構(gòu)成一種目的性轉(zhuǎn)換[29]。況且,轉(zhuǎn)換性使用在理論上并不周延,在適用中也存在模糊性,有些轉(zhuǎn)換性使用可能并不具有合理使用的條件,因為這種使用是版權(quán)人獨占權(quán)利范圍內(nèi)的使用[39]

        第二,“被使用作品的性質(zhì)\"要素是從被使用的版權(quán)作品的內(nèi)容構(gòu)成分析是否構(gòu)成合理使用。“被使用作品的性質(zhì)\"要素將作品構(gòu)成中的主題、題材、體裁、概念、原理和客觀事實等列為“不受保護的要素”,而將結(jié)構(gòu)、情節(jié)、典型人物、事件的塑造表達和表現(xiàn)等作為\"受保護的要素”,從而界定合理使用的對象[40]。然而,生成式人工智能大模型學(xué)習(xí)的對象是作品構(gòu)成的所有要素,既包括“不受保護的要素”也包括“受保護的要素”,在作品的抽象表達和具體表達諸因素中閱讀和模仿人類審美標(biāo)準(zhǔn)和思想表達方法[40]。正是基于此,生成式人工智能所生成的內(nèi)容,才更符合人類的思維習(xí)慣和審美標(biāo)準(zhǔn)。因此,由于生成式人工智能模型也會使用版權(quán)作品中“受保護的要素”,因此很難被認定為合理使用。

        第三,“被使用部分的數(shù)量和質(zhì)量\"要素是從引用作品的數(shù)量和質(zhì)量兩方面展開分析,是一個定量和定性雙重考慮的指標(biāo)。生成式人工智能對版權(quán)作品的使用無論是從量還是從質(zhì)的角度來看,都遠遠超出了合理使用的范疇。傳統(tǒng)版權(quán)法合理使用的“少量使用\"要求與生成式人工智能技術(shù)發(fā)展的需要相悖,生成式人工智能技術(shù)的本質(zhì)決定其進行創(chuàng)作時必須使用海量的數(shù)據(jù)。同時,生成式人工智能會通過篩選而使用版權(quán)作品中最為核心的內(nèi)容。事實上,這也是為什么生成式人工智能需要使用版權(quán)作品的重要原因,因為生成式人工智能并非僅需要使用處于公共領(lǐng)域中的海量的數(shù)據(jù),而且還需要使用大量高質(zhì)量數(shù)據(jù),而這些大多是版權(quán)作品。基于此,生成式人工智能在該要素分析下很難被認定為是一種合理使用。

        第四,“使用對作品潛在市場或價值的影響\"要素考慮的是生成式人工智能所生成的內(nèi)容是否會直接與被用作訓(xùn)練數(shù)據(jù)的版權(quán)作品相競爭。生成式人工智能能夠模仿版權(quán)人作品的風(fēng)格,所生成的作品與版權(quán)作品不僅能夠“形似”,而且還能夠做到“神似”。美國唱片業(yè)協(xié)會(RIAA)起訴生成式人工智能初創(chuàng)公司Udio和Suno“竊取藝術(shù)家畢生的作品,提取作品的核心內(nèi)容然后重新包裝,與原創(chuàng)作品競爭,這種做法很不公平。[4II”生成式人工智能的成本很低,這進一步使得版權(quán)人無法在量上與其展開競爭。例如,專業(yè)攝影項目耗資往往在數(shù)萬美元,但人工智能生成器可以在幾秒內(nèi)生成風(fēng)格相似的照片[42]??梢姡墒饺斯ぶ悄芩傻淖髌?,無論是在“量”還是“質(zhì)”方面,都能夠?qū)崿F(xiàn)對原版權(quán)作品的超越,嚴重影響了版權(quán)人作品的市場價值,損害了版權(quán)人的利益。該要素關(guān)注的是生成式人工智能的輸出而非版權(quán)作品的輸入階段。但是,如果生成式人工智能在輸入階段沒有將作者的版權(quán)作品作為訓(xùn)練數(shù)據(jù),則其在輸出階段通常也不會生成與版權(quán)作品相同或相似的內(nèi)容。因此,侵權(quán)的源頭仍然在輸入階段,不能將輸入階段與輸出階段割裂來看。在該要素下,輸人階段對版權(quán)作品的使用難以構(gòu)成合理使用。

        從國家戰(zhàn)略角度看,生成式人工智能作為國際競爭的又一重要領(lǐng)域。有學(xué)者認為有必要探索合適的方式來減少我國人工智能產(chǎn)業(yè)發(fā)展中的數(shù)據(jù)獲取方面的版權(quán)授權(quán)阻礙,減輕我國人工智能企業(yè)在國際競爭中遭受國內(nèi)法對其版權(quán)合規(guī)束縛[43]。盡管如此,這并不意味著可以為了支持生成式人工智能的發(fā)展而全然不顧其使用版權(quán)作品所可能引發(fā)的侵權(quán)風(fēng)險,或者對現(xiàn)有版權(quán)制度進行顛覆性調(diào)整以順應(yīng)生成式人工智能對版權(quán)作品獲取的需要。生成式人工智能的長遠發(fā)展,離不開妥善處理好版權(quán)作品獲取過程中的版權(quán)爭議。歐盟試圖引入豁免制度,美國司法機關(guān)則嘗試通過法律解釋適用合理使用原則。這些都是在現(xiàn)行版權(quán)法制度框架內(nèi)為生成式人工智能獲取版權(quán)作品所作的努力。這能夠在一定程度上為生成式人工智能服務(wù)提供者使用版權(quán)作品尋找到某種程度的合理依據(jù),但依然在版權(quán)法制度內(nèi)部面臨爭議和質(zhì)疑:生成式人工智能對版權(quán)作品的使用是否構(gòu)成版權(quán)法上的合理使用并沒有共識,直接對生成式人工智能服務(wù)提供者的使用進行豁免也會帶來更大的問題。

        筆者并非否定從版權(quán)法制度內(nèi)部解決生成式人工智能版權(quán)糾紛的可能性,相反,筆者認為這主要是版權(quán)法問題,應(yīng)當(dāng)通過對現(xiàn)行版權(quán)法制度和理論進行調(diào)整和創(chuàng)新而得以解決。應(yīng)當(dāng)注意的是,版權(quán)法并非唯一選擇,其具有局限性。正如有學(xué)者所指出的,雖然版權(quán)原則最初的目的是促進科學(xué)和藝術(shù)的發(fā)展,但隨著版權(quán)制度在新場景和新領(lǐng)域中的擴張,它在很多方面已經(jīng)限制了作品的文化影響以及對作品的保存與獲取[25]。其他法律在其適用的范圍內(nèi),也能夠發(fā)揮獨特的價值。版權(quán)作為一種知識產(chǎn)權(quán),其具有壟斷的本質(zhì),因而版權(quán)也具有構(gòu)成壟斷并被濫用的可能。當(dāng)版權(quán)人及相關(guān)權(quán)利人濫用版權(quán),針對生成式人工智能服務(wù)提供者實施壟斷行為,則落入了反壟斷法的調(diào)整范圍。在這種特定情形下,反壟斷法就能夠成為一種重要的補充,是一種解決生成式人工智能版權(quán)糾紛的制度供給選擇。

        三、訓(xùn)練數(shù)據(jù)獲取的反壟斷路徑

        生成式人工智能訓(xùn)練數(shù)據(jù)獲取過程中,有可能出現(xiàn)版權(quán)人濫用版權(quán)從事壟斷行為的潛在風(fēng)險,亟須展開前瞻性研究。版權(quán)人可能從事三種壟斷行為,即達成壟斷協(xié)議,濫用市場支配地位,實施具有或者可能具有排除、限制競爭效果的經(jīng)營者集中。版權(quán)人單獨或共同實施的壟斷行為,將損害版權(quán)作品許可市場的競爭秩序,不當(dāng)阻礙生成式人工智能服務(wù)提供者依法獲取訓(xùn)練數(shù)據(jù),影響生成式人工智能行業(yè)的發(fā)展。反壟斷法實施機構(gòu)應(yīng)當(dāng)為生成式人工智能服務(wù)提供者依法獲取版權(quán)作品許可提供有效的反壟斷保障。

        具有市場支配地位的版權(quán)人濫用市場支配地位拒絕許可版權(quán)作品是訓(xùn)練數(shù)據(jù)獲取過程中典型的壟斷行為,其他類型的壟斷行為也會直接或間接阻礙生成式人工智能服務(wù)提供者獲取訓(xùn)練數(shù)據(jù)。

        (一)版權(quán)人達成壟斷協(xié)議

        版權(quán)人之間可能達成壟斷協(xié)議以限制生成式人工智能服務(wù)提供者獲取版權(quán)作品。此外,版權(quán)人之間

        還可能就價格、數(shù)量等達成壟斷協(xié)議。壟斷協(xié)議可以是版權(quán)人自行達成的,也可以是在相關(guān)版權(quán)行業(yè)組織的主導(dǎo)下達成的。

        1.聯(lián)合抵制壟斷協(xié)議

        版權(quán)人之間可能達成壟斷協(xié)議聯(lián)合拒絕許可版權(quán)作品,這將致使生成式人工智能服務(wù)提供者無法獲得足夠數(shù)量或優(yōu)質(zhì)的版權(quán)作品,從而影響生成式人工智能的發(fā)展。版權(quán)人數(shù)量眾多且分散,達成壟斷協(xié)議的難度較大。不過,技術(shù)的發(fā)展使其成為可能。例如,某些有影響力的版權(quán)人通過互聯(lián)網(wǎng)發(fā)布倡議,其他版權(quán)人進行附和,能夠在某些具體事項上達成一致。壟斷協(xié)議也可以由行業(yè)協(xié)會組織本行業(yè)內(nèi)的版權(quán)人所達成。

        版權(quán)人之間達成聯(lián)合抵制壟斷協(xié)議,自的在于集體懲戒未滿足版權(quán)人要求的生成式人工智能服務(wù)提供者,或者以此強制要求其同意更有利于版權(quán)人的條款等。由于生成式人工智能對版權(quán)作品的使用具有低密度性,即單個版權(quán)作品對生成式人工智能的價值較小甚至微不足道44,因此,僅靠少數(shù)的版權(quán)人達成聯(lián)合抵制交易,無法對生成式人工智能服務(wù)提供者形成有效威懾。但版權(quán)人數(shù)量不是決定性的,關(guān)鍵看其所掌握的版權(quán)資源的數(shù)量和質(zhì)量。

        2023年7月18日,美國作家協(xié)會向OpenAI等美國知名人工智能公司發(fā)布了一封公開信,超過15000名作者署名支持,要求生成式人工智能企業(yè)在使用版權(quán)作品前獲得版權(quán)人許可,并進行合理補償45。作家協(xié)會代表會員發(fā)聲固然有其正當(dāng)性,但如果超出一定限度,則可能構(gòu)成壟斷協(xié)議。如果作家協(xié)會因生成式人工智能企業(yè)不同意支付過高許可費而拒絕其使用版權(quán)作品,則可能涉嫌構(gòu)成聯(lián)合抵制壟斷協(xié)議。

        2.固定價格壟斷協(xié)議

        作為訓(xùn)練數(shù)據(jù),同類型版權(quán)作品之間具有替代性,存在價格競爭。版權(quán)人之間可能就版權(quán)作品的許可價格展開協(xié)商并達成壟斷協(xié)議,以迫使生成式人工智能服務(wù)提供者支付更高許可費。這消除了版權(quán)人之間的價格競爭,也提高了生成式人工智能服務(wù)提供者的研發(fā)成本。

        在實踐中,相關(guān)版權(quán)協(xié)會組織可能組織版權(quán)人達成固定價格壟斷協(xié)議,譬如在許可談判中代表會員向生成式人工智能服務(wù)提供者提出統(tǒng)一的許可價格,或者在訴訟中提出統(tǒng)一的賠償費用。2024年6月24日,美國唱片業(yè)協(xié)會(RIAA)代表三家大型音樂出版商針對生成式人工智能初創(chuàng)企業(yè)Udio和Suno提起訴訟,RIAA嘗試索取每件音樂作品最高達15萬美元的賠償費用[46]。暫且不論Udio和Suno的使用行為是否構(gòu)成合理使用,僅就RIAA就每件音樂作品提出高達15萬美元的賠償費用而言,就存在構(gòu)成固定音樂作品許可價格的嫌疑。

        3.限定版權(quán)作品數(shù)量壟斷協(xié)議

        版權(quán)法賦予了版權(quán)人對其作品使用方式的廣泛自主權(quán),其可以根據(jù)自己意愿,決定是否許可他人使用其作品,以及許可使用的地域范圍和期間等。《中華人民共和國著作權(quán)法》第二十六條并沒有明確規(guī)定版權(quán)人有權(quán)決定許可數(shù)量,因為該條主要針對的是版權(quán)人單一作品的許可情形。如果版權(quán)人擁有多項作品,則其自然享有許可其中一項或幾項作品的權(quán)利,即有權(quán)決定許可的數(shù)量。但是,如果版權(quán)人之間就許可數(shù)量達成一致,則超出了依法行使版權(quán)的范圍而構(gòu)成版權(quán)濫用。此外,版權(quán)人之間還可能就許可版權(quán)的類型達成協(xié)議,如限定許可優(yōu)質(zhì)版權(quán)作品。

        在生成式人工智能訓(xùn)練數(shù)據(jù)獲取這一背景下,版權(quán)人和生成式人工智能服務(wù)提供者之間不太可能達成縱向壟斷協(xié)議,因為生成式人工智能服務(wù)提供者獲取版權(quán)作品的目的是訓(xùn)練模型,而非向第三人進行轉(zhuǎn)售。

        (二)版權(quán)人濫用市場支配地位

        版權(quán)人行為構(gòu)成濫用市場支配地位的前提是其具有市場支配地位,但在生成式人工智能背景下,這一要件的證明存在困難,因為生成式人工智能所需要的訓(xùn)練數(shù)據(jù)往往是海量的,單一版權(quán)人很難擁有數(shù)量如此之多的版權(quán)作品。即便版權(quán)人所擁有的是數(shù)量較少但質(zhì)量很高的版權(quán)作品,生成式人工智能服務(wù)提供者也很難證明為什么特定版權(quán)人所擁有的版權(quán)作品對其訓(xùn)練模型如此重要以至無法從其他版權(quán)人那里獲取。

        不過,生成式人工智能背景下,版權(quán)人仍可能被證明具有市場支配地位。一方面,相關(guān)市場可能被界定得很狹窄。例如,生成式人工智能服務(wù)可能是個性化的,此時其模型所需要“喂養(yǎng)”的訓(xùn)練數(shù)據(jù)也就會相對狹窄,擁有該領(lǐng)域內(nèi)版權(quán)作品的版權(quán)人很有可能就具有市場支配地位。優(yōu)質(zhì)內(nèi)容版權(quán)數(shù)據(jù)在AI模型研發(fā)及應(yīng)用中的弱替代性,使數(shù)據(jù)優(yōu)勢企業(yè)具有排斥競爭的能力[47。在AI生成音樂領(lǐng)域,擁有優(yōu)質(zhì)音樂資源的市場主體很可能就具有市場支配地位。事實上,在司法實踐中,法院就曾認定中國音像著作權(quán)集體管理協(xié)會具有市場支配地位。另一方面,同一領(lǐng)域內(nèi)的多個版權(quán)人可能共同具有市場支配地位,或者由某些互聯(lián)網(wǎng)平臺或少數(shù)經(jīng)營者所擁有。目前許多互聯(lián)網(wǎng)用戶發(fā)布的內(nèi)容都集中在互聯(lián)網(wǎng)平臺上,很多紙質(zhì)圖書、膠片電影等的數(shù)字化副本也會被為數(shù)不多的數(shù)據(jù)庫服務(wù)商收集起來[48]。在這種情況下,版權(quán)人或相關(guān)經(jīng)營者仍可能被認定具有市場支配地位。

        與生成式人工智能訓(xùn)練數(shù)據(jù)獲取相關(guān)的版權(quán)濫用行為主要為,版權(quán)人濫用市場支配地位拒絕許可、以不公平高價許可版權(quán)以及在許可過程中進行搭售或附加不合理條件。

        1.濫用市場支配地位拒絕許可

        具有市場支配地位的版權(quán)人拒絕向生成式人工智能服務(wù)提供者許可版權(quán)作品,使得生成式人工智能發(fā)展所依賴的海量和優(yōu)質(zhì)數(shù)據(jù)無法被獲取,將直接損害生成式人工智能行業(yè)的發(fā)展。

        其一,拒絕許可行為將導(dǎo)致生成式人工智能服務(wù)提供者無法獲得足夠數(shù)量的版權(quán)作品訓(xùn)練數(shù)據(jù)。在獨家許可商業(yè)模式等因素的推動下,我國數(shù)字音樂、網(wǎng)絡(luò)視頻、學(xué)術(shù)文獻等內(nèi)容行業(yè)版權(quán)資源集中的趨勢日漸凸顯:數(shù)字音樂領(lǐng)域,頭部平臺曲庫和獨家資源的市場占有率超過 80% ;學(xué)術(shù)文獻領(lǐng)域,頭部企業(yè)收錄了 95% 以上的中文學(xué)術(shù)文獻[49。掌握大量版權(quán)作品的數(shù)字內(nèi)容平臺,沒有正當(dāng)理由拒絕進行許可,將阻礙這些領(lǐng)域中生成式人工智能的發(fā)展。版權(quán)人拖延或拒絕許可,將使得人工智能生產(chǎn)內(nèi)容的科學(xué)、可信程度大打折扣,削弱人工智能生產(chǎn)內(nèi)容對于公眾的價值[50]

        其二,拒絕許可行為將使得生成式人工智能服務(wù)提供者無法獲得優(yōu)質(zhì)的版權(quán)作品訓(xùn)練數(shù)據(jù)。優(yōu)質(zhì)的影視作品和音樂作品等,是確保生成式人工智能生成內(nèi)容質(zhì)量的重要保障。就訓(xùn)練數(shù)據(jù)而言,其質(zhì)量至關(guān)重要,低質(zhì)量的數(shù)據(jù)不可避免地存在大量錯誤和噪音,高質(zhì)量的數(shù)據(jù)無論是對大模型自身服務(wù)目標(biāo)還是“智能涌現(xiàn)\"目標(biāo)的實現(xiàn)都具有重要價值51]。以數(shù)字音樂為例,最為核心的音樂曲目大概只有3萬首,卻占據(jù)了 90% 的市場播放份額,音樂平臺之間雖然達成各自 99% 以上獨家音樂的“轉(zhuǎn)授權(quán)”合作,但卻并未對僅占 1% 的核心音樂進行授權(quán)[52]。

        反壟斷法可以要求版權(quán)人向生成式人工智能服務(wù)提供者進行許可,以使其能夠使用版權(quán)作品,這將是版權(quán)例外方式的一種重要補充[38]。當(dāng)版權(quán)作品權(quán)人具有市場支配地位,并且沒有正當(dāng)理由拒絕向生成式人工智能服務(wù)提供者許可版權(quán)時,就可能構(gòu)成濫用市場支配地位。依據(jù)反壟斷法對這種涉嫌濫用市場支配地位拒絕許可的行為進行規(guī)制,是一種可行的方式。受版權(quán)保護的作品的價值只有在其被使用的情況下才能夠得以體現(xiàn)。在數(shù)字化背景下,生成式人工智能的發(fā)展需要獲得大量優(yōu)質(zhì)的版權(quán)作品。法律制度應(yīng)當(dāng)促進版權(quán)作品的許可,以此來推動技術(shù)進步。

        2.濫用市場支配地位以不公平高價進行許可

        具有市場支配地位的版權(quán)人可能提出過高許可報價,這涉嫌構(gòu)成不公平高價濫用行為。版權(quán)人實施不公平高價濫用行為主要有兩方面動機。

        一是單純進行剝削。生成式人工智能服務(wù)提供者所生成的內(nèi)容并不會直接與版權(quán)人的作品展開競爭,版權(quán)人向生成式人工智能服務(wù)提供者收取過高許可費的目的單純就是為了獲得更高的經(jīng)濟利益?!都~約時報》曾主張,OpenAI應(yīng)就其獲取新聞報道的行為支付數(shù)十億美元,這要么會導(dǎo)致后者承擔(dān)極高的許可成本,要么承擔(dān)高額賠償,最終將迫使其放棄使用作品訓(xùn)練模型[35]。在新技術(shù)的利用者尚未取得收益之前就要求他們支付很高的許可費,很可能扼殺新的技術(shù),社會也無法最終從新技術(shù)中獲益[34]。版權(quán)人的行為在客觀上可能具有排除、限制競爭的效果,如版權(quán)人僅向部分生成式人工智能服務(wù)提供者收取過高許可費,這就會不當(dāng)干擾不同生成式人工智能服務(wù)提供者之間的公平競爭,而且也不利于生成式人工智能行業(yè)的整體發(fā)展。

        二是排除、限制競爭。生成式人工智能提供者所生成的內(nèi)容直接與版權(quán)人的作品競爭,并很有可能形成一種強有力的替代,從而嚴重影響版權(quán)人作品的市場價值?;诖?,版權(quán)人會通過向生成式人工智能服務(wù)提供者索取過高的許可費,以期借此提高其成本,使其在與自己的競爭中處于劣勢,從而排除或限制生成式人工智能服務(wù)的競爭。在該情形下,版權(quán)人主觀上就具有強烈的排除、限制競爭的動機。

        在認定版權(quán)人是否構(gòu)成濫用市場支配地位實施不公平高價時,需避免直接認定版權(quán)人所收取的某具體許可費率過高,否則將涉嫌構(gòu)成政府定價或司法定價,而是應(yīng)當(dāng)盡可能采用相對間接的方法來認定其不公平性,如是否存在重復(fù)收費,是否對已過保護期的版權(quán)作品收取許可費等。

        3.濫用市場支配地位搭售或附加不合理條件

        具有市場支配地位的版權(quán)人在向生成式人工智能服務(wù)提供者進行許可時,可能從事搭售或者附加其他不合理條件行為。

        盡管版權(quán)人因其版權(quán)作品而具有市場支配地位,但這并不意味著版權(quán)人的所有版權(quán)作品對于生成式人工智能服務(wù)提供者都有價值。強制被許可人購買對其并無價值的版權(quán)作品,將會增加被許可人的成本,從而影響被許可人的競爭能力。此外,版權(quán)人強制性的一攬子許可政策也可能違背被許可人的意愿,影響其競爭能力。

        在生成式人工智能訓(xùn)練數(shù)據(jù)獲取過程中,版權(quán)人可能附加與生成式人工智能技術(shù)特點相悖的不合理條件。例如,為了獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),生成式人工智能企業(yè)往往需要經(jīng)過清洗、過濾、劃分增強等清理過程將原始數(shù)據(jù)轉(zhuǎn)化為可供模型訓(xùn)練的數(shù)據(jù)[53],如果版權(quán)人對生成式人工智能企業(yè)的這種必要技術(shù)操作進行不合理限定,則可能構(gòu)成附加不合理條件行為。版權(quán)人在進行許可時,應(yīng)當(dāng)尊重符合生成式人工智能發(fā)展規(guī)律的技術(shù)要求。

        (三)版權(quán)人之間進行的集中

        版權(quán)行業(yè)的相關(guān)經(jīng)營主體之間所進行的經(jīng)營者集中,會使得版權(quán)作品集中在少數(shù)經(jīng)營者手中。2021年7月24日,國家市場監(jiān)管總局對騰訊收購中國音樂集團股權(quán)違法實施經(jīng)營者集中進行處罰,集中發(fā)生時,以音樂版權(quán)核心資源占有率計算,騰訊和中國音樂集團的曲庫數(shù)量分別為1210萬、821萬,其中獨家曲庫為314萬、130萬,曲庫和獨家資源的市場占有率均超過 80% 。集中后,音樂版權(quán)市場實現(xiàn)了高度集

        中的狀態(tài)。

        版權(quán)人之間進行的集中并不直接、必然影響生成式人工智能服務(wù)提供者獲取版權(quán)作品。相反,從某種意義上來說,相比于高度分散的海量版權(quán),通過經(jīng)營者集中所形成的相對集中的版權(quán)作品分布狀態(tài),更有利于生成式人工智能服務(wù)提供者與數(shù)量更少的版權(quán)權(quán)利人展開許可談判,降低談判成本。但是,這種集中本身將改變市場競爭結(jié)構(gòu),提高市場集中度,極大地改變生成式人工智能服務(wù)提供者與版權(quán)人之間的力量對比,從而增加生成式人工智能服務(wù)提供者獲取版權(quán)作品的難度。版權(quán)人之間進行的集中也可能形成或增強市場支配地位,從而使得集中后具有市場支配地位的版權(quán)人能夠濫用這種地位從事?lián)p害市場競爭秩序的行為。

        鑒于此,反壟斷執(zhí)法機構(gòu)也應(yīng)當(dāng)對涉及版權(quán)的經(jīng)營者集中保持高度關(guān)注,考慮版權(quán)的集中對于生成式人工智能獲取版權(quán)作品訓(xùn)練數(shù)據(jù)可能產(chǎn)生的影響,附加可以有效解決競爭關(guān)注的限制性條件,如要求合并后的經(jīng)營者以合理條件向生成式人工智能服務(wù)提供者許可其版權(quán)作品等。不過,對版權(quán)人之間集中展開反壟斷也面臨挑戰(zhàn),版權(quán)作品行業(yè)所涉及的營業(yè)額相對較低,可能很難達到經(jīng)營者集中申報標(biāo)準(zhǔn);對未達到申報標(biāo)準(zhǔn)的經(jīng)營者集中,要證明其具有排除、限制競爭效果的難度也更大。

        四、結(jié)語

        在全球產(chǎn)業(yè)競爭背景下,我國應(yīng)當(dāng)大力支持生成式人工智能的發(fā)展,從而在下一代新興技術(shù)競爭中占據(jù)有利地位。生成式人工智能的發(fā)展需要獲取大量的版權(quán)作品以用作訓(xùn)練數(shù)據(jù),傳統(tǒng)版權(quán)法具有解決版權(quán)作品訓(xùn)練數(shù)據(jù)獲取障礙的可能,但也存在局限性。作為一種補充,反壟斷法對解決版權(quán)作品訓(xùn)練數(shù)據(jù)獲取過程中所可能存在的壟斷問題能夠發(fā)揮獨特價值。不過,也應(yīng)當(dāng)堅持利益平衡原則,注重保護版權(quán)人的利益,促使版權(quán)人創(chuàng)作更好、更多的優(yōu)質(zhì)版權(quán)作品,這也是生成式人工智能能夠得到高質(zhì)量發(fā)展的基礎(chǔ)。同時,也應(yīng)當(dāng)注意反壟斷自身具有其局限性。盡管當(dāng)前生成式人工智能尚處于發(fā)展的早期階段,涉及的壟斷問題并未反映出來,但結(jié)合壟斷行為的發(fā)展規(guī)律,對生成式人工智能發(fā)展中訓(xùn)練數(shù)據(jù)獲取可能存在的壟斷問題展開前瞻性研究,進行理論儲備,仍然具有價值。由于實踐中尚未出現(xiàn)版權(quán)人從事壟斷行為的具體案件,因此本文的研究更多的是依據(jù)反壟斷法對版權(quán)人可能從事的壟斷行為展開理論探討,梳理可能的壟斷行為情形。反壟斷執(zhí)法機構(gòu)針對這些壟斷行為開展執(zhí)法,人民法院審理相關(guān)案件,能夠有效解決生成式人工智能服務(wù)提供者因壟斷行為而面臨版權(quán)訓(xùn)練數(shù)據(jù)的獲取障礙。

        參考文獻:

        [1]何煉紅,朱曦青.論人工智能數(shù)據(jù)公共領(lǐng)域深度共享機制的構(gòu)建[J].中南大學(xué)學(xué)報(社會科學(xué)版),2024,30(6): 33-48.

        [2]National Science and Technology Council.National Atrifi-cial Intelligence Research and Development StrategicPlan 2023 Updated[EB/OL]. (2023-05-23) [2024-01-05].https: //www. whitehouse. gov/wp-content/uploads/2023/05/National-Artificial-Intelligence-Research-and-Development-Strategic-Plan-2023-Update. pdf.

        [3]李愛君.訓(xùn)練數(shù)據(jù)主體權(quán)益保護的新型數(shù)據(jù)財產(chǎn)權(quán)構(gòu)建[J].政法論叢,2023(6):73-85.

        [4]李希梁,張欽昱.生成式人工智能的反壟斷規(guī)制[J].電子政務(wù),2024(5):53-63.

        [5]雷昊楠.生成式人工智能的競爭風(fēng)險、監(jiān)管邏輯與反壟斷應(yīng)對[J].中國科技論壇,2024(7):64-74.

        [6]王健,吳宗澤.生成式人工智能反壟斷論綱[J].法治研究,2024(6):130-147.

        [7]張平.人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑[J].法律科學(xué)(西北政法大學(xué)學(xué)報),2024,42(3): 18-31.

        [8]張濤.生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風(fēng)險與包容審慎規(guī)制[J].比較法研究,2024(4):86-103.

        [9]MEZEIP.A Saviour or A dead end?Reservation of rightsin the age of generative AI[J]. European Intellectual Prop-ertyReview,2024,46(7):461-469.

        [10]謝宜璋.生成式人工智能作品訓(xùn)練的版權(quán)爭議與解決[J].中國編輯,2024(11):38-46.

        [11]胡泳,劉純懿.大語言模型\"數(shù)據(jù)為王\":訓(xùn)練數(shù)據(jù)的價值、迷思與數(shù)字傳播的未來挑戰(zhàn)[J].西北師大學(xué)報(社會科學(xué)版),2024,61(3):43-54.

        [12]林秀芹.人工智能時代著作權(quán)合理使用制度的重塑[J].法學(xué)研究,2021,43(6):170-185.

        [13]曾森.生成式人工智能與國家治理信息機制變革:以ChatGPT為例[J].理論月刊,2024(8):82-94.

        [14]孫曉華,車天琪,伊珺瑤,等.人工智能大模型、范式?jīng)_擊與科技創(chuàng)新變革[J/OL].大連理工大學(xué)學(xué)報(社會科學(xué)版),1-13.

        [15]熊琦,陳子懿.美國人工智能模型訓(xùn)練合理使用認定的成案經(jīng)驗研究[J].科技與法律(中英文),2024(6):11-23.

        [16]陳慧敏,朱姿伊,金兼斌.知識生產(chǎn)視域下生成式人工智能信任的復(fù)合框架、作用機制與未來進路[J].中國編輯,2024(12):60-69.

        [17]孫靖洲.人工智能訓(xùn)練的版權(quán)困境及其出路:模塊化許可機制探析[J].知識產(chǎn)權(quán),2024(11):94-111.

        [18] YU P K. The algorithmic divide and Equality in the ageof artificial intelligence[J].Florida Law Review,2020,72:331-389.

        [19]張凌寒.加快建設(shè)人工智能大模型中文訓(xùn)練數(shù)據(jù)語料庫[J].人民論壇·學(xué)術(shù)前沿,2024,(13):57-71.

        [20]郭亞軍,周家華,李天祥,等.以Sora為代表的AI生成視頻大模型對圖書館的影響[J].圖書館論壇,2024,44(11): 110-119.

        [21]張新寶.生成式人工智能訓(xùn)練語料的個人信息保護研究[J].中國法學(xué),2024(6):86-107.

        [22]顧男飛,方舟之.ChatGPT等生成式人工智能使用作品的合理邊界與侵權(quán)規(guī)制[J].數(shù)字圖書館論壇,2023,19(7): 1-8.

        [23]張舒琳,王健宇.生成式人工智能使用作品的著作權(quán)困局與紓解對策[J].出版廣角,2024(20):75-80.

        [24]李安.機器學(xué)習(xí)的版權(quán)規(guī)則:歷史啟示與當(dāng)代方案[J].環(huán)球法律評論,2023,45(6):97-113.

        [25]MANTEGNA M. Artificial:Why copyright is not theright policy tool to deal with generative AI[J]. Yale LawJournal Forum,2024,133: 1126-1174.

        [26]王利明.生成式人工智能侵權(quán)的法律應(yīng)對[J].中國應(yīng)用法學(xué),2023(5):27-38.

        [27] Getty Images Statement[EB/OL]. (2023-01-17)[2024-10-12]. https: //newsroom. gettyimages. com/en/getty-images/getty-images-statement.

        [28]袁真富,夏子軒.機器學(xué)習(xí)中作品利用的著作權(quán)補償金制度研究[J].科技與出版,2024(7):28-36.

        [29]王志文.AIGC大模型數(shù)據(jù)訓(xùn)練版權(quán)規(guī)制的終端轉(zhuǎn)向[J].北京理工大學(xué)學(xué)報(社會科學(xué)版),2024,26(5):64-75.

        [30]焦和平.人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權(quán)風(fēng)險及化解路徑[J].當(dāng)代法學(xué),2022,36(4):128-140.

        [31]張吉豫,汪賽飛.大模型數(shù)據(jù)訓(xùn)練中的著作權(quán)合理使用研究[J].華東政法大學(xué)學(xué)報,2024,27(4):20-33.

        [32]周漢華.論我國人工智能立法的定位[J].現(xiàn)代法學(xué),2024,46(5):17-217.

        [33]袁鋒.人工智能服務(wù)提供者的版權(quán)侵權(quán)責(zé)任研究[J].湖南大學(xué)學(xué)報(社會科學(xué)版),2024,38(6):149-157.

        [24]封旭生成式人「知能在機哭學(xué)習(xí)由的會珊田問題[J].暨南學(xué)報(哲學(xué)社會科學(xué)版),2024,46(3):79-95.

        [35]黃玉燁,楊依楠.論生成式人工智能版權(quán)侵權(quán)“雙階”避風(fēng)港規(guī)則的構(gòu)建[J].知識產(chǎn)權(quán),2024(11):37-58.

        [36] TORRANCE A W, TOMLINSON B. Training is every-thing:Artificial intelligence,copyright,and \"fairtrain-ing\"[J].DickinsonLawReview,2023,128(1):233-256.

        [37] NEILL A, THOMAS J, LEE E. Framework for applyingcopyright law to the training of textual generative artifi-cial intelligence[J].TexasIntellectual PropertyLawJour-nal,2024,32(3): 225-248.

        [38]VESALAJ. Developingatrificial intelligence-based con-tent creation:Are EU copyright and antitrust law fit forpurpose?[J]. International Review of Intellectual Prop-ertyand CompetitionLaw,2023,54(3):351-380.

        [39]吳漢東.人工智能生成作品的著作權(quán)法之問[J].中外法學(xué),2020,32(3): 653-673.

        [40]吳漢東.數(shù)據(jù)信息分析合理性認定的版權(quán)規(guī)則[J].中國版權(quán),2024(3):5-19.

        [41]“AI公司回應(yīng)被美三大唱片公司聯(lián)合起訴:合法使用,未侵權(quán)\"[EB/OL].(2024-08-05)[2024-12-02].https://m.thepaper.cn/newsDetail_forward_28311262.

        [42]錢童心.擔(dān)憂生計被剝奪上萬名藝術(shù)家對AI公司發(fā)起集體訴訟[N].第一財經(jīng)日報,2024-01-23(9).

        [43]陶乾.基礎(chǔ)模型訓(xùn)練的著作權(quán)問題:理論澄清與規(guī)則適用[J].政法論壇,2024,42(5):152-164.

        [44]王文敏.人工智能對著作權(quán)限制與例外規(guī)則的挑戰(zhàn)與應(yīng)對[J/0L].法律適用,2022,(11):152-162.https://knshtbprolcnkihtbprolnet-p.libdb.ucass.edu.cn/kcms/detail/21.1383.C.20240708.1628.002.html.

        [45]More than 15 OOO Authors Sign Authors Guild LetterCalling on AI Industry Leaders to Protect Writers[EB/OL].(2023-07-18)[2024-09-07]. https: //authorsguild.org/news/thousands-sign-authors-guild-letter-calling-on-ai-industry-leaders-to-protect-writers/.

        [46]“AI公司回應(yīng)被美三大唱片公司聯(lián)合起訴:合法使用,未侵權(quán)”[EB/0L]. (2024-08-05)[2024-07-09].https://m.thepaper.cn/newsDetail_forward_28311262.

        [47]曾田.人工智能時代內(nèi)容數(shù)據(jù)集中反壟斷風(fēng)險與公私合作治理[J].中國出版,2024(15):46-52.

        [48]劉禹.機器利用數(shù)據(jù)行為構(gòu)成著作權(quán)合理使用的經(jīng)濟分析[J].知識產(chǎn)權(quán),2024(3):107-126.

        [49]郭玉新,左添熠.版權(quán)濫用規(guī)制中平臺主體責(zé)任的生成及實現(xiàn)[J].中國市場監(jiān)管研究,2023(9):46-51.

        [50]刁佳星,馮曉青.人工智能生成內(nèi)容的著作權(quán)法問題分析框架與紓解方案[J].河北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2024,49(2):137-149.

        [51]姚佳.人工智能的訓(xùn)練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角[J].貴州社會科學(xué),2024(2):51-57.

        [52]謝南希.從數(shù)字音樂獨家版權(quán)案看版權(quán)濫用的規(guī)制路徑[J].電子知識產(chǎn)權(quán),2022(10):26-36.

        [53]王海洋.生成式AI訓(xùn)練數(shù)據(jù)的法律風(fēng)險及其元規(guī)制[J].浙江社會科學(xué),2024(9):50-158.

        Copyright Barriers in Generative AI Training Data Acquisition and the Anti-Monopoly Solution

        Tan Yuan

        (School ofLaw,University of Chinese Academy of Social Sciences,Beijing102488,China)

        Abstract:Thedevelopmentof generativeartificial intelligence requires acquiringalargeamountof copyrighted works to serve as trainingdata,butacquiring copyrighted worksfaces copyrightbarriers.TheEuropean Unionand the United States seek solutions within the copyrightlaw system through the formulation of newrules orlegal interpretations,but there are stillmanylimitations.As an intellctual property,copyright alsohas amonopolistic nature.Copyright holders mayalsoabuse theirrights to excludeorrestrictcompetition,which becomes anobstacle for generative artificial intelligence to obtain copyrighted works.For acts thatconstitute monopolies,regulation underthe Anti-Monopoly law can serve as an important supplement to solve the obstacles in obtaining copyright works outside the Copyright Law. Keywords: generative artificial intelligence; training data; copyright barriers; fair use; anti-monopoly

        猜你喜歡
        服務(wù)提供者許可人工智能
        不確定性環(huán)境下專利開放許可激勵策略演化分析
        采礦許可證到期后繼續(xù)開采行為的刑法定性
        數(shù)據(jù)強制許可制度的構(gòu)建
        美國數(shù)字音樂版權(quán)授權(quán)模式分析
        傳媒(2025年13期)2025-08-03 00:00:00
        美國城市空中交通運行體系研究
        無人機(2025年1期)2025-07-21 00:00:00
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        下一幕,人工智能!
        日韩在线一区二区三区免费视频| 欧美成人一区二区三区在线观看 | 国产成人无码a区在线观看视频| 成人免费一区二区三区| 国产精品无码无片在线观看| 宅男666在线永久免费观看| 国产无遮挡又黄又爽免费网站| 国产麻豆剧传媒精品国产av| 亚洲av久久无码精品九九| 99视频全部免费精品全部四虎| 亚洲av人妖一区二区三区| 国内精品九九久久精品小草| 日本免费a一区二区三区| 自拍偷区亚洲综合第一页| 精品视频在线观看日韩| 国产大屁股喷水视频在线观看| 日本19禁啪啪吃奶大尺度| 人人妻人人澡av天堂香蕉| 2021年最新久久久视精品爱| 热re99久久精品国产66热6| 久久综合老鸭窝色综合久久| 精品国产一区二区三区av| 波多野结衣爽到高潮大喷| 亚洲aⅴ在线无码播放毛片一线天| 国模无码视频专区一区| 亚洲精品中文字幕二区| 国产精品亚洲av一区二区三区| 五月激情在线视频观看| 女人的精水喷出来视频| 男女后进式猛烈xx00动态图片| 日韩h网站| 69搡老女人老妇女老熟妇| 国产一级黄色片一区二区| 日韩有码中文字幕在线观看| 久久久久人妻一区二区三区| 精品少妇爆乳无码av无码专区| 国产免费午夜a无码v视频| 一级无码啪啪| 国产色婷婷久久又粗又爽| 中文字幕一区二区人妻性色| 婷婷成人亚洲|