【摘要】受版權(quán)法保護的文學(xué)、藝術(shù)和科學(xué)作品是生成式人工智能機器學(xué)習(xí)的高質(zhì)量語料資源。為促進生成式人工智能技術(shù)與相關(guān)行業(yè)的發(fā)展,需合理界定生成式人工智能機器學(xué)習(xí)使用作品的版權(quán)保護邊界。無論是人類中心主義的價值內(nèi)核、推動文化創(chuàng)新的立法宗旨,還是作品利益調(diào)整的制度功能,都體現(xiàn)出版權(quán)法內(nèi)在的“表達(dá)性使用”理論預(yù)設(shè)。文章認(rèn)為基于過程視角下使用作品的性質(zhì)、指向與方式,以及結(jié)果視角下使用作品的效果,一般意義上的生成式人工智能機器學(xué)習(xí)對作品的使用是一種區(qū)別于“表達(dá)性使用”的非表達(dá)數(shù)據(jù)性使用,不在版權(quán)法的保護范圍之內(nèi)?!氨磉_(dá)性使用”視角下的生成式人工智能機器學(xué)習(xí)應(yīng)設(shè)置分層分級的版權(quán)規(guī)制路徑,以促進生成式人工智能產(chǎn)業(yè)的發(fā)展。
【關(guān)鍵詞】生成式人工智能 機器學(xué)習(xí) 版權(quán)法 “表達(dá)性使用” 合理使用
【中圖分類號】D923 【文獻標(biāo)識碼】A 【文章編號】1003-6687(2025)2-079-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2025.2.010
兼具高智能性、多功能性、高靈活性與強通用性的生成式人工智能作為人工智能技術(shù)的重要分支,近年來對內(nèi)容產(chǎn)品的生產(chǎn)、傳播和消費底層邏輯產(chǎn)生重大影響,掀起了一場意蘊深刻、影響深遠(yuǎn)的智能創(chuàng)作革命。機器學(xué)習(xí)作為生成式人工智能獲得高階內(nèi)容生成能力的前置環(huán)節(jié),對于生成式人工智能的升級迭代以及人類文化的發(fā)展繁榮具有重要意義。
面對生成式人工智能機器學(xué)習(xí)引發(fā)的版權(quán)爭議,國外學(xué)者陸續(xù)提出了“非表達(dá)性使用”[1]“非展示性使用”[2]以及“非作品性使用”[3](87)等概念,證成生成式人工智能機器學(xué)習(xí)對作品的使用是一種轉(zhuǎn)換性使用。當(dāng)前,國內(nèi)學(xué)者對生成式人工智能機器學(xué)習(xí)的版權(quán)法律規(guī)制模式大致可歸納為兩大類型:第一類是采取“先進后出”的版權(quán)侵權(quán)例外方案,認(rèn)為生成式人工智能機器學(xué)習(xí)對作品的使用落入版權(quán)法的規(guī)制范疇,但出于技術(shù)發(fā)展、產(chǎn)業(yè)激勵和國際競爭等政策考量將其規(guī)定為版權(quán)侵權(quán)的例外情形;[4]第二類是采取“不予進入”的版權(quán)除外保護路徑,認(rèn)為生成式人工智能機器學(xué)習(xí)并非版權(quán)法下的“表達(dá)性使用”,而是一種對作品的非表達(dá)數(shù)據(jù)性使用,未落入版權(quán)法的規(guī)制范疇,故不存在后續(xù)的侵權(quán)可能以及侵權(quán)豁免的必要。[5]
追溯版權(quán)法下作品使用方式的嬗變,可以發(fā)現(xiàn)“表達(dá)性使用”這一本就內(nèi)嵌于版權(quán)基本法理中的概念能夠為生成式人工智能機器學(xué)習(xí)的版權(quán)法律規(guī)制提供分析視角。本文以國內(nèi)學(xué)者關(guān)注不足的“表達(dá)性使用”為視角,厘定生成式人工智能機器學(xué)習(xí)的作品使用屬性,建立分層分級的生成式人工智能機器學(xué)習(xí)版權(quán)法律規(guī)制模式,以促進生成式人工智能技術(shù)與產(chǎn)業(yè)的發(fā)展。
一、版權(quán)法下的“表達(dá)性使用”
依循“行為規(guī)制權(quán)利化”的設(shè)權(quán)路徑,版權(quán)法完成了權(quán)利體系的搭建與設(shè)定。在版權(quán)法的權(quán)利框架下,各具體權(quán)利類型所對應(yīng)的作品使用行為都存在一個基本的理論預(yù)設(shè)——版權(quán)法語境下的作品使用行為一定是建立在對作品的“表達(dá)性使用”基礎(chǔ)上的,對作品的“非表達(dá)性使用”不屬于版權(quán)法的規(guī)制范疇。
1.“表達(dá)性使用”的歷史溯源
“表達(dá)性使用”與數(shù)字技術(shù)環(huán)境下的復(fù)制行為息息相關(guān)。數(shù)字復(fù)制技術(shù)的出現(xiàn)使得區(qū)別于傳統(tǒng)意義上為獲取、欣賞和消費作品本身的非表達(dá)性復(fù)制成為可能。對作品的使用行為構(gòu)成“表達(dá)性使用”或“非表達(dá)性使用”,且基于“表達(dá)性使用”分析判定是否構(gòu)成合理使用的司法邏輯經(jīng)由一系列典型案件得以確認(rèn)。
1992年美國第九巡回法院對“Sega v. Accolade”案①的判決是對“表達(dá)性使用”概念最早的司法承認(rèn)之一。法院經(jīng)審理后認(rèn)為,一方面,Accolade公司出于非表達(dá)目的對Sega公司功能代碼的復(fù)制是一種未納入版權(quán)保護范圍的“中間復(fù)制”;另一方面,Accolade公司復(fù)制的Sega公司的代碼是不受版權(quán)法保護的功能性代碼,故不構(gòu)成版權(quán)侵權(quán)。2003年的“Kelly v. Arriba案”②和2007年的“Perfect 10 v. Amazon案”③標(biāo)志著“表達(dá)性使用”概念在美國版權(quán)司法領(lǐng)域的進一步發(fā)展。法院經(jīng)審理后認(rèn)為,區(qū)別于“表達(dá)性使用”,Arriba的縮略圖與Amazon的圖片檢索僅是對原作品的一種非表達(dá)性工具使用,構(gòu)成“幫助索引和改善圖像訪問的工具”的一部分,而非版權(quán)法意義上的審美對象,故不構(gòu)成版權(quán)侵權(quán)。緊接著,“Author's Guild v. Google案”④堪稱“表達(dá)性使用”概念在美國版權(quán)司法實踐中運用的一個高潮。2005年9月,美國作家協(xié)會聯(lián)合五家出版社共同起訴谷歌,稱其未經(jīng)許可使用作品,侵犯其版權(quán)。2008年10月,雙方達(dá)成和解,約定作者將只能與谷歌就其作品的“表達(dá)性使用”達(dá)成合同,并明確“非表達(dá)性使用”的內(nèi)涵是指“未向公眾展示書籍或插頁的數(shù)字副本中的表達(dá)內(nèi)容的使用”,外延包括但不限于“展示書目信息、不展示表達(dá)內(nèi)容的全文索引、書籍的地理索引、書籍章節(jié)的關(guān)鍵術(shù)語算法列表以及使用數(shù)字副本進行內(nèi)部研究和開發(fā)”。
幾乎與司法實踐同步,學(xué)者們對“表達(dá)性使用”與“非表達(dá)性使用”概念的認(rèn)識與爭論也在持續(xù)推進。毛里齊奧·博爾吉(Borghi)和斯塔夫羅拉·卡拉帕帕(Karapapa)認(rèn)為“非表達(dá)性使用”指“在不向公眾展示數(shù)字副本的作品表達(dá)的情況下進行的活動”。[2]馬修·塞格(Sag)認(rèn)為“非表達(dá)性使用”指“任何非意圖使人類享受、欣賞或理解所復(fù)制表達(dá)方式作為表達(dá)的再現(xiàn)的復(fù)制行為”。[6]亞伯拉罕·德拉西諾爾(Drassinower)則表示作品本質(zhì)上是一種人類交流行為,任何僅限于技術(shù)性的或者非交流性的作品使用都不是表達(dá)性使用。[3](88)與上述觀點有較大區(qū)別,本杰明·索貝爾(Sobel)認(rèn)為“表達(dá)性使用”是“為實現(xiàn)表達(dá)目的而對作品的表達(dá)進行使用的行為”。[7]國內(nèi)也有學(xué)者對這一組互補概念進行了研究。如焦和平表示,“非表達(dá)性使用是將原作品作為一種事實性信息進行功能性利用,在使用結(jié)果上也未再現(xiàn)原作品的藝術(shù)價值”;[8]劉曉春雖未直接使用“表達(dá)性使用”或“非表達(dá)性使用”的表述,但提出與其具有內(nèi)在一致性的“非作品性使用”概念,并以此證成生成式人工智能數(shù)據(jù)訓(xùn)練不受版權(quán)法規(guī)制。[5]
2.“表達(dá)性使用”的理論闡釋
版權(quán)法語境下“表達(dá)性使用”的理論分歧主要集中在兩個方面:一是指向?qū)ο鬆幾h——“表達(dá)性使用”是否僅限定于面向人類的作品傳播,不包括面向機器的作品傳播?二是評判標(biāo)準(zhǔn)爭議——“表達(dá)性使用”的評判標(biāo)準(zhǔn)應(yīng)采用基于行為主義的過程性立場,還是采用基于結(jié)果主義的終局性立場?
第一,人類中心主義的版權(quán)法價值內(nèi)核從底層上主導(dǎo)并決定了版權(quán)法的“表達(dá)性使用”理論預(yù)設(shè)。一切法律皆為人法。人類是版權(quán)法意義探尋與制度建構(gòu)的邏輯起點?!氨磉_(dá)性使用”視角下對人類使用作品行為的嚴(yán)格審查實際上構(gòu)成人類中心主義在版權(quán)法領(lǐng)域的具體體現(xiàn)?!胺傻母緦傩允钦{(diào)整人們相互關(guān)系中合乎人性的行為準(zhǔn)則?!盵9]版權(quán)法亦不例外?!叭祟惖膭?chuàng)作最終關(guān)乎人類的讀者群體。”[10]只有人類才能進行版權(quán)法意義上的作品創(chuàng)作、傳播與欣賞,也即只有人類才能對作品進行表達(dá)性意義上的使用。簡言之,版權(quán)法語境下作品表達(dá)的唯一價值和目的就是供人類讀者欣賞與消費。
第二,激勵文化創(chuàng)新的版權(quán)法規(guī)范意旨從根本上彰顯并體現(xiàn)了版權(quán)法“表達(dá)性使用”的內(nèi)在邏輯。如果說專利法的作用方式是將投資導(dǎo)向卓有成效的表達(dá),那么版權(quán)法的作用方式就是將投資導(dǎo)向豐富多樣的表達(dá)。[11]版權(quán)法的制度價值在于通過向作者保障其作品中表現(xiàn)價值的權(quán)利,促進人類表達(dá)的創(chuàng)作和傳播,進而推動文化繁榮?!叭祟悇?chuàng)作的價值在于當(dāng)它被其他人消費、欣賞和轉(zhuǎn)化時得以進一步發(fā)展。這種創(chuàng)作和參與的循環(huán)正是法律笨拙地試圖保護和傳播的?!盵7]單純作品的傳播與欣賞可能并不足以推動文化的發(fā)展,文化的發(fā)展還包括對作品創(chuàng)作的有意義參與。較靜態(tài)固定的解析視角,基于作者與讀者并依托作品進行的動態(tài)循環(huán)剖析進路,能夠更好地闡釋版權(quán)法激勵文化創(chuàng)新繁榮的立法宗旨。版權(quán)法不僅關(guān)注作者的原創(chuàng)性表達(dá)向公眾傳播的過程,還關(guān)注公眾獲取和欣賞來自作者原創(chuàng)性表達(dá)的過程。[12]與其將作品看作一種孤立的“財產(chǎn)對象”,不如將作品視為一種交互的“溝通行為”,這不僅符合版權(quán)法所保護的作品向公眾傳達(dá)信息的特定方式,也更契合版權(quán)法激勵文化產(chǎn)業(yè)繁榮發(fā)展的規(guī)范意旨。
第三,作品利益調(diào)整的版權(quán)法制度功能從本質(zhì)上反映并踐行了版權(quán)法的“表達(dá)性使用”理路前設(shè)。一方面,思想與表達(dá)二分法作為版權(quán)法體系中最基本的原則之一,揭示了“表達(dá)性使用”的基本內(nèi)涵。版權(quán)法保護高于抽象思想的具象表達(dá)。由此可推斷出版權(quán)法保護對作品表達(dá)部分的使用,而非對作品非表達(dá)部分的使用。另一方面,版權(quán)法中的財產(chǎn)性權(quán)利可以劃分為復(fù)制權(quán)、演繹權(quán)與傳播權(quán)三大類型。復(fù)制權(quán)和演繹權(quán)在本質(zhì)上又都以傳播權(quán)為歸宿。版權(quán)法賦予作者的專有性權(quán)利立足于向公眾傳播原創(chuàng)表達(dá)這一核心基礎(chǔ)上。版權(quán)法自誕生以來就是通過賦予作者基于對作品市場傳播和流通的控制而獲取經(jīng)濟利益的權(quán)利,激勵創(chuàng)作進而促進文化發(fā)展的。基于表達(dá)的復(fù)制和演繹,以表達(dá)的傳播為歸宿和以經(jīng)濟對價交換作品表達(dá)的版權(quán)法利益調(diào)整模式,決定了版權(quán)法下的“表達(dá)性使用”所采納的結(jié)果主義基本立場。
綜上,基于面向人類之指向?qū)ο笈c聚焦結(jié)果之評判標(biāo)準(zhǔn),版權(quán)法語境下作品的“表達(dá)性使用”應(yīng)定義為:任何通過向公眾傳播作品的表達(dá),使得公眾得以感知、閱讀和欣賞作品表達(dá)的作品使用行為。
3.“表達(dá)性使用”的判定機制
在明確“表達(dá)性使用”的定義后,還應(yīng)對“表達(dá)性使用”的認(rèn)識更進一步,也即明確“表達(dá)性使用”的判定機制。
(1)基于過程視角的“表達(dá)性使用”判定外部過濾機制。過程視角下使用作品的性質(zhì)、指向與方式將直接影響結(jié)果視角下使用作品的效果。因此,基于過程視角的使用作品行為辨析能夠為“表達(dá)性使用”的判定提供初步性的參考和指引。版權(quán)法語境下人們對于作品的使用,無論呈現(xiàn)為何種具體形態(tài),終究要回歸到人類對作品表達(dá)的感知、閱讀和欣賞之上。而上述限定條件下的作品使用行為可歸結(jié)為以下三個特點。
第一,使用作品的性質(zhì)是對作品表達(dá)的再現(xiàn)。通過閱讀文字作品等文學(xué)作品,讀者探析了作者豐富多彩的內(nèi)心世界,獲得了深入淺出的閱讀感受;通過品鑒美術(shù)作品、視聽作品等藝術(shù)作品,觀眾領(lǐng)略了作者洶涌澎湃的創(chuàng)作熱情,收獲了觸及靈魂的審美體驗;憑借欣賞建筑作品、圖形作品等科學(xué)作品,觀客感知了作者謹(jǐn)慎嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,得到了求真務(wù)實的精神沖擊。只有對作品的表達(dá)予以再現(xiàn),人們才有對作品的表達(dá)進行感知、品鑒和欣賞之可能。
第二,使用作品的指向是對特定作品的表達(dá)。使用者往往通過對特定作品進行理解、品鑒和內(nèi)化,獲得獨一無二的閱讀感受與審美體驗。當(dāng)然,此處的特定并不意味著數(shù)量上的唯一,而是指向一定時空維度下具體的、數(shù)量相對確定的作品。
第三,使用作品的方式是對作品表達(dá)的結(jié)果性再現(xiàn)。藝術(shù)創(chuàng)作過程是研究者難以觀察,藝術(shù)家難以自省的,只有作為藝術(shù)創(chuàng)作結(jié)晶的藝術(shù)作品才能再現(xiàn)于人前。[13]相比創(chuàng)作過程的轉(zhuǎn)瞬即逝和難以捉摸,作品作為兼具可靠性和閉合性的財產(chǎn)對象,本身即蘊含著深刻的結(jié)果屬性。[14]這也決定了版權(quán)法語境下對作品的使用大多是對作品表達(dá)的結(jié)果性再現(xiàn)。只有基于對特定作品表達(dá)的結(jié)果性再現(xiàn),使用者才可動用自己的感受與感情去觀察、體驗和掌握作品的精神內(nèi)涵,進而完成藝術(shù)積累的過程。
(2)基于結(jié)果視角的“表達(dá)性使用”判定內(nèi)部揀擇機制。結(jié)果視角下使用作品的效果指向使用者對作品的使用是否構(gòu)成版權(quán)法意義上的市場替代?;诮Y(jié)果視角的使用作品效果衡量能夠為“表達(dá)性使用”的判定提供決定性的意見與結(jié)論。
在剖析結(jié)果視角下“表達(dá)性使用”判定的內(nèi)部揀擇機制時,使用作品的效果研判應(yīng)限定在版權(quán)法語境之內(nèi)。新興技術(shù)的發(fā)展可能催生新型內(nèi)容產(chǎn)品的創(chuàng)作模式以及與之對應(yīng)的作品類型,進而對在先以相同表現(xiàn)形式或構(gòu)成要素呈現(xiàn)的作品市場形成一定程度的替代。但這種替代與其說是一種版權(quán)法意義上的市場替代,不如說是一種技術(shù)演進視角下不同類型作品市場競爭的必然結(jié)果。[15]在攝影技術(shù)誕生之前,以線條、圖像和色彩為核心要素的美術(shù)作品、建筑作品等,作為主流的視覺藝術(shù)作品類型因其獨有的直觀性大受推崇。但在攝影技術(shù)誕生之后,攝影作品的技術(shù)性、真實性和信息性使得同屬視覺藝術(shù)類型的美術(shù)作品、建筑作品等受到相當(dāng)程度的沖擊。將攝影作品對美術(shù)作品的替代稱作一種“整體激勵的結(jié)構(gòu)性調(diào)整”,而非一種版權(quán)法語境下的圍繞作品表達(dá)市場的替代較為適宜。[5]因此,基于結(jié)果視角的“表達(dá)性使用”判定之內(nèi)部揀擇機制應(yīng)關(guān)注狹義版權(quán)法語境下的使用作品的效果,而非寬泛意義上的作品市場替代。
(3)基于過程視角的外部過濾機制與基于結(jié)果視角的內(nèi)部揀擇機制的關(guān)系。在建立“表達(dá)性使用”的判定機制時,應(yīng)關(guān)注使用作品的效果與使用作品的行為之內(nèi)外協(xié)同關(guān)系。版權(quán)法的侵權(quán)判定以使用者對作品的“表達(dá)性使用”為前提。然而,無論是版權(quán)法的理論推演,抑或版權(quán)法的司法實踐,均將相當(dāng)一部分未經(jīng)權(quán)利許可,符合“表達(dá)性使用”判定外部過濾機制的作品使用行為,經(jīng)由合理使用等制度從版權(quán)侵權(quán)情形中予以剔除。如相比“Campbell v. Acuff-Rose Music案”①中2 Live Crew樂團對案涉作品所進行的戲仿類“拆分重組型轉(zhuǎn)換性使用”,評論和介紹等作品使用方式將不可避免地導(dǎo)致原作品表達(dá)向公眾再現(xiàn)。盡管評論和介紹等作品使用方式再現(xiàn)了原作品表達(dá),但美國法院仍將其判定為合理使用。究其原因,“使用作品的目的和性質(zhì)”盡管對合理使用判定意義重大,但并不構(gòu)成合理使用的充分條件。美國版權(quán)法合理使用四要素分析法中的四個要素并非平行并列,而是存在內(nèi)在的邏輯關(guān)聯(lián)。合理使用四要素判定的核心實際在于第四要素,即市場效果要素的分析,②前三個因素可稱為第四個因素的前置或輔助判定要素。評論和介紹等作品使用方式盡管再現(xiàn)了作品的表達(dá),但未造成對原作品表達(dá)版權(quán)法意義上的市場替代,反而有利于原作品表達(dá)的進一步傳播,構(gòu)成擴展原作品版權(quán)市場的輔助因素。與之類似,在“Author's Guild v. Google案”③中,以索引和搜索為目的的作品使用類型盡管亦符合“表達(dá)性使用”判定之外部過濾機制,但其沒有替代原作品的版權(quán)市場,反而擴大了原作品的版權(quán)市場,增強和促進了原作品表達(dá)的傳播。
總而言之,基于過程視角的使用作品的行為分析與基于結(jié)果視角的使用作品的效果分析應(yīng)相輔相成、互為依靠,共同統(tǒng)一于“表達(dá)性使用”的判定機制中,分別承擔(dān)起外部過濾和內(nèi)部揀擇的差異化制度功能。過程視角下的使用作品行為考察應(yīng)作為表達(dá)性使用判定輔助性與前置性的外部過濾機制;同時,結(jié)果視角下的使用作品效果衡量應(yīng)作為表達(dá)性使用判定決定性與終局性的內(nèi)部揀擇機制。
二、“表達(dá)性使用”視角下的生成式人工智能機器學(xué)習(xí)
生成式人工智能機器學(xué)習(xí)的版權(quán)法律定性已日益發(fā)展成為人工智能時代版權(quán)法必須直面的關(guān)鍵之問。內(nèi)嵌于版權(quán)法基本原理與諸底層概念中的“表達(dá)性使用”概念能夠為生成式人工智能機器學(xué)習(xí)的版權(quán)法律厘定提供科學(xué)明晰的分析視角。以下基于“表達(dá)性使用”的內(nèi)涵與判定機制,解析生成式人工智能機器學(xué)習(xí)使用作品的版權(quán)保護邊界。
1. 基于“表達(dá)性使用”外部過濾機制的生成式人工智能機器學(xué)習(xí)分析
機器學(xué)習(xí)可被定義為人工智能“通過對自我經(jīng)驗的勤奮學(xué)習(xí)而改進其行為”的過程。[16]以文本類Transformer模型、圖像類Diffusion模型和視頻類Sora模型為代表的主流生成式人工智能大模型,都屬于深度學(xué)習(xí)模型。區(qū)別于傳統(tǒng)的人工智能訓(xùn)練方式,深度學(xué)習(xí)模型大多會經(jīng)歷一個預(yù)訓(xùn)練過程,即將神經(jīng)網(wǎng)絡(luò)的權(quán)值調(diào)整到接近最優(yōu)解的程度,再經(jīng)由“微調(diào)”實現(xiàn)進一步的優(yōu)化。[17]
首先,機器學(xué)習(xí)使用作品的性質(zhì)具有附隨性而非再現(xiàn)性。生成式人工智能機器學(xué)習(xí)使用作品的行為無法逃離算法黑箱陷阱。算法黑箱效應(yīng)下,生成式人工智能機器學(xué)習(xí)以對作品使用的非再現(xiàn)性為普遍情形,即采取了一種將作品對應(yīng)的數(shù)據(jù)分解再重組的形式。[18]具體而言,上述形式包括作品對應(yīng)數(shù)據(jù)的預(yù)處理與增強、特征分解與組合、數(shù)據(jù)塊的隨機化處理、數(shù)據(jù)去相關(guān)化以及隨機采樣與重構(gòu)等步驟。依靠從輸入數(shù)據(jù)中領(lǐng)悟和理解的細(xì)微關(guān)系、模式與邏輯,結(jié)合用戶發(fā)出的任務(wù)指令,生成式人工智能通過增強、遷移和重組既有要素,生成并輸出了多樣化和創(chuàng)新性的內(nèi)容。當(dāng)然,實踐中并不乏因模型優(yōu)化不足、同類作品數(shù)量畸高、模型參數(shù)數(shù)量與訓(xùn)練數(shù)據(jù)比例失衡等原因?qū)е碌摹坝洃浽髌芳?xì)節(jié)而非學(xué)習(xí)其抽象特征”型機器學(xué)習(xí)。[5]該情形下的生成式人工智能機器學(xué)習(xí)顯然會導(dǎo)致原作品的表達(dá)向公眾的原樣呈現(xiàn),構(gòu)成版權(quán)法意義上的“表達(dá)性使用”。
其次,機器學(xué)習(xí)使用作品的指向具有海量性而非特定性。生成式人工智能機器學(xué)習(xí)過程中對高質(zhì)量數(shù)據(jù)的海量性與非特定性具有極高的依賴性。數(shù)據(jù)的海量性與非特定性構(gòu)成生成式人工智能形成高質(zhì)量與多樣化內(nèi)容輸出能力的關(guān)鍵。一方面,海量數(shù)據(jù)能夠為生成式人工智能依托的基礎(chǔ)大模型提供豐富的學(xué)習(xí)素材,使其能夠從中捕捉復(fù)雜的模式和結(jié)構(gòu),習(xí)得成熟的規(guī)律和程式,進而做出智能的識別和預(yù)測。另一方面,訓(xùn)練數(shù)據(jù)的來源廣泛性、領(lǐng)域多樣性、形式差異性和風(fēng)格多元化,增強了生成式人工智能的多場景通用性。以圖像生成模型為例,非特定性的數(shù)據(jù)來源包括不同的藝術(shù)風(fēng)格、攝影圖像、手繪插畫等,使得模型能夠生成各種風(fēng)格和主題的圖像。此外,機器學(xué)習(xí)使用作品數(shù)據(jù)的海量性和非特定性還促進了模型在顯著缺陷和極端情況中的表現(xiàn),使得生成式人工智能能夠在生成新的內(nèi)容時避免常見的價值偏差和認(rèn)知局限。
最后,機器學(xué)習(xí)使用作品的方式具有中間性而非結(jié)果性。生成式人工智能依托的基礎(chǔ)模型往往通過將輸入作品對應(yīng)的數(shù)據(jù)分解為基礎(chǔ)特征,再重新組合這些特征以生成新的、獨特的作品,而不是直接復(fù)制已有作品的數(shù)據(jù)并予以再現(xiàn)。生成式人工智能運行的過程可概括為以下三個階段:一是模型從輸入的訓(xùn)練數(shù)據(jù)中提取關(guān)鍵特征,并將這些特征轉(zhuǎn)換為可捕捉到核心特征的高維向量;二是模型在潛在空間中對上述高維向量進行插值、噪聲添加等操作,創(chuàng)造出新的特征組合;三是生成式人工智能將不同來源的多模態(tài)數(shù)據(jù)融合在一起,通過跨模態(tài)特征的組合生成并輸出新的內(nèi)容產(chǎn)品。這一輸出結(jié)果盡管具備原作品數(shù)據(jù)的部分表層特征,但構(gòu)成基于對原作品中間過程性使用的一個新的內(nèi)容產(chǎn)品,而非對作品的結(jié)果性再現(xiàn)。
綜上,基于使用作品性質(zhì)之非再現(xiàn)性、使用作品指向的非特定性以及使用作品方式的非結(jié)果性,生成式人工智能機器學(xué)習(xí)不符合“表達(dá)性使用”之外部過濾機制,下文以“表達(dá)性使用”內(nèi)部揀擇機制為依據(jù)進一步分析其版權(quán)法定性。
2. 基于“表達(dá)性使用”內(nèi)部揀擇機制的生成式人工智能機器學(xué)習(xí)分析
迅猛發(fā)展的生成式人工智能在文本、圖片、音頻和視頻等多模態(tài)內(nèi)容生成領(lǐng)域大放異彩,逐漸發(fā)展成為內(nèi)容產(chǎn)品生產(chǎn)領(lǐng)域具有基礎(chǔ)性定位的創(chuàng)作輔助工具。經(jīng)過海量數(shù)據(jù)淘洗及深度學(xué)習(xí)過程的生成式人工智能在與人類的交互協(xié)同作用下能夠創(chuàng)造出形式精美、意蘊豐富且思想深刻的具有人類作品外觀和信息功能的人工智能生成內(nèi)容,進而深度介入傳媒、電商、影視與娛樂等數(shù)字化程度高、迭代速度快、內(nèi)容需求多的行業(yè)領(lǐng)域,提升在內(nèi)容產(chǎn)品市場的占比。
盡管人工智能生成內(nèi)容的蓬勃涌現(xiàn)對傳統(tǒng)技術(shù)環(huán)境下人類創(chuàng)作作品的版權(quán)市場形成了一定的搶占與擠壓,但這種搶占和擠壓并不局限于生成式人工智能對人類作者的替代的單一情形中。技術(shù)演進視角下,歷史上每一次突破性的技術(shù)革新和迭代都必然意味著對既有技術(shù)占據(jù)市場的沖擊和替代。人工智能生成內(nèi)容對人類創(chuàng)作作品的市場替代,與其將其看作限定在版權(quán)法語境下的市場替代,不如視其為一種技術(shù)變遷引發(fā)內(nèi)容產(chǎn)品經(jīng)濟結(jié)構(gòu)演化背景下的正常市場競爭結(jié)果。這一表現(xiàn)與印刷技術(shù)誕生后對手工謄錄的替代、攝影技術(shù)出現(xiàn)后對繪畫的沖擊如出一轍,并非版權(quán)法所關(guān)注和評價的狹義市場替代情形。立足版權(quán)交易市場的宏觀視角,可以預(yù)見:伴隨生成式人工智能引發(fā)的內(nèi)容生產(chǎn)模式變革,內(nèi)容產(chǎn)品市場的自我調(diào)節(jié)機制將逐步生效。具體表現(xiàn)為圍繞生成式人工智能的內(nèi)容產(chǎn)品領(lǐng)域新質(zhì)生產(chǎn)力將逐步摸索形成,生成式人工智能驅(qū)動的新型生產(chǎn)模式和激勵結(jié)構(gòu)亦將逐漸整合成型。而上述系統(tǒng)性市場替代無須經(jīng)由版權(quán)法予以專門評價。
綜上,無論是基于“表達(dá)性使用”的外部過濾機制,還是內(nèi)部揀擇機制,一般意義上的生成式人工智能機器學(xué)習(xí)不符合版權(quán)法下“表達(dá)性使用”的構(gòu)成要件,因而不會落入版權(quán)法的規(guī)制范疇;特定情形下的生成式人工智能機器學(xué)習(xí)盡管仍不符合“表達(dá)性使用”的外部過濾機制,但在結(jié)果上以原樣或?qū)嵸|(zhì)性相似形式呈現(xiàn)了原作品的表達(dá),符合具有決定性作用的“表達(dá)性使用”判定的內(nèi)部揀擇機制,落入版權(quán)法的規(guī)制范疇,未經(jīng)權(quán)利人許可可能構(gòu)成版權(quán)侵權(quán)。
三、基于“表達(dá)性使用”的生成式人工智能機器學(xué)習(xí)版權(quán)規(guī)制層級構(gòu)造
生成式人工智能機器學(xué)習(xí)的版權(quán)規(guī)制模式并非只有合理使用這一種制度選擇?!氨磉_(dá)性使用”視角下,生成式人工智能機器學(xué)習(xí)的方式和形態(tài)各有不同,應(yīng)結(jié)合機器學(xué)習(xí)時對作品使用的具體情形進行具體分析,而不是“一刀切”式地將機器學(xué)習(xí)歸入合理使用情形中予以侵權(quán)豁免。“表達(dá)性使用”分析是判定行為人對作品的使用是否落入版權(quán)法規(guī)制范疇的前置問題。探究生成式人工智能機器學(xué)習(xí)版權(quán)法律規(guī)制模式,應(yīng)率先明確版權(quán)法語境下機器學(xué)習(xí)的性質(zhì),再考慮具體的方案構(gòu)建。一般情形下的生成式人工智能機器學(xué)習(xí)是一種“非表達(dá)性使用”,不落入版權(quán)法的規(guī)制范疇,不構(gòu)成版權(quán)侵權(quán);特殊情形下的生成式人工智能機器學(xué)習(xí)是一種“表達(dá)性使用”,可能構(gòu)成版權(quán)侵權(quán),應(yīng)承擔(dān)侵權(quán)責(zé)任;以從事非營利性活動為目的的科研機構(gòu)和企業(yè)進行的機器學(xué)習(xí)即使是“表達(dá)性使用”,也可能構(gòu)成版權(quán)侵權(quán),但出于公共利益考量應(yīng)通過合理使用制度給予特別豁免(見圖1)。
1.“非表達(dá)性使用型”機器學(xué)習(xí):不落入版權(quán)法規(guī)制范疇,不構(gòu)成版權(quán)侵權(quán)
“非表達(dá)性使用型”機器學(xué)習(xí)指未向公眾傳播和再現(xiàn)原作品表達(dá)的機器學(xué)習(xí),主要包括以下兩種類型。
一是一般意義上的生成式人工智能機器學(xué)習(xí)。一方面,機器學(xué)習(xí)的技術(shù)機理意味著其使用作品的性質(zhì)具有附隨性而非再現(xiàn)性、使用作品的指向具有海量性而非特定性,且使用作品的方式具有中間性而非結(jié)果性,也即機器學(xué)習(xí)使用作品的行為不符合“表達(dá)性使用”的外部過濾機制;另一方面,機器學(xué)習(xí)使用作品的效果盡管具有替代性,但并非版權(quán)法意義上對原作品版權(quán)市場的替代,亦不符合“表達(dá)性使用”的內(nèi)部揀擇機制。因此,一般意義上的生成式人工智能機器學(xué)習(xí)不構(gòu)成“表達(dá)性使用”,不構(gòu)成版權(quán)侵權(quán),亦無予以侵權(quán)豁免之必要。一般意義上的生成式人工智能機器學(xué)習(xí)是人工智能機器學(xué)習(xí)中最普遍、最廣泛、最基礎(chǔ)的機器學(xué)習(xí)形態(tài),經(jīng)由“表達(dá)性使用”理論將其排除出版權(quán)法的規(guī)制范疇,既能規(guī)避流程煩瑣、數(shù)量龐大且意愿不明的作品許可程序,還能大幅減少生成式人工智能研發(fā)企業(yè)的機器學(xué)習(xí)階段的經(jīng)濟負(fù)擔(dān)和版權(quán)侵權(quán)風(fēng)險,推動生成式人工智能技術(shù)與相關(guān)行業(yè)的蓬勃發(fā)展。
二是使用作品非表達(dá)性部分的生成式人工智能機器學(xué)習(xí)。作品非表達(dá)性部分,往往表現(xiàn)為作品的事實性部分如歷史事實、功能性部分如功能代碼,以及生物性部分如人臉、人聲等形式。符合版權(quán)法關(guān)于作品構(gòu)成要件的對象可以稱為版權(quán)法的客體,受版權(quán)法保護。但作品受版權(quán)法保護并不意味著版權(quán)法的保護范圍覆蓋到作品的每一處角落。思想與表達(dá)二分法作為國際通行的版權(quán)法基本原理,充分詮釋了版權(quán)法對作品的保護并非面面俱到,而是有所限定的,并非所有機器學(xué)習(xí)對作品的使用都面向受版權(quán)法保護的獨創(chuàng)性表達(dá)部分。如能夠用于撰寫傳記類、菜譜類作品的生成式人工智能在機器學(xué)習(xí)過程中必然會使用較多的受版權(quán)保護作品中非獨創(chuàng)性表達(dá)之事實性部分。再如相比以GPT為代表的靜態(tài)文本類生成式人工智能,有著“世界模擬器”之稱的Sora具有更強的時空理解能力,并能夠基于復(fù)雜的時空關(guān)系創(chuàng)造動態(tài)的數(shù)字時空。Sora對GPT的能力突破離不開其基于大量作品中不受版權(quán)保護的事實性、功能性以及生物性部分的學(xué)習(xí)。
2. 非基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí):構(gòu)成版權(quán)侵權(quán),承擔(dān)侵權(quán)責(zé)任
非基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí)指,以非基于公共利益之目的,向公眾傳播和再現(xiàn)原作品表達(dá)的機器學(xué)習(xí)。非基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí)包括兩種類型:對作品表達(dá)進行原樣重現(xiàn)的“表達(dá)性使用型”機器學(xué)習(xí)和對作品表達(dá)以實質(zhì)性相似方式呈現(xiàn)的“表達(dá)性使用型”機器學(xué)習(xí)。如前所述,盡管過程視角下機器學(xué)習(xí)使用作品的行為并不符合“表達(dá)性使用”之外部過濾機制,但結(jié)果視角下機器學(xué)習(xí)后生成內(nèi)容如果與原作品的表達(dá)相同或?qū)嵸|(zhì)性相似,將對原作品版權(quán)法意義下的潛在市場進行替代和擠占,符合更具決定效力的“表達(dá)性使用”內(nèi)部揀擇機制,構(gòu)成對原作品的“表達(dá)性使用”,應(yīng)當(dāng)承擔(dān)相應(yīng)的版權(quán)侵權(quán)責(zé)任。這一設(shè)定既遵循了版權(quán)法的“表達(dá)性使用”理論預(yù)設(shè),保護了版權(quán)人基于作品表達(dá)的正當(dāng)市場利益,也未對生成式人工智能研發(fā)者和產(chǎn)業(yè)相關(guān)方施加過高的版權(quán)成本,倒逼生成式人工智能研發(fā)者對機器學(xué)習(xí)中的特征提取、分解、組合和重構(gòu)機制予以進一步優(yōu)化和完善。
3. 基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí):構(gòu)成版權(quán)侵權(quán),但給予合理使用豁免
基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí)指,雖向公眾傳播和再現(xiàn)了原作品的表達(dá),但出于科學(xué)研究或構(gòu)建人工智能時代的數(shù)字基礎(chǔ)設(shè)施等公共利益目的予以侵權(quán)特別考量的機器學(xué)習(xí)。[19]基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí)主要包括兩種類型。
第一種是基于科學(xué)研究的生成式人工智能機器學(xué)習(xí)。鑒于科學(xué)研究在各國版權(quán)法中達(dá)成的合理使用共識,人工智能技術(shù)范式下基于科學(xué)研究目的進行機器學(xué)習(xí)也可經(jīng)由合理使用制度實現(xiàn)侵權(quán)豁免,本身沒有太大爭議。
第二種是基于構(gòu)建人工智能時代數(shù)字基礎(chǔ)設(shè)施的生成式人工智能機器學(xué)習(xí)。伴隨商業(yè)模式不斷成熟,生成式人工智能逐漸呈現(xiàn)出明顯的業(yè)態(tài)分層現(xiàn)象。根據(jù)所處區(qū)位和發(fā)揮功能的不同,生成式人工智能的業(yè)態(tài)可劃分為處于底層的基礎(chǔ)模型、處于中層的專業(yè)模型和處于頂層的應(yīng)用模型三個層次?;A(chǔ)模型指在大量數(shù)據(jù)上訓(xùn)練的,用于普適性目標(biāo)、可優(yōu)化適配多種下游任務(wù)的深度神經(jīng)網(wǎng)絡(luò)模型。研發(fā)者在對基礎(chǔ)模型進行特定場景訓(xùn)練和專項功能強化后,可相應(yīng)形成專業(yè)模型和應(yīng)用模型。相比特異程度更高、使用場景更專業(yè)的后兩者,基礎(chǔ)模型往往具有較強的通用性、普適性和下游控制性,因而具有公共屬性,具有發(fā)展成為人工智能時代下新型數(shù)字基礎(chǔ)設(shè)施的潛質(zhì)。[20]因此,應(yīng)對具有公共屬性的底層基礎(chǔ)模型機器學(xué)習(xí)予以必要的合理使用侵權(quán)豁免,以支持和助力我國構(gòu)建具有普惠性質(zhì)的人工智能基礎(chǔ)設(shè)施。
綜上,我國可在版權(quán)法的實施與修正過程中做如下三點工作。首先,承認(rèn)“表達(dá)性使用”的版權(quán)法基礎(chǔ)理論地位??紤]在《中華人民共和國著作權(quán)法實施條例》第五條之后新增一條:“版權(quán)法中的各項權(quán)利均建立在對作品的表達(dá)性使用基礎(chǔ)上?!薄氨磉_(dá)性使用”指任何通過向公眾傳播作品的表達(dá),促使公眾得以感知、閱讀和欣賞作品表達(dá)的作品使用行為。其次,將“表達(dá)性使用”判定作為版權(quán)侵權(quán)認(rèn)定的前置要件??煽紤]將“表達(dá)性使用”寫入《中華人民共和國著作權(quán)法》(以下簡稱《著作權(quán)法》)第五十二、五十三條中,形成直接條文規(guī)范:“對作品進行表達(dá)性使用,有下列侵權(quán)行為的……”再次,將基于公共利益目的的“表達(dá)性使用型”機器學(xué)習(xí)增設(shè)為合理使用的具體情形。可考慮將《著作權(quán)法》第二十四條第一款第1項中的個人研究、第6項中的學(xué)??茖W(xué)研究作擴大解釋,包括出于科學(xué)研究目的的機器學(xué)習(xí)行為;同時在《著作權(quán)法》第二十四條第一款第12項后新增一項:“為推進國家人工智能數(shù)字基礎(chǔ)設(shè)施建設(shè),使用他人已經(jīng)發(fā)表的作品進行機器學(xué)習(xí)。”
結(jié)語
人類中心主義的價值內(nèi)核,促進文化創(chuàng)新的立法宗旨和作品利益調(diào)整的制度功能,均揭示出內(nèi)嵌于版權(quán)法底層邏輯中“表達(dá)性使用”的深刻意蘊?!氨磉_(dá)性使用”為生成式人工智能技術(shù)范式下的版權(quán)法劃定了一條規(guī)制界限,將圍繞作品予以“表達(dá)性使用”的部分保留在版權(quán)法的規(guī)制范疇之內(nèi),并將對作品進行“非表達(dá)性使用”的部分排除在版權(quán)法的保護范圍之外?;凇氨磉_(dá)性使用”視角,因循版權(quán)法的價值意旨和基本法理,貼合生成式人工智能機器學(xué)習(xí)的技術(shù)機理,考量人工智能國際競爭的戰(zhàn)略意義和市場潛力,版權(quán)法應(yīng)對生成式人工智能機器學(xué)習(xí)設(shè)置區(qū)分層級的差異化規(guī)制路徑。當(dāng)然,一般意義上的“非表達(dá)性使用型”機器學(xué)習(xí)雖不由版權(quán)法規(guī)制,但也不應(yīng)處于法律監(jiān)管的真空。鑒于生成式人工智能機器學(xué)習(xí)涉及主體的多樣性、底層機理的復(fù)雜性和訓(xùn)練過程的周期性,未來有必要進一步探索版權(quán)法之外包括但不限于反不正當(dāng)競爭法規(guī)制、個人信息保護法規(guī)制等的生成式人工智能機器學(xué)習(xí)法律規(guī)制模式。
參考文獻:
[1] Matthew Sag. Copyright and copy-reliant technology[J]. Northwestern University Law Review, 2009, 103(4): 1607-1682.
[2] Maurizio Borghi, Stavroula Karapapa. Non-Display Uses of Copyright Works: Google Books and beyond[J]. Queen Mary Journal of Intellectual Property, 2011, 1(1): 21-52.
[3] Abraham Drassinower. What's wrong with copying?[M]. Boston: Havard University Press, 2015.
[4] 林秀芹. 人工智能時代著作權(quán)合理使用制度的重塑[J]. 法學(xué)研究,2021(6):170-185.
[5] 劉曉春. 生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成[J]. 法學(xué)論壇,2024(3):67-78.
[6] Matthew Sag. Orphan Works as Grist for the Data Mill[J]. Berkeley Technology Law Journal, 2012, 27(3): 1503-1550.
[7] Benjamin L, Sobel W. Artificial Intelligence's Fair Use Crisis[J]. Columbia Journal of Law amp; the Arts, 2017, 41(1): 45-98.
[8] 焦和平. 人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權(quán)風(fēng)險及化解路徑[J]. 當(dāng)代法學(xué),2022(4):128-140.
[9] 李龍. 人本法律觀研究[M]. 北京:中國社會科學(xué)出版社, 2006:69.
[10] James Grimmelmann. Copyright for Literate Robots[J]. Iowa Law Review, 2016, 101(2): 657-682.
[11] 保羅·戈斯汀. 著作權(quán)之道——從印刷機到數(shù)字云[M]. 金海軍,譯. 北京:商務(wù)印書館,2023:237.
[12] Matthew Sag. The New Legal Landscape for Text Mining and Machine Learning[J]. Journal of the Copyright Society of the USA, 2019(66): 291-367.
[13] 列寧·謝苗諾維奇·維戈茨基. 藝術(shù)心理學(xué)[M]. 周新,譯. 上海:上海文藝出版社,1985:8.
[14] 布拉德·謝爾曼,萊昂內(nèi)爾·本特利. 現(xiàn)代知識產(chǎn)權(quán)法的演進(1760—1911):英國的歷程[M]. 金海軍,譯. 北京:北京大學(xué)出版社, 2012:206-210.
[15] 趙旭. 生成式人工智能在機器學(xué)習(xí)中的合理使用問題[J]. 暨南學(xué)報(哲學(xué)社會科學(xué)版),2024(3):79-95.
[16] 羅素,諾維格. 人工智能:一種現(xiàn)代的方法[M]. 殷建平,祝恩,劉越,等,譯. 北京:清華大學(xué)出版社,2013:579.
[17] 丁磊. 生成式人工智能:AIGC的邏輯與應(yīng)用[M]. 北京:中信出版集團,2023:59.
[18] 張吉豫,汪賽飛. 大模型數(shù)據(jù)訓(xùn)練中的著作權(quán)合理使用研究[J]. 華東政法大學(xué)學(xué)報,2024(4):20-33.
[19] 吳家煦,來小鵬. 生成式人工智能機器學(xué)習(xí)的版權(quán)困境及其制度因應(yīng) [J]. 編輯之友,2024(11):96-104.
[20] 張凌寒. 生成式人工智能的法律定位與分層治理[J]. 現(xiàn)代法學(xué),2023(4):126-141.
The Hierarchical Regulation Model for Copyright in Generative AI Machine Learning: From the Perspective of \"Expressive Use\"
WANG Shi-tong, YANG Li-hua(Civil, Commercial and Economic Law School, China University of Political Science and Law, Beijing 100088, China)
Abstract: Literary, artistic, and scientific works protected by copyright law constitute high-quality corpus resources for generative AI machine learning. To facilitate the development of generative AI technology and related industries, it is necessary to reasonably define the copyright protection boundaries for the use of works in generative AI machine learning. Whether it is the human-centric value core, the legislative purpose of promoting cultural innovation, or the institutional function of adjusting the interests of works, they all reflect the inherent theoretical presumption of \"expressive use\" under the jurisdiction of copyright law. Based on the nature, direction, and manner of using works from a process perspective, as well as the effects of using works from a result perspective, the use of works in generative AI machine learning in a general sense is a non-expressive, data-oriented use distinct from \"expressive use\" and falls outside the scope of copyright protection. For generative AI machine learning from the perspective of \"expressive use\", a hierarchical copyright regulation pathway should be established to promote the development of the generative AI industry.
Key words: generative AI; machine learning; copyright law; \"expressive use\"; fair use
基金項目:北京市習(xí)近平新時代中國特色社會主義思想研究中心重點項目“習(xí)近平法治思想中知識產(chǎn)權(quán)保護重要論述研究:理論體系與實踐運用”(22LLFXB038-2022)
作者信息:王詩童(1997— ),男,山西太原人,中國政法大學(xué)民商經(jīng)濟法學(xué)院博士研究生,主要研究方向:知識產(chǎn)權(quán)法、人工智能法;楊利華(1966— ),女,湖南長沙人,中國政法大學(xué)民商經(jīng)濟法學(xué)院教授、博士生導(dǎo)師,主要研究方向:知識產(chǎn)權(quán)法、人工智能法。
① 參見Sega Enterprises Ltd. v. Accolade, Inc, 977 F.2d 1510 (9th Cir. 1992)。
② 參見Kelly v. Arriba Soft Corp, 336 F.3d 811 (9th Cir. 2003)。
③ 參見Perfect 10, Inc. v. Amazon.com, Inc, 508 F.3d 1146 (9th Cit. 2007)。
④ 參見Author's Guild, Inc. v Google, Inc, No 105-CV-08136, filed 20 September 2005。
① 參見Campbell v. Acuff-Rose Music, Inc, 510 U.S. 569。
② 參見Harper amp; Row Publishers, Inc v. Nation Enterprises, 471 U. S. 539, 566 (1985)。
③ 參見Author's Guild, Inc. v Google, Inc, No 105-CV-08136, filed 20 September 2005。