摘 要:生成式人工智能作為通用人工智能的起點(diǎn),在為數(shù)字經(jīng)濟(jì)帶來極大潛力的同時(shí)也帶來了版權(quán)侵權(quán)風(fēng)險(xiǎn),推進(jìn)技術(shù)發(fā)展和保護(hù)文藝創(chuàng)作的難題凸顯。轉(zhuǎn)變以往的末端視角,訓(xùn)練數(shù)據(jù)作為通用人工智能發(fā)展壯大的基礎(chǔ)前提,解決其“合法、海量、高質(zhì)”問題十分重要。對訓(xùn)練數(shù)據(jù)的高要求和現(xiàn)實(shí)開發(fā)中的難獲得,導(dǎo)致通用人工智能訓(xùn)練數(shù)據(jù)處理中不可避免地存在侵犯作者復(fù)制權(quán)、翻譯權(quán)、改編權(quán)等風(fēng)險(xiǎn)。當(dāng)前的規(guī)制思路缺乏對通用人工智能自身特性和商業(yè)模式的關(guān)注,侵權(quán)歸責(zé)原則不夠清晰。以鼓勵(lì)通用人工智能基礎(chǔ)大模型發(fā)展為價(jià)值導(dǎo)向,采取過錯(cuò)責(zé)任歸責(zé)原則并區(qū)分風(fēng)險(xiǎn)層級規(guī)定不同程度的注意義務(wù),在制度與技術(shù)交互中推進(jìn)良法善治。
關(guān)鍵詞:通用人工智能;生成式人工智能;著作權(quán)侵權(quán);過錯(cuò)責(zé)任;注意義務(wù)
中圖分類號:D923.8
文獻(xiàn)標(biāo)識碼:A
DOIdoi:10.3969/j.issn.1672-2272.202404015
The Principle of Liability for Copyright Infringement of AGI Training Data
Yao Xiuwen
(Law School of Tianjin University ,Tianjin 300072, China)
Abstract: As the starting point of general artificial intelligence, generative artificial intelligence brings great potential to the digital economy, but also brings the risk of copyright infringement, and the problem of promoting technological development and protecting literary and artistic creation becomes prominent. Change the previous end perspective, training data as a basic premise for the development and growth of general artificial intelligence, to solve its “l(fā)egal, massive, high quality” problem is very important. The high demand for training data and the difficulty of obtaining it in practical development make it inevitable that the training data processing of general artificial intelligence will infringe the author’s right of reproduction, translation and adaptation. However, the current regulatory ideas still lack attention from the characteristics and business model of general artificial intelligence, and the principle of tort liability is confused. With the value orientation of promoting and encouraging the development of general artificial intelligence basic large model, the principle of fault liability is adopted, and different degrees of duty of care are stipulated by distinguishing risk levels, so as to promote good law and good governance in the interaction between system and technology.
Key Words:Artificial General Intelligence; Generative Artificial Intelligence; Copyright Infringement; Liability for Fault; Duty of Care
0 引言
ChatGPT等生成式人工智能作為公認(rèn)的通用人工智能(Artificial General Intelligence,AGI)起點(diǎn),在科技進(jìn)步的同時(shí)伴隨著侵權(quán)風(fēng)險(xiǎn)。出于對其生成內(nèi)容的傳播恐慌,既往討論大多集中于對其生成內(nèi)容的安全監(jiān)管和侵權(quán)規(guī)制,進(jìn)而延伸至生成式人工智能的法律主體地位、生成內(nèi)容的版權(quán)保護(hù)等有關(guān)問題,極少涉及對通用人工智能的訓(xùn)練數(shù)據(jù)這一“智慧基礎(chǔ)”環(huán)節(jié)的考量。訓(xùn)練數(shù)據(jù)的質(zhì)量是通用人工智能高質(zhì)量發(fā)展的前提,保障其合法性,不僅是訓(xùn)練行為自身的要求,更是避免生成內(nèi)容成為“毒樹之果”的手段。
2023年1月和2月,蓋蒂圖片社(Getty Images)在英國、美國法院起訴Stability AI,稱被告未經(jīng)許可從原告的圖片庫中非法復(fù)制和處理了數(shù)百萬受版權(quán)保護(hù)的圖像用以訓(xùn)練Stable Difussion圖片生成模型侵犯版權(quán)[1],成為全球首例大型AIGC(AI Generated Content)訓(xùn)練數(shù)據(jù)知識產(chǎn)權(quán)侵權(quán)訴訟,大模型研發(fā)者侵權(quán)與否的問題引發(fā)各界關(guān)注。無獨(dú)有偶,生成式人工智能訓(xùn)練數(shù)據(jù)的版權(quán)侵權(quán)糾紛在我國開始顯現(xiàn)。2023年6月,北京筆神作文公司發(fā)布聲明,稱學(xué)而思的數(shù)學(xué)大模型MathGPT和AI寫作助手訓(xùn)練數(shù)據(jù)集侵犯其知識產(chǎn)權(quán)。2023年11月,我國4位畫師起訴小紅書及其AI繪畫軟件Trik在未經(jīng)授權(quán)的情況下使用其原圖生成大批量AI圖片,該AI模型數(shù)據(jù)庫獲取訓(xùn)練數(shù)據(jù)過程存在侵犯著作權(quán)行為。
隨著相關(guān)糾紛日益增多,推進(jìn)技術(shù)發(fā)展和保護(hù)文藝創(chuàng)作的實(shí)踐難題倒逼制度反思。2023年8月實(shí)施的《生成式人工智能服務(wù)管理暫行辦法》,在第七條對訓(xùn)練數(shù)據(jù)處理活動(dòng)的合法性作出保護(hù)知識產(chǎn)權(quán)、保護(hù)個(gè)人信息安全等概括性要求。但目前立法中對該問題并無明確的具體規(guī)定,因此通過現(xiàn)有制度的解釋和創(chuàng)新,對以生成式人工智能為代表的通用人工智能訓(xùn)練數(shù)據(jù)的著作權(quán)侵權(quán)行為進(jìn)行有效規(guī)制很有必要。在有效維護(hù)著作權(quán)人的知識產(chǎn)權(quán),尊重知識創(chuàng)造的同時(shí),鼓勵(lì)促進(jìn)新興技術(shù)的發(fā)展,為通用人工智能模型賦能數(shù)字經(jīng)濟(jì)作長遠(yuǎn)打算。著作權(quán)侵權(quán)雖然有“接觸+實(shí)質(zhì)性相似”等特別判定方式,但仍離不開侵權(quán)責(zé)任的構(gòu)成要件框架[2]。雖然學(xué)界對該問題是否適用“合理使用”等抗辯事由有所討論[3],但這種事后抗辯并不會對侵權(quán)責(zé)任產(chǎn)生訴前約束。歸責(zé)原則是侵權(quán)責(zé)任的起點(diǎn),本文以此為切入,以生成式人工智能為例,試論通用人工智能著作權(quán)侵權(quán)的歸責(zé)原則及相應(yīng)衍生問題,在制度與技術(shù)的交互中實(shí)現(xiàn)良法善治。
1 訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)的判定之困
訓(xùn)練數(shù)據(jù)既是模型訓(xùn)練的前提,又直接影響到模型后續(xù)的表現(xiàn)和服務(wù)[4]。2023年1月施行的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》首次將訓(xùn)練數(shù)據(jù)定義為被用于訓(xùn)練機(jī)器學(xué)習(xí)模型的標(biāo)注或者基準(zhǔn)數(shù)據(jù)集。不同于AI生成內(nèi)容版權(quán)侵權(quán)的后置性,訓(xùn)練數(shù)據(jù)未經(jīng)許可地獲取著作權(quán)人作品為大模型積累“經(jīng)驗(yàn)”,在根本上導(dǎo)致生成式人工智能“學(xué)習(xí)”階段的不合法,并為后續(xù)生成物的侵權(quán)埋下伏筆。鑒于當(dāng)前著作權(quán)人對訓(xùn)練數(shù)據(jù)的版權(quán)侵權(quán)往往在人工智能生成內(nèi)容之后才有所察覺,既往維權(quán)思路也多從輸出端著手[5],通過依賴訓(xùn)練數(shù)據(jù)生成的內(nèi)容與原作品存在“接觸+實(shí)質(zhì)性相似”的關(guān)系來判定侵權(quán)。隨著生成式人工智能模型的運(yùn)轉(zhuǎn)機(jī)理不斷清晰,糾紛的焦點(diǎn)開始關(guān)注到訓(xùn)練數(shù)據(jù)獲取和整合階段的侵權(quán)問題。而立法和司法對直接提起訓(xùn)練數(shù)據(jù)庫侵權(quán)這種新型糾紛存在解決思路不明朗的問題。需要結(jié)合訓(xùn)練數(shù)據(jù)來源方式和訓(xùn)練數(shù)據(jù)處理過程,分析其中蘊(yùn)含的版權(quán)侵權(quán)風(fēng)險(xiǎn)及對該問題的司法解決爭議,厘清訓(xùn)練數(shù)據(jù)侵權(quán)當(dāng)前面臨的判定困境。
1.1 訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)風(fēng)險(xiǎn)分析
1.1.1 訓(xùn)練數(shù)據(jù)獲取階段的復(fù)制權(quán)侵權(quán)風(fēng)險(xiǎn)
生成式人工智能技術(shù)研發(fā)公司訓(xùn)練數(shù)據(jù)主要來源包括企業(yè)直接收集、網(wǎng)絡(luò)抓取、使用開源數(shù)據(jù)集和通過商業(yè)途徑等方式[6],研發(fā)公司可以獲得正當(dāng)授權(quán)或使用公開數(shù)據(jù)來進(jìn)行模型訓(xùn)練,但獲取單獨(dú)授權(quán)流程繁瑣,遵守“爬蟲協(xié)議”抓取的數(shù)據(jù)和開源數(shù)據(jù)集質(zhì)量不高[7],通過商業(yè)途徑購買私人數(shù)據(jù)庫成本較高,無法滿足開發(fā)大模型的訓(xùn)練數(shù)據(jù)需求。因此為了訓(xùn)練出合格成功的生成式人工智能,研發(fā)公司往往通過其他非法方式獲取數(shù)據(jù)。
訓(xùn)練數(shù)據(jù)獲取階段因?yàn)閬碓吹莫M窄和數(shù)據(jù)質(zhì)量的追求存在侵犯作者復(fù)制權(quán)風(fēng)險(xiǎn)。對于依托自身用戶服務(wù)功能收集到的數(shù)據(jù)為訓(xùn)練數(shù)據(jù),自行開發(fā)大模型的研發(fā)者來說,侵權(quán)風(fēng)險(xiǎn)可能發(fā)生于在用戶服務(wù)協(xié)議中設(shè)置強(qiáng)制許可條款直接收集的情況中[8]。雖然以合同獲取訓(xùn)練數(shù)據(jù)的方式合法,但這種強(qiáng)制著作權(quán)授權(quán)的合同有效與否尚存疑問,表面上符合著作權(quán)授權(quán)使用的要求,實(shí)質(zhì)上是以基礎(chǔ)服務(wù)為籌碼對著作權(quán)人利益的侵害。若合同被判定無效,其行為又落入未經(jīng)許可而大量復(fù)制范疇,存在復(fù)制權(quán)侵權(quán)風(fēng)險(xiǎn)[9]。
對于無用戶服務(wù)的研發(fā)者則需另尋出路獲取高質(zhì)海量的訓(xùn)練數(shù)據(jù)庫,其侵犯作者版權(quán)的風(fēng)險(xiǎn)更加明顯。一種是通過破譯等技術(shù)手段直接獲取數(shù)據(jù)。在破壞或避開權(quán)利人設(shè)置的技術(shù)措施后,人工智能開發(fā)公司將數(shù)據(jù)庫中的數(shù)據(jù)復(fù)制存儲到自己服務(wù)器的行為,存在侵犯作者的復(fù)制權(quán)風(fēng)險(xiǎn);另一種是生成式人工智能研發(fā)公司不經(jīng)原著作權(quán)人同意,不顧“爬蟲協(xié)議”要求大批量爬取私人數(shù)據(jù)庫數(shù)據(jù)資源,并復(fù)制到自己的服務(wù)器以供模型訓(xùn)練,不僅會侵犯原著作權(quán)人的復(fù)制權(quán),更面臨對數(shù)據(jù)網(wǎng)站造成不正當(dāng)競爭的風(fēng)險(xiǎn)[10]。
1.1.2 訓(xùn)練數(shù)據(jù)整理與構(gòu)建階段的多種侵權(quán)風(fēng)險(xiǎn)
從技術(shù)步驟來看,在訓(xùn)練數(shù)據(jù)的整理與構(gòu)建階段,要將獲取到的數(shù)據(jù)以一定的形式存儲和固定下來,而在存儲和固定過程中的具體手段又存在對作品多種版權(quán)的侵犯。
存儲和固定的有形形式存在侵犯復(fù)制權(quán)的可能。出于投喂和訓(xùn)導(dǎo)通用大模型的需要,加之現(xiàn)有技術(shù)很難直接在線進(jìn)行數(shù)據(jù)分析和處理[11],訓(xùn)練數(shù)據(jù)輸入機(jī)器會以某種形式存儲在硬盤、內(nèi)存或者云服務(wù)器中,在不同的介質(zhì)中創(chuàng)建副本、進(jìn)行有形的存儲。這就導(dǎo)致與人腦獲取知識并未形成有形的復(fù)制不同,生成式人工智能訓(xùn)練數(shù)據(jù)的汲取仍然存在侵犯復(fù)制權(quán)的風(fēng)險(xiǎn)。
存儲和固定的語言轉(zhuǎn)換存在侵犯翻譯權(quán)風(fēng)險(xiǎn)。在訓(xùn)練數(shù)據(jù)能夠成為大模型學(xué)習(xí)資料的準(zhǔn)備環(huán)節(jié)需要先將普通文本格式轉(zhuǎn)化為計(jì)算機(jī)可讀文本,但這里的轉(zhuǎn)化只是為了讓機(jī)器讀取其中的數(shù)據(jù)而設(shè)置的算法操作過程,不存在思想的表達(dá),不屬于被規(guī)制的翻譯行為。但是為獲取可供工業(yè)使用的通用大模型,需要對訓(xùn)練數(shù)據(jù)進(jìn)行多個(gè)語種轉(zhuǎn)化以實(shí)現(xiàn)廣泛應(yīng)用。因此需要利用編碼器和訓(xùn)練程序?qū)芜呎Z料庫進(jìn)行翻譯,進(jìn)而生成互相對照的平行文本作為數(shù)據(jù)來源[12]。這種未經(jīng)著作權(quán)人許可,在訓(xùn)練集的準(zhǔn)備階段,將其作品翻譯成不同語言的行為顯然存在侵權(quán)的風(fēng)險(xiǎn)。
存儲和固定的內(nèi)容處理存在侵犯改編權(quán)風(fēng)險(xiǎn)。在將原作品輸入機(jī)器進(jìn)行學(xué)習(xí)之前,研發(fā)者還需要對作品進(jìn)行編碼、壓縮等操作,這些行為并不是直接復(fù)制作品的原始版本,而是在圖像信息空間中以潛在的表現(xiàn)形式展現(xiàn),同時(shí)保存著原有作品中最關(guān)鍵、最本質(zhì)的特征[13]。作品改編權(quán)強(qiáng)調(diào)在保持實(shí)質(zhì)內(nèi)容一致的前提下,對原作品進(jìn)行表現(xiàn)形式的創(chuàng)新,轉(zhuǎn)碼等行為與著作權(quán)法中的改編行為性質(zhì)是類似的[14]。它不僅是對一些作品理念的抽象,而且將其中重要成分的提取、整合和再利用,其中獨(dú)創(chuàng)和核心的部分并沒有被排除。類似的對作品原始內(nèi)容進(jìn)行的安排和更改的預(yù)處理行為,應(yīng)認(rèn)定為版權(quán)法意義上的改編,因此存在改編權(quán)侵權(quán)的可能。
1.2 訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)歸責(zé)原則爭議
生成式人工智能輸入端的訓(xùn)練數(shù)據(jù)侵權(quán)問題該如何解決,當(dāng)前對此并無明確規(guī)定,只能從既有制度中尋找答案,然而規(guī)制思路仍不清晰。既希望大力推動(dòng)新興技術(shù)蓬勃發(fā)展,效仿早期互聯(lián)網(wǎng)“非法興起”之勢,又擔(dān)心較晚的介入會給諸如知識產(chǎn)權(quán)等其他權(quán)利保護(hù)造成太大損失。通用大模型訓(xùn)練數(shù)據(jù)的來源方式大致分為兩類,一是特殊情況下由大模型自主收集新數(shù)據(jù)或生成數(shù)據(jù)充實(shí)訓(xùn)練數(shù)據(jù),完成自我提升;二是普遍情況下由研發(fā)公司向大模型進(jìn)行投喂。
關(guān)于大模型自主獲取訓(xùn)練數(shù)據(jù)的版權(quán)侵權(quán)問題,存在適用特殊歸責(zé)原則的討論。生成式人工智能與以往的自動(dòng)化決策最大的不同在于能夠在經(jīng)過訓(xùn)練后通過訓(xùn)練數(shù)據(jù)這一“經(jīng)驗(yàn)”作出生成內(nèi)容這一“直覺”[15]。對于這一自主性問題回歸到生成式人工智能主體資格的討論,因而出現(xiàn)將其作為生成式人工智能服務(wù)提供者的產(chǎn)品適用嚴(yán)格產(chǎn)品責(zé)任,或者賦予法律擬制主體資格將其看作“無或者限制行為能力人”或“代理人”適用替代責(zé)任進(jìn)行無過錯(cuò)歸責(zé)等特殊歸責(zé)原則[16]。但是此討論并未形成定論,且無法涵蓋研發(fā)公司向大模型投喂數(shù)據(jù)的情形。
因此,從更普遍的視角出發(fā),《生成式人工智能服務(wù)管理暫行辦法》第七條對“生成式人工智能服務(wù)提供者”作出了訓(xùn)練數(shù)據(jù)時(shí)不得侵犯他人知識產(chǎn)權(quán)的要求,為把這種訓(xùn)練數(shù)據(jù)著作權(quán)侵權(quán)視為網(wǎng)絡(luò)服務(wù)提供者侵權(quán)的一種形態(tài)加以規(guī)制留出解釋空間。但是該問題涉及生成式人工智能服務(wù)提供者這一特殊主體和著作權(quán)這一特殊客體兩個(gè)元素,在一般過錯(cuò)責(zé)任的原則之下對生成式人工智能服務(wù)提供者要求不同程度的注意義務(wù),呈現(xiàn)出兩種進(jìn)路。
一種是從主體出發(fā)的責(zé)任規(guī)則,對生成式人工智能服務(wù)提供者要求較低的注意義務(wù)。認(rèn)為訓(xùn)練數(shù)據(jù)過于龐雜,研發(fā)公司無法對每一個(gè)數(shù)據(jù)的侵權(quán)情況進(jìn)行完整和詳細(xì)的掌握,過高的審慎注意義務(wù)會降低大模型開發(fā)積極性。因此參考“紅旗規(guī)則”,只有發(fā)現(xiàn)存在對著作權(quán)人造成明顯損害的行為時(shí)才構(gòu)成侵權(quán),并主張進(jìn)一步借鑒“避風(fēng)港原則”以著作權(quán)人的侵權(quán)通知和生成式人工智能服務(wù)提供者的及時(shí)刪除作為免責(zé)條件,從而降低其注意義務(wù)[17]。因此歸責(zé)原則上也主張一般過錯(cuò)責(zé)任,由被侵權(quán)人證明研發(fā)公司存在“通知后仍不刪除”等主觀過錯(cuò)。但這種規(guī)制思路受到質(zhì)疑,避風(fēng)港規(guī)則最早基于“技術(shù)中立原則”適用于互聯(lián)網(wǎng)版權(quán)侵權(quán)領(lǐng)域,用以解決網(wǎng)絡(luò)服務(wù)提供者因網(wǎng)絡(luò)用戶的侵權(quán)行為而產(chǎn)生的間接侵權(quán)責(zé)任的問題。然而訓(xùn)練數(shù)據(jù)侵權(quán)是生成式人工智能服務(wù)提供者的直接侵權(quán)[18],并不能為了鼓勵(lì)該技術(shù)的發(fā)展降低其注意成本就錯(cuò)誤適用。
另一種是從客體出發(fā)的財(cái)產(chǎn)規(guī)則,對大模型研發(fā)公司表面要求較高的注意義務(wù),強(qiáng)調(diào)對原作者著作權(quán)的保護(hù)。生成式人工智能服務(wù)提供者應(yīng)當(dāng)基于自身的技術(shù)優(yōu)勢,對訓(xùn)練數(shù)據(jù)輸入和處理的合法性負(fù)有審慎安全的注意義務(wù),獲取訓(xùn)練數(shù)據(jù)時(shí)先行取得授權(quán)許可,在源頭上進(jìn)行安全評估保障模型的安全可信。因此歸責(zé)原則上也適用著作權(quán)侵權(quán)的一般過錯(cuò)責(zé)任,但不得適用《民法典》第一千一百九十五條“避風(fēng)港原則”或《民法典》第一千一百九十七條規(guī)定的“紅旗規(guī)則”以降低注意義務(wù),而要以“未經(jīng)授權(quán)”為過錯(cuò)標(biāo)準(zhǔn)。這種強(qiáng)調(diào)著作權(quán)保護(hù)的思路不利于科技發(fā)展,也與著作權(quán)保護(hù)最終是為了造福人類的公益目標(biāo)相悖。因此這種財(cái)產(chǎn)進(jìn)路轉(zhuǎn)而尋找著作權(quán)侵權(quán)的例外與限制,在訓(xùn)練數(shù)據(jù)屬于合理使用情形下,以緩解其侵權(quán)風(fēng)險(xiǎn)。但這種訴訟中的抗辯理由是從終局的責(zé)任定性視角出發(fā),在個(gè)案中存在著抗辯成立與否不確定的問題,并不能從根源上給予生成式人工智能研發(fā)者足夠的支持。
2 訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)歸責(zé)原則的困境反思
2.1 行業(yè)模式:訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)難以避免
通過開源數(shù)據(jù)集或者提前取得版權(quán)授權(quán)等合法方式獲取訓(xùn)練數(shù)據(jù)是最佳對策,能從根源避免侵權(quán)風(fēng)險(xiǎn)。但是實(shí)踐中出于數(shù)據(jù)安全、隱私保護(hù)的考量,當(dāng)前公共開放數(shù)據(jù)數(shù)量有限且質(zhì)量欠佳,難以滿足訓(xùn)練通用大模型的需求,同時(shí)向散落的權(quán)利主體逐一獲得許可的方式耗費(fèi)成本過大,因此生成式人工智能研發(fā)者將轉(zhuǎn)向私人數(shù)據(jù)庫持有者。
一方面,生成式人工智能研發(fā)行業(yè)存在高成本下的未知回報(bào)問題。購買正版語料庫、圖片庫等用于訓(xùn)練數(shù)據(jù)集構(gòu)建在理論上可行,但該領(lǐng)域的制度規(guī)制要關(guān)注當(dāng)前行業(yè)發(fā)展的真實(shí)狀況,不能脫離商業(yè)模式和市場結(jié)構(gòu)抽象而論。訓(xùn)練數(shù)據(jù)需要不斷更新和調(diào)整,從而推動(dòng)生成式人工智能持續(xù)發(fā)展,這就使得生成式人工智能研發(fā)公司需要與擁有廣泛在線用戶的企業(yè)達(dá)成長期合作,不斷購買最新數(shù)據(jù),否則很難訓(xùn)練成出色的生成式人工智能。但是,從購買數(shù)據(jù)到訓(xùn)練后形成穩(wěn)定的商業(yè)模式需要比較長的時(shí)間,能否最終訓(xùn)練出合格的大模型并投入使用也未可知,巨大的支出成本不一定能獲得相應(yīng)的經(jīng)濟(jì)回報(bào)。
另一方面,數(shù)據(jù)庫持有者卻依靠其源源不斷的新數(shù)據(jù)和穩(wěn)定的在線用戶對自身持樂觀態(tài)度,不愿降低價(jià)格與之合作。理性的語料庫企業(yè)已經(jīng)認(rèn)識到即使授權(quán)給大模型企業(yè),也未必能得到即時(shí)回報(bào),考慮到市場的不確定性,更有可能抬高價(jià)格,賺取短期收益。特別是已經(jīng)擁有廣泛用戶的平臺企業(yè)會更加謹(jǐn)慎,擔(dān)心生成式人工智能研發(fā)企業(yè)將通過不斷學(xué)習(xí)優(yōu)質(zhì)數(shù)據(jù)而成為內(nèi)容生產(chǎn)者,對自身的數(shù)據(jù)優(yōu)勢造成沖擊而對數(shù)據(jù)庫授權(quán)持更嚴(yán)格態(tài)度[17]。首先是生成式人工智能研發(fā)者難以通過合理價(jià)格獲取想要的訓(xùn)練數(shù)據(jù);其次是面臨未知的市場風(fēng)險(xiǎn),不愿事先增大自身成本,在制度規(guī)制并不明晰的技術(shù)初期,可先通過各種方式充實(shí)訓(xùn)練數(shù)據(jù),盡最大可能培養(yǎng)出極具經(jīng)濟(jì)價(jià)值的通用大模型,率先搶占市場。因此,在行業(yè)發(fā)展競爭激烈的情況下,伴隨著高質(zhì)量訓(xùn)練數(shù)據(jù)不足的局面,訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)問題依然存在。
2.2 技術(shù)躍遷:通用人工智能的特性與價(jià)值
生成式人工智能作為“數(shù)據(jù)、算法、算力”的統(tǒng)一體,其很有可能成為未來數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施。早期網(wǎng)絡(luò)法起源于知識產(chǎn)權(quán)領(lǐng)域,是因?yàn)槲淖趾蛨D畫等作品最先被數(shù)字化并在網(wǎng)絡(luò)上流動(dòng);隨著持續(xù)發(fā)展,與人類生活聯(lián)系更緊密,商品和勞動(dòng)力等要素可被數(shù)字化表達(dá),平臺經(jīng)濟(jì)迅速發(fā)展,平臺責(zé)任成為關(guān)注重點(diǎn)。目前生成式人工智能的基礎(chǔ)模型打破了人機(jī)語言壁壘,通用式大模型可以更加廣泛和深入地接入更多的垂直領(lǐng)域,通用基礎(chǔ)大模型將作為數(shù)字經(jīng)濟(jì)基礎(chǔ)設(shè)施,開展專業(yè)開發(fā)和提供服務(wù)[4]。因此,大力推動(dòng)并支持其發(fā)展,獲取大模型話語權(quán)是十分重要的,制度偏向科技進(jìn)步的價(jià)值邏輯得以證成。
生成式人工智能將技術(shù)支持、服務(wù)提供與內(nèi)容生產(chǎn)融為一體,無法適用以往按照功能區(qū)分注意義務(wù)的制度邏輯。當(dāng)前,網(wǎng)絡(luò)治理的重心放在網(wǎng)絡(luò)服務(wù)提供者身上,要求其承擔(dān)平臺責(zé)任[19],對技術(shù)支持者并非規(guī)制重點(diǎn),往往僅作科技倫理的要求,不要求其負(fù)擔(dān)特別的注意義務(wù)。大模型訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)規(guī)制思路應(yīng)考慮技術(shù)開發(fā)的現(xiàn)實(shí)需求和大模型所處具體位置的風(fēng)險(xiǎn),做出不同的注意義務(wù)安排。
通用大模型這種強(qiáng)人工智能化的“自主性”確實(shí)是其突出特點(diǎn),但在當(dāng)前的討論中,無論是產(chǎn)品責(zé)任說、代理說、監(jiān)護(hù)人說或者雇主責(zé)任說,核心問題都在于如何理順生成式人工智能與其研發(fā)公司(或者說生成式人工智能服務(wù)提供者)之間的關(guān)系,通過解釋使后者在現(xiàn)有法律體系下正當(dāng)?shù)爻袚?dān)人工智能自發(fā)訓(xùn)練數(shù)據(jù)導(dǎo)致的侵權(quán)責(zé)任。無論何種觀點(diǎn),最終的責(zé)任承擔(dān)都落到生成式人工智能服務(wù)提供者身上,與其糾結(jié)于將這一新型事物的性質(zhì)歸入既存責(zé)任樣態(tài),不如跳出制度藩籬,從其自身的技術(shù)特點(diǎn)和現(xiàn)實(shí)需求出發(fā),在科技與制度的交互中為其作出最適宜的規(guī)制安排。
3 "訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)的過錯(cuò)責(zé)任及注意義務(wù)
3.1 基于技術(shù)價(jià)值的一般過錯(cuò)歸責(zé)原則
相較于權(quán)利受侵害者,由生成式人工智能一方承擔(dān)無過錯(cuò)責(zé)任或過錯(cuò)推定責(zé)任確實(shí)更符合其掌握的技術(shù)優(yōu)勢,滿足對知識產(chǎn)權(quán)的保護(hù)要求。拋開上述對該問題并無實(shí)質(zhì)影響的主體資格問題不談,從現(xiàn)有制度出發(fā),當(dāng)前法律對網(wǎng)絡(luò)服務(wù)提供者侵權(quán)和著作權(quán)被侵權(quán)問題均沒有規(guī)定特殊的歸責(zé)原則,這兩種主要的規(guī)制思路均沿一般過錯(cuò)責(zé)任原則展開,為生成式人工智能訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)提供了解決思路。
回歸生成式人工智能本身,更重要的是其技術(shù)價(jià)值要求制度重心偏向鼓勵(lì)技術(shù)發(fā)展的寬松一端?;A(chǔ)大模型的建成將起到支撐數(shù)字經(jīng)濟(jì)發(fā)展的基礎(chǔ)設(shè)施作用,會使整個(gè)社會的經(jīng)濟(jì)運(yùn)行、生產(chǎn)方式產(chǎn)生巨大變革,生成式人工智能目前處于初創(chuàng)階段,技術(shù)不斷改進(jìn)需要為其發(fā)展留下更為寬松的法律環(huán)境,適當(dāng)在一定空間培育極具潛力的新生事物很有必要。從侵權(quán)責(zé)任而言,嚴(yán)格責(zé)任顯然對人工智能企業(yè)過于苛刻[16],不必困于如何將新型技術(shù)問題歸入傳統(tǒng)制度解決的思路,而是從生成式人工智能技術(shù)特點(diǎn)出發(fā),在比例原則指導(dǎo)下分析侵權(quán)風(fēng)險(xiǎn)和技術(shù)的價(jià)值,在保護(hù)版權(quán)的同時(shí)釋放知識產(chǎn)權(quán)造福人類的制度活力,以一般過錯(cuò)原則在侵權(quán)治理的源頭上為其松綁,推進(jìn)通用人工智能的發(fā)展壯大與自我完善。
生成式人工智能版權(quán)侵權(quán)適用一般過錯(cuò)原則不僅是價(jià)值衡量的結(jié)果,更是技術(shù)實(shí)踐操作的需要?;谏墒饺斯ぶ悄艿娜藱C(jī)交互屬性,用戶在使用中傾向于向其提供作品內(nèi)容,從而獲得完善或潤色,甚至存在操作不當(dāng)或者提供未經(jīng)授權(quán)的他人作品等問題。訓(xùn)練數(shù)據(jù)的侵權(quán)往往由多方面原因?qū)е?,不能完全將其歸責(zé)于生成式人工智能服務(wù)提供者。而是需要根據(jù)不同情形具體分析各方主體的過錯(cuò),進(jìn)而分別確定其應(yīng)當(dāng)承擔(dān)的相應(yīng)責(zé)任,這為適用一般過錯(cuò)責(zé)任提供了有力支持。
3.2 過錯(cuò)責(zé)任之下:基于技術(shù)特性的分級注意義務(wù)
在對通用人工智能訓(xùn)練數(shù)據(jù)適用一般過錯(cuò)責(zé)任歸責(zé)原則的語境之下,進(jìn)一步討論通用人工智能服務(wù)提供者的注意義務(wù)問題。鑒于生成式人工智能已經(jīng)打破原有的“技術(shù)支持者—服務(wù)提供者—內(nèi)容生產(chǎn)者”的網(wǎng)絡(luò)治理主體劃分標(biāo)準(zhǔn),無法再對其適用現(xiàn)有制度中針對某一主體的注意義務(wù)要求。對生成式人工智能大模型的治理需要新的劃分標(biāo)準(zhǔn)和思路。歐盟《人工智能法案》對人工智能按照場景風(fēng)險(xiǎn)等級進(jìn)行分級管理,對不同風(fēng)險(xiǎn)等級的模型作不同的義務(wù)要求,這一治理思路值得借鑒。
《生成式人工智能服務(wù)管理暫行辦法》第二條關(guān)于“利用生成式人工智能技術(shù)提供具體服務(wù)”的表述已經(jīng)體現(xiàn)出其兼具基礎(chǔ)研發(fā),并在基礎(chǔ)模型之上進(jìn)行具體業(yè)態(tài)需要的專業(yè)開發(fā),最終鏈接到服務(wù)應(yīng)用的分層運(yùn)營模式[20]。通用式人工智能大模型只有結(jié)合具體的行業(yè)才能發(fā)揮真正的作用,因此應(yīng)區(qū)分“基礎(chǔ)模型層—專業(yè)模型層—服務(wù)應(yīng)用層”分層治理的底層邏輯。在不同的運(yùn)作層級,生成式人工智能距離終端用戶的距離不同,造成風(fēng)險(xiǎn)的可能和影響程度不同,因此每層對應(yīng)的侵權(quán)注意義務(wù)也不同,需進(jìn)行分層治理。
從基礎(chǔ)模型層到專業(yè)模型層再到服務(wù)應(yīng)用層,侵權(quán)風(fēng)險(xiǎn)的可能逐層攀升,技術(shù)研發(fā)的自由度逐層收緊,注意義務(wù)程度逐層提高。在現(xiàn)有治理框架內(nèi),技術(shù)提供者因?yàn)檠邪l(fā)任務(wù)最重對信息內(nèi)容安全的注意義務(wù)更低,內(nèi)容生產(chǎn)者因?yàn)榫嚯x用戶最近對信息內(nèi)容安全的注意義務(wù)更高。
對應(yīng)到生成式人工智能分層治理中,用戶服務(wù)層以生成內(nèi)容方式直觀呈現(xiàn)侵權(quán)事實(shí),引起權(quán)利人維權(quán)糾紛的風(fēng)險(xiǎn)大,其對訓(xùn)練數(shù)據(jù)合法性的注意義務(wù)也要相應(yīng)提高。對于該階段新產(chǎn)生的訓(xùn)練數(shù)據(jù)侵權(quán)問題可以采取“獲得授權(quán)與否”來證明過錯(cuò)有無,以一般過錯(cuò)歸責(zé)原則下較高的注意義務(wù)要求來平衡知識產(chǎn)權(quán)保護(hù)和模型應(yīng)用試錯(cuò),促使生成式人工智能服務(wù)提供者在該環(huán)節(jié)獲取訓(xùn)練數(shù)據(jù)的審慎,若該侵權(quán)由用戶引起也可按各自過錯(cuò)承擔(dān)相應(yīng)責(zé)任。
而基礎(chǔ)模型層和專業(yè)模型層都主要聚焦于技術(shù)的開發(fā),距離用戶服務(wù)較遠(yuǎn),雖然事實(shí)狀態(tài)上存在著侵權(quán)行為,但復(fù)雜的運(yùn)作模式使得著作權(quán)人難以發(fā)現(xiàn),引發(fā)糾紛后果和風(fēng)險(xiǎn)的可能性較小。過分關(guān)注訓(xùn)練數(shù)據(jù)合法性與否,會降低技術(shù)研發(fā)效率。因此,其注意義務(wù)可借鑒避風(fēng)港原則,以版權(quán)侵權(quán)行為是否足夠明顯、權(quán)利人是否進(jìn)行通知來進(jìn)行判斷,減輕模型開發(fā)環(huán)節(jié)應(yīng)對海量數(shù)據(jù)合法的注意義務(wù)。具體來說,基礎(chǔ)模型層應(yīng)以發(fā)展為導(dǎo)向,要求其滿足科技倫理注意義務(wù)即可,而專業(yè)模型層因?yàn)閷π袠I(yè)特點(diǎn)更了解,賦予其符合行業(yè)要求的注意義務(wù),在促進(jìn)產(chǎn)業(yè)發(fā)展的同時(shí)需考慮存在的侵權(quán)風(fēng)險(xiǎn)。
4 結(jié)語
人工智能技術(shù)推動(dòng)新質(zhì)生產(chǎn)力發(fā)展,以生成式人工智能為起點(diǎn)的通用大模型將是數(shù)字經(jīng)濟(jì)發(fā)展的基礎(chǔ)設(shè)施。然而新技術(shù)發(fā)展賦能各行各業(yè)的同時(shí)也帶來安全風(fēng)險(xiǎn),需要法律制度把控發(fā)展和安全的天平,既需要為其留出生長空間,又需要避免既存的基本權(quán)利遭受過度損害。生成式人工智能訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)已經(jīng)成為司法實(shí)踐的現(xiàn)實(shí)問題,而歸責(zé)原則是侵權(quán)責(zé)任承擔(dān)的開端,需要在立足實(shí)踐的基礎(chǔ)上進(jìn)一步作面向未來技術(shù)的理論探討。以大模型訓(xùn)練數(shù)據(jù)的技術(shù)原理和行業(yè)模式論證傳統(tǒng)的著作權(quán),以及網(wǎng)絡(luò)平臺治理思路在新技術(shù)面前的不足,在鼓勵(lì)創(chuàng)新兼顧保障安全的價(jià)值指導(dǎo)下,闡釋適用一般過錯(cuò)歸責(zé)原則的合理性,進(jìn)而在一般過錯(cuò)歸責(zé)的范圍內(nèi)討論注意義務(wù)分級治理,對偏重技術(shù)開發(fā)的基礎(chǔ)模型層、專業(yè)模型層作出較輕的制度束縛,對接近使用者的用戶服務(wù)層要求相對高的注意義務(wù)以保障使用者權(quán)利和市場安全。本文以訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)的歸責(zé)原則論證為切入點(diǎn),與當(dāng)前理論探討中主要關(guān)注的“合理使用”問題作出相反思路的辯證研究,對該問題的思考開拓了新的維度。但是,本文并未涉及對訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)的其他客觀構(gòu)成要件以及責(zé)任承擔(dān)方式的探討,對生成式人工智能主體資格的問題也未作過多解釋。今后可在技術(shù)發(fā)展和制度進(jìn)步的基礎(chǔ)上對通用人工智能訓(xùn)練數(shù)據(jù)的版權(quán)侵權(quán)做更深入的研究。
參考文獻(xiàn):
[1] DISTRICT COURT" D" DELAWARE. Getty Images (US), Inc. v. Stability AI, Inc. (1:23-cv-00135)[EB/OL].(2023-02-03)[2023-12-02].https://storage.courtlistener.com/recap/gov.uscourts.ded.81407/gov.uscourts.ded.81407.1.0.pdf
[2] 張曉霞,張嘉藝.侵權(quán)行為構(gòu)成要件對“接觸加實(shí)質(zhì)性相似”規(guī)則的制衡——論侵害著作權(quán)糾紛的裁判思路[J].知識產(chǎn)權(quán), 2021(12):40-51.
[3] 李安.機(jī)器學(xué)習(xí)的版權(quán)規(guī)則:歷史啟示與當(dāng)代方案[J].環(huán)球法律評論,2023,45(6):97-113.
[4] 張凌寒.生成式人工智能的法律定位與分層治理[J].現(xiàn)代法學(xué),2023,45(4):126-141.
[5] 高笑笑.人工智能對著作權(quán)制度的法律挑戰(zhàn)與機(jī)遇——以ChatGPT生成“作品”為例[J].科技創(chuàng)業(yè)月刊,2023,36(10):30-34.
[6] 中國信息通信研究院政策與經(jīng)濟(jì)研究所,中國科學(xué)院計(jì)算技術(shù)研究所智能算法安全重點(diǎn)實(shí)驗(yàn)室.大模型治理藍(lán)皮報(bào)告——從規(guī)則走向?qū)嵺`(2023年)[EB/OL].(2023-11-24)[2023-12-26].http://www.caict.ac.cn/kxyj/qwfb/ztbg/202311/t20231124_466440.htm.
[7] 張平.《反不正當(dāng)競爭法》的一般條款及其適用——搜索引擎爬蟲協(xié)議引發(fā)的思考[J].法律適用,2013(3):46-51.
[8] 劉友華,魏遠(yuǎn)山.機(jī)器學(xué)習(xí)的著作權(quán)侵權(quán)問題及其解決[J].華東政法大學(xué)學(xué)報(bào),2019,22(2):68-79.
[9] 潘香軍.論機(jī)器學(xué)習(xí)訓(xùn)練集的著作權(quán)風(fēng)險(xiǎn)化解機(jī)制[C].上海市法學(xué)會.2023年世界人工智能大會青年論壇論文集,2023.
[10] 楊華權(quán).論爬蟲協(xié)議對互聯(lián)網(wǎng)競爭關(guān)系的影響[J].知識產(chǎn)權(quán),2014(1):12-21.
[11] 馬忠法,肖宇露.人工智能學(xué)習(xí)創(chuàng)作的侵權(quán)困境與出路[J].武陵學(xué)刊,2019,44(5):66-76.
[12] MARTIN POPEL,MARKETA TOMKOVA,JAKUB TOMEK,et al.Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals[J]. Nature Communications,2020(11): 4381-4381.
[13] 朱開鑫,張藝群.“你的AI侵犯了我的版權(quán)”:淺談AIGC背后的版權(quán)保護(hù)問題[EB/OL].(2023-03-01)[2024-01-02].https://mp.weixin.qq.com/s/FFVlVmltIdiagM35yzCWIw.
[14] 馬治國,趙龍.文本與數(shù)據(jù)挖掘?qū)χ鳈?quán)例外體系的沖擊與應(yīng)對[J].西北師大學(xué)報(bào)(社會科學(xué)版),2021,58(4):107-115.
[15] 王沛然.從控制走向訓(xùn)導(dǎo):通用人工智能的“直覺”與治理路徑[J].東方法學(xué),2023(6):188-198.
[16] 王若冰.論生成式人工智能侵權(quán)中服務(wù)提供者過錯(cuò)的認(rèn)定——以“現(xiàn)有技術(shù)水平”為標(biāo)準(zhǔn)[J].比較法研究,2023(5):20-33.
[17] 胡凌.生成式人工智能知識產(chǎn)權(quán)侵權(quán)的司法考量[J].數(shù)字法治,2023(5):20-25.
[18] 王利明.生成式人工智能侵權(quán)的法律應(yīng)對[J].中國應(yīng)用法學(xué),2023(5):27-38.
[19] 劉珂宜.算法推薦技術(shù)下短視頻平臺版權(quán)侵權(quán)行為認(rèn)定[J].科技創(chuàng)業(yè)月刊,2024,37(2):166-170.
[20] 張凌寒.一文讀懂生成式AI新規(guī)六大亮點(diǎn)——不發(fā)展是最大的不安全[EB/OL].(2023-07-14)[2024-01-02].https://mp.weixin.qq.com/s/ZYjEfPsdtthq——TDaIS0Nw.
(責(zé)任編輯:要 毅)
基金項(xiàng)目:國家社會科學(xué)基金重大項(xiàng)目“數(shù)字新聞學(xué)理論、方法與實(shí)踐研究”(20&ZD317)
作者簡介:姚秀文(2001-),女,天津大學(xué)法學(xué)院碩士研究生,研究方向:民商法學(xué)。