一、人工智能數據訓練的著作權侵權分析
(一)人工智能數據訓練的運用
當前,生成式人工智能專注于通過對大量數據的學習和分析,生成、創(chuàng)作全新的內容,豐富人工智能的內涵和應用場景,推動人工智能技術的進一步發(fā)展,然而這也帶來新的問題和挑戰(zhàn),促使人們重新審視人工智能的倫理、法律和社會影響,推動整個人工智能領域在發(fā)展過程中更加注重平衡技術進步與風險防范。
生成式人工智能數據訓練是其核心環(huán)節(jié),對模型性能和應用效果起關鍵作用。生成式人工智能通過搜集、學習大量數據并將數據進行預處理、整合等一系列流程,使模型掌握數據規(guī)律與模式,進而生成新內容。在數據訓練過程中,生成式人工智能接觸到的數據越豐富多樣,其生成的內容也就越多樣化[1]。隨著訓練的深入,生成式人工智能還能夠不斷優(yōu)化生成的內容,提高生成內容的質量,使其更滿足用戶的需求。
(二)人工智能數據訓練的著作權侵權風險
近年,國內生成式人工智能數據訓練著作權侵權案件頻發(fā)。要解決這些問題,有關主體亟須從法律政策、技術創(chuàng)新等不同維度采取措施,在推動人工智能產業(yè)健康發(fā)展的同時實現技術創(chuàng)新與版權保護的利益平衡。
生成式人工智能數據訓練著作權風險貫穿始終,首先,在數據收集階段,生成式人工智能數據訓練所汲取的數據來源廣泛,這使得逐一獲取授權幾乎是不可能完成的任務,某些人工智能數據訓練在實際操作中選擇繞過授權環(huán)節(jié),從而引發(fā)著作權侵權風險[2]。其次,在數據處理階段,生成式人工智能對原作品進行翻譯、改編或匯編時,可能侵犯作者的演繹權,尤其數據訓練過程對輸入的數據進行分析、處理和轉換,這可能會改變數據的原有形式和內容,從而構成對改編權的侵犯[3]。最后,在數據輸出階段,生成式人工智能數據訓練可能包含大量源自未授權作品的元素,會導致對作品信息網絡傳播權的侵犯,且其輸出的內容是機器內部的深度學習行為,具有一定隱蔽性,著作權人舉證證明自己的原創(chuàng)內容被用于數據訓練存在難度??梢?,人工智能數據訓練中著作權問題的表現形式多樣,且隨著技術的發(fā)展和應用場景的拓展,還可能出現新的侵權形式。為了應對這些侵權風險,法律上的侵權責任豁免事由,如合理使用、法定許可等被不斷提及。然而,這些制度在人工智能的實際應用中存在適用困境。未來,有關主體亟須在法律和技術等方面不斷探索完善,以更好地平衡技術發(fā)展與版權保護之間的關系[4]。
二、人工智能數據訓練的著作權侵權認定及問題
(一)人工智能數據訓練的著作權侵權認定
1.人工智能數據訓練中的非表達性使用
非表達性使用在美國SegaEnters.v.Accolade,Inc.案中被首次援引,該案判決認為被告Accolade公司將Sega公司的作品作為計算機程序的輸入材料,沒有表達性地使用作品,不構成侵權[5]。其認為,在人工智能基礎模型訓練中,對他人作品的非表達性使用是基于作品的工具性價值,并非利用原作品的獨創(chuàng)性表達,因此不屬于著作權法規(guī)制的侵權事項。也有學者認為,人工智能數據訓練不可避免地吸收作者的獨創(chuàng)性表達成分,并將其存儲到計算機的內存、硬盤等設備。因此,非表達性使用并不能完全規(guī)避人工智能數據訓練中潛在的著作權侵權風險。
2.人工智能數據訓練中合理使用的適用性問題
我國著作權法規(guī)定多種合理使用的情形,但在人工智能數據訓練過程中,人工智能對數據的利用及其輸出內容通常具有商業(yè)性,這與傳統(tǒng)的合理使用中非商業(yè)性的目的要件存在沖突。此外,人工智能數據訓練中對作品的使用量往往是海量的,遠遠超出傳統(tǒng)合理使用中“適當引用”的范圍。在實踐中,一些人工智能研發(fā)者認為數據訓練行為屬于合理使用的范疇,但著作權人則持不同意見,雙方往往因此產生糾紛[6]。由此,司法實踐由于缺乏明確的法律依據和判斷標準,難以做出準確的裁決。
(二)人工智能數據訓練的著作權侵權認定問題
傳統(tǒng)的著作權侵權認定的標準為“接觸 + 實質性相似 + 法定利用行為”,在人工智能數據訓練場景中,這一標準的適用面臨諸多難題。在證明“接觸”方面,人工智能數據訓練往往涉及海量數據,要逐一證明其沒有接觸過某一特定的受著作權保護的作品難度巨大。同時,人工智能模型數據訓練提取特征式的處理方式使得傳統(tǒng)的“實質性相似”判斷標準難以直接適用[7],即使是基于相同的訓練數據,在不同的輸入條件下也可能生成不同的結果?!胺ǘɡ眯袨椤敝饕ê侠硎褂?、法定許可、強制許可等,在侵權認定過程中適用“合理使用”這一利用行為進行抗辯的情形相對更具爭議,不足以解決人工智能數據訓練中的著作權侵權問題。
1.非表達性使用規(guī)則
非表達性使用規(guī)則以“實施復制即侵權”為預設前提,但根據我國著作權法規(guī)定來看,實施復制行為并不必然構成侵權,也有可能構成合理使用。為了進行技術研發(fā)、科學研究等實施的合理復制行為,與傳統(tǒng)的侵權型復制存在本質區(qū)別。合理使用制度旨在平衡著作權人的利益和社會公共利益,而非表達性使用規(guī)則是否能完全被納入合理使用的范疇,還需要有關主體進一步探討。此外,對非表達性使用的判斷標準尚未明確,這導致在侵權認定中缺乏統(tǒng)一的依據,容易出現不同法官或機構對同一行為的判斷結果不一致的情況。
2.合理使用制度
目前,我國著作權法對合理使用制度的窮盡式列舉中并沒有涉及人工智能數據訓練這種新興作品使用行為,在一定程度上難以適應人工智能的發(fā)展變化,其兜底條款規(guī)定也較為模糊,難以預判并涵蓋所有在人工智能數據訓練的過程中可能出現的情形。這樣便會進一步導致在司法裁判中,適用兜底條款難以決斷人工智能數據訓練是否構成合理使用,可能造成過度保護一方利益,而損害另一方利益的情況,破壞利益平衡關系。人工智能技術的快速發(fā)展使得數據訓練的方式和自的發(fā)生變化,導致傳統(tǒng)的合理使用制度難以適應這種變化。在大規(guī)模數據訓練中,人工智能對作品的使用方式更加復雜,涉及更多的技術環(huán)節(jié)和利益主體,這給合理使用制度的適用帶來挑戰(zhàn),無論在著作權人與人工智能使用者之間抑或是在公共利益與個人利益之間,都難以尋求平衡點[8]。
三、利益平衡視域下人工智能數據訓練的著作權侵權認定分析
(一)技術保護
我國著作權法第四十九條規(guī)定,為保護著作權和與著作權有關的權利,權利人可以采取技術措施。在人工智能數據訓練情景下,有關主體應通過對技術保護的適用范圍細化等方式,便于權利人選用多種技術手段從不同角度保護作品。例如,權利人可以借助技術保護措施,或通過設置口令、防止復制或接觸的水印或密碼,或者對侵權風險較大的作品以“貼標簽”等明示的方式進行提示,防止用戶未經許可使用或者接觸作品;權利人可以利用技術保護措施,實現對其享有著作權作品的在線授權許可,在保護權益的同時有效降低人工智能數據訓練的侵權風險[9]。此外,有關主體還應完善相關法律法規(guī),在利用技術保護措施對權利人的合法權益進行保護的同時,注意與合理使用相協調,通過技術手段實現對合理使用的識別和授權,從而平衡著作權保護與公眾利益之間的關系[10]
(二)注意義務
人工智能開發(fā)者作為有關主體應明確其在數據訓練中涉及的作品的著作權以及在使用作品過程中的注意義務,確保使用數據的行為符合法律規(guī)定。在數據收集環(huán)節(jié),有關主體應對作品數據來源進行嚴格審查,確保數據來源符合法律規(guī)定,不侵犯原著作權人利益[1]。在數據使用方面,有關主體也應清晰界定使用的目的、范圍和方式,尤其對商業(yè)目的的數據訓練,應事先獲得權利人的許可,并支付合理的報酬,而對非商業(yè)目的的數據訓練,應在符合一定條件的情況下適用合理使用制度,并在使用過程中尊重權利人的其他權利。在權利人適用技術保護措施限制作品的收集、使用時,有關主體應不能適用合理使用制度對作品進行接觸[12]。此外,有關主體應在數據訓練的過程中采取相應的技術手段避免人工智能輸出內容侵犯權利人的權利。
(三)利益平衡
生成式人工智能數據訓練涉及多方主體利益,平衡開發(fā)者、使用者與所有者等有關主體的權益對完善著作權侵權認定路徑意義重大。首先,明確權利義務是平衡權益的基本依據。有關主體應在人工智能數據訓練中清晰界定所有者對作品的權利范圍,明確開發(fā)者獲取和使用數據的合法途徑與條件以及使用者在使用人工智能服務時的權益和限制,并明確合理使用的具體情形,在促進技術創(chuàng)新的同時防止開發(fā)者過度利用數據侵犯所有者權益[13]。其次,采取技術措施是平衡權益的重要手段。所有者應運用加密、數字水印等技術保護作品,限制未經授權的訪問和使用;在數據訓練過程中開發(fā)者應尊重這些技術措施,不得擅自破解或規(guī)避,并利用技術手段對數據進行管理和監(jiān)控,確保數據的使用符合法律規(guī)定和道德規(guī)范;使用者應在發(fā)現生成式人工智能可能對作品、數據等構成侵權時,及時向相關部門、人工智能開發(fā)者告知,以便及時調整。最后,加強協商合作是平衡權益的有效方式。開發(fā)者應與所有者協商,通過購買、授權等方式獲取合法的數據資源,共同推動人工智能技術的發(fā)展。所有者應與開發(fā)者合作,將作品用于人工智能訓練,從中獲得相應的經濟回報。使用者應在使用人工智能服務時通過反饋和建議,促使開發(fā)者和所有者更好地滿
足自身需求[14]。
四、結語
文章通過對相關理論的考察、現狀分析、域外經驗借鑒及路徑的探討,力求在人工智能發(fā)展與著作權保護之間尋求利益平衡。未來,有關主體亟須持續(xù)關注技術革新帶來的新問題,進一步完善法律制度與監(jiān)管機制,以保障權利人的合法權益,推動人工智能產業(yè)創(chuàng)新發(fā)展,實現技術進步與法律秩序的良性互動。
[參考文獻]
[1]涂藤.機器學習的著作權侵權判定:超越非表達性使用理論[J].政治與法律,2024(10):162-176.[2]詹愛嵐,田一農.生成式人工智能機器學習中的著作權風險及其化解路徑[J].電子知識產權,2023(11):4-14.
[3]黃細江.由ChatGPT窺探智能時代我國著作權法堅守與變革[J].知識產權,2024(08):114-126.[4]劉杰勇.論人工智能生成內容的著作權保護:基于比較法的視角[J].比較法研究,2024(04):176-193.[5]袁帥.數字化背景下作品非表達性使用的著作權法應對[J].知識產權,2024(09):110-126.
[6]陶乾.基礎模型訓練的著作權問題:理論澄清與規(guī)則適用[J].政法論壇,2024(05):152-164.
[7]宋戈.作品“實質性相似 + 接觸”規(guī)則研究[D].武漢:中南財經政法大學,2019.
[8]徐小奔.技術中立視角下人工智能模型訓練的著作權合理使用[J].法學評論,2024(04):86-99.
[9]韓雨瀟.人工智能大模型訓練數據的版權風險與化解路徑[J].中國出版,2025(02):54-59.
[10]吳漢東.論人工智能生成內容的可版權性:實務、法理與制度[J].中國法律評論,2024(03):113-129.[11]劉禹.機器利用數據行為構成著作權合理使用的經濟分析[J].知識產權,2024(03):107-126.
[12]馮曉青,沈韻.生成式人工智能版權問題研究[J].中國版權,2023(02):15-22.
[13]李安.機器學習的版權規(guī)則:歷史啟示與當代方案[J].環(huán)球法律評論,2023(06):97-113.
[14」張武軍,王嘉鐸.人機共融到人機共榮:以ChatGPT為例論生成式人工智能生成物的可著作權性問題[J」.電子知識產權,2024(01):35-43