張?zhí)锟?/p>
人工智能(AI)的一個(gè)重要功能是搜集、處理大數(shù)據(jù),以此為基礎(chǔ)生成AI產(chǎn)品。例如,美國的OpenAI公司在2022年11月30日發(fā)布了聊天機(jī)器人程序ChatGPT(大型語言模型),其功能就是建立在大數(shù)據(jù)的基礎(chǔ)之上。ChatGPT的應(yīng)用范圍廣泛,可以用于回答問題、文本生成(寫文案)、翻譯、代碼生成等多個(gè)領(lǐng)域。
然而,在這些用于生成AI產(chǎn)品的大數(shù)據(jù)中,有不少涉及知識產(chǎn)權(quán)問題。在這種情況下,一場“數(shù)據(jù)起義”正在美國及其他AI技術(shù)較發(fā)達(dá)的國家和地區(qū)爆發(fā)。電影從業(yè)者、藝術(shù)家、作家、社交媒體公司和新聞機(jī)構(gòu)將矛頭指向ChatGPT和Stable Diffusion等生成式AI工具,指責(zé)它們在未經(jīng)許可或未提供補(bǔ)償?shù)那闆r下,非法利用內(nèi)容創(chuàng)作者的作品訓(xùn)練大型語言模型。
“數(shù)據(jù)起義”是生成式AI工具崛起后由知識產(chǎn)權(quán)的歸屬問題引發(fā)的,其核心議題在于數(shù)據(jù)是否具有價(jià)值,如果有價(jià)值,應(yīng)如何保護(hù)其價(jià)值。
AI產(chǎn)品的基礎(chǔ)是大數(shù)據(jù),即傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件無法處理的大規(guī)模的、復(fù)雜的數(shù)據(jù)集。維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中將大數(shù)據(jù)定義為通過對所有數(shù)據(jù)進(jìn)行分析處理而不是采用隨機(jī)抽樣方法處理的數(shù)據(jù)。大數(shù)據(jù)可以包括來源各異的大量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指可以被錄入數(shù)據(jù)庫的數(shù)據(jù),如商業(yè)機(jī)構(gòu)的訂單、金融交易或醫(yī)療機(jī)構(gòu)的患者和藥物數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)則是指無法輕易錄入傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù),如電子郵件、社交媒體上的各類帖子、文章、視頻、照片、錄音等。
無論是結(jié)構(gòu)化數(shù)據(jù),還是非結(jié)構(gòu)化數(shù)據(jù),都具有一定的價(jià)值,因此可以將其分為原始數(shù)據(jù)和價(jià)值數(shù)據(jù)兩類。原始數(shù)據(jù)包括各類個(gè)人或事物的數(shù)據(jù),如性別、年齡、住址、職業(yè)等。這些數(shù)據(jù)具有價(jià)值,商家可以利用其投放廣告,廠家可以通過分析這些數(shù)據(jù)研發(fā)產(chǎn)品。不過,很多原始數(shù)據(jù)是應(yīng)當(dāng)受到法律保護(hù)的隱私數(shù)據(jù)。價(jià)值數(shù)據(jù),又稱內(nèi)容數(shù)據(jù),是指眾多創(chuàng)作者(作家、藝術(shù)家、記者、翻譯家、新聞媒體等)在各類互聯(lián)網(wǎng)平臺上發(fā)表的文字、圖片、視頻作品以及程序員發(fā)布的代碼等。這些數(shù)據(jù)都是通過個(gè)人或團(tuán)體的腦力勞動、體力勞動創(chuàng)造的知識產(chǎn)品,不僅有價(jià)值,而且有知識產(chǎn)權(quán)。
現(xiàn)在,一些大型信息技術(shù)公司可以隨意從網(wǎng)絡(luò)上抓取大量的內(nèi)容數(shù)據(jù),然后用這些數(shù)據(jù)訓(xùn)練AI,從而產(chǎn)生更強(qiáng)大、更具有商業(yè)價(jià)值的AI軟件,如ChatGPT-4,已經(jīng)涉及知識產(chǎn)權(quán)侵權(quán)。在內(nèi)容數(shù)據(jù)的創(chuàng)作者看來,他們創(chuàng)作的內(nèi)容數(shù)據(jù)應(yīng)受到知識產(chǎn)權(quán)的保護(hù),因此,一些創(chuàng)作者已經(jīng)采取行動,甚至提起訴訟,以保護(hù)自己創(chuàng)造的內(nèi)容數(shù)據(jù)。
在美國,包括喬迪·皮科特、瑪格麗特·阿特伍德和阮越清在內(nèi)的5000多名作家簽署了一份請?jiān)笗罂萍脊驹谑褂盟麄兊淖髌罚ㄖ饕獮闀┳鳛橛?xùn)練數(shù)據(jù)時(shí),要征得其許可,并給予其署名權(quán)和經(jīng)濟(jì)補(bǔ)償。美國的《紐約時(shí)報(bào)》和《華盛頓郵報(bào)》等媒體也表示,使用受版權(quán)保護(hù)的新聞文章作為AI產(chǎn)品的訓(xùn)練數(shù)據(jù)具有潛在風(fēng)險(xiǎn)和法律問題,呼吁AI公司尊重作者、出版商的創(chuàng)作勞動和知識產(chǎn)權(quán)。
為了爭取權(quán)益,美國編劇工會已在5月2日開始罷工,要求影視作品投資方、制作方提高編劇的待遇,反對AI侵犯他們的知識產(chǎn)權(quán)。該工會稱“AI就是一種徹頭徹尾的‘剽竊機(jī)器”。美國演員工會及廣播電視藝人聯(lián)合工會也在7月13日罷工,要求流媒體巨頭為他們提供更公平的利潤分配和更好的工作條件,并要求制片公司保證不會以AI技術(shù)生成的面孔和聲音來替代演員。
一些個(gè)人和機(jī)構(gòu)還將訴訟提上了議事日程。Reddit和推特等社交媒體公司、《紐約時(shí)報(bào)》和美國全國廣播公司(NBC)等新聞機(jī)構(gòu)、科幻作家保羅·特倫布雷和女演員莎拉·西爾弗曼等除了反對AI公司擅自收集他們的作品內(nèi)容數(shù)據(jù)外,還向OpenAI公司和Meta公司提起了訴訟。
AI公司也在尋找法律依據(jù),以對抗“無償使用內(nèi)容數(shù)據(jù)”的爭議。OpenAI公司辯稱,使用受版權(quán)保護(hù)的作品訓(xùn)練AI模型是合理的,因?yàn)檫@符合美國版權(quán)法中“轉(zhuǎn)換性使用”的概念,只要材料以一種“變革性”的方式改變,就會創(chuàng)造一個(gè)例外。此外,他們還提到了1992年美國聯(lián)邦上訴法院的一項(xiàng)判決,允許公司對其他公司的軟件代碼進(jìn)行逆向工程,以設(shè)計(jì)競爭產(chǎn)品。另外,一些技術(shù)公司還以慣例為由,稱許多公司都使用來自公共來源的數(shù)據(jù)(如發(fā)布到開放網(wǎng)絡(luò)和公共數(shù)據(jù)集的信息)訓(xùn)練AI模型。然而,無論AI公司如何辯解,都無法否認(rèn)內(nèi)容數(shù)據(jù)是知識產(chǎn)品的客觀屬性。因此,現(xiàn)階段需要通過立法來解決這一爭議。
在法律尚不明確的情況下,內(nèi)容數(shù)據(jù)的創(chuàng)作者處于弱勢地位,他們只能通過有限的方式保護(hù)自己的權(quán)益。首先,創(chuàng)作者可以通過機(jī)構(gòu)與AI公司進(jìn)行談判并簽署協(xié)議,比如,美聯(lián)社在7月14日同意授權(quán)OpenAI公司使用1985年以后的新聞報(bào)道檔案,美聯(lián)社則可以利用其AI技術(shù)和產(chǎn)品進(jìn)行創(chuàng)作。然而,個(gè)人創(chuàng)作者并不具備機(jī)構(gòu)媒體那樣強(qiáng)大的力量,他們只能通過一些設(shè)置屏障的方法限制AI公司使用其內(nèi)容數(shù)據(jù),比如,鎖定作品,防止AI獲?。痪帉懢哂蓄嵏残缘膬?nèi)容以干擾AI的學(xué)習(xí);抵制發(fā)布AI生成內(nèi)容的網(wǎng)站。然而,可以想象,這些方法無法完全阻止強(qiáng)大的AI公司對內(nèi)容數(shù)據(jù)的搜集、抓取和使用。目前,一些AI公司的技術(shù)能使生成的新產(chǎn)品與原始內(nèi)容數(shù)據(jù)有較大的差異,以證明他們并未剽竊內(nèi)容數(shù)據(jù)。此外,一些AI公司還在產(chǎn)品中安裝了過濾器,確保不會生成與現(xiàn)有內(nèi)容數(shù)據(jù)(作品)非常相似的內(nèi)容。例如,YouTube視頻平臺已經(jīng)使用相關(guān)技術(shù),可以檢測并自動刪除已上傳的受版權(quán)保護(hù)的內(nèi)容數(shù)據(jù)。
在信息時(shí)代,內(nèi)容數(shù)據(jù)創(chuàng)作者與AI公司之間的矛盾亟待法律調(diào)節(jié),以實(shí)現(xiàn)社會公正。當(dāng)前,內(nèi)容數(shù)據(jù)創(chuàng)作者的行動和法律訴訟正在推動這一進(jìn)程。歐洲議會于2023年6月通過了歐盟《人工智能法案》,隨后該法案將進(jìn)入歐盟委員會、歐洲議會和成員國之間的三方談判協(xié)商程序,以確定最終的立法文本。中國于2023年7月13日也公布了《生成式人工智能服務(wù)管理暫行辦法》。然而,目前國內(nèi)外出臺的法律法規(guī)仍然存在不完善之處,例如,如何確定內(nèi)容數(shù)據(jù)被AI碎片化地搜集采用,如何保護(hù)內(nèi)容數(shù)據(jù)創(chuàng)作者的權(quán)益,都需要詳盡和明確的解釋。
【責(zé)任編輯】張小萌