亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        彌合版權(quán)“二象性”:作為“非版權(quán)敏感信息”的媒體預(yù)測性數(shù)據(jù)

        2025-03-30 00:00:00劉海明陶鵬輝
        新聞愛好者 2025年3期

        【摘要】生成式人工智能使內(nèi)容生成范式由推導(dǎo)向預(yù)測躍遷,媒體產(chǎn)生的預(yù)測性數(shù)據(jù)帶來新的版權(quán)歸屬問題。媒體預(yù)測性數(shù)據(jù)既非傳統(tǒng)的版權(quán)數(shù)據(jù),也不是非版權(quán)數(shù)據(jù),這類數(shù)據(jù)處于版權(quán)數(shù)據(jù)和非版權(quán)數(shù)據(jù)的模糊地帶,面臨版權(quán)數(shù)據(jù)去版權(quán)化和非版權(quán)數(shù)據(jù)版權(quán)化的“二象性”實踐困境。一方面,預(yù)測生成的內(nèi)容不具有可識別的版權(quán)使用痕跡,版權(quán)可見性被預(yù)測過程遮蔽,導(dǎo)致版權(quán)數(shù)據(jù)的去版權(quán)化。另一方面,非版權(quán)數(shù)據(jù)經(jīng)預(yù)測后,能夠精準模仿媒體的風(fēng)格和模式,導(dǎo)致非版權(quán)數(shù)據(jù)的版權(quán)化。彌合版權(quán)“二象性”實踐困境,需要將媒體預(yù)測性數(shù)據(jù)作為一種“非版權(quán)敏感信息”理解,并在法律和倫理層面給予特殊對待。

        【關(guān)鍵詞】生成式人工智能;媒體預(yù)測性數(shù)據(jù);非版權(quán)敏感信息;媒體版權(quán)

        基于深度學(xué)習(xí)技術(shù)(DeepLearning)的生成式人工智能實現(xiàn)文本、圖像、音頻、視頻等全媒體數(shù)據(jù)的自主生成。生成式人工智能(ArtificialIntelligenceGeneratedContent,縮寫為AIGC)的核心在于對人類行為和思維的模仿和預(yù)測,根據(jù)用戶行為和內(nèi)容數(shù)據(jù)預(yù)測分析(PredictiveAnalysis)并生成符合目標群體或個人興趣的內(nèi)容和產(chǎn)品。不同于前人工智能時代機器學(xué)習(xí)(MachineLearning)和人類內(nèi)容創(chuàng)作中的模仿或復(fù)用,AIGC中的深度學(xué)習(xí)技術(shù)使機器內(nèi)容模仿能力從推導(dǎo)躍向預(yù)測。在AIGC訓(xùn)練數(shù)據(jù)集中,用于訓(xùn)練模型的媒體內(nèi)容數(shù)據(jù)并非是從有限內(nèi)容案例簡單仿制原創(chuàng)的推導(dǎo)性數(shù)據(jù),而是在包含大量語言和內(nèi)容案例中進行橫向和縱向比較,以精準生成指定作品的預(yù)測性數(shù)據(jù)。

        媒體預(yù)測性數(shù)據(jù)面臨版權(quán)實踐的“二象性”困境:一方面,通過預(yù)測性數(shù)據(jù)生成的數(shù)字內(nèi)容不具有可識別的版權(quán)使用痕跡,版權(quán)可見性被預(yù)測過程遮蔽,導(dǎo)致“版權(quán)數(shù)據(jù)的去版權(quán)化”;另一方面,不屬于傳統(tǒng)版權(quán)保護范疇的非版權(quán)數(shù)據(jù)(如風(fēng)格數(shù)據(jù)和行為數(shù)據(jù)),在經(jīng)由AIGC模型預(yù)測后,精準模仿媒體的風(fēng)格和模式,導(dǎo)致“非版權(quán)數(shù)據(jù)的版權(quán)化”。關(guān)于媒體預(yù)測性數(shù)據(jù)的實踐困境被學(xué)界忽略,如何使媒體預(yù)測性數(shù)據(jù)的版權(quán)實踐既保護媒體行業(yè)競爭力又尊重生成式人工智能開發(fā)主體利益,已成為構(gòu)建AIGC媒體版權(quán)框架的關(guān)鍵問題。媒體內(nèi)容作為AIGC訓(xùn)練數(shù)據(jù)集的低成本來源有助于推動技術(shù)迭代和普惠,但對媒體預(yù)測性數(shù)據(jù)的版權(quán)討論應(yīng)盡快跟進。

        一、預(yù)測性數(shù)據(jù):技術(shù)演進與問題緣起

        預(yù)測性數(shù)據(jù)是一種包含龐大分布式數(shù)據(jù)、用于集中識別數(shù)據(jù)關(guān)系和模式并用于預(yù)測的數(shù)據(jù)集合,是一種新的、基于實踐的AIGC數(shù)據(jù)版權(quán)視角。關(guān)注這一視角,需要理解人工智能發(fā)展過程中數(shù)據(jù)訓(xùn)練技術(shù)的演進路徑。

        預(yù)測性數(shù)據(jù)由訓(xùn)練數(shù)據(jù)發(fā)展而來。記錄并利用訓(xùn)練數(shù)據(jù)進行機器學(xué)習(xí)始于計算機系統(tǒng)誕生初期,早期經(jīng)典訓(xùn)練數(shù)據(jù)案例之一是1950年克勞德·香農(nóng)(ClaudeShannon)制造的Theseus迷宮解決機器人[1]。該機器人通過電話繼電器開關(guān)記錄的電流信號來記憶迷路路徑,電流信號事實上是Theseus的初始訓(xùn)練數(shù)據(jù)。然而,Theseus使用的電流數(shù)據(jù)只是單次路徑的記憶,當迷宮發(fā)生改動,原有記憶路徑會失效,須重新探索并記憶新路徑的電流信號。因此,Theseus機器人實質(zhì)是路徑數(shù)據(jù)的“指令式重復(fù)”,而非對潛在路徑解決方案的預(yù)測。以Theseus迷宮解決機器人為代表的早期機器學(xué)習(xí)案例激發(fā)計算和信息學(xué)家對機器訓(xùn)練技術(shù)的強烈熱情,促使計算和信息科學(xué)開始關(guān)注人工智能技術(shù)。

        隨后,人工智能技術(shù)的迅速發(fā)展導(dǎo)致訓(xùn)練數(shù)據(jù)的大規(guī)模部署和使用,符合現(xiàn)代定義的訓(xùn)練數(shù)據(jù)集開始被用于機器訓(xùn)練和算法處理。1958年,心理學(xué)家弗蘭克·羅森布拉特(FrankRosenblatt)設(shè)計出基于生物神經(jīng)元的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)——感知器(ThePerceptron)[2]。該技術(shù)展示出機器學(xué)習(xí)算法模仿人類智能的潛力,表明機器能夠從人類經(jīng)驗中學(xué)習(xí);并隨著時間推移提高其模仿和預(yù)測性能,成功將人工智能實在化并促使數(shù)據(jù)成為人工智能機器學(xué)習(xí)的發(fā)展基礎(chǔ)。此后,訓(xùn)練數(shù)據(jù)不再只是Theseus中簡單的指令數(shù)據(jù),規(guī)則和結(jié)構(gòu)化數(shù)據(jù)引入機器數(shù)據(jù)系統(tǒng),訓(xùn)練數(shù)據(jù)的輸出結(jié)果被賦予模仿屬性。

        然而,以感知器為代表的早期人工智能工具大多局限于研究層面[3],各類技術(shù)瓶頸使這些工具難以投入現(xiàn)實生活應(yīng)用,訓(xùn)練數(shù)據(jù)采集和使用也僅限于實驗室。訓(xùn)練數(shù)據(jù)遠離現(xiàn)實生活的情況在20世紀60—80年代期間,隨著基于人工智能技術(shù)的計算機程序——專家系統(tǒng)(ExpertSystem)的大規(guī)模應(yīng)用而得以轉(zhuǎn)變。1965年,系統(tǒng)學(xué)家愛德華·費根鮑姆(EdwardFeigenbaum)和遺傳學(xué)家約書亞·萊德伯格(JoshuaLederberg)成功開發(fā)出人類歷史上第一套人工智能專家系統(tǒng)Dendral[4],該系統(tǒng)能夠幫助化學(xué)家確定有機分子的結(jié)構(gòu),第一次展示出人工智能技術(shù)的實用價值。專家系統(tǒng)證明人工智能系統(tǒng)能夠在現(xiàn)實生活中大規(guī)模部署和應(yīng)用,為企業(yè)和個人帶來重大利益和價值,將訓(xùn)練數(shù)據(jù)來源擴展到現(xiàn)實生產(chǎn)生活。

        現(xiàn)實生產(chǎn)生活數(shù)據(jù)成為專家系統(tǒng)知識來源后,數(shù)據(jù)歸屬權(quán)和隱私權(quán)的爭議隨之而來。由于這一時期自然語言處理技術(shù)(NLP)的滯后,機器不能理解和訓(xùn)練非結(jié)構(gòu)化和無規(guī)則邏輯數(shù)據(jù),如自然語言文本和圖像等。因此,機器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)尚未觸及人類智力成果的版權(quán)和著作權(quán),這一局面在20世紀90年代被打破。

        伴隨機器學(xué)習(xí)算法和計算能力的指數(shù)式增長,20世紀90年代,更復(fù)雜的自然語言處理技術(shù)取得長足進步,使用算法處理模糊且需理解上下文的非結(jié)構(gòu)化數(shù)據(jù)成為可能。研究人員開始使用統(tǒng)計方法直接從自然語言數(shù)據(jù)中學(xué)習(xí)模式和特征,而不是依賴于預(yù)先定義的規(guī)則。從這一時期起,訓(xùn)練數(shù)據(jù)不再限于結(jié)構(gòu)化和邏輯化的數(shù)據(jù),算法可以處理現(xiàn)實世界人類活動產(chǎn)生的一手數(shù)據(jù),如聊天記錄、網(wǎng)絡(luò)圖片、視頻音頻等。圍繞提高算法擬合和模仿能力,訓(xùn)練數(shù)據(jù)在數(shù)量、質(zhì)量和學(xué)習(xí)方法等方面被不斷改進,數(shù)據(jù)采集邊界和數(shù)量被幾何式擴展和放大,一切人類活動生成數(shù)據(jù)都可以作為算法數(shù)據(jù)源,極大地挑戰(zhàn)了隱私和版權(quán)保護。

        20世紀90年代,人工智能技術(shù)的跨越式進步所產(chǎn)生的法律和道德問題并未被解決。當時訓(xùn)練數(shù)據(jù)只能通過人工編碼的方式提高算法和系統(tǒng)性能[5],訓(xùn)練數(shù)據(jù)成本高昂,致使開發(fā)人員只能在相對少量的數(shù)據(jù)集上測試算法,限制數(shù)據(jù)的擴大和算法的改進。同時,數(shù)據(jù)存儲技術(shù)尚未成熟,處理器的算力受到限制,制約著大規(guī)模數(shù)據(jù)采集運算。這個時期,即便機器能夠直接學(xué)習(xí)并模仿人類創(chuàng)作成果,也難以對隱私和版權(quán)構(gòu)成實質(zhì)威脅。

        進入21世紀,大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的出現(xiàn)徹底解除了機器采集和處理大規(guī)模數(shù)據(jù)的限制。大數(shù)據(jù)技術(shù)突破自然語言處理、計算機視覺乃至深度學(xué)習(xí)可用數(shù)據(jù)量的限制,提供對各種來源(包括但不限于社交媒體、傳感器、掃描儀等)大規(guī)模數(shù)據(jù)的訪問。算法能夠在大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練,學(xué)習(xí)更復(fù)雜的模式并做出更準確的預(yù)測。大數(shù)據(jù)技術(shù)使得訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量也大幅提高,分布式、多層次的數(shù)據(jù)集合包含更多、更復(fù)雜的經(jīng)驗和知識模式,訓(xùn)練數(shù)據(jù)成為具有強大預(yù)測能力的數(shù)據(jù)本體。

        然而,數(shù)據(jù)的預(yù)測性并非僅源于大型數(shù)據(jù)集,加工數(shù)據(jù)并輸出精準化的預(yù)測結(jié)果需要更先進的算法訓(xùn)練工具——深度學(xué)習(xí)。深度學(xué)習(xí)是一種使用人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí),模仿人腦的結(jié)構(gòu)和功能。深度學(xué)習(xí)技術(shù)包括深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等先進神經(jīng)網(wǎng)絡(luò)方法[6]。深度學(xué)習(xí)網(wǎng)絡(luò)由互連節(jié)點層組成,每個節(jié)點對輸入數(shù)據(jù)執(zhí)行特定的數(shù)學(xué)函數(shù),一層的輸出作為下一層的輸入,允許網(wǎng)絡(luò)從數(shù)據(jù)中提取越來越復(fù)雜的特征。深度學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)實現(xiàn)數(shù)據(jù)的層級表示,網(wǎng)絡(luò)自動識別不同抽象級別的模式和特征,直接的、具有標識性的具體數(shù)據(jù)被層級抽離為間接的、去標識化的抽象數(shù)據(jù)。

        深度學(xué)習(xí)技術(shù)的成熟標志著生成式人工智能時代正式到來,基于預(yù)測性數(shù)據(jù)的AIGC可以輕易確定何種數(shù)據(jù)特征與指定結(jié)果相關(guān),何種輸出結(jié)果更具預(yù)測精準性。訓(xùn)練數(shù)據(jù)集的數(shù)量和復(fù)雜性幾何式增加,模型對內(nèi)容數(shù)據(jù)處理、學(xué)習(xí)和預(yù)測的能力被放大,訓(xùn)練數(shù)據(jù)與生成內(nèi)容之間的經(jīng)驗?zāi)J綇耐茖?dǎo)演變?yōu)轭A(yù)測,人類實踐活動的數(shù)據(jù)和經(jīng)驗被徹底地、不可避免地“去特征化”使用。在技術(shù)維度,預(yù)測性數(shù)據(jù)是數(shù)據(jù)數(shù)量、質(zhì)量和學(xué)習(xí)方法均大幅提升的訓(xùn)練數(shù)據(jù)。在版權(quán)層面,預(yù)測性數(shù)據(jù)消解人機協(xié)作的版權(quán)及倫理界限,與技術(shù)層面的數(shù)據(jù)本體存在顯著區(qū)別。

        二、媒體預(yù)測性數(shù)據(jù):技術(shù)實踐視角下AIGC與媒體的版權(quán)沖突

        在人工智能技術(shù)應(yīng)用層面,所有訓(xùn)練數(shù)據(jù)都是用于分析數(shù)據(jù)關(guān)系和模式以產(chǎn)生模擬和預(yù)測結(jié)果的數(shù)據(jù),將訓(xùn)練數(shù)據(jù)額外界定為預(yù)測性數(shù)據(jù)缺乏必要性。而版權(quán)和倫理層面的訓(xùn)練數(shù)據(jù)則迫切需要“預(yù)測性數(shù)據(jù)”角度的洞察和理解。

        預(yù)測性數(shù)據(jù)代表生成式人工智能時代的“新興的新經(jīng)驗主義”[7],其核心是預(yù)測模型根據(jù)預(yù)測性數(shù)據(jù)中包含的大量數(shù)據(jù)案例、模式和關(guān)系進行多層次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來“預(yù)測”單個結(jié)果,而非從單個屬性“推導(dǎo)”出單個結(jié)果。推導(dǎo)和預(yù)測存在區(qū)隔,推導(dǎo)從證據(jù)和經(jīng)驗中得出結(jié)論[8],推導(dǎo)的結(jié)果拒絕遮蔽經(jīng)驗和知識本身。預(yù)測建立在推導(dǎo)之上,將推導(dǎo)轉(zhuǎn)化為概率分布來預(yù)測結(jié)果[9],經(jīng)驗和知識在輸入和輸出中被隱匿。

        具體而言,AIGC的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能將大數(shù)據(jù)中低維的實際經(jīng)驗和知識逐層抽象并概括為高維的統(tǒng)計經(jīng)驗和知識,最后投射至具體創(chuàng)作目的以生產(chǎn)特定結(jié)果。預(yù)測性數(shù)據(jù)本身龐大復(fù)雜的經(jīng)驗和知識經(jīng)由深度學(xué)習(xí)算法高度抽象和預(yù)測,導(dǎo)致輸入數(shù)據(jù)和輸出內(nèi)容之間的因果關(guān)系被遮蓋,造成知識和經(jīng)驗歸屬的倫理及認識論障礙,導(dǎo)致對版權(quán)屬性的判定障礙,使預(yù)測性數(shù)據(jù)處于版權(quán)數(shù)據(jù)和非版權(quán)數(shù)據(jù)的模糊疊加狀態(tài),消解以往版權(quán)法律框架下版權(quán)數(shù)據(jù)和非版權(quán)數(shù)據(jù)的區(qū)隔性。然而,在大多數(shù)知識產(chǎn)權(quán)和版權(quán)訴訟案例中,第一步往往是確定權(quán)利爭議內(nèi)容是否屬于版權(quán)內(nèi)容(數(shù)據(jù))。就預(yù)測性數(shù)據(jù)而言,它既可以視作版權(quán)數(shù)據(jù),也可以視作非版權(quán)數(shù)據(jù),這就為版權(quán)實踐帶來極大的不確定性。因此,將作為版權(quán)和倫理視角的預(yù)測性數(shù)據(jù)從作為技術(shù)實踐視角的訓(xùn)練數(shù)據(jù)予以區(qū)別并抽離,具有理論上的必要性。

        建構(gòu)版權(quán)和倫理視角下的預(yù)測性數(shù)據(jù)概念的緊迫性,源于AIGC對媒體內(nèi)容數(shù)據(jù)版權(quán)保護的沖擊。2023年11月,美國新聞/媒體聯(lián)盟(TheNews/MediaAlliance)《白皮書》指出:

        “新聞和數(shù)字媒體在GoogleC4訓(xùn)練集中的所有類別來源中排名第三,該訓(xùn)練集用于開發(fā)博德(Bard)等Google生成式人工智能產(chǎn)品,數(shù)據(jù)集來源排名前十的網(wǎng)站中有一半是新聞媒體網(wǎng)站。”[10]

        AIGC與媒體的版權(quán)沖突根植于媒體自身的特殊地位,它青睞媒體預(yù)測性數(shù)據(jù)主要有兩大原因。第一,媒體預(yù)測性數(shù)據(jù)具有公共性。采集和使用付費或受版權(quán)保護的數(shù)據(jù)將增加AIGC訓(xùn)練模型的數(shù)據(jù)成本和侵權(quán)風(fēng)險。區(qū)別于其他數(shù)字內(nèi)容,媒體數(shù)字內(nèi)容具有公共屬性[11]。媒體數(shù)據(jù)與個人數(shù)據(jù)的核心區(qū)別在于媒體數(shù)據(jù)處于公共領(lǐng)域和私人領(lǐng)域的交匯點。具體而言,作為信息傳播基礎(chǔ)設(shè)施的大眾媒體,內(nèi)容采集、制作和發(fā)布均面向公共空間,內(nèi)容數(shù)據(jù)具有天然開放性,這使得媒體內(nèi)容數(shù)據(jù)成為AIGC模型的主要數(shù)據(jù)來源。

        第二,媒體預(yù)測性數(shù)據(jù)的公開具有宰制性。媒體天然屬于公共領(lǐng)域,這與媒體所有制無關(guān),而與其實踐密切相關(guān)[12]。數(shù)字時代帶來傳媒業(yè)向深度數(shù)字化轉(zhuǎn)變,要求媒體內(nèi)容的開放使用。這種開放區(qū)別于被采取強制性手段的公開,而是迫于數(shù)字技術(shù)的優(yōu)勢地位和影響。媒體機構(gòu)如果拒絕在數(shù)字空間發(fā)布內(nèi)容,將直接損害媒體的盈利能力和影響力。受數(shù)字技術(shù)宰制的媒體數(shù)據(jù)開放,媒體數(shù)據(jù)成為數(shù)字空間的基本圖景,這意味著AIGC時代媒體版權(quán)的隱憂并不局限于某一媒體的數(shù)字內(nèi)容可能被用于預(yù)測和模仿,而是全行業(yè)的內(nèi)容數(shù)據(jù)成為訓(xùn)練數(shù)據(jù)集的組成部分。對媒體行業(yè)內(nèi)容數(shù)據(jù)無限制模仿、訓(xùn)練和生產(chǎn)最終會消解媒體行業(yè)的創(chuàng)造力和盈利能力,造成媒體版權(quán)實踐的普遍困境和爭議。

        三、彌合版權(quán)“二象性”:作為“非版權(quán)敏感信息”的媒體預(yù)測性數(shù)據(jù)

        媒體內(nèi)容數(shù)據(jù)成為訓(xùn)練數(shù)據(jù)的主要來源,能為AIGC開發(fā)者建立低成本、低風(fēng)險、高質(zhì)量的數(shù)據(jù)優(yōu)勢,但媒體預(yù)測性數(shù)據(jù)在訓(xùn)練模型中大規(guī)模使用模糊了媒體版權(quán)數(shù)據(jù)和非版權(quán)數(shù)據(jù)的界限,造成版權(quán)實踐的“二象性”困境,危及媒體行業(yè)的內(nèi)容生態(tài)和版權(quán)利益。

        (一)是版權(quán)數(shù)據(jù)?非版權(quán)數(shù)據(jù)的版權(quán)化

        媒體預(yù)測性數(shù)據(jù)是版權(quán)數(shù)據(jù)嗎?

        在傳統(tǒng)媒體版權(quán)框架下,版權(quán)保護的對象相對明確,媒體數(shù)據(jù)通常屬于版權(quán)保護范疇,例如,媒體的文字稿件、報道圖片、視頻音頻等。在媒體預(yù)測性數(shù)據(jù)版權(quán)實踐中,對版權(quán)造成損害的數(shù)據(jù)卻未必是版權(quán)數(shù)據(jù)。有的數(shù)據(jù)不在版權(quán)保護范疇,但能被生成式人工智能模型用于預(yù)測內(nèi)容風(fēng)格和生產(chǎn)模式,從而對媒體版權(quán)造成損害,導(dǎo)致“非版權(quán)數(shù)據(jù)的版權(quán)化”,最典型的案例是媒體的風(fēng)格數(shù)據(jù)和行為數(shù)據(jù)。

        傳統(tǒng)的媒體版權(quán)保護,受制于人類或機器的學(xué)習(xí)和創(chuàng)作能力,媒體內(nèi)容的風(fēng)格數(shù)據(jù)和行為數(shù)據(jù)不具備分析、預(yù)測和模仿的可能性,因而不在版權(quán)保護范圍內(nèi)。AIGC技術(shù)突破這一限制,從非版權(quán)數(shù)據(jù)中獲取目標媒體關(guān)鍵內(nèi)容信息、屬性和創(chuàng)作規(guī)律成為可能。被AIGC模型用于學(xué)習(xí)的非版權(quán)數(shù)據(jù),既包括文字風(fēng)格、畫面色調(diào)、語速語調(diào)等風(fēng)格數(shù)據(jù),也包括發(fā)布時間規(guī)律、空間規(guī)律等行為數(shù)據(jù)。借助這些數(shù)據(jù),AIGC模型將媒體的內(nèi)容模式和創(chuàng)作經(jīng)驗批量轉(zhuǎn)化為具體的效用參數(shù),并用于模仿和生產(chǎn)類似于目標媒體風(fēng)格和模式的內(nèi)容產(chǎn)品,它們反過來被用于與其媒體機構(gòu)進行競爭。

        即使媒體的非版權(quán)數(shù)據(jù)不包含版權(quán)內(nèi)容,對其模仿和預(yù)測能夠獲取關(guān)鍵信息,同樣破壞著媒體內(nèi)容生態(tài),損害媒體機構(gòu)的版權(quán)利益。媒體預(yù)測性數(shù)據(jù)的“非版權(quán)數(shù)據(jù)版權(quán)化”主要有兩條路徑:一是媒體自行發(fā)布的非版權(quán)數(shù)據(jù)經(jīng)模型加工預(yù)測后版權(quán)化,即自披露非版權(quán)數(shù)據(jù)的版權(quán)化。AIGC在媒體不知情的情況下,自動抓取媒體發(fā)布的內(nèi)容,預(yù)測并生成與其高度類似的內(nèi)容。二是同類型媒體的非版權(quán)數(shù)據(jù)經(jīng)模型加工預(yù)測后版權(quán)化,即可披露非版權(quán)數(shù)據(jù)的版權(quán)化。AIGC繞過目標媒體抓取數(shù)據(jù),給媒體版權(quán)保護帶來嚴峻挑戰(zhàn)。無論是特定媒體自行披露還是其他相似媒體披露的非版權(quán)數(shù)據(jù),AIGC都能通過預(yù)測將其制作成對版權(quán)構(gòu)成潛在威脅的數(shù)據(jù)信息和內(nèi)容,甚至媒體無法證明是何種內(nèi)容或數(shù)據(jù)導(dǎo)致自身權(quán)利損害,這給媒體版權(quán)保護造成了更嚴重的權(quán)利救濟困境。

        (二)不是版權(quán)數(shù)據(jù)?版權(quán)數(shù)據(jù)的去版權(quán)化

        那么,媒體預(yù)測性數(shù)據(jù)不是版權(quán)數(shù)據(jù)嗎?

        “非版權(quán)數(shù)據(jù)的版權(quán)化”并非是媒體預(yù)測性數(shù)據(jù)版權(quán)實踐困境的全部,AIGC造成最為嚴重和廣泛存在的媒體預(yù)測性數(shù)據(jù),其侵權(quán)路徑是“版權(quán)數(shù)據(jù)的去版權(quán)化”。傳統(tǒng)的媒體版權(quán)保護,媒體版權(quán)的侵權(quán)行為通常清晰可見,主要是對媒體內(nèi)容的復(fù)制或挪用。即便是“洗稿”,侵權(quán)方的侵權(quán)事實依然有跡可循。在侵權(quán)發(fā)生后,媒體機構(gòu)能夠通過事實和證據(jù)來主張權(quán)利和維護利益。

        在AIGC媒體預(yù)測性數(shù)據(jù)實踐中,數(shù)據(jù)采集、模型訓(xùn)練和內(nèi)容生成使用的媒體數(shù)據(jù)均被預(yù)測模型和算法“去版權(quán)化”。在數(shù)據(jù)采集端,由于缺乏技術(shù)手段,媒體機構(gòu)能否通過AIGC模型獲得侵權(quán)證據(jù),這取決于算法透明度和開發(fā)者意愿。在模型訓(xùn)練端和內(nèi)容生成端,憑借AIGC模型強大的預(yù)測和模仿能力,源數(shù)據(jù)(版權(quán)數(shù)據(jù))被層級式分解為子單元(版權(quán)元素),不同的子單元又被關(guān)聯(lián)為特征(版權(quán)元素的重新排列組合)并最終聚合為生成內(nèi)容。媒體數(shù)據(jù)的版權(quán)要素在數(shù)據(jù)加工和模型訓(xùn)練中被遮蔽,輸出內(nèi)容難以觀察到直接的版權(quán)使用痕跡。在媒體預(yù)測性數(shù)據(jù)的“版權(quán)數(shù)據(jù)去版權(quán)化”實踐中,媒體機構(gòu)無法獲悉所擁有的版權(quán)內(nèi)容是否被采集并用于訓(xùn)練模型和生成內(nèi)容,進而難以對侵權(quán)行為舉證并主張權(quán)利,導(dǎo)致媒體機構(gòu)在與AIGC的預(yù)測性數(shù)據(jù)版權(quán)博弈中必然地滑向“弱勢地位”[13]。

        在這種情況下,盡管媒體數(shù)據(jù)包含著版權(quán)信息,但經(jīng)AIGC模型“預(yù)測”后,版權(quán)要素被重組和遮蔽,不具備版權(quán)可見性,成為去標識版權(quán)數(shù)據(jù):AIGC將媒體版權(quán)數(shù)據(jù)納入訓(xùn)練模型,以模擬和預(yù)測媒體的內(nèi)容、風(fēng)格和模式,再借助模型強大的學(xué)習(xí)和訓(xùn)練能力,使媒體數(shù)據(jù)的版權(quán)使用被藏匿在輸入端和處理端,由此輸出和生成的內(nèi)容不具有版權(quán)要素和使用痕跡,最終損害了媒體機構(gòu)的版權(quán)利益和盈利能力。相較于非版權(quán)內(nèi)容的版權(quán)化,版權(quán)數(shù)據(jù)的去版權(quán)化的核心在于使得版權(quán)數(shù)據(jù)失去了可識別的版權(quán)熟悉和標識,侵權(quán)行為更為隱蔽、智能且自主化,從而增加了媒體版權(quán)的救濟成本和難度。

        (三)彌合版權(quán)“二象性”:媒體預(yù)測性數(shù)據(jù)何以成為“非版權(quán)敏感信息”?

        如果媒體預(yù)測性數(shù)據(jù)不能簡單歸為版權(quán)數(shù)據(jù)或非版權(quán)數(shù)據(jù),應(yīng)當如何理解媒體預(yù)測性數(shù)據(jù)的版權(quán)性質(zhì)?

        需要說明的是,當前的版權(quán)法并未對這一情況做出任何回應(yīng),但媒體預(yù)測性數(shù)據(jù)的現(xiàn)實案例已經(jīng)出現(xiàn)。2023年12月27日,《紐約時報》以侵犯版權(quán)為由起訴OpenAI和微軟擅用報道訓(xùn)練大模型,成為第一家起訴這兩家公司侵犯其文字作品版權(quán)的美國大型媒體[14]。AIGC的不斷發(fā)展和媒體預(yù)測性數(shù)據(jù)的現(xiàn)實案例,決定對這一問題的討論處于進行時而非完成時。對這一問題的回答,需要基于AIGC時代媒體的信息“敏感性”和媒體預(yù)測性數(shù)據(jù)的實踐學(xué)視角,將媒體預(yù)測性數(shù)據(jù)作為一種“非版權(quán)敏感信息”,而不是簡單歸為版權(quán)數(shù)據(jù)或非版權(quán)數(shù)據(jù)。

        首先,媒體預(yù)測性數(shù)據(jù)為何是敏感信息?在以往的數(shù)據(jù)倫理中,信息的“敏感性”似乎只限于個人信息,非個人信息(如組織和政府)通常不具有敏感性。特別是作為大眾傳播主要渠道的媒體,其數(shù)據(jù)天然與信息“敏感性”相抵觸。然而,信息“敏感性”的關(guān)鍵并非在于主體確屬,而是使信息“敏感”的客體是否存在,特別是客體獲取信息后是否具有危害性。AIGC的開發(fā)者能夠根據(jù)自己的需要,借助爬蟲工具自動抓取個人數(shù)據(jù)和媒體數(shù)據(jù),并能在模型學(xué)習(xí)和訓(xùn)練后進行模仿、預(yù)測和生成,從而侵犯個人隱私和媒體版權(quán)。因此,基于AIGC技術(shù),無論是個人數(shù)據(jù)還是媒體數(shù)據(jù)都具有被視為“敏感信息”的正當性。

        其次,媒體預(yù)測性數(shù)據(jù)應(yīng)當被歸為版權(quán)保護范疇嗎?如前文所述,從傳統(tǒng)版權(quán)視角來看,AIGC對媒體預(yù)測性數(shù)據(jù)的采集和訓(xùn)練,無論是非版權(quán)數(shù)據(jù)的版權(quán)化還是版權(quán)數(shù)據(jù)的去版權(quán)化,都構(gòu)成版權(quán)法中的“合理使用”,難以定性為侵權(quán)行為。要理解作為“非版權(quán)敏感信息”的媒體預(yù)測性數(shù)據(jù),應(yīng)基于實踐學(xué)角度關(guān)注“預(yù)測”對媒體版權(quán)的潛在危害和后果。

        對于非版權(quán)數(shù)據(jù)的版權(quán)化,AIGC開發(fā)者采集不屬于版權(quán)保護范疇的風(fēng)格數(shù)據(jù)(文字風(fēng)格、音調(diào)語氣、畫面色調(diào))和行為數(shù)據(jù)(內(nèi)容發(fā)布規(guī)律)作為模型訓(xùn)練內(nèi)容,借助模型強大的預(yù)測和生成能力,大批量、高精度模仿和生成媒體內(nèi)容。就行為而言,這種對非版權(quán)數(shù)據(jù)的使用并未侵權(quán),結(jié)果卻嚴重損害了媒體行業(yè)的內(nèi)容生態(tài)和版權(quán)利益。對于版權(quán)數(shù)據(jù)的去版權(quán)化,AIGC開發(fā)者對媒體版權(quán)數(shù)據(jù)的使用僅限于輸入端和模型訓(xùn)練過程,并未在輸出端和生產(chǎn)作品中直接挪用和復(fù)制,這似乎依然遵循版權(quán)法的“合理使用”原則。但就結(jié)果而言,版權(quán)數(shù)據(jù)的去版權(quán)化使用,導(dǎo)致AIGC模型對媒體版權(quán)內(nèi)容的隱匿性系統(tǒng)挪用。

        因此,即使“非版權(quán)數(shù)據(jù)的版權(quán)化”和“版權(quán)數(shù)據(jù)的去版權(quán)化”均得到版權(quán)法“合理使用”原則的支持,但媒體預(yù)測性數(shù)據(jù)迫切需要被納入版權(quán)保護考量,將媒體預(yù)測性數(shù)據(jù)作為一種“非版權(quán)敏感信息”,并在法律和倫理層面給予特殊對待。因為在實踐和結(jié)果層面,AIGC對媒體預(yù)測性數(shù)據(jù)的版權(quán)使用已經(jīng)造成媒體行業(yè)的版權(quán)困境和利益受損。

        四、結(jié)論

        AIGC模型從推導(dǎo)到預(yù)測的范式轉(zhuǎn)變,使得輸入數(shù)據(jù)與內(nèi)容生成物之間的經(jīng)驗和知識關(guān)系被遮蔽。生成式人工智能技術(shù),正在改變媒體業(yè)對于版權(quán)的理解并帶來實踐困境。當人工智能造成麻煩的時候,我們不會安慰人工智能,我們會安慰人。正如維特根斯坦所說:“一個人手疼……人們并不對手說安慰的話,而是安慰受疼的人。”[15]對媒體而言,媒體預(yù)測性數(shù)據(jù)是公共產(chǎn)品,更是媒體的智力勞動成果,AIGC對媒體預(yù)測性數(shù)據(jù)的合理使用,包括但不限于向媒體支付內(nèi)容使用費用、免費開放模型使用權(quán)限等,有助于增強媒體業(yè)的盈利能力和創(chuàng)新動力。對AIGC開發(fā)者而言,任何機器和模型都難以替代和模仿人的創(chuàng)作靈性,完善媒體預(yù)測性數(shù)據(jù)倫理框架,有助于探索模型開發(fā)和媒體內(nèi)容生產(chǎn)的良性循環(huán)模式,共同推動AIGC技術(shù)向善。對公眾而言,媒體預(yù)測性數(shù)據(jù)與AIGC的相互促進能夠豐富公共文化產(chǎn)品,確保包括媒體、個人在內(nèi)的內(nèi)容創(chuàng)造得到公平回報,從而激發(fā)社會整體的創(chuàng)造力。

        [本文為中央高?;究蒲腥宋纳缈茖m棧ň幪枺?022CDJSKPY27)的階段性成果]

        參考文獻:

        [1]Soni J,Goodman R.A mind at play:how Claude Shannon invented the information age[M].Simon and Schuster,2017.

        [2]Rosenblatt F.The perceptron:a probabilistic model for information storage and organization in the brain[J].Psychological review,1958,65(6):386.

        [3]Shum H Y,He X,Li D.From Eliza to XiaoIce:challenges and opportunities with social chatbots[J].Frontiers of Information Technology amp; Electronic Engineering,2018,19:10-26.

        [4]Buchanan B G,Smith R G.Fundamentals of expert systems[J]. Annual review of computer science,1988,3(1):23-58.

        [5]Kononenko I.Machine learning for medical diagnosis:history,state of the art and perspective[J]. Artificial Intelligence in medicine,2001,23(1):89-109.

        [6]Shewalkar A,Nyavanandi D,Ludwig S A.Performance evaluation of deep neural networks applied to speech recognition:RNN,LSTM and GRU[J]. Journal of Artificial Intelligence and Soft Computing Research,2019,9(4): 235-245.

        [7]Rieder G,Simon J.Big data:A new empiricism and its epistemic and socio-political consequences[J].Berechenbarkeit der Welt?Philosophie und Wissenschaft im Zeitalter von Big Data,2017:85-105.

        [8]Anthony L J.The Cambridge dictionary of statistics[J].Reference Reviews,2003,17(1):29-30.

        [9]Mühlhoff R.Automatisierte Ungleichheit:Ethik der Künstlichen Intelligenz in der biopolitischen Wende des Digitalen Kapitalismus[J].Deutsche Zeitschrift für Philosophie,2020,68(6):867-890.

        [10]The News/Media Alliance (N/MA).White Paper:How the Pervasive Copying of Expressive Works to Train and Fuel Generative Artificial Intelligence Systems Is Copyright Infringement And Not a Fair Use[EB/OL].(2023-10-31)[2024-04-07].https://www.newsmediaalliance.org/generative-ai-white-paper/.

        [11]Sehl A. Public service media in a digital media environment:Performance from an audience perspective[J].Media and Communication,2020,8(3):359-372.

        [12]李良榮,張華.參與社會治理:傳媒公共性的實踐邏輯[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2014,36(04):31-34.

        [13]Colangelo G. Enforcing copyright through antitrust?The strange case of news publishers against digital platforms[J]. Journal of Antitrust Enforcement,2022,10(1):133-161.

        [14]Grynbaum M.,Mac R.The Times Sues OpenAI and Microsoft Over A.I.Use of Copyrighted Work[N/OL].(2023-12-27)[2024-04-08].https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html.

        [15]路德維?!ぞS特根斯坦.哲學(xué)研究[J].陳嘉映,譯.上海:上海人民出版社,2005:115.

        作者簡介:劉海明,重慶大學(xué)新聞學(xué)院教授,博士生導(dǎo)師(重慶 401331);陶鵬輝,重慶大學(xué)新聞學(xué)院碩士生(重慶 401331)。

        編校:鄭 艷

        婷婷色国产精品视频一区| 自慰高潮网站在线观看| 久久精品国产av麻豆五月丁| 人妻少妇中文字幕久久69堂| 巨大欧美黑人xxxxbbbb| 国产视频自拍一区在线观看 | 国产美女自慰在线观看| 国产一区二区免费在线视频| 精品久久久久久无码不卡 | 69精品丰满人妻无码视频a片| 丰满少妇高潮惨叫久久久一| 在线观看国产自拍视频| 亚洲无码图| 欧美国产亚洲日韩在线二区| 国产精品永久久久久久久久久 | 国产亚洲3p一区二区| 久精品国产欧美亚洲色aⅴ大片 | 久久久99精品成人片中文字幕| 女性女同性aⅴ免费观女性恋| 人妻少妇中文字幕久久| 中文字幕一区二区网址| 深夜福利国产| 国产极品美女高潮抽搐免费网站| 水蜜桃无码视频在线观看| 国产国产人免费人成免费视频 | 国产激情小视频在线观看| 久久精品国产av大片| 伊人精品无码AV一区二区三区| 亚洲 暴爽 av人人爽日日碰| 久久人妻av无码中文专区| 亚洲精彩av大片在线观看| 久久精品这里就是精品| 91网红福利精品区一区二| 四虎成人免费| 国产高清av首播原创麻豆| 久久久久久av无码免费网站下载| 亚洲一区二区三区高清在线观看| 精品奇米国产一区二区三区| 日本一本草久国产欧美日韩| 亚洲精品毛片一区二区三区| 精品日产卡一卡二卡国色天香|