數(shù)字出版領(lǐng)域智能語言模型的應用、風險與治理
——基于ChatGPT技術(shù)特征的分析

2023-06-08 06:17:32任安麒

出版科學 2023年3期

任安麒

（中南財經(jīng)政法大學知識產(chǎn)權(quán)研究中心，武漢，430073）

自人工智能、大數(shù)據(jù)、云計算等新興技術(shù)進入大眾視野以來，學術(shù)界關(guān)于人工智能的討論經(jīng)歷了從發(fā)軔到爆發(fā)再到沉淀的過程。而智能語言模型ChatGPT 熱潮席卷全球，再一次將該議題推向風口浪尖，社會各界的正面評價與負面質(zhì)疑紛至沓來。ChatGPT 由OpenAI 公司于2022年11月推出，是一種生成型預訓練變換模型（Generative Pre-trained Transformer，GPT），能夠與自然人類進行自然、流暢且準確的文字交互。有別于傳統(tǒng)智能語言模型，它具有準確性高、適應性強、可持續(xù)性的特點，能夠進行代碼編程、歌曲創(chuàng)作、測試問答、文本仿寫與總結(jié)等一系列復雜的文字工作。隨后，全球各大互聯(lián)網(wǎng)公司紛紛入局智能語言模型競爭：2023年2月6日，由谷歌開發(fā)的大型智能語言模型Bard正式開放測試；次日，微軟推出與OpenAI共同打造的全新必應搜索引擎；3月15日，OpenAI 的 GPT-4 發(fā)布；次日，百度推出新一代大語言模型、生成式 AI 產(chǎn)品“文心一言”。新一代智能語言模型擁有廣闊的應用空間與發(fā)展前景。

習近平總書記在黨的二十大報告中指出，建設(shè)現(xiàn)代化產(chǎn)業(yè)體系要構(gòu)建人工智能的增長引擎，“實施國家文化數(shù)字化戰(zhàn)略”。2022年4月，中宣部印發(fā)《關(guān)于推動出版深度融合發(fā)展的實施意見》，明確提出應“加強前沿技術(shù)探索應用”“強化大數(shù)據(jù)、云計算、人工智能、區(qū)塊鏈等技術(shù)應用，創(chuàng)新驅(qū)動出版深度融合發(fā)展”。出版是國家文化事業(yè)建設(shè)的基礎(chǔ)性領(lǐng)域，理應探索人工智能在出版業(yè)數(shù)字化轉(zhuǎn)型中的優(yōu)勢效用。最新數(shù)據(jù)顯示，2021年中國數(shù)字出版整體規(guī)模達12762.64 億元，較前一年增加8.33%，近5年來增長1.8 倍[1]。可見，中國數(shù)字出版產(chǎn)業(yè)發(fā)展勢頭強勁，新興技術(shù)在數(shù)字出版轉(zhuǎn)型、深度融合發(fā)展等方向持續(xù)發(fā)揮支撐作用，而新一代智能語言模型無疑將為之注入全新動力。因此，本文擬從ChatGPT 的技術(shù)特征著手，剖析數(shù)字出版領(lǐng)域智能語言模型的應用、風險與治理，助力出版產(chǎn)業(yè)科技賦能。

1 ChatGPT 技術(shù)原理與特征

學界關(guān)于人工智能在數(shù)字出版領(lǐng)域轉(zhuǎn)化融合的探討已初現(xiàn)端倪，但均以傳統(tǒng)機器學習技術(shù)為出發(fā)點，新一代智能語言模型創(chuàng)新應用監(jiān)督學習與強化學習算法，提升了人工智能的學習廣度和思考維度，為數(shù)字出版轉(zhuǎn)型升級帶來了全新的機遇和挑戰(zhàn)。如圖1所示，有別于傳統(tǒng)自然語言生成模型，ChatGPT針對特定對話場景特別優(yōu)化，有賴于以下核心技術(shù)原理：第一步，GPT 基礎(chǔ)模型，即人工智能基于海量、通用的數(shù)據(jù)集進行基礎(chǔ)機器學習，此環(huán)節(jié)無人工參與。第二步，收集人工數(shù)據(jù)的監(jiān)督策略。在該步驟中，人工智能訓練師同時扮演用戶和人工智能助手兩種角色，從基礎(chǔ)數(shù)據(jù)模型中任意抽取問題或指令，對符合期望的結(jié)果或行為進行人工標記，通過監(jiān)督學習優(yōu)化第一步的GPT 基礎(chǔ)模型。第三步，收集對比數(shù)據(jù)形成獎勵模型。利用第二步的監(jiān)督策略生成若干結(jié)果或行為，人工智能訓練師再根據(jù)優(yōu)劣和人類偏好進行排序評級，從而構(gòu)架起多個對比數(shù)據(jù)間的獎勵模型。第四步，基于強化學習算法的優(yōu)化模型。第二三步均依賴人工監(jiān)督和標記，最后步驟則使用近端策略優(yōu)化（Proximal Policy Optimization，PPO）的強化學習算法，實現(xiàn)監(jiān)督策略和獎勵模型的多次迭代、自動運行，從而打造更加智能的生成型預訓練變換模型。此外，在ChatGPT 使用過程中，人工智能仍會對用戶數(shù)據(jù)進行分析學習，以進一步微調(diào)和優(yōu)化智能語言模型算法[2]。

圖1 智能語言模型ChatGPT 的核心技術(shù)原理與限制

綜合運用機器學習、監(jiān)督學習和強化學習算法，ChatGPT 實現(xiàn)了人工智能語言模型的迭代升級。盡管如此，正如OpenAI 所承認的，現(xiàn)階段其仍存在諸多難以化解的缺陷和局限。其一，人工智能幻覺。在基礎(chǔ)學習階段，人工智能難以分辨海量數(shù)據(jù)的真實性與可靠性，而人工監(jiān)督、反饋和排序評級的過程也可能會對人工智能產(chǎn)生誤導，從而可能導致ChatGPT 產(chǎn)出的內(nèi)容無意義或不可信，即所謂人工智能幻覺[3]。其二，過度優(yōu)化困境。在監(jiān)督學習中，訓練師可能會偏好更加全面或更長的答案，而獎勵學習與強化學習又進一步加強該偏好，最終或?qū)е逻^度優(yōu)化、產(chǎn)生過于冗雜的結(jié)果。其三，算法歧視。在基礎(chǔ)學習階段，通用數(shù)據(jù)集中難免會出現(xiàn)歧視性數(shù)據(jù)，同時人工智能訓練師自身也存在偏見風險，最終在強化學習的作用下導致ChatGPT在政治、種族、性別等敏感問題上出現(xiàn)算法歧視。其四，有害指令。盡管OpenAI 開發(fā)了全新的內(nèi)容審查程序（Moderation API）以警告或阻止不安全內(nèi)容[4]，但它仍有可能提供部分有害指令或信息；此外，對于被拒絕回答的有害問題，僅僅簡單修改提問的措辭和方式，仍有可能得到含有害內(nèi)容的答案。

基于上述核心技術(shù)原理與技術(shù)局限分析，作為新一代大型智能語言模型，ChatGPT 具有如下技術(shù)特點：第一，算法獨創(chuàng)性。有別于傳統(tǒng)智能語言模型，ChatGPT 在基礎(chǔ)數(shù)據(jù)機器學習的基礎(chǔ)之上，獨創(chuàng)性地通過PPO 強化學習算法實現(xiàn)監(jiān)督學習和獎勵模型的自動運行，進而具備了真正意義上的無監(jiān)督學習、上下文感知以及多模態(tài)學習能力。第二，能力綜合性。傳統(tǒng)智能語言模型的核心能力聚焦于文字處理工作，而ChatGPT 經(jīng)過人類監(jiān)督獎勵訓練，能夠生產(chǎn)出符合人類偏好和價值取向的內(nèi)容與行為，具備更加強大的數(shù)字內(nèi)容創(chuàng)作能力、編輯能力和孿生能力，創(chuàng)造出了全新的智能機器認知理解模式[5]。第三，應用廣泛性。人工智能語言模型早期進入出版領(lǐng)域，主要用于新聞寫作、輔助編輯等初級文字處理工作，而ChatGPT 憑借先進的語言認知、理解和生成能力，在機器翻譯與跨語言交流、文本閱讀和創(chuàng)作、內(nèi)容分析和自動摘要生成、代碼寫作和糾錯等領(lǐng)域具有廣泛的應用價值。第四，技術(shù)局限性。ChatGPT是在傳統(tǒng)智能語言模型的基礎(chǔ)上進行強化學習算法創(chuàng)新的產(chǎn)物，雖完成了人工智能自然語言處理模型的轉(zhuǎn)型升級，但仍未跨越弱人工智能和強人工智能之間的巨大鴻溝，由于技術(shù)局限性仍存在人工智能幻覺、過度優(yōu)化、算法歧視和有害指令等諸多缺陷。

2 數(shù)字出版領(lǐng)域智能語言模型的應用前瞻

2023年3月1日，OpenAI 正式宣布開放ChatGPT 的應用程序接口（Application Programming Interface，API），開發(fā)者可自由接入以進行應用程序開發(fā)并提供相關(guān)服務?？梢灶A見，新一代智能語言模型將被迅速運用到各產(chǎn)業(yè)領(lǐng)域，創(chuàng)造巨大經(jīng)濟利益和社會價值。以智能語言模型的技術(shù)原理與特征為出發(fā)點，結(jié)合出版業(yè)“選題策劃、內(nèi)容創(chuàng)作、編輯加工、傳播推送、閱讀體驗、內(nèi)容服務”[6]六大核心環(huán)節(jié)，人工智能在數(shù)字出版領(lǐng)域的發(fā)展?jié)摿Σ蝗菪∮U，能夠助力實現(xiàn)數(shù)字出版的結(jié)構(gòu)轉(zhuǎn)型。

2.1 智能語言模型推動全新智能創(chuàng)作模式

人工智能在數(shù)字出版領(lǐng)域的應用以網(wǎng)絡新聞寫作為開端，如騰訊財經(jīng)開發(fā)的Dreamwriter、新華社推出的“快筆小新”、北京大學和今日頭條聯(lián)合研發(fā)的“張小明”等，極大提升了新聞出版領(lǐng)域的創(chuàng)作效率。新一代智能語言模型具有能力綜合性和應用廣泛性的技術(shù)特點，有效改善了傳統(tǒng)人工智能的機械創(chuàng)作弊端，能夠從以下三個層面實現(xiàn)智能創(chuàng)作模式的升級。其一，大數(shù)據(jù)智能選題與策劃。出版領(lǐng)域關(guān)于人工智能的早期研究認為，應由編輯負責選題構(gòu)思，人工智能負責機械性工作[7]，而新一代智能語言模型改變了上述認知：傳統(tǒng)圖書與期刊選題的確定取決于編輯及出版商的學識、直覺、預測等經(jīng)驗性認知，具有難以避免的思維局限性；智能語言模型能夠深度學習海量數(shù)據(jù)，內(nèi)容涉及文學、藝術(shù)、科學、政治、經(jīng)濟、哲學、法律等各個細分領(lǐng)域，其提供的選題和策劃思路具有全局性、科學性、可靠性的特點，能夠擺脫傳統(tǒng)出版流程中人類思維的“中心化”局限，引領(lǐng)以數(shù)據(jù)為支撐、以市場為導向、以讀者為目標的出版方向。其二，智能語言模型自主創(chuàng)作。有別于傳統(tǒng)人工智能機械創(chuàng)作的局限性，新一代智能語言模型具備無監(jiān)督學習、上下文感知以及多模態(tài)學習能力，或?qū)⒃诙囝I(lǐng)域顛覆傳統(tǒng)自主智能創(chuàng)作模式：在新聞領(lǐng)域，實現(xiàn)出版內(nèi)容的自動化生產(chǎn)；根據(jù)指令自主生成詞、曲音樂作品，極大豐富數(shù)字音樂市場；對外文作品進行自動翻譯、糾錯和優(yōu)化，促進中外作品融通交流。其三，智能語言模型輔助創(chuàng)作。在創(chuàng)作準備階段，智能語言模型能夠完成海量文獻的收集、篩選、歸納等智能學術(shù)檢索工作，形成體系化的文獻綜述；創(chuàng)作過程中，智能語言模型提供詞匯選擇、語法改善、背景知識支持等服務，極大提升創(chuàng)作效率；此外，文本智能審查、自動生成摘要、智能審校和排版等功能，對于提升數(shù)字出版內(nèi)容創(chuàng)作質(zhì)量也大有裨益。

2.2 智能語言模型引領(lǐng)智能出版轉(zhuǎn)型升級

為積極響應國家數(shù)字出版深度融合發(fā)展號召，提升出版效率、優(yōu)化出版流程，諸多圖書期刊出版商開發(fā)了全面數(shù)字化的智能數(shù)字出版系統(tǒng)。以《中國科學》雜志社自主研發(fā)的科技期刊全流程出版平臺（SciEngine 平臺）為例，智能數(shù)字出版系統(tǒng)主要包括投審稿、排版、生產(chǎn)管理、發(fā)布營銷等四個核心板塊[8]。而以ChatGPT 為代表的新一代智能語言模型具有劃時代的多重深度學習能力，將從以下三個環(huán)節(jié)引領(lǐng)智能數(shù)字出版的再次轉(zhuǎn)型升級。首先，數(shù)字化智能投審稿系統(tǒng)。在初審階段，憑借ChatGPT 的內(nèi)容分析感知能力，對海量稿件進行初篩，能夠高效剔除與期刊發(fā)文范圍、選題方向不一致的文稿；在形式審查環(huán)節(jié)，通過智能語言模型的深度學習技術(shù)改進查重模式，避免對數(shù)學物理公式、圖像內(nèi)容的誤判，杜絕通過更改表述規(guī)避文字復制比檢測的學術(shù)不端行為；對于文稿的實質(zhì)性審校，可利用智能語言模型進行語言文字自動糾錯（包括日常語言、專業(yè)詞匯、結(jié)構(gòu)語法、公式圖表、參考文獻等），在內(nèi)容審核上快速實現(xiàn)敏感詞排查識別，同時能夠?qū)W術(shù)研究的文獻完整性、數(shù)據(jù)可靠性和準確性進行判斷；此外，在專家審稿環(huán)節(jié)，通過深度分析稿件內(nèi)容自動匹配相關(guān)領(lǐng)域的審稿人。其次，數(shù)字化智能排版系統(tǒng)。中國知網(wǎng)“格式精靈”系統(tǒng)能夠為近7000 種期刊提供智能排版服務，而ChatGPT 可用于進一步提升數(shù)字化排版系統(tǒng)的智能化程度：利用文本分析與仿寫功能輔助編寫文稿相關(guān)內(nèi)容（包括摘要、關(guān)鍵詞、各級標題、文獻分類編碼等內(nèi)容）；對文本編輯內(nèi)容進行智能分析校對和自動糾錯，進一步提升出版內(nèi)容質(zhì)量；通過對圖書版式或期刊格式的深度學習，提供對稿件的自動編校、自動排版、自動版式設(shè)計等數(shù)字化智能服務。再次，數(shù)字化智能生產(chǎn)管理系統(tǒng)。通過對出版內(nèi)容的深度分析，預測數(shù)字出版物的受眾面與市場情況，為出版物數(shù)字發(fā)行提供輔助規(guī)劃，加快傳統(tǒng)出版物的數(shù)字化轉(zhuǎn)換；利用智能語言模型的策略優(yōu)化能效，建立數(shù)字出版內(nèi)容資源、編印發(fā)流程、出版物生產(chǎn)的智能管理系統(tǒng)。

2.3 智能語言模型助力打造智慧閱讀空間

在全民閱讀理念和閱讀推廣活動的助力之下，智慧閱讀的發(fā)展理念應運而生，即通過各類新興智能技術(shù)為公眾提供智慧服務，這也為數(shù)字出版行業(yè)帶來了全新的機遇和挑戰(zhàn)[9]。閱讀內(nèi)容生產(chǎn)社會化、閱讀推薦個性化、閱讀內(nèi)容精細化、閱讀模式多樣化、閱讀場景立體化，是智慧閱讀五位一體的實現(xiàn)路徑與發(fā)展目標，而新一代智能語言模型也將從上述五個層面助力打造智慧閱讀空間。其一，閱讀內(nèi)容生產(chǎn)社會化。隨著數(shù)字出版內(nèi)容的創(chuàng)作普及，ChatGPT 等智能語言模型輔助創(chuàng)作的工具價值凸顯，必將掀起又一波全民共創(chuàng)的文化熱潮。其二，閱讀推薦個性化。為實現(xiàn)“千人千面”的個性化閱讀推薦和內(nèi)容定制服務，智能語言模型能夠以數(shù)據(jù)統(tǒng)計、算法模擬為基礎(chǔ)，通過人機對話的反復實踐和調(diào)試，為用戶提供更加符合個性化需求的出版物內(nèi)容，實現(xiàn)數(shù)字出版物智能發(fā)行與銷售。其三，閱讀內(nèi)容精細化。隨著社會生產(chǎn)生活方式的轉(zhuǎn)變，人類閱讀模式悄然實現(xiàn)從整體化到碎片化的轉(zhuǎn)變；“短平快”的閱讀內(nèi)容充斥各大數(shù)字出版平臺。智能語言模型具有高效的文本閱讀與歸納能力，可以自動生成故事梗概、提煉文本核心內(nèi)容，能夠輔助實現(xiàn)數(shù)字出版內(nèi)容的精簡化。其四，閱讀模式多樣化。一方面，通過深度學習實現(xiàn)數(shù)字出版物內(nèi)容與閱讀場景的有機結(jié)合；另一方面，智能語言模型的多模態(tài)學習能力將推動數(shù)字出版產(chǎn)品的形態(tài)轉(zhuǎn)變，助力探索增強現(xiàn)實出版與虛擬現(xiàn)實出版。其五，閱讀場景立體化。綜合運用智能語言模型，豐富數(shù)字出版物資源，提升信息服務能力，助力智慧圖書館建設(shè)[10]；開發(fā)虛擬出版物，打造元宇宙數(shù)字出版與閱讀空間。

3 數(shù)字出版領(lǐng)域智能語言模型應用的風險與挑戰(zhàn)

3.1 算法倫理、出版?zhèn)惱砼c學術(shù)倫理危機

科技倫理是科學技術(shù)發(fā)展過程中人與自然、人與社會之間應遵守的價值觀念與行為規(guī)范的總和；智能語言模型在數(shù)字出版領(lǐng)域的應用帶來了算法、出版、學術(shù)的三重倫理挑戰(zhàn)。第一，算法倫理難題。ChatGPT 在監(jiān)督學習和獎勵模型訓練兩個階段均有人工智能訓練師的參與，而價值偏向性是人類難以擺脫的自然屬性。這將影響智能語言模型的內(nèi)容產(chǎn)出，進而導致數(shù)字出版內(nèi)容可能存在算法歧視、有害信息等算法倫理問題。第二，出版?zhèn)惱頇z視。出版編輯環(huán)節(jié)涉及對社會、經(jīng)濟、文化等多方面環(huán)境因素的綜合價值判斷，因此人工編輯在傳統(tǒng)出版物編輯發(fā)行中具有重要地位和作用，能夠引導數(shù)字出版物傳達正確的思想和價值觀。而智能語言模型以機械算法和數(shù)據(jù)為運行基礎(chǔ)，難以進行價值判斷，從而引發(fā)破壞出版?zhèn)惱淼娘L險。第三，學術(shù)倫理危機。ChatGPT 已能被廣泛應用于文獻整理、學術(shù)寫作過程中，相應地也引起了出版物署名爭議、學術(shù)抄襲等問題，未來其在數(shù)字出版領(lǐng)域的廣泛應用或?qū)⒓觿∠嚓P(guān)學術(shù)倫理危機。為此，國際出版商施普林格? 自然（Springer Nature）、國際學術(shù)期刊《科學》（Science）以及國內(nèi)期刊《暨南學報（哲學社會科學版）》先后表示暫不接受任何智能語言模型單獨或聯(lián)合署名的文章。

3.2 數(shù)字出版內(nèi)容同質(zhì)化與泛娛樂化難題

如《關(guān)于推動出版深度融合發(fā)展的實施意見》所述，中國出版業(yè)正面臨功能重復、內(nèi)容同質(zhì)等問題，泛娛樂化與同質(zhì)化的發(fā)展瓶頸在數(shù)字出版領(lǐng)域尤為突出，而智能語言模型的應用或?qū)⒓又卦摼置妗Ｊ紫?，ChatGPT以監(jiān)督學習和獎勵模型為核心算法，即通過強化學習算法對機器產(chǎn)出結(jié)果進行優(yōu)劣判斷和排序評級，導致其產(chǎn)出內(nèi)容存在算法偏好。在數(shù)字出版領(lǐng)域內(nèi)，對于相同或類似話題和指令，智能語言模型或因算法偏好而輸出類似結(jié)果，加劇數(shù)字出版內(nèi)容的同質(zhì)化傾向。其次，短視頻平臺、新聞客戶端、社交新媒體等新型數(shù)字出版平臺泛娛樂化內(nèi)容泛濫，而ChatGPT 等基于偏好算法的智能語言模型可能造成淺薄空洞或有害內(nèi)容的惡性循環(huán)傳播。再次，智能語言模型打造的個性化推薦算法擴大了數(shù)字出版內(nèi)容的傳播，同時人工智能織就的信息繭房有可能嚴重拉低數(shù)字出版內(nèi)容的信息品質(zhì)與內(nèi)涵。此外，數(shù)字出版領(lǐng)域內(nèi)智能語言模型的應用還可能引發(fā)虛假新聞、信息過載、出版內(nèi)容社會黏性缺失等問題[11]。綜上，新一代智能語言模型如使用不當，將有礙嚴肅文學等具有深刻內(nèi)涵的出版物的傳播，影響優(yōu)秀文化傳承與文化事業(yè)建設(shè)。

3.3 智能語言模型生成物的版權(quán)保護困境

學術(shù)界關(guān)于人工智能生成物的版權(quán)保護爭議由來已久、未有定論，ChatGPT 的爆火再一次將該議題推向風口浪尖。為此，首先要解決的問題是智能語言模型生成物能否納入版權(quán)法客體的范疇。支持者認為，基于勞動價值論、功利主義的視角，為人工智能生成物提供版權(quán)保護符合激勵機制以及著作權(quán)法的相關(guān)規(guī)定[12]；反對者指出，人工智能創(chuàng)作的本質(zhì)是模仿與計算，其生成內(nèi)容不具備智力財產(chǎn)的屬性，故應屬于公有領(lǐng)域[13]。新一代智能語言模型模糊了上述對立觀點間的界限：ChatGPT 大眾創(chuàng)作呈井噴態(tài)勢，能否真正激勵數(shù)字出版領(lǐng)域產(chǎn)業(yè)創(chuàng)新存疑；監(jiān)督學習與獎勵模型下，智能語言模型生成物蘊含算法偏好與機器價值判斷，已脫離最初單純的人工智能機械創(chuàng)作模式。因此，智能語言模型生成物的可版權(quán)性問題仍有待考察。進一步地，若承認智能語言模型生成物的版權(quán)客體性質(zhì)，關(guān)于權(quán)利歸屬的認定亦眾說紛紜，學界大致存在操作者說、投資者說、設(shè)計者說、人工智能主體資格說等幾種主流學說。對此，OpenAI 關(guān)于ChatGPT 的使用條款表示在特定前提下，將向用戶轉(zhuǎn)讓（assign）相關(guān)輸出內(nèi)容的所有權(quán)利和利益[14]；其中“轉(zhuǎn)讓”的表述暗示其認為自身是智能語言模型生成物的原始權(quán)利主體?？砂鏅?quán)性的判斷與版權(quán)歸屬問題牽涉數(shù)字出版領(lǐng)域相關(guān)爭議的定分止爭，后續(xù)應進一步審慎考察現(xiàn)行《著作權(quán)法》及相關(guān)規(guī)定，以維護數(shù)字出版市場的經(jīng)濟秩序。

3.4 智能語言模型創(chuàng)作過程中的侵權(quán)風險

智能語言模型進行數(shù)字出版物創(chuàng)作的本質(zhì)是人工智能對大數(shù)據(jù)學習、分析、再創(chuàng)造的過程，貫穿全程且起核心作用的技術(shù)即文本數(shù)據(jù)挖掘。具言之，智能語言模型對海量文本數(shù)據(jù)進行深度學習、結(jié)構(gòu)化處理，最終生成目標指令和內(nèi)容，可簡化為“輸入”“輸出”兩個環(huán)節(jié)；而這兩個環(huán)節(jié)均可能導致數(shù)字出版領(lǐng)域的侵權(quán)風險與侵權(quán)責任認定難題。一方面，“輸入”環(huán)節(jié)以海量文本數(shù)據(jù)為機器學習基礎(chǔ)，引發(fā)三個層次的侵權(quán)風險：智能語言模型以商業(yè)化手段批量使用他人作品，難以構(gòu)成版權(quán)法上的合理使用，此乃著作權(quán)侵權(quán)風險；中國《數(shù)據(jù)安全法》《個人信息保護法》構(gòu)筑起了數(shù)據(jù)保護的圍墻，而智能語言模型文本數(shù)據(jù)挖掘行為或?qū)⒋蚱圃摍?quán)利邊界；以《民法典》為基礎(chǔ)的自然人隱私權(quán)保護體系，也受到文本數(shù)據(jù)挖掘中算法黑箱、無差別算法的威脅[15]。另一方面，智能語言模型“輸出”階段產(chǎn)生的數(shù)字出版物可被視為對原始版權(quán)作品的改編、匯編、演繹或“轉(zhuǎn)換性使用”，這又涉及著作權(quán)合理使用“三要件”與“四要素”之爭，引發(fā)司法實踐對版權(quán)侵權(quán)與合理使用的判定難題。此外，ChatGPT 使用條款表示，為響應知識產(chǎn)權(quán)人的投訴，提交特定材料后OpenAI將刪除或禁用涉嫌版權(quán)侵權(quán)的內(nèi)容[16]。顯然，智能語言模型試圖通過避風港規(guī)則免除侵權(quán)責任，而實踐中侵權(quán)認定還應結(jié)合主體類型、具體行為類型、爭議客體類型等多項因素綜合判斷，新一代智能語言模型能否適用避風港規(guī)則以及紅旗標準仍有待商榷。

4 數(shù)字出版領(lǐng)域智能語言模型應用的治理路徑

4.1 理念調(diào)試：技術(shù)中立論與價值論的辯證統(tǒng)一

應對新興技術(shù)引發(fā)的社會秩序變革與經(jīng)濟市場風險，學界的普遍觀點是保持技術(shù)中立，即將技術(shù)視為實現(xiàn)特定價值目標的工具，不對其進行善惡之辯[17]。在相關(guān)政策、立法與社會規(guī)約中均有體現(xiàn)。近年來，隨著智能算法、基因編輯等新興技術(shù)引發(fā)倫理危機，技術(shù)價值論主張應正視技術(shù)所含的價值取向和利益偏好。對于上述對立觀點，本文認為應回歸技術(shù)的工具屬性和目的價值，探索技術(shù)中立論與價值論的辯證統(tǒng)一，以實現(xiàn)數(shù)字出版領(lǐng)域智能語言模型風險治理的理念調(diào)試：第一，基于技術(shù)中立論視角，智能語言模型的自然屬性是機器和工具，應始終秉持其技術(shù)工具價值的觀點，即便新一代智能語言模型在數(shù)字出版領(lǐng)域具有輔助創(chuàng)作、智能出版、智慧閱讀的功能，但其只是輔助人類進行出版工作的工具，在任何情況下都不具備主體價值。第二，基于技術(shù)價值論的觀點，由于ChatGPT 的監(jiān)督學習、獎勵算法等環(huán)節(jié)均有人工訓練師的參與，理應承認其具有價值偏向性，應正視智能語言模型的社會屬性，并從政策、立法、司法、技術(shù)升級改造等角度輔以相關(guān)配套措施，引導智能語言模型在數(shù)字出版物中展現(xiàn)正向的價值內(nèi)涵。第三，思想上明確技術(shù)中立論與價值論具有辯證統(tǒng)一關(guān)系，但應認識到兩者僅具有最低限度的起點意義，在智能語言模型的治理路徑選擇上，數(shù)字出版還牽涉國家安全、文化事業(yè)發(fā)展、出版?zhèn)惱砼c學術(shù)倫理、數(shù)據(jù)隱私與著作權(quán)保護等諸多更深層次的目標，下文將在理念調(diào)試的基礎(chǔ)之上對相關(guān)議題展開論述。

4.2 政策立法：智能語言模型的法制治理路徑

國家政策方針為行業(yè)發(fā)展提供指引與方向。為應對數(shù)字出版領(lǐng)域內(nèi)智能語言模型應用的風險與挑戰(zhàn)，可結(jié)合有關(guān)學者提出的“科技賦能出版”發(fā)展理念[18]，從以下三個層面完成相關(guān)領(lǐng)域的政策體系布局：其一，堅守意識形態(tài)安全調(diào)控體系。數(shù)字出版是國家文化事業(yè)建設(shè)的關(guān)鍵環(huán)節(jié)，合理規(guī)劃智能語言模型參與數(shù)字出版，關(guān)涉我國政治安全、文化安全與網(wǎng)絡安全。此外，機器學習過程中的數(shù)據(jù)跨境流動還與國家數(shù)據(jù)安全休戚相關(guān)。其二，構(gòu)筑國家整體規(guī)劃調(diào)控體系。一方面，將智能語言模型技術(shù)納入國家文化事業(yè)發(fā)展規(guī)劃、數(shù)字出版產(chǎn)業(yè)發(fā)展規(guī)劃以及人工智能產(chǎn)業(yè)發(fā)展規(guī)劃；另一方面，探索專門的數(shù)字出版智能語言模型應用規(guī)劃，從立法、行政、金融、財稅、文化等方面提供全方位指引。其三，形成行業(yè)標準規(guī)范調(diào)控體系。在行業(yè)內(nèi)部制定統(tǒng)一的技術(shù)規(guī)范，如數(shù)字出版技術(shù)標準規(guī)范、智能語言模型技術(shù)應用規(guī)范等。

有關(guān)數(shù)字出版領(lǐng)域智能語言模型的立法，主要集中在著作權(quán)、數(shù)據(jù)權(quán)利、個人信息和隱私保護三個方面：應盡快修訂《著作權(quán)法實施條例》，理順著作權(quán)法實施規(guī)范；以《數(shù)據(jù)安全法》《個人信息保護法》為基礎(chǔ)，細化數(shù)據(jù)權(quán)利保護模式；探索構(gòu)建以《民法典》人格權(quán)編為核心的隱私與個人信息保護制度體系?，F(xiàn)階段，討論的重點是如何在司法實踐中運用現(xiàn)行法律解決數(shù)字出版領(lǐng)域智能語言模型的侵權(quán)風險：首先，ChatGPT 生成物的可版權(quán)性判斷，應嚴格遵循著作權(quán)法“獨創(chuàng)性”“一定表現(xiàn)形式”等構(gòu)成要件客觀判斷。其次，對于生成物的權(quán)利歸屬問題，尊重智能語言模型相關(guān)當事人的意思自治[19]；若無相關(guān)約定，則以出版物獨創(chuàng)性貢獻分析為核心，結(jié)合著作權(quán)權(quán)屬規(guī)則由參與創(chuàng)作或投資的自然人或法人享有權(quán)利。再次，機器學習過程中產(chǎn)生的出版物合理使用與侵權(quán)認定難題，應嚴格遵照“三步檢驗法”靈活判斷，避免制度擴張侵蝕公共利益。最后，針對OpenAI 使用條款中自擬的避風港規(guī)則聲明，應結(jié)合具體的侵權(quán)情節(jié)、行為類型、爭議客體類型等因素在個案中綜合判定。

4.3 出版轉(zhuǎn)型：數(shù)字出版智能化升級與人才培養(yǎng)

智能語言模型的推廣應用帶動出版業(yè)轉(zhuǎn)型，使其呈現(xiàn)出科技化、自動化、智能化的良好發(fā)展態(tài)勢；出版行業(yè)關(guān)系到國家思想教育工作、文化事業(yè)繁榮等重大事宜，應從以下三個層次開辟數(shù)字出版領(lǐng)域應對智能語言模型風險的治理之道。其一，數(shù)字出版領(lǐng)域智能語言模型治理的基本原則。以出版安全為基準，發(fā)揮智能技術(shù)在國家文化事業(yè)建設(shè)中的積極作用，維護國家安全、文化安全、數(shù)據(jù)安全與出版安全；以優(yōu)質(zhì)內(nèi)容為導向，始終堅持以優(yōu)質(zhì)數(shù)字出版內(nèi)容為前景方向和運作核心，避免因新技術(shù)而破壞出版行業(yè)的價值追求和精神內(nèi)核；以融合創(chuàng)新為動力，對新一代智能語言模型持開放態(tài)度，融合5G、區(qū)塊鏈、云服務等新興信息技術(shù)引導產(chǎn)業(yè)創(chuàng)新。其二，完成數(shù)字出版智能化升級。一方面，面對新一代智能語言模型，數(shù)字出版應采取從入門到深入、從局部到整體、從應用到限制的策略，推動全新智能創(chuàng)作模式、引領(lǐng)智能出版流程升級、打造智慧閱讀空間，最大地發(fā)揮人工智能的工具價值；另一方面，審慎對待智能語言模型生成物，堅持人類主體地位、發(fā)揮人類主觀能動性，提升編審標準、提高出版人的社會責任感，避免盲目依賴人工智能而引發(fā)風險和傷害。其三，培養(yǎng)數(shù)字出版復合型人才?！缎乱淮斯ぶ悄馨l(fā)展規(guī)劃》《出版物發(fā)行業(yè)“十四五”時期發(fā)展專項規(guī)劃》均明確提出要加強人才隊伍建設(shè)，培養(yǎng)數(shù)字出版領(lǐng)域復合型人才，應重視三重能力：基礎(chǔ)的編輯學、語言學、信息管理學知識技能，一定程度的信息技術(shù)、計算機科學、網(wǎng)絡技能知識，最重要的是創(chuàng)造性思維和創(chuàng)新能力，以此打破智能語言模型中的信息繭房與算法偏差，真正意義上發(fā)揮人工智能的工具價值而非被算法裹挾，為數(shù)字出版提供智力支持。

4.4 技術(shù)升級：智能語言模型的配套技術(shù)完善

現(xiàn)階段，以ChatGPT 為代表的智能語言模型還存在人工智能幻覺、過度優(yōu)化、算法歧視和有害指令等技術(shù)局限，人工智能發(fā)展水平與數(shù)字出版融合之間仍存在難以匹配的矛盾，為應對倫理危機與侵權(quán)風險，提升數(shù)字出版物內(nèi)容質(zhì)量，應從智能語言模型本身與相關(guān)配套措施進行技術(shù)升級與完善。第一，完善智能語言模型算法，最大程度地克服人工智能幻覺與過度優(yōu)化難題，提升數(shù)字出版物內(nèi)容合理性與可信度。第二，重視監(jiān)督學習、獎勵模型等算法設(shè)計中的價值判斷審核，將先進思想理念與普世價值觀念注入深度學習算法，在合理范圍內(nèi)實現(xiàn)算法公開與算法監(jiān)督、打破算法黑箱，避免滋生歧視或有害內(nèi)容。第三，積極推廣使用互聯(lián)網(wǎng)環(huán)境中版權(quán)作品的標簽、水印、爬蟲協(xié)議（robots.txt）等技術(shù)，明確網(wǎng)絡數(shù)據(jù)與作品的權(quán)利狀態(tài)；相應地，智能語言模型設(shè)計者應在數(shù)據(jù)文本挖掘過程中采取相關(guān)措施對上述標識進行檢測和篩選，從而保障數(shù)據(jù)來源合法[20]。第四，在智能語言模型中增加內(nèi)容過濾算法，對算法深度學習文本、用戶輸入指令、模型輸出內(nèi)容進行機器審核，并輔以ChatGPT 使用條款中的刪除或禁用機制，從源頭上遏制有害信息、歧視指令和侵權(quán)內(nèi)容，以減輕權(quán)利人適用“通知-刪除”規(guī)則的工作量。第五，研發(fā)并完善針對智能語言模型的文本識別與檢測技術(shù)，對數(shù)字出版物內(nèi)容進行機器篩查和判斷，打擊利用人工智能進行抄襲改寫、虛假署名、學術(shù)不端等違反學術(shù)倫理與出版?zhèn)惱淼男袨椤?/p>

5 結(jié) 語

出版產(chǎn)業(yè)與技術(shù)的聯(lián)系正變得越來越緊密，出版機構(gòu)日益向知識運營和服務提供商轉(zhuǎn)型[21]。隨著新一代技術(shù)革命、全民共創(chuàng)與全民閱讀時代的到來，數(shù)字出版正朝著助力文明建設(shè)、繁榮文化市場、服務大眾閱讀的方向演進與變遷。ChatGPT 再次引發(fā)人工智能參與社會產(chǎn)業(yè)發(fā)展的討論熱潮。對數(shù)字出版產(chǎn)業(yè)而言，新一代智能語言模型既不是激活、引領(lǐng)產(chǎn)業(yè)繁榮的靈丹妙藥，亦不是顛覆、傾倒行業(yè)規(guī)則的洪水猛獸。應正確把握技術(shù)中立論與價值論的辯證統(tǒng)一關(guān)系，始終堅持新興技術(shù)的工具價值與客體地位，從理念調(diào)試、政策立法、產(chǎn)業(yè)轉(zhuǎn)型、技術(shù)升級等角度理性應對數(shù)字出版領(lǐng)域智能語言模型的倫理危機與侵權(quán)風險，方能實現(xiàn)我國出版業(yè)高質(zhì)量可持續(xù)發(fā)展，助力新時代文化強國建設(shè)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)字出版領(lǐng)域智能語言模型的應用、風險與治理——基于ChatGPT技術(shù)特征的分析