生成式智能出版的應用場景、風險挑戰(zhàn)與調治路徑

2023-10-28 13:40:40張新新黃如花

圖書情報知識 2023年5期

張新新黃如花

隨著ChatGPT躋身史上用戶增長速度最快的互聯(lián)網(wǎng)應用程序，生成式人工智能（Generative AI）技術以其卓越的算法、算力和數(shù)據(jù)優(yōu)勢，迅速成為社會關注的焦點和熱點，并將長遠而深刻地影響著傳媒、教育、營銷、咨詢、翻譯等行業(yè)。

生成式AI技術作用于出版流程內(nèi)部，推動著專業(yè)生成內(nèi)容（professional generated content, PGC）走向人工智能生成內(nèi)容（artificial intelligence generated content,AIGC），人工編校走向人機協(xié)同編校，按需印刷和智能印廠場景的進一步豐富以及出版營銷效率、動力和質量變革。生成式AI 技術作用于出版外部，將會催生一系列智能出版新產(chǎn)品、新業(yè)態(tài)和新模式，同時也面臨著數(shù)據(jù)、版權、價值等多方面的風險和挑戰(zhàn)，因此需要在分析場景創(chuàng)新、識別風險挑戰(zhàn)的基礎上，進一步提出生成式智能出版的調節(jié)路徑和治理路徑。

1 生成式智能出版的多維應用場景

分析式AI主要發(fā)力于對現(xiàn)有事物的解釋、呈現(xiàn)、表達與推薦方面，能夠提高用戶的智能化體驗，目前應用于新聞出版領域的AI技術多為分析式AI。生成式AI旨在生成新的信息、數(shù)據(jù)和知識，可以生成文字、圖片、音頻、視頻、3D模型、虛擬環(huán)境等多模態(tài)內(nèi)容。較分析式AI，生成式AI在通往賦予機器智能化的道路上實質性地邁出了一大步，使機器產(chǎn)生了智能化的自主思維與意識。

分析式AI技術已創(chuàng)造出諸多智能出版應用場景，如出版大數(shù)據(jù)、智能知識服務、增強現(xiàn)實（augmented reality，AR）智能出版、虛擬現(xiàn)實（virtual reality，AR）智能出版、在線教育智能化[1]。隨著生成式AI技術的深層次應用，這些智能出版場景將會得到進一步的豐富、深化或拓新，并推動眾多新的應用場景出現(xiàn)，如圖1所示。

圖1 生成式智能出版的多維應用場景Fig.1 Multidimensional Application Scenarios of Generative Intelligent Publishing

1.1 出版大數(shù)據(jù)與大規(guī)模語言模型

缺乏數(shù)據(jù)的喂養(yǎng)和訓練，再好的強化算法技術也無法催生ChatGPT等生成式AI產(chǎn)品，海量數(shù)據(jù)語料庫是生成式AI技術勃興的前提、基礎和底座。ChatGPT等生成式AI產(chǎn)品的研發(fā)過程，給予出版業(yè)的重要啟示首先在于重視數(shù)據(jù)建設，把數(shù)據(jù)作為生產(chǎn)要素、作為新能源、作為推動出版業(yè)高質量發(fā)展的新動能。

數(shù)據(jù)要素是指對客觀事物的性質、狀態(tài)及關系進行記錄的物理符號或符號組合，是未經(jīng)加工的數(shù)字和事實，大數(shù)據(jù)語境下對數(shù)據(jù)的使用重在強調相關關系；信息則是指經(jīng)過處理、專題化的數(shù)據(jù)，于出版業(yè)而言，信息服務也能構成一種專業(yè)的出版知識服務模式；知識則是經(jīng)過實踐檢驗被證明是正確的信息。隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)作為一種生產(chǎn)要素，其重要性越來越受到重視，但出版業(yè)對數(shù)據(jù)要素的認知、理解和運用還有較大的提升空間。正如《大數(shù)據(jù)時代》的作者所述，（西方國家）出版社“沒有把書籍的數(shù)據(jù)價值挖掘出來，也不允許別人這樣做。他們沒有看到數(shù)據(jù)化的需求，也意識不到書籍的數(shù)據(jù)化潛力”[2]。同樣，我國出版業(yè)在數(shù)據(jù)要素配置方面也存在數(shù)據(jù)理念缺失、數(shù)據(jù)思維薄弱、數(shù)據(jù)價值挖掘不充分、數(shù)據(jù)產(chǎn)業(yè)鏈缺位、數(shù)據(jù)治理缺失等問題。

基于生成式AI技術，未來出版業(yè)的數(shù)據(jù)應用場景至少包括：其一，出版內(nèi)部數(shù)據(jù)資料庫建設，再造一個網(wǎng)絡版出版機構。通過對出版社歷史上的每一本書、每一位作者、每一位用戶等進行數(shù)據(jù)化處理，積累豐富的內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)和交互數(shù)據(jù)；進而通過數(shù)據(jù)的調取、識別、再現(xiàn)，架構出版社內(nèi)部的數(shù)據(jù)池，構建起一個由內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)、交互數(shù)據(jù)構成的數(shù)字化出版企業(yè)。其二，垂直型知識服務大數(shù)據(jù)建設。在完成出版社內(nèi)部數(shù)據(jù)建設的基礎上，通過數(shù)據(jù)交換、數(shù)據(jù)共享、增量數(shù)據(jù)建設等方式，不斷擴充數(shù)據(jù)規(guī)模，逐步形成可以服務垂直領域的知識服務大數(shù)據(jù)，如法院出版社的法信大數(shù)據(jù)、知識產(chǎn)權出版社的DI Inspiro大數(shù)據(jù)等。其三，面向出版領域的大規(guī)模語言模型（large language model, LLM）建設。對此，須充分發(fā)揮重大文化產(chǎn)業(yè)項目帶動戰(zhàn)略，用好文化產(chǎn)業(yè)、出版業(yè)的宏觀調控體制優(yōu)勢，從國家層面著手啟動旨在維護意識形態(tài)陣地安全、文化安全和內(nèi)容安全的出版業(yè)LLM工程：一方面，籌建包含中文書籍、報刊、網(wǎng)絡百科等在內(nèi)的超大規(guī)模語料集，并聘請出版專家進行少量、高質量的人工標記語料集建設；另一方面，可在國內(nèi)LLM的基礎上，通過對出版語料集的訓練，運用基于人類反饋的強化學習算法，確保模型輸出內(nèi)容在表達方式、安全性、價值觀方面與主流意識形態(tài)相適應。

1.2 升維發(fā)展的智能知識服務

此前筆者在《出版+人工智能: 未來出版的新模式與新形態(tài)》一文中提及“智能知識服務”，著重論及知識計算等關鍵技術，以及涵蓋幾十億實體規(guī)模的跨領域、跨學科、跨媒體、多數(shù)據(jù)類型的知識圖譜構建；后續(xù)筆者在國家標準《新聞出版知識服務知識資源建設與服務工作指南》最后一條專門提出“智能知識服務”，即“以人工智能技術為依托，借助大數(shù)據(jù)開展知識體系構建、知識計算、知識圖譜構建，開展機器撰稿、新聞推薦、智能選題策劃、智能審校、智能印刷、智能發(fā)行、智能機器人等服務方式”[3]。

不難看出，之前論述或規(guī)定的“智能知識服務”，主要強調基于分析式AI技術的應用，如新聞推薦、知識體系構建、知識計算等，以及基于淺層次的生成式AI技術應用，如機器撰稿等。其所提供的知識服務主要是采取“提問-檢索-適配-推送”的基本邏輯，沒有體現(xiàn)AI生成的邏輯；智能知識服務的“智能”也主要體現(xiàn)在基于知識計算的隱性知識推導和知識服務，沒有觸及提供知識產(chǎn)品、信息服務和知識解決方案的機器本體“智能”問題。一言以蔽之，其還停留在傳統(tǒng)知識服務的階段。

ChatGPT兼具人類自然加持和大規(guī)模復雜系統(tǒng)的涌現(xiàn)能力，重塑了知識服務的生命形態(tài)，也對傳統(tǒng)知識服務造成降維式打擊[4]。作為知識服務提供商，與其被動地被降維打擊，倒不如主動擁抱新技術、積極應用新技術，做到知識服務的升維發(fā)展。在生成式AI技術的推動、影響和啟發(fā)下，智能知識服務至少包含以下幾層含義。

一則，圍繞“知識體系”進行邏輯建構。知識體系的重要性越來越凸顯，宏觀來看，無論是哲學、自然科學抑或社會科學，其學科體系、學術體系和話語體系的構建歸根到底要推進自主知識體系建設，持續(xù)推動理論、知識和方法的創(chuàng)新。從生成式AI視角進行微觀分析，ChatGPT之所以獲得認可，除了其采用了基于人類反饋的強化學習算法、更加適人化的輸出方式外，更重要的是發(fā)現(xiàn)了知識元之間的邏輯關系、形成了思維鏈，從而能夠實現(xiàn)內(nèi)容的復雜推理。而知識元之間的邏輯關系，是知識體系構建的核心內(nèi)容。因此，未來智能知識服務的中心任務便是構建更為全面、更加科學、適用范圍更廣的知識體系，包括基于海量語料庫的歸納式構建和基于書籍、百科網(wǎng)站的演繹式構建。

二則，圍繞“智能”創(chuàng)設應用場景。知識服務的“智能化”是未來知識服務發(fā)展的關鍵所在。知識體系的自動構建，數(shù)據(jù)、信息和知識的自動生成，用戶知識問題解決方案的集成式創(chuàng)新解答，圖文聲像影、3D模型、虛擬環(huán)境等多模態(tài)知識需求的全方位回應，視、聽、味、嗅、觸等聯(lián)覺體驗的智能推送，等等，這些或可成為未來智能知識服務的努力方向和重要發(fā)力點。

三則，由“檢索推送”走向“生成解答”。根據(jù)用戶提問，在已有知識庫中進行檢索，而后推送給用戶以解答知識問題的“檢索推送”范式將成為歷史。取而代之的是根據(jù)用戶提問、自主生成滿足用戶知識需求的“生成解答”范式。這也意味著以往基于感知智能的“產(chǎn)品驅動型、信息驅動型、政策驅動型、技術驅動型”[5]的知識服務模式將逐步被智慧驅動型知識服務模式所取代，意味著人類智慧與AI的高度協(xié)同、深度融合，將推動智慧驅動型知識服務模式向生成式智能驅動型知識服務的方向升級和邁進。

四則，知識服務主體的人機協(xié)同。且不論法律或規(guī)則層面的主體含義，至少在事實層面，智能知識服務的主體不再限定在“人”“法人”的范圍內(nèi)，而是延伸至AI或機器。解決用戶知識問題的答案，即數(shù)據(jù)、信息或知識，不再簡單由人類直接提供，而是AI在語料庫的基礎上進行集成式創(chuàng)新、整合式創(chuàng)新而予以提供的。簡言之，即“AI生成答案以解決知識問題需求”。由此，人類和機器共同作為知識服務主體，以人機協(xié)同、人機融合的方式提供知識服務，滿足人們學習、求知、閱讀等需要，已然是不爭的事實。

1.3 智能決策的出版領域智能機器人

智能機器人是行為智能的代表[6]。新聞出版業(yè)的智能機器人在機器人實體、傳感器、效應器和執(zhí)行器層面都有其特殊性，須充分結合內(nèi)容產(chǎn)業(yè)的優(yōu)勢和特點，重點在控制器的語音知識庫和交互功能方面發(fā)力[7]。

在以分析式AI為代表的時代，智能機器人以禮儀機器人、智能盤點機器人、智慧圖書館的智能管理機器人等形態(tài)在圖書館領域得到廣泛應用。新聞領域主要以撰稿機器人形態(tài)出現(xiàn)，如國外華盛頓郵報的Heliograf、美聯(lián)社的WordSmith以及紐約時報的blossom等；國內(nèi)新華社的“快筆小新”、騰訊的Dreamwriter（夢幻寫手）、第一財經(jīng)的“DT稿王”、今日頭條的“張小明”等。出版領域的應用，則包括智能銷售機器人、智能教育機器人和智能倉儲機器人等[8]。

ChatGPT等生成式AI產(chǎn)品的推廣和普及，將智能出版由分析式智能出版推向生成式智能出版的發(fā)展階段，也使得新聞出版領域的智能機器人再次獲得難得的發(fā)展機遇。具體來講，生成式智能將推動出版領域智能機器人實現(xiàn)以下兩方面的應用場景創(chuàng)新：（1）控制器的決策功能將進一步優(yōu)化?？刂破髯鳛闄C器人的大腦，決定著機器人的自主行為，是機器人“思維”“決策”功能的主要承載儀器。較出版機構以往主導研發(fā)的教育機器人、科普機器人，海量語料集、LLM的成功運用，使出版領域的智能機器人可以在控制器層面有效調動在線知識庫，調用LLM的數(shù)據(jù)和算法，從而起到更好的人機交互效果，更好地滿足用戶的學習、教育、聽讀等方面的知識服務需求。由此也推動出版領域智能機器人控制器的研發(fā)路徑由“內(nèi)置式知識庫”范式轉向“在線版LLM”范式。這種研發(fā)路徑的轉向，將極大地提升出版領域智能機器人的認知、思維和決策能力，在質的層面提高出版領域智能機器人的決策功能、交互功能和用戶體驗感。（2）出版領域智能機器人應用場景多元化、立體化拓展。眾人耳熟能詳?shù)氖?，繪本閱讀機器人、早教機器人、銷售機器人等多元智能機器人已在出版業(yè)嶄露頭角。但生成式AI技術到來之前的出版領域機器人，呈現(xiàn)出千篇一律、虛有其表的短板，往往側重于簡單的故事、兒歌、詩歌等內(nèi)容的普及以及較低程度的語音交互功能應用。今后，隨著前述出版大數(shù)據(jù)和出版領域LLM的建設與發(fā)展，智能教育機器人的語音知識庫將會以LLM的身份出現(xiàn)，知識問答、課程資源查詢、高水平人機交互等功能將會更上一層樓。知識服務機器人將成為出版領域智能機器人應用的下一個風口，垂直領域的海量語料庫+LLM，將實質性推動知識服務機器人提供數(shù)量更多、服務更專業(yè)、獲取更便捷的知識問答與檢索服務，從而使得知識服務機器人成為智能出版的新產(chǎn)品和新業(yè)態(tài)。此外，智能銷售機器人，可以根據(jù)讀者個性化、定制化的圖書需求，基于語料庫和LLM，生成更加專業(yè)、更有針對性的圖書情報、宣傳廣告，從而為讀者提供體驗感更佳的圖書推薦和營銷服務。

1.4 生成式智能出版物

生成式智能出版物，是指應用生成式AI技術的出版產(chǎn)品，是融合AI和人類智慧的出版產(chǎn)品。生成式智能出版物，一方面是指基于AIGC的智能出版產(chǎn)品或服務，如世界上首本由AI創(chuàng)作而成的實驗小說——1 The Road，再如前述由微軟小冰、ChatGPT和其他AIGC應用所創(chuàng)作的詩歌、論文、專著、繪畫、音樂作品等；另一方面，也指人機共生、人機協(xié)同語境下研發(fā)的智能出版產(chǎn)品服務，如法院社的《智慧辦案手冊》，有道AI機器翻譯、人工團隊審核修訂的《極簡區(qū)塊鏈》圖書等。生成式智能出版物的創(chuàng)作、生成由AI全部完成、主要完成或參與完成。但是，后續(xù)的編校印發(fā)各環(huán)節(jié)仍然離不開人類智慧，離不開出版編輯的時間、精力和智慧付出。

鑒于AIGC集成性創(chuàng)新特征突出、語料庫的價值觀烙印以及自然人用戶個性化服務的優(yōu)勢，從未來發(fā)展趨勢來看，生成式智能出版物，可在以下幾個方向發(fā)力。

1.4.1 翻譯類出版物

ChatGPT等生成式AI產(chǎn)品往往擁有多種語言的海量語料庫，由此，多語種之間翻譯、轉換、生成和輸出優(yōu)勢極為明顯。據(jù)悉AI翻譯一本20萬字的圖書僅需花費數(shù)十秒的時間。未來的出版業(yè)態(tài)之中，翻譯作品可先經(jīng)由生成式AI翻譯，再輔以人工審核校對，這樣便可大大提高翻譯質量和效率，甚至可以做到圖書原著和翻譯作品的同步出版、同時上線。

1.4.2 匯編類出版物

某種程度來講，就特定專業(yè)、特定學科、特定領域的具體知識問題而言，AIGC所能提供的信息、數(shù)據(jù)、知識或解決方案，其質量、規(guī)模、數(shù)量和效率遠遠高于大部分人類專家。換言之，ChatGPT等生成式AI產(chǎn)品，能夠根據(jù)目標用戶的知識需求，基于海量語料集的數(shù)據(jù)優(yōu)勢，運用強化學習算法，輔以超強算力支持，圍繞特定知識點或知識體系在最短的時間內(nèi)形成遠超人類的集合性、整合性輸出內(nèi)容，且這些輸出內(nèi)容是經(jīng)過AI的學習、理解、推理而得出的，不只是簡單的材料堆砌、知識羅列。由此，文獻綜述、知識點集成、百科出版等匯編類出版物將成為生成式AI技術的重要發(fā)力點，成為生成式智能出版物的示范性場景。

1.4.3 大眾出版物

文學、詩歌、小說等大眾出版已然成為AI創(chuàng)作的先行領域。通過自然語言理解、自然語言生成以及基于人類反饋的強化學習等技術運用，AI已經(jīng)可以圍繞給定主題，在寫作風格、語法結構、格式韻律等方面實現(xiàn)自由調度，并開展想象式、開創(chuàng)性的創(chuàng)作?？梢藻谙氲氖?，為數(shù)更多的、飽含人類情感的AI文學、小說、詩歌等文藝類大眾作品將以生成式智能出版物的面貌展現(xiàn)在世人面前。

此外，值得一提的是，生成式智能出版還無法在短時期內(nèi)覆蓋所有出版領域。鑒于ChatGPT等由國外主導研發(fā)的AIGC產(chǎn)品容易引起“意識形態(tài)偏見、意識形態(tài)滲透、文化價值觀認同危機以及出版意識形態(tài)把握危機”[9]，教育出版類圖書、主題出版類圖書，暫不宜采用AIGC，即使應用AIGC，也需要進行嚴格的審核和把關，確保以人類智慧駕馭AI、以主流價值駕馭算法數(shù)據(jù)。

1.5 元宇宙出版新業(yè)態(tài)

元宇宙出版，是指元宇宙系統(tǒng)中的出版，即由數(shù)字孿生人、虛擬出版業(yè)、虛實融合出版、腦機知識服務等所構成的數(shù)字世界的出版[10]。在元宇宙中，或曰元宇宙出版系統(tǒng)中，孿生數(shù)字人是主體性力量，數(shù)據(jù)、信息、知識是運行基質，數(shù)字技術是建構和運行邏輯[11]。

AIGC的出現(xiàn)和普及，為元宇宙出版新業(yè)態(tài)提供了必需的數(shù)據(jù)、信息、知識等基質，提供了孿生數(shù)字人的“思維”“決策”能力，還進一步提供了作為元宇宙出版動能、運行邏輯的智能化數(shù)字技術。

在運行基質方面，生成式預訓練轉換模型（generative pre-trained transformer，GPT）等LLM可為元宇宙出版源源不斷地輸入期刊、書籍、百科等萬億級的單詞語料，經(jīng)過數(shù)據(jù)清洗后，可進一步形成數(shù)萬億級甚至百萬億級的無標注文本數(shù)據(jù)。這些海量的數(shù)據(jù)、信息和知識，為元宇宙的構建、運行提供了必備的生產(chǎn)要素和基礎設施，并且基于海量語料和強化學習技術，AI可進一步生成新的內(nèi)容，由此形成數(shù)據(jù)、信息和知識的再生產(chǎn)、循環(huán)生產(chǎn)機制，為元宇宙出版持續(xù)、穩(wěn)定、健康地運行奠定數(shù)據(jù)基礎。

在運行主體方面，虛擬數(shù)字人或孿生數(shù)字人的感知、認知、決策、執(zhí)行和控制能力將進一步增強。GPT4等LLM較為成功地解決了感知智能上升到認知智能的難題，是通往通用人工智能（artificial general intelligence，AGI）的關鍵，也實質性地為數(shù)字人的智能問題提供了技術解決方案。同時，基于人類反饋的強化學習算法的成功運用，為自然人和數(shù)字人之間的數(shù)據(jù)同步、表達同步、輸出同步難題提供了更有效率的攻克之道。

在運行動能方面，GPT4的超強算力為元宇宙出版的實質運行提供了基本支撐和維系動力。GPT作為一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型，能夠有效地支撐“海量數(shù)據(jù)—強化學習—適人化生成內(nèi)容”的系統(tǒng)運行，從而為構建元宇宙出版虛擬空間數(shù)字人“感知—認知—決策（生成）—行為”的運行模式提供有益借鑒。

2 生成式智能出版面臨的風險挑戰(zhàn)

生成式智能出版新業(yè)態(tài)的出現(xiàn)無疑擴充了出版的應用場景和發(fā)展可能，也不斷為數(shù)字出版的創(chuàng)新發(fā)展輸入了強大的驅動力。然而，這并不意味著生成式智能出版總是能發(fā)揮正向的賦能作用。事實上，其在應用過程中不可避免地面臨著諸多風險和挑戰(zhàn)，這是生成式AI技術在設計、開發(fā)、應用過程中受諸多因素綜合影響所致。對這些風險的準確識別和挑戰(zhàn)的及時應對，是發(fā)揮生成式智能出版應用場景正價值賦能的應有之義，也是技術向善理念在出版領域的必然要求。

2.1 數(shù)據(jù)來源和輸出風險

數(shù)據(jù)風險是生成式AI技術應用到各行各業(yè)都會遇到的風險，這種風險涵蓋了數(shù)據(jù)來源、訓練、組織和輸出的整個環(huán)節(jié)，既包括數(shù)據(jù)來源風險、數(shù)據(jù)訓練風險，也存在數(shù)據(jù)輸出環(huán)節(jié)的風險。囿于篇幅限制，本文僅就來源、輸出兩個環(huán)節(jié)的風險予以分析。

數(shù)據(jù)來源的風險，是指構成ChatGPT訓練集的數(shù)據(jù)類型、規(guī)模、語種等本身對輸出結果的科學性、合理性、權威性的基礎性、根本性風險。數(shù)據(jù)來源風險具體可細化為以下幾個方面。

（1）“數(shù)據(jù)獲取侵權、數(shù)據(jù)內(nèi)容違法、虛假信息吸收”[12]影響最終輸出結果的真實性和合法性，例如語料集涉及個人隱私、商業(yè)秘密等方面的數(shù)據(jù)如被惡意使用或過度使用，則容易引起內(nèi)容生成違法性的問題。

（2）數(shù)據(jù)挖掘不受限，通過深層次推理和思維鏈技術，推導出數(shù)據(jù)背后的信息可能關系國家安全。事實上，當前技術“無法完全過濾種族歧視或仇恨言論，同樣埋下國家安全隱患”[13]。同時，關鍵領域公開出版物的數(shù)據(jù)化，如對重要能源礦床、礦產(chǎn)地等圖書知識進行標注、計算和輸出，存在泄漏國家能源安全的風險。

（3）LLM語料庫在語種、國家、類型等方面的不均衡分布，將導致輸出內(nèi)容存在偏見、偏差，如ChatGPT所使用的語料集主要是英語語種，所輸出內(nèi)容的西式價值觀烙印很深。

（4）數(shù)據(jù)時效性不強，所訓練和輸出的主要是過時數(shù)據(jù)，也會影響輸出內(nèi)容的真實性、準確性和科學性。如ChatGPT所使用的數(shù)據(jù)主要是2021年以前的數(shù)據(jù)，而對于最新的數(shù)據(jù)、信息和知識的攝入則處于缺失、缺位狀態(tài)，故而無法解答時效性的問題。

（5）在LLM的使用過程中，客戶故意做出錯誤、誤導性或有傾向性的提問或提示，“提示語混入惡意指令，會繞過安全機制，執(zhí)行預想外指令”[14]，導致泄露信息數(shù)據(jù)、輸出有毒有害內(nèi)容等。

在數(shù)據(jù)輸出環(huán)節(jié)，LLM容易生成不良信息、有害信息、虛假信息或違法信息，進而引起“技術及倫理風險、虛假信息風險、版權爭議”[15]等通用風險。同時，受到群體傾向性的影響，會輸出“政治正確”話語[16]，如對特定人物、事件的數(shù)據(jù)分布不均致使產(chǎn)生輿論誤導、傾向性內(nèi)容輸出的風險，一個有意思的例子是ChatGPT愿意為拜登作詩頌揚，但拒絕為特朗普撰寫。

2.2 學術倫理規(guī)范的挑戰(zhàn)

實踐中已經(jīng)出現(xiàn)了學生使用ChatGPT撰寫學術論文、完成課程作業(yè)的案例，由此衍生出隱蔽型的學術不端問題，并對學術倫理和學術道德規(guī)范產(chǎn)生影響?！按祟愡`反學術道德的行為不僅會侵蝕學生獨立的科研能力，而且會影響學術界整體的公平公正性，因此ChatGPT已受到了多所教育機構的明文限制”[17]。

對論文投機者而言，AIGC無疑降低了論文炮制、抄襲的成本，并提供了更多便利。通過所謂的“整合性”創(chuàng)新所輸出的內(nèi)容，需借助多位作者的聯(lián)合鑒別，且無法做到阻止隱蔽型學術不端行為的發(fā)生。這種對學術倫理規(guī)范行為的挑戰(zhàn)，需要引起高度重視，并及時進行建章立制予以規(guī)范。教育界、學術界、教師和學生則需協(xié)同協(xié)作，應用“機器審核機器”等更高水平AI審核技術加以監(jiān)督、杜絕。

2.3 核心價值堅守的挑戰(zhàn)

前述AIGC數(shù)據(jù)來源和輸出的風險、對學術倫理規(guī)范的挑戰(zhàn)，尚且屬于淺層次的風險挑戰(zhàn)。長期使用AIGC，尤其是ChatGPT等國外LLM，其深層次的風險是沖擊、削弱或混淆主流意識形態(tài)和價值觀念，最終引起核心公共價值失靈的風險?！叭绻诵墓矁r值由于政策制定過程中的缺陷而被限制，或者沒有足夠的手段確保核心價值觀的銜接和有效的溝通，或者由于聚合價值的過程出現(xiàn)扭曲，那么公共價值失靈就有可能產(chǎn)生”[18]。

盡管當被問及“ChatGPT堅持什么樣的價值判斷？有無自己的核心價值觀”時，它給出的回答是：ChatGPT是一個純粹的語言模型，它并沒有自己的價值觀，也不會主動進行價值判斷。ChatGPT生成的回答是基于大量的文本數(shù)據(jù)訓練得出的統(tǒng)計規(guī)律，它只是根據(jù)給定的輸入生成對應的輸出，并不會對文化安全、意識形態(tài)安全造成威脅。但是，筆者仍然認為使用國外LLM，其致使核心公共價值失靈的風險是客觀存在的，且這種風險的發(fā)生是一個長期的、潛移默化的過程：一則，ChatGPT語料庫多數(shù)為西方數(shù)據(jù)庫，英語語料占比最大，其中新聞報道、圖書期刊等語料資源不可避免地帶有意識形態(tài)偏見，含有誤導、詆毀甚至是抹黑我國主流意識形態(tài)的內(nèi)容。二則，基于人類反饋的強化學習算法的運用，目標是輸出和人類的認知、需求和價值觀相一致的內(nèi)容。而這里的“價值觀”對ChatGPT來講，默認是西式價值觀，而非社會主義核心價值觀。三則，正因為ChatGPT生成的回答是基于大量的文本數(shù)據(jù)訓練得出的“統(tǒng)計規(guī)律”，而這個“統(tǒng)計規(guī)律”恰恰是建立在西方語料、西方價值基礎之上，喂養(yǎng)、訓練的數(shù)據(jù)是帶有西式價值觀烙印的，其輸出的內(nèi)容也不可避免地含有意識形態(tài)偏見或傾向，無論用戶是否發(fā)現(xiàn)，也無論ChatGPT是否正面回應。

2.4 人類職業(yè)的替代性隱憂

AI對人類職業(yè)的替代是一個長期存在的隱憂，幾乎每次在AI取得里程碑式的進步時，與之相關的各行各業(yè)都會思考這個問題。

簡言之，ChatGPT將會直接影響文本相關工作的職業(yè)，如文字編輯、翻譯、新聞記者等。客觀地講，簡單的文本處理職業(yè)將會消失，交由生成式AI應用來完成，如郵件自動回復、客觀事實報道、客服咨詢和電話熱線解答等。但是，AI無法勝任原創(chuàng)性特征明顯、原始性創(chuàng)新起主導作用的復雜文本處理工作，也因此無法取代人類完成該類工作。

未來職業(yè)的替代性問題，需轉換視角，以共生視角去思考可能更為適宜。相當多的職業(yè)，更有可能會以人機協(xié)同、人機融合、人機共生的方式出現(xiàn)，人類智慧和AI的有機融合模式，或是以人類為主、機器協(xié)助，或是以機器為主、人類協(xié)助。

3 生成式智能出版的調治路徑分析

面對上述風險與挑戰(zhàn)，生成式智能出版無疑需從調節(jié)和治理兩個路徑出發(fā)加以防范與應對。

3.1 生成式智能出版的調節(jié)路徑

數(shù)字出版調節(jié)，是指出版系統(tǒng)吸收內(nèi)化數(shù)字技術，調整自身產(chǎn)業(yè)鏈各環(huán)節(jié)及相關領域，以形成有序或高級有序的結構或狀態(tài)，包括產(chǎn)業(yè)鏈調節(jié)、主體調節(jié)、項目調節(jié)和制度調節(jié)等基本范疇[19]。生成式智能出版的調節(jié)路徑亦可從上述基本范疇出發(fā)加以思考。

其中，生成式智能出版的產(chǎn)業(yè)鏈調節(jié)是由產(chǎn)品調節(jié)、技術調節(jié)和運維調節(jié)所構成的調節(jié)體系。具體而言：

生成式智能出版產(chǎn)品調節(jié)，須以內(nèi)容建設為根本，充分發(fā)揮出版業(yè)內(nèi)容資源優(yōu)勢，將出版內(nèi)容與生成式AI技術有機融合，研發(fā)出適銷對路的生成式智能出版產(chǎn)品，如前所述的出版大數(shù)據(jù)、智能知識服務、智能機器人、生成式智能出版物以及元宇宙出版產(chǎn)品等。為適應生成式智能出版的發(fā)展趨勢，數(shù)字出版產(chǎn)品調節(jié)須主動推進數(shù)字化、數(shù)據(jù)化、智能化建設。其中，數(shù)字化是前提，數(shù)據(jù)化是關鍵，智能化是結果。歷經(jīng)二十余年的發(fā)展，我國數(shù)字出版產(chǎn)品的分析式智能化取得了階段性成果，如AR/VR出版物強化了內(nèi)容呈現(xiàn)的臨場感，再如出版大數(shù)據(jù)根據(jù)用戶畫像對出版物進行精準營銷和算法推薦等。未來數(shù)字出版產(chǎn)品的生成式智能化發(fā)展，人機協(xié)同研發(fā)數(shù)字出版產(chǎn)品，人類智慧與AI的融合，是不可逆的趨勢。

生成式智能出版的技術調節(jié)，是數(shù)字出版、智能出版產(chǎn)業(yè)鏈調節(jié)的重中之重，是生成式智能出版能否成為數(shù)字出版新業(yè)態(tài)、新模式的關鍵所在。具體而言，生成式智能出版的技術調節(jié)，須在數(shù)據(jù)、算法和算力三方面著力：

其一，確立出版數(shù)據(jù)生產(chǎn)要素的地位，夯實出版數(shù)據(jù)底座。出版業(yè)的智能化發(fā)展，離不開對數(shù)據(jù)要素市場的培育，離不開對出版業(yè)數(shù)據(jù)服務系統(tǒng)的構建，離不開包含數(shù)據(jù)建設、共享、開發(fā)、應用、維護在內(nèi)的一體化數(shù)據(jù)治理體系的建立。提高出版業(yè)數(shù)據(jù)要素生產(chǎn)效率，可從以下幾個方面推進：（1）確立數(shù)據(jù)理念。將數(shù)據(jù)視為生產(chǎn)要素，制定并落實“以數(shù)據(jù)為關鍵要素，以數(shù)據(jù)賦能為主線，以價值釋放和創(chuàng)造為核心，對產(chǎn)業(yè)鏈上下游的全要素數(shù)字化轉型、升級、重塑和再造”[20]的出版業(yè)數(shù)字化戰(zhàn)略。（2）推動數(shù)據(jù)賦能。建構和踐行出版業(yè)數(shù)據(jù)價值體系，挖掘和實現(xiàn)出版業(yè)“圖書價值、數(shù)字化價值、數(shù)據(jù)化價值”[21]三位一體的價值功能。（3）完善數(shù)據(jù)流程。根據(jù)數(shù)據(jù)采集、數(shù)據(jù)清洗、知識標引、數(shù)據(jù)計算、數(shù)據(jù)建模、知識圖譜、二次數(shù)據(jù)挖掘等數(shù)據(jù)服務流程，建立和優(yōu)化出版業(yè)、出版社數(shù)據(jù)服務體系。這方面，人民法院出版社的“法信”大數(shù)據(jù)平臺堪稱典范。（4）建立健全出版語料庫。在無標注文本數(shù)據(jù)方面，構建萬億級超大規(guī)模、超高質量、門類齊全的語料庫和數(shù)據(jù)池，涵蓋各行業(yè)、各學科和各領域；組織出版專家開展高質量的有標注的文本數(shù)據(jù)建設，至少建立數(shù)萬條符合人類偏好的標注數(shù)據(jù)。

其二，引入深度學習算法技術，探索LLM應用。第三次AI熱潮的興起，AlphaGo、元宇宙、ChatGPT等成為AI的里程碑，是大數(shù)據(jù)、深度學習算法以及超強算力綜合作用的結果。因此，要深入推進智能出版，健全生成式智能出版產(chǎn)業(yè)鏈，就需要重視并應用深度學習技術。在深度學習技術采納、應用和創(chuàng)新流程方面，出版企業(yè)宜：（1）基于長期主義理念，遵循技術轉換式創(chuàng)新規(guī)律，制定科學合理的技術創(chuàng)新戰(zhàn)略，引進強化學習、遷移學習等突破性技術資源。（2）構建企業(yè)內(nèi)部高新技術跨越動力體系，保持出版企業(yè)在技術應用和創(chuàng)新方面的戰(zhàn)略定力和韌性，通過項目申請或自主投入等方式給予耐久性、持續(xù)性財務承諾，推動出版企業(yè)穿越深度學習技術基礎研究和商業(yè)應用之間的“死亡之谷”。（3）抓住技術跨越的機會窗口，形成長期、合理、穩(wěn)定、可持續(xù)的商業(yè)模式，將路徑轉換式創(chuàng)新所得來的深度學習技術應用轉化為新的路徑依賴式創(chuàng)新，從而順利完成深度學習技術的路徑轉化式技術蛙跳。在LLM應用方面，科研實力較強、資金雄厚的大型出版集團，可以考慮聯(lián)合計算機、出版領域的科研單位，構建中文為主、涵蓋多國語言的預訓練語料集，輔以人工標注數(shù)據(jù)，通過預訓練語言模型的訓練、獎懲模型的訓練以及基于強化學習進行語言模型優(yōu)化，最終形成服務于宣傳思想文化、服務于出版業(yè)的LLM。

其三，樹立算力意識，提升智能出版新的生產(chǎn)力。算力，即計算能力，是指數(shù)據(jù)采集、傳輸、標引、關聯(lián)、計算和存儲等能力。算力是數(shù)字化、智能化服務的核心，是數(shù)字經(jīng)濟、數(shù)字出版、智能出版發(fā)展的新動能和新引擎。整體而言，出版業(yè)算力意識較為薄弱，還沒有意識到智能出版時代算力如同電力一樣，將成為數(shù)據(jù)挖掘、模型訓練的基礎支撐和核心引擎。大多數(shù)出版企業(yè)對算力的理解尚且停留在服務器購置、機房建設、云服務等具體事宜層面，沒有對算力的內(nèi)涵、構成、應用和影響形成全面、科學的認知。生成式智能出版的發(fā)展，迫切要求出版業(yè)確立算力意識，提升計算能力和存儲能力，認知、理解并及時應用云計算、邊緣計算、終端計算等技術，以進一步夯實出版業(yè)數(shù)智化轉型的基礎。

生成式智能出版的運維調節(jié)，需在智能出版的運營和維護環(huán)節(jié)，積極應用生成式AI技術，以提升智能出版產(chǎn)品服務的營銷效能和維護質量。具體而言，出版營銷的征訂單、宣傳文案、新書發(fā)布會方案等，可首先借助AI加以生成，輔之以出版營銷編輯的審核、修改和確定，從而起到減少人力資源投入、提高出版營銷效能的積極作用。出版客服、售后等運維工作，尤其是數(shù)字出版等線上客服工作，可交由生成式AI來優(yōu)先承擔，在智能語音解答不能滿足用戶需求時，再轉交出版營銷編輯來接手；或在非工作時間交由生成式AI承擔，以發(fā)揮生成式AI技術的新生產(chǎn)力作用，保障勞動者的工作權、休息權等合法權益。另外，還可結合虛擬數(shù)字人技術，研發(fā)承擔出版營銷推廣任務的孿生數(shù)字人或虛擬數(shù)字人，自動生成、播放或講述出版營銷的AIGC文案，實時進行人機語音交互，在元宇宙、云展覽、云演藝等場景實施出版產(chǎn)品和品牌的營銷推廣。

生成式智能出版的主體調節(jié)，是指數(shù)字出版編輯在原有的政治素質、出版專業(yè)能力之外，自覺提升自身數(shù)字素養(yǎng)與技能，形成“由數(shù)字化適應力、數(shù)字化勝任力、數(shù)字化創(chuàng)造力所構成的三位一體的編輯數(shù)字素養(yǎng)體系和數(shù)字技能體系”[22]，以適應生成式智能出版發(fā)展的需要，適應出版業(yè)智能化、高質量發(fā)展的需要?？傮w而言，數(shù)字出版編輯應自覺提升數(shù)字素養(yǎng)與技能，培養(yǎng)數(shù)字意識、計算思維、終身學習能力、網(wǎng)絡文明與道德修養(yǎng)以及社會責任感，使自身成為合格的數(shù)字公民。具體來講，應提高自身的數(shù)字化適應力，主動確立數(shù)字化理念，強化數(shù)字化思維，適應數(shù)字化工作崗位，掌握和運用數(shù)字知識尤其是AI相關知識和技術；應不斷增強自身的數(shù)字化勝任力，在學習、理解、運用生成式AI技術的基礎之上，勝任生成式智能出版產(chǎn)品服務策劃、研發(fā)等技術應用以及基于生成式AI的出版營銷工作；應培養(yǎng)和鍛造自身的數(shù)字化創(chuàng)造力，基于數(shù)字知識、技術和智慧，著力推動出版領域的生成式AI技術的創(chuàng)新應用，引領和帶動生成式智能出版產(chǎn)品、運營、模式、業(yè)態(tài)和管理等全方位的創(chuàng)新。

此外，生成式智能出版調節(jié)路徑還包括積極申報和實施重大文化產(chǎn)業(yè)項目，以重大項目、重大工程為抓手、為杠桿，切實推進生成式AI技術在出版業(yè)的落地、應用和推廣；還包括建立健全生成式AI技術應用的制度體系，營造鼓勵、支持和包容生成式智能出版發(fā)展的氛圍和環(huán)境。

3.2 生成式智能出版的治理路徑

上述調節(jié)路徑，旨在從市場一側推動生成式智能出版的發(fā)展，推動生成式智能出版新產(chǎn)品、新業(yè)態(tài)、新模式不斷涌現(xiàn)，推動AIGC技術原理與出版業(yè)的應用場景深度融合。而治理路徑，則旨在發(fā)揮保障和規(guī)制作用，應對生成式AI技術的風險與挑戰(zhàn)，確保生成式AI技術發(fā)揮正價值，堅持技術向善，確保生成式智能出版在健康、穩(wěn)步、可持續(xù)、高質量發(fā)展的道路上不斷前行。具體而言，包括以下幾個方面。

維護意識形態(tài)安全，堅持以主流價值導向駕馭算法程序。如前所述，ChatGPT等AIGC產(chǎn)品深層次的風險挑戰(zhàn)是沖擊、削弱或混淆主流意識形態(tài)和價值觀念。因此，生成式智能出版的首要治理路徑在于堅守意識形態(tài)陣地，確保意識形態(tài)安全，堅持以核心價值觀引領生成式AI出版產(chǎn)品和服務行為，確保生成式智能出版產(chǎn)品和服務蘊含正確的核心價值觀，以起到潛移默化、春風化雨式的培養(yǎng)、教育和踐行效果。出版主管部門宜在相關的部委規(guī)章或管理辦法中明確提出符合主流意識形態(tài)、體現(xiàn)核心價值觀的相關規(guī)定。同時，在具體行政行為方面，可在新媒體采編、報紙、期刊、圖書質量檢查中，增加關于生成式AI服務監(jiān)督和檢查的規(guī)定，確保所提供的生成式智能服務符合主流意識形態(tài)，與核心價值觀保持一致。

推進法律治理，確保生成式智能出版在法律規(guī)則內(nèi)運行。在立法層面，主管部門宜根據(jù)《網(wǎng)絡安全法》《數(shù)據(jù)安全法》《個人信息保護法》《出版管理條例》等法律和行政法規(guī)，制定部委規(guī)章、地方政府規(guī)章或規(guī)范性文件，以指導生成式AI出版服務。在執(zhí)法和司法層面，對利用生成式AI提供服務，但危害國家安全、意識形態(tài)安全、文化安全、侵害知識產(chǎn)權、損害人格權等違法犯罪行為，要堅決予以懲處。在守法層面，提供生成式AI服務的平臺和個人，要遵守相關法律規(guī)定，堅持技術向善，發(fā)揮技術正價值，做負責任的創(chuàng)新主體。同時，廣大用戶、版權協(xié)會、出版協(xié)會等發(fā)現(xiàn)AIGC有違反法律規(guī)定、社會公德、商業(yè)道德的情形時，可行使監(jiān)督權，向有關部門予以舉報，以確保網(wǎng)絡空間的風清氣正，確保生成式智能出版服務健康有序發(fā)展。

有效實施重大文化產(chǎn)業(yè)項目帶動戰(zhàn)略，適時研發(fā)中文知識本體為主的LLM。實施宏觀調控舉措，發(fā)揮重大文化產(chǎn)業(yè)項目帶動效應，有助于從舉國體制的高度來解決生成式AI的經(jīng)營和管理問題。構建中文知識本體為主的語料集和LLM，是化解意識形態(tài)和文化安全風險，應對國外生成式AI服務挑戰(zhàn)的有效舉措和“國之大者”。對構建生成式智能出版的語料集、LLM等關鍵難題，可通過文化產(chǎn)業(yè)發(fā)展專項資金、國有資本經(jīng)營預算金、國家出版基金等渠道設立重大項目或重大工程來予以攻克。

堅持標準先行，建立、健全、宣貫和落實生成式智能出版標準。一如《出版物AR技術應用規(guī)范》《出版物VR技術應用要求》對出版業(yè)AR/VR技術應用的規(guī)制，《出版物AIGC應用要求》等行業(yè)標準、團體標準和企業(yè)標準體系也亟待建立和完善。在內(nèi)容上，該類標準宜包含AIGC的建議性規(guī)定、禁止性規(guī)定，明確利用生成式AI技術開展智能出版產(chǎn)品服務的流程、角色和職責，規(guī)范用戶、平臺、社會組織在生成式智能出版服務提供過程中的行為等。同時，生成式智能出版標準體系的宣傳貫徹、落地培訓和反饋考評機制也有待建立并迫切需要在出版業(yè)落地實踐。

最后，提升數(shù)字治理能力，以數(shù)字治理提升出版治理效能。數(shù)字治理是數(shù)字出版治理的一項基本原則，是一種新型治理方式和手段，也是數(shù)字社會的全新治理范式，其治理要點在于以數(shù)據(jù)治理為重點，善用數(shù)字技術工具，不斷提升企業(yè)微觀治理效率和行業(yè)宏觀治理效能。生成式智能出版的數(shù)據(jù)治理，包含對語料集、LLM中的數(shù)據(jù)內(nèi)容、數(shù)據(jù)類型、數(shù)據(jù)時效等全方位的管理和監(jiān)督，也包含對內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)和交互數(shù)據(jù)的建設與使用。同時，行業(yè)級的數(shù)據(jù)治理平臺和企業(yè)級的數(shù)據(jù)治理平臺也有待建立，以切實在出版治理實踐中發(fā)揮應有作用和價值。

4 結語

或許，當筆者提及生成式智能出版這一概念時，尚有部分學界或業(yè)界同仁覺得為時過早。但回首2017年底左右發(fā)表的《出版+人工智能：未來出版的新模式與形態(tài)》《出版+人工智能：智能出版流程再造》兩篇文章，其中提到的AR出版、VR出版、知識服務、出版大數(shù)據(jù)等智能出版場景均已落地并在產(chǎn)品、技術、標準等方面取得了一系列成果，成為新興出版最有活力、最具潛力的組成部分。

抱以未來學的視角，生成式智能出版會在出版大數(shù)據(jù)、LLM、高維度智能知識服務、出版+智能機器人、生成式智能出版物以及元宇宙出版等新產(chǎn)品、新業(yè)態(tài)和新場景方面取得實質性突破。在硬幣的另一面，生成式智能出版也同樣面臨著數(shù)據(jù)來源和使用風險、學術倫理挑戰(zhàn)、核心價值觀堅守挑戰(zhàn)甚至是人類職業(yè)的替代性隱憂。為此，本文提出了確立出版數(shù)據(jù)生產(chǎn)要素地位、探索LLM應用、樹立算力意識，以及強化數(shù)字出版編輯素養(yǎng)和技能等數(shù)字出版調節(jié)路徑，指出了以主流價值駕馭算法程序、推進法律治理、實施重大項目帶動、研制應用生成式智能出版標準以及提升數(shù)字治理效能等數(shù)字出版治理路徑。

作者貢獻說明

張新新：總體框架設計，論文撰寫；

黃如花：論文修改。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生成式智能出版的應用場景、風險挑戰(zhàn)與調治路徑