孫玉發(fā) 郭銳
人工智能技術的發(fā)展,特別是以ChatGPT為代表的大語言模型(Large Language Model),對各個領域的工作方式和研究范式都形成沖擊。[1]在所有這些領域中,數(shù)字出版業(yè)受到的影響可謂首當其沖,因為大語言模型較之以往的技術表現(xiàn)在更強的“創(chuàng)作”能力上。在這樣的背景下,本文將分析人工智能大語言模型對數(shù)字出版的影響,以及其引發(fā)的倫理和法律挑戰(zhàn)。
人工智能大語言模型對數(shù)字出版的影響
人工智能大語言模型對數(shù)字出版的影響是全方位的,包括選題策劃、內(nèi)容生產(chǎn)、編輯加工、出版發(fā)行等出版涉及的各個方面,其生產(chǎn)力工具的屬性非常明顯:它可以為選題策劃提供創(chuàng)意靈感,加速選題策劃的過程;它可以自動生成文本內(nèi)容,加速創(chuàng)作過程;它可以輔助編輯工作,糾正錯誤并提升內(nèi)容質(zhì)量;它可以強化個性化內(nèi)容供給,根據(jù)讀者偏好提供定制化推薦;它可以改變數(shù)字出版平臺,提供智能推薦和優(yōu)化用戶界面。
在數(shù)字出版選題策劃方面,人工智能大語言模型可以通過分析海量的文本數(shù)據(jù),洞察讀者的興趣和市場趨勢。了解讀者的需求和市場趨勢,選擇那些更受歡迎和有潛力的選題,加快選題策劃的速度和提高效率 [2,3]。在生成新的、有內(nèi)在邏輯和連貫性的文本方面,人工智能大語言模型具備強大的創(chuàng)作能力,可以自動創(chuàng)建新聞文章、博客帖子、小說[4],甚至是學術論文等各種類型的內(nèi)容,為作者提供創(chuàng)意靈感。此外,人工智能大語言模型在多語種翻譯方面也展示了取代人類翻譯的潛力 [5]。在編輯校對方面,人工智能大語言模型能夠自動檢測和修正文本中的語法和拼寫錯誤,從而提高編輯和校對的效率。通過較強的自然語言處理能力,它還可以幫助評估和修正文本的語義連貫性、風格一致性和邏輯結(jié)構(gòu)等更深層次的問題[6]。在市場營銷和方案策劃方面,人工智能大語言模型可以在數(shù)字產(chǎn)品銷售數(shù)據(jù)分析、銷售方案等方面發(fā)揮關鍵作用,優(yōu)化內(nèi)容、策略和效果,包括理解和預測讀者興趣,預測市場趨勢和競爭對手策略。
人工智能大語言模型也為數(shù)字出版提供了全新的互動式閱讀體驗的可能性。借助人工智能大語言模型,讀者可以在閱讀過程中與文本進行互動,從而創(chuàng)造出更加豐富、深入并且個性化的閱讀體驗[7]。
人工智能大語言模型帶來倫理和法律挑戰(zhàn)
也恰是因為人工智能大語言模型的革命性影響,它所帶來的倫理和法律挑戰(zhàn)也將日益顯著。其中,個人信息保護(數(shù)據(jù)隱私)問題、人工智能生成內(nèi)容的質(zhì)量和版權問題將是其中主要的問題。
隨著人工智能大語言模型在數(shù)字出版中的廣泛應用,個人信息保護成為一個重要的倫理和法律問題。這些模型通常需要大量的數(shù)據(jù)進行訓練和運行,這些數(shù)據(jù)可能包括讀者的個人信息、閱讀歷史、搜索記錄、社交媒體活動等,如果沒有得到適當?shù)奶幚砗捅Wo,可能會導致個人信息的泄露和濫用[8,9]。
無論是訓練基礎模型還是對已有模型進行微調(diào),人工智能大語言模型都依賴已有的文本。使用已有文本訓練大語言模型涉及是否符合合理使用等法律問題,這本身就有侵犯版權的風險;在數(shù)字出版中應用大語言模型,其生成的文本可能包含其他人的原創(chuàng)作品,存在侵犯版權的風險。盡管現(xiàn)有技術已經(jīng)通過添加引用或注釋來標注來源,但這是否滿足版權法的要求,仍沒有定論。
人工智能大語言模型生成內(nèi)容的質(zhì)量問題,在數(shù)字出版中引發(fā)的問題非常突出。在模型訓練文本不夠的情況下,它可能產(chǎn)生低質(zhì)量或錯誤的內(nèi)容,導致讀者接收到誤導性、混淆或偽科學信息。此外,人工智能大語言模型生成的內(nèi)容可能受存在偏見和歧視內(nèi)容的訓練數(shù)據(jù)影響,導致性別、種族、政治、殘障等方面的歧視問題出現(xiàn)。
上述數(shù)字出版業(yè)應用人工智能大語言模型時出現(xiàn)的倫理和法律問題,根本上是人類社會在應用人工智能中所遭遇創(chuàng)造秩序危機的體現(xiàn)。創(chuàng)造秩序危機,簡而言之,是人類遭遇的被自己所創(chuàng)造的技術反噬的后果。[10]具體到人工智能大語言模型引發(fā)的問題上,它表現(xiàn)為人工智能生成內(nèi)容成為默認的工作方式,并被當作價值無涉的工具。創(chuàng)造秩序危機源于兩大難題:因果聯(lián)系難題和終極準則難題。因果聯(lián)系難題來自人工智能被委以對人類事務做決策的能力,但它對決策結(jié)果的倫理判斷能力不足;終極準則難題來自由于缺乏引導人工智能發(fā)揮作用的終極道德準則,人工智能難以在互相沖突的決策之間權衡。無論是在個人信息保護(數(shù)據(jù)隱私)還是人工智能生成內(nèi)容的版權問題、生成內(nèi)容的偏見和歧視問題,都是終極準則難題的體現(xiàn),而立法與政策要決定的是否干預、如何干預的問題,則是因果聯(lián)系難題的體現(xiàn)。
人工智能大語言模型在數(shù)字出版領域具有巨大的潛力。未來,我們可以期待人工智能大語言模型為讀者提供更加智能化、個性化和創(chuàng)新的數(shù)字出版內(nèi)容和服務,帶來更豐富、高質(zhì)量的閱讀體驗。然而,人工智能大語言模型也引發(fā)了一系列倫理和法律問題。我們需要反思這些問題中所體現(xiàn)的創(chuàng)造秩序危機,這意味著對技術進行價值校準以及了解這種校準本身的局限性。解決這些問題,需要數(shù)字出版從業(yè)者建立倫理共識、在行業(yè)生態(tài)中推動問題的預防和解決。這取決于人工智能大語言模型的設計者、數(shù)字出版業(yè)者、用戶之間的一系列復雜的互動,其中共同的價值目標是至關重要的。從創(chuàng)造秩序危機的分析出發(fā)來分析,我們看到價值校準應當作為一個長期持續(xù)的過程,以便算法與人的決策保持一致。在這個意義上,我們也期待立法者和政策制定者能夠尊重行業(yè)規(guī)律,著眼長遠,推動版權法規(guī)、管制政策的良性發(fā)展。
參考文獻:
[1]楊倩,林鶴.大語言模型背景下情報研究的數(shù)字化應對策略及實踐場景[J].競爭情報,2023,19(03):2-13.
[2]王元.人工智能與圖書出版融合發(fā)展研究[J].中國傳媒科技,2022(01):57-59.
[3]鄭柳潔.人工智能類圖書選題策劃思路分析[J].新聞研究導刊,2022(01):205-208.
[4]武菲菲.人工智能技術與出版行業(yè)的融合應用[J].出版廣角,角,2018(01):26-28.
[5]耿芳,胡健.人工智能輔助譯后編輯新方向:基于ChatGPT的翻譯實例研究[J].中國外語,2023,20(03):41-47.
[6]范軍,陳川.AI出版:新一代人工智能在出版行業(yè)的融合創(chuàng)新[J].中國編輯,2019(05):64-71.
[7]王羽佳.AI與出版融合視角下圖書選題策劃與內(nèi)容生產(chǎn)的優(yōu)化路徑[J].出版科學,2023,31(01):44-49.
[8]殷軼平. 基于知識蒸餾的訓練數(shù)據(jù)隱私保護方法研究[D].哈爾濱:哈爾濱工業(yè)大學,2021.
[9]湯鳳儀 , 劉建 , 王會梅,等.保護數(shù)據(jù)隱私的深度學習訓練數(shù)據(jù)生成方案[J].計算機應用研究,2021,38(07):2009-2012.
[10] 郭銳.人工智能的倫理和治理[M].北京:法律出版社,2020.
作者單位:孫玉發(fā),石油工業(yè)出版社有限公司數(shù)字出版中心技術研發(fā)部主任;郭銳,中國人民大學未來法治研究院研究員