【摘要】人工智能技術(shù)正以前所未有的速度滲透到網(wǎng)絡(luò)文學(xué)的各個(gè)領(lǐng)域,帶來革命性的變革。從數(shù)據(jù)庫生產(chǎn)與多模態(tài)再現(xiàn),到效率化敘事與容錯(cuò)性創(chuàng)新,再到個(gè)性化交互與定制化體驗(yàn),人工智能不僅能幫助創(chuàng)作者構(gòu)思情節(jié)、生成文本,還能結(jié)合圖像、音頻、視頻等多媒體元素,創(chuàng)造出更加立體、豐富的敘事體驗(yàn)。但人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事有其限度,包括模態(tài)廣度擴(kuò)張下原作品故事意義與價(jià)值觀念的粗粒化呈現(xiàn)與有損壓縮,造成意義深度的稀釋;基于存量人類世界多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練而生成的多模態(tài)內(nèi)容存在有限想象、價(jià)值偏見與價(jià)值對(duì)齊問題;人工智能缺乏身體肉身體驗(yàn)的非意向性創(chuàng)作往往造成情感體驗(yàn)與人性價(jià)值可溝通性的匱乏。由于多元主體利益博弈的存在,未來如何實(shí)現(xiàn)人工智能與人文精神的深度融合,仍是需要我們進(jìn)行長(zhǎng)期探索的問題。
【關(guān)鍵詞】人工智能 多模態(tài)敘事 網(wǎng)絡(luò)文學(xué) 人工智能生成內(nèi)容
【中圖分類號(hào)】G230 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1003-6687(2025)1-035-06
【DOI】 10.13786/j.cnki.cn14-1066/g2.2025.1.005
基金項(xiàng)目:國家社會(huì)科學(xué)基金青年項(xiàng)目“網(wǎng)絡(luò)文學(xué)海外傳播中華文化的多模態(tài)敘事與認(rèn)同引導(dǎo)研究”(24CXW002)
作者信息:陸朦朦(1991— ),女,浙江慈溪人,博士,浙江傳媒學(xué)院出版學(xué)院副教授,主要研究方向:網(wǎng)絡(luò)文學(xué)、數(shù)字文化產(chǎn)業(yè)。
一、人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的“技術(shù)基因”
人工智能(Artificial Intelligence,AI)工具利用自然語言處理和計(jì)算機(jī)視覺等先進(jìn)技術(shù)增強(qiáng)內(nèi)容創(chuàng)意產(chǎn)業(yè)的創(chuàng)造性,其核心能力之一是實(shí)現(xiàn)跨模態(tài)生成,能夠深入解析并學(xué)習(xí)來自文字、聲音、圖像乃至視頻等多種模態(tài)的輸入數(shù)據(jù),從中提煉出豐富的語義信息和結(jié)構(gòu)特征,進(jìn)而實(shí)現(xiàn)跨模態(tài)的創(chuàng)意轉(zhuǎn)換與生產(chǎn)。多模態(tài)概念具有濃重的跨學(xué)科色彩,在主流概念定義中有三個(gè)理解角度:一是將其視為感官及相應(yīng)的神經(jīng)系統(tǒng);二是將其視為在社會(huì)文化中形成的創(chuàng)造意義的符號(hào)資源;三是將其定義為人機(jī)交互中的信息呈現(xiàn)方式。[1]總的來說,多模態(tài)是指通過多種感知通道(如聽覺、視覺、觸覺),借助多種符號(hào)系統(tǒng)(如語言、技術(shù)、圖像、顏色、音樂)共同編碼來傳遞信息的方式。[2]人類的交流本質(zhì)上是多模式的,人類用語言、手勢(shì)、面部表情和語調(diào)來傳達(dá)意思,通過模仿人類的交流模式,多模態(tài)AI拓寬了創(chuàng)意表達(dá)的邊界,展現(xiàn)出更多的靈活性和創(chuàng)新性。
目前,全球多模態(tài)AI大模型正處于蓬勃發(fā)展的階段。在2023年之前,大模型的預(yù)訓(xùn)練主要聚焦于單模態(tài),著力于文本模式的輸入和輸出。進(jìn)入2023年,大模型技術(shù)逐漸從單一的文本或圖像處理擴(kuò)展到支持多模態(tài)的多任務(wù)處理。這一轉(zhuǎn)變使得大模型公司的競(jìng)爭(zhēng)重點(diǎn)轉(zhuǎn)向多模態(tài)信息的整合與深度數(shù)據(jù)挖掘,力求精確捕捉和關(guān)聯(lián)不同模態(tài)的信息。如OpenAI于2023年9月推出的多模態(tài)大模型GPT-4V顯著提升了視覺提示功能,在處理復(fù)雜的多模態(tài)信息時(shí)表現(xiàn)突出。[3]Google于2023年12月推出的多模態(tài)大模型Gemini,OpenAI于2024年2月發(fā)布的文生視頻模型Sora等凸顯了多模態(tài)大模型的高歌猛進(jìn),為網(wǎng)絡(luò)文學(xué)的多模態(tài)敘事提供了諸多技術(shù)層面的可供性。
在學(xué)術(shù)研究領(lǐng)域,網(wǎng)絡(luò)文學(xué)研究專家歐陽友權(quán)認(rèn)為,人工智能對(duì)網(wǎng)絡(luò)文學(xué)的賦能之一體現(xiàn)在基于人工智能的多媒體敘事創(chuàng)生新的網(wǎng)絡(luò)文學(xué)形態(tài)。[4]人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)能夠有效增強(qiáng)網(wǎng)絡(luò)文學(xué)在不同媒介語言中的強(qiáng)文本間性,并通過較低的資金成本和時(shí)間成本實(shí)現(xiàn)文本的意義流動(dòng),[5]實(shí)現(xiàn)了網(wǎng)絡(luò)文學(xué)作品從文學(xué)景觀到文化景觀的具象表達(dá)。[6]在實(shí)踐應(yīng)用領(lǐng)域,2023年6月,閱文集團(tuán)圍繞“升級(jí)AIGC賦能原創(chuàng)的多模態(tài)多品類內(nèi)容大平臺(tái),構(gòu)建新的IP上下游一體化生態(tài)體系”的目標(biāo),成立包括“智能與平臺(tái)研發(fā)事業(yè)部”在內(nèi)的四大事業(yè)部,推動(dòng)IP孵化和生態(tài)鏈構(gòu)建的提效增速,通過貫通“多模態(tài)內(nèi)容—大產(chǎn)品平臺(tái)”運(yùn)營(yíng)鏈,構(gòu)建多模態(tài)內(nèi)容與產(chǎn)品的一體化運(yùn)作模式。文字、聲音、漫畫、動(dòng)畫等內(nèi)容生產(chǎn)體系將與用戶體系進(jìn)一步匹配融合,滿足用戶對(duì)于同一故事的圖文音視等不同體驗(yàn)的需求,生成IP體驗(yàn)新形態(tài)和新的消費(fèi)場(chǎng)景。無獨(dú)有偶,網(wǎng)絡(luò)文學(xué)領(lǐng)域的頭部公司中文在線也在AI大模型、AI多模態(tài)方面加快技術(shù)建設(shè)并推動(dòng)商業(yè)化落地,其2023年10月發(fā)布的AI大模型“中文逍遙”,具有“一張圖寫出一部小說”的功能,即可根據(jù)圖片內(nèi)容撰寫優(yōu)質(zhì)小說,展現(xiàn)出其多模態(tài)能力。
對(duì)于網(wǎng)絡(luò)文學(xué)產(chǎn)業(yè)而言,其本身孕育于網(wǎng)絡(luò)世界高歌猛進(jìn)的進(jìn)程中,從誕生之初就深深烙印著技術(shù)基因。從網(wǎng)絡(luò)文學(xué)的生發(fā)史來看,網(wǎng)絡(luò)空間不僅僅是網(wǎng)絡(luò)文化對(duì)傳統(tǒng)文學(xué)進(jìn)行簡(jiǎn)單滲透或復(fù)制的場(chǎng)域,其更以獨(dú)有的生產(chǎn)性和創(chuàng)造力,賦予網(wǎng)絡(luò)文學(xué)獨(dú)有的形態(tài),遠(yuǎn)非作為物質(zhì)性的承載容器那么簡(jiǎn)單。同時(shí),網(wǎng)絡(luò)空間是形塑文學(xué)創(chuàng)作邏輯與作品形態(tài)的動(dòng)態(tài)性裁剪器,其塑造了一套獨(dú)特的空間制度,改變了文學(xué)的存在方式和傳播方式,深刻地影響了人們的閱讀習(xí)慣和審美觀念。對(duì)于人工智能賦能的網(wǎng)絡(luò)文學(xué)創(chuàng)作而言,多模態(tài)敘事形成的復(fù)合文本也同樣深刻影響著用戶的閱讀體驗(yàn)與理解深度,不僅革新了敘事符號(hào)的組裝方式,更開創(chuàng)性地構(gòu)建了一個(gè)全方位、立體化、情境化、交互性的文本世界,極大地拓寬了文本表達(dá)的邊界與影響力?;诙嗄B(tài)數(shù)據(jù)輸入—融合—輸出路徑的多模態(tài)AI,如何影響與形塑未來網(wǎng)絡(luò)文學(xué)的文本形態(tài)、產(chǎn)業(yè)路徑與消費(fèi)場(chǎng)景,值得深入探討。
二、人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的可能面向
1. 人工智能賦能網(wǎng)絡(luò)文學(xué)數(shù)據(jù)庫生產(chǎn)與多模態(tài)再現(xiàn)
網(wǎng)絡(luò)文學(xué)的創(chuàng)作日益依賴于數(shù)據(jù)庫方式,即將已出現(xiàn)的創(chuàng)作元素和符號(hào)當(dāng)作可共享的數(shù)據(jù),模擬數(shù)據(jù)庫的采集、存儲(chǔ)、提取和更新方式來進(jìn)行寫作。這種方式提高了創(chuàng)作的效率,重塑了文體結(jié)構(gòu)模式。有學(xué)者認(rèn)為創(chuàng)作資源的共享性、結(jié)構(gòu)性與再生產(chǎn)性形塑了網(wǎng)絡(luò)文學(xué)的數(shù)據(jù)庫生產(chǎn)特質(zhì),而這一創(chuàng)作方式已經(jīng)在網(wǎng)絡(luò)文學(xué)產(chǎn)業(yè)中從工具論的存在躍升為本體論的存在。[7]人工智能技術(shù)的介入無疑提高了數(shù)據(jù)庫生產(chǎn)方式的效率,例如閱文集團(tuán)旗下的AIGC產(chǎn)品“閱文妙筆”,可以通過對(duì)輸入的作品類型、角色性別、標(biāo)簽等細(xì)節(jié)進(jìn)行分析,結(jié)合對(duì)角色的大概設(shè)想,獲得人工智能生成的角色稱號(hào)、外貌、性格、經(jīng)歷等信息。以都市小說為例,人工智能可以按照創(chuàng)作者的大概設(shè)想,生成人物名稱、人物關(guān)系、性格特點(diǎn)等信息,對(duì)于部分場(chǎng)景,還可以生成數(shù)百字的詳細(xì)描寫。[8]多模態(tài)AI同時(shí)利用各種類型(或模式)數(shù)據(jù)形成見解、做出預(yù)測(cè)、生成內(nèi)容,圍繞網(wǎng)絡(luò)文學(xué)文本的多種形態(tài)媒介內(nèi)容都可以成為輸入源頭,經(jīng)由多模態(tài)AI輸出內(nèi)容。從某種程度上說,人工智能賦能的網(wǎng)絡(luò)文學(xué)多模態(tài)敘事是數(shù)據(jù)庫生產(chǎn)模式的加強(qiáng)版,其可資利用的數(shù)據(jù)庫元素形態(tài)更為多元,可以形成網(wǎng)絡(luò)文學(xué)多模態(tài)轉(zhuǎn)化的概念描述、故事塑造、風(fēng)格界定、形態(tài)定義。這種通過強(qiáng)大算力處理海量數(shù)據(jù),使多模態(tài)文學(xué)信息模塊與模塊之間的拆裝組合可以精準(zhǔn)、瞬間完成的過程,被研究者稱為審美數(shù)字編程。[9]在實(shí)際應(yīng)用的多模態(tài)AI項(xiàng)目中,其應(yīng)用操作情境也建立在數(shù)據(jù)庫式的使用邏輯上,例如由Charima.ai公司研發(fā)的Web Comics項(xiàng)目提供內(nèi)置的頭像生成器,并設(shè)置了圖像、GIF、音樂和音效管理器、免費(fèi)背景圖像庫、高級(jí)AI語音資源等供用戶進(jìn)行選擇、調(diào)試、實(shí)驗(yàn)、創(chuàng)作,方便用戶拼貼縫合到故事中以增強(qiáng)用戶的參與度與沉浸感。[10]同樣,一款致力于人工智能藝術(shù)作品生成的工具M(jìn)aze Guru,擁有囊括了超過2000個(gè)AI模型風(fēng)格的龐大資源庫,用戶可通過輸入文本、圖像等方式生成圖像、視頻等結(jié)果,探索無限的創(chuàng)作可能性。[11]
2. 人工智能賦能網(wǎng)絡(luò)文學(xué)效率化敘事與容錯(cuò)性創(chuàng)新
傳統(tǒng)的網(wǎng)絡(luò)文學(xué)文本僅僅由單一的文字符號(hào)構(gòu)成,文字符號(hào)構(gòu)成的文本欣賞空間是扁平化的,允許單一的視覺感官進(jìn)入網(wǎng)絡(luò)文學(xué)作品的體驗(yàn)場(chǎng)景,構(gòu)成了傳統(tǒng)的網(wǎng)絡(luò)文學(xué)“靜觀式”的審美方式。盡管隨著網(wǎng)絡(luò)文學(xué)IP產(chǎn)業(yè)鏈的延伸,原始文本的創(chuàng)作逐漸轉(zhuǎn)向多模態(tài)符號(hào)共同敘事,但是,不同媒介產(chǎn)業(yè)的不同生產(chǎn)機(jī)制導(dǎo)致文本的多模態(tài)敘事存在產(chǎn)業(yè)間隔,相應(yīng)的開發(fā)成本也較高,這些固有的掣肘因素導(dǎo)致網(wǎng)絡(luò)文學(xué)復(fù)合符號(hào)文本創(chuàng)作難以高效率展開。同時(shí),由于影視創(chuàng)作技術(shù)存在一定的應(yīng)用門檻,網(wǎng)絡(luò)文學(xué)多模態(tài)敘事需要依靠成熟的影視化工業(yè)體系才能成型。隨著文生圖、文生視頻等大模型技術(shù)的應(yīng)用,網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的創(chuàng)作門檻進(jìn)一步降低,普惠性、去中心化的多模態(tài)敘事創(chuàng)作成為可能。盡管在技術(shù)層面,能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)的融合與呈現(xiàn)、不同模態(tài)數(shù)據(jù)之間的關(guān)系理解,以及有效處理多種類型數(shù)據(jù)的模型架構(gòu)還不成熟,但就現(xiàn)有技術(shù)應(yīng)用情況來看,人工智能在賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的工具性使用與輔助性工作上已經(jīng)顯現(xiàn)出巨大的想象空間。同時(shí),文本內(nèi)容的即時(shí)性多模態(tài)轉(zhuǎn)化與創(chuàng)意想法的高效率效果驗(yàn)證,為網(wǎng)絡(luò)文學(xué)文本的多模態(tài)敘事轉(zhuǎn)化提供了巨大的創(chuàng)新容錯(cuò),使得多模態(tài)敘事可以通過不斷地微調(diào)、迭代與優(yōu)化達(dá)到預(yù)期的審美要求。在此基礎(chǔ)上,人工智能既能以“生產(chǎn)者”身份調(diào)用人類已有的以數(shù)據(jù)化形式存儲(chǔ)的數(shù)據(jù)庫并將其作為生產(chǎn)對(duì)象,又能被人類用作“生產(chǎn)工具”對(duì)數(shù)據(jù)生產(chǎn)資料進(jìn)行自動(dòng)化加工,通過人機(jī)協(xié)作提升文藝生產(chǎn)的速度和效率。[12]不過,與多模態(tài)AI的其他應(yīng)用方式相比,網(wǎng)絡(luò)文學(xué)的多模態(tài)AI敘事更具創(chuàng)意性和體驗(yàn)性,其提升創(chuàng)作效率與實(shí)現(xiàn)容錯(cuò)創(chuàng)新的效果需要通過讀者的閱讀體驗(yàn)與審美感受來評(píng)判。相較而言,評(píng)判其他任務(wù)導(dǎo)向性應(yīng)用的效果較為簡(jiǎn)單直接,例如在智能客服情境中,智能客服只需提供精準(zhǔn)的個(gè)性化服務(wù),能夠相對(duì)快速、準(zhǔn)確地回答用戶問題并提供相應(yīng)的解決問題的方案,即可較好地滿足用戶需求。因此,在作為創(chuàng)意性內(nèi)容生產(chǎn)的網(wǎng)絡(luò)文學(xué)多模態(tài)敘事方面,多模態(tài)AI的完善仍然有很長(zhǎng)的路要走。
3. 人工智能賦能網(wǎng)絡(luò)文學(xué)個(gè)性化交互與定制化體驗(yàn)
多模態(tài)AI通過文本、圖像和視頻數(shù)據(jù)等來學(xué)習(xí)、理解和分析用戶習(xí)慣和偏好,從而為用戶推薦符合其喜好的網(wǎng)絡(luò)文學(xué)作品、實(shí)時(shí)創(chuàng)建用戶喜愛的定制故事和敘述,為每個(gè)人提供完全獨(dú)特的內(nèi)容體驗(yàn)。通過對(duì)多模態(tài)數(shù)據(jù)進(jìn)行組合分析,人工智能可以揭示不同媒介之間的內(nèi)在聯(lián)系和潛在規(guī)律,為網(wǎng)絡(luò)文學(xué)提供新的創(chuàng)作靈感和敘事手法,這種賦能不限于對(duì)文字內(nèi)容,還包括對(duì)語言風(fēng)格、情感色彩與多媒體內(nèi)容等的賦能。有研究者曾在研究網(wǎng)絡(luò)文學(xué)IP跨媒介內(nèi)容產(chǎn)品的受眾遷徙行為時(shí),提出跨媒介消費(fèi)的概念,認(rèn)為跨媒介消費(fèi)是受眾以拓展內(nèi)容消費(fèi)體驗(yàn)為目的,基于一定的需求和動(dòng)機(jī),在同一IP延伸的多種媒介內(nèi)容產(chǎn)品間流動(dòng)、遷移、轉(zhuǎn)化、參與、互動(dòng)、創(chuàng)作的心理反應(yīng)與行為變化過程。[13]相應(yīng)地,網(wǎng)絡(luò)文學(xué)IP價(jià)值開發(fā)應(yīng)關(guān)注不同媒介內(nèi)容的一致性,始終保持其標(biāo)志性的世界觀設(shè)定、角色設(shè)計(jì)、敘事風(fēng)格,通過文本間相互的啟示和隱喻,產(chǎn)生多文本、多媒介互文敘事體驗(yàn)。[14]在多模態(tài)AI的技術(shù)加持下,對(duì)跨媒介消費(fèi)行為的追蹤可以有效整合用戶圍繞網(wǎng)絡(luò)文學(xué)產(chǎn)生的一系列多模態(tài)行為數(shù)據(jù),通過分析用戶的閱讀數(shù)據(jù)和行為模式,能夠創(chuàng)建用戶畫像,生成符合用戶特定需求的文學(xué)作品或媒介內(nèi)容,包括定制化的故事情節(jié)、角色設(shè)定或視聽效果等。例如,在描述一個(gè)奇幻場(chǎng)景時(shí),人工智能不僅可以自動(dòng)生成與場(chǎng)景相匹配的視覺畫面和背景音樂,而且能夠?yàn)椴煌娜颂峁┎煌呐渲?,做到“千人千面”,帶給用戶身臨其境且極致個(gè)性化的體驗(yàn)。同時(shí),多模態(tài)AI可以檢測(cè)和理解人類的情緒,通過分析語音語調(diào)、文本情感和面部表情,判斷具體情境下用戶的情緒狀態(tài)與心理需求,給予針對(duì)性、定制化的響應(yīng)與反饋,使多模態(tài)故事世界的交互體驗(yàn)顯著增強(qiáng)。例如人工智能算法通過塑造動(dòng)態(tài)游戲環(huán)境,可以根據(jù)玩家個(gè)體行為定制游戲玩法,并創(chuàng)造適應(yīng)玩家行為的響應(yīng)性非玩家角色(Non-player Character,NPC)。由Charima.ai公司提供技術(shù)支持的全球第一款對(duì)話驅(qū)動(dòng)的3D視頻游戲The Kraken Wakes,改編自約翰·溫德姆的科幻恐怖小說。在游戲中,玩家扮演一名記者,在一次可疑的外星人襲擊事件后,采訪目擊者并與政府談判以揭露真相。游戲玩法圍繞對(duì)話展開,玩家可以用自然語言回答游戲角色的提問,無須如傳統(tǒng)游戲那樣在多個(gè)選項(xiàng)中進(jìn)行選擇。由人工智能驅(qū)動(dòng)的能夠進(jìn)行語音互動(dòng)且具備情感能力的智能NPC,以非常自然的反應(yīng)和深度互動(dòng)能力與人類玩家進(jìn)行交流,玩家可以借此塑造故事的走向,影響角色的行動(dòng)、決定和關(guān)系。[15]
三、人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的限度反思
1. 人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的意義深度與模態(tài)廣度
盡管網(wǎng)絡(luò)文學(xué)研究中不乏批評(píng)其類型化、同質(zhì)化的聲音,但網(wǎng)絡(luò)文學(xué)創(chuàng)作仍然建立在人類個(gè)人性與社會(huì)性感知、體驗(yàn)的基礎(chǔ)上,需要融合諸多文化創(chuàng)意元素與社會(huì)背景知識(shí),且要設(shè)計(jì)多種修辭手法與語境轉(zhuǎn)換方式。人工智能在處理這些復(fù)雜的語言和邏輯時(shí)往往采用簡(jiǎn)化的方式,導(dǎo)致作品的意義被壓縮或扭曲。例如,人工智能可能無法準(zhǔn)確理解隱喻、象征等修辭手法背后的深層含義,也無法在作品中靈活地運(yùn)用這些手法來傳達(dá)復(fù)雜的思想和情感。而在網(wǎng)絡(luò)文學(xué)的多模態(tài)轉(zhuǎn)化方面,其多模態(tài)敘事作品的價(jià)值往往在于對(duì)畫面、聲音等細(xì)節(jié)和微妙之處的處理。這些細(xì)節(jié)和微妙之處可能是作者情感表達(dá)與故事起承轉(zhuǎn)合的精髓所在,也可能是作品主題和價(jià)值的深刻體現(xiàn)。人工智能在多模態(tài)內(nèi)容生成過程中往往忽略這些細(xì)節(jié)和微妙之處,表現(xiàn)為所生成圖像或視頻的“精致的空洞”。加之多模態(tài)AI模型的性能及其泛化到新任務(wù)或新領(lǐng)域的能力可能受到訓(xùn)練標(biāo)記數(shù)據(jù)可用性的限制,導(dǎo)致多模態(tài)AI工具可能出現(xiàn)對(duì)某些特定歷史文化元素的誤解或扭曲,生成在智能機(jī)器理解上“自成一體”而在人類主體感知上“四不像”的內(nèi)容。網(wǎng)絡(luò)文學(xué)作品故事意義與價(jià)值觀念的粗?;尸F(xiàn)與有損壓縮,最終將造成意義深度的稀釋。
此外,就當(dāng)前的多模態(tài)敘事技術(shù)而言,盡管可支持多模態(tài)敘事的工具已經(jīng)在應(yīng)用層面如雨后春筍般涌現(xiàn),但應(yīng)用級(jí)的所謂多模態(tài)工具往往仍然在某一單模態(tài)或雙模態(tài)領(lǐng)域進(jìn)行垂直研發(fā)和深耕,例如文生圖、文生視頻等,而一部完整的多模態(tài)敘事作品要想實(shí)現(xiàn)無縫融合的效果,有賴于人類主體整合各類AIGC工具,為多模態(tài)敘事項(xiàng)目配齊最佳技術(shù)棧。例如,如果要為科幻類網(wǎng)絡(luò)小說制作多模態(tài)的故事短片,可能要先用Midjourney生成概念圖片,定義整體藝術(shù)風(fēng)格;再用Runway視頻工具制作三維空間場(chǎng)景,渲染能讓讀者身臨其境的未來感;最后用Mubert等AI配樂工具進(jìn)行氛圍與節(jié)奏的烘托。這個(gè)過程中需要對(duì)多模態(tài)資源進(jìn)行整合優(yōu)化,創(chuàng)作者必須熟諳不同類型多模態(tài)AI工具的調(diào)教和使用技巧,在算法參數(shù)值中找到“黃金交叉點(diǎn)”。因此,具有完整敘事表達(dá)、意義傳遞與故事世界的多模態(tài)作品仍然需要大量的人工介入,對(duì)多模態(tài)提示文本進(jìn)行輸入、微調(diào)、再輸入、再微調(diào)。
2. 人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的有限想象與價(jià)值對(duì)齊
在內(nèi)容生成階段,由于模型訓(xùn)練語料庫的不可控,可能導(dǎo)致偏見、“觀點(diǎn)霸權(quán)”、刻板印象、文化片面性等問題,[16]這在多模態(tài)內(nèi)容生成中依然存在,并不會(huì)因?yàn)槟B(tài)的轉(zhuǎn)變而消除,甚至?xí)蛞暵犇B(tài)敘事內(nèi)容的廣泛傳播性與滲透性,導(dǎo)致偏見性、片面性觀點(diǎn)更加容易潛移默化地嵌入社會(huì)文化中。這些主觀認(rèn)知通過貌似技術(shù)中立的大模型予以客觀化,會(huì)進(jìn)一步強(qiáng)化在社會(huì)現(xiàn)實(shí)中抽取的大模型底層預(yù)訓(xùn)練數(shù)據(jù)所帶有的現(xiàn)實(shí)偏見與文化霸權(quán),使其成為普遍性的默認(rèn)慣例與規(guī)則。不僅如此,任何一種單一模態(tài)中的偏見都有可能在整個(gè)多模態(tài)敘事中擴(kuò)散傳播,造成更大的偏差。盡管文生圖工具能夠復(fù)制視覺形式,但它們并不“了解”或“熟悉”它們產(chǎn)生的圖像中的參照物,即它們沒有“體驗(yàn)”過輸出圖像中描繪的物理對(duì)象、人物或地點(diǎn),[17]因此,單純依靠人工智能的多模態(tài)敘事事實(shí)上難以還原由真實(shí)個(gè)體所創(chuàng)作的網(wǎng)絡(luò)文學(xué)文本中人性的體驗(yàn)部分。此外,應(yīng)用在網(wǎng)絡(luò)文學(xué)多模態(tài)敘事實(shí)踐中的多模態(tài)大模型往往是全球主要科技公司研發(fā)的產(chǎn)物,其對(duì)模型應(yīng)用的目標(biāo)必然遵循數(shù)字資本主義的邏輯,使得嵌入其中的知識(shí)價(jià)值體系、符號(hào)象征系統(tǒng)、文化多樣性架構(gòu)等預(yù)設(shè)被放置于全球性技術(shù)擴(kuò)張的普遍性生產(chǎn)范式中,這種生產(chǎn)范式在本質(zhì)上以消弭地區(qū)、種族、文化等任何不能被資本一體化運(yùn)作框架所涵蓋的差異性因素為首要原則。[18]針對(duì)上述可能的人工智能倫理風(fēng)險(xiǎn),有研究者提出了人工智能價(jià)值觀對(duì)齊的觀點(diǎn),簡(jiǎn)而言之,就是讓人工智能的價(jià)值觀與人類的價(jià)值觀保持一致,以確保人工智能在對(duì)人類和社會(huì)無害的前提下運(yùn)行,避免對(duì)人類的權(quán)利造成干擾和傷害。多模態(tài)AI系統(tǒng)涉及多種感知模態(tài)的融合與交互,技術(shù)實(shí)現(xiàn)上更為復(fù)雜,增加了價(jià)值觀對(duì)齊的難度。有研究者通過引入社會(huì)學(xué)和人類學(xué)中提出的基本價(jià)值觀來嘗試解決大模型的對(duì)齊問題,指出理想的大模型價(jià)值觀對(duì)齊體系應(yīng)該具備準(zhǔn)確性、適配性和透明性三大特性。[19]具體到多模態(tài)AI價(jià)值觀對(duì)齊,要確保其在模型開發(fā)的不同階段都符合人類的價(jià)值觀,并具備上述三大特性,例如在數(shù)據(jù)選擇與預(yù)處理上確保訓(xùn)練數(shù)據(jù)涵蓋廣泛的文化背景、社會(huì)群體和思想觀點(diǎn),以減少偏見與歧視,從而更全面地反映現(xiàn)實(shí)世界的復(fù)雜性;移除或修改包含有害、歧視性內(nèi)容的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行敏感性分析,識(shí)別并減輕潛在的偏見和歧視。在模型設(shè)計(jì)與訓(xùn)練階段,引入價(jià)值觀約束手段,如正則化項(xiàng)或懲罰函數(shù),以鼓勵(lì)模型生成符合人類價(jià)值觀的輸出內(nèi)容;使用基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)等技術(shù),根據(jù)人類評(píng)價(jià)調(diào)整模型行為。[20]設(shè)計(jì)有效的多模態(tài)融合機(jī)制,確保不同模態(tài)之間的信息能夠相互補(bǔ)充和增強(qiáng),從而更準(zhǔn)確地反映人類價(jià)值觀。利用注意力機(jī)制等技術(shù),關(guān)注對(duì)價(jià)值觀影響較大的模態(tài)特征。在模型訓(xùn)練過程中進(jìn)行跨模態(tài)一致性檢查,確保不同模態(tài)的輸出內(nèi)容在價(jià)值觀上保持一致。通過對(duì)比不同模態(tài)的輸出結(jié)果,識(shí)別并糾正潛在的價(jià)值觀沖突。不過在實(shí)踐中,上述舉措的落實(shí)面臨多方掣肘。就國內(nèi)網(wǎng)絡(luò)文學(xué)產(chǎn)業(yè)界的多模態(tài)大模型訓(xùn)練與實(shí)踐來看,由于不同平臺(tái)維護(hù)自身商業(yè)利益的需要,在數(shù)據(jù)選擇與預(yù)處理階段就難以實(shí)現(xiàn)多元數(shù)據(jù)的跨平臺(tái)融合與覆蓋,使得平臺(tái)各自所研發(fā)的大模型服膺于平臺(tái)資本主義的價(jià)值觀之下。
3. 人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的情感體驗(yàn)與人性價(jià)值
雖然人工智能為網(wǎng)絡(luò)文學(xué)的多模態(tài)敘事與跨媒介融合提供了生產(chǎn)力工具與創(chuàng)意可能性,但其缺乏人類創(chuàng)作者獨(dú)有的情感深度、生活經(jīng)驗(yàn)和主觀意識(shí)。從認(rèn)識(shí)論角度看,主體(人類)通過感官和思維活動(dòng)來認(rèn)識(shí)和理解客體(如網(wǎng)絡(luò)文學(xué)作品)。然而,人工智能作為一種非生物智能體,其“認(rèn)識(shí)”過程更多是基于算法和數(shù)據(jù)處理,而非主觀體驗(yàn)。人類主體的創(chuàng)意生成與審美體驗(yàn)往往建立在獨(dú)有的對(duì)社會(huì)生活的觸感之上——深刻的情感理解、同理心、敏感性和感受文化細(xì)微差別的能力——這在內(nèi)容創(chuàng)作與生產(chǎn)中是區(qū)別于人工智能技術(shù)的至關(guān)重要的因素。這種主體性的缺失,使得人工智能與人類在審美體驗(yàn)上難以形成共通感,無法體驗(yàn)人類世界的情感、意境和象征意義。因此,人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事可能在模態(tài)的豐富性與視覺性上有一定的沖擊力,但在形式層面和深層內(nèi)涵層面具有明顯的限制。在形式層面,人工智能生成的多模態(tài)作品往往呈現(xiàn)出某種程式化和同質(zhì)化特征,缺乏生命力與藝術(shù)張力。在內(nèi)涵層面,人工智能作為沒有肉身性體驗(yàn)的機(jī)器,其創(chuàng)作缺乏人性深度,難以形成對(duì)現(xiàn)實(shí)世界的經(jīng)驗(yàn)性主觀感受與洞察。此外,意識(shí)具有意向性,即意識(shí)總是指向某個(gè)對(duì)象或內(nèi)容。在網(wǎng)絡(luò)文學(xué)創(chuàng)作與閱讀的過程中,人類的意識(shí)活動(dòng)具有明確的意向性。作者通過創(chuàng)作來表達(dá)自己的情感和思想,讀者則通過感知、想象、情感等心理活動(dòng)與作品產(chǎn)生共鳴。這種意向性體驗(yàn)使得人類能夠與作品建立深厚的情感聯(lián)系。人工智能作為非生物智能體,其“意識(shí)”活動(dòng)并不具備真正的意向性。從某種程度上說,純粹的人工智能多模態(tài)敘事是一種“無病呻吟”式的創(chuàng)作,更多體現(xiàn)的是多模態(tài)文本的技術(shù)性拼貼與增殖,而不是建立在人類主體意向性的交流與表達(dá)欲望上。有研究指出,人工智能參與內(nèi)容生產(chǎn)會(huì)引發(fā)基礎(chǔ)文本與擴(kuò)展文本的間性問題,基礎(chǔ)文本中包含人類創(chuàng)作者的真情實(shí)感,是有著情感、心態(tài)、經(jīng)驗(yàn)等感性思維的感性創(chuàng)作,而人工智能生成內(nèi)容更多基于語義關(guān)系及概率計(jì)算。[21]如果完全依賴人類世界創(chuàng)造的存量文本進(jìn)行模型訓(xùn)練,而將訓(xùn)練后的模型生成內(nèi)容作為僅有的增量文本、不經(jīng)識(shí)別把關(guān)放入基礎(chǔ)文本,可能出現(xiàn)“人類生成存量文本+人工智能生成增量文本”稀釋后生成的內(nèi)容質(zhì)量不斷遞減的傳導(dǎo)效應(yīng)。
結(jié)語
人工智能正以前所未有的速度滲透至網(wǎng)絡(luò)文學(xué)的各個(gè)領(lǐng)域,帶來前所未有的可能性和變革。從數(shù)據(jù)庫生產(chǎn)與多模態(tài)再現(xiàn),到效率化敘事與容錯(cuò)性創(chuàng)新,再到個(gè)性化交互與定制化體驗(yàn),人工智能不僅可以幫助創(chuàng)作者構(gòu)思情節(jié)、生成文本,還能結(jié)合圖像、音頻、視頻等多媒體元素,創(chuàng)造出更加立體、豐富的敘事體驗(yàn)?;谌斯ぶ悄艿亩嗝襟w敘事不僅增強(qiáng)了作品的表現(xiàn)力,還拓寬了讀者的感知維度,使網(wǎng)絡(luò)文學(xué)在形式和內(nèi)容上實(shí)現(xiàn)了前所未有的飛躍。然而,人工智能賦能網(wǎng)絡(luò)文學(xué)多模態(tài)敘事也存在一定的限度。首先,盡管人工智能能夠模擬人類情感與邏輯,但在生命體驗(yàn)方面仍存在本質(zhì)上的差距。網(wǎng)絡(luò)文學(xué)創(chuàng)作及其衍生的多模態(tài)敘事作品的深度往往源自真實(shí)體驗(yàn)和情感投射,而人工智能缺乏這種源自自我意識(shí)的生命體驗(yàn),可能導(dǎo)致作品在情感共鳴和人性探索上有所欠缺。其次,人工智能的創(chuàng)作過程基于預(yù)設(shè)的算法和模板,可能導(dǎo)致作品機(jī)械化與同質(zhì)化。最后,基于人工智能的多模態(tài)敘事作品創(chuàng)作仍依賴于人機(jī)的交互與配合,高質(zhì)量的作品往往需要進(jìn)行人工潤(rùn)色和優(yōu)化,因此創(chuàng)作質(zhì)量的最終保障仍取決于人類的創(chuàng)作能力。當(dāng)然更重要的是,在人工智能介入后網(wǎng)絡(luò)文學(xué)創(chuàng)作機(jī)制的變革過程中,諸多利益相關(guān)主體存在博弈情況,如在國內(nèi)首例內(nèi)容創(chuàng)作者聯(lián)合反對(duì)人工智能寫作的案例“番茄小說AI協(xié)議事件”中,可以看到傳統(tǒng)網(wǎng)絡(luò)文學(xué)作者、網(wǎng)絡(luò)文學(xué)平臺(tái)、人工智能“作者”、網(wǎng)絡(luò)文學(xué)閱讀者等多元相關(guān)主體的利益糾葛與立場(chǎng)分野。當(dāng)網(wǎng)絡(luò)文學(xué)踏上多模態(tài)敘事的道路,加入角逐場(chǎng)的利益主體將更加豐富多元。不同讀者的不同閱讀體驗(yàn)需求也會(huì)促使更加多元的網(wǎng)絡(luò)文學(xué)多模態(tài)敘事路徑逐漸出現(xiàn),類似于番茄小說那樣,采取“免費(fèi)、量大、管飽”策略的免費(fèi)小說平臺(tái)可能通過下沉市場(chǎng)的策略,從占領(lǐng)細(xì)分市場(chǎng)的角度,實(shí)現(xiàn)網(wǎng)絡(luò)文學(xué)多模態(tài)敘事的成功。然而面向未來,大浪淘沙后的經(jīng)典網(wǎng)絡(luò)文學(xué)多模態(tài)敘事要保持進(jìn)一步發(fā)展和成熟,勢(shì)必需要人類主體、人工智能“擬主體”、人機(jī)交互主體共同采取行動(dòng),推動(dòng)人工智能與人文精神的深度融合。
參考文獻(xiàn):
[1] 黃立鶴,張德祿. 多核并行架構(gòu):多模態(tài)研究的范式、路徑及領(lǐng)域問題之辨[J]. 外語教學(xué),2019,40(1):21-26.
[2] 張德祿. 多模態(tài)話語分析綜合理論框架探索[J]. 中國外語,2009,6(1):24-30.
[3] 2024多模態(tài)AI大模型行業(yè)深度梳理[EB/OL].[2024-03-02].https://www.sohu.com/a/761401865_121709768.
[4] 歐陽友權(quán). 網(wǎng)絡(luò)文學(xué)的AI賦能及其邊界[EB/OL].[2023-11-01].https://cssn.cn/skgz/bwyc/202311/t20231101_5694109.shtml.
[5] 禹建湘,張浩翔. 人工智能文本生成對(duì)網(wǎng)絡(luò)文藝發(fā)展的賦能[J].江西社會(huì)科學(xué),2024,44(6):64-71,207.
[6] 宋俊鋒,安仲禹. 基于人工智能生成內(nèi)容(AIGC)的網(wǎng)絡(luò)文學(xué)人機(jī)協(xié)同生產(chǎn)影響動(dòng)因與生態(tài)演替[J]. 昆明理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2024,24(3):142-154.
[7] 賀予飛. 從符號(hào)、裝置到生產(chǎn)機(jī)制:網(wǎng)絡(luò)文學(xué)數(shù)據(jù)庫寫作的變革及限度[J]. 中國現(xiàn)代文學(xué)研究叢刊,2023(7):242-260.
[8] 押注大模型,閱文前路幾何?[EB/OL].[2024-08-05].https://www.163.com/dy/article/J8RIUN5D0511D2LM.html.
[9] 單小曦. 人工智能寫作與網(wǎng)絡(luò)文學(xué)重大變革[EB/OL].[2024-06-22].https://www.chinawriter.com.cn/n1/2024/0622/c404023-40261937.html.
[10] Web Comics[EB/OL].[2024-06-24].https://charisma.ai/showcase/webcomics.
[11] Maze Guru[EB/OL].[2024-06-24].https://library.phygital.plus/details/maze-guru/r/recQDVz80psAvNg0P.
[12] 別君華. 人工智能文藝生產(chǎn)方式新變與人機(jī)關(guān)系省思[J]. 中國文學(xué)批評(píng),2024(2):178-185.
[13] 陸朦朦. 跨媒介消費(fèi):融合情境下基于IP連接的受眾遷移研究[J]. 出版發(fā)行研究,2021(2):42-48.
[14] 陸朦朦. 面向跨媒介消費(fèi)的網(wǎng)絡(luò)文學(xué)IP價(jià)值開發(fā)優(yōu)化策略[J]. 編輯之友,2022(10):52-57.
[15] The Kraken Wakes[EB/OL].[2024-06-24].https://charisma.ai/showcase/the-kraken-wakes.
[16] 陳昌鳳,張夢(mèng). 由數(shù)據(jù)決定?AIGC的價(jià)值觀和倫理問題[J]. 新聞與寫作,2023(4):15-23.
[17] Wasielewski A. \"Midjourney Can't Count\": Questions of Representation and Meaning for Text-to-Image Generators[J]. The Interdisciplinary Journal of Image Sciences, 2023(1): 71-82.
[18] 吳靜.“世界模擬”的擬像迷思——基于通用視覺大模型技術(shù)的哲學(xué)反思[J]. 南通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2024,40(3):20-30,159.
[19] 價(jià)值觀羅盤:如何讓大模型與人類價(jià)值觀對(duì)齊?[EB/OL].[2024-04-11].https://www.msra.cn/zh-cn/news/features/value-compass.
[20] 郭全中,張金熠. AI向善:AI大模型價(jià)值觀對(duì)齊的內(nèi)容與實(shí)踐[J]. 新聞愛好者,2023(11):19-24.
[21] 周榮庭,周慎. AIGC+Web 3.0:面向未來的出版多模態(tài)融合[J]. 中國出版,2023(10):3-9.
When Creativity Meets AI: The Possibilities and Limitations of
Artificial Intelligence Empowering Multimodal Narrative in Online Literature
LU Meng-meng(School of Publishing, Communication University of Zhejiang, Hangzhou 310018, China)
Abstract: Artificial intelligence technology is infiltrating various fields of online literature at an unprecedented rate, bringing revolutionary changes. From database production and multimodal reproduction to efficient narrative and fault-tolerant innovation, and further to personalized interaction and customized experiences, artificial intelligence not only assists creators in plotting and generating text but also integrates multimedia elements such as images, audio, and video to create a more three-dimensional and enriched narrative experience. However, the empowerment of multimodal narrative in online literature by artificial intelligence has its limitations. These include the coarse-grained presentation and lossy compression of the story's meaning and values in the original work due to the expansion of modal breadth, resulting in the dilution of meaning depth. Multimodal content generated through pre-training based on existing multimodal data from the human world faces issues such as limited imagination, value biases, and value alignment. Moreover, the non-intentional creation lacking embodied experiences often leads to a scarcity of emotional experiences and communicability of human values. In the future, the game of interests among multiple entities will necessitate a long-term exploration for the deep integration of artificial intelligence and humanistic spirit.
Key words: artificial intelligence; multimodal narrative; online literature; AIGC
(責(zé)任編輯:張茂)