【摘 要】文生視頻大模型Sora的問世受到全球矚目,如何利用AIGC推動圖書視頻化發(fā)展成為新的研究熱點。Sora在圖書視頻化中的應(yīng)用潛力主要表現(xiàn)為高質(zhì)量內(nèi)容呈現(xiàn)、靈活個性創(chuàng)意表達、響應(yīng)市場趨勢和賦能經(jīng)濟增長。針對Sora在圖書視頻化應(yīng)用中面臨的技術(shù)局限、算法失衡、公眾偏見和數(shù)據(jù)安全監(jiān)管不足等挑戰(zhàn)提出相應(yīng)對策,推動Sora在圖書視頻化領(lǐng)域的發(fā)展,為AIGC賦能圖書視頻化發(fā)展提供啟示。
【關(guān)" 鍵" 詞】人工智能;Sora;圖書視頻化;視頻創(chuàng)作
【作者單位】羅弦,湖州師范學(xué)院人文學(xué)院;徐伊冉,湖州師范學(xué)院信息工程學(xué)院。
【基金項目】2024年度浙江省教育科學(xué)規(guī)劃項目“智媒時代‘?dāng)?shù)字閱讀’賦能大學(xué)生媒介素養(yǎng)提升路徑研究”(2024SCG041) 的階段性成果;中國廣播電視社會組織聯(lián)合會2024年度媒介素養(yǎng)專項研究重點項目“數(shù)智時代浙江省大學(xué)生媒介素養(yǎng)研究”(2024ZGL010)的階段性成果。
【中圖分類號】G206 【文獻標(biāo)識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2025.04.013
圖書視頻化是借助數(shù)字媒體技術(shù),將閱讀體驗從靜態(tài)文本和圖片拓展至動態(tài)視頻的過程。其發(fā)展順應(yīng)了讀者日益增長的視頻化內(nèi)容消費偏好,豐富了數(shù)字閱讀的體驗,拓寬了圖書的受眾范圍,成為數(shù)字閱讀領(lǐng)域新的發(fā)展趨勢。2023年,AI視頻技術(shù)迅猛發(fā)展,從無到有,涌現(xiàn)數(shù)十種視頻生成產(chǎn)品。2024年2月15日,OpenAI公司繼2022年成功推出ChatGPT后,發(fā)布其首款文生視頻模型Sora;同年12月,Sora的公開版本正式發(fā)布。該模型能夠根據(jù)文本描述生成時長達1分鐘的高清視頻,公開版本則支持生成分辨率最高1080p、時長20s的無水印視頻,這標(biāo)志著AI視頻技術(shù)取得了突破性的進步。本文對現(xiàn)有文生視頻模型的演進路徑進行梳理,聚焦Sora的技術(shù)特色,探討其未來在圖書視頻化領(lǐng)域的應(yīng)用前景,并嘗試分析Sora賦能圖書視頻化過程中的挑戰(zhàn)及對策,為未來Sora融入圖書視頻化領(lǐng)域提供參考。
一、Sora的技術(shù)革新與應(yīng)用
1.文生視頻模型的技術(shù)演進
文生視頻模型(Text-to-Video)作為AI視頻技術(shù)的前沿分支,正逐步改變?nèi)藗儎?chuàng)造和欣賞視頻內(nèi)容的方式。始于學(xué)習(xí)技術(shù)與計算機視覺的深度融合,文生視頻模型從聚焦于生成對抗網(wǎng)絡(luò)(GANs)與變分自編碼器(VAEs)的初級形態(tài),躍遷至由Transformer和擴散模型主導(dǎo)的先進階段,并在現(xiàn)有技術(shù)基礎(chǔ)上實現(xiàn)了變革性突破,孕育出Sora這一里程碑式的模型。
文生視頻模型早期技術(shù)的探索聚焦于生成對抗網(wǎng)絡(luò)和變分自編碼器的應(yīng)用,二者分別通過生成器與判別器的對抗訓(xùn)練,以及編解碼過程,初步生成視頻內(nèi)容。但其受限于幀間連貫性和細節(jié)一致性,生成的視頻往往顯得粗糙且不夠穩(wěn)定。隨著技術(shù)不斷演進,Transformer模型的引入為文生視頻技術(shù)帶來了質(zhì)的飛躍。Transformer具備強大的“編碼—解碼”能力,不僅能將文本指令轉(zhuǎn)化為視頻內(nèi)容,還極大地提升了視頻生成的邏輯連貫性和內(nèi)容多樣性,Phenaki、NUWA等模型的推出標(biāo)志著這一技術(shù)路線的成熟與廣泛應(yīng)用。
2024年2月,OpenAI公司發(fā)布了其首款文生視頻模型——Sora,這一名稱寓意無限的創(chuàng)造潛力。作為“世界模擬器的視頻生成模型”,Sora不僅沿襲了Transformer架構(gòu)和擴散模型的優(yōu)點,還通過技術(shù)創(chuàng)新實現(xiàn)了從文本提示到60s視頻生成的流暢轉(zhuǎn)換。它借鑒了大型語言模型的標(biāo)記化策略,采用視覺補丁作為基本單元來處理圖像和視頻數(shù)據(jù):首先,利用視頻壓縮網(wǎng)絡(luò)將原始視頻轉(zhuǎn)換為低維的潛在表示,并拆分為時空補丁;其次,提取補丁作為Transformer(轉(zhuǎn)換器)架構(gòu)中的輸入標(biāo)記,以適應(yīng)不同格式的視覺要求;最后,借助擴散模型從噪聲中逐步還原出更清晰的視覺補丁,搭配Transformer進行轉(zhuǎn)換組合,生成符合文本提示視頻的同時解碼回原空間。未來,Sora的技術(shù)優(yōu)勢若應(yīng)用到圖書視頻化領(lǐng)域,可將復(fù)雜的文章情節(jié)轉(zhuǎn)化為生動連貫、內(nèi)容高度還原的圖書視頻,為圖書內(nèi)容的視覺化呈現(xiàn)提供全新可能。
2.Sora的技術(shù)突破與創(chuàng)新實踐
在Sora誕生前,已有數(shù)十款文生視頻產(chǎn)品問世,那么Sora引起轟動的原因是什么,和熱門文生視頻模型Runway、StableVide相比,技術(shù)差別在何處?
一是視頻時長的巨大突破。傳統(tǒng)的文生視頻模型只能生成2s至18s的視頻,難以滿足用戶對復(fù)雜、詳細、連貫、完整敘事場景的應(yīng)用需要。Sora將文生視頻模型的時長上限一舉延長至60s,大幅提升了視頻的時序連貫性和情節(jié)豐富度,是AI視頻技術(shù)發(fā)展史上里程碑式的飛躍。OpenAI公司在Sora官網(wǎng)的著陸頁中放置了Sora生成的一段59s的視頻示例,體現(xiàn)了Sora生成視頻超強的連貫性和敘事能力以及在細節(jié)處理上的精細程度。
二是物理仿真的部分涌現(xiàn)。Sora技術(shù)團隊在Sora的著陸頁中表示,“該模型不僅理解用戶在提示中請求的內(nèi)容,還理解這些事物在物理世界中的存在方式”[1]。從示例中我們可以看到,玻璃球體特寫鏡頭中玻璃的反光,火車車窗上的倒影,以及機器人在賽博朋克環(huán)境中活動時所展現(xiàn)的復(fù)雜場景切換等,體現(xiàn)了Sora作為一個世界模擬器在生成更加真實的動態(tài)效果方面的重大突破。物理仿真涌現(xiàn)和能力不僅確保了物理一致性,還增強了對細節(jié)和微小變化的捕捉能力,包括3D一致性、長距離相干性和對象持久性等。
三是畫面質(zhì)量和視頻擴展性的躍升。基于DALL-E(文生圖)和GPT模型的成功經(jīng)驗,Sora沿襲了其細膩逼真的畫質(zhì)和強大的提示理解能力,并顯著提升了視頻質(zhì)量。Sora支持1920×1080的高分辨率,并能處理多種縱橫比,使用DALL-E3技術(shù)能保障視頻的每一幀都具備極高的藝術(shù)感染力與視覺質(zhì)感。此外,Sora在文生視頻的基礎(chǔ)上還支持擴展已有的視頻片段,包括向前向后的時間延伸、改變視頻中的環(huán)境條件、輸入插值以實現(xiàn)視頻無縫銜接等。
二、Sora圖書視頻化應(yīng)用的潛力
目前,已有不少圖書類視頻在各媒體平臺廣泛傳播,人工智能正逐步介入視頻制作過程,旨在為讀者提供更加生動和豐富的閱讀體驗。若能將Sora應(yīng)用于圖書視頻制作中,將會推動圖書產(chǎn)業(yè)改革,拓展圖書出版新形式。
1.技術(shù)創(chuàng)新下的高質(zhì)量內(nèi)容呈現(xiàn)
將靜態(tài)圖書轉(zhuǎn)變?yōu)閯討B(tài)視頻有兩個要求:其一,確保視頻表達圖書內(nèi)容的準確性,忠實于著作原意;其二,充分發(fā)揮視頻高表達力優(yōu)勢,提升視頻質(zhì)量,以提供更好的閱讀體驗。Sora基于先進的GPT模型,結(jié)合自然語言處理(NLP)技術(shù)去理解書中的情節(jié)、對話以及細節(jié),實現(xiàn)對原著的忠實呈現(xiàn)。在人物塑造方面,Sora利用情感和語義識別等功能,捕捉角色心理狀態(tài),通過表情、語氣刻畫使角色形象更貼合原著;在場景還原方面,Sora借助大數(shù)據(jù)技術(shù)和網(wǎng)頁檢索能力,精確再現(xiàn)作品中特定時期的建筑風(fēng)格和風(fēng)俗習(xí)慣等。同時,Sora突破性的涌現(xiàn)能力和物理仿真能力提升了視頻畫面的真實度,使視頻不僅更符合現(xiàn)實世界的邏輯,還能支撐環(huán)境與物體行為的細致互動。如猛犸象走過覆蓋白雪的草地時揚起的塵土,男子吃下漢堡時留下的咬痕等。此外,3D一致性技術(shù)確保了鏡頭移動和場景轉(zhuǎn)換時,角色外觀和光影環(huán)境的一致性。這些技術(shù)的綜合應(yīng)用,使Sora在滿足圖書視頻化基本要求的基礎(chǔ)上,有效提升了視頻內(nèi)容的真實感和沉浸感。
Sora在視頻質(zhì)量方面的表現(xiàn)也超出平均水平。一方面,Pro版本支持生成1080p高分辨率的視頻,提供了卓越的細節(jié)表現(xiàn)力和視覺質(zhì)量:高分辨率支撐視頻顯示更多細節(jié),如復(fù)雜背景中的店鋪名稱、人物表情和肢體動作,同時能夠捕捉更多更準確的色調(diào)變化和光影效果,更好地展現(xiàn)物體質(zhì)感,使得視頻具有更細膩的色彩表現(xiàn)。另一方面,Sora采用的DALL-E模型為視覺呈現(xiàn)提供了堅實的基礎(chǔ),使得視頻的每一幀畫面都具備電影級別的質(zhì)感和藝術(shù)感,創(chuàng)造出一種極具觀賞性的視覺體驗。高分辨率和高觀賞性的結(jié)合充分發(fā)揮了視頻媒介強沖擊力和吸引力優(yōu)勢,顯著提升讀者參與度與閱讀沉浸感。
2.技術(shù)簡化下的靈活個性創(chuàng)意表達
Sora參與圖書視頻化制作與傳統(tǒng)視頻制作模式相比,顯著優(yōu)勢之一就是幾乎不存在技術(shù)門檻。Sora支持通過用戶輸入的文字、圖像或視頻文件生成視頻。這一制作模式極大簡化了視頻制作流程,減少了對專業(yè)技能和設(shè)備配置的依賴性,可以吸引更多非專業(yè)人士如個人創(chuàng)作者、出版機構(gòu)等參與圖書視頻化的創(chuàng)作。這不僅為創(chuàng)作者提供了更大的創(chuàng)作空間,還將加速圖書推廣和出版行業(yè)融合發(fā)展的步伐。
Sora圖書視頻化應(yīng)用的另一大優(yōu)勢是其具備高度定制化特征。Sora支持“在個人時間軸上組織和編輯視頻的獨特序列”[2],這一功能決定了視頻能高度遵循用戶喜好,基于原著內(nèi)容改進視頻風(fēng)格、角色形象、背景設(shè)定等,以滿足讀者期望。此外,Sora還具備修改靈活的優(yōu)點。根據(jù)OpenAI對Sora的概述,其不僅可以“使用Remix替換、刪除或重新構(gòu)想視頻中的元素”,還能夠“查找并隔離最佳幀,將它們向任一方向擴展以完成場景”或是“使用Loop修剪并創(chuàng)建無縫重復(fù)的視頻”[2]。在示例中,技術(shù)人員將門后的景觀由圖書館變?yōu)橛钪骘w船,再變?yōu)閰擦趾驮虑?,但無論如何變換都看不出任何修改痕跡。如果將“制作定制化”和“修改靈活化”兩個優(yōu)勢結(jié)合應(yīng)用于圖書視頻化過程,不僅可以在初稿階段就滿足大多數(shù)讀者對內(nèi)容場景的想象,還可以根據(jù)市場反饋及時調(diào)整視頻風(fēng)格,從而滿足不同國家和文化背景下讀者的需求。
Sora文生視頻技術(shù)預(yù)示著對傳統(tǒng)視頻制作模式的根本性變革,制作周期將縮短至前所未有的分鐘級。這一革新簡化了以往的腳本擬定、實際拍攝及后期剪輯等復(fù)雜環(huán)節(jié);無論是創(chuàng)作新視頻,還是進行重拍與重編,都體現(xiàn)了該技術(shù)顯著的靈活性、高效性優(yōu)勢。利用“SDEdit”方法能夠在保證視頻主體不動的情況下,迅速實現(xiàn)視頻背景的無縫變換,省時省力的同時有效減少銜接瑕疵;借助即時反饋與優(yōu)化機制,視頻具有極高的可塑性和修改自由度,視頻內(nèi)容能夠迅速迭代更新,以貼合觀眾審美趨勢與市場需求的快速演變,在提升視頻品質(zhì)與增強觀眾滿意度方面取得雙重成效。
3.?dāng)?shù)字閱讀市場下的廣闊應(yīng)用前景
隨著互聯(lián)網(wǎng)和移動設(shè)備的普及以及數(shù)字文化建設(shè)的全面推進,數(shù)字閱讀成為全民閱讀的重要組成部分?!?024年度中國數(shù)字閱讀報告》顯示,2024年我國數(shù)字閱讀用戶規(guī)模達6.7億,數(shù)字閱讀用戶規(guī)模占網(wǎng)民規(guī)模的比例已超過50%。與此同時,視頻社交平臺如抖音、嗶哩嗶哩等蓬勃發(fā)展近10年,收獲了大批忠實用戶?!兜?4次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,“截至2024年6月,我國網(wǎng)民規(guī)模近11億人,互聯(lián)網(wǎng)普及率達78.0%。其中,短視頻成為新增網(wǎng)民‘觸網(wǎng)’的重要應(yīng)用,短視頻‘拉新’能力最強?!保?]這些數(shù)據(jù)表明,將數(shù)字閱讀與視頻內(nèi)容結(jié)合的視頻閱讀,具有堅實的用戶基礎(chǔ)和廣闊的市場前景,是數(shù)字文化建設(shè)的必然趨勢。
數(shù)字時代,讀者對高質(zhì)量、個性化和多樣化的閱讀體驗需求日益增長,在短視頻內(nèi)容漸趨同質(zhì)化的當(dāng)下,圖書視頻化不僅能夠滿足人們對高質(zhì)量視覺內(nèi)容的渴望,還為傳統(tǒng)圖書提供了新的生命力,使其在數(shù)字時代煥發(fā)新生。Sora圖書視頻化應(yīng)用恰好響應(yīng)了數(shù)字閱讀發(fā)展這一市場需求。Sora為視頻創(chuàng)作者簡化了從靈感萌芽到視頻制作的過程,允許用戶根據(jù)個人偏好定制視頻的視覺風(fēng)格和敘述方式。經(jīng)典文學(xué)可以通過短劇、水墨畫或卡通動畫等形式演繹表達;科幻故事可以結(jié)合VR、AR技術(shù)打造沉浸式互動體驗;科普書籍可以通過視頻動畫、情景演繹等幫助讀者更好地理解和記憶。Sora將來還可能根據(jù)受眾不同的文化背景和語言需求,自動調(diào)整配音、字幕,甚至為視障和聽障讀者提供視覺描述與手語翻譯服務(wù)。
短視頻爆炸式發(fā)展的時代,內(nèi)容同質(zhì)化和用戶注意力碎片化現(xiàn)象普遍存在,因而年輕一代更重視視頻內(nèi)容的個性化和刺激感,偏好兼具深度與個性的視聽享受。Sora圖書視頻化應(yīng)用輔以其他先進技術(shù),可以為讀者營造一種沉浸式且獨一無二的閱讀體驗,這不僅可以豐富傳統(tǒng)出版物的內(nèi)容生態(tài),還將吸引更偏愛視頻而非純文字閱讀的潛在讀者,激發(fā)視頻平臺在內(nèi)容創(chuàng)新和差異化競爭上的活力。
4.產(chǎn)業(yè)融合下的經(jīng)濟新助力
Sora圖書視頻化應(yīng)用既是對市場趨勢的精準響應(yīng),又是驅(qū)動視頻出版新生態(tài)發(fā)展的重要力量。
一是提供了更多就業(yè)和創(chuàng)業(yè)的可能。一方面,Sora參與視頻制作可大幅降低人力物力成本,對經(jīng)濟社會的整體增長起到促進作用。另一方面,Sora可降低視頻創(chuàng)作的費用門檻,低成本的創(chuàng)作模式將打破視頻制作的專業(yè)壁壘,使創(chuàng)意實現(xiàn)不再受制于資金,為有抱負的年輕創(chuàng)作者開辟了個人創(chuàng)作乃至商業(yè)化發(fā)展的道路。
二是促進知識付費領(lǐng)域的繁榮。未來,隨著更多人投身于Sora制作圖書視頻這一領(lǐng)域,競爭的加劇將促使創(chuàng)作者不斷提升Sora的使用水平與賬號運營水平,進而推動視頻制作培訓(xùn)、賬號管理課程等行業(yè)的蓬勃發(fā)展。同時,借鑒音頻、短劇和影視劇行業(yè)的成功案例,圖書視頻可以采取會員制或單集付費模式,實現(xiàn)內(nèi)容的商業(yè)化。Sora圖書視頻化應(yīng)用的本質(zhì)是借助視頻媒介推廣書籍,鼓勵全民閱讀,因而在推廣閱讀的同時,通過直播售書等方式,不僅能增強讀者的參與感,還能為內(nèi)容創(chuàng)作者、出版社和書商開辟多元化的盈利渠道。
三、Sora圖書視頻化應(yīng)用的挑戰(zhàn)與對策
Sora的橫空出世為圖書視頻化注入了嶄新活力,有著良好的應(yīng)用前景,也有望推動數(shù)字閱讀進程,并可能成為圖書出版業(yè)轉(zhuǎn)型的重要推手。但不容忽視的是,Sora圖書視頻化應(yīng)用在推進過程中或?qū)⒚媾R多重挑戰(zhàn)。只有直面潛在挑戰(zhàn),分析并制定應(yīng)對策略,Sora的圖書視頻化應(yīng)用實踐才有望實現(xiàn)健康長遠發(fā)展。
1.多維創(chuàng)新突破技術(shù)局限
文生視頻模型在圖書視頻化領(lǐng)域的實際應(yīng)用對Sora提出了更高的技術(shù)要求和幾乎零失誤的苛刻條件,但當(dāng)前AIGC技術(shù)處于起步階段,面臨多項亟待解決的技術(shù)挑戰(zhàn),且其“本身具有復(fù)雜性、擴展性、不可控性、不可預(yù)知性等特點”[4],這些短板在跨產(chǎn)業(yè)融合過程中尤為突出,由此衍生的新業(yè)態(tài)呈現(xiàn)不穩(wěn)定性與難以駕馭的特性。一方面,Sora的技術(shù)成熟度距生成商業(yè)化圖書視頻仍有一定距離。OpenAI在其官網(wǎng)簡介中坦誠,Sora 可能難以模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系的特定實例,如有時無法準確模擬人物在跑步機上的運動軌跡或玻璃破碎的情景。另一方面,Sora生成的圖書視頻在保障情節(jié)忠實度與現(xiàn)實邏輯性方面仍存在風(fēng)險,“生成式人工智能具有深度偽造能力,可以生成與現(xiàn)實高度相似的虛假文本、圖片、音視頻等內(nèi)容或是生成侵權(quán)內(nèi)容”[5]。這些內(nèi)容隱蔽、難以被審查發(fā)現(xiàn),若經(jīng)由社交媒體廣泛傳播可能引起難以預(yù)計的后果。
面對技術(shù)挑戰(zhàn),筆者認為可以分階段制定策略。在研發(fā)初始階段,建立健全的技術(shù)評估與測試體系,包括內(nèi)部壓力測試、外部獨立評審以及用戶反饋循環(huán),力爭全方位把控技術(shù)穩(wěn)定性。在視頻創(chuàng)作階段,針對視頻內(nèi)容準確性和邏輯性,可以通過重點收集和訓(xùn)練涉及復(fù)雜物理場景和因果關(guān)系的數(shù)據(jù)來提升模型的理解與模擬能力;增加視頻審核環(huán)節(jié),引入專家評審機制,邀請原著作者、專業(yè)編輯和技術(shù)專家共同參與視頻初稿的多輪審核,保證視頻的嚴謹與合理性,提升視頻質(zhì)量。
2.多元視野糾正算法失衡
算法失衡根植于訓(xùn)練數(shù)據(jù),帶有文化價值和情感傾向的數(shù)據(jù)在無數(shù)次訓(xùn)練中慢慢滲透形成偏見。盡管Sora的訓(xùn)練細節(jié)尚未公開,鑒于其廣泛吸收包含歐美在內(nèi)的全球多元文化語料,算法失衡滋生的歧視性內(nèi)容對用戶價值觀念的潛在影響不可小覷。圖書視頻是文化領(lǐng)域的傳播媒介,若Sora生成的視頻內(nèi)隱含異化的價值導(dǎo)向,不僅有損原著精神與作者權(quán)益,還可能誤導(dǎo)觀眾以致他們形成錯誤認知。
針對Sora創(chuàng)作視頻過程中隱含的算法失衡問題,制定實施綜合策略至關(guān)重要。一方面,應(yīng)構(gòu)建防御算法失衡的壁壘,核心是多樣性和包容性。Sora在開發(fā)過程中應(yīng)積極采集來自全球各地、涵蓋各種文化背景和社會階層的數(shù)據(jù),削弱某一特定文化或價值觀的過度代表,使其生成的視頻不僅貼合國內(nèi)觀眾的需求,而且具備廣泛的適用性和包容性。另一方面,應(yīng)構(gòu)建透明的算法審計和評估系統(tǒng),并在視頻生成階段引入審查程序。結(jié)合Sora已發(fā)布的安全措施,與跨學(xué)科專家合作對模型進行對抗性測試,在盡可能減少人自身認知判斷局限的基礎(chǔ)上,最大限度降低生成錯誤信息、仇恨內(nèi)容等的可能性;開發(fā)檢測工具,引入視頻生成階段的圖像分類與文本過濾系統(tǒng),對輸出內(nèi)容進行持續(xù)審查與偏差校正,從而在技術(shù)與倫理層面共同保障生成視頻的公正性與安全性。
3.互動共創(chuàng)消融公眾偏見
Sora技術(shù)在未來發(fā)展成熟并投入圖書視頻應(yīng)用后,公眾對其生成內(nèi)容的接受度也將面臨挑戰(zhàn),部分讀者可能對Sora圖書視頻化應(yīng)用這一新興模式存在偏見。這種偏見可能來自讀者對Sora技術(shù)本能的戒備心理,一種對未知事物的自然警覺——他們質(zhì)疑AI生成視頻內(nèi)容的真實性。偏見也可能來自某些根深蒂固的觀念,如AI生成視頻往往遵循某種模式,創(chuàng)造的內(nèi)容缺乏深度等。一些讀者可能偏好真人演繹或講解,因此對AI生成視頻的風(fēng)格感到不適應(yīng)。不論AI視頻風(fēng)格如何改變,其呈現(xiàn)的AI風(fēng)格與人工制作或真人演繹視頻的風(fēng)格之間的差異依舊無法避免,所以部分觀眾可能暫時難以調(diào)整自己的審美預(yù)期,短期內(nèi)無法接受Sora生成的視頻。
針對Sora生成的視頻和公眾接受度之間的矛盾,可制定多維度的宣傳互動策略,逐步培育用戶對Sora的接受度及認可度。在技術(shù)層面,應(yīng)提高技術(shù)信息透明度,通過組織研討會、發(fā)表技術(shù)白皮書闡明Sora的核心技術(shù)機制及獨特優(yōu)勢,并引入業(yè)界專家與原著作者的權(quán)威認證,以緩解公眾的擔(dān)憂與抵觸;在制作層面,可展示Sora生成的高質(zhì)量圖書視頻,鼓勵用戶參與視頻創(chuàng)作并反饋問題,強化其對產(chǎn)品的信任度和對平臺的歸屬感。針對偏好真人元素的受眾可以開發(fā)Sora與真人講解結(jié)合的混合型內(nèi)容,使之更貼近真人視頻的質(zhì)感和表現(xiàn)力;在平臺運營層面,可構(gòu)建用戶社群,開展線上線下多形式交流活動,搭建用戶和創(chuàng)作者間的溝通橋梁,以期形成正面的用戶口碑環(huán)境和持續(xù)反饋循環(huán),使Sora生成視頻更好地滿足用戶的閱讀需求和心理期望。
4.多層共治保障數(shù)據(jù)安全
Sora創(chuàng)作的視頻以原著為藍本,融合了大量的視覺元素和音頻素材,版權(quán)歸屬與保護將成為難題?!吨腥A人民共和國著作權(quán)法》第二十一條第一款規(guī)定“著作權(quán)保護期為五十年”,這意味著諸多流行作品均處于保護期內(nèi),圖書視頻化需取得相應(yīng)授權(quán)。但對于獨立創(chuàng)作者或小型團隊而言,版權(quán)購買成本高昂,因此,如何制定版權(quán)保護新規(guī)定及有效監(jiān)管成為亟待解決的問題。同時,Sora的大數(shù)據(jù)訪問權(quán)限加劇了未經(jīng)授權(quán)素材使用與個人隱私泄露的風(fēng)險,其高效率的生成能力對版權(quán)保護體系構(gòu)成前所未有的考驗,可能直接侵害創(chuàng)作者權(quán)益,突破個人隱私邊界。
為應(yīng)對這一系列挑戰(zhàn),2023年7月10日,我國正式頒布《生成式人工智能服務(wù)管理暫行辦法》,填補了傳統(tǒng)監(jiān)管在人工智能領(lǐng)域的空白。面向Sora在圖書視頻化領(lǐng)域的具體應(yīng)用,現(xiàn)階段“雖然無法對人工智能生成內(nèi)容的素材來源作出明確說明,但仍需對生成內(nèi)容作出‘本內(nèi)容由AI生成’的提示說明”[6]?,F(xiàn)有的管理辦法與監(jiān)管框架比較宏觀,缺乏針對視頻創(chuàng)作與傳播環(huán)節(jié)的細致規(guī)定,亟須通過收集案例、細化條例來完善法律框架。鑒于此,政府部門需加快立法節(jié)奏,加速出臺有針對性的、細化的法律法規(guī)或指導(dǎo)原則,以促進視頻創(chuàng)作行業(yè)的健康發(fā)展。同時,應(yīng)構(gòu)建全面的數(shù)字教育與技術(shù)風(fēng)險監(jiān)管機制,提升監(jiān)管技術(shù)、強化版權(quán)與數(shù)據(jù)安全防護,這是營造健康、可持續(xù)的視頻創(chuàng)作生態(tài)的關(guān)鍵。
四、結(jié)語
Sora憑借其卓越的視覺表現(xiàn)力、高效的內(nèi)容轉(zhuǎn)換能力,以及對市場需求的敏銳響應(yīng),為讀者提供了創(chuàng)新性的閱讀體驗,同時也為圖書行業(yè)開辟了嶄新的商業(yè)模式與盈利增長點。但需要注意的是,實際應(yīng)用中可能產(chǎn)生包括技術(shù)成熟度的局限、公眾對AI生成內(nèi)容的認知偏差、算法的潛在偏見,以及版權(quán)與數(shù)據(jù)安全的法律邊界挑戰(zhàn)。鑒于此,本文提出了一系列有針對性的策略,旨在通過構(gòu)建全面的技術(shù)評估框架、增強算法透明度、防范算法偏見、協(xié)同推進相關(guān)法規(guī)建設(shè),在保障創(chuàng)新與倫理平衡之間找到合理路徑。通過持續(xù)的研究實踐,Sora也許會成為驅(qū)動圖書出版行業(yè)轉(zhuǎn)型的重要動力,高效賦能更多元、高品質(zhì)的數(shù)字閱讀時代,實現(xiàn)行業(yè)可持續(xù)發(fā)展。
|參考文獻|
[1]Creating video from text[EB/OL].[2025-04-06]. https://openai.com/index/sora/?ref=aihub.cn.
[2]Sora[EB/OL].[2025-04-06]. https://openai.com sora/.
[3]數(shù)據(jù)報告|第54次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].(2024-10-25)[2025-04-06].https://mp.weixin.qq.com/s?__biz=MzI0OTU1NDQ2Ng==amp;mid=2247527443amp;idx=2amp;sn=a4343bb1f832861dd693109af60c32b2amp;chksm=e8b675aa796cbdfd811631bc8fb06b982a404c2c0d76878820abfe300ac9ad404072f53a7d41amp;scene=27.
[4]杜華,孫艷超. 生成式人工智能浪潮下知識觀的再審視:兼論兩個經(jīng)典知識之問的當(dāng)代回應(yīng)[J]. 現(xiàn)代教育技術(shù),2024(1):96-106.
[5]杜都, 賴雪梅. 人工智能在出版營銷領(lǐng)域的創(chuàng)新應(yīng)用[J]. 出版廣角,2024(19):29-35.
[6]丁毅. 人機協(xié)作下人工智能生成內(nèi)容的著作權(quán)共有模式[J]. 出版廣角,2024(9):34-39.