摘要
文生視頻大模型 Sora的問世,意味著 AI正式叩響“影像制作”的大門,既有的傳媒業(yè)態(tài)、社會(huì)生態(tài)亦會(huì)由此迎接新的場(chǎng)景,強(qiáng)大的生產(chǎn)效率、持續(xù)的學(xué)習(xí)能力、復(fù)雜的數(shù)據(jù)來源將會(huì)對(duì)傳播的內(nèi)容、通道甚至模式產(chǎn)生深遠(yuǎn)影響。由此,探討 Sora 的技術(shù)框架及其可能帶來的機(jī)遇與挑戰(zhàn)是目前學(xué)界亟待探索的熱門話題,本文旨在深入解析 Sora 的技術(shù)框架,探討其內(nèi)部邏輯如何實(shí)現(xiàn)對(duì)物理世界的模擬與再現(xiàn),并進(jìn)一步分析其為傳播生態(tài)帶來的革新與危機(jī)。
關(guān)鍵詞
Sora 技術(shù)框架 傳播生態(tài)
一、從深度學(xué)習(xí)到技術(shù)融合:“視頻世界模擬器”創(chuàng)新影像技術(shù)
從技術(shù)的底層邏輯出發(fā),Sora程序的核心是一個(gè)經(jīng)過預(yù)先訓(xùn)練的擴(kuò)散轉(zhuǎn)換器(Diffusion Transformer)[1]。具體拆解來看,這一程序可以被拆分為兩個(gè)核心板塊,其一為負(fù)責(zé)像素視頻編碼與解碼的生成板塊,其二為負(fù)責(zé)解析用戶需求的語義匹配板塊。因此,Sora的出現(xiàn)匯聚了目前關(guān)于圖像生成與語義解讀的多類深度學(xué)習(xí)模型的技術(shù)成果,其工程與邏輯方面的創(chuàng)新與兼容促使其能夠更好地完成從“理解”到“產(chǎn)出”的生產(chǎn)過程,而創(chuàng)造力的極大釋放也開始讓AI影像制作不再是簡(jiǎn)單的“科技玩具”。
(一)人工智能影像的生成邏輯
在Sora程序正式發(fā)布之前,AGI(通用人工智能)領(lǐng)域經(jīng)歷了從生成式文本到生成式圖像的演進(jìn)與發(fā)展,諸如 ChatGPT、DeepArt、Midjourney 等多種程序的陸續(xù)登場(chǎng)展示了 AI 在創(chuàng)作型文本與圖像方面的潛力。直觀來看,影像視頻就是對(duì)“圖像”的時(shí)空延伸與擴(kuò)展,其基本原理更像是對(duì)前有理論與模型的一種集成和加強(qiáng)[2]。
從生成邏輯來看,Sora等AI影像生成程序需要以人類創(chuàng)作者的要求為描述性指令(prompt),通過自有的模型生成出多幀圖像,并將其通過時(shí)間邏輯串聯(lián)成為可播送的視頻。這樣的流程首先需要依托于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)等常見的深度學(xué)習(xí)模型,保證AI能夠不斷通過自主學(xué)習(xí)來擴(kuò)充其數(shù)據(jù)庫和完善“模仿”能力,從而提升其生成視頻對(duì)于現(xiàn)實(shí)世界的仿真度;其次,由于影像解析與生成的復(fù)雜性,為了提升 AI 的承載能力,程序還需要一個(gè)“降維空間”來對(duì)視頻素材進(jìn)行編碼與解碼。而由于生成式程序服務(wù)于人類創(chuàng)作者的要求,程序也需要搭載大型語言模型(Large Language Model)以完成對(duì)自然語言的處理。
(二)人工智能影像的技術(shù)路徑
從逆向分析內(nèi)部結(jié)構(gòu)的角度來看,Sora程序通過三個(gè)具體的結(jié)構(gòu)串聯(lián)起了視頻生成與語義匹配兩個(gè)核心板塊,其中低維潛在空間與編碼解碼器共同組成了生成部分,而條件機(jī)制則單獨(dú)為語義部分服務(wù)。在運(yùn)行過程中,Sora會(huì)預(yù)先經(jīng)過編碼的形式將原始的素材庫進(jìn)行降維,將像素畫面以“潛在表示”的形式進(jìn)入作為信息樞紐的低維空間,隨后在進(jìn)行除噪后保留關(guān)鍵信息,以供模仿學(xué)習(xí)。而此時(shí),如果人類創(chuàng)作者輸入了有關(guān)的指令,解碼器就會(huì)開始工作,進(jìn)行語義匹配后通過“擴(kuò)散”的形式逐步將潛在表示輸出為若干個(gè)視頻幀,并通過一定的邏輯排列后抵達(dá)創(chuàng)作者端。由此在生成板塊與語義板塊的配合之下,一個(gè)精準(zhǔn)且具有邏輯的視頻即可完成產(chǎn)出。
Sora的運(yùn)行模式集結(jié)了圖像處理與模仿以及語義匹配兩類不同的AIGC 技術(shù),具有一種“兼容”的天然優(yōu)勢(shì)。比如,在模仿與擴(kuò)散階段,潛在空間能夠保證其更為高效地處理素材,避免由于視頻文件的復(fù)雜度而影響生存效率;同時(shí),對(duì)抗網(wǎng)絡(luò)的存在也能夠不斷幫助AI更好地“欺騙”監(jiān)視器,從而讓其生成的內(nèi)容更具仿真度;語義匹配在語言模型的基礎(chǔ)上也能夠確保生成的內(nèi)容符合于創(chuàng)作者的需求,避免無效的冗余信息。因此,Sora對(duì)于視頻智能生成領(lǐng)域的技術(shù)革新是基于已有基礎(chǔ)模型的,亦是極其有效的。
二、從效率升級(jí)到智慧融通:“視頻世界模擬器”重塑傳播生態(tài)
任何新技術(shù)的出現(xiàn),除了代表一種可供使用的“新型工具”,還反映著技術(shù)演變的某些規(guī)律[4]。Sora的誕生讓AI生成的視頻時(shí)長(zhǎng)擴(kuò)充至1分鐘,為視頻內(nèi)容創(chuàng)作者們提供了一件更為趁手的工具,也必然在一定程度上對(duì)人類的傳播思維、模式、結(jié)構(gòu)產(chǎn)生重塑,并從不同的角度直接影響和改變著現(xiàn)有的傳播業(yè)態(tài)。而值得關(guān)注的是,Sora 的探索絕非獨(dú)立于使用者,也就是人類之外,它所產(chǎn)生的無限可能反而預(yù)示著人人可參與、智慧可融通的未來,它也為我們觀察人在智能機(jī)器時(shí)代的角色與定位提供了新的視角。
(一)超低門檻:產(chǎn)能釋放再造全新起點(diǎn)
Sora程序的出現(xiàn)極大縮減了微視頻影像的制作流程,讓曾經(jīng)的“腳本編寫、分鏡設(shè)計(jì)、拍攝布景、現(xiàn)場(chǎng)錄制、后期剪輯”等復(fù)雜龐大的團(tuán)隊(duì)作業(yè)濃縮入了能夠通過模擬不斷學(xué)習(xí)的“黑箱”裝置之中,其化繁為簡(jiǎn)的能力,以及生成式人工智能共有的“高效”優(yōu)勢(shì)成為其吸引更多人嘗試的關(guān)鍵因素。與此同時(shí),流程簡(jiǎn)化帶來的成本銳減更是AI生產(chǎn)的又一“刺點(diǎn)”,少則一天多則半月的時(shí)間成本也壓縮至了分鐘單位,傳統(tǒng)拍攝中需要累加的人力物力幾乎可以實(shí)現(xiàn)倍數(shù)級(jí)縮減,內(nèi)容創(chuàng)作者的試錯(cuò)機(jī)會(huì)也隨之增多??梢哉f,在Sora的助力和加持之下,嘗試成為“視頻制作者”對(duì)于具備在聊天框輸入信息指令能力的龐大互聯(lián)網(wǎng)用戶群體而言,已經(jīng)變得仿若一場(chǎng)游戲,而游戲式的傳播與生產(chǎn)代表的正是對(duì)抗權(quán)利分層固化的“大眾力量”。
威廉·弗盧塞爾(Vilém Flusser)曾在《技術(shù)圖像的宇宙》中預(yù)言,借由技術(shù)生產(chǎn)的加持,人們會(huì)近乎狂熱地利用鍵盤制作出難以磨滅的信息,享受成為創(chuàng)作者的游戲[5]。一方面,AI技術(shù)在用戶操作層面的超低門檻抹去了繁瑣的條件限制,提供了一個(gè)相對(duì)更為平等與自由的生產(chǎn)空間,固有的話語權(quán)力分配體系在技術(shù)的賦能下再次松動(dòng),容許部分曾被拒之門外的“普通網(wǎng)民”參與其中,進(jìn)而探索新的分配規(guī)則;另一方面,這種無需太多成本的創(chuàng)作模式也降低了嘗試的“心理準(zhǔn)入閥”,游戲式輕松愉快的參與讓用戶們脫離了傳統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)的凝視與束縛,敢于進(jìn)行一些“天馬行空”的創(chuàng)作,從而挑戰(zhàn)由專業(yè)者制定的審判規(guī)則,達(dá)成相對(duì)自由與無拘無束的創(chuàng)作氛圍。總的來說,在AI帶來的對(duì)話式生產(chǎn)游戲中,大眾群體得到了抹去其技能虧欠與心理負(fù)擔(dān)的配平砝碼,視頻生產(chǎn)者被不同程度地拖拽到了新的起跑線上,期許更加公平、多元的話語空間,并由此促進(jìn)傳播交往的繁榮。
(二)超大承載:持續(xù)模仿集結(jié)人類智慧
盡管視頻創(chuàng)作者通過輸入指令文本,并借助對(duì)抗式模擬的創(chuàng)作模式,似乎賦予了AI極大的創(chuàng)作空間與“自主權(quán)利”[6],但深入分析便可發(fā)現(xiàn),所有生成式作品的真實(shí)源頭始終是人類創(chuàng)作的已有成品集合。學(xué)界關(guān)于其版權(quán)爭(zhēng)端話題的討論,也恰恰揭示了優(yōu)質(zhì)生成式影像內(nèi)容的本質(zhì)——它們并非個(gè)體所有,而是代表了被納入數(shù)據(jù)庫和模仿庫中的所有人類作品的精粹。從群體智慧的角度來看,生成式AI已超越了單純物體的范疇,它成為人類在知識(shí)獲取、保留和分享過程中認(rèn)知能力的重要延伸[7]。換言之,它是人類整體智慧的集結(jié)與再調(diào)配的載體。生成式人工智能技術(shù),作為集結(jié)人類智慧的新新媒介,利用其遠(yuǎn)超普通人的學(xué)習(xí)能力,集納海量資源,并對(duì)這些原始智慧進(jìn)行再理解和深度挖掘,從而實(shí)現(xiàn)傳承與提升。在此基礎(chǔ)上,視頻創(chuàng)作領(lǐng)域或?qū)⒂瓉砬八从械陌l(fā)展通路,實(shí)現(xiàn)嶄新的飛躍。
而將“內(nèi)容”元素置于傳播過程鏈中作為傳播的一個(gè)關(guān)鍵要素后,這種飛躍就不僅停留于內(nèi)容創(chuàng)作的水準(zhǔn)和質(zhì)量之上,更是影響到了智慧的播撒與擴(kuò)散進(jìn)程。生成式AI在吸納人類的“智慧”的同時(shí),也為加速“智”的傳播提供了強(qiáng)大的動(dòng)力。同時(shí),Sora程序?qū)ιa(chǎn)效率的提升除了客觀上能夠?qū)⒛Y(jié)“群體智慧”的產(chǎn)品推廣到更多更廣泛的受眾節(jié)點(diǎn),幫助更多人接受智的“教育”之外,還足以利用自身強(qiáng)大的學(xué)習(xí)模擬能力實(shí)現(xiàn)對(duì)人類的反哺,從而延伸人的認(rèn)知范疇。這種雙向互動(dòng)的模式,使得“人類在機(jī)器的幫助下更加聰慧”的愿望在螺旋上升的循環(huán)中逐漸變?yōu)楝F(xiàn)實(shí)。特別是在跨文化交流領(lǐng)域,生成式AI的多語言能力和強(qiáng)接收模仿能力還能發(fā)揮出一些縮減文化折扣的作用,減輕由于文化語境、地理區(qū)隔、政治觀念等構(gòu)筑出的“智”的傳播壁壘,助力智慧的跨“邊界”擴(kuò)散,亦提升人類智慧集合圈的包容性與囊括范圍。
三、從機(jī)器宰制到真實(shí)幻滅:“視頻世界模擬器”引發(fā)交往危機(jī)
縱觀技術(shù)的發(fā)展歷程不難發(fā)現(xiàn),智能技術(shù)的介入往往擁有“利于”人類的出發(fā)點(diǎn),它們由人創(chuàng)造而來用以協(xié)助工作的工具?!耙曨l世界模擬器”的誕生從這種意義上說也是人在創(chuàng)造一個(gè)可以更好地用動(dòng)態(tài)畫面存續(xù)和表達(dá)現(xiàn)實(shí)世界的工具,逐步接近于馬歇爾·麥克盧漢(Marshall Mcluhan)所說的“人類延伸的最后一環(huán)”[8],實(shí)現(xiàn)感知能力的無限延展。但是,這種“工具”也往往附帶著對(duì)人某種“缺點(diǎn)”的包容,并能夠利用它們逐步反客為主,侵襲傳播倫理甚至異化人與社會(huì)。就像智能分發(fā)在包容人的“選擇性心理”時(shí)引發(fā)“信息繭房”的猜想一樣,智能生成亦會(huì)在包容人的“惰性”的同時(shí)導(dǎo)向“媒介依賴”“單向度的人”等危機(jī),提醒人們?cè)跒?Sora的技術(shù)突破喝彩的同時(shí)也不能不警惕可能伴隨而至的負(fù)面影響與異化效果。
(一)依賴與馴化:個(gè)體用戶服從機(jī)器思維
Sora 等生成式 AI 的運(yùn)行邏輯讓作為用戶的創(chuàng)作者拿起了發(fā)布指令的“指揮棒”,成為AI的“命令者”,可以借由算力的支撐以極低的代價(jià)完成視頻作品的制作。這種低操作門檻極大地提升了創(chuàng)作的效率與便捷度,然而,與之相伴的卻是技術(shù)依賴的悄然滋生。在這種技術(shù)的縱容之下,過往需要從現(xiàn)實(shí)社會(huì)生活中汲取經(jīng)驗(yàn)性材料,并通過“靈感”將其串聯(lián)出個(gè)性作品的創(chuàng)作模式被創(chuàng)作者們放棄,置換成一種拋卻“思考”、立等可取[9]的簡(jiǎn)單途徑。但是,在看不見的裝置黑箱中,“人類創(chuàng)作者”的角色卻在逐漸邊緣化,成為長(zhǎng)串流程中的一個(gè)初始環(huán)節(jié)。這種邊緣化不僅削弱了創(chuàng)作者的主體地位,更使得他們?cè)谙硎芸旖萆傻耐瑫r(shí)面臨著“不思進(jìn)取”的風(fēng)險(xiǎn),個(gè)人價(jià)值在機(jī)器的高效運(yùn)作下被工具價(jià)值所取代, “創(chuàng)作”的靈韻在機(jī)械的復(fù)制中被消磨。
更為危險(xiǎn)的是,使用機(jī)器、依賴機(jī)器的過程中還暗含著對(duì)機(jī)器思維上的迎合。人們?yōu)榱诉_(dá)成“讓AI理解指令從而生成出正確的作品”的目的,必須不斷學(xué)習(xí)與機(jī)器溝通的技巧,而由于人與工具的差異性,這一過程中不乏需要讓渡自身的思維觀念以達(dá)成與機(jī)器的精準(zhǔn)配對(duì)。人們意愿上的配合開始潛移默化地讓機(jī)器加入以往由人與人組成的傳播與交往鏈條,而 AI 強(qiáng)大的工具屬性會(huì)逐步展現(xiàn)出將他人取而代之的能力,將“人-人”改寫為“人-機(jī)器”,形成一個(gè)新的閉環(huán)。在這樣的閉環(huán)之中,機(jī)器反而成為規(guī)則的制定者,人看似擁有發(fā)布號(hào)令的指揮權(quán),實(shí)際上卻遵從于AI程序的思維方式和交往條件,異化成了被機(jī)器宰制的“單向度的人”,甚至逐漸喪失保持自我思考的能力。
(二)仿真與篡改:擬態(tài)環(huán)境的再擬態(tài)化
多模態(tài)技術(shù)的發(fā)展以及對(duì)抗式學(xué)習(xí)模型的進(jìn)步,讓Sora程序生成的作品不僅擁有復(fù)雜的元素堆疊和場(chǎng)景切換,還能夠極大程度上還原現(xiàn)實(shí)景觀,甚至讓虛構(gòu)出的環(huán)境與物逃過人類的常識(shí)性判斷,不斷貼近“世界模擬器”的構(gòu)想。高度的仿真能力持續(xù)吞噬著虛擬與真實(shí)的邊界,也讓人們對(duì)于真實(shí)的信任更加岌岌可危。20世紀(jì) 20 年代,美國(guó)著名新聞學(xué)者沃爾特·李普曼( WalterLippmann)曾提出“擬態(tài)環(huán)境”說,指出人們通過媒介認(rèn)識(shí)的世界不等于現(xiàn)實(shí),而只是敘事修飾過的“擬態(tài)”真實(shí)[10]。而在智能技術(shù)的發(fā)展之下,媒介建構(gòu)的擬態(tài)世界不僅在構(gòu)筑人們對(duì)世界的認(rèn)知,也成了生成式 AI 抓取形成數(shù)據(jù)庫的素材。這意味著AI生成的所有內(nèi)容本質(zhì)上是對(duì)“媒介敘事”的再塑和模仿,它們僅僅能夠代表對(duì)人類觀念的表征而非對(duì)現(xiàn)實(shí)的表征[11],只是對(duì)媒介構(gòu)筑的“擬態(tài)環(huán)境”的再擬態(tài)化。
斯帕羅(Sparrow)等人在《科學(xué)》雜志上提出并論證“谷歌效應(yīng)”指出,人們對(duì)互聯(lián)網(wǎng)的記憶依賴能夠消除人與人之間分享記憶信息的需要,并瓦解將重要信息存入生物式記憶系統(tǒng)的沖動(dòng)[12]。這意味著仿真的生成式內(nèi)容雖然無法成為“真實(shí)”,但能夠填充入人的記憶之中,且可能不會(huì)在與他人的交談中被證偽和甄別,乃至因其在網(wǎng)絡(luò)空間中的長(zhǎng)期停駐而成為多年之后群體的集體記憶。而集體記憶除了在傳播的儀式觀中承擔(dān)“賦予儀式感”的角色之外,也會(huì)在時(shí)間的推移之下成為“歷史”的一部分感性記錄,那么,如果 AI 創(chuàng)作的虛構(gòu)內(nèi)容在無意之間攜帶了偏見與傾向,這些錯(cuò)誤的訊息就可能形象被留駐在記憶之中,成為歷史中的共識(shí)。而就世界格局而言,先進(jìn)的智能技術(shù)只會(huì)發(fā)源于發(fā)達(dá)的少數(shù)國(guó)家,這些模型也優(yōu)先被技術(shù)資源更強(qiáng)的數(shù)據(jù)與場(chǎng)景投喂,在高度仿真與強(qiáng)感染力的加持下,實(shí)現(xiàn)文化和意識(shí)形態(tài)入侵將變得簡(jiǎn)單輕易,傳遞歧視與偏見也會(huì)變得更根深蒂固和難以察覺。
結(jié)語
人工智能介入到視頻影像內(nèi)容的生產(chǎn)領(lǐng)域,存在于過往科幻小說中的“虛擬世界”,擁有了一個(gè)更具光環(huán)的名字,“模擬現(xiàn)實(shí)”“虛擬生存”成為AI發(fā)展的重要方向。盡管在目前看來,元宇宙依然是遙不可及的想象,與之伴生的概念炒作也消耗了不少科技魅力,甚至被人評(píng)價(jià)為引人眼球的“商務(wù)噱頭”,但為這一構(gòu)想服務(wù)的通用人工智能技術(shù)卻始終在以迅猛的速度發(fā)展進(jìn)步。從ChatGPT到DeepArt到Sora,從文本到靜態(tài)圖像再到活動(dòng)影像,生成式人工智能僅用不到兩年時(shí)間已經(jīng)到達(dá)了足以讓部分人類無法識(shí)別其內(nèi)容生產(chǎn)的程度,并且持續(xù)引發(fā)著諸如“人是否會(huì)被AI替代”的討論。本文從技術(shù)框架的角度入手,通過分析Sora對(duì)傳播生態(tài)的影響,闡述其可能帶來的機(jī)遇與危機(jī),回應(yīng)了這一問題。Sora的誕生是人類在技術(shù)領(lǐng)域豐碑式的成果,其初衷一定是用以提高生產(chǎn)效率、提高內(nèi)容真實(shí)度與質(zhì)量,從而服務(wù)于人類的視頻創(chuàng)作工作,從目的上而言是無意于“取代”人類的;而從結(jié)果上來講,即使強(qiáng)大的模仿能力和巧妙的降維能力已經(jīng)可以讓不少AI生成作品做到高度還原“以假亂真”,但其依然會(huì)出現(xiàn)思維邏輯方面的錯(cuò)誤,讓AI在時(shí)空維度完全等同于人類在現(xiàn)階段并不可能,因此從結(jié)果論上直接判定其能夠取代傳統(tǒng)視頻生產(chǎn)亦是杞人憂天。人類不斷求證AI是否會(huì)取代自己更多展現(xiàn)的是一種居安思危式的心理訴求,就像筆者擔(dān)憂Sora的出現(xiàn)可能會(huì)異化人的思維、割裂人的交往,其本質(zhì)是期望應(yīng)用技術(shù)的人能夠不完全被“懶惰”操縱,不斷提醒自己動(dòng)用主觀能動(dòng)性避免成為技術(shù)的勞工,而非真的擔(dān)心人已經(jīng)完全淪為技術(shù)的奴仆。
在人與機(jī)器的和諧共生道路上,機(jī)器是高效的工具,亦是提醒人拔高“技術(shù)素養(yǎng)”與“媒介素養(yǎng)”的鐘鳴,聞其聲就會(huì)反復(fù)自省回歸理性,就不會(huì)完全為“智能”所替代。
參考文獻(xiàn):
[1]W.Peebles and S.Xie,Scalable diffusion models"with transformers[C].IEEE/CVF International Conferenceon Computer Vision,2023:4195-4205.
[2]郭全中,張金熠.作為視頻世界模擬器的Sora:通向 AGI 的重要里程碑[J].新聞愛好者,2024(04):9-14.
[3]Yixin Liu,Kai Zhang,Yuan Li et al.Sora:A Review on Background,Technology,Limitations,and Opportunities"of Large Vision Models[EB/OL].(2024-02-27)[2024-03-10].https://arxiv.org/pdf/2402.17177v1.pdf
[4]彭蘭.從ChatGPT透視智能傳播與人機(jī)關(guān)系的全景及前景[J].新聞大學(xué),2023(4):1-16.
[5][巴西]威廉·弗盧塞爾.技術(shù)圖像的宇宙[M].李一君,譯.上海:復(fù)旦大學(xué)出版社,2021:73.
[6]高永杰,呂欣.生成式AI技術(shù)進(jìn)化與圖像藝術(shù)生產(chǎn)范式革新[J].現(xiàn)代傳播,2023(9):159-168.
[7]喻國(guó)明,滕文強(qiáng).生成式AI對(duì)短視頻的生態(tài)賦能與價(jià)值迭代[J].學(xué)術(shù)探索,2023(7):43-48.
[8][加]馬歇爾·麥克盧漢.理解媒介:論人的延伸[M].何道寬,譯.北京:商務(wù)印書館,2000:5.
[9]黃旦.作為人類文明進(jìn)程動(dòng)因的媒介[J].新聞?dòng)浾撸?023(6):3-10.
[10][美]沃爾特·李普曼.輿論學(xué)[M].林珊,譯.北京:華夏出版社,1989:240.
[11]陳露菡.作為技術(shù)圖像的AI繪圖:本質(zhì)與未來走向[J].青年記者,2023(11):89-91.
[12]Sparrow,B.,Liu,J.Wegner,D.M.(2011).Googleeffects on memory:Cognitive consequences ofhavinginformation at our fingertips[J].Science,333(6043):776-778..