巴黎奧運(yùn)會(huì)剛剛結(jié)束,2028年洛杉磯夏季奧運(yùn)會(huì)似乎還很遙遠(yuǎn)。然而,曾為勒布朗·詹姆斯和芝加哥公牛隊(duì)制作內(nèi)容的體育娛樂(lè)電影制作人喬什·卡恩已經(jīng)在思考更遠(yuǎn)的未來(lái):3028年的洛杉磯奧運(yùn)會(huì)會(huì)是什么樣子?
這正是人工智能(AI)視頻生成的完美創(chuàng)意實(shí)現(xiàn)。2024年早些時(shí)候,OpenAI推出的Sora使得AI視頻生成進(jìn)入主流。通過(guò)在Runway或Synthesia等生成器中輸入提示,用戶可以在幾分鐘內(nèi)生成相當(dāng)高分辨率的視頻。與傳統(tǒng)的CGI或動(dòng)畫創(chuàng)作技術(shù)相比,這種方式速度快、成本低,并且技術(shù)門檻較低。雖然每一幀畫面可能并不完美——例如6指手或物體消失等失真現(xiàn)象很常見(jiàn)——但至少在理論上,這種技術(shù)有著廣泛的商業(yè)應(yīng)用潛力。廣告公司、企業(yè)和內(nèi)容創(chuàng)作者可以利用這項(xiàng)技術(shù)快速、廉價(jià)地制作視頻。
卡恩一直在嘗試使用AI視頻工具,他利用最新版本的Runway構(gòu)想出了未來(lái)奧運(yùn)會(huì)的樣子,并在模型中為每個(gè)鏡頭輸入一個(gè)新的提示。這段視頻時(shí)長(zhǎng)僅一分多鐘,展示了一個(gè)未來(lái)感十足的洛杉磯:海平面急劇上升使城市被擠到海岸線邊緣,一座足球場(chǎng)坐落在摩天大樓的頂部,而港口中央的圓頂內(nèi)則設(shè)有一個(gè)沙灘排球場(chǎng)。
這段視頻由麻省理工科技評(píng)論獨(dú)家分享,更多的是為了展示AI目前的可能性,而非城市規(guī)劃藍(lán)圖?!拔覀?cè)谟^看奧運(yùn)會(huì)時(shí),注意到主辦城市在文化敘事上所投入的心血。”卡恩說(shuō),“洛杉磯有一種想象力和敘事文化,并且這種文化為世界其他地方定下了基調(diào)。如果我們能展示一下1000年后洛杉磯奧運(yùn)會(huì)的樣子,那該多酷?。 ?/p>
這個(gè)視頻最重要的是展示了生成技術(shù)對(duì)創(chuàng)作者的巨大助力,但它也揭示了當(dāng)前技術(shù)的局限性。雖然卡恩沒(méi)有透露他為每個(gè)鏡頭使用的具體提示內(nèi)容或?yàn)榱诉_(dá)到理想效果所需的提示次數(shù),但他提醒說(shuō),任何希望用AI創(chuàng)作出優(yōu)質(zhì)內(nèi)容的人都必須接受不斷試驗(yàn)的過(guò)程。在他的未來(lái)項(xiàng)目中,特別具有挑戰(zhàn)性的是讓AI模型在建筑設(shè)計(jì)上突破常規(guī)。比如,水上懸浮的體育場(chǎng)是大多數(shù)AI模型在訓(xùn)練數(shù)據(jù)中幾乎沒(méi)有見(jiàn)過(guò)的。
每個(gè)鏡頭都需要新的提示,這也讓視頻難以保持連貫性。顏色、太陽(yáng)的角度以及建筑物的形狀很難由視頻生成模型保持一致。視頻中也沒(méi)有任何人像的特寫鏡頭,因?yàn)榭ǘ髡J(rèn)為AI模型在處理這些方面仍然存在困難。
“目前,這些技術(shù)在處理大規(guī)模場(chǎng)景時(shí)表現(xiàn)較好,但在人類互動(dòng)的細(xì)節(jié)上還有待改進(jìn)?!彼f(shuō)。因此,卡恩認(rèn)為生成視頻的早期電影應(yīng)用可能會(huì)集中在風(fēng)景或人群的廣角鏡頭上。
AI視頻專家艾利克斯·馬什博夫也同意當(dāng)前AI視頻的缺陷和不足。他2023年離開了Snap公司生成AI部門總監(jiān)的職位,創(chuàng)立了一家新的AI視頻公司HiggsfieldAI。他指出,好的對(duì)話內(nèi)容很難通過(guò)AI生成,因?yàn)樗蕾囉谖⒚畹拿娌勘砬楹椭w語(yǔ)言。
一些內(nèi)容創(chuàng)作者可能會(huì)因?yàn)榉磸?fù)輸入提示以達(dá)到理想效果所需的時(shí)間,而不愿采用生成視頻技術(shù)。
“通常成功率是1∶20。”艾利克斯·馬什博夫說(shuō),但需要50次甚至100次嘗試也并不罕見(jiàn)。
然而,對(duì)于許多用途來(lái)說(shuō),這已經(jīng)足夠好了。艾利克斯·馬什博夫表示,他已經(jīng)看到像Temu這樣的電商巨頭開始越來(lái)越多地使用AI生成視頻廣告。在中國(guó),視頻生成器需求旺盛,用于快速制作產(chǎn)品的直接廣告。即使一個(gè)AI模型可能需要大量提示才能生成一個(gè)可用的廣告,用真人、攝像機(jī)和設(shè)備來(lái)拍攝可能會(huì)昂貴百倍。他認(rèn)為,隨著技術(shù)的逐步改進(jìn),這類應(yīng)用可能會(huì)成為生成視頻技術(shù)大規(guī)模應(yīng)用的首批案例。
“雖然這條路還很長(zhǎng),但我對(duì)現(xiàn)階段已有的部分應(yīng)用充滿信心?!卑怂埂ゑR什博夫說(shuō),“我們正在找出生成AI已經(jīng)表現(xiàn)不錯(cuò)的領(lǐng)域?!保ňC合整理報(bào)道)(策劃/多洛米)