朱國順
就像滾熱的油鍋中,撒進(jìn)了一大把海鹽——Sora來了。
當(dāng)?shù)貢r間2月15日, 人工智能研究公司OpenAI,發(fā)布了首個視頻生成模型Sora ——“世界模擬器”。當(dāng)Sora視頻亮相時,“世界”被“模擬”后的震撼撲面而來:僅僅依靠幾句文字提示語,Sora自動生成了雪地里撒歡的大狗、咖啡里破浪的帆船、街景里雪舞的櫻花,惟妙惟肖、纖毫畢露、幾可亂真。
Sora帶來的震撼,讓許多人驚愕不已。
人工智能(AI)發(fā)展至今,本質(zhì)上是機(jī)器通過模仿、學(xué)習(xí)人類的智能,接近、達(dá)到(甚至超過)人類的智能,以幫助減輕人類的勞動、提高人的能力。它是人類主導(dǎo)、模擬人類智能的科學(xué),人通過設(shè)計學(xué)習(xí)路徑——建模,讓機(jī)器反復(fù)學(xué)習(xí)以具備特定能力。
這種運(yùn)行方式,近乎于手工作坊。想要生產(chǎn)什么樣的產(chǎn)品,就提供什么樣的學(xué)習(xí)圖紙,然后機(jī)器對應(yīng)反復(fù)學(xué)習(xí),由此具備設(shè)定的能力。Sora的意義在于,只需要提供一些提示性的文字語言,它會自動生成人類想要的場景。這就意味著,Sora會理解人類的思想!
Sora亮相的那天,大家最初都驚訝于文(字)生視頻的逼真性和清晰度。這當(dāng)然不容易。比如那條雪地上撒歡的大狗,毛發(fā)絲絲閃亮發(fā)光,十分清晰逼真。如果跟現(xiàn)在的類似競品pika、 Runway、 Stable Video等對比,幾乎是信息時代與石器時代的差別。
類似效果,以前需要人工一筆筆畫出毛發(fā),然后建模渲染,以形成活生生的形象,成品也不如Sora。科幻大片《阿凡達(dá)》中人物飄逸的長發(fā)、大海里洶涌的海浪,就是一大批人一筆筆畫了好幾個月后,在電腦幫助下制作出來的。Sora能自動即時生成如此生動的視頻圖像,當(dāng)然不容易。
Sora 更震撼的,是視頻產(chǎn)生、生成的過程。它依據(jù)給出的文字提示,能理解其中蘊(yùn)含的信息,準(zhǔn)確地轉(zhuǎn)換(想象)成匹配的圖像場景,最終形成符合人類意圖可長達(dá)一分鐘的視頻。Sora具備的理解能力、從文字到圖像的想象力,已接近人類特有的復(fù)雜想象判斷能力,這是最關(guān)鍵、最有意義的。
比如人類對海浪的認(rèn)知,并不需要通過一幀幀圖像建模來實現(xiàn),只要見過大海的人,馬上就會想象生成圖景。 Sora,就具備了某些這樣的從文字想象到圖景的能力。它反映了對物理世界的理解,已經(jīng)從文字進(jìn)到圖像,從圖像進(jìn)到對這個世界3D環(huán)境的理解。相比一年多前同樣由OpenAI發(fā)布的chatGPT,已經(jīng)從文字理解、文字解讀的一維層面,躍升到文字直接生成視頻的二維和三維層面。這是質(zhì)的巨大飛躍。
Sora是怎樣得到這種能力的呢?
根據(jù)技術(shù)團(tuán)隊透露的信息,Sora的誕生,有著諸多與眾不同、與以往不同的方式。
第一是解構(gòu)視頻。將極大數(shù)量的各類視頻(可視數(shù)據(jù))碎片化,轉(zhuǎn)化為可統(tǒng)一標(biāo)識的特定編碼,便于輸入信息時認(rèn)知。第二,視頻與文字的巨大不同在于有復(fù)雜的格式差異,Sora著重細(xì)化了不同分辨率、持續(xù)時間和縱橫比的視頻和圖像的解析和標(biāo)識,方便應(yīng)用時可組合成不同需求的視頻。第三,將可視數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)包。這是非常重要的一步,碎片化、精細(xì)化的數(shù)據(jù),只有通過一定組合的數(shù)據(jù)包,才能被有效、可擴(kuò)展的運(yùn)用。第四,建立高度描述性的轉(zhuǎn)譯員模型。它具有兩方面作用,一方面大量訓(xùn)練學(xué)習(xí)帶有文本解讀的視頻,理解每一幀畫面包含的文本意義;另一方面,接受文本傳遞的信息,學(xué)習(xí)訓(xùn)練得到相應(yīng)的畫面和圖像。
Sora還充分利用了一年多前誕生的GPT技術(shù),將用戶提供的簡短文字提示,先由GPT轉(zhuǎn)換為更長的詳細(xì)描述,再發(fā)送給視頻模型,這大大提高了按照用戶提示生成高質(zhì)量視頻的精準(zhǔn)度。從這個意義上來說,GPT實際上是Sora得以誕生的關(guān)鍵一步。
Sora的出現(xiàn),是人工智能領(lǐng)域一次重要的進(jìn)步。它自動解析文字描述,用真實物理定律孿生虛擬數(shù)字世界,重構(gòu)真實世界與虛擬空間互動。它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。它也預(yù)示著一個全新視覺敘事時代的到來,將給傳媒、影視、教育等諸多行業(yè),帶來印象深刻的變化。
“以前不相信是真的,現(xiàn)在不相信是假的?!?/p>