姜奇平
2024年2月15日,OpenAI正式發(fā)布的AI視頻生成模型Sora吸引了全球大眾與媒體的目光。屏幕上,一位時尚女士走過雨后的街頭,地面的積水倒映出街頭廣告的斑斕色彩,并隨鏡頭推近不時變幻。這不是真實(shí)的攝像,而是由Sora生成的一段以假亂真的視頻。OpenAI自己并不認(rèn)為Sora只是視頻模型,而稱之為“世界模擬器”。Sora的問世,改變了世人“眼見為實(shí)”的定見,變成把人們心中所想用AI變成虛擬的現(xiàn)象。Sora是技術(shù)邁出的一大步和人類邁出的一小步。
Sora是一個由不同時長、分辨率和寬高比的視頻及圖像訓(xùn)練而成的擴(kuò)散模型,同時采用了Transformer架構(gòu),可以根據(jù)用戶的文本提示(prompt)創(chuàng)建一分鐘的高清視頻。該模型可以通過理解仿真物體在物理世界中的存在方式,為模型提供多幀的預(yù)測,深度模擬真實(shí)物理世界,能生成具有多個角色、包含特定運(yùn)動的復(fù)雜場景。
Sora在一些專家和投資界看來,是技術(shù)發(fā)展的一大步。有專家認(rèn)為這一數(shù)據(jù)驅(qū)動的物理引擎,堪比視頻生成領(lǐng)域的GPT-3。對于Sora即將引領(lǐng)的新技術(shù)潮流來說,OpenAI首席執(zhí)行官山姆·奧特曼認(rèn)為,人工智能有望在推理能力和可靠性、多模態(tài)、可定制化和個性化三個領(lǐng)域大幅提升。
但對于人類對智能的探索來說,Sora仍只是一小步。因?yàn)檫@更像是量變,而非質(zhì)變。
首先,Sora是算力增強(qiáng)的結(jié)果,而非算法的飛躍。按照傳媒學(xué)原理,同面積的圖像與文字相比,信息量要大9倍,因?yàn)槠渲须[含了大量感性的非語言信息。這就是所謂“一幅圖勝過千言萬語”。如此看來,計算圖像要比計算語言需要成倍的算力。反過來說,算力增強(qiáng),也必然會帶來圖像計算能力提高。據(jù)紐約大學(xué)助理教授謝賽寧推算,Sora可能有大約30億個參數(shù)。在現(xiàn)有算法下,算力突破帶來圖像處理能力提高,有其順理成章之處。事實(shí)上,天氣預(yù)報云圖預(yù)測,也需要大量算力,只是不如計算一段時尚女性的視頻更吸引眼球。
其次,算法還是已有技術(shù)的常規(guī)性、累積性的進(jìn)步。Sora處理視頻數(shù)據(jù),還是傳統(tǒng)物理范式下的還原法,通過分解最小粒子還原圖像。OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元Patches(補(bǔ)片),每個patches相當(dāng)于GPT中的一個token(詞元);Sora在讓語言“理解”圖像上,還是采取標(biāo)注技術(shù)(DALL·E 3),把對圖像的理解,簡化為對語言的理解,遵循用戶的文本指令生成視頻。
至于靜態(tài)圖像轉(zhuǎn)化成視頻,擴(kuò)展現(xiàn)有視頻或補(bǔ)全缺失的幀,還是在已有技術(shù)基礎(chǔ)上發(fā)展起來的。Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系,可能難以精確描述隨著時間推移發(fā)生的事件,這些都有待更進(jìn)一步的技術(shù)突破。
當(dāng)然,即使是這樣的一小步,也會對人們的生活產(chǎn)生巨大的影響。誠如有專家所說:“在AI視頻構(gòu)建的世界中,‘眼見為實(shí)行不通了,眼睛看到的東西或許無法作為判斷依據(jù)?!睂砣藗冊诰W(wǎng)上看到一個聲稱“真人真事”的夸張影像時,恐怕要先問一句,這不是合成的吧?好處也會有許多,例如,一個人不可能走遍天下,歷盡美景,這時只要把YouTube和TikTok上的景區(qū)視頻都當(dāng)作語料訓(xùn)練一遍,就可以親臨其境一樣置身其中。周鴻祎說:“Sora工作原理像人做夢。”在眼見為實(shí)失效后,說不定夢想成真倒會變?yōu)楝F(xiàn)實(shí)。