AI,再一次刷屏。人工智能新銳OpenAI發(fā)布的文生視頻大模型Sora,為大家貢獻(xiàn)了一場“熱辣滾燙”的視覺盛宴:喜迎龍年春節(jié),追逐舞龍隊伍的男女老幼喜氣洋洋;雨后東京街頭,一位時髦女士穿梭在霓虹閃耀的街道上……只要輸入相應(yīng)的提示文字,Sora就可以“一秒”生成長達(dá)一分鐘的相關(guān)視頻,既能實現(xiàn)多角度鏡頭的自然切換,還能創(chuàng)造復(fù)雜的場景和生動的角色表情。
面對Sora的橫空出世,人們不禁感慨“太驚艷了”“太炸裂了”“這怎么可能”;同時,視頻模糊了虛擬和現(xiàn)實世界的界限,讓人心生“眼見未必為實”的擔(dān)憂。
從文生文、文生圖到文生視頻,從ChatGPT、Dall-E到Sora,生成式AI跨越壁壘、一路狂飆,向人們展示了人工智能時代超越邊界的想象力和爆發(fā)力。
有人說,新世界的圖景正在慢慢浮現(xiàn)。這會是一個怎樣的新世界?
“凡我不能創(chuàng)造的,證明我沒有理解?!?/p>
Sora的橫空出世讓業(yè)界一時沸騰。特斯拉CEO埃隆·馬斯克感嘆,Sora讓“人類愿賭服輸”。360創(chuàng)始人周鴻祎則認(rèn)為,Sora的誕生意味著AGI(通用人工智能)的實現(xiàn)可能從十年縮短至一兩年。
AI從未停止給人類帶來驚喜。1997年,超級計算機(jī)“深藍(lán)”戰(zhàn)勝了當(dāng)時世界排名第一的國際象棋大師卡斯帕羅夫,全球轟動。2016年,“阿爾法狗”(Alpha Go)在與韓國棋手李世石的對弈中獲勝,這場“人機(jī)大戰(zhàn)”成為人工智能史上一座新的里程碑。
AI從未停止進(jìn)化。從2022年大熱的文生文模型ChatGPT到文生視頻模型Sora,生成式AI已經(jīng)成為人工智能領(lǐng)域的新趨勢。什么是生成式AI?簡單來說,生成式AI是一種可以自主產(chǎn)生文字、圖像、音樂、視頻等多種形式的人工智能,它可以模仿甚至超越人類的創(chuàng)造力和想象力。
“凡我不能創(chuàng)造的,證明我沒有理解?!蔽锢韺W(xué)家理查德·費(fèi)曼曾這樣說。而對生成式人工智能而言,則是因為理解,所以創(chuàng)造。比如,ChatGPT是通過人類的語言來理解世界,首先基于自然語言處理技術(shù)和神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)和理解人類語言的語法和語義,然后再生成具有連貫性和邏輯性的自然語言文本。Sora則是通過視頻、圖片等多模態(tài)數(shù)據(jù)來理解和重新建構(gòu)世界。
Sora是目前生成式AI的集大成者。如果將當(dāng)前的生成式AI比作一棵樹,那么,大語言模型就是樹的主干,文生圖模型是主干延伸出的枝葉和花朵,而文生視頻模型則是汲取了各個部位(不同類型數(shù)據(jù))的養(yǎng)分后,結(jié)出的最復(fù)雜的果實。
可以說,Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它可以將人們的想象力轉(zhuǎn)化為生動的動態(tài)畫面,將文字轉(zhuǎn)化為視覺盛宴。
從“讀萬卷書”到“行萬里路”
Sora的驚艷之處不僅是生成視頻的能力,更在于對真實物理世界的理解和重新建構(gòu)。OpenAI認(rèn)為,Sora是理解和模擬物理世界的模型基礎(chǔ)。
簡單來說,ChatGPT這類語言模型是從語言大數(shù)據(jù)中學(xué)習(xí),實際上就是模擬一個充滿人類思維和認(rèn)知映射的虛擬世界,是虛擬思維世界的“模擬器”;而Sora則是在真實地理解、反映物理世界,是現(xiàn)實物理世界的“模擬器”。
有人調(diào)侃說,Sora似乎是懂一些“物理”的。以Sora生成的“海盜船在咖啡杯中纏斗”視頻為例。為了讓生成效果更加逼真,Sora需要理解和模擬液體動力學(xué)效果,包括波浪和船只移動時液體的流動;還需要精確模擬光線,包括咖啡的反光、船只的陰影,以及可能的透光效果。只有精準(zhǔn)地理解和模擬現(xiàn)實世界的光影關(guān)系、物理遮擋和碰撞關(guān)系,生成的畫面才能真實、生動。
“一直以來,我認(rèn)為GPT是一個困在數(shù)字世界的‘囚徒,它不能真實地感受、理解和反映物理世界。但是,從ChatGPT到Sora,反映了大模型真實理解、反映和模擬物理世界的巨大能力?!北本┲窃慈斯ぶ悄苎芯吭焊痹洪L兼總工程師林詠華認(rèn)為,Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現(xiàn)通用人工智能邁出的重要一步。
從ChatGPT到Sora,從虛擬思維世界的“模擬器”到現(xiàn)實物理世界的“模擬器”,有人將這個跨越形象地比喻為“從讀萬卷書到行萬里路”。Sora跨出的這“一小步”,實際上是人工智能發(fā)展的“一大步”。
Sora打開的新世界
善用工具,一直以來都是人類的天性,也是人類不斷進(jìn)化的標(biāo)志。從火種到石器,從蒸汽機(jī)到電力技術(shù),再到人工智能,新技術(shù)打開的世界賦予我們無限可能。
改變影視行業(yè)的創(chuàng)作方式。原先動畫影視公司為讓動物的數(shù)百萬根毛發(fā)、皮膚紋理、衣物等細(xì)節(jié)更加真實,需要投入不菲的成本和時間。而如今,Sora只需要一行描述、幾次提示便能自動完成。Sora將極大降低視頻制作的門檻和成本,“人人都是導(dǎo)演”的時代即將來臨,這將對影視、廣告、游戲、教育等諸多行業(yè)產(chǎn)生深遠(yuǎn)影響。
提升新聞傳播的時效性。在新聞傳播領(lǐng)域,Sora的實時視頻生成能力將使新聞報道更加迅速、直觀,還可以生成視頻深度報道、評論、摘要等產(chǎn)品,助力傳媒業(yè)降本增效,提高新聞傳播的效率和質(zhì)量。
構(gòu)建可視化科學(xué)實驗?zāi)P?。Sora是根據(jù)現(xiàn)實物理規(guī)則建立的模型,也就是說能在一定程度上模擬現(xiàn)實物理現(xiàn)象。比如,在物理學(xué)、化學(xué)、生物學(xué)等領(lǐng)域,科研人員可以利用Sora創(chuàng)建復(fù)雜的動態(tài)模擬,呈現(xiàn)難以在實驗室條件下實現(xiàn)或觀察的過程,讓科學(xué)實驗虛擬化、可視化。
近幾年,隨著生成式人工智能賦能多業(yè)態(tài)應(yīng)用的加速落地,整個AI行業(yè)的熱潮,已經(jīng)逐漸從文生文、文生圖,轉(zhuǎn)向了文生視頻領(lǐng)域。國內(nèi)字節(jié)跳動、阿里、百度等科技大廠均已“跑步入場”,字節(jié)跳動推出了文生視頻模型PixelDance,阿里上線了Animate Anyone模型,百度文心大模型的類似功能也在內(nèi)測中。
作為一種全新的內(nèi)容生成工具,Sora將在游戲、營銷廣告和教育等行業(yè)大顯身手,涌現(xiàn)新模式,打開新世界。
如何應(yīng)對“AI焦慮”
自人工智能大模型展現(xiàn)出超預(yù)期的強(qiáng)大智能,外界對AI戰(zhàn)勝人腦、挑戰(zhàn)人類的擔(dān)心就一發(fā)不可收拾。此次Sora發(fā)布后,有評論認(rèn)為“碳基生物將見證一個嶄新的硅基物種的誕生”。還有不少人調(diào)侃,自己患上了“AI恐懼癥”。
“以前不相信是真的,現(xiàn)在不相信是假的?!毖垡娢幢貫閷崳琒ora生成的視頻產(chǎn)品真假難辨,可能讓偽造和欺騙變得更簡單。比如,一些美國公眾就接到過“深度偽造”的美國總統(tǒng)拜登的電話。
“AI什么都會,還要人類干什么?”Sora不僅是出色的攝影師,還是出色的視頻剪輯師。因此,不少人擔(dān)心Sora將可能對攝影行業(yè)和剪輯行業(yè)造成沖擊,引起部分行業(yè)的失業(yè)潮。與此同時,人工智能生成作品的著作權(quán)問題也面臨新的爭論。
生成式人工智能還將帶來一系列倫理挑戰(zhàn),比如算法偏見與公平性。生成式人工智能的輸出可能受到算法設(shè)計者和訓(xùn)練數(shù)據(jù)的影響,導(dǎo)致生成的內(nèi)容存在偏見或不公平。
“AI焦慮”,如何應(yīng)對?就像馬車夫無法阻止汽車的普及,打字員也永遠(yuǎn)無法阻止個人電腦的普及。技術(shù)的進(jìn)步不以人的意志為轉(zhuǎn)移,善用技術(shù)的人才能在競爭中脫穎而出。
人工智能的時代浪潮奔涌向前,Sora的未來還有無限可能。我們既要熱情擁抱新技術(shù),也要審慎看待警惕新風(fēng)險。平衡之中,方顯理性之光,面對突飛猛進(jìn)的AI技術(shù),這才是人類應(yīng)有的智慧。
(摘自《青島宣傳》王偉、畢龍翔)