亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Sora：文生視頻模型的突破與啟示

2024-06-21 03:50:14

信息化建設(shè) 2024年3期

Sora是OpenAI繼文字、圖像之后，在內(nèi)容生成領(lǐng)域的又一創(chuàng)新，強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。Sora的視頻生成不僅僅是對(duì)人類語(yǔ)言的理解，而且是人對(duì)AI世界規(guī)律的更深認(rèn)知

2023年是屬于大語(yǔ)言模型的一年，而2024年，以Sora為首的多模態(tài)大模型，將帶領(lǐng)我們走向超乎想象的遠(yuǎn)方。Sora是OpenAI繼文字、圖像之后，在內(nèi)容生成領(lǐng)域的又一創(chuàng)新，強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。

從技術(shù)原理看，Sora模型不是一次全新的底層技術(shù)創(chuàng)新，而是大語(yǔ)言模型技術(shù)的集大成者

目前，OpenAI沒有公布Sora的訓(xùn)練細(xì)節(jié)，只在技術(shù)報(bào)告中提到Transformer（谷歌團(tuán)隊(duì)2017年提出的一種經(jīng)典模型）、擴(kuò)散模型、Patch等，這些都不是新技術(shù)。初步判斷，Sora不是全新的底層大模型，而是建立在OpenAI一系列堅(jiān)實(shí)的技術(shù)沉淀上，包括視覺理解Clip、Transformers模型和ChatGPT、Video Caption（DALL·E3）等，是基于“語(yǔ)言大模型訓(xùn)練思路＋模型創(chuàng)新”的一次進(jìn)步。

深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ)，將視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式，運(yùn)用帶有Transformer框架擴(kuò)散模型Diffusion，給定輸入的噪聲塊＋文本prompt，來預(yù)測(cè)原始的“干凈”分塊，AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。同時(shí)，OpenAI引入了視覺領(lǐng)域的Patch，將各種不同尺寸、分辨率、長(zhǎng)寬比、時(shí)長(zhǎng)的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式，極大擴(kuò)展了訓(xùn)練樣本的來源和數(shù)量，提升了豐富度。類似語(yǔ)言模型，經(jīng)過大規(guī)模樣本訓(xùn)練后，Sora展現(xiàn)出模擬現(xiàn)實(shí)世界某些屬性的“涌現(xiàn)”能力。同時(shí)，根據(jù)用戶喜好，Sora運(yùn)用DALL·E3等“文生圖”應(yīng)用，修改出不同的視頻風(fēng)格。

Sora可生成分辨率1920×1080的視頻，也可基于靜止圖片創(chuàng)建視頻，使用新素材擴(kuò)展現(xiàn)有素材。比如，用戶給它一張森林圖片，它可以幫你加上鳥、獸、人；給它一張汽車行駛圖，它能加上道路、交通燈、沿途建筑物和風(fēng)景。Sora類似語(yǔ)言模型，經(jīng)過大規(guī)模樣本訓(xùn)練后，展現(xiàn)出模擬現(xiàn)實(shí)世界的“涌現(xiàn)”能力。

從發(fā)展進(jìn)程看，Sora是視頻領(lǐng)域的ChatGPT時(shí)刻

Sora目的是創(chuàng)建能夠“模擬物理世界”的通用工具，Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x，效果雖然不完美，但證明了這條路的可行性。Sora的視頻生成不僅僅是對(duì)人類語(yǔ)言的理解，而且是人對(duì)AI世界規(guī)律的更深認(rèn)知。

Sora目的是創(chuàng)建能模擬物理世界的通用工具

在Sora之前，并不清楚長(zhǎng)期的一致性能否獨(dú)立出現(xiàn)，或者它是否需要復(fù)雜的主題驅(qū)動(dòng)生成流水線，甚至是物理模擬器。GPT—4必須隱式地學(xué)會(huì)Python基本知識(shí)，才能生成Python代碼，并不是直接存儲(chǔ)符號(hào)化的Python語(yǔ)法知識(shí)。同樣，Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物體運(yùn)動(dòng)等物理規(guī)則，才能精確地模擬視頻像素。

Sora是通過數(shù)據(jù)學(xué)習(xí)和直觀感受來實(shí)現(xiàn)，模擬現(xiàn)實(shí)世界中的人、動(dòng)物和環(huán)境，不需要對(duì)三維空間、物體等有任何特定的人工建模，而純粹由大規(guī)模的數(shù)據(jù)驅(qū)動(dòng)。OpenAI把視頻生成模型稱作“世界模擬器”，認(rèn)為持續(xù)擴(kuò)展視頻模型是一條模擬物理和數(shù)字世界的希望之路。當(dāng)然，Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x，其技術(shù)路徑是否正確，業(yè)界還有不同聲音。

Sora在生成效果上與之前的技術(shù)拉開了顯著差距

在視頻時(shí)長(zhǎng)上，以前的視頻生成模型，只能生成固定尺寸、時(shí)長(zhǎng)幾秒鐘的視頻。Sora能生成各種尺寸視頻（最大2048×2048），時(shí)長(zhǎng)達(dá)到60秒。

在視覺效果上，Sora同樣表現(xiàn)優(yōu)越，視頻中的人物和場(chǎng)景元素能夠在三維空間中保持連貫移動(dòng)，并能有效處理短距離和長(zhǎng)距離的依賴關(guān)系。同樣，Sora能在同一視頻樣本中多次展示同一角色，確保其外觀貫穿始終。甚至能模擬出簡(jiǎn)單的影響世界狀態(tài)的行為。

值得注意的是，Sora的關(guān)注點(diǎn)是創(chuàng)建模擬物理世界的通用工具，并不特別注重畫質(zhì)、細(xì)節(jié)，但其視覺效果仍然非常優(yōu)秀。

從價(jià)值意義看，Sora將重新定義人類與AI的交互關(guān)系

“真實(shí)”和“虛擬”的界限將變得模糊

Sora不僅僅是“視頻模型”，而且是“世界模擬器”，是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃中的一步，目的是幫助人們解決需要現(xiàn)實(shí)世界交互的問題。

憑借以假亂真的視頻生成能力，Sora將為短視頻和游戲行業(yè)帶來新機(jī)遇。同時(shí)，傳統(tǒng)影視制作和商業(yè)模式將面臨重塑，可能會(huì)減少對(duì)人類演員、編導(dǎo)等創(chuàng)造性角色的需求。同時(shí)，基于AI技術(shù)強(qiáng)大的圖片和視頻生成能力，可能加劇虛假信息的泛濫，因此需要多角度地思考“真實(shí)”與“虛擬”交融帶來的影響。目前，Sora正在進(jìn)行評(píng)估關(guān)鍵領(lǐng)域潛在危害或風(fēng)險(xiǎn)的工作，OpenAI還邀請(qǐng)了一批視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入，屆時(shí)Sora的能力將進(jìn)一步完善。

人與AI之間的新交互與新關(guān)系

GPT和Sora的出現(xiàn)徹底變革了人機(jī)交互模式，讓用戶通過直接說話與AI交流，讓自然語(yǔ)言交互成為可能，極大地提高了可操作性。相較于傳統(tǒng)的圖形用戶界面，自然語(yǔ)言是人類最自然的交互方式，幾乎不需要學(xué)習(xí)，且交互效率更高。

新的交互模型會(huì)如何影響組織中的人機(jī)協(xié)同？人類與機(jī)器的關(guān)系將何去何從？技術(shù)進(jìn)步既是挑戰(zhàn)也是機(jī)遇，需要更多地思考如何在AI時(shí)代定位自己，如何將AI技術(shù)為我所用。AI的意義在于讓更多人從簡(jiǎn)單重復(fù)的勞動(dòng)中解脫出來，以更高的效率去創(chuàng)造更大的價(jià)值。當(dāng)自然語(yǔ)言的交互模式極大降低AI技術(shù)的應(yīng)用門檻，任何人都能使用AI輔助自己的工作。

AI離物理世界更近了一步

GPT展現(xiàn)了強(qiáng)大的文本處理能力，但主要處理單一模態(tài)數(shù)據(jù)，而Sora預(yù)示著多模態(tài)模型在模擬物理世界時(shí)的巨大潛能。當(dāng)然，目前的AI工具精細(xì)度仍然有限，如何高效地與AI溝通，將是未來必須學(xué)習(xí)和具備的技能。OpenAI給出簡(jiǎn)單的指令，如“一個(gè)身穿藍(lán)色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步，在一場(chǎng)冬季風(fēng)暴中”，Sora就能生成一個(gè)非常真實(shí)、流暢的短視頻，而女人膚色、路人等細(xì)節(jié)都不在指令中。

從體驗(yàn)和娛樂角度看，Sora生成的視頻非常驚艷且有趣，但生成具有科普性或商業(yè)化等專業(yè)性較高的視頻時(shí)，仍需要滿足更多內(nèi)容和細(xì)節(jié)，一方面用戶須提供盡可能詳細(xì)的指令。另一方面，AI不能完全理解并實(shí)現(xiàn)用戶提出的每一個(gè)指令細(xì)節(jié)。以GPT為例，如果給出一個(gè)較為復(fù)雜的指令，有時(shí)候GPT就會(huì)“自主”忽略指令中的幾個(gè)細(xì)節(jié)要求，甚至似是而非。

從國(guó)際競(jìng)爭(zhēng)來看，國(guó)內(nèi)企業(yè)與Sora有較大差距，但追趕的技術(shù)路徑清晰

Sora具備多項(xiàng)創(chuàng)新功能，同業(yè)處于追趕狀態(tài)

Sora具備多項(xiàng)創(chuàng)新：

一是Sora可輸出長(zhǎng)達(dá)60秒的一鏡到底的文生視頻，準(zhǔn)確性、多樣性和穩(wěn)定性均有所提升；

二是多鏡頭切換，Sora可在單個(gè)視頻中設(shè)計(jì)出多個(gè)鏡頭，并在多角度的鏡頭切換中能保持人物、邏輯等一致性；

三是Sora在理解用戶Prompt（輸入到文生圖模型的文字）的同時(shí)，也同步分析該P(yáng)rompt中事物身上的物理規(guī)律，如OpenAI展示的視頻中，汽車在山路上的顛簸、火車車窗上的倒影等鏡頭符合物理規(guī)律，視頻更接近于人類現(xiàn)實(shí)拍攝。

Sora的技術(shù)路徑具備可復(fù)制性

Sora所依賴的技術(shù)，如Transformer和擴(kuò)散模型、視覺理解模型、語(yǔ)言模型是過去幾年廣泛研究且公開發(fā)表的技術(shù)，更多是一種工程上的應(yīng)用和優(yōu)化，國(guó)內(nèi)企業(yè)具備趕超的能力。如國(guó)內(nèi)企業(yè)的擴(kuò)散模型技術(shù)已廣泛應(yīng)用到圖像生成、視頻生成領(lǐng)域；視覺理解領(lǐng)域的零樣本圖像描述、通用視覺問答、文本導(dǎo)向的視覺問答、細(xì)粒度視覺定位等領(lǐng)域能力，整體上已接近GPT—4V，語(yǔ)言模型能力與GPT—4Turbo接近。但如何找到實(shí)現(xiàn)高質(zhì)量文生視頻的工程化方法和路徑，仍需要艱辛的探索和試錯(cuò)。

Sora之后預(yù)示著大模型需要更多人才、算力和數(shù)據(jù)，這將加速AI基礎(chǔ)大模型供給側(cè)收斂的步伐

業(yè)界一種猜測(cè)是，GPT5具有接收全模態(tài)輸入、產(chǎn)生全模態(tài)輸出的能力，具備對(duì)物理世界的理解和建模能力，這也是Sora需要具備的能力。Sora就是GPT5的一部分，它們共同成長(zhǎng)、演進(jìn)和迭代。從ChatGPT到Sora，大模型為科技公司不斷帶來充滿前景的新賽道，進(jìn)一步驗(yàn)證了基礎(chǔ)大模型產(chǎn)業(yè)是技術(shù)、資本、人才、算力、數(shù)據(jù)高度密集型產(chǎn)業(yè)。

Sora進(jìn)一步提高了基礎(chǔ)大模型的門檻，這意味著進(jìn)入AI基礎(chǔ)模型的競(jìng)爭(zhēng)賽道，企業(yè)需要做好人才、算力、數(shù)據(jù)和資本長(zhǎng)期高強(qiáng)度投入的準(zhǔn)備，并能構(gòu)建大模型商業(yè)化可行的路徑和商業(yè)模式。這進(jìn)一步加速了AI基礎(chǔ)大模型供給側(cè)收斂的步伐。從目前來看，美國(guó)正在形成以3家AI基礎(chǔ)大模型為主導(dǎo)的市場(chǎng)競(jìng)爭(zhēng)格局。

2023年中國(guó)涌現(xiàn)了254個(gè)大模型，有人說，中國(guó)迎來了“百模大戰(zhàn)”。事實(shí)上，中國(guó)不存在“百模大戰(zhàn)”，可能連“十模大戰(zhàn)”也不存在。這就像幾百人參加的田徑賽場(chǎng)上，有人擲鐵餅，有人扔標(biāo)槍，有人在跳高，有人跑百米，但能進(jìn)入10項(xiàng)全能的只有3—5個(gè)。未來3—5年，中國(guó)真正能在AI大模型賽道上具備追趕美國(guó)GPT技術(shù)步伐的企業(yè)，將是非常有限的。

（本文由阿里云科技研究中心供稿）