亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Sora:文生視頻模型的突破與啟示

        2024-06-21 03:50:14
        信息化建設(shè) 2024年3期
        關(guān)鍵詞:模態(tài)物理能力

        Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。Sora的視頻生成不僅僅是對(duì)人類語(yǔ)言的理解,而且是人對(duì)AI世界規(guī)律的更深認(rèn)知

        2023年是屬于大語(yǔ)言模型的一年,而2024年,以Sora為首的多模態(tài)大模型,將帶領(lǐng)我們走向超乎想象的遠(yuǎn)方。Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。

        從技術(shù)原理看,Sora模型不是一次全新的底層技術(shù)創(chuàng)新,而是大語(yǔ)言模型技術(shù)的集大成者

        目前,OpenAI沒有公布Sora的訓(xùn)練細(xì)節(jié),只在技術(shù)報(bào)告中提到Transformer(谷歌團(tuán)隊(duì)2017年提出的一種經(jīng)典模型)、擴(kuò)散模型、Patch等,這些都不是新技術(shù)。初步判斷,Sora不是全新的底層大模型,而是建立在OpenAI一系列堅(jiān)實(shí)的技術(shù)沉淀上,包括視覺理解Clip、Transformers模型和ChatGPT、Video Caption(DALL·E3)等,是基于“語(yǔ)言大模型訓(xùn)練思路+模型創(chuàng)新”的一次進(jìn)步。

        深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ),將視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,運(yùn)用帶有Transformer框架擴(kuò)散模型Diffusion,給定輸入的噪聲塊+文本prompt,來預(yù)測(cè)原始的“干凈”分塊,AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。同時(shí),OpenAI引入了視覺領(lǐng)域的Patch,將各種不同尺寸、分辨率、長(zhǎng)寬比、時(shí)長(zhǎng)的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,極大擴(kuò)展了訓(xùn)練樣本的來源和數(shù)量,提升了豐富度。類似語(yǔ)言模型,經(jīng)過大規(guī)模樣本訓(xùn)練后,Sora展現(xiàn)出模擬現(xiàn)實(shí)世界某些屬性的“涌現(xiàn)”能力。同時(shí),根據(jù)用戶喜好,Sora運(yùn)用DALL·E3等“文生圖”應(yīng)用,修改出不同的視頻風(fēng)格。

        Sora可生成分辨率1920×1080的視頻,也可基于靜止圖片創(chuàng)建視頻,使用新素材擴(kuò)展現(xiàn)有素材。比如,用戶給它一張森林圖片,它可以幫你加上鳥、獸、人;給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風(fēng)景。Sora類似語(yǔ)言模型,經(jīng)過大規(guī)模樣本訓(xùn)練后,展現(xiàn)出模擬現(xiàn)實(shí)世界的“涌現(xiàn)”能力。

        從發(fā)展進(jìn)程看,Sora是視頻領(lǐng)域的ChatGPT時(shí)刻

        Sora目的是創(chuàng)建能夠“模擬物理世界”的通用工具,Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x,效果雖然不完美,但證明了這條路的可行性。Sora的視頻生成不僅僅是對(duì)人類語(yǔ)言的理解,而且是人對(duì)AI世界規(guī)律的更深認(rèn)知。

        Sora目的是創(chuàng)建能模擬物理世界的通用工具

        在Sora之前,并不清楚長(zhǎng)期的一致性能否獨(dú)立出現(xiàn),或者它是否需要復(fù)雜的主題驅(qū)動(dòng)生成流水線,甚至是物理模擬器。GPT—4必須隱式地學(xué)會(huì)Python基本知識(shí),才能生成Python代碼,并不是直接存儲(chǔ)符號(hào)化的Python語(yǔ)法知識(shí)。同樣,Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物體運(yùn)動(dòng)等物理規(guī)則,才能精確地模擬視頻像素。

        Sora是通過數(shù)據(jù)學(xué)習(xí)和直觀感受來實(shí)現(xiàn),模擬現(xiàn)實(shí)世界中的人、動(dòng)物和環(huán)境,不需要對(duì)三維空間、物體等有任何特定的人工建模,而純粹由大規(guī)模的數(shù)據(jù)驅(qū)動(dòng)。OpenAI把視頻生成模型稱作“世界模擬器”,認(rèn)為持續(xù)擴(kuò)展視頻模型是一條模擬物理和數(shù)字世界的希望之路。當(dāng)然,Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x,其技術(shù)路徑是否正確,業(yè)界還有不同聲音。

        Sora在生成效果上與之前的技術(shù)拉開了顯著差距

        在視頻時(shí)長(zhǎng)上,以前的視頻生成模型,只能生成固定尺寸、時(shí)長(zhǎng)幾秒鐘的視頻。Sora能生成各種尺寸視頻(最大2048×2048),時(shí)長(zhǎng)達(dá)到60秒。

        在視覺效果上,Sora同樣表現(xiàn)優(yōu)越,視頻中的人物和場(chǎng)景元素能夠在三維空間中保持連貫移動(dòng),并能有效處理短距離和長(zhǎng)距離的依賴關(guān)系。同樣,Sora能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。甚至能模擬出簡(jiǎn)單的影響世界狀態(tài)的行為。

        值得注意的是,Sora的關(guān)注點(diǎn)是創(chuàng)建模擬物理世界的通用工具,并不特別注重畫質(zhì)、細(xì)節(jié),但其視覺效果仍然非常優(yōu)秀。

        從價(jià)值意義看,Sora將重新定義人類與AI的交互關(guān)系

        “真實(shí)”和“虛擬”的界限將變得模糊

        Sora不僅僅是“視頻模型”,而且是“世界模擬器”,是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃中的一步,目的是幫助人們解決需要現(xiàn)實(shí)世界交互的問題。

        憑借以假亂真的視頻生成能力,Sora將為短視頻和游戲行業(yè)帶來新機(jī)遇。同時(shí),傳統(tǒng)影視制作和商業(yè)模式將面臨重塑,可能會(huì)減少對(duì)人類演員、編導(dǎo)等創(chuàng)造性角色的需求。同時(shí),基于AI技術(shù)強(qiáng)大的圖片和視頻生成能力,可能加劇虛假信息的泛濫,因此需要多角度地思考“真實(shí)”與“虛擬”交融帶來的影響。目前,Sora正在進(jìn)行評(píng)估關(guān)鍵領(lǐng)域潛在危害或風(fēng)險(xiǎn)的工作,OpenAI還邀請(qǐng)了一批視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入,屆時(shí)Sora的能力將進(jìn)一步完善。

        人與AI之間的新交互與新關(guān)系

        GPT和Sora的出現(xiàn)徹底變革了人機(jī)交互模式,讓用戶通過直接說話與AI交流,讓自然語(yǔ)言交互成為可能,極大地提高了可操作性。相較于傳統(tǒng)的圖形用戶界面,自然語(yǔ)言是人類最自然的交互方式,幾乎不需要學(xué)習(xí),且交互效率更高。

        新的交互模型會(huì)如何影響組織中的人機(jī)協(xié)同?人類與機(jī)器的關(guān)系將何去何從?技術(shù)進(jìn)步既是挑戰(zhàn)也是機(jī)遇,需要更多地思考如何在AI時(shí)代定位自己,如何將AI技術(shù)為我所用。AI的意義在于讓更多人從簡(jiǎn)單重復(fù)的勞動(dòng)中解脫出來,以更高的效率去創(chuàng)造更大的價(jià)值。當(dāng)自然語(yǔ)言的交互模式極大降低AI技術(shù)的應(yīng)用門檻,任何人都能使用AI輔助自己的工作。

        AI離物理世界更近了一步

        GPT展現(xiàn)了強(qiáng)大的文本處理能力,但主要處理單一模態(tài)數(shù)據(jù),而Sora預(yù)示著多模態(tài)模型在模擬物理世界時(shí)的巨大潛能。當(dāng)然,目前的AI工具精細(xì)度仍然有限,如何高效地與AI溝通,將是未來必須學(xué)習(xí)和具備的技能。OpenAI給出簡(jiǎn)單的指令,如“一個(gè)身穿藍(lán)色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步,在一場(chǎng)冬季風(fēng)暴中”,Sora就能生成一個(gè)非常真實(shí)、流暢的短視頻,而女人膚色、路人等細(xì)節(jié)都不在指令中。

        從體驗(yàn)和娛樂角度看,Sora生成的視頻非常驚艷且有趣,但生成具有科普性或商業(yè)化等專業(yè)性較高的視頻時(shí),仍需要滿足更多內(nèi)容和細(xì)節(jié),一方面用戶須提供盡可能詳細(xì)的指令。另一方面,AI不能完全理解并實(shí)現(xiàn)用戶提出的每一個(gè)指令細(xì)節(jié)。以GPT為例,如果給出一個(gè)較為復(fù)雜的指令,有時(shí)候GPT就會(huì)“自主”忽略指令中的幾個(gè)細(xì)節(jié)要求,甚至似是而非。

        從國(guó)際競(jìng)爭(zhēng)來看,國(guó)內(nèi)企業(yè)與Sora有較大差距,但追趕的技術(shù)路徑清晰

        Sora具備多項(xiàng)創(chuàng)新功能,同業(yè)處于追趕狀態(tài)

        Sora具備多項(xiàng)創(chuàng)新:

        一是Sora可輸出長(zhǎng)達(dá)60秒的一鏡到底的文生視頻,準(zhǔn)確性、多樣性和穩(wěn)定性均有所提升;

        二是多鏡頭切換,Sora可在單個(gè)視頻中設(shè)計(jì)出多個(gè)鏡頭,并在多角度的鏡頭切換中能保持人物、邏輯等一致性;

        三是Sora在理解用戶Prompt(輸入到文生圖模型的文字)的同時(shí),也同步分析該P(yáng)rompt中事物身上的物理規(guī)律,如OpenAI展示的視頻中,汽車在山路上的顛簸、火車車窗上的倒影等鏡頭符合物理規(guī)律,視頻更接近于人類現(xiàn)實(shí)拍攝。

        Sora的技術(shù)路徑具備可復(fù)制性

        Sora所依賴的技術(shù),如Transformer和擴(kuò)散模型、視覺理解模型、語(yǔ)言模型是過去幾年廣泛研究且公開發(fā)表的技術(shù),更多是一種工程上的應(yīng)用和優(yōu)化,國(guó)內(nèi)企業(yè)具備趕超的能力。如國(guó)內(nèi)企業(yè)的擴(kuò)散模型技術(shù)已廣泛應(yīng)用到圖像生成、視頻生成領(lǐng)域;視覺理解領(lǐng)域的零樣本圖像描述、通用視覺問答、文本導(dǎo)向的視覺問答、細(xì)粒度視覺定位等領(lǐng)域能力,整體上已接近GPT—4V,語(yǔ)言模型能力與GPT—4Turbo接近。但如何找到實(shí)現(xiàn)高質(zhì)量文生視頻的工程化方法和路徑,仍需要艱辛的探索和試錯(cuò)。

        Sora之后預(yù)示著大模型需要更多人才、算力和數(shù)據(jù),這將加速AI基礎(chǔ)大模型供給側(cè)收斂的步伐

        業(yè)界一種猜測(cè)是,GPT5具有接收全模態(tài)輸入、產(chǎn)生全模態(tài)輸出的能力,具備對(duì)物理世界的理解和建模能力,這也是Sora需要具備的能力。Sora就是GPT5的一部分,它們共同成長(zhǎng)、演進(jìn)和迭代。從ChatGPT到Sora,大模型為科技公司不斷帶來充滿前景的新賽道,進(jìn)一步驗(yàn)證了基礎(chǔ)大模型產(chǎn)業(yè)是技術(shù)、資本、人才、算力、數(shù)據(jù)高度密集型產(chǎn)業(yè)。

        Sora進(jìn)一步提高了基礎(chǔ)大模型的門檻,這意味著進(jìn)入AI基礎(chǔ)模型的競(jìng)爭(zhēng)賽道,企業(yè)需要做好人才、算力、數(shù)據(jù)和資本長(zhǎng)期高強(qiáng)度投入的準(zhǔn)備,并能構(gòu)建大模型商業(yè)化可行的路徑和商業(yè)模式。這進(jìn)一步加速了AI基礎(chǔ)大模型供給側(cè)收斂的步伐。從目前來看,美國(guó)正在形成以3家AI基礎(chǔ)大模型為主導(dǎo)的市場(chǎng)競(jìng)爭(zhēng)格局。

        2023年中國(guó)涌現(xiàn)了254個(gè)大模型,有人說,中國(guó)迎來了“百模大戰(zhàn)”。事實(shí)上,中國(guó)不存在“百模大戰(zhàn)”,可能連“十模大戰(zhàn)”也不存在。這就像幾百人參加的田徑賽場(chǎng)上,有人擲鐵餅,有人扔標(biāo)槍,有人在跳高,有人跑百米,但能進(jìn)入10項(xiàng)全能的只有3—5個(gè)。未來3—5年,中國(guó)真正能在AI大模型賽道上具備追趕美國(guó)GPT技術(shù)步伐的企業(yè),將是非常有限的。

        (本文由阿里云科技研究中心供稿)

        猜你喜歡
        模態(tài)物理能力
        只因是物理
        井岡教育(2022年2期)2022-10-14 03:11:44
        消防安全四個(gè)能力
        處處留心皆物理
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        你的換位思考能力如何
        三腳插頭上的物理知識(shí)
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        抄能力
        我不是教物理的
        中學(xué)生(2015年2期)2015-03-01 03:43:33
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        久久一区二区三区少妇人妻| 97se亚洲国产综合自在线图片| 亚洲AV无码永久在线观看| 天堂av一区一区一区| 国产乱人精品视频av麻豆网站| 国产午夜福利久久精品| 国产999精品久久久久久| 91亚洲欧洲日产国码精品| 懂色av一区二区三区网久久| 琪琪色原网站在线观看| 成 人 免费 黄 色 视频 | 国产精品九九久久一区hh| 一区二区国产视频在线| 亚洲精品无码久久久久y| 三级特黄60分钟在线观看| 亚洲一区二区三区av链接| 丰满熟女人妻一区二区三区 | √新版天堂资源在线资源| 亚洲熟妇少妇任你躁在线观看| 国产精品亚洲av国产| 熟女人妻在线中文字幕| 国产精品久久人妻无码| 国产日韩欧美在线| 亚洲一区二区三区综合网| 熟女人妻中文字幕av| 亚洲男人的天堂在线aⅴ视频| 精品久久综合一区二区| 99久久婷婷国产精品综合网站| 亚洲av高清在线观看一区二区| 亚洲av久久无码精品九九| 久久精品综合国产二区| 99在线视频这里只有精品伊人| 99久久免费国产精品 | 白白青青视频在线免费观看| 激情五月开心五月麻豆| 护士人妻hd中文字幕| 91精品国产免费久久久久久青草| 人妻体体内射精一区中文字幕 | 国产两女互慰高潮视频在线观看 | 亚洲熟女熟妇另类中文| 日韩精品极品视频在线观看免费 |