亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Sora開啟文生視頻新世代?

        2024-03-24 07:09:16楊智杰
        中國新聞周刊 2024年7期
        關(guān)鍵詞:王帥文字社交

        楊智杰

        Sora生成的視頻截圖。提示文字:“一位時(shí)尚女性走在東京的街道上,街道上到處是溫暖的霓虹燈和動(dòng)畫城市標(biāo)志……”

        兩只金毛犬在山頂上錄制播客,會(huì)是一個(gè)怎樣的場景?

        北京時(shí)間2月16日,網(wǎng)友在社交媒體上寫下對(duì)AI模型Sora的這一文字提示,OpenAI首席執(zhí)行官山姆·奧特曼將其輸入Sora,生成了一個(gè)10秒的高清視頻,并將其發(fā)布在社交平臺(tái)。畫面中,兩只金毛犬頭戴耳機(jī),面前立著兩個(gè)話筒,放松地蹲坐在山間一塊紅白相間的野餐布上。金毛犬的毛發(fā)光澤、周圍的山頂環(huán)境非常逼真,幾乎和電視紀(jì)錄片別無二致。

        繼AI生成文字和圖片后,OpenAI正式涉足視頻生成領(lǐng)域。北京時(shí)間2月16日凌晨,OpenAI發(fā)布首個(gè)AI 文字生成視頻模型Sora,使用者只需用文字描述一個(gè)場景,Sora便可生成一個(gè)時(shí)長最高可達(dá)1分鐘的視頻。OpenAI僅在官網(wǎng)發(fā)布數(shù)十個(gè)Sora視頻,目前,該功能尚未向公眾開放,僅面向安全人員,還將向特定藝術(shù)家、設(shè)計(jì)師提供訪問權(quán)限。但Sora視頻對(duì)文字提示的超高還原,迅速引爆網(wǎng)絡(luò)。有網(wǎng)友感慨,“Sora要革影視行業(yè)的命”“它將把視頻內(nèi)容帶入‘零基礎(chǔ)創(chuàng)作時(shí)代”。

        英偉達(dá)的工程師王帥在Sora發(fā)布后驚嘆,這是“又一個(gè)ChatGPT 時(shí)刻”。他在接受《中國新聞周刊》采訪時(shí)提到,Sora顯著提高了AI文字生成視頻的能力上限,這無疑是業(yè)內(nèi)共識(shí)。但Sora的產(chǎn)品和商業(yè)化路徑是什么,如何產(chǎn)生價(jià)值,目前業(yè)內(nèi)仍有分歧?!凹夹g(shù)能力提高,并不意味著它能解決所有問題,幫好萊塢導(dǎo)演直接拍電影,不需要攝像,還遠(yuǎn)沒有到那一步。”

        Sora效果為何遠(yuǎn)超其他模型?

        即使不關(guān)注大模型技術(shù)的人,也會(huì)注意到社交網(wǎng)絡(luò)上這一廣為流傳的59秒視頻:一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人,漫步在東京街頭,鏡頭流暢地推到了她的臉部,你可以清晰地看到她臉上的雀斑和皮膚紋理。這個(gè)一鏡到底的視頻不需要人來拍攝和剪輯,只要把一段描述輸入Sora后即可由AI直接生成。

        1分鐘的視頻并不長,但對(duì)于AI文字生成視頻可以算是巨大飛躍。過去一年多來,ChatGPT、Midjourney等現(xiàn)象級(jí)爆款應(yīng)用橫空出世,AI 生成文字、生成圖片技術(shù)的飛速發(fā)展讓人興奮,相比之下,AI生成視頻領(lǐng)域雖有Runway、Pika 、Meta、谷歌等多個(gè)明星公司入局,但因技術(shù)難度更大,發(fā)展仍處于早期。2023年12月,谷歌團(tuán)隊(duì)發(fā)布視頻生成模型VideoPoet,一次能生成10秒超長、連貫大動(dòng)作的視頻,超過其他智能生成3~4秒的模型,已足以讓業(yè)內(nèi)振奮。

        清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)首席研究員聶再清向《中國新聞周刊》解釋,在此之前,文字生成視頻的時(shí)長短,一大原因在于,AI不知道接下來要發(fā)生什么,因而不知道該生成怎樣的內(nèi)容。

        Sora的視頻更長,觀眾也明顯感受到其更加符合邏輯,因?yàn)樗欢ǔ潭壬稀罢宫F(xiàn)”了對(duì)現(xiàn)實(shí)世界的理解能力。在OpenAI公開發(fā)布的一個(gè)視頻中,復(fù)古SUV在陡峭的山路上行駛,車身自然顛簸,輪胎揚(yáng)起灰塵。OpenAI將這一能力稱為“世界模型的雛形”。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan也在社交平臺(tái)感嘆,Sora并不只是創(chuàng)意玩具,而是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,可以對(duì)真實(shí)或虛擬世界進(jìn)行模擬。

        聶再清介紹說,世界模型可以簡單理解為,AI對(duì)真實(shí)世界建模,能還原對(duì)現(xiàn)實(shí)世界中人和物的理解,“比如拿一個(gè)紙杯,AI‘知道很輕,如果這個(gè)杯子是鐵做的,它會(huì)很重,如果一個(gè)人開車逆行,其他車輛會(huì)嚇得減速或避讓”。

        Sora能做到準(zhǔn)確理解文字含義,并呈現(xiàn)逼真的畫面,在于和ChatGPT一樣的邏輯,即“大力出奇跡”。聶再清提到,此前,文字生成視頻的挑戰(zhàn)在于,用于練習(xí)模型的視頻,需要將分辨率、長寬比、時(shí)長等調(diào)整為統(tǒng)一格式,便捷性不夠。Sora提出用時(shí)空視覺patch(補(bǔ)?。⒉煌囊曨l數(shù)據(jù)轉(zhuǎn)化成統(tǒng)一的視覺數(shù)據(jù)表示,patch即相當(dāng)于訓(xùn)練ChatGPT過程中用到的token(文本的最小單元),每個(gè)視頻不用修改格式,而是先壓縮,提取時(shí)間和空間節(jié)點(diǎn)的數(shù)據(jù),直接輸入模型學(xué)習(xí)。OpenAI官方介紹,Sora可以采樣寬屏1920×1080p、垂直1080×1920p以及介于兩者間的所有視頻。采樣更加靈活,視頻的數(shù)據(jù)量也會(huì)增加。

        此外,訓(xùn)練文本生成視頻,需要大量帶有字幕的視頻數(shù)據(jù)。OpenAI利用了DALL·E 3和GPT模型,為訓(xùn)練的視頻集中生成字幕,可以提高文本保真度以及視頻的整體質(zhì)量。

        但在王帥看來,模型技術(shù)實(shí)際上是個(gè)公開的秘密,Sora的能力之所以如此驚艷,更關(guān)鍵的是OpenAI喂給模型的數(shù)據(jù),“他們到底用了多大規(guī)模的數(shù)據(jù),數(shù)據(jù)如何選擇,這些在OpenAI的報(bào)告中只是點(diǎn)到為止,幾乎沒有任何細(xì)節(jié),但只有業(yè)內(nèi)人士知道,這才是關(guān)鍵”。

        紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧是機(jī)器學(xué)習(xí)領(lǐng)域知名學(xué)者,他是擴(kuò)散模型(diffusion)一篇重要論文的主要作者之一。Sora便是一個(gè)擴(kuò)散模型,同時(shí)結(jié)合了ChatGPT使用的底層模式Transformer,在視覺領(lǐng)域?qū)崿F(xiàn)突破。謝賽寧在社交媒體上也直言,OpenAI完全沒有談?wù)摂?shù)據(jù)來源和構(gòu)建,這可能暗示數(shù)據(jù)才是Sora成功最關(guān)鍵的因素。他猜測,OpenAI可能用到了游戲引擎數(shù)據(jù),以及電影、紀(jì)錄片、電影長鏡頭等,數(shù)據(jù)的質(zhì)量非常重要。

        Sora根據(jù)提示文字:“兩只金毛犬在山頂錄制播客”生成的視頻截圖。

        Sora仍存在明顯弱點(diǎn)

        “你可以準(zhǔn)確地畫出你的想法,然后將其變?yōu)楝F(xiàn)實(shí)。”正如參與設(shè)計(jì)Sora的OpenAI工程師蒂姆·布魯克斯所言,Sora降低了視頻制作的技術(shù)門檻,但對(duì)于講故事能力的要求有所提高。人們不免擔(dān)憂,Sora的出現(xiàn),對(duì)于好萊塢電影工業(yè)會(huì)產(chǎn)生重大影響,導(dǎo)演、攝像、化妝、道具、剪輯、配音等一大批從業(yè)人員或?qū)⑹I(yè)。

        一位不愿具名的AI產(chǎn)業(yè)研究者在接受《中國新聞周刊》采訪時(shí)提到,生成視頻工具不等于會(huì)講故事的導(dǎo)演、編劇,就像印刷術(shù)不能替代李白、杜甫,所以視頻的大規(guī)模生成,只是顯著降低批量生產(chǎn)的門檻與成本,視頻作品的創(chuàng)意性、故事性、藝術(shù)性,將在更加海量的作品競爭中要求越來越高。

        現(xiàn)階段,Sora仍存在明顯的弱點(diǎn)。在社交媒體上,蒂姆·布魯克斯根據(jù)提示語“人們?cè)诤┓潘?,然后一條鯊魚從水中跳了出來,讓所有人大吃一驚”,發(fā)布了由Sora生成的視頻。視頻中,一位女性看到鯊魚后扭頭求救,但因扭頭角度過大,被網(wǎng)友戲謔是“做了驅(qū)魔人式的180度旋轉(zhuǎn)”。OpenAI也公開承認(rèn)Sora當(dāng)前的局限性,它不能時(shí)刻準(zhǔn)確模擬物理世界的交互規(guī)律。比如,在它生成的視頻中,一個(gè)人在跑步機(jī)上反向跑步,一些實(shí)體場景中,人或動(dòng)物會(huì)自發(fā)冒出來,甚至AI將一把椅子建模成了一個(gè)柔性的物體。

        在聶再清看來,現(xiàn)在人們看到的都是由OpenAI挑選后發(fā)出的視頻,大家覺得很驚艷,但到底還有多少不完善之處,不能完全確定,還要等面向公眾開放后才知道,Sora離理想中的世界模型還有多大的差距。

        王帥對(duì)Sora模型的認(rèn)知更為冷靜。他更在意Sora這類模型如何落地。近期,有人向他詢問,Sora生成的視頻中,人和車輛那么自然,模型是怎么控制每個(gè)物體的?但實(shí)際上,模型運(yùn)行的方式與人類思考的方式截然不同,模型根本不知道有物體存在,是大數(shù)據(jù)告訴它每一部分要做成什么樣子。生成視頻依靠的是巨大的數(shù)據(jù)量,如果有足夠數(shù)據(jù),便會(huì)更好生成視頻。但未來在編輯視頻時(shí),可能會(huì)出現(xiàn)數(shù)據(jù)分布之外的情況,如果數(shù)據(jù)沒有覆蓋到,生成效果可能不盡如人意。

        王帥進(jìn)一步解釋說,不只是要數(shù)據(jù)規(guī)模大,還要有更好的數(shù)據(jù)細(xì)節(jié),“人們使用模型生成了一個(gè)效果很好的60秒視頻,但這還沒有結(jié)束,人們后期如果想做視頻編輯,比如摘掉那位東京街頭漫步的女士的墨鏡,如果訓(xùn)練數(shù)據(jù)中沒包含這一動(dòng)作的視頻,或很少見,模型可能做不到這一指令,或者做得效果很差。因此,在測試時(shí),需要做非常多的調(diào)試工作,是非常耗時(shí)耗力的事情?!蓖鯉浱岬?,Sora的學(xué)習(xí)邏輯與ChatGPT是相通的,模型學(xué)到了足夠多的數(shù)據(jù),因而掌握了數(shù)據(jù)間的規(guī)律。但這仍和通用人工智能有區(qū)別—— Sora本質(zhì)上還是在模仿訓(xùn)練數(shù)據(jù)中的視頻。

        “一段文字提示,模型中可能會(huì)對(duì)應(yīng)上千萬的視頻,目前OpenAI呈現(xiàn)了一個(gè)看起來足夠好的視頻,大家就覺得這個(gè)模型很厲害,但你不知道它能不能很好地生成其他視頻?!蓖鯉浱岬?,這就像是一個(gè)問題有100個(gè)答案,但它只給出一個(gè)正確答案,這意味著大模型就會(huì)做這個(gè)題了嗎?不是,除非它也能把剩下99個(gè)答案都告訴你,才說明它的理解沒有問題。

        至于是否會(huì)顛覆影視行業(yè),在王帥看來,大家現(xiàn)在猜測一些大方向,但很可能答案是在意料之外?!肮雀鑴偝闪r(shí),人們不會(huì)想到它會(huì)以做廣告盈利;人們最初對(duì)Facebook改變社交方式寄予厚望,但不會(huì)想到它后來會(huì)出現(xiàn)泄露用戶數(shù)據(jù)隱私的丑聞,AI技術(shù)亦是如此。很多技術(shù)人員認(rèn)為只要解決技術(shù)難題就可以了,不是這樣的。技術(shù)在商業(yè)和社會(huì)層面將會(huì)帶來怎樣的影響,是極其復(fù)雜的,很難單獨(dú)用技術(shù)邏輯來理解。”

        (王帥為化名)

        猜你喜歡
        王帥文字社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        Tolerance-enhanced SU(1,1)interferometers using asymmetric gain
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        文字的前世今生
        熱愛與堅(jiān)持
        社交距離
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        Quantum interferometry via a coherent state mixed with a squeezed number state?
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        王帥 藍(lán)色 是篤定的顏色
        超级少妇一区二区三区| 久久久www成人免费毛片| 亚洲成av人片天堂网| 国产白嫩美女在线观看| 国产一起色一起爱| 美女高潮无遮挡免费视频| 91青草久久久久久清纯| 日韩人妻免费一区二区三区| 午夜亚洲精品视频在线 | 亚洲成av人片一区二区| 国产成人国产在线观看 | 国产精品久久三级精品| 精品国产亚洲av麻豆| 久久综合亚洲色hezyo国产| 开心婷婷五月激情综合社区| 国产亚洲日韩AV在线播放不卡| 日本免费精品免费视频| 四虎影在永久在线观看| 精品国产午夜理论片不卡| 国产AV无码专区亚洲AV桃花庵| 亚洲蜜桃视频在线观看| 成人自拍一二在线观看| 九九久久自然熟的香蕉图片| 真实国产乱啪福利露脸| 亚洲综合国产成人丁香五月小说| 懂色av一区二区三区网久久| 亚洲国产婷婷香蕉久久久久久| 亚洲精品无码久久久久牙蜜区| 级毛片免费看无码| 精品自拍偷拍一区二区三区| av免费播放网站在线| 人人爽久久涩噜噜噜丁香| 极品美女高潮喷白浆视频| 黄色三级国产在线观看| 日韩精品熟女中文字幕| 国产精品一区二区在线观看| 国产成人精品午夜福利免费APP| 男女男生精精品视频网站| 久久久亚洲熟妇熟女av| 三叶草欧洲码在线| 98精品国产综合久久|