崔原豪
2024年2月16日,OpenAI在社交媒體上發(fā)布了一條消息,隆重介紹了自家的新文本轉(zhuǎn)視頻模型——Sora。幾乎是一夜之間,Sora就在全網(wǎng)刷屏。
文生視頻并不是一項(xiàng)從無到有的技術(shù),為什么Sora的出現(xiàn)會(huì)引起這么大的反響呢?
目前,在視頻生成行業(yè)中,一般的視頻長(zhǎng)度為4秒,且受到諸多限制。然而,Sora的出現(xiàn)徹底打破了這一現(xiàn)狀,它能夠生成長(zhǎng)達(dá)60秒的視頻,并且支持鏡頭的分切。同時(shí),Sora還支持不同的分辨率。這就像你們班上的同學(xué)一起參加一場(chǎng)難度極高的數(shù)學(xué)競(jìng)賽,大多數(shù)同學(xué)的分?jǐn)?shù)都是30多分,而這個(gè)名叫“Sora”的同學(xué)卻以70分的成績(jī)驚艷了全場(chǎng)。
生成一段60秒高質(zhì)量視頻有多難
我們應(yīng)該都知道,視頻是由一系列圖像組成的,并且這一系列圖像是存在先后順序的。就像是我們自制的手翻書一樣,它包含一系列連貫動(dòng)作的圖像,當(dāng)這些圖像被快速翻閱時(shí),由于視覺暫留現(xiàn)象,我們會(huì)感覺圖像動(dòng)了起來,產(chǎn)生了動(dòng)畫效果。視頻其實(shí)也是這個(gè)原理。
文生視頻則可以說是時(shí)間維度上的運(yùn)動(dòng)建模。為了保證生成視頻的連貫性,這使得模型需要在時(shí)間維度上進(jìn)行建模,并能夠捕捉、理解和生成運(yùn)動(dòng)信息。這大大增加了模型的復(fù)雜度。
而且,視頻數(shù)據(jù)比圖像數(shù)據(jù)更加復(fù)雜,因此需要更大規(guī)模且更高質(zhì)量的訓(xùn)練數(shù)據(jù)。然而,目前公開的高質(zhì)量“文字- 視頻”數(shù)據(jù)非常有限。
此外,視頻生成模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間,訓(xùn)練成本十分高昂。因此,生成一段長(zhǎng)達(dá)60 秒的高質(zhì)量視頻是非常困難的!
那么,Sora 是怎么做到的呢?
中學(xué)生也能看懂的Sora 技術(shù)解讀
首先,Sora 利用了被稱為“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖片或視頻進(jìn)行壓縮。就好比我們數(shù)學(xué)試卷中的壓軸題,出題老師通常將一道大題拆分成3 個(gè)小問題,第一個(gè)小問題通常是相對(duì)簡(jiǎn)單的,同時(shí)第二個(gè)小問題的解題思路也藏在第一個(gè)小問題里,要解決最難的第三個(gè)小問題,也要依賴我們前面做過的兩個(gè)小問題。當(dāng)然,命題老師其實(shí)是可以直接讓你求解第三個(gè)小問題的。但是,如果沒有前面兩個(gè)小問題的鋪墊,處理起第三個(gè)小問題會(huì)很困難。而把這道題拆解開來,就會(huì)變得相對(duì)容易。視頻壓縮網(wǎng)絡(luò)技術(shù)也是運(yùn)用了這個(gè)方法,將復(fù)雜的視頻數(shù)據(jù)簡(jiǎn)單化,同時(shí)保留其關(guān)鍵信息,經(jīng)過壓縮后可以大幅降低計(jì)算負(fù)荷,使得Sora 能夠在訓(xùn)練過程中更加高效地處理大量數(shù)據(jù)。
對(duì)于經(jīng)過壓縮網(wǎng)絡(luò)處理的視頻,Sora 會(huì)將其進(jìn)一步分解成“空間時(shí)間補(bǔ)丁”,這些補(bǔ)丁是視頻的小塊組成部分,不僅包含了視頻的局部空間信息,還融合了時(shí)間維度上的動(dòng)態(tài)變化。
為了形象地理解空間時(shí)間補(bǔ)丁,我們可以將其比作電影的每一幀。如果我們將每一幀畫面看作一張靜止的照片,那么這些照片可以被撕成許多小碎片,每一片都是一個(gè)空間時(shí)間補(bǔ)丁,每個(gè)補(bǔ)丁包含了畫面的一小部分信息。我們?cè)诳吹竭@些小碎片的時(shí)候,也能聯(lián)想出與之相關(guān)的其他場(chǎng)景。在 Sora 中,空間時(shí)間補(bǔ)丁使模型能夠更精細(xì)地處理視頻內(nèi)容的每個(gè)小片段,并同時(shí)考慮它們隨時(shí)間的變化。
在提取了必要的信息后,Sora便著手開始視頻的生成過程。它基于Transformer模型,結(jié)合給定的文本提示和已提取的空間時(shí)間補(bǔ)丁,開始創(chuàng)作視頻內(nèi)容。
比如,你告訴Sora生成一段“在校運(yùn)會(huì)上參加100米比賽并獲得第一名”的視頻,這段文字就是你給它的文本提示,它會(huì)怎么做呢?首先,Sora會(huì)去理解這句話的具體含義;其次,它會(huì)根據(jù)它所理解的意思,在它的“大腦”中尋找與之相關(guān)的記憶片段(空間時(shí)間補(bǔ)?。谶@些片段,它發(fā)揮自己的想象力,不斷地補(bǔ)全畫面并進(jìn)行時(shí)間上的排序,例如起跑畫面是要在沖刺畫面之前的。經(jīng)過反復(fù)的補(bǔ)充、完善,Sora就會(huì)生成你想要的這段視頻了。
在這個(gè)過程中,Sora會(huì)對(duì)初始的噪聲視頻(畫面不完善、時(shí)間線混亂的視頻)進(jìn)行精細(xì)的“潤(rùn)色”,濾除無關(guān)緊要的信息,并添加必要的細(xì)節(jié)。通過反復(fù)的優(yōu)化,最終生成與文本提示完美契合的視頻。
剛才我們提到過,Sora最開始生成的是一個(gè)噪聲視頻,也就是存在瑕疵的視頻。此時(shí),視頻中的每個(gè)像素點(diǎn)都被隨機(jī)地賦予顏色值,所呈現(xiàn)出來的畫面也是雜亂無章的。曾經(jīng)看過“大腦袋電視”的人應(yīng)該都對(duì)這個(gè)畫面不陌生,電視沒有信號(hào)的時(shí)候,出來的就是這種畫面。
然而,通過不斷訓(xùn)練和優(yōu)化,Sora能夠精確地調(diào)整圖像塊的位置、大小、角度和亮度等參數(shù),最終預(yù)測(cè)出這些噪聲圖像背后的清晰畫面。
這個(gè)過程就好比我寫這篇文章一樣,一開始可能只有一個(gè)大綱,先大概列好這篇文章的整體結(jié)構(gòu),要分為幾部分去寫,每一部分都要寫什么內(nèi)容,然后再不斷地填充文字、配圖等,最終呈現(xiàn)出一篇邏輯清晰、內(nèi)容豐富的完整文章。對(duì)于視頻而言,這意味著Sora 需要一次性地預(yù)測(cè)多幀畫面,并將這些帶有噪聲的多幀圖像轉(zhuǎn)換為清晰連貫的圖像序列。當(dāng)這些清晰的圖像以連續(xù)的方式呈現(xiàn)時(shí),就形成了最終流暢自然的視頻。
Sora 帶來的新變化
Sora 的出現(xiàn),可以說是打破了人們對(duì)文生視頻這一技術(shù)的傳統(tǒng)認(rèn)知。
首先,Sora 展示了強(qiáng)大的多格式視頻生成能力。我們平時(shí)在用手機(jī)或者其他設(shè)備拍攝視頻的時(shí)候,經(jīng)常會(huì)根據(jù)自己的需求選擇橫屏或者豎屏的拍攝方式,這就造成了視頻的屏幕比例不是統(tǒng)一的,而Sora 能輕松處理各種屏幕比例的視頻,滿足多樣的觀看需求。此外,Sora 能在低分辨率下快速構(gòu)建內(nèi)容初稿,然后在完整分辨率下細(xì)化,整個(gè)過程都在同一個(gè)模型中進(jìn)行,提升了創(chuàng)作靈活性并簡(jiǎn)化了生成流程。
其次,Sora 在視頻構(gòu)圖和框架上有顯著改進(jìn)。傳統(tǒng)的訓(xùn)練模型在裁剪視頻時(shí),會(huì)默認(rèn)為裁剪成正方形,這就會(huì)導(dǎo)致部分畫面無法展示,而Sora 能更準(zhǔn)確地保持視頻主題全貌。
最后,得益于OpneAI 擁有ChatGPT 這個(gè)大語言模型產(chǎn)品及其技術(shù)積累,Sora 對(duì)文本有著深度的理解,能夠精確理解用戶通過文本提供的指示,并基于這些指示創(chuàng)造出具有豐富細(xì)節(jié)和情感表達(dá)的角色以及生動(dòng)的場(chǎng)景。這種技術(shù)使得從簡(jiǎn)單的文本提示到復(fù)雜視頻內(nèi)容的轉(zhuǎn)換過程顯得更加自然和流暢。無論是動(dòng)作密集的戲份還是微妙的情感流露,Sora 都能夠精準(zhǔn)地捕捉和呈現(xiàn)。
如果說ChatGPT 的出現(xiàn)改變了人們生產(chǎn)文字的方式,那么,Sora的出現(xiàn)則讓視頻創(chuàng)作的門檻變得更低。對(duì)絕大對(duì)數(shù)人來說,將來各種社交媒體的內(nèi)容也將不只局限在文字與圖片了。
(責(zé)任編輯:白玉磊)