亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

ChatGPT來了,我們離AI生成電影還有多遠(yuǎn)?

2023-04-11 12:19:38張雪

現(xiàn)代電影技術(shù) 2023年3期

如果你還沒有和ChatGPT (Chat Generative Pre-trained Transformer)對話,都不好意思聊人工智能(AI)。

Chat GPT 是美國人工智能實驗室Open AI發(fā)布的一種生成式大型語言模型,采用Transformer深度神經(jīng)網(wǎng)絡(luò)架構(gòu),基于人類反饋的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),在GPT-3.5模型之上進行訓(xùn)練微調(diào)形成,能夠通過學(xué)習(xí)人類語言和理解上下文來實現(xiàn)對話互動,敢于質(zhì)疑與承認(rèn)錯誤,大幅提升了對用戶意圖的理解能力。

ChatGPT 上線2個月,月活躍用戶就已成功過億,并于近日宣布開放API,允許第三方開發(fā)者將其集成至應(yīng)用程序和服務(wù)中。

那么,“神通廣大”的Chat-GPT可以生成一部電影嗎?

1 ChatGPT生成劇本

菲律賓28 Squared工作室和Moon Ventures工作室運用Chat GPT幫助劇本創(chuàng)作,7天制作完成6 分半短片《安全地帶》(The Safe Zone)。團隊首先使用ChatGPT 篩選出大量故事創(chuàng)意,并挑選前五名,讓ChatGPT為這五個創(chuàng)意生成劇本。但在這一過程中,團隊發(fā)現(xiàn)ChatGPT 會很快偏離關(guān)鍵主題,為此制片人只能不斷提醒其注意情節(jié)的發(fā)展邏輯。最后,團隊通過主動要求ChatGPT 對故事的某些部分提供更多細(xì)節(jié)來充實劇本。劇本生成后,ChatGPT 可以根據(jù)劇本內(nèi)容設(shè)計具體的鏡頭清單,還可以回答機位、演員位置、燈光位置、角色情緒、服裝道具等完整細(xì)節(jié),以輔助分鏡設(shè)計。

2 AI生成電影

采用Chat GPT 生成劇本已完成了電影制作的第一步,后續(xù)電影制作仍能由AI完成嗎?Chat GPT認(rèn)為“如果結(jié)合多個AI模型,可能可以實現(xiàn)一些電影制作方面的任務(wù)?！毕旅孀屛覀兛纯丛陔娪爸谱鬟^程中,AI都能完成哪些制作任務(wù)。

電影主要由圖像和聲音兩大要素組成,在圖像和聲音生成領(lǐng)域近年來發(fā)展形成了較多國內(nèi)外AI模型,從圖1可以窺見一斑。它們 “可能可以”接力ChatGPT 生成的劇本,完成相應(yīng)的電影制作。

圖1 電影制作過程中AI能夠完成的制作任務(wù)

3 圖像生成

目前各類圖像AIGC (人工智能生成內(nèi)容)模型發(fā)展迅速,如文字生圖片、文字生視頻、3D 模型生成、動畫場景生成、視頻風(fēng)格遷移等。

3.1 圖片生成

當(dāng)前文字生圖片AI模型發(fā)展較快,其中較為常見的大模型包括Open AI的DALL-E 2和谷歌的IMAGEN、Parti、Muse。

DALL-E 2雖能生成較為逼真的圖片,但無法辨識上下左右等方位信息,當(dāng)文本中存在對物體顏色或場景內(nèi)文字的描述時會出現(xiàn)錯誤,生成復(fù)雜場景時還會出現(xiàn)嚴(yán)重的細(xì)節(jié)缺失。IMAGEN 使用大量純文本語料訓(xùn)練,得益于強大的編碼器,IMAGEN在為物體分配顏色和生成場景內(nèi)文字時更加準(zhǔn)確。Parti具有可擴展的模型規(guī)模,最高可擴展至200億參數(shù),參數(shù)越多、模型規(guī)模越大,生成圖像的細(xì)節(jié)越豐富,錯誤信息也明顯降低。Muse在給輸入圖片加入掩碼進行重構(gòu)學(xué)習(xí)的基礎(chǔ)上,利用動態(tài)遮蔽率實現(xiàn)推理階段的迭代并行編碼,在不損失圖片生成效果的同時,極大地提高了模型推理效率。

3.2 視頻生成

視頻可以認(rèn)為是多張 “圖片”有邏輯、連貫的組成,AI生成視頻是AI生成圖片的深度延伸。現(xiàn)有AI生成視頻模型可一定程度滿足提升效率與契合腳本內(nèi)容的需求,但由于模型本身能力和訓(xùn)練素材質(zhì)量的限制,此類模型目前處于非常初級的階段,存在動作過渡不自然、理解角度詭異、視頻分辨率不高等問題,所生成的視頻還不夠完善。

Meta的“Make-A-Video”AI影片生成工具可通過文字和圖片識別,生成一段時長5秒、16FPS的無聲片段,分辨率為768×768。除文本輸入外,還可根據(jù)其他視頻或圖片制作新視頻,或是生成連接圖像的關(guān)鍵幀,讓靜態(tài)圖片動起來。

谷歌的Imagen Video與Phenaki,前者主打視頻品質(zhì),后者主要挑戰(zhàn)視頻長度。其中Imagen Video可根據(jù)文本提示以24FPS生成分辨率為1280×768的視頻,長度不超過5 秒；Phenaki可根據(jù)200 詞左右的提示語生成2分鐘以上長鏡頭,且具備相對完整的故事情節(jié)。

3.3 3D 模型生成

若需要制作更為復(fù)雜的3D 模型,也有相應(yīng)的AI生成模型,但渲染環(huán)節(jié)暫無專門的AI模型支持。谷歌DreamFusion可由文本生成具有密度和顏色的3D 模型,還可進一步導(dǎo)出為網(wǎng)格體,以便進一步加工。英偉達Magic3D 使用兩階段生成法,首先使用低分辨率擴散先驗獲得模型的粗略表示,并使用稀疏3D 哈希網(wǎng)格結(jié)構(gòu)進行加速；再以粗略表示作為初始,進一步優(yōu)化具有紋理的3D 網(wǎng)格模型。Open AI的POINT-E由文本-圖像模型和圖像-3D模型組成,其首先根據(jù)文本生成2D 圖像,再將2D圖像依次轉(zhuǎn)換為包含1024個點的粗略點云,最后在粗略點云的基礎(chǔ)上生成包含4096個點的精細(xì)點云。

3.4 動畫場景生成

AI在動畫場景繪制方面已有短片應(yīng)用。此前奈飛(Netflix)與微軟小冰、WIT STUDIO 共同創(chuàng)作首支AIGC動畫短片《犬與少年》,其中部分動畫場景由AI輔助生成。其采用類似Stable Diffusion中以圖生圖的方式,由制作人提供設(shè)計圖,AI生成細(xì)節(jié)并優(yōu)化,形成一張完成度較高的場景圖,制作方只需對這張圖進行適當(dāng)修改,即可直接使用。

3.5 視頻風(fēng)格遷移

如果對現(xiàn)有視頻風(fēng)格不滿意,還可使用AI工具生成其他定制風(fēng)格的新視頻。谷歌Dreamix可通過應(yīng)用特定的風(fēng)格從現(xiàn)有視頻中創(chuàng)建新的視頻。曾在2022年創(chuàng)建“文本-圖像”模型Stable Diffusion的技術(shù)公司Runway推出模型Gen-1,可通過文本提示或參考圖像指定的任何風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為全新風(fēng)格、時長更長的視頻。

4 聲音生成

聲音作為電影的另一項要素,主要包括對白、音效、音樂,共同起著情節(jié)推進、氛圍營造和情感共鳴等重要作用。目前也有不少AI模型可以完成相關(guān)內(nèi)容的生成制作。

4.1 對白

微軟的語音合成AI模型VALL-E 經(jīng)過6萬小時英語語音數(shù)據(jù)的訓(xùn)練,使用特定語音的3秒剪輯來生成內(nèi)容,可復(fù)制說話者的情緒和語氣,即使說話者本人從未說過的單詞也可以模仿。

科大訊飛的多風(fēng)格多情感合成系統(tǒng)SMARTTTS充分利用文本和語音的無監(jiān)督預(yù)訓(xùn)練,實現(xiàn)了從文本到聲學(xué)特征,再到語音的端到端建模,可提供11 種情感、每種情感20 檔強弱度的調(diào)節(jié)能力,也可根據(jù)自己喜好調(diào)節(jié)停頓、重音、語速等。

4.2 音樂

谷歌的Music LM 可從文本描述中生成頻率為24k Hz的高保真音樂,還可以基于已有旋律轉(zhuǎn)換為其他樂器,甚至可以設(shè)置AI“音樂家”的經(jīng)驗水平,系統(tǒng)可以根據(jù)地點、時代或音樂風(fēng)格 (例如鍛煉的勵志音樂)進行創(chuàng)作。

浙江大學(xué)與北京大學(xué)聯(lián)合火山語音提出的文本到音頻的生成系統(tǒng)Make-An-Audio,可將自然語言描述作為輸入,而且是任意模態(tài)(例如文本、音頻、圖像、視頻等)均可,同時輸出符合描述的音頻音效,具有強可控性、泛化性。

4.3 多模態(tài)大模型

多模態(tài)大模型能夠在計算機視覺 (CV)、自然語言處理(NLP)、語音識別等不同的模態(tài)間構(gòu)建關(guān)聯(lián),單個模型可支持,以音生圖、以文生圖、以圖生音以及聲音轉(zhuǎn)文字等功能。OpenAI的CLIP、國內(nèi)百度文心、紫東·太初、阿里“通義”等多模態(tài)大模型近年來持續(xù)發(fā)展,在電影制作領(lǐng)域也具備一定的潛在應(yīng)用價值。

5 結(jié)語

在上述各類模型的共同參與下,AI生成電影的基本鏈條已具雛形。但正如ChatGPT 所言,目前AI技術(shù)仍然存在一些局限:

第一,AI模型仍然需要人工干預(yù),語言類模型給出的文本指導(dǎo)需經(jīng)過專業(yè)技術(shù)人員的審核確認(rèn)才能實際應(yīng)用；

第二,用于生成視頻和音頻的AI模型由于訓(xùn)練數(shù)據(jù)的限制,生成結(jié)果較為簡單,質(zhì)量還遠(yuǎn)遠(yuǎn)達不到電影要求；

第三,由于AI生成內(nèi)容是由機器使用現(xiàn)有數(shù)據(jù)和內(nèi)容產(chǎn)生,AI生成作品的版權(quán)問題仍存在較大爭議,法律對AI生成內(nèi)容的版權(quán)保護仍處于“缺位”狀態(tài)。