亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ChatGPT來了,我們離AI生成電影還有多遠(yuǎn)?

        2023-04-11 12:19:38張雪
        現(xiàn)代電影技術(shù) 2023年3期
        關(guān)鍵詞:模態(tài)文本模型

        如果你還沒有和ChatGPT (Chat Generative Pre-trained Transformer)對話,都不好意思聊人工智能(AI)。

        Chat GPT 是美國人工智能實驗室Open AI發(fā)布的一種生成式大型語言模型,采用Transformer深度神經(jīng)網(wǎng)絡(luò)架構(gòu),基于人類反饋的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),在GPT-3.5模型之上進行訓(xùn)練微調(diào)形成,能夠通過學(xué)習(xí)人類語言和理解上下文來實現(xiàn)對話互動,敢于質(zhì)疑與承認(rèn)錯誤,大幅提升了對用戶意圖的理解能力。

        ChatGPT 上線2個月,月活躍用戶就已成功過億,并于近日宣布開放API,允許第三方開發(fā)者將其集成至應(yīng)用程序和服務(wù)中。

        那么,“神通廣大”的Chat-GPT可以生成一部電影嗎?

        1 ChatGPT生成劇本

        菲律賓28 Squared工作室和Moon Ventures工作室運用Chat GPT幫助劇本創(chuàng)作,7天制作完成6 分半短片 《安全地帶》(The Safe Zone)。團隊首先使用ChatGPT 篩選出大量故事創(chuàng)意,并挑選前五名,讓ChatGPT為這五個創(chuàng)意生成劇本。但在這一過程中,團隊發(fā)現(xiàn)ChatGPT 會很快偏離關(guān)鍵主題,為此制片人只能不斷提醒其注意情節(jié)的發(fā)展邏輯。最后,團隊通過主動要求ChatGPT 對故事的某些部分提供更多細(xì)節(jié)來充實劇本。劇本生成后,ChatGPT 可以根據(jù)劇本內(nèi)容設(shè)計具體的鏡頭清單,還可以回答機位、演員位置、燈光位置、角色情緒、服裝道具等完整細(xì)節(jié),以輔助分鏡設(shè)計。

        2 AI生成電影

        采用Chat GPT 生成劇本已完成了電影制作的第一步,后續(xù)電影制作仍能由AI完成嗎?Chat GPT認(rèn)為“如果結(jié)合多個AI模型,可能可以實現(xiàn)一些電影制作方面的任務(wù)?!毕旅孀屛覀兛纯丛陔娪爸谱鬟^程中,AI都能完成哪些制作任務(wù)。

        電影主要由圖像和聲音兩大要素組成,在圖像和聲音生成領(lǐng)域近年來發(fā)展形成了較多國內(nèi)外AI模型,從圖1可以窺見一斑。它們 “可能可以”接力ChatGPT 生成的劇本,完成相應(yīng)的電影制作。

        圖1 電影制作過程中AI能夠完成的制作任務(wù)

        3 圖像生成

        目前各類圖像AIGC (人工智能生成內(nèi)容)模型發(fā)展迅速,如文字生圖片、文字生視頻、3D 模型生成、動畫場景生成、視頻風(fēng)格遷移等。

        3.1 圖片生成

        當(dāng)前文字生圖片AI模型發(fā)展較快,其中較為常見的大模型包括Open AI的DALL-E 2和谷歌的IMAGEN、Parti、Muse。

        DALL-E 2雖能生成較為逼真的圖片,但無法辨識上下左右等方位信息,當(dāng)文本中存在對物體顏色或場景內(nèi)文字的描述時會出現(xiàn)錯誤,生成復(fù)雜場景時還會出現(xiàn)嚴(yán)重的細(xì)節(jié)缺失。IMAGEN 使用大量純文本語料訓(xùn)練,得益于強大的編碼器,IMAGEN在為物體分配顏色和生成場景內(nèi)文字時更加準(zhǔn)確。Parti具有可擴展的模型規(guī)模,最高可擴展至200億參數(shù),參數(shù)越多、模型規(guī)模越大,生成圖像的細(xì)節(jié)越豐富,錯誤信息也明顯降低。Muse在給輸入圖片加入掩碼進行重構(gòu)學(xué)習(xí)的基礎(chǔ)上,利用動態(tài)遮蔽率實現(xiàn)推理階段的迭代并行編碼,在不損失圖片生成效果的同時,極大地提高了模型推理效率。

        3.2 視頻生成

        視頻可以認(rèn)為是多張 “圖片”有邏輯、連貫的組成,AI生成視頻是AI生成圖片的深度延伸。現(xiàn)有AI生成視頻模型可一定程度滿足提升效率與契合腳本內(nèi)容的需求,但由于模型本身能力和訓(xùn)練素材質(zhì)量的限制,此類模型目前處于非常初級的階段,存在動作過渡不自然、理解角度詭異、視頻分辨率不高等問題,所生成的視頻還不夠完善。

        Meta的“Make-A-Video”AI影片生成工具可通過文字和圖片識別,生成一段時長5秒、16FPS的無聲片段,分辨率為768×768。除文本輸入外,還可根據(jù)其他視頻或圖片制作新視頻,或是生成連接圖像的關(guān)鍵幀,讓靜態(tài)圖片動起來。

        谷歌的Imagen Video與Phenaki,前者主打視頻品質(zhì),后者主要挑戰(zhàn)視頻長度。其中Imagen Video可根據(jù)文本提示以24FPS生成分辨率為1280×768的視頻,長度不超過5 秒;Phenaki可根據(jù)200 詞左右的提示語生成2分鐘以上長鏡頭,且具備相對完整的故事情節(jié)。

        3.3 3D 模型生成

        若需要制作更為復(fù)雜的3D 模型,也有相應(yīng)的AI生成模型,但渲染環(huán)節(jié)暫無專門的AI模型支持。谷歌DreamFusion可由文本生成具有密度和顏色的3D 模型,還可進一步導(dǎo)出為網(wǎng)格體,以便進一步加工。英偉達Magic3D 使用兩階段生成法,首先使用低分辨率擴散先驗獲得模型的粗略表示,并使用稀疏3D 哈希網(wǎng)格結(jié)構(gòu)進行加速;再以粗略表示作為初始,進一步優(yōu)化具有紋理的3D 網(wǎng)格模型。Open AI的POINT-E由文本-圖像模型和圖像-3D模型組成,其首先根據(jù)文本生成2D 圖像,再將2D圖像依次轉(zhuǎn)換為包含1024個點的粗略點云,最后在粗略點云的基礎(chǔ)上生成包含4096個點的精細(xì)點云。

        3.4 動畫場景生成

        AI在動畫場景繪制方面已有短片應(yīng)用。此前奈飛(Netflix)與微軟小冰、WIT STUDIO 共同創(chuàng)作首支AIGC動畫短片《犬與少年》,其中部分動畫場景由AI輔助生成。其采用類似Stable Diffusion中以圖生圖的方式,由制作人提供設(shè)計圖,AI生成細(xì)節(jié)并優(yōu)化,形成一張完成度較高的場景圖,制作方只需對這張圖進行適當(dāng)修改,即可直接使用。

        3.5 視頻風(fēng)格遷移

        如果對現(xiàn)有視頻風(fēng)格不滿意,還可使用AI工具生成其他定制風(fēng)格的新視頻。谷歌Dreamix可通過應(yīng)用特定的風(fēng)格從現(xiàn)有視頻中創(chuàng)建新的視頻。曾在2022年創(chuàng)建“文本-圖像”模型Stable Diffusion的技術(shù)公司Runway推出模型Gen-1,可通過文本提示或參考圖像指定的任何風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為全新風(fēng)格、時長更長的視頻。

        4 聲音生成

        聲音作為電影的另一項要素,主要包括對白、音效、音樂,共同起著情節(jié)推進、氛圍營造和情感共鳴等重要作用。目前也有不少AI模型可以完成相關(guān)內(nèi)容的生成制作。

        4.1 對白

        微軟的語音合成AI模型VALL-E 經(jīng)過6萬小時英語語音數(shù)據(jù)的訓(xùn)練,使用特定語音的3秒剪輯來生成內(nèi)容,可復(fù)制說話者的情緒和語氣,即使說話者本人從未說過的單詞也可以模仿。

        科大訊飛的多風(fēng)格多情感合成系統(tǒng)SMARTTTS充分利用文本和語音的無監(jiān)督預(yù)訓(xùn)練,實現(xiàn)了從文本到聲學(xué)特征,再到語音的端到端建模,可提供11 種情感、每種情感20 檔強弱度的調(diào)節(jié)能力,也可根據(jù)自己喜好調(diào)節(jié)停頓、重音、語速等。

        4.2 音樂

        谷歌的Music LM 可從文本描述中生成頻率為24k Hz的高保真音樂,還可以基于已有旋律轉(zhuǎn)換為其他樂器,甚至可以設(shè)置AI“音樂家”的經(jīng)驗水平,系統(tǒng)可以根據(jù)地點、時代或音樂風(fēng)格 (例如鍛煉的勵志音樂)進行創(chuàng)作。

        浙江大學(xué)與北京大學(xué)聯(lián)合火山語音提出的文本到音頻的生成系統(tǒng)Make-An-Audio,可將自然語言描述作為輸入,而且是任意模態(tài)(例如文本、音頻、圖像、視頻等)均可,同時輸出符合描述的音頻音效,具有強可控性、泛化性。

        4.3 多模態(tài)大模型

        多模態(tài)大模型能夠在計算機視覺 (CV)、自然語言處理(NLP)、語音識別等不同的模態(tài)間構(gòu)建關(guān)聯(lián),單個模型可支持,以音生圖、以文生圖、以圖生音以及聲音轉(zhuǎn)文字等功能。OpenAI的CLIP、國內(nèi)百度文心、紫東·太初、阿里“通義”等多模態(tài)大模型近年來持續(xù)發(fā)展,在電影制作領(lǐng)域也具備一定的潛在應(yīng)用價值。

        5 結(jié)語

        在上述各類模型的共同參與下,AI生成電影的基本鏈條已具雛形。但正如ChatGPT 所言,目前AI技術(shù)仍然存在一些局限:

        第一,AI模型仍然需要人工干預(yù),語言類模型給出的文本指導(dǎo)需經(jīng)過專業(yè)技術(shù)人員的審核確認(rèn)才能實際應(yīng)用;

        第二,用于生成視頻和音頻的AI模型由于訓(xùn)練數(shù)據(jù)的限制,生成結(jié)果較為簡單,質(zhì)量還遠(yuǎn)遠(yuǎn)達不到電影要求;

        第三,由于AI生成內(nèi)容是由機器使用現(xiàn)有數(shù)據(jù)和內(nèi)容產(chǎn)生,AI生成作品的版權(quán)問題仍存在較大爭議,法律對AI生成內(nèi)容的版權(quán)保護仍處于“缺位”狀態(tài)。

        猜你喜歡
        模態(tài)文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        欧美激情区| 亚洲人妻有码中文字幕| 麻豆国产精品久久天堂| 日本三级片在线观看| 亚洲高清乱码午夜电影网| 亚洲av永久无码天堂网手机版| 色爱无码A V 综合区| 亚洲色图少妇熟女偷拍自拍| 国产不卡精品一区二区三区| 99久久精品国产一区二区三区| 好男人日本社区www| 日韩精品网| 亚洲福利一区二区不卡| 神马影院午夜dy888| 欧美尺寸又黑又粗又长| 亚色中文字幕| 日本一区二区三区清视频| 成视频年人黄网站免费视频| 日韩人妻无码精品-专区| 国产精品香蕉在线观看| 亚洲AV无码久久久久调教| 男女激情视频网站在线| 少妇人妻精品一区二区三区| 丰满熟妇乱又伦| 国产大片中文字幕| 日本一区二区日韩在线| 人妻少妇偷人精品久久性色av| 亚洲精品无码久久久久久| 五月婷婷激情六月| 亚洲不卡av二区三区四区| 人妻精品久久久久中文字幕| 国产成人精品无码播放 | 白白色发布会在线观看免费| 亚洲综合欧美色五月俺也去| 亚洲中文字幕无码久久| 国产午夜激无码AV毛片不卡| 精品私密av一区二区三区| 亚洲乱亚洲乱妇50p| 国产99久久无码精品| 偷拍熟女露出喷水在线91| 97久人人做人人妻人人玩精品|