亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的多模態(tài)AIGC動(dòng)畫探究

        2023-02-19 05:40:30歐陽春雪
        現(xiàn)代電影技術(shù) 2023年1期
        關(guān)鍵詞:語義模態(tài)動(dòng)畫

        歐陽春雪

        四川美術(shù)學(xué)院,重慶 401331

        1 引言

        人工智能 (Artificial Intelligence,AI)是使計(jì)算機(jī)或機(jī)器模擬人類的智慧、能力的一項(xiàng)技術(shù),其作為二十一世紀(jì)的尖端技術(shù)之一,近三十年取得了迅速發(fā)展,早已成為人類現(xiàn)代生活中不可或缺的一部分。

        學(xué)習(xí)能力是人類智慧的核心能力,如表1所示,機(jī)器學(xué)習(xí)(Machine Learning,ML)是一種使計(jì)算機(jī)具有學(xué)習(xí)技能的技術(shù),也是使計(jì)算機(jī)具有人類“智能”的關(guān)鍵。

        表1 計(jì)算機(jī)技術(shù)與模擬能力[1]

        為了真正模擬人腦學(xué)習(xí)的復(fù)雜神經(jīng)網(wǎng)絡(luò),從機(jī)器學(xué)習(xí)概念中延展出了 “深度學(xué)習(xí) (Deep Learning,DL)”。在解決實(shí)際問題時(shí),深度學(xué)習(xí)技術(shù)通常與其他技術(shù)融會(huì)貫通,為AI賦予了更趨自主、更全面的能力。

        AI的深度發(fā)展與數(shù)字內(nèi)容供給需求的增長使得各個(gè)行業(yè)的內(nèi)容生成方式由傳統(tǒng)的專業(yè)生產(chǎn)內(nèi)容(Professionally-generated Content,PGC)、用戶生成內(nèi)容(User-generated Content,UGC)轉(zhuǎn)向了人工智能生成內(nèi)容 (AI-generated Content,AIGC)[2]。

        百度創(chuàng)始人兼董事長李彥宏認(rèn)為:AIGC 已不是單純用于輔助人類進(jìn)行內(nèi)容生產(chǎn)的助手,目前AIGC正處于“協(xié)作階段”,與人類相互配合完成內(nèi)容生產(chǎn);在未來,AIGC將步入 “原創(chuàng)階段”,能夠獨(dú)立完成內(nèi)容創(chuàng)作。[3]

        2022年8 月,一幅主要使用文本描述生成的AI畫作 《太空歌劇院》 (Théatre D'opéra Spatial)奪得美國科羅拉多州博覽會(huì)大賽數(shù)字藝術(shù)類別冠軍[4],引起群眾對AIGC藝術(shù)創(chuàng)作的思考。

        而早在2022年7月的戛納短片電影節(jié)(Cannes Short Film Festival),就出現(xiàn)了使用AIGC的動(dòng)畫短片《烏鴉》(TheCrow),將真人舞蹈作品PAINTED 基于 “文本-圖像-視頻”的多模態(tài)轉(zhuǎn)換,以“世界末日中起舞的烏鴉”形象再創(chuàng)作,獲得最佳短片獎(jiǎng)。

        據(jù)《AIGC深度產(chǎn)業(yè)報(bào)告》顯示,AIGC未來發(fā)展更趨向多模態(tài)生成方式,且至2030年,AIGC 市場規(guī)模將超萬億人民幣。[5]動(dòng)畫作為一門具綜合性、商業(yè)性的藝術(shù),隨著深度學(xué)習(xí)與多模態(tài)AIGC 的引入,傳統(tǒng)動(dòng)畫生產(chǎn)方式勢必會(huì)面臨沖擊,并迎來新的機(jī)遇。

        2 技術(shù)原理

        2.1 NLP預(yù)訓(xùn)練模型

        計(jì)算機(jī)語言是以 “0”與 “1”組成的二進(jìn)制,計(jì)算機(jī)要完成與人進(jìn)行交互的任務(wù)必須通過自然語言處理 (Natural Language Processing,NLP)技術(shù)。

        Transformer的提出最開始用于機(jī)器翻譯任務(wù),其基本架構(gòu)如圖 1 所示,Transformer模型的核心自注意力機(jī)制 (Self-attention)使得其相對于RNN①和CNN②等傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)更擅長處理不同類型的數(shù)據(jù),具有更好的并行性與全局性。[6]

        圖1 Transformer模型架構(gòu)

        NLP的核心是語義理解,為保證計(jì)算機(jī)能夠高效地學(xué)習(xí),需要提前建立語義聯(lián)系,即預(yù)訓(xùn)練。通過大量含標(biāo)簽的訓(xùn)練集對文本語句進(jìn)行向量化表示[7],在下游的具體應(yīng)用中再對模型進(jìn)行參數(shù)調(diào)優(yōu),使得模型能更好地匹配任務(wù)[8]。

        BERT 是典型的一種預(yù)訓(xùn)練模型,類似于完形填空,隨機(jī)遮蓋掉部分文本建上下文語義間的聯(lián)系[9]。

        2.2 多模態(tài)模型

        2019年谷歌發(fā)布的VideoBERT 將Transformer拓展到“文本-視頻”領(lǐng)域,驗(yàn)證了Transformer預(yù)訓(xùn)練用于多模態(tài)學(xué)習(xí)的可行性[10]。

        2021年Open AI提出的CLIP 模型基于Transformer進(jìn)行預(yù)訓(xùn)練,分別提取文本與圖像的特征并進(jìn)行對比,得到“文本-圖像”的相似度,使得兩種不同模態(tài)的數(shù)據(jù)得到關(guān)聯(lián)。[11]

        2.3 生成模型

        生成模型用于對數(shù)據(jù)的建模,生成文本、圖像、視頻等內(nèi)容,主流的生成模型有生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)和擴(kuò)散模型(Diffusion Model)。

        2.3.1 生成對抗網(wǎng)絡(luò)

        GAN 的框架中含兩個(gè)模塊:生成器 (Generator)和判別器 (Discriminator)。[12]生成器的任務(wù)是將輸入的初始噪聲偽造成一個(gè)與真實(shí)內(nèi)容相似的新內(nèi)容,再由判別器來檢驗(yàn)偽造內(nèi)容的真假,當(dāng)經(jīng)過數(shù)次對峙訓(xùn)練后,生成內(nèi)容能夠以最大概率“騙”過判別器時(shí),模型則能夠生成一張足夠“以假亂真”的最優(yōu)圖像。GAN 的基本原理如圖 2 所示。

        圖2 GAN 原理圖

        2.3.2 擴(kuò)散模型

        擴(kuò)散模型正向是不斷加噪的過程,逆向是根據(jù)不同程度的噪聲生成新內(nèi)容的過程,其原理如圖3,擴(kuò)散模型試圖學(xué)習(xí)噪聲分布,其在圖片生成任務(wù)中的表現(xiàn)超越了GAN[13]。

        圖3 擴(kuò)散模型對圖形加噪、去噪原理

        3 多模態(tài)AIGC動(dòng)畫生成模式與局限

        3.1 圖像到動(dòng)畫的生成

        視頻是連續(xù)的圖像序列,而動(dòng)畫是以逐格方式拍攝的畫面連續(xù)播放形成的活動(dòng)影像?!皥D像-視頻”的跨模態(tài)AIGC視頻與動(dòng)畫的原理相似,可看作是基于圖像的邏輯組合。

        由單個(gè)圖像生成關(guān)聯(lián)圖像后進(jìn)行插幀或者使用擴(kuò)散模型補(bǔ)充幀數(shù),但在生成動(dòng)畫方面效果存在以下問題:

        (1)AI 難以把握無邏輯、主觀性語言

        由于動(dòng)畫的視覺語言與創(chuàng)作者的主觀感受息息相關(guān),根據(jù)故事想要傳達(dá)的內(nèi)容有不同的表現(xiàn)方式,這樣具主觀性、非規(guī)律性的信息難以對計(jì)算機(jī)進(jìn)行學(xué)習(xí)、訓(xùn)練。

        (2)二維圖像難以進(jìn)行三維空間映射

        二維動(dòng)畫相對于三維動(dòng)畫更難以讓計(jì)算機(jī)把控?cái)z像機(jī)與對象的空間關(guān)系,遮擋、透視變換、角度變換會(huì)造成 AI 計(jì)算錯(cuò)誤而導(dǎo)致畫面割裂、變形、拖影等[14]。且由于鏡頭、場景變化多,要得到高準(zhǔn)確率的映射需要耗費(fèi)大量的算力。

        (3)運(yùn)動(dòng)規(guī)律復(fù)雜多變

        對象的屬性、速度影響變形程度,幀數(shù)也會(huì)影響運(yùn)動(dòng)表現(xiàn)的力度,例如表現(xiàn)力度大的動(dòng)作時(shí)會(huì)刻意省略幀數(shù),故不是所有運(yùn)動(dòng)都適合高幀數(shù)的表現(xiàn)方式。

        除由圖像生成連續(xù)畫面的視頻外,AIGC 還涉及基于二維圖像生成三維模型以輔助三維動(dòng)畫創(chuàng)作:

        一款用于二次元手繪設(shè)定稿動(dòng)畫化的神經(jīng)渲染器Co NR (Collaborative Neural Rendering)可實(shí)現(xiàn)用較少數(shù)量的手繪圖片映射到A-Pose③下的灰模,導(dǎo)入動(dòng)作序列即可完成手繪角色模型的三維動(dòng)畫[15]。

        谷歌發(fā)布的一種端到端的可訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)PHORHUM 能夠基于單張圖像生成三維模型[16],目前尚未開源。新型2D-3D 算法的提出,為三維動(dòng)畫建模提供了便利。

        雖然二維圖像生成三維模型的技術(shù)日益進(jìn)步,但缺少對動(dòng)作內(nèi)容的處理,尚且無法達(dá)到依靠硬件設(shè)備進(jìn)行動(dòng)作捕捉的精度。

        3.2 文本到圖像的生成

        視頻內(nèi)容是圖像在時(shí)間維度上的疊加,圖片生成算法為動(dòng)畫內(nèi)容的生成奠定了基礎(chǔ)。

        文本生成圖像的熱門模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E 2等。

        其基本原理 (以主流模型為例):CLIP 基于Transformer進(jìn)行無監(jiān)督預(yù)訓(xùn)練后,會(huì)根據(jù)擴(kuò)散模型去噪過程中的圖像評(píng)估與文本的匹配度,引導(dǎo)擴(kuò)散模型生成最符合文本的圖像。

        為提高生成圖像的準(zhǔn)確度,模型往往支持文本描述與圖片參考共同作為生成圖像的標(biāo)準(zhǔn) (即 “文本+圖像→圖像”),圖4、圖5、圖6為使用Midjourney模型生成圖像的實(shí)例。

        圖4 文本描述為:“一位美麗的舞者,身穿舞裙,在莫高窟壁畫前跳舞?!?/p>

        圖5 文本描述為:“三只劍齒虎,遠(yuǎn)處是高山,近處是寸草不生的地,地面有堆積的動(dòng)物骸骨,背光,夕陽下沉,氛圍凄涼?!?/p>

        圖6 在圖5基礎(chǔ)上增加了參考圖 (上)生成的4幅圖像 (下)

        通過在開源模型試驗(yàn)后,總結(jié)出AIGC 由文本生成圖像的局限性:

        (1)AI 生成場景效果普遍優(yōu)于生成人物

        AI 可以模擬細(xì)致的顏色、紋理,且場景的排布較人物限制較少,尤其是在遠(yuǎn)景時(shí),不用考慮過多透視問題。人物在高透視、多遮擋條件下難以生成符合要求的圖像,其中正確生成手的拓?fù)浣Y(jié)構(gòu)是AIGC的難題(圖7)。

        圖7 Novel AI在生成角色時(shí)手與身體結(jié)構(gòu)出現(xiàn)偏差

        (2)AI 對訓(xùn)練樣本少的語義理解不佳

        深度學(xué)習(xí)是建立在大量數(shù)據(jù)訓(xùn)練基礎(chǔ)上的,必然涉及無樣本或樣本稀缺的類型,無法建立起文本與圖像的語義聯(lián)系。例如,圖4-圖6中的 “莫高窟”“劍齒虎” “寸草不生”“骸骨”等描述被忽略。而對于“佛跳墻 (Buddha Jumps Over the Wall)”“過橋米線 (Crossing-the-bridge Noodles)”等詞在轉(zhuǎn)換為英文時(shí),AI易僅從字面上理解。

        (3)需要參考圖的輔助才能使得AIGC 更加準(zhǔn)確

        文本單模態(tài)的語義限制不夠,越多的描述詞延伸的語義也會(huì)越多,對于計(jì)算機(jī)可學(xué)習(xí)的樣本也越多;相較于描述詞限定以外的內(nèi)容由計(jì)算機(jī)隨機(jī)生成來講,圖像可提取的大量特征給了計(jì)算機(jī)更接近預(yù)期的參考。

        (4)用戶需要經(jīng)過長時(shí)間的熟悉、學(xué)習(xí)、嘗試

        基于不同模型的底層代碼,用戶的操作方式、表述語言都會(huì)有所差異。用戶使用新模型時(shí)需要進(jìn)行詞匯庫的積累和學(xué)習(xí),了解其工作原理并掌握更加精準(zhǔn)的描述詞;由于AIGC 的隨機(jī)性,每次生成均呈現(xiàn)隨機(jī)結(jié)果,即便使用同樣的描述詞也會(huì)呈現(xiàn)不同的最終圖像,需要多次生成嘗試后用戶自主選擇最符合目標(biāo)的內(nèi)容;對于有創(chuàng)作專業(yè)基礎(chǔ)的用戶來說,獲得理想圖像所消耗的時(shí)間成本不一定小于自主創(chuàng)作的時(shí)間成本。

        3.3 文本到動(dòng)畫的生成

        Disco Diffusion在文本跨模態(tài)生成多幅圖像時(shí),支持將不同描述的圖像連接成視頻。雖然AIGC 視頻內(nèi)容對畫面的銜接平滑流暢,但由于視頻生成技術(shù)尚不成熟,只能完成推拉、旋轉(zhuǎn)等單一的鏡頭切換效果,且動(dòng)畫內(nèi)容會(huì)有明顯的抖動(dòng)、變形。

        清華大學(xué)與智源實(shí)驗(yàn)室聯(lián)合發(fā)布的Cog Video是首個(gè)開源的文本生成視頻模型 (只支持中文輸入),直接采用“文本-低幀視頻對”來對計(jì)算機(jī)進(jìn)行訓(xùn)練,能夠生成較為流暢的短視頻,其生成案例見圖8 。

        圖8 Cog Video生成的 “文字-視頻”案例[17]

        谷歌團(tuán)隊(duì)連續(xù)發(fā)布了在視頻分辨率、3D 圖像生成具有優(yōu)勢的Imagen Video和擅長生成長鏡頭(長達(dá)2分鐘以上)講故事的Phenaki,后者在空間透視關(guān)系與合理性方面取得了巨大提升 (圖9),但兩者尚未開源。

        圖9 Phenaki在講述故事時(shí)考慮到了反射、交互、遮擋以及場景過渡[18]

        雖然基于文本或 “文本+視頻”生成視頻的AIGC技術(shù)在分辨率、流暢性、合理性、故事性各方面都取得了迅速突破,但相較于傳統(tǒng)方式拍攝的視頻/動(dòng)畫效果還有一定差距。

        4 多模態(tài)AIGC動(dòng)畫的前景

        4.1 技術(shù)層面

        (1)構(gòu)建更廣的語義網(wǎng)絡(luò),應(yīng)對不同場景的語義偏差

        增加AIGC對于上下文及全局的聯(lián)系,根據(jù)語義推斷最匹配的理解方式,從而使得AI更易掌握動(dòng)畫視覺語言規(guī)律,針對特定事件、背景作出更準(zhǔn)確的判斷。

        (2)以更少的訓(xùn)練樣本達(dá)成更好的學(xué)習(xí)效果

        提高AI學(xué)習(xí)效率及遷移運(yùn)用的能力,減少對監(jiān)督學(xué)習(xí)的依賴,降低對訓(xùn)練樣本較少的內(nèi)容的誤判率。尤其在“文本-視頻”訓(xùn)練樣本有限的情況下,高效運(yùn)用標(biāo)記信息是AIGC視頻的有利支撐。

        (3)二維圖像到三維模型的映射更加精準(zhǔn)

        對于空間、深度的映射更為準(zhǔn)確,為三維動(dòng)畫模型建模、二維動(dòng)畫攝像機(jī)定位創(chuàng)造基礎(chǔ),改善動(dòng)畫主體、鏡頭運(yùn)動(dòng)造成的生成內(nèi)容變形。

        (4)提升系統(tǒng)的抗干擾能力及魯棒性

        增加AIGC對于空間、角度、遮擋、變形的判斷力,增加對噪聲的抵御力,使得生成內(nèi)容更趨平滑穩(wěn)定。

        (5)補(bǔ)充常識(shí)、邏輯信息

        在訓(xùn)練集中引入常識(shí),篩選有效經(jīng)驗(yàn)作為相關(guān)參考,權(quán)衡龐大額外數(shù)據(jù)帶來的 “運(yùn)算效率降低”與“結(jié)果邏輯增強(qiáng)”兩者的關(guān)系。

        4.2 內(nèi)容層面

        (1)作為提供創(chuàng)新思路的參考素材

        AIGC動(dòng)畫擁有基于大數(shù)據(jù)樣本的優(yōu)勢,生成內(nèi)容具有各異性、多樣性、跳躍性,且數(shù)字信息具有便于調(diào)整的優(yōu)勢,可輔助創(chuàng)作者尋找創(chuàng)新思路。

        (2)作為抽象藝術(shù)內(nèi)容象征

        AIGC 動(dòng)畫系統(tǒng)穩(wěn)定性不足導(dǎo)致畫面出現(xiàn)非邏輯性的抖動(dòng)、變換;而這樣的抽象藝術(shù)恰好符合用于刻畫意識(shí)與夢這樣光怪陸離的表現(xiàn)手法,可利用這種性質(zhì)作為抽象藝術(shù)的體現(xiàn)。

        (3)作為動(dòng)畫序列幀的初始版本

        將AIGC圖像作為關(guān)鍵幀,或視頻分割為動(dòng)畫序列幀,手動(dòng)修改不合理、與目標(biāo)不匹配的部分,保留并提取可借鑒部分,在此基礎(chǔ)上進(jìn)行二次創(chuàng)作。

        4.3 市場層面

        (1)引入動(dòng)畫制作流程

        對于生成文本而言,可服務(wù)于編??;對于生成圖像而言,可服務(wù)于概念設(shè)計(jì);對于生成動(dòng)畫而言,可服務(wù)于原畫師、動(dòng)畫師。AIGC 技術(shù)趨于成熟后,有望正式作為動(dòng)畫制作流程的一部分,或增加基于AI 訓(xùn)練、AI 描述的額外崗位。

        (2)改變市場供給關(guān)系

        需求者與創(chuàng)作者身份會(huì)相互流通:部分原本不具供給實(shí)力的需求方利用 AIGC 轉(zhuǎn)變?yōu)閮?nèi)容的提供方,對于部分創(chuàng)作者不善使用AIGC 又渴望嘗試,會(huì)流向需求一方。

        (3)增加崗位對綜合性人才的粘性

        動(dòng)畫的綜合性特征由于人工智能的飛速進(jìn)步而得到顯現(xiàn),對于崗位人才的能力需求不再是單一能力,而更趨向于綜合性方向。

        4.4 倫理層面

        (1)版權(quán)問題

        AIGC模型進(jìn)行學(xué)習(xí)、訓(xùn)練的樣本庫來自網(wǎng)絡(luò)大量的數(shù)據(jù)信息,生成內(nèi)容是基于樣本信息的再創(chuàng)作。雖然部分模型官方以付費(fèi)方式出售生成內(nèi)容的使用版權(quán),但對于樣本的原作者是否構(gòu)成侵權(quán)卻無法界定。如將AIGC 投入動(dòng)畫生產(chǎn),需在生成內(nèi)容上調(diào)整修改,不直接套用。

        目前國內(nèi)缺少明文條例用以說明AIGC 的版權(quán)問題,依照其快速發(fā)展的趨勢,可期望于未來完善體制,保障原創(chuàng)者的權(quán)益。

        (2)安全問題

        AIGC追求還原真實(shí)性,若被不法分子利用生成違法信息、宣傳虛假內(nèi)容會(huì)造成嚴(yán)重后果,模型供應(yīng)方需對文本敏感詞匯進(jìn)行屏蔽,產(chǎn)出數(shù)據(jù)需要第三方合理監(jiān)管、跟蹤。

        4.5 總結(jié)

        AIGC的跨模態(tài)生成、多模態(tài)轉(zhuǎn)換算法真正融入動(dòng)畫產(chǎn)業(yè)生產(chǎn)還需克服一定的困難,但隨著技術(shù)與體制的完善,借助AIGC 賦能動(dòng)畫藝術(shù)創(chuàng)作未來可期。

        注釋

        ①循環(huán)神經(jīng)網(wǎng)絡(luò)RNN:全稱為Recurrent Neural Network,是一類以序列數(shù)據(jù)為輸入,按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。

        ②卷積神經(jīng)網(wǎng)絡(luò)CNN:全稱為Convolutional Neural Networks,是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。

        ③A-pose:指人物直立,大臂向下30 度的一種標(biāo)準(zhǔn)角色姿勢。

        猜你喜歡
        語義模態(tài)動(dòng)畫
        做個(gè)動(dòng)畫給你看
        動(dòng)畫發(fā)展史
        語言與語義
        我的動(dòng)畫夢
        文苑(2019年22期)2019-12-07 05:28:56
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        我是動(dòng)畫迷
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語義模糊
        由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        国产伦理一区二区久久精品 | 巨臀中文字幕一区二区| 日本a级大片免费观看| 人人爽亚洲aⅴ人人爽av人人片| 蜜桃av观看亚洲一区二区| 亚洲区一区二区三区四| 人妻少妇中文字幕久久hd高清| 久久免费亚洲免费视频| 91精品国产综合久久青草| 无码熟妇人妻av在线c0930| 一区二区免费中文字幕| 国产成人精品一区二区不卡| 亚洲一区二区免费在线观看视频| 欧美成人精品第一区| 国产乱对白刺激视频| 国产绳艺sm调教室论坛| 久久久国产一区二区三区四区小说 | 亚洲a∨好看av高清在线观看 | 人妻少妇av中文字幕乱码| 男女视频在线观看一区| 国产成人a∨激情视频厨房| 丰满少妇在线观看网站| 欧美亚洲尤物久久综合精品| 亚洲国产成人精品一区刚刚| 日韩一区av二区三区| 日韩丰满少妇无码内射| 成人做爰视频www| 99热在线精品播放| 日韩精品久久久中文字幕人妻 | 欧美成人高清手机在线视频| 国产护士一区二区三区| 天堂网站一区二区三区| 精品无码无人网站免费视频| 亚洲av国产精品色午夜洪2| 美女黄18以下禁止观看| 亚洲色图综合免费视频| 91精品国产综合久久久蜜臀九色| 亚洲中文字幕国产视频| 中文字幕人妻av一区二区| 久久国产精品二区99| 久久少妇呻吟视频久久久|