毛文濤,吳桂芳,吳超,竇智,2
基于中國寫意風(fēng)格遷移的動漫視頻生成模型
毛文濤1,2*,吳桂芳1,吳超1,竇智1,2
(1.河南師范大學(xué) 計算機與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實驗室(河南師范大學(xué)),河南 新鄉(xiāng) 453007)( ? 通信作者電子郵箱maowt@htu.edu.cn)
目前生成式對抗網(wǎng)絡(luò)(GAN)已經(jīng)被用于圖像的動漫風(fēng)格轉(zhuǎn)換。然而,現(xiàn)有基于GAN的動漫生成模型主要以日本動漫和美國動漫為對象,集中在寫實風(fēng)格的提取與生成,很少關(guān)注到中國風(fēng)動漫中寫意風(fēng)格的遷移,因此限制了GAN在國內(nèi)廣大動漫制作市場中的應(yīng)用。針對這一問題,通過將中國寫意風(fēng)格融入到GAN模型,提出了一種新的中國風(fēng)動漫生成式對抗網(wǎng)絡(luò)模型CCGAN,用以自動生成具有中國寫意風(fēng)格的動漫視頻。首先,通過在生成器中增加反向殘差塊,構(gòu)造了一個輕量級的深度神經(jīng)網(wǎng)絡(luò)模型,以降低視頻生成的計算代價。其次,為了提取并遷移中國寫意風(fēng)格中圖像邊緣銳利、內(nèi)容構(gòu)造抽象、描邊線條具有水墨質(zhì)感等性質(zhì),在生成器中構(gòu)造了灰度樣式損失和顏色重建損失,以約束真實圖像和中國風(fēng)樣例圖像在風(fēng)格上的高層語義一致性,并且在判別器中構(gòu)造了灰度對抗損失和邊緣促進對抗損失,以約束重構(gòu)圖像與樣例圖像保持相同的邊緣特性。最終,采用Adam算法最小化上述損失函數(shù),從而實現(xiàn)風(fēng)格遷移,并將重構(gòu)圖像組合為視頻。實驗結(jié)果表明,與目前最具代表性的風(fēng)格遷移模型CycleGAN與CartoonGAN相比,所提CCGAN可從以《中國唱詩班》為例的中國風(fēng)動漫中有效地學(xué)習(xí)到中國寫意風(fēng)格,同時顯著降低了計算代價,適合于大批量動漫視頻的快速生成。
生成式對抗網(wǎng)絡(luò);中國風(fēng)動漫;風(fēng)格遷移;卡通;深度神經(jīng)網(wǎng)絡(luò)
“十三五”時期以來,國內(nèi)動漫產(chǎn)業(yè)發(fā)展勢頭迅猛,類型和題材日趨多元化,關(guān)注和消費國產(chǎn)動漫(簡稱“國漫”)的群體日漸增多。發(fā)展國漫產(chǎn)業(yè)對于滿足國民精神文化需求、傳播先進文化具有重要意義。在眾多國漫類型中,“中國風(fēng)”動漫在場景繪制上強調(diào)將中國傳統(tǒng)的工筆畫意與水墨渲染相融合,呈現(xiàn)出有別于外國手繪工具和意境的創(chuàng)作效果,已被采用在《中國唱詩班》《哪吒之魔童降世》《白蛇》等多部影視作品中,并取得了票房和口碑雙豐收,無疑增加了觀眾對作品的認(rèn)同感,也提高了作品的文化影響力和市場價值,反映出巨大的市場潛力。傳統(tǒng)中國風(fēng)國漫創(chuàng)作極大依賴于專業(yè)的繪畫技巧,需要反復(fù)斟酌圖像的顏色、紋理、樣式、線條來得到高質(zhì)量圖像,因此一定程度上制約了國漫產(chǎn)品的創(chuàng)作效率,同時對主創(chuàng)人群的繪畫專業(yè)性要求較高。近年來,人工智能技術(shù)被引入動漫創(chuàng)作領(lǐng)域,用來實現(xiàn)真實圖像到動漫樣式圖像的自動轉(zhuǎn)換,不僅節(jié)約創(chuàng)作時間,同時也可以讓動漫愛好者自己進行“作畫”,極大程度促使創(chuàng)作者能擺脫繪圖技巧的束縛,更關(guān)注內(nèi)容創(chuàng)作。如何進一步優(yōu)化人工智能技術(shù)、提升國漫生成質(zhì)量和風(fēng)格特點,已成為當(dāng)前國內(nèi)學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注熱點。
本文關(guān)注的是基于人工智能的動漫藝術(shù)風(fēng)格遷移問題。該問題可描述為:對于輸入的真實圖像,通過遷移給定樣例圖像的藝術(shù)風(fēng)格,在原始圖像上實現(xiàn)風(fēng)格重構(gòu)。目前深度學(xué)習(xí)技術(shù)已在動漫藝術(shù)風(fēng)格遷移領(lǐng)域取得了突破性的進展,其中Goodfellow等[1]提出的生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)通過生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的相互對抗和優(yōu)化,在圖像風(fēng)格遷移方面取得了里程碑式的成果,也被成功應(yīng)用于解決動漫藝術(shù)風(fēng)格遷移問題。但是,根據(jù)分析可知,目前基于GAN的動漫風(fēng)格遷移方法對于日本動漫(簡稱“日漫”)和美國動漫(簡稱“美漫”)具有較好的生成效果,對于國漫、尤其是具有寫意風(fēng)格的中國風(fēng)動漫生成效果不佳,主要原因在于日漫和美漫側(cè)重于寫實,國漫則側(cè)重于寫意,在內(nèi)容和表現(xiàn)形式方面均存在明顯差別?,F(xiàn)有基于GAN的動漫風(fēng)格遷移方法側(cè)重于實現(xiàn)內(nèi)容結(jié)構(gòu)的重構(gòu),忽略了對風(fēng)格、樣式的信息提取與遷移,若直接應(yīng)用于中國寫意風(fēng)格遷移,則容易產(chǎn)生以下問題:1)生成圖像過于寫實,缺少形神描述和意境刻畫;2)現(xiàn)有風(fēng)格遷移方法傾向于對圖像整體背景而不是具體物體對象進行顏色渲染,生成的圖像與原始圖像容易產(chǎn)生明顯的整體色差,失真明顯;3)網(wǎng)絡(luò)模型具有大量參數(shù),訓(xùn)練慢,不穩(wěn)定,不適合于快速生成動漫視頻,而且隨著國內(nèi)動漫產(chǎn)業(yè)的高速發(fā)展,動漫視頻的生成效率也成為另一個需要關(guān)注的問題。
圖1給出了三種風(fēng)格動漫的示例,可以看出,注重寫實的日漫和美漫追求物象的質(zhì)感,強調(diào)事物形態(tài)的真實性,動畫圖像顏色飽和,線條銳利;寫意的中國風(fēng)動漫注重描繪物象的形神,追求深邃含蓄的意境,而且圖像內(nèi)容構(gòu)造簡單,有水墨質(zhì)感的描邊線條,整體色彩具有朦朧含蓄的古典韻味。由此可見,若要實現(xiàn)中國風(fēng)動漫的風(fēng)格遷移,需要進一步優(yōu)化GAN模型,在保持內(nèi)容還原的基礎(chǔ)上,有效提取和表示中國寫意風(fēng)格,同時還應(yīng)降低圖像重構(gòu)成本,以提高視頻自動生成的效率。
圖1 不同動漫風(fēng)格比較
基于上述分析,本文提出了一種新的中國風(fēng)動漫生成對抗網(wǎng)絡(luò)模型CCGAN(Chinese Cartoon GAN),用于實現(xiàn)面向視頻的中國寫意風(fēng)格遷移。首先,通過在生成器中增加反向殘差塊,構(gòu)建一個輕量級的GAN模型,以降低視頻生成的計算代價;其次,對原始視頻提取關(guān)鍵幀圖像,針對圖像的內(nèi)容、樣式、色彩、紋理信息,在生成器中構(gòu)造了灰度樣式損失和顏色重建損失,在判別器中構(gòu)造了灰度對抗損失和邊緣促進對抗損失,以約束重構(gòu)圖像與樣例圖像保持相同的邊緣特性,并保持原始視頻圖像和中國風(fēng)樣例圖像在風(fēng)格上的高層語義一致性;最終,采用Adam算法最小化上述損失函數(shù),實現(xiàn)圖像風(fēng)格遷移,并將重構(gòu)圖像組合為視頻。本文以《中國唱詩班》系列國漫為樣例圖像進行實驗,實驗結(jié)果表明,與現(xiàn)有代表性的動漫風(fēng)格遷移方法相比,所提CCGAN可在保持原始圖像真實度的前提下,有效提升圖像的寫意特點,且色塊過渡流暢,更能凸顯中國傳統(tǒng)美學(xué)的意蘊風(fēng)格,同時計算代價更小,適用于數(shù)據(jù)量較大的視頻生成。
本文的主要工作是提出了一種輕量級的中國寫意風(fēng)格動漫視頻生成模型。該模型可有效降低中國風(fēng)動漫創(chuàng)作中繪畫技巧的約束性,協(xié)助主創(chuàng)人員專注于題材和情節(jié)創(chuàng)作,提高藝術(shù)創(chuàng)作效率,也可幫助沒有專業(yè)繪畫技巧的國漫愛好者快速創(chuàng)作高質(zhì)量的中國風(fēng)動漫。該模型的技術(shù)新意和優(yōu)勢在于:1)突破了現(xiàn)有GAN局限在紋理和邊界線重構(gòu)的做法,在特征級別上高度簡化了真實圖像的復(fù)雜構(gòu)造,使得重構(gòu)后的生成圖像在結(jié)構(gòu)上保持原始圖像的內(nèi)容特點,又融入了樣例圖像的寫意風(fēng)格;2)使用無匹配的源數(shù)據(jù)進行訓(xùn)練,主要學(xué)習(xí)樣例圖像的藝術(shù)風(fēng)格,無需強制要求原始圖像和樣例圖像的內(nèi)容保持相關(guān),因而擴大了模型的適用范圍;3)具有輕量級模型結(jié)構(gòu),風(fēng)格遷移的速度快,適用于數(shù)據(jù)量較大的視頻風(fēng)格重構(gòu)。
動漫風(fēng)格遷移的主要目的是通過學(xué)習(xí)樣例圖像的風(fēng)格信息,將提取的樣式特征映射到原始圖像中,以生成具備特定風(fēng)格的目標(biāo)圖像?;谌斯ぶ悄艿膭勇L(fēng)格遷移工作,按照實現(xiàn)方法的特點不同,可分為神經(jīng)風(fēng)格遷移和基于GAN的風(fēng)格遷移兩種類型。
神經(jīng)風(fēng)格遷移主要通過迭代優(yōu)化的策略,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣例圖像的樣式并映射到原始圖像中。目前,此類方法主要包括基于圖像優(yōu)化的慢速神經(jīng)網(wǎng)絡(luò)方法和基于模型優(yōu)化的快速神經(jīng)網(wǎng)絡(luò)方法[2]。
基于圖像優(yōu)化的方法是從原始圖像和樣例圖像中提取各自的圖像特征,然后結(jié)合生成目標(biāo)圖像,并通過迭代優(yōu)化重建的目標(biāo)圖像,以實現(xiàn)風(fēng)格遷移的效果。其中,Gatys等[3-4]使用Gram矩陣在深層特征中進行約束,提高了紋理表示效果;Yin[5]使用深度卷積神經(jīng)網(wǎng)絡(luò)[6]提取生成圖像與內(nèi)容圖像的特征,提高生成圖像的分辨率。但是,此類方法主要適用于繪畫的風(fēng)格遷移[7],對于動畫樣式、攝影樣式、水墨樣式等其他類型的風(fēng)格遷移效果不佳。此外,此類方法計算效率較低,不適用于面向視頻的風(fēng)格遷移。
基于模型優(yōu)化的方法主要采用快速重建圖像技術(shù)[8]的思想,利用大量的源數(shù)據(jù)來訓(xùn)練模型的參數(shù)和結(jié)構(gòu),并在迭代過程中不斷優(yōu)化網(wǎng)絡(luò)模型,以直接生成高質(zhì)量目標(biāo)圖像。此類方法通過模型的直接轉(zhuǎn)換提高了計算效率,適用于數(shù)據(jù)量大的視頻重構(gòu)。但是,此類模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練過程中參數(shù)存儲空間和訓(xùn)練時間比較多,較適用于特定的樣式轉(zhuǎn)換任務(wù),應(yīng)用范圍有限。
自從GAN模型被提出,基于GAN的圖像轉(zhuǎn)換[9]就成為計算機視覺領(lǐng)域的研究熱點。文獻[10-11]中提出了結(jié)合cGAN(conditional GAN)和U-Net神經(jīng)網(wǎng)絡(luò)的Pix2Pix模型來實現(xiàn)圖像間的轉(zhuǎn)換,該方法在圖像的語義合成[12]、邊緣重建以及圖像著色等方面效果顯著。作為圖像風(fēng)格轉(zhuǎn)換的代表性成果之一,CycleGAN[13]采用循環(huán)一致性的無監(jiān)督遷移網(wǎng)絡(luò)模型,突破了原始數(shù)據(jù)和樣例數(shù)據(jù)內(nèi)容匹配的限制,擴大了原始數(shù)據(jù)的獲取范圍,同時可以高質(zhì)量地進行圖像重構(gòu)。而作為基于GAN的動漫風(fēng)格轉(zhuǎn)換開創(chuàng)性工作,CartoonGAN[14]提出了適用于漫畫化的兩種損失函數(shù)來約束特定風(fēng)格的提取,該模型有效實現(xiàn)了真實照片到動漫風(fēng)格的遷移。在CartoonGAN的基礎(chǔ)上,文獻[15-16]中提出了將視頻轉(zhuǎn)換為漫畫風(fēng)格的方案,轉(zhuǎn)化過程主要分為兩個階段:首先,采用視頻關(guān)鍵幀提取算法從視頻中選擇幀的子集以提供全面的視頻上下文;然后,使用風(fēng)格遷移方法將提取到的幀轉(zhuǎn)換成漫畫。
雖然基于GAN的風(fēng)格遷移方法[17]已經(jīng)取得了較好效果,但仍然存在一些問題:1)現(xiàn)有方法主要適用于寫實的日漫和美漫的動漫藝術(shù)風(fēng)格,側(cè)重于內(nèi)容結(jié)構(gòu)的還原和重構(gòu),忽略了對風(fēng)格、樣式的提取與遷移;2)現(xiàn)有方法缺乏對圖像中具體物體、對象的色彩渲染,往往直接對整個圖像進行風(fēng)格轉(zhuǎn)換,這無疑將導(dǎo)致整體風(fēng)格失真,表現(xiàn)為色調(diào)不均衡、重構(gòu)后的生成圖像與原始圖像色彩差異過大,呈現(xiàn)出重墨重彩的傾向,無法體現(xiàn)深邃含蓄的寫意風(fēng)格;3)網(wǎng)絡(luò)模型具有大量的參數(shù),訓(xùn)練慢,不穩(wěn)定,不適合數(shù)據(jù)量較大的視頻重構(gòu)。寫意的中國風(fēng)動畫更注重描繪物象的形神,看重圖像的樣式特征,但現(xiàn)有基于GAN的風(fēng)格遷移方法無法有效表現(xiàn)出中國風(fēng)動畫朦朧含蓄的古典美學(xué)意境。
本文提出了一種輕量級的中國風(fēng)動漫視頻生成模型CCGAN。該模型以大量的真實圖像和動漫樣例圖像作為訓(xùn)練數(shù)據(jù),建立真實圖像域和樣式圖像域的映射模型,再對需要轉(zhuǎn)換的原始視頻提取關(guān)鍵幀,輸入該模型,最后合并得到風(fēng)格轉(zhuǎn)換后的動畫視頻。該模型允許訓(xùn)練用中國風(fēng)樣例圖像與原始圖像的內(nèi)容無需匹配,側(cè)重于進行風(fēng)格樣式信息的提取和遷移,主要包括兩部分:1)構(gòu)建輕量級的網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)端到端的快速圖像重構(gòu);2)提取并遷移樣式、內(nèi)容、紋理等方面的特征,在內(nèi)容重構(gòu)的同時實現(xiàn)寫意風(fēng)格的遷移。
GAN是一種由生成器網(wǎng)絡(luò)()和判別器網(wǎng)絡(luò)()組成的生成式機器學(xué)習(xí)模型,其結(jié)構(gòu)如圖2所示。GAN基于零和博弈理論,通過和的迭代對抗,最終達(dá)到納什均衡,得到最優(yōu)網(wǎng)絡(luò)模型。GAN的目標(biāo)函數(shù)如式(1)所示:
其中:z是服從某一分布的隨機噪聲,作為生成器G的源輸入;G通過學(xué)習(xí)真實數(shù)據(jù)的分布,生成接近真實數(shù)據(jù)的圖像,企圖騙過判別器D;生成的圖像和真實圖像作為D的輸入,D則負(fù)責(zé)區(qū)分出輸入數(shù)據(jù)的真假;根據(jù)D的區(qū)分情況反向調(diào)整G的參數(shù),從而使得G生成更高質(zhì)量的數(shù)據(jù)。在上述對抗訓(xùn)練過程中,G和D的學(xué)習(xí)能力不斷提高,最終達(dá)到納什均衡,G生成的偽數(shù)據(jù)符合真實的數(shù)據(jù)分布,GAN達(dá)到最優(yōu)生成效果。
現(xiàn)有用于圖像風(fēng)格遷移的GAN模型[10-11,13]通常在生成器中使用了具有多個卷積層的深度網(wǎng)絡(luò)來提取圖像特征,卷積核數(shù)量多,模型結(jié)構(gòu)復(fù)雜,運行速度慢,不適合于數(shù)據(jù)量較大的視頻生成。本文所提CCGAN以減少GAN計算代價為目標(biāo),在圖像特征轉(zhuǎn)換時使用反向殘差塊(Inverted Residual Blocks, IRBs)代替卷積層,模型參數(shù)少,計算代價較低,同時能夠較好地轉(zhuǎn)換圖像特征。CCGAN的整體結(jié)構(gòu)如圖3所示,模型中生成器和判別器同樣采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。其中,“k”代表內(nèi)核大小,“c”代表特征圖的數(shù)量,“s”代表每個卷積核跨度,IRB表示反向卷積塊,Conv表示卷積層,DSConv表示深度可分離卷積,Down-Conv和UP-Conv分別表示下采樣和上采樣卷積,SUM表示逐元素相加,LN表示層歸一化,采用LReLU(Leaky Rectified Linear Unit)激活函數(shù)。需要強調(diào)的是,圖3中為了計算圖像語義特征的相似性,CCGAN在生成器中引入了預(yù)訓(xùn)練的VGG19,以獲得生成圖像和原始圖像的高層語義特征。
圖4(a)采用了對稱的Encoder-Decoder網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)通過將圖像進行編碼、轉(zhuǎn)換、解碼,將真實圖像轉(zhuǎn)換為具有中國風(fēng)樣式的動漫圖像。編碼和解碼的作用在于從輸入圖像提取特征和生成圖像;轉(zhuǎn)換的作用在于把圖像的特征向量從域(原始圖像)轉(zhuǎn)換為域(生成圖像),具體解釋如下。
圖3 CCGAN模型結(jié)構(gòu)
圖4 CCGAN中的生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)
相較于現(xiàn)有的標(biāo)準(zhǔn)殘差塊,圖5中構(gòu)建IRB模型的網(wǎng)絡(luò)參數(shù)數(shù)量和計算代價均有明顯減少。本文在圖4所示生成器網(wǎng)絡(luò)中連續(xù)使用了5個相同的IRB,有效減少了生成器網(wǎng)絡(luò)的參數(shù)數(shù)量,這是建立輕量級CCGAN模型的核心環(huán)節(jié)。
圖5 Conv-Block、DSConv、IRB的詳細(xì)結(jié)構(gòu)
圖4(b)所示的判別器網(wǎng)絡(luò)結(jié)構(gòu)相對簡單。該網(wǎng)絡(luò)中,卷積層均為標(biāo)準(zhǔn)卷積,每個卷積層使用譜歸一化來解決GAN訓(xùn)練不穩(wěn)定的問題,從“層參數(shù)”的角度施加規(guī)格化,從而使判別器網(wǎng)絡(luò)具備Lipschitz連續(xù)條件。網(wǎng)絡(luò)最后通過一維輸出的卷積層判別圖像來自真實目標(biāo)域還是來自生成器產(chǎn)生的輸出。
圖6 Down-Conv、Up-Conv的詳細(xì)結(jié)構(gòu)
為了讓圖3所示網(wǎng)絡(luò)可生成中國寫意風(fēng)格的圖像,針對圖像的內(nèi)容、顏色、樣式、紋理等方面構(gòu)建了相應(yīng)的損失函數(shù):在生成器網(wǎng)絡(luò)中,構(gòu)建灰度樣式損失和色彩重建損失,使得生成的圖像具有風(fēng)格圖像的樣式并保留源圖像的顏色;在判別器網(wǎng)絡(luò)中,構(gòu)建灰度對抗損失和邊緣促進對抗性損失,使得生成的圖像具有鮮艷的色彩并保留清晰的邊緣。以下分別做介紹。
對于生成器網(wǎng)絡(luò),損失函數(shù)可表示為:
對式(1)中的各個部分介紹如下:
對于判別器網(wǎng)絡(luò),為促使生成圖像符合中國風(fēng)邊緣銳利的樣式特點,CCGAN使用了邊緣促進對抗損失,用來實現(xiàn)對弱化邊緣的鑒別;為了防止產(chǎn)生灰度的生成圖像,CCGAN使用了灰度對抗損失。判別器網(wǎng)絡(luò)的損失函數(shù)可表示為:
整合式(2)~(3),CCGAN的整體目標(biāo)函數(shù)可表示為:
式(4)可通過Adam算法進行求解,限于篇幅,優(yōu)化過程不再贅述,可參考文獻[21]。由于基礎(chǔ)GAN訓(xùn)練過程不穩(wěn)定,在正式訓(xùn)練CCGAN之前,可先對生成器網(wǎng)絡(luò)進行預(yù)訓(xùn)練,提高收斂性能。當(dāng)CCGAN達(dá)到納什均衡時,可得到最優(yōu)模型參數(shù),此時對待轉(zhuǎn)換的原始視頻提取關(guān)鍵幀并輸入CCGAN進行風(fēng)格轉(zhuǎn)換,最后將轉(zhuǎn)換后的各幀圖像合并為具有中國寫意風(fēng)格的視頻。
圖7 《中國唱詩班》動畫圖像示例
在CCGAN訓(xùn)練階段,生成器的學(xué)習(xí)率為0.000 08、判別器的學(xué)習(xí)率為0.000 16,訓(xùn)練epochs為80,batch size設(shè)置為15。CCGAN實驗所用電腦配置為Xeon CPU E5-2650 2.60 GHz,內(nèi)存64 GB,GPU為Tesla K40m,編程環(huán)境為Tensorflow-GPU 1.15。
CCGAN包括了內(nèi)容、樣式、紋理、色彩的多個損失項,因此需要通過權(quán)重來合理平衡式(2)中各損失項對生成圖像的影響。其中:最小化內(nèi)容損失將使得生成圖像保持源圖像的內(nèi)容,其權(quán)重越大則生成圖像越接近真實圖像;灰度樣式損失使得生成圖像具有中國風(fēng)紋理特點,其權(quán)重設(shè)置太大將會丟失源圖像的局部內(nèi)容;顏色重建損失使得生成圖像的色彩更加真實,但是其權(quán)重太大會減弱圖像的動畫視覺效果。
圖8 對抗損失權(quán)重的定量分析
圖9 灰度樣式損失權(quán)重和內(nèi)容損失權(quán)重的定量分析
圖10 顏色重建損失權(quán)重的定量分析
此外,訓(xùn)練輪次(Epoch)對于風(fēng)格遷移效果有較大的影響,尤其是對于色差較大的圖像,當(dāng)訓(xùn)練過度時,其邊緣部分會出現(xiàn)白邊,影響觀感。圖12給出了不同訓(xùn)練輪次的遷移效果。由圖12可以看出,當(dāng)訓(xùn)練輪次低于81輪時,沒有白邊出現(xiàn),而當(dāng)訓(xùn)練超過81輪后,白邊開始顯現(xiàn),并且隨著輪次的增加,白邊效果愈加明顯。這表明圖像邊緣白邊可以通過訓(xùn)練輪次進行控制。
圖11 中國寫意風(fēng)格遷移的結(jié)果示例
圖12 CCGAN采用不同訓(xùn)練輪次的風(fēng)格遷移效果
本文的視頻生成效果可見鏈接:https://www.bilibili.com/video/BV1LA411G7LW?pop_share=1和https://www.bilibili.com/video/BV1S64y1B7Gt。
為了驗證CCGAN的性能優(yōu)勢,將其與目前最具代表性的兩個圖像風(fēng)格遷移模型CycleGAN與CartoonGAN進行比較,結(jié)果如圖13所示。其中,CartoonGAN為專門針對動漫圖像的風(fēng)格遷移方法?,F(xiàn)有具有代表性的兩個圖像質(zhì)量評價指標(biāo)峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性指標(biāo)(Structural SIMilarity index, SSIM)并不適合評價圖像風(fēng)格遷移效果,原因如下:1)PSNR和SSIM主要用于評價圖像結(jié)構(gòu)的相似性;2)PSNR是一種誤差敏感的圖像質(zhì)量評價指標(biāo),計算主要基于對應(yīng)像素點間的誤差,并未考慮到人眼的視覺特性,因而經(jīng)常出現(xiàn)評價結(jié)果與人的主觀感覺不一致的情況;3)SSIM從樣本間的亮度、對比度和結(jié)構(gòu)三方面進行相似度衡量,更適合用于評估壓縮后的圖像質(zhì)量;4)風(fēng)格遷移是一種“無中生有”的過程,除了要契合原圖像內(nèi)容,而且還要符合目標(biāo)圖像的風(fēng)格特點。以上各原因決定了對于寫意風(fēng)格的中國風(fēng)動畫,客觀的PSNR和SSIM指標(biāo)并不能很好地反映人眼看到的動畫藝術(shù)質(zhì)量,指標(biāo)高并不代表遷移效果好。本文參考了CycleGAN和CartoonGAN的做法,由人工直接評估風(fēng)格遷移效果。
圖13 CycleGAN、CartoonGAN、CCGAN生成圖像的效果比較
圖13中,CycleGAN基于循環(huán)一致性的設(shè)計結(jié)構(gòu),注重圖像間像素級別的相似性,由CycleGAN生成的圖像高度還原了輸入圖像的內(nèi)容,但缺乏明顯的中國風(fēng)樣式特點;CartoonGAN與CCGAN均基于圖像間的語義一致性,但是CartoonGAN生成的圖像整體色調(diào)與輸入圖像不符,并且圖像的樣式風(fēng)格也沒有契合水墨質(zhì)感的寫意風(fēng)格;相比之下,CCGAN不僅有效保留了真實圖像的內(nèi)容,而且生成圖像具有典型的寫意風(fēng)格特點。
表1 CartoonGAN與CCGAN的性能比較
為實現(xiàn)中國風(fēng)動漫視頻的自動生成,本文提出了一種輕量級的CCGAN模型。該模型可在較短的時間內(nèi)完成現(xiàn)實世界的真實圖像到給定動漫樣例圖像的風(fēng)格轉(zhuǎn)換,適合于數(shù)據(jù)量較大的視頻風(fēng)格重構(gòu)。通過IRB的引入,CCGAN實現(xiàn)了模型的輕量級構(gòu)建;通過對圖像內(nèi)容、樣式、紋理、色彩的信息提取與約束,CCGAN完成了中國寫意風(fēng)格中圖像邊緣銳利、內(nèi)容構(gòu)造抽象、描邊線條具有水墨質(zhì)感等性質(zhì)的重構(gòu),實現(xiàn)了高質(zhì)量的中國寫意風(fēng)格遷移。
接下來的工作中,實現(xiàn)高質(zhì)量的任意風(fēng)格快速遷移技術(shù)將是一個有挑戰(zhàn)性的研究方向,這有助于提高風(fēng)格遷移模型的適用性。同時,該模型在應(yīng)用于不同風(fēng)格的圖像時需做一定量的參數(shù)調(diào)整,如何提高模型的自適應(yīng)性和魯棒性也是一個需要解決的問題。
[1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks [C]// Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.
[2] 陳淮源,張廣馳,陳高,等.基于深度學(xué)習(xí)的圖像風(fēng)格遷移研究進展[J].計算機工程與應(yīng)用,2021,57(11):37-45.(CHEN H Y, ZHANG G C, CHEN G, et al. Research progress of image style transfer based on deep learning [J]. Computer Engineering and Applications, 2021, 57(11): 37-45.)
[3] GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16(12): Article No.326.
[4] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2414-2423.
[5] YIN R J. Content aware neural style transfer [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1601.04568.pdf
[6] WANG X, OXHOLM G, ZHANG D, et al. Multimodal transfer: a hierarchical deep convolutional neural network for fast artistic style transfer [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 7178-7186.
[7] NOVAK R, NIKULIN Y. Improving the neural algorithm of artistic style [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1605.04603.pdf.
[8] 錢小燕,肖亮,吳慧中.快速風(fēng)格遷移[J].計算機工程,2006,32(21):15-17,46.(QIAN X Y, XIAO L, WU H Z. Fast style transfer[J]. Computer Engineering, 2006, 32(21): 15-17, 46.)
[9] 張恩琪,顧廣華,趙晨,等.生成對抗網(wǎng)絡(luò)GAN的研究進展[J].計算機應(yīng)用研究,2021,38(4):968-974.(ZHANG E Q, GU G H, ZHAO C, et al. Research progress on generative adversarial network [J]. Application Research of Computers, 2021, 38(4): 968-974.)
[10] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5967-5976.
[11] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8798-8807.
[12] LIAO J, YAO Y, YUAN L, et al. Visual attribute transfer through deep image analogy [J]. ACM Transactions on Graphics, 2017, 36(4): Article No.120.
[13] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2242-2251.
[14] CHEN Y, LAI Y K, LIU Y J. CartoonGAN: generative adversarial networks for photo cartoonization [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 9465-9474.
[15] HUANG H Z, WANG H, LUO W H, et al. Real-time neural style transfer for videos [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 7044-7052.
[16] P??KO M, SVYSTUN A, ANDRUSZKIEWICZ P, et al. Comixify: transform video into comics [J]. Fundamenta Informaticae, 2019, 168(2/3/4): 311-333.
[17] 師永超,朱立軍.基于GAN的圖像風(fēng)格遷移研究[J].電子技術(shù)與軟件工程,2020(16):140-143.(SHI Y C, ZHU L J. Research on image style transfer based on GAN [J]. Electronic Technology and Software Engineering, 2020(16): 140-143.)
[18] CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1800-1807.
[19] ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: the missing ingredient for fast stylization [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1607.08022.pdf.
[20] CHEN J, LIU G, CHEN X. AnimeGAN: a novel lightweight GAN for photo animation [C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2019: 242-256.
[21] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1412. 6980.pdf.
MAO Wentao, born in 1980, Ph. D., professor. His research interests include machine learning, temporal big data analysis.
WU Guifang, born in 1997. Her research interests include machine vision, style transfer.
WU Chao, born in 1998, M. S. candidate. His research interests include machine learning, abnormal detection.
DOU Zhi, born in 1984, Ph. D., associate professor. His research interests include machine learning, target detection.
Animation video generation model based on Chinese impressionistic style transfer
MAO Wentao1,2*, WU Guifang1, WU Chao1, DOU Zhi1,2
(1,,453007,;2(),453007,)
At present, Generative Adversarial Network (GAN) has been used for image animation style transformation. However, most of the existing GAN-based animation generation models mainly focus on the extraction and generation of realistic style with the targets of Japanese animations and American animations. Very little attention of the model is paid to the transfer of impressionistic style in Chinese-style animations, which limits the application of GAN in the domestic animation production market. To solve the problem, a new Chinese-style animation GAN model, namely Chinese Cartoon GAN (CCGAN), was proposed for the automatic generation of animation videos with Chinese impressionistic style by integrating Chinese impressionistic style into GAN model. Firstly, by adding the inverted residual blocks into the generator, a lightweight deep neural network model was constructed to reduce the computational cost of video generation. Secondly, in order to extract and transfer the characteristics of Chinese impressionistic style, such as sharp image edges, abstract content structure and stroke lines with ink texture, the gray-scale style loss and color reconstruction loss were constructed in the generator to constrain the high-level semantic consistency in style between the real images and the Chinese-style sample images. Moreover, in the discriminator, the gray-scale adversarial loss and edge-promoting adversarial loss were constructed to constrain the reconstructed image for maintaining the same edge characteristics of the sample images. Finally, the Adam algorithm was used to minimize the above loss functions to realize style transfer, and the reconstructed images were combined into video. Experimental results show that, compared with the current representative style transfer models such as CycleGAN and CartoonGAN, the proposed CCGAN can effectively learn the Chinese impressionistic style from Chinese-style animations such asand significantly reduce the computational cost, indicating that the proposed CCGAN is suitable for the rapid generation of animation videos with large quantities.
Generative Adversarial Network (GAN); Chinese-style animation; style transfer; cartoon; Deep Neural Network (DNN)
This work is partially supported by National Natural Science Foundation of China (U1904123), Key Program of Henan Province Science and Technology Project (212102210103).
TP181
A
1001-9081(2022)07-2162-08
10.11772/j.issn.1001-9081.2021050836
2021?05?21;
2021?08?27;
2021?09?16。
國家自然科學(xué)基金資助項目(U1904123);河南省科技攻關(guān)計劃項目(212102210103)。
毛文濤(1980—),男,河南新鄉(xiāng)人,教授,博士,CCF高級會員,主要研究方向:機器學(xué)習(xí)、時序大數(shù)據(jù)分析; 吳桂芳(1997—),女,河南信陽人,主要研究方向:機器視覺、風(fēng)格遷移; 吳超(1998—),男,河南焦作人,碩士研究生,主要研究方向:機器學(xué)習(xí)、異常檢測; 竇智(1984—),男,河南新鄉(xiāng)人,副教授,博士,主要研究方向:機器學(xué)習(xí)、目標(biāo)檢測。