范林龍,李 毅,張笑欽
關(guān)鍵人臉輪廓區(qū)域卡通風(fēng)格化生成算法
范林龍1,李 毅1,張笑欽2
(1. 溫州大學(xué)計(jì)算機(jī)與人工智能學(xué)院,浙江 溫州 325035; 2. 溫州大學(xué)大數(shù)據(jù)與信息技術(shù)研究院,浙江 溫州 325035)
針對(duì)人臉輪廓特征區(qū)域的局部化限定,結(jié)合關(guān)鍵特征點(diǎn)的提取和臉部鄰近顏色區(qū)域的融合,并引入注意力機(jī)制,提出了一種基于CycleGAN的關(guān)鍵人臉輪廓區(qū)域卡通風(fēng)格化生成算法,以此作為初始樣本構(gòu)建生成對(duì)抗網(wǎng)絡(luò)(GAN)并獲取自然融合的局部卡通風(fēng)格化人臉圖像。利用人臉輪廓及關(guān)鍵特征點(diǎn)進(jìn)行提取,結(jié)合顏色特征信息限定關(guān)鍵人臉風(fēng)格化區(qū)域,并通過(guò)局部區(qū)域二值化生成關(guān)鍵區(qū)域人臉預(yù)處理的采樣圖像;為了使生成圖像能夠自然匹配所提取特征區(qū)域,利用均值濾波操作對(duì)所提取區(qū)域的邊緣輪廓進(jìn)行平滑羽化處理,并相應(yīng)地?cái)U(kuò)展風(fēng)格化生成圖像的過(guò)渡區(qū)域;最后通過(guò)構(gòu)建基于無(wú)監(jiān)督學(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò),使用訓(xùn)練數(shù)據(jù)集進(jìn)行人臉圖像局部輪廓特征區(qū)域的卡通風(fēng)格化生成。算法對(duì)人臉輪廓區(qū)域的邊緣及鄰近區(qū)域顏色進(jìn)行濾波處理,可實(shí)現(xiàn)良好的邊緣輪廓過(guò)渡融合,生成自然的人臉局部輪廓區(qū)域的卡通風(fēng)格化圖像。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)于人臉圖像的生成具有很高的魯棒性,能夠應(yīng)用于各種尺度人臉圖像的風(fēng)格化生成。
人臉特征;局部區(qū)域;對(duì)抗生成網(wǎng)絡(luò);風(fēng)格化
人臉特征已廣泛地應(yīng)用于人臉輪廓提取、分割、識(shí)別[1-3]、檢索[4-5]和分類(lèi)等眾多研究領(lǐng)域。作為人體自然特征最重要的表征區(qū)域,人臉輪廓和關(guān)鍵器官特征點(diǎn)的提取技術(shù),對(duì)于人體的生物識(shí)別、目標(biāo)跟蹤和行為分析具有非常重要的理論價(jià)值。尤其是在基于機(jī)器視覺(jué)技術(shù)的人工智能領(lǐng)域,快速并準(zhǔn)確的人臉特征提取經(jīng)常作為算法的首要條件之一。
近年來(lái),基于特征提取的人臉關(guān)鍵區(qū)域風(fēng)格化生成技術(shù)受到了市場(chǎng)的極大關(guān)注[6-7]。涌現(xiàn)了一大批基于人臉區(qū)域特征提取的應(yīng)用技術(shù)[8-9],如人臉圖像的編輯美化、視頻人臉風(fēng)格貼圖、“變臉”(Deepfakes)等,在影視娛樂(lè)、動(dòng)漫游戲、廣告宣傳領(lǐng)域得到了廣泛應(yīng)用。采用傳統(tǒng)的圖像處理技術(shù),能夠?qū)崿F(xiàn)人臉關(guān)鍵特征的風(fēng)格改變和遷移,從而達(dá)到美化人臉圖像的目的。隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,采用深度學(xué)習(xí)技術(shù),能夠?qū)崿F(xiàn)更加智能快速的人臉特征風(fēng)格化及特征融合。
傳統(tǒng)的人臉風(fēng)格化方法是利用圖像處理的技術(shù)[10],通過(guò)提取人臉面部特征位置,根據(jù)所需表情從素材庫(kù)中調(diào)取相應(yīng)的五官貼圖,進(jìn)行匹配或替換生成卡通圖像;在視頻圖像處理領(lǐng)域[11],利用非真實(shí)感渲染,通過(guò)學(xué)習(xí)特定風(fēng)格的筆觸特征[12],模擬表現(xiàn)人臉區(qū)域的藝術(shù)化特質(zhì);在圖像濾波研究領(lǐng)域,研究人員利用Kuwahara濾波器[13]平滑權(quán)重函數(shù)代替矩形區(qū)域,考慮各向異性的權(quán)重函數(shù)形成聚類(lèi)的方法,能夠在平滑圖像的同時(shí)保留圖像有意義的邊緣信息,從而提高圖像風(fēng)格化的結(jié)果。
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,基于對(duì)抗生成網(wǎng)絡(luò)(generative adversarial networks,GAN)的人臉生成領(lǐng)域成為研究熱點(diǎn)[14-15]。在人臉圖像合成領(lǐng)域,F(xiàn)aceID-GAN將傳統(tǒng)的GAN進(jìn)行擴(kuò)展,通過(guò)加入分類(lèi)器,確保了生成的人臉具有高質(zhì)量的身份保留輸出,并遵循網(wǎng)絡(luò)信息的對(duì)稱性特點(diǎn),減小訓(xùn)練難度,以實(shí)現(xiàn)多視角和表情的人臉圖像生成。清華大學(xué)的學(xué)者提出了一種專用的全局場(chǎng)景卡通風(fēng)格化的GAN架構(gòu)的CartoonGAN[16],能夠有效地學(xué)習(xí)使用不成對(duì)的數(shù)據(jù)集進(jìn)行訓(xùn)練,通過(guò)利用稀疏正則化語(yǔ)義損失函數(shù),推進(jìn)了邊緣的對(duì)抗損失,保證了清晰的生成圖像邊緣。最近,一種新的標(biāo)簽協(xié)助加強(qiáng)版CycleGAN網(wǎng)絡(luò)被提出生成卡通風(fēng)格化人臉圖像[17],通過(guò)面部特征定義一致性的同時(shí),指導(dǎo)在網(wǎng)絡(luò)模型中訓(xùn)練局部鑒別器,從用戶研究、特定辨識(shí)度、結(jié)果的總體評(píng)價(jià)3個(gè)方向?qū)W(wǎng)絡(luò)進(jìn)行構(gòu)建研究,使最終的生成圖像取得了很好的結(jié)果。本文基于CycleGAN的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),對(duì)于局部關(guān)鍵區(qū)域卡通風(fēng)格化的研究,結(jié)合人臉輪廓區(qū)域分割技術(shù),局部特征的稀疏化提取,能夠有效地減少網(wǎng)絡(luò)的學(xué)習(xí)時(shí)間,具有很大地應(yīng)用價(jià)值。
基于CycleGAN技術(shù)的關(guān)鍵人臉輪廓區(qū)域卡通風(fēng)格化生成算法,如圖1所示。通過(guò)人臉輪廓特征區(qū)域的局部化限定,結(jié)合關(guān)鍵特征點(diǎn)的提取和臉部鄰近顏色區(qū)域的融合,并引入無(wú)監(jiān)督學(xué)習(xí)的注意力機(jī)制(attention mechanism),以此作為初始樣本構(gòu)建GAN并獲取自然融合的局部卡通風(fēng)格化人臉圖像。
圖1 人臉關(guān)鍵特征區(qū)域和局部卡通風(fēng)格化
本文首先利用人臉輪廓及關(guān)鍵特征點(diǎn)進(jìn)行提取,結(jié)合顏色特征信息限定關(guān)鍵人臉風(fēng)格化區(qū)域,并通過(guò)局部區(qū)域二值化生成特征區(qū)域人臉預(yù)處理的采樣圖像;為了使生成圖像能夠自然匹配所提取特征區(qū)域,利用均值濾波操作對(duì)所提取區(qū)域的邊緣輪廓進(jìn)行平滑羽化處理,并相應(yīng)地?cái)U(kuò)展風(fēng)格化生成圖像的過(guò)渡區(qū)域;然后通過(guò)構(gòu)建基于CycleGAN的GAN,調(diào)整樣本區(qū)域進(jìn)行訓(xùn)練學(xué)習(xí);最后,使用訓(xùn)練數(shù)據(jù)集進(jìn)行人臉圖像局部輪廓特征區(qū)域的卡通風(fēng)格化生成。具體步驟如下:
步驟1. 首先輸入一張圖片,利用DLIB的HOG特征檢測(cè)器檢測(cè)人臉區(qū)域,得到包圍區(qū)域頂點(diǎn)坐標(biāo);根據(jù)頂點(diǎn)坐標(biāo),確定人臉矩形框,同時(shí)計(jì)算獲得一個(gè)最小化人臉橢圓特征區(qū)域,將此橢圓區(qū)域記為Mask 1。
步驟2. 限定矩形區(qū)域內(nèi)人臉關(guān)鍵點(diǎn),通過(guò)68點(diǎn)的關(guān)鍵點(diǎn)檢測(cè)方法,得到人臉特征關(guān)鍵點(diǎn)區(qū)域Mask 2。同時(shí)采集計(jì)算臉部區(qū)域膚色獲得感興趣區(qū)(region of interest,ROI) Mask 3。通過(guò)計(jì)算獲得最終人臉學(xué)習(xí)ROI區(qū)域Mask。
步驟3.根據(jù)所得ROI區(qū)域,結(jié)合構(gòu)建基于U-GAT-IT方法的無(wú)監(jiān)督注意力機(jī)制網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)圖像的轉(zhuǎn)化與融合。通過(guò)與Mask進(jìn)行并集計(jì)算,獲得局部區(qū)域內(nèi)的卡通生成圖像。
步驟4. 最后利用泊松融合的方法將轉(zhuǎn)換后的圖像與原始圖片進(jìn)行融合。同時(shí),對(duì)于臉部區(qū)域不夠明顯的區(qū)域,采用均值濾波,通過(guò)調(diào)整網(wǎng)絡(luò)卷積核大小來(lái)進(jìn)行臉部輪廓邊緣的平滑操作,能夠達(dá)到很好地?cái)U(kuò)寬過(guò)度邊緣的效果。算法框架流程如圖2所示。
圖2 人臉關(guān)鍵區(qū)域風(fēng)格化生成算法流程圖
Mask 1. 在計(jì)算機(jī)視覺(jué)及圖像處理中,梯度方向直方圖(histogram oriented gradient,HOG)是一種基于形狀邊緣特征,能對(duì)物體進(jìn)行檢測(cè)的描述算子,基本思想是利用梯度信息很好地反映圖像目標(biāo)的邊緣信息,并通過(guò)局部梯度的大小將圖像局部的外觀和形狀特征化。利用DLIB的HOG特征檢測(cè)器檢測(cè)人臉區(qū)域[1],即
其中,G,G,(,)分別為像素點(diǎn)(,)在水平方向及垂直方向的梯度以及像素的灰度值。
最終得到包圍區(qū)域頂點(diǎn)坐標(biāo),通過(guò)這2個(gè)點(diǎn)可以計(jì)算出中心坐標(biāo)及半徑。根據(jù)面部特征盡可能去擬合額頭區(qū)域。
Mask 2.關(guān)鍵點(diǎn)算法是基于集成回歸樹(shù)(ensemble of regression tress,ERT)算法,即梯度提高學(xué)習(xí)的回歸樹(shù)方法,如圖3所示。該算法通過(guò)建立一個(gè)級(jí)聯(lián)的殘差回歸樹(shù)(gradient boosting decistion tree,GBDT)使人臉的當(dāng)前形狀逐步回歸到真實(shí)形狀。每一個(gè)GBDT的每一個(gè)葉子節(jié)點(diǎn)上均存儲(chǔ)著一個(gè)殘差回歸量,當(dāng)輸入落到一個(gè)節(jié)點(diǎn)時(shí),就將殘差加到該輸入上,起到回歸的目的,最終將所有殘差疊加在一起,就完成了人臉對(duì)齊的目的,即
其中,為第t級(jí)回歸器的形狀,是一個(gè)由坐標(biāo)組成的向量,更新策略采用GBDT梯度提升決策樹(shù),即每級(jí)回歸器學(xué)習(xí)均是當(dāng)前形狀與樣本形狀的殘差。
最終得到68個(gè)關(guān)鍵點(diǎn)的坐標(biāo),包含眼鏡、眉毛、鼻子、嘴巴等主要特征,取最外層27個(gè)點(diǎn)得到一個(gè)不規(guī)則形狀Mask 2,如圖4所示。
Mask 3. 根據(jù)膚色提取特征,采用YCrCb顏色空間Cr分量+Otsu法閾值分割。
圖4 關(guān)鍵點(diǎn)坐標(biāo)圖
(1) 將RGB圖像轉(zhuǎn)換到Y(jié)CrCb顏色空間,提取Cr分量圖像;
(2) 對(duì)Cr做自二值化閾值分割處理(Otsu算法)。Otsu算法(最大類(lèi)間方差法)采用的是聚類(lèi)的思想,將圖像的灰度數(shù)按灰度級(jí)分成2個(gè)部分,并使其灰度值差異最大,每個(gè)部分之間的灰度差異最小,通過(guò)方差的計(jì)算尋找一個(gè)合適的灰度級(jí)別進(jìn)行劃分。在二值化時(shí)采用Otsu算法自動(dòng)選取閾值并進(jìn)行二值化。Otsu算法被認(rèn)為是圖像分割中閾值選取的最佳算法,計(jì)算簡(jiǎn)單,不受圖像亮度和對(duì)比度的影響。因此,使用類(lèi)間方差最大的分割意味著錯(cuò)分概率最小。
圖像總平均灰度為
其中,為設(shè)定的閾值,初始值為圖像的平均灰度;0為分開(kāi)后前景像素點(diǎn)數(shù)占圖像的比例;0為分開(kāi)后前景像素點(diǎn)的平均灰度;1為分開(kāi)后背景像素點(diǎn)數(shù)占圖像的比例;1為分開(kāi)后背景像素點(diǎn)的平均灰度。從個(gè)灰度級(jí)遍歷,當(dāng)為某值時(shí),前景和背景的方差最大,則該值便是要求的閾值。其中,方差的計(jì)算為
該式計(jì)算量較大,可簡(jiǎn)化為
最終將3個(gè)Mask合并,得到需要提取的圖像,即
無(wú)監(jiān)督圖像到圖像是本文采用的全新方法,如圖5所示,其結(jié)合了注意力模塊和自適應(yīng)歸一化模塊。本文模型通過(guò)基于類(lèi)激活器(class activation map,CAM)獲得的注意力圖以區(qū)分源域和目標(biāo)域,引導(dǎo)圖像在生成時(shí),聚焦于重要區(qū)域而忽略次要區(qū)域。這些注意力圖將被嵌入到生成器和鑒別器中,以聚焦生成語(yǔ)義上更重要的區(qū)域,從而促進(jìn)模型變換,如圖6所示。
圖5 一種無(wú)監(jiān)督圖像到圖像的對(duì)抗生成網(wǎng)絡(luò)
圖6 注意力機(jī)制圖
數(shù)據(jù)集具有不同形狀和紋理變化量,其變化結(jié)果的質(zhì)量除與注意力機(jī)制有關(guān),還受歸一化函數(shù)選擇的影響。參考批處理實(shí)例標(biāo)準(zhǔn)化(btch-instance normalization),采用了自適應(yīng)層實(shí)例標(biāo)準(zhǔn)化(adaptive layer-instance normalization),適當(dāng)?shù)剡x擇實(shí)例標(biāo)準(zhǔn)化(instance normalization)和層標(biāo)準(zhǔn)化(layer normalization)之間的適當(dāng)比率,在訓(xùn)練期間從數(shù)據(jù)集中學(xué)習(xí)其參數(shù)??蛇x歸一化功能幫助注意力引導(dǎo)模型靈活控制紋理和形狀。主要內(nèi)容歸納:
(1) 采用無(wú)監(jiān)督圖像到圖像新的轉(zhuǎn)換方法,其集新的注意模塊和新的歸一化函數(shù)AdaLIN為一體。
(2) 注意模塊通過(guò)基于輔助分類(lèi)器獲得的關(guān)注圖來(lái)區(qū)分源域和目標(biāo)域,從而幫助模型知道在何處進(jìn)行密集轉(zhuǎn)換。
(3) AdaLIN功能幫助注意力引導(dǎo)模型靈活地控制更改形狀和紋理的數(shù)量。
1.2.1 生成器
圖像依次經(jīng)過(guò)一個(gè)下采樣模塊和一個(gè)殘差塊后,得到了編碼后的特征圖。其分為2路,一路是通過(guò)一個(gè)輔助分類(lèi)器,得到有每個(gè)特征圖的權(quán)重信息,并與另外一路編碼后的特征圖相乘,得到有注意力的特征圖。注意力特征圖仍分為2路:①經(jīng)過(guò)一個(gè)1×1卷積和激活函數(shù)層,得到1,···,特征圖。特征圖則通過(guò)全連接層置于解碼器中;②作為解碼器的輸入,經(jīng)過(guò)一個(gè)自適應(yīng)的殘差塊和自適應(yīng)歸一化層上采樣模塊后得到生成結(jié)果。
首先計(jì)算的是實(shí)例的標(biāo)準(zhǔn)化和層標(biāo)準(zhǔn)化
為了防止超出[0,1]范圍,對(duì)其進(jìn)行了區(qū)間裁剪
1.2.2 判別器
判別器的設(shè)計(jì)結(jié)合了全局判別器(global discriminator)以及局部判別器(local discriminator)的原理,將全局和局部判別結(jié)果進(jìn)行連接。判別器中加入了分類(lèi)激活映射(class activation mapping,CAM)模塊[18],雖然CAM未在判別器下做域的分類(lèi),但由于注意力圖能夠注意到目標(biāo)域中真實(shí)圖像和偽圖像之間的差異并對(duì)其進(jìn)行微調(diào),所以注意力模塊的加入有助于判別圖像真?zhèn)巍?/p>
1.2.3 CAM與輔助分類(lèi)器
CAM對(duì)圖片中的關(guān)鍵部分進(jìn)行定位[18]。通過(guò)圖像下采樣和殘差塊得到的編碼器特征圖,經(jīng)過(guò)平均池化(global average pooling)和最大池化(global max pooling)后得到依托通道數(shù)的特征向量。創(chuàng)建可學(xué)習(xí)參數(shù)權(quán)重,經(jīng)過(guò)全連接層壓縮。對(duì)于編碼器特征圖的每一個(gè)通道,可賦予一個(gè)權(quán)重,該權(quán)重決定了這一通道對(duì)應(yīng)特征的重要性,從而實(shí)現(xiàn)了特征映射(feature map)的注意力機(jī)制。
當(dāng)生成器可以很好地區(qū)分源域和目標(biāo)域輸入時(shí),注意力模塊可以幫助模型知道在何處進(jìn)行密集轉(zhuǎn)換。將平均池化和最大池化得到的注意力圖做連接,經(jīng)過(guò)一層卷積層還原為輸入通道數(shù),最終送入 AdaLIN中進(jìn)行自適應(yīng)歸一化處理。
1.2.4 損失函數(shù)
本文模型的完整目標(biāo)包括4個(gè)損失函數(shù)??墒褂米钚《薌AN目標(biāo)進(jìn)行穩(wěn)定訓(xùn)練,而不是使用Least Squares GAN。對(duì)抗性損失使用Adversarial loss匹配翻譯圖像與目標(biāo)圖像分布的差異
循環(huán)損失為了緩解模式崩潰問(wèn)題,cycle-gan架構(gòu)下的環(huán)一致性loss,A翻譯到B,然后B翻譯到A’,A和A’需要相同,loss采用的是1loss。
身份丟失為了確保輸入圖像和輸出圖像的顏色分布相似,本文將身份一致性約束應(yīng)用于生成器,即
生成器和鑒別器的CAM loss不同表現(xiàn)為:
生成器CAM loss,采用的是BCE_loss
鑒別器CAM loss,采用的是MSE
用CAM的原因是利用輔助分類(lèi)器η和ηD的信息,給定一個(gè)圖像∈{X,X},G→和D了解當(dāng)前狀態(tài)下2個(gè)域之間的最大區(qū)別是什么。
最后,聯(lián)合訓(xùn)練編碼器、解碼器、鑒別器和輔助分類(lèi)器,以優(yōu)化最終目標(biāo)
通過(guò)訓(xùn)練,可以得到轉(zhuǎn)換成卡通風(fēng)格化的圖片,然后利用泊松融合法將轉(zhuǎn)換后的圖片與原始臉部圖片進(jìn)行融合,并對(duì)邊緣部分進(jìn)行濾波操作,保證圖片平滑過(guò)度,最終完成局部人臉輪廓提取區(qū)域風(fēng)格化的操作。
本文采用一個(gè)由真實(shí)圖片和動(dòng)畫(huà)作品組成的數(shù)據(jù)集,所有圖像均已調(diào)整為256×256進(jìn)行訓(xùn)練,自定義數(shù)據(jù)集采用女性照片作為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),數(shù)據(jù)來(lái)源均是從Anime Planet爬取。首先檢索動(dòng)漫角色人物,然后提取面部圖像。訓(xùn)練數(shù)據(jù)集的大小為3 400,測(cè)試數(shù)據(jù)集的大小為100,圖像均為256×256,如圖7所示。
圖7 Selfie2anime數(shù)據(jù)集
損失函數(shù)包括:①判別器損失曲線(圖8):Discriminator_loss表示判別器鑒別偽造數(shù)據(jù)和真實(shí)數(shù)據(jù)的能力,損失值越小,鑒別能力越強(qiáng);②生成器損失曲線(圖9):Generator_loss表示偽造圖片技術(shù)的能力,損失值越低,說(shuō)明偽造能力越強(qiáng)。
圖8 判別器損失曲線
綜上,從圖8和圖9可以看出,無(wú)論是Discriminator_loss還是Generator_loss都有著明顯的變化,雖然損失函數(shù)在訓(xùn)練中發(fā)生振蕩,是因?yàn)樯善骱团袆e器彼此會(huì)消除對(duì)方的學(xué)習(xí)。不過(guò)損失函數(shù)圖像最終很明顯均呈下降趨勢(shì),隨著迭代次數(shù)的增加,Discriminator_loss以及Generator_loss都明顯降低,鑒別能力和偽造能力均明顯增強(qiáng)。直到鑒別器無(wú)法分出數(shù)據(jù)是真實(shí)的還是生成器生成的數(shù)據(jù)時(shí),這時(shí)對(duì)抗的過(guò)程達(dá)到一個(gè)動(dòng)態(tài)的平衡。
圖9 生成器損失曲線
為了測(cè)試本文方法的可行性和有效性,采用該算法,對(duì)不同的輸入圖像進(jìn)行處理,得到局部人臉輪廓提取的區(qū)域風(fēng)格化效果圖像。以下實(shí)驗(yàn)均在Windows10操作系統(tǒng)中完成,Intel(R) Core(TM) i9-9900K CPU 3.6 GHz GeForce RTX 2080 Ti,16 G內(nèi)存,Pycharm python編程實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果如圖10所示。
圖10 實(shí)驗(yàn)最終生成效果圖
同時(shí),還將本文算法模型與其他圖像遷移模型進(jìn)行了對(duì)比,如圖11所示,實(shí)驗(yàn)結(jié)果很好地展現(xiàn)了本文算法的優(yōu)良性。圖11(b)由于CAM模塊的聚焦,很明顯眼睛周?chē)霓D(zhuǎn)換要比其他模型好,圖像之間不同形狀和紋理變化量,其變化結(jié)果的質(zhì)量除了與注意力機(jī)制有關(guān),也明顯受到歸一化函數(shù)選擇的影響。通過(guò)這2個(gè)模塊,其轉(zhuǎn)換后的目標(biāo)圖像不論從細(xì)節(jié)、形狀都得到了極大的提升。
實(shí)驗(yàn)結(jié)果表明注意力模塊(圖12)和AdaLIN (圖13)可以在含有定制網(wǎng)絡(luò)架構(gòu)和超參數(shù)的各種數(shù)據(jù)集中產(chǎn)生更加喜人的效果。輔助分類(lèi)器獲得的注意力機(jī)制圖可以指導(dǎo)生成器更加關(guān)注源域和目標(biāo)域之間的不同區(qū)域。此外,還發(fā)現(xiàn),在引導(dǎo)模型靈活地控制形狀更改和紋理數(shù)量上,AdaLIN也發(fā)揮著重要作用。
通過(guò)本文方法生成的區(qū)域卡通風(fēng)格化效果圖片色彩鮮明。轉(zhuǎn)換后的人物頭像生動(dòng)形象,具有卡通動(dòng)漫人物所特有的特征,對(duì)局部卡通藝術(shù)風(fēng)格結(jié)果圖像進(jìn)行了較好的模擬。
圖11 不同GAN圖像遷移模型((a)源圖像;(b)本文結(jié)果;(c)基于CycleGAN的結(jié)果;(d)基于UNIT的結(jié)果;(e)基于MUNIT的結(jié)果;(f)基于DRIT的結(jié)果;(g)基于AGGAN的結(jié)果;(h)基于CartoonGAN的結(jié)果)
圖12 CAM模塊分析((a)源圖像;(b)生成器的注意力圖;(c~d)鑒別器的局部注意力圖和全局注意力圖;(e)帶有CAM模塊的結(jié)果;(f)不帶CAM模塊的結(jié)果)
(1) 采用CAM模塊分析。對(duì)于CAM模塊,通過(guò)消融實(shí)驗(yàn)來(lái)確定生成器和辨別器使用的注意力模塊的優(yōu)點(diǎn)。如圖12(b)特征圖幫助生成器聚焦于與目標(biāo)域更具辨別力的源圖像區(qū)域。如圖12(c)和(d)所示,分別通過(guò)可視化鑒別器的局部注意力圖和全局注意力圖判別鑒別器集中注意力的區(qū)域,以確定目標(biāo)圖像是真實(shí)的還是偽造的。生成器可以用注意力圖調(diào)整鑒別器所關(guān)注的區(qū)域。請(qǐng)注意,本文結(jié)合了2個(gè)感受野大小不同的鑒別器的全局和局部注意力圖??梢詭椭善鞑东@全局結(jié)構(gòu)(比如面部區(qū)域和眼睛周?chē)?作為局部區(qū)域。有了這些信息,一些區(qū)域的解析會(huì)更加謹(jǐn)慎。如圖12(e)所示的關(guān)注模塊的結(jié)果驗(yàn)證了在圖像翻譯任務(wù)中利用關(guān)注特征圖的有利效果。另一方面,可以看到在沒(méi)有使用注意力模塊的情況下根本無(wú)法完成良好的遷移,如圖12(f)所示。
圖13 AdLIN模塊分析((a)源圖像;(b)本文結(jié)果;(c)僅在解碼器使用IN的結(jié)果;(d)僅在解碼器使用LN的結(jié)果;(e)僅在解碼器使用AdaLIN的結(jié)果;(f)僅在解碼器使用GN的結(jié)果)
(2) AdaLIN結(jié)構(gòu)分析。本文將AdaLIN應(yīng)用到了生成器的解碼器上,殘差塊在解碼器中的作用是嵌入特征,上采樣卷積塊在解碼器中的作用是從嵌入特征生成目標(biāo)域圖像。如果門(mén)參數(shù)的學(xué)習(xí)值接近1,則意味著對(duì)應(yīng)層更多地依賴于IN。同樣地,如果學(xué)習(xí)的值接近于0,則意味著對(duì)應(yīng)層更多依賴于LN。如圖13(c)所示,僅在解碼器中使用IN時(shí),源域的特征(例如,耳環(huán)和顴骨周?chē)年幱?由于在殘差塊中使用的(基于Channel-wise的規(guī)范化特征統(tǒng)計(jì))按信道的規(guī)范化特征統(tǒng)計(jì)而被很好地保留。然而,由于上采樣卷積塊中的IN無(wú)法捕獲全局樣式,因此對(duì)目標(biāo)域樣式的轉(zhuǎn)換量有些不足。另一方面,如圖13(d)所示,如果在解碼器中僅使用LN,則借助于在上采樣卷積中使用的(基于layer-wise的規(guī)范化特征統(tǒng)計(jì))分層歸一化特征統(tǒng)計(jì),可以充分地轉(zhuǎn)換目標(biāo)域樣式。但是,在殘差塊中使用LN,對(duì)源域圖像的特征保留較少。對(duì)2種極端情況的分析表明,在特征表示層中更多地依賴于IN而不是LN來(lái)保持源域的語(yǔ)義特征是有益的,而對(duì)于從特征嵌入中實(shí)際生成圖像的上采樣層則相反。因此,在無(wú)監(jiān)督的圖像到圖像轉(zhuǎn)換任務(wù)中,根據(jù)源域和目標(biāo)域的分布來(lái)調(diào)整解碼器中IN和LN的比例的AdaLIN更為可取。圖13(e)和(f)是采用AdaIN和GN的結(jié)果。顯然與這些方法相比,采用AdaLIN方法顯示出更好的效果。
本文提出了一種新的基于GAN技術(shù)的關(guān)鍵人臉輪廓區(qū)域卡通風(fēng)格化生成算法。首先利用人臉輪廓及關(guān)鍵特征點(diǎn)的提取,結(jié)合顏色特征信息限定關(guān)鍵人臉風(fēng)格化區(qū)域,并通過(guò)采用二值化技術(shù)生成關(guān)鍵區(qū)域人臉預(yù)處理的采樣圖像;為了使生成圖像能夠自然匹配所提取區(qū)域,利用均值濾波操作對(duì)所提取區(qū)域的邊緣輪廓進(jìn)行平滑羽化操作,并相應(yīng)地?cái)U(kuò)展風(fēng)格化生成圖像的過(guò)渡區(qū)域;然后通過(guò)構(gòu)建基于無(wú)監(jiān)督圖像到圖像轉(zhuǎn)換方法,調(diào)整樣本區(qū)域進(jìn)行訓(xùn)練學(xué)習(xí);最后,使用訓(xùn)練數(shù)據(jù)集進(jìn)行人臉圖像局部輪廓特征區(qū)域的卡通風(fēng)格化生成。本文算法由于對(duì)人臉輪廓區(qū)域的邊緣及背景顏色進(jìn)行濾波處理,而且在初始化階段對(duì)采樣區(qū)域進(jìn)行了尺寸的自適應(yīng)修正,在量化生成的過(guò)程中,能夠?qū)崿F(xiàn)良好的邊緣輪廓過(guò)渡融合,生成了自然的人臉局部輪廓區(qū)域的卡通風(fēng)格化圖像。本文算法對(duì)于人臉圖像的生成具有很高的魯棒性,能夠應(yīng)用于各種尺度人臉圖像的風(fēng)格化生成,適用范圍非常廣泛。
[1] ZHANG X Q, WANG D, ZHOU Z Y, et al. Robust low-rank tensor recovery with rectification and alignment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019, PP(99): 1-1.
[2] ZHANG X Q, JIANG R H, WANG T, et al. Attention-based interpolation network for video deblurring[EB/OL]. [2020-10-20]. https://doi.org/10.1016/j.neucom.2020.04.147.
[3] ZHOU E J, FAN H Q, CAO Z M, et al. Extensive facial landmark localization with coarse-to-fine convolutional network cascade[C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 386-391.
[4] WU Y, HASSNER T, KIM K, et al. Facial landmark detection with tweaked convolutional neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3067-3074.
[5] KOWALSKI M, NARUNIEC J, TRZCINSKI T. Deep alignment network: a convolutional neural network for robust face alignment[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2017: 2034-2043.
[6] WANG N N, GAO X B, TAO D C, et al. Facial feature point detection: a comprehensive survey[J]. Neurocomputing, 2018, 275: 50-65.
[7] ZHANG Y, DONG W M, DEUSSEN O, et al. Data-driven face cartoon stylization[C]//SIGGRAPH Asia 2014 Technical Briefs on - SIGGRAPH ASIA’14. New York: ACM Press, 2014: 201-300.
[8] SUN Y, WANG X G, TANG X O. Deep convolutional network cascade for facial point detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3476-3483.
[9] ZHANG Z P, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[M]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 94-108.
[10] XU Z J, CHEN H, ZHU S C, et al. A hierarchical compositional model for face representation and sketching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(6): 955-969.
[11] WINNEM?LLER H, OLSEN S C, GOOCH B. Real-time video abstraction[J].ACM Transactions on Graphics, 2006, 25(3): 1221-1226.
[12] KYPRIANIDIS J E, COLLOMOSSE J, WANG T H, et al. State of the “art”: a taxonomy of artistic stylization techniques for images and video[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(5): 866-885.
[13] PAPARI G, PETKOV N, CAMPISI P. Artistic edge and corner enhancing smoothing[J]. IEEE Transactions on Image Processing, 2007, 16(10): 2449-2462.
[14] ZHANG K P, ZHANG Z P, LI Z F, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
[15] SHEN Y J, LUO P, LUO P, et al. FaceID-GAN: learning a symmetry three-player GAN for identity-preserving face synthesis[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 821-830.
[16] CHEN Y, LAI Y K, LIU Y J. CartoonGAN: generative adversarial networks for photo cartoonization[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9465-9474.
[17] WU R Z, GU X D, TAO X, et al. Landmark assisted CycleGAN for cartoon face generation[EB/OL]. [2019-10-04]. https://arxiv.org/abs/1907.01424.
[18] ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2921-2929.
Generative adversarial network-based local facial stylization generation algorithm
FAN Lin-long1, LI Yi1, ZHANG Xiao-qin2
(1. College of Computer Science and Artificial Intelligence, Wenzhou University, Wenzhou Zhejiang 325035, China; 2. Institute of Big Data and Information Technology of Wenzhou University, Wenzhou Zhejiang 325035, China)
In view of the localized facial contour features, combining with the extraction of key feature points and the fusion of adjacent color regions of the face, we presented a CycleGAN-based local facial stylization generation algorithm, and constructed the deep learning network with the attention mechanism to generate the local facial cartoon stylization. The sample facial images were marked by using the local area binarization method to constrain the key features and points. In order to naturally match the generated image with the extracted features, the mean filtering operation was utilized to smooth and feather the edge contour of the extracted region. Finally, the generative adversarial networks (GAN) network was constructed, and the training data set was employed to generate cartoon stylization images in the local contour feature area of facial images. The experiment results show that the presented algorithm exhibits high robustness for generating facial stylization, and that it can be applied to the generation of stylized facial images of various scales.
facial features; local area;generative adversarial networks; stylization
TP 391
10.11996/JG.j.2095-302X.2021010044
A
2095-302X(2021)01-0044-08
2020-04-13;
13 April,2020;
2020-08-02
2 August,2020
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB1004904);溫州市科技計(jì)劃項(xiàng)目(G20180036,R20200025)
:The National Key Research and Development Program of China (2018YFB1004904);Basic Science and Technology Project ofWenzhou (G20180036, R20200025)
范林龍(1997–),男,四川成都人,本科生。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)。E-mail:4624986@qq.com
FAN Lin-long (1997-), male, undergraduate. His main research interest covers computer vision. E-mail:4624986@qq.com
李 毅(1984–),男,寧夏銀川人,講師,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)等。E-mail:liyi@wzu.edu.cn
LI Yi (1984–), male, lecturer, Ph.D. His main research interests cover computer graphics, computer vision, etc. E-mail:liyi@wzu.edu.cn