阮 杰,蔣 暢,朱靜潔,戴玲娜,李榮生,高 飛,李 鵬,4
(1.杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018;2.杭州妙繪科技有限公司,浙江 杭州 311200;3.國網(wǎng)山東省電力公司 煙臺(tái)供電公司,山東 煙臺(tái) 264000;4.北京大學(xué) 信息技術(shù)高等研究院,浙江 杭州 311200)
隨著人工智能的蓬勃發(fā)展,肖像繪畫機(jī)器人[1-2]應(yīng)運(yùn)而生,成為了眾多研究者研究的熱點(diǎn)。肖像繪畫機(jī)器人在很多方面的應(yīng)用都大有前景,如繪制明信片,制作公司文化產(chǎn)品等。肖像繪畫機(jī)器人技術(shù)的核心問題是如何用計(jì)算機(jī)將人臉照片轉(zhuǎn)換為高質(zhì)量的肖像畫?,F(xiàn)有的肖像畫生成算法在清晰度、人臉特征保存、細(xì)節(jié)紋理上仍存在很大的短板。因此,面向繪畫機(jī)器人的簡約人臉線條畫生成方法具有重要研究意義。
生成對抗網(wǎng)絡(luò)常用在圖像生成領(lǐng)域[3-4],其中可以生成多風(fēng)格人臉圖像,比如線條畫生成任務(wù)[5],素描肖像畫生成任務(wù)[6-7],均取得了較好的生成質(zhì)量。文獻(xiàn)[8-9]提出了多尺度素描生成來提高素描生成質(zhì)量,后續(xù)半監(jiān)督學(xué)習(xí)[10-11]、自適應(yīng)調(diào)制[12-13]等方法也被廣泛應(yīng)用于生成素描線條畫。文獻(xiàn)[14]對人臉肖像畫合成進(jìn)行研究,提出了APDrawingGAN算法。它通過復(fù)合網(wǎng)絡(luò)的設(shè)計(jì),先局部肖像翻譯生成,再通過像素拼接實(shí)現(xiàn)全局肖像融合,但它存在生成大面積黑色塊、線條混亂等問題。文獻(xiàn)[15]提出的AISketcher基于AdaIN進(jìn)行改進(jìn),實(shí)現(xiàn)了出色的人臉線條畫合成效果,兼顧了生成質(zhì)量與運(yùn)算速度,但對于線條畫的頭發(fā)部分會(huì)生成多余稀疏線條。文獻(xiàn)[16]對非配對人臉肖像畫生成進(jìn)一步研究,提出了一種非對稱循環(huán)映射圖去強(qiáng)制重建信息映射,以學(xué)習(xí)多風(fēng)格肖像畫生成的UPDG算法,但仍存在生成白斑、人臉生成不夠立體等問題。這些生成人臉線條畫算法都較為復(fù)雜,所需計(jì)算資源也較為龐大,不方便部署在資源有限的機(jī)器人終端設(shè)備。
最近,有研究學(xué)者提出了許多種模型壓縮和加速技術(shù),這類技術(shù)包括輕量級網(wǎng)絡(luò)設(shè)計(jì)[17-18]、模型修剪[19]、模型量化[20-21]、知識(shí)蒸餾[22-23]等。知識(shí)蒸餾是模型壓縮最有效的方法之一,其通過構(gòu)建一個(gè)輕量化的小模型,利用性能更好的大模型去指導(dǎo)輕量模型訓(xùn)練,期望小模型能達(dá)到更好的性能和精度。知識(shí)蒸餾分為離線蒸餾、在線蒸餾和自蒸餾3類。離線蒸餾采用預(yù)訓(xùn)練大模型,提取中間層特征知識(shí)來指導(dǎo)輕量模型的訓(xùn)練。在線蒸餾是教師模型和學(xué)生模型同時(shí)更新,并且整個(gè)蒸餾過程是端到端訓(xùn)練的,相比離線蒸餾效率更高。不過,在師生模型參數(shù)量相差較大的時(shí)候,在線蒸餾可能會(huì)導(dǎo)致性能更差,往往訓(xùn)練效果不理想。自蒸餾思想是利用同構(gòu)模型或利用模型自身進(jìn)行知識(shí)蒸餾,以達(dá)到自我精度提升的目的。
為了降低模型的計(jì)算量和參數(shù)量并生成高質(zhì)量的人臉線條畫,本文提出了一種基于知識(shí)蒸餾的簡約人臉線條畫生成方法。具體而言,本文使用離線蒸餾的思想,將大模型作為教師網(wǎng)絡(luò),指導(dǎo)輕量型學(xué)生網(wǎng)絡(luò)的訓(xùn)練過程,從而使輕量型網(wǎng)絡(luò)達(dá)到較好的生成效果。此外,本文引入了風(fēng)格損失,來生成更精細(xì)的線條,使生成畫像與目標(biāo)畫像具有相近的風(fēng)格。
本文的知識(shí)蒸餾框架中,包含一個(gè)教師模型U2-NetT和一個(gè)學(xué)生模型U2-NetS。其中,教師模型U2-NetT是U2-Net模型引入風(fēng)格損失優(yōu)化得到的預(yù)訓(xùn)練模型[24],能生成更清晰立體的人臉線條畫。學(xué)生模型U2-NetS在知識(shí)蒸餾的約束算法下,用教師模型引導(dǎo)層信息去監(jiān)督學(xué)生模型U2-NetS表示層進(jìn)行訓(xùn)練。通過知識(shí)蒸餾使學(xué)生模型U2-NetS生成的簡約藝術(shù)線條畫能夠和教師模型U2-NetT生成的人臉線條畫有相當(dāng)效果,并大幅度減少模型運(yùn)算量和參數(shù)量。本算法模型結(jié)構(gòu)如圖1所示。
圖 1 蒸餾模型整體架構(gòu)
圖1中,對于給定的人臉圖像x,首先通過教師模型U2-NetT得到生成圖片T(x)、各級編碼層和解碼層的特征圖;然后通過學(xué)生模型U2-NetS得到S(x)和各層特征圖,并對2個(gè)模型間每層特征圖進(jìn)行KL(Kullback Leibler)散度計(jì)算,以此作為蒸餾損失。用蒸餾損失來約束學(xué)生模型的編碼層和解碼層,使二者每層特征分布盡量一致,最后學(xué)生模型能夠生成與教師模型生成效果相近的人臉線條畫。
教師模型U2-NetT結(jié)構(gòu)如圖2所示。
圖 2 U2-NetT模型結(jié)構(gòu)
圖2采用的是2層嵌套的U型結(jié)構(gòu),該設(shè)計(jì)可以提取更豐富的上下文信息,得到并融合多尺度的感受野特征。整體模型是一個(gè)由11個(gè)Stage(圖2中的虛線框)組成的大U型結(jié)構(gòu),每個(gè)Stage由一個(gè)U型殘差模塊組成。U型殘差模塊從下采樣的輸入特征中提取到多尺度的特征,然后在通道維度上,通過級聯(lián)和卷積等方法將特征映射到高分辨率的6個(gè)特征圖中,最后將6個(gè)特征圖融合得到最后生成的簡約線條畫。
在得到預(yù)訓(xùn)練好的教師網(wǎng)絡(luò)后,為了能在降低其運(yùn)算量以及模型大小的同時(shí),保持人臉線條畫的生成效果,本文采用知識(shí)蒸餾的技術(shù)。知識(shí)蒸餾是通過構(gòu)建一個(gè)輕量化的小模型,利用性能更好的大模型的監(jiān)督信息,來訓(xùn)練這個(gè)小模型,以期望達(dá)到更好的性能和精度。關(guān)鍵問題是如何將知識(shí)從龐大復(fù)雜的教師模型中遷移到簡單的學(xué)生模型上。本算法采用離線蒸餾的思想,對U2-NetT教師模型進(jìn)行基于特征知識(shí)的知識(shí)蒸餾。通過教師模型輸出的特征圖和學(xué)生模型輸出的特征圖去計(jì)算蒸餾損失,來約束學(xué)生模型特征層。
蒸餾模型是從教師網(wǎng)絡(luò)中引入每個(gè)編碼層和解碼層的特征圖作為提示層的輸出,同樣,學(xué)生網(wǎng)絡(luò)中的引導(dǎo)層也是每個(gè)編碼層和解碼層,并通過蒸餾損失對其進(jìn)行信息約束。通用的基于特征信息的知識(shí)蒸餾損失可表示為
LFea(ft(x),fs(x))=
LF{Φt[ft(x)],Φs[fs(x)]}
(1)
式中:ft(x)為教師模型中間層的特征圖;fs(x)為學(xué)生模型的特征圖;Φt(ft(x)),Φs(fs(x))為轉(zhuǎn)換函數(shù),通常在教師和學(xué)生模型的特征圖不在相同維度時(shí)應(yīng)用;LF(·)為匹配教師網(wǎng)絡(luò)特征圖和學(xué)生網(wǎng)絡(luò)特征圖的相似性的蒸餾損失。在本文的具體實(shí)現(xiàn)中,使用的蒸餾損失為
(2)
式中:DKL(·)為KL散度函數(shù);ci為對應(yīng)編碼器和解碼器的通道數(shù)。
本文中學(xué)生模型U2-NetS和教師模型U2-NetT的結(jié)構(gòu)一致,區(qū)別在于U2-NetT模型的每層編碼器和解碼器的通道數(shù)為c1=64,c2=128,c3=256,c4=512,c5=512,U2-NetS模型的每層編碼器和解碼器的通道數(shù)c1~c5大小都為64。因此,本文對U2-NetS模型每層輸出的特征圖進(jìn)行1×1的卷積,使教師模型輸出的特征圖與學(xué)生模型提示層的大小相匹配。這可以方便教師模型知識(shí)監(jiān)督學(xué)生模型,使得學(xué)生模型更好地學(xué)習(xí)到教師模型的特征分布。
U2-NetT模型的損失函數(shù)使用二分類交叉熵?fù)p失和風(fēng)格重建損失等進(jìn)行約束。
二分類交叉熵?fù)p失?;鶞?zhǔn)模型的損失函數(shù),通過二分類交叉熵?fù)p失提取人臉整體結(jié)構(gòu):
(1-yn)(1-T(x)n))
(3)
式中:T(x)為學(xué)生模型提取到的特征向量;y為教師模型提取的特征向量。
風(fēng)格損失。為了使教師網(wǎng)絡(luò)生成得到的線條能有訓(xùn)練數(shù)據(jù)集中畫師所繪線條一樣的視覺感受(線條清晰柔順),因此在訓(xùn)練過程中引入風(fēng)格損失。將真實(shí)圖像和教師模型生成的圖片分別提取得到高維特征(本文使用VGG19[25]來提取)作比較,通過格拉姆(Gram)矩陣計(jì)算特征之間的相關(guān)性,使得高維信息(內(nèi)容和全局結(jié)構(gòu))接近。Gram矩陣表示為
(4)
式中:C為通道數(shù);H為向量高度;W為向量寬度;X代表特征向量。Gram矩陣是由特征向量之間內(nèi)積得到的,因此Gram矩陣可以衡量特征向量之間的關(guān)聯(lián)程度,這種關(guān)系表現(xiàn)的特點(diǎn)即是人們眼里的“風(fēng)格”[26]。因此風(fēng)格損失為
G(V(y))‖2
(5)
式中:V(·)為VGG19網(wǎng)絡(luò)輸出。
U2-NetT模型損失函數(shù)為
LT=λ1LBce+λ2LStyle
(6)
U2-NetS模型需要使用蒸餾損失對從U2-NetT學(xué)到的監(jiān)督信息進(jìn)行約束,故U2-NetS模型除了采用U2-NetT模型相同的損失外,還使用了額外的蒸餾損失。蒸餾損失的作用在于匹配教師模型的提示層和學(xué)生模型的引導(dǎo)層的特征圖輸出,用教師模型知識(shí)監(jiān)督學(xué)生模型。U2-NetS模型損失函數(shù)為
LS(S(x),y)=λ1LBce+λ2LStyle+λ3LDis
(7)
式中:λ1、λ2、λ3為權(quán)重系數(shù)。
本節(jié)介紹了實(shí)驗(yàn)訓(xùn)練策略和采用的數(shù)據(jù)集,并通過定量和定性實(shí)驗(yàn)來證明本文方法的有效性。在預(yù)訓(xùn)練教師模型和知識(shí)蒸餾學(xué)生模型時(shí),都是采用線條畫人臉數(shù)據(jù)集。此外,本文使用APDrawing[14]數(shù)據(jù)集中的人臉照片作為外部測試樣本。
線條畫人臉數(shù)據(jù)集。該數(shù)據(jù)集包括從網(wǎng)絡(luò)收集的1 224張人臉圖片。對應(yīng)的肖像線條畫由3位畫師根據(jù)人臉照片以線條畫特點(diǎn)(筆畫清晰連貫且柔順)繪制而得到的高分辨率圖像。將照片和對應(yīng)藝術(shù)線條畫進(jìn)行對齊并裁剪,分辨率為512×512。其中1 000張圖片作為訓(xùn)練樣本,224張圖片作為測試樣本來測試生成結(jié)果。在訓(xùn)練過程中,本文對訓(xùn)練集進(jìn)行了數(shù)據(jù)增廣,即將輸入的人臉照片分別下采樣2倍、4倍、6倍再上采樣回原尺寸,目的是捕捉更多細(xì)節(jié)信息。
APDrawing數(shù)據(jù)集。該數(shù)據(jù)集是清華大學(xué)開源數(shù)據(jù)集,它共有490張人臉照片以及對應(yīng)藝術(shù)風(fēng)格畫像。將人臉照片與對應(yīng)藝術(shù)風(fēng)格圖像進(jìn)行對齊并裁剪,分辨率為512×512。本文在外部數(shù)據(jù)測試中,使用該數(shù)據(jù)集的人臉照片作為測試樣本。
在此項(xiàng)工作中,本文選擇結(jié)構(gòu)相似度(structural similarity index measure, SSIM)[27]、特征相似度(feature similarity,F(xiàn)SIM)[28]、峰值信噪比(peak signal to noise ratio, PSNR)和梯度幅相似性偏差(gradient magnitude similarity deviation,GMSD)4個(gè)性能指標(biāo)進(jìn)行測試。
SSIM中圖像是高度結(jié)構(gòu)化的,即圖像的相鄰像素之間具有較強(qiáng)的關(guān)聯(lián)性。這一關(guān)聯(lián)性反映的是圖像中語義結(jié)構(gòu)信息。SSIM通過計(jì)算2個(gè)圖像在亮度、對比度和結(jié)構(gòu)上的數(shù)值距離,來表示2個(gè)圖像之間的結(jié)構(gòu)相似性。SSIM度量結(jié)果的數(shù)值越大,表示圖像之間結(jié)構(gòu)越相似,即生成圖像的內(nèi)容質(zhì)量越好。
FSIM是SSIM的一個(gè)變種方法。FSIM的質(zhì)量評估是基于特征相似度計(jì)算的,利用相位一致性、相對不變性的特點(diǎn),可以提取得到圖像的特征。為解決由于圖像變化而影響視覺體驗(yàn)的問題,F(xiàn)SIM引入梯度特征。FSIM的數(shù)值越大,表示圖像失真越小。
PSNR計(jì)算的是圖像最大像素值和背景噪聲之間的比值。PSNR是一個(gè)完全基于數(shù)學(xué)度量的評價(jià)指標(biāo)。PSNR度量結(jié)果的數(shù)值越大,表示圖像之間越相似,即生成模型生成得到的圖像質(zhì)量越好。
GMSD用計(jì)算局部梯度幅值相似性來衡量局部圖像質(zhì)量,計(jì)算局部圖像質(zhì)量的標(biāo)準(zhǔn)差來衡量圖像全局的質(zhì)量。
在優(yōu)化方面,采用隨機(jī)梯度下降的自適應(yīng)矩估計(jì)優(yōu)化器來優(yōu)化生成器和判別器,生成器和判別器進(jìn)行交替優(yōu)化。學(xué)習(xí)率都設(shè)置為0.001,β1=0.5,β2=0.99??倱p失函數(shù)中的超參數(shù)λ1為10,λ2為1,λ3為1 000。并運(yùn)行280 000次迭代。在型號為3090的GPU上訓(xùn)練U2-NetS模型。整個(gè)訓(xùn)練過程大概使用了4 d。
首先評估模型蒸餾及風(fēng)格損失對于性能的影響,表1列出了教師基準(zhǔn)模型U2-Net、改進(jìn)的教師模型(引入風(fēng)格損失)U2-NetT、學(xué)生的基準(zhǔn)模型U2-Netp及本文學(xué)生模型U2-NetS的性能指標(biāo)。表1中,MACs為模型計(jì)算量指標(biāo),越小則說明計(jì)算量越??;Parameter為模型參數(shù)量指標(biāo),越小則說明模型參數(shù)量越小。加粗?jǐn)?shù)據(jù)為所有模型中最優(yōu)指標(biāo)。
表 1 不同模型的性能指標(biāo)
從表1可以看出,改進(jìn)的教師模型U2-NetT和教師基準(zhǔn)模型U2-Net相比,PSNR上漲了約6.5%,F(xiàn)SIM上漲了約15.0%,SSIM上漲了約12.6%,GMSD下降了約25.5%,生成圖像的指標(biāo)表現(xiàn)都有所提升。這表明使用風(fēng)格損失,能夠提升生成畫像的質(zhì)量。此外,學(xué)生基準(zhǔn)網(wǎng)絡(luò)U2-Netp在蒸餾前的指標(biāo)效果很差,而使用蒸餾算法后的本文學(xué)生模型U2-NetS的評測指標(biāo)較其取得了明顯提升,PSNR指標(biāo)上漲了約16.2%,F(xiàn)SIM上漲了約4.2%,SSIM上漲了約11.8%,GMSD下降了約10.6%,生成圖像的指標(biāo)表現(xiàn)都較大提升。這表明,對模型進(jìn)行蒸餾可以有效提升學(xué)生模型的性能。最后,與改進(jìn)的教師模型U2-NetT相比,本文學(xué)生模型U2-NetS計(jì)算量減少了約65.3%,參數(shù)量減少了約97%。U2-NetS模型推理速度更快,更方便在繪畫機(jī)器人設(shè)備上進(jìn)行部署。
將本文線條畫蒸餾模型U2-NetS與現(xiàn)有的線條畫合成方法進(jìn)行比較,生成的圖片分辨率均為128×128,對比結(jié)果如圖3所示。
圖 3 5種人臉線條畫模型對比結(jié)果
圖3中,第1行的第1、2、3幅照片來自文獻(xiàn)[1],第4、5、6幅照片來自文獻(xiàn)[2],第7、8、9幅照片來自文獻(xiàn)[29],且第2行所示線條畫結(jié)果分別對應(yīng)圖片所在文獻(xiàn)。第3~6行的生成結(jié)果來自APDrawingGAN[14]、AISketcher[15]、UPDG[16]、本文蒸餾模型U2-NetS。
從圖3的實(shí)驗(yàn)結(jié)果可知,第2行生成結(jié)果可以保留照片的身份信息,但是生成的肖像畫線條鋸齒感強(qiáng),缺少藝術(shù)美觀性;APDrawingGAN生成結(jié)果可以較好地保留身份信息,但頭發(fā)生成易受光線影響,會(huì)保存大量黑色色塊,不利于機(jī)器人進(jìn)行繪制。AISketcher生成的結(jié)果雖然在美觀和相似性上有了很大提升,但會(huì)生成大量稀疏且無用的短線條,顯得不夠整潔有序。UPDG生成的五官線條拖沓不夠干凈、缺少藝術(shù)感。而本文U2-NetS模型生成的結(jié)果極大地解決了之前模型的不足。本文模型生成的線條畫在面部五官特征的處理上更為精致,如雙眼皮、瞳孔、鼻梁和更加精準(zhǔn)的眉毛和眉形等。而且本文模型生成的肖像畫包含的線條較少,但仍然能夠表現(xiàn)出人物的特征,具有很強(qiáng)的可辨識(shí)度,這對于機(jī)器人快速繪制具有重要的優(yōu)勢。圖4為對比結(jié)果通過繪畫機(jī)器人繪制于紙上的效果。
圖 4 5種人臉線條畫模型繪制對比結(jié)果
圖4中,第2行生成結(jié)果的平均繪制時(shí)間為208 s,可以看到生成圖片鋸齒感較強(qiáng),相對于其他結(jié)果藝術(shù)美觀性不強(qiáng);第3行APDrawingGAN生成結(jié)果的平均繪制時(shí)間為202 s,大片的黑色塊拖慢了它的繪制時(shí)間;第4行AISketcher生成結(jié)果的平均繪制時(shí)間為182 s,大量的稀疏線條也使得繪畫時(shí)間較長;第5行UPDG生成結(jié)果平均繪制時(shí)間為246 s,與APDrawingGAN的結(jié)果有著相同的問題;而第6行本文蒸餾模型U2-NetS的生成結(jié)果平均繪制時(shí)間為130 s,沒有大量的黑色塊與稀疏線條的影響,U2-NetS的繪制時(shí)間是最短的。綜合表1的客觀評價(jià)指標(biāo),U2-NetS相較于其他4種模型,可以取得更好的客觀性能。
將蒸餾后得到的本文學(xué)生模型U2-NetS部署在繪畫機(jī)器人上,輸入圖片通過繪畫機(jī)器人繪制于紙上。如圖5為繪畫機(jī)器人繪制的簡約線條畫效果。
圖 5 繪畫機(jī)器人繪制結(jié)果
從圖5中看到,繪畫機(jī)器人能將本文教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)得到的線條畫人臉的整體結(jié)構(gòu)與細(xì)節(jié)紋理都呈現(xiàn)在紙上。繪畫機(jī)器人將生成圖片轉(zhuǎn)換為可繪制筆畫的軌跡規(guī)劃算法時(shí),為了縮短機(jī)器人的繪制時(shí)間,非常短和淺色的筆畫會(huì)被舍棄。教師網(wǎng)絡(luò)生成結(jié)果線條多,平均繪制時(shí)間需要12 min左右。學(xué)生網(wǎng)絡(luò)的五官生成效果毫不遜色于教師網(wǎng)絡(luò),且筆畫數(shù)少,體現(xiàn)了簡約線條畫簡中求美的藝術(shù)特點(diǎn),且繪制速度非常迅速,平均可以在2 min之內(nèi)完成一幅線條畫的繪制,既保留了素描生成質(zhì)量,又減少了機(jī)器人繪制的時(shí)間,并且由于學(xué)生網(wǎng)絡(luò)的計(jì)算復(fù)雜度和參數(shù)量都很小,所以非常方便部署在資源有限的終端設(shè)備上。
為了能更好地分析本文所提出的模塊對教師模型生成效果的影響,從模型的消融實(shí)驗(yàn)結(jié)果來證明。在模型方面,將分別對比U2-Net、U2-NetT、U2-Netp、U2-NetS(本文方法),結(jié)果對比見圖6。
圖 6 消融實(shí)驗(yàn)結(jié)果
消融實(shí)驗(yàn)均在APDrawing數(shù)據(jù)集進(jìn)行測試,從圖6可以觀察到,U2-Net模型得到的線條畫線條結(jié)構(gòu)較亂,發(fā)尾部分生成較差,生成的藝術(shù)線條畫線條分叉不連貫。而在引入風(fēng)格損失約束的U2-NetT模型,明顯改善了這個(gè)問題。因?yàn)轱L(fēng)格損失約束使模型保留了線條畫風(fēng)格,使線條畫的線條更加清晰柔順。目前U2-NetT的生成結(jié)果是高質(zhì)量且清晰的,但線條較多,最終轉(zhuǎn)換為機(jī)器人可繪制的筆畫數(shù)較多,不方便機(jī)器人在短時(shí)間內(nèi)繪制完成,且計(jì)算量和模型較大不易部署。而U2-Netp是本文學(xué)生模型U2-NetS的基準(zhǔn)模型,生成的圖片背景有雜亂的線條,且頭發(fā)部分非常模糊,面部也有雜亂細(xì)條,人臉線條畫的主要特點(diǎn)是以簡為美、簡中求美,所以生成結(jié)果中有大量的模糊部分是不可行的。本文的U2-NetS模型是在U2-Netp的基礎(chǔ)上對U2-NetT模型進(jìn)行知識(shí)蒸餾得到,生成結(jié)果線條更加柔順,且線條粗細(xì)均勻。線條數(shù)減少的情況下五官細(xì)節(jié)特征并未減少,更像簡約線條畫的風(fēng)格。并且本文模型有著更輕量的計(jì)算量和參數(shù)量、推理速度更快、更適合部署繪畫機(jī)器人使用。
由于本文模型以真實(shí)人臉以及人臉半身照為訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,所以本節(jié)分別使用動(dòng)漫人臉和動(dòng)漫人物全身照進(jìn)行生成線條畫并通過繪畫機(jī)器人進(jìn)行繪制,以此來測試本文的U2-NetS模型泛化能力與魯棒性,效果如圖7所示。
圖 7 動(dòng)漫人臉線條畫生成效果和繪制效果
圖7中,第1列和第4列為輸入圖像,第2列和第5列為本文模型生成效果,第3列和第6列是繪畫機(jī)器人繪制效果。從圖7可以看出,動(dòng)漫人臉的頭發(fā)細(xì)節(jié)生成也非常好,線條柔順清晰,面部特征把握得很好,包括動(dòng)漫人物眼睛的神韻也得到保留,對于身體的細(xì)節(jié)特征也能把握到位。證明了U2-NetS模型良好的泛化能力和魯棒性。
為解決肖像繪畫機(jī)器人普遍存在的畫像質(zhì)量較低、繪畫藝術(shù)風(fēng)格單一、繪制時(shí)間較長等問題,本文提出了一種基于知識(shí)蒸餾的簡約人臉線條畫生成算法,通過知識(shí)蒸餾利用教師網(wǎng)絡(luò)指導(dǎo)學(xué)生模型訓(xùn)練,引入風(fēng)格損失約束有效解決了線條雜亂的難點(diǎn),生成高質(zhì)量線條畫,可以降低計(jì)算復(fù)雜度,并減少生成線條的數(shù)量,生成簡潔、美觀的人臉線條畫,提升繪畫機(jī)器人繪制速度,使之能夠在2 min內(nèi)繪制完成。本算法相比于教師模型減少了約65.3%計(jì)算量和約97.1%的參數(shù)量,并且在性能指標(biāo)上優(yōu)于原始的輕量型網(wǎng)絡(luò)。
本文實(shí)現(xiàn)了簡約人臉線條畫的生成,但是該模型仍然停留在單風(fēng)格單模型的生成上,當(dāng)生成不同風(fēng)格的人臉肖像畫時(shí),則需要重新訓(xùn)練一個(gè)新的模型。因此多風(fēng)格的藝術(shù)人臉肖像畫生成是后續(xù)需要展開深入研究的方向,使繪畫機(jī)器人能夠?qū)崿F(xiàn)多風(fēng)格的藝術(shù)肖像畫生成。