摘" 要: 針對大面積不規(guī)則破損的人臉圖像修復(fù)過程中出現(xiàn)的偽影和不連貫問題,提出一種基于特征融合和多尺度注意力機制的二階段人臉圖像修復(fù)算法。在粗修復(fù)網(wǎng)絡(luò)增加全局和局部特征分支來處理編碼器的輸出。其中,局部特征分支使用多尺度空洞卷積和門控殘差連接來聚合上下文信息,并與全局特征分支的輸出進行正交融合,提高局部特征與全局特征的相關(guān)性,減少特征冗余。在精修復(fù)網(wǎng)絡(luò)增加平均和最大金字塔池化模塊,其中,平均池化用于捕捉整體統(tǒng)計信息,最大池化用于提取空間上顯著的特征并保留關(guān)鍵信息,并利用通道?空間注意力機制進行圖像特征結(jié)構(gòu)調(diào)整和紋理生成。最后,構(gòu)建了一個包括多尺度結(jié)構(gòu)相似性損失的復(fù)合函數(shù)對網(wǎng)絡(luò)進行訓(xùn)練。實驗結(jié)果表明,所提算法在主觀和客觀評價指標上均優(yōu)于現(xiàn)有算法。
關(guān)鍵詞: 全局特征; 局部特征; 正交融合; 金字塔池化; CBAM; 多尺度特征融合; 人臉圖像修復(fù)
中圖分類號: TN911.73?34; TP391.4"""""""""""""""" 文獻標識碼: A""""""""" """"""""文章編號: 1004?373X(2024)09?0040?07
0" 引" 言
傳統(tǒng)的圖像修復(fù)算法如基于擴散和基于樣本的方法只能修復(fù)結(jié)構(gòu)簡單的破損圖像,對于人臉圖像修復(fù)效果遠遠不足。隨著深度學(xué)習(xí)的快速發(fā)展,生成對抗網(wǎng)絡(luò)(GAN)[1]已經(jīng)被廣泛應(yīng)用于人臉修復(fù)領(lǐng)域,該模型主要由生成器和鑒別器兩部分組成,其生成器由編解碼器組成,編碼器提取圖像的特征表示,然后解碼器利用特征表示恢復(fù)出合理的破損區(qū)域;鑒別器的作用則是對生成圖像進行判別,并將判別結(jié)果反饋給生成器,生成器和鑒別器形成一個動態(tài)的博弈過程,達到更好的修復(fù)效果。該網(wǎng)絡(luò)解決了傳統(tǒng)修復(fù)方法生成圖片模糊、細節(jié)體現(xiàn)不佳等問題。目前基于GAN網(wǎng)絡(luò)[1]的研究工作主要分為兩類算法:
1) 單階段方法。通過改進GAN網(wǎng)絡(luò)[1]的編解碼器結(jié)構(gòu)或增加新的功能模塊提升模型性能。例如,文獻[2]提出了一種結(jié)構(gòu)約束紋理合成和紋理引導(dǎo)結(jié)構(gòu)重建的耦合網(wǎng)絡(luò)(CTSDG),并設(shè)計了雙向門控特征融合模塊來實現(xiàn)結(jié)構(gòu)和紋理信息的融合;文獻[3]通過空洞卷積聚合圖像中遠距離的上下文信息,修復(fù)后的圖像紋理細節(jié)更加豐富;文獻[4]提出通過內(nèi)核預(yù)測分支和語義與圖像過濾分支的交互反饋得到修復(fù)圖像布局更加合理。由于單階段修復(fù)模型對圖像損壞的理解和學(xué)習(xí)能力有限,導(dǎo)致生成的紋理細節(jié)會出現(xiàn)模糊、扭曲等問題。
2) 多階段方法。在單階段的基礎(chǔ)上,將整個修復(fù)過程分解為多個子任務(wù),每個子任務(wù)相當于一個獨立的單階段網(wǎng)絡(luò)完成一個方面的修復(fù)任務(wù),多個子網(wǎng)絡(luò)前后銜接對破損圖像進行從粗到細漸進式的修復(fù)。如文獻[5]將待修復(fù)的圖像分為不同的區(qū)域,編碼器使用不同內(nèi)核的卷積分別提取各個區(qū)域的特征,解碼器包括“恢復(fù)解碼器”和“細化解碼器”,“恢復(fù)解碼器”分級向“細化解碼器”輸出多尺度特征,“細化解碼器”采用逐點歸一化來細化“恢復(fù)解碼器”的輸出特征。多階段修復(fù)模型的性能取決于第一階段的粗修復(fù)效果。若第一階段修復(fù)圖像出現(xiàn)結(jié)構(gòu)扭曲,則精修復(fù)網(wǎng)絡(luò)會繼承上一階段的錯誤結(jié)果。
針對修復(fù)圖像存在布局不合理和紋理模糊現(xiàn)象,本文采用兩階段的圖像修復(fù)模型,在第一階段引入Res2Net[6]模塊和門控殘差連接提取多尺度的局部特征,并通過和全局特征進行正交融合濾除冗余信息以增強網(wǎng)絡(luò)模型的結(jié)構(gòu)表征能力。第二階段引入平均和最大金字塔池化模塊(Avgpool and Maxpool Pyramid Pooling Module, AMPPM)代替平均池化模塊,用以提取的不同尺度的特征,并引入通道?空間注意力模塊[7] (Convolutional Block Attention Module, CBAM)自適應(yīng)地解決圖像破損區(qū)域和非破損區(qū)域整體一致性的問題。最后,構(gòu)建多尺度結(jié)構(gòu)相似性復(fù)合損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型,引導(dǎo)生成器更好地捕捉圖像細節(jié)和全局結(jié)構(gòu)的相似性,從而生成更加逼真和細節(jié)豐富的圖像。
1" 系統(tǒng)框架
算法的整體網(wǎng)絡(luò)架構(gòu)如圖1所示,模型主要采用生成對抗網(wǎng)絡(luò)框架[1],由生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)組成。生成器網(wǎng)絡(luò)主要包括粗修復(fù)網(wǎng)絡(luò)[GC]和精修復(fù)網(wǎng)絡(luò)[GP]。鑒別器網(wǎng)絡(luò)采用的是補丁鑒別器[8]。
1.1" 粗修復(fù)網(wǎng)絡(luò)
用[Igt∈R256×256×3](大小為[256×256],通道維度為3)代表原始圖像,[M]表示隨機生成的自由掩模,[Igt=Igt⊙1-M]表示破損圖像,其中,[⊙]表示逐像素相乘。粗修網(wǎng)絡(luò)的輸入為[Igt∈R256×256×3],由編碼器、基于局部和全局特征的正交融合模塊(Orthogonal Fusion Module for Local and Global Feature, OFMLB)和解碼器組成。編碼器采用文獻[9]中ResNet101前四層結(jié)構(gòu);解碼器由3個上采樣卷積層和1個普通卷積層組成。
編碼器與解碼器的網(wǎng)絡(luò)結(jié)構(gòu)分別如表1和表2所示。OFMLB模塊包括全局分支模塊、局部分支模塊和正交融合模塊。全局分支模塊的輸入為編碼器第四層輸出的特征矩陣[f2∈R16×16×1 024],經(jīng)過GeM池化[10?11]和全連接層提取破損圖片中的全局特征[fg∈R1×1×512]。網(wǎng)絡(luò)結(jié)構(gòu)如表3所示。
局部分支模塊由一個改進的Res2Net[6]模塊和一個門控殘差連接組成。局部分支模塊的輸入為編碼器第三層輸出的特征矩陣[f1∈R32×32×512]。改進的Res2Net[6]模塊將[f1]拆分為4個128通道的特征矩陣后,分別通過大小為[3×3],步長為1和空洞率分別為1、2、4、8的空洞卷積對4個特征矩陣進行感受野擴張,然后合并這4個具有不同感受野的特征矩陣,得到[f3∈R32×32×512];門控殘差連接輸入為[f1],通過[3×3]卷積和Sigmoid函數(shù)得到門值[g]。通過如下公式:
[fl=f1×g+f3×(1-g)] (1)
來過濾[f3]的無用像素,提取破損圖片中的局部特征[fl∈R32×32×512]。
正交融合模塊由正交向量模塊、平均池化和全連接層組成。首先,正交向量模塊將局部特征[fl∈R32×32×512]投影到全局特征[fg]上,得到投影向量[f(i,j)l,proj],如公式(2)所示:
[f(i,j)l,proj=f(i,j)l·fgfg22fg] (2)
式中:[f(i,j)l]為局部特征的像素點;[f(i,j)l·fg]是點乘運算;[fg2]是[fg]的Euclidean范數(shù)。然后計算局部特征與投影向量之差,得到正交分量[f(i,j)l,orth],如公式(3)所示:
[f(i,j)l,orth=f(i,j)l-f(i,j)l,proj] (3)
將[fg]擴展到與[f(i,j)l,orth]相同的大小,再和[f(i,j)l,orth]進行拼接,經(jīng)平均池化和全連接層輸出正交融合的圖像特征矩陣[fm∈R32×32×512]。
最后,將[fm]輸入到解碼器中生成初修復(fù)結(jié)果。初修復(fù)網(wǎng)絡(luò)的輸入輸出關(guān)系表示為:
[ICout=GCIgt,M] (4)
1.2" 精修復(fù)網(wǎng)絡(luò)
精修網(wǎng)絡(luò)的輸入為[ICmer=ICout⊙M+Igt],[ICmer∈R256×256×3],由U?net的網(wǎng)絡(luò)框架[12]的編解碼器、特征金字塔CBAM注意力模塊(Feature Pyramid CBAM Attention Module, FPCAM)以及跳躍連接組成。特征金字塔CBAM注意力模塊由AMPPM模塊和CBAM注意力模塊[7]組成。
AMPPM模塊由最大池化和平均池化組成,將編碼器的輸出[f5∈R16×16×256]輸入到AMPPM模塊,使用池化內(nèi)核大小為1、2、4、8的最大自適應(yīng)池化與平均自適應(yīng)池化層分別對[f5]進行池化操作,得到尺度分別為[1×1×256]、[2×2×256]、[4×4×256]以及[8×8×256]的最大池化特征[fcmaxpool∈Ri×i×256i=1,2,4,8],[i]表示不同尺度大小和平均池化特征[fcavgpool∈Ri×i×256i=1,2,4,8]。然后,將池化后相同尺度大小的特征分別經(jīng)過拼接,如公式(5)所示:
[fci=fcavgpool;fcmaxpool,"" i=1,2,4,8] (5)
式中[[;]]表示特征拼接。對[fci]進行[1×1]卷積操作降低通道維度,得到特征矩陣[fc'i∈Ri×i×256i=1,2,4,8];CBAM注意力模塊[7]由通道注意力模塊和空間注意力模塊組成,通道注意力模塊利用對應(yīng)尺度的通道注意力權(quán)重矩陣[7][MC]分別對不同尺度的[fc'ii=1,2,4,8]進行加權(quán),得到通道細化特征[F′i∈Ri×i×256i=1,2,4,8]。再利用空間注意力權(quán)重矩陣[7][MS]對通道細化特征[F′i]進行加權(quán)調(diào)制,得到空間細化特征[F″i∈Ri×i×256i=1,2,4,8]。計算如公式(6)所示:
[F′i=MC(fc'i)?fc′i,""" i=1,2,4,8F″i=MS(F′i)?F′i,""" i=1,2,4,8] (6)
然后,通過上采樣將不同大小的空間細化特征[F″i]恢復(fù)成尺度大小為[16×16×256]的4個圖像特征,將它們與[f5]拼接,并通過[1×1]卷積降低通道維度,得到特征金字塔CBAM注意力模塊最終輸出特征[fpro∈R16×16×256]。
最后,將[fpro]輸入到解碼器中生成精修復(fù)結(jié)果。精修復(fù)網(wǎng)絡(luò)的輸入輸出關(guān)系表示為:
[IRpro=GRICmer,M] (7)
精修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)如表4所示。
1.3" 訓(xùn)練過程與網(wǎng)絡(luò)損失函數(shù)
為了充分利用破損圖像中存在的結(jié)構(gòu)信息,本文在文獻[5]像素級重建損失[L1]、全變分損失[Ltv]、感知損失[Lper]和風格損失[Lsty]的基礎(chǔ)上,增加多尺度結(jié)構(gòu)相似性損失[13],如公式(8)所示:
[Lms?ssim=l(x,y)αMj=1Hc(x,y)βjs(x,y)γj] (8)
式中:[x]是真實圖像[Igt]的像素點;[y]是生成圖像的像素點;[l(x,y)]是亮度相似性;[c(x,y)]是對比度相似性;[s(x,y)]是結(jié)構(gòu)相似性;[αM]、[βj]和[γj]分別表示三項的權(quán)重;[H]表示圖像尺度[14]。
生成器網(wǎng)絡(luò)中粗修復(fù)網(wǎng)絡(luò)和精修復(fù)網(wǎng)絡(luò)的復(fù)合損失函數(shù)相同,它們可以表示為:
[Lk=L1+λtv·Ltv+λms?ssim·Lms?ssim+λper·Lper+λsty·Lsty] (9)
式中:[k=C]表示粗修復(fù)網(wǎng)絡(luò)損失函數(shù)[LC],[k=R]表示精修復(fù)網(wǎng)絡(luò)損失函數(shù)[LR]。與文獻[5]、文獻[15]類似,本文采用的權(quán)重設(shè)置為:[λtv=0.1]、[λms?ssim=0.25]、[λper=0.05]和[λsty=120]。
鑒別器D對抗損失[LD]定義為:
[LD=12EIgt~PIgtIgtDIgt-12+12EIkmer~PIkmerIkmerDIkmer2] (10)
式中:[E*]表示分布函數(shù)的數(shù)學(xué)期望;[pAA]表示圖像的概率分布;[Ikmer]為合并圖像;粗修網(wǎng)絡(luò)輸出的合并圖像為[ICmer],精修網(wǎng)絡(luò)輸出的合并圖像為[IRmer=IRpro⊙M+Igt],[IRmer∈R256×256×3]。
網(wǎng)絡(luò)模型的整體損失函數(shù)由生成器網(wǎng)絡(luò)損失[LC]和[LR]及鑒別器網(wǎng)絡(luò)損失[LD]構(gòu)成,表示為:[L=LC+LR+LD]。
2" 實驗結(jié)果及分析
實驗配置為:64位Windows 10操作系統(tǒng),Nvidia GeForce RTX 3090 GPU,實驗框架采用Pytorch深度學(xué)習(xí)框架,版本為1.8.1,編程語言使用Python 3.8。本文采用Celeba?HQ人臉數(shù)據(jù)集進行訓(xùn)練和測試,訓(xùn)練集包含20 000張大小為[256×256×3]的人臉圖像,測試集包含1 000張人臉圖像。在訓(xùn)練階段,使用Adam[16]優(yōu)化器共進行400輪次的訓(xùn)練,批量大小為14,生成器的學(xué)習(xí)率前300輪次設(shè)置為固定值0.000 2,后100輪次學(xué)習(xí)率開始線性遞減,直至為零。
為了驗證本文算法的有效性,與現(xiàn)有主流算法進行對比實驗,通過主觀視覺對比和客觀指標分析兩種方式作為評價指標。
2.1" 主觀評價
主觀視覺對比如圖2所示。
圖2中第一、二行表示破損程度為10%~20%的實驗對比圖,第三、四行表示破損程度為20%~30%的實驗對比圖,第五、六行表示破損程度為30%~40%的實驗對比圖,第七、八行表示破損程度為40%~50%的實驗對比圖。第九、十行表示破損程度為50%~60%的實驗對比圖。從左到右:第一列是破損圖像,第二列是MADF算法[5]的修復(fù)結(jié)果,第三列是MISF算法[4]的修復(fù)結(jié)果,第四列是CTSDG算法[2]的修復(fù)結(jié)果,第五列是AOT?GAN算法[3]的修復(fù)結(jié)果,第六列是本文算法的修復(fù)結(jié)果。從第二列可以看出,MADF算法[5]從破損程度30%開始,會產(chǎn)生扭曲的結(jié)構(gòu)和大面積的偽影,原因在于該算法通過卷積操作恢復(fù)圖像特征,當恢復(fù)區(qū)域周圍的像素越少,導(dǎo)致能利用的特征過少,解碼器無法從已知特征中恢復(fù)合理布局;從第三列可以看出,MISF算法[4]在破損程度為30%~60%時,修復(fù)圖像的頭部形狀出現(xiàn)錯誤以及嘴型、頭發(fā)和眼睛出現(xiàn)錯位或缺失問題,原因在于基于圖像級別的內(nèi)核預(yù)測分支只能根據(jù)相鄰像素對圖像整體概率分布擬合推斷出基本布局,但對于圖像局部的預(yù)測能力較弱,無法恢復(fù)出圖像細節(jié);從圖2中第四列可以看出,CTSDG算法[2]在破損程度為40%~60%時,眼睛、嘴巴形狀錯誤以及耳朵、頭發(fā)與臉頰發(fā)生重疊或紋理模糊等現(xiàn)象,原因在于大面積破損時,沒有利用遠距離特征導(dǎo)致結(jié)構(gòu)生成錯誤,結(jié)構(gòu)無法約束紋理生成,特征信息不足導(dǎo)致紋理缺失,紋理無法引導(dǎo)結(jié)構(gòu)重建;從圖2中第五列可以看出,AOT?GAN算法[3]在破損程度為40%~60%時出現(xiàn)眼睛、鼻子和頭發(fā)形狀錯誤現(xiàn)象,原因是雖然通過空洞卷積擴大感受野,獲得遠距離信息,但并沒有對聚合的上下文信息進行處理而直接輸入到解碼器,導(dǎo)致無法恢復(fù)出合理的圖像布局。從最后一列可以看出,本文算法有著更好的圖像細節(jié)與整體布局,在色彩鮮艷度上也更接近于真實圖像。
2.2" 客觀評價
使用峰值信噪比(Peak Signal?to?Noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural Similarity, SSIM)作為定量評估指標。PSNR值越高表示圖像失真越少,而SSIM值越高表示修復(fù)結(jié)果與原始圖像之間的差別越小,也意味著修復(fù)結(jié)果的圖像質(zhì)量越好。如表5、表6所示,在相同破損程度的情況下,本文提出的修復(fù)算法性能優(yōu)于其他圖像修復(fù)算法。
2.3" 消融實驗
為了說明本文所提出網(wǎng)絡(luò)各模塊的有效性和必要性,在相同的實驗配置條件下對其進行消融實驗,對比結(jié)果如表7所示。
具體的實驗包括四種情況:
1) 基線網(wǎng)絡(luò)模型;
2) 僅增加OFMLB模塊;
3) 僅增加FPCAM模塊;
4) 同時增加OFMLB模塊和FPCAM模塊。
從表7可以看出,與情況1)的基線網(wǎng)絡(luò)模型相比,情況2)僅增加OFMLB模塊,PSNR指標提升28.1%,SSIM指標提升10.21%;而情況3)僅增加FPCAM模塊,PSNR指標提升29.07%,SSIM指標提升10.84%;情況4)相對于情況2),PSNR指標提升2.57%,SSIM指標提升2.4%;相對于情況3),PSNR指標提升1.79%,SSIM指標提升1.82%。由此證明算法中加入OMFLB模塊和FPCAM模塊會使修復(fù)圖像的質(zhì)量更好。
為了說明本文所加入[Lms?ssim]損失函數(shù)對網(wǎng)絡(luò)性能的提升,在相同的實驗配置條件下,消融實驗結(jié)果如表8所示,可以看出,在增加[Lms?ssim]損失函數(shù)的情況下,PSNR指標提升2.1%,SSIM指標提升2.64%。
表8" 損失函數(shù)消融實驗客觀指標對比表
[[Lms?ssim]損失函數(shù)""" PSNR"""" SSIM""""" ×"""" 29.637 4" 0.872""""" √""" 30.261""" 0.895""""" ]
3" 結(jié)" 語
本文引入局部和全局特征融合及多尺度特征注意力機制到二階段人臉圖像修復(fù)網(wǎng)絡(luò)中。首先提取破損圖像的全局與局部特征并進行正交融合,得到布局合理的粗修復(fù)圖像;然后使用平均和最大金字塔池化模塊進一步提取多尺度特征,并利用CBAM對多尺度特征進行加權(quán)調(diào)制,調(diào)整特征結(jié)構(gòu)和生成圖像細節(jié),改善圖像目標區(qū)域與周圍區(qū)域邊界不連貫的問題。實驗結(jié)果證明本文算法在細節(jié)修復(fù)與整體布局兩個方面的修復(fù)效果有了明顯提升。
參考文獻
[1] GOODFELLOW I, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial networks [J]. Communications of the ACM, 2020, 63(11): 139?144.
[2] GUO X, YANG H, HUANG D. Image inpainting via conditional texture and structure dual generation [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 14114?14123.
[3] ZENG Y, FU J, CHAO H, et al. Aggregated contextual transformations for high?resolution image inpainting [J]. IEEE transactions on visualization and computer graphics, 2022, 29(7): 3266?3280.
[4] LI X G, GUO Q, LIN D, et al. MISF: Multi?level interactive Siamese filtering for high?fidelity image inpainting [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2022: 1859?1868.
[5] ZHU M Y, HE D L, LI X, et al. Image inpainting by end?to?end cascaded refinement with mask awareness [J]. IEEE transactions on image processing, 2021, 30: 4855?4866.
[6] GAO S H, CHENG M M, ZHAO K, et al. Res2Net: A new multi?scale backbone architecture [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 43(2): 652?662.
[7] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 3?19.
[8] YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention [C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 5505?5514.
[9] YANG M, HE D L, FAN M, et al. DOLG: Single?stage image retrieval with deep orthogonal fusion of local and global features [C]// 2019 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 11752?11761.
[10] GU Y Z, LI C P, XIE J B, et al. Attention?aware generalized mean pooling for image retrieval [EB/OL]. [2019?01?28]. https://arxiv.org/abs/1811.00202v2.
[11] RADENOVIC F, TOLIAS G, CHUM O. Fine?tuning CNN image retrieval with no human annotation [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1655?1668.
[12] ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: Redesigning skip connections to exploit multiscale features in image segmentation [J]. IEEE transactions on medical imaging, 2020, 39(6): 1856?1867.
[13] ZHAO H, GALLO O, FROSIO I, et al. Loss functions for image restoration with neural networks [J]. IEEE transactions on computational imaging, 2016, 3(1): 47?57.
[14] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE transactions on image processing, 2004, 13(4): 600?612.
[15] KARRAS T, AILA T, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1710.10196.
[16] LIU H Y, JIANG B, SONG Y B, et al. Rethinking image inpainting via a mutual encoder?decoder with feature equalizations [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2020: 725?741.
Research on two?stage face image restoration algorithm based on
local and global feature fusion
XU Ke
(College of Physics and Electronic Engineering, Shanxi University, Taiyuan 030006, China)
Abstract: A two?stage face image restoration algorithm based on feature fusion and multiscale attention mechanism is proposed to address the artifacts and incoherence that occur during the restoration of large irregularly broken face images. Global and local feature branches are added to the rough repair network to process the output of the encoder. Among them, multi?scale dilated convolution and gated residual concatenation are used to aggregate contextual information of the local feature branch, and then the information is orthogonally fused with the output of the global feature branch to improve the correlation between local and global features and reduce the feature redundancy. The average and maximum pyramid pooling modules are added to the fine repair network, among which the average pooling module is used to capture the overall statistical information, and the maximum pooling module is used to extract spatially salient features and retain the key information. In addition, the convolutional block attention module (CBAM) is used for image feature restructuring and texture generation. A composite function including multi?scale structural similarity loss is constructed to train the network. Experimental results show that the proposed algorithm outperforms the existing algorithms in both subjective and objective evaluation indicators.
Keywords: global feature; local feature; orthogonal fusion; pyramid pooling; CBAM; multi?scale feature fusion; face image inpainting
DOI:10.16652/j.issn.1004?373x.2024.09.008
引用格式:徐克.基于局部和全局特征融合的二階段人臉圖像修復(fù)算法研究[J].現(xiàn)代電子技術(shù),2024,47(9):40?46.
收稿日期:2023?11?30"""""""""" 修回日期:2023?12?22
徐" 克:基于局部和全局特征融合的二階段人臉圖像修復(fù)算法研究
作者簡介:徐" 克(1998—),男,安徽滁州人,碩士研究生,主要從事深度學(xué)習(xí)、人工智能和圖像修復(fù)算法的研究。