高美玲,段 錦,趙偉強,胡 奇
〈圖像處理與仿真〉
基于空洞全局注意力機制的近紅外圖像彩色化方法
高美玲,段 錦,趙偉強,胡 奇
(長春理工大學 電子信息工程學院,吉林 長春 130012)
針對目前卷積神經(jīng)網(wǎng)絡未能充分提取圖像的淺層特征信息導致近紅外圖像彩色化算法存在結(jié)果圖像局部區(qū)域誤著色及網(wǎng)絡訓練不穩(wěn)定導致結(jié)果出現(xiàn)模糊問題,提出了一種新的生成對抗網(wǎng)絡方法用于彩色化任務。首先,在生成器殘差塊中引入自行設計的空洞全局注意力模塊,對近紅外圖像的每個位置理解更加充分,改善局部區(qū)域誤著色問題;其次,在判別網(wǎng)絡中,將批量歸一化層替換成梯度歸一化層,提升網(wǎng)絡判別性能,改善彩色化圖像生成過程帶來的模糊問題;最后,將本文算法在RGB_NIR數(shù)據(jù)集上進行定性和定量對比。實驗表明,本文算法與其他經(jīng)典算法相比能充分提取近紅外圖像的淺層信息特征,在指標方面,結(jié)構相似性提高了0.044,峰值信噪比提高了0.835,感知相似度降低了0.021。
彩色化;近紅外圖像;生成對抗網(wǎng)絡;空洞全局注意力;梯度歸一化
近紅外光是介于可見光和中紅外光之間的電磁波,其波長范圍為780~1000nm。近紅外成像技術穿透性能非常高,即使在惡劣天氣下也能獲得細節(jié)豐富的圖像。但是與符合人類視覺系統(tǒng)的彩色圖像相比,近紅外圖像缺少顏色信息,人類對灰度圖像的敏感度低于彩色圖像敏感度,且近紅外圖像具有可見光圖像不具備的紋理細節(jié)特征,故需要將其彩色化來增加色彩信息,使近紅外圖像能更符合人類的視覺感官。
目前針對近紅外圖像彩色化算法主要分為兩大類,一類是基于參考圖像的顏色像素匹配方法,另一類是基于深度學習的信息特征映射方法。
基于參考圖像的顏色像素匹配方法需要將近紅外圖像與參考圖像轉(zhuǎn)換到特定顏色空間,利用各像素級進行映射實現(xiàn)圖像彩色化。主要分為兩類,一類是局域顏色拓展著色,另一類是顏色傳遞著色。針對局域顏色拓展著色,戴康[1]利用圖像的局部馬爾可夫性質(zhì)通過最小化相鄰像素間的顏色區(qū)別實現(xiàn)著色。Musialski[2]等人實現(xiàn)個性化用戶輸入偏好的物體顏色信息以實現(xiàn)圖像的彩色化;針對顏色傳遞著色,Welsh[3]等人利用查找匹配像素的方式實現(xiàn)近紅外圖像的顏色遷移。Reinhard[4]等人提出色彩遷移公式,在CIELAB(commission international eclairage LAB, CIELAB)顏色空間轉(zhuǎn)換進行著色。以上兩種方法中均需要一張?zhí)囟ǖ膮⒖紙D像作為輸入,且顏色傳遞方法需要人工操作進行上色,生成結(jié)果因素復雜且操作量較大。
基于深度學習的信息特征映射方法,通常將灰度圖像和可見光圖像兩個不同域作為網(wǎng)絡的輸入,兩個域的圖像不斷地通過卷積神經(jīng)網(wǎng)絡進行特征提取,網(wǎng)絡不斷地進行兩個域之間的特征學習,進而實現(xiàn)近紅外圖像彩色化。主要分為兩類,一類是卷積神經(jīng)網(wǎng)絡著色,另一類是生成對抗網(wǎng)絡著色。針對卷積神經(jīng)網(wǎng)絡著色,馮佳男[5]等通過卷積神經(jīng)網(wǎng)絡將低級特征與高級特征進行融合著色實現(xiàn)圖像彩色化,但由于近紅外圖像淺層特征與深層特征進行融合會導致淺層特征信息被覆蓋,從而邊緣漫色問題依舊存在。Cheng[6]等利用色度分量和聯(lián)合雙邊濾波結(jié)合得到彩色化結(jié)果,但生成效果不佳;針對生成對抗網(wǎng)絡著色,Zhu[7]等人提出雙向循環(huán)生成對抗網(wǎng)絡模型,引入雙向循環(huán)一致?lián)p失函數(shù)更好地實現(xiàn)圖像彩色化,但由于生成對抗網(wǎng)絡因陡峭的梯度空間導致網(wǎng)絡訓練不穩(wěn)定,使得該方法彩色化結(jié)果出現(xiàn)模糊現(xiàn)象;Deblina[8]等人提出DUNIT網(wǎng)絡,借用無監(jiān)督框架完成黑天到白天的轉(zhuǎn)換及目標檢測兩大視覺任務,但結(jié)果圖像紋理細節(jié)不清晰。萬園園[9]等人提出的UNIT和GAN相結(jié)合實現(xiàn)灰度圖像彩色化,在一定程度上提升了彩色化效果,但錯誤著色、模糊問題依舊存在。
目前已有的配對并標注好的近紅外-可見光圖像數(shù)據(jù)集稀少,這為近紅外圖像彩色化任務增添了難題。但生成對抗網(wǎng)絡著色采用的是無監(jiān)督學習,無需成對圖像就能完成基本的著色任務,且獨特的網(wǎng)絡結(jié)構和訓練機制能更好地學習建立近紅外圖像與可見光圖像之間的映射關系,使得生成對抗網(wǎng)絡結(jié)構在大多數(shù)視覺任務中廣泛應用,如圖像超分辨率[10-11],圖像分割[12-13]及目標識別[14-15]等。
受此啟發(fā),本文設計了一種新的近紅外圖像彩色化生成對抗網(wǎng)絡結(jié)構,將空洞全局注意力機制和梯度歸一化相結(jié)合完成近紅外圖像彩色化任務。第一,為解決彩色近紅外圖像中出現(xiàn)的局部區(qū)域誤著色問題,本文結(jié)合空洞卷積模塊和全局注意力模塊的優(yōu)勢,自行構建了一個名為空洞全局注意力機制模塊,該模塊利用空洞卷積模塊不同擴張率實現(xiàn)不同感受野下同等特征圖的信息,解決近紅外圖像特征感受野受限制的問題,并結(jié)合全局注意力機制模塊中通道和空間兩路注意力操作來解決上下級近紅外圖像特征理解不充分、淺層特征提取不足問題。在生成器網(wǎng)絡中將空洞全局注意力模塊融入到殘差塊中,用來充分提取近紅外圖像特征并反卷積進行著色。第二,為解決彩色近紅外圖像出現(xiàn)的模糊問題,本文在判別網(wǎng)絡中將梯度歸一化代替批量歸一化,克服了批量歸一化模塊在訓練過程中不穩(wěn)定的問題,提高了彩色近紅外圖像的生成質(zhì)量。
本文模型生成器在ResNet網(wǎng)絡殘差塊基礎上引入了空洞全局注意力機制模塊(dilated global attention module, DA Block),該模塊充分結(jié)合了空洞卷積模塊和全局注意力模塊的優(yōu)勢,解決了近紅外圖像淺層特征理解不充分的問題;利用空洞卷積模塊的優(yōu)點解決生成對抗網(wǎng)絡淺層特征圖感受野受限制,不能獲取近紅外圖像全部細節(jié)信息的缺陷;利用全局注意力模塊的優(yōu)點解決近紅外圖像全局上下文特征信息理解不充分、局部區(qū)域誤著色問題,通道注意力模塊引入全連接進行降維并提取近紅外圖像中更重要的細節(jié)信息,空間注意力模塊引入池化操作提取近紅外圖像不同特征并增強特征多樣性,使得近紅外圖像更能充分理解上下文信息,著色結(jié)果準確率顯著提升。生成器結(jié)構如圖2所示,空洞全局注意力機制模塊如圖3所示,網(wǎng)絡結(jié)構如圖4所示。
1)空洞卷積模塊
空洞卷積是指在卷積核元素之間填充0來擴大卷積核的過程??斩淳矸e如圖5所示。
若為擴張率,為原卷積核大小,則加入空洞卷積后尺寸為=+(-1)(-1)。比如=1、2、4時感受野如圖6所示。
從圖6中可以看出空洞卷積可以增大輸出單元的感受野且不會增大卷積核大小,帶有多個不同空洞率的卷積進行疊加時不同的感受野可以帶來多尺度信息,獲取上下文多尺度信息。本文基于TriddentNet[17]的思想,通過空洞率分別為1、2、3的空洞卷積實現(xiàn)不同感受野下同等特征圖的獲取。
2)全局注意力模塊
全局注意力模塊[18]用于在減少信息彌散情況下也同時放大全局維度交互特征。給定一個中間特征圖作為輸入,卷積注意力模塊會依次沿通道和空間兩個獨立維度判斷注意力圖,然后將其乘以自適應特征進行優(yōu)化得到結(jié)果。
通道注意力模塊是將中間特征圖作為輸入,分別通過全局池化和最大池化兩個操作轉(zhuǎn)成1×1×,然后經(jīng)過多層感知機進行全連接逐像素加權操作,再經(jīng)過Sigmoid激活操作生成通道注意力特征圖,最后將通道注意力特征圖與輸入逐像素加乘得到最終的通道注意力特征圖。該特征圖關注的是該近紅外圖像上哪些內(nèi)容有重要作用,通道注意力機制可表達為公式(1)所示:
c()=[MLP(AvgPool()]+MLP(MaxPool() (1)
式中:為Sigmoid函數(shù);MLP是多層感知機;AvgPool為平均池化;MaxPool為最大池化。
圖2 生成器結(jié)構
圖3 空洞全局注意力機制模塊
圖4 空洞全局注意力機制模塊網(wǎng)絡結(jié)構
圖5 空洞卷積
圖6 不同擴張率下感受野
空間注意力模塊是將最終通道注意力特征圖作為輸入,經(jīng)過基于通道的全局最大池化和平均池化操作,接著將這兩個結(jié)果進行通道融合操作,再降維成1個通道的特征圖,再經(jīng)過Sigmoid激活函數(shù)生成空間注意力機制圖,最后將該特征圖與輸入特征圖逐像素加乘得到最終的結(jié)果。空間注意力機制表達式如公式(2)所示:
式中:7×7代表卷積核。
本文模型判別器采用的是原始馬爾可夫模型。判別器屬于卷積神經(jīng)網(wǎng)絡,為了提取圖像特征,最后一層輸出一維特征圖判斷圖像的真假。針對訓練不穩(wěn)定帶來的彩色化結(jié)果模糊問題,本文在原始判別器批量歸一化層(batch normalization, BN)[19]替換成梯度歸一化層(gradient norm, GN),為判別函數(shù)施加了一個L1-利普希茨約束,解決了判別器因陡峭的空間造成訓練不穩(wěn)定的問題,提升了判別器性能。本文判別網(wǎng)絡模型如圖7所示。
1)批量歸一化
批量歸一化是2015年Google研究人員提出的一種參數(shù)歸一化手段。BN層可使網(wǎng)絡超參數(shù)的設定更加寬泛,收斂較快。BN操作在數(shù)據(jù)輸入層,對輸入數(shù)據(jù)進行求均值、方差做歸一化,具體操作如下:
輸入:輸入:={1,…,m}
輸出:歸一化后的網(wǎng)絡響應{y=BN,(x)}
⑤返回學習參數(shù)和。
圖7 判別模型
2)梯度歸一化
梯度歸一化(gradient normalization, GN)是2021年Wu[20]提出的帶有L1-利普希茨約束的歸一化方式,該文主要解決的問題就是生成對抗網(wǎng)絡生成圖像質(zhì)量較模糊問題,并且在CIFAR10、CelebA-HQ及LSUN Church Outdoor等數(shù)據(jù)集上進行測試,證明GN同時滿足模型集、非基于采樣及硬約束3個特性,且可兼容各種網(wǎng)絡架構,帶有約束的參數(shù)不會損失生成圖像的分辨率,不會帶有額外的超參數(shù)。具體操作如下:
輸入:生成器與判別器參數(shù)G、D,學習率G、D,批處理圖片,更新率dis,總迭代次數(shù)。
②對于=1~;
③對于dis=1~;
④對于=1~;
⑤~p,~p();
⑧潛在空間的隨機樣本{z}=12M~p();
批量歸一化雖有優(yōu)點,但在實際網(wǎng)絡訓練中,訓練批尺寸參數(shù)通常設置為1,無法有效地處理所有批次圖像,進而導致網(wǎng)絡在訓練過程中出現(xiàn)不穩(wěn)定,出現(xiàn)生成圖像模糊問題,而原梯度歸一化論文的思想就是為了解決生成對抗網(wǎng)絡結(jié)果圖像生成模糊問題,故本文模型將批量歸一化層替換成梯度歸一化層進行驗證。
本文算法的損失函數(shù)基于生成對抗網(wǎng)絡進行設計,為了使生成圖像的細節(jié)和邊緣紋理更接近原始近紅外圖像,在對抗網(wǎng)絡損失函數(shù)基礎上引入SSIM(structure similarity index measure, SSIM)損失函數(shù),SSIM損失函數(shù)在亮度、對比度和圖像結(jié)構三方面考慮了兩幅圖像之間的細節(jié)。為了實現(xiàn)上述目標,本文損失函數(shù)如下所示。
1)對抗損失。該損失目的是使生成的圖像更加真實,生成更加生動的結(jié)果,是生成對抗網(wǎng)絡中基礎的損失函數(shù)。
式中:是生成函數(shù);是判別函數(shù);為近紅外圖像域;為可見光圖像域。
2)循環(huán)一致?lián)p失。該損失用來增強整體結(jié)構信息,降低近紅外圖像域和可見光圖像域間錯誤映射的概率。
(())及(())為前向預測,差異越大,預測與原始之間差別越大。
3)識別損失。該損失旨在控制生成器隨意修改生成的色調(diào)及樣式,增強生成圖像的色調(diào)準確性等。
4)結(jié)構相似性損失。用于衡量近紅外圖像與彩色近紅外圖像之間的差異,提升生成器對輸入圖像結(jié)構的學習能力。
式中:i和v分別是近紅外圖像和生成的彩色圖像的像素平均值;i和v分別是近紅外圖像和生成的彩色圖像的方差。
5)總損失函數(shù)。聯(lián)合上述所有損失函數(shù),本文目標是優(yōu)化總損失函數(shù)。
式中:1、2,3為超參數(shù),調(diào)整1可以調(diào)節(jié)循環(huán)一致?lián)p失函數(shù)的權重,1=10;調(diào)整2可以調(diào)節(jié)識別損失函數(shù)的權重,2=10;調(diào)節(jié)3可以調(diào)節(jié)結(jié)構相似性損失函數(shù)的權重,3=0.6。
本實驗在Windows 10操作系統(tǒng)下進行,深度學習框架選取PyTorch,CUDA版本為11.1,開源視覺庫為Python-Open CV4.5.1,圖像工作站配置為:Intel Core i7-6700 CPU,16GB內(nèi)存,NVIDIA GeFore RTX2060S(8G)顯卡,選用RGB_NIR[21]數(shù)據(jù)集進行訓練,統(tǒng)一尺寸為500×500。在構建網(wǎng)絡時,通過隨機梯度下降更新生成器的和判別器的權重,優(yōu)化器采用Adam,學習率初始設置為2×10-4,權重衰減設置為1×10-4,批處理大小設置為32,訓練周期數(shù)量為200,訓練前100周期保持學習率不變,訓練時間為9h左右。
為了驗證本文算法的彩色化效果,本文從定性和定量兩個方面進行評估。定性分析主要是從主觀角度進行評價,定量分析主要是從客觀的評價指標作為參考進行評價。本文選用峰值信噪比(peak signal to noise ratio, PSNR)、結(jié)構相似性(image similarity)、感知相似度(learned perceptual image patch similarity, LPIPS)作為評價指標。結(jié)構相似性是用來衡量兩幅圖像在結(jié)構上的相似程度,其值越大說明兩者之間的結(jié)構未發(fā)生質(zhì)變。峰值信噪比是為了衡量圖像的失真程度,數(shù)值越大說明生成圖像的失真越小。感知相似度是用來衡量兩幅圖像之間的紋理結(jié)構相似程度,數(shù)值越小說明近紅外圖像與彩色近紅外圖像紋理結(jié)構越相似,畫質(zhì)越好。
為了驗證本文算法的有效性,將本文算法與4種典型的基于生成對抗網(wǎng)絡的彩色化算法進行對比,算法分別是算法1:Deoldify[22]、算法2:Wei[23]、算法3:In2i[24]、算法4:CycleGAN算法[7]。算法結(jié)果對比如圖8所示。指標比對如表1所示。
從圖8可以看出,Deoldify算法結(jié)果只針對天空上色非常好,但是對于其他場景效果并不符合人類視覺感官。Wei及In2i結(jié)果針對草坪和樹木上色效果幾乎呈現(xiàn)熒綠色,存在很多不合理的細節(jié)顏色信息,飽和度較差。CycleGAN算法出現(xiàn)了嚴重的誤著色現(xiàn)象,草坪圖像中幾乎所有物體均呈現(xiàn)出紅色,無法區(qū)分物體顏色。本文算法相較于其他算法在牧場、大樹、雕像圖中沒有明顯的局部區(qū)域誤著色現(xiàn)象,且結(jié)果圖像顏色整體分布合理。從表1可以看出,本文算法除了在山峰圖中PSNR較低于CycleGAN算法,其他情況均取得了最佳的結(jié)果,在牧場圖中相較于其他算法SSIM提高了0.09,PSNR提高了1.744,LPIPS降低了0.017,在山峰圖中相較于其他算法SSIM提高了0.037,PSNR減少了0.467,LPIPS降低了0.016,在雕像圖中相較于其他算法SSIM提高了0.004,PSNR提高了1.228,LPIPS降低了0.03。
本實驗采取不同的網(wǎng)絡結(jié)構進行訓練,來驗證GAN結(jié)構和各模塊對算法性能的影響。共采取4組實驗分別進行驗證,分別是實驗一:原始GAN;實驗二:GAN+空洞卷積注意力模塊;實驗三:GAN+梯度歸一化;實驗四:GAN+空洞卷積注意力模塊+梯度歸一化,即本文算法。從測試集中隨機挑選3組實驗結(jié)果如圖9所示,指標對比如表2所示。
評價指標選取IS和FID作為衡量生成圖像清晰度和質(zhì)量的考核標準。Inception分數(shù)(Inception score,IS)是對生成圖片清晰度和多樣性的衡量,IS值越大越好。特征度量距離(Fréchet inception distance,F(xiàn)ID)是用來衡量兩組圖像的相似度,是計算真實圖像和生成圖像的特征向量之間距離的一種度量。FID分數(shù)常被用于評估由生成對抗網(wǎng)絡生成的圖像的質(zhì)量,分數(shù)越低說明圖像的質(zhì)量越高。
綜合圖9和表2指標的結(jié)果可以看出,實驗一結(jié)果會出現(xiàn)誤著色、上色模糊問題,實驗二在實驗一基礎上引入了空洞全局注意力機制模塊,效果上可以清晰看出錯誤著色現(xiàn)象明顯改善,實驗三是在實驗一基礎上引入了梯度歸一化模塊,可以明顯看出生成圖像較實驗一更為清晰,但誤著色現(xiàn)象依舊存在,實驗四也就是本文算法,在實驗一基礎上引入空洞全局注意力機制模塊和梯度歸一化模塊,從結(jié)果圖可以明顯看出圖像細節(jié)處顏色界限更加分明,模糊現(xiàn)象已明顯改善,并且從指標中也可以看出,IS平均提高了0.491,F(xiàn)ID平均降低了1.055。為此說明本文引入的空洞全局注意力機制模塊解決了近紅外圖像局部區(qū)域誤著色問題,引入的梯度歸一化較好地改善了上色模糊現(xiàn)象。
圖8 各個算法對比結(jié)果:(a) 近紅外圖像;(b) Deoldify[22]結(jié)果;(c) Wei[23]結(jié)果;(d) In2i[24]結(jié)果;(e) CycleGAN算法[7]結(jié)果;(f) 本文算法結(jié)果;(g) 可見光圖像
為驗證本文引入的SSIM損失函數(shù)著色效果是否有提升,采用均方誤差(mean-square error, MSE)、峰值信噪比作為評價指標。均方誤差指的是真實圖像與彩色近紅外圖像之間的誤差,數(shù)值越大說明兩者的相差越大。峰值信噪比是為了衡量圖像的失真程度,數(shù)值越大說明生成圖像的失真越小。
共采取兩組實驗進行驗證。實驗一:本文模型+原始總損失函數(shù)。實驗二:本文模型+改進后總損失函數(shù)。將兩組實驗分別進行200周期訓練,且每25周期隨機抽取15組圖像進行MSE及PSNR測試,并取平均值繪制成最終曲線。其均方誤差趨勢曲線圖和峰值信噪比趨勢曲線圖分別如圖10、圖11所示。
圖10、11中黑色線代表實驗一結(jié)果,紅色線代表實驗二結(jié)果。從兩個曲線趨勢圖中可以明顯看出,引入SSIM損失函數(shù)后,本文算法在200周期中,實驗二中MSE較實驗一提高了3.0001,實驗二PSNR較實驗一提高了2.71dB,并且無論迭代次數(shù)處于什么階段,MSE和PSNR指標均優(yōu)于實驗一,進一步證明了引入SSIM損失后確實提升了近紅外圖像彩色化效果。
圖9 消融實驗一對比算法結(jié)果:(a) 近紅外圖像;(b) 實驗一結(jié)果;(c) 實驗二結(jié)果;(d) 實驗三結(jié)果;(e) 實驗四結(jié)果;(f) 可見光圖像
表2 消融實驗一指標比對
圖10 均方誤差趨勢
圖11 峰值信噪比趨勢
本文提出一種適用于近紅外圖像的彩色化生成對抗網(wǎng)絡模型,利用空洞全局注意力模塊的優(yōu)勢解決了生成的結(jié)果圖像出現(xiàn)的局部區(qū)域誤著色問題,在判別網(wǎng)絡中將梯度歸一化代替原批量歸一化,提高了判別器性能的同時,也解決了生成對抗網(wǎng)絡因陡峭的梯度空間導致訓練不穩(wěn)定問題。在生成對抗網(wǎng)絡損失的基礎上引入了SSIM損失函數(shù),便于網(wǎng)絡的訓練。實驗結(jié)果表明,本文算法保留了近紅外圖像更多的細節(jié)信息,生成了色彩飽和度更高的彩色結(jié)果圖像。通過消融實驗證明了空洞全局注意力模塊和梯度歸一化解決了近紅外彩色化任務中出現(xiàn)的結(jié)果圖像局部區(qū)域誤著色及模糊問題。相比于其他彩色化算法,本文算法結(jié)果圖在圖像細節(jié)、邊緣紋理及清晰度方面有較好的優(yōu)勢。
[1] 戴康. 基于超像素提取和級聯(lián)匹配的灰度圖像自動彩色化[J]. 計算機與數(shù)字工程, 2019, 47(12): 3169-3172.
DAI K. Automatic colorization of grayscale images based on superpixel extraction and cascade matching[J]., 2019, 47(12): 3169-3172.
[2] 曹麗琴, 商永星, 劉婷婷, 等. 局部自適應的灰度圖像彩色化[J]. 中國圖象圖形學報, 2019, 24(8): 1249-1257.
CAO L Q, SHANG Y X, LIU T T, et al. Locally adaptive grayscale image colorization[J]., 2019, 24(8): 1249-1257.
[3] Tomihisa Welsh, Michael Ashikhmin, Klaus Mueller. Transferring color to greyscale images[C]//, 2002, 21(3): 277-280.
[4] Reinhard E, Adhikhmin M, Gooch B, et al. Color transfer between images[J]., 2001, 21(5): 34-41.
[5] 馮佳男, 江倩, 金鑫, 等. 基于深度神經(jīng)網(wǎng)絡的遙感圖像彩色化方法[J]. 計算機輔助設計與圖形學學報, 2021, 33(11): 1658-1667.
FENG J N, JIANG Q, JINX, et al. Colorization method of remote sensing image based on deep neural network[J]., 2021, 33(11): 1658-1667.
[6] CHENG Z, YANG Q, SHENG B. Deep colorization[C]//, 2015: 415-423.
[7] Isola P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]//2017, 2017: 1125-1134.
[8] Deblina Bhattacharjee, Seungryong Kim, Guillaume Vizier, et al. DUNIT: detection based unsupervised image-to-image translation[C]//2020(CVPR), 2020: 4787-4796.
[9] 萬園園, 王雨青, 張曉寧, 等. 結(jié)合全局語義優(yōu)化的對抗性灰度圖像彩色化[J]. 液晶與顯示, 2021, 36(9): 1305-1313.
WAN Y Y, WANG Y Q, ZHANG X N, et al. Adversarial grayscale image colorization combined with global semantic optimization[J]., 2021, 36(9): 1305-1313.
[10] 左岑, 楊秀杰, 張捷, 等. 基于輕量級金字塔密集殘差網(wǎng)絡的紅外圖像超分辨增強[J]. 紅外技術, 2021, 43(3): 251-257.
ZUO Q, YANG X J, ZHANG J, et al. Super-resolution enhancement of infrared images based on lightweight pyramidal dense residual networks[J]., 2021, 43(3): 251-257.
[11] 姜玉寧, 李勁華, 趙俊莉. 基于生成式對抗網(wǎng)絡的圖像超分辨率重建算法[J]. 計算機工程, 2021, 47(3): 249-255.
JIANG Y N, LI J H, ZHAO J L. Image super resolution reconstruction algorithm based on generative adversarial networks[J]., 2021, 47(3): 249-255.
[12] 張振江, 張寶金, 劉偉新, 等. 基于深度卷積網(wǎng)絡的礦巖圖像分割算法研究[J]. 采礦技術, 2021, 21(5): 149-152, 171.
ZHANG Z J, ZHANG B J, LIU W X, et al. Research on mining rock image segmentation algorithm based on deep convolutional network[J]., 2021, 21(5): 149-152, 171.
[13] 姚永康. 基于對抗式遷移學習的皮膚病變圖像分割方法研究[D]. 西安:西京學院, 2021.
YAO Y K. Research on Skin Lesion Image Segmentation Method Based on Adversarial Transfer Learning[D]. Xi’an: Xijing University, 2021.
[14] 吳杰, 段錦, 董鎖芹, 等. DFM-GAN網(wǎng)絡在跨年齡模擬的人臉識別技術研究[J]. 計算機工程與應用, 2021, 57(10): 117-124.
WU J, DUAN J, TONG S Q, et al. DFM-GAN networks in cross-age simulation for face recognition[J]., 2021, 57(10): 117-124.
[15] 劉高天, 段錦, 范祺, 等. 基于改進RFBNet算法的遙感圖像目標檢測[J]. 吉林大學學報: 理學版, 2021, 59(5): 1188-1198.
LIU G T, DUAN J, FAN Q, et al. Remote sensing image target detection based on improved RFBNet algorithm[J].(Science Edition), 2021, 59(5): 1188-1198.
[16] LI C, WAN D M. Precomputed real-time texture synthesis with markovian generative adversarial networks[C]//2016, 2016: 702-716.
[17] LI Y, CHEN Y, WANG N, et al. Scale aware trident networks for object detection[C]//2019(ICCV), 2019: 6053-6062.
[18] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//2018, 2018: 3-19.
[19] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//201532, 2015: 448-456.
[20] Bhaskara V S, Aumentado-Armstrong T, Jepson A D, et al. GraN-GAN: piecewise gradient normalization for generative adversarial networks[C]//, 2022: 3821-3830.
[21] Brown M, Süsstrunk S. Multi-spectral sift for scene category recognition[C]//2011, 2011: 177-184.
[22] Jason Antic. jantic/deoldify: a deep learning based project for colorizing and restoring old images (and video!)[J/OL] [2019-10-16] https://github.com/jantic/DeOldify.
[23] LIANG W, DING D, WEI G. An improved dual GAN for near infrared image colorization[J]., 2021, 116(4): 103764-103777.
[24] Perera P, Abavisani M, Patel V M. In2i: Unsupervised multi-image-to-image translation using generative adversarial networks[C]//2018, 2018: 140-146.
Near-infrared Image Colorization Method Based on a Dilated Global Attention Mechanism
GAO Meiling,DUAN Jin,ZHAO Weiqiang,HU Qi
(,,130012,)
A new generative adversarial network method is proposed for colorization of near-infrared (NIR) images, because current convolutional neural networks fail to fully extract the shallow feature information of images. This failure leads to miscoloring of the local area of the resultant image and blurring due to unstable network training. First, a self-designed dilated global attention module was introduced into the generator residual block to identify each position of the NIR image accurately and improve the local region miscoloring problem. Second, in the discriminative network, the batch normalization layer was replaced with a gradient normalization layer to enhance the network discriminative performance and improve the blurring problem caused by the colorized image generation process. Finally, the algorithms used in this study are compared qualitatively and quantitatively using the RGB_NIR dataset. Experiments show that the proposed algorithm can fully extract the shallow information features of NIR images and improve the structural similarity by 0.044, PSNR by 0.835, and LPILS by 0.021 compared to other colorization algorithms.
colorization, near-infrared images, generative adversarial networks, dilated global attention, gradient normalization
TP391
A
1001-8891(2023)10-1096-10
2022-09-07;
2022-09-29.
高美玲(1997-),女,遼寧錦州人,博士研究生,主要研究方向:圖像處理等。
段錦(1971-),男,吉林長春人,博士,教授,博士生導師,主要研究方向:圖像處理與模式識別等。
吉林省科技發(fā)展計劃項目(20210203181SF)。