王帥,鄭茜穎,鄭巧
(福州大學(xué)物理與信息工程學(xué)院,福建 福州 350108)
圖像增強(qiáng)在計(jì)算機(jī)視覺和圖像處理領(lǐng)域歷史悠久. 圖像增強(qiáng)工作可以增強(qiáng)圖像的色彩、構(gòu)圖、內(nèi)容等. 目前圖像自動(dòng)增強(qiáng)技術(shù)在醫(yī)學(xué)診斷、軍事偵察以及航空航天等各個(gè)領(lǐng)域發(fā)揮著重要的作用.
傳統(tǒng)的圖像增強(qiáng)方法包括直方圖均衡化和視網(wǎng)膜圖像增強(qiáng)等方法. 其中,直方圖均衡化不需要外部因素的參數(shù)設(shè)置,可以有效增強(qiáng)圖像對(duì)比度[1]. 但是該方法作為一種全局調(diào)整圖像地方法,不能有效地提高局部對(duì)比度,因而在某些情況下其效果不理想. 視網(wǎng)膜圖像增強(qiáng)方法在模仿人類視覺系統(tǒng)判斷圖像的真實(shí)顏色而不受光線干擾的情況下提出,主要解決圖像的顏色位移以及光照不均勻問題[2]. 上述兩種方法均屬于非監(jiān)督算法,該類方法無(wú)需訓(xùn)練樣本和標(biāo)簽,但缺乏圖像內(nèi)容信息的理解,即沒有考慮圖像的整體語(yǔ)義信息.
隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了一系列基于深度學(xué)習(xí)方法的圖像自動(dòng)增強(qiáng)研究. Bychkovsky等[3]提供包含5組專家修飾的MIT-Adobe FiveK數(shù)據(jù)集,并利用該數(shù)據(jù)集提出有監(jiān)督式的圖像增強(qiáng)模型. Isola等[4]提出基于條件生成對(duì)抗網(wǎng)絡(luò)的像素級(jí)圖像翻譯方法,該方法將圖像轉(zhuǎn)換到不同的域,因此也適用于顏色增強(qiáng)問題. Yan 等[5]使用深度學(xué)習(xí)方法搭建深度卷積網(wǎng)絡(luò),利用顏色和語(yǔ)義上下文信息構(gòu)造全局和局部特征進(jìn)行空間變換的顏色映射,從而生成特定風(fēng)格的像素顏色. Gharbi等[6]提出基于雙邊濾波器的圖像增強(qiáng)網(wǎng)絡(luò)HDR-Net,使用神經(jīng)網(wǎng)絡(luò)提取多種特征,并利用雙邊濾波器存下線性變換的系數(shù). 該方法使用局部線性變換的思路,魯棒性好,使用雙邊網(wǎng)格,保證在得到較高質(zhì)量圖像的同時(shí),也減少了計(jì)算量. Zamir等[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的MIR-Net模型,該模型通過使用多尺度殘差模塊,可以在結(jié)合多個(gè)尺度上下文信息的同時(shí)保留圖像的高分辨率空間細(xì)節(jié). 基于深度學(xué)習(xí)的方法可以有效地理解圖像的整體語(yǔ)義信息,最終輸出滿意的結(jié)果,然而,神經(jīng)網(wǎng)絡(luò)作為一個(gè)黑匣子,圖像可解釋性較差,無(wú)法充分理解圖像增強(qiáng)過程,為此,產(chǎn)生了一系列結(jié)合深度強(qiáng)化學(xué)習(xí)的圖像增強(qiáng)方法.
深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)算法在游戲競(jìng)賽、機(jī)器人控制、計(jì)算機(jī)視覺和自然語(yǔ)言處理等多個(gè)領(lǐng)域取得了滿意的效果[8-10]. Park等[11]提出一種基于深度Q網(wǎng)絡(luò)的Distort-and-Recover 色彩增強(qiáng)方法,通過使用不同的濾波器修飾圖像,并對(duì)專家修飾圖像進(jìn)行非線性變換,得到訓(xùn)練圖像對(duì), 解決了配對(duì)資源稀缺的問題. Hu等[12]提出基于Actor and Critic網(wǎng)絡(luò)的Exposure圖像增強(qiáng)方法,通過學(xué)習(xí)一組圖片風(fēng)格進(jìn)行圖像風(fēng)格增強(qiáng)操作,實(shí)現(xiàn)了可視化圖像修飾過程. Furuta等[13]提出基于Asynchronous Advantage Actor-Critic的圖像增強(qiáng)方法,該方法使用并行智能體操作,即為每個(gè)像素分配一個(gè)智能體,智能體可執(zhí)行操作更改像素值. 該方法對(duì)A3C算法進(jìn)行了拓展,使其可以在圖像細(xì)節(jié), 比如圖像邊緣和背景噪聲等部分得到更準(zhǔn)確的結(jié)果, 但其缺點(diǎn)也是明顯的,過多的智能體表明具有較大的計(jì)算量,并且難以部署至實(shí)際應(yīng)用中.
深度強(qiáng)化學(xué)習(xí)的圖像可解釋性較強(qiáng),但是基于深度強(qiáng)化學(xué)習(xí)的圖像增強(qiáng)算法中獎(jiǎng)勵(lì)構(gòu)造較為困難. 現(xiàn)有的基于深度強(qiáng)化學(xué)習(xí)的圖像增強(qiáng)方法在設(shè)計(jì)收益問題時(shí),大部分只是通過比對(duì)目標(biāo)與圖像對(duì)的像素間距離,這種做法會(huì)默認(rèn)像素獨(dú)立,不足以評(píng)估結(jié)構(gòu)化輸出問題. 針對(duì)此問題,提出在深度強(qiáng)化學(xué)習(xí)方法中構(gòu)造感知獎(jiǎng)勵(lì)判別機(jī)制,并搭建一個(gè)用于圖像色彩增強(qiáng)的深度強(qiáng)化學(xué)習(xí)框架.
本研究工作主要包括以下4個(gè)方面.
1) 提出基于深度強(qiáng)化學(xué)習(xí)方法的色彩增強(qiáng)方法,實(shí)現(xiàn)多特征融合的預(yù)測(cè)模型.
2) 提出的深度強(qiáng)化學(xué)習(xí)的增強(qiáng)模型獎(jiǎng)勵(lì)中引入深度特征,從而更準(zhǔn)確的感知圖像質(zhì)量.
3) 提出結(jié)合美學(xué)訓(xùn)練模型的獎(jiǎng)勵(lì)判別機(jī)制,通過評(píng)分概率計(jì)算美學(xué)相對(duì)距離.
4) 根據(jù)實(shí)驗(yàn)結(jié)果提出色彩增強(qiáng)模型,在結(jié)構(gòu)相似度和平均均方誤差上優(yōu)于其他基線算法.
將色彩增強(qiáng)過程視為智能體與環(huán)境的迭代交互過程. 智能體根據(jù)當(dāng)前圖像選擇待修飾濾波器,改變當(dāng)前環(huán)境中的圖像狀態(tài)并得到及時(shí)獎(jiǎng)勵(lì). 將上述過程建模為馬爾可夫決策過程,以得到最大累積獎(jiǎng)勵(lì).
本研究的圖像增強(qiáng)方法如圖1所示.
圖1 圖像增強(qiáng)過程Fig.1 Image enhancement process
智能體評(píng)估網(wǎng)絡(luò)依據(jù)當(dāng)前圖像It做出采樣動(dòng)作a,得到修飾圖像It+1、獎(jiǎng)勵(lì)值r、將狀態(tài)s、動(dòng)作a、及時(shí)獎(jiǎng)勵(lì)r以及下一狀態(tài)s′構(gòu)成的序列(s,a,r,s′)存入回訪緩存中,待得到最優(yōu)圖像后將經(jīng)驗(yàn)取出更新智能體網(wǎng)絡(luò)參數(shù)θ. 該方法主要是基于近端策略優(yōu)化算法(proximal policy optimization, PPO)[14],對(duì)PPO算法策略輸出的內(nèi)部結(jié)構(gòu)以及獎(jiǎng)勵(lì)模型進(jìn)行修改. 本節(jié)首先簡(jiǎn)要介紹PPO算法,指出相對(duì)于PPO算法的改進(jìn),然后對(duì)本色彩增強(qiáng)方法中的結(jié)構(gòu)進(jìn)行詳細(xì)描述.
PPO算法將約束條件更改為懲罰項(xiàng),不必計(jì)算其共軛梯度,相比于其他深度強(qiáng)化學(xué)習(xí)算法更穩(wěn)健. PPO算法的目標(biāo)函數(shù)如下:
(1)
L的最大化將會(huì)導(dǎo)致一個(gè)無(wú)約束條件下的較大策略更新.為此,通過增加一個(gè)約束項(xiàng)來(lái)重新定義目標(biāo)函數(shù).此時(shí),目標(biāo)函數(shù)變?yōu)?/p>
(2 )
在使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),目標(biāo)函數(shù)必須包含值函數(shù)誤差的損失函數(shù),同時(shí)還增加熵?fù)p失來(lái)確保進(jìn)行足夠的探索. 因此,PPO算法的最終目標(biāo)函數(shù)為:
LCLIP+VE+S(θ)=Et[LCLIP(θ)-c1LVE(θ)+c2Sπθst]
(3 )
其中:c1和c2是系數(shù);LVE為實(shí)際值函數(shù)與目標(biāo)值函數(shù)之間的均方差;S為熵的獎(jiǎng)勵(lì).
圖 2 智能體評(píng)估網(wǎng)絡(luò)框架Fig.2 Evaluation network framework for the agent
智能體評(píng)估網(wǎng)絡(luò)框架主要由4部分構(gòu)成,分別是語(yǔ)義特征模塊、顏色特征模塊、累積動(dòng)作池模塊以及預(yù)測(cè)模塊. Park等[11]的工作指出對(duì)于照片修飾工作,專業(yè)人員考慮的照片信息特征是非常重要的. 因此需要充分考慮圖像的整體信息特征. 智能體評(píng)估框架結(jié)構(gòu)如圖2所示.
圖2左側(cè)為語(yǔ)義特征模塊. 圖像的語(yǔ)義特征是基于預(yù)訓(xùn)練分類網(wǎng)絡(luò)VGG19的隱藏層實(shí)現(xiàn)的. 最底層為輸入圖像,經(jīng)過圖像預(yù)處理操作將圖像尺寸及像素值進(jìn)行調(diào)整,輸入經(jīng)由在ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練模型中的FC 4 096層輸出向量表示vcontent.
圖2中間部分為顏色特征模塊. 最底層輸入RGB色彩空間圖像,經(jīng)由轉(zhuǎn)換模塊將其轉(zhuǎn)換為CIELab顏色空間圖像. 相比于RGB格式,CIELab格式具有更加充分的顏色數(shù)值信息. 為了降低模型復(fù)雜度與參數(shù)量,圖像經(jīng)過顏色直方圖計(jì)算后,將其線性量化為20 × 20 × 20的向量表示vcolor.
圖2右側(cè)部分為動(dòng)作池模塊. 專家修飾圖像時(shí),除了考慮當(dāng)前圖像的整體信息外,歷史動(dòng)作對(duì)圖像的整體修飾也有幫助作用. 因此加入長(zhǎng)度為12的歷史累積動(dòng)作特征向量表示vact, 用于記錄智能體在每輪episode中執(zhí)行動(dòng)作前的各個(gè)動(dòng)作的累計(jì)采樣頻次.
預(yù)測(cè)模塊的作用是利用上述3個(gè)模塊的輸出,給出當(dāng)前圖像的策略π(a|s;θ)與價(jià)值函數(shù)V(s;θ).首先拼接上述3個(gè)模塊的輸出向量表示vcontent、vcolor、vact,其次將拼接好的向量通過多層感知機(jī)(MLP)輸出最終的π(a|s;θ)與V(s;θ).由于色彩增強(qiáng)過程中的智能體評(píng)估模塊只是更改了π(a|s;θ)與V(s;θ)的計(jì)算方式,因此可以繼續(xù)使用PPO算法的更新策略.
在深度強(qiáng)化學(xué)習(xí)任務(wù)中,目標(biāo)通過累積獎(jiǎng)勵(lì)進(jìn)行表示. 獎(jiǎng)勵(lì)作為一個(gè)特殊的觀測(cè)標(biāo)量,代表著環(huán)境對(duì)智能體依據(jù)當(dāng)前狀態(tài)做出行為后的瞬時(shí)測(cè)量. 絕大多數(shù)的目標(biāo)都可以通過設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)得以實(shí)現(xiàn)[15]. 在色彩增強(qiáng)的智能體環(huán)境中,環(huán)境需要根據(jù)智能體執(zhí)行的行為,合理給出當(dāng)前決策的質(zhì)量. 智能體決策行為的目的是為了接近目標(biāo)圖像,采樣某一行為并進(jìn)行優(yōu)化圖像后,如果靠近目標(biāo)圖像,則應(yīng)該得到合適的正向獎(jiǎng)勵(lì),反之,則必須接受懲罰. 研究人員發(fā)現(xiàn),收益的大小與評(píng)估指標(biāo)有關(guān)[15].
1.3.1圖像重建獎(jiǎng)勵(lì)
判斷圖像在CIELab色彩空間的歐式距離,即使前后兩步操作使圖像重構(gòu)距離縮小程度較小,也會(huì)鼓勵(lì)智能體積極探索,增大可行性動(dòng)作概率,即:
(4)
其中:MSE為計(jì)算圖像間的均方誤差;Lcurr、Lprev與Ltar分別為當(dāng)前圖像,上一步被修飾圖像以及目標(biāo)圖像的Lab顏色模型.
1.3.2基于深度特征的感知獎(jiǎng)勵(lì)設(shè)計(jì)
Zhang 等[16]證明在監(jiān)督、半監(jiān)督以及無(wú)監(jiān)督的分類任務(wù)中,深度特征在模擬低層次感知的相似性比以往廣泛應(yīng)用的方法表現(xiàn)都好.
如圖3所示,本研究采用VGG16預(yù)訓(xùn)練模型的部分激活網(wǎng)絡(luò)層提取當(dāng)前圖像I與目標(biāo)圖像Itarget的深度特征(f1、f2、f3、f4、f5),作為獎(jiǎng)勵(lì)模型的輸入.
圖3 基于VGG16的深度特征提取網(wǎng)絡(luò)Fig.3 Shallow feature extraction network based on pretrained VGG16 model
由于不同網(wǎng)絡(luò)層取出的深度特征對(duì)圖像變化有不同的“敏感度”,因此要將展開后的特征向量賦以不同的權(quán)重ω. 從激活層提取到的特征點(diǎn)轉(zhuǎn)換為特征向量,將被修飾圖像與目標(biāo)圖像的特征向量進(jìn)行余弦相似度計(jì)算,然后判別前后兩步的得分差,即:
(5 )
式中:Rp為當(dāng)前時(shí)刻t的獎(jiǎng)勵(lì)值, 獎(jiǎng)勵(lì)值范圍為[-2, 2];N為特征數(shù);ω為權(quán)重值;F為VGG16網(wǎng)絡(luò)函數(shù), 它輸出部分激活層的特征值;I為輸入圖像.其中,余弦距離函數(shù)cosine的公式為:
(6 )
式中:A1和A2為特征向量.
1.3.3基于美學(xué)估計(jì)模型的評(píng)分獎(jiǎng)勵(lì)設(shè)計(jì)
由Google提出的美學(xué)評(píng)分模型(neural image assessment, NIMA)[17]可以評(píng)判當(dāng)前圖像的美學(xué)得分,其網(wǎng)絡(luò)輸出10個(gè)美學(xué)等級(jí)的概率p=[ps1,ps2, …,ps10],其中si代表美學(xué)等級(jí),由低至高美學(xué)程度逐漸提升.
采用在AVA數(shù)據(jù)集的預(yù)訓(xùn)練模型NIMA來(lái)增強(qiáng)圖像質(zhì)量的感知能力. 選擇使用推土距離(earth mover’s distances, EMD)計(jì)算被修飾圖像與目標(biāo)圖像的美學(xué)感知距離,通過判斷前后兩步的推土距離得到當(dāng)前步數(shù)t:
(7 )
1.3.4懲罰因子
在實(shí)驗(yàn)中發(fā)現(xiàn),智能體選擇動(dòng)作較為聚斂,這是因?yàn)閺?qiáng)化學(xué)習(xí)中的動(dòng)作后期探索率較低,強(qiáng)化學(xué)習(xí)中的開發(fā)和探索是一種相互權(quán)衡的關(guān)系. 為了防止智能體只學(xué)習(xí)單一動(dòng)作,缺少對(duì)其他動(dòng)作的學(xué)習(xí),陷入局部最優(yōu)的情況,加入一項(xiàng)懲罰函數(shù). 動(dòng)作較為單一即熵值較低,將懲罰因子R′定義為:
(8 )
其中:a,s分別為智能體選中動(dòng)作和當(dāng)前狀態(tài);A,S屬于所有動(dòng)作組和狀態(tài)組.
最終的及時(shí)獎(jiǎng)勵(lì)R是以上所有獎(jiǎng)勵(lì)的和,即:
R=Rdist+Rp+Raes-R′
(9 )
下面是本次色彩增強(qiáng)過程的訓(xùn)練偽代碼.
算法1: 圖像色彩增強(qiáng)過程訓(xùn)練方法1: 初始化回放緩存2: 初始化智能體評(píng)估網(wǎng)絡(luò)參數(shù)θ3: while 當(dāng)前episode小于最大episode: 4: 初始化訓(xùn)練圖像對(duì)5: for當(dāng)前步數(shù)小于最大步數(shù): 6: 根據(jù)智能體策略采樣動(dòng)作, 獲得獎(jiǎng)勵(lì), 進(jìn)入下一狀態(tài)7: 存儲(chǔ)狀態(tài)轉(zhuǎn)移( st, at, rt, st+1)到回訪緩存中8: if V(s)<0:9: 結(jié)束當(dāng)前episode10: 結(jié)束if判斷11: 循環(huán)更新8次: 12: 計(jì)算優(yōu)勢(shì)函數(shù)估計(jì)量, 更新策略網(wǎng)絡(luò)參數(shù)θ13: 清空回訪緩存14: 結(jié)束for循環(huán)15: 結(jié)束while循環(huán)
采用Python 3.7編程語(yǔ)言和Tensorflow 1.15深度學(xué)習(xí)框架建立網(wǎng)絡(luò). 所有的實(shí)驗(yàn)均在單張NVIDIA GeForce GTX 1 080Ti顯卡上完成訓(xùn)練.
修飾動(dòng)作采用Distort and Recover方法[11]的12個(gè)修飾動(dòng)作,包括對(duì)比度、飽和度、亮度及色溫等操作.
PPO網(wǎng)絡(luò)采用Actor-Critic共享網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練,其中前4層的全連接層維度分別為4 096、4 096、2 048、1 024,每層均連接線性整流函數(shù)(rectified linear unit,ReLU),最后Actor網(wǎng)絡(luò)輸出維度為12的后接Softmax層概率值,Critic輸出維度為1的狀態(tài)價(jià)值.
為了防止訓(xùn)練過程中梯度爆炸或者梯度消失現(xiàn)象,圖像在輸入網(wǎng)絡(luò)前需要進(jìn)行圖像預(yù)處理操作. 圖像尺寸大小設(shè)置為(224,224),像素值范圍設(shè)置為(0,1).
除獎(jiǎng)勵(lì)模型外,智能體網(wǎng)絡(luò)需要從零開始訓(xùn)練. 本次訓(xùn)練采用多線程操作,采取6個(gè)線程分別進(jìn)行經(jīng)驗(yàn)的采集,每個(gè)線程同時(shí)采樣4組照片進(jìn)行采樣修飾,每輪episode采用的最大步數(shù)為50,當(dāng)超過50步或者滿足終止條件V(s)< 0時(shí),環(huán)境重置,智能體重新進(jìn)行采樣操作,共訓(xùn)練300 000輪episode.
智能體網(wǎng)絡(luò)的優(yōu)化器選用Adam優(yōu)化器,網(wǎng)絡(luò)采樣的最小批次為64,初始學(xué)習(xí)率設(shè)置為1×10-4,每3 000步衰減0.97倍,最小學(xué)習(xí)率設(shè)置為1×10-8. 對(duì)估計(jì)優(yōu)勢(shì)函數(shù)的裁剪clipε為0.2,折扣因子設(shè)置為0.96. PPO算法目標(biāo)函數(shù)中c1設(shè)置為1,c2設(shè)置為0.001.
本次實(shí)驗(yàn)選擇Bychkovsky等提出的MIT-Adobe FiveK數(shù)據(jù)集[3]. 作者收集了5 000張由不同攝影師用單反相機(jī)拍攝的照片. 這些圖像涵蓋了廣泛的場(chǎng)景、主題和照明條件. 作者又聘請(qǐng)5位專家(A/B/C/D/E),使用Adobe Lightroom軟件對(duì)所有圖像進(jìn)行潤(rùn)色,最終使圖像產(chǎn)生令人愉悅的渲染效果. 專家C得到了最高的平均意見得分(mean opinion score, MOS),因此在本次實(shí)驗(yàn)中,采用專家C潤(rùn)色的圖像作為目標(biāo)圖像. 為了保證實(shí)驗(yàn)的公平性,本研究隨機(jī)選擇250組圖像對(duì)作為測(cè)試圖像,其余的4 750組圖像作為訓(xùn)練圖像.
為了做定量比較,選擇使用RGB色彩空間上的結(jié)構(gòu)相似度(structural similarity, SSIM)、峰值信噪比(peak signal to noise ratio, PSNR),以及CIELab色彩空間的meanL2error作為評(píng)價(jià)指標(biāo),以此與之前的算法進(jìn)行定量和定性的比較,評(píng)價(jià)本算法的整體性能表現(xiàn).
2.3.1客觀評(píng)價(jià)
為了驗(yàn)證本方法的有效性,在MIT-Adobe FiveK數(shù)據(jù)集上進(jìn)行對(duì)比試驗(yàn). 為進(jìn)行一個(gè)全面的實(shí)驗(yàn),加入一些深度學(xué)習(xí)基線方法進(jìn)行定量比較. 表1將本方法與所有領(lǐng)先的成對(duì)訓(xùn)練方法進(jìn)行比較,加粗的數(shù)字代表最好的結(jié)果,NA表示參考論文中未給出相關(guān)指標(biāo)的測(cè)試數(shù)據(jù). 由于文章中并非所有的實(shí)驗(yàn)都是在相同的條件下進(jìn)行的,在表格中進(jìn)行了詳細(xì)的說(shuō)明.
如表1所示,在CIELab色彩空間的meanL2error評(píng)價(jià)標(biāo)準(zhǔn)與RGB色彩空間的SSIM評(píng)價(jià)標(biāo)準(zhǔn)均優(yōu)于其他算法,說(shuō)明本算法能更好地平衡圖像的色度、飽和度以及清晰度. 盡管在RGB色彩空間上指標(biāo)PSNR沒有達(dá)到最高,但是它仍然處在一個(gè)可接受的范圍,圖像質(zhì)量總體來(lái)說(shuō)符合圖像色彩增強(qiáng)的要求.
表1 MIT-Adobe FiveK數(shù)據(jù)集上指標(biāo)對(duì)比
2.3.2可視化比較
圖像增強(qiáng)結(jié)果如圖4所示,該圖選用文獻(xiàn)[7, 11-12]中的圖像增強(qiáng)方法與本方法進(jìn)行比較. 本研究選取人像、物體、風(fēng)景、復(fù)雜場(chǎng)景、夜景5個(gè)場(chǎng)景的測(cè)試圖像. 文獻(xiàn)[7]方法不適用于調(diào)整任意尺寸圖像,并且在本測(cè)試集中整體圖像偏白,表現(xiàn)不太自然,由于需要調(diào)整圖像尺寸,所以被修飾圖像整體輪廓不夠清晰. 經(jīng)文獻(xiàn)[11]方法處理后的圖像整體視覺效果有一定的提升,解決人像中環(huán)境色溫的干擾. 但是在簡(jiǎn)單物體圖像中亮度較低,增強(qiáng)效果不明顯,導(dǎo)致最終整體圖像不夠清晰. 文獻(xiàn)[12]方法整體看來(lái)圖像具有較高的曝光度,導(dǎo)致圖像細(xì)節(jié)部分缺失,比如纜樁圖像中的“頂部”位置,該算法在人像圖中受到原圖的影響造成圖像色彩發(fā)生偏差,違背主觀審美. 經(jīng)本方法處理后的圖像在人像圖中與專家修飾圖像較為接近,不僅在物體圖像中提升圖像的亮度,而且突出圖像的輪廓等細(xì)節(jié)部分,在風(fēng)景圖像以及夜景圖像中均未發(fā)生過度增強(qiáng)的情況,并且也能較好的提高復(fù)雜場(chǎng)景的整體視覺表現(xiàn).
通過這幾組圖像可以發(fā)現(xiàn),本方法在人像、簡(jiǎn)單以及復(fù)雜場(chǎng)景都具有較強(qiáng)的適用性,并且經(jīng)過本算法增強(qiáng)后的圖像在整體的自然度以及細(xì)節(jié)方面均表現(xiàn)良好,圖像中的目標(biāo)、景物更突出,整體輪廓更鮮明,物體更真實(shí). 然而對(duì)于夜景圖像的色彩提升,相較于其他方法還有待改進(jìn).
圖4 隨機(jī)采樣測(cè)試集上與文獻(xiàn)[7, 11, 12]模型的定性比較Fig.4 Qualitative comparison with the literatures[7, 11, 12] model on the randomly sampled test set
為驗(yàn)證本模型在實(shí)際應(yīng)用中的效果,繪制了實(shí)際圖像的增強(qiáng)效果圖,如圖5所示.
圖5 實(shí)拍圖像色彩增強(qiáng)比較Fig.5 Comparison of color enhancement of actual captured images
本次實(shí)驗(yàn)選用榮耀20系列手機(jī)實(shí)際拍攝的圖像進(jìn)行測(cè)試,并采用Google提出的美學(xué)評(píng)分模型(neural image assessment, NIMA)[17]進(jìn)行美學(xué)評(píng)分, 分為圖5(a)、5(b)和圖5(c)、5(d)兩組圖像列于圖5. 其中,圖5(a)與圖5(c)為手機(jī)拍攝圖像,圖5(b)與圖5(d)為增強(qiáng)圖像,前2行為第3行圖像中紅框中的細(xì)節(jié)部分,對(duì)應(yīng)數(shù)字為美學(xué)評(píng)分. 從圖中可以看出,增強(qiáng)后的圖像整體表現(xiàn)自然,細(xì)節(jié)保留完整,具有適當(dāng)?shù)纳侍嵘? 從美學(xué)評(píng)分中可以得出,本模型具有一定美學(xué)意義上的增強(qiáng)效果,提升了圖像整體的視覺吸引力.
圖6為實(shí)拍圖像(圖6(a)、6(b))與修飾圖像(圖6(c)、6(d))的圖像直方圖分布. 其中,圖(a)和圖(c)分別為全通道實(shí)拍圖像與修飾圖像直方圖,圖(b)與圖(d)分別為單通道實(shí)拍圖像與修飾圖像直方圖. 從圖中可以看出,實(shí)拍圖像的黑色和白色區(qū)域缺少像素,而修飾圖像將直方圖從最暗的黑色區(qū)域一直延伸到了最亮的區(qū)域,使得照片更具有層次感.
圖6 圖像直方圖分布Fig.6 Image histogram distribution
2.3.3消融實(shí)驗(yàn)分析
為驗(yàn)證深度感知特征與美學(xué)模型對(duì)圖像色彩增強(qiáng)方法的影響,進(jìn)行消融實(shí)驗(yàn). 實(shí)驗(yàn)采用對(duì)不同特征獎(jiǎng)勵(lì)進(jìn)行組合的方式,分別保留Rdist、Rdist+Rp、Rdist+Raes、Rdist+Rp+Raes在MIT-Adobe FiveK數(shù)據(jù)集上的增強(qiáng)效果.
表2 不同色彩增強(qiáng)方法的SSIM 指標(biāo)對(duì)比
消融實(shí)驗(yàn)的結(jié)果如表2所示. 從實(shí)驗(yàn)中可以得出,深度特征在判定圖像相似性時(shí)要優(yōu)于點(diǎn)對(duì)點(diǎn)的像素距離以及美學(xué)特征. 同時(shí),Rdist+Rp+Raes在結(jié)構(gòu)相似度的評(píng)價(jià)指標(biāo)上要優(yōu)于其他方法,這表明深度特征以及美學(xué)特征有助于模型對(duì)圖像質(zhì)量的判斷,同時(shí)也說(shuō)明融合了深度感知特征與美學(xué)模型的模型可以提升圖像的色彩增強(qiáng)效果,提高圖像視覺質(zhì)量.
提出基于深度強(qiáng)化學(xué)習(xí)的色彩增強(qiáng)方法,并成功結(jié)合深度特征與美學(xué)特征重構(gòu)收益模型,提升圖像的感知質(zhì)量. 通過預(yù)訓(xùn)練分類模型激活層網(wǎng)絡(luò)提取深層特征,使用余弦距離獲得圖像間的深度感知距離; 利用美學(xué)模型獲得圖像間的概率距離. 結(jié)合兩方面的距離表示, 將其用于近端策略梯度獎(jiǎng)勵(lì)構(gòu)造中,并設(shè)計(jì)新的PPO網(wǎng)絡(luò)融合圖像的多種特征. 在MIT-Adobe FiveK數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本色彩增強(qiáng)方法在結(jié)構(gòu)相似度和平均均方誤差上優(yōu)于其他基線算法,盡管在RGB色彩空間上峰值信噪比指標(biāo)沒有達(dá)到最高,但是它仍然處在一個(gè)可接受的范圍,圖像質(zhì)量總體來(lái)說(shuō)符合色彩增強(qiáng)的整體要求.