摘" 要: 圖像和視頻是記錄真實(shí)場(chǎng)景信息的重要媒介,它們包含豐富而詳細(xì)的視覺(jué)內(nèi)容,可以開(kāi)發(fā)各種智能系統(tǒng)來(lái)執(zhí)行各種任務(wù)。特別是對(duì)于低照度條件下的視頻,提升其清晰度和細(xì)節(jié)可以更好地表現(xiàn)和還原真實(shí)場(chǎng)景。針對(duì)在夜間低照度環(huán)境條件下對(duì)周?chē)h(huán)境感知的需求,提出一種基于多路光流信息時(shí)間一致性的微光視頻增強(qiáng)算法。通過(guò)引入預(yù)測(cè)的光流與真實(shí)的光流信息,構(gòu)建三分支孿生網(wǎng)絡(luò)對(duì)微光視頻進(jìn)行增強(qiáng);同時(shí)針對(duì)微光視頻存在的低信噪比以及模糊化問(wèn)題,設(shè)計(jì)一種基于雙尺度注意力機(jī)制的微光視頻去噪模塊(CA?Swin模塊),以提升網(wǎng)絡(luò)的去噪性能。通過(guò)在DAVIS數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)和評(píng)估,得出所提網(wǎng)絡(luò)在增強(qiáng)微光視頻方面更高效,魯棒性顯著;且該策略還具有通用性,可以直接擴(kuò)展到大規(guī)模數(shù)據(jù)集。
關(guān)鍵詞: 微光視頻增強(qiáng); 光流信息; 時(shí)間一致性; 三分支孿生網(wǎng)絡(luò); 雙尺度注意力機(jī)制; 微光視頻去噪模塊; 視頻幀
中圖分類(lèi)號(hào): TN941.2?34; TP389.1" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)16?0013?10
Low?light video enhancement algorithm based on multi?channel optical flow information
LIU Shusheng1, WANG Jiuhang1, TONG Guanjun2
(1. University of Chinese Academy of Sciences, Beijing 100049, China; 2. Shanghai Institute of Microsystem and Information Technology, Shanghai 201800, China)
Abstract: Images and videos are important media for recording real scene information, which containing rich and detailed visual content, can develop various intelligent systems to perform various tasks. Especially for videos under low lighting conditions. Improving their clarity and details can better represent and restore real scenes. A low?light video enhancement algorithm based on temporal consistency of multi?channel optical flow information is proposed to meet the demand for perceiving the surrounding environment under low illumination conditions at night. The predicted optical flow and the real optical flow information are introduced to construct a three?branch twin network, so as to enhance the low?light video. In allusion to the low signal?to?noise ratio and blurring in low?light video, a low?light video denoising module (CA?Swin module) based on dual scale attention mechanism is designed to improve the denoising performance of the network. By the comparative experiment and evaluation on the DAVIS dataset, it is found that the proposed network is more efficient and has significant robustness in enhancing low?light video. This strategy also has universality and can be directly extended to large?scale datasets.
Keywords: low?light video enhancement; optical flow information; time consistency; three?branch twin network; dual scale attention mechanism; low?light video denoising module; video frame
0" 引" 言
在今天的數(shù)字時(shí)代,圖像和視頻作為記錄真實(shí)場(chǎng)景信息的重要媒介,已經(jīng)成為各個(gè)領(lǐng)域的研究焦點(diǎn)。它們不僅包含了豐富且詳細(xì)的視覺(jué)內(nèi)容,而且還具有潛力支持各種智能系統(tǒng)的發(fā)展,這些系統(tǒng)可以執(zhí)行多樣性的任務(wù),諸如從對(duì)象檢測(cè)、分類(lèi)、分割到場(chǎng)景識(shí)別、場(chǎng)景理解和三維重建等[1]。但是在微光條件下,拍攝高質(zhì)量的圖像和視頻面臨著多重挑戰(zhàn)。首先,由于在微光環(huán)境下拍攝的視頻往往受到光線(xiàn)變化等環(huán)境條件不穩(wěn)定的影響[2],例如城市夜晚環(huán)境中受路燈和車(chē)燈等光源的影響,以及野外環(huán)境中受樹(shù)陰影響,現(xiàn)有的算法可能會(huì)導(dǎo)致視頻幀之間的亮度或?qū)Ρ榷妊杆僮兓瑥亩鹨曨l序列在時(shí)間上的不穩(wěn)定性,進(jìn)而產(chǎn)生閃爍現(xiàn)象[3?4]。時(shí)間不穩(wěn)定性的視頻幀序列如圖1所示。
另一個(gè)挑戰(zhàn)則是低信噪比以及模糊化問(wèn)題。在微光環(huán)境下進(jìn)行成像,常常會(huì)因信號(hào)強(qiáng)度非常弱,導(dǎo)致視頻出現(xiàn)低信噪比、低對(duì)比度、成像模糊等問(wèn)題[5],這對(duì)于夜間監(jiān)控、夜間拍攝、軍事偵察等應(yīng)用來(lái)說(shuō)是不可接受的。因此,研究微光條件下的視頻增強(qiáng)算法對(duì)于各種微光環(huán)境下的應(yīng)用具有重大意義。
現(xiàn)有的微光增強(qiáng)技術(shù)主要分為基于圖像算法的逐幀處理與基于視頻算法的多幀處理兩種類(lèi)型。
傳統(tǒng)的微光視頻增強(qiáng)技術(shù)主要是基于圖像處理的算法[6],通過(guò)逐幀處理視頻幀來(lái)實(shí)現(xiàn)增強(qiáng)效果。這些技術(shù)通常使用一系列濾波、增益調(diào)整、直方圖均衡化和局部對(duì)比度增強(qiáng)等算法[7?9]。也有一些是基于視頻的多幀處理算法,這些方法大多是通過(guò)引入相鄰幀之間的差異來(lái)計(jì)算運(yùn)動(dòng)向量,并將其應(yīng)用于視頻中來(lái)穩(wěn)定序列上的時(shí)間一致性。傳統(tǒng)算法雖然可以在一定程度上改善圖像與視頻的質(zhì)量,但是也存在著一些局限性。首先,這些方法往往需要對(duì)圖像和視頻進(jìn)行多次處理,容易導(dǎo)致信息損失和細(xì)節(jié)的模糊化;其次,這些方法通常需要人工設(shè)計(jì)特征或參數(shù),具有一定的主觀(guān)性和復(fù)雜性,不夠靈活和智能化;此外,由于計(jì)算開(kāi)銷(xiāo)較大,這些方法在實(shí)時(shí)應(yīng)用和大規(guī)模數(shù)據(jù)處理上存在一定的挑戰(zhàn);最后,這些方法往往缺乏學(xué)習(xí)能力和泛化能力,難以應(yīng)對(duì)復(fù)雜場(chǎng)景和需求的變化。
隨著深度學(xué)習(xí)的興起和發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的微光視頻增強(qiáng)算法展現(xiàn)了強(qiáng)大的建模能力、端到端學(xué)習(xí)能力、數(shù)據(jù)驅(qū)動(dòng)、上下文信息利用和可遷移性等優(yōu)勢(shì)。通過(guò)深度學(xué)習(xí),網(wǎng)絡(luò)可以自動(dòng)從大量的數(shù)據(jù)中學(xué)習(xí)到圖像和視頻的特征、規(guī)律,使得增強(qiáng)效果更加準(zhǔn)確且魯棒性更強(qiáng)。同時(shí),深度學(xué)習(xí)方法具有較強(qiáng)的泛化能力,能夠適應(yīng)各種復(fù)雜的場(chǎng)景和變化。
現(xiàn)有的深度學(xué)習(xí)算法大多是為增強(qiáng)微光圖像而設(shè)計(jì)的,并將其應(yīng)用到微光視頻處理中。雖然基于深度學(xué)習(xí)的微光圖像增強(qiáng)算法在單幅靜態(tài)圖像上的性能令人滿(mǎn)意,但當(dāng)處理微光視頻時(shí),往往會(huì)遇到嚴(yán)重的時(shí)間不穩(wěn)定性問(wèn)題。這是因?yàn)楝F(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)方法通常是從沒(méi)有時(shí)間信息的單幅圖像對(duì)中進(jìn)行訓(xùn)練的[10]。在處理微光視頻時(shí),時(shí)間維度的信息對(duì)于保持圖像的連續(xù)性和穩(wěn)定性至關(guān)重要,但是現(xiàn)有方法缺乏對(duì)時(shí)間維度的充分利用。近年來(lái)也有一些基于視頻的增強(qiáng)算法被提出,但這些算法大多使用3D卷積網(wǎng)絡(luò)來(lái)處理視頻序列,增加了計(jì)算的復(fù)雜度,并消耗了大量的計(jì)算資源和時(shí)間。
針對(duì)上述問(wèn)題,本文提出了一種基于多路光流信息時(shí)間一致性的微光視頻增強(qiáng)算法,引入了預(yù)測(cè)的光流信息[11]和真實(shí)的光流信息[12],并將其構(gòu)建為雙路光流信息,用于輔助網(wǎng)絡(luò)訓(xùn)練以學(xué)習(xí)時(shí)間一致性。算法的核心思想是:利用光流信息進(jìn)行幀間預(yù)測(cè),將當(dāng)前幀與下一幀進(jìn)行時(shí)間對(duì)齊,進(jìn)而生成相鄰的視頻幀。算法整體構(gòu)建了三分支孿生網(wǎng)絡(luò),并在時(shí)間維度上構(gòu)建一致性損失函數(shù),以指導(dǎo)網(wǎng)絡(luò)訓(xùn)練在增強(qiáng)過(guò)程中更好地保持時(shí)序的連續(xù)性和穩(wěn)定性,增強(qiáng)了視頻的可視化感知效果,有效減少了微光視頻處理存在的閃爍問(wèn)題。針對(duì)微光視頻存在的低信噪比以及模糊化問(wèn)題,本文設(shè)計(jì)了一種基于雙尺度注意力機(jī)制的微光視頻去噪模塊,進(jìn)一步提升了增強(qiáng)后視頻的可視化感知質(zhì)量。同時(shí)骨干網(wǎng)絡(luò)采用了基于2D架構(gòu)的設(shè)計(jì),因無(wú)需采用3D模塊,減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計(jì)算負(fù)擔(dān),能夠快速地達(dá)到推理效果。
1" 基于多路光流信息的微光視頻增強(qiáng)算法
微光圖像增強(qiáng)與微光視頻增強(qiáng)是兩個(gè)緊密相關(guān)但在處理和應(yīng)用上略有不同的領(lǐng)域。它們共同的目標(biāo)是改善在光線(xiàn)不足情況下捕獲的視覺(jué)內(nèi)容,包括提高圖像與視頻的亮度、對(duì)比度和細(xì)節(jié)等?,F(xiàn)有的微光視頻增強(qiáng)算法大多是基于有監(jiān)督學(xué)習(xí),其核心思想如圖2所示。將微光圖像[X1]輸送進(jìn)網(wǎng)絡(luò)[g?],網(wǎng)絡(luò)借助對(duì)應(yīng)光照良好的真實(shí)視頻幀[Y1]進(jìn)行有監(jiān)督的學(xué)習(xí),網(wǎng)絡(luò)輸出的是增強(qiáng)后的圖像[gX1],通過(guò)與真實(shí)值之間進(jìn)行[losse]損失計(jì)算,并通過(guò)梯度反向傳播更新參數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)到圖像由暗到亮的規(guī)律。但是將其應(yīng)用到微光視頻處理中,往往會(huì)遇到嚴(yán)重的時(shí)間不穩(wěn)定性問(wèn)題,從而產(chǎn)生一定程度的閃爍問(wèn)題。
1.1" 網(wǎng)絡(luò)算法框架結(jié)構(gòu)
本文設(shè)計(jì)了一種基于多路光流信息時(shí)間一致性的微光視頻增強(qiáng)算法,通過(guò)引入預(yù)測(cè)的光流和真實(shí)的光流來(lái)利用時(shí)間信息,再通過(guò)構(gòu)建三分支孿生網(wǎng)絡(luò)來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)時(shí)間一致性,以解決微光視頻增強(qiáng)存在的閃爍問(wèn)題。光流信息的生成示意圖如圖3所示。圖中,[Y1],[Y2],…,[Yn]表示連續(xù)的視頻幀?;诙嗦饭饬餍畔r(shí)間一致性的微光視頻增強(qiáng)算法網(wǎng)絡(luò)框架如圖4所示。
如圖4所示,該算法需要同時(shí)以單張微光視頻幀[X1]、預(yù)測(cè)的光流信息[Flowp]和真實(shí)的光流信息[Flowr]作為輸入,通過(guò)將單張視頻幀[X1]與不同的光流結(jié)合等效代替其相鄰幀輸入到其他支路。第一支路通過(guò)有監(jiān)督學(xué)習(xí)到的增強(qiáng)損失來(lái)使網(wǎng)絡(luò)學(xué)習(xí)到由暗到亮的規(guī)律,第二支路與第三支路通過(guò)等效相鄰幀的輸入分別構(gòu)建了一致性損失函數(shù)來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)時(shí)間一致性。這三個(gè)支路的網(wǎng)絡(luò)權(quán)重是共享的。
在網(wǎng)絡(luò)Backbone框架中,采用Swin Transformer與Channal Attention構(gòu)建的雙尺度注意力機(jī)模塊(CA?Swin模塊)對(duì)視頻幀特征進(jìn)行提取,通過(guò)在采樣過(guò)程中捕捉不同層次的豐富特征,以解決視頻增強(qiáng)所存在的去噪問(wèn)題。
算法中將當(dāng)前視頻幀[X1]與預(yù)測(cè)的光流信息[Flowp]進(jìn)行Warping操作并結(jié)合起來(lái),等效為其預(yù)測(cè)的相鄰視頻幀[X2]輸入到第二支路中。將當(dāng)前視頻幀[X1]與真實(shí)的光流信息[Flowr]結(jié)合等效為其真實(shí)的相鄰視頻幀[X3],輸入到第三支路中。
相鄰視頻幀的構(gòu)建圖如圖5所示。
1.2" 預(yù)測(cè)光流與真實(shí)光流
光流是由觀(guān)察者和場(chǎng)景之間的相對(duì)運(yùn)動(dòng)引起的視覺(jué)場(chǎng)景中物體、表面和邊緣的表觀(guān)運(yùn)動(dòng)模式,是空間運(yùn)動(dòng)物體在觀(guān)察成像平面上的像素運(yùn)動(dòng)的瞬時(shí)速度,是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來(lái)找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息的一種方法。
為了合理地利用時(shí)間信息,本文引入了預(yù)測(cè)光流與真實(shí)光流,將光流與當(dāng)前幀結(jié)合等效代替其相鄰幀輸送進(jìn)同樣的網(wǎng)絡(luò)中。通過(guò)將構(gòu)建的相鄰兩幀視頻對(duì)輸入到網(wǎng)絡(luò)中,從而有效地幫助網(wǎng)絡(luò)學(xué)習(xí)相鄰兩幀視頻對(duì)之間的關(guān)聯(lián)性。
在兩種光流中,預(yù)測(cè)的光流是基于當(dāng)前視頻幀[Y1]進(jìn)行預(yù)測(cè)的。通過(guò)給視頻幀[Y1]中的動(dòng)態(tài)物體施加引導(dǎo)向量,從而獲得預(yù)測(cè)的光流,有助于提升視頻幀中動(dòng)態(tài)物體的可視化效果,使得模型更具有泛化能力。
本文所獲得的預(yù)測(cè)光流的過(guò)程如圖6所示。
實(shí)驗(yàn)中,從充分照明的真實(shí)場(chǎng)景來(lái)預(yù)測(cè)合理的光流。
1) 使用開(kāi)源工具包Detectron2中的預(yù)訓(xùn)練實(shí)例分割模型。該模型在大規(guī)模數(shù)據(jù)集上進(jìn)行了訓(xùn)練,能夠有效地檢測(cè)和分割圖像中的不同實(shí)例對(duì)象。本文將該預(yù)訓(xùn)練模型應(yīng)用于單幅視頻幀,實(shí)現(xiàn)對(duì)動(dòng)態(tài)對(duì)象和背景的分離。具體來(lái)說(shuō),實(shí)例分割技術(shù)可以為每個(gè)對(duì)象生成一個(gè)二進(jìn)制掩模,從而在圖像中準(zhǔn)確地定位和分離動(dòng)態(tài)對(duì)象。
2) 得到估計(jì)的物體掩模后,使用條件運(yùn)動(dòng)傳播(Conditional Motion Propagation, CMP)的無(wú)監(jiān)督模型很容易獲得光流預(yù)測(cè)。使用CMP模型對(duì)分割后的動(dòng)態(tài)對(duì)象進(jìn)行處理,獲得這些對(duì)象的光流預(yù)測(cè)。
此外,本文還通過(guò)使用OpenCV提供的開(kāi)源函數(shù)獲得了相鄰視頻幀之間的真實(shí)光流信息,如圖7所示。
由于光流預(yù)測(cè)是一種描述相鄰幀之間像素運(yùn)動(dòng)方向和速度的方法,因此使用相鄰幀計(jì)算的真實(shí)光流,包含更多的背景信息,利用真實(shí)的光流可以更全面地描述視頻幀中由于相機(jī)的自我運(yùn)動(dòng)而產(chǎn)生的背景運(yùn)動(dòng),從而更準(zhǔn)確地捕捉到背景中的運(yùn)動(dòng)信息,進(jìn)一步改善視頻增強(qiáng)的效果。
1.3" 網(wǎng)絡(luò)訓(xùn)練流程
第一支路的輸入是單張視頻幀[X1],網(wǎng)絡(luò)借助對(duì)應(yīng)光照良好的真實(shí)視頻幀[Y1]進(jìn)行有監(jiān)督的學(xué)習(xí),其輸出是預(yù)測(cè)增強(qiáng)后的單張視頻幀[gX1],通過(guò)與真實(shí)值之間作損失計(jì)算并通過(guò)梯度反向傳播更新參數(shù),幫助網(wǎng)絡(luò)學(xué)習(xí)視頻幀由暗到亮的規(guī)律。公式(1)表達(dá)的含義為將訓(xùn)練數(shù)據(jù)集中的單張微光視頻幀[X1]輸入到網(wǎng)絡(luò)[g?],得到預(yù)測(cè)增強(qiáng)的結(jié)果[gX1]。
[gX1=BackboneNetX1] " "(1)
預(yù)測(cè)視頻幀[gX1]和真實(shí)視頻幀[Y1]之間使用緩慢變化的[Smooth L1]損失函數(shù)?;诖?,視頻幀增強(qiáng)的損失函數(shù)可表示為:
[losse=gX1-Y1SL1] " "(2)
第二支路采用預(yù)測(cè)的光流[Flowp]與單張視頻幀[X1]結(jié)合代替相鄰幀[X2]輸送進(jìn)網(wǎng)絡(luò)中得到[gX2],具體公式為:
[X2=Warping(Flowp,X1)] " " (3)
[gX2=BackboneNetX2] " " (4)
式(3)中Warping是指通過(guò)光流場(chǎng)計(jì)算出的像素位移光流信息,可以對(duì)視頻幀進(jìn)行幾何變換。通過(guò)將當(dāng)前視頻幀與對(duì)應(yīng)的光流進(jìn)行Warping操作,可以等效代替為其相鄰幀。
一個(gè)理想的時(shí)間穩(wěn)定性模型應(yīng)該是具有前后變換一致性的,即模型能夠?qū)斎霐?shù)據(jù)進(jìn)行變換,并以相同的變換方式應(yīng)用到輸出結(jié)果,使其變回原來(lái)的狀態(tài)?;跁r(shí)間一致性思想理論,本文使用相同的光流[Flowp]與輸出[gX1]結(jié)合得到Warping[Flowp,gX1],并與輸出[gX2]進(jìn)行時(shí)間一致性損失計(jì)算。
[lossc1=WarpingFlowp,gX1-gX2SL1] (5)
通過(guò)將這樣的視頻幀對(duì)輸入到網(wǎng)絡(luò)中,并結(jié)合光流前后的輸出之間強(qiáng)制保持一致性,可以有效幫助網(wǎng)絡(luò)學(xué)習(xí)時(shí)間穩(wěn)定性。
第三支路采用真實(shí)的光流信息去自監(jiān)督學(xué)習(xí)第一支路與第二支路分支網(wǎng)絡(luò)的訓(xùn)練。模型采用真實(shí)的光流信息[Flowr]與單張視頻幀[X1]結(jié)合代替相鄰幀[X3]輸送進(jìn)網(wǎng)絡(luò)中,經(jīng)過(guò)網(wǎng)絡(luò)得到輸出[gX3]。
[X3=WarpingFlowr,X1] " "(6)
[gX3=BackboneNetX3] " " (7)
最后將得到的輸出[gX3]與其他兩路的輸出分別進(jìn)行一致性損失計(jì)算。
[lossc2=WarpingFlowr,gX1-gX3SL1+gX2-gX3SL1] (8)
網(wǎng)絡(luò)整體通過(guò)有監(jiān)督學(xué)習(xí)到的增強(qiáng)損失[losse]來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)到由暗到亮的規(guī)律,然后通過(guò)第二路預(yù)測(cè)的光流計(jì)算一致性損失[lossc1]以及第三路真實(shí)的光流計(jì)算一致性損失[lossc2]來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)視頻幀之間的時(shí)間一致性。最后通過(guò)整體損失losstotal將梯度反饋給特征提取與網(wǎng)絡(luò)重建過(guò)程中的各個(gè)參數(shù),并進(jìn)行反向傳播,從而實(shí)現(xiàn)對(duì)參數(shù)的更新,進(jìn)一步優(yōu)化網(wǎng)絡(luò)的增強(qiáng)效果。用于訓(xùn)練網(wǎng)絡(luò)的總損失losstotal是增強(qiáng)損失[losse]和兩個(gè)一致性損失的組合,具體公式如下:
[losstotal=losse+lossc1+lossc2·weight] (9)
式中weight是對(duì)模型時(shí)間一致性分支和通用性的影響參數(shù)。
訓(xùn)練一個(gè)時(shí)間穩(wěn)定性的視頻增強(qiáng)模型實(shí)際上是視覺(jué)質(zhì)量和時(shí)間穩(wěn)定性之間的折衷,最優(yōu)的結(jié)果在于它們之間的平衡。
1.4" 網(wǎng)絡(luò)Backbone框架
在圖像增強(qiáng)任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)目前仍然是主流。但卷積神經(jīng)網(wǎng)絡(luò)存在以下缺陷:首先,圖像和卷積核之間的交互是與內(nèi)容無(wú)關(guān)的;其次,在處理局部信息的時(shí)候,卷積對(duì)于長(zhǎng)距離依賴(lài)建模是無(wú)效的;最后圖像中的視覺(jué)模糊很大程度上是由于網(wǎng)絡(luò)缺乏對(duì)全局特征向量的利用而導(dǎo)致。
為了解決上述問(wèn)題以及克服微光視頻存在的低信噪比以及模糊化問(wèn)題,本文設(shè)計(jì)了一種基于雙尺度注意力機(jī)制的微光視頻去噪模塊。采用注意力引導(dǎo)的U?Net[13]網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在下采樣與上采樣過(guò)程中使用不同分辨率的特征圖進(jìn)行殘差連接,同時(shí)下采樣放大8倍后用平均池化來(lái)獲取全局特征向量。然后把該特征向量經(jīng)過(guò)全連接之后與之前的特征concat進(jìn)行上采樣,從而使網(wǎng)絡(luò)能夠同時(shí)提取全局和局部特征信息,提升了網(wǎng)絡(luò)的去噪性能。
本文模型的骨干網(wǎng)絡(luò)的整體架構(gòu)如圖8所示。
具體來(lái)說(shuō),視頻幀輸入后,首先經(jīng)過(guò)3×3卷積塊和ECA(Efficient Channel Attention)模塊[14],然后依次經(jīng)過(guò)7個(gè)CA?Swin模塊,以及下采樣和上采樣,最后通過(guò)3×3卷積塊恢復(fù)到與原始視頻幀大小相同的尺寸。同時(shí),下采樣和上采樣層通過(guò)殘差卷積層一一連接。增強(qiáng)的視頻幀和原始視頻幀使用緩慢變化的Smooth L1損失函數(shù)進(jìn)行訓(xùn)練??紤]到不同的圖像去噪方法具有互補(bǔ)的先驗(yàn)建模能力,可以合并來(lái)提高性能,因此,所提出的雙尺度注意力機(jī)制的微光視頻去噪模塊將殘差卷積層的局部建模能力、SwinT模塊的非局部建模能力以及ECA模塊的通道注意力機(jī)制所覆蓋的跨信道交互能力結(jié)合起來(lái),用以高效地實(shí)現(xiàn)圖像去噪。
如圖9所示,CA?Swin模塊由1×1卷積殘差、SwinT和ECA三種模塊組成。
圖9中,1×1卷積殘差模塊可以降低模型的計(jì)算復(fù)雜度,提高網(wǎng)絡(luò)的效率,并且可以增加網(wǎng)絡(luò)的非線(xiàn)性表示能力;同時(shí)其沒(méi)有池化操作,可以保留更多的特征信息,幫助模型更好地捕捉圖像中的細(xì)節(jié)特征,進(jìn)而提高模型的性能。
SwinT模塊所具有的非局部建模特性可以增強(qiáng)模型捕捉全局上下文信息的能力[15]。SwinT模塊結(jié)合了卷積和Transformer的優(yōu)勢(shì),可以利用patch之外的鄰近像素對(duì)邊界像素進(jìn)行圖像增強(qiáng),將圖像中的全局關(guān)系和局部語(yǔ)義信息聯(lián)系起來(lái),從而提升模塊在圖像增強(qiáng)任務(wù)中的性能。
ECA模塊如圖10所示。ECA模塊的作用是通過(guò)引入通道注意力機(jī)制來(lái)增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表示能力。該模塊自適應(yīng)地重新校準(zhǔn)特征圖中不同通道的重要性,可以有選擇地?cái)U(kuò)大信息渠道,同時(shí)抑制不太相關(guān)的渠道。
DAVIS數(shù)據(jù)集包含了不同分辨率的視頻幀數(shù)據(jù)集,通過(guò)使用通道注意力機(jī)制來(lái)幫助網(wǎng)絡(luò)訓(xùn)練適應(yīng)各種分辨率的圖像,有助于網(wǎng)絡(luò)專(zhuān)注于最具鑒別力和信息量的特征,從而提高各種分辨率下圖像的去噪性能。
2" 仿真與分析
2.1" 實(shí)驗(yàn)數(shù)據(jù)集
由于微光視頻數(shù)據(jù)沒(méi)有公開(kāi)的大規(guī)模數(shù)據(jù)集,因此本文選擇DAVIS數(shù)據(jù)集作為訓(xùn)練模型的實(shí)況數(shù)據(jù)。DAVIS數(shù)據(jù)集是一個(gè)用于視頻分割任務(wù)的大規(guī)模數(shù)據(jù)集,分為Full?resolution和480P兩部分。本文實(shí)驗(yàn)使用Full?resolution部分所包含的視頻序列,包括2017年挑戰(zhàn)賽和2019年挑戰(zhàn)賽的訓(xùn)練集、測(cè)試集和驗(yàn)證集。在排除光照不良的視頻幀后,一共得到85個(gè)視頻,總共包含5 691幀。將這些視頻隨機(jī)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集中有75個(gè)視頻,測(cè)試集中有10個(gè)視頻。
本實(shí)驗(yàn)通過(guò)合成真實(shí)的微光與清晰圖像對(duì)來(lái)模擬真實(shí)世界的微光數(shù)據(jù)集。實(shí)驗(yàn)中使用伽馬校正和線(xiàn)性縮放來(lái)使這些明亮圖像變暗。
[x=β·α·yγ] " " "(10)
式中:[γ]表示以均勻分布[U2,3.5]采樣的伽馬校正;[α]和[β]表示線(xiàn)性縮放因子,并且分別從[U0.9, 1]和[U0.5,1]采樣。
噪聲是本文實(shí)驗(yàn)要考慮的另一個(gè)因素。除了光流預(yù)測(cè)和微光視頻幀的生成,本文還使用高斯噪聲和泊松噪聲來(lái)模擬圖像噪聲[16?17],公式如下:
[n=Px,σp+Nσg] " nbsp; " (11)
式中,[σp]、[σg]分別表示泊松噪聲和高斯噪聲的參數(shù)。它們都是從[U0.01,0.04]中采樣的。
圖11所示為從正常光照視頻幀和合成的微光有噪視頻中提取的視頻幀。
2.2" 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)使用的GPU為Nvidia RTX 3060,平臺(tái)操作系統(tǒng)為Ubuntu 20.04,深度學(xué)習(xí)框架為PyTorch,開(kāi)發(fā)環(huán)境為Python 3.8、PyTorch 1.8.0和CUDA 11.3。
網(wǎng)絡(luò)模型使用Adam優(yōu)化器進(jìn)行優(yōu)化訓(xùn)練,實(shí)驗(yàn)中具體參數(shù)配置如表1所示。
2.3" 對(duì)比實(shí)驗(yàn)
本文進(jìn)行定量實(shí)驗(yàn)來(lái)驗(yàn)證所提方法的有效性。將將所提方法與三種增強(qiáng)方法——基于圖像的方法、基于視頻的方法和基于單視頻幀的時(shí)間一致性方法進(jìn)行對(duì)比。從這些類(lèi)別中選擇了8種方法,其中:LIME是傳統(tǒng)方法;MBLLEN、RetinexNet和SID是深度學(xué)習(xí)方法;兩種基于視頻的方法MBLLVEN和SMOID也是基于深度學(xué)習(xí)的方法;此外,將Eilertsen等人和Lai等人提出的處理方法納入定量評(píng)估中,分別命名為SFR與BLIND,以進(jìn)一步補(bǔ)充實(shí)驗(yàn)對(duì)比的結(jié)果。
實(shí)驗(yàn)中使用兩個(gè)常用指標(biāo)來(lái)評(píng)估模型的效果,即峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。此外,選擇平均絕對(duì)亮度差(MABD)來(lái)驗(yàn)證模型的時(shí)間穩(wěn)定性,選擇基于無(wú)參考圖像的NIQE指標(biāo)來(lái)顯示恢復(fù)的圖像是否接近人眼感官。
表2、表3分別為無(wú)噪與有噪情況下的定量比較。從上到下分為三組:基于圖像的方法、基于視頻的方法和基于單視頻幀的時(shí)間一致性方法。表中:[↑]表示數(shù)值越大效果越好;[↓]表示數(shù)值越小效果越好;數(shù)值加粗表示效果最好。
如表2與表3數(shù)據(jù)所示,基于圖像的方法LIME、MBLLEN和RetinexNet在無(wú)噪與有噪聲設(shè)置下分別獲得了PSNR、SSIM以及MABD的比較結(jié)果??梢钥闯鯩BLLEN和RetinexNet在視頻幀增強(qiáng)方面的指標(biāo)PSNR和SSIM優(yōu)于LIME;而MBLLEN由于其曝光不足或曝光過(guò)度的增強(qiáng),獲得較大的MABD值。
基于視頻的方法MBLLVEN和SMOID都具有更好的PSNR和SSIM,其中SMOID的MABD數(shù)值更小,表示此網(wǎng)絡(luò)學(xué)習(xí)到了良好的時(shí)間一致性。SFR、BLIND和本文方法都達(dá)到了與基于視頻的方法相當(dāng)?shù)慕Y(jié)果,但是相比較基于視頻的算法采用3D架構(gòu),本文所提網(wǎng)絡(luò)采用了基于2D架構(gòu)的設(shè)計(jì),減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計(jì)算負(fù)擔(dān),快速地達(dá)到了推理效果。
2.4" 消融實(shí)驗(yàn)
為了深入了解不同模塊對(duì)實(shí)驗(yàn)結(jié)果的影響,本節(jié)進(jìn)行了CA?Swin模塊的兩個(gè)關(guān)鍵部分的消融實(shí)驗(yàn),分別是SwinT模塊與ECA模塊,旨在確認(rèn)每個(gè)模塊對(duì)網(wǎng)絡(luò)性能的具體增益效果。其中,引入NIQE指標(biāo)評(píng)估所恢復(fù)的圖像是否接近人眼的感知。
表4和表5分別列出了兩個(gè)核心模塊單獨(dú)作用以及最終組合的實(shí)驗(yàn)結(jié)果。結(jié)果表明:SwinT強(qiáng)大的非局部建模能力使得增強(qiáng)后的視頻幀更適合人眼的感知;而ECA模塊高效的局部跨通道相互作用則顯示出強(qiáng)大的去噪能力。
訓(xùn)練一個(gè)時(shí)間穩(wěn)定的基于圖像的模型實(shí)際上是視覺(jué)質(zhì)量和時(shí)間穩(wěn)定性之間的折衷,最佳結(jié)果在于它們之間的平衡。為了顯示不同權(quán)重對(duì)模型一致性分支和通用性的影響,對(duì)權(quán)重參數(shù)weight進(jìn)行了消融實(shí)驗(yàn)研究,以探討所提方法的最佳權(quán)重。
如表6所示,隨著分支權(quán)重的增加,與具有較小權(quán)重的網(wǎng)絡(luò)相比,網(wǎng)絡(luò)在時(shí)間上變得更穩(wěn)定。然而,當(dāng)權(quán)重達(dá)到某個(gè)點(diǎn)時(shí),增強(qiáng)質(zhì)量的優(yōu)點(diǎn)就會(huì)減少,并且指標(biāo)開(kāi)始下降,這樣有利于改善更多的時(shí)間穩(wěn)定性。最終網(wǎng)絡(luò)可以在weight=10左右找到最佳的參數(shù)設(shè)置。
2.5" 實(shí)驗(yàn)結(jié)果可視化
本節(jié)將實(shí)驗(yàn)結(jié)果可視化地展示出來(lái)。定性的視覺(jué)可視化顯示,所提網(wǎng)絡(luò)算法有效提升了增強(qiáng)后微光視頻的質(zhì)量與可靠性。
圖12可視化顯示了所提算法與基線(xiàn)算法在噪聲情況下的對(duì)比結(jié)果。圖13可視化顯示了所提算法在合成數(shù)據(jù)下的多個(gè)測(cè)試幀結(jié)果。圖14可視化顯示了所提算法基于真實(shí)數(shù)據(jù)測(cè)試的若干幀實(shí)驗(yàn)結(jié)果。
3" 結(jié)" 論
本文針對(duì)在夜間低照度環(huán)境的條件下對(duì)周?chē)h(huán)境感知的需求,以及當(dāng)前視頻增強(qiáng)算法存在一定程度的閃爍問(wèn)題,提出一種基于多路光流信息時(shí)間一致性的微光視頻增強(qiáng)算法。該方法引入了預(yù)測(cè)的光流與真實(shí)的光流信息對(duì)微光視頻進(jìn)行增強(qiáng),MABD指標(biāo)提高了1倍,增強(qiáng)了視頻的可視化感知效果,有效解決了現(xiàn)有算法處理微光視頻時(shí)存在的閃爍問(wèn)題。同時(shí)針對(duì)微光視頻存在的低信噪比以及模糊化問(wèn)題,設(shè)計(jì)了一種基于雙尺度注意力機(jī)制的微光視頻去噪模塊,進(jìn)一步提升了增強(qiáng)后視頻的可視化感知質(zhì)量。從定性的視覺(jué)可視化結(jié)果與定量的指標(biāo)提升等兩方面顯示出所提網(wǎng)絡(luò)算法有效提升了增強(qiáng)后微光視頻的質(zhì)量與可靠性。
注:本文通訊作者為童官軍。
參考文獻(xiàn)
[1] LI C, GUO C, HAN L, et al. Low?light image and video enhancement using deep learning: a survey [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 44(12): 9396?9416.
[2] WANG R, XU X, FU C W, et al. Seeing dynamic scene in the dark: a high?quality video dataset with mechatronic alignment [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 9700?9709.
[3] ZHANG F, LI Y, YOU S, et al. Learning temporal consistency for low light video enhancement from single images [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA: IEEE, 2021: 4967?4976.
[4] PENG B, ZHANG X, LEI J, et al. LVE?S2D: low?light video enhancement from static to dynamic [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(12): 8342?8352.
[5] LV F, LU F, WU J, et al. MBLLEN: low?light image/video enhancement using CNNs [EB/OL]. [2023?07?14]. https://blog.csdn.net/zhouaho2010/article/details/125322072.
[6] 張強(qiáng),陳泉如.基于視覺(jué)傳播的低照度圖像色彩增強(qiáng)處理方法[J].自動(dòng)化與儀器儀表,2023(11):49?52.
[7] ZHAO Z, XIONG B, WANG L, et al. RetinexDIP: a unified deep framework for low?light image enhancement [J]. IEEE transactions on circuits and systems for video technology, 2021, 32(3): 1076?1088.
[8] WEI C, WANG W, YANG W, et al. Deep retinex decomposition for low?light enhancement [EB/OL]. [2023?08?17]. https://ui.adsabs.harvard.edu/abs/2018arXiv180804560W/abstract.
[9] LIU H, SUN X, HAN H, et al. Low?light video image enhancement based on multiscale retinex?like algorithm [C]// 2016 Chinese Control and Decision Conference. [S.l.]: IEEE, 2016: 3712?3715.
[10] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image?to?image translation using cycle?consistent adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2223?2232.
[11] ZHAN X, PAN X, LIU Z, et al. Self?supervised learning via conditional motion propagation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 1881?1889.
[12] WANG X, ZOU S, JIANG Y, et al. Swin?FlowNet: flow field oriented optimization aided by a CNN and Swin?Transformer based model [J]. Journal of computational science, 2023, 72: 102121.
[13] RONNEBERGER O, FISCHER P, BROX T. U?net: Convolu?tional networks for biomedical image segmentation [C]// Medical Image Computing and Computer?Assisted Intervention?MICCAI. Munich, Germany: Springer, 2015: 234?241.
[14] ZHANG Z, WU Y, ZHANG J, et al. Efficient channel attention for deep convolutional neural networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Seattle, WA, USA: IEEE, 2021: 1178?1187.
[15] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 10012?10022.
[16] REMEZ T, LITANY O, GIRYES R, et al. Deep class?aware image denoising [C]// 2017 International Conference on Sampling Theory and Applications (SampTA). [S.l]: IEEE, 2017: 138?142.
[17] ZHANG K, LI Y, LIANG J, et al. Practical blind image denoising via Swin?Conv?UNet and data synthesis [J]. Machine intelligence research, 2023, 20(6): 822?836.