管雪元,胡威,付珩
(南京理工大學(xué)瞬態(tài)物理國家重點實驗室,南京 210094)
光學(xué)遙感技術(shù)廣泛應(yīng)用于資源勘探、生態(tài)保護、災(zāi)害預(yù)測和國防軍事等領(lǐng)域[1]。但遙感成像設(shè)備在光學(xué)信息采集、壓縮及傳輸過程中容易受到隨機噪聲的影響,導(dǎo)致圖像質(zhì)量下降[2]。噪聲的存在除了影響遙感圖像的視覺效果,還影響圖像的處理、分析、傳輸和存儲。因此,圖像去噪成為遙感圖像處理的重要步驟。
應(yīng)用于遙感圖像去噪的方法主要有基于小波變換的去噪方法[3]、基于字典學(xué)習(xí)的去噪方法[4]和基于非局部自似性的去噪方法[5]。文獻[6]使用了一種基于小波變換的方法完成了遙感圖像去噪,該方法可以同時表示頻域和空間域的圖像信息,但對實際應(yīng)用中的真實噪聲,結(jié)果不夠理想?;谧值鋵W(xué)習(xí)的去噪算法依賴于稀疏表示理論[7]的發(fā)展,文獻[8]使用K-SVD算法[9]完成了對遙感圖像的去噪和重建。其原理是用K-SVD字典算法訓(xùn)練,得到自適應(yīng)冗余字典,完成稀疏表示,從而達到圖像去噪的目的,但這種方法忽略了圖像的整體結(jié)構(gòu),導(dǎo)致大量圖像細節(jié)丟失。非局部自似性方法進一步提升了遙感圖像的去噪效果,其中主要包括自適應(yīng)非局部閾值法(Non-Local Means,NLM)[10]和三維塊匹配算法(Block Matching 3D,BM3D)[11],但兩種方法需 要搜索相似的圖像結(jié)構(gòu)塊,算法復(fù)雜,運算時間長。文獻[12]提出了一種圖像稀疏性與非局部自似性相結(jié)合的遙感圖像去噪算法,取得了不錯的去噪效果,但對不同強度的噪聲,算法穩(wěn)定性不好。
隨著深度學(xué)習(xí)在圖像處理領(lǐng)域的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被應(yīng)用于圖像去噪中。文獻[13]提出的DnCNN網(wǎng)絡(luò)是最早應(yīng)用于圖像去噪中的深度學(xué)習(xí)算法,相比傳統(tǒng)算法,泛化性有很大提升。文獻[14]在DnCNN的基礎(chǔ)上提出了BRDNet網(wǎng)絡(luò),通過引入空洞卷積和雙分支結(jié)構(gòu),使得去噪效果進一步提升。為了更好地去除圖像中的真實噪聲,文獻[15]提出了一種基于特征注意的真實圖像去噪網(wǎng)絡(luò)RIDNet,通過串聯(lián)多個圖像增強模塊,能夠提取圖像的深層特征,有效地完成了真實噪聲去噪。但網(wǎng)絡(luò)中淺層特征與深層特征直接融合,導(dǎo)致圖像信息未被充分利用,像素不夠高連續(xù),去噪后的圖像模糊,對于噪聲強度較高的圖像處理結(jié)果不好。針對遙感圖像中的隨機噪聲,文獻[16]提出了一種基于殘差編解碼和邊緣增強的REDJ網(wǎng)絡(luò)結(jié)構(gòu),編碼模塊采用下采樣操作,解碼模塊為上采樣操作,提取不同層次的圖像特征完成了對高分二號衛(wèi)星拍攝圖像的去噪,但由于其較多的下采樣過程,不可避免地會丟失重要特征信息。并且REDJ網(wǎng)絡(luò)深度不夠,對于紋理特征復(fù)雜的遙感圖像不能夠提取深層的圖像特征,因此REDJ在不同數(shù)據(jù)集上的去噪表現(xiàn)結(jié)果有明顯差異。
針對以上方法的不足,結(jié)合遙感圖像特點,本文提出了一種基于多感受野特征融合與增強的遙感圖像去噪算法MRFENet,能夠提取不同感受野下的淺層特征和深層特征,并逐級進行特征融合,以減少信息丟失。通過配置網(wǎng)絡(luò)的深度與通道數(shù),使得網(wǎng)絡(luò)在不增加冗余計算的前提下,達到最佳性能。并且引入通道注意力模塊(Channel Attention Module,CAM)[17],實現(xiàn)重要特征增強。為了使去噪后圖像更加符合視覺感受,選擇MS-SSIM聯(lián)合損失函數(shù)進行訓(xùn)練。在不同數(shù)據(jù)集進行測試,以驗證MRFENet算法的泛化性。
遙感圖像噪聲可以分為周期性噪聲和隨機噪聲[18]。周期性噪聲通過建??梢杂行?9]。但成像過程中的隨機噪聲往往由暗電流噪聲、電磁波噪聲、光電子噪聲組成[20]。根據(jù)噪聲和圖像的相關(guān)性,隨機噪聲可以建模為加性高斯噪聲[21],表示為
式中,P表示噪聲圖像,p表示原始圖像,N表示高斯噪聲,方差為σ2。
提出的MRFENet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)主要包含三部分:全局特征提取模塊(Global Feature Extraction module,GFE)、多尺度增強殘差塊(Multi-Scale Enhanced residual Blocks,MSEB)、重構(gòu)模塊(Reconstruction Module,RM)。輸入為噪聲遙感圖像,圖像的長為H,寬為W,輸出為去噪后的圖像。
圖1 MRFENet結(jié)構(gòu)Fig.1 MRFENet structure diagram
輸入圖像首先進入全局特征提取模塊,其結(jié)構(gòu)如圖2所示。該模塊共包含4條分支,每個分支都由不同空洞率的卷積構(gòu)成,提出算法分別用空洞率為1、3、5、7的空洞卷積,最后對4條支路進行特征融合,得到中間特征F1,具體過程表示為
圖2 全局特征提取模塊結(jié)構(gòu)Fig.2 Structure diagram of global feature extraction module
式中,DC為空洞卷積,k為卷積核大小,w為空洞率,c為輸出特征圖的個數(shù),BN為歸一化層,ReLU為非線性層,concate為特征融合層。
與普通卷積運算相比,空洞卷積能夠在參數(shù)量不變的情況下獲取更大的感受野,提取到圖像的全局信息。對帶有噪聲的圖像進行全局特征提取后,可以得到不同尺度的淺層信息,所得特征包含了圖像的位置信息與局部輪廓信息,使得去噪后的圖像不會出現(xiàn)過于平滑的現(xiàn)象,輪廓細節(jié)能夠較大程度地保留,且在訓(xùn)練過程中,模型可以快速收斂,提升訓(xùn)練效率。
1)多尺度增強塊(MSEB)由兩部分組成。第一部分是多尺度特征提取層,第二部分為通道注意力模塊,兩部分構(gòu)成殘差結(jié)構(gòu)。多尺度特征提取層與全局特征提取模塊類似,也在4個分支上使用不同空洞率的卷積核,目的是提取由淺至深不同層次的多尺度特征信息,最大程度保留圖像信息不丟失。不同之處在于選擇了空洞率較小的卷積核,由于淺層特征包含更多的位置與輪廓信息,而深層特征更加專注于圖像的紋理特征,選擇較小的空洞率既能保證深度特征的提取,又能減少冗余計算,優(yōu)化算法的訓(xùn)練過程。將多個不同尺度信息進行融合,最后通過一個3×3的卷積模塊調(diào)整特征圖尺寸,具體過程表示為
式中,Dm為不同支路所提取特征,Bi為第i個MSEB的輸出結(jié)果,Dmid為多尺度特征提取層所得結(jié)果。
2)將多尺度特征提取層的所得結(jié)果傳入通道注意力模塊,其作用在于能夠?qū)χ匾ǖ婪峙漭^高權(quán)重,完成重要特征增強。具體過程為先利用全局平均池化提取特征圖的全局信息,然后經(jīng)過兩個1×1的卷積層學(xué)習(xí)到權(quán)重系數(shù)并調(diào)整通道數(shù),用ReLU激活函數(shù)確保權(quán)重為正,再經(jīng)過Sigmoid函數(shù)將輸出權(quán)重分布于在0到1之間,將輸入特征與所得權(quán)重相乘得到特征增強后的輸出特征圖,最后將Dmid與增強后特征相加構(gòu)成殘差結(jié)構(gòu),目的是防止MSEB增多導(dǎo)致網(wǎng)絡(luò)太深而出現(xiàn)梯度爆炸。MSEB可表示為
式中,Bn為當前多尺度殘差塊的輸出結(jié)果,Bn-1為前一個多尺度殘差塊的輸出結(jié)果,Conv表示卷積層,fCA為通道注意力模塊。
3)多個串聯(lián)的MSEB構(gòu)成了網(wǎng)絡(luò)的主干,該部分完成了對圖像淺層特征到深度特征的多尺度提取。用逐級特征融合的方式對淺層特征與深層特征進行融合。該方法充分利用了圖像不同層次的特征,使輸出特征包含豐富的信息,還能夠保證像素更加連續(xù),降低了深層特征與淺層特征直接融合所造成的波動。具體過程是將深層特征與上一級特征進行融合,再通過一個1×1卷積模塊調(diào)整通道數(shù)后,作為淺層特征與下一級深層特征重復(fù)上述步驟。具體過程可表示為
式中,F(xiàn)2為主干部分的輸出。
用西北工業(yè)大學(xué)公開發(fā)布的NWPU-RESISC45遙感圖像數(shù)據(jù)集[22]進行訓(xùn)練和測試,數(shù)據(jù)集的示例圖如圖3所示。該數(shù)據(jù)集共包含31500張遙感圖像,涵蓋45個場景類別,每種類別中有700張圖像,每張圖的大小為256×256。
圖3 NWPU-RESISC45數(shù)據(jù)集示例Fig.3 Examples of NWPU-RESISC45 dataset
將數(shù)據(jù)集轉(zhuǎn)換為單通道的灰度圖像,在每類場景中隨機選擇600張用于訓(xùn)練,100張用于測試。最終訓(xùn)練集共有27000張圖,測試集共有4500張。為滿足訓(xùn)練需要,驗證本文算法的穩(wěn)定性,需要更豐富的數(shù)據(jù)集進行測試,將數(shù)據(jù)集分別添加σ=15、σ=20、σ=35、σ=50四種不同方差的高斯噪聲,構(gòu)成被不同等級高斯噪聲疊加后的數(shù)據(jù)集。構(gòu)建后的數(shù)據(jù)集示例如圖4所示。
圖4 不同噪聲強度數(shù)據(jù)集Fig.4 Example of different noise intensity datasets
加入公開數(shù)據(jù)集RSSCN7[23]用于測試網(wǎng)絡(luò)對于不同尺寸圖像的去噪性能,該數(shù)據(jù)集共包含7個典型場景,2800張圖像,大小為400×400。從中隨機抽取100張圖,并疊加與NWPU-RESISC45數(shù)據(jù)集同樣強度的高斯噪聲,用于測試本文算法對不同尺寸遙感圖像的去噪效果。為了更好地測試本文算法對不同噪聲強度圖像的去噪性能,從制作好的NWPU-RESISC45噪聲數(shù)據(jù)集中隨機選取400張不同強度噪聲圖,從RSSCN7噪聲數(shù)據(jù)集中隨機選取80張不同噪聲強度圖,用于測試算法穩(wěn)定性。為測試網(wǎng)絡(luò)對真實噪聲的去噪性能,用一幅真實遙感圖像Washington DC mall[24]來測試網(wǎng)絡(luò),圖像大小為1208×307。后續(xù)實驗中將波段60、27、17合成為偽彩色圖片,經(jīng)過灰度化處理后,從中隨機裁剪一張256×256的小圖,作為真實噪聲圖像數(shù)據(jù)。處理后的RSSCN7數(shù)據(jù)集示例與真實噪聲數(shù)據(jù)集如圖5所示。
圖5 RSSCN7數(shù)據(jù)集示例與真實噪聲數(shù)據(jù)集Fig.5 Example of RSSCN7 datasets and real noise datasets
實驗所用的操作系統(tǒng)為Ubuntu,CPU為AMD Ryzen 75800H,內(nèi)存32 GB,GPU為英偉達GeForce RTX 3060,用來對網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程加速。編程平臺為Python3.9,網(wǎng)絡(luò)結(jié)構(gòu)搭建和測試使用Pytorch 1.11.2。batch size設(shè)置為16,epoch設(shè)置為80,初始學(xué)習(xí)率設(shè)置為0.001。已有文獻說明[25]僅使用均方誤差(Mean-Square Error,MSE)作為損失函數(shù)會導(dǎo)致圖像的視覺效果不好,因此選擇多尺度結(jié)構(gòu)相似性損失函數(shù)(Multi-Scale Structural Similarity,MS-SSIM)作為損失函數(shù),計算預(yù)測圖與相應(yīng)真實圖的區(qū)別,損失函數(shù)可表示為
式中,M表示不同的尺度,μp和μg分別為預(yù)測圖像和真實圖像的均值,σp和σg分別為預(yù)測值和真實圖像的標準差,σpg為預(yù)測圖像和真實圖像的協(xié)方差,βm和γm表示兩項之間的相對重要性,c1和c2為常數(shù),防止除數(shù)為0。實驗采用Adam算法對網(wǎng)絡(luò)進行優(yōu)化。
本文算法中MSEB個數(shù)B和輸出特征通道數(shù)c需要手動設(shè)置,隨著參數(shù)的增大,模型性能會提高。這是由于參數(shù)的增加使得網(wǎng)絡(luò)的深度提高,利用網(wǎng)絡(luò)能夠提取復(fù)雜的深層圖像特征,但參數(shù)過大會使正確率開始飽和甚至下降,并不能提升網(wǎng)絡(luò)性能。因此,通過比較不同參數(shù)下網(wǎng)絡(luò)的性能,選擇最優(yōu)參數(shù)作為后續(xù)對比實驗的網(wǎng)絡(luò)架構(gòu)。使用高斯噪聲σ=15的NWPU-RESISC45數(shù)據(jù)集進行測試后,將不同參數(shù)下的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)均值作為本文算法的性能表現(xiàn),其結(jié)果如圖6所示。
圖6 不同參數(shù)下的性能曲線Fig.6 Performance curves under different parameters
由結(jié)果可知,隨著網(wǎng)絡(luò)深度的加深,PSNR值不斷增加,但當多尺度增強殘差塊個數(shù)B>8時,網(wǎng)絡(luò)的正確率逐級飽和,而此時隨著通道數(shù)的加深,網(wǎng)絡(luò)并沒有明顯的性能提升??紤]到GPU算力與算法精確度,在對比實驗中,算法的多尺度增強殘差塊個數(shù)設(shè)置為8,輸出特征通道數(shù)設(shè)置為64。
為了更加客觀地驗證本文算法,使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)兩個定量指標去評價去噪結(jié)果。兩種指標分別表示為
式中,MSE為均方誤差,MAX為圖像中最大像素值,μx和μy分別為兩張圖像的均值,σx和σy為兩張圖像的標準差,σxy為兩張圖像的標準差。
考慮實際應(yīng)用中,無法得到真實圖像與之對應(yīng)的無噪聲標簽,因此全參考方法并不適用,所以需要使用無參考圖像質(zhì)量方法對去噪后圖像進行評估。選擇自然圖像質(zhì)量評估器(Natural Image Quality Evaluator,NIQE),盲參考圖像空間質(zhì)量評估器(Blind/Referenceless Image Spatial QUality Evaluator,BRISQUE)以及基于感知的圖像質(zhì)量評估器(Perception based Image Quality Evaluator,PIQE)作為無參考圖像質(zhì)量評估指標。這三種指標相對全參考圖像質(zhì)量評價算法,不需要任何參考圖像的信息,通過圖像的自身特征對圖像質(zhì)量進行打分。無參考評價指標在一定程度上說明了圖像質(zhì)量。
提出的算法在四種不同噪聲訓(xùn)練集上的損失曲線如圖7所示??梢钥闯?,經(jīng)過80輪的訓(xùn)練后,網(wǎng)絡(luò)逐級收斂,隨著迭代次數(shù)的增加,參數(shù)達到最優(yōu),噪聲強度越高,收斂速度越慢。
圖7損失曲線Fig.7 Loss curve chart
圖8 ~11分別為用不同方法對σ為15、20、35、50的噪聲數(shù)據(jù)集的去噪結(jié)果示例。觀察圖8,不難發(fā)現(xiàn),NLM與BM3D的去噪結(jié)果非常糟糕,去噪后的圖像過于模糊,圖像信息丟失嚴重。深度學(xué)習(xí)方法相比傳統(tǒng)算法能夠更好地完成去噪任務(wù),但DnCNN與RIDNet算法并不能有效識別到地面的道路,圖像信息部分丟失,而REDJ算法雖然能夠識別到圖中的道路,但結(jié)果的邊緣并不清晰。本文算法則能夠很好地提取道路圖像,并保留大部分的圖像細節(jié)信息。
圖8 不同算法去噪結(jié)果示例(σ=15)Fig.8 Example of denoising results of different algorithms(σ=15)
圖9 不同算法去噪結(jié)果示例(σ=20)Fig.9 Example of denoising results of different algorithms(σ=20)
圖10 不同算法去噪結(jié)果示例(σ=35)Fig.10 Example of denoising results of different algorithms(σ=35)
圖11 不同算法去噪結(jié)果示例(σ=50)Fig.11 Example of denoising results of different algorithms(σ=50)
對比四組結(jié)果可以看出,隨著噪聲強度增大,傳統(tǒng)算法已經(jīng)失效,圖像存在大量的噪點和模糊的情況,無法從中提取有效信息,而DnCNN、RIDNet以及REDJ雖然可以去除大部分噪聲,但灰度等級復(fù)雜的區(qū)域,噪聲濾除不干凈,邊緣細節(jié)不夠清晰,重建結(jié)果中存在較多的紋理失真。本文提出算法在各個數(shù)據(jù)集上都有更好的去噪表現(xiàn),不僅能夠有效完成去噪任務(wù),而且重建后的圖像紋理細節(jié)清晰,更加符合視覺效果。
圖12為同一張圖片疊加不同強度噪聲后,在不同方法下的去噪結(jié)果。觀察結(jié)果可以發(fā)現(xiàn),NLM和BM3D對于噪聲強度較低的圖片可以完成去噪,但結(jié)果過于模糊,而對于噪聲強度較高的圖像則無法完成去噪。深度學(xué)習(xí)算法對于低強度噪聲能夠有效地完成去噪,但隨著噪聲強度的增強,去噪結(jié)果會受到影響。DnCNN算法在強度較高的數(shù)據(jù)集測試中出現(xiàn)了模糊現(xiàn)象。RIDNet與REDJ在去噪表現(xiàn)上好于DnCNN,沒有出現(xiàn)模糊的現(xiàn)象,但對于噪聲強度高的圖像去噪能力有限,結(jié)果中仍然存在噪聲,并且重構(gòu)后的圖像紋理細節(jié)不夠清晰。本文算法隨著噪聲強度的提升,結(jié)果也有影響,但對比其他算法,去噪結(jié)果中僅存在少量噪聲,圖像的紋理細節(jié)也最為清晰,視覺效果最好。
圖12 不同噪聲強度下各方法去噪結(jié)果Fig.12 Denoising results of various methods under different noise intensity
不同方法在NWPU-RESISC45數(shù)據(jù)集和RSSCN7數(shù)據(jù)集上的定量指標均值結(jié)果如表1所示??梢钥闯觯S著噪聲強度增大,傳統(tǒng)算法去噪性能明顯下降。深度學(xué)習(xí)算法的去噪性能普遍更好。本文算法相比其他深度算法在不同強度噪聲的數(shù)據(jù)集中的峰值信噪比與結(jié)構(gòu)相似性均為最高,從混合噪聲數(shù)據(jù)集的去噪結(jié)果來看,本文算法能夠適應(yīng)不同強度的噪聲變化,驗證了其去噪性能和泛化性。
表1 不同噪聲強度在各方法下的定量結(jié)果Table 1 Quantitative results of different noise intensities under each method
在Washington DC mall的偽彩色圖像中隨機裁剪出一張256×256的圖像后,進行灰度化處理,所得結(jié)果為包含真實噪聲的遙感圖像,使用不同算法進行去噪處理,所得結(jié)果如圖13所示??梢钥闯觯琋LM和BM3D能夠有效完成去噪任務(wù),但重建后的圖像邊緣過于模糊,地面的建筑物細節(jié)丟失嚴重,而DnCNN算法雖然保留了圖像邊緣細節(jié),但仍然存在大量噪聲。RIDNet算法與REDJ算法的效果較好,但也存在少量噪聲,圖像中也出現(xiàn)了模糊情況。本文算法能夠有效去除噪聲,并且保留圖像細節(jié),重建后的圖像有較好的視覺效果。
圖13 真實噪聲去噪結(jié)果示例Fig.13 Example of real noise denoising result
使用無參考圖像質(zhì)量評價指標對各算法的去噪結(jié)果進行評估后所得均值結(jié)果如表2所示。無參考圖像質(zhì)量評價的結(jié)果,部分取決于主觀視覺感受和訓(xùn)練樣本,所以不如全參考圖像質(zhì)量評價精確,但通過結(jié)果對比,本文提出算法仍然有不錯的表現(xiàn)。
表2 真實噪聲圖像在各方法下的定量結(jié)果Table 2 Quantitative results of real noise images under each method
為驗證不同模塊對MRFENet算法的重要性,設(shè)計了六個消融實驗與本文算法進行對比,實驗采用σ為20的RSSCN7數(shù)據(jù)集,定量指標為PSNR均值和SSIM均值,所得結(jié)果如表3所示??梢钥闯?,當具備所有模塊時,網(wǎng)絡(luò)的性能最優(yōu),缺失任意模塊都會對算法的定量指標產(chǎn)生影響。而通道注意力模塊影響最大,若網(wǎng)絡(luò)不包含通道注意力模塊,PSNR均值下降0.471,SSIM均值下降0.0189。
表3 消融實驗定量結(jié)果Table 3 Quantitative results of ablation experiments
遙感圖像包含豐富的特征信息,而傳統(tǒng)去噪方法在對遙感圖像的處理中容易造成邊緣細節(jié)丟失與圖像過度模糊的問題。本文提出了一種基于多感受野融合與增強的遙感圖像去噪算法MRFENet。該算法使用全局特征提取模塊,得到不同尺度的淺層信息,使得網(wǎng)絡(luò)能夠提取圖像的位置與邊緣信息,加快網(wǎng)絡(luò)收斂速度。算法的主干部分由多個逐級融合的多尺度特征增強塊構(gòu)成,該部分能夠有效提取不同尺度的深層信息,并與淺層信息進行融合,減少圖像的信息丟失。在每個模塊中引入通道注意力機制,進一步增強重要特征。與傳統(tǒng)算法和其他深度學(xué)習(xí)去噪算法對比結(jié)果表明,本文算法能夠在不同等級噪聲的遙感圖像數(shù)據(jù)集和真實噪聲遙感圖像中有較好的去噪表現(xiàn),并能夠保留圖像的邊緣細節(jié)。通過不同圖像質(zhì)量評價指標的定量分析,進一步驗證了本文算法相比其他算法在遙感圖像去噪方面具備更好的泛化性和有效性。