姜鑫, 聶海濤, 朱明
(中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所,吉林 長春 130033)
近些年,隨著工業(yè)社會的快速發(fā)展,社會經(jīng)濟(jì)不斷增長的同時(shí)對自然環(huán)境的破壞也日趨嚴(yán)重,導(dǎo)致霧霾天氣出現(xiàn)的越來越頻繁,嚴(yán)重地影響了人們?nèi)粘5纳a(chǎn)與生活[1]。霧霾是大氣中的粒子吸收散射光而產(chǎn)生的一種自然現(xiàn)象,受其影響,光學(xué)設(shè)備無法獲取有效的場景信息,所采集的圖像質(zhì)量較差,易出現(xiàn)顏色失真、飽和度降低、圖像模糊等退化現(xiàn)象。霧霾天氣下圖像質(zhì)量的下降不僅降低了圖像的視覺觀賞性,而且嚴(yán)重地干擾了視頻監(jiān)控、自動駕駛、無人機(jī)跟蹤等各類視覺處理任務(wù)的有效運(yùn)行[2]。針對上述現(xiàn)象,如何在不丟失圖像細(xì)節(jié)的前提下,在霧霾場景中有效地去除圖像中的霧霾,最大程度上復(fù)原出圖像的色彩信息,提高圖像質(zhì)量,具有重要的研究意義和應(yīng)用價(jià)值。
圖像去霧是一個(gè)極具挑戰(zhàn)性的問題,近些年來引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前有關(guān)圖像去霧的研究主要分為兩大類:一類是基于先驗(yàn)信息的去霧方法研究,另一類是基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法研究?;谙闰?yàn)信息的去霧方法主要利用大氣散射模型和手工設(shè)計(jì)的先驗(yàn)知識對霧天圖像進(jìn)行去霧處理;基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法主要利用神經(jīng)網(wǎng)絡(luò)的特征提取能力和包含大量霧天圖像的數(shù)據(jù)集來實(shí)現(xiàn)高效去霧。
基于大氣散射模型,Tan等[3]通過提高圖像局部對比度的方式實(shí)現(xiàn)了圖像去霧,但該方法容易出現(xiàn)復(fù)原后圖像色差較大的問題。He等[4]提出了基于暗通道先驗(yàn)的去霧方法并取得了很好的去霧效果,但易受到天空等高亮區(qū)域的影響,并且存在時(shí)間和空間復(fù)雜度高的問題。Ancuti等[5]基于原始圖像及其半逆圖像之間的色差,提出了一種可以快速檢測并去除圖像霧霾的去霧方法。Zhu等[6]在對大量圖像分析的基礎(chǔ)上建立了景物深度和景物亮度與飽和度差的線性模型,通過景物透射圖有效地去除了圖像中的霧霾。盡管上述算法在某些場景中實(shí)現(xiàn)了一定的去霧效果,但受限于理想條件下的大氣散射模型和各種先驗(yàn)假設(shè),其在復(fù)雜霧氣圖像中的應(yīng)用仍存在著較大的局限性。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大量卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在了圖像去霧領(lǐng)域中。Cai等[7]第一次將卷積神經(jīng)網(wǎng)絡(luò)引入到圖像去霧任務(wù)中,提出了一種端到端的可訓(xùn)練去霧網(wǎng)絡(luò),利用多尺度卷積操作提取霧霾特征,大幅提升了圖像去霧性能。Li等[8]提出了一個(gè)輕量級去霧網(wǎng)絡(luò)AODNet,該網(wǎng)絡(luò)將大氣散射模型中的多個(gè)中間變量集成為一個(gè)可訓(xùn)練參數(shù),有效地降低了復(fù)原公式的重建誤差,提高了去霧圖像的質(zhì)量。Chen等[9]提出了一種結(jié)合殘差學(xué)習(xí)和導(dǎo)向?yàn)V波的去霧算法,采用多尺度卷積提取霧霾特征,利用導(dǎo)向?yàn)V波保持圖像邊緣特性,解決了復(fù)原圖像對比度和清晰度下降的問題。Feng等[10]提出了一個(gè)雙視覺注意網(wǎng)絡(luò)的聯(lián)合圖像去霧和透射率估計(jì)算法,充分利用了透射率估計(jì)和去霧過程中捕獲信息的相關(guān)性,實(shí)現(xiàn)了圖像中霧氣濃度信息的預(yù)測。Yang等[11]提出了一種分離特征和協(xié)同網(wǎng)絡(luò)下的去霧模型,利用神經(jīng)網(wǎng)絡(luò)提取不同深度的空間信息及細(xì)節(jié)特征,使得復(fù)原圖像顏色自然,細(xì)節(jié)保持良好。大部分基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法均利用了卷積操作來提取圖像特征,但是,具有參數(shù)共享特性的卷積操作在應(yīng)用時(shí)有兩點(diǎn)弊端:一是卷積操作更加關(guān)注于局部特征信息的提取,不能對超出感受野范圍的特征進(jìn)行建模,因此無法很好地感知圖像全局特征信息;二是卷積核與圖像之間的交互并不能根據(jù)圖像內(nèi)容而自適應(yīng)地調(diào)整,使用相同的卷積核來復(fù)原不同區(qū)域的圖像可能并不是最好的選擇。
最近,隨著Transformer[12]的出現(xiàn),基于自注意力機(jī)制的網(wǎng)絡(luò)框架在很多機(jī)器視覺處理任務(wù)上取得了與卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)甚至更好的性能和效果[13-15]。Transformer最初是用來解決自然語言處理任務(wù)的,通過使用自注意力機(jī)制使得模型可以并行化訓(xùn)練。與卷積神經(jīng)網(wǎng)絡(luò)相比,Transformer最大的優(yōu)勢在于每個(gè)特征學(xué)習(xí)層中的單元都具有全局的感受野,其更擅長于建立遠(yuǎn)距離依賴關(guān)系的模型,可以實(shí)現(xiàn)全局特征信息的有效聚合。
基于此,為了克服現(xiàn)有方法表達(dá)的不足,提升網(wǎng)絡(luò)的特征表達(dá)能力,提出了全局和局部特征融合去霧網(wǎng)絡(luò)。網(wǎng)絡(luò)分別利用Transformer和卷積操作提取圖像全局和局部特征信息,并將兩者融合后輸出,充分發(fā)揮了Transformer建模長距離依賴關(guān)系和卷積操作局部感知特性的優(yōu)勢,實(shí)現(xiàn)了特征的高效表達(dá)。實(shí)驗(yàn)結(jié)果表明,所提出的去霧網(wǎng)絡(luò)圖像復(fù)原效果更加真實(shí),細(xì)節(jié)還原度高,去霧性能優(yōu)異。
條件式生成對抗網(wǎng)絡(luò)[16]在圖像復(fù)原領(lǐng)域展現(xiàn)出了良好的性能和復(fù)原效果,已廣泛應(yīng)用于圖像去噪[17-18]、圖像去雨[19-20]、圖像去霧[21-22]等各類圖像復(fù)原任務(wù)中。鑒于此,本文基于此框架設(shè)計(jì)了全局和局部特征融合去霧網(wǎng)絡(luò)。圖1為條件式生成對抗去霧網(wǎng)絡(luò)整體架構(gòu)圖[23],它主要由一個(gè)生成器G和一個(gè)判別器D組成。其中,“x”表示輸入的原始有霧圖像,“G(x)”表示經(jīng)過生成器復(fù)原后的無霧圖像,“y”表示與之對應(yīng)的真實(shí)清晰無霧圖像。
圖1 條件式生成對抗網(wǎng)絡(luò)架構(gòu)圖Fig.1 Diagram of conditional generative adversarial network
生成器G的目標(biāo)是根據(jù)輸入的有霧圖像復(fù)原出清晰無霧圖像;判別器D的目標(biāo)是準(zhǔn)確分辨出生成器復(fù)原出的無霧圖像和真實(shí)的無霧圖像。生成器和判別器在樣本訓(xùn)練的過程中進(jìn)行博弈并不斷提升各自性能,判別器D的目的是盡可能地將真實(shí)樣本和生成樣本區(qū)分開來,即判斷生成樣本為假,真實(shí)樣本為真;生成器G的目的是逐步學(xué)習(xí)真實(shí)清晰無霧圖像的數(shù)據(jù)分布,并盡可能地生成與無霧圖像類似的樣本數(shù)據(jù)來欺騙判別器D,使得判別器無法對其生成的樣本做出準(zhǔn)確判別。最終,在較為理想的情況下,生成器準(zhǔn)確學(xué)習(xí)到了真實(shí)清晰圖像的數(shù)據(jù)分布,能夠生成“以假亂真”的無霧圖像;同時(shí),判別器無法準(zhǔn)確分辨出生成樣本和真實(shí)樣本,從而達(dá)到納什均衡的狀態(tài)[16]。在傳統(tǒng)的生成式對抗網(wǎng)絡(luò)框架中,生成器往往通過輸入的隨機(jī)噪聲來復(fù)原出目標(biāo)圖像;而在條件式生成對抗網(wǎng)絡(luò)框架中,生成器和判別器均可讀取輸入的原始有霧圖像,有助于網(wǎng)絡(luò)實(shí)現(xiàn)更好的復(fù)原效果[23]。網(wǎng)絡(luò)訓(xùn)練后,利用生成器G,即可根據(jù)有霧圖像生成與之對應(yīng)的無霧圖像,實(shí)現(xiàn)圖像去霧效果,有關(guān)生成器G和判別器D的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)詳見下文。
生成器采用U-Net型[24]網(wǎng)絡(luò)架構(gòu),如圖2所示,其中“Conv”表示卷積操作,“BN”表示批標(biāo)準(zhǔn)化操作,“GELU”表示高斯誤差線性單元激活函數(shù),“MaxPool”表示最大池化操作,“GLFFM”表示全局和局部特征融合模塊,“Enhancer”表示增強(qiáng)模塊,“Tanh”表示雙曲正切激活函數(shù),“skip connection”表示跳躍連接操作。
圖2 生成器示意圖Fig.2 Framework of the generator
生成器主要由四部分組成:編碼器、全局和局部特征融合模塊、解碼器和增強(qiáng)模塊。編碼器主要由多個(gè)Conv-BN-GELU序列和最大池化操作組成,在逐步降低特征圖分辨率的同時(shí),不斷地提取圖像特征,并擴(kuò)展特征圖維度。在此基礎(chǔ)上,全局和局部特征融合模塊分別提取圖像全局和局部特征信息,并將兩者融合后輸出,該模塊的詳細(xì)操作參見2.3節(jié)。接著,解碼器采用多個(gè)pixel shuffle層[25]對特征圖進(jìn)行上采樣操作,在減少圖像偽影的同時(shí)將特征圖分辨率逐步向原始圖像分辨率靠近。同時(shí),為了實(shí)現(xiàn)高效的網(wǎng)絡(luò)特征信息共享,編碼器端每一級特征層都通過跳躍連接的方式與解碼器端特征層進(jìn)行直連,這有助于將編碼器端淺層網(wǎng)絡(luò)中提取到的邊緣、紋理、輪廓等特征信息傳遞到解碼器端的深層網(wǎng)絡(luò)中,進(jìn)而在解碼的同時(shí)充分保留原始圖像的細(xì)節(jié)、紋理等信息。之后,通過增強(qiáng)模塊進(jìn)一步融合圖像全局特征信息,增強(qiáng)網(wǎng)絡(luò)的特征表示能力,從而精細(xì)化復(fù)原結(jié)果,該模塊的詳細(xì)操作參見2.4節(jié)。最后,通過Conv-Tanh序列降低特征圖維度并輸出最終復(fù)原出的清晰無霧圖像。生成器的詳細(xì)參數(shù)信息如表1所示。
針對卷積操作特征表達(dá)的局限性,為了更好地提升去霧網(wǎng)絡(luò)的整體特征表達(dá)能力,設(shè)計(jì)了一個(gè)全局和局部特征融合模塊,分別利用Transformer和卷積操作提取圖像全局和局部特征信息,發(fā)揮Transformer建模長距離依賴關(guān)系和卷積操作局部感知特性的優(yōu)勢,并將兩者獲取的特征信息進(jìn)行融合后輸出,進(jìn)而實(shí)現(xiàn)特征的高效表達(dá)。全局和局部特征融合模塊的架構(gòu)示意圖如圖3所示,其中“PE”表示圖像塊壓縮操作,“PEG”表示位置編碼生成器[26],“LN”表示層標(biāo)準(zhǔn)化操作,“MSA”表示多頭自注意力機(jī)制,“MLP”表示多層感知機(jī)。
圖3 全局和局部特征融合模塊示意圖Fig.3 Diagram of global and local feature fusion module
如圖3所示,全局和局部特征融合模塊主要包含局部特征提取分支、全局特征提取分支、特征融合單元和長距離跳躍連接。局部特征提取分支由Conv-BN-GELU-Conv-BN序列組成,通過卷積操作提取圖像局部特征信息,此模塊中所有的卷積核尺寸均為3×3。全局特征提取分支由圖像塊壓縮單元、位置編碼生成器和多個(gè)Transformer編碼器組成。由于Transformer需要的是類似于單詞序列的一維輸入信號,而圖像本身為二維信號,因此需要先將整幅圖像拆分為多個(gè)圖像塊,并將圖像塊展平壓縮后拉伸成一維序列,再輸入到Transformer編碼器中。但是,這種方法并不能完美地建模圖像,因?yàn)槠淙鄙倭硕S圖像中所包含的重要信息,即像素點(diǎn)間的位置信息??紤]到圖像復(fù)原任務(wù)對位置信息是高度敏感的,因此在圖像塊序列輸入到Transformer編碼器前,設(shè)計(jì)了位置編碼生成器,以實(shí)現(xiàn)對不同位置圖像塊的有效編碼,進(jìn)而保留像素點(diǎn)間的二維空間位置關(guān)系。位置編碼生成器的有關(guān)設(shè)計(jì)詳見2.5小節(jié)。在去霧網(wǎng)絡(luò)整體架構(gòu)中,生成器中的編碼器提取出了分辨率大小為32×32的特征圖,輸入到全局和局部特征融合模塊。在全局特征提取分支中,Transformer將此特征圖拆分為1 024個(gè)圖像塊,每個(gè)圖像塊的分辨率大小為1×1。Transformer編碼器的結(jié)構(gòu)與原始Transformer編碼器[12]保持一致,經(jīng)其特征提取后,將輸出的一維序列信號恢復(fù)成二維圖像。之后,將局部特征信息和全局特征信息通過由Conv-BNGELU序列構(gòu)建的特征融合單元進(jìn)行融合,在保證整個(gè)模塊輸出特征圖通道數(shù)目與輸入特征圖通道數(shù)目一致的同時(shí),進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。最后,通過長距離跳躍連接將輸入特征圖與融合特征圖疊加后輸出。長距離跳躍連接一方面可以避免反向傳播過程中的梯度消失問題,加速訓(xùn)練過程中網(wǎng)絡(luò)模型的收斂;另一方面可以使主干網(wǎng)絡(luò)更加專注于有價(jià)值特征信息的提取和學(xué)習(xí),而將價(jià)值量較低或不太重要的特征信息通過旁路向后傳遞。值得指出的是,全局和局部特征融合模塊不改變輸入特征圖的寬度、高度和通道數(shù)目,因此可以在不改變其他網(wǎng)絡(luò)主體結(jié)構(gòu)的前提下,靈活嵌入移植到其他網(wǎng)絡(luò)模型中,進(jìn)而提高網(wǎng)絡(luò)的特征提取和表達(dá)能力。
為了進(jìn)一步聚合圖像的全局特征信息,在最終輸出復(fù)原圖像前,設(shè)計(jì)了包含多尺度圖像塊的增強(qiáng)模塊,利用Transformer豐富復(fù)原圖像的細(xì)節(jié)信息。增強(qiáng)模塊的整體架構(gòu)如下圖4所示,其中“concat”表示特征圖連接操作。
圖4 增強(qiáng)模塊示意圖Fig.4 Framework of enhancer
如圖4所示,首先將輸入的特征圖依次拆分成分辨率大小為4×4,8×8和16×16的圖像塊,由于特征圖的分辨率大小為256×256,因此拆分后的圖像塊數(shù)目分別為4 096,1 024和256。多尺度圖像塊包含了多尺度圖像特征信息,有助于網(wǎng)絡(luò)在不同尺度上恢復(fù)圖像的細(xì)節(jié)、紋理等信息。接著,利用卷積操作對圖像塊進(jìn)行壓縮,依次將圖像塊通道數(shù)目壓縮成16,64和256,并將圖像塊展平成一維序列后,分別輸入到Transformer中進(jìn)行全局特征提取,此處的Transformer與上一小節(jié)的全局特征提取分支一致。特征提取后,將一維序列信號重新恢復(fù)成二維特征圖,特征圖的通道數(shù)目分別為16,64和256,分辨率大小分別為64×64,32×32和16×16。然后,利用pixel shuffle層[25]分別對特征圖進(jìn)行4倍、8倍和16倍上采樣操作,依次得到三個(gè)通道數(shù)目為1,分辨率為256×256的特征圖。霧氣在圖像中往往是非均勻分布的,此特征圖可以有效地實(shí)現(xiàn)圖像的空間注意力機(jī)制[27],即允許網(wǎng)絡(luò)選擇性地學(xué)習(xí)價(jià)值量較大的像素區(qū)域,如濃霧區(qū)域、邊緣區(qū)域等,而減少對價(jià)值較低像素區(qū)域的學(xué)習(xí),如無霧區(qū)域、平坦區(qū)域等,進(jìn)而高效地利用網(wǎng)絡(luò)資源,提高特征學(xué)習(xí)和表達(dá)能力。之后,將此特征圖自適應(yīng)學(xué)習(xí)到的權(quán)重值與輸入特征圖進(jìn)行逐像素點(diǎn)乘,并進(jìn)行特征層連接。最后,通過3×3卷積操作進(jìn)行特征融合和通道數(shù)目降維,以保持輸出特征圖通道數(shù)目與輸入特征圖通道數(shù)目一致。
Transformer的自注意力機(jī)制有一個(gè)天然的缺陷,即它無法捕獲輸入圖像塊序列的位置信息。但對于圖像復(fù)原任務(wù)來說,保留圖像的二維空間位置信息對復(fù)原結(jié)果至關(guān)重要。因此,在圖像塊序列輸入到Transformer編碼器前,需要將每個(gè)圖像塊的位置信息進(jìn)行編碼,并與其對應(yīng)的特征向量疊加后一起輸入到編碼器中。
傳統(tǒng)的位置編碼方式,主要包括固定位置編碼[12]、相對位置編碼[15]、可學(xué)習(xí)位置編碼[14]等。這些編碼方法往往都是事先定義好的,且編碼方式基本與圖像內(nèi)容無關(guān)。Chu等[26]提出了一種基于圖像內(nèi)容的動態(tài)位置編碼生成器,可根據(jù)圖像局部區(qū)域內(nèi)的內(nèi)容信息自適應(yīng)地生成位置編碼,如圖5(a)所示。具體實(shí)現(xiàn)過程如下:首先將一維序列恢復(fù)成二維特征圖,再利用3×3卷積操作生成局部位置編碼特征圖,接著將此特征圖拆分成一維序列與原始輸入序列進(jìn)行疊加后輸入到Transformer編碼器中,其中卷積操作時(shí)采用邊緣零填充的方式,一方面保證了輸出特征圖與輸入特征圖分辨率大小一致,另一方面提供了特征圖內(nèi)每個(gè)像素點(diǎn)的絕對位置信息。該編碼方式同時(shí)提供了像素間的相對位置信息和絕對位置信息,并有效地結(jié)合圖像局部區(qū)域內(nèi)的內(nèi)容信息生成位置編碼,顯著地提升了Transformer在各領(lǐng)域中不同任務(wù)的性能[26]。
圖5 位置編碼生成器示意圖Fig.5 Framework of the positional encoding generator
上述位置編碼生成器采用3×3卷積操作生成位置編碼特征圖,特征圖中每個(gè)像素點(diǎn)的所對應(yīng)的感受野較小,且編碼方式無法對長距離像素點(diǎn)間的依賴關(guān)系進(jìn)行建模。在實(shí)際應(yīng)用場景中,霧氣在圖像中往往是成片出現(xiàn)的,因此更大的感受野對圖像復(fù)原過程可以提供更多的參考和指導(dǎo)。基于此,提出了全局位置編碼生成器,如圖5(b)所示,其中“Linear”表示線性操作。針對局部編碼生成器生成的特征圖,先通過1×1卷積操作對特征圖進(jìn)行降維,生成通道數(shù)為1的特征圖。接著,將特征圖展平成一維序列,并對其進(jìn)行全連接操作,以使得特征圖中所有的像素點(diǎn)均具有全局的感受野。然后,將一維序列恢復(fù)成二維特征圖,并將該特征圖與局部編碼生成器生成的特征圖進(jìn)行逐像素點(diǎn)乘后輸出。該編碼方式提供了特征圖中任意兩像素點(diǎn)間的相對位置關(guān)系,可自適應(yīng)地根據(jù)全局圖像內(nèi)容信息生成位置編碼,相較而言提供了更大的感受野,有助于提升圖像整體復(fù)原效果。
判別器的目標(biāo)是準(zhǔn)確分辨出生成器復(fù)原出的樣本圖像和真實(shí)樣本圖像。本文采用了全卷積神經(jīng)網(wǎng)絡(luò)PatchGAN[23],網(wǎng)絡(luò)輸出一個(gè)判別矩陣。矩陣中每個(gè)像素點(diǎn)代表了原始圖像中某個(gè)圖像塊是復(fù)原樣本或真實(shí)樣本的概率,因此其可以充分考慮圖像中不同區(qū)域?qū)ε袆e結(jié)果的影響,使得生成器在訓(xùn)練的過程更加專注于復(fù)原圖像的細(xì)節(jié)、紋理等信息,并且有助于減少復(fù)原圖像偽影。最終,計(jì)算矩陣中所有元素的均值進(jìn)行輸出。
條件式生成對抗網(wǎng)絡(luò)的損失函數(shù)在數(shù)學(xué)上可以表示為[16]:
其中:x表示輸入有霧圖像,y表示與之對應(yīng)的清晰無霧圖像,z表示噪聲信號。生成器G的目標(biāo)是最小化該損失函數(shù),而判別器D的目標(biāo)是最大化該損失函數(shù)。在網(wǎng)絡(luò)訓(xùn)練和推理時(shí),都以dropout的形式替代噪聲信號[23]。
相關(guān)研究表明將上述對抗損失函數(shù)與L1損失函數(shù)混合使用有助于減少復(fù)原圖像偽影及顏色失真現(xiàn)象[23]。L1損失函數(shù)可以從像素級層面保證復(fù)原圖像與真實(shí)圖像的一致性。L1損失函數(shù)在數(shù)學(xué)上可以表示為:
同時(shí),將感知損失考慮在內(nèi),在特征空間中對復(fù)原圖像和真實(shí)圖像進(jìn)行比較,與像素空間形成互補(bǔ)。為了度量特征空間中的感知相似度,提取出了預(yù)訓(xùn)練VGG16模型[28]中的第2特征層和第5特征層中的特征信息,并將感知損失表示為:
其中,ξ表示預(yù)訓(xùn)練VGG16模型的特征提取器。
將三者進(jìn)行結(jié)合,總的損失函數(shù)可以表示為:
其中,λ1和λ2均為權(quán)衡參數(shù)。
本節(jié)中,分別在公開的合成圖像數(shù)據(jù)集和真實(shí)圖像數(shù)據(jù)集上驗(yàn)證所提出全局和局部特征融合去霧網(wǎng)絡(luò)的去霧效果。將所提去霧網(wǎng)絡(luò)與下述經(jīng)典的去霧算法進(jìn)行對比,包括:DCP(Dark Channel Prior)[4],CAP(Color Attenuation Prior)[6],AODNet(All-in-One Dehazing Network)[8],EPDN(Enhanced Pix2pix Dehazing Network)[29],pix2pix[23],F(xiàn)FA-Net(Feature Fusion Attention Network)[30]和LD-Net(Light-DehazeNet)[31]。同時(shí),設(shè)計(jì)了消融實(shí)驗(yàn)來驗(yàn)證所提出增強(qiáng)模塊和位置編碼生成器的有效性。
合成圖像數(shù)據(jù)集選擇RESIDE(Realistic Single Image Dehazing)數(shù)據(jù)集[32],該數(shù)據(jù)集主要基于大氣散射模型,隨機(jī)設(shè)定大氣光參數(shù)和環(huán)境散射系數(shù),針對每張清晰無霧圖像合成多張有霧圖像。模型參數(shù)訓(xùn)練時(shí),從OTS(Outdoor Training Set)集合中隨機(jī)選取4 000張成對的有霧與無霧圖像用于訓(xùn)練。測試時(shí),從SOTS(Synthetic Objective Testing Set)集合中隨機(jī)選取600張成對的有霧與無霧圖像用于分析和比較。
真實(shí)圖像數(shù)據(jù)集選擇近些年CVPR NTIRE去霧挑戰(zhàn)賽[33-35]中公開的數(shù)據(jù)集O-HAZE[36],DENSE-HAZE[37]和NH-HAZE[38]。三個(gè)數(shù)據(jù)集分別包含了45對戶外有霧場景圖像、55對濃霧場景圖像和55對非均勻分布有霧場景圖像。這些圖像都是通過專業(yè)的煙霧生成器,在戶外模擬不同程度的真實(shí)有霧場景抓拍生成的。在這155對圖像中,隨機(jī)選擇140對圖像用于訓(xùn)練,剩下15對用于測試。
基于PyTorch框架,去霧網(wǎng)絡(luò)的訓(xùn)練和測試階段均在NVIDIA GEFORCE RTX 3090 TI GPU上運(yùn)行。所有圖像在輸入進(jìn)網(wǎng)絡(luò)前均被調(diào)整為256×256大小的分辨率,同時(shí)訓(xùn)練過程中使用了ADAM優(yōu)化器。網(wǎng)絡(luò)的整體訓(xùn)練過程共計(jì)400次迭代,其中前200次迭代時(shí)學(xué)習(xí)率固定為0.000 1,后200次迭代學(xué)習(xí)率逐漸從0.000 1線性衰減為0。參照pix2pix模型[23],權(quán)衡參數(shù)λ1和λ2分別取100和50。每張圖像在RTX 3090 TI GPU上的平均運(yùn)行時(shí)間為0.096 s。
客觀評價(jià)指標(biāo)采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity Index Measurement,SSIM)。不同去霧算法的客觀評價(jià)結(jié)果如表2所示,視覺對比效果如圖6所示。從表2中可以看出所提出的全局和局部特征融合去霧網(wǎng)絡(luò)實(shí)現(xiàn)了最優(yōu)的PSNR和SSIM指標(biāo),相較于FFA-Net分別提升了2.063 7 dB的PSNR和0.018 7的SSIM。從圖6中可以發(fā)現(xiàn),DCP和CAP算法在天空區(qū)域處理效果不佳,易出現(xiàn)顏色畸變;AODNet網(wǎng)絡(luò)去霧效果不明顯,復(fù)原圖像中仍存在著較多霧氣區(qū)域;EPDN網(wǎng)絡(luò)生成的圖像有時(shí)與真實(shí)清晰圖像存在一定的色差;pix2pix算法復(fù)原的圖像有時(shí)存在一定的偽影現(xiàn)象;FFA-Net重建的圖像有時(shí)存在部分細(xì)節(jié)不清晰;LD-Net復(fù)原出的圖像有時(shí)會出現(xiàn)顏色失真問題。與上述算法相比,所提去霧網(wǎng)絡(luò)復(fù)原出了視覺效果更好的清晰無霧圖像,并且有效地保留了原始圖像中的色彩和紋理信息。
表2 合成圖像數(shù)據(jù)集的客觀評價(jià)結(jié)果Tab.2 Objective evaluation results on synthetic image datasets
圖6 合成圖像數(shù)據(jù)集的視覺對比效果Fig.6 Visual contrast effect on synthetic image datasets
不同去霧算法在真實(shí)圖像數(shù)據(jù)集上的客觀評價(jià)結(jié)果如表3所示,視覺對比效果如圖7所示。從中可以看出CAP和AODNet算法的去霧效果并不明顯,復(fù)原圖像中仍存在著大量霧氣;DCP取得了一定程度上的去霧效果,但復(fù)原圖像有時(shí)顏色相對較暗;EPDN有效地去除了圖像中的霧霾,但也造成了顏色失真;pix2pix和FFA-Net保留了圖像的細(xì)節(jié)和紋理等信息,但去霧效果不夠徹底;LD-Net在此類圖像上的去霧效果表現(xiàn)不佳。與上述算法相比,所提出的全局和局部特征融合去霧網(wǎng)絡(luò)展示出了較好的去霧效果,圖像色彩還原度高,紋理也更加清晰,同時(shí)也取得了最優(yōu)的PSNR和SSIM指標(biāo)。雖然部分圖像的還原細(xì)節(jié)有些模糊,但網(wǎng)絡(luò)也展現(xiàn)出了較優(yōu)的性能和較大的潛力。
表3 真實(shí)圖像數(shù)據(jù)集的客觀評價(jià)結(jié)果Tab.3 Objective evaluation results on real image datasets
圖7 真實(shí)圖像數(shù)據(jù)集的視覺對比效果Fig.7 Visual contrast effect on real image datasets
為了進(jìn)一步比較不同去霧算法的視覺效果,本文將去霧網(wǎng)絡(luò)在真實(shí)戶外有霧圖像數(shù)據(jù)中進(jìn)行了測試,視覺對比效果如圖8所示。從圖中可以看出,DCP和CAP在去霧的同時(shí),會給復(fù)原圖像帶來一定的顏色失真問題。AODNet的去霧效果并不明顯,復(fù)原圖像中仍存在著較大霧氣。EPDN恢復(fù)的圖像在某些區(qū)域中較為模糊。pix2pix實(shí)現(xiàn)了一定的去霧效果,但去霧后圖像的細(xì)節(jié)和紋理不夠清晰。FFA-Net的去霧效果仍然不夠理想,LD-Net有時(shí)也無法完全去除圖像中的霧霾。相較而言,所提去霧網(wǎng)絡(luò)復(fù)原的圖像更加真實(shí)和自然,色彩失真較少,圖像細(xì)節(jié)和紋理也更加清晰。
圖8 真實(shí)戶外有霧圖像的視覺對比效果Fig.8 Visual contrast effect on real outdoor hazy images
為了驗(yàn)證所提出位置編碼生成器和增強(qiáng)模塊的有效性,設(shè)計(jì)了兩類消融實(shí)驗(yàn)進(jìn)行測試。針對位置編碼方法,對比了6種不同的編碼方式,分別為:(1)全局位置編碼生成器;(2)局部位置編碼生成器[26];(3)固定位置編碼[12];(4)相對位置編碼[15];(5)可學(xué)習(xí)位置編碼[14];(6)無位置編碼。6種編碼方式在合成圖像數(shù)據(jù)集和真實(shí)圖像數(shù)據(jù)集的客觀評價(jià)結(jié)果如表4所示。從中可以看出,通過位置編碼保留圖像的二維空間位置信息,對圖像復(fù)原結(jié)果至關(guān)重要。同時(shí),僅提供相對位置編碼信息是不夠的,只有包含了絕對位置編碼信息,才能實(shí)現(xiàn)較好的復(fù)原效果。所提出的位置編碼生成器同時(shí)提供了像素點(diǎn)間的相對位置信息和絕對位置信息,并有效地結(jié)合了圖像全局內(nèi)容信息生成位置編碼,實(shí)現(xiàn)了最優(yōu)的PSNR和SSIM指標(biāo)。
表4 不同位置編碼方式的客觀評價(jià)結(jié)果Tab.4 Objective evaluation results of different positional encoding methods
為了驗(yàn)證增強(qiáng)模塊的有效性,分別對包含增強(qiáng)模塊和不包含增強(qiáng)模塊的情況進(jìn)行了測試,對比結(jié)果如表5所示。從中可以看出,增強(qiáng)模塊利用包含多尺度圖像塊的Transformer進(jìn)一步融合了圖像全局特征信息,通過較大的感受野,有效地提升了復(fù)原圖像的質(zhì)量。
表5 增強(qiáng)模塊的客觀評價(jià)結(jié)果Tab.5 Objective evaluation results of the enhancer
本文克服了現(xiàn)有卷積操作表達(dá)方法的不足,提出了全局和局部特征融合去霧網(wǎng)絡(luò)。分別利用Transformer和卷積操作提取圖像全局和局部特征信息,發(fā)揮各自建模長距離依賴關(guān)系和局部感知特性的優(yōu)勢,實(shí)現(xiàn)了特征的高效表達(dá)。同時(shí),設(shè)計(jì)了包含多尺度圖像塊的增強(qiáng)模塊,利用Transformer進(jìn)一步聚合全局特征信息,豐富復(fù)原圖像細(xì)節(jié)。最后,提出了一個(gè)全局位置編碼生成器,自適應(yīng)地根據(jù)全局圖像內(nèi)容信息生成位置編碼。實(shí)驗(yàn)結(jié)果表明:所提去霧網(wǎng)絡(luò)展現(xiàn)出了較好的去霧性能,在合成圖像數(shù)據(jù)集上可達(dá)到33.190 2 dB的PSNR和0.977 0的SSIM指標(biāo),在真實(shí)圖像數(shù)據(jù)集上可達(dá)到19.315 5 dB的PSNR和0.747 8的SSIM指標(biāo),復(fù)原圖像更加真實(shí),細(xì)節(jié)還原度高。