徐國(guó)明,王杰,馬健,2,王勇,劉佳慶,李毅
(1 安徽大學(xué) 互聯(lián)網(wǎng)學(xué)院,合肥 230039)
(2 安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心,合肥 230601)
(3 陸軍炮兵防空兵學(xué)院偏振光成像探測(cè)技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,合肥 230031)
(4 安徽文達(dá)信息工程學(xué)院 智能技術(shù)研究所,合肥 231201)
在偏振成像探測(cè)中,氣溶膠或者探測(cè)目標(biāo)的物理屬性差異和變化由偏振特性來表征,高維度的偏振特性能有效提高目標(biāo)與背景的對(duì)比度,從而為實(shí)現(xiàn)目標(biāo)空間結(jié)構(gòu)的反演奠定基礎(chǔ),并能夠在雜亂的背景中增強(qiáng)對(duì)目標(biāo)的識(shí)別效果[1]。這些特性使得偏振成像探測(cè)被廣泛應(yīng)用于目標(biāo)識(shí)別與跟蹤、機(jī)器視覺、地理信息分析、遙感圖像處理等領(lǐng)域[2]。空間調(diào)制型全偏振成像技術(shù)是繼傳統(tǒng)的分時(shí)和同時(shí)偏振成像技術(shù)后發(fā)展起來的新體制偏振成像技術(shù)[3]。曹奇志等[4]提出了基于改進(jìn)型Savart 偏光鏡的微型快拍成像測(cè)偏技術(shù)。楊敏等[5]利用單像元非均勻性差分圖像校正方法和迭代排序方式,設(shè)計(jì)了面向運(yùn)動(dòng)目標(biāo)探測(cè)的分時(shí)型紅外偏振成像系統(tǒng)。在實(shí)際應(yīng)用中,由于受成像距離遠(yuǎn)及大氣擾動(dòng)的影響使得投影在焦平面上圖像的極限分辨率嚴(yán)重下降[6](遠(yuǎn)小于光學(xué)系統(tǒng)衍射極限分辨率),從而造成獲得的偏振圖像空間分辨率較低,而高分辨率的圖像對(duì)目標(biāo)探測(cè)精度具有重要的意義和價(jià)值。另一方面,圖像的空間分辨率受限于探測(cè)器像元數(shù)目,為此,在不替換硬件成像系統(tǒng)的情況下,通常采用超分辨率(Super-resolution Reconstruction,SR)方法,通過利用信息融合和信號(hào)處理技術(shù)來提高圖像的采樣頻率[7],從而獲取高于成像系統(tǒng)的高分辨率圖像。該方法是圖像處理和實(shí)際工程應(yīng)用中常用的技術(shù)手段,也是底層計(jì)算機(jī)視覺的熱點(diǎn)研究問題。
圖像超分辨率重建是指采用圖像處理和機(jī)器學(xué)習(xí)技術(shù),從同一場(chǎng)景中已有的一張或多張低分辨率(Low-Resolution,LR)圖像構(gòu)建高分辨率(High-Resolution,HR)圖像的技術(shù)[8]。徐國(guó)明等[9]針對(duì)空間調(diào)制型全偏振計(jì)算成像系統(tǒng),提出基于場(chǎng)景特征遷移學(xué)習(xí)的超分辨率方法。孟祥超等[10]基于我國(guó)2018年5月發(fā)射的高分五號(hào)衛(wèi)星上搭載的多角度偏振成像儀展開研究,通過融合HR 的全色影像和LR 的高光譜影像,重建得到同時(shí)具有高空間分辨率和高光譜分辨率的遙感影像。近年來,基于學(xué)習(xí)[11-12]的圖像超分辨率重建方法因?yàn)榱己玫男阅芏艿綇V泛關(guān)注。DONG C 等[13]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率(Superresolution Convolutional Neural Network,SRCNN),但其網(wǎng)絡(luò)層次太淺,無法充分提取圖像特征。DONG C等[14]進(jìn)一步提出了一種快速的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)(Accelerating the Super-resolution Convolutional Neural Network,F(xiàn)SRCNN)。該網(wǎng)絡(luò)選擇相比SRCNN 中更小尺寸的濾波器,增加更多的映射層并在網(wǎng)絡(luò)的最后引入了反卷積層。LIM B 等[15]通過使用簡(jiǎn)化的殘差塊,建立了一個(gè)非常寬的增強(qiáng)深度超分辨率網(wǎng)絡(luò)(Enhanced Deep residual Network Super-resolution,EDSR)。注意力機(jī)制在底層計(jì)算機(jī)視覺問題中表現(xiàn)出了顯著的性能[16-18]。HU J 等[19]提出了通道注意力塊可以提高網(wǎng)絡(luò)的分辨能力,不同的特征通道自適應(yīng)地賦予不同的權(quán)值,使網(wǎng)絡(luò)集中于更有信息量的特征。LIU J 等[20]提出了一個(gè)新的殘差特征聚合框架,結(jié)合增強(qiáng)的空間注意力塊,更有效地提取圖像特征。
上述方法直接應(yīng)用于實(shí)際偏振成像系統(tǒng)的圖像超分辨率,無法充分考慮偏振成像特性,偏振圖像的先驗(yàn)信息不能有效表達(dá),從而導(dǎo)致模型的性能有限。這些方法忽略了跨特征通道區(qū)分的學(xué)習(xí)能力、未能充分利用殘留特征以及缺失關(guān)鍵位置的特征提取,從而導(dǎo)致性能下降。偏振圖像超分辨率難以產(chǎn)生紋理細(xì)膩、邊緣清晰的細(xì)節(jié)信息。針對(duì)該問題,本文提出了一種雙重注意力殘差網(wǎng)絡(luò)(Dual Attention Residual Network,DARN)模型。DARN 網(wǎng)絡(luò)結(jié)構(gòu)由一個(gè)具有全局跳躍連接的殘差網(wǎng)絡(luò)組成,實(shí)現(xiàn)底層網(wǎng)絡(luò)與頂層網(wǎng)絡(luò)的連接,以穩(wěn)定深層網(wǎng)絡(luò)的訓(xùn)練。其中殘差網(wǎng)絡(luò)又包含若干殘差組,每個(gè)殘差組包含若干具有局部跳躍連接的雙重注意力塊級(jí)聯(lián)的殘差塊,可以充分利用特征通道之間的相關(guān)性,同時(shí)將殘差的特征集中在關(guān)鍵的空間內(nèi)容上。網(wǎng)絡(luò)末端的上采樣模塊采用亞像素卷積層來重建高分辨率圖像。
經(jīng)典的卷積層或全連接層在信息傳遞時(shí),會(huì)存在信息丟失、損耗等問題。殘差網(wǎng)絡(luò)[21](Residual Network,ResNet)在某種程度上解決了這個(gè)問題,通過直接將輸入信息繞道傳到輸出,保護(hù)信息的完整性。整個(gè)網(wǎng)絡(luò)只需要學(xué)習(xí)輸入、輸出差別的那一部分,簡(jiǎn)化學(xué)習(xí)目標(biāo)和難度。殘差塊(Residual Block,RB)基于前饋卷積網(wǎng)絡(luò)與一個(gè)恒等跳躍連接構(gòu)成,如圖1 所示。在形式上,用H(x)表示所期望得到的實(shí)際映射,堆疊的非線性多層網(wǎng)絡(luò)去擬合另一個(gè)殘差映射函數(shù)F(x),x為第i層殘差塊的輸入,實(shí)際的映射關(guān)系可表示為
圖1 殘差塊的基本單元Fig.1 Basic structure of residual block
殘差單元通過恒等映射的引入在輸入和輸出之間建立了一條直接的關(guān)聯(lián)通道,從而使得強(qiáng)大的有參層集中學(xué)習(xí)輸入和輸出之間的殘差。殘差網(wǎng)絡(luò)更容易優(yōu)化,并且能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率。深度殘差網(wǎng)絡(luò)解決了網(wǎng)絡(luò)結(jié)構(gòu)增加深度帶來的退化問題,能夠通過單純地增加網(wǎng)絡(luò)深度[22],來提高網(wǎng)絡(luò)性能。本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)基于深度殘差網(wǎng)絡(luò)。
通道注意力機(jī)制被視為一種引導(dǎo),使可用的處理資源的分配偏向于輸入的最有信息量的部分[19]。以往基于CNN 的圖像超分辨率方法平等地對(duì)待低分辨率圖像通道特征。為了使網(wǎng)絡(luò)集中于更有信息量的特征,可以利用特征通道之間的相關(guān)性,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2 所示。通過使用全局平均池化層將輸入特征的通道全局空間信息變換成通道描述符。
圖2 通道注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of channel attention mechanism
在圖2 網(wǎng)絡(luò)結(jié)構(gòu)中,設(shè)置X=[x1,…,xi,…,xc]為輸入,具有大小為H×W的c個(gè)特征映射,其中Conv表示卷積層的功能,?表示Hadamard 相乘[23],ReLU 與sigmoid 分別代表神經(jīng)網(wǎng)絡(luò)不同的激活函數(shù)[24]。通過將X的空間維度H×W收縮,可以得到通道統(tǒng)計(jì)∈zRc。z的第c個(gè)元素的關(guān)系表達(dá)式為
式中,xc(i,j)表示第c個(gè)特征映射xc在位置(i,j)處的通道特征值,HGP(?)表示全局池化功能。這種通道統(tǒng)計(jì)看作是局部描述符的集合,其統(tǒng)計(jì)有助于表達(dá)整個(gè)圖像。
通過全局平均池化層后從聚合信息中完全捕獲通道的關(guān)聯(lián)性,引入sigmoid 函數(shù)作為簡(jiǎn)單門控機(jī)制。這種機(jī)制學(xué)習(xí)通道間的非線性相互作用并可以強(qiáng)調(diào)多通道特性。非線性相互作用關(guān)系可表示為
式中,f(?)和δ(?)分別表示sigmoid 門控和ReLU 函數(shù)功能。wD是卷積層的權(quán)重,作用是減少通道數(shù)目,比率為r。經(jīng)過ReLU 函數(shù)激活后,低維特征映射再通過卷積層,通道數(shù)以比率r增加,其權(quán)重為wU。最終獲得通道統(tǒng)計(jì)量s,重新縮放輸入xc。通道注意力機(jī)制的特征表征通過原輸入特征映射xc與第c個(gè)通道縮放描述符sc逐通道Hadamard 相乘,可表示為
考慮到低分辨率圖像的輸入和特征包含豐富的低頻信息,在不同通道中被同等對(duì)待,缺乏跨特征通道的區(qū)分學(xué)習(xí)能力,并阻礙了深層網(wǎng)絡(luò)的表征能力。本文方法基于深度殘差網(wǎng)絡(luò)結(jié)構(gòu),加入了通道注意力機(jī)制。
空間注意力機(jī)制在深層網(wǎng)絡(luò)中廣泛存在,但對(duì)空間注意力機(jī)制的分析相對(duì)較少。相關(guān)方向主要是通過可視化或分析整個(gè)注意力模塊在圖像處理中的學(xué)習(xí)注意力權(quán)重來進(jìn)行研究。以往的工作表明,編碼器-解碼器注意力模塊中的注意力權(quán)重分配起著類似于傳統(tǒng)方法中特征配對(duì)的作用。給定一個(gè)目標(biāo)特征和一組關(guān)鍵特征,注意力函數(shù)衡量目標(biāo)特征與關(guān)鍵特征配對(duì)的相關(guān)性得出注意力權(quán)重然后自適應(yīng)地聚合關(guān)鍵內(nèi)容。為了使模型能夠關(guān)注來自不同表示子空間和不同位置的關(guān)鍵內(nèi)容,多個(gè)注意函數(shù)的輸出被線性地聚集成可學(xué)習(xí)的權(quán)重。假定q表示一個(gè)目標(biāo)特征,其內(nèi)容表示為Zq,k表示一個(gè)關(guān)鍵特征,其內(nèi)容表示為xk。多個(gè)注意力函數(shù)的輸出特征yq,可表示為
式中,m表示第m個(gè)注意力函數(shù),Ωq表示目標(biāo)特征關(guān)鍵區(qū)域,Am(q,k,Zq,xk)表示第m個(gè)注意力函數(shù)中的注意力權(quán)重。Wm和W′m表示可學(xué)習(xí)權(quán)重。通常,注意力權(quán)重在Ωq內(nèi)歸一化,即
設(shè)計(jì)空間注意力網(wǎng)絡(luò)結(jié)構(gòu)[20]時(shí),考慮到以下因素:1)注意力塊必須足夠輕,因?yàn)樗鼘⒈徊迦氲骄W(wǎng)絡(luò)的每個(gè)殘差模塊中;2)注意力塊需要一個(gè)大的感受野才能很好地完成圖像超分辨率的任務(wù)?;诖耍O(shè)計(jì)注意力機(jī)制網(wǎng)絡(luò)如圖3 所示,輸入的圖像特征映射通過一個(gè)卷積核大小為1×1 的卷積層,降低通道維度,整個(gè)殘差塊結(jié)構(gòu)輕量化。同時(shí),使用跳過連接將空間降維前的高分辨率特征直接連接到空間注意力塊的末端。然后輸入特征通過一個(gè)步長(zhǎng)為2 的卷積層,擴(kuò)大感受野。使用最大池化層將輸入特征的全局空間信息變換成空間描述符。常規(guī)的卷積核大小為2×2 的最大池化層帶來的感受野擴(kuò)大有限,引入了具有更大窗口的卷積核大小為7×7 的卷積層和步長(zhǎng)為3 的最大池化層。通過增加上采樣層恢復(fù)輸入特征的空間維度,并且使用大小為1×1 的卷積核來恢復(fù)通道維度。最后,引入sigmoid 函數(shù)作為簡(jiǎn)單門控機(jī)制??臻g注意力機(jī)制的特征表征通過原輸入特征映射與空間縮放描述符對(duì)應(yīng)Hadamard 相乘。
圖3 空間注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Spatial attention mechanism network structure
DARN 方法主要由淺層特征提取模塊、殘差中深層特征提取模塊、特征映射模塊和重建模塊四個(gè)部分組成。
圖4 所示為設(shè)計(jì)的深度殘差雙重注意力網(wǎng)絡(luò)基本結(jié)構(gòu),用ILR和ISR分別表示DARN 網(wǎng)絡(luò)的輸入和輸出的偏振圖像。從ILR的輸入中提取淺層特征F0,使用一個(gè)卷積核大小為3×3 的卷積層完成淺層特征獲取。該過程可表示為
圖4 深度殘差雙重注意力網(wǎng)絡(luò)基本結(jié)構(gòu)Fig.4 Network architecture of dual attention deep residual network
式中,H(?)表示卷積層(Conv)的淺層特征提取功能。
將提取的特征F0發(fā)送到主干模塊進(jìn)行殘差中深度特征學(xué)習(xí)。主干模塊由G個(gè)基礎(chǔ)模塊(Base Modules,BM)的殘差組網(wǎng)絡(luò)構(gòu)成。其中深度特征F1的學(xué)習(xí)過程可表示為
式中,BR表示網(wǎng)絡(luò)結(jié)構(gòu)中全局殘差塊包含的非常深的殘差組功能。它包含基礎(chǔ)模塊BM 和全局跳躍連接(Global Skip Connection,GSC)。如圖5 所示,每個(gè)基礎(chǔ)模塊BM 還包含局部跳躍連接(Local Skip Connection,LSC)和B 個(gè)通道注意力機(jī)制(Channel Attention Mechanism,CA)與空間注意力機(jī)制(Spatial Attention Mechanism,SA)級(jí)聯(lián)的殘差塊(Dual Attention Residual Block,DARB)。提取的深度特征經(jīng)過一個(gè)卷積核大小為3×3 的卷積層(Conv)再通過殘差結(jié)構(gòu)與淺層特征F0逐像素相加。此時(shí)非線性特征映射F2可表示為
圖5 基礎(chǔ)模塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of base modules
上采樣部分通??蛇x擇反卷積(也稱轉(zhuǎn)置卷積)、最近鄰上采樣卷積和亞像素卷積[25](Efficient Subpixel Convolutional Neural Network,ESPCN)的方法。本文頂層網(wǎng)絡(luò)使用亞像素卷積,這種網(wǎng)絡(luò)末端上采樣方法已經(jīng)被證明在計(jì)算復(fù)雜度方面更有效,并且比前端上采樣的SR 方法獲得更高的性能。最后,通過一個(gè)卷積核大小為3×3 的卷積層(Conv)重建放大的特征圖實(shí)現(xiàn)圖像的超分辨率。重建過程可表示為
式中,ISR表示超分辨率圖像,HRE(?)表示重構(gòu)函數(shù),f(?)表示超分辨率網(wǎng)絡(luò)的函數(shù)。F′2表示F2經(jīng)過上采樣后的輸出特征。
在圖像超分辨率中,通過堆疊RB 構(gòu)建深層網(wǎng)絡(luò)會(huì)遭受訓(xùn)練困難,并且很難獲得更多的性能增益。受EDSR[15]的啟發(fā),使用殘差組作為更深層次網(wǎng)絡(luò)的基本模塊,采用全局殘差學(xué)習(xí)來減輕訓(xùn)練難度。設(shè)第t個(gè)基礎(chǔ)模塊BM 的輸出深度特征為Ft,則Ft可表示為
式中,Bt表示網(wǎng)絡(luò)結(jié)構(gòu)中第t個(gè)基礎(chǔ)模塊BM 的殘差組函數(shù),F(xiàn)t與Ft-1分別表示第t個(gè)基礎(chǔ)模塊BM 的輸入特征映射和輸出特征映射,F(xiàn)0表示淺層特征。殘差塊堆疊在一起,形成SR 網(wǎng)絡(luò)的主干部分(如圖5)。在圖像重建任務(wù)中,殘差塊可以產(chǎn)生一些有用的分層特征,這些特征集中在原始圖像的不同方面。第一個(gè)殘差塊的特征必須經(jīng)過很長(zhǎng)的路徑并且重復(fù)加法和卷積運(yùn)算才能到達(dá)最后一個(gè)模塊。因此,殘差特征很難被充分利用,并且在整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)過程中起著非常局部的作用。為此,引入跳躍連接來實(shí)現(xiàn)底層網(wǎng)絡(luò)與頂層網(wǎng)絡(luò)的連接,提高深層網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,實(shí)現(xiàn)更好的性能。
若干個(gè)基礎(chǔ)模塊BM 和跳躍連接允許網(wǎng)絡(luò)的主干部分專注于LR 特征更具信息性的組成部分。每個(gè)基礎(chǔ)模塊BM 包含了LSC 和CA 與SA 級(jí)聯(lián)的殘差塊DARB。如圖6 所示,CA 提取通道間的通道統(tǒng)計(jì)量,使可用的處理資源的分配偏向于輸入的最有信息量的部分。為了最大化深度殘差通道注意力網(wǎng)絡(luò)框架的有效性,可與SA 結(jié)合使用。該結(jié)構(gòu)將殘差的特征集中在關(guān)鍵的空間內(nèi)容上,從而獲得更具代表性的特征,如圖7所示。第t個(gè)基礎(chǔ)模塊BM 的第b個(gè)DARB 輸出深度特征Ft,b可表示為
圖6 雙重注意力機(jī)制殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of dual attention residual block
圖7 空間注意力的網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Network structure of spatial attention block
式中,ηt,b(?)表示通道注意力機(jī)制的 功能 函數(shù),αt,b(?)表示空間注意力機(jī)制的功能函數(shù),F(xiàn)t,b-1與Ft,b分別表示殘差塊DARB 的輸入特征與輸出特征,Xt,b表示從輸入特征Ft,b-1中學(xué)習(xí)的殘差特征。
基于雙重注意力殘差塊(DARB)和全局殘差學(xué)習(xí)的結(jié)構(gòu)為高精度圖像SR 構(gòu)建一個(gè)DARN 深層網(wǎng)絡(luò),并實(shí)現(xiàn)性能改進(jìn)。
得到老師的表?yè)P(yáng)后,越來越多的孩子開始幫助小鵬。一天,我看到教室地上有個(gè)塑料瓶和一張廢紙片,就在我準(zhǔn)備彎腰的一剎那,一個(gè)學(xué)生搶先一步撿走了塑料瓶,然后對(duì)著小鵬喊:“小鵬,給你一個(gè)塑料瓶。”而地上的紙片卻一直無人問津。頓時(shí),我眼前一亮:如果紙片也能像塑料瓶一樣有人收集利用、變廢為寶的話,那些躺在地上的廢紙就不會(huì)無人理睬了,是不是也會(huì)像塑料瓶那樣被孩子們搶著撿呢?
常見的損失函數(shù)包括L2、L1、感知損失和對(duì)抗損失。為了驗(yàn)證深度殘差網(wǎng)絡(luò)DARN 的有效性,選擇與之前殘差網(wǎng)絡(luò)算法相同的L1損失函數(shù)對(duì)DARN 網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。設(shè)x為輸入LR 圖像,θ為待優(yōu)化的網(wǎng)絡(luò)參數(shù)集。目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù)f(·),用于生成高分辨率圖像y?=f(x;θ)。假設(shè)給定一組訓(xùn)練集,首先通過雙三次插值下采樣來縮放高清圖像HR,研究每個(gè)不同下采樣級(jí)別的數(shù)據(jù)集HR-LR 配對(duì)的映射關(guān)系。使用穩(wěn)定的L1損失函數(shù)來處理?yè)p失值,而不是最小化y和y?之間的均方誤差。訓(xùn)練DARN 網(wǎng)絡(luò)的目標(biāo)是最小化L損失函數(shù),損失函數(shù)可表示為
式中,f(?)表示超分辨率重建網(wǎng)絡(luò)的函數(shù),θ表示提出網(wǎng)絡(luò)的參數(shù)集和分別表示訓(xùn)練數(shù)據(jù)中第i個(gè)低分辨率圖像及與其對(duì)應(yīng)的真實(shí)高分辨率圖像,‖ ‖1為1 范數(shù),采用隨機(jī)梯度下降法優(yōu)化損失函數(shù)。
實(shí)驗(yàn)環(huán)境為:訓(xùn)練與測(cè)試圖像集采用處理器為Intel(R)Core(TM)i9-10900X CPU @ 3.70GHz,系統(tǒng)運(yùn)行內(nèi)存128 GB,GPU 顯卡為24 GB 顯存容量的NVIDIA Quadro RTX 6000 的服務(wù)器。訓(xùn)練軟件運(yùn)行環(huán)境為Python3.6,編程框架為Pytorch 0.4.1,搭建Cuda11.2 用于實(shí)驗(yàn)加速。測(cè)試評(píng)估樣本的軟件為Matlab R2019。
偏振圖像由自行研制的一套基于Savart 偏光鏡的空間調(diào)制型紅外與可見光雙通道偏振相機(jī),實(shí)現(xiàn)對(duì)目標(biāo)給定譜段下完整偏振狀態(tài)的快速測(cè)量采集,如圖8 所示??臻g調(diào)制器模塊由一對(duì)Savart 偏光鏡、一塊半波片和一塊偏振片組成。該成像系統(tǒng)采用Stokes 矢量的空間調(diào)制原理[9],同時(shí)將4 個(gè)Stokes 矢量(S0~S3)調(diào)制在同一幅圖像中,一次采集即可得到包含目標(biāo)4 個(gè)Stokes 矢量的調(diào)制信息,據(jù)此可以解析出多個(gè)偏振參量圖像。本實(shí)驗(yàn)采用470 幅自建的偏振圖像數(shù)據(jù)集以及公開數(shù)據(jù)集DIV2K(800 幅)進(jìn)行混合訓(xùn)練實(shí)驗(yàn)。再采用多組場(chǎng)景下采集的偏振圖像作為測(cè)試數(shù)據(jù)集。同時(shí)對(duì)訓(xùn)練圖像隨機(jī)旋轉(zhuǎn)90°、180°、270°,并水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)主要包括兩個(gè)部分:1)使用雙三次退化模型對(duì)偏振相機(jī)采集的高清訓(xùn)練樣本集進(jìn)行不同倍數(shù)的下采樣處理并添加噪聲和模糊,得到與之對(duì)應(yīng)的低分辨率圖像,完成網(wǎng)絡(luò)模型的訓(xùn)練,并與其他方法進(jìn)行測(cè)試對(duì)比以驗(yàn)證算法的有效性;2)將本文方法重建的圖像與偏振成像系統(tǒng)采集的高分辨率同一場(chǎng)景圖像進(jìn)行比較,為系統(tǒng)定標(biāo)校正提供數(shù)據(jù)參考。
圖8 光譜偏振相機(jī)Fig.8 Spectral polarization camera
實(shí)驗(yàn)通過定性分析、定量分析、與成像系統(tǒng)對(duì)比校正三個(gè)方面進(jìn)行評(píng)價(jià)。評(píng)價(jià)標(biāo)準(zhǔn)采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)在變換的YCbCr 空間[26]的Y 通道(亮度分量)上評(píng)估不同方法的超分辨率效果以及信息熵、清晰度指標(biāo)來評(píng)價(jià)圖像的質(zhì)量。
網(wǎng)絡(luò)結(jié)構(gòu)中,基礎(chǔ)模塊BM 的數(shù)量G設(shè)置為10。每個(gè)BM 模塊中,殘差塊DARB 的數(shù)量B設(shè)置為20,通道數(shù)設(shè)置為64。通道降維度和升維度卷積層的卷積核大小為1×1,其余所有卷積層的卷積核大小為3×3。網(wǎng)絡(luò)每個(gè)批次訓(xùn)練時(shí),提取16 張大小為48×48 的LR 樣本作為輸入,每600 個(gè)批次進(jìn)行一次測(cè)試。本文算法的模型由Adam optimizer[27]訓(xùn)練,其中一階矩估計(jì)的指數(shù)衰減速率β1= 0.9,二階矩估計(jì)的指數(shù)衰減速率β2= 0.999,一個(gè)很小的常數(shù)?= 10-8,網(wǎng)絡(luò)共迭代訓(xùn)練600 epoch。初始學(xué)習(xí)率為10-4,每訓(xùn)練200 epoch 以后(即,迭代1.2×105次)反向傳播迭代學(xué)習(xí)率衰減一半。
為測(cè)試本文方法的性能,選取一組植絨布圖像,如圖9 所示。實(shí)驗(yàn)使用PSNR 和SSIM 評(píng)價(jià)圖像的重建效果,PSNR 是基于對(duì)應(yīng)像素點(diǎn)間的誤差,其值越大說明重建質(zhì)量越好。SSIM 分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量圖像相似性,其值越高說明重建圖像與原始高清圖像越接近。將本文方法與Bicubic、SRCNN、FSRCNN、EDSR 方法進(jìn)行對(duì)照實(shí)驗(yàn),分別在縮放因子為2、3、4 時(shí)進(jìn)行重建,得到PSNR 值和SSIM 值如表1所示。
圖9 不同偏振方向植絨布圖像Fig.9 Different polarization direction of fabric image
表1 植絨布偏振圖像在不同算法下的指標(biāo)對(duì)比Table 1 Comparison of indicators of fabric image polarization by different algorithms
從表1 的實(shí)驗(yàn)數(shù)據(jù)可直觀看出,本文方法的客觀評(píng)價(jià)指標(biāo)顯著優(yōu)于其他方法。本文方法的參數(shù)量明顯比EDSR 方法少,同時(shí)實(shí)現(xiàn)了更高的性能,在模型大小和性能之間取得了更好的權(quán)衡。實(shí)驗(yàn)結(jié)果還表明,較深的網(wǎng)絡(luò)可能比較寬的網(wǎng)絡(luò)更容易獲得更好的性能。在縮放因子為2 時(shí),本文方法的PSNR 值相對(duì)Bicubic、SRCNN、FSRCNN、EDSR 方法平均分別提升4.894 dB、2.611 dB、2.413 dB、0.019 dB,SSIM 值平均分別提升0.033、0.011、0.009、0.000 3;在縮放因子為3 時(shí),PSNR 值平均分別提升3.896 dB、2.168 dB、2.224 dB、0.080 dB,SSIM 值平均分別提升0.054、0.023、0.023、0.001;在縮放因子為4時(shí),PSNR 值平均分別提升3.385 dB、2.004 dB、1.871 dB、0.073 dB,SSIM 值平均分別提升0.065、0.037、0.035、0.001。
為進(jìn)一步驗(yàn)證本文方法重建圖像的效果,從采集的偏振圖像中選擇兩張細(xì)節(jié)豐富、紋理清晰的圖像進(jìn)行測(cè)試。從各超分辨率算法放大2 倍后的重建圖像細(xì)節(jié)展示,直觀看出本文方法重建圖像具有較好的視覺效果,如圖10、11 所示。由圖中標(biāo)記區(qū)域的字母“UN”和飛機(jī)可以看出,Bicubic 方法重建的圖像出現(xiàn)模糊、振鈴效應(yīng)、紋理不清晰等問題,超分辨率效果有限;基于神經(jīng)網(wǎng)絡(luò)的方法SRCNN、FSRCNN 重建的圖像視覺上比較平滑,圖像銳度有所提升,但背景明顯被虛化,仍存在邊緣模糊、分辨率低等問題;深度網(wǎng)絡(luò)EDSR重建圖像進(jìn)一步提高圖像銳度、改善視覺效果,但圖像標(biāo)記區(qū)域出現(xiàn)了模糊偽影、圖像邊緣模糊等問題;本文算法重建圖像效果明顯優(yōu)于其他算法重建圖像,紋理細(xì)節(jié)更加清晰,圖10(f)中的字母“UN”和圖11(f)中的飛機(jī)機(jī)翼尾燈,都取得較好的效果,亮度均勻,接近原始的高清圖像。本文方法的客觀評(píng)價(jià)指標(biāo)PSNR 值與SSIM 值也均優(yōu)于其他方法。實(shí)驗(yàn)數(shù)據(jù)充分說明本文方法相比其他算法客觀評(píng)價(jià)指標(biāo)有所提高,視覺效果較好。
圖10 卡車縮放模型的不同方法重建效果Fig.10 Reconstruction effect of truck contraction model by different methods
圖11 飛機(jī)的不同方法重建效果Fig.11 Reconstruction effect of airplane image by different methods
全偏振成像系統(tǒng)通過調(diào)制解析獲取探測(cè)物體的光譜特征、特定空間特征以及反映目標(biāo)材質(zhì)的相關(guān)本征偏振信息。它從不同角度反映出場(chǎng)景以及探測(cè)目標(biāo)信息、目標(biāo)全偏振參量實(shí)現(xiàn)同步探測(cè)。為了進(jìn)一步體現(xiàn)本文算法的有效性并為系統(tǒng)定標(biāo)校正,選取清晰度高的石碑圖像通過調(diào)制解析得到原始的全偏振圖像解析結(jié)果作為實(shí)驗(yàn)的測(cè)試樣本。然后隨機(jī)選取若干張紋理豐富、細(xì)節(jié)復(fù)雜的全偏振解析圖像通過雙三次插值下采樣生成低分辨率解析圖像,再用訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行圖像超分辨率重建。實(shí)驗(yàn)使用PSNR 和SSIM 評(píng)價(jià)圖像的重建效果。
隨機(jī)選取了直升機(jī)對(duì)地觀測(cè)下的5 張細(xì)節(jié)、紋理清晰的合肥渡江戰(zhàn)役紀(jì)念碑的全偏振圖像解析圖構(gòu)成測(cè)試圖像集,如圖12 所示,分別為V 圖、Ey圖、S0圖、Q 圖、U 圖各一張。將本文方法與Bicubic、SRCNN、FSRCNN、EDSR 方法進(jìn)行對(duì)比實(shí)驗(yàn),各網(wǎng)絡(luò)模型在×2 的縮放因子下,得到重建圖像的PSNR 值和SSIM 值如表2 所示。
圖12 紀(jì)念碑全偏振圖像解析Fig.12 Analysis of monument image full polarization
表2 紀(jì)念碑全偏振圖像解析圖在不同算法下的指標(biāo)對(duì)比Table 2 Comparison of indicators on the analysis of monument image full polarization by different algorithms
從表2 的實(shí)驗(yàn)數(shù)據(jù)可以看出,本文方法的客觀評(píng)價(jià)指標(biāo)顯著優(yōu)于其他方法。在圖像測(cè)試耗時(shí)方面,Bicubic 方法較快,其他基于學(xué)習(xí)的方法耗時(shí)均比Bicubic 方法高。本文方法在測(cè)試時(shí)間和性能之間進(jìn)行了更好的權(quán)衡,犧牲少量時(shí)間,改善了重建圖像質(zhì)量且測(cè)試時(shí)間在0.5 s 之內(nèi)。本文方法的PSNR 值相對(duì)Bicubic、SRCNN、FSRCNN、EDSR 方法平均分別提升8.668 dB、5.308 dB、5.487 dB、1.253 dB,SSIM 值平均分別提升0.084、0.033、0.029、0.001。由表1 可知,本文方法的參數(shù)數(shù)量明顯比EDSR 方法少,同時(shí)EDSR 網(wǎng)絡(luò)的通道數(shù)為本文方法的4 倍,提取更多特征信息,僅個(gè)別情況下與本文方法性能上相當(dāng)。本文方法在合肥渡江戰(zhàn)役紀(jì)念碑全偏振圖像解析結(jié)果圖上進(jìn)行SR 重建的PSNR 值和SSIM 值明顯優(yōu)于對(duì)比方法。
為進(jìn)一步驗(yàn)證本文方法重建圖像的效果,從測(cè)試的全偏振圖像解析圖中選擇一張細(xì)節(jié)豐富、紋理清晰的V 圖進(jìn)行測(cè)試。從各超分辨率算法在2 倍的縮放因子下的重建圖像細(xì)節(jié)展示,可直觀看出本文方法重建圖像具有較好的視覺效果,如圖13 所示。圖13 標(biāo)記區(qū)域的條紋可以看出,Bicubic 方法重建的圖像出現(xiàn)模糊、背景明顯被虛化、條紋不清晰等問題,重建圖像效果有限;基于卷積網(wǎng)絡(luò)的方法SRCNN、FSRCNN 重建的圖像視覺上比較平滑,圖像銳度有所提升,但仍存在邊緣模糊,分辨率低等問題;深度網(wǎng)絡(luò)EDSR 重建圖像進(jìn)一步提高圖像銳度、改善視覺效果,但圖像標(biāo)記區(qū)域出現(xiàn)了亮度不均勻、圖像邊緣模糊等問題;本文算法重建圖像效果明顯優(yōu)于其他算法重建圖像,紋理細(xì)節(jié)更加清晰,亮度均勻,較為接近原始的高清圖像。本文方法的客觀評(píng)價(jià)指標(biāo)PSNR 值與SSIM 值也均優(yōu)于其他方法,充分驗(yàn)證了所提方法的優(yōu)越性。
圖13 V 圖的不同方法重建效果Fig.13 Reconstruction effect of image V by different methods
越大則圖像清晰程度越高。
表3 比較了本文方法SR 重建圖像與系統(tǒng)采集的HR 和LR 圖像的無參考評(píng)價(jià)指標(biāo)。從表3 可以看出,在信息熵指標(biāo)上,SR 重建結(jié)果普遍略低于系統(tǒng)HR 圖像,但高于系統(tǒng)LR 圖像。對(duì)于清晰度指標(biāo),SR 重建結(jié)果基本與系統(tǒng)HR 圖像質(zhì)量保持一致,但相較于LR 圖像清晰度提高。圖14 所示為系統(tǒng)采集的HR 和LR 圖像與SR 重建圖像效果對(duì)比,可以看出相機(jī)采集的LR 圖像出現(xiàn)“凹凸條紋”模糊、背景明顯被虛化、紋理不清晰等問題,而2 倍SR 重建的圖像“凹凸條紋”紋理細(xì)節(jié)清晰、亮度均勻、接近系統(tǒng)采集的HR 圖像,相較于LR 圖像質(zhì)量有明顯的改善。不同倍數(shù)超分辨重構(gòu)下的信息熵、清晰度與超像元倍數(shù)的關(guān)系曲線如圖15 所示。從圖15 的折線圖可直觀看出,隨著超分辨率倍數(shù)的增加,對(duì)于信息熵指標(biāo),系統(tǒng)HR 圖像曲線趨于平緩持平,SR 重建圖像曲線呈現(xiàn)下降趨勢(shì)但與系統(tǒng)HR 圖像曲線保持較近的距離。對(duì)于清晰度指標(biāo),系統(tǒng)HR 圖像曲線與SR 重建圖像曲線趨于平緩基本持平,數(shù)據(jù)波動(dòng)小。實(shí)驗(yàn)數(shù)據(jù)充分說明本文方法的有效性,重建圖像較為接近系統(tǒng)成像的效果。
圖14 偽裝網(wǎng)偏振圖像重建結(jié)果與系統(tǒng)采集結(jié)果對(duì)比Fig.14 Comparison between polarization image reconstruction results of camouflage net and the system-acquired results
圖15 無參考評(píng)價(jià)指標(biāo)與超像元倍數(shù)關(guān)系曲線Fig.15 Curve of relationship between no reference evaluation index and supercell multiple
表3 偽裝網(wǎng)偏振圖像無參考評(píng)價(jià)結(jié)果Table 3 No reference comparison of camouflage net polarization images results
研制的光譜偏振相機(jī)包含兩個(gè)通道,一個(gè)為可見光近紅外光譜偏振相機(jī),另一個(gè)為短波紅外光譜偏振相機(jī)。偏振成像系統(tǒng)[7]根據(jù)探測(cè)目標(biāo)以及圖像處理的要求,可實(shí)現(xiàn)成像空間分辨率的調(diào)節(jié)。如分辨率為2 048×2 048 的可見光偏振圖像與640×512 的短波紅外偏振圖像,設(shè)置系統(tǒng)可分別采集HR 圖像和LR(1 024×1 024 和320×256)圖像。為了對(duì)比本文方法與成像系統(tǒng)的圖像效果,將LR 圖像進(jìn)行SR 重建。然后與系統(tǒng)采集的HR 圖像進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)采用信息熵、清晰度來無參考評(píng)價(jià)圖像的質(zhì)量。信息熵表示圖像包含平均信息量的多少,熵值越大則所含信息量越多。清晰度表示圖像中微小細(xì)節(jié)反差與紋理變化特征,值
本文提出了一種基于雙重注意力殘差網(wǎng)絡(luò)DARN 的偏振圖像超分辨率重建方法。通過實(shí)驗(yàn)在主觀視覺效果、客觀評(píng)價(jià)指標(biāo)與成像系統(tǒng)對(duì)比校正三個(gè)方面對(duì)算法進(jìn)行評(píng)價(jià)。所提方法的重建圖像紋理細(xì)節(jié)更加豐富、清晰,較為接近系統(tǒng)成像的效果,充分說明該方法實(shí)現(xiàn)了更好的重建準(zhǔn)確性和視覺改善效果,能夠很好地抑制輸入偏振圖像中的平滑區(qū)域,生成更加高質(zhì)量的偏振圖像,為偏振圖像的超分辨率以及全偏振相機(jī)系統(tǒng)校正的理論研究提供了一種數(shù)據(jù)支撐。本文主要考慮多通道與空間特征的提取,網(wǎng)絡(luò)深度與網(wǎng)絡(luò)規(guī)模有待改善。下一階段的主要任務(wù)是減少網(wǎng)絡(luò)模型參數(shù)量,降低網(wǎng)絡(luò)深度的同時(shí)盡可能地優(yōu)化訓(xùn)練網(wǎng)絡(luò)的效率以及進(jìn)一步提高重建圖像的質(zhì)量,在此基礎(chǔ)上考慮融入多個(gè)殘差塊聚合網(wǎng)絡(luò),簡(jiǎn)化網(wǎng)絡(luò)模型。