劉錫澤 ,李志龍 ,何欣澤 ,范 紅
(1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.OPPO研究院,上海 200030;3.上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
單幅圖像超分辨率重建(Single Image Super-Resolution Reconstruction,SISR)是圖像復(fù)原的一種,其通過(guò)信號(hào)處理或者圖像處理的方法,將低分辨率(Low-Resolution,LR)圖像轉(zhuǎn)化為高分辨率(High-Resolution,HR)圖像[1]。目前,SISR被廣泛應(yīng)用在醫(yī)學(xué)影像、遙感圖像、視頻監(jiān)控等領(lǐng)域當(dāng)中。近年來(lái),許多SISR算法相繼被提出,因此需要一種可靠的方式來(lái)衡量各種算法重建圖像的質(zhì)量好壞。
最可靠的圖像質(zhì)量評(píng)估方式是主觀評(píng)分,但這種方式需要耗費(fèi)大量的人力和時(shí)間,所以往往使用客觀評(píng)價(jià)指標(biāo)來(lái)對(duì)超分辨(Super-Resolution,SR)圖像進(jìn)行質(zhì)量評(píng)估。最常用的圖像客觀評(píng)價(jià)指標(biāo)是峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM)。但在 SISR領(lǐng)域中,這兩個(gè)指標(biāo)與人眼感知的一致性較低[2]。因此研究者們提出了一系列基于人類(lèi)視覺(jué)系統(tǒng)(Human Visual System,HVS)的圖像質(zhì)量評(píng)估算法,如信息保真度(Information Fidelity Criterion,IFC)[3]、特征相似度(Feature Similarity,F(xiàn)SIM)[4]等算法,在圖像質(zhì)量評(píng)估數(shù)據(jù)庫(kù)中的性能超過(guò)了PSNR、SSIM等傳統(tǒng)算法。
由于以上算法都是全參考圖像質(zhì)量評(píng)估算法,需要HR圖像的信息,在顯示中HR圖像往往是不可獲得的,因此需要開(kāi)發(fā)一種有效的無(wú)參考圖像質(zhì)量評(píng)估算法。Ma等人[5]針對(duì)SR圖像提出了一種基于兩階段回歸模型的圖像質(zhì)量評(píng)估算法,并創(chuàng)建了第一個(gè)SR圖像質(zhì)量評(píng)估數(shù)據(jù)庫(kù),包含用9種SR算法重建的1 680張SR圖像與每張圖像的主觀質(zhì)量分?jǐn)?shù)。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被廣泛應(yīng)用在圖像質(zhì)量評(píng)估任務(wù)當(dāng)中:Fang等人[6]首先提出了基于 CNN的 SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò),Bare等人[7]和 Lin等人[8]分別在 CNN中引入殘差連接和注意力機(jī)制,并取得了先進(jìn)的性能。最近,Zhou等人[9]提出了用于SR圖像質(zhì)量評(píng)估的QADS數(shù)據(jù)集,包含用21種SR算法重建的980張SR圖像。
本文提出一種基于多任務(wù)學(xué)習(xí)的無(wú)參考SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò),并在其中融合先進(jìn)的協(xié)調(diào)注意力模塊,在QADS數(shù)據(jù)集中的結(jié)果表明,本文算法的結(jié)果與圖像主觀評(píng)分保持了較高的一致性。
本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)的輸入是從SR圖像中裁剪的大小為32×32的小塊,小塊首先經(jīng)過(guò)由8個(gè)卷積層、3個(gè)最大池化層、4個(gè)協(xié)調(diào)注意力模塊(Coordinate Attention Block,CAB)組成的特征提取階段,此階段輸出大小為 256×4×4的特征圖張量,然后按通道維度進(jìn)行全局平均池化、全局最大池化、全局最小池化操作,再在通道維度進(jìn)行拼接,輸出大小為 768×1×1的張量,之后輸入到全連接層,進(jìn)行兩個(gè)任務(wù)的預(yù)測(cè)。
圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)圖
其中,任務(wù)2用來(lái)預(yù)測(cè)每個(gè)小塊的質(zhì)量分?jǐn)?shù),是網(wǎng)絡(luò)的主要任務(wù)。在預(yù)測(cè)一張圖像的分?jǐn)?shù)時(shí),用圖像裁剪出的所有32×32小塊的質(zhì)量分?jǐn)?shù)的平均值作為整張圖像的質(zhì)量分?jǐn)?shù)。任務(wù)1用來(lái)預(yù)測(cè)每個(gè)小塊的局部頻率特征,輸出為27維的特征向量,任務(wù)1中第一個(gè)全連接層會(huì)與任務(wù)2中的第一個(gè)全連接層進(jìn)行拼接操作。任務(wù)1的目的是用圖像的局部頻域特征來(lái)輔助網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量分?jǐn)?shù)的預(yù)測(cè),實(shí)驗(yàn)證明這種多任務(wù)學(xué)習(xí)的方式可以使網(wǎng)絡(luò)預(yù)測(cè)的分?jǐn)?shù)有更好的準(zhǔn)確性和泛化性。
Ma等人[5]預(yù)測(cè)SR圖像質(zhì)量分?jǐn)?shù)時(shí),將圖像分為不重疊的7×7大小的小塊,進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT),并用廣義高斯分布(Generalized Gaussian Distribution,GGD)[10]擬合 DCT 系數(shù),最后取所有小塊DCT特征的平均值作為圖像的局部頻率特征。對(duì)每個(gè)訓(xùn)練圖像都計(jì)算其局部頻率特征當(dāng)作模型任務(wù)1的標(biāo)簽。用GGD擬合DCT系數(shù)的過(guò)程如式(1)所示:
進(jìn)一步,將每個(gè)小塊按圖2分為三組,計(jì)算每組 的 歸 一 化 偏 差(i=1,2,3),然 后 計(jì) 算的 方 差 作為DCT塊的第三個(gè)統(tǒng)計(jì)特征。
圖2 DCT小塊分塊示意圖
分別在原始訓(xùn)練圖像、經(jīng)σ=0.5的高斯濾波器濾波一次和兩次的訓(xùn)練圖像中以7×7大小分塊提取三種DCT特征,再取所有小塊的平均值、前10%平均值、后10%平均值作為最終的局部頻率特征,最終的特征為27維的向量。
SE-block[11]、CBAM[12]等注意力模塊已經(jīng)被證明能在圖像分類(lèi)、圖像超分辨率等任務(wù)中提高網(wǎng)絡(luò)的性能[13-14]。文獻(xiàn)[8]首先將 SE-block模塊融合到 SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò)當(dāng)中。為解決傳統(tǒng)的SE-block等注意力模塊只考慮圖像的通道信息,忽略空間信息、使用全局池化導(dǎo)致丟失過(guò)多信息等缺點(diǎn),文獻(xiàn)[15]提出了一種新的協(xié)調(diào)注意力模塊(Coordinate Attention Block,CAB)。本文將協(xié)調(diào)注意力模塊融合到提出的網(wǎng)絡(luò)中,提高了預(yù)測(cè)分?jǐn)?shù)的準(zhǔn)確率。協(xié)調(diào)注意力模塊如圖3所示。
圖3 CAB示意圖
與傳統(tǒng)的SE-block不同,CAB在第一步將二維的全局平均池化操作分解成兩個(gè)一維的池化操作,生成W、H兩個(gè)方向上的特征描述符。這樣做可以保留特征的空間位置信息,使網(wǎng)絡(luò)更精確地捕捉感興趣的目標(biāo)。高度為h時(shí)第c個(gè)通道的輸出可以用式(2)表示:
寬度為w時(shí)第c個(gè)通道的輸出可以用式(3)表示:
第二步,CAB將兩個(gè)方向上的特征描述符連接起來(lái),用收縮率為r的1×1卷積層進(jìn)行卷積操作,此過(guò)程如式(4)所示:
其中,f為包含 W、H兩個(gè)方向信息的特征圖,δ為ReLU函數(shù),F(xiàn)1為 1×1卷積操作。
第三步,將f按空間維度分解成兩個(gè)特征張量fh和fw,再用兩組1×1卷積層對(duì)特征圖進(jìn)行卷積,形成W、H兩個(gè)方向上的注意力權(quán)重 gh與 gw,此過(guò)程如式(5)、式(6)所示:
其中 Fh與 Fw為 1×1卷積操作,σ為 Sigmoid激活函數(shù)。
最后,將W、H兩個(gè)方向上的注意力權(quán)重與CAB的輸入進(jìn)行加權(quán),最終的輸出如式(7)所示:
本次實(shí)驗(yàn)采用QADS數(shù)據(jù)集作為訓(xùn)練和測(cè)試數(shù)據(jù)集。數(shù)據(jù)集包括20張?jiān)?HR圖像,包含 2、3、4三種放大倍數(shù),21種SISR方法重建的980張SR圖像和它們的主觀質(zhì)量分?jǐn)?shù),質(zhì)量分?jǐn)?shù)區(qū)間在[0,1]區(qū)間內(nèi),分?jǐn)?shù)越高表明圖片質(zhì)量越好。
實(shí)驗(yàn)前,先將QADS數(shù)據(jù)集中的980張SR圖像裁剪為不重疊的 32×32小塊,再按文獻(xiàn)[7]種提出的標(biāo)簽分發(fā)方式計(jì)算每一個(gè)小塊的質(zhì)量分?jǐn)?shù),計(jì)算方式如式(8)所示:
其中Sp為小塊的質(zhì)量分?jǐn)?shù),Simage為SR圖像的質(zhì)量分?jǐn)?shù),MSEp為原始HR圖像和SR圖像在小塊的32×32區(qū)域上的均方誤差,MSEaverage為一張 SR圖像所有小塊與原始HR圖像均方誤差的平均值。在數(shù)據(jù)集中隨機(jī)選取90%圖像作為訓(xùn)練集,10%圖像作為測(cè)試集,進(jìn)行10折交叉驗(yàn)證,最后記錄所有實(shí)驗(yàn)的平均結(jié)果。
實(shí)驗(yàn)采用Windows 10操作系統(tǒng),PyTorch 1.7.1深度學(xué)習(xí)框架,結(jié)合并行計(jì)算框架CUDA10.1對(duì)實(shí)驗(yàn)進(jìn)行加速。采用的硬件設(shè)備為運(yùn)行內(nèi)存為8 GB的 Intel?Xeon?CPU E5-2678 v3@2.50 GHz處理器,顯存為12 GB的NVIDIA Tesla K80顯卡。
模型訓(xùn)練時(shí),設(shè)置每次迭代的batch size為32,總共迭代 40個(gè) epoch,每迭代 10個(gè) epoch將學(xué)習(xí)率將為原來(lái)的十分之一。模型使用帶動(dòng)量項(xiàng)的SGD作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,momentum參數(shù)設(shè)置為 0.9,weight_decay參數(shù)設(shè)置為 0.000 1,為了防止梯度爆炸,將超過(guò)0.1的梯度值固定為0.1。
訓(xùn)練時(shí),損失函數(shù)使用L1損失,表達(dá)式如式(9)所示:
其中 N 為 batch size,y1、y′1分別代表任務(wù) 1 的實(shí)際值和預(yù)測(cè)值,y2、y′2分別代表任務(wù) 2的實(shí)際值和預(yù)測(cè)值。λ為控制任務(wù)1所占權(quán)重的超參數(shù)。
實(shí)驗(yàn)選擇使用斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman Rank Order Coefficient,SROCC)、 肯 德 爾 等 級(jí) 相 關(guān) 系(Kendal Rank Order Coefficient,KROCC)、皮 爾 遜 線 性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)來(lái)評(píng)估算法結(jié)果與真實(shí)標(biāo)簽的一致性,三種系數(shù)越大,表明一致性越好。
2.2.1 消融研究
為了研究多任務(wù)學(xué)習(xí)和協(xié)調(diào)注意力模塊對(duì)模型性能的影響,采用不含多任務(wù)學(xué)習(xí)與協(xié)調(diào)注意力模塊的模型作為第一種基線模型,在此基礎(chǔ)上加入?yún)f(xié)調(diào)注意力模塊作為第二種注意力模型,用兩種模型與本文提出的模型在相同的訓(xùn)練數(shù)據(jù)與參數(shù)對(duì)比下進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示。
表1 三種模型在QADS數(shù)據(jù)集中的平均SROCC
結(jié)果顯示,含有注意力機(jī)制和多任務(wù)學(xué)習(xí)的模型效果最好,僅含有注意力機(jī)制的模型次之,基線模型效果最差,表明在網(wǎng)絡(luò)中加入?yún)f(xié)調(diào)注意力模塊與多任務(wù)學(xué)習(xí)均可提升模型的預(yù)測(cè)效果。
2.2.2 值選取
在損失函數(shù)中,λ為控制兩種任務(wù)權(quán)重的超參數(shù),λ越大,任務(wù)1在模型訓(xùn)練時(shí)所占的權(quán)重越高。為了選取最佳權(quán)重,本文對(duì)不同λ值的模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。
表2 不同λ值的模型在數(shù)據(jù)集中的各種指標(biāo)對(duì)比
結(jié)果顯示,λ值取0.5時(shí),模型性能達(dá)到了最優(yōu)。原因可能是當(dāng)λ值太大時(shí),局部頻率特征預(yù)測(cè)任務(wù)所占權(quán)重越高,對(duì)質(zhì)量分?jǐn)?shù)預(yù)測(cè)任務(wù)產(chǎn)生不良的影響;當(dāng)λ值太小時(shí),局部頻率特征預(yù)測(cè)任務(wù)對(duì)質(zhì)量分?jǐn)?shù)預(yù)測(cè)任務(wù)的幫助有限。因此本文最終選擇的λ值為 0.5。
本文選取了文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[8]三種目前有先進(jìn)性能的無(wú)參考SR圖像質(zhì)量評(píng)估算法作為對(duì)比算法,為了保持訓(xùn)練數(shù)據(jù)和訓(xùn)練環(huán)境的一致,按原始論文參數(shù)設(shè)置在我們的環(huán)境中重新訓(xùn)練網(wǎng)絡(luò),在10折交叉驗(yàn)證中每折的訓(xùn)練數(shù)據(jù)是一致的。最終的實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同方法在數(shù)據(jù)集中的各種指標(biāo)對(duì)比
結(jié)果顯示,本文算法在各種指標(biāo)上的結(jié)果都明顯超過(guò)了對(duì)比的三種算法,表明本文算法與人眼主觀打分保持了最優(yōu)的一致性。
本文提出了一種基于多任務(wù)學(xué)習(xí)的無(wú)參考SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò),將局部頻率特征預(yù)測(cè)任務(wù)融合到模型當(dāng)中,輔助模型進(jìn)行圖像質(zhì)量分?jǐn)?shù)的預(yù)測(cè),提升模型預(yù)測(cè)準(zhǔn)確率。進(jìn)一步,本文在模型中加入先進(jìn)的協(xié)調(diào)注意力模塊,使模型可以更精確地定位到對(duì)分?jǐn)?shù)預(yù)測(cè)影響更大的目標(biāo)像素。本文對(duì)比實(shí)驗(yàn)證明了將多任務(wù)學(xué)習(xí)與注意力模塊加入到模型當(dāng)中的有效性,與其他算法的對(duì)比結(jié)果證明了本文算法與主觀打分保持了較高的一致性。下一步的工作目標(biāo)是發(fā)掘更有效的圖像特征來(lái)進(jìn)行多任務(wù)學(xué)習(xí)的預(yù)測(cè)。