亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多任務(wù)學(xué)習(xí)的無(wú)參考超分辨圖像質(zhì)量評(píng)估

2021-08-24 08:41:02劉錫澤李志龍何欣澤

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2021年8期

劉錫澤，李志龍，何欣澤，范紅

（1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院，上海 201620；2.OPPO研究院，上海 200030；3.上海大學(xué) 通信與信息工程學(xué)院，上海 200444）

0 引言

單幅圖像超分辨率重建（Single Image Super-Resolution Reconstruction，SISR）是圖像復(fù)原的一種，其通過(guò)信號(hào)處理或者圖像處理的方法，將低分辨率（Low-Resolution，LR）圖像轉(zhuǎn)化為高分辨率（High-Resolution，HR）圖像[1]。目前，SISR被廣泛應(yīng)用在醫(yī)學(xué)影像、遙感圖像、視頻監(jiān)控等領(lǐng)域當(dāng)中。近年來(lái)，許多SISR算法相繼被提出，因此需要一種可靠的方式來(lái)衡量各種算法重建圖像的質(zhì)量好壞。

最可靠的圖像質(zhì)量評(píng)估方式是主觀評(píng)分，但這種方式需要耗費(fèi)大量的人力和時(shí)間，所以往往使用客觀評(píng)價(jià)指標(biāo)來(lái)對(duì)超分辨（Super-Resolution，SR）圖像進(jìn)行質(zhì)量評(píng)估。最常用的圖像客觀評(píng)價(jià)指標(biāo)是峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）和結(jié)構(gòu)相似度（Structural Similarity，SSIM）。但在 SISR領(lǐng)域中，這兩個(gè)指標(biāo)與人眼感知的一致性較低[2]。因此研究者們提出了一系列基于人類(lèi)視覺(jué)系統(tǒng)（Human Visual System，HVS）的圖像質(zhì)量評(píng)估算法，如信息保真度（Information Fidelity Criterion，IFC）[3]、特征相似度（Feature Similarity，F(xiàn)SIM）[4]等算法，在圖像質(zhì)量評(píng)估數(shù)據(jù)庫(kù)中的性能超過(guò)了PSNR、SSIM等傳統(tǒng)算法。

由于以上算法都是全參考圖像質(zhì)量評(píng)估算法，需要HR圖像的信息，在顯示中HR圖像往往是不可獲得的，因此需要開(kāi)發(fā)一種有效的無(wú)參考圖像質(zhì)量評(píng)估算法。Ma等人[5]針對(duì)SR圖像提出了一種基于兩階段回歸模型的圖像質(zhì)量評(píng)估算法，并創(chuàng)建了第一個(gè)SR圖像質(zhì)量評(píng)估數(shù)據(jù)庫(kù)，包含用9種SR算法重建的1 680張SR圖像與每張圖像的主觀質(zhì)量分?jǐn)?shù)。近年來(lái)，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）被廣泛應(yīng)用在圖像質(zhì)量評(píng)估任務(wù)當(dāng)中：Fang等人[6]首先提出了基于 CNN的 SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò)，Bare等人[7]和 Lin等人[8]分別在 CNN中引入殘差連接和注意力機(jī)制，并取得了先進(jìn)的性能。最近，Zhou等人[9]提出了用于SR圖像質(zhì)量評(píng)估的QADS數(shù)據(jù)集，包含用21種SR算法重建的980張SR圖像。

本文提出一種基于多任務(wù)學(xué)習(xí)的無(wú)參考SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò)，并在其中融合先進(jìn)的協(xié)調(diào)注意力模塊，在QADS數(shù)據(jù)集中的結(jié)果表明，本文算法的結(jié)果與圖像主觀評(píng)分保持了較高的一致性。

1 提出方法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)的輸入是從SR圖像中裁剪的大小為32×32的小塊，小塊首先經(jīng)過(guò)由8個(gè)卷積層、3個(gè)最大池化層、4個(gè)協(xié)調(diào)注意力模塊（Coordinate Attention Block，CAB）組成的特征提取階段，此階段輸出大小為 256×4×4的特征圖張量，然后按通道維度進(jìn)行全局平均池化、全局最大池化、全局最小池化操作，再在通道維度進(jìn)行拼接，輸出大小為 768×1×1的張量，之后輸入到全連接層，進(jìn)行兩個(gè)任務(wù)的預(yù)測(cè)。

圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)圖

其中，任務(wù)2用來(lái)預(yù)測(cè)每個(gè)小塊的質(zhì)量分?jǐn)?shù)，是網(wǎng)絡(luò)的主要任務(wù)。在預(yù)測(cè)一張圖像的分?jǐn)?shù)時(shí)，用圖像裁剪出的所有32×32小塊的質(zhì)量分?jǐn)?shù)的平均值作為整張圖像的質(zhì)量分?jǐn)?shù)。任務(wù)1用來(lái)預(yù)測(cè)每個(gè)小塊的局部頻率特征，輸出為27維的特征向量，任務(wù)1中第一個(gè)全連接層會(huì)與任務(wù)2中的第一個(gè)全連接層進(jìn)行拼接操作。任務(wù)1的目的是用圖像的局部頻域特征來(lái)輔助網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量分?jǐn)?shù)的預(yù)測(cè)，實(shí)驗(yàn)證明這種多任務(wù)學(xué)習(xí)的方式可以使網(wǎng)絡(luò)預(yù)測(cè)的分?jǐn)?shù)有更好的準(zhǔn)確性和泛化性。

1.2 局部頻率特征

Ma等人[5]預(yù)測(cè)SR圖像質(zhì)量分?jǐn)?shù)時(shí)，將圖像分為不重疊的7×7大小的小塊，進(jìn)行離散余弦變換（Discrete Cosine Transform，DCT），并用廣義高斯分布（Generalized Gaussian Distribution，GGD）[10]擬合 DCT 系數(shù)，最后取所有小塊DCT特征的平均值作為圖像的局部頻率特征。對(duì)每個(gè)訓(xùn)練圖像都計(jì)算其局部頻率特征當(dāng)作模型任務(wù)1的標(biāo)簽。用GGD擬合DCT系數(shù)的過(guò)程如式（1）所示：

進(jìn)一步，將每個(gè)小塊按圖2分為三組，計(jì)算每組的歸一化偏差（i=1,2,3），然后計(jì) 算的方差作為DCT塊的第三個(gè)統(tǒng)計(jì)特征。

圖2 DCT小塊分塊示意圖

分別在原始訓(xùn)練圖像、經(jīng)σ=0.5的高斯濾波器濾波一次和兩次的訓(xùn)練圖像中以7×7大小分塊提取三種DCT特征，再取所有小塊的平均值、前10%平均值、后10%平均值作為最終的局部頻率特征，最終的特征為27維的向量。

1.3 協(xié)調(diào)注意力模塊

SE-block[11]、CBAM[12]等注意力模塊已經(jīng)被證明能在圖像分類(lèi)、圖像超分辨率等任務(wù)中提高網(wǎng)絡(luò)的性能[13-14]。文獻(xiàn)[8]首先將 SE-block模塊融合到 SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò)當(dāng)中。為解決傳統(tǒng)的SE-block等注意力模塊只考慮圖像的通道信息，忽略空間信息、使用全局池化導(dǎo)致丟失過(guò)多信息等缺點(diǎn)，文獻(xiàn)[15]提出了一種新的協(xié)調(diào)注意力模塊（Coordinate Attention Block，CAB）。本文將協(xié)調(diào)注意力模塊融合到提出的網(wǎng)絡(luò)中，提高了預(yù)測(cè)分?jǐn)?shù)的準(zhǔn)確率。協(xié)調(diào)注意力模塊如圖3所示。

圖3 CAB示意圖

與傳統(tǒng)的SE-block不同，CAB在第一步將二維的全局平均池化操作分解成兩個(gè)一維的池化操作，生成W、H兩個(gè)方向上的特征描述符。這樣做可以保留特征的空間位置信息，使網(wǎng)絡(luò)更精確地捕捉感興趣的目標(biāo)。高度為h時(shí)第c個(gè)通道的輸出可以用式（2）表示：

寬度為w時(shí)第c個(gè)通道的輸出可以用式（3）表示：

第二步，CAB將兩個(gè)方向上的特征描述符連接起來(lái)，用收縮率為r的1×1卷積層進(jìn)行卷積操作，此過(guò)程如式（4）所示：

其中，f為包含 W、H兩個(gè)方向信息的特征圖，δ為ReLU函數(shù)，F(xiàn)1為 1×1卷積操作。

第三步，將f按空間維度分解成兩個(gè)特征張量fh和fw，再用兩組1×1卷積層對(duì)特征圖進(jìn)行卷積，形成W、H兩個(gè)方向上的注意力權(quán)重 gh與 gw，此過(guò)程如式（5）、式（6）所示：

其中 Fh與 Fw為 1×1卷積操作，σ為 Sigmoid激活函數(shù)。

最后，將W、H兩個(gè)方向上的注意力權(quán)重與CAB的輸入進(jìn)行加權(quán)，最終的輸出如式（7）所示：

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)與實(shí)驗(yàn)準(zhǔn)備

本次實(shí)驗(yàn)采用QADS數(shù)據(jù)集作為訓(xùn)練和測(cè)試數(shù)據(jù)集。數(shù)據(jù)集包括20張?jiān)?HR圖像，包含 2、3、4三種放大倍數(shù)，21種SISR方法重建的980張SR圖像和它們的主觀質(zhì)量分?jǐn)?shù)，質(zhì)量分?jǐn)?shù)區(qū)間在[0，1]區(qū)間內(nèi)，分?jǐn)?shù)越高表明圖片質(zhì)量越好。

實(shí)驗(yàn)前，先將QADS數(shù)據(jù)集中的980張SR圖像裁剪為不重疊的 32×32小塊，再按文獻(xiàn)[7]種提出的標(biāo)簽分發(fā)方式計(jì)算每一個(gè)小塊的質(zhì)量分?jǐn)?shù)，計(jì)算方式如式（8）所示：

其中Sp為小塊的質(zhì)量分?jǐn)?shù)，Simage為SR圖像的質(zhì)量分?jǐn)?shù)，MSEp為原始HR圖像和SR圖像在小塊的32×32區(qū)域上的均方誤差，MSEaverage為一張 SR圖像所有小塊與原始HR圖像均方誤差的平均值。在數(shù)據(jù)集中隨機(jī)選取90%圖像作為訓(xùn)練集，10%圖像作為測(cè)試集，進(jìn)行10折交叉驗(yàn)證，最后記錄所有實(shí)驗(yàn)的平均結(jié)果。

實(shí)驗(yàn)采用Windows 10操作系統(tǒng)，PyTorch 1.7.1深度學(xué)習(xí)框架，結(jié)合并行計(jì)算框架CUDA10.1對(duì)實(shí)驗(yàn)進(jìn)行加速。采用的硬件設(shè)備為運(yùn)行內(nèi)存為8 GB的 Intel?Xeon?CPU E5-2678 v3@2.50 GHz處理器，顯存為12 GB的NVIDIA Tesla K80顯卡。

模型訓(xùn)練時(shí)，設(shè)置每次迭代的batch size為32，總共迭代 40個(gè) epoch，每迭代 10個(gè) epoch將學(xué)習(xí)率將為原來(lái)的十分之一。模型使用帶動(dòng)量項(xiàng)的SGD作為優(yōu)化器，初始學(xué)習(xí)率設(shè)置為0.01，momentum參數(shù)設(shè)置為 0.9，weight_decay參數(shù)設(shè)置為 0.000 1，為了防止梯度爆炸，將超過(guò)0.1的梯度值固定為0.1。

訓(xùn)練時(shí)，損失函數(shù)使用L1損失，表達(dá)式如式（9）所示：

其中 N 為 batch size，y1、y′1分別代表任務(wù) 1 的實(shí)際值和預(yù)測(cè)值，y2、y′2分別代表任務(wù) 2的實(shí)際值和預(yù)測(cè)值。λ為控制任務(wù)1所占權(quán)重的超參數(shù)。

2.2 對(duì)比實(shí)驗(yàn)分析

實(shí)驗(yàn)選擇使用斯皮爾曼等級(jí)相關(guān)系數(shù)（Spearman Rank Order Coefficient，SROCC）、肯德爾等級(jí) 相關(guān) 系（Kendal Rank Order Coefficient，KROCC）、皮爾遜線性相關(guān)系數(shù)（Pearson Linear Correlation Coefficient，PLCC）來(lái)評(píng)估算法結(jié)果與真實(shí)標(biāo)簽的一致性，三種系數(shù)越大，表明一致性越好。

2.2.1 消融研究

為了研究多任務(wù)學(xué)習(xí)和協(xié)調(diào)注意力模塊對(duì)模型性能的影響，采用不含多任務(wù)學(xué)習(xí)與協(xié)調(diào)注意力模塊的模型作為第一種基線模型，在此基礎(chǔ)上加入?yún)f(xié)調(diào)注意力模塊作為第二種注意力模型，用兩種模型與本文提出的模型在相同的訓(xùn)練數(shù)據(jù)與參數(shù)對(duì)比下進(jìn)行實(shí)驗(yàn)，結(jié)果如表1所示。

表1 三種模型在QADS數(shù)據(jù)集中的平均SROCC

結(jié)果顯示，含有注意力機(jī)制和多任務(wù)學(xué)習(xí)的模型效果最好，僅含有注意力機(jī)制的模型次之，基線模型效果最差，表明在網(wǎng)絡(luò)中加入?yún)f(xié)調(diào)注意力模塊與多任務(wù)學(xué)習(xí)均可提升模型的預(yù)測(cè)效果。

2.2.2 值選取

在損失函數(shù)中，λ為控制兩種任務(wù)權(quán)重的超參數(shù)，λ越大，任務(wù)1在模型訓(xùn)練時(shí)所占的權(quán)重越高。為了選取最佳權(quán)重，本文對(duì)不同λ值的模型進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果如表2所示。

表2 不同λ值的模型在數(shù)據(jù)集中的各種指標(biāo)對(duì)比

結(jié)果顯示，λ值取0.5時(shí)，模型性能達(dá)到了最優(yōu)。原因可能是當(dāng)λ值太大時(shí)，局部頻率特征預(yù)測(cè)任務(wù)所占權(quán)重越高，對(duì)質(zhì)量分?jǐn)?shù)預(yù)測(cè)任務(wù)產(chǎn)生不良的影響；當(dāng)λ值太小時(shí)，局部頻率特征預(yù)測(cè)任務(wù)對(duì)質(zhì)量分?jǐn)?shù)預(yù)測(cè)任務(wù)的幫助有限。因此本文最終選擇的λ值為 0.5。

2.3 與其他算法的對(duì)比

本文選取了文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[8]三種目前有先進(jìn)性能的無(wú)參考SR圖像質(zhì)量評(píng)估算法作為對(duì)比算法，為了保持訓(xùn)練數(shù)據(jù)和訓(xùn)練環(huán)境的一致，按原始論文參數(shù)設(shè)置在我們的環(huán)境中重新訓(xùn)練網(wǎng)絡(luò)，在10折交叉驗(yàn)證中每折的訓(xùn)練數(shù)據(jù)是一致的。最終的實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同方法在數(shù)據(jù)集中的各種指標(biāo)對(duì)比

結(jié)果顯示，本文算法在各種指標(biāo)上的結(jié)果都明顯超過(guò)了對(duì)比的三種算法，表明本文算法與人眼主觀打分保持了最優(yōu)的一致性。

3 結(jié)論

本文提出了一種基于多任務(wù)學(xué)習(xí)的無(wú)參考SR圖像質(zhì)量評(píng)估網(wǎng)絡(luò)，將局部頻率特征預(yù)測(cè)任務(wù)融合到模型當(dāng)中，輔助模型進(jìn)行圖像質(zhì)量分?jǐn)?shù)的預(yù)測(cè)，提升模型預(yù)測(cè)準(zhǔn)確率。進(jìn)一步，本文在模型中加入先進(jìn)的協(xié)調(diào)注意力模塊，使模型可以更精確地定位到對(duì)分?jǐn)?shù)預(yù)測(cè)影響更大的目標(biāo)像素。本文對(duì)比實(shí)驗(yàn)證明了將多任務(wù)學(xué)習(xí)與注意力模塊加入到模型當(dāng)中的有效性，與其他算法的對(duì)比結(jié)果證明了本文算法與主觀打分保持了較高的一致性。下一步的工作目標(biāo)是發(fā)掘更有效的圖像特征來(lái)進(jìn)行多任務(wù)學(xué)習(xí)的預(yù)測(cè)。