摘" 要: 為了能在真實失真圖像質(zhì)量領(lǐng)域?qū)崿F(xiàn)高效的跨尺度學(xué)習(xí),提出一種雙分支特征提取方法。首先,利用對比學(xué)習(xí)方法自監(jiān)督地提取跨尺度、跨顏色空間的圖像內(nèi)容感知特征;隨后,采用基于擴張感受野和超網(wǎng)絡(luò)的策略,將多層次特征信息與跨尺度信息進行循環(huán)交互融合,以獲取更貼近人類感知的圖像質(zhì)量特征。基于公開真實失真數(shù)據(jù)庫的實驗結(jié)果表明,所提算法在真實失真圖像質(zhì)量評價上取得了優(yōu)越性能,而且,通過兩個尺度的實驗結(jié)果展示了該算法實現(xiàn)了更高效的跨尺度學(xué)習(xí),從而為圖像多尺度深度網(wǎng)絡(luò)的應(yīng)用提供了較好基礎(chǔ)。
關(guān)鍵詞: 圖像質(zhì)量評價; 無參考; 真實失真; 跨尺度學(xué)習(xí); 多特征融合; 雙分支特征提取
中圖分類號: TN911.73?34; TP391"""""""""""""""""" 文獻標(biāo)識碼: A""""""""""""""""" 文章編號: 1004?373X(2024)09?0047?06
0" 引" 言
隨著數(shù)字圖像在各個領(lǐng)域的廣泛應(yīng)用,圖像質(zhì)量評價成為計算機視覺和圖像處理領(lǐng)域中備受關(guān)注的重要問題之一。圖像質(zhì)量評價不僅在圖像采集、傳輸和存儲等環(huán)節(jié)中具有重要意義,而且在計算機視覺任務(wù)中起到了至關(guān)重要的作用,如圖像增強、目標(biāo)檢測和識別等。
傳統(tǒng)的圖像質(zhì)量評價方法主要基于均方差和結(jié)構(gòu)相似性指數(shù)等,這些方法在特點場景下能夠提供較好的性能,但在處理復(fù)雜場景和多樣性圖像時表現(xiàn)欠佳。尤其在人類感知與計算機視覺之間存在較大差異的情況下,傳統(tǒng)方法的不足逐漸顯露出來。
近年來,隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,基于深度學(xué)習(xí)的圖像質(zhì)量評價算法取得了顯著的成就。然而,現(xiàn)在的深度學(xué)習(xí)方法中基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neutral Network, CNN)的圖像質(zhì)量評價算法[1]對于全局信息的獲取有一定的局限性。在真實失真圖像質(zhì)量評價領(lǐng)域由于數(shù)據(jù)的特點,通常無法獲得參考圖像,國內(nèi)外學(xué)者在圖像質(zhì)量評價領(lǐng)域進行了大量的研究[1?2]。文獻[3]為了解決真實失真圖像質(zhì)量預(yù)測問題提出了一種自適應(yīng)超網(wǎng)絡(luò)架構(gòu),將IQA的流程分為內(nèi)容理解、感知規(guī)則學(xué)習(xí)和質(zhì)量預(yù)測三個階段,通過超網(wǎng)絡(luò)自適應(yīng)地建立感知規(guī)則。文獻[4]為了解決當(dāng)時流行的NR?IQA方法在真實失真領(lǐng)域表現(xiàn)不佳的問題,通過大量的真實失真圖像和補丁,使用圖像和貼片質(zhì)量評分建立全部與局部相互推斷的框架。文獻[5]提出采用雙流網(wǎng)絡(luò)結(jié)構(gòu)分別提取結(jié)構(gòu)退化中的特征和紋理分布變化的方式,并使用自適應(yīng)的裁剪方式來確保類別平衡。文獻[6]通過多尺度的失真表示學(xué)習(xí),提取真實失真圖像中樣本的分布特征,并基于失真水平預(yù)測模糊性。文獻[7]引入雙分支網(wǎng)絡(luò)提取低級失真和高級語義,增強了模型的泛化能力。
文獻[8?9]由于直接的全局關(guān)系建模,在擴大感受野和上下文信息獲取方面具有天然優(yōu)勢。為了更全面地考慮圖像的全局特征,近期基于Transformer的圖像質(zhì)量評價方法越來越多。Transformer模型通過基于自注意力機制能夠捕捉圖像中不同區(qū)域之間的長距離依賴關(guān)系,使得模型在全局范圍內(nèi)能夠更好地理解圖像特征。但該方法需要大量的數(shù)據(jù),計算量通常更大。文獻[10]提出了在卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖后使用淺層Transformer編碼器的體系結(jié)構(gòu),能處理任意分辨率。文獻[11]通過多尺度的圖像表示捕捉不用粒度的圖像質(zhì)量。
更為關(guān)鍵的是,現(xiàn)有方法不能很好解決訓(xùn)練和測試圖像尺寸不一致而導(dǎo)致的性能差異問題。在這一背景下,本文提出了一種基于RFB[12]和超網(wǎng)絡(luò)[13]的跨尺度多層次真實失真圖像質(zhì)量評價算法,通過自監(jiān)督學(xué)習(xí)實現(xiàn)跨尺度的內(nèi)容理解和擴大感受野,實現(xiàn)對全局信息更為充分的理解,使得模型在特征提取方面更具有泛化性,實現(xiàn)模型自適應(yīng)輸入尺寸,并在不同尺度上更為準(zhǔn)確地評估圖像質(zhì)量。本文算法通過在訓(xùn)練過程中引入自監(jiān)督學(xué)習(xí)的雙分支特征提取網(wǎng)絡(luò)并凍結(jié)特征提取網(wǎng)絡(luò)的策略,進一步提升了模型的泛化性。
1" 擴大感受野的特征循環(huán)融合圖像質(zhì)量評價方法
本文算法在訓(xùn)練階段使用雙分支的特征提取網(wǎng)絡(luò),其中一個分支是在ImageNet數(shù)據(jù)庫上訓(xùn)練提取圖像分類特征的ResNet50網(wǎng)絡(luò),另一個分支是在AVA數(shù)據(jù)庫訓(xùn)練提取尺度不變的ResNet50網(wǎng)絡(luò)。
1.1" 基于對比學(xué)習(xí)的自監(jiān)督圖像特征提取輔助任務(wù)
訓(xùn)練可靠的深度學(xué)習(xí)模型需要海量數(shù)據(jù),但在圖像質(zhì)量評價中現(xiàn)有數(shù)據(jù)庫無法覆蓋所有失真情況。本文采用對比學(xué)習(xí)的方法[14?15]是為不同尺度圖像建立相同的內(nèi)容感知,訓(xùn)練流程如圖1所示。這里采用顏色空間變換的方法來自于CONTRIQE[16],采用不同的顏色空間提取互補的質(zhì)量信息,目的是確保提取的尺度不變特征不受顏色變換的影響。
1.2" 基于RFB的多尺度圖像質(zhì)量特征提取結(jié)構(gòu)
在目標(biāo)識別任務(wù)中,感受野的大小通常是一個關(guān)鍵因素[17],在圖像質(zhì)量評價任務(wù)中更為重要。由于圖像質(zhì)量的評價涉及到主觀感受,而人的視覺系統(tǒng)對于全局信息和局部信息的感知都是敏感的,因此在這一任務(wù)中更強調(diào)全局和局部的綜合感知。近年來,Transformer的興起帶動了許多基于Transformer的圖像質(zhì)量評價工作。Transformer對比卷積神經(jīng)網(wǎng)絡(luò)的長處之一是實現(xiàn)了全局感受野,但是引入Transformer的圖像質(zhì)量評級算法大大增加了模型的復(fù)雜度,輸入圖像的尺寸也得到了限制。本文為實現(xiàn)更大的感受野,如圖2所示,在特征圖之后提出了引入目標(biāo)檢測算法中RFB模擬人類視覺感受野的結(jié)構(gòu)。通過實現(xiàn)擴大模型的感受野,更好地提取圖像中不同尺度的結(jié)構(gòu)和紋理信息,更加適應(yīng)不同尺度的圖像。
1.3" 基于超網(wǎng)絡(luò)的多層次特征流循環(huán)融合模塊
受HyperIQA的啟發(fā),建立自適應(yīng)內(nèi)容感知的機制有助于提高模型的感知質(zhì)量能力。本文使用超網(wǎng)絡(luò)的目的是生成全連接層中的參數(shù),實現(xiàn)動態(tài)感知多層次特征。本文在基于超網(wǎng)絡(luò)的自適應(yīng)內(nèi)容感知的基礎(chǔ)上提出了特征循環(huán)融合模塊,結(jié)構(gòu)如圖3所示。
在這個循環(huán)結(jié)構(gòu)中,實現(xiàn)了尺度不變信息以自頂向下方向與多層次信息融合。通過這種方式融合的圖像特征將深層模型信息向淺層模型信息傳遞,建立了更好的上下文信息和語義理解,雙分支的特征信息交互是由于雙分支網(wǎng)絡(luò)通常專注于不同方面的特征信息而建立的,本文分別提取圖像局部特征和全局特征的分支,通過有效地平衡局部和全部信息,從而更加全面地評估圖像質(zhì)量。
2" 實驗結(jié)果與分析
2.1" 數(shù)據(jù)庫介紹
實驗中采用了3個圖像質(zhì)量數(shù)據(jù)庫,包括2個真實失真圖像質(zhì)量評價數(shù)據(jù)庫:KonIQ[18]、SPAQ[19],用于訓(xùn)練和測試圖像質(zhì)量評估網(wǎng)絡(luò);1個美學(xué)質(zhì)量評價數(shù)據(jù)庫AVA,用于自監(jiān)督訓(xùn)練提取尺度不變特征。
2.2" 實驗訓(xùn)練參數(shù)與評估指標(biāo)
本文使用在AVA數(shù)據(jù)庫上訓(xùn)練的基于對比學(xué)習(xí)的內(nèi)容感知特征網(wǎng)絡(luò),使用在ImageNet1k上預(yù)訓(xùn)練的ResNet的網(wǎng)絡(luò)權(quán)重。在特征提取網(wǎng)絡(luò)訓(xùn)練階段將訓(xùn)練集、測試集的比例設(shè)為8∶2,訓(xùn)練輪次為30輪,最后選擇在測試集上表現(xiàn)最好的一次權(quán)重參與后一階段的實驗?;趯Ρ葘W(xué)習(xí)的內(nèi)容感知網(wǎng)絡(luò)采用余弦相似度作為損失函數(shù),表達式為:
[cosθ=i=1nxi×yii=1nxi2×i=1nyi2] (1)
式中:[x]、[y]代表圖像提取后的特征流;[n]代表特征流的維度;[i]代表維度索引。
本文使用KonIQ、SPAQ數(shù)據(jù)庫作為評估數(shù)據(jù)庫。在評估數(shù)據(jù)庫中,將數(shù)據(jù)庫劃分為訓(xùn)練集、驗證集和測試集的比例為7∶1∶2。為了在比較的過程中保持客觀性,本文復(fù)制了對比模型的各自作者在文獻中展示的結(jié)果作為最終結(jié)果。本文采用2個目前絕大多數(shù)學(xué)者采用的無參考圖像質(zhì)量模型預(yù)測性能評價指標(biāo)[20]:Spearman秩序相關(guān)系數(shù)(SROCC)和Pearson線性相關(guān)系數(shù)(PLCC)。本文進行了10次實驗,并選取實驗結(jié)果中Spearman秩序相關(guān)系數(shù)和Pearson線性相關(guān)系數(shù)的中值。在預(yù)測圖像質(zhì)量分?jǐn)?shù)時,采用平均絕對誤差(MAE)損失函數(shù)作為訓(xùn)練時的損失函數(shù),表達式為:
[Lossscore=1ni=1nyi-ypi] """ (2)
式中:[yi]為樣本平均主觀得分標(biāo)簽;[ypi]為訓(xùn)練回歸網(wǎng)絡(luò)時的預(yù)測平均主觀分?jǐn)?shù);[n]為樣本數(shù);[i]代表樣本的索引。
2.3" 與人類判斷的相關(guān)性
表1比較了在真實數(shù)據(jù)庫不同模型的性能。從表中看出:與SOTA模型相比,在KonIQ數(shù)據(jù)庫上,SROCC提升了0.4%,PLCC提升了1%;在SPAQ數(shù)據(jù)庫上,SROCC與之前SOTA模型持平。值得注意的是,CONTRIQE和本文算法凍結(jié)了特征提取網(wǎng)絡(luò),使得這部分網(wǎng)絡(luò)權(quán)重在訓(xùn)練階段不再更新,從而保留了在預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)到的有用特征,有助于將先前學(xué)到的知識遷移到新的圖像質(zhì)量評價任務(wù)中,利用學(xué)習(xí)到的通用特征實現(xiàn)更好的泛化能力。圖4展示了所提算法在KonIQ和SPAQ數(shù)據(jù)庫上預(yù)測效果的散點圖和最小二乘法的擬合直線。
預(yù)測結(jié)果散點圖
2.4 "不同尺度下實驗結(jié)果
表2、表3中比較了在真實數(shù)據(jù)庫不同尺寸訓(xùn)練下不同模型的性能。從表中可以看出,過去的方法在尺寸固定的情況下,對于與訓(xùn)練尺寸相同的輸出圖像尺寸情況下,模型性能表現(xiàn)較好;在輸出圖像尺寸與訓(xùn)練圖像尺寸不一致時,模型性能表現(xiàn)不一致,通常表現(xiàn)更差。表中數(shù)據(jù)顯示,本文所提算法在測試圖像尺寸與訓(xùn)練圖像尺寸不一樣時,模型性能表現(xiàn)差距更小,緩解了模型在訓(xùn)練和測速圖像尺寸不一致時效果不佳的問題。在KonIQ數(shù)據(jù)庫上,在兩個尺寸下性能對比TRIQ模型都有提升,以1 024×768尺寸訓(xùn)練并以512×384尺寸測試時,SROCC提升4.6%,PLCC提升5.5%。
圖5展示本文算法在KonIQ數(shù)據(jù)庫上在512×384和1 024×768兩個尺寸上預(yù)測效果的散點圖和擬合直線。
2.5" 消融實驗
為了進一步驗證所提方法的有效性,在KonIQ和SPAQ數(shù)據(jù)庫上進行消融研究,表4為消融結(jié)果。
可以看到,加入跨尺度特征形成雙分支網(wǎng)絡(luò)對比原網(wǎng)絡(luò)能得到更好的性能,并且在加入本文提出的循環(huán)多層次特征融合對比多層次特征融合也有更好的效果。
3" 結(jié)" 語
從緩解不同尺寸下圖像質(zhì)量評價模型表現(xiàn)差異較大的問題出發(fā),提出了擴大感受野的多尺度特征提取結(jié)構(gòu),充分利用深層特征與較淺層特征的信息交互,以自頂向下方向構(gòu)成多層次信息循環(huán)交互。在兩個尺寸的多個數(shù)據(jù)庫進行了大量的實驗,實驗結(jié)果表明,本文算法在不同尺寸圖像的性能表現(xiàn)良好,進一步為多尺度和多層次信息交互深度網(wǎng)絡(luò)在視覺信號領(lǐng)域的應(yīng)用提供了支撐。
注:本文通訊作者為王同罕。
參考文獻
[1] 方玉明,眭相杰,鄢杰斌,等.無參考圖像質(zhì)量評價研究進展[J].中國圖象圖形學(xué)報,2021,26(2):265?286.
[2] 王成,劉坤,杜礫.全參考圖像質(zhì)量指標(biāo)評價分析[J].現(xiàn)代電子技術(shù),2023,46(21):39?43.
[3] SU S L, YAN Q S, ZHU Y, et al. Blindly assess image quality in the wild guided by a self?adaptive hyper network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 3664?3673.
[4] YING Z Q, NIU H R, GUPTA P, et al. From patches to pictures (PaQ?2?PiQ): Mapping the perceptual space of picture quality [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 3572?3582.
[5] ZHOU W, JIANG Q P, WANG Y W, et al. Blind quality assessment for image superresolution using deep two?stream convolutional networks [J]. Information sciences, 2020, 528: 205?218.
[6] WEI X, LI J, ZHOU M, et al. Contrastive distortion?level learning?based no?reference image?quality assessment [J]. International journal of intelligent systems, 2022, 37(11): 8730?8746.
[7] SU S L, YAN Q S, ZHU Y, et al. From distortion manifold to perceptual quality: A data efficient blind image quality assessment approach [J]. Pattern recognition, 2023, 133: 109047.
[8] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2020?11?20]. https://arxiv.org/abs/2010.11929.
[9] LIU Z, HU H, LIN Y T, et al. Swin transformer V2: Scaling up capacity and resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11999?12009.
[10] YOU J, KORHONEN J. Transformer for image quality assessment [C]// 2021 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2021: 1389?1393.
[11] KE J J, WANG Q F, WANG Y L, et al. MUSIQ: Multi?scale image quality transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 5128?5137.
[12] LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection [C]// Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE, 2018: 404?419.
[13] GALANTI T, WOLF L. On the modularity of hypernetworks [C]// Advances in Neural Information Processing Systems. [S.l.: s.n.], 2020: 10409?10419.
[14] HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 9726?9735.
[15] GRILL J B, STRUB F, ALTCHé F, et al. Bootstrap your own latent: A new approach to self?supervised learning [J]. Advances in neural information processing systems, 2020, 33: 21271?21284.
[16] MADHUSUDANA P C, BIRKBECK N, WANG Y L, et al. Image quality assessment using contrastive learning [J]. IEEE transactions on image processing, 2022, 31: 4149?4161.
[17] WU X W, SAHOO D, HOI S C H. Recent advances in deep learning for object detection [J]. Neurocomputing, 2020, 396: 39?64.
[18] HOSU V, LIN H H, SZIRANYI T, et al. KonIQ?10k: An ecologically valid database for deep learning of blind image quality assessment [J]. IEEE transactions on image processing, 2020, 29: 4041?4056.
[19] FANG Y M, ZHU H W, ZENG Y, et al. Perceptual quality assessment of smartphone photography [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 3674?3683.
[20] ZHENG H L, YANG H, FU J L, et al. Learning conditional knowledge distillation for degraded?reference image quality assessment [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 10222?10231.
Multi?scale and multi?level authentic distorted image quality assessment
based on RFB and hyper networks
ZHOU Huaibo1, 2, JIA Huizhen1, 2, WANG Tonghan1, 2
(1. School of Information Engineering, East China University of Technology, Nanchang 330013, China;
2. Jiangxi Engineering Laboratory on Radioactive Geoscience and Big Data Technology, East China University of Technology, Nanchang 330013, China)
Abstract: An innovative dual?branch feature extraction method is proposed to achieve efficient cross?scale learning in the domain of authentic distorted image quality assessment. The method undergoes a two?phase training process. In the first phase, cross?scale and cross?color?space image content perception feature is extracted by a self?supervised contrast learning approach. In the second phase, a strategy based on dilated receptive fields and hypernetworks is employed to establish a cyclic feature fusion, which circularly interacts and integrates multi?level feature information with cross?scale information to obtain image quality features closer to human perception. On the basis of the validation on the publicly available authentic distorted image databases, the experimental results demonstrate that the proposed algorithm has achieved superior performance in the quality assessment of authentic distorted images. The experimental results show that the proposed algorithm can realize more efficient cross?scale learning, which provides a good foundation for the application of multi?scale deep network of image processing.
Keywords: image quality assessment; no?reference; authentic distortion; cross?scale learning; multi?feature fusion; double branch feature extraction
DOI:10.16652/j.issn.1004?373x.2024.09.009
引用格式:周懷博,賈惠珍,王同罕.基于RFB和超網(wǎng)絡(luò)的跨尺度多層次真實失真圖像質(zhì)量評價方法[J].現(xiàn)代電子技術(shù),2024,47(9):47?52.
收稿日期:2024?01?07"""""""""" 修回日期:2024?01?26
基金項目:國家自然科學(xué)基金項目(62266001);國家自然科學(xué)
基金項目(62261001)
作者簡介:周懷博(1999—),男,碩士,主要從事圖像處理、視覺信號的質(zhì)量評估方面的研究。
賈惠珍(1983—),女,博士,副教授,碩士生導(dǎo)師,主要從事計算機科學(xué)與技術(shù)專業(yè)、圖像處理、模式識別等方面的科研工作,主要研究方向為模式識別、機器學(xué)習(xí)在圖像處理方面的理論和應(yīng)用研究。
王同罕(1984—),男,博士,副教授,碩士生導(dǎo)師,主要從事人工智能在圖像處理、模式識別、計算機視覺方面的理論和應(yīng)用研究,研究重點包括視覺信號(含各類圖像,如自然圖像、醫(yī)學(xué)圖像、核影像和視頻等)的質(zhì)量評估、感知優(yōu)化及智能處理等。