李云飛 王紅成
(東莞理工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東東莞 523808)
圖像質(zhì)量是計(jì)算機(jī)視覺研究的熱點(diǎn)問題之一,圖像質(zhì)量的好壞直接影響圖像識別的準(zhǔn)確性[1-3]。圖像質(zhì)量評估(Image Quality Accessment, IQA)可以測試圖像采集設(shè)備的性能、衡量圖像的壓縮編碼算法的優(yōu)劣以及動態(tài)監(jiān)測圖像在網(wǎng)絡(luò)通信中的傳輸損失,可以幫助人們進(jìn)行圖像的篩選和優(yōu)化。圖像質(zhì)量評估按照是否依賴肉眼分為主觀評估和客觀評估兩種。主觀評估依賴人眼對于圖像失真的判斷給出估計(jì)值,而客觀評估依靠算法對圖像特征提取分析,用一定的評價(jià)尺度進(jìn)行評價(jià)獲得分?jǐn)?shù)。客觀質(zhì)量評估擁有統(tǒng)一的評價(jià)尺度,在客觀質(zhì)量評估中,根據(jù)是否有原始參考圖像,又分為全參考(Full Reference, FR)圖像質(zhì)量評價(jià)、半?yún)⒖?Reduced-Reference, RR)圖像質(zhì)量評價(jià)和無參考圖像質(zhì)量評價(jià)(No-Reference, NR)。
無參考圖像質(zhì)量評估主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。在傳統(tǒng)方法中,往往要先提取一些重要失真特征,計(jì)算圖像各個(gè)特征上的特征值,然后用支持向量機(jī)回歸(Support Vector Regression, SVM)的方法做擬合預(yù)測,其準(zhǔn)確率依賴于人工設(shè)計(jì)和提取的影響失真的關(guān)鍵特征。
2012年,AlexNet[4]的出現(xiàn)標(biāo)志著神經(jīng)網(wǎng)絡(luò)的復(fù)蘇和深度學(xué)習(xí)的崛起。隨后,人們設(shè)計(jì)了VGGNet[5]、GoogLeNet[6]、ResNet[7]等神經(jīng)網(wǎng)絡(luò),這為圖像研究領(lǐng)域提供了新方法。目前,人們已將深度學(xué)習(xí)方法用于圖像質(zhì)量評估,并經(jīng)取得了不俗的效果。但必須指出的是,盡管神經(jīng)網(wǎng)絡(luò)特征提取能力已經(jīng)非常強(qiáng)大,模型準(zhǔn)確率仍有待進(jìn)一步提高。
近來,隨著視覺領(lǐng)域中普通卷積神經(jīng)網(wǎng)絡(luò)模型的性能提升接近瓶頸,識別準(zhǔn)確率提高愈發(fā)困難,自然語言處理中注意力機(jī)制[8-11]受到了機(jī)器視覺研究者的廣泛關(guān)注。圖像中的注意力機(jī)制在思想上與自然語言處理中的注意力機(jī)制相同,而在具體的實(shí)現(xiàn)上有所不同。文獻(xiàn)[12]利用注意力機(jī)制設(shè)計(jì)出卷積注意力模塊,可以將其嵌入到經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)中,增強(qiáng)圖像的特征提取能力。
本文提出了基于雙分支卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的無參考圖像評估方法,在特征提取階段使用了雙分支卷積神經(jīng)網(wǎng)絡(luò),包含兩個(gè)分支,一個(gè)是空間域,提取從淺到深的一般圖像特征,另一個(gè)分支是梯度域,先使用梯度算子提取對應(yīng)的梯度特征圖,并用神經(jīng)網(wǎng)絡(luò)提取梯度域特征即邊緣特征。并在特征提取過程中引入注意力機(jī)制模塊,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力,從而提取更豐富的失真特征,并將空間域和梯度域這兩路特征進(jìn)行融合,使用這種新方法能夠提取更有效的失真特征,提高圖像質(zhì)量預(yù)測的準(zhǔn)確率。
該方法在KonIQ-10k[13]數(shù)據(jù)集上的實(shí)驗(yàn)表明,用于衡量模型性能的皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient, PLCC),斯皮爾曼秩序相關(guān)系數(shù)(Spearman Rank-Order Correlation Coefficient, SRCC)等關(guān)鍵指標(biāo)都有所提升。
與計(jì)算機(jī)視覺和圖像處理任務(wù)相似,傳統(tǒng)的NR-IQA需要頂尖專家設(shè)計(jì)出合適的特征提取器,利用特征提取器從失真圖像中提取出特征,然后利用SVM進(jìn)行失真類型的判斷,也可以利用SVR支持向量機(jī)回歸模型進(jìn)行回歸擬合,輸出失真圖像的預(yù)測質(zhì)量分?jǐn)?shù)。許多傳統(tǒng)NR-IQA方法來源于自然場景統(tǒng)計(jì)(Natural Scene Statistics, NSS)模型:自然場景圖像的某些統(tǒng)計(jì)特性在存在失真情況下會發(fā)生改變。文獻(xiàn)[1]提出了BIQI(Blind Image Quality Indices)算法,該算法提取小波域的自然場景統(tǒng)計(jì)特征,利用支持向量機(jī)得到圖像失真類型。文獻(xiàn)[2]提出了基于廣義高斯分布的支持向量機(jī)。文獻(xiàn)[3]先進(jìn)行具體失真類型判斷,而后根據(jù)特定失真類型進(jìn)行質(zhì)量評估。文獻(xiàn)[14]提出不依賴于特定失真類型分別計(jì)算失真程度,直接使用自然場景統(tǒng)計(jì)中的局部標(biāo)準(zhǔn)化亮度系數(shù)來統(tǒng)一衡量圖像失真程度。文獻(xiàn)[15]提出了一個(gè)簡單高效的BRISQUE方法,對圖像中由于存在失真而可能造成的自然性損失進(jìn)行了量化。文獻(xiàn)[16]提取失真圖像小波域中的特征。文獻(xiàn)[17]用離散余弦變換系數(shù)在圖像的空間域和變換域中中定義了不同類型的自然場景統(tǒng)計(jì)(NSS)特征。文獻(xiàn)[18]定義并使用了一組新的低級圖像特征,包含自然圖像統(tǒng)計(jì)特征,失真紋理特征,噪音/模糊特征,豐富了獲取的失真特征。文獻(xiàn)[19]提出了構(gòu)建失真圖像信息豐富區(qū)域的質(zhì)量感知特征去擬合多元高斯模型,擺脫了對圖像質(zhì)量標(biāo)簽的依賴。文獻(xiàn)[20-21] 中應(yīng)用了字典學(xué)習(xí),可以從未處理的原圖中提取更有效的特征。在這些模型中,可以調(diào)節(jié)的參數(shù)有限,對數(shù)據(jù)集的大小沒有要求,但評估的準(zhǔn)確率較低。
當(dāng)深度學(xué)習(xí)剛開始應(yīng)用到質(zhì)量評估領(lǐng)域時(shí),特征提取操作還是依賴于人工,只是用DBN(也即現(xiàn)在網(wǎng)絡(luò)中全連接層)做失真分類或者質(zhì)量分?jǐn)?shù)回歸,但準(zhǔn)確率已有明顯的提高。文獻(xiàn)[22]使用了DBN,在小波域中被提取的有關(guān)NSS特征被放進(jìn)深度模型中學(xué)習(xí)。文獻(xiàn)[23]獲取了從Shearlet變換圖像中獲取到NSS相關(guān)的特征,然后通過使用堆疊自動編碼器來回歸擬合特征和評價(jià)標(biāo)簽分?jǐn)?shù)之間的映射關(guān)系。文獻(xiàn)[24]使用DoG特征和自動編碼器。文獻(xiàn)[25]嘗試使用多種域變換來提取大量的NSS特征,并用DBN來預(yù)測分?jǐn)?shù)。隨著發(fā)展變化,深度模型替代了傳統(tǒng)回歸模型,深度網(wǎng)絡(luò)所提取的特征要遠(yuǎn)比手動設(shè)計(jì)的特征豐富,文獻(xiàn)[26]和[27]應(yīng)用了CNN自動提取特征實(shí)現(xiàn)了端到端的圖像質(zhì)量評估,為了擴(kuò)充數(shù)據(jù)集大小,將圖像進(jìn)行了切分。文獻(xiàn)[28]采用了一個(gè) 12層的深的卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[29]提出應(yīng)用雙通道卷積神經(jīng)網(wǎng)絡(luò)做圖像單失真類型判定,作者使用的小波變換,算子和我們使用的有所不同,并且是做分類任務(wù)的。文獻(xiàn)[30]提出了雙流CNN結(jié)構(gòu)的模型,使用的是結(jié)構(gòu)相同的兩個(gè)子網(wǎng)絡(luò)分別提出失真圖和對應(yīng)梯度圖的特征,我們的兩個(gè)子網(wǎng)絡(luò)并不相同,提取出的兩種特征維度也不相同。文獻(xiàn)[9]提出使用self-attention block作為網(wǎng)絡(luò)的基礎(chǔ)模塊替代普通的卷積操作十分有效。文獻(xiàn)[10]提出使用“獨(dú)立自注意力”層創(chuàng)建的純注意力模型超越了使用卷積的基準(zhǔn)模型。文獻(xiàn)[11]研究表明應(yīng)用于圖像的自注意力層可以代替任何卷積層。文獻(xiàn)[31,12]將注意力機(jī)制和卷積運(yùn)算相結(jié)合,取得了當(dāng)前最好的效果,文獻(xiàn)[12]提出了卷積注意力模塊,分別包含兩個(gè)子模塊,通道注意力模塊和空間注意力模塊,文獻(xiàn)[32]提出了17層深的神經(jīng)網(wǎng)絡(luò)模型,引入了局部質(zhì)量和局部權(quán)重的概念,構(gòu)建了純粹數(shù)據(jù)驅(qū)動的端到端的預(yù)測模型,它不依賴于手工設(shè)計(jì)特征以及人的視覺系統(tǒng)和圖像統(tǒng)計(jì)學(xué)先驗(yàn)知識,在交叉數(shù)據(jù)集上取得了較好的效果。文獻(xiàn)[33] 提出了包含兩階段的模型,先使用參考圖像輔助深度學(xué)習(xí)模型的預(yù)訓(xùn)練,而后學(xué)習(xí)從失真圖像到質(zhì)量分?jǐn)?shù)的映射,并額外加入兩個(gè)手工設(shè)計(jì)的特征,進(jìn)一步增強(qiáng)了準(zhǔn)確性。
一般地,IQA模型利用在分類任務(wù)中表現(xiàn)出色的神經(jīng)網(wǎng)絡(luò),并對其全連接層加以改造來做圖像質(zhì)量評估這一回歸預(yù)測問題。由于失真圖像的許多統(tǒng)計(jì)特征可能產(chǎn)生改變,提出將利用雙分支神經(jīng)網(wǎng)絡(luò),在2.1節(jié)中給出了雙分支結(jié)構(gòu)圖,用其中一個(gè)分支提取重要的邊緣特征。首先,把所有圖像利用梯度域算子prewitte算子完整提取一幅圖像的梯度域特征,得到對應(yīng)梯度圖,在2.2節(jié)中給出了梯度提取的過程。然后,使用空間域分支進(jìn)行提取普通的特征,在2.3節(jié)中介紹了空間域網(wǎng)絡(luò)分支的結(jié)構(gòu);使用梯度域分支提取梯度圖的邊緣特征,在2.4節(jié)中介紹了梯度域網(wǎng)絡(luò)分支的結(jié)構(gòu),并進(jìn)行特征融合;最后,將特征送入到全連接層中,做質(zhì)量預(yù)測。為了增強(qiáng)模型特征提取能力,在空間域網(wǎng)絡(luò)分支中我們引入了卷積注意力模塊,2.5節(jié)中介紹了卷積注意力模塊。
整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。原始失真圖像分批次被送入空間域分支網(wǎng)絡(luò),提取到空間域特征。與此同時(shí),將邊緣特征圖送入到梯度域分支網(wǎng)絡(luò),獲取到梯度域特征,然后將兩個(gè)分支提取到的特征連接起來送入到全連接層,進(jìn)行質(zhì)量擬合預(yù)測,輸出質(zhì)量分?jǐn)?shù)。
圖1 網(wǎng)絡(luò)分支結(jié)構(gòu)圖
圖像梯度特征是圖像質(zhì)量評估里面一個(gè)重要的特征,體現(xiàn)了圖像中的高頻部分。如果圖像失真,相應(yīng)的圖像的邊緣特征會出現(xiàn)模糊、殘缺等現(xiàn)象。一般地,人們可以通過梯度算子提取圖像的梯度特征。本文采用prewitt算子來提取邊緣特征。Prewitt算子是一種常用的一階邊緣提取算子,其在水平和垂直兩個(gè)方向上的卷積核H和V可以分別定義為:
(1)
利用水平方向的卷積核H和垂直方向的卷積核V,對圖像進(jìn)行卷積操作,可以分別得到水平邊緣特征和垂直邊緣特征。對于一幅給定的圖像I,在水平方向和垂直方向上梯度圖像特征圖H_G和V_G的計(jì)算可以分別表示為:
H_G=H?I
(2)
V_G=V?I,
(3)
其中,表示卷積操作。
經(jīng)過式(2)、式(3)可以得到水平方向上梯度特征和垂直方向上梯度特征,取水平方向和垂直方向上的梯度特征圖中灰度值中較大者,便可以得到最終的圖像梯度特征。
I_G=MAX(H_G,V_G),
(4)
圖2給出了兩個(gè)典型的原始失真圖像和對應(yīng)梯度圖。
本文的空間域網(wǎng)絡(luò)分支結(jié)構(gòu)是在Inceptionresnet v2[34]的模型結(jié)構(gòu)基礎(chǔ)上加以改進(jìn)而得的。Inceptionresnet v2的詳細(xì)結(jié)構(gòu)見文獻(xiàn)[34],在此不再贅述。由文獻(xiàn)[13]可知,對于圖像質(zhì)量評估這一視覺任務(wù)而言,Inceptionresnet v2是目前最好的網(wǎng)絡(luò)結(jié)構(gòu)。本文所提出的空間域網(wǎng)絡(luò)分支網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其網(wǎng)絡(luò)依次包含Stem子模塊,5個(gè)Inception-resnet-A子模塊(改善提取特征,不改變特征圖大小和通道數(shù)),Reduction-A(減少特征圖大小一倍),10個(gè)Inception-resnet-B子模塊(改善提取到的特征,不改變特征圖大小和通道數(shù)),Reduction-B(減少特征圖大小一倍),5個(gè)Inception-resnet-C子模塊(改善提取到的特征,不改變特征圖大小和通道數(shù)),以及平均池化操作模塊。
在中間層特征的Inceptionresnet-B中引入了卷積注意力模塊。
在梯度域網(wǎng)絡(luò)分支中,首先輸入圖像經(jīng)過梯度域算子prewitt提取之后形成單通道灰度圖像,圖像原始大小512x384并未發(fā)生改變。然后,使用7x7卷積核,大的卷積核有利于獲得更大的感受野,再依次使用5x5卷積核以及3x3卷積核,池化(池化窗口為2,步長為2,無填充),3x3卷積,池化操作,最終形成5x8像素的512通道的特征圖,詳細(xì)結(jié)構(gòu)如圖4所示。
圖2 典型的原始圖像和對應(yīng)的梯度域圖
圖3 空間域網(wǎng)絡(luò)分支網(wǎng)絡(luò)結(jié)構(gòu)
圖4 梯度域網(wǎng)絡(luò)分支網(wǎng)絡(luò)結(jié)構(gòu)
卷積注意力模塊(Convolutional Block Attention Module,CBAM)分為空間域注意力機(jī)制和通道中注意力機(jī)制,對這兩個(gè)模塊進(jìn)行不同的組合可以得到并行注意力機(jī)制和串行注意力機(jī)制,參考了卷積注意力模塊,將這種輕量級的結(jié)構(gòu)加入到神經(jīng)網(wǎng)絡(luò)中,有效提升網(wǎng)絡(luò)的表達(dá)能力。在卷積過程中,對于提取到的中間層特征,先使用通道注意力子模塊,對通道特征先進(jìn)行壓縮在進(jìn)行擴(kuò)大,得到通道增強(qiáng)的特征,然后送入到空間注意力子模塊中,對于一個(gè)通道內(nèi)的特征進(jìn)行空間增強(qiáng),獲得了經(jīng)過強(qiáng)化的特征。卷積注意力機(jī)制具體流程如圖5所示。
圖5 卷積注意力模塊示意圖
通道注意力子模塊內(nèi)操作步驟如圖6所示,包含多通道的中間特征被輸入,經(jīng)過兩路分支,一路進(jìn)行平均池化,一路進(jìn)行最大池化,然后分別進(jìn)行卷積,卷積時(shí)利用不同的卷積核數(shù)量,對通道數(shù)量進(jìn)行壓縮,再經(jīng)過激活函數(shù)進(jìn)行非線性變換后對通道數(shù)量進(jìn)行擴(kuò)大,最后再對兩路特征進(jìn)行連接融合,在經(jīng)過sigmoid激活函數(shù)輸出通道增強(qiáng)后的特征。
圖6 通道注意力子模塊圖
空間注意力子模塊具體流程如圖7所示。該模塊對一個(gè)通道內(nèi)的二維特征圖分別從行和列的角度進(jìn)行一種類似平均池化(求每行的平均值)和最大池化(求每行的最大值)的操作,然后將兩路特征進(jìn)行連接融合,經(jīng)過卷積、池化操作,輸出空間增強(qiáng)的特征。
圖7 空間注意力子模塊圖
由于原有的圖像質(zhì)量評估數(shù)據(jù)集的規(guī)模較小,因此用于圖像質(zhì)量評估(IQA)的網(wǎng)絡(luò)層數(shù)受到限制,進(jìn)而對準(zhǔn)確率和模型泛化能力有一定的影響。康斯坦茨大學(xué)的Vlad Hosu等人創(chuàng)造了包含10 073張樣本圖像的Koniq-10k[13]數(shù)據(jù)集。該數(shù)據(jù)集使用了平均主觀得分 (Mean Opinion Score, MOS),通過每個(gè)觀察志愿者對每幅圖像給出質(zhì)量分?jǐn)?shù),去除不合格的分?jǐn)?shù),取平均值作為該數(shù)據(jù)集圖像的標(biāo)簽分?jǐn)?shù)。圖像質(zhì)量評分結(jié)果來自2 302名質(zhì)量評估志愿者的打分,圖像質(zhì)量評級分為5個(gè)級別,每張圖片被評價(jià)150次,將分?jǐn)?shù)按照合理的方法映射到[0, 100]區(qū)間內(nèi)。相比文獻(xiàn)[35-38]的數(shù)據(jù)集,該數(shù)據(jù)集是圖像質(zhì)量評估領(lǐng)域最可靠,規(guī)模最大和最受歡迎的數(shù)據(jù)集。在此數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可更好地驗(yàn)證所提方法的有效性。
實(shí)驗(yàn)基于深度學(xué)習(xí)框架pytorch 1.8版本實(shí)現(xiàn)。實(shí)驗(yàn)設(shè)備為一臺云服務(wù)器,操作系統(tǒng)為Ubuntu 18.04,CPU為Intel Xeon E5-2678 v3 64G 24核,GPU為RTX 2080 Ti,顯存11G。實(shí)驗(yàn)中使用了Adm優(yōu)化算法,學(xué)習(xí)率前15 epochs設(shè)置為1e-4,后20epochs設(shè)置為1e-5,這樣既能加快訓(xùn)練速度,又不至于導(dǎo)致模型回來震蕩。圖像分辨率512x384,每批次超參batchsize=32。數(shù)據(jù)集被隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,其中相應(yīng)比例為7:1:2。為了避免實(shí)驗(yàn)的偶然性,保證實(shí)驗(yàn)可復(fù)現(xiàn),實(shí)驗(yàn)一共進(jìn)行10輪取平均值,在衡量實(shí)驗(yàn)結(jié)果時(shí)我們使用了常用的衡量標(biāo)準(zhǔn),損失函數(shù)采用均方誤差損失函數(shù)。
在圖像質(zhì)量評估領(lǐng)域中,評價(jià)模型對于失真圖像失真程度判斷的準(zhǔn)確性(預(yù)測分?jǐn)?shù)與實(shí)際分?jǐn)?shù)準(zhǔn)確性)常用的有三個(gè)指標(biāo),分別是均方誤差(Mean Square Error, MSE),皮爾遜線性相關(guān)系數(shù)(PLCC),斯皮爾曼秩序相關(guān)系數(shù)(SRCC)。
3.3.1 均方誤差
均方誤差MSE用于計(jì)算模型計(jì)算值與實(shí)際MOS值之間的絕對誤差,其大小能直接地衡量模型的好壞。設(shè)mi和pi分別表示第I幅測試圖像的標(biāo)簽分?jǐn)?shù)值及模型預(yù)測值,n為測試集圖像數(shù)量,則均方誤差可表示為式(5)。
(5)
3.3.2 皮爾遜線性相關(guān)系數(shù)
PLCC用于評估模型的預(yù)測值與實(shí)際標(biāo)簽數(shù)值線性相關(guān)性,其取值[-1,1],越接近1說明模型預(yù)測值越接近實(shí)際值,模型越好,反之模型較差。該指標(biāo)間接衡量了模型的好壞。其表達(dá)為式(6)。
(6)
3.3.3 斯皮爾曼秩序相關(guān)系數(shù)
SRCC常常用來評估模型的預(yù)測結(jié)果是否具有單調(diào)性。其計(jì)算如式(7)。
(7)
其中,lmi表示第i幅圖像在主觀標(biāo)簽有序序列m中的位置,lpi表示第i幅圖像在客觀預(yù)測有序序列p中的位置。從該指標(biāo)上可以看出,模型的評價(jià)結(jié)果是否與圖像的實(shí)際分?jǐn)?shù)的變化呈現(xiàn)出同步變化,取值[-1,1]絕對值越大表示模型的性能越好。
圖8 訓(xùn)練過程中MSE損失函數(shù)變化
在訓(xùn)練過程中,使用均方誤差作為損失函數(shù)。圖8給出了訓(xùn)練過程中MSE損失函數(shù)的變化。損失分為訓(xùn)練集上損失和驗(yàn)證集上損失,其值均隨著迭代次數(shù)逐步下降,當(dāng)訓(xùn)練損失接近驗(yàn)證損失時(shí)候,訓(xùn)練中止。在訓(xùn)練中,我們參考PLCC指標(biāo)作為衡量模型的因素之一,可以在圖9中看到隨著迭代次數(shù)增加,PLCC代表準(zhǔn)確率在上升,最后趨于平緩。
圖9 訓(xùn)練過程中PLCC指標(biāo)變化
將本文方法和其他方法[13]在數(shù)據(jù)集上所得結(jié)果歸納到表1中。可以看出,使用本文方法后,用于衡量模型的PLCC指數(shù)和SRCC指數(shù)均有所提高,分別達(dá)到0.945和0.928。
表1 本文方法和其他方法[10]在數(shù)據(jù)集上結(jié)果對比
為了討論加入梯度域和引入CBAM模塊對模型分別帶來的影響,確定這兩個(gè)改進(jìn)的意義,進(jìn)行了消融實(shí)驗(yàn)。把只使用基準(zhǔn)模型的方法為記作M1,只加入梯度域來提取邊緣特征的方法為M2,只加入CBAM模塊提高表征能力的方法為M3,同時(shí)引入梯度域和CBAM的方法為M4。通過多次消融實(shí)驗(yàn),可以發(fā)現(xiàn)加入梯度域特征和卷積注意力模塊均有作用,都能提升網(wǎng)絡(luò)的表達(dá)能力。同時(shí)引入梯度域和CBAM時(shí)效果最佳。
表2 消融實(shí)驗(yàn)結(jié)果
對于無參考圖像質(zhì)量評估,本文提出了基于雙分支卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的無參考圖像評估新方法。首先利用雙分支卷積神經(jīng)網(wǎng)絡(luò)分別提取空間域特征和梯度特征,然后將特征直接進(jìn)行連接,經(jīng)過全連接層輸出預(yù)測的圖像質(zhì)量分?jǐn)?shù),并且還利用了CBAM 卷積注意力模塊,進(jìn)一步提高了模型的表示能力。通過在當(dāng)前最大型最受歡迎的圖像質(zhì)量評估數(shù)據(jù)集Koniq-10k上的實(shí)驗(yàn)發(fā)現(xiàn),同時(shí)引入梯度域和CBAM可以有效提升圖像質(zhì)量識別精度,實(shí)現(xiàn)了當(dāng)前最好的效果。