楊曉東,韓振奇,劉立莊,趙 丹
1.中國科學院 上海高等研究院,上海 201210
2.中國科學院大學,北京 100049
隨著科技的快速發(fā)展,圖像作為信息的主要形式之一,在社交網(wǎng)絡(luò)和智能移動終端中占據(jù)著重要地位,對于任何顯示設(shè)備,圖像的質(zhì)量是十分重要的技術(shù)指標。然而,圖像在產(chǎn)生、傳輸、處理和存儲的過程中會產(chǎn)生各種失真,會極大地影響觀察者的主觀舒適度和其他視覺任務(wù)的準確率。因此,客觀畫質(zhì)評價方法研究具有重要的社會意義。在現(xiàn)有的方法中,由于實際場景的參考圖像較難獲取,無參考方法成為了主要研究方向。
造成圖像失真的因素主要分為兩個方面:環(huán)境條件和拍攝手法,可能導致圖像產(chǎn)生離焦模糊、運動模糊、噪聲、過曝、欠曝等現(xiàn)象,如圖1所示;圖像處理過程,可能會引起有損壓縮、高斯噪聲和對比度衰減等,導致圖像質(zhì)量下降[1]。引入失真圖像會降低其他視覺任務(wù)性能,在Dodge 等人[2]的研究中,神經(jīng)網(wǎng)絡(luò)易受模糊和噪聲失真圖像的影響,會加大網(wǎng)絡(luò)學習的難度。因此,客觀圖像質(zhì)量評價可用于指導圖像處理,以提高其他任務(wù)的性能。此外,在工業(yè)生產(chǎn)中,畫質(zhì)評價廣泛也應(yīng)用于顯示器設(shè)備的畫質(zhì)調(diào)試和相機自動聚焦,評價結(jié)果可與軟硬件處理相結(jié)合,以得到更高的畫質(zhì)和更精準的聚焦,具有較高的實用價值。
畫質(zhì)評價學術(shù)上稱為圖像質(zhì)量評價,方法分為主觀質(zhì)量評價和客觀質(zhì)量評價。主觀質(zhì)量評價指標分為平均主觀意見分(mean opinion score,MOS)和平均主觀得分差異(differential mean opinion score,DMOS)。普遍認為主觀評價較為可靠[3],但耗費大量時間人力成本,一般作為真實值來衡量主客觀評價一致性。對于客觀質(zhì)量評價,根據(jù)參考標準圖像信息的程度,將相關(guān)研究工作分為全參考型、半?yún)⒖夹秃蜔o參考型。
全參考(full-reference,F(xiàn)R)圖像質(zhì)量評價是利用標準圖像所有信息與待評價圖像計算相應(yīng)指標而得出質(zhì)量分數(shù)。傳統(tǒng)的計算指標有均方誤差、信噪比和峰值信噪比,計算速度快但準確度較低。近年來利用亮度、對比度、結(jié)構(gòu)、梯度等質(zhì)量特征進行相似度計算的方法逐漸發(fā)展,常用的指標有SSIM[4]、FSIM[5]、GMSD[6],以及DASM[7]等。隨著深度學習的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)模型也被用于全參考圖像質(zhì)量評估。例如Liang等人[8]提出路徑深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),利用“自然度”信息,對于非對齊相似場景能取得較好效果。Gao等人[9]提出的DeepSim模型通過測量深度特征的局部相似性,并融合局部指標來計算總分。Kim等人[10]提出的DeepQA方法是從IQA數(shù)據(jù)庫分布中學習信息,產(chǎn)生視覺敏感度分布權(quán)重圖,預(yù)測精度較高。FRIQA主客觀一致性評價較好,但在多數(shù)實際情況中并不適用。
半?yún)⒖迹╮educed-reference,RR)方法是以理想圖像的部分特征作為參考,對待評估圖像進行分析得出結(jié)果,主要為解決在無線傳輸條件圖像質(zhì)量評估問題而發(fā)展。Wang等人[11]提出RR-IQA方法,在小波域分解圖像并擬合系數(shù)分布,計算KL距離作為評估分數(shù)。Soundararajan 等人[12]提出RRED 方法,在高斯混合尺度模型下使用參考和評價圖像的交叉熵來預(yù)測質(zhì)量。
無參考(no-reference,NR)方法也稱作盲圖像質(zhì)量評估(blind image quality assessment,BIQA),是學習待評價圖像本身特征到主觀質(zhì)量的映射關(guān)系,不利用參考圖像的任何信息,具有較大挑戰(zhàn)性。對于自然統(tǒng)計特征的研究,有空域熵和梯度、頻域熵和小波域等特征,例如BIQI[13]、NIQE[14]、BRISQUE[15]和SSEQ[16]指標,典型的是Xu 等人[17]提出高階統(tǒng)計量聚合(HOSA)方法,通過K-means 聚類局部特征構(gòu)造碼本,計算類均值和方差等,構(gòu)建全局質(zhì)量感知特征,采用支持向量機(support vector machine,SVM)學習質(zhì)量映射關(guān)系,其性能在傳統(tǒng)方法中具有競爭力。對于深度學習的方法研究,一般利用其他任務(wù)的深層語義特征作為先驗知識輔助學習。Bianco 等人[18]提出DeepBIQ 模型,采用使用VGG16 網(wǎng)絡(luò)提取特征,支持向量回歸(support vector regression,SVR)預(yù)測質(zhì)量。Liu等人[19]提出RankIQA網(wǎng)絡(luò),采用遷移學習的思想,對原始圖像和失真圖像訓練孿生網(wǎng)絡(luò)等級質(zhì)量的圖像對。Zeng 等人[20]對流行的預(yù)訓練模型進行微調(diào),以學習概率質(zhì)量表示(PQR)。Pan 等人[21]提出BPSQM模型分為預(yù)測相似質(zhì)量圖和池化網(wǎng)絡(luò)分數(shù)預(yù)測兩部分。針對不同圖像內(nèi)容和失真類型的問題,Li 等人[22]提出SFA思想,統(tǒng)計聚合多個patch的語義特征,用分類模型得到上下文感知屬性;Zhang 等人[23]提出深度雙線性模型DBCNN,對于綜合和真實的失真圖像都有效;Zhu 等人提出[24]了基于深度元學習的IQA 度量MetaIQA,將不同畸變的圖像質(zhì)量評估時共享的元知識作為先驗,以適應(yīng)未知畸變;Su 等人[25]提出HyperIQA,通過超網(wǎng)絡(luò)自適應(yīng)地建立感知規(guī)則,并將其用于質(zhì)量預(yù)測網(wǎng)絡(luò)?;贙oniq-10k 數(shù)據(jù)集,Hosu 等人[26]提出Koncept512模型,核心架構(gòu)為Inception-ResNet-v2,具有較高的泛化能力。針對MAE 和MSE 損失函數(shù)收斂速度緩慢的問題,Li 等人[27]設(shè)計了一種與PLCC 和RMSE指標密切相關(guān)的歸一化損失函數(shù)(norm-in-norm loss,NINLoss),取主客觀分數(shù)歸一化的差值范數(shù),梯度更穩(wěn)定,加快IQA 模型收斂速度,在KonIQ-10k 數(shù)據(jù)集上獲得了先進的預(yù)測性能。
無參考評價方法普遍面臨失真復雜性和內(nèi)容依賴性的挑戰(zhàn),自然統(tǒng)計特征方法有局限性且準確率低,深度學習方法雖然性能提升較大,但多數(shù)的質(zhì)量特征表達還不夠充分有效。針對此問題,本文提出了一種基于密集哈達瑪卷積的雙通道無參考圖像質(zhì)量評價網(wǎng)絡(luò)。該方網(wǎng)絡(luò)由骨干網(wǎng)絡(luò)和分數(shù)評估網(wǎng)絡(luò)級聯(lián)組成,其中,骨干網(wǎng)絡(luò)采用的是Inception-ResNet-v2,主要負責圖像質(zhì)量特征提??;分數(shù)評估網(wǎng)絡(luò)采用多層感知機和多層卷積并聯(lián)的雙通道結(jié)構(gòu),充分結(jié)合了多層次的語義特征,增強特征表達的多樣性。在多層感知機分支中設(shè)計了密集哈達瑪卷積模塊(DHPM),即通過哈達瑪乘積的形式將低層神經(jīng)元特征與高層神經(jīng)元特征進行組合變換,起到一定的自注意力作用。
雙通道密集哈達瑪卷積圖像質(zhì)量評價網(wǎng)絡(luò)的整體架構(gòu)如圖2 所示,由骨干網(wǎng)絡(luò)和分數(shù)評估網(wǎng)絡(luò)級聯(lián)組成。(1)骨干網(wǎng)絡(luò),采用特征提取能力優(yōu)秀的Inception-Resnet-v2 網(wǎng)絡(luò),以ImageNet 預(yù)訓練權(quán)重提取分類特征作為先驗,在質(zhì)量評估數(shù)據(jù)集上進行微調(diào),以解決內(nèi)容依賴性問題。網(wǎng)絡(luò)輸入是三維的待評估圖像,輸出1 536維特征圖。(2)分數(shù)評估網(wǎng)絡(luò),采用多層感知機和多層卷積并聯(lián)雙通道特征融合結(jié)構(gòu)。多層感知機實現(xiàn)特征變換,密集哈達瑪卷積模塊以輸入作為權(quán)重,與每層特征映射做哈達瑪積。其使用多特征融合和高級表達以更好地處理失真復雜度。(3)分數(shù)評估網(wǎng)絡(luò)連接在骨干網(wǎng)絡(luò)之后,模型輸入輸出分別為待評價圖像和質(zhì)量分數(shù)。
整個框架的骨干部分應(yīng)該具有較強的特征提取力,因此本文采用Inception-ResNet-v2網(wǎng)絡(luò)。在一定程度上,隨著網(wǎng)絡(luò)加深,語義特征更高級和抽象,圖像質(zhì)量越容易分辨。以ILSVRC 圖像分類的表現(xiàn)為參考標準,在ResNet與GoogLeNet的結(jié)合體中,Inception-ResNet-v2的性能十分優(yōu)秀,能夠充分挖掘圖像的特征,減少卷積過程中信息的損失。殘差網(wǎng)絡(luò)中的shortcut既可以加速訓練,又能防止梯度彌散,易于訓練深層網(wǎng)絡(luò);Inception模塊增加了網(wǎng)絡(luò)的寬度和多尺度適應(yīng)性;再加上足夠大的網(wǎng)絡(luò)規(guī)模,使得Inception-ResNet-v2的Top-1準確率高達80.4%。Inception-ResNet-v2 的網(wǎng)絡(luò)框架如圖3 所示,包含Stem網(wǎng)絡(luò)、各種Inception-Resnet 模塊和適配的Reduction 模塊[28]。在本實驗中,不包含Average Pooling、Dropout和Softmax層,提取的特征圖直接輸出到預(yù)測網(wǎng)絡(luò)中。
1.2.1 密集哈達瑪卷積
密集哈達瑪卷積,也稱為密集哈達瑪乘積,是根據(jù)Liu 等人[29]提出的Dendrite Net(DD)總結(jié)而來。Dendrite Net 不同于卷積神經(jīng)網(wǎng)絡(luò),此結(jié)構(gòu)中只含全連接的特征映射層,并通過將輸入與每層特征融合來表達各個輸入與輸出的復雜關(guān)系,式(1)為前向傳播表達式:
其中,X是DD網(wǎng)絡(luò)整體的輸入,Al-1和Al分別為第l層的輸入和輸出特征,Wl,l-1是第l-1 到第l個模塊的變換權(quán)重,運算符°表示哈達瑪積。相對于神經(jīng)元網(wǎng)絡(luò),DD具有較低的計算復雜度和更好的泛化能力,在回歸問題上表現(xiàn)出良好的性能。
本文提出的DHPM由3層DD組成,如圖4所示,輸入X是特征向量,輸出為F(x)。X除了進行權(quán)重變換之外,還有一個恒等映射的連接到每層的輸出,這點與殘差模塊結(jié)構(gòu)[30]十分相似,也同樣使得深度質(zhì)量評價網(wǎng)絡(luò)易于訓練和優(yōu)化。不同的是,圖4結(jié)構(gòu)不是模塊的簡單堆疊,每層輸出都與原始輸入融合。在恒等映射的連接結(jié)構(gòu)上,又類似于DenseNet[31]的密集連接,能夠加強特征的傳遞,從而更有效地利用特征,所以稱之為密集哈達瑪卷積。
對于前饋特征的融合方式,一般為通道維度上的連接或者空間位置的相加,DHPM結(jié)構(gòu)中則使用了哈達瑪積,可以理解為引入了一種特殊的自注意力機制[29]。在視覺自注意力機制的模塊結(jié)構(gòu)中,兩個信息流分別用來評估注意力權(quán)重和特征線性映射,輸出通過哈達瑪乘積聚合[32]。對應(yīng)于圖4,左信息流是特征變換,右信息流的恒等映射相當于圖片內(nèi)容相關(guān)的權(quán)重。對于空間和通道特定位置上的特征自適應(yīng)加權(quán),可以將重要的特征放大,抑制不重要的特征。
對于DHPM,從輸出表達式來進一步分析其特性。假設(shè)輸入X是3維特征向量,輸出表達式如式(2)所示:
X依次經(jīng)過三個權(quán)重矩陣(W10、W21和W32)的變換,每層輸出都與X對應(yīng)相乘。輸出項是三個特征與權(quán)重的組合項,有單特征的高次冪項和多特征乘積項;組合項的權(quán)重系數(shù)較多,可使得特征學習更為靈活。而傳統(tǒng)的多層感知機只有特征的一次項,輸出是輸入的線性疊加,特征表達形式較為局限。對于無法用公式表達的抽象特征映射函數(shù),密集哈達瑪集成恰好是泰勒展開式,理論上可以近似到所需的任何精度[29]。
1.2.2 雙通道結(jié)構(gòu)
雙通道結(jié)構(gòu)由兩個特征變換分支組成,如圖2 所示。骨干網(wǎng)絡(luò)輸出的特征圖作為輸入,接著流向兩個支路。多層感知機支路包含全局平均池化(global average pooling,GAP)、3 層全連接層(fully connected,F(xiàn)C)和3層DD,全連接層神經(jīng)元個數(shù)分別為2 048、1 024、256;卷積支路串聯(lián)3層卷積,卷積核大小均為1×1,個數(shù)為512、256和128,輸出特征圖再經(jīng)過全局平均池化(gap2),得到128維特征向量。最后連接(concat)以上兩個通道的特征向量,經(jīng)過全連接層(fc7)映射到質(zhì)量分數(shù)。
具體的,DHPM嵌在全連接支路,X和Y分別為輸入和輸出特征,全連接層表示特征的線性映射,°表示哈達瑪積。DHPM 在分數(shù)評估網(wǎng)絡(luò)中能夠逼近全局最優(yōu),其層數(shù)可以有效調(diào)整特征表達能力,層數(shù)越多擬合越精確,但是過量則會引起網(wǎng)絡(luò)學習的過擬合,并帶來較高的計算復雜度,所以3層較為合適。
分數(shù)評估網(wǎng)絡(luò)設(shè)計的優(yōu)勢在于:(1)以往的質(zhì)量評估網(wǎng)絡(luò)多是特征提取和全連接組成,對特征圖直接進行全局平均池化會造成特征的模糊,從而丟失部分信息。而雙通道結(jié)構(gòu)是將不同類型的特征相結(jié)合,增加了語義特征的多樣性和完整性;(2)相對于單通道評估網(wǎng)絡(luò),其增加了深度和寬度,使得特征表達更加高級。(3)在多層感知特征后連接DHPM,通過多層特征的自適應(yīng)密集連結(jié),更精確地擬合特征映射函數(shù)。因此,雙通道結(jié)構(gòu)的評估網(wǎng)絡(luò)更具有圖像質(zhì)量的可辨別性。
真實的圖像退化對于準確的質(zhì)量預(yù)測至關(guān)重要。對于真實失真的圖像數(shù)據(jù),目前規(guī)模最大的IQA數(shù)據(jù)集是KonIQ-10k[26],包含10 073 個質(zhì)量評分圖像。通過使用眾包,每幅圖像獲得120個可靠的質(zhì)量評價等級和主觀平均得分。數(shù)據(jù)集在七個指標分布上具有平衡性,分別是亮度、色彩、均方根對比度、清晰度、圖像比特率、分辨率和JPEG 壓縮質(zhì)量,均與人類感知密切相關(guān)。KonIQ-10k 數(shù)據(jù)集共有三個分辨率,分別是1 024×768、512×384 和224×224,最常用的是512×384 分辨率。從規(guī)模和指標分布上看,KonIQ-10k有利于訓練泛化性能更好的深度網(wǎng)絡(luò)模型。
2.2.1 PLCC
主客觀質(zhì)量評價的一致程度可通過度量指標說明。皮爾森線性相關(guān)系數(shù)(PLCC)反映兩變量或分布之間的相關(guān)性,計算公式如式(3)所示:
其中,N為測試圖像個數(shù),xi和xˉ表示第i幅圖像的MOS和其樣本均值,yi和yˉ表示第i幅圖像的質(zhì)量預(yù)測分數(shù)和均值。PLCC取值范圍[0,1],值越大表示圖像質(zhì)量的主客觀評價越一致,客觀評價算法預(yù)測準確率越高。
2.2.2 SROCC
斯皮爾曼秩相關(guān)系數(shù)(SROCC)表示客觀評價分數(shù)相對于真值分數(shù)的單調(diào)性,計算公式如式(4)所示:
其中,N表示測試圖像的個數(shù),rxi和ryi表示第i幅圖像的主客觀分數(shù)的分別排序位置,差值表征距離。SROCC取值范圍[0,1],值越大表示單調(diào)性越好,反映主客觀評價一致性越高。
實驗采用KonIQ-10k的訓練集、驗證集和測試集包含圖像的個數(shù)分別為7 058、1 000和2 015。實驗中所有的模型都使用512×384分辨率數(shù)據(jù)集進行訓練,標簽采用MOS。選擇Adam 優(yōu)化器,MSE 損失函數(shù)表達式如式(5)所示:
其中,Q和Q^ 分別為MOS和預(yù)測分數(shù)分布,qi和qi為第i張圖片的分數(shù),N為集合圖片個數(shù)。另一個常用的MAE損失函數(shù)表達式如式(6)所示,僅作為測試時的指標之一。
為使模型更快收斂,批次大小設(shè)置為16。骨干網(wǎng)絡(luò)Inception-ResNet-v2 使用ImageNet 預(yù)訓練權(quán)值進行初始化。學習率逐漸下降,第一階段學習率為1×10-4,訓練40步;第二階段學習率為2×10-5,訓練40步;第三階段學習率為1×10-5,訓練20步。每步訓練后在驗證集上計算Loss、SROCC 和PLCC,整個過程監(jiān)控PLCC,保存最大值對應(yīng)的模型以防止過擬合,使模型泛化能力達到最佳。模型的最終性能為測試集上評估的結(jié)果。實驗使用NVIDIA RTX 8000 GPU和PyTorch深度學習框架。
2.4.1 消融實驗
為了證明雙通道結(jié)構(gòu)本身和DHPM 各自的作用,本文設(shè)計了4 個對比實驗,骨干網(wǎng)絡(luò)均采用Inception-ResNet-v2,分數(shù)評估網(wǎng)絡(luò)分別為:4 層全連接層單通道結(jié)構(gòu)(SC)作為基準,雙通道結(jié)構(gòu)(DC),在單通道的相同位置加入DHPM(SC+DHPM),以及本文提出的結(jié)構(gòu)(DCN)。
所有實驗在KonIQ-10k測試集上的評價結(jié)果如表1所示,觀察數(shù)據(jù)可以得出:(1)SC 的SROCC 和PLCC 分別為0.909 和0.924,DC 比它高出1.0 和1.2 個百分點。同樣的,DCN 的兩個指標也比SC+DHPM 均高出了0.7個百分點,這說明雙通道結(jié)構(gòu)的確能夠充分融合特征,減少信息損失。(2)SC+DHPM 的SROCC 和PLCC 相對于SC 分別提升了0.6 和0.7 個百分點,DC+DHPM 相對于DC則提升的相對較少,為0.3和0.2個百分點,意味著雙通道特征和DHPM的作用會有一定的重合,其在網(wǎng)絡(luò)中發(fā)揮了特征高級表達作用。
表1 不同結(jié)構(gòu)對比Table 1 Comparison of different structures
在公開數(shù)據(jù)集KonIQ-10k測試評價指標中,本文所提出方法的SROCC 和PLCC 分別達到0.922 和0.938 的性能;在骨干網(wǎng)絡(luò)相同的情況下,相對于無密集哈達瑪卷積的單通道多層感知機評估網(wǎng)絡(luò)結(jié)構(gòu),提升了1.3 和1.4 個百分點;相對于無密集哈達瑪卷積的雙通道結(jié)構(gòu)提升了0.3 個百分點和0.2 個百分點。從MAE 和MSE損失值來看,本文方法最低,這與評價指標相對應(yīng)。整體實驗表明,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)提取的質(zhì)量特征更加有效,模型的泛化性能較好。
為了形象地表示主客觀圖像質(zhì)量評價的關(guān)系,以x軸為真值MOS,y軸為模型預(yù)測的MOS,將模型在KonIQ-10k 測試集上的預(yù)測分布畫在二維散點圖上。為了方便對比,將SC和DCN的主客觀評價值畫在一個圖中,如圖5所示,圖中每個點對應(yīng)一幅圖像,藍色的點表示SC,黃色的點表示DCN。觀察得知,DCN 的點更集中在對角線上,且分布更加密集;而SC的點整體分布偏于對角線,且低分階段比較分散。因此DCN 模型對于圖像質(zhì)量評估有更好的主客觀一致性。
為了進一步說明DCN 模型對失真圖像的效果,從KonIQ-10k測試集中隨機挑選6幅圖片如圖6,將基準SC和DCN模型的客觀質(zhì)量評分與主觀MOS進行對比。圖6的(a)、(b)、(c)失真比較嚴重,包括壓縮模糊、離焦模糊和場景過暗等情況;(d)、(e)、(f)質(zhì)量較好,色彩豐富恰當,分辨率較高且細節(jié)清晰。表2 中是每幅圖片的MOS、SC和DCN預(yù)測分數(shù)??傮w來看,DCN模型的預(yù)測分數(shù)更接近MOS,在評價對比度、清晰度和色彩等方面,DCN模型的辨別能力更強,與主觀評價指標的表現(xiàn)相對一致。
2.4.2 算法性能對比
為了說明本文提出方法的先進性,將其與目前性能較好的IQA 方法對比。手工提取特征方法在KonIQ-10k上的性能遠不能令人滿意,即使其在合成失真數(shù)據(jù)庫上取得了較高的準確率,因此表2 只列出一種傳統(tǒng)BIQA方法即HOSA[17],其余均為深度學習模型。表2中的所有方法皆在KonIQ-10k 上訓練和測試,觀察得出,提出的DCN 模型在無參考圖像評估中,優(yōu)于傳統(tǒng)方法和大部分深度學習模型,處于較為先進的水平。本文提出的基于密集哈達瑪加權(quán)的雙通道特征融合結(jié)構(gòu),能夠使得圖像的質(zhì)量特征可辨別性更高。
表2 SC和DCN的評分對比Tabel 2 Comparison of scores of SC and DCN
評估性能第一名的LIneartyIQA 方法[27],采用了規(guī)范化損失(NINloss)加速模型的收斂,基于ImageNet 預(yù)訓練的ResNeXt-101的骨干模型進行多層次特征提取,通過全連接層將不同級別的特征聚合。雖然其性能處于最先進的地位,但是模型復雜度較高,如表3所示,本文模型的訓練參數(shù)量僅有60.9×106,LIneartyIQA 綜合ResNeXt-101 和特征映射層,總訓練參數(shù)量達到89.9×106,高出DCN 約1/2。因此,本文方法平衡了質(zhì)量預(yù)測準確率和模型復雜度,綜合性能較好,是一種有效的圖像質(zhì)量評價方法。
表3 與其他算法對比Table 3 Comparison with other methods
表4 模型參數(shù)量對比Fig.4 Comparison of parameters
在真實失真圖像質(zhì)量評價的挑戰(zhàn)性問題上,本文提出了一種雙通道密集哈達瑪卷積的IQA 網(wǎng)絡(luò),采用InceptionResnet-v2作為骨干網(wǎng)絡(luò),并以增強特征表達的準確性和有效性為目標,設(shè)計了融合多層感知機和卷積特征的雙通道結(jié)構(gòu)。此外,多層感知機分支中的DHPM,通過密集哈達瑪加權(quán)引入了自注意力機制,實現(xiàn)特征的自適應(yīng)性。在KonIQ-10k 數(shù)據(jù)集上的實驗結(jié)果表明,與現(xiàn)有方法對比,本文方法的SROCC 和PLCC指標均處于較領(lǐng)先的地位,圖像質(zhì)量評估的主客觀一致性較高,模型泛化能力更強,同時復雜度低于Linearty-IQA 模型。本文提出的分數(shù)評估網(wǎng)絡(luò)和整體結(jié)構(gòu)不只適用于IQA 問題,也可以遷移至其他視覺任務(wù),具有一定的通用性。此外,針對圖像質(zhì)量評估方法的優(yōu)化,考慮加入先驗知識以指導神經(jīng)網(wǎng)絡(luò)特征提取,提升主客觀評價一致性。