基于深度學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)方法綜述

2021-12-12 02:49:46曹玉東劉海燕李曉會(huì)

計(jì)算機(jī)工程與應(yīng)用 2021年23期

曹玉東，劉海燕，賈旭，李曉會(huì)

遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院，遼寧錦州 121001

圖像質(zhì)量評(píng)價(jià)是圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)問(wèn)題之一。數(shù)字圖像在獲取、壓縮存儲(chǔ)、傳輸過(guò)程中受到諸多因素的干擾，造成失真或降質(zhì)，從而影響人類的視覺(jué)體驗(yàn)或者圖像的后處理效果[1]。只有對(duì)圖像質(zhì)量做出正確評(píng)價(jià)，才能確定后續(xù)的增強(qiáng)或控制方法。另外，數(shù)字圖像處理算法性能優(yōu)劣的分析和數(shù)字圖像處理系統(tǒng)的性能評(píng)估都需要對(duì)圖像質(zhì)量做出評(píng)價(jià)。

根據(jù)是否有人的參與，可以分為圖像主觀質(zhì)量評(píng)測(cè)和圖像客觀質(zhì)量評(píng)測(cè)。主觀質(zhì)量評(píng)測(cè)依靠人的主觀感覺(jué)評(píng)判圖像的質(zhì)量，由于不同的人對(duì)圖像質(zhì)量的感知會(huì)有不同，普遍的做法是多人對(duì)失真圖像做評(píng)價(jià)，然后取平均值?？陀^圖像質(zhì)量評(píng)測(cè)需要利用計(jì)算機(jī)建立數(shù)學(xué)模型，然后計(jì)算并輸出數(shù)字化的測(cè)量結(jié)果，要求客觀圖像質(zhì)量評(píng)測(cè)結(jié)果與主觀質(zhì)量分?jǐn)?shù)保持高度的一致性，因此客觀評(píng)測(cè)方法需要充分結(jié)合人類視覺(jué)系統(tǒng)（Human Vision System，HVS）的特性。近年來(lái)，隨著生物科學(xué)、解剖學(xué)、神經(jīng)心理學(xué)等學(xué)科的發(fā)展，人類對(duì)視覺(jué)系統(tǒng)的認(rèn)識(shí)逐步深入。

采用人工方法對(duì)失真圖像的質(zhì)量進(jìn)行主觀評(píng)測(cè)具有效率低、成本高的特點(diǎn)，難以實(shí)現(xiàn)準(zhǔn)確和實(shí)時(shí)的質(zhì)量評(píng)估，因此研究客觀圖像質(zhì)量評(píng)價(jià)算法是必然的趨勢(shì)。隨著人工智能的發(fā)展，為利用計(jì)算機(jī)模擬人類視覺(jué)系統(tǒng)的感知過(guò)程提供了可能。

早期的圖像質(zhì)量評(píng)價(jià)算法關(guān)注特定的失真類型，例如壓縮失真、塊狀效應(yīng)失真和圖像模糊度等。從知網(wǎng)的檢索結(jié)果看，國(guó)內(nèi)作者更關(guān)注針對(duì)某一特殊應(yīng)用領(lǐng)域的圖像質(zhì)量評(píng)價(jià)方法，例如醫(yī)療圖像、水下圖像、立體圖像、焊道圖像、汽車抗暈光圖像、紅外或射線圖像的質(zhì)量評(píng)價(jià)。如果不使用公開(kāi)的數(shù)據(jù)集，則不便在不同的算法之間做性能比較。由于實(shí)際應(yīng)用中圖像失真的多樣性，面向非特定失真的圖像質(zhì)量評(píng)測(cè)方法具有廣泛的實(shí)用性。參考文獻(xiàn)[1-3]綜述了常見(jiàn)的圖像質(zhì)量評(píng)測(cè)算法。

2012年，在ImageNet圖像處理分類比賽中，Alex設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)AlexNet奪得冠軍，深度學(xué)習(xí)開(kāi)始受到高度關(guān)注。隨著深度學(xué)習(xí)技術(shù)在圖像質(zhì)量評(píng)價(jià)（Image Quality Assessment，IQA）中的大量應(yīng)用，有必要重新梳理和總結(jié)IQA算法。本文介紹衡量指標(biāo)、常用數(shù)據(jù)集及評(píng)價(jià)方法的分類，并對(duì)IQA方法進(jìn)行梳理和總結(jié)，然后對(duì)數(shù)據(jù)增強(qiáng)方法進(jìn)行分析和說(shuō)明，最后對(duì)未來(lái)研究進(jìn)行展望。

1 圖像質(zhì)量評(píng)測(cè)算法的衡量指標(biāo)

對(duì)于性能較好的IQA算法而言，其質(zhì)量評(píng)測(cè)分?jǐn)?shù)會(huì)與主觀質(zhì)量分?jǐn)?shù)保持高度一致，根據(jù)視頻質(zhì)量專家組VQEG的報(bào)告[4]，國(guó)際上通用的圖像質(zhì)量評(píng)測(cè)性能評(píng)價(jià)指標(biāo)主要包括3種：斯頗曼秩相關(guān)系數(shù)（Spearman Rank Order Correlation Coefficient，SROCC）、皮爾森線性相關(guān)系數(shù)（Pearson Linear Correlation Coefficient，PLCC）和均方誤差（Root Mean Squared Error，RMSE）。其中SROCC和PLCC被多數(shù)文獻(xiàn)采用。

SROCC用來(lái)描述兩組數(shù)據(jù)的等級(jí)相關(guān)性，取值范圍為0～1，性能值等于1時(shí)，表明兩組數(shù)據(jù)完全一致。PLCC描述兩組數(shù)據(jù)的線性相關(guān)系數(shù)，其取值范圍為-1～1。當(dāng)PLCC的值為零時(shí)，表示2組數(shù)據(jù)完全不相關(guān)；當(dāng)PLCC值為1或-1時(shí)，表明兩組數(shù)據(jù)完全相關(guān)。如果模型附加某些非線性變換，會(huì)造成PLCC性能變好，但是SROCC性能不會(huì)被影響，因此SROCC被認(rèn)為是最好的非線性相關(guān)指標(biāo)。均方誤差（Root Mean Squared Error，RMSE）用于衡量?jī)山M數(shù)據(jù)之間的絕對(duì)誤差，即衡量算法預(yù)測(cè)的準(zhǔn)確性，均方誤差越接近于0，表明算法的性能越好。

上述3個(gè)性能評(píng)價(jià)指標(biāo)分別衡量圖像質(zhì)量客觀評(píng)測(cè)算法的單調(diào)性、線性相關(guān)性以及誤差值。此外，有少數(shù)文獻(xiàn)使用Kendall秩相關(guān)系數(shù)（Kendall Rank Order Correlation Coefficient，KROCC）或離出率作為評(píng)價(jià)指標(biāo)[1]，或者使用散點(diǎn)圖對(duì)IQA算法做定性評(píng)價(jià)[3]，不再贅述。

2 IQA數(shù)據(jù)集

評(píng)價(jià)IQA算法的性能，需要在公開(kāi)的數(shù)據(jù)集上與其他算法做比較或測(cè)試，在不同的數(shù)據(jù)集上驗(yàn)證算法的泛化性能。為此，國(guó)際上的一些圖像研究機(jī)構(gòu)建立了各種圖像質(zhì)量評(píng)測(cè)數(shù)據(jù)集，相關(guān)介紹參見(jiàn)表1，主要工作是為數(shù)據(jù)集中的失真圖像標(biāo)定主觀質(zhì)量分?jǐn)?shù)，供算法訓(xùn)練和測(cè)試使用。不同的數(shù)據(jù)集之間的區(qū)別主要是理想?yún)⒖紙D的數(shù)量、評(píng)分標(biāo)準(zhǔn)、失真圖像的失真類型和數(shù)量等。人工評(píng)價(jià)結(jié)果具有主觀性，IQA數(shù)據(jù)集的標(biāo)定會(huì)受到觀察員的觀測(cè)動(dòng)機(jī)、觀測(cè)環(huán)境和知識(shí)背景的影響。為了避免受到這些因素影響，采用多人評(píng)價(jià)，然后取平均值的方法。常見(jiàn)數(shù)據(jù)集的標(biāo)定值分為平均主觀分?jǐn)?shù)（Mean Opinion Score，MOS）或者平均主觀分?jǐn)?shù)差（Difference Mean Opinion Score，DMOS）兩種。標(biāo)定數(shù)值的范圍因數(shù)據(jù)集的不同而異。MOS的值越小，圖像的失真越嚴(yán)重，圖像的質(zhì)量越差；DMOS的數(shù)值越大，圖像的失真越嚴(yán)重，圖像的質(zhì)量就越差。綜合性能較好且引用率較高的數(shù)據(jù)集為L(zhǎng)IVE、TID2008、TID2013和CSIQ等4個(gè)IQA數(shù)據(jù)集。2017年Ma等公開(kāi)Waterloo Exploration數(shù)據(jù)集[5]，該數(shù)據(jù)集包含94 880幅失真圖像，4 744幅未失真圖像，更適合基于深度學(xué)習(xí)的IQA算法做訓(xùn)練和測(cè)試，但目前使用不多。表1總結(jié)了常用的IQA數(shù)據(jù)集，分別介紹如下。

表1 常用的公開(kāi)IQA數(shù)據(jù)集Table 1 Public frequently-used IQA datasets

（1）LIVE數(shù)據(jù)集

LIVE數(shù)據(jù)集[6-7]包含29幅彩色的理想?yún)⒖紙D，總計(jì)779幅不同失真程度的圖像。失真類型包括5種：白噪聲失真、JPEG、JPEG2000、高斯模糊和快速衰落。161名觀察員對(duì)每幅失真圖像進(jìn)行主觀評(píng)分，然后依據(jù)每幅圖像的所有得分計(jì)算DMOS值，取值范圍是0～100。

（2）TID2008數(shù)據(jù)集

TID2008數(shù)據(jù)集[8]包含25幅理想?yún)⒖紙D，17種失真類型?？傆?jì)有4種不同程度失真的1 700幅失真圖像。其標(biāo)注值采用MOS，其取值范圍是0～9。

（3）TID2013數(shù)據(jù)集

TID2013數(shù)據(jù)集[9-10]在TID2008的基礎(chǔ)上，增加了7種失真類型，每種類型包括125幅失真圖像。失真圖像采自圖像的獲取、傳輸和校準(zhǔn)等不同環(huán)節(jié)，失真類型多，每種失真類型包含的圖像數(shù)量少。TID2013是測(cè)試難度較大的數(shù)據(jù)集，從現(xiàn)有文獻(xiàn)資料看，多數(shù)基于深度學(xué)習(xí)技術(shù)的IQA算法都主要選擇該數(shù)據(jù)集做訓(xùn)練和測(cè)試。該數(shù)據(jù)集同TID2008一樣，采用MOS標(biāo)注失真圖像，其取值范圍是0～9。

（4）CSIQ數(shù)據(jù)集

CSIQ數(shù)據(jù)集[11]包含30幅未失真的理想?yún)⒖紙D像、6種失真類型，總計(jì)866幅失真圖像。6種失真類型為高斯模糊、全局對(duì)比度衰減、JPEG壓縮、JPEG2000壓縮、高斯有色噪聲和高斯加性噪聲。其質(zhì)量標(biāo)定分?jǐn)?shù)采用DMOS，取值范圍是0～1。

（5）Waterloo Exploration數(shù)據(jù)集

Waterloo Exploration數(shù)據(jù)集[5]是由Ma公開(kāi)發(fā)布的數(shù)據(jù)集，同LIVE或TID2013相比，失真圖像的內(nèi)容更豐富。該數(shù)據(jù)集的失真類型為JPEG壓縮、JP2K壓縮、高斯模糊和白噪聲失真，每種失真類型包括5個(gè)失真級(jí)別。該數(shù)據(jù)集沒(méi)有采用MOS或DMOS值標(biāo)注失真圖像，而是提出了3個(gè)新測(cè)度：參考圖/失真圖像的可分辨性測(cè)試（pristine/distorted image discriminability test，D-test）、按列表排序的一致性測(cè)試（listwise ranking consistency test，L-test）和逐對(duì)一致性測(cè)試（pairwise preference consistency test，P-test）。

（6）KADID-10k數(shù)據(jù)集

KADID-10k[12]數(shù)據(jù)集是由德國(guó)康斯坦茨大學(xué)計(jì)算機(jī)與信息科學(xué)系發(fā)布的數(shù)據(jù)集。首先在Pixabay.com下載645 706幅尺寸大于1 500×1 200的圖像，然后將這些圖像縮放為512×384大小，最后挑選81幅高質(zhì)量圖像作為參考圖像。該數(shù)據(jù)集共有25種失真類型，10 125幅失真圖像，采用DMOS作為標(biāo)注值，由于失真類型豐富，適用于基于深度學(xué)習(xí)的IQA算法。

（7）KonIQ-10k數(shù)據(jù)集

KonIQ-10k數(shù)據(jù)集[13]主要通過(guò)公共多媒體數(shù)據(jù)庫(kù)YFCC100M選擇失真圖像，經(jīng)過(guò)2階段進(jìn)行過(guò)濾，最終得到包含10 073幅失真圖像的數(shù)據(jù)集。適用于基于深度學(xué)習(xí)的IQA模型，該數(shù)據(jù)集為真實(shí)的失真類型，采用MOS標(biāo)注失真圖像，取值范圍是1～100。

其他IQA數(shù)據(jù)集的詳細(xì)介紹可參閱文獻(xiàn)[3]，不再贅述。

3 圖像質(zhì)量評(píng)價(jià)方法的分類

根據(jù)圖像視覺(jué)信息處理過(guò)程的不同，可以把IQA算法分為兩類：基于自下而上（Bottom-up）和基于自上而下（Top-down）的IQA模型。Bottom-up模型采集底層圖像信息作為輸入，通過(guò)數(shù)學(xué)模型模擬HVS，實(shí)現(xiàn)逐步抽象的過(guò)程。2018年，姚旺等[14]將多通道網(wǎng)絡(luò)引入到FR-IQA算法中，獲取理想?yún)⒖紙D像和失真圖像的梯度差異圖，并將梯度差異圖和失真圖像同時(shí)輸入到多通道網(wǎng)絡(luò)中學(xué)習(xí)質(zhì)量分?jǐn)?shù)。Top-down模型在視覺(jué)信息處理過(guò)程中融入人類的先驗(yàn)知識(shí)。Wang等[15]假設(shè)失真會(huì)改變圖像的結(jié)構(gòu)化特征，提出了結(jié)構(gòu)相似度（Structural Similarity Index Metric，SSIM）算法。SSIM算法從亮度、對(duì)比度和結(jié)構(gòu)信息3方面計(jì)算失真圖和理想?yún)⒖紙D之間的局部結(jié)構(gòu)相似性，根據(jù)相似程度判斷失真圖像的質(zhì)量。在IQA算法的發(fā)展進(jìn)程中，SSIM算法[15]的提出具有里程碑的意義，隨后一些學(xué)者提出了改進(jìn)算法：MSSIM[16]、FSIM[17]、IW-SSIM[18]等。信息保真度準(zhǔn)則（Information Fidelity Criterion，IFC）[19]和視覺(jué)信息保真度（Visual Information Fidelity，VIF）[20]從信息論的角度考慮圖像的失真特性，通過(guò)比較參考圖和失真圖的差異獲取失真圖像的質(zhì)量。

根據(jù)是否有參考信息，數(shù)字圖像質(zhì)量評(píng)價(jià)方法可以分為3類：全參考圖像質(zhì)量評(píng)測(cè)（Full-Reference Image Quality Assessment，F(xiàn)R-IQA）、半?yún)⒖紙D像質(zhì)量評(píng)測(cè)（Reduced-Reference Image Quality Assessment，RRIQA）和無(wú)參考的圖像質(zhì)量評(píng)測(cè)（No-Reference Image Quality Assessment，NR-IQA）。

（1）全參考圖像質(zhì)量評(píng)測(cè)

對(duì)圖像質(zhì)量評(píng)價(jià)算法的研究始于FR-IQA，該類方法利用失真圖像和理想?yún)⒖紙D像之間的差異評(píng)測(cè)失真圖像的質(zhì)量。2019年，國(guó)內(nèi)學(xué)者王同罕等[21]提取失真圖像的梯度特征，用于全參考圖像質(zhì)量評(píng)價(jià)，在LIVE數(shù)據(jù)集將SROCC性能提高到96%。介紹FF-IQA的參考文獻(xiàn)較多，讀者可以進(jìn)一步參閱其他文獻(xiàn)。

（2）半?yún)⒖紙D像質(zhì)量評(píng)測(cè)

RR-IQA方法利用先驗(yàn)知識(shí)提取理想?yún)⒖紙D像的少量特征信息，與失真圖像的特征信息進(jìn)行對(duì)比，完成對(duì)失真圖像的質(zhì)量評(píng)估。由于傳輸?shù)臄?shù)據(jù)量小，處理相對(duì)靈活，主要應(yīng)用在實(shí)時(shí)傳輸系統(tǒng)中。

（3）無(wú)參考圖像質(zhì)量評(píng)測(cè)

NR-IQA方法是指在完全沒(méi)有參考圖像的情況下對(duì)一幅失真圖像質(zhì)量做評(píng)測(cè)，在實(shí)踐中應(yīng)用較多。根據(jù)特征獲取方法的不同，NR-IQA算法被分為基于分析模型的方法和基于學(xué)習(xí)的方法，基于深度學(xué)習(xí)的IQA方法屬于后一種。

表2分析和歸納了典型的IQA算法，其中文獻(xiàn)[14]和DIQaM是全參考IQA算法，其余皆為無(wú)參考IQA算法。2012年，Ye等[22]提出CORNIA算法，通過(guò)非監(jiān)督特征學(xué)習(xí)獲造碼本字典，在LIVE數(shù)據(jù)集上的SROCC性能達(dá)到96%。2020年，Liu等[23]提出SNP-NIQE算法，從結(jié)構(gòu)性、自然性和感知性等3個(gè)方面提取失真圖像的自然統(tǒng)計(jì)特性，結(jié)合無(wú)監(jiān)督學(xué)習(xí)進(jìn)行圖像質(zhì)量評(píng)估，將在TID2013數(shù)據(jù)集上的SROCC性能提升至90%。不足之處是該模型采用常見(jiàn)的失真類型進(jìn)行訓(xùn)練，模型的泛化性能不足。Zhu[29]采用多個(gè)異質(zhì)傳感器采集圖像信息，通過(guò)逐像素處理，得到融合圖像作為參考圖像，該方法在TID2013數(shù)據(jù)集上的性能不理想，表明該融合方法有一定的局限性。文獻(xiàn)[30-33]介紹了更多的此類IQA方法，可供讀者參考。

傳統(tǒng)機(jī)器學(xué)習(xí)方法假設(shè)失真會(huì)改變圖像的某些統(tǒng)計(jì)特性，該類算法把失真圖像特征提取和質(zhì)量分?jǐn)?shù)回歸過(guò)程分開(kāi)處理，難以準(zhǔn)確描述HVS的感知過(guò)程。在基于學(xué)習(xí)的IQA方法中，可以使用神經(jīng)網(wǎng)絡(luò)或者碼本等方法提取特征。隨著海量圖像的出現(xiàn)和算力的提高，深度神經(jīng)網(wǎng)絡(luò)開(kāi)始應(yīng)用于圖像質(zhì)量評(píng)測(cè)中。目前，在基于深度學(xué)習(xí)技術(shù)的IQA方法中，應(yīng)用較多的圖像特征描述形式多為通過(guò)自動(dòng)學(xué)習(xí)方式獲取的特征圖。表3總結(jié)和歸納了9個(gè)典型的圖像質(zhì)量評(píng)價(jià)算法的性能。

表2 典型算法分析Table 2 Analysis of typical algorithms

表3 IQA算法性能比較Table 3 Performance comparison of IQA algorithms

4 基于深度學(xué)習(xí)的IQA模型

深度神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是把圖像特征提取和回歸過(guò)程整合在一個(gè)優(yōu)化框架內(nèi)，真正實(shí)現(xiàn)端到端的學(xué)習(xí)?；谏疃葘W(xué)習(xí)的IQA方法正在逐漸成為主流的圖像質(zhì)量評(píng)價(jià)算法。在傳統(tǒng)的算法中，特征提取需要依賴設(shè)計(jì)人員的經(jīng)驗(yàn)，構(gòu)建過(guò)程比較復(fù)雜。深度神經(jīng)網(wǎng)絡(luò)通過(guò)數(shù)據(jù)驅(qū)動(dòng)，學(xué)習(xí)圖像特征，對(duì)圖像的描述更準(zhǔn)確。

在深度學(xué)習(xí)領(lǐng)域有不同類型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）、生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）[36]和變換器（Transformer）[37]等。CNN和GAN常用在圖像質(zhì)量評(píng)價(jià)算法中，RNN網(wǎng)絡(luò)模型多用于對(duì)視頻的質(zhì)量評(píng)價(jià)，Transformer首先在自然語(yǔ)言處理領(lǐng)域取得成功，近幾年，開(kāi)始應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域[38]。

4.1 基于卷積神經(jīng)網(wǎng)絡(luò)的IQA方法

CNN是一種前饋神經(jīng)網(wǎng)絡(luò)，通常由卷積層、池化層和全連接層構(gòu)成。卷積層和池化層抽取降維的特征圖，全連接層回歸質(zhì)量分?jǐn)?shù)。CNN成功的關(guān)鍵是引入了歸納偏置（inductive bias），采用卷積核權(quán)值共享的方式減少網(wǎng)絡(luò)參數(shù)的數(shù)量。

基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型的常見(jiàn)架構(gòu)如圖1所示，由多個(gè)卷積層提取圖像特征，然后由全連接層回歸失真圖像的質(zhì)量分?jǐn)?shù)。2014年，Kang等[39]提出IQA-CNN（Convolutional Neural Networks for no-reference Image Quality Assessment），網(wǎng)絡(luò)架構(gòu)與圖1類似，包括1個(gè)卷積層（含最大池化和最小池化）和2個(gè)全連接層。為降低過(guò)擬合風(fēng)險(xiǎn)，該文作者將數(shù)據(jù)集圖像分割為若干圖像塊訓(xùn)練模型。Kang等隨后提出IQA-CNN++[24]，符號(hào)“++”代表兩個(gè)任務(wù)：失真類型辨別和圖像質(zhì)量分?jǐn)?shù)預(yù)測(cè)。IQA-CNN++在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到95%，在TID2008數(shù)據(jù)庫(kù)上的SROCC性能為88%，PLCC性能為87%，但該模型的訓(xùn)練集規(guī)模太小，影響了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。2017年，Hou等[40]提出了DLIQA（Deep Learning for blind Image Quality Assessment），首先提取失真圖像的統(tǒng)計(jì)性特征（Natural Scene Statistics feature，NSS）[41]，然后使用深度分類模型（Deep Belief Net，DBN）[42]把NSS特征映射為5個(gè)質(zhì)量等級(jí)，最后把標(biāo)記了質(zhì)量等級(jí)的失真圖像映射為質(zhì)量分?jǐn)?shù)。DLIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到93%。2017年，Liu等[43]提出RankIQA（Ranking for no-reference Image Quality Assessment），使用失真圖像集的質(zhì)量排序數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)，然后基于遷移學(xué)習(xí)技術(shù)訓(xùn)練更深的網(wǎng)絡(luò)。RankIQA模型可以通過(guò)生成圖像增加訓(xùn)練數(shù)據(jù)，在TID2013的SROCC性能為78.0%。2018年，姚旺等[14]提出DeepFR圖像質(zhì)量評(píng)價(jià)算法，結(jié)合人眼的視覺(jué)特性對(duì)失真圖像的梯度進(jìn)行加權(quán)優(yōu)化，然后提取出符合視覺(jué)特性的視覺(jué)感知圖。該算法是用8個(gè)卷積層來(lái)提取特征圖，3個(gè)最大池提取局部較強(qiáng)特征，2個(gè)全連接層做非線性回歸。該算法在LIVE和TID2008數(shù)據(jù)集上的SROCC和PLCC性能均達(dá)到98%以上。其局限性在于人類視覺(jué)系統(tǒng)十分復(fù)雜，目前還沒(méi)有定量的方法對(duì)人眼視覺(jué)的心理特征進(jìn)行描述，該方向有待研究。同年，Bosse等[25]提出無(wú)參考的深度圖像質(zhì)量評(píng)價(jià)算法（DIQaM-NR）和加權(quán)的無(wú)參考的深度圖像質(zhì)量評(píng)價(jià)算法（WaDIQaM-NR），兩種方法都采用相同的網(wǎng)絡(luò)結(jié)構(gòu)：包括10個(gè)卷積層和5個(gè)池化層，使用ReLU做激活函數(shù)，區(qū)別在于后者采用了加權(quán)思想。文獻(xiàn)[25]把圖像分割為若干圖像塊，再通過(guò)平均求和或者加權(quán)求和的方式獲取整幅失真圖的質(zhì)量分?jǐn)?shù)。圖像分割會(huì)導(dǎo)致失真區(qū)域被人為割裂，使得該方法的準(zhǔn)確率受到了限制。DIQaM-NR在LIVE數(shù)據(jù)集上的SROCC性能為97.2%，PLCC性能為96%；在TID2013上的SROCC性能為85.5%，PLCC性能為83.5%。2018年，Ma等[44]提出了端到端的多任務(wù)優(yōu)化網(wǎng)絡(luò)MEON（Multi-task End-to-end Optimized Network），Multi-task是指失真類型識(shí)別和質(zhì)量分?jǐn)?shù)預(yù)測(cè)。為了進(jìn)一步提升性能，Ma設(shè)計(jì)了GDN（Generalized Divisive Normalization）取代ReLU激活函數(shù)。MEON在TID2013數(shù)據(jù)集上的SROCC性能值為91%。2019年，Kim等[26]提出DIQA（Deep Image Quality Assessor），將NR-IQA訓(xùn)練分為兩個(gè)階段：在第1階段，利用CNN網(wǎng)絡(luò)學(xué)習(xí)和預(yù)測(cè)客觀誤差圖，客觀誤差圖可以由理想的參考圖和失真圖的差生成，作為訓(xùn)練數(shù)據(jù)使用，客觀誤差圖和主觀分?jǐn)?shù)存在關(guān)聯(lián)；在第2階段，利用客觀誤差圖學(xué)習(xí)預(yù)測(cè)主觀得分。另外還融合了兩個(gè)簡(jiǎn)單的手工特征，以進(jìn)一步提高模型精度。該模型的訓(xùn)練過(guò)程比較復(fù)雜，模型的擴(kuò)展性比較差，模型的預(yù)測(cè)與主觀感知結(jié)果的一致性不好。DIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到96%。2019年，高方遠(yuǎn)等[27]提出VI-IQA（Vgg and Inception Net for IQA），該算法融合了深度神經(jīng)網(wǎng)和感知視覺(jué)特性，在TID2013數(shù)據(jù)集上的SROCC值達(dá)到81.1%，PLCC值達(dá)到84%。2020年，Ma等[35]采用深度學(xué)習(xí)技術(shù)，對(duì)經(jīng)過(guò)卷積層提取的圖像特征進(jìn)行融合，再輸入到全連接層，獲取失真圖像的質(zhì)量分?jǐn)?shù)。該方法在LIVE數(shù)據(jù)集上的SROCC性能為95.8%，PLCC性能為96.9%，該模型的不足就是無(wú)法準(zhǔn)確地反映人在觀察失真圖像時(shí)的感受。

圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型總體框架Fig.1 Framework of CNN based IQA model

基于深度學(xué)習(xí)技術(shù)的IQA模型通常比較復(fù)雜，需要較強(qiáng)的算力和海量的訓(xùn)練數(shù)據(jù)，在某種程度上制約了該類算法的應(yīng)用。2020年，曹玉東等[34]設(shè)計(jì)了并行小規(guī)模卷積網(wǎng)絡(luò)（Parallel Small CNN based image quality assessment algorithm，PSCNN），用于無(wú)參考圖像質(zhì)量評(píng)測(cè)。該模型的每路卷積子網(wǎng)絡(luò)采取相同的結(jié)構(gòu)，4路小規(guī)模卷積網(wǎng)的輸入為不同尺度的輸入圖像，目的是學(xué)習(xí)更豐富的失真特征信息。PSCNN算法為了提高模型精度，分成兩個(gè)階段優(yōu)化模型的參數(shù)，在LIVE數(shù)據(jù)集上的SROCC的性能為96%，PLCC的性能為97%。為驗(yàn)證該算法的泛化性能，在LIVE上訓(xùn)練，在TID2008上測(cè)試，SROCC性能指標(biāo)達(dá)到93%。

4.2 基于生成對(duì)抗網(wǎng)絡(luò)的IQA方法

生成對(duì)抗網(wǎng)絡(luò)是一種由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的不斷博弈學(xué)習(xí)產(chǎn)生更好的輸出。如果NR-IQA方法能生成模擬的參考圖，會(huì)從根源上解決NR-IQA無(wú)法模擬HVS進(jìn)行比較的問(wèn)題。

GAN-IQA利用生成對(duì)抗網(wǎng)絡(luò)生成模擬的參考圖，其訓(xùn)練過(guò)程如圖2所示。GAN網(wǎng)絡(luò)通過(guò)對(duì)抗學(xué)習(xí)同時(shí)訓(xùn)練兩個(gè)模型：生成模型和判別模型，訓(xùn)練過(guò)程中，生成模型利用添加了隨機(jī)噪聲的輸入圖像，生成模擬的參考圖，試圖欺騙判別模型；相反，被訓(xùn)練過(guò)的判別模型試圖辨別出模擬參考圖和理想?yún)⒖紙D。當(dāng)判別模型無(wú)法分辨理想?yún)⒖紙D和模擬參考圖的真假時(shí)，訓(xùn)練取得成功。測(cè)試或?qū)嶋H應(yīng)用時(shí)，把1幅待測(cè)失真圖輸入訓(xùn)練過(guò)的GAN模型后，會(huì)自動(dòng)輸出模擬參考圖，把模擬參考圖和待測(cè)失真圖輸入回歸模型，就可以像FF-IQA那樣模擬人類視覺(jué)的比較過(guò)程，評(píng)判失真圖像的質(zhì)量分?jǐn)?shù)。自生成對(duì)抗網(wǎng)絡(luò)誕生以來(lái)，相關(guān)研究人員積極拓展其應(yīng)用。2018年，Lin等[28]提出H-IQA（Hallucinated IQA），設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)包括3部分：生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)和質(zhì)量回歸網(wǎng)絡(luò)。質(zhì)量回歸網(wǎng)絡(luò)的輸入是失真圖、差值圖，最終輸出失真圖的質(zhì)量預(yù)測(cè)分?jǐn)?shù)。為了生成逼真的模擬參考圖，該文作者重新設(shè)計(jì)了感知損失函數(shù)（quality-aware perceptual loss）。為提高圖像的特征表達(dá)能力，在回歸網(wǎng)絡(luò)中融入了生成網(wǎng)絡(luò)從失真圖像中抽取的高級(jí)特征。H-IQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為98%，在TID2013數(shù)據(jù)集上的SROCC性能為87%。同年，Ren等[45]提出RAN4IQA（Restorative Adversarial Net for Image Quality Assessment），通過(guò)逐級(jí)串接殘差塊（Residual Block）構(gòu)成生成模型和判別模型，每個(gè)殘差塊的結(jié)構(gòu)相同，主要包括歸一化、卷積和ReLU激活等操作。卷積核的大小為3×3，數(shù)量是64。判別模型的結(jié)構(gòu)類似VGG，設(shè)計(jì)的損失函數(shù)包括感知損失和對(duì)抗損失兩部分?？梢钥闯龌趯?duì)抗網(wǎng)絡(luò)的IQA算法性能通常好于表3中列出的其他基于深度學(xué)習(xí)技術(shù)的IQA方法。

圖2 GAN-IQA模型的訓(xùn)練示意圖Fig.2 Schematic diagram of training of GAN-IQA model

2020年，曹玉東等[46]在深入研究了深度對(duì)抗神經(jīng)網(wǎng)絡(luò)之后，提出基于增強(qiáng)型對(duì)抗學(xué)習(xí)的IQA算法（Enhanced Adversarial Learning based Image Quality Assessment，EAL-IQA），其實(shí)現(xiàn)過(guò)程如圖3所示。傳統(tǒng)的GAN用1個(gè)判別網(wǎng)絡(luò)輸出判別結(jié)果，改進(jìn)后的GAN網(wǎng)絡(luò)結(jié)構(gòu)增加了1個(gè)判別網(wǎng)絡(luò)，實(shí)現(xiàn)增強(qiáng)型對(duì)抗學(xué)習(xí)。在訓(xùn)練階段，添加了隨機(jī)噪聲的輸入圖像經(jīng)過(guò)生成網(wǎng)絡(luò)G以后，輸出仿真圖（模擬參考圖），將該模擬參考圖和理想?yún)⒖紙D輸入判別網(wǎng)絡(luò)D1，判別網(wǎng)絡(luò)D1根據(jù)二者的相似程度輸出二值化的判別結(jié)果，該判別結(jié)果會(huì)反饋給生成網(wǎng)絡(luò)G，如果判別結(jié)果是模擬參考圖和理想?yún)⒖紙D不相似，則不斷重復(fù)上述過(guò)程，直到判別網(wǎng)絡(luò)難以分辨模擬參考圖和理想?yún)⒖紙D的真假為止。增加的判別網(wǎng)絡(luò)D2提高了對(duì)抗學(xué)習(xí)強(qiáng)度，提升了模擬參考圖的可靠性。增強(qiáng)部分的對(duì)抗損失函數(shù)為：

圖3 基于增強(qiáng)對(duì)抗學(xué)習(xí)的IQA框架圖Fig.3 Framework of IQA with enhanced adversarial learning

EAL-IQA在LIVE上的SROCC和PLCC性能值為96%；在TID2013上的SROCC性能值為89%，PLCC性能值為90%。通常GAN-IQA的性能比較高，但是模型的訓(xùn)練過(guò)程比較復(fù)雜。

依據(jù)現(xiàn)有的文獻(xiàn)，還沒(méi)有任何1種算法能夠在TID2013的每1種失真類型上都領(lǐng)先于其他IQA算法，因此設(shè)計(jì)通用型的IQA算法是未來(lái)的工作重點(diǎn)。

CNN的inductive bias縮小了模型的感受野，不能對(duì)長(zhǎng)期依賴性編碼。在自然語(yǔ)言處理領(lǐng)域提出的變換器（Transformer）方法彌補(bǔ)了CNN的不足。

4.3 基于Transformer的IQA方法

Transformer是一種由編碼器（encoder）和解碼器（decoder）構(gòu)成的深度圖神經(jīng)網(wǎng)絡(luò)。2020年，You等[47]首次將Transformer應(yīng)用于IQA領(lǐng)域。基于Transformer的NR-IQA的流程如圖4所示，主要包括3個(gè)步驟：提取圖像特征、對(duì)特征做變換、采用多層感知器頭（MLP Head）預(yù)測(cè)圖像質(zhì)量。

圖4 基于Transformer的NR-IQA評(píng)測(cè)流程圖Fig.4 Flow chart of NR-IQA with Transformer

Transformer可進(jìn)行并行化的處理，通過(guò)注意力機(jī)制關(guān)注重點(diǎn)區(qū)域。與CNN相比，Transformer能夠捕獲長(zhǎng)距離的特征，更容易獲取全局信息。TRIQ（Transformer for Image Quality assessment）[47]采用自適應(yīng)編碼器處理不同分辨率的圖像，將卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖作為淺層Transformer編碼器的輸入，然后通過(guò)MLP Head預(yù)測(cè)感知圖像質(zhì)量。TRIQ在組合測(cè)試集上的PLCC、SROCC與RMSE的性能分別為88.4%、86.8%和28.0%。2021年，Cheon等[48]提出IQT（Image Quality Transformer）。該模型采用Adam優(yōu)化器，MSE損失函數(shù)，transformer的編碼器和解碼器層數(shù)為2層。IQT在NTIRE 2021感知圖像質(zhì)量評(píng)價(jià)挑戰(zhàn)賽（perceptual image quality assessment challenge）[49]上獲得第1名的好成績(jī)。該算法在LIVE上的SROCC性能達(dá)到97%；在CSIQ上的SROCC性能達(dá)到94%以上；在TID2013上的SROCC性能達(dá)到89%以上。

Ramachandran等[50]提出用獨(dú)立的注意力層構(gòu)建完全注意力視覺(jué)模型，以此取代感受野受限的卷積。2020年，Cordonnier等[51]分析了自我注意與卷積層的關(guān)系，得出的結(jié)論是自我注意力層可以學(xué)習(xí)類似于卷積層的行為，代替任何卷積層，為自注意力機(jī)制在圖像質(zhì)量評(píng)價(jià)領(lǐng)域的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

4.4 訓(xùn)練數(shù)據(jù)不足的問(wèn)題及對(duì)策

基于深度學(xué)習(xí)的IQA算法需要大規(guī)模的訓(xùn)練數(shù)據(jù)，否則容易導(dǎo)致模型過(guò)擬合?，F(xiàn)有的IQA數(shù)據(jù)集規(guī)模偏小，創(chuàng)建帶有人工標(biāo)注的大型IQA數(shù)據(jù)集的成本是非常昂貴的，研究各種數(shù)據(jù)集擴(kuò)充方法是必要的。文獻(xiàn)[25]采用分割訓(xùn)練圖像為若干圖像塊的辦法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。2012年，Ye等[22]利用真實(shí)世界中無(wú)標(biāo)簽的失真圖像來(lái)擴(kuò)充IQA數(shù)據(jù)集，建立了非監(jiān)督失真圖像特征學(xué)習(xí)。2014年，Ye等[52]又提出1種OF-IQA（Opinion Free IQA）模型：BLISS（Blind Learning of Image Quality using Synthetic Scores），使用CORNIA[22]作為基礎(chǔ)模型，融合FSIM、FSIMC[17]、IW-SSIM（Information content Weighted SSIM）[18]、VIF[20]、GMSD[54]等全參考算法的綜合度量結(jié)果作為失真圖像的標(biāo)注分?jǐn)?shù)，再折合為DMOS值。其中，F(xiàn)SIMC在FSIM中融入了顏色信息；IW-SSIM在SSIM基礎(chǔ)上加權(quán)了一些信息內(nèi)容，是SSIM的增強(qiáng)版。BLISS算法在3 300幅flickr圖像數(shù)據(jù)集上完成訓(xùn)練，在LIVE和TID2008上的測(cè)試結(jié)果超過(guò)了NIQE[54]和QAC等[55]兩種OF-BIQA模型。2017年，Gao等[56]在Image Net數(shù)據(jù)集上預(yù)訓(xùn)練Deep Sim模型，然后再應(yīng)用到其他數(shù)據(jù)集上，通過(guò)計(jì)算理想?yún)⒖紙D和失真圖像的局部相似性獲取整幅圖像的質(zhì)量分?jǐn)?shù)。2017年，Ma等[57]提出一種構(gòu)造訓(xùn)練數(shù)據(jù)的方法：dipIQ，構(gòu)造的數(shù)據(jù)被簡(jiǎn)稱為DIP（quality-Discriminable Image Pairs）。然后利用“可靠”的FR-IQA模型標(biāo)注大量的圖像數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù)，利用RankNet模型構(gòu)建OU-BIQA（Opinion-Unaware BIQA）模型，即訓(xùn)練過(guò)程中不需要帶主觀質(zhì)量分?jǐn)?shù)標(biāo)記的失真圖像。該方法在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為95%。OF-BIQA與OU-BIQA基本同義，與之對(duì)應(yīng)，模型如果使用了標(biāo)記MOS值的訓(xùn)練數(shù)據(jù)，被稱為OA-BIQA（Opinion-Aware BIQA）模型。2017年，Kim等[58]提出一種OF-BIQA算法，簡(jiǎn)稱為BIECON，使用經(jīng)典的FF-IQA算法獲取圖像塊的質(zhì)量分?jǐn)?shù)，以此充當(dāng)失真圖像的標(biāo)簽值，再利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)。

數(shù)據(jù)增強(qiáng)不增加網(wǎng)絡(luò)模型的計(jì)算復(fù)雜度，在不實(shí)質(zhì)性增加數(shù)據(jù)的前提下，讓有限的數(shù)據(jù)產(chǎn)生相當(dāng)于更多數(shù)據(jù)的價(jià)值。數(shù)據(jù)增強(qiáng)可分為無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)和有監(jiān)督的數(shù)據(jù)增強(qiáng)兩種方法，從發(fā)展趨勢(shì)看，無(wú)監(jiān)督增強(qiáng)將是解決數(shù)據(jù)不足問(wèn)題的最好方法，遷移學(xué)習(xí)是解決該類問(wèn)題的過(guò)渡辦法。2017年，馮天鵬博士[59]提出通過(guò)遷移學(xué)習(xí)來(lái)解決數(shù)據(jù)量不足的問(wèn)題，并在聯(lián)合遷移學(xué)習(xí)中應(yīng)用了稀疏表示法。

5 總結(jié)與展望

自然界的圖像豐富多彩、千差萬(wàn)別，很難準(zhǔn)確描述。傳統(tǒng)的IQA方法需要人工設(shè)計(jì)失真圖像特征，嚴(yán)重依賴設(shè)計(jì)者的知識(shí)水平。基于學(xué)習(xí)的特征提取會(huì)受數(shù)據(jù)集的規(guī)模和數(shù)據(jù)分布的影響，在特定的小規(guī)模數(shù)據(jù)集上訓(xùn)練的模型難免存在偏差，限制其在真正的實(shí)踐環(huán)境中推廣和應(yīng)用。基于深度學(xué)習(xí)技術(shù)的IQA模型取得了更好的性能，但是對(duì)海量標(biāo)記數(shù)據(jù)的需求提高了模型的訓(xùn)練成本。

下一步的研究趨勢(shì)可能包括：

（1）基于深度學(xué)習(xí)技術(shù)的IQA方法存在訓(xùn)練集數(shù)據(jù)不足的問(wèn)題，目前最大數(shù)據(jù)集僅含幾千幅圖像。現(xiàn)有的Deep learning-based IQA算法過(guò)度依賴有標(biāo)簽的數(shù)據(jù)集，雖然已有很多免主觀分?jǐn)?shù)模型提出，從本質(zhì)上講，還沒(méi)有完全脫離對(duì)標(biāo)注數(shù)據(jù)或有監(jiān)督IQA算法的依賴。遷移學(xué)習(xí)是解決該問(wèn)題的過(guò)渡方法，研究和探索半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在IQA中的應(yīng)用，會(huì)減輕或擺脫對(duì)標(biāo)注型數(shù)據(jù)集的依賴，最終避免數(shù)據(jù)集帶來(lái)的偏見(jiàn)。這將是未來(lái)的研究方向之一。

（2）從應(yīng)用角度看，發(fā)展專用IQA算法具備現(xiàn)實(shí)性和實(shí)用性，目前還沒(méi)有任何1種通用型的IQA算法能勝任所有圖像評(píng)測(cè)任務(wù)。探索通用的IQA模型也是未來(lái)的研究方向。

（3）人對(duì)圖像質(zhì)量的主觀評(píng)價(jià)可以依據(jù)規(guī)則和邏輯推理，如何讓數(shù)據(jù)驅(qū)動(dòng)的Deep IQA模型融合主觀先驗(yàn)知識(shí)，增加邏輯推理過(guò)程，提高深度學(xué)習(xí)模型的可解釋性和泛化性，需要做進(jìn)一步研究。

（4）從發(fā)展趨勢(shì)看，基于深度學(xué)習(xí)的GAN-IQA方法更具有研究?jī)r(jià)值。該類方法部分模擬了人類的視覺(jué)比較過(guò)程，從而使NR-IQA方法具備FR-IQA的優(yōu)勢(shì)，但是如何提高模擬參考圖的可靠性是該類算法需要關(guān)注的問(wèn)題。

（5）基于深度學(xué)習(xí)的IQA算法將圖像特征提取和質(zhì)量分?jǐn)?shù)回歸統(tǒng)一在一個(gè)框架內(nèi)完成，但模型的復(fù)雜度高，如果部署到移動(dòng)終端，需要簡(jiǎn)化基于深度學(xué)習(xí)的IQA模型。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放