亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)方法綜述

        2021-12-12 02:49:46曹玉東劉海燕李曉會(huì)
        關(guān)鍵詞:集上卷積性能

        曹玉東,劉海燕,賈 旭,李曉會(huì)

        遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001

        圖像質(zhì)量評(píng)價(jià)是圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)問(wèn)題之一。數(shù)字圖像在獲取、壓縮存儲(chǔ)、傳輸過(guò)程中受到諸多因素的干擾,造成失真或降質(zhì),從而影響人類的視覺(jué)體驗(yàn)或者圖像的后處理效果[1]。只有對(duì)圖像質(zhì)量做出正確評(píng)價(jià),才能確定后續(xù)的增強(qiáng)或控制方法。另外,數(shù)字圖像處理算法性能優(yōu)劣的分析和數(shù)字圖像處理系統(tǒng)的性能評(píng)估都需要對(duì)圖像質(zhì)量做出評(píng)價(jià)。

        根據(jù)是否有人的參與,可以分為圖像主觀質(zhì)量評(píng)測(cè)和圖像客觀質(zhì)量評(píng)測(cè)。主觀質(zhì)量評(píng)測(cè)依靠人的主觀感覺(jué)評(píng)判圖像的質(zhì)量,由于不同的人對(duì)圖像質(zhì)量的感知會(huì)有不同,普遍的做法是多人對(duì)失真圖像做評(píng)價(jià),然后取平均值??陀^圖像質(zhì)量評(píng)測(cè)需要利用計(jì)算機(jī)建立數(shù)學(xué)模型,然后計(jì)算并輸出數(shù)字化的測(cè)量結(jié)果,要求客觀圖像質(zhì)量評(píng)測(cè)結(jié)果與主觀質(zhì)量分?jǐn)?shù)保持高度的一致性,因此客觀評(píng)測(cè)方法需要充分結(jié)合人類視覺(jué)系統(tǒng)(Human Vision System,HVS)的特性。近年來(lái),隨著生物科學(xué)、解剖學(xué)、神經(jīng)心理學(xué)等學(xué)科的發(fā)展,人類對(duì)視覺(jué)系統(tǒng)的認(rèn)識(shí)逐步深入。

        采用人工方法對(duì)失真圖像的質(zhì)量進(jìn)行主觀評(píng)測(cè)具有效率低、成本高的特點(diǎn),難以實(shí)現(xiàn)準(zhǔn)確和實(shí)時(shí)的質(zhì)量評(píng)估,因此研究客觀圖像質(zhì)量評(píng)價(jià)算法是必然的趨勢(shì)。隨著人工智能的發(fā)展,為利用計(jì)算機(jī)模擬人類視覺(jué)系統(tǒng)的感知過(guò)程提供了可能。

        早期的圖像質(zhì)量評(píng)價(jià)算法關(guān)注特定的失真類型,例如壓縮失真、塊狀效應(yīng)失真和圖像模糊度等。從知網(wǎng)的檢索結(jié)果看,國(guó)內(nèi)作者更關(guān)注針對(duì)某一特殊應(yīng)用領(lǐng)域的圖像質(zhì)量評(píng)價(jià)方法,例如醫(yī)療圖像、水下圖像、立體圖像、焊道圖像、汽車抗暈光圖像、紅外或射線圖像的質(zhì)量評(píng)價(jià)。如果不使用公開(kāi)的數(shù)據(jù)集,則不便在不同的算法之間做性能比較。由于實(shí)際應(yīng)用中圖像失真的多樣性,面向非特定失真的圖像質(zhì)量評(píng)測(cè)方法具有廣泛的實(shí)用性。參考文獻(xiàn)[1-3]綜述了常見(jiàn)的圖像質(zhì)量評(píng)測(cè)算法。

        2012年,在ImageNet圖像處理分類比賽中,Alex設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)AlexNet奪得冠軍,深度學(xué)習(xí)開(kāi)始受到高度關(guān)注。隨著深度學(xué)習(xí)技術(shù)在圖像質(zhì)量評(píng)價(jià)(Image Quality Assessment,IQA)中的大量應(yīng)用,有必要重新梳理和總結(jié)IQA算法。本文介紹衡量指標(biāo)、常用數(shù)據(jù)集及評(píng)價(jià)方法的分類,并對(duì)IQA方法進(jìn)行梳理和總結(jié),然后對(duì)數(shù)據(jù)增強(qiáng)方法進(jìn)行分析和說(shuō)明,最后對(duì)未來(lái)研究進(jìn)行展望。

        1 圖像質(zhì)量評(píng)測(cè)算法的衡量指標(biāo)

        對(duì)于性能較好的IQA算法而言,其質(zhì)量評(píng)測(cè)分?jǐn)?shù)會(huì)與主觀質(zhì)量分?jǐn)?shù)保持高度一致,根據(jù)視頻質(zhì)量專家組VQEG的報(bào)告[4],國(guó)際上通用的圖像質(zhì)量評(píng)測(cè)性能評(píng)價(jià)指標(biāo)主要包括3種:斯頗曼秩相關(guān)系數(shù)(Spearman Rank Order Correlation Coefficient,SROCC)、皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和均方誤差(Root Mean Squared Error,RMSE)。其中SROCC和PLCC被多數(shù)文獻(xiàn)采用。

        SROCC用來(lái)描述兩組數(shù)據(jù)的等級(jí)相關(guān)性,取值范圍為0~1,性能值等于1時(shí),表明兩組數(shù)據(jù)完全一致。PLCC描述兩組數(shù)據(jù)的線性相關(guān)系數(shù),其取值范圍為-1~1。當(dāng)PLCC的值為零時(shí),表示2組數(shù)據(jù)完全不相關(guān);當(dāng)PLCC值為1或-1時(shí),表明兩組數(shù)據(jù)完全相關(guān)。如果模型附加某些非線性變換,會(huì)造成PLCC性能變好,但是SROCC性能不會(huì)被影響,因此SROCC被認(rèn)為是最好的非線性相關(guān)指標(biāo)。均方誤差(Root Mean Squared Error,RMSE)用于衡量?jī)山M數(shù)據(jù)之間的絕對(duì)誤差,即衡量算法預(yù)測(cè)的準(zhǔn)確性,均方誤差越接近于0,表明算法的性能越好。

        上述3個(gè)性能評(píng)價(jià)指標(biāo)分別衡量圖像質(zhì)量客觀評(píng)測(cè)算法的單調(diào)性、線性相關(guān)性以及誤差值。此外,有少數(shù)文獻(xiàn)使用Kendall秩相關(guān)系數(shù)(Kendall Rank Order Correlation Coefficient,KROCC)或離出率作為評(píng)價(jià)指標(biāo)[1],或者使用散點(diǎn)圖對(duì)IQA算法做定性評(píng)價(jià)[3],不再贅述。

        2 IQA數(shù)據(jù)集

        評(píng)價(jià)IQA算法的性能,需要在公開(kāi)的數(shù)據(jù)集上與其他算法做比較或測(cè)試,在不同的數(shù)據(jù)集上驗(yàn)證算法的泛化性能。為此,國(guó)際上的一些圖像研究機(jī)構(gòu)建立了各種圖像質(zhì)量評(píng)測(cè)數(shù)據(jù)集,相關(guān)介紹參見(jiàn)表1,主要工作是為數(shù)據(jù)集中的失真圖像標(biāo)定主觀質(zhì)量分?jǐn)?shù),供算法訓(xùn)練和測(cè)試使用。不同的數(shù)據(jù)集之間的區(qū)別主要是理想?yún)⒖紙D的數(shù)量、評(píng)分標(biāo)準(zhǔn)、失真圖像的失真類型和數(shù)量等。人工評(píng)價(jià)結(jié)果具有主觀性,IQA數(shù)據(jù)集的標(biāo)定會(huì)受到觀察員的觀測(cè)動(dòng)機(jī)、觀測(cè)環(huán)境和知識(shí)背景的影響。為了避免受到這些因素影響,采用多人評(píng)價(jià),然后取平均值的方法。常見(jiàn)數(shù)據(jù)集的標(biāo)定值分為平均主觀分?jǐn)?shù)(Mean Opinion Score,MOS)或者平均主觀分?jǐn)?shù)差(Difference Mean Opinion Score,DMOS)兩種。標(biāo)定數(shù)值的范圍因數(shù)據(jù)集的不同而異。MOS的值越小,圖像的失真越嚴(yán)重,圖像的質(zhì)量越差;DMOS的數(shù)值越大,圖像的失真越嚴(yán)重,圖像的質(zhì)量就越差。綜合性能較好且引用率較高的數(shù)據(jù)集為L(zhǎng)IVE、TID2008、TID2013和CSIQ等4個(gè)IQA數(shù)據(jù)集。2017年Ma等公開(kāi)Waterloo Exploration數(shù)據(jù)集[5],該數(shù)據(jù)集包含94 880幅失真圖像,4 744幅未失真圖像,更適合基于深度學(xué)習(xí)的IQA算法做訓(xùn)練和測(cè)試,但目前使用不多。表1總結(jié)了常用的IQA數(shù)據(jù)集,分別介紹如下。

        表1 常用的公開(kāi)IQA數(shù)據(jù)集Table 1 Public frequently-used IQA datasets

        (1)LIVE數(shù)據(jù)集

        LIVE數(shù)據(jù)集[6-7]包含29幅彩色的理想?yún)⒖紙D,總計(jì)779幅不同失真程度的圖像。失真類型包括5種:白噪聲失真、JPEG、JPEG2000、高斯模糊和快速衰落。161名觀察員對(duì)每幅失真圖像進(jìn)行主觀評(píng)分,然后依據(jù)每幅圖像的所有得分計(jì)算DMOS值,取值范圍是0~100。

        (2)TID2008數(shù)據(jù)集

        TID2008數(shù)據(jù)集[8]包含25幅理想?yún)⒖紙D,17種失真類型??傆?jì)有4種不同程度失真的1 700幅失真圖像。其標(biāo)注值采用MOS,其取值范圍是0~9。

        (3)TID2013數(shù)據(jù)集

        TID2013數(shù)據(jù)集[9-10]在TID2008的基礎(chǔ)上,增加了7種失真類型,每種類型包括125幅失真圖像。失真圖像采自圖像的獲取、傳輸和校準(zhǔn)等不同環(huán)節(jié),失真類型多,每種失真類型包含的圖像數(shù)量少。TID2013是測(cè)試難度較大的數(shù)據(jù)集,從現(xiàn)有文獻(xiàn)資料看,多數(shù)基于深度學(xué)習(xí)技術(shù)的IQA算法都主要選擇該數(shù)據(jù)集做訓(xùn)練和測(cè)試。該數(shù)據(jù)集同TID2008一樣,采用MOS標(biāo)注失真圖像,其取值范圍是0~9。

        (4)CSIQ數(shù)據(jù)集

        CSIQ數(shù)據(jù)集[11]包含30幅未失真的理想?yún)⒖紙D像、6種失真類型,總計(jì)866幅失真圖像。6種失真類型為高斯模糊、全局對(duì)比度衰減、JPEG壓縮、JPEG2000壓縮、高斯有色噪聲和高斯加性噪聲。其質(zhì)量標(biāo)定分?jǐn)?shù)采用DMOS,取值范圍是0~1。

        (5)Waterloo Exploration數(shù)據(jù)集

        Waterloo Exploration數(shù)據(jù)集[5]是由Ma公開(kāi)發(fā)布的數(shù)據(jù)集,同LIVE或TID2013相比,失真圖像的內(nèi)容更豐富。該數(shù)據(jù)集的失真類型為JPEG壓縮、JP2K壓縮、高斯模糊和白噪聲失真,每種失真類型包括5個(gè)失真級(jí)別。該數(shù)據(jù)集沒(méi)有采用MOS或DMOS值標(biāo)注失真圖像,而是提出了3個(gè)新測(cè)度:參考圖/失真圖像的可分辨性測(cè)試(pristine/distorted image discriminability test,D-test)、按列表排序的一致性測(cè)試(listwise ranking consistency test,L-test)和逐對(duì)一致性測(cè)試(pairwise preference consistency test,P-test)。

        (6)KADID-10k數(shù)據(jù)集

        KADID-10k[12]數(shù)據(jù)集是由德國(guó)康斯坦茨大學(xué)計(jì)算機(jī)與信息科學(xué)系發(fā)布的數(shù)據(jù)集。首先在Pixabay.com下載645 706幅尺寸大于1 500×1 200的圖像,然后將這些圖像縮放為512×384大小,最后挑選81幅高質(zhì)量圖像作為參考圖像。該數(shù)據(jù)集共有25種失真類型,10 125幅失真圖像,采用DMOS作為標(biāo)注值,由于失真類型豐富,適用于基于深度學(xué)習(xí)的IQA算法。

        (7)KonIQ-10k數(shù)據(jù)集

        KonIQ-10k數(shù)據(jù)集[13]主要通過(guò)公共多媒體數(shù)據(jù)庫(kù)YFCC100M選擇失真圖像,經(jīng)過(guò)2階段進(jìn)行過(guò)濾,最終得到包含10 073幅失真圖像的數(shù)據(jù)集。適用于基于深度學(xué)習(xí)的IQA模型,該數(shù)據(jù)集為真實(shí)的失真類型,采用MOS標(biāo)注失真圖像,取值范圍是1~100。

        其他IQA數(shù)據(jù)集的詳細(xì)介紹可參閱文獻(xiàn)[3],不再贅述。

        3 圖像質(zhì)量評(píng)價(jià)方法的分類

        根據(jù)圖像視覺(jué)信息處理過(guò)程的不同,可以把IQA算法分為兩類:基于自下而上(Bottom-up)和基于自上而下(Top-down)的IQA模型。Bottom-up模型采集底層圖像信息作為輸入,通過(guò)數(shù)學(xué)模型模擬HVS,實(shí)現(xiàn)逐步抽象的過(guò)程。2018年,姚旺等[14]將多通道網(wǎng)絡(luò)引入到FR-IQA算法中,獲取理想?yún)⒖紙D像和失真圖像的梯度差異圖,并將梯度差異圖和失真圖像同時(shí)輸入到多通道網(wǎng)絡(luò)中學(xué)習(xí)質(zhì)量分?jǐn)?shù)。Top-down模型在視覺(jué)信息處理過(guò)程中融入人類的先驗(yàn)知識(shí)。Wang等[15]假設(shè)失真會(huì)改變圖像的結(jié)構(gòu)化特征,提出了結(jié)構(gòu)相似度(Structural Similarity Index Metric,SSIM)算法。SSIM算法從亮度、對(duì)比度和結(jié)構(gòu)信息3方面計(jì)算失真圖和理想?yún)⒖紙D之間的局部結(jié)構(gòu)相似性,根據(jù)相似程度判斷失真圖像的質(zhì)量。在IQA算法的發(fā)展進(jìn)程中,SSIM算法[15]的提出具有里程碑的意義,隨后一些學(xué)者提出了改進(jìn)算法:MSSIM[16]、FSIM[17]、IW-SSIM[18]等。信息保真度準(zhǔn)則(Information Fidelity Criterion,IFC)[19]和視覺(jué)信息保真度(Visual Information Fidelity,VIF)[20]從信息論的角度考慮圖像的失真特性,通過(guò)比較參考圖和失真圖的差異獲取失真圖像的質(zhì)量。

        根據(jù)是否有參考信息,數(shù)字圖像質(zhì)量評(píng)價(jià)方法可以分為3類:全參考圖像質(zhì)量評(píng)測(cè)(Full-Reference Image Quality Assessment,F(xiàn)R-IQA)、半?yún)⒖紙D像質(zhì)量評(píng)測(cè)(Reduced-Reference Image Quality Assessment,RRIQA)和無(wú)參考的圖像質(zhì)量評(píng)測(cè)(No-Reference Image Quality Assessment,NR-IQA)。

        (1)全參考圖像質(zhì)量評(píng)測(cè)

        對(duì)圖像質(zhì)量評(píng)價(jià)算法的研究始于FR-IQA,該類方法利用失真圖像和理想?yún)⒖紙D像之間的差異評(píng)測(cè)失真圖像的質(zhì)量。2019年,國(guó)內(nèi)學(xué)者王同罕等[21]提取失真圖像的梯度特征,用于全參考圖像質(zhì)量評(píng)價(jià),在LIVE數(shù)據(jù)集將SROCC性能提高到96%。介紹FF-IQA的參考文獻(xiàn)較多,讀者可以進(jìn)一步參閱其他文獻(xiàn)。

        (2)半?yún)⒖紙D像質(zhì)量評(píng)測(cè)

        RR-IQA方法利用先驗(yàn)知識(shí)提取理想?yún)⒖紙D像的少量特征信息,與失真圖像的特征信息進(jìn)行對(duì)比,完成對(duì)失真圖像的質(zhì)量評(píng)估。由于傳輸?shù)臄?shù)據(jù)量小,處理相對(duì)靈活,主要應(yīng)用在實(shí)時(shí)傳輸系統(tǒng)中。

        (3)無(wú)參考圖像質(zhì)量評(píng)測(cè)

        NR-IQA方法是指在完全沒(méi)有參考圖像的情況下對(duì)一幅失真圖像質(zhì)量做評(píng)測(cè),在實(shí)踐中應(yīng)用較多。根據(jù)特征獲取方法的不同,NR-IQA算法被分為基于分析模型的方法和基于學(xué)習(xí)的方法,基于深度學(xué)習(xí)的IQA方法屬于后一種。

        表2分析和歸納了典型的IQA算法,其中文獻(xiàn)[14]和DIQaM是全參考IQA算法,其余皆為無(wú)參考IQA算法。2012年,Ye等[22]提出CORNIA算法,通過(guò)非監(jiān)督特征學(xué)習(xí)獲造碼本字典,在LIVE數(shù)據(jù)集上的SROCC性能達(dá)到96%。2020年,Liu等[23]提出SNP-NIQE算法,從結(jié)構(gòu)性、自然性和感知性等3個(gè)方面提取失真圖像的自然統(tǒng)計(jì)特性,結(jié)合無(wú)監(jiān)督學(xué)習(xí)進(jìn)行圖像質(zhì)量評(píng)估,將在TID2013數(shù)據(jù)集上的SROCC性能提升至90%。不足之處是該模型采用常見(jiàn)的失真類型進(jìn)行訓(xùn)練,模型的泛化性能不足。Zhu[29]采用多個(gè)異質(zhì)傳感器采集圖像信息,通過(guò)逐像素處理,得到融合圖像作為參考圖像,該方法在TID2013數(shù)據(jù)集上的性能不理想,表明該融合方法有一定的局限性。文獻(xiàn)[30-33]介紹了更多的此類IQA方法,可供讀者參考。

        傳統(tǒng)機(jī)器學(xué)習(xí)方法假設(shè)失真會(huì)改變圖像的某些統(tǒng)計(jì)特性,該類算法把失真圖像特征提取和質(zhì)量分?jǐn)?shù)回歸過(guò)程分開(kāi)處理,難以準(zhǔn)確描述HVS的感知過(guò)程。在基于學(xué)習(xí)的IQA方法中,可以使用神經(jīng)網(wǎng)絡(luò)或者碼本等方法提取特征。隨著海量圖像的出現(xiàn)和算力的提高,深度神經(jīng)網(wǎng)絡(luò)開(kāi)始應(yīng)用于圖像質(zhì)量評(píng)測(cè)中。目前,在基于深度學(xué)習(xí)技術(shù)的IQA方法中,應(yīng)用較多的圖像特征描述形式多為通過(guò)自動(dòng)學(xué)習(xí)方式獲取的特征圖。表3總結(jié)和歸納了9個(gè)典型的圖像質(zhì)量評(píng)價(jià)算法的性能。

        表2 典型算法分析Table 2 Analysis of typical algorithms

        表3 IQA算法性能比較Table 3 Performance comparison of IQA algorithms

        4 基于深度學(xué)習(xí)的IQA模型

        深度神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是把圖像特征提取和回歸過(guò)程整合在一個(gè)優(yōu)化框架內(nèi),真正實(shí)現(xiàn)端到端的學(xué)習(xí)?;谏疃葘W(xué)習(xí)的IQA方法正在逐漸成為主流的圖像質(zhì)量評(píng)價(jià)算法。在傳統(tǒng)的算法中,特征提取需要依賴設(shè)計(jì)人員的經(jīng)驗(yàn),構(gòu)建過(guò)程比較復(fù)雜。深度神經(jīng)網(wǎng)絡(luò)通過(guò)數(shù)據(jù)驅(qū)動(dòng),學(xué)習(xí)圖像特征,對(duì)圖像的描述更準(zhǔn)確。

        在深度學(xué)習(xí)領(lǐng)域有不同類型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[36]和變換器(Transformer)[37]等。CNN和GAN常用在圖像質(zhì)量評(píng)價(jià)算法中,RNN網(wǎng)絡(luò)模型多用于對(duì)視頻的質(zhì)量評(píng)價(jià),Transformer首先在自然語(yǔ)言處理領(lǐng)域取得成功,近幾年,開(kāi)始應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域[38]。

        4.1 基于卷積神經(jīng)網(wǎng)絡(luò)的IQA方法

        CNN是一種前饋神經(jīng)網(wǎng)絡(luò),通常由卷積層、池化層和全連接層構(gòu)成。卷積層和池化層抽取降維的特征圖,全連接層回歸質(zhì)量分?jǐn)?shù)。CNN成功的關(guān)鍵是引入了歸納偏置(inductive bias),采用卷積核權(quán)值共享的方式減少網(wǎng)絡(luò)參數(shù)的數(shù)量。

        基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型的常見(jiàn)架構(gòu)如圖1所示,由多個(gè)卷積層提取圖像特征,然后由全連接層回歸失真圖像的質(zhì)量分?jǐn)?shù)。2014年,Kang等[39]提出IQA-CNN(Convolutional Neural Networks for no-reference Image Quality Assessment),網(wǎng)絡(luò)架構(gòu)與圖1類似,包括1個(gè)卷積層(含最大池化和最小池化)和2個(gè)全連接層。為降低過(guò)擬合風(fēng)險(xiǎn),該文作者將數(shù)據(jù)集圖像分割為若干圖像塊訓(xùn)練模型。Kang等隨后提出IQA-CNN++[24],符號(hào)“++”代表兩個(gè)任務(wù):失真類型辨別和圖像質(zhì)量分?jǐn)?shù)預(yù)測(cè)。IQA-CNN++在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到95%,在TID2008數(shù)據(jù)庫(kù)上的SROCC性能為88%,PLCC性能為87%,但該模型的訓(xùn)練集規(guī)模太小,影響了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。2017年,Hou等[40]提出了DLIQA(Deep Learning for blind Image Quality Assessment),首先提取失真圖像的統(tǒng)計(jì)性特征(Natural Scene Statistics feature,NSS)[41],然后使用深度分類模型(Deep Belief Net,DBN)[42]把NSS特征映射為5個(gè)質(zhì)量等級(jí),最后把標(biāo)記了質(zhì)量等級(jí)的失真圖像映射為質(zhì)量分?jǐn)?shù)。DLIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到93%。2017年,Liu等[43]提出RankIQA(Ranking for no-reference Image Quality Assessment),使用失真圖像集的質(zhì)量排序數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),然后基于遷移學(xué)習(xí)技術(shù)訓(xùn)練更深的網(wǎng)絡(luò)。RankIQA模型可以通過(guò)生成圖像增加訓(xùn)練數(shù)據(jù),在TID2013的SROCC性能為78.0%。2018年,姚旺等[14]提出DeepFR圖像質(zhì)量評(píng)價(jià)算法,結(jié)合人眼的視覺(jué)特性對(duì)失真圖像的梯度進(jìn)行加權(quán)優(yōu)化,然后提取出符合視覺(jué)特性的視覺(jué)感知圖。該算法是用8個(gè)卷積層來(lái)提取特征圖,3個(gè)最大池提取局部較強(qiáng)特征,2個(gè)全連接層做非線性回歸。該算法在LIVE和TID2008數(shù)據(jù)集上的SROCC和PLCC性能均達(dá)到98%以上。其局限性在于人類視覺(jué)系統(tǒng)十分復(fù)雜,目前還沒(méi)有定量的方法對(duì)人眼視覺(jué)的心理特征進(jìn)行描述,該方向有待研究。同年,Bosse等[25]提出無(wú)參考的深度圖像質(zhì)量評(píng)價(jià)算法(DIQaM-NR)和加權(quán)的無(wú)參考的深度圖像質(zhì)量評(píng)價(jià)算法(WaDIQaM-NR),兩種方法都采用相同的網(wǎng)絡(luò)結(jié)構(gòu):包括10個(gè)卷積層和5個(gè)池化層,使用ReLU做激活函數(shù),區(qū)別在于后者采用了加權(quán)思想。文獻(xiàn)[25]把圖像分割為若干圖像塊,再通過(guò)平均求和或者加權(quán)求和的方式獲取整幅失真圖的質(zhì)量分?jǐn)?shù)。圖像分割會(huì)導(dǎo)致失真區(qū)域被人為割裂,使得該方法的準(zhǔn)確率受到了限制。DIQaM-NR在LIVE數(shù)據(jù)集上的SROCC性能為97.2%,PLCC性能為96%;在TID2013上的SROCC性能為85.5%,PLCC性能為83.5%。2018年,Ma等[44]提出了端到端的多任務(wù)優(yōu)化網(wǎng)絡(luò)MEON(Multi-task End-to-end Optimized Network),Multi-task是指失真類型識(shí)別和質(zhì)量分?jǐn)?shù)預(yù)測(cè)。為了進(jìn)一步提升性能,Ma設(shè)計(jì)了GDN(Generalized Divisive Normalization)取代ReLU激活函數(shù)。MEON在TID2013數(shù)據(jù)集上的SROCC性能值為91%。2019年,Kim等[26]提出DIQA(Deep Image Quality Assessor),將NR-IQA訓(xùn)練分為兩個(gè)階段:在第1階段,利用CNN網(wǎng)絡(luò)學(xué)習(xí)和預(yù)測(cè)客觀誤差圖,客觀誤差圖可以由理想的參考圖和失真圖的差生成,作為訓(xùn)練數(shù)據(jù)使用,客觀誤差圖和主觀分?jǐn)?shù)存在關(guān)聯(lián);在第2階段,利用客觀誤差圖學(xué)習(xí)預(yù)測(cè)主觀得分。另外還融合了兩個(gè)簡(jiǎn)單的手工特征,以進(jìn)一步提高模型精度。該模型的訓(xùn)練過(guò)程比較復(fù)雜,模型的擴(kuò)展性比較差,模型的預(yù)測(cè)與主觀感知結(jié)果的一致性不好。DIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到96%。2019年,高方遠(yuǎn)等[27]提出VI-IQA(Vgg and Inception Net for IQA),該算法融合了深度神經(jīng)網(wǎng)和感知視覺(jué)特性,在TID2013數(shù)據(jù)集上的SROCC值達(dá)到81.1%,PLCC值達(dá)到84%。2020年,Ma等[35]采用深度學(xué)習(xí)技術(shù),對(duì)經(jīng)過(guò)卷積層提取的圖像特征進(jìn)行融合,再輸入到全連接層,獲取失真圖像的質(zhì)量分?jǐn)?shù)。該方法在LIVE數(shù)據(jù)集上的SROCC性能為95.8%,PLCC性能為96.9%,該模型的不足就是無(wú)法準(zhǔn)確地反映人在觀察失真圖像時(shí)的感受。

        圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型總體框架Fig.1 Framework of CNN based IQA model

        基于深度學(xué)習(xí)技術(shù)的IQA模型通常比較復(fù)雜,需要較強(qiáng)的算力和海量的訓(xùn)練數(shù)據(jù),在某種程度上制約了該類算法的應(yīng)用。2020年,曹玉東等[34]設(shè)計(jì)了并行小規(guī)模卷積網(wǎng)絡(luò)(Parallel Small CNN based image quality assessment algorithm,PSCNN),用于無(wú)參考圖像質(zhì)量評(píng)測(cè)。該模型的每路卷積子網(wǎng)絡(luò)采取相同的結(jié)構(gòu),4路小規(guī)模卷積網(wǎng)的輸入為不同尺度的輸入圖像,目的是學(xué)習(xí)更豐富的失真特征信息。PSCNN算法為了提高模型精度,分成兩個(gè)階段優(yōu)化模型的參數(shù),在LIVE數(shù)據(jù)集上的SROCC的性能為96%,PLCC的性能為97%。為驗(yàn)證該算法的泛化性能,在LIVE上訓(xùn)練,在TID2008上測(cè)試,SROCC性能指標(biāo)達(dá)到93%。

        4.2 基于生成對(duì)抗網(wǎng)絡(luò)的IQA方法

        生成對(duì)抗網(wǎng)絡(luò)是一種由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的不斷博弈學(xué)習(xí)產(chǎn)生更好的輸出。如果NR-IQA方法能生成模擬的參考圖,會(huì)從根源上解決NR-IQA無(wú)法模擬HVS進(jìn)行比較的問(wèn)題。

        GAN-IQA利用生成對(duì)抗網(wǎng)絡(luò)生成模擬的參考圖,其訓(xùn)練過(guò)程如圖2所示。GAN網(wǎng)絡(luò)通過(guò)對(duì)抗學(xué)習(xí)同時(shí)訓(xùn)練兩個(gè)模型:生成模型和判別模型,訓(xùn)練過(guò)程中,生成模型利用添加了隨機(jī)噪聲的輸入圖像,生成模擬的參考圖,試圖欺騙判別模型;相反,被訓(xùn)練過(guò)的判別模型試圖辨別出模擬參考圖和理想?yún)⒖紙D。當(dāng)判別模型無(wú)法分辨理想?yún)⒖紙D和模擬參考圖的真假時(shí),訓(xùn)練取得成功。測(cè)試或?qū)嶋H應(yīng)用時(shí),把1幅待測(cè)失真圖輸入訓(xùn)練過(guò)的GAN模型后,會(huì)自動(dòng)輸出模擬參考圖,把模擬參考圖和待測(cè)失真圖輸入回歸模型,就可以像FF-IQA那樣模擬人類視覺(jué)的比較過(guò)程,評(píng)判失真圖像的質(zhì)量分?jǐn)?shù)。自生成對(duì)抗網(wǎng)絡(luò)誕生以來(lái),相關(guān)研究人員積極拓展其應(yīng)用。2018年,Lin等[28]提出H-IQA(Hallucinated IQA),設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)包括3部分:生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)和質(zhì)量回歸網(wǎng)絡(luò)。質(zhì)量回歸網(wǎng)絡(luò)的輸入是失真圖、差值圖,最終輸出失真圖的質(zhì)量預(yù)測(cè)分?jǐn)?shù)。為了生成逼真的模擬參考圖,該文作者重新設(shè)計(jì)了感知損失函數(shù)(quality-aware perceptual loss)。為提高圖像的特征表達(dá)能力,在回歸網(wǎng)絡(luò)中融入了生成網(wǎng)絡(luò)從失真圖像中抽取的高級(jí)特征。H-IQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為98%,在TID2013數(shù)據(jù)集上的SROCC性能為87%。同年,Ren等[45]提出RAN4IQA(Restorative Adversarial Net for Image Quality Assessment),通過(guò)逐級(jí)串接殘差塊(Residual Block)構(gòu)成生成模型和判別模型,每個(gè)殘差塊的結(jié)構(gòu)相同,主要包括歸一化、卷積和ReLU激活等操作。卷積核的大小為3×3,數(shù)量是64。判別模型的結(jié)構(gòu)類似VGG,設(shè)計(jì)的損失函數(shù)包括感知損失和對(duì)抗損失兩部分??梢钥闯龌趯?duì)抗網(wǎng)絡(luò)的IQA算法性能通常好于表3中列出的其他基于深度學(xué)習(xí)技術(shù)的IQA方法。

        圖2 GAN-IQA模型的訓(xùn)練示意圖Fig.2 Schematic diagram of training of GAN-IQA model

        2020年,曹玉東等[46]在深入研究了深度對(duì)抗神經(jīng)網(wǎng)絡(luò)之后,提出基于增強(qiáng)型對(duì)抗學(xué)習(xí)的IQA算法(Enhanced Adversarial Learning based Image Quality Assessment,EAL-IQA),其實(shí)現(xiàn)過(guò)程如圖3所示。傳統(tǒng)的GAN用1個(gè)判別網(wǎng)絡(luò)輸出判別結(jié)果,改進(jìn)后的GAN網(wǎng)絡(luò)結(jié)構(gòu)增加了1個(gè)判別網(wǎng)絡(luò),實(shí)現(xiàn)增強(qiáng)型對(duì)抗學(xué)習(xí)。在訓(xùn)練階段,添加了隨機(jī)噪聲的輸入圖像經(jīng)過(guò)生成網(wǎng)絡(luò)G以后,輸出仿真圖(模擬參考圖),將該模擬參考圖和理想?yún)⒖紙D輸入判別網(wǎng)絡(luò)D1,判別網(wǎng)絡(luò)D1根據(jù)二者的相似程度輸出二值化的判別結(jié)果,該判別結(jié)果會(huì)反饋給生成網(wǎng)絡(luò)G,如果判別結(jié)果是模擬參考圖和理想?yún)⒖紙D不相似,則不斷重復(fù)上述過(guò)程,直到判別網(wǎng)絡(luò)難以分辨模擬參考圖和理想?yún)⒖紙D的真假為止。增加的判別網(wǎng)絡(luò)D2提高了對(duì)抗學(xué)習(xí)強(qiáng)度,提升了模擬參考圖的可靠性。增強(qiáng)部分的對(duì)抗損失函數(shù)為:

        圖3 基于增強(qiáng)對(duì)抗學(xué)習(xí)的IQA框架圖Fig.3 Framework of IQA with enhanced adversarial learning

        EAL-IQA在LIVE上的SROCC和PLCC性 能 值 為96%;在TID2013上的SROCC性能值為89%,PLCC性能值為90%。通常GAN-IQA的性能比較高,但是模型的訓(xùn)練過(guò)程比較復(fù)雜。

        依據(jù)現(xiàn)有的文獻(xiàn),還沒(méi)有任何1種算法能夠在TID2013的每1種失真類型上都領(lǐng)先于其他IQA算法,因此設(shè)計(jì)通用型的IQA算法是未來(lái)的工作重點(diǎn)。

        CNN的inductive bias縮小了模型的感受野,不能對(duì)長(zhǎng)期依賴性編碼。在自然語(yǔ)言處理領(lǐng)域提出的變換器(Transformer)方法彌補(bǔ)了CNN的不足。

        4.3 基于Transformer的IQA方法

        Transformer是一種由編碼器(encoder)和解碼器(decoder)構(gòu)成的深度圖神經(jīng)網(wǎng)絡(luò)。2020年,You等[47]首次將Transformer應(yīng)用于IQA領(lǐng)域。基于Transformer的NR-IQA的流程如圖4所示,主要包括3個(gè)步驟:提取圖像特征、對(duì)特征做變換、采用多層感知器頭(MLP Head)預(yù)測(cè)圖像質(zhì)量。

        圖4 基于Transformer的NR-IQA評(píng)測(cè)流程圖Fig.4 Flow chart of NR-IQA with Transformer

        Transformer可進(jìn)行并行化的處理,通過(guò)注意力機(jī)制關(guān)注重點(diǎn)區(qū)域。與CNN相比,Transformer能夠捕獲長(zhǎng)距離的特征,更容易獲取全局信息。TRIQ(Transformer for Image Quality assessment)[47]采用自適應(yīng)編碼器處理不同分辨率的圖像,將卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖作為淺層Transformer編碼器的輸入,然后通過(guò)MLP Head預(yù)測(cè)感知圖像質(zhì)量。TRIQ在組合測(cè)試集上的PLCC、SROCC與RMSE的性能分別為88.4%、86.8%和28.0%。2021年,Cheon等[48]提出IQT(Image Quality Transformer)。該模型采用Adam優(yōu)化器,MSE損失函數(shù),transformer的編碼器和解碼器層數(shù)為2層。IQT在NTIRE 2021感知圖像質(zhì)量評(píng)價(jià)挑戰(zhàn)賽(perceptual image quality assessment challenge)[49]上獲得第1名的好成績(jī)。該算法在LIVE上的SROCC性能達(dá)到97%;在CSIQ上的SROCC性能達(dá)到94%以上;在TID2013上的SROCC性能達(dá)到89%以上。

        Ramachandran等[50]提出用獨(dú)立的注意力層構(gòu)建完全注意力視覺(jué)模型,以此取代感受野受限的卷積。2020年,Cordonnier等[51]分析了自我注意與卷積層的關(guān)系,得出的結(jié)論是自我注意力層可以學(xué)習(xí)類似于卷積層的行為,代替任何卷積層,為自注意力機(jī)制在圖像質(zhì)量評(píng)價(jià)領(lǐng)域的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

        4.4 訓(xùn)練數(shù)據(jù)不足的問(wèn)題及對(duì)策

        基于深度學(xué)習(xí)的IQA算法需要大規(guī)模的訓(xùn)練數(shù)據(jù),否則容易導(dǎo)致模型過(guò)擬合?,F(xiàn)有的IQA數(shù)據(jù)集規(guī)模偏小,創(chuàng)建帶有人工標(biāo)注的大型IQA數(shù)據(jù)集的成本是非常昂貴的,研究各種數(shù)據(jù)集擴(kuò)充方法是必要的。文獻(xiàn)[25]采用分割訓(xùn)練圖像為若干圖像塊的辦法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。2012年,Ye等[22]利用真實(shí)世界中無(wú)標(biāo)簽的失真圖像來(lái)擴(kuò)充IQA數(shù)據(jù)集,建立了非監(jiān)督失真圖像特征學(xué)習(xí)。2014年,Ye等[52]又提出1種OF-IQA(Opinion Free IQA)模型:BLISS(Blind Learning of Image Quality using Synthetic Scores),使用CORNIA[22]作為基礎(chǔ)模型,融合FSIM、FSIMC[17]、IW-SSIM(Information content Weighted SSIM)[18]、VIF[20]、GMSD[54]等全參考算法的綜合度量結(jié)果作為失真圖像的標(biāo)注分?jǐn)?shù),再折合為DMOS值。其中,F(xiàn)SIMC在FSIM中融入了顏色信息;IW-SSIM在SSIM基礎(chǔ)上加權(quán)了一些信息內(nèi)容,是SSIM的增強(qiáng)版。BLISS算法在3 300幅flickr圖像數(shù)據(jù)集上完成訓(xùn)練,在LIVE和TID2008上的測(cè)試結(jié)果超過(guò)了NIQE[54]和QAC等[55]兩 種OF-BIQA模 型。2017年,Gao等[56]在Image Net數(shù)據(jù)集上預(yù)訓(xùn)練Deep Sim模型,然后再應(yīng)用到其他數(shù)據(jù)集上,通過(guò)計(jì)算理想?yún)⒖紙D和失真圖像的局部相似性獲取整幅圖像的質(zhì)量分?jǐn)?shù)。2017年,Ma等[57]提出一種構(gòu)造訓(xùn)練數(shù)據(jù)的方法:dipIQ,構(gòu)造的數(shù)據(jù)被簡(jiǎn)稱為DIP(quality-Discriminable Image Pairs)。然后利用“可靠”的FR-IQA模型標(biāo)注大量的圖像數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),利用RankNet模型構(gòu)建OU-BIQA(Opinion-Unaware BIQA)模型,即訓(xùn)練過(guò)程中不需要帶主觀質(zhì)量分?jǐn)?shù)標(biāo)記的失真圖像。該方法在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為95%。OF-BIQA與OU-BIQA基本同義,與之對(duì)應(yīng),模型如果使用了標(biāo)記MOS值的訓(xùn)練數(shù)據(jù),被稱為OA-BIQA(Opinion-Aware BIQA)模型。2017年,Kim等[58]提出一種OF-BIQA算法,簡(jiǎn)稱為BIECON,使用經(jīng)典的FF-IQA算法獲取圖像塊的質(zhì)量分?jǐn)?shù),以此充當(dāng)失真圖像的標(biāo)簽值,再利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)。

        數(shù)據(jù)增強(qiáng)不增加網(wǎng)絡(luò)模型的計(jì)算復(fù)雜度,在不實(shí)質(zhì)性增加數(shù)據(jù)的前提下,讓有限的數(shù)據(jù)產(chǎn)生相當(dāng)于更多數(shù)據(jù)的價(jià)值。數(shù)據(jù)增強(qiáng)可分為無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)和有監(jiān)督的數(shù)據(jù)增強(qiáng)兩種方法,從發(fā)展趨勢(shì)看,無(wú)監(jiān)督增強(qiáng)將是解決數(shù)據(jù)不足問(wèn)題的最好方法,遷移學(xué)習(xí)是解決該類問(wèn)題的過(guò)渡辦法。2017年,馮天鵬博士[59]提出通過(guò)遷移學(xué)習(xí)來(lái)解決數(shù)據(jù)量不足的問(wèn)題,并在聯(lián)合遷移學(xué)習(xí)中應(yīng)用了稀疏表示法。

        5 總結(jié)與展望

        自然界的圖像豐富多彩、千差萬(wàn)別,很難準(zhǔn)確描述。傳統(tǒng)的IQA方法需要人工設(shè)計(jì)失真圖像特征,嚴(yán)重依賴設(shè)計(jì)者的知識(shí)水平。基于學(xué)習(xí)的特征提取會(huì)受數(shù)據(jù)集的規(guī)模和數(shù)據(jù)分布的影響,在特定的小規(guī)模數(shù)據(jù)集上訓(xùn)練的模型難免存在偏差,限制其在真正的實(shí)踐環(huán)境中推廣和應(yīng)用。基于深度學(xué)習(xí)技術(shù)的IQA模型取得了更好的性能,但是對(duì)海量標(biāo)記數(shù)據(jù)的需求提高了模型的訓(xùn)練成本。

        下一步的研究趨勢(shì)可能包括:

        (1)基于深度學(xué)習(xí)技術(shù)的IQA方法存在訓(xùn)練集數(shù)據(jù)不足的問(wèn)題,目前最大數(shù)據(jù)集僅含幾千幅圖像。現(xiàn)有的Deep learning-based IQA算法過(guò)度依賴有標(biāo)簽的數(shù)據(jù)集,雖然已有很多免主觀分?jǐn)?shù)模型提出,從本質(zhì)上講,還沒(méi)有完全脫離對(duì)標(biāo)注數(shù)據(jù)或有監(jiān)督IQA算法的依賴。遷移學(xué)習(xí)是解決該問(wèn)題的過(guò)渡方法,研究和探索半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在IQA中的應(yīng)用,會(huì)減輕或擺脫對(duì)標(biāo)注型數(shù)據(jù)集的依賴,最終避免數(shù)據(jù)集帶來(lái)的偏見(jiàn)。這將是未來(lái)的研究方向之一。

        (2)從應(yīng)用角度看,發(fā)展專用IQA算法具備現(xiàn)實(shí)性和實(shí)用性,目前還沒(méi)有任何1種通用型的IQA算法能勝任所有圖像評(píng)測(cè)任務(wù)。探索通用的IQA模型也是未來(lái)的研究方向。

        (3)人對(duì)圖像質(zhì)量的主觀評(píng)價(jià)可以依據(jù)規(guī)則和邏輯推理,如何讓數(shù)據(jù)驅(qū)動(dòng)的Deep IQA模型融合主觀先驗(yàn)知識(shí),增加邏輯推理過(guò)程,提高深度學(xué)習(xí)模型的可解釋性和泛化性,需要做進(jìn)一步研究。

        (4)從發(fā)展趨勢(shì)看,基于深度學(xué)習(xí)的GAN-IQA方法更具有研究?jī)r(jià)值。該類方法部分模擬了人類的視覺(jué)比較過(guò)程,從而使NR-IQA方法具備FR-IQA的優(yōu)勢(shì),但是如何提高模擬參考圖的可靠性是該類算法需要關(guān)注的問(wèn)題。

        (5)基于深度學(xué)習(xí)的IQA算法將圖像特征提取和質(zhì)量分?jǐn)?shù)回歸統(tǒng)一在一個(gè)框架內(nèi)完成,但模型的復(fù)雜度高,如果部署到移動(dòng)終端,需要簡(jiǎn)化基于深度學(xué)習(xí)的IQA模型。

        猜你喜歡
        集上卷積性能
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        復(fù)扇形指標(biāo)集上的分布混沌
        Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
        強(qiáng)韌化PBT/PC共混物的制備與性能
        RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
        超碰色偷偷男人的天堂| 国产丝袜免费精品一区二区| 亚洲成av人片在线天堂无| 久久精品国产69国产精品亚洲| 国产午夜精品无码| 亚洲av成人无码网站…| 国产精品理人伦国色天香一区二区| 黄色av三级在线免费观看| 欧美第五页| 欧美黄色免费看| 国产一级一片内射在线| 宅男亚洲伊人久久大香线蕉| 99热爱久久99热爱九九热爱| 亚洲国际无码中文字幕| 白白青青视频在线免费观看| 国产午夜激情视频在线看| 免费a级毛片高清在钱| 乌克兰少妇xxxx做受野外| 男人的天堂在线无码视频| 亚洲天堂一区二区三区视频| 亚洲国产精品18久久久久久 | 五月激情狠狠开心五月| 涩涩鲁精品亚洲一区二区| 精品人妻系列无码人妻漫画| av在线亚洲欧洲日产一区二区| 久久99久久久无码国产精品色戒 | 少妇人妻精品久久888| 久久综合九色综合久99| 免费啪啪视频一区| 国产内射视频在线观看| 大桥未久av一区二区三区| 激情综合色五月丁香六月亚洲| 亚洲电影一区二区| 亚洲色图偷拍自拍在线| 欧美人与禽zozzo性伦交| 色老头一区二区三区| 日韩人妻免费一区二区三区| 亚洲成a∨人片在线观看无码| 337人体做爰大胆视频| 人妻少妇精品无码专区app| 亚洲本色精品一区二区久久|