任波波,杜海清,劉 勇
(北京郵電大學(xué) 網(wǎng)絡(luò)體系構(gòu)建與融合北京市重點(diǎn)實(shí)驗(yàn)室,北京100876)
責(zé)任編輯:時(shí) 雯
由于圖像所承載的信息比文字、語(yǔ)音要豐富很多,越來(lái)越多的人們傾向于利用圖像來(lái)傳遞信息或感知世界,而圖像質(zhì)量直接關(guān)系到感知客觀世界以及認(rèn)識(shí)事物的準(zhǔn)確性,因此,對(duì)圖像質(zhì)量作出合理評(píng)價(jià)顯得異常重要。
目前,圖像質(zhì)量評(píng)價(jià)算法主要分為兩種,即主觀評(píng)價(jià)和客觀評(píng)價(jià)[1]。考慮到主觀評(píng)價(jià)的不穩(wěn)定性,易受人們情緒、周圍環(huán)境影響等缺點(diǎn),而且需要投入大量的人力、物力、財(cái)力,因此,主觀評(píng)價(jià)算法的應(yīng)用受到了一定的限制。根據(jù)其對(duì)原始圖像的依賴程度,客觀評(píng)價(jià)算法主要分為三種:全參考(Full-Reference,F(xiàn)R)、部分參考(Reduced-Reference,RR)以及無(wú)參考(No-Reference,NR)。全參考評(píng)價(jià)算法,往往會(huì)利用原始圖片的全部信息,評(píng)價(jià)結(jié)果也比較符合人們的主觀感知,典型代表有:結(jié)構(gòu)相似度SSIM(Structural Similarity)[2]等。部分參考算法,顧名思義,需利用原始圖像的部分特征信息,典型算法有:基于小波域自然圖像統(tǒng)計(jì)模型的方法[3]等。然而,實(shí)際應(yīng)用中,往往很難得到原始圖像的參考信息,因而全參考以及部分參考算法的應(yīng)用范圍十分受限,而無(wú)參考算法的提出,打破了這一僵局。
無(wú)參考算法主要分為兩種:針對(duì)特定失真類型的算法以及通用型算法。針對(duì)特定失真類型的算法,比較典型的是針對(duì)塊效應(yīng)的算法[4]以及針對(duì)模糊效應(yīng)的算法[5]等。由于該類算法僅僅對(duì)特定的失真類型才奏效,因而其應(yīng)用大大受限,而通用型算法能夠適用于各種失真類型,是目前研究的熱點(diǎn)。通用型算法又可分為兩類。其一,不區(qū)分失真類型,該類算法不必對(duì)圖像中的失真類型進(jìn)行區(qū)分,通過提取有效特征,直接將特征向量映射至圖像質(zhì)量,關(guān)鍵是找到一種模型使得不同失真類型對(duì)該模型的響應(yīng)不同,即模型需具備多分辨特性。典型算法有BLIINDS-I(BLind Image Integrity Notator Using DCT Statistics)[6]等。其二,“Two-Stage Framework”,即“兩階段架構(gòu)”。該類算法分為兩個(gè)階段:第一階段,對(duì)圖像集進(jìn)行訓(xùn)練來(lái)得到相應(yīng)的失真分類器;第二階段,針對(duì)不同失真來(lái)設(shè)計(jì)相應(yīng)的評(píng)價(jià)算法,典型代表是BIQI(Blind Image Quality Index)[7]等。
此外,大部分通用型算法均是有監(jiān)督的,需要主觀分值的訓(xùn)練,比如CORNIA(Codebook Representation for No-Reference Image Assessment)[8],BLIINDS-I和BIQI等算法。文獻(xiàn)[9]于2012年提出了一種基于PLSA(Probabilistic Latent Semantic Analysis)[9]模型的圖像質(zhì)量評(píng)價(jià)算法,該算法克服了有監(jiān)督的學(xué)習(xí)過程,是一種真正無(wú)監(jiān)督的評(píng)價(jià)算法。鑒于上述針對(duì)特定失真類型以及有監(jiān)督學(xué)習(xí)的局限性,本文提出了一種無(wú)監(jiān)督的通用型無(wú)參考質(zhì)量評(píng)價(jià)算法,最后,在LIVE圖像庫(kù)上進(jìn)行測(cè)試,驗(yàn)證了算法的有效性。值得注意的是,該算法基于自然圖像,對(duì)于人工圖像沒有進(jìn)行相應(yīng)的測(cè)試。
考慮到感興趣區(qū)域更能吸引眼球以及自然場(chǎng)景圖像的邊緣主導(dǎo)特性,提取特征分為兩個(gè)部分:顯著塊和邊緣塊的提取。由于變換域提取特征過于復(fù)雜,本文直接提取空域特征,算法結(jié)構(gòu)框圖如圖1所示。首先,通過視覺注意模型取得訓(xùn)練圖像集的顯著塊以及利用Canny算子提取其邊緣塊,該訓(xùn)練圖像集是無(wú)失真圖像和失真圖像的混合體,將提取到的顯著塊和邊緣塊構(gòu)成一簇特征向量,然后對(duì)特征向量進(jìn)行歸一化及ZCA(Zero Components Analysis)處理[8],最后進(jìn)行K-MEANS聚類而得到特征池,考慮到計(jì)算機(jī)內(nèi)存問題,采用分層聚類,即先在每幅圖像內(nèi)部進(jìn)行聚,類然后在圖像間進(jìn)行聚類,至此,特征池的構(gòu)造完成了。其次,對(duì)無(wú)失真圖像和測(cè)試圖像也進(jìn)行相同的處理,只是不進(jìn)行聚類,實(shí)驗(yàn)過程保證了訓(xùn)練集與測(cè)試集互不相交。最后,通過ANN(Appropximately Nearest Neighbour)得到無(wú)失真圖像和測(cè)試圖像關(guān)于特征池的分布,進(jìn)行相似性度量以及最小合并,從而得出分值。
圖1 基于特征池的通用型無(wú)監(jiān)督的無(wú)參考圖像質(zhì)量評(píng)價(jià)算法結(jié)構(gòu)框圖
所謂特征池,就是包含多種特征的“池”,池中的特征通過一定的比例聚集成一幅幅圖像,即一幅幅圖像是由特征池中的特征向量構(gòu)成的,或者說(shuō),圖像是這些特征向量的抽象表示。因而,給定一幅圖像,即可利用這些特征向量來(lái)表征它。特征池的構(gòu)建非常關(guān)鍵,由一組無(wú)失真圖像和失真圖像經(jīng)過特征提取、聚類等步驟提煉而成。
本文直接從空域提取特征,考慮到人類的視覺感知特性,從感興趣區(qū)域中提取顯著塊以及利用Canny算子提取邊緣塊。取塊過程中,塊的大小固定為7×7,得到的特征向量維數(shù)為49。文中采用文獻(xiàn)[10]的視覺注意模型,如圖2所示。為了盡可能多地提取感興趣區(qū)域特征,還需進(jìn)行一些后續(xù)的處理。由于顯著區(qū)域往往都是不規(guī)則的,本文利用一個(gè)矩形框來(lái)無(wú)限地逼近這個(gè)顯著區(qū)域,通過選取一個(gè)閾值,將顯著性MAP中所有小于該閾值的像素點(diǎn)置為0,反之,則置為1,這樣就得到了矩形框,然后將矩形框與原始圖像對(duì)應(yīng)像素點(diǎn)相乘,最后將全0行或全0列剔除掉就近似得到了感興趣區(qū)域。為了避免損壞原圖像的結(jié)構(gòu)信息,并不是將所有的全0行或列剔除,這里以行為例來(lái)解釋其中原理,列與行的處理完全相同。從第一行開始,將所有全0行剔除直至遇到第一個(gè)非全0行,然后再?gòu)淖詈笠恍虚_始,剔除所有全0行直至遇到第一個(gè)非全0行,閾值為原顯著性MAP的均值,如圖2c、圖2d所示。最后,在感興趣區(qū)域中隨機(jī)取塊即可得到顯著塊。
圖2 感興趣區(qū)域的提取
本算法基于灰度圖像進(jìn)行處理,并沒有考慮顏色信息,圖2b、圖2d中亮的部分即標(biāo)識(shí)了顯著區(qū)域,而且圖2c、圖2d要比圖2a、圖2b的尺寸小,這是經(jīng)矩形框逼近刪除掉一些無(wú)用信息后的緣故。圖2c、圖2d分別是圖2a、圖2b的濃縮版本,這樣從圖2c中隨機(jī)取塊時(shí),就可以盡可能多地提取到感興趣區(qū)域特征。
圖3為提取顯著塊的結(jié)構(gòu)框圖,實(shí)驗(yàn)過程中,將每幅圖像提取的顯著塊數(shù)量固定為4 000,這就意味著,對(duì)于一幅給定的圖像,能夠得到一個(gè)49×4 000的顯著塊特征矩陣,其中49表示的是特征向量的維數(shù),而4 000表示的是顯著塊的個(gè)數(shù)。
圖3 顯著塊生成框圖
算法通過Canny算子提取邊緣像素,然后通過計(jì)算邊緣像素在圖像塊中的比例是否超過某一閾值來(lái)提取邊緣塊,該閾值的選取與文獻(xiàn)[11]一致,即取為0.002??紤]到圖像邊緣保留了原始圖像中相當(dāng)重要的信息,所以,本文將提取給定圖像的所有邊緣塊。當(dāng)然,邊緣塊的塊大小與顯著塊是一致的,圖4為一幅圖像提取到的部分邊緣塊。邊緣塊的提取框圖如圖5所示。
圖4 原始圖像及其部分邊緣塊
圖5 邊緣塊提取框圖
接下來(lái)是預(yù)處理過程,先進(jìn)行歸一化,然后再進(jìn)行ZCA白化處理。歸一化過程如下
式中:Ⅰ是由顯著塊和邊緣塊組成的特征矩陣,其每一列為1個(gè)49維的向量,列數(shù)代表了從原圖像中提取到的塊數(shù),即顯著塊和邊緣塊的總數(shù)目;μ為Ⅰ的均值向量,而σ為其標(biāo)準(zhǔn)差向量,兩者維數(shù)均為提取到的總塊數(shù);C為常數(shù),為了防止分母為0的情況。
ZCA白化處理的目的是去相關(guān),圖像中相鄰像素間是高度相關(guān)的,經(jīng)過ZCA白化處理后能夠降低原始數(shù)據(jù)的冗余度。其實(shí),這是人眼特性的一個(gè)近似模型,人眼感知圖像時(shí),不會(huì)將所有像素點(diǎn)傳至大腦,這樣冗余度很大,視網(wǎng)膜就起了一個(gè)解相關(guān)的作用,來(lái)降低像素間的相關(guān)性,這與白化處理是一致的。
預(yù)處理完成后,通過K-MEANS對(duì)白化后的數(shù)據(jù)進(jìn)行聚類,選取的聚類中心為10 000個(gè),即特征池的大小設(shè)置為10 000,之所以選取10 000,至此,特征池構(gòu)造完成。
所謂無(wú)失真圖像,就是沒有失真的圖像,理論上認(rèn)為無(wú)失真圖像是完美的。本節(jié)引入無(wú)失真圖像的目的是為了將測(cè)試圖像與無(wú)失真圖像關(guān)于特征池的分布進(jìn)行相似性度量,繼而得到測(cè)試圖像的客觀分值,需要注意的是無(wú)失真圖像并不包含測(cè)試圖像集的原始圖像。
對(duì)于無(wú)失真圖像,先提取空域特征,即提取其顯著塊和邊緣塊,特征提取完畢后,先歸一化特征矩陣,然后ZCA白化處理,此過程與構(gòu)造特征池中提取空域特征無(wú)異。測(cè)試圖像與無(wú)失真圖像的處理類似,唯一不同的是,特征矩陣經(jīng)白化處理后分為兩部分:一部分為邊緣塊特征,另一部分為顯著塊特征。顯然,經(jīng)過上述一系列操作,無(wú)失真圖像得到一個(gè)特征矩陣,而測(cè)試圖像得到兩個(gè),一個(gè)為顯著塊特征矩陣,另一個(gè)為邊緣塊特征矩陣。
在此之前,先對(duì)一些符號(hào)及術(shù)語(yǔ)作簡(jiǎn)要的描述,以便于后文的理解。
首先,特征池中包含有若干個(gè)特征向量,每一列即代表一組特征向量,總共有10 000組特征向量。在此,將每一組特征向量稱為word,特征池就是由許多個(gè)word構(gòu)成的“池”。
其次,圖像關(guān)于特征池的分布,記為p(z|Ⅰ),其中Ⅰ表示給定圖像集,Z表示特征池,其每一列即為一個(gè)word,該表達(dá)式的含義是,特征池中各個(gè)word在一幅圖像中發(fā)生的概率。
通過1.2節(jié)可以得到無(wú)失真圖像以及測(cè)試圖像的特征矩陣,由1.1節(jié)又能得到特征池的各個(gè)word,本節(jié)通過ANN(Appropximately Nearest Neighbour)來(lái)得到給定圖像的特征分布。ANN是由David M.Mount和Sunil Arya用C++開發(fā),它可以在數(shù)據(jù)集中查找到與給定數(shù)據(jù)最為相近或相似的一組數(shù)據(jù)。本算法中,它被用來(lái)在特征池中查找與給定特征矩陣最為相似的一組word,進(jìn)而得到給定圖像集中各個(gè)word發(fā)生的概率,即p(z|Ⅰ)的值。
由上文可以得到無(wú)失真圖像的特征分布,記為p(z|Iref)。注意,算法中選取的無(wú)失真圖像不止1幅,而是23幅,所以通過ANN能夠得到23幅圖像關(guān)于10 000個(gè)word的分布,簡(jiǎn)單來(lái)說(shuō),就是得到一個(gè)23×10 000的矩陣,每一行對(duì)應(yīng)一幅圖像,10 000列分別對(duì)應(yīng)的是該圖像中10 000個(gè)word發(fā)生的概率。
對(duì)于測(cè)試圖像來(lái)說(shuō),由于特征矩陣分裂為邊緣塊的特征矩陣和顯著塊的特征矩陣,所以,應(yīng)該得到兩種分布,記為p(z|Iedge)和p(z|Iinterest),分別對(duì)應(yīng)測(cè)試圖像的邊緣分布以及顯著分布,兩者均為m×10 000的矩陣,其中m表示的是測(cè)試圖像的數(shù)量。
接下來(lái)就是測(cè)試圖像與無(wú)失真圖像的相似性度量,這里有多種距離度量方法,比如歐氏距離、卡方距離、街區(qū)距離等等。本算法采用卡方距離,卡方距離的計(jì)算公式為
由此可以得到p(z|Iref)與p(z|Iedge)以及p(z|Iref)與p(z|Iinterest)的卡方距離,分別記為和兩者皆為23×m的矩陣,m仍表示測(cè)試圖像的數(shù)目。
最后,客觀質(zhì)量得分為
其中,α+β=1。由于采用與無(wú)失真圖像分布的距離來(lái)度量圖像質(zhì)量,所以PSCORE值越小,表示差距越小,越接近無(wú)失真圖像的質(zhì)量,圖像的質(zhì)量也就越好。實(shí)驗(yàn)過程中發(fā)現(xiàn)當(dāng)α=0.9,β=0.1時(shí),算法性能相對(duì)較好,由此可見邊緣塊對(duì)圖像質(zhì)量的重要性。圖6為α和β取不同值時(shí)的算法性能比較。
圖6算法性能隨的變化曲線
圖6 中的PLCC和SROCC是評(píng)價(jià)算法性能的兩個(gè)指標(biāo),兩者的值越大,說(shuō)明算法性能越好。圖6是在固定特征池大小為10 000的情況下,通過實(shí)驗(yàn)1 000次,然后取PLCC和SROCC的中位值得到的。
本文算法利用LIVE圖像庫(kù)進(jìn)行測(cè)試,該圖像庫(kù)有29幅無(wú)失真的原始圖像以及經(jīng)過5種失真處理后的圖像,5種失真類型分別為JPEG2K,JPEG,WHITENOISE,GBLUR和FASTFADING。為了驗(yàn)證算法與人們主觀分值的一致性,采用如下擬合函數(shù)形式[11]
式中:β1,β2,β3,β4是擬合參數(shù),通過對(duì)主觀DMOS的最佳擬合得到,再利用上式得到DMOSpredict,DMOSpredict是預(yù)測(cè)的DMOS,DMOS越大,表示與原始圖像的差距越大,其質(zhì)量也就越差;PSCORE是本文所提算法得出的客觀分值。選用以下兩個(gè)參數(shù)來(lái)評(píng)價(jià)算法性能:1)PLCC(Pearson Linear Correlation Coefficient),Pearson線性相關(guān)系數(shù),該參數(shù)主要用來(lái)評(píng)價(jià)模型的預(yù)測(cè)精確性;2)SROCC(Spearman Rank Order Correlation Coefficient),Spearman等級(jí)次序相關(guān)系數(shù),該參數(shù)主要用來(lái)評(píng)價(jià)模型的單調(diào)性。兩者的值越大,表示算法性能越好。
實(shí)驗(yàn)過程中,選取LIVE圖像庫(kù)[12]中80%的原始圖像及其所有失真圖像用于構(gòu)造特征池,20%的原始圖像及其所有失真圖像用于測(cè)試算法性能,這樣可以保證訓(xùn)練圖像集與測(cè)試圖像集互不相交。為了與文獻(xiàn)[9]保持一致,算法同樣實(shí)驗(yàn)1 000次,每次隨機(jī)選擇23幅原始圖像及其所有失真圖像來(lái)構(gòu)造特征池,剩余的6幅原始圖像及其所有失真圖像用于評(píng)價(jià)性能的好壞,最后取1 000次迭代實(shí)驗(yàn)后PLCC和SROCC的中位值作為評(píng)價(jià)指標(biāo)。本文算法模型的預(yù)測(cè)值與主觀DMOS的擬合曲線如圖7所示。其中,圖7是在PLCC取中位值的情況下得到的,ALL表示測(cè)試圖像中包含各種失真類型。
本文選用一個(gè)全參考的質(zhì)量評(píng)價(jià)算法PSNR[1]和兩個(gè)無(wú)參考的質(zhì)量評(píng)價(jià)算法CORNIA[8]、文獻(xiàn)[9]的算法來(lái)進(jìn)行比較。性能參數(shù)如表1所示,表中的ALL表示測(cè)試圖像包含各種失真類型。
圖7 模型的預(yù)測(cè)值與主觀DMOS值的擬合曲線
表1 迭代實(shí)驗(yàn)1 000次PLCC和SROCC的中位值
總體來(lái)說(shuō),CORNIA性能最好,本文算法與全參算法PSNR可比擬,PSNR在WN失真上性能要好于本算法,但本算法在GBLUR及FF失真上好于PSNR。此外,文獻(xiàn)[9]也是一種無(wú)監(jiān)督的通用型無(wú)參考評(píng)價(jià)算法,而本文算法的總體性能相比文獻(xiàn)[9]有所提高,尤其在WN,GBLUR和FF失真上性能均要遠(yuǎn)優(yōu)于文獻(xiàn)[9]。對(duì)于CORNIA算法,它是一種通用型無(wú)參考算法,但是該算法最后計(jì)算分值時(shí)需借助SVR(Support Vector Regression)以及DMOS值來(lái)訓(xùn)練模型,因而它并不是無(wú)監(jiān)督的,而本算法無(wú)需主觀分值的訓(xùn)練,是真正無(wú)監(jiān)督的。
本節(jié)通過改變特征池的大小,分別將其大小設(shè)置為200,400,800,1 000,2 000,5 000,10 000,15 000,圖8給出了算法性能隨特征池大小的變化曲線,可以看到,隨著特征池大小的增加,性能有所提高,當(dāng)超過10 000時(shí),性能又會(huì)下降,所以本算法中將特征池大小設(shè)置為10 000。本圖是通過實(shí)驗(yàn)1 000次,然后取PLCC和SROCC的中位值而得到的。
圖8 性能隨特征池大小的變化曲線
本文通過構(gòu)造特征池來(lái)對(duì)多種失真類型進(jìn)行評(píng)價(jià),特征池如同一本字典,可以簡(jiǎn)單地認(rèn)為圖像就是由特征池中的一個(gè)個(gè)word構(gòu)成,本算法基于這樣的假設(shè),認(rèn)為不同類型的失真會(huì)導(dǎo)致失真圖像關(guān)于word的分布不同,因而通過與無(wú)失真圖像的word分布進(jìn)行比較,就可以得到客觀分值,該值是一個(gè)與無(wú)失真圖像差距的度量,其值越小,表示與無(wú)失真圖像越相似,質(zhì)量越好。實(shí)驗(yàn)結(jié)果證明了本算法的有效性,正是基于這樣的假設(shè),避開了有監(jiān)督的學(xué)習(xí)過程,從而實(shí)現(xiàn)了一種無(wú)監(jiān)督的圖像質(zhì)量評(píng)價(jià)算法。當(dāng)然,本算法也有一定的局限性,前期需要通過訓(xùn)練來(lái)構(gòu)造特征池,并不是一種“盲”的通用型算法,然而提出一種盲的通用型圖像質(zhì)量評(píng)價(jià)算法是很有意義的,也是十分困難的,這是下一步的研究方向。
[1]袁飛,黃聯(lián)芬,姚彥.視頻質(zhì)量客觀評(píng)價(jià)技術(shù)研究[J].電視技術(shù),2007,31(3):91-94.
[2]WANG Z,BOVIK A,SHEIKH H,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Processing,2004,13(4):600-612.
[3]WANG Z,SIMOCELLI E.Reduced-reference image quality assessment using a wavelet-domain natural image statistic model[C]//Proc.SPIE Human Vision and Electronic Imaging.[S.l.]:SPIE Press,2005:149-159.
[4]WANG Z,SHEIKH H,BOVIK A.No-reference perceptual quality assessment of JPEG compressed images[C]//Proc.2002 International Conference on Image Processing.[S.l.]:IEEE Press,2002:477-480.
[5]FERZLI R,KARAM L.A no-reference objective image sharpness metric based on just-noticeable blur and probability summation[C]//Proc.2007 International Conference on Image Processing.[S.l.]:IEEE Press,2007:445-448.
[6]SAAD M,BOVIK A,CHARRIER C.A DCT statistics-based blind image quality index[J].IEEE Signal Processing Letters,2010,17(6):583-586.
[7]MOORTHY A,BOVIK A.A two-step framework for constructing blind image quality indices[J].IEEE Signal Processing Letters,2010,17(2):587-599.
[8]YE P,KUMAR J,KANG L,et al.Unsupervised feature learning framework for no-reference image quality assessment[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE Press,2012:1098-1105.
[9]MITTAL A,MURALIDHAR G,GHOSH J,et al.Blind image quality assessment without human training using latent quality factors[J].IEEE Signal Processing Letters,2012,19(2):75-78.
[10]HOU X,HAREL J,KOCH C.Image signature:highlighting sparse salient regions[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2012,34(1):194-201.
[11]NARVEKAR N,KARAM L.A no-reference image blur metric based on the cumulative probability of blur detection[J].IEEE Trans.Image Processing,2011,20(9):2678-2683.
[12]SHEIKH H,WANG Z,CORMACK L,et al.LIVE image quality assessment database release2(realigned subjective quality data)2006[EB/OL].[2013-02-05].http://live.ece.utexas.edu/research/quality/.