李瑞東 劉?!瞽h(huán)
摘要:? 針對(duì)傳統(tǒng)圖像質(zhì)量評(píng)價(jià)模型在屏幕內(nèi)容圖像上存在的無(wú)法取得滿意結(jié)果的問題,本文提出一種基于深度學(xué)習(xí)模型的屏幕內(nèi)容圖像評(píng)價(jià)模型。首先將屏幕內(nèi)容圖像進(jìn)行歸一化處理,用局部二值化(local binary pattern,LBP)算法旋轉(zhuǎn)不變均勻模式求得特征圖,并運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)局部二值化特征圖進(jìn)行質(zhì)量評(píng)價(jià)。為驗(yàn)證所提出的屏幕內(nèi)容圖像質(zhì)量評(píng)價(jià)模型的準(zhǔn)確性,采用斯皮爾曼秩相關(guān)系數(shù)和皮爾斯線性相關(guān)系數(shù)兩種流行的評(píng)估標(biāo)準(zhǔn)進(jìn)行驗(yàn)證。驗(yàn)證結(jié)果表明,本文模型與傳統(tǒng)的質(zhì)量評(píng)價(jià)模型相比具有明顯的優(yōu)勢(shì),表明本模型比大多數(shù)現(xiàn)有的圖像質(zhì)量評(píng)估(image quality assessment,IQA)模型更符合主觀評(píng)估結(jié)果,相比于其他評(píng)價(jià)模型更具有競(jìng)爭(zhēng)性。該研究為提升評(píng)估結(jié)果的精準(zhǔn)度提供了理論依據(jù)。
關(guān)鍵詞:? 圖像質(zhì)量評(píng)價(jià); 屏幕內(nèi)容圖像; LBP; 卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TP391.413; TN911.73文獻(xiàn)標(biāo)識(shí)碼: A
目前,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及現(xiàn)代多媒體通信終端的普及,使用戶能夠執(zhí)行許多復(fù)雜的通信任務(wù),這些移動(dòng)終端在使用期間呈現(xiàn)給消費(fèi)者的可視內(nèi)容,不再是單一的自然圖像,而是包含文本、圖像、地圖和計(jì)算機(jī)生成的圖形等混合圖像,類似于上述視覺內(nèi)容的圖像通常被稱為屏幕圖像。屏幕圖像在產(chǎn)生、處理及傳輸過(guò)程中都不可避免的產(chǎn)生失真,造成圖像質(zhì)量的下降,最終影響用戶體驗(yàn)。在已有的研究中,許多客觀的圖像質(zhì)量評(píng)估方法被提出,較為簡(jiǎn)便的方法有峰值信噪比(peak signaltonoise ratio,PSNR)[1]與均方誤差(mean squared error,MSE),根據(jù)像素值強(qiáng)度的差異進(jìn)行質(zhì)量預(yù)測(cè);著名的有結(jié)構(gòu)相似性(structural similarity,SSIM)[2]模型,此模型分別計(jì)算亮度、對(duì)比度和結(jié)構(gòu)相似性,考慮到圖像是因結(jié)構(gòu)而產(chǎn)生失真,而不是像素之間的差異;Xue W等人[3]構(gòu)建了針對(duì)圖像梯度幅值相似度標(biāo)準(zhǔn)差(gradient magnitude similarity deviation,GMSD)[4]模型,此模型不但提升了評(píng)估結(jié)果的精準(zhǔn)度,還極大程度上簡(jiǎn)化了計(jì)算步驟。這些評(píng)估方法在自然圖像質(zhì)量評(píng)估上表現(xiàn)良好,但在屏幕圖像質(zhì)量評(píng)估上取得的成績(jī)并不好,其原因是屏幕內(nèi)容圖像具有比自然圖像更復(fù)雜的構(gòu)圖。屏幕內(nèi)容圖像不僅包含自然圖像,還添加了計(jì)算機(jī)生成的文本、圖形和圖標(biāo)等各種組件,這導(dǎo)致屏幕圖像通常包含非常鋒利的邊緣、相對(duì)簡(jiǎn)單的形狀、具有少量顏色的細(xì)線、甚至單像素寬的單色線[4]。因此,屏幕內(nèi)容圖像的質(zhì)量評(píng)價(jià)不應(yīng)與自然圖像一樣以整體為單位進(jìn)行預(yù)測(cè)。近年來(lái),也有一些對(duì)屏幕內(nèi)容圖像的研究,Yang H等人[5]根據(jù)屏幕圖像內(nèi)文字與圖像部分視覺誤差,提出可率先分別評(píng)估屏幕圖像內(nèi)的文字與圖像部分,然后再通過(guò)加權(quán)融合處理來(lái)評(píng)價(jià)屏幕圖像。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,研究人員提出了許多深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)解決圖像質(zhì)量評(píng)估問題,并且具有優(yōu)于傳統(tǒng)算法的性能。將屏幕圖像直接運(yùn)用現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural network,CNN)進(jìn)行學(xué)習(xí)訓(xùn)練時(shí),由于屏幕圖像的特殊及復(fù)雜的結(jié)構(gòu)特點(diǎn),網(wǎng)絡(luò)模型很難同時(shí)學(xué)習(xí)和區(qū)分不同區(qū)域的特征,從而不能準(zhǔn)確的進(jìn)行評(píng)估。此外,深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程需要大量數(shù)據(jù),現(xiàn)有圖像數(shù)據(jù)庫(kù)中的樣本有限,可通過(guò)將圖像切割成圖像塊,將圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)模型中的訓(xùn)練樣本[6],以解決訓(xùn)練樣本不足的問題。基于此,本文提出一種基于局部二值化算法(local binary pattern,LBP)[7]的屏幕圖像質(zhì)量評(píng)價(jià)CNN模型。該模型與傳統(tǒng)的質(zhì)量評(píng)價(jià)模型相比具有明顯的優(yōu)越性。
1屏幕內(nèi)容圖像數(shù)據(jù)庫(kù)
本文在屏幕內(nèi)容圖像數(shù)據(jù)庫(kù)(screen image quality assessment database,SIQAD)[5]中驗(yàn)證提出方法的準(zhǔn)確性。SIQAD包含20張參考圖像,每張圖像具有7種失真類型,包括高斯噪聲(gaussian noise,GN)、高斯模糊(gaussian blur,GB)、運(yùn)動(dòng)模糊(motion blur,MB)、對(duì)比度變化(contrast change,CC)、JPEG(JPEG Compression)壓縮、JPEG2000壓縮(JPEG2000 Compression)和基于分層的壓縮(layer segmentationbacked coding,LSC),每種失真類型包括7個(gè)等級(jí)。因此,SIQAD中有980張失真的屏幕內(nèi)容圖像,而且每張圖像都有專業(yè)評(píng)審人員進(jìn)行的主觀質(zhì)量評(píng)價(jià)得分。截取SIQAD中一副屏幕內(nèi)容圖像,其中,參考屏幕內(nèi)容圖像如圖1所示,高斯噪聲失真圖像如圖2所示,對(duì)比度變化失真圖像如圖3所示,JPEG壓縮失真圖像如圖4所示。
2特征
LBP是一種描述圖像特征像素點(diǎn)與各個(gè)像素點(diǎn)之間灰度關(guān)系的局部特征非參數(shù)算法,同時(shí)也是一張高效的紋理描述算法。在計(jì)算LBP特征圖之前,先將圖像進(jìn)行歸一化處理,令I(lǐng)(i,j)表示圖像(i,j)處的像素值,歸一化值(i,j)計(jì)算方式為
式中,i∈(1,2,…,m);j∈(1,2,…,n);i和j表示圖像的長(zhǎng)度和寬度;μ為平均值;σ為歸一化窗口中強(qiáng)度值的方差;C表示一個(gè)常數(shù),為了防止除數(shù)為0,在這里將其設(shè)置為1。
采取旋轉(zhuǎn)不變均勻的LBP,普通LBP的計(jì)算方式為
式中,R和L表示相鄰像素的數(shù)量和與相鄰像素距離的半徑;i表示R個(gè)圓形對(duì)稱相鄰像素的像素值,i∈(0,1,…,R-1);c表示局部區(qū)域中心像素的像素值。旋轉(zhuǎn)不變均勻LBP算法為
式中,λ表示數(shù)位轉(zhuǎn)換[8]。
根據(jù)上述方法,得到屏幕圖像的旋轉(zhuǎn)不變均勻LBP特征圖,將其切割為若干個(gè)大小為32×32的圖像塊,將圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
3CNN模型
本文設(shè)計(jì)了一個(gè)端到端的CNN模型,CNN模型如圖5所示。該模型以32×32的圖像塊作為輸入;第1層為卷積層,具有30個(gè)大小為7×7的內(nèi)核,步長(zhǎng)為1像素,得到30個(gè)大小為26×26的特征圖;第2層為池化層,具有3部分:最大值、最小值和平均值,以3×3為窗口,步長(zhǎng)為2,得到3組13×13×30的特征圖;第4層為池化層,具有3部分:最大值、最小值和平均值,以2×2為窗口,步長(zhǎng)為2像素,得到3組4×4×90的特征圖。將得到的特征圖進(jìn)行匯集處理,得到一個(gè)2 880×1的矢量特征;第5層~第7層為全連接層,節(jié)點(diǎn)個(gè)數(shù)分別為4 096,4 096和1 024;最后回歸為一個(gè)值,該值為輸入圖像塊的質(zhì)量評(píng)價(jià)得分。
圖5CNN模型為確保圖像塊的預(yù)測(cè)得分與原圖像的主管評(píng)分具有線性關(guān)系,在最后的輸出層采用支持向量機(jī)回歸(support vactor regerssion,SVR)[9],最終目標(biāo)函數(shù)定義為
L=1M∑Mm=1‖f(Pi)-Qi‖l2(6)
式中,L為損失函數(shù);Pi表示輸入的圖像塊;f(·)為非線性函數(shù);Qi為輸入補(bǔ)丁原圖像的主管得分;M為每批輸入圖像塊的總數(shù)。
為了更好地保留圖像中的有用信息,使模型預(yù)測(cè)結(jié)果更加精準(zhǔn),在網(wǎng)絡(luò)的3個(gè)全連接層中,使用線性整流函數(shù)(rectified linear unit,Relu)作為激活函數(shù)[10],描述如下
式中,xi表示Relu的輸入;g表示Relu的輸出;wi表示Relu的權(quán)重[11]。
本實(shí)驗(yàn)隨機(jī)選擇了SIQAD中80%的失真圖像作為CNN模型的訓(xùn)練集,10%的失真圖像作為驗(yàn)證集,10%的失真圖像作測(cè)試集[12]。模型是在Matlab中的Caffe工具箱進(jìn)行搭建[13]。CNN模型在訓(xùn)練過(guò)程中,將基本學(xué)習(xí)率設(shè)置為001,學(xué)習(xí)速率衰減量設(shè)置為09,動(dòng)量初始值為09,逐漸下降后最終保持在05[14]。
4匯集質(zhì)量評(píng)價(jià)得分
得到每個(gè)圖像塊的質(zhì)量得分Qi后,即可計(jì)算整幅屏幕內(nèi)容圖像的質(zhì)量評(píng)價(jià)得分,采取的匯集方式為平均每張圖像塊的質(zhì)量得分[15]。最終屏幕內(nèi)容圖像的評(píng)價(jià)得分為
S=∑mm=1Qi/m(8)
式中,m為該屏幕內(nèi)容圖像分割成的圖像塊數(shù)量。
5實(shí)驗(yàn)結(jié)果
SIQAD中的失真屏幕內(nèi)容圖像都具有主觀評(píng)價(jià)得分,評(píng)價(jià)模型所預(yù)測(cè)的得分與主觀評(píng)價(jià)得分越接近,則說(shuō)明該預(yù)測(cè)模型的性能越優(yōu)越。圖像質(zhì)量評(píng)價(jià)性能可由幾個(gè)常用的指標(biāo)表示。使用兩種流行的評(píng)估標(biāo)準(zhǔn)來(lái)驗(yàn)證所提出的屏幕內(nèi)容圖像質(zhì)量評(píng)價(jià)模型的準(zhǔn)確性,這兩種方法是斯皮爾曼秩相關(guān)系數(shù)(spearman rank correlation coefficient,SROCC)和皮爾斯線性相關(guān)系數(shù)(pearson linear correlation coefficient,PLCC)[16]。
SROCC主要測(cè)量?jī)山M數(shù)據(jù)的秩相關(guān),PLCC主要測(cè)量?jī)山M數(shù)據(jù)之間的線性相關(guān)。SROCC為
SROCC=1-\[6∑ni=1d2i/n(n2-1)\](9)
式中,n表示測(cè)試圖像的總數(shù);di表示第i個(gè)圖像的模型預(yù)測(cè)得分的排名與主觀評(píng)價(jià)得分的排名之間差值。SROCC的范圍是[0,1],數(shù)值越高,表示算法的精度越高。PLCC為
PLCC=∑ni=1(yi-yk)(i-k)/∑ni=1(yi-yk)2∑ni=1(i-k)2(10)
式中,yi和i分別表示第i個(gè)圖像的主觀評(píng)價(jià)得分和模型預(yù)測(cè)得分;yk和k分別表示所有yi和i的均值。PLCC的范圍是[0,1],數(shù)值越高,表示算法的精度越高。
本文所提出的模型與幾種優(yōu)秀的傳統(tǒng)質(zhì)量評(píng)價(jià)模型進(jìn)行比較,傳統(tǒng)質(zhì)量評(píng)價(jià)模型包括峰值信噪比(peak signaltonoise ratio,PSNR)[1],結(jié)構(gòu)相似性(structural similarity,SSIM)[2],特征相似性(feature similarity,F(xiàn)SIM)[17],梯度幅度相似性偏差(gradient magnitude similarity deviation,GMSD)[3]和SCI感知質(zhì)量評(píng)估(sci perceptual quality assessment,SPQA)[5]。本文模型與多種評(píng)價(jià)模型的性能對(duì)比如表1所示。
由表1可以看出,本文提出的預(yù)測(cè)模型,SROCC值為0862 4,PLCC值為0879 5。相比于傳統(tǒng)的3種簡(jiǎn)單的評(píng)價(jià)方法PSNR、SSIM及FSIM,本文提出方法具有明顯的優(yōu)勢(shì)。而相比于目前流行的高效方法GMSD以及針對(duì)屏幕內(nèi)容圖像質(zhì)量評(píng)價(jià)方法SPQA,本文提出的方法,SROCC值和PLCC值略高于上述兩種方法,可見本文提出的方法具有優(yōu)秀的性能,相比于其他評(píng)價(jià)模型具有競(jìng)爭(zhēng)性。
由表2可以看出,以LBP特征圖作為樣本比原始圖像作為樣本性能更優(yōu)異。原始圖像作為樣本時(shí),圖像質(zhì)量評(píng)價(jià)的結(jié)果只取決于CNN模型的設(shè)計(jì);以原圖像的LBP特征圖作為輸入時(shí),事先突出了顯示圖像容易被辨識(shí)的紋理特征,使CNN模型更加直接的對(duì)引起失真的紋理差異進(jìn)行學(xué)習(xí)訓(xùn)練。
由此可以證明,以LBP紋理圖像作為卷積神經(jīng)網(wǎng)絡(luò)的樣本時(shí),可以提高圖像的質(zhì)量評(píng)價(jià)結(jié)果。
6結(jié)束語(yǔ)
本文提出的傳統(tǒng)圖像特征與深度學(xué)習(xí)模型相結(jié)合的方法雖取得不錯(cuò)的實(shí)驗(yàn)結(jié)果,但屏幕內(nèi)容圖像質(zhì)量評(píng)價(jià)仍然是圖像質(zhì)量評(píng)價(jià)領(lǐng)域中具有挑戰(zhàn)性的新穎課題,還有許多方面需要進(jìn)一步完善。運(yùn)用旋轉(zhuǎn)不變均勻的LBP算法將圖像進(jìn)行預(yù)處理,得到的LBP特征圖作為CNN模型的輸入,相比于直接將圖像進(jìn)行訓(xùn)練學(xué)習(xí),此法可使CNN模型更加直接和準(zhǔn)確的學(xué)習(xí)圖像的紋理特征。本研究所設(shè)計(jì)的端到端CNN模型以圖像塊為輸入,而不是以整幅圖像為輸入,解決了訓(xùn)練樣本不足的問題。在后續(xù)工作中,將繼續(xù)提升CNN模型的結(jié)構(gòu),探究更加合理的訓(xùn)練方式和匯集策略。
參考文獻(xiàn):
[1]Wang Z, Bovik A C. Modern image quality assessment[M]. San Rafael, CA, USA: Morgan and Claypool, 2006.
[2]Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600612.
[3]Xue W, Zhang L, Mou X, et al. Gradient magnitude similarity deviation: A highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23(2): 684695.
[4]Yi Z, Chandler D M, Xuanqin M. Quality assessment of screen content images via convolutionalneuralnetworkbased synthetic/natural segmentation[J]. IEEE Transactions on Image Processing, 2018, 27(10): 11.
[5]Yang H, Fang Y, Lin W. Perceptual quality assessment of screen content images[J]. IEEE Transactions on Image Processing, 2015, 24(11): 44084421.
[6]Kang L, Ye P, Li Y, et al. Convolutional neural networks for nofeference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE Computer Society, 2014: 17331740.
[7]Fang Y, Yan J, Li L, et al. No reference quality assessment for screen content images with both local and global feature representation[J]. IEEE Transactions on Image Processing, 2018, 27(4): 16001610.
[8]Beamer L J, Carroll S F, Eisenberg D. The BPI/LBP family of proteins: a structural analysis of conserved regions[J]. Protein Science, 2008, 7(4): 906914.
[9]Smola A J, Bernhard S. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14(3): 199222.
[10]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]∥Intemational Conference on Leaming. ICML, 2010: 807814.
[11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]∥Conference and Workshop on Neural Information Processing Systems. Lake Tahoe, Spain: NIPS, 2012.
[12]Sheikh H R, Bovik A C, de Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 21172128.
[13]Li C, Bovik A, Wu X. Blind image quality assessment using a general regression neural network[J]. IEEE Transactions on Neural Networks, 2011, 22(5): 793799.
[14]Ciresan D C, Meier U, Schmidhuber J. Multicolumn deep neural networks for image classification[J]. In Computer Vision and Pattern Recognition, 2012: 36423649.
[15]Wang Z, Li Q. Information content weighting for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(5): 11851198.
[16]Ye J, Bhagat S K, Li H M, et al. Differentiation between recurrent gliomas and radiation necrosis using arterial spin labeling perfusion imaging[J]. Experimental & Therapeutic Medicine, 2016, 11(6): 24322436.
[17]Zhang L, Zhang L, Mou X, et al. A feature similarity index for image quality assessment[J]. IEEE Trans Image Process, 2011, 20(8): 23782386.
CNN Model for Screen Content Image Assessment Based on LBP
LI Ruidong, LIU Hai, YANG Huan
(College of Computer Science & Technology,? Qingdao University, Qingdao 266071, China)Abstract:? Due to the fact that traditional image quality assessment model cannot obtain satisfactory results on the screen content image,? this paper proposes a screen content image assessment model based on the deep learning model. First,? the screen content image is normalized,? and the local binary pattern (LBP) algorithm is used to obtain the feature map by rotating the invariant uniform pattern. The convolutional neural network is used to evaluate the quality of the local binary feature map. In order to verify the accuracy of the proposed screen content image quality assessment model,? Spearman′s rank correlation coefficient and Pierce′s linear correlation coefficient are used for verification. The verification results show that the model in this paper has obvious advantages compared with traditional quality assessment models,? indicating that this model is more in line with the subjective assessment results than most existing image quality assessment (IQA) methods. Compared with other models,? the model is more competitive. This study provides a theoretical basis for improving the accuracy of the assessment results.
Key words:? image quality assessment; screen content image; LBP; convolutional neural network
收稿日期: 2020-02-11; 修回日期: 2020-03-09
基金項(xiàng)目:? 青島市應(yīng)用研究資助項(xiàng)目(2016025)
作者簡(jiǎn)介:? 李瑞東(1994-),男,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺。
通信作者:? 楊環(huán),女,博士,碩士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄芎陀?jì)算機(jī)視覺等。? Email: cathy_huanyang@hotmail.com
青島大學(xué)學(xué)報(bào)(工程技術(shù)版)2020年2期