贠麗霞 李朝鋒
摘要:為將圖像處理技術更好地應用在智能交通中,發(fā)揮立體圖像質(zhì)量評價方法的作用,提出一種融合2D和3D卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)的立體圖像質(zhì)量評價方法。該模型結合2DCNN與3DCNN兩個通道;將獨眼圖輸入2DCNN通道,提取雙目競爭相關特征;將左視圖、右視圖、和圖像和差圖像輸入3DCNN通道,通過3D卷積提取雙目之間聯(lián)系的相關特征;應用全連接層,將兩個通道提取的特征融合并進行回歸分析構建關系模型。在公開的LIVE 3D Phase Ⅰ和LIVE 3D Phase Ⅱ上的實驗結果表明,所提方法與人類的主觀感知保持高度一致。
關鍵詞:? 無參考立體圖像; 質(zhì)量評價; 卷積神經(jīng)網(wǎng)絡(CNN); 和圖像; 差圖像; 獨眼圖
中圖分類號:? U495; TP31941文獻標志碼:? A
Noreference stereoscopic image quality assessment based on
2D and 3D convolutional neural network
Abstract: In order to better apply the image processing technology to intelligent transportation and play the role of the stereoscopic image quality assessment method, a stereoscopic image quality assessment method integrating 2D and 3D convolutional neural network (CNN) is proposed. In the model, the two channels of 2DCNN and 3DCNN are combined; the cyclopean images are input into the 2DCNN channel to extract the related binocular competition features; the left view, right view, summation and difference images are input into the 3DCNN channel to extract the related binocular connection features through 3D convolution; the full connection layer is applied to fuse the features extracted from the two channels and conduct regression analysis to construct the relationship model. Experimental results on the open LIVE 3D Phase I and LIVE 3D Phase II show that the proposed method is highly consistent with human subjective perception.
Key words: noreference stereoscopic image; quality assessment; convolutional neural network (CNN); summation image; difference image; cyclopean image
引言
越來越多的學者提出通過智能交通來緩解城市交通壓力,而圖像處理技術在智能交通系統(tǒng)中發(fā)揮著重要作用。利用圖像處理技術再現(xiàn)性強、處理精度高、適用面廣、靈活性高等優(yōu)點,實時采集路況信息、識別車牌、跟蹤車輛動態(tài)、抓拍違章現(xiàn)象等,能夠?qū)崿F(xiàn)對交通的科學化、現(xiàn)代化、高效化管理。當前基于雙目視覺的圖像技術(也就是立體圖像)已經(jīng)開始用到交通領域,如車輛間距的測量、車輛尺寸的測量、智能導航定位、障礙物識別與定位、交通標識測距等,而智能交通系統(tǒng)需要更為先進的立體圖像處理技術。對于這些技術而言,立體圖像質(zhì)量評價(stereoscopic image quality assessment, SIQA)方法的運用是不可或缺的,但是SIQA方法還存在較多的問題。立體圖像在采集、傳輸、處理和顯示過程中,會發(fā)生各種失真,這就迫切需要對3D圖像和視頻內(nèi)容的質(zhì)量進行監(jiān)控[1]。立體視覺體驗是衡量人類對立體圖像內(nèi)容感知的重要指標之一,可以分為主觀評價和客觀評價。主觀評價雖然準確有效,但耗時費力,難以應用于實時場景[2],因此,研究對立體圖像質(zhì)量的客觀評價非常有必要。
全參考立體圖像質(zhì)量評價(full reference stereoscopic image quality assessment, FRSIQA)使用參考圖像得全部信息,通過比較兩組圖像之間的相似性等,可以更準確獲得失真立體圖像對的質(zhì)量。[37]相比較而言,無參考立體圖像質(zhì)量評價(no reference stereoscopic image quality assessment, NRSIQA)不使用原始圖像,更符合實際需要,更具有實際應用前景,也更具有挑戰(zhàn)性。[811]AKHTER等[12]提出一種將人工設計的局部特征和視差信息相結合的NRSIQA方法。CHEN等[13]利用獨眼圖的2D特征和深度圖的3D特征建立模型,用于預測立體圖像對的感知質(zhì)量。ZHOU等[14]設計了一個基于雙目融合和極限學習機的NRSIQA方法。YANG等[15]使用深度感知圖量化立體圖像的深度特征,并考慮雙目特征,使用深度信念網(wǎng)絡對圖像質(zhì)量進行評價。LI等[16]提出一種基于視覺感知和注意力機制的NRSIQA方法。該模型將圖像顯著性與臨界可見偏差(just noticeable distortion,JND)相結合,對從左視圖和右視圖中提取的全局和局部特征進行加權,然后基于支持向量回歸(support vector regression,SVR)模型來學習立體圖像的質(zhì)量。LIU等[17]提取與圖像質(zhì)量相關的特征,包括和差信號熵的雙目特征和顏色統(tǒng)計等單目特征,利用SVR模型構建特征與質(zhì)量得分之間的映射模型。
近年來,卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)在計算機視覺和圖像處理的許多應用中表現(xiàn)出了優(yōu)異的性能。與傳統(tǒng)的圖像處理方法相比,CNN可以通過優(yōu)化網(wǎng)絡參數(shù)自動學習與目標密切相關的深層視覺特征,而不是使用手工制作的特征。CNN的主要優(yōu)點是可以直接輸入圖像,然后在訓練過程中將特征學習與質(zhì)量回歸相結合。田維軍等[18]對左、右視圖提取單目特征,對獨眼圖提取雙目特征,然后用深度信念網(wǎng)絡訓練所得特征,預測立體圖像的質(zhì)量分數(shù)。KANG等[19]提出2D圖像的CNN模型,學習圖像塊的質(zhì)量特征,獲得其視覺質(zhì)量,然后將所有圖像塊的質(zhì)量分數(shù)加權平均,計算出圖像的客觀得分。LI等[20]利用ImageNet模型預先訓練的結構和權重,對網(wǎng)絡進行微調(diào),修改最后幾層結構,回歸得到圖像客觀的質(zhì)量分數(shù)。LV等[21]建立了基于深度神經(jīng)網(wǎng)絡和雙目自相似指數(shù)的立體圖像質(zhì)量預測模型,將這兩部分特征融合,預測得到立體圖像的質(zhì)量。SUN等[22]使用CNN了解更深入的圖像質(zhì)量感知結構,并刪除不顯著局部圖像的相關特征,然后將保留的顯著特征融合,最終回歸獲得質(zhì)量分數(shù)。
立體圖像的失真可以分為對稱失真和非對稱失真。非對稱失真可能是不同程度和不同類型的失真,這對立體圖像的質(zhì)量有很大的影響。另外,與平面圖像質(zhì)量評價方法不同,SIQA需要擴展深度感知維度,研究左、右視圖之間的雙目視覺機制,這也是目前研究的難點。本文嘗試用2DCNN與3DCNN相結合的模型來解決這一難題。其中,3DCNN模型在許多研究中都被證明可以有效獲得多張圖像之間的相關性,例如:ZHANG等[23]提出一種用于心理負荷評估的3DCNN結構,從空間、光譜、時間三個維度學習腦電特征;考慮到視頻在時間上的連續(xù)性,YANG等[24]采用3DCNN模型提取局部時空特征,對立體視頻質(zhì)量進行評價;YANG等[25]利用HIS空域和頻域之間的相關性,設計了一種基于多尺度小波和3DCNN的高光譜圖像超分辨率重建方法。這些不同方向的研究說明,3DCNN可以找到多種特征之間的聯(lián)系,是一種非常有效的解決此類問題的方法。
1基于CNN的NRSIQA方法
本文提出一種融合2DCNN和3DCNN的NRSIQA方法,框架見圖1。對于立體圖像的左、右視圖,首先計算和圖像、差圖像和獨眼圖,然后用CNN進行切塊和局部歸一化運算。利用兩通道CNN模型預測圖像塊的質(zhì)量分數(shù),其中獨眼圖作為2DCNN通道的輸入,而由左視圖、右視圖、和圖像和差圖像組成的立方體作為3DCNN通道的輸入。最后,對全部圖像塊的質(zhì)量分數(shù)加權平均得到失真立體圖像的客觀質(zhì)量分數(shù)。采用3DCNN模型除提取左、右視圖之間的聯(lián)系外,本文還考慮“雙目和差理論”[26],即將雙眼獲得的信息轉(zhuǎn)換為不相關的和差信號,再向前傳輸,使3DCNN能夠獲得更多維度的信息。
1.1獨眼圖
人眼觀看外部世界時,人眼視覺系統(tǒng)會通過復雜的融合過程將左、右眼捕捉到的畫面合成融合圖,從而形成立體視覺,這個融合圖被稱為獨眼圖。而融合過程中,雙眼獲得的視覺信息會出現(xiàn)“雙目競爭”現(xiàn)象。本文使用文獻[4]基于SSIM的立體視差估計算法計算獨眼圖:
(1)
式中:C表示獨眼圖;IL和IR分別為左視圖和右視圖;d為視差;WL和WR是根據(jù)Gabor濾波器計算得到的權重。如圖2所示,根據(jù)式(1)計算得到5種失真立體圖像的獨眼圖,失真類型分別是JP2K(JPEG 2000)、JPEG、WN(White Noise)、Blur(Gaussian Blur)、FF(FastFading)。
1.2和差圖像
文獻[27]提出視覺系統(tǒng)有一個獨立的自適應雙目和差通道,以實現(xiàn)雙目信息的有效傳輸。在生理學層面,解釋了和通道和差通道的信號是多路復用的,每個V1神經(jīng)元接收這兩個通道中信號的加權和。人類視覺系統(tǒng)能夠感知視差,并將其轉(zhuǎn)換為深度信息,因為大腦中反映的圖像是3D圖像,而差異圖像主要顯示物體的深度和輪廓信息,所以3DCNN從立體圖像的和圖像、差圖像中提取質(zhì)量特征來預測圖像質(zhì)量。和圖像和差圖像計算式為(2)式中:IS和ID分別表示和圖像和差圖像。圖3給出了一立體圖像對的和圖像和差圖像示例。由圖3可知,和圖像和差圖像更多體現(xiàn)的是立體圖像的深度信息和物體的輪廓信息。
1.33DCNN模型
一般來說,CNN模型結構首先交替使用卷積層和池化層來處理輸入信息,然后使用全連接層來獲得特征與目標之間的映射關系。在2DCNN中,卷積層和池化層只能提取二維圖像的特征,而不能自動獲取立體圖像之間的關聯(lián)信息。3D卷積和3D池化可以提取不同圖像的特征,這正是立體圖像所需要的。因此,本文在2DCNN通道的基礎上增加3DCNN通道,以更好地完成立體圖像質(zhì)量評價任務。
CNN中的卷積運算是輸入數(shù)據(jù)與多個核函數(shù)之間的一種特殊的線性運算,用于生成特征圖。對于立體圖像,3D卷積在2D卷積的基礎上增加了左視圖與右視圖之間關聯(lián)的深度等信息特征,第i層第j個特征圖在(x,y,z)位置處的值計算式為
(3)
式中:g(·)表示非線性激活函數(shù);bi,j為當前特征圖的偏置;wi,j,m(p,q,r)為第m個特征圖的卷積核在(p,q,r)位置處的值。
1.4網(wǎng)絡參數(shù)
圖4是本文提出的由2DCNN通道和3DCNN通道組成的兩通道CNN模型。2DCNN通道的輸入是獨眼圖的圖像塊,3DCNN通道的輸入是由左視圖、右視圖、和圖像和差圖像等4種圖像的圖像塊組成的立方體。將圖像切塊主要是為了解決立體圖像質(zhì)量評價數(shù)據(jù)庫中數(shù)據(jù)量不足和輸入圖像大小不一致這兩個問題。本文將圖像切成32×32大小的圖像塊,并進行歸一化處理,每個圖像塊的標簽都與原圖的標簽相同。2DCNN通道與3DCNN通道結構類似,都包含5個卷積層、3個池化層和2個全連接層;采用向量拼接的方式融合兩個通道最后的全連接層,然后連接1個全連接層,最終得到圖像塊的質(zhì)量分數(shù)。
本文所提出的模型參數(shù)設置見表1。另外,卷積過程中采用了填充處理,使卷積層的輸入與輸出大小一致。所有卷積層和全連接層的激活函數(shù)均采用ReLU。
2實驗及分析
21數(shù)據(jù)庫及性能指標
本文使用兩個公開的數(shù)據(jù)庫來驗證算法的有效性,即LIVE 3D Phase Ⅰ[28]和LIVE 3D Phase Ⅱ[4]。LIVE 3D Phase Ⅰ包含20對原始圖像和365對原始圖像的失真圖像(都是對稱失真),其中:JP2K、
JPEG、WN和FF類失真圖像各80對,Blur類失真圖像45對。LIVE 3D Phase II包含8對原始圖像和360對失真圖像,失真類型與LIVE 3D Phase Ⅰ的相同,其中120對失真圖像是對稱失真,240對失真圖像是非對稱失真。
在實驗中,采用了常用的3個性能指標:斯皮爾曼等級相關系數(shù)(Spearman rank order correlation coefficient, SROCC)、皮爾遜線性相關系數(shù)(Pearson linear correlation coefficient, PLCC)、均方根誤差(root mean square error, RMSE)。當SROCC和PLCC越接近1,RMSE越接近0時,客觀評價效果越好。在本文實驗中,采用文獻常用的方法,隨機選取80%的失真圖像作為訓練集,其余20%的失真圖像作為測試集。取100次隨機實驗結果的中位數(shù)作為最終結果。
2.2總體性能分析
表2展示了本文提出的方法與其他12種方法的性能比較,其中包括3種FRSIQA方法(文獻[4,67])和8種NRSIQA方法(文獻[911,1317])。SROCC、PLCC和RMSE在LIVE 3D Phase Ⅰ和LIVE 3D Phase Ⅱ數(shù)據(jù)庫中最好的兩個結果以粗體顯示。從表2可以看出,本文提出的模型在兩個數(shù)據(jù)庫中都取得了很好結果,SROCC和PLCC都在095以上。雖然文獻[16]的方法也表現(xiàn)出了很好的效果,在LIVE 3D Phase Ⅰ中的PLCC比本文方法的高,但是在兩個數(shù)據(jù)庫中的SROCC都比本文方法的低。采用FRSIQA方法時,文獻[7]的RMSE結果最優(yōu),但是SROCC和PLCC相對于本文方法較低?;谝陨戏治觯疚奶岢龅姆椒ㄔ趦蓚€數(shù)據(jù)庫中都具有競爭優(yōu)勢,證明該模型能夠有效地預測立體圖像的質(zhì)量。
2.3不同失真類型的結果分析
為更準確地評價模型的性能,列出不同類型失真圖像在LIVE 3D Phase Ⅰ和LIVE 3D Phase Ⅱ數(shù)據(jù)庫中的SROCC和PLCC,并加粗標注每類失真圖像SROCC最優(yōu)的2個結果,見表3和4。由表3和4可以看出,本文方法在SROCC指標上有6次排在前兩位,在PLCC指標上有7次排在前兩位,說明本文方法總體上優(yōu)于其他11種方法。數(shù)據(jù)分析表明,本文方法在對稱失真和非對稱失真立體圖像質(zhì)量評價上均與人類主觀感知具有較高一致性,可以很好地模擬人類視覺系統(tǒng)評測對稱和非對稱失真的立體圖像。圖5是本文提出的方法在LIVE 3D Phase Ⅰ和LIVE 3D Phase Ⅱ數(shù)據(jù)庫中的預測結果和主觀結果的散點圖,橫軸表示差異平均意見得分(differential mean opinion score, DMOS),縱軸表示預測的DMOS,曲線為擬合曲線,散點與曲線之間的距離越小,說明性能越好。從圖5可以看出,本文提出的方法與人類主觀評價具有高度的一致性。
2.4對比實驗的性能比較
為進一步分析2DCNN和3DCNN在模型中起到的作用,將只有2DCNN與只有3DCNN的網(wǎng)絡性能進行對比實驗,結果見表5。在表5中:模型1表示2DCNN單通道網(wǎng)絡模型,即2DCNN通道的第10層全連接層直接輸出結果;模型2表示3DCNN單通道網(wǎng)絡模型,即3DCNN通道的第10層全連接層直接輸出結果。從實驗結果可以看出:與模型1和模型2相比,本文方法的性能最好,說明2DCNN和3DCNN提取的特征具有互補性;與模型1相比,模型2性能更優(yōu),說明3DCNN確實能更好地表達立體圖像的質(zhì)量特征。
3結論
本文提出一種結合2DCNN和3DCNN的無參考立體圖像質(zhì)量評價(NRSIQA)模型,該模型能夠避免傳統(tǒng)方法依靠人類經(jīng)驗提取特征的復雜過程。本文設計的2DCNN通道輸入獨眼圖能很好地模擬雙目競爭,而3DCNN通道主要表征立體圖像對之間相互作用產(chǎn)生的深度等感知效果,其中引入和差圖像也是為了更加有效地體現(xiàn)深度感覺。結果表明,本文提出的模型在LIVE立體圖像數(shù)據(jù)庫中都取得了令人滿意的結果,與人眼主觀評價具有較高的一致性。
參考文獻:
[1]XING L Y, YOU J Y, EBRAHIMI T, et al. Assessment of stereoscopic crosstalk perception[J]. IEEE Transactions on Multimedia, 2012, 14(2): 326337. DOI: 101109/TMM.20112172402.
[2]KIM T, KANG J, LEE S, et al. Multimodal interactive continuous scoring of subjective 3D video quality of experience[J]. IEEE Transactions on Multimedia, 2014, 16(2): 387402. DOI: 101109/TMM.20132292592.
[3]BENOIT A, LE CALLET P, CAMPISI P, et al. Quality assessment of stereoscopic images[J]. EURASIP Journal on Image and Video Processing, 2008: 659024. DOI: 101155/2008/659024.
[4]CHEN M J, SU C C, KWON D K, et al. Fullreference quality assessment of stereopairs accounting for rivalry[J]. Signal Processing: Image Communication, 2013, 28: 11431155. DOI: 101016/j.image.201305006.
[5]LIN Y H, WU J L. Quality assessment of stereoscopic 3D image compression by binocular integration behaviors[J]. IEEE Transactions on Image Processing, 2014, 23(4): 15271542. DOI: 101109/TIP.20142302686.
[6]SHAO F, CHEN W T, JIANG G Y, et al. Modeling the perceptual quality of stereoscopic images in the primary visual cortex[J]. IEEE Access, 2017, 5: 1570615716. DOI: 101109/ACCESS.20172733161.
[7]LI S M, HAN X, CHANG Y L. Adaptive cyclopean imagebased stereoscopic imagequality assessment using ensemble learning[J]. IEEE Transactions on Multimedia, 2019, 21(10): 26162624. DOI: 101109/TMM.20192907470.
[8]李苗苗, 桑慶兵. 一種基于圖像融合的無參考立體圖像質(zhì)量評價方法[J]. 光學技術, 2017, 43(1): 2532. DOI: 1013741/j.cnki.111879/o4201701006.
[9]APPINA B, KHAN S, CHANNAPAYYA S S. Noreference stereoscopic image quality assessment using natural scene statistics[J]. Signal Processing: Image Communication, 2016, 43: 114. DOI: 101016/j.image.201602001.
[10]YANG J C, SIM K, JIANG B, et al. Noreference stereoscopic image quality assessment based on hue summationdifference mapping image and binocular joint mutual filtering[J]. Applied Optics, 2018, 57(14): 39153926. DOI: 101364/AO.57003915.
[11]YUE G H, HOU C P, JIANG Q P, et al. Blind stereoscopic 3D image quality assessment via analysis of naturalness, structure, and binocular asymmetry[J]. Signal Processing, 2018, 150: 204214. DOI: 101016/j.sigpro.201804019.
[12]AKHTER R, PARVEZ SAZZAD Z M, HORITA Y, et al. Noreference stereoscopic image quality assessment[C]∥The Society of PhotoOptical Instrumentation Engineers. SPIE, 2010, 7524: 112. DOI: 101117/12838775.
[13]CHEN M J, CORMACK L K, BOVIK A C. Noreference quality assessment of natural stereopairs[J]. IEEE Transactions on Image Processing, 2013, 22(9): 33793391. DOI: 101109/TIP.20132267393.
[14]ZHOU W J, YU L, ZHOU Y, et al. Blind quality estimator for 3D images based on binocular combination and extreme learning machine[J]. Pattern Recognition, 2017, 71: 207217. DOI: 101016/j.patcog.201706008.
[15]YANG J C, ZHAO Y, ZHU Y H, et al. Blind assessment for stereo images considering binocular characteristics and deep perception map based on deep belief network[J]. Information Sciences, 2019, 474: 117. DOI: 101016/j.ins.201808066.
[16]LI Y F, YANG F, WAN W B, et al. Noreference stereoscopic image quality assessment based on visual attention and perception[J]. IEEE Access, 2019, 7: 4670646716. DOI: 101109/ACCESS.20192909073.
[17]LIU Y, YAN W Q, ZHENG Z, et al. Blind stereoscopic image quality assessment accounting for human monocular visual properties and binocular interactions[J]. IEEE Access, 2020, 8: 3366633678. DOI: 101109/ACCESS.20202974006.
[18]田維軍, 邵楓, 蔣剛毅, 等. 基于深度學習的無參考立體圖像質(zhì)量評價[J]. 計算機輔助設計與圖形學學報, 2016, 28(6): 968975.
[19]KANG L, YE P, LI Y, et al. Convolutional neural networks for noreference image quality assessment[C]∥IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 17331740. DOI: 101109/CVPR.2014224.
[20]LI Y M, PO L M, FENG L T, et al. Noreference image quality assessment with deep convolutional neural networks[C]∥IEEE International Conference on Digital Signal Processing. IEEE, 2016: 685689. DOI: 101109/ICDSP.20167868646.
[21]LV Y Q, YU M, JIANG G Y, et al. Noreference stereoscopic image quality assessment using binocular selfsimilarity and deep neural network[J]. Signal Processing: Image Communication, 2016, 47: 346357. DOI: 101016/j.image.201607003.
[22]SUN G M, SHI B F, CHEN X D, et al. Learning local qualityaware structures of salient regions for stereoscopic images via deep neural networks[J]. IEEE Transactions on Multimedia, 2020, 22(11): 29382949. DOI: 101109/TMM.20202965461.
[23]ZHANG P B, WANG X, ZHANG W H, et al. Learning spatialspectraltemporal EEG features with recurrent 3D convolutional neural networks for crosstask mental workload assessment[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2019, 27(1): 3142. DOI: 101109/TNSRE.20182884641.
[24]YANG J C, ZHU Y H, MA C F, et al. Stereoscopic video quality assessment based on 3D convolutional neural networks[J]. Neurocomputing, 2018, 309: 8393. DOI: 101016/j.neucom.201804072.
[25]YANG J X, ZHAO Y Q, CHAN J, et al. A multiscale wavelet 3DCNN for hyperspectral image superresolution[J]. Remote Sensing, 2019, 11: 122. DOI: 103390/rs11131557.
[26]MAY K A, LI Z P, HIBBARD P B. Perceived direction of motion determined by adaptation to static binocular images[J]. Current Biology, 2012, 22(1): 2832. DOI: 101016/j.cub.201111025.
[27]MAY K A, LI Z P. Efficient coding theory predicts a tilt aftereffect from viewing untilted patterns[J]. Current Biology, 2016, 26(12): 15711576. DOI: 101016/j.cub.201604037.
[28]MOORTHY A K, SU C C, MITTAL A, et al. Subjective evaluation of stereoscopic image quality[J]. Signal Processing: Image Communication, 2013, 28(8): 870883. DOI: 101016/j.image.201208004.
(編輯賈裙平)
收稿日期: 20210117修回日期: 20210423
基金項目: 國家自然科學基金(61771223)
作者簡介: 贠麗霞(1994—),女,河北張家口人,碩士研究生,研究方向為圖像質(zhì)量評價,(Email)1055064810@qq.com;
李朝鋒(1971—),男,安徽廬江人,教授,博導,博士,研究方向為人工智能、機器學習和圖像處理,(Email)cfli@shmtu.edu.cn