史玉華,張 闖,2,遲兆鑫
(1.南京信息工程大學(xué) 電子與信息工程學(xué)院,南京 210044;2.江蘇省氣象探測與信息處理重點實驗室,南京 210044)
立體圖像質(zhì)量越高,人們從中獲得信息越豐富,視覺體驗也越舒適。在立體圖像成像及處理過程中,由于經(jīng)過采集、編碼、壓縮、傳輸、存儲、顯示等步驟,圖像失真或者質(zhì)量下降都是難以避免的,因此必須使用立體圖像質(zhì)量評價(Stereoscopic Image Quality Assessment,SIQA)方法來衡量立體圖像的質(zhì)量。SIQA 結(jié)果也是圖像采集、傳輸、還原的一個標(biāo)尺。
SIQA 分為主觀SIQA 和客觀SIQA 兩類。主觀SIQA 是人們根據(jù)主觀感受給圖像打分,其過程復(fù)雜耗時。因此,主觀SIQA 很難應(yīng)用于實際工作中。客觀SIQA 是根據(jù)圖像統(tǒng)計信息來評價,其應(yīng)用廣泛,分為全參考(Full Reference,F(xiàn)R)、半?yún)⒖迹≧educed Reference,RR)和無參考(No Reference,NR)。FR-SIQA 以原始圖像作為對照,評估失真圖像質(zhì)量;RR-SIQA 只需要原始圖像的部分信息;NR-SIQA 不需要原始圖像的信息,相比FR-SIQA 和RR-SIQA,其具有更廣的應(yīng)用前景。
SIQA 的研究重點是構(gòu)建符合人類視覺系統(tǒng)的感知模型,實現(xiàn)圖像質(zhì)量的準確預(yù)測。由于2D 圖像和3D 圖像的成像機理不同,并且3D 圖像的每個視圖不僅會產(chǎn)生單目失真,還存在對稱或非對稱單目失真,包括雙目混淆、深度感知誤差、視覺不適等雙目失真,因此SIQA 與圖像質(zhì)量評價(Image Quality Assessment,IQA)的本質(zhì)差異是SIQA 不僅考慮立體圖像左右視圖的單目失真,還考慮其雙目的立體感知特性,如深度、視差等。
文獻[1]利用2D IQA 模型的方法研究SIQA。文獻[2]提出基于2D IQA 的NR-SIQA,該方法分別計算左視圖和右視圖的質(zhì)量,并將2 個質(zhì)量得分相結(jié)合來預(yù)測3D 圖像的質(zhì)量得分。文獻[3]通過研究多種不同的2D IQA,并將其分別應(yīng)用于SIQA,再輔以視差信息評價圖像質(zhì)量。由于這些方法未考慮人們視覺特性,對于立體圖像質(zhì)量的預(yù)測達不到很好的效果,尤其是引入不對稱失真時,評價效果更差。文獻[4]提出采用疊加立體圖像視差/深度特征算法,對立體圖像質(zhì)量實現(xiàn)了較準確的評價,表明深度是影響人眼立體感知的重要特征。
隨著深度學(xué)習(xí)的發(fā)展,文獻[5]提出一種傳統(tǒng)算法與深度學(xué)習(xí)算法結(jié)合的方法——基于雙目自相似性(Binocular Self-similarity,BS)和深層神經(jīng)網(wǎng) 絡(luò)(Deep Neural Network,DNN)的NR-SIQA 方法。文獻[6]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用于SIQA,利用2 個卷積層、2 個池化層進行特征提取,并在網(wǎng)絡(luò)最后層引入多層感知機(Multilayer Perceptron,MLP),將學(xué)習(xí)到的特征進行全連接得到質(zhì)量分數(shù)。文獻[7]采用多任務(wù)CNN 同時學(xué)習(xí)圖像質(zhì)量預(yù)測和失真類型識別。
基于深度學(xué)習(xí)的SIQA 方法沒有考慮立體圖像的深度性和顯著性,無法準確反映立體圖像的感知質(zhì)量。本文提出一種基于多元特征的SIQA 方法。通過提取失真圖像對的深度顯著性特征、對比度特征和亮度系數(shù)歸一化特征作為CNN 的輸入特征進行訓(xùn)練,評價立體圖像的質(zhì)量。
在IQA 中,人眼注意不到的圖像信息屬于冗余信息。IQA 方法在對圖像進行系統(tǒng)訓(xùn)練過程中剔除一些質(zhì)量不高的數(shù)據(jù)以提高方法的有效性[8]。立體圖像的顏色、深度、邊緣等特征在人眼對圖像的理解中具有重要作用,也是IQA 的重要因素。因此,本文模擬人眼視覺特性,提取立體圖像的深度顯著特征和對比度特征作為網(wǎng)絡(luò)的輸入。
視覺顯著性體現(xiàn)了人眼的關(guān)注度,圖像中優(yōu)先被人眼感知的區(qū)域稱為圖像顯著性區(qū)域。研究表明圖像的失真會導(dǎo)致顯著圖發(fā)生變化[9]。圖像顯著性特點使得圖像顯著性本身和圖像質(zhì)量息息相關(guān)。從心理和物理角度來看,視覺顯著性受低層次特征(如顏色、邊緣、深度信息)影響[10],低層次特征對顯著性信息提取具有一定作用,而傳統(tǒng)深度學(xué)習(xí)方法通常無法很好地學(xué)習(xí)圖像的低層語義特征。因此,本文構(gòu)建一種基于圖像融合的立體圖像顯著性特征提取模型。深度顯著性特征提取流程如圖1所示。首先,通過左右視圖相減求得視差圖,并對視差圖進行高斯差分濾波器(Difference of Gaussian,DoG)[11]得到立體圖像的深度特征;其次,改進SDSP[12]模型以提取立體圖像的顏色、邊緣顯著;最后,將深度特征圖和顯著圖融合得到最終的立體深度顯著圖。
圖1 深度顯著性特征提取流程Fig.1 Extraction procedure of depth saliency feature
1.2.1 立體圖像深度特征
深度信息能有效反映物體的深度變化程度,是立體圖像深度感知特征的重要衡量指標(biāo)[13],深度信息一般通過計算左右視圖的視差圖來獲?。?1]。由于DoG[11]濾波器與神經(jīng)元的接收區(qū)相似,并且能夠模擬人眼視覺系統(tǒng)(Human Visual System,HVS)的中心環(huán)繞機制[14]。DoG 濾波過程如圖2 所示。
圖2 DoG 濾波過程Fig.2 Filtering process of DoG
本文采用DoG 濾波器對視差圖進行處理以提取立體圖像的輪廓特征和深度邊緣特征,具體過程如式(1)所示:
其中:(x,y)為該點像素的坐標(biāo);σ為控制濾波器尺度。本文σ1設(shè)置為1,σ2設(shè)置1.6。
失真圖與深度特征圖如圖3 所示,圖像庫包含高斯模糊(Gussian Blur,BLUR)、快衰落(Fast Fading,F(xiàn)F)、JP2K(JP2000)、JPEG壓縮、白噪聲(White Noise,WN)。失真圖如圖3(a)~圖3(e)所示,對應(yīng)生成的深度特征圖如圖3(f)~圖3(j)所示。從圖3 可以看出,利用DoG 濾波器能夠更準確地提取出目標(biāo)的輪廓和邊緣紋理特征。
圖3 失真圖與深度特征圖Fig.3 Distortion images and depth feature images
1.2.2 顏色與邊緣特征提取
SDSP 模型[12]提取的特征圖像只關(guān)注圖像的中心位置,造成信息損失,但人眼更容易感知邊緣位置的變化。本文通過邊緣顯著取代中心位置顯著,改進SDSP 模型。首先,暖色比冷色對人更具吸引力;其次,帶通濾波能準確地模擬人類視覺系統(tǒng)在視覺場景中檢測到顯著物體的特征[12];最后,人眼對于圖像邊緣的變化敏感。
本文通過提取這3 種圖像形成獨眼圖,作為圖像的顯著特征圖,最終顯著圖的計算方法如式(2)所示:
其中:SC為點x處的顏色顯著;SF為點x處的顯著性;SE為邊緣顯著。
失真圖與顏色、邊緣顯著圖如圖4 所示,5 種失真類型下的失真左視圖如圖4(a)~圖4(e)所示,對相應(yīng)失真圖像提取的顏色、邊緣顯著圖如圖4(f)~圖4(j)所示。從圖4 可以看出,該方法能夠準確地提取圖像的邊緣、顏色等視覺顯著特征并減少信息損失。
圖4 失真圖與顏色、邊緣顯著圖Fig.4 Distortion images and color,edge saliency images
1.2.3 圖像融合
圖像融合具有圖像增強、相互補充信息、去除噪聲和冗余的優(yōu)點。圖像融合的方法包括基于加權(quán)平均的融合方法、基于主成分分析的融合方法、多尺度變換的融合方法和基于小波變換的圖像融合方法。
小波變換有水平、垂直和對角三種高頻子帶,是一種正交變換[15],具有完善的重構(gòu)能力。小波變換能夠?qū)⒘Ⅲw圖像的深度特征和顯著特征融合從而得到立體圖像深度顯著圖。深度顯著圖如圖5 所示,從圖5 可以看出,通過融合實現(xiàn)了圖像邊緣,深度等特征的互補作用。
圖5 深度顯著圖Fig.5 Depth saliency images
對比度特征是立體圖像的底層特征之一,能夠充分表達立體圖像的內(nèi)容,對基于人眼視覺感知的SIQA方法具有積極的作用。立體圖像對比度的提取方法是通過自適應(yīng)找到分割閾值向量以增強立體圖像對比度。圖像庫5 種失真類型中失真圖與對比度特征圖如圖6 所示,在圖像失真嚴重的情況下,對比度特征圖能準確反映圖像的結(jié)構(gòu)。
圖6 失真圖與對比度特征圖Fig.6 Distortion images and contrast feature images
如果將左視圖或右視圖直接作為CNN 輸入,導(dǎo)致算法耗時過長,這對處理圖片數(shù)量較多的情況是不利的。如何在提高算法求解速度和精度的同時保留立體圖像結(jié)構(gòu)特征是亟待解決的問題。
文獻[16]發(fā)現(xiàn)失真程度不同的自然圖像經(jīng)過亮度系數(shù)歸一化后,其概率密度更符合高斯分布。這種亮度系數(shù)歸一化后的圖像所保留的結(jié)構(gòu),被證明能夠提高IQA 的性能[17]。
MSCN 概率密度分布大致左右對稱,符合高斯分布的特點。失真圖和提取的亮度系數(shù)歸一化特征如圖7 所示。本文通過亮度系數(shù)歸一化處理左右視圖,相應(yīng)概率密度分布如圖8 所示。MSCN系數(shù)由于失真的存在從而改變特征統(tǒng)計特性,量化這些變化可以預(yù)測影響圖像失真類型及其感知質(zhì)量。
圖7 失真圖和亮度系數(shù)歸一化圖Fig.7 Distortion images and brightness coefficient normalization images
圖8 概率密度分布Fig.8 Probability density distribution
CNN 中VGG Net 結(jié)構(gòu)簡單且具有較高的有效性,將其應(yīng)用到SIQA 模型中。VGG-16 有5 段卷積,每段內(nèi)有2、3 個卷積層,卷積核的大小均為3×3,每段的卷積核數(shù)量相同。5 段卷積中的卷積核數(shù)量逐次遞增:64、128、256、512、512。在第1~4 段內(nèi)每段卷積后連接1 個池化層,主要是減小圖片尺寸,網(wǎng)絡(luò)最后層有3 個全連接層。
網(wǎng)絡(luò)中全連接層過多存在參數(shù)冗余、深度信息損失多、空間結(jié)構(gòu)性表達不足等問題。針對以上問題,CNN 結(jié)構(gòu)如圖9 所示。
本文在已有的VGG-16 網(wǎng)絡(luò)基礎(chǔ)上做了改進:在第5 段卷積結(jié)束后,將得到的6 個特征層級聯(lián)再進行1 次卷積和池化,最后連接1 個全連接層。改進后的網(wǎng)絡(luò)能夠最大程度保留立體圖像的深度特征,同時減小內(nèi)存,提高算法的速度和精度。在網(wǎng)絡(luò)最后的全連接層中加入dropout 層以防止過擬合現(xiàn)象,丟失率設(shè)置為0.5。
目標(biāo)變量和預(yù)測值之間的平方距離之和如式(3)所示:
其中:yi為目標(biāo)變量的真實值為預(yù)測結(jié)果。
本文采用圖像庫是德州大學(xué)奧斯汀分校和視頻工程實驗室制作的LIVE 3D Image Quality Database—Phase I[18]/Phase Ⅱ[19]圖像庫以及由Mobile3DTV和MPEG 提供的NBU-3D 圖像庫[20]。LIVE 3D 圖像庫包含5 種失真類型的圖像,分別為JP2K、JPEG 壓縮、Blur、White Noise、Fast Fading。其中Blur 失真共含45 組圖像共90 張,另外4 種失真類型每種含80 組圖像,各160 張圖像,共730 張圖像。NBU-3D立體圖像測試庫包含12 對原始立體圖像和312 對失真立體圖像,包含Blur、White Noise、JPEG、JP2K 以 及H.264 編碼5 種失真類型,左右圖像均為失真程度相同的對稱失真,并給出每組失真立體圖像的DMOS值。DMOS 值越低代表圖像質(zhì)量越好,反之代表圖像質(zhì)量越差。
LIVE 3D IQA Phase I 圖像庫JP2K 失真的左視圖和右視圖如圖10 所示,失真程度從左到右遞減。
圖10 LIVE 3D IQA Phase I 圖像庫不同DMOS 對應(yīng)的JP2K 失真圖像對Fig.10 JP2K distortion image pairs corresponding to different DMOS on LIVE 3D IQA Phase I image library
本文提出NR-SIQA 方法總體結(jié)構(gòu)如圖11 所示。首先設(shè)計圖像特征提取函數(shù)制作數(shù)據(jù)集,提取了3 種立體圖像特征組合成特征圖像數(shù)據(jù)集。由于存在全連接層,因此輸入圖像的維度必須是固定的,將圖像切塊為128 像素×128 像素作為輸入,圖像庫提供DMOS 制作為標(biāo)簽。圖像庫中圖片失真為均勻失真,所以每個輸入塊的質(zhì)量分數(shù)與原圖像相同。對CNN進行訓(xùn)練以預(yù)測圖像的質(zhì)量分數(shù)。最后預(yù)測DMOS為一幅圖像中所有圖像塊DMOS 的平均值。為防止過擬合,本文方法將數(shù)據(jù)集隨機分配得到訓(xùn)練集和測試集,數(shù)量比例為4∶1。
圖11 NR-SIQA 方法總體結(jié)構(gòu)Fig.11 Overall structure of NR-SIQA method
本文選取皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman Rank Correlation Coefficient,SROCC)、均方根誤差(Root Mean Square Error,RMSE)對模型進行評估[21],其中,PLCC 衡量模型預(yù)測的DMOS 和圖像庫提供的DMOS 之間的相關(guān)性;SROCC 衡量兩個變量之間的單調(diào)相關(guān)性;RMSE 用于衡量預(yù)測DMOS 和DMOS之間的偏差。PLCC 和SROCC 的值越接近1,表明預(yù)測值和真值之間的相關(guān)性越高。RMSE 值越低表明預(yù)測值和真值差距越小,模型的預(yù)測效果越好。
本文圖像庫的數(shù)據(jù)以4∶1 分為訓(xùn)練集和測試集。模型訓(xùn)練的意義在于使預(yù)測的質(zhì)量分數(shù)盡量向圖像庫提供的質(zhì)量分數(shù)靠近。在顯卡GTX 1050Ti、處理器i5 的電腦上進行實驗,批次大小為10,迭代次數(shù)為5 000,模型訓(xùn)練時間和測試時間如表1 所示。3 個圖像庫制作的數(shù)據(jù)集中隨機選取1/5 的圖片作為測試集,模型測試圖片數(shù)和每張圖片測試時間如表2 所示。從表2 可以看出,模型測試時間可以達到實時。
表1 不同圖像庫模型訓(xùn)練時間和預(yù)測時間對比Table 1 Training time and prediction time comparison of model on different images library
表2 不同圖像庫模型測試圖片數(shù)量和每張圖片測試時間Table 2 Number of test pictures and test time per picture of model on different images library
為了更全面地分析實驗結(jié)果,LIVE 3D IQA Phase I 中5 種失真類型下預(yù)測DMOS 和圖像庫中DMOS 散點線性擬合如圖12 所示。說明本文提出圖像質(zhì)量評價方法無論在總體還是在5 種失真類型下得到的結(jié)果都具有較好的主觀一致性。
圖12 LIVE 3D IQA Phase I 圖像庫不同失真類型的DMOS 散點線性擬合Fig.12 DMOS scatter linear fitting of different distortion types on LIVE 3D IQA Phase I image library
本文方法在LIVE 3D IQA Phase II 上預(yù)測的結(jié)果如圖13 所示,與LIVE 3D IQA Phase I 相比,LIVE 3D IQA Phase II 包含240 對不對稱失真圖片。從圖13 可以看出,本文方法在LIVE 3D IQA Phase II上取得了較好的預(yù)測效果,針對非對稱失真圖像也能較準確地預(yù)測出質(zhì)量分數(shù)。
圖13 LIVE 3D IQA Phase II 圖像庫不同失真類型的DMOS 散點線性擬合Fig.13 DMOS scatter linear fitting of different distortion types on LIVE 3D IQA Phase II image library
本文方法在NBU 3D IQA 圖像庫訓(xùn)練后預(yù)測結(jié)果如圖14 所示。由圖14 可以看出,本文方法在NBU 3D IQA 圖像庫上的預(yù)測結(jié)果與人類感知具有較高的一致性。
圖14 NBU 3D IQA 圖像庫的測試結(jié)果Fig.14 Test results on NBU 3D IQA image library
本文選取13 種有代表性的方法與本文提出的方法進行比較。一類包括7 種FR-SIQA 方法[1,3,22-26];另一類是6 種NR-SIQA 方法[17,19,27-30]。在這6 個NR-SIQA方法[28-30]中,文獻[19]是基于深度感知的3D NR-SIQA指標(biāo);文獻[29]將一組手工制作的自然場景統(tǒng)計特征作為稀疏自編碼器的輸入,通過softmax回歸匯總到其相應(yīng)的質(zhì)量得分。文獻[30]提出的模型是基于孿生神經(jīng)網(wǎng)絡(luò),以2 個圖像塊作為輸入,對2 個輸入圖像塊之間質(zhì)量分數(shù)進行排序。與其他基于深度學(xué)習(xí)的SIQA不同,本文方法是從人眼視覺特性和立體圖像的感知特征出發(fā),結(jié)合深度學(xué)習(xí),實現(xiàn)立體圖像的多元特征到質(zhì)量分數(shù)的映射。
在LIVE 3D IQA Phase I、LIVE 3D IQA Phase II 和NBU 3D IQA 圖像庫不同方法的評價指標(biāo)對比如表3和表4 所示。表中-為原論文沒有提供相應(yīng)的實驗結(jié)果,也沒有找到相應(yīng)的源代碼來重現(xiàn)實驗結(jié)果。
表3 LIVE 3D IQA Phase I和Phase II圖像庫不同方法的評價指標(biāo)對比Table 3 Evaluation indexs comparison among different methods on LIVE 3D IQA Phase I and Phase II image library
表4 NBU 3D IQA 圖像庫不同方法的評價指標(biāo)對比Table 4 Evaluation indexs comparison among different methods on NBU 3D IQA image library
從表3 和表4 可以看出,無論是NR-SIQA 還是FR-SIQA,本文方法在3 個圖像庫均取得了較好的性能,特別是在LIVE 3D IQA phase II 圖像庫上。本文方法所預(yù)測的DMOS 與原始DMOS 具有較好的相關(guān)性,進一步證明該方法在SIQA 方面的有效性。
10 種方法在LIVE 3D IQA phaseⅠ和phaseⅡ圖像庫不同失真類型的評價指標(biāo)對比如表5 和表6 所示。本文方法在單個失真類型上具有穩(wěn)定的性能。
表5 LIVE 3D IQA phase I 圖像庫不同失真類型的評價指標(biāo)對比Table 5 Evaluation indexs comparison among different distortion types on LIVE 3D IQA phase I image library
表6 LIVE 3D IQA Phase II 圖像庫不同失真類型的評價指標(biāo)對比Table 6 Evaluation indexs comparison among different distortion types on LIVE 3D IQA phase II image library
利用跨數(shù)據(jù)庫測試進一步分析本文方法的性能,LIVE 3D IQA PhaseⅠ作為訓(xùn)練集,LIVE 3D IQA PhaseⅡ和NBU 3D IQA 圖像庫作為測試集。將測試結(jié)果與文獻[17]、文獻[27]和文獻[29]3種IQA指標(biāo)進行對比。SROCC 的結(jié)果如 表7 所示,因NBU 3D IQA 圖像庫 包含的H.264 編碼失真類型在LIVE 3D IQA PhaseⅠ中不存在,所以在NBU 3D IQA 圖像庫上測試結(jié)果不佳。實驗結(jié)果表明,本文方法具有較好的泛化性和魯棒性。
表7 跨數(shù)據(jù)庫上不同方法的SROCC 對比Table 7 SROCC comparison among different methods on cross-database
本文根據(jù)人眼視覺特性和立體圖像特點,提出一種多元立體圖像特征與CNN 結(jié)合的SIQA 方法。通過提取失真圖像對的深度顯著性特征、對比度特征和亮度系數(shù)歸一化后的左右視圖作為CNN 輸入訓(xùn)練模型,預(yù)測立體圖像的質(zhì)量分數(shù)。實驗結(jié)果表明,本文方法能夠準確評價對稱和不對稱失真立體圖像,評價結(jié)果符合人類主觀感知,且具有較好的適用性和魯棒性。后續(xù)將考慮視覺多通道分解性和人眼誤差等因素,進一步提高SIQA 的準確性。