王 楊,隆海燕,賈曦然
(1.河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401;2.河北工業(yè)大學(xué) 天津市電子材料與器件重點(diǎn)實(shí)驗(yàn)室,天津 300401)
人眼系統(tǒng)通過中心視覺和邊緣視覺獲得視覺信息。中心視覺是指視網(wǎng)膜中心1-2度的雙側(cè)范圍,其它范圍則為邊緣視覺,兩者形成一個(gè)寬視場,在視覺信息處理時(shí)協(xié)同合作以充分發(fā)揮人眼視覺能力。例如,在視覺檢索中用于捕捉感興趣區(qū)域和探索場景;在籃球防守中用于判斷對手球員位置并準(zhǔn)確標(biāo)記[1];在道路行駛中用于獲取更高的駕駛安全性。評估不同視場下的成像質(zhì)量有助于探究人眼的視覺感知,同時(shí)在物體識(shí)別和安全駕駛等領(lǐng)域具有廣泛的應(yīng)用場景和研究價(jià)值。
眼模型一直是研究人眼視覺感知的重要手段。在Gullstrand經(jīng)典眼模型的基礎(chǔ)上,王楊[2]和張伊等[3]構(gòu)建了個(gè)性化人眼光學(xué)系統(tǒng),分別研究寬視場下波前像差的特征以及入射和出射波前像差的統(tǒng)計(jì)學(xué)差異性。徐歡歡等[4]分析波前像差對調(diào)制傳遞函數(shù)(MTF)曲線的影響來評估視覺質(zhì)量。以上研究均通過分析波前像差來評估成像質(zhì)量,但未獲得人眼在多視場處的視覺成像圖,故在探究人眼寬視場的成像質(zhì)量方面有一定的局限性。
學(xué)者們將客觀圖像質(zhì)量評價(jià)方法應(yīng)用于圖像視覺質(zhì)量的度量中。由于人類視覺系統(tǒng)對圖像的顏色結(jié)構(gòu)敏感并具有感知閾值,聞武等[5]從灰度和色度出發(fā)挖掘圖像的相關(guān)統(tǒng)計(jì)特征并建立圖像色彩特征與質(zhì)量的映射關(guān)系。曹欣等[6]則在此基礎(chǔ)上關(guān)注圖像的顏色相似性和邊緣特性。王晨等[7]通過偏度特征區(qū)分圖像空洞失真和拉伸失真以模擬人眼視覺系統(tǒng)的機(jī)理。盧鵬等[8]則以圖像的信息熵和紋理特征表示圖像的細(xì)節(jié)信息,將其融合后進(jìn)行圖像質(zhì)量評價(jià)。楊光義等[9]將孿生神經(jīng)網(wǎng)絡(luò)遷移至圖像質(zhì)量評價(jià)領(lǐng)域?,F(xiàn)有對中心視覺和邊緣視覺的研究大多從其功能出發(fā),分析二者在視覺信息獲取時(shí)所發(fā)揮的作用,但獲取人眼多視場成像圖,并利用卷積神經(jīng)網(wǎng)絡(luò)對視覺成像質(zhì)量進(jìn)行量化分析,目前尚未見報(bào)道。
為準(zhǔn)確分析人眼在多視場處的視覺成像質(zhì)量,受上述人眼對色彩差異化感知和視覺成像特性的啟發(fā),提出一種基于個(gè)性化眼模型和孿生神經(jīng)網(wǎng)絡(luò)的寬視場成像質(zhì)量評價(jià)方法。構(gòu)建專注于雙目重合視野的個(gè)性化眼模型以獲取視覺成像;通過捕獲成像圖中的不同色彩區(qū)域以模擬人眼的視覺感知;利用孿生神經(jīng)網(wǎng)絡(luò)獲取圖像的多維信息以實(shí)現(xiàn)對成像圖質(zhì)量的量化。
本文所提出的寬視場視覺成像質(zhì)量評價(jià)算法主要分為3步:①構(gòu)建個(gè)性化眼部模型得到波前像差的統(tǒng)計(jì)學(xué)差異以獲得不同視場下的成像圖;②提取成像圖的差異化色彩區(qū)域;③利用孿生神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,實(shí)現(xiàn)對視覺成像優(yōu)劣的量化。具體流程如圖1所示:首先輸入各視場的波前像差值以得到差異化視場成像圖,然后將完成色彩區(qū)域提取的子圖像輸入孿生神經(jīng)網(wǎng)絡(luò)中,最后根據(jù)孿生子網(wǎng)絡(luò)輸出值的歐式距離進(jìn)行度量學(xué)習(xí)。其中,W為兩個(gè)子網(wǎng)絡(luò)中共享的權(quán)值向量。
圖1 寬視場視覺成像質(zhì)量評價(jià)算法框架
參考文獻(xiàn)[2]中的模型構(gòu)建方法,以Gullstrand-Le Grand眼模型為基礎(chǔ),在ZEMAX環(huán)境下完成個(gè)性化人眼模型的建立。Gullstrand-Le Grand眼模型的結(jié)構(gòu)參數(shù)見表1。
表1 Gullstrand-Le Grand眼模型的結(jié)構(gòu)參數(shù)
Gullstrand-Le Grand眼模型的折射面均為球面。個(gè)性化眼模型中,引入貼合人眼特征的澤尼克矢高面作為角膜和晶狀體的前后表面,迭代優(yōu)化其曲率半徑和非球面系數(shù)。個(gè)性化眼模型參數(shù)見表2。
表2 個(gè)性化眼模型所用參數(shù)
雙目水平視角的極限值為188°,單目水平視角可達(dá)156°。雙目重合視域?yàn)?24°,該視域內(nèi)視覺感知敏感并具有觀測立體感,本文重點(diǎn)關(guān)注該范圍內(nèi)視覺成像的優(yōu)劣。
1.2.1 多視場的選取
為度量雙目重合視域的多視場成像質(zhì)量,本文參考二維物體表面離散點(diǎn)的采樣對視場角進(jìn)行選擇。除軸上視場和最大視場外,還需考慮中間視場點(diǎn)的成像優(yōu)劣。故采用旋轉(zhuǎn)對稱法取樣,如式(1)所示
(1)
其中,n表示視場點(diǎn)的數(shù)量,θn表示第n個(gè)視場,HFOV指最大的半視場。雙目重合視野為124°,故取值為62°。根據(jù)公式,定義雙目中心為0°,視場1至視場7視角的選取依次為62°、50.62°、35.79°、0°、-35.79°、-50.62°和-62°。設(shè)置多視場下的個(gè)性化眼模型結(jié)構(gòu)如圖2所示。
圖2 多視場下的個(gè)性化眼模型結(jié)構(gòu)
1.2.2 多視場視覺成像
本文通過構(gòu)建人眼光學(xué)系統(tǒng)分析視場下的波前像差以獲得差異化成像圖。在視光學(xué)領(lǐng)域,重建波前像差通常由Zernike多項(xiàng)式描述,如式(2)所示
(2)
其中,Zk(x,y) 是Zernike 多項(xiàng)式的第k個(gè)模,Ck是多項(xiàng)式系數(shù),kmax是最大的截?cái)囗?xiàng)。點(diǎn)擴(kuò)散函數(shù)(point spread function,PSF)是脈沖函數(shù)模的平方,如式(3)所示
PSF=|h(xi,yi)|
(3)
其中,(xi,yi) 是光斑的質(zhì)心坐標(biāo),h(xi,yi) 為脈沖響應(yīng)函數(shù)。PSF可根據(jù)Zernike多項(xiàng)式獲得點(diǎn)光源在視場1至視場7的成像圖,如圖3所示。
圖3 點(diǎn)光源在7個(gè)視場下的成像
提取圖像的色彩區(qū)域以模擬人眼對色彩的差異化感知。Lab顏色空間將圖像的亮度信息和色度信息分離,基本消除各顏色分量之間的強(qiáng)相關(guān)性[10],在彩色圖像分割時(shí)可保留原圖像的自然效果。Lab顏色空間中的L分量用于表示像素的亮度,取值范圍是[0,100],表示從純黑到純白;a表示從紅色到綠色的范圍,取值范圍是[127,-128];b表示從黃色到藍(lán)色的范圍,取值范圍是[127,-128][11]。Lab顏色空間的色域?qū)掗?,可密切匹配人眼色彩感知。根?jù)圖像色彩的差異提取區(qū)域圖像的結(jié)果如圖4所示。
圖4 圖像差異化區(qū)域提取結(jié)果
由圖4可知,在Lab顏色空間中進(jìn)行彩色圖像預(yù)處理時(shí),區(qū)域邊界細(xì)節(jié)較清晰,可實(shí)現(xiàn)差異化色彩區(qū)域的精準(zhǔn)分離。
本文所用孿生神經(jīng)網(wǎng)絡(luò)模型如圖5所示。
圖5 孿生神經(jīng)網(wǎng)絡(luò)模型
如圖5所示,模型的雙分支共享權(quán)值W,并具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。圖像以樣本對的形式輸入,并將其特征映射至指定維度的特征向量空間中,最后以特征向量的歐氏距離判定樣本對的相似程度。將Inception-Resnet-V2作為雙分支的主干網(wǎng)絡(luò),其中Resnet采用殘差網(wǎng)絡(luò)的思想,可加速訓(xùn)練并防止梯度彌散;Inception模塊允許卷積池化操作并行以增加網(wǎng)絡(luò)稀疏性,并利用多尺度卷積核擴(kuò)大感受野。
Inception-Resnet-V2整體結(jié)構(gòu)由Stem網(wǎng)絡(luò)、5 組Inception-Resnet-A網(wǎng)絡(luò)、Reduction-A降維層、10組Inception-Resnet-B網(wǎng)絡(luò)、Reduction-B降維層、5組Inception-Resnet-C網(wǎng)絡(luò)、平均池化層、Dropout層、Softmax函數(shù)組成,如圖6所示。
圖6 Inception-Resnet-V2整體結(jié)構(gòu)
其中,3種Inception-Resnet網(wǎng)絡(luò)的區(qū)別在于卷積核的數(shù)量、尺寸和卷積通道數(shù)不同:Inception-Resnet-A、Inception-Resnet-B和Inception-Resnet-C的結(jié)構(gòu)分別如圖7(a)、圖7(b)和圖7(c)所示。
圖7 Inception-Resnet-A、Inception-Resnet-B和Inception-Resnet-C結(jié)構(gòu)
Inception-Resnet-A的三路卷積通道由激活函數(shù)層先經(jīng)過1×1×32的卷積層后,二通道和三通道分別進(jìn)行3×3×32和3×3×48、3×3×64的卷積操作,最后三路通道經(jīng)384次1×1的卷積運(yùn)算后和未卷積分支殘差連接。
Inception-Resnet-B和Inception-Resnet-C均經(jīng)過激活函數(shù)層后進(jìn)入卷積通道。一通道均經(jīng)過1×1×192的卷積層;Inception-Resnet-B二通道為非對稱分支經(jīng)過1×1×128、1×7×160和7×1×192的卷積層;Inception-Resnet-C二通道經(jīng)過1×1×192、1×3×224和3×1×256的卷積層;最后兩模塊的卷積通道分別經(jīng)1154次和2048次1×1的卷積運(yùn)算與未卷積分支殘差連接至激活函數(shù)層。
Stem部分網(wǎng)絡(luò)結(jié)構(gòu)的卷積核拆分用于提取圖像淺層特征;Reduction-A和Reduction-B通過卷積和池化操作降低輸出特征圖尺寸實(shí)現(xiàn)降維,將上層結(jié)構(gòu)塊的尺寸分別由35×35降為17×17及由17×17降為8×8。
為描述成對樣本的匹配程度,本文引入對比損失函數(shù)作為模型的優(yōu)化函數(shù)。其數(shù)學(xué)表達(dá)式如式(4)所示
(4)
算法在64位Windows10操作系統(tǒng)下,利用Python3.7平臺(tái)使用Keras深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn),所有實(shí)驗(yàn)結(jié)果及部分對比實(shí)驗(yàn)的運(yùn)行環(huán)境均為16 GB RAM內(nèi)存的Intel(R) Core(TM) i7-10750H CPU處理器、NVIDIA GTX 1060 6 GB。
LIVE數(shù)據(jù)集、TID2013數(shù)據(jù)集和CSIQ數(shù)據(jù)集應(yīng)用廣泛、圖像場景多樣,失真類型豐富,有利于評估圖像質(zhì)量評價(jià)算法的優(yōu)劣,故選取作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行性能評估。3個(gè)實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息見表3。
表3 3個(gè)基準(zhǔn)測試數(shù)據(jù)庫信息
為客觀驗(yàn)證所提算法的性能,選擇通用性能指標(biāo)皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)和斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order correlation coefficient,SROCC)對所提算法進(jìn)行評估。PLCC和SROCC分別反映客觀質(zhì)量評價(jià)值與主觀評價(jià)之間的線性相關(guān)度和單調(diào)性。SROCC/PLCC值越大,代表算法性能越好:反之,則較差。
PLCC的數(shù)學(xué)表達(dá)式如式(5)所示
(5)
SROCC的數(shù)學(xué)表達(dá)式如式(6)所示
(6)
其中,N代表了數(shù)據(jù)庫的失真圖像總數(shù)目,xj、yj代表了按照一定的順序作排列后(遞增或遞減順序)的主客觀序列中的第j個(gè)圖像的主客觀評價(jià)值。
利用Zernike多項(xiàng)式對不同視場下的波前像差進(jìn)行重建。構(gòu)建個(gè)性化人眼光學(xué)系統(tǒng),設(shè)置視場角度,視場1至視場7的眼模型如圖8所示。
圖8 眼模型視場1至視場7
不斷優(yōu)化眼模型的相關(guān)結(jié)構(gòu)參數(shù),得到視場1至視場7所對應(yīng)的Zernike多項(xiàng)式的35項(xiàng)系數(shù)。前7階(35項(xiàng))Zernike系數(shù)見表4,因篇幅有限,這里只列出其中6項(xiàng),其中Zernike系數(shù)的順序與ZEMAX中一致。
表4 Zernike多項(xiàng)式的部分系數(shù)值
根據(jù)波前像差值對數(shù)據(jù)集中的圖像進(jìn)行預(yù)處理以得到不同視場下的成像圖,如圖9所示。
圖9 7個(gè)視場處的成像
以孿生子網(wǎng)絡(luò)輸出的歐式距離差作為對多視場成像圖進(jìn)行質(zhì)量評價(jià)的指標(biāo),即客觀評價(jià)值。視場4成像圖的客觀評價(jià)值為0.8002,其客觀質(zhì)量評價(jià)最優(yōu);視場1和視場7成像圖的客觀評價(jià)值較低,分別為0.5858和0.5844,其客觀質(zhì)量評價(jià)較差。
模擬人眼對色彩的差異化感知,得到7個(gè)視場下視覺成像的多個(gè)色彩區(qū)域。成像圖的色彩區(qū)域提取結(jié)果如圖10所示。
圖10 成像圖的色彩區(qū)域提取結(jié)果
色彩區(qū)域圖像以樣本對的形式輸入到孿生神經(jīng)網(wǎng)絡(luò)中,對子圖像的評價(jià)值加權(quán)以獲得整幅圖像的質(zhì)量分值。加權(quán)公式如式(7)所示
(7)
對LIVE數(shù)據(jù)集、TID2013數(shù)據(jù)集和CSIQ數(shù)據(jù)集中的圖像進(jìn)行多視場成像處理,以孿生子網(wǎng)絡(luò)輸出值的歐式距離表示在視場1至視場7處的客觀質(zhì)量評價(jià)值,如圖11所示。
圖11 3個(gè)數(shù)據(jù)集的客觀質(zhì)量評價(jià)值
其中,3個(gè)數(shù)據(jù)集在多視場處的客觀評價(jià)值取該數(shù)據(jù)集中圖像的平均值得到。由于TID2013數(shù)據(jù)集中訓(xùn)練集圖像較CSIQ和LIVE數(shù)據(jù)集大,使得其訓(xùn)練網(wǎng)絡(luò)泛化能力較優(yōu),故所提算法在TID2013數(shù)據(jù)集的客觀圖像質(zhì)量評價(jià)值整體顯著高于LIVE數(shù)據(jù)集和CSIQ數(shù)據(jù)集。從3條曲線的整體趨勢來看:視場4的成像評價(jià)值最高,視場1和視場7最低。這一趨勢表明,由于人眼的波前像差值隨著視場角度的擴(kuò)大而增加,故視覺成像質(zhì)量逐漸下降。
表5 不同評估算法的性能對比
由表5可知,在TID2013數(shù)據(jù)集上,所提算法的PLCC和SROCC值分別比LI低0.0100和0.0117,比RISE低0.0200和0.0280,但較其它算法有顯著提高;在CSIQ數(shù)據(jù)集上,所提算法的SROCC和PLCC雖低于CVSS、MPCC算法,但均高于RISE、DIQA、CAGS、RVSIM、PSA、SPSIM、VS-GSSIM、JIA算法;所提算法的SROCC低于LI和DB-CNN,但PLCC比二者分別高0.0094和0.0042;在LIVE數(shù)據(jù)集上,所提算法也顯示出較好的一致性。綜合評價(jià)表明,所提算法模擬人眼視覺感知,利用不同深度的特征圖表示其不同維度的特征,充分表達(dá)圖像由底層到高層的有效信息,在與主觀感知相關(guān)性方面更具優(yōu)勢。分析原因可能為,所提算法構(gòu)建IQA模型時(shí)重點(diǎn)考慮圖像的色度特征并對圖像進(jìn)行局部分塊,較好表征了圖像;共享權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)整體參量數(shù)減少,可降低過擬合對圖像評價(jià)的影響;寬視場成像質(zhì)量的評價(jià)值由多視場成像質(zhì)量加權(quán)得到,權(quán)重分配顧及了邊緣視場,并側(cè)重于中心視場成像,故所提算法性能較優(yōu)。
所提算法引入邊緣視覺成像,同時(shí)在Inception模塊中增加BN層,利用孿生網(wǎng)絡(luò)求取局部質(zhì)量值再加權(quán),在算法上增加了一定的復(fù)雜度。對算法的平均運(yùn)行時(shí)間進(jìn)行記錄,并將其與其它算法作了對比。采用柱狀圖直觀表示3個(gè)數(shù)據(jù)集中不同失真類型的平均運(yùn)行時(shí)間。TID2013數(shù)據(jù)集、LIVE 數(shù)據(jù)集和CSIQ數(shù)據(jù)集中單個(gè)失真類型的每10幅圖像平均運(yùn)行時(shí)間如圖12所示。
圖12 3個(gè)數(shù)據(jù)集中單個(gè)失真類型的每10幅圖像平均運(yùn)行時(shí)間
取3個(gè)數(shù)據(jù)集運(yùn)行時(shí)間的平均值與其它算法進(jìn)行對比,結(jié)果見表6。
表6 每幅圖像的平均運(yùn)行時(shí)間
由表6可知,雖然其平均運(yùn)行時(shí)間高于CVSS、VSPSI、VS-GSSIM算法,但分別比CAGS、MPCC和JIA算法的運(yùn)行時(shí)間降低了0.2698 s、0.0201 s和0.0349 s;同時(shí)由表5可知,模型精度相較于部分算法在3個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均有提高。綜合成像質(zhì)量評估準(zhǔn)確度和算法效率兩方面得出,本文算法可實(shí)現(xiàn)對中心視覺和邊緣視覺成像質(zhì)量的量化,同時(shí)可嘗試應(yīng)用于自然圖像場景的大范圍感知中。
本文算法利用個(gè)性化眼模型獲得中心視覺和邊緣視覺的成像圖,將顏色作為視覺線索獲取成像圖的差異化色彩區(qū)域,利用孿生神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對不同視場處成像圖的量化,其評價(jià)值與主觀感知表現(xiàn)出良好的一致性,可用作彩色圖像質(zhì)量評價(jià)的新思路。目前所提算法對于色彩復(fù)雜的圖像區(qū)域提取有一定的局限性,后續(xù)將繼續(xù)改進(jìn)模擬人眼色彩感知的相關(guān)算法,同時(shí)嘗試引入自注意力機(jī)制進(jìn)一步提升算法性能,并將探究邊緣視覺在圖像檢索和場域感知等領(lǐng)域中的應(yīng)用作為未來研究的新方向。