亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于立體注意力機(jī)制的立體圖像超分辨算法

2023-03-07 10:00:24羅傳未張子慧賀子婷周孟穎

電視技術(shù) 2023年1期

羅傳未，張子慧，賀子婷，周孟穎，馬健

（安徽大學(xué) 互聯(lián)網(wǎng)學(xué)院，安徽合肥 2 300001）

0 引言

隨著雙目成像技術(shù)的發(fā)展，雙目相機(jī)和雙目攝像頭在手機(jī)和自動(dòng)駕駛上的應(yīng)用越發(fā)流行，立體圖像超分辨（Stereo Image Super-Resolution）領(lǐng)域逐漸被人們關(guān)注。立體圖像應(yīng)用發(fā)展的同時(shí)，立體圖像超分辨任務(wù)也面臨著涉及圖像處理、計(jì)算機(jī)視覺(jué)、立體視覺(jué)等領(lǐng)域的基本問(wèn)題。

基于現(xiàn)有的圖像超分辨率研究成果，領(lǐng)域內(nèi)學(xué)者從不同角度對(duì)其進(jìn)行了總結(jié)[1-3]。JEON等[4]提出一種基于視差先驗(yàn)的立體圖像超分辨重建算法。該算法將右圖水平移動(dòng)不同像素，生成64張副本圖像，將其與左圖級(jí)聯(lián)后送入網(wǎng)絡(luò)重建。WANG等[5]提出基于視差注意力機(jī)制的立體圖像超分辨算法，將self-attention引入到雙目視覺(jué)中，并通過(guò)設(shè)計(jì)valid mask解決左右圖遮擋問(wèn)題。ZHANG等[6]提出用于立體圖像超分辨率的循環(huán)交互網(wǎng)絡(luò)（RISSRnet）來(lái)學(xué)習(xí)視圖間依賴關(guān)系。YING等[7]提出一個(gè)通用的立體注意力模塊（Stereo Attention Module，SAM），將其安插至預(yù)訓(xùn)練好的單圖超分辨率（Single-Image-Super-Resolution，SISR）網(wǎng)絡(luò)中（如SRCNN[8]）并在雙目圖像數(shù)據(jù)集Flickr1024上進(jìn)行微調(diào)，結(jié)合左右圖互補(bǔ)信息的同時(shí)保持對(duì)單圖信息的充分利用，進(jìn)一步提升了超分辨性能。ZHU等[9]提出了一種基于交叉視點(diǎn)信息捕獲的立體圖像超分辨算法。DAI等[10]提出一種基于視差估計(jì)的反饋網(wǎng)絡(luò)，可同時(shí)進(jìn)行立體圖像超分辨重建和視差估計(jì)。

（1）雙目圖像中，視差的巨大變化使得左右圖互補(bǔ)信息難以被充分捕捉；

（2）在捕捉到左右圖的關(guān)聯(lián)后，如何充分利用雙目圖像提供的信息也具有挑戰(zhàn)性；

（3）雙目圖像超分辨在結(jié)合左右圖的互補(bǔ)信息的同時(shí)，還要充分利用一幅圖內(nèi)的信息。

基于以上問(wèn)題，本文主要研究了基于立體注意力機(jī)制的立體圖像超分辨方法。為獲得更好的立體圖像超分辨重建效果，本文對(duì)單圖超分辨率模型提出進(jìn)一步改進(jìn)，在模型的損失函數(shù)中加入平滑損失項(xiàng)，使模型在立體圖像對(duì)中獲得更好的一致性。通過(guò)對(duì)改進(jìn)前后的算法進(jìn)行實(shí)驗(yàn)結(jié)果比較，驗(yàn)證了改進(jìn)策略的有效性。改進(jìn)策略明顯提高了立體圖像超分辨重建后的圖像質(zhì)量。

1 基于立體注意力機(jī)制的立體圖像超分辨算法

1.1 網(wǎng)絡(luò)模型結(jié)構(gòu)

基于注意力機(jī)制的立體圖像超分辨算法的總體框架如圖1所示。首先，將立體圖像對(duì)（包括左視角圖像和右視角圖像）送入兩個(gè)SISR網(wǎng)絡(luò)中，提取左右圖的特征，并生成特征矩陣。其次，在兩個(gè)SISR網(wǎng)絡(luò)之間插入立體注意力模塊。該模塊將兩個(gè)SISR網(wǎng)絡(luò)提取的左右視角信息進(jìn)行交互，通過(guò)卷積的方式，將單個(gè)視角圖像內(nèi)部的信息與不同視角間的互補(bǔ)信息充分融合。最后，通過(guò)雙路的SISR網(wǎng)絡(luò)耦合重建高分辨率的立體圖像。

圖1 基于立體注意力機(jī)制的立體圖像超分辨算法網(wǎng)絡(luò)總體框架

1.2 立體注意力模塊結(jié)構(gòu)

SISR網(wǎng)絡(luò)會(huì)對(duì)輸入的左右視角圖像進(jìn)行特征提取。經(jīng)過(guò)立體注意力模塊時(shí)，立體注意力模塊將SISR網(wǎng)絡(luò)產(chǎn)生的這些立體特征作為輸入，捕獲立體對(duì)應(yīng)關(guān)系，在立體圖像超分辨過(guò)程的多個(gè)階段交互圖像對(duì)的左右視角信息。該算法中的立體注意力模塊結(jié)構(gòu)如圖2所示。

6.3 后期管護(hù)（1）用手輕推樹(shù)干，看苗木根系與土壤是否結(jié)合良好，若有明顯的裂縫或松動(dòng)，則說(shuō)明栽植不到位，應(yīng)及時(shí)補(bǔ)救。（2）觀察樹(shù)坑。土壤疏松有利于根系的萌發(fā)，為此，一方面看樹(shù)坑有無(wú)積水，另一方面看澆水后是否松土、有無(wú)裂縫要處理。

圖2 立體注意力模塊的內(nèi)部結(jié)構(gòu)

該算法網(wǎng)絡(luò)可看作一個(gè)多任務(wù)網(wǎng)絡(luò)，既可學(xué)習(xí)立體圖像間的立體對(duì)應(yīng)，也可學(xué)習(xí)圖像的超分辨。在多個(gè)任務(wù)中，使用共享的圖像特征來(lái)學(xué)習(xí)不同任務(wù)。輸入的左右視角特征和C分別為特征圖的高度、寬度和通道數(shù)）先輸入過(guò)渡殘差塊Hresidual中，以避免多任務(wù)學(xué)習(xí)產(chǎn)生的訓(xùn)練沖突，然后分別經(jīng)過(guò)處理對(duì)應(yīng)視角的1×1卷積層Hθ和Hγ生成對(duì)應(yīng)的特征映射Fm1和Fmr（Fm1,Fmr∈RH×W×C）。

為了生成立體注意力圖，先將Fmr轉(zhuǎn)置為在與Fm1之間執(zhí)行批量的矩陣乘法，生成初始的注意力得分圖G∈RH×W×C。然后應(yīng)用softmax分類，對(duì)G和GT進(jìn)行歸一化處理，將多分類的輸出結(jié)果轉(zhuǎn)化為0到1之間的概率分布，分別生成Aright→left和Aleft→right的立體注意力圖。

為了將特征信息從一個(gè)視角轉(zhuǎn)移到另一個(gè)視角，并得到經(jīng)過(guò)交互的對(duì)應(yīng)視角特征，分別用生成的立體注意力圖Aright→left和Aleft→right乘上輸入模塊初始視角特征，構(gòu)造視角信息經(jīng)過(guò)交互后的特征Fleft→right和Fright→left（Fleft→right,Fright→left∈RH×W×C）。這一過(guò)程的具體表示如下：

式中：?表示批處理的矩陣乘法。

由于在遮擋區(qū)域中立體圖像間相對(duì)應(yīng)區(qū)域的左右一致性不成立，被遮擋區(qū)域無(wú)法從另一側(cè)視角圖像中獲得額外信息。為處理遮擋問(wèn)題，使用遮擋檢測(cè)的方法來(lái)生成有效的掩膜（Mask），引導(dǎo)特征的融合。觀察到遮擋區(qū)域中的像素通常有較小的權(quán)重，可用如下計(jì)算方法獲取該注意力模塊的上部分分支的有效掩膜Mleft→right：

式中：W是立體圖像的寬度，τ為閾值，根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)設(shè)為0.1。因?yàn)樽笠暯菆D像中的被遮擋像素?zé)o法在右視角圖像中搜索到它們的對(duì)應(yīng)，所以它們的Mleft→right(i,j)值通常較低，于是該網(wǎng)絡(luò)將這些區(qū)域作為遮擋區(qū)域。左視角圖像中的遮擋區(qū)域無(wú)法從右視角圖像中獲得附加的場(chǎng)景信息，因此有效的掩膜Mleft→right(i,j)可以進(jìn)一步用于引導(dǎo)圖像特征的融合。同理，使用類似的方法生成該注意力模塊的下部分分支的有效的掩膜Mright→left。

為了將交互的不同視角間的互補(bǔ)信息與單個(gè)視角下圖像內(nèi)部的信息整合起來(lái)，該模塊將輸入的左視角特征和經(jīng)視角間對(duì)應(yīng)交互得到的右視角特征Fright→left以及有效掩膜Mleft→right三者相級(jí)聯(lián)，通過(guò)一個(gè)卷積層整合，得到特征即為該模塊輸出到網(wǎng)絡(luò)中的左視角特征。輸出的右視角特征也用相似的方法生成。這一過(guò)程可表示如下：

式中：cas(·,·,·)表示級(jí)聯(lián)操作，Hψ和Hξ分別表示對(duì)應(yīng)的視角處理線路上的卷積操作，該操作將交互后的視角特征信息與原輸入特征信息以及有效掩膜整合到一起。

1.3 損失函數(shù)設(shè)置

該算法主要使用了兩項(xiàng)損失來(lái)訓(xùn)練網(wǎng)絡(luò)，分別是超分辨損失和光度一致性損失。網(wǎng)絡(luò)的總損失函數(shù)定義為

式中：μ為正則化權(quán)值，根據(jù)經(jīng)驗(yàn)設(shè)置為0.01；n為網(wǎng)絡(luò)中注意力模塊的個(gè)數(shù)。LSR表示超分辨損失，定義為超分辨重建后的左視角圖像與左視角圖像高分辨率主觀值之間的均方誤差（Mean Square Error，MSE）：

Lphotometric表示光度一致性損失，*表示同階矩陣乘法，Ileft和Iright分別表示輸入的左視角圖像和右視角圖像。該損失定義為

1.4 算法改進(jìn)策略

本小節(jié)在加入立體注意力機(jī)制的SISR方法基礎(chǔ)上，對(duì)本文的算法網(wǎng)絡(luò)做出一個(gè)改進(jìn)，以實(shí)現(xiàn)更好的立體圖像超分辨性能。

在本算法中，如果立體注意力圖更加平滑，梯度更小，則可以獲得更好的立體圖像超分辨效果。在當(dāng)前損失函數(shù)的基礎(chǔ)上，本節(jié)引入平滑損失（Smoothness Loss）函數(shù)，將平滑損失定義在立體注意力圖Aleft→right和Aright→left上，具體定義如下：

式（9）的第一項(xiàng)用于實(shí)現(xiàn)圖像垂直方向的注意一致性，第二項(xiàng)用于實(shí)現(xiàn)水平方向的注意一致性。加入該平滑損失，可以在弱紋理區(qū)域中產(chǎn)生更加準(zhǔn)確且具有一致性的注意力，對(duì)圖像起到平滑的作用。

加入平滑損失后，該算法網(wǎng)絡(luò)的總損失函數(shù)定義如下：

式中：λ經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)試得出設(shè)置為0.002 5的效果最好，此處設(shè)置為0.002 5；n為網(wǎng)絡(luò)中立體注意力模塊的個(gè)數(shù)，其他項(xiàng)詳見(jiàn)第2.3節(jié)中對(duì)于損失函數(shù)的描述。

2 實(shí)驗(yàn)及結(jié)果分析

本節(jié)首先介紹了數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置，然后對(duì)改進(jìn)前后的基于立體注意力機(jī)制的立體圖像超分辨算法進(jìn)行對(duì)比實(shí)驗(yàn)和分析。

2.1 數(shù)據(jù)集選擇及實(shí)驗(yàn)設(shè)置

本文使用Flickr1024數(shù)據(jù)集[11]作為訓(xùn)練集。在實(shí)驗(yàn)中，考慮到計(jì)算資源的有限，本文僅選擇Flickr1024數(shù)據(jù)集中的400張圖像進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練，同時(shí)對(duì)該數(shù)據(jù)集進(jìn)行了訓(xùn)練數(shù)據(jù)的增強(qiáng)。

在對(duì)模型的測(cè)試中，本實(shí)驗(yàn)使用來(lái)自Middlebury數(shù)據(jù)集[12]的5對(duì)立體圖像，來(lái)自KITTI 2012數(shù)據(jù)集[13]的20對(duì)立體圖像和來(lái)自KITTI 2015數(shù)據(jù)集[14]的20對(duì)立體圖像作為測(cè)試數(shù)據(jù)集，用于檢驗(yàn)和選擇出最好的模型。此外，還從該數(shù)據(jù)集中選擇了另外50對(duì)立體圖像作為驗(yàn)證集，以挑選出最優(yōu)的模型結(jié)構(gòu)。

在算法改進(jìn)的對(duì)比實(shí)驗(yàn)設(shè)置上，本文選擇合適的SISR網(wǎng)絡(luò)，對(duì)改進(jìn)前后的基于立體注意力機(jī)制的立體圖像超分辨算法進(jìn)行對(duì)比實(shí)驗(yàn)和分析，以探究此項(xiàng)改進(jìn)的有效性。

2.2 算法改進(jìn)的對(duì)比實(shí)驗(yàn)與分析

本文僅針對(duì)4倍的超分辨網(wǎng)絡(luò)應(yīng)用此項(xiàng)平滑損失的改進(jìn)。首先對(duì)比了SRCNN模型和SRResNet模型改進(jìn)前后的4倍超分辨結(jié)果。其中，“SA_smooth”表示使用該注意力模塊且加入平滑損失的算法。實(shí)驗(yàn)結(jié)果如表1所示。引入平滑損失后，SRCNN和SRResNet模型的峰值信噪比（Peak Signal to Noise Ratio，PSNR）值和結(jié)構(gòu)相似性（Structural Similarity，SSIM）值總體比之前有所提高，其中SRResNet模型的改進(jìn)較多，PSNR的平均值增益有0.103 dB。由此可得，本節(jié)對(duì)于算法網(wǎng)絡(luò)的損失函數(shù)的改進(jìn)加強(qiáng)了對(duì)圖像中信息的利用，增進(jìn)了其超分辨效果。

表1 改進(jìn)前后SRCNN和SRResNet模型的4倍超分辨效果對(duì)比

由于此改進(jìn)策略在SRResNet模型上的表現(xiàn)效果較好，本文繼續(xù)在該網(wǎng)絡(luò)上深入分析所提出改進(jìn)的作用。圖3展示了Flickr1024數(shù)據(jù)集的圖像塊0543_001的兩張立體注意力圖的灰度圖可視化。圖3（a）由無(wú)平滑損失的網(wǎng)絡(luò)生成，圖3（b）由加入平滑損失的網(wǎng)絡(luò)生成。從圖3的紅框區(qū)域可以看出，圖3（a）存在梯度不均勻的情況，不加平滑損失的網(wǎng)絡(luò)梯度較大。而加入該項(xiàng)損失后，得出的圖3（b）的梯度明顯更加均勻，這使得重建后的立體圖像更加光滑，具有更好的質(zhì)量。

圖3 改進(jìn)前后訓(xùn)練樣本0543_001的注意力圖的灰度圖可視化

梯度流向圖可以清晰直觀地呈現(xiàn)模型網(wǎng)絡(luò)中的梯度流向，反映出梯度下降的情況，對(duì)于調(diào)整模型網(wǎng)絡(luò)具有重要意義。圖4展示了訓(xùn)練樣本圖像塊0001_001在兩個(gè)網(wǎng)絡(luò)中的梯度流向圖。其中，圖4（a）是不使用平滑損失生成的流向圖，圖4（b）是加入平滑損失生成的流向圖。觀察改進(jìn)前后生成的流向圖可以看到，加入平滑損失后，梯度顯著減小了，說(shuō)明其立體注意力圖更加光滑，證明平滑損失對(duì)于圖像質(zhì)量提升有重要的作用。

圖4 改進(jìn)前后訓(xùn)練樣本0001_001的梯度流向圖

本文還分別計(jì)算了改進(jìn)前后SRResNet網(wǎng)絡(luò)的L1loss，以探究此項(xiàng)改進(jìn)對(duì)梯度定量值的影響。隨機(jī)選擇訓(xùn)練集中的10個(gè)圖像塊，分別計(jì)算它們?cè)谖匆肫交瑩p失和引入平滑損失后訓(xùn)練時(shí)的L1loss，結(jié)果記錄在表2中。如表2數(shù)據(jù)顯示，加入平滑損失后，L1loss的數(shù)值均比之前減小了，加快了收斂的速度。由于L1loss容易受極端值影響，導(dǎo)致梯度方向偏離正常水平的點(diǎn)，因此可以用來(lái)衡量圖像的光滑程度。改進(jìn)后L1loss變小，也說(shuō)明加入平滑損失可以賦予梯度更合理的懲罰權(quán)重，視覺(jué)效果也會(huì)更加自然。

表2 改進(jìn)前后SRResNet網(wǎng)絡(luò)處理部分圖像塊的L1loss

通過(guò)上述對(duì)加入了注意力機(jī)制的SRResNet模型上平滑損失的影響的深入分析，可以證明加入平滑損失后，立體注意力圖的光滑性會(huì)增強(qiáng)。當(dāng)然，由于映射關(guān)系，重建后的立體圖像也會(huì)更加光滑，這是提升圖像質(zhì)量的一個(gè)部分。同時(shí)，平滑損失函數(shù)相當(dāng)于訓(xùn)練的正則項(xiàng)，加入之后可以有效地避免一些過(guò)擬合問(wèn)題的產(chǎn)生。因此，平滑損失函數(shù)的加入是有必要的，本文對(duì)于該基于立體注意力機(jī)制的立體圖像超算法損失函數(shù)部分的改進(jìn)具有一定的有效性和必要性。

3 結(jié) 語(yǔ)

本文提出了一種基于立體注意力機(jī)制的立體圖像超分辨重建改進(jìn)算法。通過(guò)在損失函數(shù)中引入平滑項(xiàng)，實(shí)驗(yàn)驗(yàn)證了改進(jìn)前后高分辨率立體圖像質(zhì)量得到了明顯的提高。同時(shí)，現(xiàn)有的立體圖像數(shù)據(jù)集總體質(zhì)量處于弱勢(shì)，限制了立體圖像的重建算法發(fā)揮更好的作用。未來(lái)的研究中可以考慮構(gòu)建圖像數(shù)量更多、場(chǎng)景更為豐富、圖像質(zhì)量更好的立體圖像數(shù)據(jù)集，訓(xùn)練出更高效的立體圖像超分辨模型。