亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的視覺SLAM去模糊系統(tǒng)

        2018-01-17 11:00:30繆弘張文強
        中興通訊技術(shù) 2018年5期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

        繆弘 張文強

        摘要:提出了一種高效的、基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像去模糊算法。網(wǎng)絡(luò)結(jié)構(gòu)基于條件生成對抗網(wǎng)絡(luò),并使用堆疊的自編碼器結(jié)構(gòu)與跳躍相連接。相關(guān)的試驗結(jié)果表明:該算法有良好的圖像去模糊效果,并且能夠大幅度地降低時間與內(nèi)存開銷。

        關(guān)鍵詞:圖像去模糊;卷積神經(jīng)網(wǎng)絡(luò);對抗生成網(wǎng)絡(luò)

        1 模糊對視覺SLAM的影響及圖像去模糊簡介

        同時定位與地圖構(gòu)建(SLAMS)的目的是讓機器人利用各類傳感器信息來得知自身的位置以及周圍的環(huán)境。因此,SLAM是實現(xiàn)機器人自主移動的一項關(guān)鍵技術(shù)。視覺SLAM是指利用視覺傳感器的信息的SLAM系統(tǒng),其輸入就是視覺傳感器得到的圖像。

        在機器人運行過程中,因為相機抖動、景物移動等原因,都會造成圖像模糊。無論是特征點法還是直接法,模糊的圖像輸入都會直接影響視覺SLAM系統(tǒng),降低系統(tǒng)整體的運行效率。視覺SLAM系統(tǒng)需要將拍攝的前后兩幀圖像進行匹配,根據(jù)匹配結(jié)果對自身進行定位,這一過程稱為跟蹤。在跟蹤過程中,模糊的輸入圖像會造成匹配失準或無法匹配,這被稱為跟蹤失敗。當(dāng)出現(xiàn)跟蹤失敗時,需要讓整個機器人停止運動或者回退,重新拍攝清晰的圖像,同時需要進行全局的地圖搜索,定位當(dāng)前機器人的位置,直至跟蹤成功,機器人再重新開始運動。全局的地圖搜索是一個相對耗時的操作,如果頻繁地觸發(fā)這一操作,會影響整個SLAM系統(tǒng)的運行效率。同時,每次機器人停止運動或者回退,都使得運行過程變得不連續(xù),影響了流暢性。因此,模糊的輸入圖像是需要避免的。為了避免模糊的輸入圖像,我們可以使用去模糊算法對圖像進行處理,恢復(fù)出清晰的圖像。

        相機抖動、相機與景物之間的相對運動造成模糊一般被稱為運動模糊。圖像中的運動模糊效果通常在空間上是不均勻的,這是由于不同對象的運動經(jīng)常是彼此不同的。取模糊算法的目的就是恢復(fù)出一張沒有模糊的清晰的圖像。以前的大部分方法都是通過這個模型來建模圖像上的模糊:

        其中B,K,S和n分別是模糊的圖像、模糊核、潛在的清晰圖像和噪聲。在去模糊問題中,模糊核是未知的。因此,這些方法需要在只有給定的模糊圖像B同時估計模糊核K和潛在清晰圖像S,這其實可以看為一個病態(tài)的問題。

        實際上,真實世界模糊圖像的模糊核往往在空間上不均勻。估計空間非均勻的模糊核是一個難題,因為每個像素的模糊核都可能不同。因此,以前的一些方法[1-4]都對模糊來源做了一些簡單的假設(shè),以簡化模糊核估計。然而,由于實際的模糊核通常比所假設(shè)的模糊核更加復(fù)雜,所以通過這些方法估計的模糊核是不準確的。不準確的模糊核的估計直接會降低潛在的清晰圖像的質(zhì)量。因此,這些方法只適用于幾種特定的模糊類型。

        近年來,越來越多的方法使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來解決去模糊問題的方法[5-10]。由于缺乏真實場景下的模糊清晰圖像對,文獻[5-8]中的方法通過合成模糊核進行卷積來產(chǎn)生模糊圖像進行訓(xùn)練。另外,這些方法不是以端到端的方式,并且仍然需要估計模糊核或逆模糊核。因此,這些方法仍然存在模糊核的估計不準確的問題,而且它們在真實模糊圖像上的表現(xiàn)比人工生成的模糊圖像要差。文獻[9]提出了一個由高速攝像機拍攝的真實場景下的模糊清晰圖像數(shù)據(jù)集,文獻[9-10]中的模型在這個數(shù)據(jù)集上進行了訓(xùn)練。此外,兩種方法都是以端對端的方式,直接生成清晰圖像,沒有進行模糊核的估計。因此,這兩種方法在性能上都超越了以前的方法。然而,文獻[9]中的方法運行緩慢,文獻[10]中的方法相對較快,但仍需要大量內(nèi)存資源,這使得人們很難在實踐中應(yīng)用這些方法。

        基于上述的研究現(xiàn)狀,我們提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像去模糊算法。算法整體基于條件對抗生成網(wǎng)絡(luò),在網(wǎng)絡(luò)結(jié)構(gòu)上使用堆疊的自編碼器結(jié)構(gòu)與跳躍連接。通過在基準數(shù)據(jù)集上的實驗,算法表現(xiàn)出了良好的圖像去模糊效果,并且能夠大幅度地降低時間與內(nèi)存開銷。算法的高效性使其更容易與視覺SLAM系統(tǒng)相結(jié)合。

        2 基于深度卷積神經(jīng)網(wǎng)絡(luò)的去模糊算法

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        我們的網(wǎng)絡(luò)是基于對抗生成網(wǎng)絡(luò)設(shè)計的,包含有1個生成器和1個鑒別器。生成器的任務(wù)是從輸入的模糊圖像中提取特征,利用特征生成出一張足以“騙過”鑒別器的圖像。鑒別器的任務(wù)是正確地判別出一張圖像是真實的清晰圖像,還是一張生成器生成出來的圖像。通過讓生成器和鑒別器互相對抗式地學(xué)習(xí),生成器和鑒別器的能力都能得到提升,最終生成器能從一張輸入的模糊圖像中生成出一張真實的清晰圖像。

        生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。生成器的結(jié)構(gòu)包括3個部分:頭部、中部與尾部。

        頭部只包含有一個5×5的卷積層。這個卷積層將3通道的輸入圖像映射為一個64通道的特征映射,作為生成器中部的基礎(chǔ)。我們并沒有在頭部的卷積層后接一個激活層,這是因為我們在生成器中部的構(gòu)建模塊中使用了文獻[11]中提到的前置激活層的方法,所以頭部卷積層的激活層包含在了中部的構(gòu)建模塊中。

        中部包含有連續(xù)N個構(gòu)建模塊,并且每一個構(gòu)建模塊都有一個殘差連接。因為構(gòu)建模塊是基于自編碼器結(jié)構(gòu)的,所以我們把構(gòu)建模塊稱為“自編碼器模塊”。因為輸入的模糊圖像與要輸出的清晰圖像在數(shù)值上很接近,所以網(wǎng)絡(luò)所需要學(xué)習(xí)的函數(shù)比起零映射更接近與恒等映射,而帶有殘差連接的結(jié)構(gòu)更容易學(xué)習(xí)到一個恒等映射[12]。我們選擇將N個自編碼器模塊順序地堆疊,因為這使得網(wǎng)絡(luò)能夠重復(fù)地從整張圖像中提取特征。每一個自編碼器模塊只需要在輸入的特征映射上做一點改進,最終就能得到一個足夠好的特征映射。在實驗中,我們選擇N=2。

        尾部包含有一個激活層和一個5×5的卷積層。尾部的任務(wù)是將中部產(chǎn)生的特征映射變換到最終的輸出圖像。在整個生成器中,我們都沒有使用任何歸一化層,因為我們發(fā)現(xiàn)添加歸一化層反而會使得結(jié)果變差,同時會帶來更大的時間與內(nèi)存開銷。

        2.2 自編碼器模塊結(jié)構(gòu)

        自編碼器模塊的結(jié)構(gòu)如圖2所示。我們使用一種殘差模塊、最大池化層和最近鄰插值層來構(gòu)建自編碼器模塊。我們稱這種殘差模塊為“基礎(chǔ)模塊”。基礎(chǔ)模塊能生成維度與其輸入一樣的特征映射。我們將一個基礎(chǔ)模塊和一個最大池化層定義為一組“上采樣組”,將一個基礎(chǔ)模塊和一個最近鄰插值層定義為一組“下采樣組”。在自編碼器模塊中,輸入的特征映射先經(jīng)過L組下采樣組不斷下采樣,直至到達瓶頸層(包含一個基礎(chǔ)模塊),然后再經(jīng)過L組上采樣組不斷上采樣。同時,我們在第i個最大池化層和第L-i個最近鄰插值層中添加了跳躍連接,共L個跳躍連接。在實驗中,我們選擇L=4。

        自編碼模塊的結(jié)構(gòu)與Hourglass Network[13]和U-Net[14]的結(jié)構(gòu)類似。類似自編碼器的結(jié)構(gòu)能夠提取不同尺度的特征,而跳躍連接能夠?qū)⑺鼈兘M合起來。因為同一張圖像,模糊的程度會隨著尺度的降低而降低,所以不同尺度的特征可以用來處理不同程度的模糊。因為輸入圖像上各處的模糊程度都可能相同,所以提取不同尺度的特征是很重要的[15]。我們使用跳躍連接是因為跳躍連接能直接將網(wǎng)絡(luò)的低層信息傳遞到網(wǎng)絡(luò)的高層,這能讓網(wǎng)絡(luò)的輸出共享低層信息。另外,跳躍連接還能直接將梯度信息從高層傳遞到低層,這會讓網(wǎng)絡(luò)的訓(xùn)練更加容易。

        2.3 基礎(chǔ)模塊結(jié)構(gòu)

        基礎(chǔ)模塊的結(jié)構(gòu)如圖3所示?;A(chǔ)模塊的輸入與輸出維度相同,我們將輸入與輸出的通道數(shù)定義為Chr。在一個基礎(chǔ)模塊中,共有C條路徑。每一條路徑包含兩個卷積核大小為3×3的卷積層,并且在每個卷積層之前都有一個激活層。第1個卷積層的輸出與第2的卷積層的輸入通道數(shù)相同,都為D。每條路徑除了卷積層的膨脹系數(shù)都相同。C條路徑中,每個卷積層的膨脹系數(shù)從1增加到C?;A(chǔ)模塊也包含一個殘差連接。我們將所有路徑的輸出與模塊的輸入相加,得到最后的輸出。在實驗中,我們選擇Chr =64,C =4,D =16。

        基礎(chǔ)模塊的結(jié)構(gòu)設(shè)計受到了ResNeXt[16]中殘差模塊的啟發(fā)。這2種模塊都使用了殘差連接,并且將多路操作聚合起來。但與ResNeXt中的殘差模塊不同的是:基礎(chǔ)模塊中每一路操作都不同,而ResNeXt中每一路操作都相同。每一路中使用不同的膨脹系數(shù),可以在不增加參數(shù)量的情況下增大了感受域,同時還能提取到不同尺度的特征。

        2.4 鑒別器結(jié)構(gòu)

        鑒別器是基于條件對抗生成網(wǎng)絡(luò)設(shè)計的,需要兩組圖像對作為輸入。一組圖像對包含一張模糊圖像與對應(yīng)的清晰圖像,另一對圖像對包含模糊圖像和對應(yīng)的經(jīng)生成器處理的圖像。與傳統(tǒng)的對抗生成網(wǎng)絡(luò)相比,條件對抗生成網(wǎng)絡(luò)的鑒別器需要一張額外的模糊圖像作為輸入。這樣做的好處是在讓生成器生成的圖像“欺騙”鑒別器的同時,還能保持與輸入的模糊圖像的一致性。

        鑒別器結(jié)構(gòu)的設(shè)計參照PatchGAN[17],只包含5個卷積層。鑒別器輸出的是一個特征映射,特征映射中的每一個值都對應(yīng)于輸入圖像中的一塊。因此,比起整張圖像,鑒別器更著重于局部的圖像塊,這會鼓勵生成器去生成更清晰的局部邊緣與結(jié)構(gòu)。而且,淺層的鑒別器結(jié)構(gòu)也能節(jié)約訓(xùn)練的時間。

        2.5 損失函數(shù)

        生成器的損失函數(shù)包含了[?1]損失函數(shù)和對抗損失函數(shù)。[?1]損失函數(shù)常常被用于圖像恢復(fù)任務(wù),它可以讓生成圖像與目標(biāo)圖像的像素值更接近。然而,只使用[?1]損失函數(shù)會導(dǎo)致結(jié)果過于平滑。為了防止過于平滑,我們將對抗損失函數(shù)與[?1]相結(jié)合。我們沒有使用文獻[18]中使用的對抗損失函數(shù)形式,而是使用了最小二乘生成對抗網(wǎng)絡(luò)(LS-GAN)19]中的形式。鑒別器的對抗損失函數(shù)定義如式(2):

        生成器的對抗損失函數(shù)定義如式(3):

        其中,B和S分別表示模糊圖像集合和清晰圖像集合,a和b分別表示生成圖像和真實圖像的標(biāo)簽,c表示生成圖片想要達到的標(biāo)簽。根據(jù)文獻[19]中的設(shè)置,我們選擇a=0,b=1,c=1。與文獻[18]中的對抗損失函數(shù)相比,LS-GAN中的形式在訓(xùn)練中更加穩(wěn)定,更容易訓(xùn)練。最后,整體的損失函數(shù)如公式(4)所示:

        在實驗中,我們將權(quán)重系數(shù)設(shè)為[λ=0.01]。

        3 相關(guān)實驗

        所有的實驗都是在同一臺使用Titan XP顯卡的工作站上進行的。我們的模型使用pytorch庫來實現(xiàn)。

        3.1 GOPRO數(shù)據(jù)集上的實驗

        GOPRO數(shù)據(jù)集包含了3 214對高速攝像機拍攝的模糊清晰圖像對,其中訓(xùn)練集包含2 103對,測試集包含1 111對。我們與其他先進的去模糊算法進行了對比實驗,并進行了定性與定量的分析。圖4展示了一些去模型效果圖,從中我們能看出多尺度卷積神經(jīng)網(wǎng)絡(luò)(MS-CNN)方法[9]與孫的方法[7]都出現(xiàn)了振鈴效應(yīng),而我們的方法則避免了這一情況。表1展示了定量分析的結(jié)果,我們的方法在峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)的指標(biāo)上都遠遠超越了其他的一些方法。

        3.2 K?hler數(shù)據(jù)集上的實驗

        K?hler數(shù)據(jù)集[20]包含4張清晰圖像,每張清晰圖片有12張對應(yīng)的模糊圖像。作者記錄了12條不同的相機軌跡來生成12張不同的模糊圖像。我們在K?hler數(shù)據(jù)集上進行了對比實驗,并做了定量分析,如表2所示。

        3.3 時間與內(nèi)存開銷

        我們在時間與內(nèi)存開銷上與其他方法做了對比。為了公平起見,我們用pytorch庫重新實現(xiàn)了MS-CNN[9]與深度對抗濾波(DGF)[10]。對于每一個方法,我們分別測試了1 000張1 280×720的圖片,計算平均的時間與內(nèi)存開銷。對于時間測試,我們只計算正向傳播的時間,不考慮反向傳播的時間。對于內(nèi)存測試,我們只計算生成器的內(nèi)存開銷,不考慮鑒別器的內(nèi)存開銷。表3展示了時間與內(nèi)存開銷的對比實驗。我們的方法比DGF快3.4倍,比MS-CNN快8.4倍,同時消耗的內(nèi)存是DGF的25.59%,是MS-CNN的27.65%。這顯示出我們的方法更加高效,更容易應(yīng)用于實際場景中。

        4 結(jié)束語

        本文中,我們提出了一種基于深度CNN的圖像去模糊方法。與現(xiàn)有方法相比,該方法更加高效。通過在不同數(shù)據(jù)集上的測試,該方法與目前最先進的方法效果相當(dāng),同時速度更快,所需內(nèi)存空間更少。運行速度快與所需內(nèi)存少的特性,使這種方法更容易應(yīng)用于包含視覺SLAM系統(tǒng)在內(nèi)的實際應(yīng)用中。

        參考文獻

        [1] GUPTA A, JOSHI N, ZITNICK C L, et al. Single Image Deblurring Using Motion Density Functions[C]// European Conference on Computer Vision. German: Springer, 2010: 171-184

        [2] KIM T H, AHN B, LEE K M. Dynamic Scene Deblurring[C]//International Conference on Computer Vision. USA:IEEE, 2013:3160-3167. DOI: 10.1109/ICCV.2013.392

        [3] KIM T H, LEE K M. Segmentationfree Dynamic Scene Deblurring[C]//Computer Vision and Pattern Recognition. USA:IEEE, 2014:2766-2773. DOI: 10.1109/CVPR.2014.348

        [4] WHYTE O, SIVIC J, ZISSERMAN A,et al. Non-Uniform Deblurring for Shaken Images[J]. International Journal of Computer Vision, 2012, 98(2): 168-186

        [5] CHAKRABARTI A. A neural Approach to Blind Motion Deblurring[C]//European Conference on Computer Vision. German: Springer, 2016: 221-235

        [6] SCHULER C J, HIRSCH M, HARMELING S, et al. Learning to Deblur[J]. Transactions on Pattern Analysis and Machine Intelligence, USA: IEEE, 2016, 38(7): 1439-1451. DOI: 10.1109/TPAMI.2015.2481418

        [7] SUN J, CAO W, XU Z, et al. Learning a Convolutional Neural Network for Nonuniform Motion Blur Removal[C]//Computer Vision and Pattern Recognition. USA: IEEE, 2015:769-777. DOI: 10.1109/CVPR.2015.7298677

        [8] XU L, REN J S J, LIU C L, et al. Deep Convolutional Neural Network for Image Deconvolution[C]//Advances in Neural Information Processing Systems. USA: MIT Press, 2014: 1790-1798

        [9] NAH S, KIM T H, LEE K M. Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring[C]//Computer Vision and Pattern Recognition. USA: IEEE, 2017. DOI: 10.1109/CVPR.2017.35

        [10] RAMAKRISHNAN S, PACHORI S, RAMAN S. Deep Generative Filter for Motion Deblurring[C]// International Conference on Computer Vision. USA: IEEE, 2017. DOI: 10.1109/ICCVW.2017.353

        [11] HE K, ZHANG X, REN S, et al. Identity Mappings in Deep Residual Networks[C]//European Conference on Computer Vision. German: Springer, 2016: 630-645

        [12] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Computer Vision and Pattern Recognition. USA: IEEE, 2016: 770-778. DOI: 10.1109/CVPR.2016.90

        [13] NEWELL A, YANG K, DENG J. Stacked Hourglass Networks for Human Pose Estimation[C]// European Conference on Computer Vision. German: Springer, 2016: 483-499

        [14] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. German: Springer, 2015: 234-241

        [15] MICHAELI T, IRANI M. Blind Deblurring Using Internal Patch Recurrence[C]// European Conference on Computer Vision. German: Springer, 2014: 783-798

        [16] XIE S, GIRSHICK R, DOLL Doll' AR P, et al. Aggregated Residual Transformations for Deep Neural Networks[C]//Computer Vision and Pattern Recognition. USA: IEEE, 2017: 5987-5995. DOI: 10.1109/CVPR.2017.634

        [17] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-Image Translation with Conditional Ad-Versarial Networks[C]//Computer Vision and Pattern Recognition. USA: IEEE, 2017. DOI: 10.1109/CVPR.2017.632

        [18] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Nets[C]//Advances in Neural Information Processing Systems. USA: MIT Press, 2014: 2672-2680

        [19] MAO X, LI Q, XIE H, LAU R YK, et al. Least Squares Generative Adversarial Networks[C]//International Conference on Computer Vision. USA: IEEE, 2017. DOI: 10.1109/ICCV.2017.304

        [20] KOHLER R, HIRSCH M, MOHLER B, et al. Recording and Playback of Camera Shake: Benchmarking Blind Deconvolution with A Real-world Database[C]//European Conference on Computer Vision. German: Springer, 2012: 27-40

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)
        基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
        卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究
        卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
        基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
        基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
        軟件(2016年5期)2016-08-30 06:27:49
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
        囯产精品无码一区二区三区AV | 黑人巨大无码中文字幕无码| 中文字幕被公侵犯的漂亮人妻| 毛片免费在线播放| 国产熟女自拍视频网站| 99久久国产免费观看精品| 国产果冻豆传媒麻婆精东| 国产好大好硬好爽免费不卡| 亚洲av综合av国产av| 北条麻妃毛片在线视频| 亚洲av综合色区在线观看| av免费在线播放一区二区| 国产精品日日做人人爱| 免费无码黄动漫在线观看| 中文字幕大屁股熟女乱| 午夜天堂精品一区二区| 亚洲av高清一区二区三区| 国产欧美精品aaaaaa片| 亚洲精品无码不卡在线播放he| 中文字幕Aⅴ人妻一区二区苍井空 亚洲中文字幕久久精品蜜桃 | 国产大片黄在线观看| 国产欧美一区二区精品性色| 国产码欧美日韩高清综合一区| 国产噜噜亚洲av一二三区| 日本在线精品一区二区三区| 亚洲精品乱码久久久久久日本蜜臀| 久久久久久亚洲AV成人无码国产| 亚洲av第二区国产精品| 一 级做人爱全视频在线看| 中文字幕一区二区三区精华液| 亚洲成人观看| 精品国产污黄网站在线观看| 色综合久久蜜芽国产精品| 无码熟妇人妻av在线影片| 无遮高潮国产免费观看韩国 | 国产成+人欧美+综合在线观看| 欧美巨大性爽| 国产精品美女久久久久浪潮AVⅤ| 国产三级国产精品国产专区50| 国产精品久久久久9999| 66lu国产在线观看|