亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)NetVLAD圖像特征提取的回環(huán)檢測(cè)算法

        2023-12-28 09:28:24邱長(zhǎng)濱王慶芝劉其朋
        關(guān)鍵詞:特征描述回環(huán)特征提取

        邱長(zhǎng)濱,王慶芝,劉其朋

        (青島大學(xué)復(fù)雜性科學(xué)研究所,山東 青島 266071)

        0 引言

        近年來,視覺同步定位與建圖(Simultaneous Location And Mapping,SLAM)已成為自主移動(dòng)機(jī)器人領(lǐng)域的研究熱點(diǎn)[1]?;丨h(huán)檢測(cè)(Loop Closure Detection,LCD)是視覺SLAM的關(guān)鍵環(huán)節(jié)之一,旨在判斷移動(dòng)機(jī)器人是否回到了先前經(jīng)過的地方,并通過回環(huán)約束減少視覺里程計(jì)引起的累計(jì)誤差,提高建圖和定位精度[2]。

        經(jīng)典的回環(huán)檢測(cè)算法大都采用手工特征來表征圖像,比較典型的是詞袋模型[3]。它利用SIFT、SURF、ORB等方法提取大規(guī)模圖像數(shù)據(jù)集的局部特征點(diǎn)集合,然后利用K-Means聚類將局部特征點(diǎn)空間劃分為若干聚類,聚類的中心稱為視覺單詞。所有的視覺單詞聚集構(gòu)成了視覺詞典。一幅圖像可以由局部特征點(diǎn)對(duì)應(yīng)的視覺單詞的集合來表征。在詞袋模型的基礎(chǔ)上發(fā)展出了Fisher 向量模型(Fisher Vector)[4]。Fisher Vector 采用高斯混合模型(Gaussian Mixture Model,GMM)構(gòu)建視覺詞典。研究表明采用該向量編碼包含的信息比視覺詞袋模型更加豐富,在圖像分類及相關(guān)視覺任務(wù)上效果更優(yōu)。作為Fisher Vector的簡(jiǎn)化版本,文獻(xiàn)[5]提出使用局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)來表征圖像。該方法比詞袋信息更豐富,同時(shí)比Fisher Vector計(jì)算簡(jiǎn)單。

        隨著人工智能的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借強(qiáng)大的特征學(xué)習(xí)和表征能力,在圖像分類、圖像分割、目標(biāo)檢測(cè)、姿態(tài)估計(jì)、人臉識(shí)別等領(lǐng)域取得了巨大的成功[6]。為探索卷積神經(jīng)網(wǎng)絡(luò)在圖像匹配和視覺回環(huán)檢測(cè)方面的性能,文獻(xiàn)[7]分析了AlexNet提取的圖像特征,發(fā)現(xiàn)AlexNet網(wǎng)絡(luò)的第3個(gè)卷積層(conv3)輸出的特征對(duì)圖像外觀變化具有魯棒性,全連接層(fc7)輸出的特征對(duì)視角變化具有魯棒性。文獻(xiàn)[8]采用空間金字塔池化對(duì)AlexNet網(wǎng)絡(luò)的卷積特征進(jìn)行多尺度融合,更好地保留了圖像的原始信息,對(duì)光照變化具有較強(qiáng)的魯棒性。與直接使用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出的CNN特征描述子相比,針對(duì)圖像匹配專門設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)特征描述子性能更優(yōu)。受VLAD啟發(fā),Relja等[9]提出了一種可進(jìn)行反向傳播訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)版本的VLAD,稱為NetVLAD,顯著提升了對(duì)光照和視角變化的魯棒性,并通過在多個(gè)尺度上提取描述子來保證尺度不變性。

        為進(jìn)一步提高NetVLAD特征描述子的精度,本文將空洞卷積(Atrous Convolution)引入到特征提取過程中??斩淳矸e最早出現(xiàn)在圖像語義分割的研究中,目的是在不增加訓(xùn)練參數(shù)的前提下提高特征圖分辨率?;丨h(huán)檢測(cè)的底層技術(shù)是圖像匹配,即識(shí)別兩幅圖像是否具有相似的特征。理論上來說,空洞卷積提高特征圖的分辨率,也將有助于提高圖像特征對(duì)比的準(zhǔn)確性?;诖?本文將空洞卷積引入到回環(huán)檢測(cè)算法中。另外,考慮到圖像在不同尺寸上表現(xiàn)出不同的特征,例如小尺寸圖像中的一條光滑直線,放大之后可能呈現(xiàn)出非常粗糙的邊緣。圖像在不同尺寸下可以反映不同顆粒度的特征。為了更全面地提取圖像特征,本文采用融合多種采樣率的空洞空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)[10]。該結(jié)構(gòu)可以有效地降低特征圖的維度,并同時(shí)融合多尺度特征,保留了更多的空間信息,可以進(jìn)一步提高特征圖的分辨率和特征匹配效果。

        1 基于改進(jìn)NetVLAD圖像特征提取的回環(huán)檢測(cè)算法

        1.1 算法整體框架

        本文所提改進(jìn)算法的整體框架如圖1所示,其中NetVLAD圖像特征提取由基于殘差網(wǎng)絡(luò)ResNet18的主干網(wǎng)絡(luò)和基于ASPP模塊改進(jìn)的NetVLAD層兩部分構(gòu)成。

        圖1 本文回環(huán)檢測(cè)算法整體框圖

        1.2 基于ResNet18的特征提取主干網(wǎng)絡(luò)

        本文采用基于ResNet18的殘差網(wǎng)絡(luò)[11]提取圖像的局部特征,如圖2所示。

        圖2 主干網(wǎng)絡(luò)結(jié)構(gòu)圖

        與圖像分類任務(wù)不同,這里只需要對(duì)圖像進(jìn)行特征提取,不需要分類,因此去掉了原ResNet18網(wǎng)絡(luò)中最后的全連接層FC;此外,由于池化操作會(huì)降低特征圖的精度,為了更大程度上保留原圖的特征,去掉了全連接層前的均值池化層avgpool,最終得到由ResNet18的前16層構(gòu)成的主干網(wǎng)絡(luò)。

        1.3 基于ASPP模塊改進(jìn)的NetVLAD

        1.3.1 基礎(chǔ)NetVLAD圖像特征描述

        圖3 基礎(chǔ)NetVLAD層及其聚類示意圖

        (1)

        1.3.2 改進(jìn)的NetVLAD圖像特征描述

        直接使用NetVLAD對(duì)圖像進(jìn)行表征存在兩個(gè)問題:1)主干網(wǎng)絡(luò)輸出的高維特征直接進(jìn)入NetVLAD層,計(jì)算成本較高,影響閉環(huán)檢測(cè)任務(wù)的實(shí)時(shí)性;2)卷積網(wǎng)絡(luò)經(jīng)過多次卷積和池化操作后,輸出的特征圖越來越小,分辨率越來越低,導(dǎo)致得到的NetVLAD圖像特征描述子精度較低,影響檢測(cè)精度。為解決上述問題,本文將ASPP模塊引入到NetVLAD中,對(duì)多尺度特征進(jìn)行融合并降維,提高特征圖的分辨率。此外,原始ASPP模塊中采用了全局均值池化,更加關(guān)注全局特征,影響算法效率;為避免該問題,本文采用全局最大池化,只對(duì)局部感興趣的區(qū)域進(jìn)行池化,過濾掉特征圖中的次要信息,提高算法效率。圖4展示了改進(jìn)NetVLAD圖像特征描述的具體流程:

        圖4 改進(jìn)的NetVLAD圖像特征描述流程圖

        1)上游主干網(wǎng)絡(luò)特征提取。維度為224×224×3的輸入圖像通過上游主干網(wǎng)絡(luò)處理之后輸出維度為512×7×7的特征圖。

        2)執(zhí)行多尺度特征融合并降維。以并行方式分別進(jìn)入:卷積核大小為1×1的標(biāo)準(zhǔn)卷積層、卷積核大小均為3×3采樣率分別為6,12,18的3個(gè)空洞卷積層、全局最大池化層(后接一個(gè)卷積核大小為1×1的標(biāo)準(zhǔn)卷積層以及一個(gè)雙線性插值的上采樣層將特征圖還原為原圖大小);經(jīng)過5次并行處理之后得到5個(gè)維度為512×7×7的特征圖;橫向拼接融合得到1個(gè)維度不變的特征圖;再采用卷積核大小為1×1的標(biāo)準(zhǔn)卷積層將拼接后的特征圖降維到指定通道數(shù)256,最終得到一個(gè)維度為256×7×7的特征圖。

        5)執(zhí)行L2歸一化操作。對(duì)矩陣v中的每一列D維向量進(jìn)行L2歸一化處理,然后將矩陣轉(zhuǎn)化為向量,對(duì)整體再進(jìn)行L2歸一化處理,最終得到一個(gè)長(zhǎng)度為K×D的VLAD向量V,作為對(duì)原始圖像的表征。

        1.4 基于圖像序列的相似性搜索

        為提高檢測(cè)精度,SeqSLAM算法[12]通過計(jì)算兩個(gè)圖像序列(而不是兩幅獨(dú)立的圖像)之間的相似性來判斷移動(dòng)機(jī)器人是否達(dá)到了之前的地點(diǎn)。與SeqSLAM類似,本文在進(jìn)行相似性搜索時(shí)也采取圖像序列對(duì)比的方式,以此來提高檢測(cè)的魯棒性。

        圖像序列之間的相似性由VLAD向量之間的距離決定。若兩個(gè)圖像序列對(duì)應(yīng)的VLAD向量之間的距離較近,則說明兩個(gè)圖像序列相似,當(dāng)前時(shí)刻可能產(chǎn)生了回環(huán);反之,若距離較遠(yuǎn),則說明兩個(gè)圖像序列差異較大,當(dāng)前時(shí)刻未出現(xiàn)回環(huán)。本文采用比較常見的歐氏距離來計(jì)算圖像序列之間的相似性。假設(shè)當(dāng)前時(shí)刻的圖像序列為Sq,先前某一時(shí)刻的圖像序列為Sp,序列長(zhǎng)度均為l,二者所對(duì)應(yīng)的VLAD向量集合分別為VSq和VSp,表達(dá)式為

        VSq={VSq1,VSq2,…,VSql},VSp={VSp1,VSp2,…,VSpl}

        (2)

        其中的元素為序列中單幅圖像對(duì)應(yīng)的 VLAD 向量。最終兩個(gè)圖像序列Sq與Sp之間的歐氏距離為

        (3)

        在搜索時(shí),給定當(dāng)前的圖像序列,遍歷所有歷史序列,計(jì)算得到圖像序列之間的距離,基于距離可以設(shè)計(jì)回環(huán)檢測(cè)判定條件。例如設(shè)定固定的距離閾值,小于該閾值則認(rèn)為檢測(cè)到回環(huán),通過調(diào)節(jié)距離閾值可以獲得精確率和召回率之間的平衡(見2.1節(jié)實(shí)驗(yàn))。

        2 實(shí)驗(yàn)與分析

        為驗(yàn)證本文改進(jìn)算法,在公開數(shù)據(jù)集CityCentre和NewCollege上進(jìn)行測(cè)試。CityCentre數(shù)據(jù)集中的圖像拍攝于城市中心,總長(zhǎng)度為2 km,共包含2 474張圖像和26 976個(gè)回環(huán)。NewCollege數(shù)據(jù)集中的圖像拍攝于校園內(nèi),總長(zhǎng)度為1.9 km,共包含2 146張圖像和14 832個(gè)回環(huán),兩個(gè)數(shù)據(jù)集中的圖像大小均為640×480。圖5為數(shù)據(jù)集部分圖像。兩個(gè)數(shù)據(jù)集中的圖像均是由放置于輪式機(jī)器人左右兩側(cè)的相機(jī)拍攝的,機(jī)器人每行駛1.5 m采集一次圖像。此外,兩個(gè)數(shù)據(jù)集均提供了GroundTruth矩陣,包含了對(duì)于回環(huán)的真實(shí)標(biāo)注,分別以2 474 × 2 474 和2 146×2 146的二維矩陣形式進(jìn)行存儲(chǔ)。若圖像i和j是在同一地點(diǎn)拍攝的,則在矩陣中對(duì)應(yīng)的(i,j)元素值為1,否則為0。

        圖5 數(shù)據(jù)集部分圖像

        本文在基于Anaconda3的深度學(xué)習(xí)框架Pytorch下進(jìn)行實(shí)驗(yàn)測(cè)試,具體實(shí)驗(yàn)環(huán)境為:1)Intel Core i5-10400 2.90Ghz,2)NVIDIA GeForce GTX 1650,3)RAM 16GB,4)Ubuntu 18.04。實(shí)驗(yàn)中采用在Places365數(shù)據(jù)集上的預(yù)訓(xùn)練網(wǎng)絡(luò)模型ResNet18,并將輸入圖像尺寸剪裁為224×224。表1為實(shí)驗(yàn)測(cè)試時(shí)的關(guān)鍵參數(shù)與取值。為驗(yàn)證本文改進(jìn)算法的性能,本文分別在精確率-召回率(Precision-Recall,PR)曲線指標(biāo)以及特征提取時(shí)間性能指標(biāo)上將本文方法與其他方法進(jìn)行了比較。

        表1 實(shí)驗(yàn)關(guān)鍵參數(shù)與取值

        2.1 PR曲線指標(biāo)

        在回環(huán)檢測(cè)任務(wù)中,若兩幅來自不同場(chǎng)景的圖像被誤判為同一個(gè)場(chǎng)景,則稱這種錯(cuò)誤為假陽(yáng)性(False Positive,FP);若兩幅來自同一場(chǎng)景的圖像被誤判為不同場(chǎng)景,則稱為假陰性(False Negative,FN);反之,若正確地檢測(cè)到了閉環(huán),則為真陽(yáng)性(True Positive,TP);若正確地檢測(cè)到了非閉環(huán),則為真陰性(True Negative,TN)。由此,精確率與召回率的定義為

        (4)

        本文選取5種算法進(jìn)行實(shí)驗(yàn)對(duì)比,具體算法為:1)標(biāo)準(zhǔn)SeqSLAM算法(seqslam);2) 基于BoW改進(jìn)的SeqSLAM算法(seqslam_bow);3)基于ResNet和NetVLAD的回環(huán)檢測(cè)算法(resnet_netvlad);4)基于ResNet、PCA降維以及NetVLAD的回環(huán)檢測(cè)算法(resnet_pca_netvlad);5)(本文算法)基于ResNet、ASPP以及NetVLAD改進(jìn)的回環(huán)檢測(cè)算法(resnet_aspp_netvlad)。其中1)和2)為基于傳統(tǒng)特征的回環(huán)檢測(cè)算法,3)、4)、5)為基于深度學(xué)習(xí)的回環(huán)檢測(cè)算法。各算法相應(yīng)的PR曲線如圖6所示。

        圖6 以上算法在CityCentre 和NewCollege兩個(gè)數(shù)據(jù)集上的PR曲線對(duì)比

        從圖6實(shí)驗(yàn)結(jié)果可以看出,基于深度學(xué)習(xí)的特征比手工特征效果更好,在提高召回率的同時(shí),保持了較高的精確率。本文所改進(jìn)的算法ResNet_ASPP_NetVLAD相對(duì)于改進(jìn)前的算法ResNet_NetVLAD也有進(jìn)一步的提升。此外,本文還將傳統(tǒng)PCA降維方式與基于深度學(xué)習(xí)的ASPP降維方式進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明在相同維度下基于ASPP的降維方法比傳統(tǒng)PCA降維方法效果更好。

        圖7中展示了部分回環(huán)檢測(cè)的結(jié)果以表明算法的魯棒性。由于測(cè)試圖像是機(jī)器人在行駛過程中采集的,即使回到同一地點(diǎn),相應(yīng)圖像的視角、光照等均會(huì)發(fā)生變化,本文算法能夠正確識(shí)別出這些回環(huán),說明了該算法對(duì)外觀變化具有一定的魯棒性;此外,盡管圖7a3和7b2存在動(dòng)態(tài)目標(biāo):行人(圓圈標(biāo)記),但本文算法仍能正確判斷出回環(huán),進(jìn)一步說明該算法能夠較為準(zhǔn)確地提取環(huán)境信息,對(duì)干擾物具有一定的魯棒性。

        圖7 回環(huán)檢測(cè)示例圖

        2.2 時(shí)間性能指標(biāo)

        除了比較PR曲線性能指標(biāo)外,本文還通過對(duì)比提取單幅圖像特征的平均用時(shí)來衡量算法的實(shí)時(shí)性。在CityCentre數(shù)據(jù)集上,選取右側(cè)相機(jī)拍攝的共1 237張圖像進(jìn)行特征提取,表2對(duì)提取全部圖像特征的總時(shí)間以及提取單幅圖像特征的平均時(shí)間進(jìn)行了統(tǒng)計(jì)。

        表2 特征提取總時(shí)間以及平均時(shí)間對(duì)比表

        以上結(jié)果表明,在保持高召回率以及高精確率的前提下,本文算法在進(jìn)行特征提取時(shí)比其它算法更加快速高效。需要注意的是,傳統(tǒng)手工特征如詞袋模型等需要事先離線構(gòu)造視覺詞典,而基于深度學(xué)習(xí)的算法也需要事先基于大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練。本實(shí)驗(yàn)中默認(rèn)離線準(zhǔn)備工作均已結(jié)束,算法耗時(shí)僅考慮在線特征提取階段。

        3 結(jié)論

        本文提出了一種基于改進(jìn)NetVLAD圖像特征提取的回環(huán)檢測(cè)算法,采用基于深度學(xué)習(xí)的深度殘差網(wǎng)絡(luò)來提取圖像特征,將空洞空間金字塔池化模塊引入到NetVLAD中,通過多尺度特征融合,在降維的同時(shí)提高了特征圖的分辨率,得到更加魯棒且緊湊的圖像特征描述,從而提升圖像匹配的效果。在CityCentre和NewCollege兩個(gè)公開數(shù)據(jù)集上驗(yàn)證了本文改進(jìn)算法在精確率和召回率方面相比于標(biāo)準(zhǔn)NetVLAD算法有進(jìn)一步的提升,同時(shí)比采用手工特征的算法更具實(shí)時(shí)性。

        本文在進(jìn)行相似圖像序列匹配時(shí)采用的仍然是蠻力搜索方式,在大規(guī)模數(shù)據(jù)集上可能無法達(dá)到實(shí)時(shí)性要求。后續(xù)可以借鑒深度學(xué)習(xí)領(lǐng)域的最新研究成果,改進(jìn)卷積網(wǎng)絡(luò)結(jié)構(gòu),如加入深度可分卷積網(wǎng)絡(luò),進(jìn)一步減少模型參數(shù)和復(fù)雜度,壓縮特征提取時(shí)間。在圖像對(duì)比方面,可以嘗試更加高效的近似搜索方式,如KD-tree[13]、分層可通航小世界網(wǎng)絡(luò)[14]等,進(jìn)一步提升算法的實(shí)時(shí)性。

        猜你喜歡
        特征描述回環(huán)特征提取
        In the Zoo
        船舶尾流圖像的數(shù)字化處理和特征描述技術(shù)
        嘟嘟闖關(guān)記
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        透 月
        寶藏(2018年3期)2018-06-29 03:43:10
        目標(biāo)魯棒識(shí)別的抗旋轉(zhuǎn)HDO 局部特征描述
        Bagging RCSP腦電特征提取算法
        學(xué)習(xí)“騎撐前回環(huán)”動(dòng)作的常見心理問題分析及對(duì)策
        基于差異的圖像特征描述及其在絕緣子識(shí)別中的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        av在线男人的免费天堂| 亚洲av电影天堂男人的天堂| 精品久久综合亚洲伊人| 一区二区三区国产高潮| 熟女一区二区国产精品| 美女内射毛片在线看免费人动物| 久久伊人色av天堂九九| 久久综合视频网站| 一二三四在线观看韩国视频| 免费毛儿一区二区十八岁| 国产激情内射在线影院| 中文字幕巨乱亚洲| 亚洲福利一区二区不卡| 日韩av无码中文字幕| 成在人线av无码免观看麻豆 | 亚洲av中文无码乱人伦在线播放| 精品免费在线| 亚洲一区二区三区99区| 日本久久精品中文字幕| 成人午夜福利视频镇东影视| 性导航app精品视频| 日本激情一区二区三区| 亚洲人成在线播放网站| 亚洲色欲色欲www在线播放| 亚洲国产成人Av毛片大全| 国产高清女主播在线观看| 日韩精品真人荷官无码| 美女黄18以下禁止观看| 看全色黄大黄大色免费久久| av免费播放网站在线| 精品深夜av无码一区二区老年| 久久频这里精品99香蕉| 伊人婷婷综合缴情亚洲五月| 国产精品久久久久久福利| 肉体裸交丰满丰满少妇在线观看| 亚洲福利av一区二区| 一区二区精品国产亚洲| 亚洲处破女av日韩精品| av无码一区二区三| 午夜精品久久99蜜桃| 欧美人妻日韩精品|