王麗君,于蓮芝
(上海理工大學 光電信息與計算機工程學院,上海 200093)
基于卷積神經(jīng)網(wǎng)絡(luò)的位置識別
王麗君,于蓮芝
(上海理工大學 光電信息與計算機工程學院,上海 200093)
傳統(tǒng)的移動機器人視覺位置識別算法,多是基于手工提取特征且易受環(huán)境影響。文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)算法,根據(jù)深度學習框架Caffe優(yōu)化了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),從卷積神經(jīng)網(wǎng)絡(luò)每一層的輸出中提取出圖像描述符,進行動態(tài)環(huán)境中的位置識別。實驗結(jié)果表明,該算法具有較高的魯棒性與準確性。
視覺位置識別;卷積神經(jīng)網(wǎng)絡(luò);動態(tài)環(huán)境
正確識別出已遍歷過的位置是一個在移動機器人領(lǐng)域和計算機視覺領(lǐng)域均較為重要且具有挑戰(zhàn)性的問題[1-5]。在移動機器人長距離導航中,由于天氣情況的變化、季節(jié)變化、光照變化等的影響,同一個位置從外觀上看起來可能會有較大的差異性。大多數(shù)位置識別系統(tǒng)都是根據(jù)在每一位置拍攝圖片間的相似性做出判斷,因此類似的外觀變化會對系統(tǒng)的魯棒性產(chǎn)生較大的不利影響。
目前關(guān)于動態(tài)環(huán)境中的位置識別算法大體可分為兩個類別:(1)試圖找到關(guān)于位置的具有條件不變性的描述符,例如具有尺度、旋轉(zhuǎn)、和光照不變性的局部特征描述符;(2)通過訓練學習來預(yù)測環(huán)境外觀的變化[6-7]。其中最具代表性的為FAB-MAP[8]和SeqSLAM[9]。
最近一些研究機構(gòu)已經(jīng)證明了在目標分類或檢測過程中,CNN的效果優(yōu)于采用手動提取的特征的一些經(jīng)典算法[10-11]。受到這些研究的啟發(fā),本文提出了一種基于CNN的位置識別算法,并與一些經(jīng)典算法進行了比對。
本研究采用了一個開源的深度學習框架Caffe[12]來提取基于CNN的圖像特征。該模型是由一個場景為中心的,包含205個場景類別,250萬幅圖像的名為Places的數(shù)據(jù)集上訓練得到的。將這個預(yù)先訓練好的模型作為一個高效的全局圖像描述符發(fā)生器,提取出基于CNN的全局圖像描述符。重新構(gòu)建后的CNN結(jié)構(gòu)如圖1所示。
該卷積神經(jīng)網(wǎng)絡(luò)模型主要由3種類型的層組成,其中包括5層卷積層(CONV1-CONV5),3層最大池化層和2層全連接層(FC6、FC7)。從輸入圖片上隨機選取一個227×227的patch作為模型輸入樣本。第一個卷積層包括96個11×11的濾波器,卷積步長為4,激活函數(shù)的輸出為96個55×55的特征圖。CONV1、CONV2和CONV5之后分別連接著一個最大池化層,池化層的Kernel大小都是2,池化歩長為2。最大池化層對提取出來的圖像特征進行了降維并且賦予相應(yīng)的特征轉(zhuǎn)換不變性[13]。同時,這也是一個通過融合低層局部信息來建立抽象表達的過程。這種抽象化在一個近鄰窗口的局部進行。CONV3和CONV4之后沒有連接池化層,卷積結(jié)果經(jīng)過激活函數(shù)后直接作為下一個卷積層的輸入。最后一個卷積層包含256個13×13的濾波器,每個濾波器與所有的輸入MAP相連,卷積步長為1。接下來是兩個全連接層,位于全連接層前面層的所有神經(jīng)元與當前層的每一個神經(jīng)元都是連接的。
圖1 CNN模型
根據(jù)上述模型提取出CNN的各層特征后,接著對其進行標準化,公式為
(1)
本實驗采用澳大利亞昆士蘭科技大學機器人實驗室用于視覺位置識別的公開數(shù)據(jù)集,具體描述如表1所示。
表1 數(shù)據(jù)集描述
第一組實驗分別在數(shù)據(jù)集Nordland和St Lucia上將本文提出的基于CNN的算法和經(jīng)典BRIEF-GIST[14]、WI-SURF[15]、FAB-MAP、SeqSLAM做了對比。實驗結(jié)果如圖2和圖3所示。為了圖像的直觀清晰,圖中只畫出了本次實驗中在CNN的7層輸出中表現(xiàn)最好的一層,即CONV3作為代表層與其他算法的比對結(jié)果。后續(xù)實驗中基于卷積神經(jīng)網(wǎng)絡(luò)各層輸出特征的算法同樣只采用在對應(yīng)實驗中效果最好的一層與其他經(jīng)典算法對比。
圖2 不同算法在Nordland數(shù)據(jù)集上對比結(jié)果
圖3 不同算法在St Lucia 數(shù)據(jù)集上對比結(jié)果
如圖2所示,采用基于CONV3特征的算法在精度和召回率方面都明顯優(yōu)于BRIEF-GIST、WI-SURF和FAB-MAP這些經(jīng)典算法,而且,當精度高達98%時,CONV3的召回率接近57%,而SeqSLAM的召回率僅有30%。如圖3所示,CONV3-BASED算法取得了與SeqSLAM相匹敵的效果,并明顯優(yōu)于其他3種對比算法。
第二組實驗在兩個包含視角變化的數(shù)據(jù)集Gardens Point和Pittsburgh上將基于CNN的算法和經(jīng)典的對視角變化有較強魯棒性的FAB-MAP算法進行了比對。實驗結(jié)果如圖4和圖5所示。
圖4 Gardens Point 數(shù)據(jù)集上對比實驗結(jié)果
圖5 Pittsburgh數(shù)據(jù)集上對比實驗結(jié)果
如圖4所示,在Gardens Point數(shù)據(jù)集上,當精度為96%時,F(xiàn)AB-MAP算法的召回率僅有14.7%,而基于FC7的算法的召回率為33%,效果優(yōu)于FAB-MAP。如圖5所示,在Pittsburgh數(shù)據(jù)集上,當攝像機鏡頭發(fā)生橫向移動時,在橫向移動距離相同的條件下,F(xiàn)C7算法的平均精度比FAB-MAP算法高約30%。
本文在4個公開的數(shù)據(jù)集上進行基于視覺的位置識別測試,實驗結(jié)果表明,基于CONV3的算法對由于季節(jié)或光照變化引起的場景外觀改變具有較好的魯棒性,而在視角變化時,F(xiàn)C7的效果最好。這是隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的遞進,輸入圖像的表達會越抽象,就像傳統(tǒng)的全局圖像描述符對外觀變化的魯棒性較好,而局部圖像描述符對視角變化的魯棒性較好。今后,將繼續(xù)深入研究如何將CNN與精度更高的圖像相似性匹配算法相結(jié)合來進一步改善算法的性能。
[1] Sibley G, Mei C, Reid I,et al. Vast-scale outdoor navigation using adaptive relative bundle adjustment[J].Robot,2010,29(8):958-980.
[2] Konolige K, Agrawal M.Frame SLAM: from bundle adjustment to real-time visual mapping[J].IEEE Transactions on Robot,2008,24(5):1066-1077.
[3] Schindler G, Brown M, Szeliski R. City-scale location recognition[C].Roma: IEEE International Conference on Robotics and Automation,2007.
[4] Milford M, Wyeth G, Prasser D. RatSLAM: A hippocampal model for simultaneous localization and mapping[C].Australia: Conference on Robotics and Automation, 2004.
[5] Badino H,Huber D,Kanade T. Real-time topometric localization[C].Saint Paul: IEEE International Conference on Robotics and Automation (ICRA),2012.
[6] Milford M, Wyeth G.Persistent navigation and mapping using a biologically inspired SLAM system[J].The International Journal of Robotics Research,2010,29(5):1131-1153.
[7] Sünderhauf N,Neubert P,Protzel P. Are we there yet? challenging SeqSLAM on a 3000 km journey across all four seasons [C].Germany: IEEE International Conference on Robotics and Automation (ICRA),2013.
[8] Cummins M,Newman P.FAB-MAP: probabilistic localization and mapping in the space of appearance[J].The International Journal of Robotics Research,2008,27(6):647-665.
[9] Milford M,Wyeth G F.SeqSLAM:Visual route-based navigation for sunny summer days and stormy winter nights[C].Saint Paul:IEEE International Conference on Robotics and Automation (ICRA),2012.
[10] Wang Limin,Wang Zhe,Guo Sheng,et al. Better exploiting OS-CNNs for better event recognition in images[C].Santiago: IEEE International Conference on Computer Vision Workshop,2015.
[11] Tian Yonglong,Luo Ping,Wang Xiaogang,et al.Deep learning strong parts for pedestrian detection[C].Santiago:IEEE International Conference on Computer Vision,2015.
[12] Jia Y,Shelhamer E,Donahue J,et al.Caffe:an open source convolutional architecture for fast feature embedding [J]. Eprint Arxiv, 2014(3):675-678.
[13] 許可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D].杭州:浙江大學,2012.
[14] Sunderhauf N, Protzel P.BRIEF-gist-closing the loop by simple means[J].Robotics and Autonomous Systems,2011,69(2):1234-1241.
[15] Bay H,Ess A,Tuytelaars T,et al. Speeded-up robust features[J]. Computer Vision and Image Understanding,2008,110(3):346-359.
Visual Place Recognition Based on Convolutional Neural Networks
WANG Lijun,YU Lianzhi
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology, Shanghai 200093, China)
Most of the classic methods about visual place recognition for mobile robots are based on hand-crafted features and easily subject to the environment changes. In this paper, we proposed a Convolutional Neural Networks(CNN)based method, finetuned the CNN Architecture according to the Caffe frame and use descriptors obtained from the output of each CNN layer for place recognition in changing environments. The experimental results show the CNN based method perform well with good robustness and accurancy.
visual place recognition; convolutional neural networks; changing environments
2016- 03- 10
王麗君(1989-),女,碩士研究生。研究方向:機器視覺等。于蓮芝(1966-),女,副教授,碩士生導師。研究方向:模式識別等。
10.16180/j.cnki.issn1007-7820.2017.01.029
TP391.4
A
1007-7820(2017)01-104-04