殷錫亮,秦丹陽,馬琳,譚學治
(1.哈爾濱工業(yè)大學電子與信息工程學院,黑龍江 哈爾濱 150080;2.哈爾濱職業(yè)技術(shù)學院電子與信息工程學院,黑龍江 哈爾濱 150081;3.黑龍江大學電子工程學院,黑龍江 哈爾濱 150080)
隨著個人智能電子產(chǎn)品的飛速發(fā)展,基于位置感知的服務(wù)和應(yīng)用激增。在室外場景中,使用GPS和數(shù)字地圖進行定位的技術(shù)已經(jīng)較為成熟,但在較多的場景,比如密集城區(qū)、植被覆蓋較多的區(qū)域、隧道、室內(nèi)場景中,GPS信號衰減較大,導(dǎo)致其定位偏差較大或者無法進行正常的定位[1]。在巨大的商業(yè)需求的驅(qū)動下,衍生了很多替代GPS的定位技術(shù),比如基于Wi-Fi的定位技術(shù)[2]、基于藍牙的定位技術(shù)[3]、基于UWB的定位技術(shù)[4]和基于視覺的定位技術(shù)[5]等。
鑒于視覺定位技術(shù)之外的其他定位技術(shù)需要額外的設(shè)備部署代價,無線信號易受人流密度的影響表現(xiàn)出時變性,以及所需樣本采集密度較大,因此基于視覺的定位技術(shù)成為了在室內(nèi)環(huán)境中或在其他不適合使用GPS的定位環(huán)境中,替代GPS的主流技術(shù)。
視覺定位系統(tǒng)主要分為離線數(shù)據(jù)采集處理階段和在線定位階段,其中離線階段通過相機、激光測距儀等設(shè)備對定位場景進行掃描,獲取定位場景的視覺信息和參考位置信息。在線階段定位時,首先提取定位圖像的視覺特征,通過粗略檢索算法確定定位參考位置,再通過局部特征匹配算法找到定位參考視覺特征,最后利用定位算法完成定位,如圖1所示,本文研究的內(nèi)容限定在圖中的紅線內(nèi)。
圖1 視覺定位系統(tǒng)流程圖
SURF(加速魯棒特征)局部特征描述子是由Herbert Bay和Tinne Tuytelaars等人在2006年在改進SIFT特征描述子的基礎(chǔ)上提出的。SURF局部特征描述子是一種基于Hessian矩陣的特征描述子。對于圖像I中給定的任一像點p(x, y),在p處尺度為σ的Hessian矩陣H(p, σ)可表示為式(1):
式(1)中,Lxx(p, σ)表示圖像I在像點p處的高斯二階導(dǎo)數(shù)的卷積,Lxy(p, σ)和Lyy(p, σ)與之類似。室內(nèi)場景中的圖像SURF特征如圖2所示。
圖2 室內(nèi)場景圖像的SURF特征
視覺定位系統(tǒng)中主要采用基于局部特征的定位算法進行定位,對極幾何是在兩個相機位置產(chǎn)生的兩幅圖像的之間存在的一種特殊幾何關(guān)系,其基本模型如圖3所示:
圖3 對極幾何模型
其中,C0和C1為兩個相機中心,P為空間中一點,P在C0和C1對應(yīng)像平面上的投影分別為x0和x1。C0、C1連線與像平面的交點e0、e1稱為極點(Epipoles),l0和l1稱為極線(Epipolar Lines),C0、C1、P三點組成的平面稱為極平面(Epipolar Plane)。通過找到n個匹配的局部特征點,根據(jù)對極幾何的映射關(guān)系,可以求解出需要定位的圖像位置與參考圖像位置的相對關(guān)系,從而完成視覺定位。
通過粗略檢索算法可以找到與定位圖像相似的數(shù)據(jù)庫圖像,在進行局部特征匹配時,首先計算定位圖像的局部特征與參考圖像的局部特征的歐幾里得距離。假設(shè)定位圖像可以提取n個局部特征,參考圖像有m個局部特征,分別計算定位圖像的第i個局部特征與參考圖像的m個局部特征的歐幾里得距離,并從小到大進行排序。當最小歐幾里得距離D1與第二小歐幾里得距離D2滿足式(2)時,可以認為定位圖像的第i個局部特征在參考圖像中找到了匹配特征[6]。
式(2)中的ψ代表門限,一般取值為0.8。
該方法受限于定位圖像提取局部特征數(shù)量n與參考圖像局部特征數(shù)量m以及參考圖像數(shù)量。
KD樹是一種分割k維數(shù)據(jù)空間的數(shù)據(jù)結(jié)構(gòu)。主要應(yīng)用于多維空間關(guān)鍵數(shù)據(jù)的搜索(如范圍搜索和最近鄰搜索)。通過將所有參考圖像的局部特征組成特征矩陣,將特征矩陣作為KD樹的訓(xùn)練數(shù)據(jù),在線定位時提取定位圖像的局部特征,輸入到KD樹中,查找最近鄰的局部特征,并將最近鄰局部特征作為匹配的輸出結(jié)果[7]。
該算法的性能與參考局部特征的數(shù)據(jù)分布、局部特征數(shù)量有關(guān)。
徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)是一種性能良好的前向網(wǎng)絡(luò),具有最佳逼近、訓(xùn)練簡潔、學習收斂速度快以及克服局部最小值問題的性能,目前已經(jīng)證明徑向基網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)的函數(shù)。因此它已經(jīng)被廣泛應(yīng)用于模式識別、非線性控制和圖像處理等領(lǐng)域。RBF是具有單隱層的三層前向網(wǎng)絡(luò)。第一層為輸入層,由信號源節(jié)點組成。第二層為隱藏層,隱藏層節(jié)點數(shù)視所描述問題的需要而定,隱藏層中神經(jīng)元的變換函數(shù)即徑向基函數(shù)是對中心點徑向?qū)ΨQ且衰減的非負線性函數(shù),該函數(shù)是局部響應(yīng)函數(shù),具體的局部響應(yīng)體現(xiàn)在其可見層到隱藏層的變換跟其它的網(wǎng)絡(luò)不同。以前的前向網(wǎng)絡(luò)變換函數(shù)都是全局響應(yīng)函數(shù)。第三層為輸出層,是對輸入模式做出的響應(yīng),其結(jié)構(gòu)如圖4所示。
圖4 徑向基神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
其核函數(shù)較為常見的有高斯函數(shù)、反常S型函數(shù)、逆畸變校正函數(shù)等。本文中使用高斯函數(shù)作為RBF的徑向基核函數(shù)。
根據(jù)徑向基神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),假設(shè)X是輸入的SURF特征向量,其維度是k維,一般SURF特征提取的維度是64維。SURF特征數(shù)量為m,顯見m>>k,輸入數(shù)據(jù)點xm是徑向基函數(shù)φm的中心,wm為隱藏層到輸出層的權(quán)重,y為SURF特征的編號。根據(jù)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以得到式(3):
經(jīng)過訓(xùn)練,當訓(xùn)練樣本經(jīng)過式(3)的計算,得出的結(jié)果滿足固定誤差條件時,比如ε<10-6,訓(xùn)練中止,可以得到徑向基神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)集合{w1, w2, …,wm}。在線階段輸入定位圖像的局部特征,可以擬合出與其最相似的參考局部特征的編號,以找到匹配的特征。
根據(jù)式(3),基于RBF的局部特征匹配算法存在的主要問題是當樣本數(shù)量m較大時,網(wǎng)絡(luò)中存在較多的神經(jīng)元,因此在訓(xùn)練時對內(nèi)存的消耗較大。對此問題的解決方法是對輸入樣本進行壓縮處理,即相鄰的樣本圖像中首先進行局部特征的匹配,如I1、I2、I3圖像中的fi、fj、fk特征互相匹配,對于該特征的描述符可以取f=mean{fi,fj,fk}。進一步地,如果定位場景較大,可以結(jié)合粗略匹配算法采取分段訓(xùn)練的方法。
本文選取了4個定位場景,分別是乒乓球室、教室、圖書館圖書角、展覽館走廊。乒乓球室圖集如圖5所示,教室圖集如圖6所示,圖書館圖書角圖集如圖7所示,展覽館走廊圖集如圖8所示。
圖5 乒乓球室圖集
圖6 教室圖集
圖7 圖書館圖書角圖集
圖8 展覽館走廊圖集
每個數(shù)據(jù)集平均每張參考圖像可提取2 850、4 932、12 267、5 902個SURF特征。在不同的數(shù)據(jù)集合下,分別使用歐幾里得匹配算法、KD-Tree匹配算法和本文所提出的RBF匹配算法,得到表1所示的測試結(jié)果:
表1 算法性能表
精度對比中以歐幾里得匹配算法為基準,基于KD-Tree和RBF的匹配算法得到的結(jié)果分別與基準匹配結(jié)果進行比較。由不同的特征集上匹配錯誤的個數(shù),可以看出基于RBF的局部特征匹配算法是有效的。
局部特征的匹配算法在一定程度上決定了視覺定位系統(tǒng)的精度和時延,因此一個有效的視覺定位系統(tǒng)需要選擇一個可以同時滿足精度和時延指標的局部特征匹配算法。本文提出的基于RBF的局部特征匹配算法分為離線訓(xùn)練階段和在線匹配階段。實驗數(shù)據(jù)表明盡管離線訓(xùn)練階段需要消耗較多的時間,但定位階段的時延和精度均可滿足實時性視覺定位系統(tǒng)的需要。算法在未來的改進方向是與定位算法相融合,進一步降低整個視覺定位的時延。