牛悅?李輝
摘 要 計(jì)算機(jī)視覺(jué)技術(shù)在產(chǎn)業(yè)升級(jí)中發(fā)揮了重要的作用,是建設(shè)下一代智慧圖書館的關(guān)鍵技術(shù),而位姿計(jì)算技術(shù)是計(jì)算機(jī)視覺(jué)技術(shù)重要的研究應(yīng)用方向。論文首次探索了基于視覺(jué)的位姿計(jì)算技術(shù)在圖書館中的應(yīng)用,探討了該技術(shù)對(duì)圖書館服務(wù)的重要意義,并且基于開(kāi)源框架成功實(shí)現(xiàn)了基于視覺(jué)的位姿計(jì)算技術(shù),將位姿計(jì)算系統(tǒng)實(shí)際部署在西北工業(yè)大學(xué)圖書館中。代表性場(chǎng)景的位姿計(jì)算結(jié)果表明,論文基于視覺(jué)的位姿計(jì)算技術(shù)方法,其位移精度在10厘米以內(nèi),角度精度在2度以內(nèi),定位平均耗時(shí)約為50毫秒,位姿精度和時(shí)間性能滿足圖書館場(chǎng)景下定位的需求。論文是將計(jì)算機(jī)視覺(jué)技術(shù)用于構(gòu)建智慧圖書館的一次有益嘗試,也為其他相關(guān)技術(shù)在圖書館的落地實(shí)踐提供了較好的借鑒作用。
關(guān)鍵詞 六自由度;視覺(jué)定位;位姿計(jì)算;圖書館;計(jì)算機(jī)視覺(jué)
分類號(hào) G250.7
DOI 10.16810/j.cnki.1672-514X.2022.03.008
Application of Vision-based Location and Pose Computation Method in Library
Niu Yue, Li Hui
Abstract Computer vision plays an important role and value in industrial upgrading, and are key technologies for constructing next-generation intelligent library. Vision-based 6dof location method is an important research and application direction of this filed. This work is the first time to explore applying vision-based location and pose calculation method in library scenario, and discuss the important value of the related applications. We implemented the vison-based location and pose calculation method based on some open source frameworks, and successfully deploy the location system in NWPU library. Representative scenarios show that transition and rotation accuracy of our vision-based location and pose calculation method are within 10 cm and 2 degree respectively, execution time of one calculation is about 50 ms, which can satisfy library requirements. This work is a valuable attempt of applying computer vision technology in intelligent library field, and has good reference function of practicing related technologies.
Keywords 6dof. Vision-based location. Location and pose calculation. Library. Computer vision.
0 引言
智慧圖書館已經(jīng)成為當(dāng)前圖書館應(yīng)用研究的熱點(diǎn)[1],其中將計(jì)算機(jī)視覺(jué)技術(shù)引入圖書館,促進(jìn)智慧圖書館的發(fā)展,具有重要的研究和應(yīng)用價(jià)值。
基于攝像頭采集的圖像數(shù)據(jù),計(jì)算機(jī)視覺(jué)技術(shù)能顯著提高智慧圖書館的自動(dòng)化和智能化,由此,基于計(jì)算機(jī)視覺(jué)的智慧圖書館的相關(guān)領(lǐng)域得到了廣泛應(yīng)用。(1)人機(jī)交互領(lǐng)域?;谟?jì)算機(jī)視覺(jué)技術(shù)在視頻處理技術(shù),使讀者和圖書館的交互從傳統(tǒng)的鼠標(biāo)和鍵盤擴(kuò)展到了語(yǔ)音、圖像、手勢(shì)等多個(gè)維度。上海圖書館的“圖小靈”應(yīng)用相關(guān)的技術(shù)24小時(shí)給師生提供更為精細(xì)的咨詢服務(wù)。(2)基于人臉的門禁和身份識(shí)別系統(tǒng)。人臉檢測(cè)識(shí)別技術(shù)被大規(guī)模應(yīng)用于圖書館門禁系統(tǒng)、借還書系統(tǒng)、簽到系統(tǒng)等后,系統(tǒng)的安全性和效率都得到了極大的提升。(3)基于計(jì)算機(jī)視覺(jué)的圖書識(shí)別輔助系統(tǒng)。應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)圖書館中的書籍進(jìn)行管理能極大地促進(jìn)智慧圖書館的建設(shè)。例如:使用文字識(shí)別對(duì)新圖書自動(dòng)錄庫(kù),應(yīng)用視覺(jué)技術(shù)對(duì)圖書資源進(jìn)行修補(bǔ),都能夠極大地提高相關(guān)工作的效率,降低人工干預(yù)的程度,達(dá)成智慧圖書館自動(dòng)化、智能化建設(shè)的目標(biāo)。
除了上述的應(yīng)用,計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要分支——位姿計(jì)算技術(shù),即采用計(jì)算機(jī)圖像處理的方法實(shí)時(shí)地獲取攝像頭設(shè)備的位置和姿態(tài),在圖書館的應(yīng)用中并未被充分發(fā)掘和探討。相對(duì)基于電磁波(例如GPS,Wifi和藍(lán)牙等)的三自由度(僅有三維坐標(biāo))定位技術(shù),視覺(jué)位姿計(jì)算技術(shù)有抗干擾、定位精度高、可以獲取六個(gè)自由度(三維坐標(biāo)+三個(gè)旋轉(zhuǎn)角度)的優(yōu)點(diǎn)。由于可以準(zhǔn)確地獲取限定設(shè)備位置和姿態(tài)的六維信息,基于視覺(jué)的位姿計(jì)算技術(shù)可以給圖書館帶來(lái)除了位置服務(wù)外更多的智能應(yīng)用,例如增強(qiáng)現(xiàn)實(shí)、機(jī)器人無(wú)人機(jī)導(dǎo)航等。為此本文將重點(diǎn)探討基于視覺(jué)的位姿計(jì)算技術(shù)在構(gòu)建智慧圖書館中的重要價(jià)值,并以位姿計(jì)算技術(shù)在西北工業(yè)大學(xué)圖書館的應(yīng)用作為實(shí)例進(jìn)行研究分析。
1 基于視覺(jué)的位姿計(jì)算技術(shù)在圖書館中的應(yīng)用
基于視覺(jué)的位姿計(jì)算技術(shù)的定義為:通過(guò)分析攝像頭獲取的圖像,計(jì)算得到攝像頭的三維位置(x、y、z)和相對(duì)于x、y、z三個(gè)坐標(biāo)軸的旋轉(zhuǎn)信息,這六個(gè)變量可以唯一確定攝像頭的位置和姿態(tài),所以也叫六自由度定位。由于基于電磁波信號(hào)的定位原理是通過(guò)信號(hào)強(qiáng)度計(jì)算距離,然后使用三角定位,所以主流的定位方法,例如藍(lán)牙、wifi、GPS等都只能獲取到三個(gè)自由度(x、y、z)的信息,而沒(méi)有另外三個(gè)自由度的姿態(tài)信息。沒(méi)有姿態(tài)的信息,就無(wú)法得到無(wú)人機(jī)、用戶手機(jī)等設(shè)備的朝向信息,從而導(dǎo)致很多的應(yīng)用無(wú)法使用。此外,基于信號(hào)強(qiáng)度的電磁波定位方法在室內(nèi)極易受遮擋物和多源反射的干擾,所以在室內(nèi)大多數(shù)情況下無(wú)法正常使用。而基于視覺(jué)的位姿計(jì)算技術(shù)剛好可以克服上述基于電磁波定位的兩個(gè)重要缺點(diǎn),所以在很多領(lǐng)域具有重要的應(yīng)用價(jià)值。
目前,基于視覺(jué)的位姿計(jì)算技術(shù)已經(jīng)成功地在機(jī)器人導(dǎo)航[2]、無(wú)人機(jī)室內(nèi)導(dǎo)航[3]和增強(qiáng)現(xiàn)實(shí)[4]領(lǐng)域得到了應(yīng)用,例如蘋果公司的ARKit、谷歌公司的ARCore等。而基于視覺(jué)的位姿計(jì)算技術(shù)在圖書館中也有很多具有重要價(jià)值的應(yīng)用。主要包括以下幾個(gè)方面。
(1)室內(nèi)導(dǎo)航。通過(guò)基于視覺(jué)的位姿計(jì)算給讀者提供圖書館路徑規(guī)劃。讀者輸入圖書館內(nèi)想去的目的地,然后只要掏出手機(jī)拍攝當(dāng)前場(chǎng)景的畫面,就可以在手機(jī)圖書館地圖上得到一條最優(yōu)的路徑,極大方便了讀者在圖書館尋找目的地和相關(guān)設(shè)施。
(2)為讀者推送信息服務(wù)。當(dāng)讀者到達(dá)圖書館的某個(gè)區(qū)域后,圖書館通過(guò)視覺(jué)算法獲取其準(zhǔn)確的位姿信息,可以給用戶推送其可能感興趣的信息和服務(wù)。例如閱覽室里最熱門的書籍,可快速給讀者規(guī)劃最優(yōu)到達(dá)路徑;或者最便利位置的自助借還機(jī),可推送到達(dá)路徑;也可以推送閱覽室位置以及該室的重點(diǎn)服務(wù)內(nèi)容等,讓讀者享受個(gè)性化的智能位置服務(wù),提高圖書館信息服務(wù)的利用率。
(3)機(jī)器人自主配送。通過(guò)機(jī)器人自身攜帶的攝像頭設(shè)備來(lái)獲取其自身在三維世界中準(zhǔn)確的位置和姿態(tài)信息,結(jié)合三維地圖完成自主導(dǎo)航、配送等服務(wù)。例如,機(jī)器人自主配送代替現(xiàn)在繁重的基于人工的圖書和資料配送服務(wù),將工作人員解放出來(lái);自主導(dǎo)航的清潔機(jī)器人還可以代替工作人員完成圖書館的清潔、消毒等工作,讓人力應(yīng)用在更加有意義的地方。另外,在2020年突發(fā)新冠肺炎疫情的背景下,機(jī)器人自主配送非常切合“非接觸式服務(wù)”的需求,讀者無(wú)需進(jìn)入閱覽室相關(guān)區(qū)域,只需將要還的書籍交由機(jī)器人,或者將要借圖書的指令信息發(fā)給機(jī)器人,機(jī)器人便可代替讀者完成全套自助借還書服務(wù);還包括取查新報(bào)告、檢索報(bào)告等,讀者甚至不用進(jìn)圖書館就可以獲取到所需的資源,徹底切斷接觸可能導(dǎo)致細(xì)菌感染的風(fēng)險(xiǎn)。
(4)增強(qiáng)現(xiàn)實(shí)。通過(guò)對(duì)攝像頭采集的場(chǎng)景圖像進(jìn)行處理,可計(jì)算用戶設(shè)備實(shí)時(shí)的位姿信息,然后在真實(shí)的三維場(chǎng)景中渲染虛擬的物體對(duì)象,一起顯示在用戶的設(shè)備上,從而獲得增強(qiáng)現(xiàn)實(shí)的能力。利用基于視覺(jué)定位的增強(qiáng)現(xiàn)實(shí)工具,可在圖書館真實(shí)場(chǎng)景中放置虛擬的信息公告欄,節(jié)約圖書館的成本,并響應(yīng)“無(wú)紙化”圖書館的號(hào)召。還可以在圖書館大廳中放置栩栩如生的動(dòng)態(tài)虛擬模型,讓讀者看到展示對(duì)象的所有動(dòng)態(tài)細(xì)節(jié),大大節(jié)省了空間。這種基于增強(qiáng)現(xiàn)實(shí)的教育展示方式易于模型的移動(dòng)、更新和管理,極大節(jié)省了教育成本,提高了圖書館普及知識(shí)的效率。
(5)圖書的虛擬介紹。當(dāng)讀者走進(jìn)閱覽室借閱圖書的時(shí)候,每靠近一列書架,都可通過(guò)手機(jī)終端看到書架旁展示的虛擬書籍信息介紹,讀者可以自行選擇感興趣的一類圖書,也可以具體應(yīng)用到某一本特定圖書。這些信息的獲取都非??旖?、準(zhǔn)確,讀者也同時(shí)擁有了很美妙的沉浸式用戶借閱體驗(yàn),從某種程度上來(lái)說(shuō)必然會(huì)增加讀者的進(jìn)館次數(shù)。
(6)活動(dòng)展示應(yīng)用。圖書館經(jīng)常會(huì)舉辦各種種類豐富的活動(dòng),一些需要事物展示的活動(dòng),譬如外文原版書籍展示、圖書館老物件展示、建黨和相關(guān)愛(ài)國(guó)主義文獻(xiàn)展示等教育活動(dòng)都可以取消實(shí)體展示,也不需要使用大屏幕,讀者只需用自己的手機(jī)終端即可實(shí)時(shí)觀看,不僅節(jié)省了大屏幕的購(gòu)置成本和組織實(shí)物及展示的人力成本。
(7)讀者尋求實(shí)時(shí)響應(yīng)幫助。當(dāng)讀者在圖書館內(nèi)發(fā)生意外時(shí),可以通過(guò)基于視覺(jué)的位姿計(jì)算準(zhǔn)確上報(bào)自己的位置并進(jìn)行報(bào)警,使得圖書館工作人員可以在第一時(shí)間前往并處理,從而給讀者提供更好的安全保障服務(wù)。
2 基于視覺(jué)的位姿計(jì)算技術(shù)在圖書館平臺(tái)的建模流程
基于視覺(jué)的位姿計(jì)算技術(shù)主要包括建圖和定位兩大部分。其中,建圖部分包括建立三維點(diǎn)云和場(chǎng)景索引兩個(gè)步驟,建圖生成的結(jié)果被存儲(chǔ)在數(shù)據(jù)庫(kù)中;定位部分包括場(chǎng)景檢索、特征點(diǎn)匹配和位姿計(jì)算三個(gè)步驟,最后,定位的結(jié)果會(huì)動(dòng)態(tài)地更新建圖生成的數(shù)據(jù)庫(kù),保證數(shù)據(jù)庫(kù)中的數(shù)據(jù)處在最新的狀態(tài)?;谝曈X(jué)的位姿計(jì)算技術(shù)整個(gè)流程如圖1所示:
2.1 建圖部分
這個(gè)部分對(duì)場(chǎng)景的圖像進(jìn)行處理,使用特征點(diǎn)描述子提取、圖像索引等視覺(jué)技術(shù),建立定位步驟需要使用的特征點(diǎn)和索引數(shù)據(jù)庫(kù)。建圖分為以下兩個(gè)具體的步驟。
步驟一:建立三維點(diǎn)云。給定覆蓋場(chǎng)景的圖像集合,我們將使用多視幾何[5]的方法來(lái)構(gòu)建場(chǎng)景的三維點(diǎn)云。首先,選取兩幅圖像進(jìn)行特征點(diǎn)和描述子的提取;然后計(jì)算兩幅圖像之間特征點(diǎn)的匹配關(guān)系;最后,根據(jù)匹配結(jié)果利用三角定位的原理計(jì)算出這些匹配的特征點(diǎn)的三維位置,形成三維點(diǎn)云。重復(fù)以上過(guò)程直到所有的圖像都被處理,即可得到場(chǎng)景的三維點(diǎn)云。三維點(diǎn)云中包括點(diǎn)的三維坐標(biāo)和點(diǎn)的描述子信息,這些信息在后面的位姿計(jì)算中將會(huì)被用到。
步驟二:建立場(chǎng)景索引。三維點(diǎn)云涵蓋了整個(gè)場(chǎng)景的信息,為了方便地定位到某個(gè)具體的場(chǎng)景,我們需要對(duì)場(chǎng)景進(jìn)行索引。即對(duì)某些領(lǐng)域的三維點(diǎn)云和描述子進(jìn)行索引,將其轉(zhuǎn)化成一個(gè)索引向量,例如:在圖書館的點(diǎn)云中,可以分別建立大廳、閱覽室、自習(xí)室等不同局部場(chǎng)景的索引,便于后續(xù)的快速定位查找。經(jīng)過(guò)上述兩個(gè)步驟的處理,我們就得到了一個(gè)描述場(chǎng)景的三維點(diǎn)云和索引數(shù)據(jù)庫(kù)。
2.2 定位部分
這個(gè)部分將利用建圖部分得到的索引數(shù)據(jù)快速定位到相關(guān)的局部場(chǎng)景,然后使用特征點(diǎn)匹配得到從三維點(diǎn)到二維點(diǎn)的對(duì)應(yīng)關(guān)系,最后使用三維、二維的對(duì)應(yīng)關(guān)系計(jì)算得到位姿信息。定位部分分為以下三個(gè)具體的步驟。
步驟一:場(chǎng)景檢索。給定一幅攝像頭拍攝的查詢圖像,我們首先計(jì)算該圖像的索引,然后使用該索引在數(shù)據(jù)庫(kù)中進(jìn)行查詢,從而定位到最相關(guān)的局部場(chǎng)景索引。
步驟二:特征點(diǎn)匹配。我們搜集步驟一得到的局部場(chǎng)景的所有相關(guān)三維點(diǎn)和描述子信息,然后提取查詢圖像的特征點(diǎn)和描述子信息,最后再對(duì)上面兩組描述子進(jìn)行特征點(diǎn)匹配,得到匹配的特征點(diǎn)集合。
步驟三:位姿計(jì)算。通過(guò)上面的步驟,我們得到了一個(gè)3D-2D點(diǎn)的集合,即n個(gè)三維空間點(diǎn)坐標(biāo)及其二維投影位置,它們符合下面的成像關(guān)系。
其中,(u、v)為成像平面的像素坐標(biāo),(X、Y、Z)為三維點(diǎn)的物理空間坐標(biāo),(fx、fy、cx、cy)為相機(jī)的焦距和中心坐標(biāo),稱為內(nèi)部參數(shù);剩余部分表示相機(jī)的旋轉(zhuǎn)和平移,稱為外部參數(shù),是我們要求解的部分。由于我們有很多的3D-2D點(diǎn),所以可以建立多個(gè)上述的方程,然后采用優(yōu)化的方法就可以計(jì)算出外部參數(shù),即相機(jī)的位姿。
在每一次定位的過(guò)程中,要根據(jù)一定的策略,增加新出現(xiàn)的三維點(diǎn),剔除一些多次定位沒(méi)有被匹配上的特征點(diǎn),來(lái)對(duì)三維點(diǎn)云進(jìn)行更新,保證其反映場(chǎng)景最新的特征。
3 基于圖書館服務(wù)平臺(tái)的嵌入視覺(jué)位姿結(jié)構(gòu)
圖書館服務(wù)平臺(tái)如圖2所示,分為數(shù)據(jù)收集層、數(shù)據(jù)處理層、應(yīng)用服務(wù)層、用戶交互層四個(gè)層次。視覺(jué)位姿計(jì)算程序部署在數(shù)據(jù)處理層,該層從數(shù)據(jù)收集層獲取圖書館內(nèi)各種帶攝像頭的設(shè)備捕獲的圖像視頻數(shù)據(jù)作為輸入,然后使用相關(guān)的位姿計(jì)算方法對(duì)這些數(shù)據(jù)進(jìn)行處理,實(shí)時(shí)獲得對(duì)應(yīng)設(shè)備的位置和姿態(tài)。這些位姿信息作為輸出,傳遞給應(yīng)用服務(wù)層中的相關(guān)應(yīng)用程序,結(jié)合圖書館的其他信息給智慧圖書館提供室內(nèi)導(dǎo)航、信息推送、機(jī)器人自主配送、增強(qiáng)現(xiàn)實(shí)、安全等服務(wù)。這些應(yīng)用服務(wù)可以通過(guò)用戶交互層被圖書館中的人員和機(jī)器訪問(wèn)。
4 基于視覺(jué)的位姿計(jì)算技術(shù)的具體實(shí)現(xiàn)
我們采用以下的具體方法來(lái)實(shí)現(xiàn)六自由度基于視覺(jué)的位姿計(jì)算方法。圖像特征點(diǎn)和描述子采用SIFT[6]方法。SIFT特征是最主流的圖像局部特征提取方法,具有尺度不變形和旋轉(zhuǎn)不變形的優(yōu)點(diǎn),且對(duì)于光線、噪聲、微視角改變的容忍度也相當(dāng)高,所以該特征高度顯著且容易提取,非常利于后續(xù)的圖像匹配步驟。SIFT特征點(diǎn)提取、描述子計(jì)算采用OpenCV的編程接口進(jìn)行實(shí)現(xiàn),其相關(guān)代碼如下所示,變量keypoint和descriptor為使用OpenCV的SIFT編程接口從圖像image中提出的特征點(diǎn)和描述子。
sift = cv2.xfeatures2d.SIFT_create( contrast
Threshold = 0.04, edgeThreshold=10)
keypoint, descriptor=sift.detectAndCompute
(image,None)
三維點(diǎn)云的產(chǎn)生采用了colmap[7-8]開(kāi)源框架,該開(kāi)源框架是基于structure-from-motion多視幾何方法對(duì)場(chǎng)景進(jìn)行重建的。利用該框架的編程接口,輸入場(chǎng)景的圖像集合,可以得到場(chǎng)景的三維點(diǎn)云圖。在重建的點(diǎn)云圖中場(chǎng)景的很多重要物體可被很好地還原出來(lái)。在還原的過(guò)程中,需要建立圖像所引。
圖像索引的建立采用VLAD[9]算法。該算法通過(guò)聚類方法得到若干聚類中心,隨后將所有特征與聚類中心的差值做累加,得到一個(gè)k行d列的矩陣,其中k是聚類中心個(gè)數(shù),d是特征維數(shù);最后將該矩陣擴(kuò)展為一個(gè)(k*d)維的向量,歸一化得到最終的索引向量。我們采用VLADLib(https://github.com/jorjasso/VLAD)開(kāi)源庫(kù)來(lái)實(shí)現(xiàn)VLAD索引向量的計(jì)算、存儲(chǔ)和檢索操作。圖像描述子匹配采用OpenCV暴力匹配方法。為了提高匹配的準(zhǔn)確性、避免相似點(diǎn)之間的誤匹配,還可采用ratio test方法,即每次找到兩個(gè)最匹配的點(diǎn),并且要求這兩組匹配之間的距離必須大于某個(gè)閾值。描述子匹配相關(guān)的代碼如下所示。
bf = cv2.BFMatcher()
matches = bf.knnMatch(des, des_q,k=2)
#ratio test
thre_ratio = 0.75
good_matches = []
for m,n in matches:
if m.distance < thre_ratio*n.distance:
good_matches.append([m])
matches為應(yīng)用OpenCV的BFMatcher方法得到的匹配集合,我們應(yīng)用0.75的閾值,排除相近的匹配點(diǎn)后得到最終的匹配集合good_matches。
從3D-2D映射集合中計(jì)算相機(jī)位姿采用Opencv的solvePNP方法[10]。由于3D-2D集合中可能會(huì)存在錯(cuò)誤的匹配點(diǎn),所以在計(jì)算位姿時(shí),我們采用隨機(jī)一致性采樣Ransac方法[11],其基本思想為:反復(fù)選擇數(shù)據(jù)中的一組被假設(shè)為正確匹配的隨機(jī)子集,直到最小的投影誤差。Ransac方法最多可以處理50%的錯(cuò)誤匹配點(diǎn)情況,其位姿計(jì)算的實(shí)現(xiàn)代碼如下所示。
fx,fy,cx,cy = camera.params
camera_matrix = np.array([[fx,0,cx],[0,fy,
cy],[0,0,1]])
result = cv2.solvePnPRansac(np.
array(xyz),np.array(xy),camera_matrix,0)
rvec = result[1]
tvec = result[2]
inlier_ratio =len(result[3])/len(xyz)
其中,camera_matrix為相機(jī)的內(nèi)部參數(shù)矩陣,xyz為三維點(diǎn)集合,xy為對(duì)應(yīng)的二維點(diǎn)集合。cv2.solvePnPRansac為OpenCV采用Ransac的solvePNP方法。得到的結(jié)果中:rvec為旋轉(zhuǎn)矩陣,tvec為三維位移坐標(biāo),inlier_ratio為正確的匹配點(diǎn)比例。
5 基于視覺(jué)的位姿計(jì)算技術(shù)在西北工業(yè)大學(xué)圖書館的實(shí)現(xiàn)
我們將上述六自由度的位姿計(jì)算系統(tǒng)部署在西北工業(yè)大學(xué)圖書館的服務(wù)器上,服務(wù)器配置為GTX1080ti的GPU、Ubuntu16.04的Linux系統(tǒng)。用戶通過(guò)手機(jī)或者終端攝像頭拍攝圖像上傳到服務(wù)器,服務(wù)器根據(jù)輸入圖像和基于場(chǎng)景的三維點(diǎn)云圖,利用上述位姿估計(jì)方法計(jì)算得到六自由度的位姿,再返回給終端進(jìn)行顯示和后續(xù)處理。
5.1 西北工業(yè)大學(xué)友誼校園大廳場(chǎng)景位姿計(jì)算實(shí)驗(yàn)
圖3為在西北工業(yè)大學(xué)友誼校區(qū)圖書館大廳場(chǎng)景下,基于視覺(jué)的位姿計(jì)算系統(tǒng)處理170幅圖像后得到的位姿示意圖。在圖3中,每一個(gè)四面體的位置都表示當(dāng)前相機(jī)拍攝此圖像時(shí)的三維位移位置x、y、z,四面體的朝向則表示相機(jī)拍攝此圖像時(shí)的三個(gè)姿態(tài)信息,從圖3中可以看出,基于視覺(jué)的位姿計(jì)算系統(tǒng)還原了一條連續(xù)移動(dòng)拍攝的位姿軌跡。
為了評(píng)估基于視覺(jué)的位姿計(jì)算技術(shù)的精度和時(shí)間性能,我們使用帶激光雷達(dá)的ipad pro在圖書館大廳場(chǎng)景中的各個(gè)角度和位置收集了1000幅分辨率為1080p的圖像。以激光雷達(dá)得到的圖像位姿信息(毫米級(jí)的精度)作為真值,以單目攝像頭收集的1000幅圖像送入基于視覺(jué)的位姿計(jì)算系統(tǒng)進(jìn)行處理后得到的位姿作為估計(jì)值,估計(jì)值和真值之間比較后的平均誤差如表1所示。
其中,x、y、z為相機(jī)在坐標(biāo)系中的三維位置,a、b、c為相機(jī)繞x、y、z三個(gè)坐標(biāo)軸的旋轉(zhuǎn)角度??梢钥闯觯趫D書館大廳這個(gè)代表性場(chǎng)景下,相機(jī)位移的平均誤差在10厘米以內(nèi),旋轉(zhuǎn)角度的平均誤差在2度內(nèi),基本上滿足了六自由度定位定姿精度上的需求。
我們進(jìn)一步評(píng)估了服務(wù)器對(duì)這1000幅1080p分辨率圖像進(jìn)行基于視覺(jué)的位姿計(jì)算的時(shí)間性能,其各個(gè)部分和綜合的平均耗時(shí)如表2所示。
從表2中可以看出,整個(gè)過(guò)程中最耗時(shí)的操作為特征提取,即使在使用GPU的情況下,也需要30毫秒的時(shí)間。在圖書館大廳這個(gè)代表性場(chǎng)景下,基于視覺(jué)的位姿計(jì)算總平均耗時(shí)為50.5毫秒,約為20fps,基本上滿足了實(shí)時(shí)性的需求。
5.2 在西北工業(yè)大學(xué)圖書館科普活動(dòng)中的應(yīng)用
上文已經(jīng)陳述了基于視覺(jué)的位姿計(jì)算技術(shù)在西北工業(yè)大學(xué)圖書館技術(shù)部署的實(shí)驗(yàn),并且論證了整個(gè)方案的技術(shù)可行性,本節(jié)將探討基于視覺(jué)的位姿計(jì)算技術(shù)在西北工業(yè)大學(xué)圖書館開(kāi)展科普活動(dòng)的具體應(yīng)用實(shí)例。
5.2.1 探月科普活動(dòng)
為了慶祝嫦娥五號(hào)登月成功,西北工業(yè)大學(xué)圖書館使用基于視覺(jué)的位姿計(jì)算技術(shù)中的增強(qiáng)現(xiàn)實(shí)技術(shù),將和探月相關(guān)的虛擬信息實(shí)時(shí)渲染在西北工業(yè)大學(xué)長(zhǎng)安校區(qū)圖書館大廳中,開(kāi)展探月科普活動(dòng)。工作人員提前將相關(guān)的虛擬物體布置在圖書館大廳中,和大廳的場(chǎng)景信息進(jìn)行綁定。當(dāng)讀者來(lái)到圖書館大廳打開(kāi)手機(jī)、平板等設(shè)備的攝像頭采集場(chǎng)景圖像時(shí),通過(guò)基于視覺(jué)的位姿計(jì)算技術(shù)即可獲取讀者設(shè)備的位置和姿態(tài),并根據(jù)位姿信息實(shí)時(shí)將提前布設(shè)好的虛擬物體信息渲染在讀者設(shè)備的屏幕上。在場(chǎng)景中分別展示了西北工業(yè)大學(xué)長(zhǎng)安校區(qū)圖書館大廳中的嫦娥火箭發(fā)射前、發(fā)射中的場(chǎng)景以及太陽(yáng)系等虛擬物體。這些虛擬物體栩栩如生,具備動(dòng)態(tài)的細(xì)節(jié)效果,讀者還可以通過(guò)設(shè)備和其進(jìn)行交互。這種使用基于視覺(jué)的位姿計(jì)算和增強(qiáng)現(xiàn)實(shí)技術(shù)的科普活動(dòng)給讀者帶來(lái)全新的沉浸式的體驗(yàn),受到了廣泛的好評(píng)。此外,利用基于視覺(jué)的位姿計(jì)算和增強(qiáng)現(xiàn)實(shí)技術(shù)進(jìn)行科普展示活動(dòng)時(shí)不需要實(shí)物模型,只需要使用手機(jī)等設(shè)備對(duì)虛擬物體進(jìn)行簡(jiǎn)單的布設(shè)、移動(dòng)和更新,極大地提高了布設(shè)的效率并節(jié)省了成本。圖4為探月科普活動(dòng)相關(guān)的部分場(chǎng)景圖片。
5.2.2 綠色地球科普活動(dòng)
探月科普活動(dòng)起到了很好的宣傳作用,于是西北工業(yè)大學(xué)圖書館后續(xù)又使用相同的基于視覺(jué)的位姿計(jì)算和增強(qiáng)現(xiàn)實(shí)技術(shù)開(kāi)展了“綠色地球”科普活動(dòng),將樹(shù)木布設(shè)在長(zhǎng)安校區(qū)圖書館大廳,呼吁同學(xué)們一起保護(hù)綠色地球,相關(guān)的場(chǎng)景展示圖片如圖5所示。
通過(guò)使用基于視覺(jué)的位姿計(jì)算和增強(qiáng)現(xiàn)實(shí)技術(shù),我們將幾乎無(wú)法通過(guò)實(shí)物模型來(lái)布設(shè)的樹(shù)木方便地布設(shè)到了圖書館大廳中,同時(shí)給學(xué)生真實(shí)而具有未來(lái)感的體驗(yàn),提高了圖書館普及知識(shí)的效率。
參考文獻(xiàn)
初景利,段美珍.智慧圖書館與智慧服務(wù)[J].圖書館建設(shè),2018(4):85-90,95.
盧燚鑫.移動(dòng)機(jī)器人視覺(jué)定位和路徑規(guī)劃若干問(wèn)題研究[D].成都:西南交通大學(xué),2019:56-63.
呂科,施澤南,李一鵬.微型無(wú)人機(jī)視覺(jué)定位與環(huán)境建模研究[J].電子科技大學(xué)學(xué)報(bào),2017,46(3):543-548.
陳靖,王涌天,郭俊偉,等.基于特征識(shí)別的增強(qiáng)現(xiàn)實(shí)跟蹤定位算法[J].中國(guó)科學(xué):信息科學(xué),2010, 40(11):1437-1449.
HARTLEY R,ZISSERMAN A.Multiple view geometry in computer vision[M].Cambridge university press,2003:36-51.
CHEUNG W,GHASSAN H.N-SIFT:n-dimensionalscale invariant feature transform[C].IEEE Transactionson Image Processing,2009,18(9):2012-2021.
SCH?NBERGER J L,JAN-MICHAEL F.Structure-from-motion revisited[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:4104-4113.
SCH?NBERGER J L, ENLIANG Z, JAN-MICHAEL F, et al. Pixelwise view selection for unstructured multi-view stereo[C]. European Conference on Computer Vision,2016: 501-518.
JéGOU H, MATTHIJS D,CORDELIA S,et al.Aggregating local descriptors into a compact image representation[C].IEEE computer society conference on computer vision and pattern recognition,2010: 3304-3311.
VINCENT L, FRANCESC? M,PASCAL F,et al.Anaccurate o(n) solution to the pnp problem[J].Internationaljournal of computer vision,2009,81(2):155-166.
DERPANIS K G.Overview of the RANSAC algorithm[M].Image Rochester NY,2010,4(1):2-3.