李佳芮
(西安高新唐南中學(xué),陜西西安,710065)
在日新月異的21世紀(jì),隨著科學(xué)工作者們探索的深入,我國(guó)科技水平不斷提高,計(jì)算機(jī)技術(shù)日益進(jìn)步。又因?yàn)槿藗儽憬萆畹男枨?,人工智能變成了一個(gè)新的科技熱點(diǎn)。它對(duì)于幫助行動(dòng)不便者和老年人、為我們提供更加舒適、智能的生活環(huán)境都有重要意義。人工智能而今漸漸深入到我們的生活中,不斷幫助我們工作、學(xué)習(xí)、娛樂。然而,雖然發(fā)展前景較為可觀,這項(xiàng)技術(shù)也是有很大提升空間的,在有些方面也可以做得更好。如今,深度學(xué)習(xí)為人工智能提供了一個(gè)很好的平臺(tái),在機(jī)器人導(dǎo)航的過程中,視覺SLAM中的地圖是編碼環(huán)境信息的重要載體之一[1]。但傳統(tǒng)的柵格地圖,拓?fù)涞貓D僅能滿足導(dǎo)航,定位,路徑規(guī)劃等基礎(chǔ)功能,環(huán)境語義信息對(duì)于機(jī)器人執(zhí)行更高級(jí)的人機(jī)交互任務(wù)是至關(guān)重要的。此外,目前大多數(shù)關(guān)于語義地圖的研究都是針對(duì)結(jié)構(gòu)化環(huán)境、場(chǎng)景簡(jiǎn)單的實(shí)驗(yàn)環(huán)境或是仿真環(huán)境,并不符合復(fù)雜的實(shí)際生活環(huán)境,機(jī)器人更加需要坐標(biāo)來在未知的環(huán)境中辨清方向。于此我們決定運(yùn)用視覺SLAM構(gòu)建實(shí)時(shí)的移動(dòng)機(jī)器人語義地圖,來輔助機(jī)器人精確導(dǎo)航,改進(jìn)機(jī)器人的工作。我們?cè)谘芯恐幸廊话l(fā)現(xiàn),不僅僅是人工智能領(lǐng)域,其它的用于導(dǎo)航的技術(shù)也需要用這種方式來提高工作效率。我們通過在互聯(lián)網(wǎng)上查找文獻(xiàn),以及實(shí)地探究,發(fā)現(xiàn)當(dāng)今對(duì)于實(shí)用的家庭服務(wù)機(jī)器人和其它用于導(dǎo)航的技術(shù),實(shí)時(shí)語義地圖的建立是尤為重要的。文中在未知環(huán)境探索建圖模塊研究的基礎(chǔ)上,針對(duì)復(fù)雜的實(shí)際室內(nèi)場(chǎng)景,尋找一種為圖像加入語義信息的方法,運(yùn)用全卷積網(wǎng)絡(luò)和坐標(biāo)變換、映射構(gòu)建實(shí)時(shí)語義地圖。此項(xiàng)工作能使人工智能以及我國(guó)日后的科技發(fā)展更迅速,我們的生活也因此便捷而精彩。
在實(shí)際應(yīng)用中我們經(jīng)常使用針孔相機(jī)模型[2]。在實(shí)際的三維空間中,構(gòu)建地圖首先要成像,通常使用雙目相機(jī)模型。圖像處理中有四大坐標(biāo)系,分別為:世界坐標(biāo)系、相機(jī)坐標(biāo)系、圖像坐標(biāo)系、像素坐標(biāo)系。在世界坐標(biāo)系任何物體都可以表示??梢赃x機(jī)器人的任何一個(gè)坐標(biāo)點(diǎn)。但為分析方便,我們通常選擇初始位置,單位米。相機(jī)坐標(biāo)系用來計(jì)算機(jī)器人在坐標(biāo)系下所處位置和行走(變換)方式。物體之間的坐標(biāo)變換,主要表現(xiàn)為旋轉(zhuǎn)和平移,從世界坐標(biāo)系到相機(jī)坐標(biāo)系的變換是剛體變換,即物體不發(fā)生形變,直接進(jìn)行旋轉(zhuǎn)和平移。但從相機(jī)坐標(biāo)系到圖像坐標(biāo)系需要用到相似三角形,就是透視投影,從3D投到2D。圖像坐標(biāo)系經(jīng)簡(jiǎn)單的伸縮變換,不需旋轉(zhuǎn),即可得到像素坐標(biāo)系。從相機(jī)坐標(biāo)系到圖像坐標(biāo)系如圖1所示。
圖1 相機(jī)坐標(biāo)系轉(zhuǎn)換到圖像坐標(biāo)系
從圖像坐標(biāo)系到像素坐標(biāo)系如圖2所示。
圖2 圖像坐標(biāo)系到像素坐標(biāo)系
我們可以在相機(jī)坐標(biāo)系中算出各點(diǎn)的坐標(biāo)及其變化關(guān)系,再將每個(gè)點(diǎn)投影到世界坐標(biāo)系(初始位置),讓每個(gè)點(diǎn)在坐標(biāo)系內(nèi)有效連接、融合,然后即可建立坐標(biāo)位置圖。在這之后,才可以對(duì)相機(jī)進(jìn)行標(biāo)定,在實(shí)際三維空間創(chuàng)建語義地圖。機(jī)器人能有一個(gè)清晰的導(dǎo)航路徑,從而達(dá)到理解陌生環(huán)境,高效快捷地為人類服務(wù)的目的。
對(duì)于導(dǎo)航者,尤其是生活中最常見到的家庭服務(wù)機(jī)器人,構(gòu)建地圖的過程是依靠SLAM完成的。其實(shí)我們?cè)谝粋€(gè)陌生的環(huán)境,中,也需要知道自己在哪里[3]。下一步要去哪里,怎么去。那么,我們就要依靠地圖為我們導(dǎo)航。機(jī)器人的工作也是一樣的,它需要建立地圖來描述環(huán)境、識(shí)別場(chǎng)景。這,就要用到SLAM技術(shù)來定位、建圖[4]。它基本的定位原理是通過概率統(tǒng)計(jì)和特征識(shí)別、匹配來達(dá)到定位和減小定位誤差的,建圖則是記錄下環(huán)境中位置的特征[5]。最終的目標(biāo)是在此同時(shí)構(gòu)建地圖,并在之前的特征點(diǎn)地圖、柵格地圖、拓?fù)涞貓D等普通三維點(diǎn)云地圖的基礎(chǔ)上做一點(diǎn)改動(dòng),因?yàn)?,機(jī)器人使用這些地圖只能知道自己的位置和圖像中各個(gè)點(diǎn)的位置,缺少實(shí)時(shí)語義信息,所以無法有效規(guī)劃路徑。所以,應(yīng)這一要求,建立地圖的技術(shù)邁上了新的臺(tái)階—對(duì)傳統(tǒng)三維地圖賦予語義信息,建立語義地圖。
語義其實(shí)是指圖像的標(biāo)注,就是識(shí)別特定的目標(biāo),在三維坐標(biāo)系中重新建立。之后基于SLAM,在實(shí)際的三維空間中,定位信息、識(shí)別標(biāo)簽、SLAM位置信息結(jié)合在一起,構(gòu)建出一個(gè)模型來,這就是初步的操作。建立實(shí)時(shí)語義地圖的基石性操作是圖像語義分割。它在服務(wù)型機(jī)器人導(dǎo)航、無人機(jī)著陸點(diǎn)的判斷等方面舉足輕重。在計(jì)算機(jī)視覺領(lǐng)域,不論是分割,還是檢測(cè),包括識(shí)別與跟蹤,都非常重要,缺一不可。圖像語義分割要求從像素的級(jí)別理解圖像,確定圖像中每個(gè)像素對(duì)應(yīng)實(shí)際中哪個(gè)物體。
語義分割的效果是機(jī)器能夠自動(dòng)分割出圖像內(nèi)容,比如在一個(gè)房間內(nèi),通過語義分割,機(jī)器人能辨清哪里是門,哪里是床,從而到人指定的目的地去,達(dá)到人的目的。基于深度學(xué)習(xí),運(yùn)用全卷積網(wǎng)絡(luò)分清楚每一個(gè)像素,讓圖像的特征更明了。對(duì)于人工智能來講,機(jī)器人要通過語義地圖的構(gòu)建來識(shí)別場(chǎng)景,辨別方向,圖像語義分割也是保證其展開正確行動(dòng)的基礎(chǔ)。在線構(gòu)建語義地圖,首先要清晰地理解整個(gè)場(chǎng)景,并且時(shí)間不能太長(zhǎng)。場(chǎng)景理解就是標(biāo)注圖像與環(huán)境中其他物體之間的關(guān)系。語義地圖為場(chǎng)景理解提供語義信息,可保證機(jī)器人導(dǎo)航、定位或自動(dòng)駕駛的有效性。構(gòu)建實(shí)時(shí)語義地圖的傳統(tǒng)方法有閾值分割、聚類分析、活動(dòng)輪廓方法等。構(gòu)建語義地圖如圖3所示。這些方法雖然在先前簡(jiǎn)單實(shí)用,但它們存在很大的局限性。這些方法通常不能快速計(jì)算,而且操作難度比較大。再者,建立實(shí)時(shí)語義地圖需要分清圖中的各個(gè)像素,這些方法也只是對(duì)圖片進(jìn)行分割,輸出的是數(shù)值而不是像素。所以,經(jīng)過數(shù)年研究,終于提出了卷積神經(jīng)網(wǎng)絡(luò),進(jìn)而發(fā)展到現(xiàn)今的全卷積網(wǎng)絡(luò)。
圖3 語義地圖工作流程
語義分割不比傳統(tǒng)的圖像分類,只是分清楚圖片,要求通過提取特征分清像素對(duì)應(yīng)的分類。在深度學(xué)習(xí)中,用的最多的方法是全卷積網(wǎng)絡(luò)。在此之前使用的傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)存在很大局限。其一,它計(jì)算重復(fù)量很大,相鄰像素塊重復(fù)較多,這就加大了運(yùn)算的重復(fù)量。其二,它需要更大的存儲(chǔ)空間。其三,因?yàn)橄袼貕K太小,我們不能全面、明顯地提取圖像特征。所以,現(xiàn)在的圖像分割廣泛地使用全卷積網(wǎng)絡(luò)。它主要使用卷積化和上采樣技術(shù)。卷積化就是把原先的全連接層換成卷積層,卷積雖然使用了之前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)訓(xùn)練好的權(quán)值和偏置,它們的計(jì)算過程不同。不一樣的是因?yàn)樗臋?quán)值和偏置有自己的范圍,所以它有一個(gè)自己的卷積核。它所有的層都叫做卷積層,故稱為全卷積網(wǎng)絡(luò)。在普通的池化中,圖片的尺寸會(huì)縮小。這時(shí),我們就需要進(jìn)行上采樣。上采樣也叫反卷積,它和卷積運(yùn)算方式相同,只是把多對(duì)一改成了一對(duì)多而已,也就是只把卷積的傳播方向改變了。
計(jì)算時(shí)應(yīng)該對(duì)逐個(gè)像素計(jì)算,相當(dāng)于每一個(gè)像素把全連接層轉(zhuǎn)化為卷積層。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)只有5層是卷積層,后三層是尺寸不一的一維向量,而全卷積層將這三層也表示為卷積層,故稱為全卷積網(wǎng)絡(luò)。經(jīng)過多次卷積后,圖像變小了,分辨的也就沒那么清晰了。為了恢復(fù)到原圖的分辨率,全卷積網(wǎng)絡(luò)就要使用上采樣。將最后一層的輸出圖像上采樣,才能和原圖大小相等。上采樣和反卷積原理是相同的。卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別是圖片級(jí)的識(shí)別,而全卷積網(wǎng)絡(luò)的識(shí)別是像素級(jí)的識(shí)別。全卷積網(wǎng)絡(luò)在像素水平對(duì)圖像進(jìn)行分類,從而處理了語義級(jí)別的圖像分割問題。與經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)不同,任意的圖像都可以被全卷積網(wǎng)絡(luò)接受, 對(duì)最后一個(gè)卷積層進(jìn)行反卷積,它就可以和原圖像尺寸相同。但原圖的空間信息仍然保留著,最后對(duì)逐個(gè)像素分類。分類之后的效果,就是圖中各個(gè)像素能明確區(qū)分開來,就可以提供有效語義信息。
能被廣泛應(yīng)用的全卷積網(wǎng)絡(luò)一定有自己的優(yōu)點(diǎn)。它的優(yōu)點(diǎn)在于:①全卷積網(wǎng)絡(luò)可以接受任意的輸入圖像,不需要所有的測(cè)試圖像、參考圖像尺寸都相同。②它節(jié)省了很大一部分存儲(chǔ)空間,也避免了多次重復(fù)的繁瑣計(jì)算,提高了計(jì)算機(jī)的工作效率。
總而言之,全卷積網(wǎng)絡(luò)在圖像語義分割中所起的作用很大。它是目前應(yīng)用較廣泛的一種技術(shù)。在未來,在研究者們的苦苦探索之下,一定能有一種科學(xué)技術(shù)又能戰(zhàn)勝全卷積網(wǎng)絡(luò)的局限性,用更縝密的思路為圖像語義分割開辟一條全新的捷徑,不能忽略圖像中的空間信息,加強(qiáng)像素之間的聯(lián)系,更細(xì)化考慮問題。其結(jié)構(gòu)如圖4所示。
圖4 全卷積網(wǎng)絡(luò)結(jié)構(gòu)
在機(jī)器人技術(shù)領(lǐng)域,語義地圖包含了環(huán)境的空間信息和已知類別景物的空間分布特征。語義地圖的構(gòu)建是把傳感器檢測(cè)到的信息轉(zhuǎn)化為抽象語義的過程。其構(gòu)建方法主要有如下三種:
首先應(yīng)對(duì)坐標(biāo)數(shù)據(jù)和變換進(jìn)行理解,得到場(chǎng)景中各個(gè)物體的標(biāo)簽,再結(jié)合得到的標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行語義再分類,并去除無效的數(shù)據(jù),這些都是前期應(yīng)該做的處理。之后,根據(jù)場(chǎng)景理解結(jié)果,生成場(chǎng)景的語義描述,賦予環(huán)境中各個(gè)物體圖像中物體的各項(xiàng)屬性,包括機(jī)器人需要認(rèn)識(shí)的每一個(gè)對(duì)象。最后,根據(jù)場(chǎng)景的語義描述,按照一定規(guī)則生成地圖,隨著新的環(huán)境不斷被感知,地圖結(jié)構(gòu)也不斷調(diào)整,然后不斷對(duì)開始生成的地圖更新、維護(hù),在大規(guī)模場(chǎng)景中,語義地圖就生成了。這種方式可被用于家庭機(jī)器人導(dǎo)航等方面,對(duì)現(xiàn)時(shí)流行的無人機(jī)技術(shù)、自動(dòng)導(dǎo)航車等方面也大有益處。
本文主要概述語義地圖建立的概念、原理、方法與作用。在技術(shù)方面,對(duì)圖像語義分割主要用到的技術(shù)--全卷積網(wǎng)絡(luò)進(jìn)行了概論與評(píng)述,提出了其優(yōu)缺點(diǎn),還介紹了雙目相機(jī)模型和四大坐標(biāo)系,因?yàn)闄C(jī)器人導(dǎo)航時(shí)需通過坐標(biāo)確定自己的位置,走正確的路線。再者,語義分割中有一個(gè)在坐標(biāo)系中映射的過程,從用來計(jì)算的相機(jī)坐標(biāo)系映射到初始的世界坐標(biāo)系,融合后可構(gòu)建語義地圖。之后因人工智能終要應(yīng)用到實(shí)際中去,又講述了在實(shí)況下和場(chǎng)景理解的基礎(chǔ)上,語義地圖如何構(gòu)建。人工智能的運(yùn)作過程中,在陌生環(huán)境下規(guī)劃清晰的路徑是很重要的。在復(fù)雜的三維空間,一系列的人機(jī)交互任務(wù),都要依靠坐標(biāo)位置和路徑完成。語義地圖的建立,打破了視覺SLAM中傳統(tǒng)柵格地圖、拓?fù)涞貓D等的局限性,能在相機(jī)坐標(biāo)系中完成計(jì)算,變換,再映射到初始的世界坐標(biāo)系中,將圖像進(jìn)行語義分割,提供有效的語義信息,從而讓人工智能在實(shí)際情況下有確定的行進(jìn)路線,能高效完成復(fù)雜的人機(jī)交互任務(wù)。能更好地為人類服務(wù),幫助需要幫助的人,讓他們的生活多一個(gè)依靠。
深度學(xué)習(xí)中圖像語義分割技術(shù)一定對(duì)人工智能以及其他導(dǎo)航技術(shù)的研究有益處,從slam中只有簡(jiǎn)單功能的點(diǎn)云地圖到能提供語義信息也是跨越了一大步。但這項(xiàng)技術(shù)經(jīng)過分析并不是十分完美。其中用到的各項(xiàng)技術(shù)各有利弊,在未來的研究中應(yīng)加以調(diào)整。我們?cè)谘芯恐袥]有進(jìn)行實(shí)際實(shí)驗(yàn),僅是對(duì)方案進(jìn)行了設(shè)計(jì),在日后我們會(huì)通過試驗(yàn)的方法來研究,讓自己的方案更加精確可靠。隨著研究步步深入,未來會(huì)發(fā)掘出更多種類的導(dǎo)航技術(shù),圖像語義分割的應(yīng)用范圍將愈加廣泛??萍嫉陌l(fā)展會(huì)為提高我國(guó)綜合國(guó)力做出巨大貢獻(xiàn),我們的未來會(huì)更加精彩。