楊力鵬,任工昌,劉 朋,胡小龍
(陜西科技大學(xué)機(jī)電工程學(xué)院,陜西 西安 710021)
移動(dòng)機(jī)器人的導(dǎo)航技術(shù)是通過傳感器感知環(huán)境和自身狀態(tài),實(shí)現(xiàn)在有障礙物的環(huán)境中向目標(biāo)點(diǎn)的自主運(yùn)動(dòng),主要解決定位、建圖和路徑規(guī)劃的問題[1-2]。
目前,導(dǎo)航技術(shù)正在向?qū)崿F(xiàn)智能任務(wù)規(guī)劃的自主導(dǎo)航方向發(fā)展,這就需要機(jī)器人具備人—機(jī)—環(huán)境溝通的能力,而語(yǔ)義信息在這個(gè)過程中起到關(guān)鍵的橋梁作用,語(yǔ)義信息讓機(jī)器人通過HRI(Human—Robot Interaction)模式獲取任務(wù),然后對(duì)任務(wù)進(jìn)行轉(zhuǎn)化并執(zhí)行,其中涉及到語(yǔ)義地圖構(gòu)建、語(yǔ)義定位、語(yǔ)義知識(shí)表示、語(yǔ)義推理等方面的研究。在自主完成任務(wù)的過程中,正是由于語(yǔ)義信息的應(yīng)用才讓機(jī)器人能以人類視角去理解周圍環(huán)境、自主識(shí)別、推理和完成指定任務(wù)。語(yǔ)義信息在移動(dòng)機(jī)器人的應(yīng)用研究中,PR2移動(dòng)機(jī)器人在醫(yī)院復(fù)雜環(huán)境中已實(shí)現(xiàn)醫(yī)院護(hù)理高級(jí)任務(wù)的語(yǔ)義信息應(yīng)用[3]。
語(yǔ)義信息在語(yǔ)義地圖方向的應(yīng)用中,文獻(xiàn)[4]將2014年之前相關(guān)語(yǔ)義地圖研究進(jìn)行了綜述,將語(yǔ)義地圖從可擴(kuò)展性、推理模型、時(shí)間一致性和線索這幾個(gè)角度進(jìn)行詳細(xì)分類總結(jié),但未對(duì)語(yǔ)義地圖研究的階段性發(fā)展和宏觀框架進(jìn)行概括和總結(jié)。
文獻(xiàn)[5]在2016 年對(duì)SLAM(Simultaneous Localization and Mapping)的綜述中,從宏觀框架角度出發(fā),分析總結(jié)語(yǔ)義地圖三種主要組織方法:SLAM 直接作用于語(yǔ)義;語(yǔ)義直接作用于SLAM 和SLAM 與語(yǔ)義相互關(guān)聯(lián)(即語(yǔ)義SLAM),其關(guān)聯(lián)關(guān)系,如圖1所示。
圖1 語(yǔ)義SLAM流程圖Fig.1 Semantic SLAM Flow Chart
語(yǔ)義信息在移動(dòng)機(jī)器人實(shí)現(xiàn)任務(wù)規(guī)劃過程中的應(yīng)用關(guān)系,如圖2所示。這里主要從語(yǔ)義信息在自主移動(dòng)機(jī)器人導(dǎo)航中的應(yīng)用這個(gè)角度出發(fā),對(duì)語(yǔ)義信息在語(yǔ)義地圖、語(yǔ)義定位和語(yǔ)義知識(shí)表示方面階段性發(fā)展進(jìn)行分析總結(jié),并展望語(yǔ)義信息在移動(dòng)機(jī)器人導(dǎo)航應(yīng)用中發(fā)展趨勢(shì)。
圖2 語(yǔ)義信息應(yīng)用關(guān)系圖Fig.2 Semantic Information Application Diagram
目前,語(yǔ)義地圖的研究仍然處于早期階段,缺乏一個(gè)系統(tǒng)的方法。語(yǔ)義地圖是實(shí)現(xiàn)移動(dòng)機(jī)器人導(dǎo)航從路徑規(guī)劃到任務(wù)規(guī)劃的基礎(chǔ),根據(jù)移動(dòng)機(jī)器人需要完成任務(wù)的等級(jí)程度,需要組織相應(yīng)復(fù)雜程度的語(yǔ)義地圖。大量語(yǔ)義地圖的組織方法是在度量地圖上添加語(yǔ)義信息,將語(yǔ)義信息與移動(dòng)機(jī)器人環(huán)境的幾何實(shí)體進(jìn)行關(guān)聯(lián),這里的語(yǔ)義信息是代表重要事物的意義[4-5]。語(yǔ)義地圖中語(yǔ)義信息獲取主要方式是通過機(jī)載視覺傳感器模擬人類眼睛的方式直接主動(dòng)形象地獲取環(huán)境語(yǔ)義信息。還有其他一些技術(shù)間接獲得環(huán)境語(yǔ)義信息,如語(yǔ)音識(shí)別、QR Code(Quick Response Code)、RFID(Radio Frequency Identification)等[6-7]。
移動(dòng)機(jī)器人語(yǔ)義地圖的構(gòu)建,無論是二維還是三維語(yǔ)義地圖,語(yǔ)義信息的提取經(jīng)歷了直接從傳感器數(shù)據(jù)提取低級(jí)特征到高級(jí)對(duì)象特征階段;直接從面向像素級(jí)對(duì)象識(shí)別到以對(duì)象為中心得到實(shí)例級(jí)語(yǔ)義分割的階段;語(yǔ)義地圖中語(yǔ)義分類等級(jí)從簡(jiǎn)單粗糙到復(fù)雜;從基于靜態(tài)、結(jié)構(gòu)化、有限空間的環(huán)境基本假設(shè)到真實(shí)未知?jiǎng)討B(tài)、非結(jié)構(gòu)化和大規(guī)模的環(huán)境方向發(fā)展。
在移動(dòng)機(jī)器人導(dǎo)航研究中,大部分二維語(yǔ)義地圖構(gòu)建,一般先用激光傳感器構(gòu)建用于導(dǎo)航的二維度量地圖,并通過視覺傳感器獲取地圖的語(yǔ)義信息,這種方法的優(yōu)點(diǎn)是計(jì)算成本低。
移動(dòng)機(jī)器人二維語(yǔ)義地圖中語(yǔ)義信息特征提取的自主大規(guī)模對(duì)象級(jí)發(fā)展。文獻(xiàn)[6]提出的早期移動(dòng)機(jī)器人導(dǎo)航中的二維語(yǔ)義地圖研究中,語(yǔ)義層由機(jī)器人通過與人類的語(yǔ)言互動(dòng)獲取地標(biāo)語(yǔ)義信息。文獻(xiàn)[7-8]提出一種多層次度量—拓?fù)洹Z(yǔ)義地圖構(gòu)建方法,不再需要與人類語(yǔ)言互動(dòng),直接使用自身視覺傳感器獲取已知房間低層次空間不同區(qū)域內(nèi)特定物體語(yǔ)義信息。由于基于低層傳感器數(shù)據(jù)直接識(shí)別的房間類別都是確定的,不能合并異構(gòu)的、不確定的信息,文獻(xiàn)[9]為移動(dòng)機(jī)器人的導(dǎo)航提出了一種概率框架的多層語(yǔ)義建圖算法,將環(huán)境中不確定異構(gòu)對(duì)象的存在信息、空間拓?fù)浣Y(jié)構(gòu)和語(yǔ)義屬性知識(shí)相結(jié)合,構(gòu)建大規(guī)模、更具描述性和更適合人類交互的語(yǔ)義地圖系統(tǒng)。
(一)結(jié)構(gòu)特點(diǎn)。在筆者所收集的網(wǎng)絡(luò)流行語(yǔ)中,偏正結(jié)構(gòu)居多,有20多個(gè),占所收集流行語(yǔ)的40.8%,其中又以定中結(jié)構(gòu)為主,是偏正結(jié)構(gòu)的85%,占總數(shù)的34.7%.主謂結(jié)構(gòu)、聯(lián)合結(jié)構(gòu)各占總數(shù)的6.1%,動(dòng)賓結(jié)構(gòu)、動(dòng)補(bǔ)結(jié)構(gòu)分別占10.2%和4%。(如下圖)
移動(dòng)機(jī)器人的三維語(yǔ)義地圖是在三維度量地圖基礎(chǔ)上構(gòu)建的,與二維語(yǔ)義地圖相比,優(yōu)點(diǎn)是保留了二維語(yǔ)義地圖丟失的大部分幾何信息。
移動(dòng)機(jī)器人三維語(yǔ)義地圖中語(yǔ)義信息特征提取的自主面向?qū)ο蠹?jí)發(fā)展。在早期三維語(yǔ)義地圖的研究中為了實(shí)現(xiàn)對(duì)環(huán)境模型的自動(dòng)獲取,文獻(xiàn)[10]提出一種從三維點(diǎn)云數(shù)據(jù)獲取室內(nèi)家庭環(huán)境的混合語(yǔ)義三維物體地圖方法,應(yīng)用多模式傳感器技術(shù),通過機(jī)器人機(jī)械手與環(huán)境的交互作用來解決點(diǎn)云模糊分割的結(jié)果,進(jìn)一步加強(qiáng)地圖采集的自主性。文獻(xiàn)[11]較早提出面向3D 對(duì)象的SLAM++,直接在“面向?qū)ο蟆奔?jí)別生成增量式的地圖,對(duì)已知場(chǎng)景中的對(duì)象和區(qū)域進(jìn)行語(yǔ)義化場(chǎng)景描述,完成語(yǔ)義標(biāo)記場(chǎng)景重建,但缺點(diǎn)是需要預(yù)先定義場(chǎng)景中預(yù)期的對(duì)象。文獻(xiàn)[12]提出一個(gè)獲得面向?qū)ο蟮恼Z(yǔ)義地圖系統(tǒng),以對(duì)象為中心得到實(shí)例級(jí)語(yǔ)義分割,不再需要已知的三維模型對(duì)象數(shù)據(jù)庫(kù),生成語(yǔ)義信息豐富的以單個(gè)對(duì)象實(shí)例為關(guān)鍵實(shí)體的環(huán)境語(yǔ)義地圖。
移動(dòng)機(jī)器人語(yǔ)義地圖中語(yǔ)義信息應(yīng)用在動(dòng)態(tài)環(huán)境下的發(fā)展。在構(gòu)建語(yǔ)義地圖時(shí),早期SLAM方法中的一個(gè)基本假設(shè)是環(huán)境是靜態(tài)的,然而現(xiàn)實(shí)環(huán)境卻是實(shí)時(shí)動(dòng)態(tài)變化的,如何處理動(dòng)態(tài)環(huán)境下語(yǔ)義SLAM問題,是當(dāng)前比較重要的一個(gè)研究方向。
文獻(xiàn)[13]提出一種針對(duì)長(zhǎng)期動(dòng)態(tài)環(huán)境場(chǎng)景的語(yǔ)義建圖框架SOMA,使用一個(gè)三層架構(gòu)來建模對(duì)象、區(qū)域和機(jī)器人的軌跡,用于構(gòu)建、維護(hù)和查詢語(yǔ)義對(duì)象地圖。文獻(xiàn)[14]提出一種實(shí)時(shí)語(yǔ)義SLAM(DS—SLAM)系統(tǒng),該系統(tǒng)的優(yōu)勢(shì)是減少動(dòng)態(tài)物體對(duì)姿態(tài)估計(jì)的影響,構(gòu)建了去除動(dòng)態(tài)物體的語(yǔ)義地圖。文獻(xiàn)[15]提出了一種利用深度學(xué)習(xí)的語(yǔ)義動(dòng)態(tài)SLAM框架,跟蹤消除動(dòng)態(tài)目標(biāo)。在動(dòng)態(tài)環(huán)境下,語(yǔ)義信息的應(yīng)用提高SLAM系統(tǒng)的魯棒性和準(zhǔn)確性。
移動(dòng)機(jī)器人語(yǔ)義定位是根據(jù)在給定的先驗(yàn)地圖中用傳感器獲取的物體語(yǔ)義信息來估計(jì)移動(dòng)機(jī)器人的位姿[16]。最早由文獻(xiàn)[17]提出用空間語(yǔ)義層次中的語(yǔ)義信息對(duì)機(jī)器人定位。移動(dòng)機(jī)器人一般用機(jī)載攝像機(jī),通過目標(biāo)檢測(cè)和語(yǔ)義分割兩種方式對(duì)環(huán)境中的物體進(jìn)行識(shí)別、定位和獲取語(yǔ)義信息。由于真實(shí)環(huán)境中的物體形狀各異,兩大類方法在識(shí)別的原理上,目標(biāo)檢測(cè)算法中的方形檢測(cè)框誤分類了大量的像素點(diǎn),而語(yǔ)義分割技術(shù)可以實(shí)現(xiàn)像素級(jí)別的物體分類。
移動(dòng)機(jī)器人語(yǔ)義地圖中語(yǔ)義定位的目標(biāo)檢測(cè)模型發(fā)展。在基于目標(biāo)檢測(cè)的語(yǔ)義定位研究中,文獻(xiàn)[8]提出度量—拓?fù)洹Z(yǔ)義層次地圖方法,在該語(yǔ)義地圖中語(yǔ)義定位使用黑盒檢測(cè)的目標(biāo)檢測(cè)方法來識(shí)別對(duì)象,通過對(duì)毛巾、爐子、電視等在不同區(qū)域具有特定的物體的識(shí)別,來簡(jiǎn)單粗糙地推理機(jī)器人在環(huán)境中的某個(gè)區(qū)域。但黑盒檢測(cè)方法回避了語(yǔ)義地圖構(gòu)建中語(yǔ)義信息特征識(shí)別部分,針對(duì)這個(gè)問題,文獻(xiàn)[18]提出一種使用對(duì)象作為基本語(yǔ)義概念來識(shí)別位置的方法,是基于特征目標(biāo)檢測(cè)方法的概率模型,屬于單峰“硬”性檢測(cè),存在獲得局部次優(yōu)解的缺點(diǎn)。針對(duì)這個(gè)問題,文獻(xiàn)[19]在圖像上為每個(gè)對(duì)象生成一個(gè)熱圖,表示特定比例的對(duì)象出現(xiàn)在特定位置的概率,實(shí)現(xiàn)“軟”檢測(cè)建模,提高定位過程的精度和收斂速度。
語(yǔ)義信息定位在SLAM問題中,除了上述用于構(gòu)建環(huán)境語(yǔ)義地圖外,還在回環(huán)檢測(cè)[20]和對(duì)動(dòng)態(tài)對(duì)象進(jìn)行語(yǔ)義級(jí)的目標(biāo)檢測(cè)跟蹤[15]中有所應(yīng)用。
移動(dòng)機(jī)器人語(yǔ)義地圖中語(yǔ)義分割定位在變化場(chǎng)景下的發(fā)展。在基于語(yǔ)義分割的語(yǔ)義定位研究中,一個(gè)主要的問題是針對(duì)由于光照、時(shí)間、天氣、季節(jié)以及視角的不同,會(huì)導(dǎo)致特征點(diǎn)的外觀發(fā)生較大變化的問題。為了確保識(shí)別近似不變特征,提出語(yǔ)義信息有助于減輕外觀變化的影響這一假設(shè)。文獻(xiàn)[21]提出一種基于單個(gè)查詢圖像像素語(yǔ)義標(biāo)注的六自由度相機(jī)姿態(tài)精確魯棒估計(jì)方法,在季節(jié)變化、具有挑戰(zhàn)性的光照條件或者當(dāng)?shù)貓D和定位發(fā)生在相隔很遠(yuǎn)的時(shí)間時(shí),以分米精度恢復(fù)姿態(tài)。文獻(xiàn)[22]提出一個(gè)多視圖語(yǔ)義全局定位系統(tǒng)X—View,利用語(yǔ)義地圖描述符匹配進(jìn)行全局定位,支持在完全不同的視圖點(diǎn)下進(jìn)行定位。
機(jī)器人學(xué)的知識(shí)表示是一種表示機(jī)器人行為和環(huán)境知識(shí)的方法,將這些概念的語(yǔ)義與自身內(nèi)部組件聯(lián)系起來,通過推理和推斷來解決機(jī)器人對(duì)環(huán)境的理解及推理[25]。具有語(yǔ)義知識(shí)表示的語(yǔ)義地圖的優(yōu)點(diǎn)是擁有了對(duì)語(yǔ)義地圖中的語(yǔ)義信息進(jìn)一步存儲(chǔ)、推理等的功能[26],為機(jī)器人完成復(fù)雜任務(wù)提供所需的知識(shí)及推理能力。
主要總結(jié)基于本體形式的移動(dòng)機(jī)器人環(huán)境語(yǔ)義地圖語(yǔ)義知識(shí)表示的發(fā)展階段,經(jīng)歷了采用手工編碼的本體組織確定的室內(nèi)環(huán)境知識(shí)表示階段,到通過概率本體組織環(huán)境中的不確定性知識(shí)表示階段,再到具有多機(jī)器人可共享可重用的OWL(Web Ontology Language)組織的組合知識(shí)表示階段。
基于本體的移動(dòng)機(jī)器人語(yǔ)義地圖中語(yǔ)義知識(shí)表示階段性發(fā)展。移動(dòng)機(jī)器人環(huán)境語(yǔ)義知識(shí)表示的研究主要為基于本體的知識(shí)表示研究,文獻(xiàn)[8]在早期的二維語(yǔ)義地圖中,以描述邏輯的形式表示語(yǔ)義知識(shí)。該方法用手工編碼室內(nèi)環(huán)境的本體,概念層次簡(jiǎn)單,空間描述粗糙,表示中不包括不確定性的環(huán)境屬性。針對(duì)無法將環(huán)境屬性的不確定性與語(yǔ)義信息內(nèi)在聯(lián)系起來的問題,文獻(xiàn)[9]提出了一種融合兩種原始不確定性知識(shí)表示,即語(yǔ)義信息的概率框架。文獻(xiàn)[26]構(gòu)建了適用于三維語(yǔ)義地圖的KNOWROB—MAP知識(shí)關(guān)聯(lián)語(yǔ)義對(duì)象地圖系統(tǒng),其中的語(yǔ)義知識(shí)表示為結(jié)合Web本體語(yǔ)言(OWL)中的知識(shí)表示。該系統(tǒng)的語(yǔ)義知識(shí)庫(kù)由百科全書式、常識(shí)性和關(guān)于其環(huán)境概率性的知識(shí)組合而成,相互協(xié)同為機(jī)器人提供完成高級(jí)復(fù)雜任務(wù)所需的語(yǔ)義知識(shí)。
除基于本體的環(huán)境知識(shí)表示外,還有其他知識(shí)表示形式的研究,如文獻(xiàn)[27]為語(yǔ)義地圖表示提供了一個(gè)基于空間數(shù)據(jù)庫(kù)SEMAP框架,能夠管理帶有幾何對(duì)象模型和相應(yīng)語(yǔ)義標(biāo)注的完整三維地圖及其相關(guān)空間關(guān)系。
在移動(dòng)機(jī)器人面向任務(wù)規(guī)劃的自主導(dǎo)航中,語(yǔ)義信息的應(yīng)用研究已經(jīng)取得了重要進(jìn)展,語(yǔ)義信息作為機(jī)器人理解周圍環(huán)境,完成人—機(jī)—環(huán)境交互,具備智能能力的媒介,將起到越來越重要的作用。語(yǔ)義信息的應(yīng)用研究可以在以下幾個(gè)方向進(jìn)一步發(fā)展。
由于語(yǔ)義地圖的構(gòu)建還沒有一個(gè)統(tǒng)一系統(tǒng)的方法,并且移動(dòng)機(jī)器人環(huán)境語(yǔ)義地圖應(yīng)用領(lǐng)域不斷擴(kuò)展,根據(jù)不同任務(wù)的需求,可以通過多種傳感器獲取環(huán)境的多源語(yǔ)義信息[27],語(yǔ)義信息的來源將從主要通過視覺提取環(huán)境的語(yǔ)義信息向多源語(yǔ)義信息提取發(fā)展。
環(huán)境地圖的語(yǔ)義知識(shí)表示主要以本體知識(shí)表示形式為主,生成對(duì)機(jī)器人周圍環(huán)境的完整描述、編碼和顯示屬性。由于移動(dòng)機(jī)器人環(huán)境地圖研究向復(fù)雜、不確定、動(dòng)態(tài)、非結(jié)構(gòu)化和大規(guī)模越來越接近實(shí)際情況的方向發(fā)展,語(yǔ)義地圖的形式將會(huì)越來越復(fù)雜,以怎樣一個(gè)知識(shí)表示形式來表示移動(dòng)機(jī)器人所在環(huán)境空間屬性會(huì)是一個(gè)重點(diǎn)研究方向[4]。
云技術(shù)應(yīng)用到室內(nèi)外大規(guī)模復(fù)雜環(huán)境語(yǔ)義地圖和語(yǔ)義知識(shí)庫(kù)中,進(jìn)一步完善基于云技術(shù)的對(duì)象識(shí)別、語(yǔ)義地圖構(gòu)建和語(yǔ)義知識(shí)庫(kù)構(gòu)建,讓多機(jī)器人云端共享、復(fù)用、更新擴(kuò)展數(shù)據(jù),促進(jìn)機(jī)器人和人類之間的交流,實(shí)現(xiàn)高級(jí)的智能語(yǔ)義任務(wù)。在云端存儲(chǔ)大量數(shù)據(jù)和進(jìn)行復(fù)雜計(jì)算,為空間受限不能搭載有效計(jì)算能力控制器或低端機(jī)器人平臺(tái)實(shí)現(xiàn)高級(jí)語(yǔ)義任務(wù)成為可能。
語(yǔ)義信息應(yīng)用研究在自主移動(dòng)機(jī)器人任務(wù)規(guī)劃的研究中是一個(gè)核心研究?jī)?nèi)容,這里主要從室內(nèi)自主移動(dòng)機(jī)器人實(shí)現(xiàn)任務(wù)規(guī)劃過程中語(yǔ)義信息的應(yīng)用這個(gè)角度出發(fā),對(duì)語(yǔ)義地圖、語(yǔ)義定位和語(yǔ)義知識(shí)表示進(jìn)行了分析和總結(jié),展望了語(yǔ)義信息在自主移動(dòng)機(jī)器人導(dǎo)航應(yīng)用中發(fā)展的方向,對(duì)語(yǔ)義信息在自主移動(dòng)機(jī)器人中的應(yīng)用研究和發(fā)展有一定的參考價(jià)值。