□文/Pararth Shah、Marek Fiser、Aleksandra Faust、J. Chase Kew、Dilek Hakkani-Tur
在未知的環(huán)境中,人們經(jīng)常通過(guò)觀察周圍的環(huán)境,并遵循指令進(jìn)行導(dǎo)航。而這些指令主要由地標(biāo)和方向指示性指令以及其他常用詞語(yǔ)組成。最近,Google將類似于人類的指令遵循應(yīng)用到機(jī)器人在二維工作空間中的導(dǎo)航任務(wù)中,為智能體提供指令,并對(duì)其進(jìn)行訓(xùn)練以遵循指令。為了進(jìn)行有效導(dǎo)航,Google提出了FollowNet。它是一個(gè)用于學(xué)習(xí)多模態(tài)導(dǎo)航策略的端到端的可微神經(jīng)架構(gòu),可提高智能體在環(huán)境中的導(dǎo)航能力。
理解和遵循由人類提供的指令可以使機(jī)器人在未知的情況下進(jìn)行有效的導(dǎo)航。我們提供了FollowNet,它是一個(gè)用于學(xué)習(xí)多模態(tài)導(dǎo)航策略的端到端可微的神經(jīng)架構(gòu)。FollowNet將自然語(yǔ)言指令以及視覺(jué)的深度輸入映射到運(yùn)動(dòng) 原 語(yǔ)(locomotion primitive)。FollowNet在執(zhí)行導(dǎo)航任務(wù)時(shí)使用注意力機(jī)制來(lái)處理指令,該機(jī)制以其視覺(jué)的深度輸入為條件,以集中于命令的相關(guān)部分。深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的稀疏獎(jiǎng)勵(lì)要同時(shí)學(xué)習(xí)狀態(tài)表征、注意力函數(shù)和控制策略。我們?cè)谝粋€(gè)復(fù)雜的自然語(yǔ)言指令的數(shù)據(jù)集上評(píng)估我們的智能體,以通過(guò)一個(gè)豐富、真實(shí)的模擬家庭數(shù)據(jù)集來(lái)指導(dǎo)智能體。我們發(fā)現(xiàn),F(xiàn)ollowNet智能體學(xué)習(xí)執(zhí)行以前不可見(jiàn)的用類似詞匯描述的指令,并成功地沿著在訓(xùn)練期間未遇到的路徑進(jìn)行導(dǎo)航。在沒(méi)有注意力機(jī)制的情況下,智能體與基線模型相比,顯示出30%的改進(jìn),在新指令下的成功率為52%。
人們經(jīng)常通過(guò)觀察周圍的環(huán)境并遵循指令在未知的環(huán)境中導(dǎo)航。這些指令主要由地標(biāo)和方向性指令以及其他常用詞語(yǔ)組成。例如,人們可以在一個(gè)他們以前沒(méi)有去過(guò)的家中找到廚房,通過(guò)遵循以下的指令:“在餐桌處右轉(zhuǎn),然后再左轉(zhuǎn)(Turn right at the dining table, then take the second left)”。這個(gè)過(guò)程需要視覺(jué)上的觀察,例如,在視野范圍內(nèi)的餐桌或關(guān)于典型門廳的位置,并執(zhí)行在這個(gè)方向上的動(dòng)作:向左轉(zhuǎn)。這里的復(fù)雜性有多個(gè)維度:有限的視野,像“second”這樣的修飾詞,像“take”和“turn”這樣的同義詞,理解“take the second left”指的是門,等等。
圖1:用于從自然語(yǔ)言指令學(xué)習(xí)導(dǎo)航的房屋的三維渲染。
圖2:將視覺(jué)和語(yǔ)言輸入映射到導(dǎo)航動(dòng)作的神經(jīng)模型。左圖:一個(gè)示例任務(wù),其中機(jī)器人從藍(lán)色三角形指定的位置和方向開(kāi)始,并且必須到達(dá)由紅色圓圈指定的目標(biāo)位置。機(jī)器人會(huì)收到一條自然語(yǔ)言指令,以便沿著圖像下方列出的標(biāo)有紅色的路徑行進(jìn)。右圖:FollowNet架構(gòu)。
在本文中,我們將類似于人類的指令遵循應(yīng)用到機(jī)器人在二維工作空間中的導(dǎo)航(圖1)。我們給機(jī)器人提供了與上述機(jī)器人類似的示例指令,并訓(xùn)練了一個(gè)深度強(qiáng)化學(xué)習(xí)(DRL)智能體以遵循指令。當(dāng)從不同的位置出發(fā)時(shí),該智能體會(huì)被測(cè)試遵循新指令的程度。我們通過(guò)一個(gè)新的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)FollowNet(圖2)完成了這項(xiàng)工作,該架構(gòu)是使用Deep Q-Network (DQN)來(lái)進(jìn)行訓(xùn)練的。觀察空間由自然語(yǔ)言指令和從機(jī)器人的有利位置(vantage point)得到的視覺(jué)深度觀察組成。策略的輸出是下一個(gè)要執(zhí)行的運(yùn)動(dòng)原語(yǔ)(motion primitive)。機(jī)器人沿著無(wú)障礙的網(wǎng)格(obstacle-free grid)移動(dòng),但是指令要求機(jī)器人移動(dòng)超過(guò)可變數(shù)量的節(jié)點(diǎn)以到達(dá)目的地。我們使用的指令(表I)包含隱式編碼的房間(implicitly encoded room)、地標(biāo)和運(yùn)動(dòng)原語(yǔ)。在上面的例子中,“廚房”是目標(biāo)位置的房間?!安妥馈笔且粋€(gè)地標(biāo)示例,在這個(gè)點(diǎn)上,智能體可能會(huì)改變方向。在不知道智能體位置的情況下,房間和地標(biāo)都被映射到成群的網(wǎng)格點(diǎn)。我們使用的是稀疏獎(jiǎng)勵(lì),只有當(dāng)智能體到達(dá)一個(gè)路標(biāo)的時(shí)候才會(huì)給它一個(gè)獎(jiǎng)勵(lì)。
表1:在訓(xùn)練過(guò)程中所使用的指令樣本
圖3:環(huán)境中的地標(biāo)和網(wǎng)格。
可以這樣說(shuō),F(xiàn)ollowNet架構(gòu)的新穎之處在于一種語(yǔ)言指令注意機(jī)制(language instruction attention mechanism),它是以智能體的感官觀察為基礎(chǔ)條件的。這使得智能體能夠做兩件事。首先,它追蹤指令命令,并在探索環(huán)境時(shí)關(guān)注不同的部分。其次,它將運(yùn)動(dòng)原語(yǔ)(motion primitives)、感官觀察和指令的各個(gè)部分與收到的獎(jiǎng)勵(lì)相關(guān)聯(lián),從而使智能體能夠泛化到新的指令中。
我們?cè)u(píng)估智能體在新指令和新運(yùn)動(dòng)計(jì)劃中的泛化程度。首先,我們?cè)u(píng)估一下,在智能體所熟悉的房屋中,它對(duì)先前不可見(jiàn)的兩步指示的遵循執(zhí)行程度。結(jié)果表明,該智能體能夠完全遵循52%的指令,局部性遵循61%的指令,比基線增加30%。其次,相同的指令對(duì)一組不同的起始位置來(lái)說(shuō)是有效的。例如,“離開(kāi)房間”這一指令對(duì)于房間內(nèi)的任何起始位置來(lái)說(shuō)都是有效的,但機(jī)器人為完成任務(wù)而需要執(zhí)行的運(yùn)動(dòng)計(jì)劃可能會(huì)非常不同。為了了解運(yùn)動(dòng)計(jì)劃泛化到新的起始位置的程度,我們?cè)u(píng)估智能體對(duì)一個(gè)它已經(jīng)在其經(jīng)過(guò)訓(xùn)練的指令(最多五步的方向)的遵循執(zhí)行情況,但是現(xiàn)在是從新的起始位置開(kāi)始的。智能體能夠局部性地完成70%的指令,完全性地完成54%的指令。從這個(gè)角度來(lái)看,多步驟的指令對(duì)于人們來(lái)說(shuō)也是具有一定的挑戰(zhàn)性的。
端到端的導(dǎo)航方法(End-to-end navigation methods)使用深度強(qiáng)化學(xué)習(xí)機(jī)器人的感官觀察和相對(duì)目標(biāo)位置。在這項(xiàng)研究中,我們提供的是自然語(yǔ)言指令而不是明確的目標(biāo),因此智能體必須學(xué)會(huì)對(duì)指令加以解釋從而完成目標(biāo)。將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人的一個(gè)挑戰(zhàn)是狀態(tài)空間表征。大的狀態(tài)空間減慢了學(xué)習(xí)速度,因此經(jīng)常使用不同的近似技術(shù)。這些例子包括概率路線圖(PRM)和簡(jiǎn)單的空間離散化。在這里,我們對(duì)二維工作空間進(jìn)行離散化,并允許智能體通過(guò)網(wǎng)格從節(jié)點(diǎn)移動(dòng)到節(jié)點(diǎn)。本質(zhì)上,我們假設(shè)機(jī)器人可以通過(guò)執(zhí)行與動(dòng)作相對(duì)應(yīng)的運(yùn)動(dòng)原語(yǔ)來(lái)避開(kāi)障礙物并在兩個(gè)網(wǎng)格點(diǎn)之間安全地進(jìn)行移動(dòng)。
圖4:FollowNet智能體的語(yǔ)義分割圖觀察。顏色對(duì)應(yīng)于物體類型(智能體不知道),并且在房屋和有利位置之間保持一致。沙發(fā)為綠色(a和c),餐桌為黃色(b和c)。
深度學(xué)習(xí)在學(xué)習(xí)自然語(yǔ)言和視覺(jué),甚至在結(jié)合視覺(jué)和語(yǔ)言學(xué)習(xí)方面取得了巨大成功。要想應(yīng)用于機(jī)器人運(yùn)動(dòng)規(guī)劃和導(dǎo)航,語(yǔ)言學(xué)習(xí)通常需要一定程度的解析,其中包括正式的表述、語(yǔ)義分析、概率圖模型、編碼和對(duì)齊或基礎(chǔ)任務(wù)語(yǔ)言。然而,通過(guò)自然語(yǔ)言學(xué)習(xí)目標(biāo)標(biāo)記,主要是通過(guò)學(xué)習(xí)將自然語(yǔ)言指令解析為一種層次結(jié)構(gòu),用于機(jī)器人動(dòng)作規(guī)劃和執(zhí)行以及主動(dòng)學(xué)習(xí)過(guò)程。這里,與P. Anderson等人于2017年發(fā)表的一篇論文相類似,我們的目標(biāo)是隱式學(xué)習(xí)地標(biāo)(目標(biāo))和運(yùn)動(dòng)原語(yǔ)的標(biāo)簽,以及它們對(duì)視覺(jué)觀察的解釋。與之不同的是,我們?cè)贔ollowNet上使用DQN來(lái)學(xué)習(xí)導(dǎo)航策略。其他研究使用課程(curriculum)來(lái)完成一個(gè)環(huán)境中的多項(xiàng)任務(wù)。
另一項(xiàng)結(jié)合3D導(dǎo)航、視覺(jué)和自然語(yǔ)言的研究工作是學(xué)習(xí)回答問(wèn)題。這些問(wèn)題源于一組指定的問(wèn)題,其中,某些關(guān)鍵詞被替換。在我們的研究工作中,提供給智能體的語(yǔ)言指令是由四名人員獨(dú)立創(chuàng)建的,并且在未經(jīng)任何處理的情況下就提交至智能體。有幾種方法從未過(guò)濾的語(yǔ)言和視覺(jué)輸入中學(xué)習(xí)。在這些方法中,視覺(jué)輸入是整個(gè)規(guī)劃環(huán)境的圖像。相反,F(xiàn)ollowNet僅接收部分環(huán)境觀測(cè)。
本文介紹了FollowNet體系結(jié)構(gòu),該體系結(jié)構(gòu)使用注意力機(jī)制來(lái)處理基于多模式感官觀察的自然語(yǔ)言指令,以作為DQN中的動(dòng)作值函數(shù)逼近器。經(jīng)過(guò)訓(xùn)練的模型只使用視覺(jué)和深度信息來(lái)學(xué)習(xí)自然語(yǔ)言指令。結(jié)果表明,我們可以同時(shí)學(xué)習(xí)方向性指令的泛化和標(biāo)志識(shí)別。智能體在大多數(shù)時(shí)間(在幼兒階段)成功地遵循了新的兩步指令(novel two-step directions),比基線水平提高了30%。在今后的研究工作中,我們的目標(biāo)是在一個(gè)更大的數(shù)據(jù)集上訓(xùn)練智能體,跨多個(gè)領(lǐng)域開(kāi)展更為深入的分析和經(jīng)驗(yàn)評(píng)估工作,并探索跨不同環(huán)境的泛化能力。