司馬雙霖 黃 巖 何科技 安 東 袁 輝 王 亮,3,4,5
近年來(lái),越來(lái)越多研究人員意識(shí)到單模態(tài)分析 技術(shù)在現(xiàn)實(shí)中處理信息的局限性,對(duì)于自然語(yǔ)言、音頻信息以及視覺(jué)等多模態(tài)融合方面的研究投入日益增加.視覺(jué)語(yǔ)言導(dǎo)航[1]是智能體在第一視角下,基于真實(shí)環(huán)境下的全景圖,綜合處理指令和視覺(jué)信息并進(jìn)行推理的多模態(tài)任務(wù),也是智能管家等應(yīng)用的核心技術(shù)之一.視覺(jué)語(yǔ)言導(dǎo)航嘗試使用多模態(tài)融合的方式,為室內(nèi)導(dǎo)航任務(wù)的研究提供了一個(gè)新的方向.如圖1 所示,智能體需要結(jié)合指令信息和視覺(jué)信息,在模擬器中完成一系列的決策,最終到達(dá)目標(biāo)位置.其中主要難點(diǎn)在于如何學(xué)習(xí)理解指令和視覺(jué)的信息,從而完成導(dǎo)航過(guò)程中的每一步?jīng)Q策.
圖1 視覺(jué)語(yǔ)言導(dǎo)航過(guò)程示意圖Fig.1 The process of vision-and-language navigation
Anderson 等[1]于2018 年首先提出視覺(jué)語(yǔ)言導(dǎo)航任務(wù),并公開(kāi)了與任務(wù)相對(duì)應(yīng)的基于真實(shí)環(huán)境的Room-to-Room (R2R)數(shù)據(jù)集,并在Matterport-3D[2]模擬器完成了導(dǎo)航任務(wù)的仿真.視覺(jué)語(yǔ)言導(dǎo)航一經(jīng)提出便引起了廣泛的關(guān)注.隨著研究的不斷深入,研究人員提出了很多拓展任務(wù),如室外視覺(jué)語(yǔ)言導(dǎo)航Touchdown[3]、結(jié)合導(dǎo)航和指稱(chēng)表達(dá)(Remote embodied visual referring expression in real indoor environments,REVERIE)[4-5]以及視覺(jué)對(duì)話(huà)導(dǎo)航任務(wù)[6].除此之外,研究人員也發(fā)現(xiàn)了一些視覺(jué)語(yǔ)言導(dǎo)航亟需解決的問(wèn)題,如數(shù)據(jù)量級(jí)還遠(yuǎn)不能滿(mǎn)足實(shí)際需求,數(shù)據(jù)稀缺問(wèn)題愈發(fā)突出、以及模型的泛化能力低.這些問(wèn)題一直阻礙著視覺(jué)語(yǔ)言導(dǎo)航的發(fā)展.另外現(xiàn)有的方法全是基于模擬器的仿真環(huán)境,該設(shè)定與現(xiàn)實(shí)場(chǎng)景下的導(dǎo)航仍存在很大差異.如何將現(xiàn)有的模型應(yīng)用到實(shí)際環(huán)境中,也是視覺(jué)語(yǔ)言導(dǎo)航的一大難題.
為了解決以上問(wèn)題,一系列的改進(jìn)模型方法被相繼提出.研究人員在指令集擴(kuò)充、學(xué)習(xí)策略升級(jí)和多模態(tài)融合等方面進(jìn)行較多探索并取得了巨大進(jìn)展.本文首先介紹常用的數(shù)據(jù)集,然后按照不同的模型改進(jìn)方式對(duì)現(xiàn)有的方法進(jìn)行分類(lèi)介紹,并結(jié)合不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析不同模型的優(yōu)勢(shì)和不足,全面介紹目前視覺(jué)語(yǔ)言導(dǎo)航的研究現(xiàn)狀.
視覺(jué)語(yǔ)言導(dǎo)航的數(shù)據(jù)集,主要是針對(duì)Matter-Port3D 模擬器的90 個(gè)場(chǎng)景建立的.為了推動(dòng)視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的發(fā)展,研究人員從指令描述粒度、指令長(zhǎng)度以及語(yǔ)言種類(lèi)入手,收集了大量的人工指令.這一定程度上擴(kuò)大了數(shù)據(jù)量,對(duì)視覺(jué)語(yǔ)言導(dǎo)航的發(fā)展,起著非常重要的作用.本節(jié)將按照不同的指令粒度和指令長(zhǎng)度的數(shù)據(jù)集分類(lèi)介紹.
R2R 數(shù)據(jù)集是由Anderson 等[1]構(gòu)建,其中總詞匯量約3 100 個(gè)單詞,構(gòu)成7 189 條路徑下的21 567 條人工標(biāo)注的指令,且每條指令的平均長(zhǎng)度為29 個(gè)單詞.R2R 數(shù)據(jù)集在很大程度上覆蓋了視覺(jué)環(huán)境中的大部分細(xì)節(jié)信息,具有多樣性的特點(diǎn).在視覺(jué)語(yǔ)言導(dǎo)航中,R2R 數(shù)據(jù)集被分成訓(xùn)練集、可見(jiàn)環(huán)境的驗(yàn)證集、不可見(jiàn)環(huán)境的驗(yàn)證集和測(cè)試集.其中訓(xùn)練集和可見(jiàn)環(huán)境的驗(yàn)證集共用61 個(gè)真實(shí)場(chǎng)景,但是把相應(yīng)場(chǎng)景下的數(shù)據(jù)集分為了兩個(gè)部分:用于訓(xùn)練的14 025 條指令和用于可見(jiàn)環(huán)境驗(yàn)證的1 020條指令.不可見(jiàn)環(huán)境的驗(yàn)證集和測(cè)試集中并沒(méi)有交叉重復(fù)的數(shù)據(jù),不可見(jiàn)環(huán)境驗(yàn)證集使用11 個(gè)真實(shí)場(chǎng)景和2 349 條指令,而剩余的18 個(gè)真實(shí)場(chǎng)景和4 173 條對(duì)應(yīng)的指令構(gòu)成測(cè)試集.
由于R2R 參考路徑是由初始位置到目標(biāo)位置間的最短路徑構(gòu)成,這在一定程度上影響了路徑與指令的耦合度,同時(shí)缺少細(xì)粒度指令和視覺(jué)場(chǎng)景的對(duì)應(yīng)關(guān)系.Hong 等[7]提出了一種細(xì)粒度的子指令形式,對(duì)原先的R2R 指令使用啟發(fā)式算法生成相應(yīng)的子指令,構(gòu)造了細(xì)粒度的Fine-grained R2R(FGR2R)數(shù)據(jù)集.FGR2R 訓(xùn)練集和驗(yàn)證集的每條指令平均可拆分為3.6 條子指令,且每條子指令平均包含7.2 個(gè)單詞和2.6 個(gè)對(duì)應(yīng)的導(dǎo)航點(diǎn).例如這條簡(jiǎn)單的指令:“左轉(zhuǎn),走上樓梯,進(jìn)入衛(wèi)生間”,對(duì)智能體,準(zhǔn)確無(wú)誤地理解它十分困難,必須對(duì)指令分解逐一理解每個(gè)詞語(yǔ)的意思.這意味著將導(dǎo)航任務(wù)簡(jiǎn)化為多個(gè)子任務(wù),每個(gè)子任務(wù)都有與其對(duì)應(yīng)的子指令.此外,智能體不僅需要理解指令信息,而且需要對(duì)環(huán)境中的視覺(jué)物體進(jìn)行識(shí)別.比如 “走上樓梯”,直到檢測(cè)到樓梯匹配到指令信息,才可以執(zhí)行后續(xù)的動(dòng)作.
由于Room-for-Room (R4R)、Room-6-Room(R6R)和Room-8-Room (R8R)數(shù)據(jù)集構(gòu)建的思路一致,本節(jié)將介紹這3 個(gè)數(shù)據(jù)集.在R2R 數(shù)據(jù)集中的路徑普遍需要4~6 個(gè)步驟完成,并且利用最短路徑的方式到達(dá)目的位置.這樣不利于評(píng)估指令和路徑的匹配程度,因此需要一個(gè)包含更長(zhǎng)路徑的數(shù)據(jù)集來(lái)對(duì)導(dǎo)航中的動(dòng)作與指令的一致性進(jìn)行評(píng)價(jià).文獻(xiàn)[8-9]提出拼接R2R 數(shù)據(jù)集指令的方式,由此形成更長(zhǎng)指令長(zhǎng)度的R4R、R6R和R8R 數(shù)據(jù)集.由于指令長(zhǎng)度和參考路徑變得更長(zhǎng),從而增加了訓(xùn)練模型的難度.同時(shí),先前的評(píng)價(jià)指標(biāo)僅僅關(guān)注是否到達(dá)目標(biāo)位置,對(duì)指令和路徑是否匹配并不敏感.因此針對(duì)長(zhǎng)指令數(shù)據(jù)集,研究人員提出了一些新的評(píng)價(jià)指標(biāo)和方法,來(lái)衡量和提高模型的泛化能力.
對(duì)于現(xiàn)有的R2R 數(shù)據(jù)集中存在偏差、指令和路徑的數(shù)量少等問(wèn)題,Ku 等[10]提出新的Roomacross-Room (RxR)數(shù)據(jù)集,分別從指令語(yǔ)言種類(lèi)、數(shù)據(jù)集規(guī)模、路徑和指令的匹配粒度和姿態(tài)跟蹤4個(gè)方面對(duì)數(shù)據(jù)集進(jìn)行了拓展和改進(jìn).RxR 數(shù)據(jù)集包括16 500 條路徑,且每條路徑對(duì)應(yīng)3 條不同語(yǔ)種的指令,總詞匯量高達(dá)980 萬(wàn)條,構(gòu)成126 000 條指令.此外,He 等[11]利用標(biāo)志物信息,將en-RxR 劃分成短指令的形式,構(gòu)建了Landmark-RxR 數(shù)據(jù)集.相較于R2R 數(shù)據(jù)集,RxR 數(shù)據(jù)集中指令對(duì)應(yīng)的路徑長(zhǎng)度更長(zhǎng),并且在指令和路徑的匹配程度上更為一致.同時(shí)RxR 采用對(duì)三種語(yǔ)言指令進(jìn)行測(cè)試,可以避免對(duì)單一語(yǔ)種產(chǎn)生過(guò)擬合的現(xiàn)象.RxR 數(shù)據(jù)集中首次引入姿態(tài)跟蹤的方式,即對(duì)比與人執(zhí)行指令時(shí)所采取的動(dòng)作和經(jīng)過(guò)的位置.后續(xù)的工作將RxR 數(shù)據(jù)集引入到連續(xù)環(huán)境的模擬器,以尋找更具有更加實(shí)用的模型.
除了以上的指令數(shù)據(jù)集,還有一些視覺(jué)語(yǔ)言導(dǎo)航拓展工作的數(shù)據(jù)集,如REVERIE[4]和Bilingual Room-to-Room (BL-R2R)[12]數(shù)據(jù)集.表1 介紹了不同數(shù)據(jù)集的各項(xiàng)屬性.
表1 視覺(jué)語(yǔ)言導(dǎo)航不同數(shù)據(jù)集的對(duì)比Table 1 The comparison of different datasets in vision-and-language navigation
目前視覺(jué)語(yǔ)言導(dǎo)航所面臨的兩大難題:數(shù)據(jù)稀缺和模型的泛化性低,一直阻礙著該領(lǐng)域的發(fā)展.但隨著越來(lái)越多研究人員投入到視覺(jué)語(yǔ)言導(dǎo)航中,這些問(wèn)題都不同程度地得到解決.我們將視覺(jué)語(yǔ)言導(dǎo)航模型分為數(shù)據(jù)增強(qiáng)、搜索策略、動(dòng)作空間、訓(xùn)練策略4 個(gè)方面來(lái)進(jìn)行介紹.
視覺(jué)語(yǔ)言導(dǎo)航是根據(jù)真實(shí)場(chǎng)景下的照片所構(gòu)成的仿真環(huán)境和人工指令,進(jìn)行一系列推理的過(guò)程.專(zhuān)業(yè)人員標(biāo)注的指令不僅成本高,且數(shù)量十分有限,例如常用的R2R 數(shù)據(jù)集中僅含有21 567 條語(yǔ)言指令.因此,數(shù)據(jù)稀缺是視覺(jué)語(yǔ)言導(dǎo)航中的先天問(wèn)題,不僅使得學(xué)習(xí)跨模態(tài)匹配更加困難,還在很大程度上限制了模型的性能.當(dāng)前很多領(lǐng)域的研究已經(jīng)證明了數(shù)據(jù)增強(qiáng)的有效性,特別是提升模型的性能有很大幫助.接下來(lái),本節(jié)將從合成新指令和拼接舊指令兩個(gè)方面介紹視覺(jué)語(yǔ)言導(dǎo)航中的數(shù)據(jù)增強(qiáng)方法.
2.1.1 基于生成新指令的數(shù)據(jù)增強(qiáng)模型
Fried 等[13]首先提出了一種數(shù)據(jù)增強(qiáng)的方式,如圖2 所示,“說(shuō)話(huà)者”模型可以從視覺(jué)軌跡合成新的指令,拓展當(dāng)前有限的訓(xùn)練指令集.而 “跟隨者”模型來(lái)檢驗(yàn)生成指令,產(chǎn)生的軌跡可以作為 “說(shuō)話(huà)者”的輸入,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的.使用數(shù)據(jù)增強(qiáng)指令訓(xùn)練導(dǎo)航模型的方法,不僅可以顯著提升模型性能,而且對(duì)提升泛化能力很有幫助.除此之外,“說(shuō)話(huà)者”模型可以用來(lái)評(píng)價(jià)智能體導(dǎo)航路徑的好壞.很多后續(xù)工作都在這種數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,再做相應(yīng)的方法改進(jìn).Fu 等[14]指出現(xiàn)有的數(shù)據(jù)增強(qiáng)模型性能表現(xiàn)并不理想,究其原因在于困難樣本的導(dǎo)航成功率不高.針對(duì)這一問(wèn)題,他們提出一種對(duì)抗訓(xùn)練的方式.該方法通過(guò)模型動(dòng)態(tài)更新路徑生成器,旨在提高困難樣本的成功率,以進(jìn)一步提升整體的泛化效果.而文獻(xiàn)[15]通過(guò)分析 “說(shuō)話(huà)者”模型生成的合成指令,發(fā)現(xiàn)大部分合成指令存在語(yǔ)句邏輯問(wèn)題,并沒(méi)有建立好和視覺(jué)環(huán)境之間的聯(lián)系,反而引入了更多的誤差.因此Huang 等[15]提出一種生成高精度指令的數(shù)據(jù)增強(qiáng)方式,通過(guò)設(shè)置一個(gè)判別器來(lái)評(píng)價(jià)生成數(shù)據(jù)的質(zhì)量,同時(shí)引入一些負(fù)樣本,以提高訓(xùn)練的魯棒性.盡管模型的表現(xiàn)不錯(cuò),但是依然沒(méi)有解決有效的生成指令數(shù)量少的問(wèn)題.由于缺少指令的評(píng)估指標(biāo),Zhao 等[16]提出一個(gè)不需要參考指令的指令軌跡親和模型.
圖2 “說(shuō)話(huà)者”和 “跟隨者”[13]模型的數(shù)據(jù)增強(qiáng)過(guò)程Fig.2 The data augmentation process in“speaker-follower”[13]
另外,不少研究人員在導(dǎo)航環(huán)境方面做出新的嘗試,并指出 “說(shuō)話(huà)者”模型訓(xùn)練時(shí)的有限環(huán)境數(shù)量,限制了指令的多樣性.首先,Tan 等[17]在 “說(shuō)話(huà)者”和 “跟隨者” (Speaker-follower,SF)模型的基礎(chǔ)上,提出了基于環(huán)境的數(shù)據(jù)增強(qiáng)模型,即通過(guò)遮擋環(huán)境中的同類(lèi)物體,進(jìn)而產(chǎn)生新的環(huán)境;從這些環(huán)境收集新的路徑,然后通過(guò) “說(shuō)話(huà)者”模塊生成新的指令;最后利用這些數(shù)據(jù)微調(diào)模型.此外,An 等[18]認(rèn)為當(dāng)前視角可能缺失指令中的關(guān)鍵物體信息,進(jìn)而導(dǎo)致錯(cuò)誤決策,于是提出鄰近視角增強(qiáng)模型(Neighbor-view enhanced model,NvEM).該模型使用當(dāng)前視角的圖像特征和相鄰視角的圖像特征,以擴(kuò)大智能體的感受野.無(wú)論是從指令或環(huán)境入手,這些方法均是基于最短路徑的原則來(lái)導(dǎo)航,這樣會(huì)導(dǎo)致學(xué)習(xí)過(guò)程中出現(xiàn)依賴(lài)于訓(xùn)練時(shí)所做過(guò)的動(dòng)作,從而出現(xiàn)忽略重要語(yǔ)言信息和視覺(jué)信息的問(wèn)題.為了解決該問(wèn)題,文獻(xiàn)[19]提出基于隨機(jī)路徑方式的數(shù)據(jù)增強(qiáng).Yu 等[19]基于 “說(shuō)話(huà)者”和 “跟隨者”模型,額外設(shè)置路徑選擇器動(dòng)態(tài)地采樣隨機(jī)路徑,并用“說(shuō)話(huà)者”模塊為這些路徑生成相應(yīng)的指令,然后再使用生成數(shù)據(jù)訓(xùn)練 “跟隨者”模塊,最終達(dá)到隨機(jī)路徑形式的數(shù)據(jù)增強(qiáng)目的.這些方法都基于自主合成新指令的方式,但合成的指令與人類(lèi)指令之間仍存在較大差異.主要原因是合成指令的細(xì)節(jié)不足和邏輯不通,從而導(dǎo)致了合成新的有效指令比較匱乏的問(wèn)題.
2.1.2 基于拼接舊指令的數(shù)據(jù)增強(qiáng)模型
除了生成新指令的方式外,文獻(xiàn)[8]提出拼接R2R數(shù)據(jù)集,來(lái)構(gòu)成R4R 數(shù)據(jù)集的方法,進(jìn)而達(dá)到數(shù)據(jù)增強(qiáng)的目的.由于直接訓(xùn)練較長(zhǎng)路徑的模型比較困難,Jain 等[8]提出模型先在較短路徑下訓(xùn)練,然后再將模型遷移到較長(zhǎng)路徑的導(dǎo)航任務(wù)中.Zhu 等[9]進(jìn)一步將R2R 數(shù)據(jù)集拓展到R6R和R8R 長(zhǎng)指令數(shù)據(jù)集,并提出一個(gè)記憶緩存來(lái)保存歷史子指令和子軌跡對(duì),同時(shí)使用模仿學(xué)習(xí)和課程強(qiáng)化學(xué)習(xí)進(jìn)行兩個(gè)階段的訓(xùn)練.
盡管當(dāng)前視覺(jué)語(yǔ)言導(dǎo)航的工作已經(jīng)取得一定的進(jìn)展,但是在提高視覺(jué)信息和指令耦合度方面,并沒(méi)有很多突破性的工作.以往的研究驗(yàn)證了使用循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練會(huì)存在長(zhǎng)期依賴(lài)的問(wèn)題,即當(dāng)前狀態(tài)會(huì)受一段時(shí)間之前的狀態(tài)影響,這在長(zhǎng)指令集訓(xùn)練過(guò)程中是無(wú)法避免的.無(wú)論是哪種數(shù)據(jù)增強(qiáng)手段產(chǎn)生的指令都存在偏差,以及有效指令和路徑的數(shù)量少等問(wèn)題.因此Ku 等[10]提出了新的RxR 數(shù)據(jù)集,從路徑軌跡采樣方式、路徑和指令的數(shù)量、路徑和指令的粒度、語(yǔ)言種類(lèi)四個(gè)方面對(duì)R2R 數(shù)據(jù)集進(jìn)行拓展和改進(jìn).
在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中,數(shù)據(jù)增強(qiáng)作為一種提升模型泛化能力的方法,一定程度上縮小模型在可見(jiàn)環(huán)境和不可見(jiàn)環(huán)境的表現(xiàn)差距.但是視覺(jué)語(yǔ)言導(dǎo)航中仍存在導(dǎo)航成功率低和過(guò)于依賴(lài)拓?fù)浣Y(jié)構(gòu)的問(wèn)題,純粹依賴(lài)數(shù)據(jù)增強(qiáng)不能根本緩解以上問(wèn)題.
早期的視覺(jué)語(yǔ)言導(dǎo)航任務(wù)采用的搜索策略是貪婪解碼[20].因MatterPort3D 平臺(tái)將真實(shí)環(huán)境簡(jiǎn)化成離散點(diǎn)集,而導(dǎo)航過(guò)程需要連續(xù)地推理決策,來(lái)得到全局最優(yōu)解,所以貪心算法的效果并不理想.Fired 等[13]發(fā)現(xiàn)這一問(wèn)題,提出在全景動(dòng)作空間中將導(dǎo)航任務(wù)簡(jiǎn)化為加權(quán)無(wú)向圖搜索方法.如圖3 所示,通過(guò)采用波束搜索[21]的方式,能夠選擇多條備選全局路徑進(jìn)行打分來(lái)選擇最優(yōu)路徑.這種搜索策略大幅提升導(dǎo)航成功率,但是存在路徑過(guò)長(zhǎng)、搜索效率低的缺點(diǎn).為了改進(jìn)以上的方法,研究人員提出帶回溯的前沿搜索(Frontier aware search with back tracking,FAST)[22]和基于回溯機(jī)制的后悔模型[23],旨在降低搜索成本.回溯機(jī)制是在每次決策后及時(shí)評(píng)估,如果打分低,則選擇回溯上一步,否則選擇鄰近未探索的節(jié)點(diǎn).而FAST 則是在此基礎(chǔ)上,提出了一種局部信息和全局信息相結(jié)合的方式.該方法通過(guò)比較不同長(zhǎng)度的局部路徑,結(jié)合全局信號(hào),利用異步搜索的方式來(lái)實(shí)現(xiàn)有效回溯.
圖3 視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中的不同搜索策略[22]Fig.3 Different search strategies in vision-and-language navigation[22]
由于存在指令語(yǔ)義模糊和局部視覺(jué)不確定性的問(wèn)題,Wang 等[24]提出一種動(dòng)態(tài)決定探索方向、允許對(duì)下一步節(jié)點(diǎn)探索并進(jìn)行預(yù)測(cè)的方法.但探索過(guò)多會(huì)導(dǎo)致軌跡長(zhǎng)度過(guò)長(zhǎng)和基于路徑長(zhǎng)度加權(quán)的成功率降低的問(wèn)題,整體效果并不理想.而Chi 等[25]提出當(dāng)智能體不知選擇哪個(gè)方向時(shí),采用輔助解惑的手段.當(dāng)學(xué)習(xí)到的融合信息讓智能體感到 “疑惑”時(shí),交互學(xué)習(xí)方式能幫助智能體解決導(dǎo)航中下一步移動(dòng)的問(wèn)題.而為了縮小訓(xùn)練和測(cè)試之間的差距,Deng 等[26]提出可變圖規(guī)劃器模型(Evolving graphical planner,EGP),這是一種使用原始圖像高效生成全局規(guī)劃的方法.其通過(guò)動(dòng)態(tài)地構(gòu)建一個(gè)圖的表示(包括動(dòng)作空間),以便于更好決策.Hong 等[27]則通過(guò)構(gòu)建語(yǔ)言和視覺(jué)實(shí)體關(guān)系圖模型(Language and visual entity relationship graph,Relgraph),更好地利用不同模態(tài)間的關(guān)系.同時(shí)他們提出一種消息傳遞算法,在圖中的語(yǔ)言元素和視覺(jué)實(shí)體之間傳播信息,然后將這些信息組合起來(lái)以確定下一步要采取的動(dòng)作.為了更好地長(zhǎng)期規(guī)劃決策,Wang等[28]提出一種結(jié)構(gòu)化場(chǎng)景記憶的模型(Structured scene memory,SSM),允許智能體對(duì)已探索的區(qū)域保留訪(fǎng)問(wèn)權(quán)力,然后通過(guò)這種持久性的空間表示,智能體在細(xì)粒度指令的輔助下,在全局決策方面表現(xiàn)出色.
現(xiàn)有的導(dǎo)航策略都是盡可能地找到每步的最佳決策,尋找一條從起始位置到目標(biāo)位置的有效路徑.雖然一定程度上會(huì)造成導(dǎo)航路徑長(zhǎng)度過(guò)長(zhǎng),卻對(duì)導(dǎo)航成功率的提升十分明顯.此外,隨著研究的深入,記憶機(jī)制和圖結(jié)構(gòu)的引入,為視覺(jué)語(yǔ)言導(dǎo)航策略提供了不同的思路和方向.
文獻(xiàn)[29]首次按照動(dòng)作空間劃分不同的模型,將依賴(lài)于模擬平臺(tái)和導(dǎo)航圖的模型稱(chēng)為高級(jí)動(dòng)作模型,對(duì)于直接預(yù)測(cè)下一個(gè)基礎(chǔ)動(dòng)作的模型稱(chēng)為低級(jí)動(dòng)作模型.如圖4 所示,圖4(a)表示低級(jí)動(dòng)作空間的5 個(gè)基礎(chǔ)動(dòng)作,圖4(b)表示高級(jí)動(dòng)作空間基于導(dǎo)航點(diǎn)的動(dòng)作.本節(jié)根據(jù)動(dòng)作空間的劃分,分別介紹高級(jí)動(dòng)作空間和低級(jí)動(dòng)作空間的視覺(jué)語(yǔ)言導(dǎo)航方法.
圖4 低級(jí)動(dòng)作空間和高級(jí)動(dòng)作空間表示[29]Fig.4 Low-level action space and high-level action space[29]
2.3.1 基于高級(jí)動(dòng)作空間的視覺(jué)語(yǔ)言導(dǎo)航
早期Fried 等[13]提出將36 張不同仰角和水平偏角的圖像合成一張全景圖的方法,后來(lái)該形式被通稱(chēng)為高級(jí)動(dòng)作空間.在此高級(jí)動(dòng)作空間中,智能體只需選擇鄰近節(jié)點(diǎn)移動(dòng).高級(jí)動(dòng)作空間不僅可以簡(jiǎn)化導(dǎo)航過(guò)程,并且能顯著提升導(dǎo)航成功率.在高級(jí)動(dòng)作空間下,文獻(xiàn)[30]發(fā)現(xiàn)導(dǎo)航結(jié)果反饋模糊的問(wèn)題,即導(dǎo)航成功產(chǎn)生的反饋結(jié)果,并不能反應(yīng)指令和路徑是否匹配.由此,Wang 等[30]提出強(qiáng)化跨模態(tài)匹配(Reinforced cross-modal matching,RCM)的方法來(lái)解決上述問(wèn)題.利用推理導(dǎo)航器在局部區(qū)域內(nèi)進(jìn)行跨模態(tài)對(duì)齊,再使用匹配評(píng)判器促進(jìn)路徑和指令之間的全局匹配,進(jìn)一步強(qiáng)化模態(tài)融合效果和提高導(dǎo)航成功的標(biāo)準(zhǔn).Ma 等[31]提出自我監(jiān)控智能體模型(Self-monitor agent,SMNA).他們根據(jù)模態(tài)匹配的關(guān)系,認(rèn)為 “下一個(gè)動(dòng)作的執(zhí)行常常是由上一個(gè)動(dòng)作完成與否決定的”,并相應(yīng)提出了視覺(jué)和語(yǔ)言聯(lián)合對(duì)齊模型,來(lái)監(jiān)控導(dǎo)航進(jìn)度.另外,由于指令中含有豐富的實(shí)體描述和方向信息,Qi 等[32]提出物體和動(dòng)作可知模型(Object-and-action awared model,OAAM),分別對(duì)視覺(jué)特征和方向特征使用注意力機(jī)制,最后再融合兩部分特征.該方法充分利用指令中實(shí)體和方向信息,來(lái)與視覺(jué)場(chǎng)景進(jìn)行匹配,最后設(shè)置路徑損失來(lái)限制智能體僅沿著最短路徑移動(dòng).
在視覺(jué)語(yǔ)言導(dǎo)航的設(shè)定中,MatterPort3D 模擬器是將場(chǎng)景劃分為離散的可導(dǎo)航位置點(diǎn)集.這一做法簡(jiǎn)化導(dǎo)航過(guò)程為一個(gè)無(wú)向圖的探索過(guò)程,即每步移動(dòng)都從鄰近的有限點(diǎn)集中選擇下一個(gè)目標(biāo)節(jié)點(diǎn).這在一定程度上減少了視覺(jué)信息對(duì)任務(wù)的影響.文獻(xiàn)[33]指出在視覺(jué)語(yǔ)言導(dǎo)航和問(wèn)答任務(wù)中,不利用視覺(jué)信息的單模態(tài)模型的表現(xiàn)好于多模態(tài)模型,模態(tài)融合反而造成了性能衰減.針對(duì)以上問(wèn)題,Hu等[34]提出在不同模態(tài)融合條件下,對(duì)比 “說(shuō)話(huà)者”和 “跟隨者”模型[13]和自我監(jiān)控智能體模型[31]的性能表現(xiàn),發(fā)現(xiàn)模型更容易利用幾何拓?fù)浣Y(jié)構(gòu)信息,而忽略了大量的視覺(jué)模態(tài)信息的現(xiàn)象.模型對(duì)于拓?fù)浣Y(jié)構(gòu)的依賴(lài)一定程度降低了指令和視覺(jué)信息的耦合度.為了解決這個(gè)問(wèn)題,Yu 等[19]提出改變最短路徑為隨機(jī)路徑的移動(dòng)策略,旨在消除對(duì)于路徑結(jié)構(gòu)的依賴(lài),更多地專(zhuān)注語(yǔ)言和視覺(jué)之間的信息匹配.針對(duì)不同環(huán)境中的性能差異問(wèn)題,Zhang 等[35]設(shè)計(jì)新的環(huán)境劃分和特征替換的方案,研究環(huán)境偏差的影響.
除了改變路徑采樣的方式之外,另一個(gè)思路是回到低級(jí)動(dòng)作空間.Anderson 等[36]嘗試轉(zhuǎn)移模擬環(huán)境訓(xùn)練的智能體到現(xiàn)實(shí)場(chǎng)景中,并提出一個(gè)子目標(biāo)模型來(lái)識(shí)別臨近可達(dá)的節(jié)點(diǎn).他們使用即時(shí)定位與地圖構(gòu)建和路徑規(guī)劃的方法,建立智能體學(xué)習(xí)的高級(jí)動(dòng)作和智能體的低級(jí)動(dòng)作的變換聯(lián)系,將模型性能損失控制在可接受的范圍內(nèi).但高級(jí)動(dòng)作空間方面的遷移工作,還是受Matterport3D 模擬器不能支持低級(jí)動(dòng)作的影響,需要通過(guò)特定算法轉(zhuǎn)換為低級(jí)動(dòng)作,因此很多模型不便于直接由模擬環(huán)境轉(zhuǎn)移現(xiàn)實(shí)場(chǎng)景中.
2.3.2 基于低級(jí)動(dòng)作空間的視覺(jué)語(yǔ)言導(dǎo)航
相對(duì)于高級(jí)動(dòng)作空間中選擇鄰近節(jié)點(diǎn)的移動(dòng)方式,低級(jí)動(dòng)作空間只包括六種基礎(chǔ)動(dòng)作:向上、向下、左轉(zhuǎn)30 度、右轉(zhuǎn)30 度、前進(jìn)和停止.在這種動(dòng)作空間下,模型在對(duì)于環(huán)境拓?fù)浣Y(jié)構(gòu)未知的情況下,直接預(yù)測(cè)智能體的動(dòng)作.如圖5 所示,在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中,基于編碼-解碼的方法首先通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)[37]編碼器將指令編碼 [x1,x2,···,xl]和真實(shí)圖像 [v1,v2,···,vt],映射到一個(gè)上下文的動(dòng)作序列,再通過(guò)LSTM 解碼器融合編碼后的語(yǔ)言特征和視覺(jué)特征預(yù)測(cè)每一步的動(dòng)作 [a0,a1,···,aT].解碼過(guò)程中額外加入了注意力機(jī)制,這一機(jī)制選擇性關(guān)注視覺(jué)感知和當(dāng)前指令中相關(guān)聯(lián)的內(nèi)容,幫助智能體結(jié)合環(huán)境選擇相應(yīng)的基礎(chǔ)動(dòng)作.通過(guò)建立緊密的模態(tài)間的信息聯(lián)系,模型生成一系列的低級(jí)動(dòng)作命令來(lái)指導(dǎo)完成導(dǎo)航任務(wù).
圖5 視覺(jué)語(yǔ)言導(dǎo)航中的 seq2seq 模型Fig.5 The seq2seq model in vision and language navigation
高級(jí)動(dòng)作空間中存在過(guò)度依賴(lài)已知的路徑拓?fù)浣Y(jié)構(gòu)的問(wèn)題,不利于未來(lái)部署在現(xiàn)實(shí)場(chǎng)景中.因此,不少研究人員開(kāi)始關(guān)注更具有現(xiàn)實(shí)意義的模型,Landi 等[38]提出使用動(dòng)態(tài)卷積濾波器的方法,模型基于當(dāng)前指令信息動(dòng)態(tài)地從視覺(jué)信息中提取相關(guān)信息,并輸出低級(jí)動(dòng)作空間下的動(dòng)作概率.在此基礎(chǔ)上,Landi 等[29]進(jìn)一步提出類(lèi)似Transformer[39]結(jié)構(gòu)的感知轉(zhuǎn)化移動(dòng)模型(Perceive,transform and act,PTA),通過(guò)多次利用注意力機(jī)制的形式來(lái)融合模態(tài)間信息.實(shí)驗(yàn)證實(shí)了該模型同時(shí)兼容高級(jí)動(dòng)作空間和低級(jí)動(dòng)作空間.由于MatterPort3D 平臺(tái)環(huán)境本身的約束,新型的模擬環(huán)境平臺(tái)相繼被提出.首先是FacebookAI 實(shí)驗(yàn)室在2019 年提出的Habitat 平臺(tái)[40]和Shen 等[41]在2020 年提出的iGibson平臺(tái).這些支持連續(xù)環(huán)境模擬器的推出,大大推動(dòng)了基于低級(jí)動(dòng)作空間方面的研究.文獻(xiàn)[42]提出基于Habitat 平臺(tái)的連續(xù)環(huán)境下的視覺(jué)語(yǔ)言導(dǎo)航任務(wù).不同于以往的高級(jí)動(dòng)作空間方法,存在傳送移動(dòng)、依賴(lài)幾何結(jié)構(gòu)和精準(zhǔn)定位的問(wèn)題,Krantz 等[42]通過(guò)構(gòu)建一個(gè)跨模態(tài)注意力機(jī)制的連續(xù)環(huán)境的視覺(jué)語(yǔ)言導(dǎo)航模型,驗(yàn)證了數(shù)據(jù)增強(qiáng)、數(shù)據(jù)聚合和進(jìn)度控制對(duì)模型的積極作用.同時(shí)對(duì)比高級(jí)動(dòng)作空間的視覺(jué)語(yǔ)言導(dǎo)航模型,他們發(fā)現(xiàn)先前的視覺(jué)語(yǔ)言導(dǎo)航模型中存在過(guò)多理想化的條件,在真實(shí)環(huán)境中的可行性有待驗(yàn)證.Chen 等[43]在基于連續(xù)環(huán)境的視覺(jué)語(yǔ)言導(dǎo)航模型的基礎(chǔ)上,將其分解為兩個(gè)階段:計(jì)劃和控制,在探索過(guò)程中,拓?fù)涞貓D被建立用于導(dǎo)航規(guī)劃.然后局部控制器接受導(dǎo)航規(guī)劃并生成低級(jí)動(dòng)作來(lái)完成導(dǎo)航任務(wù).
無(wú)論在高級(jí)動(dòng)作空間和低級(jí)動(dòng)作空間中,現(xiàn)有的方法并未詳細(xì)解釋模型在模態(tài)融合后性能提升的原因.文獻(xiàn)[33]對(duì)以往的模態(tài)融合方式提出了質(zhì)疑,并建議以后的模型增加模態(tài)消融實(shí)驗(yàn)以佐證效果.為了更好地融合模態(tài)間的信息,Zhu 等[44]提出輔助推理導(dǎo)航模型(Auxiliary reasoning navigation,AuxRN).該模型通過(guò)四個(gè)輔助任務(wù):動(dòng)作解釋、估計(jì)進(jìn)度、預(yù)測(cè)方向和軌跡一致性評(píng)價(jià),來(lái)提高模型的推理和環(huán)境感知的能力.由于指令間信息差異和指令中語(yǔ)義模糊的問(wèn)題,Xia 等[45]編碼相同軌跡的所有指令,其中每條指令互作補(bǔ)充,去提高模型的文本理解能力.在視覺(jué)語(yǔ)言導(dǎo)航中,模態(tài)間的聯(lián)系并不是簡(jiǎn)單地合并指令和視覺(jué)信息,而是需要建立互為補(bǔ)充的關(guān)系,進(jìn)一步提升模型的性能,并通過(guò)合理的實(shí)驗(yàn)證明在不同的動(dòng)作空間下模態(tài)融合方式的有效性.
視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中常用的兩種模型學(xué)習(xí)方式:監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí).監(jiān)督學(xué)習(xí)是通過(guò)R2R 數(shù)據(jù)集中的最短路徑標(biāo)注數(shù)據(jù),學(xué)習(xí)得到一個(gè)優(yōu)化的模型,進(jìn)而預(yù)測(cè)不可見(jiàn)環(huán)境中的路徑序列.而強(qiáng)化學(xué)習(xí)是把視覺(jué)語(yǔ)言導(dǎo)航任務(wù)看作一個(gè)馬爾可夫決策過(guò)程.智能體在導(dǎo)航過(guò)程中觀(guān)察周?chē)h(huán)境并進(jìn)行分析和反饋,并通過(guò)特定的獎(jiǎng)勵(lì)函數(shù),嘗試將學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)應(yīng)用到導(dǎo)航任務(wù)中,不斷地進(jìn)行試驗(yàn),以達(dá)到完成視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的目的.盡管這些方法的有效性得到很好的驗(yàn)證,但是各自的局限性也被揭露出來(lái).研究人員在訓(xùn)練方法的選擇上進(jìn)行了更為深入的研究,當(dāng)前預(yù)訓(xùn)練模型通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,對(duì)視覺(jué)語(yǔ)言導(dǎo)航的性能提升十分明顯.下面將對(duì)傳統(tǒng)訓(xùn)練模型和預(yù)訓(xùn)練模型展開(kāi)介紹.
2.4.1 基于傳統(tǒng)訓(xùn)練的視覺(jué)語(yǔ)言導(dǎo)航模型
由于R2R 數(shù)據(jù)集提供了參考路徑,通過(guò)匹配預(yù)測(cè)動(dòng)作分布和最佳路線(xiàn),最初的視覺(jué)語(yǔ)言導(dǎo)航方法大多采用的是監(jiān)督學(xué)習(xí)方式.文獻(xiàn)[1]使用基于注意力機(jī)制的LSTM 的序列到序列模型(Sequenceto-sequence,seq2seq)[46],并結(jié)合 “學(xué)生自學(xué)”[47]的訓(xùn)練方法,對(duì)于先前的分布采用動(dòng)作輸出序列預(yù)測(cè)下一步動(dòng)作,這是初期流行的一種基礎(chǔ)方法.該方法使用交叉熵?fù)p失函數(shù),學(xué)習(xí)標(biāo)注數(shù)據(jù)的特征信息,泛化到未知環(huán)境中.但是由于人工標(biāo)注的數(shù)據(jù)成本過(guò)于昂貴,最優(yōu)路徑并不容易獲取.在后續(xù)的研究中,為了進(jìn)一步提升在不可見(jiàn)環(huán)境下的泛化能力,Wang等[48]提出使用強(qiáng)化規(guī)劃(Reinforced planning ahead,RPA)的方法,將模型無(wú)關(guān)和基于模型兩種強(qiáng)化學(xué)習(xí)聯(lián)合在一起.其中展望模型結(jié)合了環(huán)境模型和策略模型,在R2R 數(shù)據(jù)集上取得了不錯(cuò)的效果.最近的研究提出了很多新穎的學(xué)習(xí)方法,諸如Wang 等[30]提出一種自監(jiān)督模仿學(xué)習(xí)的方法.通過(guò)訓(xùn)練,智能體可以根據(jù)過(guò)往的決策,學(xué)習(xí)產(chǎn)生多條可能的軌跡.模型利用最佳匹配的軌跡輔助訓(xùn)練,并優(yōu)化軌跡的生成.文獻(xiàn)[17]改進(jìn)以往的方法,提出將模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的損失結(jié)合作為一個(gè)損失函數(shù),并用半監(jiān)督學(xué)習(xí)的方式進(jìn)行反向翻譯和環(huán)境消除(Environmental dropout,Envdrop),分別為了訓(xùn)練額外的數(shù)據(jù)和生成未知環(huán)境.這種方法對(duì)模型的泛化能力進(jìn)一步提升,如圖6 所示,模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的方法通過(guò)結(jié)合兩種學(xué)習(xí)策略的優(yōu)勢(shì),能夠有效地提升模型的性能.Wang 等[49]對(duì)于模仿學(xué)習(xí)的錯(cuò)誤累積和強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)設(shè)計(jì)成本問(wèn)題,嘗試使用蒸餾的方法減少過(guò)擬合,提出軟專(zhuān)家獎(jiǎng)勵(lì)學(xué)習(xí)模型(Soft expert reward learning,SERL).具體地,通過(guò)設(shè)置軟專(zhuān)家蒸餾模塊讓模仿過(guò)程減少錯(cuò)誤,同時(shí)利用自我感知模塊讓智能體一直向目的位置移動(dòng).研究人員在學(xué)習(xí)方法上的研究仍在繼續(xù),不斷地優(yōu)化方法策略.
圖6 融合強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的過(guò)程Fig.6 The mixture of reinforcement learning and imitation learning
在視覺(jué)語(yǔ)言導(dǎo)航中,“學(xué)生自學(xué)”和 “老師指導(dǎo)”[50]訓(xùn)練策略的選擇,是影響生成路徑序列的一大因素.在視覺(jué)語(yǔ)言導(dǎo)航的設(shè)定中,因?yàn)閷?dǎo)航路徑長(zhǎng),并且采用離散動(dòng)作的問(wèn)題,所以早期的動(dòng)作抽樣工作是基于 “學(xué)生自學(xué)”的方式.但由于全景動(dòng)作空間的提出,路徑長(zhǎng)度被縮短了一大半,“老師指導(dǎo)”的方式開(kāi)始流行起來(lái).但是兩者都存在曝光偏差[51]的問(wèn)題.一旦出現(xiàn)誤差,則會(huì)導(dǎo)致大量累計(jì)誤差,從而偏離正確路線(xiàn).針對(duì) “學(xué)生自學(xué)”引入偏差的問(wèn)題,文獻(xiàn)[9]提出了基于 “學(xué)生自學(xué)”的模仿學(xué)習(xí),保證軌跡和指令的一致性.為了充分發(fā)揮兩者的優(yōu)勢(shì),Li 等[52]從課程抽樣方式中得到靈感,提出隨機(jī)動(dòng)作采樣的方式.具體地,基于伯努利分布的抽樣策略通過(guò)隨機(jī)選擇每一步的動(dòng)作抽樣方式,借此來(lái)保證利用 “學(xué)生自學(xué)”和 “老師指導(dǎo)”的優(yōu)勢(shì),進(jìn)而得到一種相對(duì)偏差較小的動(dòng)作抽樣方法.
目前,很多工作通過(guò)結(jié)合模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方式,取得了較大性能提升.模仿學(xué)習(xí)學(xué)習(xí)老師的動(dòng)作,而強(qiáng)化學(xué)習(xí)通過(guò)從獎(jiǎng)勵(lì)中采樣動(dòng)作,使智能體可以探索環(huán)境和提升泛化能力.如何更好地選擇和利用訓(xùn)練策略,是提高導(dǎo)航模型泛化能力的一個(gè)關(guān)鍵因素.
2.4.2 基于大規(guī)模預(yù)訓(xùn)練的視覺(jué)語(yǔ)言導(dǎo)航模型
近年來(lái),研究人員在如何提升智能體對(duì)不可見(jiàn)環(huán)境的泛化能力方面進(jìn)行了不少?lài)L試,包括預(yù)探索、數(shù)據(jù)增強(qiáng)和分析模態(tài)融合關(guān)系等方式.當(dāng)前使用預(yù)訓(xùn)練模型提取特征的方式已經(jīng)應(yīng)用到各種任務(wù)中,其可以有效地提升下游任務(wù)的性能.受此啟發(fā),研究人員提出了在視覺(jué)語(yǔ)言導(dǎo)航中使用預(yù)訓(xùn)練模型,以解決泛化能力不足的問(wèn)題.首先,文獻(xiàn)[52]提出了使用Bidirectional encoder representations from transformers (BERT)[53]等大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,來(lái)豐富指令表達(dá).Hao 等[54]提出使用一種通用的預(yù)訓(xùn)練視覺(jué)語(yǔ)言導(dǎo)航智能體(Pre-trained vision-andlanguage based navigator,PREVALENT),并利用圖像-語(yǔ)言-動(dòng)作信息來(lái)進(jìn)行預(yù)訓(xùn)練.實(shí)驗(yàn)證明預(yù)訓(xùn)練模型對(duì)提升模型的泛化能力很有幫助.后來(lái)Huang 等[55]在PREVALENT 的基礎(chǔ)上,使用參數(shù)共享的方法來(lái)減低預(yù)訓(xùn)練模型的參數(shù)量.文獻(xiàn)[56]中指出模型可以學(xué)習(xí)更多的語(yǔ)言知識(shí),來(lái)提高推理的效率.此外,Hong 等[57]提出Recurrent visionand-language bert for navigation (RecBERT).這是一個(gè)多模態(tài)BERT 模型,搭配時(shí)間感知遞歸函數(shù),為智能體提供更豐富的信息.針對(duì)RecBERT會(huì)存在歷史信息丟失的問(wèn)題,Chen 等[58]提出History-aware multi-modal transformer (HAMT),將完整的歷史信息編碼保存,并設(shè)計(jì)了層次化的歷史編碼方法,降低計(jì)算復(fù)雜度.實(shí)驗(yàn)結(jié)果顯示使用預(yù)訓(xùn)練的語(yǔ)言模型分別在可見(jiàn)環(huán)境和不可見(jiàn)環(huán)境中的導(dǎo)航成功率高達(dá)76%和66%,不可見(jiàn)環(huán)境中的基于路徑加權(quán)的成功率為60%.進(jìn)一步地證明預(yù)訓(xùn)練模型可以提高模型的泛化能力.
相較于傳統(tǒng)訓(xùn)練方法,預(yù)訓(xùn)練模型引入了額外的知識(shí)表達(dá),對(duì)視覺(jué)語(yǔ)言導(dǎo)航模型的提升十分顯著.正因?yàn)楦咝У男阅芎蛷?qiáng)大的模態(tài)融合能力,如今預(yù)訓(xùn)練模型已經(jīng)成為視覺(jué)語(yǔ)言導(dǎo)航模型的重要研究方向.
第2 節(jié)和第3 節(jié)主要介紹了視覺(jué)語(yǔ)言導(dǎo)航的數(shù)據(jù)集和當(dāng)前主要的模型方法,本節(jié)將對(duì)視覺(jué)語(yǔ)言導(dǎo)航的評(píng)價(jià)指標(biāo)進(jìn)行全面介紹,并結(jié)合R2R 數(shù)據(jù)集、R4R 數(shù)據(jù)集和RxR 數(shù)據(jù)集對(duì)比分析視覺(jué)語(yǔ)言導(dǎo)航模型.
對(duì)于不同模型的評(píng)判,評(píng)價(jià)指標(biāo)發(fā)揮著重要的作用,是衡量模型性能的關(guān)鍵性指標(biāo).隨著視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的發(fā)展,新的模型評(píng)價(jià)指標(biāo)相繼被提出.表2 給出了視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的評(píng)價(jià)指標(biāo),包括其定義和計(jì)算公式.這為第3.2 節(jié)視覺(jué)語(yǔ)言導(dǎo)航模型性能比較提供幫助.視覺(jué)語(yǔ)言導(dǎo)航的評(píng)價(jià)指標(biāo)不僅關(guān)注導(dǎo)航成功率(Success rate,SR)和路徑長(zhǎng)度(Path length,PL),而且需要對(duì)導(dǎo)航過(guò)程中路徑軌跡和指令之間的一致性程度進(jìn)行相應(yīng)的度量評(píng)估.接下來(lái)將主要介紹目前的核心評(píng)價(jià)指標(biāo),其中基于路徑加權(quán)的成功率(Success weighted by path length,SPL)的主要思想是將成功率和路徑長(zhǎng)度融合處理,來(lái)衡量導(dǎo)航的好壞.早期視覺(jué)語(yǔ)言導(dǎo)航模型的目標(biāo)是盡可能地提高基于路徑加權(quán)的成功率,來(lái)評(píng)估模型的性能.但它僅關(guān)注是否成功到達(dá)目標(biāo)位置,而忽略了預(yù)測(cè)路徑和參考路徑的一致性問(wèn)題.后續(xù)工作中提出的長(zhǎng)度加權(quán)的覆蓋分?jǐn)?shù)(Coverage weighted by length score,CLS)[8]和基于動(dòng)態(tài)時(shí)間規(guī)整加權(quán)成功率(Success rate weighted normal-ized dynamic time warping,SDTW)[59]兩個(gè)評(píng)價(jià)指標(biāo),主要是度量軌跡和指令一致性程度.長(zhǎng)度加權(quán)的覆蓋分?jǐn)?shù)中包括兩部分路徑覆蓋率(Path coverage,PC)和路徑長(zhǎng)度分?jǐn)?shù)(Length score,LS).路徑覆蓋率表示與參考路徑的一致程度,其計(jì)算公式如下:
表2 視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中的評(píng)價(jià)指標(biāo)Table 2 The metrics of vision-and-language navigation
式中,R代表查詢(xún)路徑,P代表參考路徑,r是查詢(xún)路徑的位置坐標(biāo)向量,dth是閾值距離.PC(P,R)即為所計(jì)算的路徑覆蓋率.而路徑長(zhǎng)度分?jǐn)?shù)則是評(píng)價(jià)預(yù)測(cè)路徑和參考路徑的一致性程度,進(jìn)而來(lái)約束預(yù)測(cè)路徑的長(zhǎng)度,產(chǎn)生與參考路徑長(zhǎng)度一致的預(yù)測(cè)路徑,計(jì)算公式為:
式中,EPL(P,R) 表示導(dǎo)航路徑相對(duì)于參考路徑覆蓋范圍的期望值,PL(V) 表示路徑長(zhǎng)度,PC(P,R)表示路徑覆蓋率.LS(P,R) 即為所計(jì)算的路徑長(zhǎng)度得分.SDTW 是對(duì)預(yù)測(cè)路徑和參考路徑在時(shí)空相似性上的約束,由導(dǎo)航成功率和路徑一致性合并計(jì)算.
第3.2 節(jié)將對(duì)比不同數(shù)據(jù)集下的視覺(jué)語(yǔ)言導(dǎo)航模型,通過(guò)以上主要的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析.
表3和表4 分別展示了不同模型在R2R 數(shù)據(jù)集和R4R 數(shù)據(jù)集上,基于相應(yīng)主要評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果.而表5 以不同模型的主要?jiǎng)?chuàng)新點(diǎn)來(lái)劃分模型方法,包括數(shù)據(jù)增強(qiáng)、導(dǎo)航策略、動(dòng)作空間和訓(xùn)練方法4 個(gè)方向.表5 中 “√”表示屬于對(duì)應(yīng)分類(lèi)的改進(jìn)方向,而—表示不屬于對(duì)應(yīng)分類(lèi)的改進(jìn)方向.
由表3和表5 可知,隨著引入數(shù)據(jù)增強(qiáng)和改進(jìn)導(dǎo)航策略之后,在R2R 數(shù)據(jù)集上,視覺(jué)語(yǔ)言導(dǎo)航模型的SR和SPL,都較以往得到了不少的提升.文獻(xiàn)[13]提出的全景動(dòng)作空間形式和數(shù)據(jù)增強(qiáng)方法,為視覺(jué)語(yǔ)言導(dǎo)航模型的快速發(fā)展,提供了有力的支持.同時(shí)文獻(xiàn)[17]在此基礎(chǔ)上提出的融合強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的訓(xùn)練方法,為后續(xù)的研究提供了參考模型.該方法的廣泛應(yīng)用對(duì)視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的發(fā)展有重要的意義.此外,最新研究發(fā)現(xiàn)預(yù)訓(xùn)練模型BERT和Transformer 模型使智能體學(xué)習(xí)到更多有效的知識(shí),可以進(jìn)一步提升導(dǎo)航性能.但值得一提的是,預(yù)訓(xùn)練模型的訓(xùn)練時(shí)間和計(jì)算成本花銷(xiāo)巨大.如何盡可能地降低計(jì)算成本,設(shè)計(jì)一個(gè)輕量級(jí)的模型是亟待解決的問(wèn)題.
表3 在 R2R 測(cè)試數(shù)據(jù)集上的視覺(jué)語(yǔ)言導(dǎo)航方法對(duì)比Table 3 The comparison of vision-and-language navigation methods on the R2R test dataset
表4 在 R4R 測(cè)試數(shù)據(jù)集上的視覺(jué)語(yǔ)言導(dǎo)航方法對(duì)比Table 4 The comparison of vision-and-language navigation methods on the R4R test dataset
表5 視覺(jué)語(yǔ)言導(dǎo)航中的不同方法改進(jìn)的對(duì)比Table 5 The comparison of different improvements in vision-and-language navigation
不同于R2R 數(shù)據(jù)集的主要評(píng)價(jià)指標(biāo),R4R 數(shù)據(jù)集包括更長(zhǎng)的軌跡,更注重指令和軌跡的一致性程度.因此,R4R 數(shù)據(jù)集將CLS和SDTW 作為主要評(píng)價(jià)指標(biāo).由表4和表5 可知,在導(dǎo)航成功率的評(píng)價(jià)指標(biāo)上,R4R 數(shù)據(jù)集是明顯低于R2R 數(shù)據(jù)集.這是因?yàn)殚L(zhǎng)指令的影響,導(dǎo)航的性能降低.由表4可知,在CLS和SDTW 上,模型的表現(xiàn)并不盡如人意.其主要原因是模型過(guò)于注重是否到達(dá)目標(biāo)位置,忽略了指令和軌跡一致性的比較.盡管模型在基于路徑加權(quán)的成功率上有不錯(cuò)的表現(xiàn),但這不能保證導(dǎo)航軌跡與指令內(nèi)容一致.因此,研究人員開(kāi)始轉(zhuǎn)向子指令和子軌跡的研究,通過(guò)分段剪切長(zhǎng)指令,對(duì)導(dǎo)航過(guò)程中的一致性問(wèn)題展開(kāi)一系列的研究.我們可以發(fā)現(xiàn)注重指令和軌跡一致性的模型,在主要評(píng)價(jià)指標(biāo)上都有一定的性能提升.因此,如何更好地利用指令信息和視覺(jué)信息,是視覺(jué)語(yǔ)言導(dǎo)航中的關(guān)鍵問(wèn)題.
由表5 中的對(duì)比可以看出,早先的方法主要研究監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的選擇,但整體表現(xiàn)并不好.隨著數(shù)據(jù)增強(qiáng)以及模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合等方法的提出,這使模型的性能得到了較大的提升.但其利用波束搜索會(huì)導(dǎo)致路徑長(zhǎng)度過(guò)長(zhǎng),模型從而丟失現(xiàn)實(shí)的應(yīng)用意義.導(dǎo)航策略的改進(jìn)極大地推動(dòng)了視覺(jué)語(yǔ)言導(dǎo)航的應(yīng)用發(fā)展.隨著研究的深入,研究人員將眼光投入到更貼切現(xiàn)實(shí)的低級(jí)動(dòng)作空間,開(kāi)拓新的研究方向.此外,隨著大規(guī)模預(yù)訓(xùn)練模型的興起,研究人員嘗試將預(yù)訓(xùn)練模型引入到視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中,并取得不錯(cuò)的效果,使導(dǎo)航性能得到大幅提升.
由表3~5 可知,隨著各種各樣的方法被提出,視覺(jué)語(yǔ)言導(dǎo)航領(lǐng)域的發(fā)展更加多元化.不僅僅是模型在各項(xiàng)評(píng)價(jià)指標(biāo)上有較大的提升,更重要的是在細(xì)分研究方向上也得到了更多研究和關(guān)注.
視覺(jué)語(yǔ)言導(dǎo)航是近年來(lái)在多模態(tài)領(lǐng)域中新興的研究方向,一經(jīng)提出就受到大批研究人員的關(guān)注.隨著研究的不斷深入,視覺(jué)語(yǔ)言導(dǎo)航在導(dǎo)航成功率和泛化能力上,都得到了巨大的提升.研究人員通過(guò)數(shù)據(jù)增強(qiáng)手段,生成新的訓(xùn)練數(shù)據(jù).雖然這種方法對(duì)模型性能的提升很有幫助,但并未解決泛化能力不足的問(wèn)題.因此,后續(xù)的研究開(kāi)始著力于減少過(guò)擬合現(xiàn)象,引入預(yù)訓(xùn)練模型.與此同時(shí),研究人員不斷優(yōu)化學(xué)習(xí)方式,進(jìn)一步地提出視覺(jué)文本對(duì)齊和回溯機(jī)制等輔助手段,這些方法顯著提升模型的泛化能力,并取得較為理想的性能.
但是,目前仍有一些問(wèn)題亟待解決:1)當(dāng)前提出的一些方法,受到了仿真環(huán)境平臺(tái)和數(shù)據(jù)集的限制.從低級(jí)動(dòng)作空間到高級(jí)動(dòng)作空間的轉(zhuǎn)換,采用波束搜索的方式,簡(jiǎn)化了導(dǎo)航過(guò)程.盡管各方面的性能表現(xiàn)均令人信服,但脫離現(xiàn)實(shí),模型難以遷移部署到現(xiàn)實(shí)環(huán)境中.如何貼近真實(shí)場(chǎng)景、賦予模型更多現(xiàn)實(shí)的應(yīng)用意義,這需要視覺(jué)語(yǔ)言導(dǎo)航研究的重心重新轉(zhuǎn)移到低級(jí)動(dòng)作空間上.盡管已有基于連續(xù)環(huán)境的視覺(jué)語(yǔ)言導(dǎo)航模型,但是其導(dǎo)航效果并不理想.因此視覺(jué)語(yǔ)言導(dǎo)航需要結(jié)合傳統(tǒng)機(jī)器人技術(shù),進(jìn)一步優(yōu)化目前在模擬環(huán)境中訓(xùn)練的模式.2)有實(shí)驗(yàn)表明視覺(jué)語(yǔ)言導(dǎo)航的模態(tài)融合方法會(huì)對(duì)模型性能產(chǎn)生負(fù)面作用.究其根本是模態(tài)信息之間關(guān)系模糊,并未形成良好的互補(bǔ),模型不能有效地利用多模態(tài)信息.目前,大規(guī)模預(yù)訓(xùn)練模型可以更好地利用多模態(tài)信息,獲得不錯(cuò)的性能表現(xiàn).但是由于計(jì)算能力不足和時(shí)間開(kāi)銷(xiāo)過(guò)大,這為視覺(jué)語(yǔ)言導(dǎo)航的發(fā)展帶來(lái)新的問(wèn)題.因此對(duì)多模態(tài)信息學(xué)習(xí)的研究,仍有很大的發(fā)展空間.3)在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中,數(shù)據(jù)稀缺的問(wèn)題尤為明顯,這是限制性能的一大阻礙.盡管研究人員提出了利用機(jī)器生成合成指令的方法,但這些合成指令大部分是有缺陷的,且不符合人們的語(yǔ)言習(xí)慣.同時(shí)不少研究人員重新搜集數(shù)據(jù),從規(guī)模和指令長(zhǎng)度等方面進(jìn)行拓展,獲得更接近現(xiàn)實(shí)場(chǎng)景的指令集.由此可見(jiàn),數(shù)據(jù)方面的研究工作一直都是視覺(jué)語(yǔ)言導(dǎo)航中的重要內(nèi)容.
在現(xiàn)實(shí)場(chǎng)景中的導(dǎo)航過(guò)程是動(dòng)態(tài)連續(xù)的,而非簡(jiǎn)單的無(wú)向圖探索過(guò)程,目前不少研究人員重新投入到連續(xù)空間的視覺(jué)語(yǔ)言導(dǎo)航研究,即在低級(jí)動(dòng)作空間下,智能體經(jīng)過(guò)一系列的基礎(chǔ)動(dòng)作,完成視覺(jué)語(yǔ)言導(dǎo)航任務(wù).當(dāng)前Habitat 平臺(tái)和iGibson 平臺(tái)都支持連續(xù)的導(dǎo)航.智能體可以通過(guò)低級(jí)動(dòng)作完成導(dǎo)航,這就為以后應(yīng)用到現(xiàn)實(shí)場(chǎng)景提供了更多的可能性.此外,由于多模態(tài)任務(wù)的輸入復(fù)雜多變,機(jī)器和人類(lèi)的理解能力差異較大,所以BERT 等預(yù)訓(xùn)練模型的引入,為智能體提供豐富的額外知識(shí),有助于理解模態(tài)信息和模態(tài)間的融合.總體總之,視覺(jué)語(yǔ)言導(dǎo)航任務(wù)無(wú)論是在現(xiàn)實(shí)中的應(yīng)用,以及數(shù)據(jù)獲取方面的研究,未來(lái)還有很長(zhǎng)的路要走.
視覺(jué)語(yǔ)言導(dǎo)航是一種多模態(tài)理解任務(wù),在未來(lái)智能家具、娛樂(lè)、養(yǎng)老等國(guó)計(jì)民生領(lǐng)域有較大應(yīng)用需求.本文詳細(xì)介紹了視覺(jué)語(yǔ)言導(dǎo)航任務(wù)近年來(lái)的發(fā)展,首先對(duì)于各種主流模型進(jìn)行了簡(jiǎn)要介紹,然后對(duì)提升模型泛化能力的方法進(jìn)行了綜述,分別包括模態(tài)間的分析、指令集等拓展方式以及搜索策略、訓(xùn)練方式和預(yù)訓(xùn)練模型等輔助策略.盡管視覺(jué)語(yǔ)言導(dǎo)航任務(wù)近年來(lái)取得了快速的發(fā)展,但是隨著研究的深入,也凸顯出各種約束和限制,這需要更多研究人員投入后續(xù)的工作研究.研究人員不僅要追求性能上的突破,而且要賦予模型更多的應(yīng)用價(jià)值.希望通過(guò)本文可以讓更多人了解視覺(jué)語(yǔ)言導(dǎo)航任務(wù),吸引更多人投入其中,促進(jìn)其發(fā)展.