亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

以人為中心的人-機器人自然空間語言交互*

2019-12-05 03:58:54肖承麗徐劉飛周仁來

應用心理學 2019年4期

肖承麗范丫徐劉飛周仁來

(南京大學社會學院心理學系，南京 210023)

1 引言

自然語言，是人們?nèi)粘Ｉ钪凶畛２捎玫男畔⒔涣鞣绞?；空間信息，是人與人協(xié)作溝通中最重要的信息元素之一。使用自然語言傳遞空間信息，即空間語言交互，是個體之間實現(xiàn)空間信息共享，并最終達成協(xié)同合作的重要交互方式。比如，在電話里告訴朋友如何從公交車站走到你家，在辦公室請同事幫忙拿取文件柜里的某一份文件……隨著語音識別技術(shù)的成熟，機器人已經(jīng)基本能夠使用自然語言與人對話，但是還無法像人一樣在類似上述的情境中使用自然語言與人交流空間信息，并最終在“非結(jié)構(gòu)環(huán)境下為人類提供必要服務”(中華人民共和國國務院)。為了實現(xiàn)這一目標，要遵循“以人為中心”的研發(fā)原則，賦予機器人與人智能同構(gòu)的“人水平的人工智能”(唐寧等,2018;許為,in press;周吉帆等,2016;Lemaignan,Warnier,AkinSisbot,Clodic,& Alami,2017)。

本文圍繞著人-機器人通過自然語言交流空間信息這一任務主題，首先對人-人空間語言交互中涉及的空間認知機制——空間視角采擇、空間語言參考框架、心理理論展開分析，并提出了人-人空間語言交互行為模型。在此基礎(chǔ)上，提出了以人為中心的、與人智能同構(gòu)的機器人空間認知研發(fā)設(shè)計方案，總結(jié)歸納了當前機器人空間認知的研發(fā)進展，并對未來的研究方向提出了建議。

2 人-人空間語言交互的認知機制和過程

假設(shè)你與一位合作者共同完成一項組裝任務，如圖1所示。合作者坐在你的對面，你需要讓對方將帶有紅色圓點標記的木塊遞給自己，這時你會怎么說？

2.1 空間視角采擇

首先，你可能會意識到在圖1中，從對方的視角看不到這個紅色的圓點；其次，你可能會意識到這個木塊上面的數(shù)字，從自己的視角看是6，而從對方的視角看是9。這反映了人的空間認知的一個重要且基本的機制——空間視角采擇(spatial perspective taking)，即人們想象自己站在他人的空間位置，推論從他人的視角看到的空間場景是什么樣的?？臻g視角采擇有兩個層次(張越,葛賢亮,田志強,&葛列眾,2018;Flavell,Everett,Croft,& Flavell,1981)：層次1解決遮擋問題，即理解對方可以看見什么(what)，比如發(fā)現(xiàn)圖1的紅點對方看不見(Todd,Cameron,& Simpson,2017)；層次2解決視角問題，即理解從對方的視角看到的空間是怎樣的(how)，比如發(fā)現(xiàn)圖1木塊上的數(shù)字從對方的視角看是9(Gunalp,Moossaian,& Hegarty,2019)。

層次1和層次2空間視角采擇的實現(xiàn)策略各不相同。層次1空間視角采擇，人們可通過視線連線策略(line-of-sight strategy)完成(Baker,Levin,& Saylor,2016)，即判斷對方的視線和目標物之間是否有遮擋，如果存在遮擋阻斷視線連線，則說明對方無法看見該目標物，如果不存在遮擋阻礙，則說明對方可以看見目標物。而層次2空間視角采擇，人們必須通過心理旋轉(zhuǎn)策略(mental rotation strategy)才能實現(xiàn)，即要么把自己眼前所見的場景在頭腦中旋轉(zhuǎn)、要么想象自己旋轉(zhuǎn)移動至對方的視角，最終在頭腦中計算出對方看見的場景應該是怎樣的(Cavallo,Ansuini,Capozzi,Tversky,& Becchio,2017)。

2.2 空間語言參考框架

除了意識到對方看到的空間場景與自己不同之外，我們還有可能意識到有多種方式來表征和描述目標物體，比如“在你最左邊的木塊”“在我最右邊的木塊”“在汽車尾部的木塊”等。這些不同的描述方式，反映了不同的空間參考框架(spatial frames of reference)，即以不同的參照物(如我、你、汽車)及其方向(如左、右、尾部)來定位目標物體。

在人-人日常空間語言交流中，人們向?qū)Ψ矫枋鲆粋€空間信息，可以采用的空間參考框架有5種(Trafton et al.,2005)：

(1)接收者中心(addressee-centered)，即信息傳達者以交流對象的身體的前后左右來描述空間方位，比如“在你最左邊的木塊”。使用此參考框架的前提是信息傳達者知道信息接收者當前的空間方位。在這種參考框架下，信息接收者的認知負荷較低，但信息傳達者的認知負荷往往較高。因為大多數(shù)情況下信息交互雙方的空間視角不同(如面對面站立或遠程電話交流)，信息傳達者必須進行層次1、2的空間視角采擇，才能實現(xiàn)從信息接收者的角度描述空間方位。

(2)自我中心(egocentric)，即說話人以自己身體的前后左右來描述空間方位，比如“在我最右邊的木塊”。與上述情境正好相反，在這種參考框架下，信息傳達者的認知負荷較低，而信息接收者的認知負荷往往較高，因為他需要對信息傳達者進行空間視角采擇，即根據(jù)信息傳達者的空間方位，重新“計算”出正確的目標方位。使用此參考框架的前提是信息接收者知道信息傳達者當前的空間方位，如果信息接收者實際上缺少這些知識，那么該參考框架無法傳遞有效的空間信息。

此外，成功使用接收者中心或自我中心參考框架的共同前提，是信息傳達者在語言中明確標定空間參考點是自己還是接收者，或者交互雙方就默認的空間參考點達成共識。如果該信息缺失或雙方的默認值不一致，就可能導致交互出現(xiàn)混亂。比如針對圖1的場景，“最右邊的木塊”這條指令就指向了兩個可能的目標物體。

(3)物體中心(object-centric或object-based)，即根據(jù)環(huán)境中的一個有明顯方向的物體來定位目標空間方位，比如“在汽車尾部的木塊”。該參考框架無須交流雙方進行空間視角采擇，但只有在環(huán)境中存在有明顯方向的物體時才能夠使用。

(4)指示(deictic)，即通過“這”“那”等指示詞，加上姿勢動作等指令來實現(xiàn)空間信息交流，比如說話者手指向一個位置并同時說“走到這里”。該參考框架同樣不需要交互雙方進行空間視角采擇，但其使用有前提限制，即信息接收者必須能夠看見說話者的動作指令。在有遮擋、缺少照明(比如黑暗環(huán)境)、視線范圍外(比如電話遠程交流)等情境下無法使用此指令。

(5)世界中心(exocentric或world-based)，即以東南西北這種絕對的、全球通用的坐標系來描述空間方位，比如“朝北走”。在這種參考框架下，信息交流雙方無須進行空間視角采擇，但成功交互的前提是雙方都熟悉并習慣于使用世界中心的參考框架。而在現(xiàn)實生活中，并非所有人都習慣使用本參考框架，比如女性(Lawton,1994;Lawton & Kallai,2002)或中國南方人(Li & Zhang,2009;劉麗虹,張積家,&王惠萍,2005)都更偏好使用前后左右(自我中心或接收者中心參考框架)而非東南西北；且人們一般在室外而非室內(nèi)選擇使用該參考框架(Lawton,1994,1996;Li & Gleitman,2002)。

2.3 心理理論

在上述空間視角采擇和空間參考框架選擇過程的背后，還隱含了一項基本的人類智能——心理理論(Theory of Mind,ToM)(Apperly & Butterfill,2009;Premack & Woodruff,1978;Schaafsma,Pfaff,Spunt,& Adolphs,2015)。擁有該智能的個體，不僅能夠形成其他智能體對當前環(huán)境的信念，還能夠表征其他智能體的社會認知，理解其他智能體的目的和意圖。即在圖1的例子中，心理理論能力不僅可以保證個體認識到自己和他人看到的空間環(huán)境不盡相同、意識到他人更容易理解接收者中心參考框架，還可以支持個體判斷他人的意圖，比如發(fā)現(xiàn)對方盯著他左邊的木塊，推論他的意圖是想拿起那個木塊。近年來，越來越多的研究表明，心理理論對空間視角采擇和空間語言交互具有重要影響(趙婧,王璐,&蘇彥捷,2010)。

首先，心理理論影響空間視角采擇的自發(fā)性和效率。在層次1空間視角采擇方面，有研究者認為其自發(fā)產(chǎn)生的機制是個體對采擇對象進行了心理化(mentalizing)加工*

*也有另一派研究者認為層次1空間視角采擇的自發(fā)產(chǎn)生是一般領(lǐng)域認知加工的結(jié)果。由于該理論爭論與本綜述關(guān)系不大，故不詳細展開。感興趣的讀者可參閱(Heyes,2014)。。其證據(jù)包括個體僅對擁有心理狀態(tài)的他人自發(fā)進行層次1空間視角采擇，而不會對木塊這種沒有心理狀態(tài)的物體自動進行層次1空間視角采擇(Nielsen,Slade,Levy,& Holmes,2015)；而當他人戴上眼罩后，由于個體內(nèi)隱地對他人的心理狀態(tài)進行了推論(即他人看不見)，因此個體不再自發(fā)對他人進行層次1視角采擇(Furlanetto,Becchio,Samson,& Apperly,2016)。在層次2空間視角采擇方面，大量研究表明個體的表現(xiàn)與其心理理論能力正相關(guān)，即心理理論能力越強，層次2空間視角采擇成績越好(Clements-Stephens,Vasiljevic,Murray,& Shelton,2013;Shelton,Clements-Stephens,Lam,Pak,& Murray,2012)。而心理理論能力嚴重受損的自閉癥患者，其層次2視角采擇成績也顯著低于正常人(Pearson,Ropar,& Hamilton,2013)。

其次，心理理論作用于個體對他人意圖的判斷，從而影響其空間語言交互過程。當他人注視或把手伸向目標物體時，即表現(xiàn)出與目標物體交互的意圖時，人們會更多地從他人的視角描述物體的位置(Clinton,Magliano,& Skowronski,2018;Furlanetto,Cavallo,Manera,Tversky,& Becchio,2013;Tversky & Hard,2009)。有趣的是，類似的現(xiàn)象也發(fā)生在人-機器人交互過程中，即當機器人表現(xiàn)出與目標物體交互的意圖時，人們也會更多地從機器人的視角描述物體位置(Zhao,Cusimano,& Malle,2015)，或者更多地將注意力集中在機器人視線關(guān)注的物體上(Staudte & Crocker,2011)。

2.4 人-人空間語言交互過程

理解人-人空間語言交互，除了要掌握其認知機制(即心理理論、空間視角采擇、空間語言參考框架的理解與表達)，還需要掌握其交互過程。日常的人-人空間語言交互，并非片段的、孤立的，而是一個基于任務目標、隨著任務進展和對方反饋動態(tài)發(fā)展變化的過程。即在圖1的例子中，告訴對方將汽車尾部的木塊遞給自己，僅僅是整個合作任務的一個環(huán)節(jié)。在這之前，還涉及個體基于明確的任務要求或?qū)λ艘鈭D的推理形成共同目標，然后通過對抽象目標實現(xiàn)方式的檢索來做出抽象符號層面的計劃，之后再根據(jù)計劃來規(guī)劃自身的交互語言或動作行為，并在具體的執(zhí)行過程中根據(jù)對方的反饋不斷進行調(diào)整和修改，以最終完成共同目標(Bratman,1992;Devin & Alami,2016)。表現(xiàn)為在一個任務流程中，個體會不斷地切換參考框架(大約每兩句話切換一次)(Trafton et al.,2005)。當發(fā)現(xiàn)對方無法理解某種參考框架時，人們會采用另外一種參考框架對空間信息進行轉(zhuǎn)述(Schober,1993)，當發(fā)現(xiàn)對方的空間視角采擇能力較低時，更多地采用接收者中心參考框架(Schober,2009)。

將上述過程進行抽象提煉，可以得到一個簡要的人-人空間語言交互過程模型(圖2)。首先，交互雙方需要就任務目標達成共識，并判斷出對方的意圖，同時還需要從雙方視角下對場景進行識別，基于各參考框架建立物體之間、人與物體之間的空間關(guān)系表征(Clinton,et al.,2018;Furlanetto,et al.,2013;Tversky,& Hard,2009)。指令發(fā)出者基于前述信息，對交互語言進行規(guī)劃，形成若干種空間參考框架語言的備選項(比如圖1情境下，形成“拿我左邊的木塊”“拿你右邊的木塊”備選項)(Carlson,& Deman,2008)。隨后，指令發(fā)出者基于任務情境和知覺到的雙方的個體空間能力和偏好差異，從備選項中選擇一種進行表達(比如選擇說出“拿我左邊的木塊”)(Burigo & Schultheis,2018;Galati,Michael,Mello,Greenauer,& Avraamides,2013;Ryskin,Wang,& Brown-Schmidt,2016;Schultheis & Carlson,2017)。指令接收者在聽到對方的空間語言之后，對其中的空間信息進行提取并與自己先前建立的空間關(guān)系表征進行匹配，如能成功提取信息和匹配，則表現(xiàn)為能夠理解對方的空間語言，進入根據(jù)指令規(guī)劃并執(zhí)行交互動作的環(huán)節(jié)(如拿取目標木塊)；如不能成功提取信息或匹配，則表現(xiàn)為不能理解對方的空間語言，表現(xiàn)為猶豫不決或通過語言問詢向?qū)Ψ酱_認指令，或者以自己認為正確的其實是錯誤的理解來規(guī)劃和執(zhí)行交互的動作(如拿取非目標木塊)(Galati,Dale,& Duran,2019)。通過觀察指令接收者的行為，指令發(fā)出者獲得反饋，并根據(jù)反饋來評估指令接收者是否正確理解了自己的指令以及任務是否完成。如果完成，則任務結(jié)束。如果未完成，則指令發(fā)出者需要對任務現(xiàn)狀進行再次評估，判斷先前交互失敗的原因：如果是由于對方不能理解先前的參考框架信息，則指令發(fā)出者可以回到“選擇并說出空間語言”環(huán)節(jié)，重新選擇對方能夠聽懂的空間語言表達；如果是由于自己的空間語言缺乏必要的關(guān)鍵信息(如只說“拿左邊的木塊”，卻沒有明確是誰的左邊)，則指令發(fā)出者須回到“規(guī)劃可能的空間語言”環(huán)節(jié)，重新形成更加清晰的空間語言；如果是由于自己在確定任務目標、對方意圖或識別空間場景時出現(xiàn)偏差，則指令發(fā)出者須回到第一個環(huán)節(jié)修正錯誤(Galati,Panagiotou,Tenbrink,& Avraamides,2018;Schultheis & Carlson,2018)。

圖2 人-人空間語言交互過程模型(實線箭頭表示個體內(nèi)部的認知流程，虛線箭頭表示個體間的信息傳遞)

在這個交互模型各個環(huán)節(jié)的背后，需要前述提及的各種認知機制的支持。其中，視角采擇主要作用于識別空間場景，即個體不僅要從自己的視角建構(gòu)空間場景的表征，還要從對方的視角建構(gòu)空間場景表征(Galati,et al.,2019;Gunalp et al.,2019;Todd et al.,2017)；在后續(xù)的規(guī)劃、選擇并說出和理解空間語言的過程中，都涉及對各種空間語言參考框架的處理(Burigo & Schultheis,2018;Galati,et al.,2013;Kelly et al.,2018;Ryskin et al.,2016;Schultheis & Carlson,2017)；而心理理論作為人際交互的基本能力，作用于確定任務目標、判斷對方意圖、區(qū)分自我-他人視角下的空間場景、選擇空間語言、理解空間語言、獲得反饋并評估、基于評估結(jié)果進行調(diào)整等各個環(huán)節(jié)(Clinton et al.,2018;Furlanetto et al.,2013;Tversky & Hard,2009)。

3 以人為中心的機器人空間認知

隨著人工智能的不斷發(fā)展，機器人在越來越多的領(lǐng)域成為了人類新的任務交互對象。遵循以人為中心的研發(fā)原則(唐寧等,2018;許為,in press;周吉帆等,2016;Lemaignan et al.,2017)，設(shè)計機器人擁有與人相似的空間認知能力，實現(xiàn)機器人在空間語言交互上與人智能同構(gòu)有兩大重要優(yōu)勢：首先，符合人類用戶的認知行為習慣，可以降低認知沖突，減少不必要的用戶對機器人的適應和學習過程；其次，機器人通過對人行為意圖的加工，實現(xiàn)對任務目標的理解與分解，在與人進行合作時，將大大降低人所需要發(fā)出的空間語言指令的數(shù)量，降低人的認知負荷的同時提高了任務完成的效率(Fischer & Demiris,2016;Trafton et al.,2005)。比如，在圖3的情境中(Trafton et al.,2005)，桌面上有兩個扳手，從人的視角只能看到一個，另一個被盒子擋住了，但從機器人的視角能看見兩個。此時人向機器人發(fā)出“把扳手給我”的指令，如果機器人擁有空間視角采擇能力，能夠判斷出從人的視角只能看見扳手2，并做出合理推論，人要的是他能看見的扳手2，那么機器人可以迅速地做出反應，遞上扳手2。但如果機器人不具備空間視角采擇能力，它必須首先詢問和再次確認人的意圖，人必須中斷當前的思維和任務，投入心力去了解機器人的困境，然后再重新下達機器人能夠理解的指令。

圖3 可以運用空間視角采擇易化人機交互過程的場景案例

[原圖來自(Trafton et al.,2005)]

要實現(xiàn)以人為中心的機器人空間認知，需要基于前述人-人空間語言交互的認知機制，賦予機器人相應的認知能力和知識架構(gòu)(李新德&張秀龍,2014;朱博,高翔,&趙燕喃,2017)。首先，機器人的視覺識別，除了能夠從自己視角獲取周圍環(huán)境的空間表征之外，還應該能夠表征交互對象視角下的空間表征，即具有空間視角采擇能力(如Fischer & Demiris,2016;Trafton et al.,2005)；其次，機器人應該能夠基于5種空間參考框架對自我和他人視角下的空間表征進行編碼，并能夠?qū)⑷我庖环N參考框架編碼以符合自然語言語法規(guī)則的方式說出，或者能夠聽懂任意一種空間參考框架下的自然語言(如Gu,Taguchi,Hattori,Hoguro,& Umezaki,2016;Hato,Satake,Kanda,Imai,& Hagita,2010;Srimal,Muthugala,& Jayasekara,2017)；再次，機器人在選擇說出哪種空間參考框架和理解空間語言時，能夠借助心理理論智能推測交互對象的意圖和心理狀態(tài)，做出最佳的選擇或理解(如Devin & Alami,2016;G?rür,Rosman,Sivrikaya,& Albayrak,2018;Lemaignan et al.,2017;Winfield,2018)；最后，作為一個以人為中心、與人智能同構(gòu)的機器人，還應該具備適應、調(diào)整和學習的能力，即基于交互對象的特征設(shè)置默認空間參考框架(如針對女性設(shè)置為接收者中心參考框架)，并且在交互過程中根據(jù)對方的反饋進行動態(tài)調(diào)整(如Martins,Santos,& Dias,2019;Rossi,Ferland,& Tapus,2017)。

3.1 機器人的空間視角采擇

作為人-人空間語言交互的重要認知能力，研究者們很早就認識到了賦予機器人空間視角采擇能力的重要性，并設(shè)計出機器人模型加以證明(Breazeal,Berlin,Brooks,Gray,& Thomaz,2006;Trafton et al.,2005)。實現(xiàn)機器人空間視角采擇有三個關(guān)鍵方面：機器人能夠識別環(huán)境及其中的各個物體，能夠追蹤人的視線方向并確定其能否看見目標物體(層次1空間視角采擇)，能夠?qū)C器人視角下的場景轉(zhuǎn)換為對方視角下的場景(層次2空間視角采擇)。

受機器人視覺加工能力的限制，早期的機器人空間視角采擇實現(xiàn)方法，必須借助動作捕捉系統(tǒng)和/或人工標記來獲取人的頭部朝向和物體位置的信息，或者必須提前向機器人提供某物體能否被對方看見的信息(Breazeal et al.,2006;Johnson & Demiris,2007;Kennedy,Bugajska,Harrison,& Trafton,2009;Pandey,Ali,& Alami,2013;Trafton et al.,2005)，這大大限制了機器人的環(huán)境適用性。近年來，隨著人工智能視覺識別軟硬件技術(shù)的提升，研究者們通過將低成本的RGB-D深度相機和機器人自帶的視覺系統(tǒng)相結(jié)合，開發(fā)出機器人實時獲取當前三維環(huán)境的空間和物體信息、識別人的頭部姿態(tài)以推論其視線方向的算法，初步實現(xiàn)了無須提前標記或動作捕捉系統(tǒng)的實時層次1、2空間視角采擇(Fischer & Demiris,2016)。

3.2 機器人的空間參考框架

在人-機器人空間語言交互過程中，機器人的空間參考框架能力主要體現(xiàn)在環(huán)境感知和語言處理兩個方面。即一方面機器人能夠基于感知到的空間場景產(chǎn)生各種空間參考框架的自然語言，另一方面能夠聽懂各種空間參考框架的自然語言并將其準確匹配到所感知的空間場景中。其中涉及了若干對人類而言似乎是理所當然，但要實現(xiàn)于機器人卻極具挑戰(zhàn)性的能力。

在環(huán)境感知方面，機器人需要在識別環(huán)境中各物體和人的基礎(chǔ)上，基于各空間參考框架建立完備的空間關(guān)系表征：針對接收者中心、自我中心和物體中心空間參考框架，機器人需要以符合人類認知和語言規(guī)則的方式、基于各參照物來劃定其前后左右上下等空間范圍(Gu et al.,2016;Srimal et al.,2017)；對于指示參考框架，機器人則需要識別指令發(fā)出者的手指方向、頭部朝向或視線方向，并基于人類的認知習慣劃定“這”“那”“大概這邊”“大概那邊”等指示的空間范圍(Hato et al.,2010)；對于世界中心參考框架，機器人則需要配置羅盤或GPS裝置，使其維持東南西北的方向感。當前相關(guān)的機器人研究，大多只針對某一類參考框架任務展開，場景也多為實驗室預設(shè)的簡單場景，還不能達到像人一樣在真實復雜情境下同時建立多個參考框架空間表征。

在空間語言處理方面，機器人面臨的挑戰(zhàn)是處理非約束的、模糊的、多變的自然語言，包括：(1)從非約束的自然語言中提取出關(guān)鍵的空間信息(Fasola & Matari?,2014;Huo,Alexenko,& Skubic,2014)。比如機器人能夠從“請你去餐桌拿一杯水放到我的書桌上我一會兒要喝”這句日常對話中提取出關(guān)鍵的空間信息“去餐桌”“拿一杯水”“放到我的書桌上”。(2)基于自然空間語言構(gòu)建語義地圖，以提升對未知、非結(jié)構(gòu)復雜場景的空間環(huán)境識別能力(Walter,Hemachandra,Homberg,Tellex,& Teller,2014)。比如在一個未知環(huán)境中，機器人能通過分析人類的語音指令“廚房在走廊盡頭”建構(gòu)出走廊和廚房的空間位置關(guān)系，從而彌補或修正基于視覺傳感器掃描建構(gòu)空間表征導致的誤差。(3)理解和表達模糊的、相對的概念和描述。比如“一起”“稍微分散”“散開”(Edirisinghe,Muthugala,Sirithunge,& Jayasekara,2018)，遠近、大小、深淺(Muthugala & Jayasekara,2017)，又或者是“那個戴眼鏡穿粉紅色襯衫的女孩”(Mao et al.,2016)。(4)能夠根據(jù)語境理解和表達空間和物體的不同概念層級(Hagiwara,Inoue,Kobayashi,& Taniguchi,2018)。比如理解“在家里”、“在客廳”或“在電視機前”是同一個空間位置，“那輛車”、“那輛小轎車”或“那輛奔馳”是同一個物體。盡管在上述各個方面機器人研究都取得了一定進展，但也存在場景多為實驗室預設(shè)簡單場景、語言指令較為簡單和缺少整合性研究的問題。

3.3 機器人的心理理論

在空間語言交互任務中，早期的研究者主要強調(diào)在空間環(huán)境感知層面賦予機器人心理理論，即機器人能夠正確地對他人進行空間視角采擇(Trafton et al.,2005)，近年來，越來越多的研究者提出還應該在目標、計劃和行動層面賦予機器人心理理論(Devin & Alami,2016;G?rür et al.,2018;Lemaignan et al.,2017;Winfield,2018)，即機器人能夠理解任務目標和計劃，并在整個任務流程中監(jiān)控對方的行為以實時表征他人的態(tài)度和信念。

盡管各研究實現(xiàn)機器人心理理論的方法不同，關(guān)注的具體任務各異，但實現(xiàn)目標和基本思路大致相同。在實現(xiàn)目標上，各研究均期望機器人能夠合理地預測對方的行為，而非被動地等待對方的反饋。在實現(xiàn)的基本思路上，大多數(shù)研究都會分別建構(gòu)兩個模塊來分別表征機器人自己和對方的認知心理狀態(tài)，并通過一個總的任務管理器來跟蹤管理任務的進程。在具體的任務上，已有的研究涉及：預測他人行進路線、模擬他人行為(Winfield,2018)；處理預期之外的人類行為，包括人突然不想完成既定任務、人接到了另一個任務、人感覺到了勞累或者人突然不想讓機器人幫忙等(G?rür et al.,2018)；監(jiān)控對方行為以合理推論其對當前情境的知識狀態(tài)，比如對方短暫離開、走神等(Devin & Alami,2016)。

3.4 機器人空間認知的未來研究方向

在上述機器人空間視角采擇、參考框架、心理理論研究的基礎(chǔ)上，未來的機器人空間認知研究，應該朝向更加高效、更加整合、更加以人為中心的方向發(fā)展。

在視角采擇能力方面，除了加強機器人對復雜環(huán)境和物體的識別能力之外(朱博等,2017)，還可以進一步加強機器人對視線方向計算的精度，比如賦予機器人眼動識別能力以更精確地確定他人的視線方向，在計算層次1視角采擇時考慮人的視野大小等(Fischer & Demiris,2016)。

在空間參考框架處理能力方面，有兩大可以提升的方向：其一，在每一個可命名的要素層級對交互情境中涉及的人、物體和空間場景進行識別，以建構(gòu)層次更加豐富的空間表征、適應人們靈活選取空間參照物的特點。比如在圖1的場景中，帶紅色圓點的木塊可以基于汽車(“在汽車后面”)或汽車的一部分來(“靠近汽車尾部”)定位，這就要求在識別汽車時，還需要識別出它的尾部、頭部、前后車輪、前后車門等人們常常使用的可命名單位。同樣，對人的識別也需要再進一步識別出軀干、頭、手等經(jīng)常被用作空間參照物的部位(Robertson,2004;Waller,Lippa,& Richardson,2008)，以保證機器人能夠建立諸如“目標物在你的視線前方”或“目標物在你的身體右側(cè)”等空間表征。其二，打通各類空間參考框架研究之間的壁壘，在一個整合的空間參考框架處理模塊之下，實現(xiàn)機器人自由使用和靈活切換各空間參考框架，比如能把“我的左邊”轉(zhuǎn)換為“你的右邊”、“你的東邊”、“汽車前面”或“這邊”。

在心理理論能力層面，還可以進一步提升機器人對用戶的適應性交互(user-adaptive interaction)(Martins et al.,2019;Rossi et al.,2017)，使得機器人更加“以人為中心”。一方面，要讓機器人能夠更準確地識別人類用戶的行為和能力、推論其意圖和目標，在此基礎(chǔ)上選擇最適合的空間參考框架進行交互。另一方面，還要賦予機器人自主學習和反饋調(diào)整的能力。比如，當發(fā)現(xiàn)對方不能理解某種空間參考框架時，能夠及時轉(zhuǎn)換為另外一種空間參考框架表述；在與某位用戶進行短暫交互之后，對其空間語言參考框架偏好有所把握，并在之后的交互過程中投其所好。

最后，機器人空間智能研發(fā)的終極目標是建立一個整合的、以人為中心的機器人空間語言交互處理系統(tǒng)(Lemaignan et al.,2017)。該系統(tǒng)應當包括視角采擇、參考框架處理、心理理論等重要認知模塊，能夠處理確定任務目標、判斷對方意圖、識別自我-他人視角下的空間場景、規(guī)劃可能的空間語言、選擇并說出空間語言、理解自然空間語言、獲得反饋并基于反饋進行調(diào)整等各項任務。最終實現(xiàn)機器人以符合人類認知習慣的方式、流暢高效地與人進行空間語言交互，成為人類信任和喜愛的伙伴(Broadbent,2017)。

4 總結(jié)

基于“以人為中心”的原則，賦予機器人與人智能同構(gòu)的空間認知能力，是實現(xiàn)機器人像人一樣可以通過自然空間語言交互的關(guān)鍵。它要求我們一方面深刻理解人類的空間語言交互的認知機制和過程，另一方面將人類的認知機制和過程應用到機器人研發(fā)當中。

通過對人-人空間語言交互的認知機制的分析，我們發(fā)現(xiàn)除了強大的視覺加工和語言處理能力之外，人類還擁有獨特的空間視角采擇和心理理論能力，并能夠處理多種空間語言參考框架。在對人-人空間語言交互過程進行抽象概括的基礎(chǔ)上，我們提出了人-人空間語言交互模型，劃分出交互過程中的重要任務階段，包括：確定任務目標、判斷對方意圖、識別自我和對方視角下的空間場景、規(guī)劃可能的空間語言、選擇并說出空間語言、理解空間語言、獲得反饋并評估；并對各任務階段間的關(guān)系及其背后的認知機制進行了論述。

在充分認識人-人空間語言交互的認知機制的基礎(chǔ)上，我們提出了以人為中心的機器人空間認知方案。機器人應當具有空間視角采擇能力，能夠識別環(huán)境中的各種空間參考框架，聽懂和表達各種參考框架下的自然空間語言指令，能夠運用心理理論判斷對方的意圖并根據(jù)用戶反饋及時調(diào)整交互策略。盡管當前機器人空間認知研究在上述各個方面都取得了一定的進展，但仍需朝著更加高效、更加整合、更加以人為中心的方向不斷前進。