翁冬冬 薛雅瓊
1 人和虛擬角色的互動
虛擬現(xiàn)實(VR)技術通過以計算機技術、人機交互為核心的高新技術生成逼真的視覺、聽覺、觸覺等多通道的、一定范圍內的虛擬環(huán)境,用戶可以借助必要的設備以自然的方式與虛擬環(huán)境中的物體交互,獲得親臨等同真實環(huán)境的感受和體驗。VR具有“3I”特性,即沉浸感(immersion)、交互性(interaction)和構想性(imagination),并且隨著同人工智能技術的不斷結合,VR系統(tǒng)表現(xiàn)出更多的智能性(intelligence),并逐漸向4I發(fā)展。
VR技術在發(fā)展的早期階段多用于軍事、航空航天、醫(yī)學、培訓、工業(yè)仿真、城市規(guī)劃等嚴肅的專業(yè)領域,充分利用3I特性對現(xiàn)實世界進行高精度的模擬與呈現(xiàn),輔助用戶研究分析,解決復雜問題。隨著Oculus Rift、HTC Vive和PlayStation VR等消費級VR產(chǎn)品的發(fā)布,VR技術逐漸從專業(yè)應用領域走向消費者市場,教育、娛樂等個人應用領域進一步蓬勃發(fā)展。
最簡單的VR應用是虛擬電影院,在用戶的視野前方設置一塊可以播放電影的巨大屏幕,雖然播放的資源仍然是原先的傳統(tǒng)電影,但是可以讓用戶享受到在電影院觀影的感覺。360°視頻則更進一步地不再固定用戶的視角,給予用戶更多自主選擇觀看視角的自由。嚴格來看,這兩者不能算作真正意義上的VR應用,因為并沒有充分體現(xiàn)出VR的3I特性,單單通過虛擬環(huán)境的360°環(huán)繞給人仿佛 “身臨其境”的感官錯覺,缺乏空間感知和運動支持,實現(xiàn)的沉浸感是粗糙而脆弱的,交互性和構想性更是不曾體現(xiàn)。它們最多只能作為當前階段缺乏成熟的制作VR互動體驗的經(jīng)驗,為方便廣大消費者了解VR技術而做出的折衷。
在真正的VR互動體驗中,用戶不再以一個旁觀者的角度觀看,而是走進故事中,親身存在于虛擬世界里,以第一人稱視角對虛擬世界進行感知與理解,通過四處走動加深對虛擬世界的空間感認知,同時通過自身活動影響周圍的虛擬環(huán)境和虛擬角色的發(fā)展,從而更深刻地感受到踏入一個全新世界的真實感。人和虛擬角色的互動就可以歸入這一范疇。如果需要實現(xiàn)復雜的、接近真實世界中人-人交互的人和虛擬角色的互動體驗,需要眾多相關技術的支持。
2 人和虛擬角色互動的
關鍵技術
如圖1所示,一個完整的人-虛擬角色交互環(huán)路及各環(huán)節(jié)中需要解決的關鍵技術包括:(1)虛擬角色對用戶的多通道交互輸入信號進行接收,即通過對用戶的頭部和手部進行空間定位,賦予虛擬角色感知用戶當前位置和視線方向,以及打招呼、遞東西等手部動作的能力;通過動作捕捉,對用戶全身的動作進行跟蹤;通過眼動追蹤,更準確地了解用戶注視點的變化;通過麥克風采集用戶的語音輸入。(2)虛擬角色根據(jù)用戶的多通道交互輸入信號,確定將要呈現(xiàn)給用戶的多通道反饋輸出信號,例如面對用戶的打招呼動作,確定是否做出反應,以及做出怎樣的反應。(3)虛擬角色將多通道反饋輸出信號通過自身的表情、姿態(tài)、動作、語音等形式呈現(xiàn)給用戶。
此外,在純虛擬的交互基礎上,可以進一步借助力觸覺反饋技術為虛擬角色提供觸覺支持,使交互具有更多的物理性,即用戶在虛擬環(huán)境中看到虛擬角色的同時,可以在真實世界的相同位置處觸摸到虛擬角色。
2.1 空間定位
為了給用戶提供真實的包含視、聽、觸多通道信息的虛擬環(huán)境,需要實時檢測用戶頭部的位置和視線方向,計算機能根據(jù)這些信息確定所要呈現(xiàn)的虛擬感官通道信息,并通過各通道的輸出設備實時呈現(xiàn)。為了使用戶在虛擬環(huán)境中體驗到更高的沉浸感,同時賦予用戶一定的手部交互能力,需要實時檢測用戶手部的位置和姿態(tài)并在虛擬環(huán)境中渲染,同時通過將手部與可交互的虛擬目標進行碰撞檢測做出交互判斷。
應用于VR領域的跟蹤技術,通常以傳感器為核心構建跟蹤系統(tǒng),根據(jù)選用的傳感器種類不同,跟蹤系統(tǒng)分為機械跟蹤、電磁跟蹤、超聲波跟蹤、光學跟蹤和慣性跟蹤。機械跟蹤會極大地限制用戶自身的運動,不適合人和虛擬角色存在豐富互動的應用。電磁跟蹤和超聲波跟蹤易受工作環(huán)境中磁場、金屬物體與刺激性聲波脈沖的干擾,抗干擾性較差,且跟蹤精度會隨著跟蹤范圍的增大而迅速衰減,也不適合包含空間定位,允許用戶在較大范圍內走動交互的應用。而光學跟蹤(包括廣義的光學跟蹤技術,例如激光掃描空間定位技術)和慣性跟蹤能夠實現(xiàn)較大的跟蹤范圍,且兩者相結合的跟蹤方案能夠取長補短,光學跟蹤提供高精度的空間定位,同時對慣性跟蹤中隨時間推移產(chǎn)生的較大累積誤差進行校正,慣性跟蹤克服光學跟蹤在遮擋、畫面模糊時定位失敗的問題,同時高采樣率確保能實時跟蹤目標的快速運動,保證交互的實時性,是當前技術階段中主流的空間定位解決方案。
2.2 動作捕捉
通過對用戶的手部進行空間定位,虛擬角色能夠感知用戶手部做出的簡單動作,例如:招手、遞送物體,并做出相應的回應,但是手柄實現(xiàn)的簡單空間定位無法完全跟蹤手部豐富自由度的運動,且在交互過程中持續(xù)地手持設備會干擾人-虛擬角色交互的自然性。為此可以采用手部動作捕捉技術,無需手持設備,裸手或者穿戴數(shù)據(jù)手套就能跟蹤全手運動,與虛擬角色自然互動。此外還可以進一步通過全身動作捕捉來實現(xiàn)用戶全身的運動跟蹤。
動作捕捉技術從實現(xiàn)方式上分場景深度解析方案和可穿戴方案兩種。場景深度解析方案通過光學傳感器接收到的光信號來分析場景的深度信息,進而確定手部或者全身的位置和姿態(tài),無需用戶手持或者穿戴專用設備就可實現(xiàn)動作捕捉,最大程度地減少真實世界的干擾,使人和虛擬角色的互動更加自然;但是獲取的人體骨骼運動較為粗糙,限制了交互的真實感。相比之下,可穿戴方案通過在用戶身上多個關鍵點處固定傳感器或者標志點,測量該點的位置變化或者彎曲程度,反算用戶的身體運動,實現(xiàn)的動作捕捉更為精細。
2.3 眼動追蹤
通過對用戶的頭部進行空間定位,虛擬角色能夠利用屏幕中心粗略地估計用戶的注視點,做出與用戶視線接觸等交互。若是需要更準確地確定用戶的注視點,以便更好地理解用戶的交互意圖,可以將眼動追蹤技術[1]集成至頭戴式顯示器中,例如FOVE頭戴式顯示器通過嵌入兩枚小型紅外攝像頭,采集被紅外發(fā)光二極管照亮的人眼的圖像,利用角膜反射法[2]計算用戶的眼球位置。endprint
眼動追蹤技術還能捕捉、記錄反映用戶一定情緒和認知過程的眼部活動[3-4],例如表征情緒狀態(tài)變化的瞳孔縮放和與心理負荷息息相關的眨眼頻率。綜合分析這些反映情緒和認知的眼動數(shù)據(jù)和其他通道獲取的用戶輸入,能更好地判斷用戶的情緒和交互意圖,使虛擬角色做出更加合適的反應。
除此之外,利用眼動追蹤技術獲取的眼球運動數(shù)據(jù),還可以實現(xiàn)模擬人眼視覺的視網(wǎng)膜中心凹渲染技術。該技術可以只對視域中央的畫面進行高分辨率渲染,視域邊緣采用逐漸降低的分辨率,大幅降低硬件計算負擔,避免精細地渲染整幅畫面耗費大量計算資源,導致渲染幀率下降,人-虛擬角色互動實時性變差[5-6]。
2.4 語音輸入
人們傾向于將交互對象擬人化,面對一個虛擬角色,尤其是類人形時,會自然地期待它能表現(xiàn)出類似人類的行為,而語音交互作為人-人交互中最重要交互手段之一,非常有必要實現(xiàn)于人-虛擬角色互動中。
在交互過程中,虛擬角色將采集到的用戶語音輸入,先通過語音識別轉化為相應的文本內容,再通過語義理解進行基于上下文的交互意圖判斷,同時虛擬角色還可以通過對音調、響度等聲學特征和語音內容進行分析,判斷用戶在與之互動時的情緒變化[7-8],綜合分析用戶的交互意圖和情緒,做出更為合適的反應。
2.5 反饋控制系統(tǒng)
反饋控制系統(tǒng)的作用在于根據(jù)獲取到的多通道交互輸入信號,確定將要呈現(xiàn)給用戶的多通道反饋輸出信號。傳統(tǒng)方式是建立一個由交互輸入到反饋輸出的程式化的映射,一切按照預先寫好的程序進行,一定的輸入必然對應一定的輸出,或者按照一定概率對應一系列輸出中的一種,這種程式化的虛擬角色反饋極度單調、不自然,缺乏使人與之長期互動的吸引力。
為了建立豐富的、自然的虛擬角色反饋,感知-控制-行動模型(SCA)、并行轉換網(wǎng)絡模型(PaT-Nets)[9]、等多種虛擬角色行為控制模型被建立,且隨著深度學習和大數(shù)據(jù)的不斷發(fā)展,在不久的將來虛擬角色甚至能夠以學習的方式自行建立起人-虛擬角色交互的反饋模型。
2.6 反饋信號渲染
反饋信號渲染的目標在于將包括表情、動作和語音在內的多通道反饋輸出信號呈現(xiàn)給用戶。為了使用戶感到虛擬角色是真實的,吸引用戶按照人-人交互的方式同虛擬角色互動,要求虛擬角色的表情、動作和語音都是接近真實的。
真實的表情和動作可以通過動作捕捉并錄制獲得,通過在動作錄制者的臉上和身上粘貼或繪制標志點,并對標志點進行跟蹤,即可利用跟蹤數(shù)據(jù)來驅動虛擬角色做出同樣的表情和動作,但是此方法獲得動作和表情需預先錄制,限制交互的豐富性。虛擬角色的表情和動作也可以通過深度學習進行訓練,目前Google使用強化學習算法訓練人工智能越過障礙物從起點跑至終點,已經(jīng)成功地使人形模型自行學會了行走、跳躍等動作[10],這種通過學習產(chǎn)生的動作和表情能夠實時生成無需預先錄制,同時有望做到非常接近真實的程度,但當前研究進展距離商業(yè)可應用還有一段不短的路要走。
傳統(tǒng)的語音合成方案為參數(shù)化語音合成和拼接式語音合成,均利用已有的聲音進行重組來合成新的語段音頻。該方式產(chǎn)生的語音能基本接近人類表達的流暢度,但是聽起來不自然,且由于無法產(chǎn)生可以自適應變化的語調和語速來反映說話者的情緒,很難讓人產(chǎn)生“我在跟一個人說話”的感覺。為了獲得真實的語音,一方面可以針對交互場景預先錄制,此方法同樣存在交互豐富性受限的問題;另一方面可以引入學習的手段,例如Google的WaveNet[11]利用真實的人類聲音和相應的語言、語音特征來訓練卷積神經(jīng)網(wǎng)絡,使其掌握不同語音、語言的模式,能夠實時合成出更加接近自然人聲的語音音頻,并且模擬一定的語調、情感和口音,但是距離讓用戶無法區(qū)分是機器合成還是真人講話尚有很大差距。
2.7力觸覺反饋技術
上述的關鍵技術已涵蓋人-虛擬角色交互的整個環(huán)路,但是無論是用戶的交互輸入還是虛擬角色的反饋輸出都完全虛擬,看得見摸不著,可能會發(fā)生用戶的虛擬化身穿過虛擬角色身體造成臨場感中斷的現(xiàn)象。為了避免出現(xiàn)此類視覺穿透現(xiàn)象破壞人-虛擬角色互動體驗,一方面可以通過巧妙的方式拉開人和虛擬角色之間的距離,但是遏制了視覺穿透可能性的同時也可能給交互帶來距離感;另一方面則可以在純虛擬的交互基礎上,借助力觸覺反饋技術為虛擬角色提供觸覺支持,避免視覺穿透的同時對視覺、聽覺雙通道交互進行觸覺通道的擴展。
力觸覺反饋技術從實現(xiàn)機制上分為主動式和被動式兩種。主動式力觸覺反饋設備包括場景/桌面式、手持式和可穿戴式3種:場景/桌面式設備固定放置于桌面上或者立于交互場景中,通過電機驅動操縱桿或者線繩的方式來輸出三維空間中的虛擬作用力,由于需要用戶一直與設備接觸以感受其產(chǎn)生的作用力輸出,會損傷用戶與虛擬角色互動時的沉浸感,并且有限的工作范圍也嚴重限制了人-虛擬角色交互的自由性,故不適合用于人和虛擬角色的互動體驗;手持式設備,顧名思義需要用戶時刻持于手中,通常以手柄、手持道具類設備出現(xiàn),通過振動觸覺、氣動等技術模擬作用于手部的力,同樣存在持續(xù)接觸干擾交互自然性的問題;可穿戴式設備通常以觸覺衣、臂帶和手套等形式出現(xiàn),利用振動、氣動、肌肉電刺激、擠壓、力矩操縱等技術模擬力觸覺作用于人體的感受,目前高精度的觸覺分布模擬的計算難關還未突破,只能對和虛擬角色的握手、擁抱等觸覺交互進行較為粗糙的實現(xiàn)。
被動式力觸覺反饋則是通過跟蹤真實世界中一個和虛擬角色近似1:1對應的實物,并在其上精確地疊加虛擬角色,使用戶在虛擬環(huán)境中看到虛擬角色的同時,在相同位置處觸摸到與虛擬角色對應的實物。該方案利用真實物體本身的屬性提供力觸覺反饋,真實感更高,并且不存在持續(xù)接觸的問題,更容易實現(xiàn)和虛擬角色的握手、擁抱等觸覺交互,但是需要在真實世界中存在一個相似于虛擬角色的實物限制了該類技術應用的靈活性。
當前階段,選用被動方案為靜態(tài)的虛擬角色提供力觸覺反饋更為自然真實。而隨著傳感驅動裝置的小型化集成技術更加成熟,隨著對觸覺這一感官通道的研究更加深入,對觸覺的模擬更加真實,使用被動方案或可穿戴式方案為動態(tài)的虛擬角色賦予物理性變得可行,其中被動方案的實現(xiàn)更加自然,接近真實世界中的交互;而可穿戴式方案更加靈活,可以方便調整為不同的虛擬角色提供力觸覺反饋。endprint
3 結束語
在虛擬環(huán)境中實現(xiàn)同虛擬角色的互動需要解決3個核心問題:如何實時精確地采集用戶的多通道交互輸入信號;如何建立虛擬角色的由交互刺激到反饋的“體現(xiàn)智能與情感的”映射;如何將虛擬角色的多通道反饋信號真實地呈現(xiàn)出來。就這3個核心問題,又需要解決一系列相關的關鍵技術。
對用戶交互信號的采集是3個環(huán)節(jié)中最依賴于硬件設備發(fā)展的一環(huán)。目前,空間定位和動作捕捉領域已有較多相對成熟的技術與產(chǎn)品,更多在于針對應用特性選擇適合的方案,光學和慣性相結合的空間定位與動作捕捉能提供較大范圍內高精度的空間定位和實時性高、無懼遮擋的動作捕捉,是當前適合于人-虛擬角色互動應用的成熟且優(yōu)秀的方案。眼動追蹤方面,目前已有FOVE、七鑫易維、Tobii等幾家公司完成了眼動追蹤技術到頭戴式顯示器的集成。近場語音識別更是在借助深度學習以后識別準確率有了實質性提高,已經(jīng)達到了初期的商業(yè)可用的階段。綜上所述,目前已有技術已經(jīng)能夠比較完整地實現(xiàn)用戶交互信號的采集環(huán)節(jié);而虛擬角色的由交互刺激到反饋的“體現(xiàn)智能與情感的”映射建立和多通道反饋信號的真實呈現(xiàn),目前還處于研究階段,需依靠認知心理學、人機交互、人工智能等技術的進一步發(fā)展。
虛擬角色的觸覺支持是對上述各環(huán)節(jié)實現(xiàn)的增強,避免發(fā)生視覺穿透現(xiàn)象影響交互沉浸感。目前觸覺的發(fā)展相對視覺和聽覺還有很大差距,并沒有一個完善的觸覺解決方案,使用和虛擬角色近似1:1的實物來提供被動力觸覺反饋只是一個權宜之計。還需待傳感驅動裝置的小型化集成更加成熟,或者對觸覺這一感官通道的研究更加深入之后,才能利用主動/被動方案為動態(tài)的虛擬角色提供更加靈活、真實的觸覺支持。
參考文獻
[1] DUCHOWSKI A T. Eye Tracking Methodology: Theory and Practice[M]. London:Springer, 2003
[2] SIGUT J, SIDHA S A. Iris Center Corneal Reflection Method for Gaze Tracking Using Visible Light[J]. IEEE Transactions on Bio-Medical Engineering, 2011, 58(2):411.DOI: 10.1109/TBME.2010.2087330
[3] GAO Y, BARRETO A, ZHAI J, et al. Digital Filtering of Pupil Diameter Variations for the Detection of Stress in Computer Users[C]//Proceedings of the 11th World Multi-Conference on Systemics, Cybernetics and Informatics. USA:IEEE, 2007:30-35.DOI: 10.1109/TBME.2010.2087330
[4] ISHIMARU S, KAI K, KISE K, et al. In the Blink of An Eye: Combining Head Motion and Eye Blink Frequency for Activity Recognition with Google Glass[C]// Augmented Human International Conference. USA:ACM, 2014:15. DOI: 10.1145/2582051.2582066
[5] PATNEY A, SALVI M, KIM J, et al. Towards Foveated Rendering for GazeTracked Virtual Reality[J]. ACM Transactions on Graphics, 2016, 35(6):179
[6] GUENTER B, FINCH M, DRUCKER S, et al. Foveated 3D Graphics[J]. ACM Transactions on Graphics, 2012, 31(6):164
[7] JUSLIN P N, SCHERER K R. Vocal Expression of Affect[J]. The New Handbook of Methods in Nonverbal Behavior Research, 2005: 65-135. DOI: 10.1093/acprof:oso/9780198529620.003.0003
[8] SCHERER K R. Vocal Affect Expression: A Review and A Model for Future research[J]. Psychological Bulletin, 1986, 99(2):143
[9] BADLER N I, WEBBER B L, BECKET W, et al. Planning and Parallel Transition Networks: Animation's New Frontiers[J]. Center for Human Modeling and Simulation, 1995: 91
[10] Google's DeepMind AI Just Taught Itself to Walk[EB/OL]. (2017-07-11)[2017-09-23].http://www.businessinsider.com/google-deepmind-ai-artificial-intelligence-taught-itself-walk-2017-7
[11] WaveNet: A Generative Model for Raw Audio[EB/OL]. [2017-09-23].https://deepmind.com/blog/wavenet-generative-model-raw-audio/
[12] SHOJI M, MIURA K, KONNO A. U-Tsu-Shi-O-Mi: the Virtual Humanoid You Can Reach[C]// ACM SIGGRAPH 2006 Emerging technologies. USA:ACM, 2006: 34endprint