?
□文/毛文濤
說到未來,大家腦海中都是科幻片,天上飛的地上跑的,到處都是人工智能,顯示無處不在,交互無所不能。在那個(gè)完美得無欲無求的世界里,好像除了擔(dān)心一下機(jī)器人起義,或者外星人入侵,也沒什么別的好擔(dān)心的了。
但當(dāng)我們今天在看VR/AR時(shí),卻充滿了悲觀和疑惑。頭盔太重,計(jì)算資源不足,充電2小時(shí)只能維持VR體驗(yàn)五分鐘。我們所想象的未來,到底怎么實(shí)現(xiàn)?這條路的確長(zhǎng),我們都會(huì)走彎路,但方向正確很重要。
毛文濤 uSens中國(guó)研發(fā)中心技術(shù)總監(jiān)、首席研究員,計(jì)算機(jī)視覺及機(jī)器學(xué)習(xí)專家
初看“表達(dá)”和“理解”這兩個(gè)詞很抽象,回顧一下人類發(fā)展史,幾千年來,人們?cè)谧鍪裁??本質(zhì)上就是在摸索建立人與自然環(huán)境之間的關(guān)系,并逐漸形成了一種自然的溝通方式。比如,大自然呈現(xiàn)的一切,刮風(fēng)、下雨、霧霾都叫做表達(dá),人去了解自然世界,會(huì)多穿衣、撐雨傘、戴口罩這就叫做理解,能與自然溝通。而這已經(jīng)無法滿足人的需求與欲望,人們?cè)诹私夂透脑炜陀^世界的同時(shí),又創(chuàng)造了一個(gè)龐大的虛擬世界,來釋放我們的想象力。于是,我們需要尋找一個(gè) “人-客觀世界-虛擬世界”三者間的表達(dá)和理解的方式。舉例來說,人使用鍵盤鼠標(biāo)給電腦命令是一種表達(dá),而電腦找到命令對(duì)應(yīng)的顯示內(nèi)容是虛擬世界對(duì)人類的理解;再或者物聯(lián)網(wǎng),它就是使用各種傳感器來實(shí)現(xiàn)虛擬世界和客觀世界的表達(dá)和理解。
自然的表達(dá)
我們可以從身邊的一些東西說起,比如從一開始的打印機(jī)到現(xiàn)在每人一部的智能手機(jī),我們都在嘗試著更直接、更自然、更舒服的表達(dá)方式。方向鍵能實(shí)現(xiàn)鼠標(biāo)的功能,鼠標(biāo)也能實(shí)現(xiàn)觸摸屏的功能,那為什么我們還需要這樣不斷進(jìn)步呢?那就是所謂的自然地表達(dá),人類一直不停追求自然、舒服的使用方式。
那么哪些表達(dá)式是自然的呢?筆者認(rèn)為它和我們的成長(zhǎng)有關(guān),人類一直進(jìn)化到今天,很多常用的方式已經(jīng)在我們心中不可更改的成為一種本能反應(yīng)。比如說我們習(xí)慣用身體移動(dòng)來表達(dá)位置信息,用頭部旋轉(zhuǎn)來選擇視野范圍,用說話、面部表情來進(jìn)行交流溝通,用動(dòng)作手勢(shì)去直接進(jìn)行交互等等。
智能的理解
對(duì)于計(jì)算機(jī)來說,對(duì)人類的理解也不再只是明白那幾個(gè)命令行的意思,它能利用現(xiàn)在的高科技去理解我們這些自然的表達(dá)。現(xiàn)在計(jì)算機(jī)具備超越人的人臉識(shí)別技術(shù)、實(shí)時(shí)語音識(shí)別技術(shù)等,而這些都是計(jì)算機(jī)對(duì)人類更自然更高階的表達(dá)方式的一種理解。
在VR與AR中如何實(shí)現(xiàn)自然的表達(dá)和智能的理解是我們一直探索的問題。重新打造出“自然交互”的感受,需要考慮多維度的問題。
光有旋轉(zhuǎn)還不夠,位移檢測(cè)很必要
我們可以回憶一下大家玩CS的經(jīng)歷。這個(gè)游戲是第一人稱的射擊游戲,它的一大突出特點(diǎn)就是沉浸感很強(qiáng),因?yàn)槭堑谝蝗朔Q。所以玩家玩得格外投入,每過一個(gè)轉(zhuǎn)角,玩家都可能下意識(shí)地把身體往邊上動(dòng)一動(dòng),好像就可以看到墻背后的那個(gè)人一樣;如果前面有一堵矮墻,玩家就會(huì)忍不住抬起脖子。這是非常有意思的行為,因?yàn)樵诰o張的時(shí)候,在沉浸感很強(qiáng)的時(shí)候,玩家使用的是“人的本能”,而不是鼠標(biāo)鍵盤,這就是人的自然表達(dá)。
所以當(dāng)Oculus推出的時(shí)候很受大家追捧,因?yàn)樗茏x懂我們的自然表達(dá),它知道我們?cè)谵D(zhuǎn)動(dòng)頭部的時(shí)候,是希望看到不同方位的內(nèi)容,這就是它最吸引人的地方。但是當(dāng)我們對(duì)VR開始進(jìn)一步研究的時(shí)候,我們發(fā)現(xiàn)這還不夠。不光是旋轉(zhuǎn)我們還需要位移,所以不管是外接了一個(gè)攝像頭,或者是用雷達(dá)定位,或者用SLAM對(duì)場(chǎng)景進(jìn)行建模定位等基于視覺的一些方式,我們都希望VR能更進(jìn)一步的理解人類移動(dòng)這個(gè)更自然的表達(dá)。這雖然只是一個(gè)很簡(jiǎn)單的表達(dá),卻需要我們做大量的研究,不過這小小的進(jìn)步也會(huì)讓我們有飛躍般的體驗(yàn)。人用最直觀的身體來代替鼠標(biāo)和方向鍵,我們才會(huì)有VR主題公園中各種炫酷的體驗(yàn),我們可以是真的戴上裝備就在這個(gè)世界跑了。
露個(gè)腦袋去窺視 身體雙手去哪了
再進(jìn)一步來說,例如我們跑到敵人背后,想揮舞小刀的時(shí)候,該怎么辦?我們就希望電腦能明白我們的動(dòng)作,此時(shí)我們做什么就是另外一個(gè)自然的表達(dá),不然就會(huì)像現(xiàn)在大多數(shù)的VR體驗(yàn)一樣,感覺自己是透過一個(gè)小洞,一直只能窺視著那個(gè)虛擬世界,我們感覺不到交互,只感覺我們像漂浮在空中,一直在看那個(gè)世界,只有真正理解了我們的動(dòng)作,我們才能真正地和這個(gè)虛擬世界交互。
所以計(jì)算機(jī)需要理解我們的動(dòng)作,而人的動(dòng)作有兩種,包括身體的和雙手的。說到身體的人體姿態(tài)估計(jì),微軟的確算是一個(gè)很好的例子, xbox kinect的意義在于把很多家庭帶入到用身體打游戲的時(shí)代,這雖然只是一個(gè)小小的改進(jìn),它只是理解了玩家身體的一個(gè)表達(dá),卻讓我們的體驗(yàn)截然不同,把我們帶到一個(gè)更高階的體驗(yàn)?zāi)J?。所以我們就希望在說身體表達(dá)的時(shí)候,我們能夠更多地被理解。身體的表達(dá)除了身體的移動(dòng)以外,還有一種就是手勢(shì)。其實(shí)人大多數(shù)跟外界的交互都是用手,對(duì)手勢(shì)的理解,才是我們能進(jìn)一步將AR/VR達(dá)到下一個(gè)體驗(yàn)階段的目標(biāo),現(xiàn)在包括uSens在內(nèi)的各大廠商都在努力做這件事情,就是希望把大家?guī)У较乱粋€(gè)階段的虛擬世界去體驗(yàn)。
虛擬現(xiàn)實(shí)+人工智能=真正的未來
當(dāng)然,剛才說過我們不光需要追求人和虛擬世界之間的相互溝通,更多的是建立人、客觀世界和虛擬世界這三者之間的表達(dá)和理解。在這個(gè)過程當(dāng)中,我們的電腦需要感知周邊的客觀世界,比如沙發(fā)、茶幾、墻等等,他們其實(shí)就是一種環(huán)境的表達(dá)。我們看似很簡(jiǎn)單的東西,其實(shí)需要大量的研究才能去理解它是什么。這個(gè)時(shí)候我們就需要對(duì)這些場(chǎng)景進(jìn)行建模,讓我們知道周邊是什么樣的。例如在VR中,我們也不希望在玩游戲的時(shí)候撞到家里的各種東西,或者例如在AR中,假如有一個(gè)虛擬的茶杯,我們的認(rèn)知是它應(yīng)該放在面前的桌上,而不是漂浮在空中。
這還不夠,我們未來的游戲很可能會(huì)加入很多的人工智能技術(shù),想象一下,如果我們能識(shí)別我們身邊的物體,隨時(shí)動(dòng)態(tài)地將這些物體添加到我們的游戲或者應(yīng)用中,變成虛擬世界中的一個(gè)道具,這樣對(duì)游戲或者應(yīng)用的設(shè)計(jì)來說,提出了更高的挑戰(zhàn),將會(huì)有更大的想象空間。這不單單是在虛擬世界,這是在更高一個(gè)層次去重新設(shè)計(jì)我們的用戶體驗(yàn),想想還是挺讓人激動(dòng)的。
我們?cè)賮硐胂敫屓思?dòng)的事兒?,F(xiàn)在語音交互已經(jīng)不是一個(gè)新鮮事了,除了語音的交互,電腦跟人類的溝通,了解你的表情等,當(dāng)我們加入更多的人工智能到VR里面的時(shí)候,它會(huì)是個(gè)什么樣的表達(dá)呢?舉個(gè)簡(jiǎn)單的例子,我們現(xiàn)在游戲里的NPC,就像一個(gè)復(fù)讀機(jī)一樣,每次對(duì)你說的只是“ 前面的村莊著火了,去拿10瓶水”,你再點(diǎn)一下,還是重復(fù)說“前面的村莊著火了,去拿10瓶水”,這樣就是個(gè)純粹的擺設(shè)。如果在VR里面,我們不能被這樣傳統(tǒng)的NPC打破沉浸感。
那我們?nèi)绾稳ピO(shè)計(jì)VR里面的人工智能呢?首先我們要更高層次的理解。例如以后的NPC將是這樣的,你沒看他的時(shí)候,他說:“嘿,看看我?!盢PC不光了解玩家頭的狀態(tài),還能了解玩家的游戲歷史,包括玩家是如何去玩這個(gè)游戲,喜歡什么樣的道具,喜歡什么樣的任務(wù)等等,不是虛擬的兩個(gè)坐玩家旁邊的毫無意義的人,而它可以和玩家聊天,陪玩家一起玩游戲等,VR和AR提供了個(gè)更大的平臺(tái),我們把更多的人工智能技術(shù)融入其中,這就是VR中的人工智能。
至今,我們?nèi)詿o法讓未來到來。筆者認(rèn)為,這是因?yàn)榧夹g(shù)層面上有一些門檻還沒有跨過去,其中主要有兩個(gè)問題,一是移動(dòng),二是交互。
先來看移動(dòng)VR的潛力。資本市場(chǎng)一向都是產(chǎn)業(yè)發(fā)展的風(fēng)向標(biāo)和催化劑。繼 2015 年 VR領(lǐng)域投資大熱之后,2016年這種態(tài)勢(shì)仍舊在延續(xù)。但是區(qū)別在于,一線的投資機(jī)構(gòu)在選擇投資的公司上,顯得更加謹(jǐn)慎, 投資的方向也出現(xiàn)了新的趨勢(shì)。舊金山的一家專注于投資虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的風(fēng)投公司 Presence Capital的創(chuàng)始人Amitt Mahajan 最近發(fā)表了一篇文章,認(rèn)為“移動(dòng)VR將會(huì)是虛擬現(xiàn)實(shí)中應(yīng)用最廣的一種形式”。硅谷創(chuàng)業(yè)公司uSens凌感近期將完成由復(fù)星(昆仲)領(lǐng)投、達(dá)晨創(chuàng)投等多家VC跟投的數(shù)千萬美元A輪融資,投資方全部為一線主流投資機(jī)構(gòu),額度巨大。先不談技術(shù),從資本推動(dòng)產(chǎn)業(yè)的角度看,移動(dòng)VR的潛力開始初步顯現(xiàn),而且后續(xù)爆發(fā)力更強(qiáng),就像智能手機(jī)以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展一樣。
再來看VR和AR場(chǎng)景內(nèi)的交互。更自然、更便捷的雙手操作和表達(dá)無疑是人與自然世界最終的交互方式,它將改變?nèi)嗽谛碌幕旌鲜澜纾ㄌ摂M世界和現(xiàn)實(shí)世界)的認(rèn)知。而當(dāng)成熟易用的手勢(shì)跟蹤成為VR/AR標(biāo)配的時(shí)候,VR/ AR才會(huì)成為一個(gè)整體被普通用戶所接受。
復(fù)雜非直接的交互方式(鼠標(biāo),鍵盤)會(huì)拉開不同時(shí)代的人之間的差距,而自然直接的交互方式(觸摸屏上手的觸碰,放縮等)則會(huì)拉近時(shí)代間的距離。因此當(dāng)完善的手勢(shì)作為產(chǎn)品推向大眾市場(chǎng)的時(shí)候,它不需要用戶去學(xué)習(xí),將交互變成“無形”,并且它將VR所具備的“真實(shí)體驗(yàn)”不受破壞的甚至加倍的傳達(dá)給用戶,這將會(huì)讓用戶能更快地接受和使用。而這也成為了促進(jìn)VR產(chǎn)業(yè)化、規(guī)?;钠鯔C(jī)。
不僅如此,AR技術(shù)的成熟,將和VR進(jìn)行融合。VR的世界是給人類一個(gè)完整的虛擬世界,而AR則是更進(jìn)一步的將真實(shí)世界和虛擬世界完美的融合,搭建一個(gè)人、物理世界和虛擬世界三位一體的生存空間。所以AR/VR帶來的不僅是手機(jī)對(duì)人類的意義,它甚至?xí)砣缃煌üぞ甙銊潟r(shí)代的意義。而另一方面,由于VR/ AR需要從計(jì)算能力、傳輸能力、集成化能力、傳感器能力到人工智能全方面的產(chǎn)業(yè)鏈支持,所以會(huì)極大地推動(dòng)各產(chǎn)業(yè)的發(fā)展:芯片運(yùn)算能力的大幅度提升,高度的集成化微型化,5G、6G網(wǎng)絡(luò)的推廣,物聯(lián)網(wǎng),計(jì)算機(jī)視覺,人工智能,大數(shù)據(jù)等領(lǐng)域的飛速發(fā)展。由此產(chǎn)生的規(guī)模效應(yīng)會(huì)帶給目前各領(lǐng)域一個(gè)快速發(fā)展的時(shí)機(jī)。
我們一直希望能夠?qū)崿F(xiàn)客觀世界、虛擬世界和人三者融為一體,我們把這種體驗(yàn)稱為“SuperReality(超級(jí)現(xiàn)實(shí))”,打通這三者溝通壁壘,建構(gòu)一個(gè)能夠互相之間自然的表達(dá)和智能的理解的平臺(tái)。我們只是在這個(gè)方向上邁出了一小步,正在嘗試和摸索中。
uSens凌感的愿景是基于現(xiàn)實(shí),超越現(xiàn)實(shí),通過將科技與藝術(shù)相結(jié)合,成為一個(gè)VR/AR界里面的印象派。目前,uSens凌感研發(fā)了融合AR+VR+六自由度頭部追蹤+26自由度手勢(shì)追蹤的移動(dòng)端頭顯設(shè)備,這也是uSens凌感2016年的產(chǎn)品方向。這條路很長(zhǎng),uSens凌感作為先期實(shí)踐者將與開發(fā)者一同努力,去構(gòu)建“人、客觀世界、虛擬世界”三者間自然的交互平臺(tái)。
首先,在VR/AR中的自由切換,將使我們不再局限于虛擬內(nèi)容,而是可以和身邊的物體進(jìn)行交互,來開發(fā)游戲或者各種應(yīng)用。uSens凌感看到了VR /AR之間的切換的確給人帶來很多不同的體驗(yàn)。
其次, 就是三維自然手勢(shì)交互,它包括:最基礎(chǔ)的第一層次——靜態(tài)手勢(shì),它能實(shí)現(xiàn)的是一些很簡(jiǎn)單的動(dòng)作手勢(shì),但體驗(yàn)不夠自然。假如你要拿起一個(gè)蘋果,并不是在蘋果旁邊擺一個(gè)抓取的姿勢(shì),說:“嘿,我已經(jīng)放了2秒了,你該上來了?!边@是不科學(xué)的,因?yàn)檫@不是人類的正常交互,而應(yīng)從你去觸碰到蘋果的那一瞬間,蘋果在慢慢地被你拿起。第二層是動(dòng)態(tài)手勢(shì)的識(shí)別,它不光支持靜態(tài)手勢(shì)的動(dòng)作,它還可能會(huì)有一個(gè)時(shí)間序列來進(jìn)行手勢(shì)識(shí)別,比如說手的揮動(dòng)、手的點(diǎn)擊等。例如,uSens凌感開發(fā)的Pi Ui可以通過手勢(shì)在主界面中進(jìn)行菜單的滑動(dòng)、翻頁、選擇等。這種算法已經(jīng)能給人相當(dāng)好的感受,讓人覺得很自然,感到自己已經(jīng)能用手去操作了。
但是這還不夠,最后一個(gè)層次就是自然手勢(shì)跟蹤,這就是不再拘泥于某一個(gè)靜態(tài)手勢(shì),或者某一個(gè)短時(shí)間的動(dòng)態(tài)手勢(shì)了。它是從頭到尾時(shí)刻都在跟蹤用戶的各種復(fù)雜動(dòng)作,提取手的所有關(guān)節(jié)點(diǎn),并且持續(xù)理解這些動(dòng)作的含義,每一時(shí)刻都知道用戶在做什么,和人的自然交互是一樣的。
為什么一定需要這樣的手勢(shì)呢?如果只是跟蹤了手的位置,隨后按個(gè)按鈕就可以完成了,為什么uSens凌感的研究人員需要大費(fèi)周章的去制作那么多的關(guān)節(jié)點(diǎn)呢?我們可以先來分析下人在做動(dòng)作的時(shí)候如何感受“真實(shí)”。
大家閉上眼睛,想象面前有一個(gè)蘋果,然后假想自己去抓起這個(gè)蘋果,讀者是不是能感受到自己已經(jīng)拿起了蘋果呢?大家會(huì)覺得很神奇,的確我們?cè)谟檬秩プヌO果的時(shí)候,我們仿佛真的感受到了蘋果的存在。所以說人感受動(dòng)作的真實(shí)主要是分為兩部分:動(dòng)作本身和外界反饋。而這個(gè)動(dòng)作本身需要符合我們?nèi)说慕?jīng)驗(yàn)知識(shí)和認(rèn)知。
我們?cè)僮鲆粋€(gè)實(shí)驗(yàn),還是閉上眼睛,想象面前有一個(gè)蘋果,但是這次只允許握著拳,不允許張開手,然后去拿起蘋果,這時(shí)候讀者能感受到那個(gè)蘋果隨著你的拳頭一起起來嗎?很難吧,這就是因?yàn)樗`背了我們?nèi)说恼J(rèn)知,違背我們長(zhǎng)期以來的本能反應(yīng)。所以我們一定要做符合認(rèn)知的動(dòng)作,這是感受到真實(shí)的第一步,然后基于此,再加上聲音的反饋、交互的反饋,比如“蘋果起來了”,還有力的反饋等,人就能真正地體驗(yàn)到真實(shí)了。這就是為什么我們要花精力去做自然手勢(shì)的跟蹤。
但是可能還有一個(gè)疑問,這有必要嗎?我們現(xiàn)在的游戲沒有它不是好好的嗎?筆者認(rèn)為不是手勢(shì)沒用,不是我們不需要,而是在自然手勢(shì)交互方面缺乏太多的想象力,沒有真正的技術(shù)去支持。
想象一下,游戲中添加了很多豐富的動(dòng)作,將能夠提升很多游戲的交互維度帶來新的體驗(yàn)。舉個(gè)例子,有款很有名的VR游戲叫“猜拳島”,玩家可以在其中玩“石頭、剪子、布”來進(jìn)行攻擊,這就打破了簡(jiǎn)單的點(diǎn)擊移動(dòng)操作的框架。
再比如,在解謎游戲中,加入了自然手勢(shì),我們可以輕輕觸碰、抓取、翻開道具,甚至我們可以手?jǐn)Q螺絲刀,可以任意在道具中翻箱倒柜,這將給玩家?guī)砩羁腆w驗(yàn)。筆者從小就喜歡《七龍珠》這部漫畫,在第一次接觸VR的時(shí)候就幻想著有一天筆者能親手發(fā)出一個(gè)沖擊波試試,通過不同手勢(shì)來控制能量的大小,這將非常炫酷。
所以自然的手勢(shì)跟蹤是真正的AR/VR所必須的,我們需要能準(zhǔn)確快速的識(shí)別復(fù)雜動(dòng)作,并且作為SDK提供給開發(fā)者。目前uSens凌感正在不斷優(yōu)化,已經(jīng)可以實(shí)現(xiàn)很多復(fù)雜動(dòng)作的識(shí)別。