未來的智能人機交互技術可以幫助人類從更多繁重的工作中解脫出來。實現(xiàn)真正的心的自由。
鍵盤主導了DOS,Mac和Windows設備則更依賴鼠標,多點觸控成就了iPhone,Kinect讓Xbox360走火,一種人機交互技術的革新往往能夠影響一個產業(yè)。
在全球科技界,人機交互仍然是創(chuàng)新的熱點領域,其創(chuàng)新應用出現(xiàn)在不少熱門科技產品之中。例如Siri就讓蘋果iPhone“有問必答、能聽會說”,微軟Kinect使體感操控成為現(xiàn)實,很多智能電視產品也加入了語音識別和體感操控的功能。
人機交互的方式上也日益多元化。英國的一家科技團隊正在嘗試創(chuàng)建一個工具,使其能將一套標準手勢實時翻譯成文字。這個工具被稱作“便攜式手語翻譯(Portable Sign language Transhto)”。手語使用者只需對著手機或電腦攝像頭做出手勢,該工具就可以立即基于數據庫將其翻譯成文本。他們現(xiàn)在準備支持英國手語,但這套系統(tǒng)完全可以用于處理美國手語(ASL)、默啟通手語(Makaton)、國際語言以及字母等。對于殘障人士是很大的幫助。
如今智能人機交互的應用越來越廣泛,“花樣”也越來越多。
Mirage Table:真人與虛擬影像的互動
由微軟推出的Mirage Table(幻影桌面)是一項頗為神奇的技術,它將兩臺3D投影儀、Kinect體感監(jiān)測儀、3D眼鏡以及人的動作結合在一起,打造出一個真人和影像互動的效果。通過Mirage Table,人們的所有動作都會被Kinecc捕捉并轉化稱3D影像,然后和已有的3D物品進行交互,比如用手移動影像中的多米諾骨牌、皮球等。同時一個實體物品可以通過虛擬影像復制出多個,也可以將移動虛擬物品到任何位置。
用戶只需要佩戴3D眼鏡就可以看到Mirage Table上3D投影的圖像。曲面設計可以讓操作者通過投影儀來與虛擬畫面實現(xiàn)互動交流,就像打保齡球一樣。“Mirage Table”還可以實現(xiàn)人與人之間的雙向寫作,通過Miragetable,兩個操作者不僅可以看到對方并談話,而且一個人可以與視頻中另一個人的虛擬對象進行互動交流,甚至可以“觸摸”虛擬對象。還可以一起下象棋、搭積木,甚至研究一些比較復雜的項目方案等。
如果說AR(增強現(xiàn)實)技術可以在現(xiàn)實的基礎上模擬出虛擬場景,讓人進入虛擬版的現(xiàn)實世界,那么Mirage Table則可以將用戶帶入一個虛擬的世界,想象一下,如果未來所有的網絡游戲都可以將用戶融入其中,在虛擬環(huán)境下直接操作,使用新奇的裝備,實現(xiàn)驚艷的特效,世界將會變得多么神奇!
基于Kinect的操控創(chuàng)新
微軟推出的Xbox 360體感外設Kinect很受用戶歡迎,但是它的意義并不僅僅是游戲外設,而在于對^機交互方式的探索和創(chuàng)新。正因為如此,Kinect技術才能被廣泛應用到其他創(chuàng)新產品之中,成為智能人機交互的經典產品。
國外一家專注于人機交互技術的創(chuàng)業(yè)公司3GearSystems利用微軟Kinect技術,推出了SDK包,能夠幫助開發(fā)者將手勢動作反饋到應用軟件之中。這套系統(tǒng)可以幫助3D建模人員更方便快捷地對模型進行拼裝操作,操作過程可以在普通顯示器之上呈現(xiàn)。開發(fā)者只需要購買Kinect傳感器和固定裝置就可以在這款SDK包的基礎上,設計新的APP產品。
Kinect的作用還不止于此。Oblong實驗室近期公布了一項科研成果,它將Kinect與Xbox上的IE瀏覽器結合起來,脫離鼠標來操作電腦屏幕,能夠實現(xiàn)一系列復雜的操作,例如拖動、擺放屏幕上的個體,對三維模型進行旋轉、縮放,進行復雜的命令操作,或者用手機、平板或遙控器來控制大屏幕,甚至可以多人玩游戲、通過手勢控制飛行器,在多個屏幕之間進行無縫切換等。
微軟研究院聯(lián)合華盛頓大學也研發(fā)出了一種名為Sound Wave的系統(tǒng),該系統(tǒng)可利用計算機內置的麥克風和揚聲器,提供與Kinect類似的對象識別及手勢識別功能。sound Wave將計算機的內置揚聲器用做超聲波(18-22KHz)發(fā)射源,其頻率會隨著你的手或身體的位置的變化而變化。然后,計算機的內置麥克風會測量這一頻率變化,并把參數告訴一套相當復雜的軟件,由該軟件計算出手勢和動作。
語音交互的行業(yè)應用
蘋果于2010年花2億美金親自將Siri收購,并將其深度融入到iPhone 4S中。Siri和手機緊密結合,可以極大提升設備的操作簡易性、環(huán)境適應性和真正意義上的智能性。實際上,不僅僅是Apple自己的iPad、iTV和車載設備,所有未來所謂的智能設備都將會使用Sift的模式。
但是智能人機交互技術在行業(yè)的應用中,還存在一些不足。以語音交互為例,傳統(tǒng)語音交互涉及的主要技術包括語音識別和語音合成等都已經比較成熟。在多年以前,IBM的語音識別軟件在PC上就有不錯的識別率了,而微軟名為Tellme的項目也持續(xù)了多年。然而,即使達到100%的準確率,僅限于輸入識別功用的語音識別不能代表智能人機交互的真正意義,它并不是革命性的。要實現(xiàn)完美的人機交互,語音技術就必須跟人工智能技術結合起來。
現(xiàn)在以語音方式為主的人機交互系統(tǒng)目前主要應用在如呼叫中心的IVR系統(tǒng)、智能手機等終端中的語音撥號,短信朗讀、車載語音導航系統(tǒng)等。但普遍存在交互模式比較機械固定(以聲控命令為主)、用戶體驗一般、交互過程繁瑣等問題。小i機器人是廣受歡迎的一款智能人機交互產品,這款產品的獨特之處在于,支持幾乎所有的人機交互渠道,包括IM、WEB、微博、短信、電話、手機應用等,通過文本和語音等方式和用戶進行智能自然的交互。
這款產品在技術上分為五個層面,最底層是知識體系和開發(fā)框架,整合了知識庫、對話庫、信息服務等資源,往上一層是機器人核心引擎和開發(fā)框架,能夠實現(xiàn)場景管理、知識推理等功能,再往上則是語義分析層,是機器人的核心引擎,能夠將人類語言轉化為機器可以理解的指令。然后是語義處理層,實現(xiàn)語音識別和話音合成的效果,最后一層是交互界面,可以采集語音,編解碼并輸入結果。小i機器人被應用到智能家電、電信、金融、網絡社區(qū)等多個領域,在自然語言處理、智能人機交互多渠道接入,機器人二次開發(fā)平臺方面都做出了很多創(chuàng)新。