王琬琳
人機交互技術是研究系統(tǒng)和用戶間交互關系的技術,系統(tǒng)不僅只是計算機界面和程序軟件,也可以是各種各樣的機械、設備。[1]如今,隨著人工智能的高速發(fā)展,人機交互技術開始和人工智能技術進行深度結合,并且人機交互從原始的圖形界面交互逐步向語音交互、手勢識別、腦機接口等方向拓展。盡管這些交互方式的運用使人們的生活更加便捷,但上述的每一種交互方式都存在著不可忽視的缺點。因此,當科學技術進一步提升后,探索更加人性化與智能化的人機交互方式成為人機交互發(fā)展的新主題。
人機交互的起點是文字界面(TUI)交互。計算機最早只存在于實驗室,主機龐大,售價極高,使用計算機的也都是經(jīng)過專業(yè)培養(yǎng)的專家。文字界面是計算機系統(tǒng)最初的樣子,它由成千上萬條命令行組成。這些命令行就是人機對話的第一步,用戶通過輸入命令行來完成與計算機的交流。但它的缺點十分明顯,首先,交互步驟冗長煩瑣,想與計算機交流需要輸入復雜的命令,用戶在此過程中極易產(chǎn)生疲憊感;其次,學習成本高,除了少數(shù)經(jīng)過專業(yè)學習的計算機專家外,大部分的普通人根本無法順暢地輸入和讀懂這些命令行。為了降低學習成本、簡化交互流程,讓大多數(shù)人也能順暢地使用計算機,人機交互迎來了它的第一次革命——圖形界面(GUI)交互。隨后,人機交互相繼進入手勢識別、語音交互、腦機接口階段。
1973 年, 在 施 樂 研 究 中 心(Xerox Palo Alto Research Center)誕生的第一個圖形界面,為之后圖形界面交互的發(fā)展指明了方向。當時施樂研究中心的研究員提出“桌面比喻”和“紙張范本”的概念,將電腦想象成一個桌面,各種功能程序就是桌面上的工具,程序文檔則是一張張摸不著的電子紙張。[2]自此圖形界面交互開始走入非計算機技術背景用戶的工作生活中,它通過運用實際物品轉(zhuǎn)化為虛擬物品的概念,幫助用戶把抽象的計算機程序具象化,使計算機操作更加符合人們在物理世界中的心智模型。比如,當我們想把多個文檔歸為一類時,我們就把它們?nèi)客蟿拥揭粋€文件夾里;當我們想把某一個文件刪除時,我們可以把文件拖動至回收站,就好像我們在物理世界里將垃圾丟進垃圾桶一樣。在施樂圖形界面研究的啟發(fā)下,比爾·蓋茨推出了Windows 操作系統(tǒng),并獲得巨大成功。
手勢識別是一種融合先進感知技術與計算機模式識別技術的新型人機自然交互技術,[3]計算機通過識別人類手勢,讓用戶在無需直接接觸設備的情況下,就可以使用簡單的手勢與設備進行交互。手勢識別是人機交互的第二次革命,人們開始嘗試脫離傳統(tǒng)的鍵盤、鼠標和觸屏,探索并搭建人機交流的其他橋梁。最初的手勢交互是利用定位在手部和肘部的設備,來檢測手部運動的軌跡,進而達到交互的效果。[4]這種依靠外部設備進行交互的方法雖然準確性高,但在很大程度上阻礙了人們手勢活動的自然表達,因此基于計算機視覺的手勢識別和交互技術應運而生。在此基礎上,人的姿態(tài)、步態(tài)、行為、面部表情識別技術也開始高速發(fā)展,由此,人機交互的設計理念開始從以“系統(tǒng)為核心”轉(zhuǎn)變?yōu)椤耙杂脩魹楹诵摹薄?/p>
語音交互是人機交互發(fā)展中的又一革命性交互方式。最早的語音交互是交互式語音應答(Interaction Voice Response)系統(tǒng),用戶通過電話撥號的方式與之進行交互,它無法回答用戶的問題,只能向用戶播報提前錄制好的聲音,比如語音信箱、傳真提示、撥號提示等。但這種交互式語音應答系統(tǒng)應用范圍窄、交互效率低且交互模式生硬呆板,并無法解決用戶生活中的很多實際問題。
由于交互式語音應答系統(tǒng)的諸多弊端,且無法解決用戶的很多實際問題,于是像Siri、Google、小愛同學這類集成了視覺和語音交互的移動端APP,以及Amazon Echo、小度這類純語音交互的智能產(chǎn)品誕生了。這些結合AI 技術的語音交互產(chǎn)品一經(jīng)問世就廣受好評,產(chǎn)品的誕生和成功不僅證明了語音交互的價值,更加速了語音交互技術的發(fā)展。
隨著AI 技術的提升,語音識別和語義理解技術也逐步成熟完善,語音交互類人化成為可能。交互形式也從一問一答的機械對話進階至更為流暢的多輪對話,甚至還能識別多國語言和地區(qū)方言,這使得語音交互在靈活度和體驗感上產(chǎn)生了質(zhì)的飛躍。
腦 機 接 口(Brain-Computer Interface,BCI),是涉及神經(jīng)科學、認知科學、計算機科學、控制及信息科學技術、醫(yī)學等多學科,多領域的人機接口方式,是在大腦與外部環(huán)境之間建立的神經(jīng)信息交流與控制通道。單向腦機接口允許大腦和計算機或接受腦之間單向傳輸信號,雙向腦機接口允許大腦和外部設備間進行信號的雙向交換。[5]腦機接口技術可以準確、快速地采集、識別出人腦在各種思想活動下的腦信號,并利用這些信號來控制外部設備。[6]
專家最初關注和研究腦機接口的目的,是為了恢復損傷的聽覺、視覺和肢體運動能力。研究員嘗試通過手術,用侵入式的人工BCI 裝置替換掉原有功能受損的神經(jīng)或感覺器官,人工耳蝸、人工視網(wǎng)膜、智能假肢等都在此背景下產(chǎn)生,并成功幫助人們實現(xiàn)了感覺功能恢復和運動功能恢復的目標。侵入式BCI 裝置的成功,使人們開始關注起半侵入式和非侵入式BCI裝置的研究,BCI 裝置也不再局限于醫(yī)學領域的應用。
不需要做任何額外的動作,只需要想一想信息就能動輸入,身邊的物品就能移動到想象的地方,智能的假肢使用起來不僅和真實的肢體無異,甚至還能產(chǎn)生觸覺反饋。這些無數(shù)科幻電影中都出現(xiàn)過的情節(jié),和曾經(jīng)看似瘋狂的想象,都已通過腦機接口技術成為現(xiàn)實,盡管現(xiàn)在腦機接口技術還不成熟,但它的出現(xiàn)無不是在告訴我們,未來已來。
就目前來看,人機交互已經(jīng)取得了巨大進展,但主流的人機交互方式還是以圖形界面交互為主,語音交互為輔。盡管手勢識別、腦機接口在應用層面已經(jīng)有了很大的進步,但由于技術應用范圍、設備品類、社會法規(guī)和倫理道德等問題,發(fā)展受限。而位于主流的圖形界面交互和語音交互也都有著無法忽視的短板。
圖形界面交互是人們接受度最高、使用率最高、使用時間最長的交互方式,但它依然存在一些不可忽視的缺陷:一,過度依賴人的視覺系統(tǒng)和設備的電子屏幕,如今智能設備的一大特點就是可視化,不論是產(chǎn)品自身搭載屏幕還是連接智能手機,都是在進行產(chǎn)品的數(shù)據(jù)可視化,過量的屏幕和數(shù)據(jù)可視化導致信息過載;二,交互方式單一,容易產(chǎn)生疲憊感,絕大多數(shù)圖形界面交互是通過鼠標點擊、鍵盤輸入和觸控的方式來完成交互操作,觸控看似是解放了鼠標和鍵盤,但其在本質(zhì)上,和鼠標點擊沒有任何區(qū)別,單一的重復操作會給用戶帶來疲憊感;三,對視力、肢體(主要是手部)有損傷的人來說操作困難,由于其對電子屏幕的依賴性和交互方式的單一,用戶不論是輸入信息還是讀取信息都易受到屏幕尺寸的影響;四,在AR 或VR 等沉浸式虛擬環(huán)境中應用性差,特別是當用戶與用戶在沉浸式虛擬環(huán)境中交流時,以虛擬鍵盤為主的文字輸入會降低用戶的體驗感。
語音交互作為同時解放人類手眼的信息交互方式,一經(jīng)問世就廣受好評,從搭載語音交互的智能音箱在市場上的火熱情況,就能反映出人們對于更加類人、智能化和自然式交互方式的渴望。語音交互的優(yōu)勢在于交互方式趨近自然、用戶學習成本低、可應用范圍廣,但語音交互也存在無法忽視的缺點:一,線性的輸入方式,讓它無法持續(xù)輸入和輸出較多內(nèi)容;二,信息識別易受環(huán)境影響,當用戶處于比較嘈雜的環(huán)境時識別受阻,且無法區(qū)分出不同用戶的聲音,容易導致識別出錯。
手勢識別能使用戶在不佩戴任何額外設備的情況下,和系統(tǒng)進行自然的交互,它和語音交互被視為駕駛情境下的最佳交互組合,在沉浸式虛擬空間場景中,更是擁有巨大的用戶價值,但其一直無法成為主流交互方式有以下幾個原因:一,人的雙手在沒有外物支撐的情況下,很難長時間停留在空中;二,人類在長期自然社交中產(chǎn)生的習慣,讓大多數(shù)用戶無法在室外、辦公、多人同居的家庭環(huán)境等公共場合中大量使用手勢交互;三,缺少觸覺反饋體驗,用戶在使用手機觸屏時能清楚地感知手指碰到了屏幕,但在手勢識別中,無法觸碰的虛擬鍵盤會導致用戶缺少觸覺情感體驗,從而降低用戶體驗。
盡管腦機接口已經(jīng)在感知恢復、運動恢復、感覺擴增、機器人替身等方面取得了不錯進展并得到了廣泛的使用,但由于腦機接口設備的低普及率和用戶接受度的未知,我們距離腦機接口真正走入大眾的日常生活還有一段不短的距離。
從人機交互的發(fā)展歷史、現(xiàn)狀和不足來看,沒有哪一種人機交互方式是完美的,也沒有哪一種人機交互方式是無用的。未來人機交互發(fā)展真正需要關注的問題也不再是某一種新穎具體的單一交互方式的實現(xiàn),而是在以用戶為核心的理念上,多種交互方式相結合,智能產(chǎn)品智能物聯(lián)后形成多模態(tài)交互網(wǎng)絡,通過情景感知,讓“機”主動服務于人。將多種交互方式相結合,每種交互方式都能在發(fā)揮長處的同時補足短板,現(xiàn)在由于過多電子屏幕、單一交互方式、重復信息推送等產(chǎn)生的低效率、高成本和信息過載的問題也將會得到解決。
所謂“模態(tài)(modality)”即是“感官”,多模態(tài)即多種感官融合。多模態(tài)交互,即通過視覺、聽覺、觸覺、嗅覺、動作行為、環(huán)境等多種方式進行人機交互,[7]充分模擬人與人之間的交互方式。情景感知具有實時性、自動化、個性化的特點,能自動獲取用戶情境的相關信息,根據(jù)獲取的信息,經(jīng)算法推理分析出用戶需求,適時給用戶提供個性化服務。[8]
基于物聯(lián)網(wǎng)的多模態(tài)交互網(wǎng)絡能夠充分整合利用現(xiàn)有的多種交互方式,在感知用戶情景的同時,用類人的自然交互方式主動適應用戶需求,從而讓眾多來源不一的智能產(chǎn)品像一個人或者一臺機器一樣為用戶服務。在十幾年前,由于設備計算速度慢、互聯(lián)網(wǎng)技術不發(fā)達、民眾持有設備量少(主要是電腦和智能手機)等原因,物聯(lián)網(wǎng)被認為是一個偽命題。但在十幾年后AI 技術和互聯(lián)網(wǎng)技術迅猛發(fā)展的今天,智能產(chǎn)品已經(jīng)進入千家萬戶,萬物智聯(lián)即將成為可能。
基于此,人機交互的未來發(fā)展趨勢將具有以下幾個特點:
1. 整體性,多個智能設備共同形成智能設備生態(tài)系統(tǒng),像一臺設備一樣為用戶服務。處于物聯(lián)網(wǎng)的多模態(tài)交互網(wǎng)絡下的智能設備將不再各自為政,各設備間共享信息,無需進行重復的信息計算和信息推送,類似于當一個用戶的微信賬號同時在多個設備上登錄時,一條消息推送重復提示多次的情況將不再發(fā)生。這不僅是多設備化身為不同零件集成單設備的統(tǒng)一性,還是服務流程的統(tǒng)一性。基于物聯(lián)網(wǎng)的多模態(tài)交互網(wǎng)絡的整體性提高了人機交互的資源利用率、工作效率和系統(tǒng)安全性。
2. 可感知性,可感知用戶情景,最小化用戶輸入,主動適應用戶需求。情景感知是一種通過傳感器獲取關于用戶所處環(huán)境的相關信息,從而進一步了解用戶行為動機的技術。它是用戶體驗設計中的一個重要方向——主動服務設計。[9]智能設備可以根據(jù)對用戶的情景感知,進行自適應改變,從而做出最合理的交互決策和信息推送。情景感知可以把外界游離的用戶、情境環(huán)境、系統(tǒng)狀態(tài)有效地集成在一起。[10]完整的智能設備生態(tài)系統(tǒng)主動感知用戶生活情景,并根據(jù)生活情景自動做出判斷,例如,當用戶啟動汽車時,與物聯(lián)網(wǎng)多模態(tài)交互網(wǎng)絡相連的車載系統(tǒng),可以根據(jù)用戶預先制定好的出行計劃或日常生活習慣,自動顯示出目的地導航。通過主動的情景感知來預測用戶意圖,從而使用戶輸入最小化。
3. 去屏幕化或超屏幕化,將“屏幕”融于環(huán)境。好的交互應該是自然且無形的,最好的用戶界面就是沒有界面。過去,設計者和研究員們反復強調(diào)要“將看不見的數(shù)據(jù)和服務可視化”,這導致很多設計者對于可視化產(chǎn)生了盲從心理,忽視了產(chǎn)品本身的角色定位,甚至連智能燈泡和智能熱水器都配備了可交互的電子屏幕和專屬APP,但這些屏幕不僅沒有提高用戶的效率,反而產(chǎn)生了大量的重復操作。與此相反,AirPods 藍牙耳機去掉了幾乎所有的屏幕操作環(huán)節(jié),將用戶放取耳機的行為與手機藍牙的自動斷連相關聯(lián),看似細微的修改,實則重新定義了行業(yè)標準。這無疑是在說明去屏幕化、超屏幕化、將屏幕“融于”環(huán)境的設計思維正在逐步興起。
文字界面交互打通了人類與計算機溝通的橋梁,圖形界面交互讓計算機成為普通人也能使用的日常工具,手勢識別讓人們脫離了輸入工具的束縛,語音交互同時解放了雙手和眼睛,腦機接口使不可能成為可能。
未來人機交互將延續(xù)現(xiàn)有交互的特點,在此之上結合AI 技術,將多種不同的交互方式相結合,在物聯(lián)網(wǎng)的基礎上,實現(xiàn)萬物智聯(lián),讓數(shù)量眾多但各自為政的智能產(chǎn)品在智聯(lián)的方式下,形成多模態(tài)交互網(wǎng)絡,通過情景感知主動地與用戶進行交互。
注釋:
[1]張文藝.基于ROS 的人機語音交互系統(tǒng)設計與實現(xiàn)[D].西安電子科技大學,2017.
[2] DT. High Speed Cooling Test [M]. Engineering Standard. 2016.
[3][4]趙小川,趙繼鵬,范炳遠,郝麗麗.手勢識別技術研究綜述與應用展望[A].中國高科技產(chǎn)業(yè)化研究會智能信息處理產(chǎn)業(yè)化分會、中國高科技產(chǎn)業(yè)化研究會信號處理專家委員會.第十一屆全國信號和智能信息處理與應用學術會議??痆C].中國高科技產(chǎn)業(yè)化研究會智能信息處理產(chǎn)業(yè)化分會、中國高科技產(chǎn)業(yè)化研究會信號處理專家委員會:中國高科技產(chǎn)業(yè)化研究會,2017:4.
[5]顏士州.意念成真[J].科學24 小時,2017(1):20-22.
[6][7]李玨,薛澄岐,彭寧玥.基于腦機接口的界面設計風格溝通方法研究[J].設計,2017(19):56-57.
[8][10]姚瑤,王戰(zhàn)紅.基于物聯(lián)網(wǎng)的情景感知計算研究與應用[J].河南機電高等專科學校學報,2015,23(4):16-19+22.
[9]文怡.2019 世界機器人大會:人工智能為生活帶來新生態(tài)[J].今日科技,2019(8):55-60.