郭夢瑤,徐進波,夏宇誠
(武漢理工大學 藝術(shù)學院,武漢 430070)
“模態(tài)“俗稱為“感官”,即人類憑借感知和經(jīng)驗獲得信息的渠道,“多模態(tài)”即將多種感官融合。多模態(tài)交互場景涉及用戶借助多種模態(tài)和通信渠道(如語音、姿勢、表情等等)與計算機實現(xiàn)溝通交流的信息輸入輸出系統(tǒng)。
得益于傳統(tǒng)單一模態(tài)技術(shù)(如計算機視覺、語音識別和音頻處理/傳感器等硬件技術(shù))的發(fā)展,多模態(tài)交互技術(shù)的應(yīng)用取得了重大進展。計算機計算與交互技術(shù)的有效匹配使越來越多的多模態(tài)交互設(shè)備問世。多模態(tài)交互設(shè)備有智能手機、筆記本電腦、屏幕墻、智能音箱等等,而且大數(shù)據(jù)、深度語義理解、AI感知模態(tài)的發(fā)展與變革不斷催生著包括手勢、眼動、表情在內(nèi)的交互新途徑,具有觸覺反饋、視線跟蹤和眨眼檢測的點設(shè)備也逐漸投入商用,可感知用戶界面,有形用戶界面正在日趨成熟。而且隨著物聯(lián)網(wǎng)的發(fā)展,越來越多的智能家居、遠程協(xié)作和藝術(shù)創(chuàng)作等新的多模態(tài)交互場景應(yīng)用到實際生活中來,在此類交互場景中交互指令并非總是顯性的,而且通常都包含多個用戶。(圖1)
圖1
種種新的多模態(tài)交互形式的產(chǎn)生,用戶參與多模態(tài)交互動態(tài)決策過程發(fā)生在不同的社會環(huán)境中,處于不同的交互階段,并沒有充分考慮到多模態(tài)接口要求用戶在現(xiàn)實情境中執(zhí)行新的、可能令人尷尬的行為的問題。
手勢和語音被作為此次研究的重點,因為它在現(xiàn)下的交互場景中被廣泛應(yīng)用,且具有高度可見性。本研究主要分為三個階段采集用戶對多模態(tài)交互場景可接受度。
首先,采用視頻和調(diào)查問卷的形式探究了影響交互技術(shù)接受度的因素。用視頻采集記錄研究員基于手勢交互的初始反應(yīng),收集一些用戶可能接受的互動技術(shù)的初始數(shù)據(jù),將視頻整理剪輯形成互聯(lián)網(wǎng)調(diào)查問卷,在更廣的范圍內(nèi)調(diào)查了這些交互技術(shù)能夠被感知的可能情況。
其次,將交互方式分類,如接觸設(shè)備和不接觸設(shè)備即為不同交互方式。設(shè)備抖動和按壓都涉及直接操作移動設(shè)備。眼動追蹤、手勢識別和語音控制是不接觸設(shè)備的交互方式。在街頭做隨機采訪,要求用戶在公共場合做一組手勢、身體動作,或者發(fā)出聲音等交互方式,并詢問用戶為什么喜歡或不喜歡這些交互方式。
最后,調(diào)查了特定多模態(tài)交互場景中的不同用戶對交互方式做出的反應(yīng)。探討了更復雜的社會環(huán)境中不同因素是如何影響用戶可接受程度的。
社會可接受性是用戶對于由接觸交互場景開始到獲得反饋為止連續(xù)收集信息并受過往經(jīng)驗所影響的對交互場景的由圍觀到接納認同的過程或予以忽視、拒絕等行為反應(yīng)。在整個過程中,社會可接受性不是一個簡單的可接受或不可接受的問題,而是一個隨著時間不斷發(fā)展的連續(xù)決策過程。用戶執(zhí)行相關(guān)動作,對交互指令做出決策,收集來自當前或想象中的社會因素的反饋,并適當?shù)卣{(diào)整決策。而過往經(jīng)驗與個人所處的環(huán)境和過往決策密切相關(guān),同時受更高層次的社會經(jīng)驗影響。個人經(jīng)驗受個人決策產(chǎn)生,而個人決策反過來又作用于更高層的次整體社會經(jīng)驗變化。(圖2)
圖2
在多模態(tài)交互場景的交互執(zhí)行過程中,單就用戶與交互裝置之間的性能交互來看,用戶可接受度來源于認知有用、工作適配、相對優(yōu)勢以及成果期望,當用戶認為該交互方式的使用能提高效率,明顯感受到比其他工具更強烈的優(yōu)越性時,他們對該交互方式接受程度較高。觀察用戶對交互設(shè)備的使用情況,通過屏幕上的交互指引,或者觀察其他用戶的操作過程而選擇是否采用此種交互方式。初次使用過后,對操作的熟識程度提高,進而進入深度使用階段,用戶會獨立完成操作,甚至會引導朋友學會使用該裝置,在該過程中體現(xiàn)的已經(jīng)不限于“性能交互”,而是更廣泛的適用性?;拥耐暾^程的滿意度是評價其對該多模態(tài)交互場景接受程度的關(guān)鍵指標。
當用戶接觸新的交互裝置或者接觸新的交互方式的時候會陷入思維困境,每個人都會以自己的一套思維模式去嘗試理解,而交互設(shè)計就是要用最簡單的方式打破思維困境。因此用戶接觸新的多模態(tài)交互方式時,為用戶提供熟悉的與之前習慣相符的交互模式可以滿足用戶的預(yù)期心理模型。
用戶接受或拒絕多模態(tài)交互技術(shù),很大程度上取決于這類交互行為是否與日常行為相似。在實地調(diào)研中,用戶描述輕敲或者輕拍是高度可接受的,因為這是日常生活中已經(jīng)發(fā)生的行為。例如搖動手機是可以被接受的,因為搖動手機就像搖動瓶子一樣自然。因此在采用新的多模態(tài)交互技術(shù)時,應(yīng)該考慮交互模仿日常生活中用戶的生活習慣。
交互操作過程中交互動作目的性對接受意愿起著重要作用。交互動作應(yīng)該具有明確的目的性,這需要交互裝置的圖形界面或者語音提示用戶執(zhí)行該操作的時候所觸發(fā)的反應(yīng)與操作意向一致。參與者描述不喜歡基于手勢交互的原因之一是可能引起不必要的注意或引起用戶的誤解。單純的滿足實現(xiàn)交互裝置的功能需求,還不足以促使用戶接受該交互方式,用戶還希望隱藏他們的交互行為。
在交互場景以外不具有明確意義的姿勢比日常生活中常用的象征性姿勢更加難以接受。因為不具有明確意義的姿勢容易使用戶產(chǎn)生誤解,容易被用戶遺忘,學習成本較高。在二次應(yīng)用到新的交互場景中容易產(chǎn)生理解偏差,因此這些交互行為結(jié)合到其他交互裝置乃至日常生活中時更為困難。
這項研究表明用戶對不同手勢模式準確性的感知極大地影響他們的體驗,這些包括更大的控制感,隱藏交互的能力,或者僅僅是交互的新體驗。這些結(jié)果為設(shè)計者提供了鼓勵用戶采取新的互動的方法,否則這些互動會被認為是不可接受的。相較于身體協(xié)同動作而言簡單的上肢動作更容易被用戶所接受。此外在公眾場合 和認知負荷的狀態(tài)下用戶的交互意愿顯著降低。
用戶置身于交互場景中與設(shè)備進行交互的時候,受到圍觀群眾的影響,而觀眾也會根據(jù)操作者對多模態(tài)交互技術(shù)做出的反應(yīng),而決定是否嘗試使用設(shè)備。在有圍觀群眾的情況下,操縱可見性則成為影響用戶接受意愿的主要因素。在公共場合類似“自言自語”的互動對用戶來說是不可以接受的。
隨著空間私密程度的降低,用戶操作意愿減弱。用戶最樂意接受的是獨自一人操作設(shè)備,最不愿意接受的是在陌生人面前操作設(shè)備。設(shè)計師在選用尤其是用于在陌生人面前的公共設(shè)備中使用的交互接口時必須考慮到這一點。本研究觀察用戶在同一交互場景下面對不同的觀眾是否會影響其交互方式的選擇。這些結(jié)果表明,熟悉他人的存在顯著地提高了進行手勢或基于語音的交互的可接受性。在互動過程中,用戶更傾向于多人互動。這表明在開發(fā)社交或協(xié)作界面,多個用戶一起參與交互,可以利用熟悉受眾的存在來鼓勵更有表現(xiàn)力的交互。
表1
以手勢交互接受程度為例,用戶最能接受的地方是家,最不能接受的地方是開車,緊接著是人行道。由此可以看出除了考慮其私密性的因素以外,還要考慮用戶同時進行多項任務(wù)時的認知負荷狀態(tài)。(表1)
在潛在動機相同的情況下,不同的文化背景驅(qū)動用戶選擇不同的初始偏好。例如,在兩種文化中都存在交互而不引起不必要注意的動機,但是表達方式不同,導致不同的偏好。中國的受訪者,更傾向于渴望執(zhí)行微妙或隱藏的動作,如用眼睛凝視或輕敲。在日本,這種動機被表達為不想用基于語音的交互偏好來打擾別人。對基于語音的交互拒絕率顯著較高,因為這些行為在文化交流中被認為對其他人有破壞性的。而中國地區(qū)參與者對象征性手勢的拒絕率明顯更高,因為這些手勢因其高度標志性、可識別性而難以秘密執(zhí)行。然而,即使參與者具有不同的初始偏好,雖然文化背景存在差異,在考慮交互應(yīng)該如何相對于設(shè)備工作、使用功能有多普遍時,他們表現(xiàn)出更多的相似性而不是差異性。
隨著技術(shù)的變化和進步,創(chuàng)造新的互動方式,對用戶可接受性的評價從一個執(zhí)行的角度將有助于將這些新的互動成功地融入日常生活中。多模態(tài)交互技術(shù)目前主要應(yīng)用于圖像識別、信息檢索和人機對話方面。越來越多的研究成果顯示,多種模態(tài)相互配合的信息處理方法能夠給用戶帶來更高效更優(yōu)質(zhì)的用戶體驗。例如,采用語義表達配合視覺呈現(xiàn)要優(yōu)于純文字的分布式語義表達,在愉悅度方面,文本模態(tài)的交互方式優(yōu)于音頻傳遞給用戶的信息,激活度方面,音頻模態(tài)的喚醒速度和操作限制度又優(yōu)于文本模態(tài)。在設(shè)計早期完成社會可接受性評估對多模態(tài)交互方式的選擇具有較強的指導意義,確定不同社會或文化群體中的用戶的初始偏好,僅選擇社會可接受的交互技術(shù)開發(fā)和部署以節(jié)省寶貴的設(shè)計和實現(xiàn)資源,并最終實現(xiàn)更可接受的接口,以提高這些交互技術(shù)的接受程度。