張新勇
(中國人民大學(xué)信息學(xué)院,北京 100872)
近年來,隨著自然用戶界面(Natural User Interface,NUI)、體感交互等概念逐漸為人所熟知,以Kinect為代表的體感設(shè)備及其應(yīng)用逐漸進(jìn)入人們的日常生活。人們可在游戲娛樂、教育教學(xué)[1]、醫(yī)療保健[2]等諸多領(lǐng)域發(fā)現(xiàn)體感設(shè)備的典型應(yīng)用。近年來,除了微軟公司發(fā)布的Kinect設(shè)備,因特爾、蘋果等著名公司也推出了類似的設(shè)備。同期,市場上也出現(xiàn)了像Leap Motion這樣可感應(yīng)用戶手指運(yùn)動的體感設(shè)備。這預(yù)示著自然人機(jī)交互具備了更多更好的技術(shù)基礎(chǔ),將有更加新穎的應(yīng)用范例面世,前景將更加光明。
在這樣的背景下,有必要從人機(jī)交互(Human-computer Interacting,HCI)的角度對以Kinect為代表的新型體感設(shè)備的可用性進(jìn)行深入研究,其中評估相關(guān)設(shè)備在典型交互任務(wù)中的人機(jī)工效問題(Human Performance)是一個基礎(chǔ)性的HCI問題。在傳統(tǒng)圖形用戶界面環(huán)境下,以鼠標(biāo)為代表的點(diǎn)擊設(shè)備居于主導(dǎo)地位,它們的人機(jī)工效滿足費(fèi)茨法則(Fitts’ law)的描述[3],即完成點(diǎn)擊任務(wù)的時間MT與任務(wù)的難度指數(shù)ID線性相關(guān)。一維形式的費(fèi)茨法則常被表示為如下的形式:
(1)
其中a和b為兩個回歸系數(shù);A表示移動距離,W代表目標(biāo)大小(如帶狀目標(biāo)的寬度、正方形圓形目標(biāo)的邊長和直徑等);對數(shù)項(xiàng)被定義為難度指數(shù)ID。在HCI領(lǐng)域,費(fèi)茨法則本身以及以它為理論工具的人機(jī)工效評估得到了持久而深入的研究。相對鼠標(biāo)而言,體感設(shè)備的使用一定程度上拓展了交互的空間與自由度。除擺脫了二維桌面狹小物理區(qū)間的限制,體感交互場景常常配備一個大尺寸屏幕作為視覺反饋輸出的載體。忽略體感設(shè)備對手部跟蹤的性能局限(如采樣頻率、穩(wěn)定性和精確性等),若用它取代傳統(tǒng)鼠標(biāo)執(zhí)行基本的交互控制任務(wù),其中的手眼協(xié)調(diào)與控制反饋過程將有別于用戶操控鼠標(biāo)時的情形。此時,費(fèi)茨法則的有效性成為一個新的研究問題。換言之,有必要對基于體感設(shè)備的基礎(chǔ)交互任務(wù)中的人機(jī)工效進(jìn)行深入的研究。
本文設(shè)計(jì)了一個在65寸大屏幕場景下基于Kinect的簡單的光標(biāo)運(yùn)動控制策略。我們通過點(diǎn)擊任務(wù)(Pointing Task)實(shí)驗(yàn),檢驗(yàn)了費(fèi)茨法則的有效性;同時,由于運(yùn)動方向因素對人機(jī)工效有不可忽視的影響[4],本文也在實(shí)驗(yàn)設(shè)計(jì)中充分考慮了這一因素,并進(jìn)行了深入分析。
將體感設(shè)備作為一種新型的人機(jī)交互輸入工具,需要對其進(jìn)行必要的評估研究,以為交互設(shè)計(jì)提供參考。本節(jié)從這一角度出發(fā)簡要回顧相關(guān)的研究工作。
Libardi等人開發(fā)了一個基于Kinect的可視化應(yīng)用系統(tǒng),并按照可用性測試的標(biāo)準(zhǔn),測試分析了Kinect在旋轉(zhuǎn)、縮放和平移等不同操作任務(wù)中的績效和用戶評價[5]。他們的結(jié)果表明,Kinect在操作時間與次數(shù)等定量指標(biāo),以及體能消耗和舒適度等定性指標(biāo)方面不及傳統(tǒng)鼠標(biāo)的使用效率;但是在便利性(Convenience)與恰當(dāng)性(Adequacy)分方面,Kinect有更高的用戶滿意度。因此,在特定的自然交互場景中,用戶更愿意用Kinect替代鼠標(biāo),盡管在桌面交互環(huán)境下Kinect還不能勝過鼠標(biāo)。
Pino等人通過兩個點(diǎn)擊任務(wù)實(shí)驗(yàn),研究對比了Kinect與鼠標(biāo)在2D和3D條件下的工效和控制光標(biāo)的運(yùn)動軌跡特征[6]。對于2D點(diǎn)擊任務(wù),他們采用了標(biāo)準(zhǔn)的多向點(diǎn)擊布局設(shè)計(jì)[7]。對于3D點(diǎn)擊任務(wù),他們用一個虛擬立方體的頂點(diǎn)來控制點(diǎn)擊目標(biāo)的布局。每次測試時,需將光標(biāo)從立方體的一個定點(diǎn)移動到其對角線頂點(diǎn)的目標(biāo)上為止。對于Kinect設(shè)備,點(diǎn)擊任務(wù)的完成均通過其語音信號來觸發(fā)控制。他們的實(shí)驗(yàn)結(jié)果表明,在2D條件下,Kinect作為點(diǎn)擊設(shè)備的“生產(chǎn)力”(Throughput[7])比鼠標(biāo)的低39%,但在3D條件下要高出9.7%。須指出的是,當(dāng)用鼠標(biāo)來執(zhí)行3D點(diǎn)擊任務(wù)時,他們通過滾輪控制光標(biāo)在z軸方向的運(yùn)動,這顯然不如Kinect自然直觀。從他們的回歸分析結(jié)果看,雖然數(shù)據(jù)擬合度(R2)均較低,但尚不足以得出Kinect作為點(diǎn)擊設(shè)備是否滿足費(fèi)茨法則的結(jié)論。一是他們在實(shí)驗(yàn)中僅設(shè)置了5個ID水平,二是擬合分析時并非采用所有被試者在每個ID水平下MT的總體均值。
Fürntratt與Neuschmied也設(shè)計(jì)了類似的2D點(diǎn)擊任務(wù)對Kinect進(jìn)行了評估研究[8]。但他們的實(shí)驗(yàn)與Pino等人的2D點(diǎn)擊任務(wù)實(shí)驗(yàn)相比,主要有三處不同。一是單擊命令的觸發(fā)方式不同,前者的體感設(shè)備同時跟蹤被試者的兩只手,其中一只手負(fù)責(zé)定位所需目標(biāo)(移動光標(biāo)),而另一只負(fù)責(zé)選擇確認(rèn)(觸發(fā)單擊命令)。二是實(shí)驗(yàn)界面的視覺空間尺度不同,前者通過投影儀將交互界面投射到幕布上,其視覺空間遠(yuǎn)大于后者的19寸TFT顯示器。三是驅(qū)動光標(biāo)的機(jī)制不同,前者通過手臂上兩個關(guān)節(jié)點(diǎn)的3D空間坐標(biāo)所確定的直線在2D投影平面上的交點(diǎn)來驅(qū)動定位光標(biāo),后者僅根據(jù)手腕關(guān)節(jié)點(diǎn)的相對位移來驅(qū)動光標(biāo)。Fürntratt和Neuschmied設(shè)置了兩種軀體關(guān)節(jié)點(diǎn)組合模式來控制光標(biāo),一個是肘腕組合,另一個是肩腕組合。他們的實(shí)驗(yàn)結(jié)果表明,肩腕組合條件下的工效明顯更好??紤]到體感設(shè)備的精度和誤差,我們認(rèn)為用兩個相對較近關(guān)節(jié)點(diǎn)的坐標(biāo),如肘和腕,去計(jì)算相對較遠(yuǎn)的第三點(diǎn)坐標(biāo),誤差將會累積和放大。在肩腕模式下,肩膀位置相對較為固定,可在一定程度上降低光標(biāo)位置誤差的累積和放大,從而得到相對較好的工效。
Polá?ek等人針對大屏幕體感交互場景,設(shè)計(jì)了在靜態(tài)和動態(tài)界面布局下,通過Kinect跟蹤單手或雙手完成目標(biāo)點(diǎn)擊任務(wù)的方法,并與使用任天堂遙控手柄和傳統(tǒng)鼠標(biāo)的方式進(jìn)行了對比[9]。這里的動態(tài)界面指屏幕上的交互元素可隨用戶身體動態(tài)移動,保持與身體的相對位置不變。在他們的實(shí)驗(yàn)中,Kinect通過識別按壓動作來觸發(fā)單擊事件,完成一次點(diǎn)擊測試。他們的結(jié)果同樣表明Kinect在工效方面沒有比其它設(shè)備表現(xiàn)得更好,新穎的動態(tài)界面也沒取得預(yù)期的優(yōu)勢,但他們明確指出基于Kinect的四種點(diǎn)擊任務(wù)中的人機(jī)工效均明顯服從費(fèi)茨法則。Yuan等人在立體電視的3D視覺場景中用多向點(diǎn)擊任務(wù)評估了Kinect的工效,并與虛擬激光點(diǎn)擊和鼠標(biāo)點(diǎn)擊進(jìn)行了對比[10]。所謂虛擬激光,是指整合利用Kinect檢測到的右手三維坐標(biāo)和任天堂MotionPlus手柄檢測到的姿態(tài)方位信息,使得該手柄可以像激光筆一樣能在屏幕上投射出一個虛擬光點(diǎn)(光標(biāo))。他們的實(shí)驗(yàn)結(jié)果表明,使用Kinect也較好地服從費(fèi)茨法則(R2接近0.9)。需指出的是,除了鼠標(biāo)外,其余兩種方式?jīng)]有類似單擊這樣的確認(rèn)機(jī)制,而是通過自動確認(rèn)完成每次測試,以消除個體差異。Sambrooks和Wilkinson將基于Kinect的手勢操作與觸控和鼠標(biāo)兩種方式進(jìn)行了對比[11],其中Kinect條件下的任務(wù)也是采取了自動確認(rèn)完成的策略。Lim和Jung還進(jìn)一步考慮了方向因素[12],實(shí)驗(yàn)結(jié)果表明在(接近)水平的方向上Kinect有著相對較好的人機(jī)工效。
上述研究將體感交互中的不同點(diǎn)擊方式,或?qū)Ⅲw感設(shè)備與鼠標(biāo)觸控及其它體感設(shè)備進(jìn)行了評估對比??梢钥闯?,一致的結(jié)果是Kinect在2D點(diǎn)擊任務(wù)中的工效并無優(yōu)勢;但其是否服從費(fèi)茨法則卻模棱兩可。僅文獻(xiàn)[9-10]給出了明確服從的結(jié)論,其中文獻(xiàn)[9]采用了原始的ID定義進(jìn)行數(shù)據(jù)擬合。Lim和Jung雖然考慮了方向因素,但并未系統(tǒng)分析其對Kinect點(diǎn)擊工效的影響,也未揭示在不同方向上費(fèi)茨法則是否有效。這些遺留的不確定性為本文的進(jìn)一步深入研究提供了空間。
在傳統(tǒng)的人機(jī)交互領(lǐng)域中,費(fèi)茨法則(Fitts' law)是一個簡明且有效的分析GUI中居主導(dǎo)地位的點(diǎn)擊任務(wù)人機(jī)工效的數(shù)學(xué)模型,是分析評估人機(jī)工效的理論工具,其有效性和價值得到了廣泛驗(yàn)證和體現(xiàn)[7]。對類似Kinect這樣的體感交互設(shè)備,交互無需遙控手柄這類輔助設(shè)備,在交互空間中有更大的自由度,使得通過自然手勢來表達(dá)交互需求成為可能,也給用戶帶來更新穎自然的體驗(yàn)。
但基于體感設(shè)備的目標(biāo)選擇(點(diǎn)擊任務(wù))是否仍然滿足費(fèi)茨法則還需更深入的研究。本文的一個首要任務(wù)是研究驗(yàn)證費(fèi)茨法則在體感交互場景中的有效性,進(jìn)而探討其改進(jìn)的必要性和可能性。同時,考慮到在體感交互過程中,肢體運(yùn)動軌跡的方向性比在桌面環(huán)境中操控鼠標(biāo)時表現(xiàn)得更加明確,因此本文關(guān)注的另一個重要問題是在體感交互場景下,運(yùn)動方向?qū)换サ挠绊?,即在不同運(yùn)動方向上點(diǎn)擊任務(wù)的工效差異是否顯著,以及費(fèi)茨法則在不同方向上是否仍然有效。為此,我們設(shè)計(jì)了一個體感交互實(shí)驗(yàn)來揭示這些問題。
本文的體感交互實(shí)驗(yàn)程序運(yùn)行在一臺戴爾計(jì)算機(jī)上(8核CPU,主頻3.4 MHz,8G內(nèi)存),操作系統(tǒng)為Windows 7專業(yè)版。主機(jī)連接有兩臺顯示器,一臺為22寸戴爾觸控屏,另一臺為65寸的長虹4K智能電視,分辨率都設(shè)置為1 920×1 080 像素,但后者才是實(shí)驗(yàn)界面的顯示屏。另外,實(shí)驗(yàn)還配備一個筆式鼠標(biāo),其筆頭相當(dāng)于普通鼠標(biāo)的左鍵,供被試者握住它時用拇指按壓來觸發(fā)單擊事件。實(shí)驗(yàn)設(shè)備配置及環(huán)境見圖1所示。實(shí)驗(yàn)程序用微軟 Visual C++語言開發(fā),它通過OpenNi 和NiTE(ver 2.2)提供的API接口訪問獲取Kinect的跟蹤數(shù)據(jù)。
實(shí)驗(yàn)是一個簡單直觀的點(diǎn)擊任務(wù)。即通過手在空中的移動來控制光標(biāo),指向所需的目標(biāo),并單擊選中它,完成一次測試。在每次任務(wù)時,測試啟動按鈕將隨機(jī)出現(xiàn)在屏幕上某個預(yù)先定義的位置上。該按鈕顯示為一個直徑24 pixels的圓,但其實(shí)際有效區(qū)域的直徑是132 pixels(由虛線標(biāo)出)。被試者被跟蹤(控制光標(biāo))的手像握打火機(jī)一樣握住筆形鼠標(biāo)。每次測試首先需要將光標(biāo)移動到啟動按鈕的有效區(qū)域(并盡快能靠近區(qū)域中心的小圓),按壓筆式鼠標(biāo)的筆頭,測試開始按鈕消失,但同時所需正方形目標(biāo)出現(xiàn)在基于屏幕中心的對稱位置上。被試者需要將光標(biāo)又快又準(zhǔn)的移到目標(biāo)上,并按下筆頭完成一次測試。如果光標(biāo)還在目標(biāo)外就觸發(fā)了單擊事件,則記錄一次錯誤,測試將重新開始。正確和錯誤的測試,有不同的聲音反饋。
Kinect對手的跟蹤是通過推拉動作激活啟動的,有時這種類似推拉門的動作可能未被正確識別,則需反復(fù)執(zhí)行。在實(shí)驗(yàn)過程中,Kinect有可能失去對手的跟蹤,則可再次通過推拉動作啟動跟蹤。實(shí)驗(yàn)程序界面的左上角設(shè)置了一個“指示燈”來反饋Kinect的跟蹤狀態(tài)。實(shí)驗(yàn)程序也設(shè)計(jì)了一個光標(biāo)復(fù)位機(jī)制。當(dāng)手不能在一個舒服而恰當(dāng)?shù)奈恢每刂乒鈽?biāo)時,可把它放回其最佳活動空間的中心,并同時發(fā)送一個光標(biāo)復(fù)位命令將其重置到屏幕的中心。這類似于使用鼠標(biāo)時,有時需要抬起鼠標(biāo)重新放在桌面上一個恰當(dāng)?shù)奈恢谩?/p>
本實(shí)驗(yàn)中,被試者站在距屏幕1.8 m處的正前方,體感設(shè)備Kinect固定在屏幕上沿的中心位置。對每個被試者,實(shí)驗(yàn)開始前,需測量被跟蹤的手的可達(dá)范圍:前后最遠(yuǎn)距離、左右最大寬度和上下最大高度。它們可用于計(jì)算光標(biāo)偏移量的比例系數(shù):
·x軸系數(shù)ws = 屏寬 /(s ×手的最大運(yùn)動寬度),
·y軸系數(shù)hs = 屏高 /(s ×手的最大運(yùn)動高度)。
其中系數(shù)s的作用類似在使用鼠標(biāo)時可調(diào)整其光標(biāo)速度。經(jīng)過測試s = 0.8時可獲得較為流暢的光標(biāo)移動效果。本文采取的是用手的相對偏移量來更新光標(biāo)位置的控制策略,其機(jī)制如下:
①獲取當(dāng)前光標(biāo)的位置CP和手的位置HP1(前一時刻手的位置用HP0表示);
②計(jì)算光標(biāo)的偏移量Offset:
Offset.x=ws×(HP1.x - HP0.x),
Offset.y=hs×(HP0.y - HP1.y);
③更新光標(biāo)位置 CP=CP+Offset;
④暫存手的位置 HP0=HP1。
HP0在每次開始跟蹤時獲得初始值。根據(jù)體感設(shè)備的數(shù)據(jù)采樣處理能力,上述控制過程以每秒約30次的頻率被執(zhí)行,從而驅(qū)動光標(biāo)平滑的移動。但是由于Kinect感知能力的局限,所跟蹤目標(biāo)(手)的速度不能過快,否則將丟失跟蹤目標(biāo)。
通過網(wǎng)絡(luò)招募的方式,共有18名被試者成功完成了本實(shí)驗(yàn),其中女性10名,男性8名,平均年齡22.4歲。所有被試者有正常或校正到正常的視力,此前都沒有參加此類測試的經(jīng)歷。完成測試后每人獲得了20元人民幣的勞務(wù)費(fèi)報(bào)酬。
本實(shí)驗(yàn)是一個可重復(fù)多因素組內(nèi)全交叉設(shè)計(jì)組成的混合多因素實(shí)驗(yàn)。相應(yīng)的因素及水平如下:
·目標(biāo)邊長(W):60,80,100,120 pixel。
·移動距離(A):400,600,900 pixel。
·運(yùn)動方向(θ):0°,45°,90°,135°,180°,225°,270°,315°。θ的定義見圖1。
將上述因素以全交叉方式,將產(chǎn)生96個組合(4W×3A×8θ)。對于這些組合,每個安排1次測試,組成一個測試組(Block)。實(shí)驗(yàn)時,不同組合以隨機(jī)的方式呈現(xiàn)給被試者。每個被試者有8個測試組,持續(xù)時間約1 h。本實(shí)驗(yàn)一共設(shè)計(jì)了13 824次測試(96 Trials×8 Blocks×18 Subjects)。
包含錯誤測試在內(nèi),本實(shí)驗(yàn)共收集了14 882次測試的數(shù)據(jù),其中共有1 314條錯誤和異常值記錄,共約8.8%。所謂異常值指那些比其同等條件下所有觀測值的平均數(shù)大或小超出3σ的值)。下面的分析中排除了這部分?jǐn)?shù)據(jù)。我們主要選擇任務(wù)完成時間(MT)來對Kinect點(diǎn)擊任務(wù)進(jìn)行評估。它表示從每次測試的開始時刻(即光標(biāo)移到起始按鈕并進(jìn)行一次有效點(diǎn)擊時)到結(jié)束時刻(光標(biāo)進(jìn)入終止按鈕并進(jìn)行有效點(diǎn)擊時)所耗費(fèi)的時間。
方差分析表明,運(yùn)動方向因素θ(F(7,119)=9.369,P<0.001)、移動距離A(F(2,34)=453.285,P<0.001)、目標(biāo)邊長W對MT(F(3,51)=227.006,P<0.001)都具有非常顯著的影響。θ和A(F(14,238)=5.847,P<0.001),θ和W(F(21,357)=2.323,P<0.005),以及A和W(F(6,102)=2.354,P<0.05)兩兩之間對MT的交互效應(yīng)也很顯著。如圖2所示,MT的平均值隨著A的增大而增大,W的增大而減少。
如圖3所示,MT可按水平方向劃分為3個層次水平:在個水平方向上處在相對最低的水平;在朝上的方向上處于最大的水平;在朝下的方向上整體大于水平條件下的MT,但小于朝上方向上的MT。兩兩對比結(jié)果表明,垂直方向90°和270°上的MT除分別與兩個水平方向上的有顯著差異外(P<0.005),兩者自身間僅具統(tǒng)計(jì)意義上的差異(P=0.040);水平方向0°和180°兩者間之間的MT不具有顯著差異;四個對角線方向均只與兩個水平方向的MT有顯著差異,相互間無顯著差異。
根據(jù)公式1的難度指數(shù)ID定義,對MT隨ID的總體變化趨勢以及在在不同方向上的趨勢進(jìn)行了Fitts模型擬合,結(jié)果見表1。
表1 不同條件下對MT的Fitts模型擬合結(jié)果
根據(jù)表1的結(jié)果,費(fèi)茨法則的有效性超出了預(yù)期,好于作者目前所知文獻(xiàn)中的結(jié)果。如圖5所示,費(fèi)茨模型能準(zhǔn)確地?cái)M合MT的總體變化趨勢,R2超過了0.97。對于在各個不同方向上的MT也能很好的擬合。其中在0°和90°兩個方向上的擬合度R2雖有所下降,但仍在0.86以上。進(jìn)一步對比分析發(fā)現(xiàn),在MT均值沒有顯著差異的兩個方向上,其對應(yīng)的回歸系數(shù)可能明顯不同,比如圖6所示的一對往復(fù)的運(yùn)動方向。這暗示用戶在這兩個方向上完成交互任務(wù)的性能指標(biāo)(IP,Index of Performance)并不一致。根據(jù)圖中回歸直線的趨勢,當(dāng)ID較高時,在225°方向上將獲得明顯的速度優(yōu)勢。
本文實(shí)驗(yàn)結(jié)果表明3D空間中的運(yùn)動方向?qū)w感交互點(diǎn)擊任務(wù)的工效有顯著影響。在數(shù)據(jù)匯總中無論是否消除方向因素的影響,費(fèi)茨法則都能足夠準(zhǔn)確的表達(dá)體感點(diǎn)擊任務(wù)的工效。換句話說,本文的實(shí)驗(yàn)“從不同角度”全面檢驗(yàn)證實(shí)了費(fèi)茨法則在體感交互場景中的有效性,也保證了結(jié)果的可靠性。這種可靠性還體現(xiàn)在本文的實(shí)驗(yàn)設(shè)置了比其它參考文獻(xiàn)的實(shí)驗(yàn)[6,8-10]多1倍以上的ID水平。
本文實(shí)驗(yàn)結(jié)果未打破費(fèi)茨法則,意味著實(shí)驗(yàn)中所采用的光標(biāo)驅(qū)動方法有效保持了手眼間的協(xié)調(diào)性,保持了瞄準(zhǔn)運(yùn)動中的反饋與控制過程的運(yùn)動特征。實(shí)驗(yàn)中采用筆式鼠標(biāo)來觸發(fā)單擊事件以確認(rèn)目標(biāo)選擇,是為了消除海森堡效應(yīng)[13]的影響。實(shí)驗(yàn)最初是采用推按動作來模擬單擊操作,測試時發(fā)現(xiàn)在推按過程中(x,y)坐標(biāo)會變化,導(dǎo)致光標(biāo)漂移出目標(biāo)的有效區(qū)域。這種海森堡效應(yīng)的發(fā)生程度可能會因被試者手臂長度的差異而有所不同。此外,在實(shí)驗(yàn)開始前對每個被試者手部的運(yùn)動空間范圍都進(jìn)行了校準(zhǔn),使得控制光標(biāo)運(yùn)動的參數(shù)處于恰當(dāng)?shù)脑O(shè)置且是因人而異的,使得每個被試者都能在自己最舒適的運(yùn)動范圍內(nèi)控制光標(biāo)。
本文實(shí)驗(yàn)較為全面的驗(yàn)證了費(fèi)茨法則在體感交互場景中的有效性,實(shí)驗(yàn)結(jié)果對界面設(shè)計(jì)實(shí)踐具有一定的指導(dǎo)意義:在水平方向選擇點(diǎn)擊目標(biāo)可達(dá)到最佳的工效水平。本文結(jié)果對增強(qiáng)現(xiàn)實(shí)環(huán)境下的人機(jī)工效研究也具有一定的參考意義。下一步,我們將設(shè)置更多的方向水平,并考慮目標(biāo)寬高尺寸比的變化,以更系統(tǒng)的探索界面布局、目標(biāo)寬度和高度對體感交互的影響。