柳有權(quán),王愿超,徐 琨,劉正雄,黃攀峰
基于混合現(xiàn)實(shí)的遠(yuǎn)程協(xié)同式裝配維修引導(dǎo)
柳有權(quán)1,王愿超1,徐 琨1,劉正雄2,黃攀峰2
(1. 長安大學(xué)信息工程學(xué)院,陜西 西安 710064;2.西北工業(yè)大學(xué)航天學(xué)院,陜西 西安 710072)
提出一種基于混合現(xiàn)實(shí)設(shè)備HoloLens頭盔的一種遠(yuǎn)程協(xié)同裝配維修系統(tǒng)。利用HoloLens的深度攝像頭和攝像頭對空間的感知能力,通過改進(jìn)手勢識別算法將專家端的二維手勢操作轉(zhuǎn)換為用戶端的三維動(dòng)畫標(biāo)識。這種簡潔生動(dòng)的三維動(dòng)畫標(biāo)識通過空間錨點(diǎn)固定在相應(yīng)的空間位置上,為操作人員開展下一步操作提供清晰的指引,且無需放下手頭工作與計(jì)算機(jī)進(jìn)行手勢交互,實(shí)現(xiàn)了專家-用戶模式的遠(yuǎn)程協(xié)同工作。相對于傳統(tǒng)的協(xié)同式系統(tǒng),實(shí)驗(yàn)驗(yàn)證了該文開發(fā)的協(xié)同式裝配維修引導(dǎo)系統(tǒng)的友好性和實(shí)用性。
遠(yuǎn)程協(xié)同;混合現(xiàn)實(shí);人機(jī)交互;裝配維修;HoloLens
近10年來混合現(xiàn)實(shí)(mixed reality,MR)和增強(qiáng)現(xiàn)實(shí)(augment reality,AR)技術(shù)得到迅猛發(fā)展,其在工業(yè)制造和裝配方面的應(yīng)用價(jià)值逐漸得到體現(xiàn),可以減少培訓(xùn)時(shí)間、提速制造周期。MR/AR通過為現(xiàn)實(shí)世界疊加數(shù)字信息為現(xiàn)場人員提供文字、語音、3D模型、視頻等多種輔助信息,指導(dǎo)拿取不同的工具,安放組裝部件到各自位置,解決了閱讀繁瑣冗長的紙質(zhì)裝配指令的問題。
然而目前MR/AR應(yīng)用多基于平板電腦、手機(jī)等設(shè)備,但現(xiàn)實(shí)中許多操作并不允許用戶解放雙手,該方式限制了用戶的移動(dòng)范圍和與物理世界交互的能力,迫使用戶在裝配任務(wù)和閱讀指令之間來回切換。隨著計(jì)算能力和顯示技術(shù)的發(fā)展,便攜頭戴式顯示器(helmet mounted display,HMD)變得越來越普及,例如Microsoft的HoloLens。借助HMD頭盔用戶可以集中精力于手頭工作,不用在裝配任務(wù)和閱讀指令之間切換以至于分散注意力。
但由于HMD不能利用觸摸屏或鼠標(biāo)鍵盤來進(jìn)行人機(jī)交互,操作上多采用手勢交互或語音交互。而對于手勢交互,用戶必須停止手中的工作才能開展交互任務(wù),而且手要懸浮在空中,一段時(shí)間后很容易疲勞。語音交互因?yàn)樽匀徽Z言處理的局限性導(dǎo)致適用范圍受限。
針對裝配維修應(yīng)用場景,現(xiàn)有的遠(yuǎn)程協(xié)同交互只是在圖像空間進(jìn)行標(biāo)注。本文利用遠(yuǎn)程專家標(biāo)注的二維手勢,結(jié)合HoloLens硬件的感知能力在用戶端生成具有三維空間位置信息的三維動(dòng)態(tài)手勢,且空間錨將該標(biāo)注固定在空間某點(diǎn)上,解放操作人員的雙手,不影響其正常工作狀態(tài)。
通過手勢識別,手繪的二維不規(guī)則線條被轉(zhuǎn)成三維規(guī)則且?guī)в袆?dòng)畫效果的指令,交互畫面更整潔清晰、生動(dòng),大大提高了協(xié)同交互的效率。
2000年FUSSELL等[1-2]的研究表明基于實(shí)時(shí)視頻流的協(xié)同模式可以提高任務(wù)完成的效率。之后出現(xiàn)了結(jié)合投影儀、可穿戴設(shè)備或VR/AR設(shè)備的遠(yuǎn)程協(xié)同工作模式。
DOVE系統(tǒng)[3]支持AR遠(yuǎn)程交互,允許專家使用手寫手勢在本地的實(shí)時(shí)視頻流上繪制手勢草圖,并通過2D顯示器將增強(qiáng)后的視頻呈現(xiàn)給本地工人,但該模式可導(dǎo)致用戶的工作環(huán)境碎片化,用戶需要不斷分散注意力去查看顯示器。KIRK等[4]提出的系統(tǒng)可以解決用戶工作環(huán)境碎片化的問題,該系統(tǒng)通過相機(jī)采集專家的手勢,并用投影儀投射在用戶的工作空間中,由于采集的是專家的二維手勢信息,用戶在使用過程中會出現(xiàn)操作偏差。為了避免由于采集信息導(dǎo)致的偏差,WANG等[5]在專家端使用Leap Motion作為手勢采集設(shè)備,并將三維手勢投影到用戶的工作空間。GUREVICH等[6]提出了一種基于投影的AR遠(yuǎn)程協(xié)同系統(tǒng)TeleAdvisor,支持遠(yuǎn)程專家協(xié)同,可自由控制一個(gè)投影儀-攝像機(jī)組合,并使用指針方法來添加AR注釋信息?;谕队暗倪h(yuǎn)程協(xié)同系統(tǒng)雖然保證了用戶工作空間的一致性,但由于投影儀-攝像機(jī)需要處于相對固定狀態(tài),對于需要大范圍移動(dòng)的操作項(xiàng)目,這種系統(tǒng)并不方便。
相對于傳統(tǒng)的交互方式,基于可穿戴設(shè)備的遠(yuǎn)程專家協(xié)同系統(tǒng)具有部署靈活、操作環(huán)境統(tǒng)一等特點(diǎn)。HUANG和ALEM[7]利用HandsInAir系統(tǒng)通過HMD解決了這個(gè)問題,但需要用戶和專家同時(shí)穿戴HMD設(shè)備,分別采集用戶的空間信息和專家的手勢信息,將其合成后顯示到用戶端,但該系統(tǒng)并不能很好地對各部件的關(guān)系做出指示,同樣缺少對用戶現(xiàn)實(shí)世界環(huán)境的理解。KIM等[8]開發(fā)了一款用戶穿戴的HMD顯示AR注釋信息的系統(tǒng),可由專家在電腦上圈出部件,并通過語音發(fā)出動(dòng)作命令。GAO等[9]利用VR HMD與外部深度攝像頭進(jìn)行遠(yuǎn)程協(xié)作的MR系統(tǒng),且支持捕捉用戶工作空間的三維點(diǎn)云數(shù)據(jù)以及共享遠(yuǎn)程專家的手勢。
如圖1所示,本文系統(tǒng)分為用戶端和專家端2部分,用戶端佩戴Hololens頭盔從事裝配維修等工作,專家端則為PC或平板電腦,專家通過二維手勢交互輸入相應(yīng)的操作來指導(dǎo)用戶完成相應(yīng)的裝配維修任務(wù)。手勢交互包括空間標(biāo)注、目標(biāo)圈選、插拔導(dǎo)引、旋轉(zhuǎn)導(dǎo)引等4大部分,專家端在二維圖像上通過觸控或鼠標(biāo)鍵盤進(jìn)行畫線完成手勢輸入,然后通過手勢識別算法,結(jié)合頭盔感知的三維空間信息,將繪制的不規(guī)整線條轉(zhuǎn)化為相應(yīng)的動(dòng)態(tài)三維標(biāo)識映射到用戶頭盔顯示器上,這樣用戶可直觀地看到專家指令且無需放下手中的工具或物件,該指令由空間錨在用戶端的顯示空間進(jìn)行位置固定,始終保持在相應(yīng)三維位置上。
圖1 系統(tǒng)框架圖
空間標(biāo)注主要提供裝配維修的區(qū)域標(biāo)注,即順序標(biāo)注和文字標(biāo)注,并借助HMD的空間感知,將該標(biāo)注顯示為貼在物體表面。目標(biāo)圈選,即感興趣目標(biāo)的選取,讓用戶關(guān)注該對象,區(qū)別于普通的二維套索操作,該操作具有三維信息,可從各個(gè)視角觀察。插拔導(dǎo)引用于指引用戶完成相應(yīng)的零部件插拔操作。旋轉(zhuǎn)導(dǎo)引則用于指引用戶完成相應(yīng)的零部件擰緊和松開等與旋轉(zhuǎn)有關(guān)的操作。這些交互操作均具有空間錨屬性,且采用形象生動(dòng)的動(dòng)畫演示進(jìn)行展現(xiàn)。詳細(xì)交互指令見表1。
表1 本文支持的交互指令
另外還有一些輔助模塊,如通過語音控制模塊可完成菜單的呼入、呼出操作,交互刪除操作用于對屏幕進(jìn)行清理操作,去掉相應(yīng)的標(biāo)注顯示等。網(wǎng)絡(luò)通信模塊使用TCP/IP協(xié)議和UDP協(xié)議,視頻數(shù)據(jù)通過UDP由用戶端傳輸給專家端,其他指令通過TCP/IP協(xié)議完成。
用戶佩戴頭盔,在操作空間里自由活動(dòng),因此給出的操作輔助信息必須具有空間定位。該位置信息通過HoloLens自身功能獲取,即通過其空間映射掃描技術(shù)[10],如圖2所示,利用射線投射法獲得當(dāng)前視線與空間物體相交點(diǎn)的三維坐標(biāo),然后錨定在世界坐標(biāo)系里。
圖2 HoloLens中的物體世界坐標(biāo)
專家端操作的為二維界面,所有的手勢指令均為二維指令,所獲得的點(diǎn)序列為
借助射線投射法,即轉(zhuǎn)換為對應(yīng)的帶有空間錨點(diǎn)信息的三維點(diǎn)序列
該三維信息不隨視角變化而變化。
在獲取手勢點(diǎn)序列的基礎(chǔ)上,進(jìn)行三維手勢的識別。針對裝配應(yīng)用場景,本文共設(shè)計(jì)了5類手勢指令,包含物體標(biāo)注、目標(biāo)圈選、插拔導(dǎo)引、旋轉(zhuǎn)導(dǎo)引和刪除手勢。
2.3.1 物體標(biāo)注指令
物體標(biāo)注最為簡單,該指令為一些物體提供標(biāo)簽信息,可方便操作人員在專家的幫助下了解操作對象的某些屬性和操作流程。該指令只需要對三維空間的單點(diǎn)進(jìn)行錨定,專家端放置二維標(biāo)簽在物體表面,同時(shí)標(biāo)注相應(yīng)文字,這樣操作人員能看到專家給出的三維標(biāo)簽信息,且隨視點(diǎn)變化,該標(biāo)簽位置不會丟失,仍然朝向視線方向。如圖3所示,黃色標(biāo)簽即由遠(yuǎn)程專家給出,用戶端看到的是一張三維的標(biāo)簽,始終朝向視線方向,且與被標(biāo)注對象緊密相連。
圖3 物體標(biāo)注((a)專家端觀察效果;(b)用戶端觀察效果)
2.3.2 目標(biāo)圈選指令
目標(biāo)圈選是為操作人員眼前的操作場景提供的目標(biāo)圈選功能,可幫助操作人員在雜亂場景下快速找到所需目標(biāo)。由于物體之間存在遮擋,因此本文在文獻(xiàn)[11]的基礎(chǔ)上進(jìn)行拓展,借助HoloLens頭盔的空間感知能力,將專家端勾畫的二維輪廓點(diǎn)序列轉(zhuǎn)成具有深度信息的三維點(diǎn)序列,這樣在生成三維模型時(shí)能準(zhǔn)確將目標(biāo)與背景分離,為操作人員提供更準(zhǔn)確的圈選功能。如圖4所示(紅色線條和透明紅色模型),可將所需工具圈選出來。具體流程如下:
(1) 采集專家端輸入點(diǎn)序列作為側(cè)面輪廓,然后連接這些點(diǎn),得到的多邊形是最終生成的三維多邊形表面的側(cè)面輪廓;
(2) 利用Constrained Delaunay Triangulation (CDT)算法,找到多邊形的內(nèi)部骨骼;
(3) 通過設(shè)定閾值將不重要的末端骨架支剪除掉;
(4) 根據(jù)每個(gè)骨架點(diǎn)與其相鄰的輪廓點(diǎn)的平均距離,在軸方向上抬起該骨架點(diǎn)以調(diào)整其三維點(diǎn)坐標(biāo),同時(shí)在對稱的另一邊做類似操作;
(5) 通過將相鄰抬高的邊緣縫合在一起來構(gòu)造合適的多邊形網(wǎng)格。
2.3.3 插拔導(dǎo)引指令
根據(jù)對實(shí)際指導(dǎo)裝配工作的觀察,插拔操作和旋轉(zhuǎn)操作最為常見。為有效減少專家端的屏幕操作,這2類動(dòng)作設(shè)為預(yù)制動(dòng)作。專家只需在屏幕上畫出二維手勢,對應(yīng)的三維模型會在相應(yīng)的空間位置顯示出來。本文在$Q[12]手勢識別算法的基礎(chǔ)上進(jìn)行了改進(jìn),將其從二維空間拓展到三維空間并賦予其動(dòng)作屬性,其基本原理是將待選手勢與數(shù)據(jù)庫中每個(gè)模板手勢進(jìn)行比較來實(shí)現(xiàn)最近鄰分類。
對于插拔導(dǎo)引,采用圖5箭頭手勢來定義,箭頭的起點(diǎn)即為插拔開始或指向的位置,箭頭朝向?yàn)椴灏斡昧Φ姆较?。在用戶端進(jìn)行三維箭頭布設(shè)時(shí),同樣要借助HoloLens頭盔的空間感知能力,獲取碰撞點(diǎn)所在平面的法向量,使箭頭模型的軸與該平面的法向量平行,即給出箭頭的三維空間位姿。
圖5 插拔導(dǎo)引手勢((a)專家端手繪箭頭; (b)用戶端手繪箭頭)
2.3.4 旋轉(zhuǎn)導(dǎo)引指令
對于旋轉(zhuǎn)導(dǎo)引手勢(圖6),因?yàn)樾D(zhuǎn)軸的不確定性,所以本文設(shè)定先畫出相應(yīng)直線以確定旋轉(zhuǎn)軸心,再畫出旋轉(zhuǎn)手勢,旋轉(zhuǎn)手勢與軸心的夾角始終為90°。旋轉(zhuǎn)手勢同時(shí)需要確定順時(shí)針或逆時(shí)針方向,以指引操作人員做擰緊或松開操作,該判斷通過式(3)的相鄰2條邊向量叉積和的正負(fù)性來確定,這樣最終三維預(yù)制體動(dòng)畫過程按該方向做相應(yīng)旋轉(zhuǎn)。
圖6 旋轉(zhuǎn)導(dǎo)引手勢((a)專家端手繪結(jié)果; (b)用戶端手繪效果)
2.3.5 手勢刪除指令
當(dāng)手勢數(shù)量達(dá)到一定程度時(shí),查看物體就會變的十分困難,存在遮擋視線的問題,因此本文增加了相應(yīng)的手勢刪除指令(圖7)。通過刪除手勢與其他手勢的空間距離來判斷當(dāng)前要?jiǎng)h除的手勢,即
其中,G為已繪制手勢集合;p為刪除手勢的中心坐標(biāo);pi為手勢集合中第i個(gè)手勢的中心坐標(biāo),根據(jù)刪除手勢中心坐標(biāo)和其他手勢中心坐標(biāo)的距離,找到與刪除手勢距離最小的手勢,并在用戶端中銷毀該手勢。為了避免操作失誤,一次只刪除一個(gè)已存在手勢。
為了驗(yàn)證本系統(tǒng)的有效性,本文設(shè)計(jì)了2類實(shí)驗(yàn),包括打印機(jī)使用和汽車簡單維護(hù)。
打印機(jī)使用包括拆卸打印機(jī)墨盒和更換打印機(jī)紙張,由遠(yuǎn)程端專家分別指導(dǎo)5位操作者進(jìn)行操作,最后從系統(tǒng)易用性、標(biāo)識直觀性、佩戴舒適性3個(gè)方面來評判本系統(tǒng)。具體實(shí)驗(yàn)過程為:
(1) 將打印機(jī)墨盒外殼打開;
(2) 取下打印機(jī)墨盒;
(3) 將紙盒從打印機(jī)中拉出;
(4) 放入新?lián)Q的打印紙;
(5) 推入紙盒。
圖8(a)通過紅色箭頭指示拆卸墨盒前須將外殼按圖中手勢打開;圖8(b)為外殼打開后的側(cè)視圖;圖8(c)紅色箭頭所指為墨盒的卡槽位置,須將墨盒卡槽捏合后拉出,圖8(d)為墨盒取出后的側(cè)視圖。
圖8 拆卸打印機(jī)墨盒((a)旋轉(zhuǎn)指引;(b)操作后的結(jié)果; (c)插拔指引;(d)操作后的結(jié)果)
墨盒拆卸后,圖9為更換打印紙的步驟,圖9(a)通過紅色箭頭指示須將紙盒按手勢方向抽出,圖9(b)、(c)為抽出紙盒后的主視圖和側(cè)視圖,圖9(d)將方框所示打印紙放入打印機(jī)紙盒中。
圖9 更換打印紙((a)紙盒抽出;(b)主視圖;(c)側(cè)視圖; (d)放入打印紙)
本文選擇了5位從未接觸過該款打印機(jī)的用戶充當(dāng)操作者,1位經(jīng)常使用該款打印機(jī)的用戶充當(dāng)專家,專家分別對這5名操作者進(jìn)行實(shí)驗(yàn)指導(dǎo)。實(shí)驗(yàn)結(jié)束后,用戶分別對系統(tǒng)易用性、標(biāo)識直觀性、佩戴舒適性3個(gè)方面進(jìn)行打分(0~10),并記錄使用本文方法的所有操作完成時(shí)間和使用說明書進(jìn)行操作完成時(shí)間作為對比參照實(shí)驗(yàn)組,見表2。
表2 用戶操作統(tǒng)計(jì)表
通過表2可知,用戶對直觀性評分最高,其次是易用性,最低評分為舒適性。另本文方法比傳統(tǒng)方法的耗時(shí)減少了約20%左右。說明本文方法可提高效率及操作直觀性。
另外,本文還設(shè)計(jì)了室外場景下的汽車簡單維護(hù)的遠(yuǎn)程協(xié)助指導(dǎo)實(shí)驗(yàn),遠(yuǎn)程端專家在實(shí)驗(yàn)室桌面計(jì)算機(jī)前指導(dǎo)室外佩戴HoloLens頭盔的用戶開展引擎蓋打開、加注玻璃水和防凍液3個(gè)操作。圖10給出了打開引擎蓋時(shí),用戶觀察到的紅色動(dòng)畫箭頭導(dǎo)引。圖11給出了加注防凍液時(shí)不同視角下旋轉(zhuǎn)導(dǎo)引,由于該信息具有空間錨點(diǎn)信息,因此不會隨視角變化而偏離最初選定的對象。
圖10 打開引擎蓋
圖11 不同視角下的旋轉(zhuǎn)導(dǎo)引
借助HoloLens頭盔的空間感知能力,本文設(shè)計(jì)了一個(gè)支持遠(yuǎn)程專家指導(dǎo)模式的協(xié)同式裝配維修系統(tǒng)。根據(jù)操作場景需求,共設(shè)計(jì)了5類手勢指令,包含物體標(biāo)注、目標(biāo)圈選、插拔導(dǎo)引、旋轉(zhuǎn)導(dǎo)引和刪除手勢。專家端通過在無線網(wǎng)絡(luò)傳輸過來的視頻圖像上給出相應(yīng)的二維手繪操作引導(dǎo)指令,通過手勢識別和MR技術(shù)給操作人員提供具有空間錨點(diǎn)功能的三維動(dòng)態(tài)引導(dǎo),充分解放了操作人員的雙手,能有效提高操作效率和操作直觀性。
未來將在本文工作基礎(chǔ)上增加更豐富的語音交互部分,通過混合式指令可能會進(jìn)一步提供用戶操作效率。
[1] FUSSELL S R, KRAUT R E, SIEGEL J. Coordination of communication: effects of shared visual context on collaborative work[C]//2000 ACM Conference on Computer Supported Cooperative Work (CSCW). New York: ACM Press, 2000: 21-30.
[2] KRAUT R E, FUSSELL S R, SIEGEL J. Visual information as a conversational resource in collaborative physical tasks[J]. Human-Computer Interaction, 2003, 18(1-2): 13-49.
[3] OU J Z, CHEN X L, FUSSELL S R, et al. DOVE: drawing over video environment[C]//The 11th ACM International Conference on Multimedia. New York: ACM Press, 2003: 100-101.
[4] KIRK D, RODDEN T, FRASER D S. Turn it this way: grounding collaborative action with remote gestures[C]//2007 ACM SIGCHI Conference on Human Factors in Computing Systems(CHI). New York: ACM Press, 2007: 1039-1048.
[5] WANG P, ZHANG S S, BAI X L, et al. 2.5DHANDS: a gesture-based MR remote collaborative platform[J]. The International Journal of Advanced Manufacturing Technology, 2019, 102(5-8): 1339-1353.
[6] GUREVICH P, LANIR J, COHEN B. Design and implementation of TeleAdvisor: a projection-based augmented reality system for remote collaboration[J]. Computer Supported Cooperative Work (CSCW), 2015, 24(6): 527-562.
[7] HUANG W D, ALEM L. HandsinAir: a wearable system for remote collaboration on physical tasks[C]//2013 ACM Conference on Computer Supported Cooperative Work (CSCW). New York: ACM Press, 2013: 153-156.
[8] KIM S, BILLINGHURST M, LEE G. The effect of collaboration styles and view independence on video-mediated remote collaboration[J]. Computer Supported Cooperative Work (CSCW), 2018, 27(3-6): 569-607.
[9] GAO L, BAI H D, LEE G, et al. An oriented point-cloud view for MR remote collaboration[C]//2016 ACM Conference on SIGGRAPH ASIA Mobile Graphics and Interactive Applications. New York: ACM Press, 2016: 1-4.
[10] Microsoft. Mixed Reality documentation[EB/OL]. [2020-05- 08]. https://docs.microsoft.com/en-us/windows/mixed-reality/.
[11] IGARASHI T, MATSUOKA S, TANAKA H. Teddy: a sketching interface for 3D freeform design[C]//1999 ACM Conference on SIGGRAPH. New York: ACM Press, 1999: 409-416.
[12] VATAVU R D, ANTHONY L, WOBBROCK J O. $Q: a super-quick, articulation-invariant stroke-gesture recognizer for low-resource devices[C]//The 20th International Conference on Human-Computer Interaction with Mobile Devices and Services. New York: ACM Press, 2018: 1-12.
Mixed reality based remote collaborative assembly guidance
LIU You-quan1, WANG Yuan-chao1, XU Kun1, LIU Zheng-xiong2, HUANG Pan-feng2
(1. School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China; 2. School of Astronautics, Northwestern Polytechnical University, Xi’an Shaanxi 710072, China)
A remote collaborative assembly and maintenance system was proposed based on mixed reality technology. HoloLens’s spatial perception capability of the depth camera and RGB camera was employed to map the interaction from the 2D gestures on the expert side to the 3D animation markers on the operator side, where the gestures were recognized using an improved method. These simple and vivid 3D markers were located with spatial anchors to provide the operator with clear directions about the next steps for expert-operator-mode collaborative tasks,freeing the operator’s hands from interacting with the computer by gestures. The experiments verify the feasibility of such user-friendly guide interfaces for remote collaboration of assembly and maintenance tasks.
remote collaboration; mixed reality; human-computer interaction; assembly and maintenance; HoloLens
TP 391.41
10.11996/JG.j.2095-302X.2021020216
A
2095-302X(2021)02-0216-06
2020-08-08;
8 August,2020;
2020-08-30
30 August,2020
航天預(yù)研項(xiàng)目(030101)
Advance Research Program of Space (030101)
柳有權(quán)(1976-),男,湖北秭歸人,教授,博士。主要研究方向?yàn)樘摂M現(xiàn)實(shí)技術(shù)、計(jì)算機(jī)圖形學(xué)。E-mail:youquan@chd.edu.cn
LIU You-quan (1976-), male, professor, Ph.D. His main research interests cover virtual reality technology and computer graphics. E-mail:youquan@chd.edu.cn