高春艷, 梁彧浩, 李滿宏, 張明路, 孫立新
(河北工業(yè)大學(xué)機(jī)械工程學(xué)院, 天津 300401)
人機(jī)協(xié)作(Human-robot collaboration, HRC)是指人與機(jī)器人共享協(xié)作工作空間,在同一目標(biāo)任務(wù)下,進(jìn)行協(xié)調(diào)或同步地聯(lián)合活動(dòng)作業(yè)[1]。隨著人工智能和自動(dòng)化技術(shù)的不斷發(fā)展,人機(jī)協(xié)作廣泛應(yīng)用在制造業(yè)、醫(yī)療、服務(wù)[2-4]等領(lǐng)域。
人機(jī)協(xié)作共融將人類強(qiáng)大的認(rèn)知推理和決策能力以及機(jī)器人高精度特性和高效的計(jì)算能力結(jié)合起來(lái),實(shí)現(xiàn)復(fù)雜條件下的協(xié)同工作[5]。對(duì)于一些不可預(yù)知或動(dòng)態(tài)的因素,人機(jī)協(xié)作共融也能夠使機(jī)器人精確識(shí)別人類意圖并適應(yīng)障礙,從而更好地完成作業(yè)任務(wù)。
自然、精確的人機(jī)交互是人機(jī)協(xié)作的基礎(chǔ)[6]。針對(duì)各種復(fù)雜的環(huán)境,機(jī)器人需要理解人類的意圖,識(shí)別協(xié)作環(huán)境中人體的運(yùn)動(dòng)情況,并采用適當(dāng)?shù)谋茏尣呗詠?lái)防止碰撞,并在發(fā)生意外或不可避免的撞擊時(shí)最大限度地減少對(duì)人的傷害[7]。因此,機(jī)器人的識(shí)別預(yù)測(cè)能力成為當(dāng)下人機(jī)協(xié)作環(huán)境中的研究重點(diǎn)。然而,人機(jī)協(xié)作過(guò)程中仍存在環(huán)境光照變化,目標(biāo)背景遮擋,人或機(jī)器人產(chǎn)生相對(duì)運(yùn)動(dòng)等復(fù)雜情況,現(xiàn)針對(duì)人機(jī)共融工作中機(jī)器人對(duì)于人的體態(tài)姿勢(shì)識(shí)別技術(shù)以及避碰策略進(jìn)行對(duì)比分析,并基于深度學(xué)習(xí)的方法及應(yīng)用進(jìn)行展望。
在人機(jī)共融場(chǎng)景中,機(jī)器視覺(jué)系統(tǒng)能使機(jī)器人對(duì)協(xié)作場(chǎng)景有全面的了解,便于后續(xù)機(jī)器人的決策和主動(dòng)規(guī)劃[8]。
人體姿態(tài)識(shí)別通過(guò)圖像采集系統(tǒng)進(jìn)行數(shù)據(jù)采集,采用視覺(jué)傳感器收集圖像信息。協(xié)作環(huán)境下,單目相機(jī)由于視角限制會(huì)影響檢測(cè)結(jié)果的魯棒性,且對(duì)遮擋、光照變化較敏感,通過(guò)引入深度學(xué)習(xí)方法,可被應(yīng)用到3D姿態(tài)識(shí)別領(lǐng)域[9-10];立體相機(jī)[11]可采集和呈現(xiàn)立體圖像,魯棒性較強(qiáng),但特征匹配難度高,標(biāo)定比較困難;深度相機(jī)可輸出3D深度信息,校準(zhǔn)和照明條件對(duì)識(shí)別結(jié)果影響較小;TOF和Kinect兩種包含彩色和深度傳感器的RGB-D相機(jī),可在復(fù)雜場(chǎng)景下實(shí)現(xiàn)穩(wěn)定的識(shí)別效果。表1為各視覺(jué)系統(tǒng)傳感器的特征對(duì)比。
表1 各視覺(jué)系統(tǒng)傳感器特征對(duì)比
針對(duì)復(fù)雜協(xié)作場(chǎng)景的傳感器應(yīng)用,Ant?o等[12]采用ZED立體相機(jī)捕獲3D協(xié)作空間的點(diǎn)云數(shù)據(jù),用于后續(xù)未標(biāo)記的體素網(wǎng)格的創(chuàng)建,使用紅綠藍(lán)(red-green-blue,RGB)圖像和人機(jī)關(guān)節(jié)位置信息,標(biāo)記體素網(wǎng)格中的關(guān)鍵元素,在復(fù)雜背景下模擬的協(xié)作區(qū)域姿態(tài)識(shí)別效果較好。文獻(xiàn)[13]采用粒子濾波器并引入長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM),通過(guò)融合多個(gè)從深度相機(jī)中提取的二維關(guān)節(jié)位置來(lái)估計(jì)3D人體姿勢(shì),結(jié)果表明在遮擋、不受約束的照明和運(yùn)動(dòng)模糊情況下均可增強(qiáng)協(xié)作場(chǎng)景的姿態(tài)識(shí)別性能。RGB-D相機(jī)可通過(guò)深度與顏色信息輔助識(shí)別陰影的形狀與位置,并判斷物體間的遮擋關(guān)系,具有較強(qiáng)的環(huán)境適應(yīng)性與實(shí)時(shí)性。Hu等[15]利用Kinect相機(jī)獲取人體關(guān)節(jié)信息,采用偏圓定界方法解決了人體關(guān)節(jié)偏移現(xiàn)象,從而實(shí)現(xiàn)運(yùn)動(dòng)情況下對(duì)人體關(guān)節(jié)點(diǎn)的精確估計(jì)。
協(xié)作場(chǎng)景的圖像處理過(guò)程中,機(jī)器人通過(guò)分析圖像或視頻中的像素信息來(lái)精準(zhǔn)識(shí)別人體部分關(guān)鍵特征,從而實(shí)現(xiàn)姿態(tài)識(shí)別。
1.2.1 表觀特征
表觀特征主要包括顏色、輪廓等視覺(jué)屬性,系統(tǒng)分析顏色時(shí)通過(guò)顏色直方圖或顏色矩來(lái)提取特征。在復(fù)雜的協(xié)作環(huán)境中,視覺(jué)系統(tǒng)對(duì)基于顏色的識(shí)別與分析結(jié)果易受到光照、陰影和膚色的影響而產(chǎn)生畸變。基于此,Al Naser等[17]開(kāi)發(fā)一種結(jié)合Otsu方法和YCrCb色彩空間的新型算法,實(shí)現(xiàn)熱信息與顏色信息的數(shù)據(jù)融合來(lái)進(jìn)行人體部位檢測(cè),與傳統(tǒng)OpenPose算法相比識(shí)別速度快5倍,且可減少光照及人體膚色的影響。Zabalza等[18]開(kāi)發(fā)了一種基于低成本相機(jī)和基于色調(diào)、飽和度、亮度(hue-saturation-value, HSV)空間顏色檢測(cè)的機(jī)器視覺(jué)模塊,該模塊可使機(jī)器人意識(shí)到變化的環(huán)境并精確檢測(cè)障礙物,提升了光照以及移動(dòng)情況下的識(shí)別精度。
1.2.2 局部特征
局部特征相較表觀特征對(duì)光線并不敏感,可通過(guò)預(yù)處理和歸一化的操作提升識(shí)別的質(zhì)量。尺度不變換特征(scale-invariant feature transform, SIFT)能在不同大小和旋轉(zhuǎn)方向的圖像中識(shí)別關(guān)鍵點(diǎn)并提取局部特征[19],抗遮擋干擾情況較好;ORB(oriented FAST and rotated BRIEF)將FAST(features from accelerated segment test)的高速特征檢測(cè)及BRIEF(binary robust independent elementary features)的高效特征描述結(jié)合起來(lái),相比SIFT在計(jì)算速度上有更快的優(yōu)勢(shì);方向梯度直方圖(histogram of oriented gradients, HOG)基于提取圖像中不同區(qū)域的梯度直方圖,并將其作為特征向量進(jìn)行人體姿態(tài)識(shí)別,對(duì)光照和視角變化具有一定的不變性。在遮擋條件下的協(xié)作環(huán)境中, Vinay等[20]提出一種基于ORB的交互式人臉識(shí)別框架,引入考慮遮擋等非線性因素的核主成分分析不相關(guān)分量,識(shí)別精度提高了5%。巫曉康等[21]提出一種采用HOG提取特征矩陣的骨架旋轉(zhuǎn)投影描述子(rotational and projective skeleton signature,RPSS)來(lái)識(shí)別人體骨架,該方法在動(dòng)作序列的時(shí)空信息不充分的情況下,識(shí)別魯棒性和實(shí)時(shí)性均較好。
1.2.3 骨骼特征
復(fù)雜場(chǎng)景的完整人體模型通常不易識(shí)別,而骨骼特征通過(guò)定量描述關(guān)節(jié)位置和角度,可提取骨骼的空間與動(dòng)態(tài)信息,免受照明和背景干擾且準(zhǔn)確性高[22]。
骨骼特征提取采用骨骼幾何信息構(gòu)成分類特征,通過(guò)骨骼識(shí)別算法提取人體15個(gè)骨骼關(guān)鍵點(diǎn)坐標(biāo)信息,如圖1所示。
1為頭;2為左肩;3為脖子;4為右肩;5為左肘;6為軀干;7為右肘;8為左手;9為左臀;10為右臀;11為右手;12為左膝;13為右膝;14為左腳;15為右腳
設(shè)bi=(x,y,z)為第i個(gè)關(guān)節(jié)點(diǎn)三維坐標(biāo)i=1,2,…,15,則bi,bj間的距離δ(bi,bj)計(jì)算公式為
δ(bi,bj)=
(1)
避免異構(gòu)需計(jì)算手肘肩膀及腳膝蓋臀部所構(gòu)成的角度θi,公式為
(2)
由式(1)和式(2)即可識(shí)別關(guān)節(jié)間距離與角度信息,由此類信息共同構(gòu)成所需特征。文獻(xiàn)[23]采用骨骼識(shí)別算法,從RGB圖像中恢復(fù)3D人體網(wǎng)格,通過(guò)關(guān)節(jié)回歸模塊估計(jì)單目視頻中的三維人體骨骼信息,解決了人體在環(huán)境中的姿勢(shì)和特征差異以及人體的部分遮擋問(wèn)題。文獻(xiàn)[24]提出一種基于姿態(tài)運(yùn)動(dòng)的時(shí)空融合圖卷積網(wǎng)絡(luò),引入基于局部姿態(tài)運(yùn)動(dòng)的時(shí)間注意力模塊進(jìn)行骨骼信息提取,與語(yǔ)音交互相比準(zhǔn)確性較高且在時(shí)間域內(nèi)可高效抑制運(yùn)動(dòng)擾動(dòng)信息。
1.2.4 運(yùn)動(dòng)特征
在移動(dòng)情況下的協(xié)作環(huán)境,對(duì)運(yùn)動(dòng)特征的檢測(cè)識(shí)別也可保障人類安全。運(yùn)動(dòng)特征領(lǐng)域的典型研究方法包括差像法和光流法,可用于提取運(yùn)動(dòng)信息。差像法通過(guò)相鄰幀間的像素值進(jìn)行差分運(yùn)算來(lái)檢測(cè)運(yùn)動(dòng),適用于背景變化劇烈的情況。而光流法則通過(guò)分析鄰域像素之間的亮度變化,來(lái)估計(jì)每個(gè)像素的運(yùn)動(dòng)向量,適用于平緩運(yùn)動(dòng)[25]。
文獻(xiàn)[26]提出一種結(jié)合強(qiáng)特征提取器、注意力輪廓及中間特征的改進(jìn)光流法,在交互系統(tǒng)中可實(shí)現(xiàn)速度精度權(quán)衡,能更好地理解運(yùn)動(dòng)并精確地表示輪廓。Agarwal等[27]利用Vanilla-LSTM和Social-LSTM時(shí)間深度神經(jīng)網(wǎng)絡(luò)檢測(cè)人類運(yùn)動(dòng)軌跡,引入密集光流法,用以穩(wěn)定來(lái)自數(shù)據(jù)集中的輸入注釋并減少相機(jī)運(yùn)動(dòng)的影響。
協(xié)作環(huán)境中,視覺(jué)識(shí)別算法對(duì)從原始傳感器獲取的數(shù)據(jù)即人體肢體和姿態(tài)等進(jìn)行識(shí)別。姿態(tài)識(shí)別算法在目標(biāo)檢測(cè)基礎(chǔ)上,通過(guò)對(duì)目標(biāo)位置信息進(jìn)行分析和推理,推斷出目標(biāo)姿態(tài)。
應(yīng)用在協(xié)作領(lǐng)域的OpenPose[28-29]、Media-pipe[30-31]、DeepPose[32-33]、AlphaPose[34]等姿態(tài)識(shí)別算法可識(shí)別出人體關(guān)鍵點(diǎn)的坐標(biāo)信息。其中Open-Pose和Mediapipe屬于自底向上的方法,需要檢測(cè)圖像關(guān)鍵點(diǎn),通過(guò)組合來(lái)形成人體姿態(tài),可能會(huì)因?yàn)檎趽?、相同目?biāo)距離較近等情況造成關(guān)鍵點(diǎn)的誤連接。DeepPose和AlphaPose是自頂向下的方法,通過(guò)神經(jīng)網(wǎng)絡(luò)監(jiān)測(cè)到人體實(shí)例,再根據(jù)關(guān)鍵點(diǎn)檢測(cè)算法檢測(cè)人體關(guān)節(jié)點(diǎn),可以減少誤檢測(cè)與冗余檢測(cè)的情況。文獻(xiàn)[35]表明多目標(biāo)協(xié)作環(huán)境中,自頂向下的關(guān)鍵點(diǎn)檢測(cè)方法相較自底向上方法更適合近距離檢測(cè)。表2為幾種人體姿態(tài)識(shí)別算法的特征對(duì)比。
表2 人體姿態(tài)識(shí)別算法特征對(duì)比
OpenPose的魯棒性與精準(zhǔn)度優(yōu)良,適用于單人和多人環(huán)境及各類背景復(fù)雜的體態(tài)識(shí)別。Gao等[36]基于改進(jìn)OpenPose算法,對(duì)采用雙流注意模型分割的手部圖像進(jìn)行識(shí)別,通過(guò)加權(quán)融合方法結(jié)合骨架數(shù)據(jù),實(shí)現(xiàn)復(fù)雜環(huán)境的姿勢(shì)動(dòng)態(tài)感知。文獻(xiàn)[37]提出一種采用OpenPose進(jìn)行關(guān)鍵點(diǎn)提取和基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)分類的新型KPE-DCNN模型,用于遮擋和移動(dòng)等復(fù)雜協(xié)作場(chǎng)景的姿態(tài)識(shí)別,與CNN等標(biāo)準(zhǔn)算法相比提高了最少8.87%的識(shí)別精度。文獻(xiàn)[38]提出的Lightweight OpenPose輕量級(jí)方法,相較于 OpenPose 所占資源更少,適用于對(duì)硬件設(shè)備要求不高的場(chǎng)景。
機(jī)器人在協(xié)作過(guò)程中需根據(jù)先前行為信息進(jìn)行分類并預(yù)測(cè)人體運(yùn)動(dòng)軌跡,計(jì)算最佳避免碰撞路徑,以保證人體安全。預(yù)測(cè)運(yùn)動(dòng)軌跡的方法包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)。
2.1.1 監(jiān)督學(xué)習(xí)方式
監(jiān)督學(xué)習(xí)可通過(guò)建模人體動(dòng)作序列并預(yù)測(cè)運(yùn)動(dòng),具有高準(zhǔn)確性及快速?zèng)Q策的優(yōu)勢(shì),常用于協(xié)作環(huán)境中的人體運(yùn)動(dòng)估計(jì)。幾種典型分類模型:隱馬爾可夫模型(hidden Markov model, HMM)基于時(shí)間序列數(shù)據(jù),可將獲取的行為數(shù)據(jù)特征向量化并利用向量序列來(lái)訓(xùn)練,在對(duì)動(dòng)作序列建模和分類方面效果較好[39];馬爾可夫模型(Markov model, MM)相較HMM主要考慮狀態(tài)之間的轉(zhuǎn)移概率,對(duì)協(xié)作環(huán)境中的動(dòng)態(tài)運(yùn)動(dòng)場(chǎng)景具有適應(yīng)性[40];支持向量機(jī)(support vector machine, SVM)通過(guò)將數(shù)據(jù)映射到高維空間,尋找最大間隔超平面來(lái)進(jìn)行分類實(shí)現(xiàn)運(yùn)動(dòng)預(yù)測(cè)[41];動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network, DBN)可對(duì)變量間的概率關(guān)系進(jìn)行建模和預(yù)測(cè)[42],與SVM融合可適當(dāng)降低系統(tǒng)復(fù)雜性并提高預(yù)測(cè)準(zhǔn)確性。HMM對(duì)光照及遮擋影響較敏感,而MM、SVM和DBN對(duì)這類因素具有不同程度的適應(yīng)能力,更適合復(fù)雜環(huán)境下的協(xié)作任務(wù)。
在運(yùn)動(dòng)下的人機(jī)協(xié)作場(chǎng)景中,Grigore等[43]從由人類工人組成的訓(xùn)練集中學(xué)習(xí)一個(gè)HMM,使用其在任務(wù)執(zhí)行期間對(duì)有關(guān)人類行為模式的信息進(jìn)行編碼,能夠隱式靈活地表示任務(wù)相關(guān)結(jié)構(gòu),并輔助預(yù)測(cè)機(jī)器人的運(yùn)動(dòng)。Wang等[44]將基于注意機(jī)制的擴(kuò)展馬爾可夫遷移特征集成到傳統(tǒng)的MM中,通過(guò)解決人體運(yùn)動(dòng)的長(zhǎng)期相關(guān)性和上下文依賴的問(wèn)題,實(shí)現(xiàn)高性能的運(yùn)動(dòng)預(yù)測(cè),經(jīng)評(píng)估表明,所提出的新型算法模型優(yōu)于傳統(tǒng)算法6.6%以上。董寧等[45]提出一種基于DBN的人體動(dòng)作識(shí)別方法,通過(guò)提取人體的關(guān)節(jié)點(diǎn)并計(jì)算軀干角度,使用后驗(yàn)概率動(dòng)態(tài)調(diào)整SVM分類器和樸素貝葉斯分類器權(quán)重,使其互為補(bǔ)充來(lái)增加識(shí)別率,通過(guò)與單分類器的對(duì)比試驗(yàn)驗(yàn)證了對(duì)人體的運(yùn)動(dòng)預(yù)測(cè)。
2.1.2 無(wú)監(jiān)督學(xué)習(xí)方式
監(jiān)督學(xué)習(xí)方法存在兩大局限性:機(jī)器人在碰撞數(shù)據(jù)收集過(guò)程中可能會(huì)損壞;只有作為碰撞學(xué)習(xí)的場(chǎng)景才能被魯棒檢測(cè)[46]。而無(wú)監(jiān)督學(xué)習(xí)能自動(dòng)發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性并識(shí)別潛在特征,適用于處理未知類別訓(xùn)練樣本的情況。
高斯混合模型(Gaussian mixture model, GMM)可被用來(lái)對(duì)人體的關(guān)鍵點(diǎn)進(jìn)行建模和分析,建立人體動(dòng)作數(shù)據(jù)集,運(yùn)用回歸方式預(yù)測(cè)人體動(dòng)作[47]。設(shè)GMM由m個(gè)高斯模型組成,每個(gè)高斯模型為一個(gè)分量,則GMM的概率密度函數(shù)為
(3)
式(3)中:x為D維特征向量,p(x|m)=N(x|μm,Σm)為第m個(gè)高斯模型的概率密度函數(shù),可以看作是第m個(gè)高斯模型選擇后產(chǎn)生的x概率,表達(dá)式為
(4)
Luo等[49]提出了一個(gè)由兩層的GMM庫(kù)組成的,用于無(wú)監(jiān)督在線人體運(yùn)動(dòng)識(shí)別和預(yù)測(cè)的框架,如圖2所示。該框架可以實(shí)時(shí)生成模型,能適應(yīng)新的人與動(dòng)作,預(yù)測(cè)準(zhǔn)確率達(dá)到95.3%。康杰等[50-51]提出一種基于ROS的人體姿態(tài)的實(shí)時(shí)運(yùn)動(dòng)估計(jì)框架,利用GMM算法和期望最大化算法,根據(jù)采集到的坐標(biāo)點(diǎn)進(jìn)行聚類估計(jì),并為每個(gè)類別添加標(biāo)簽來(lái)獲取關(guān)節(jié)的順序,該方法能夠準(zhǔn)確描述人體運(yùn)動(dòng)并做出預(yù)測(cè)。
Gn為庫(kù)中GMM;Xj為軌跡
無(wú)監(jiān)督學(xué)習(xí)不需要大規(guī)模的監(jiān)督數(shù)據(jù)集,也不需要傳統(tǒng)的訓(xùn)練過(guò)程和手工標(biāo)注,就可以構(gòu)建人體運(yùn)動(dòng)模型并進(jìn)行預(yù)測(cè)。但是在相對(duì)復(fù)雜的協(xié)作環(huán)境,采用無(wú)監(jiān)督學(xué)習(xí)模型的分類結(jié)果魯棒性較低,相比監(jiān)督學(xué)習(xí)有指導(dǎo)性和反饋機(jī)制的優(yōu)勢(shì),其準(zhǔn)確性和效率還需提高。
深度學(xué)習(xí)方法是一種端到端的學(xué)習(xí)方法,不需要人工干預(yù),而是依靠算法自動(dòng)提取特征??芍苯訌脑驾斎霐?shù)據(jù)開(kāi)始,通過(guò)層次化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)完成特征提取和模型學(xué)習(xí)[52]。深度學(xué)習(xí)方法由神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)學(xué)習(xí)過(guò)程中能夠辨識(shí)樣本數(shù)據(jù)內(nèi)部結(jié)構(gòu)特性與隱含規(guī)則,具有分析處理相似性數(shù)據(jù),表達(dá)非線性函數(shù)關(guān)系并找到系統(tǒng)輸入輸出關(guān)系的能力。
在協(xié)作環(huán)境下的預(yù)測(cè)領(lǐng)域,深度學(xué)習(xí)常用網(wǎng)絡(luò)模型有用于處理視覺(jué)信息的深度卷積神經(jīng)網(wǎng)絡(luò),以及用于特征學(xué)習(xí)的堆棧式自編碼網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)。鄭涵等[53]通過(guò)改進(jìn)的Faster R-CNN網(wǎng)絡(luò)進(jìn)行手部及其關(guān)鍵點(diǎn)檢測(cè),使用MANO(hand model with articulated and non-rigid deformations)模型獲取手部關(guān)鍵點(diǎn)的三維坐標(biāo),最終得到手部的三維位姿估計(jì)結(jié)果,該方法能夠解決手部自遮擋和尺度問(wèn)題,并提高檢測(cè)結(jié)果的準(zhǔn)確性。針對(duì)運(yùn)動(dòng)的復(fù)雜情況,陳鵬展等[54]提出一種融合骨骼耦合的預(yù)測(cè)方法,采用增加原始輸出處理層的改進(jìn)LSTM網(wǎng)絡(luò)模型框架,通過(guò)拉普拉斯評(píng)分算法和動(dòng)態(tài)聚類算法實(shí)現(xiàn)基于骨骼耦合性的約束條件來(lái)減小關(guān)鍵點(diǎn)軌跡預(yù)測(cè)誤差,裝配協(xié)作場(chǎng)景中的準(zhǔn)確率達(dá)80%以上。Wang等[55]提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM架構(gòu)的手部運(yùn)動(dòng)預(yù)測(cè)系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖3所示,引入優(yōu)化的機(jī)器人軌跡規(guī)劃算法,利用視覺(jué)模塊的預(yù)測(cè)進(jìn)行復(fù)雜協(xié)作環(huán)境的運(yùn)動(dòng)軌跡優(yōu)化計(jì)算。
圖3 安全協(xié)作系統(tǒng)結(jié)構(gòu)[56]
為提高協(xié)作避碰能力與安全性,Choi等[56]提出一種基于擴(kuò)展現(xiàn)實(shí)的人機(jī)互助應(yīng)用程序來(lái)跟蹤人體骨骼和同步機(jī)器人,采用基于深度學(xué)習(xí)的分割和迭代最近點(diǎn)匹配算法實(shí)時(shí)測(cè)量人類操作員與機(jī)器人之間的安全距離。Zheng等[57]提出一種基于編碼器-解碼器網(wǎng)絡(luò)的人手運(yùn)動(dòng)預(yù)測(cè)模型,融合模型預(yù)測(cè)控制框架,能夠基于人體運(yùn)動(dòng)軌跡來(lái)規(guī)劃共享工作空間中的機(jī)器人無(wú)碰撞軌跡。
基于以上綜述,分析了部分方法中可能存在的不足,并做出總結(jié)與展望,具體如下。
(1)人機(jī)協(xié)作中,機(jī)器人需高度關(guān)注人類的識(shí)別感知。然而,目前的方法僅能通過(guò)可穿戴設(shè)備[58]對(duì)人體的局部進(jìn)行感知,或者僅能通過(guò)視覺(jué)檢測(cè)和骨骼識(shí)別來(lái)確定人體的粗略位置與建模,而不是準(zhǔn)確的3D幾何建模。為應(yīng)對(duì)復(fù)雜協(xié)作環(huán)境,計(jì)算機(jī)視覺(jué)領(lǐng)域中出現(xiàn)一種密集人體姿勢(shì)建模的趨勢(shì),包括精密的身體姿態(tài)建模[59]和手部姿勢(shì)建模,被用于更精細(xì)的人體感知來(lái)應(yīng)對(duì)變化的環(huán)境,提高姿態(tài)估計(jì)精度。
(2)人機(jī)協(xié)同作業(yè)面臨環(huán)境復(fù)雜,視覺(jué)傳感器在協(xié)作過(guò)程中可能會(huì)存在延遲問(wèn)題,而僅使用單一的視覺(jué)傳感器已不能滿足工作需求。因此,可采用觸覺(jué)、聽(tīng)覺(jué)等多傳感器融合的方式,賦予機(jī)器人更立體的感知能力。除人體動(dòng)作外,機(jī)器人對(duì)多模態(tài)信息的識(shí)別也影響著人體姿態(tài)預(yù)測(cè),有學(xué)者采用肌電信號(hào)、腦電信號(hào)[60]融合等方式使機(jī)器人預(yù)測(cè)人類意圖,以支持更主動(dòng)的人機(jī)協(xié)作。
人機(jī)協(xié)作的安全性和實(shí)時(shí)性是人工智能行業(yè)的重要問(wèn)題,基于此探討了復(fù)雜協(xié)作環(huán)境的姿態(tài)識(shí)別與避碰策略。相較傳統(tǒng)方法,基于深度學(xué)習(xí)的人體姿態(tài)識(shí)別與預(yù)測(cè)方法擁有強(qiáng)大的學(xué)習(xí)能力、較高的準(zhǔn)確性、良好的實(shí)時(shí)性與適應(yīng)性,使其能夠有效應(yīng)對(duì)復(fù)雜動(dòng)態(tài)人機(jī)共融環(huán)境的變化和不確定性,為實(shí)時(shí)交互提供可靠幫助,在復(fù)雜協(xié)作場(chǎng)景中的姿態(tài)預(yù)測(cè)領(lǐng)域有較大的學(xué)術(shù)潛力和研究?jī)r(jià)值。