亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計(jì)算機(jī)視覺的人機(jī)交互技術(shù)研究

        2022-05-26 07:00:34賈淑滟
        關(guān)鍵詞:描述符手勢(shì)步長(zhǎng)

        賈淑滟

        (山西旅游職業(yè)學(xué)院,山西太原 030031)

        0 引言

        近年來(lái),人類行為和手勢(shì)識(shí)別受到研究者越來(lái)越多的關(guān)注,并在人機(jī)交互等領(lǐng)域發(fā)揮了重要作用.人類和機(jī)器人之間直觀可靠的通信對(duì)于成功的協(xié)作至關(guān)重要.關(guān)于自然界面,人類和機(jī)器人助手之間最相關(guān)的交流渠道是語(yǔ)音和手勢(shì)[1].由于典型的嘈雜工業(yè)環(huán)境使語(yǔ)言交流變得無(wú)效,手勢(shì)已經(jīng)成為與機(jī)器人合作的最具探索性的交流方式[2].盡管傳感器技術(shù)和機(jī)器學(xué)習(xí)方法取得了重要進(jìn)展,但自動(dòng)手勢(shì)分割和分類仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題[3].識(shí)別手勢(shì)的過(guò)程中會(huì)遇到許多困難,例如噪聲和缺失數(shù)據(jù)、個(gè)體間的可變性、不規(guī)則的觀察條件(例如,燈光、背景和視點(diǎn))和無(wú)限的詞匯外運(yùn)動(dòng)等.此外,由于時(shí)間維度帶來(lái)的更高復(fù)雜性,對(duì)用于手勢(shì)識(shí)別的視頻理解一直是一個(gè)不斷增長(zhǎng)的研究領(lǐng)域[4-6].Kinect傳感器的出現(xiàn)是計(jì)算機(jī)視覺的一個(gè)顯著進(jìn)步,它被應(yīng)用于各種涉及手勢(shì)識(shí)別的任務(wù),例如娛樂(lè)和人機(jī)界面.隨著Kinect提供內(nèi)置的骨骼數(shù)據(jù)以及高分辨率的深度和顏色圖像,伴隨著很多新的數(shù)據(jù)集出現(xiàn),為研究人員提供了設(shè)計(jì)新方法并在大量序列上驗(yàn)證的機(jī)會(huì).本文在2014年“ChaLearn Looking at People (LAP)”挑戰(zhàn)賽數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)[7].

        本文主要研究視頻序列的標(biāo)注,該方法依賴于從骨架數(shù)據(jù)中提取的一系列手工特征.本文提出了一個(gè)有效的手勢(shì)定位模塊,它執(zhí)行幀級(jí)別的二分類.用于手勢(shì)識(shí)別的方法采用了基于滑動(dòng)窗口的方案.本文還結(jié)合了不同持續(xù)時(shí)間大小的窗口,以獲得一個(gè)多時(shí)間尺度的方法.此外,本文提出了一種用于同時(shí)進(jìn)行手勢(shì)檢測(cè)和分類的方法,該方法采用了具有雙向長(zhǎng)短期記憶(LSTM)單元的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[8].這些循環(huán)單元使長(zhǎng)時(shí)間尺度上的時(shí)間關(guān)系學(xué)習(xí)變得高效,并且表現(xiàn)出了比標(biāo)準(zhǔn)單元更好的性能[9].

        1 研究現(xiàn)狀

        傳統(tǒng)的手勢(shì)識(shí)別方法通常包括時(shí)空手工描述符和分類,即使是提交給2014ChaLearn LAP挑戰(zhàn)賽的最精確的方法也提出了手工提取特征的描述符.得分最高的方法從每個(gè)視覺模態(tài)中學(xué)習(xí)特征,但是從骨架數(shù)據(jù)中構(gòu)建的特征是完全手動(dòng)提取的特征[4].第二名的方法完全依賴于手工制作的特征,每個(gè)手勢(shì)的整體外觀是由骨架數(shù)據(jù)推斷出來(lái)的[5].

        雖然許多人類姿勢(shì)可以通過(guò)主要關(guān)節(jié)的位置和運(yùn)動(dòng)來(lái)區(qū)分,例如肘部和肩部等.但其他姿勢(shì)不同于手的姿勢(shì)及其相對(duì)于身體或面部的位置.因此,方向梯度直方圖(HOG)[10]是一種手工制作的特征描述符,通常用于區(qū)分手勢(shì),在手勢(shì)識(shí)別中具有顯著的效果[5].近幾十年來(lái),構(gòu)建一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)往往需要仔細(xì)的工程實(shí)現(xiàn)和大量的領(lǐng)域?qū)I(yè)知識(shí)來(lái)設(shè)計(jì)一個(gè)特征提取器.此外,特征的選擇是一項(xiàng)困難的任務(wù),因?yàn)樗鼈兏叨纫蕾囉趩?wèn)題本身.深度學(xué)習(xí)方法是一種表征學(xué)習(xí)方法,允許機(jī)器獲得原始數(shù)據(jù),并自動(dòng)發(fā)現(xiàn)檢測(cè)或分類任務(wù)所需的表征信息[11].學(xué)習(xí)到的特征已經(jīng)在無(wú)數(shù)的領(lǐng)域中顯示出有價(jià)值的結(jié)果,比用工程描述符獲得的結(jié)果要好很多倍[12].

        卷積神經(jīng)網(wǎng)絡(luò)[13]是深度網(wǎng)絡(luò)的典型例子,可用于直接從數(shù)據(jù)中學(xué)習(xí)潛在和復(fù)雜的特征.使用卷積神經(jīng)系統(tǒng)將物體識(shí)別的錯(cuò)誤率幾乎減半是深度學(xué)習(xí)的一項(xiàng)重大突破,促使了計(jì)算機(jī)視覺社區(qū)開始廣泛采用深度學(xué)習(xí)[14].Di Wu等人使用深度網(wǎng)絡(luò),包括3D CNN來(lái)處理顏色和深度圖像,為隱馬爾可夫模型(HMM)建模釋放概率[6].盡管神經(jīng)網(wǎng)絡(luò)已經(jīng)大量地應(yīng)用于特征構(gòu)建,但它們可以從像素值端到端地訓(xùn)練到分類輸出.Ji等人將這些網(wǎng)絡(luò)用于機(jī)場(chǎng)監(jiān)控視頻中的人體動(dòng)作識(shí)別[15].Karpathy等人還研究了在時(shí)域中擴(kuò)展CNN連通性的多種方法[16].他們的慢融合模型在Sports-1M數(shù)據(jù)集上取得了最佳性能,也是一個(gè)3D卷積神經(jīng)網(wǎng)絡(luò).

        Pigou等人表明時(shí)間池化不足以進(jìn)行手勢(shì)識(shí)別,在該任務(wù)中,時(shí)間信息比一般的視頻分類任務(wù)更具區(qū)分性[9].他們?cè)陔p向遞歸(RNN與LSTM細(xì)胞)后進(jìn)一步地使用了時(shí)空卷積,并在2014年挑戰(zhàn)中取得了最先進(jìn)的結(jié)果.將卷積神經(jīng)系統(tǒng)獨(dú)有的特征提取能力與LSTM網(wǎng)絡(luò)的時(shí)序動(dòng)態(tài)建模相結(jié)合的概念,也為使用多模態(tài)可穿戴傳感器進(jìn)行人類動(dòng)作識(shí)別提供了最先進(jìn)的結(jié)果[17].

        2 手勢(shì)分割

        2.1 姿態(tài)描述符

        該方法的核心是基于手工特征的姿態(tài)描述符,如圖1所示,它利用Kinect傳感器采集11個(gè)人體關(guān)節(jié)對(duì)應(yīng)的骨骼數(shù)據(jù).該姿態(tài)描述符包括當(dāng)前幀周圍短時(shí)間窗口的空間信息和時(shí)間細(xì)節(jié),例如速度和加速度.

        本文的手勢(shì)檢測(cè)方法最初遵循Zanfir等人提出的流程[18].因此,本文通過(guò)計(jì)算一個(gè)歸一化的姿態(tài)向量,以及所有11個(gè)關(guān)節(jié)的速度和加速度.圖1將上身關(guān)節(jié)顯示為樹形結(jié)構(gòu),其中臀部中心關(guān)節(jié)是根節(jié)點(diǎn).它的原始坐標(biāo)從所有其他位置向量中減去,以減少身體空間位置的影響.每對(duì)關(guān)節(jié)之間距離的標(biāo)準(zhǔn)化也用于平衡用戶身體比例的差異.然后,使用標(biāo)準(zhǔn)偏差等于1的5×1高斯濾波器沿時(shí)間維度平滑每個(gè)坐標(biāo).最后,每個(gè)關(guān)節(jié)的速度和加速度是對(duì)應(yīng)的平滑位置的一階和二階導(dǎo)數(shù).

        本文通過(guò)收集特征角度和成對(duì)距離來(lái)獲得更精確的描述符[4].如圖2所示,如果添加兩個(gè)虛擬的骨骼:右手/左手-臀部中心,傾斜角則由解剖學(xué)上連接的所有三個(gè)關(guān)節(jié)形成.方位角提供與身體相關(guān)聯(lián)的坐標(biāo)系中姿態(tài)外觀的信息,并且它們被計(jì)算為傾斜角所使用的相同的三個(gè)關(guān)節(jié).彎曲角度是在垂直于軀干的矢量和每個(gè)關(guān)節(jié)的標(biāo)準(zhǔn)化位置之間測(cè)量的.每對(duì)關(guān)節(jié)之間的55個(gè)距離作為最后一個(gè)特征添加到描述符.結(jié)合所有經(jīng)過(guò)歸一化(均值零和單位方差)后的特征,本文得到每幀的183維姿態(tài)描述符.

        圖1 人體關(guān)節(jié)示意圖Fig.1 Schematic diagram of human joints圖2 由相連關(guān)節(jié)形成的角度示意圖Fig.2 Schematic diagram of angle formed by connecting joints

        2.2 有監(jiān)督的分割

        不同的手勢(shì)在其初始或最終階段可能非常相似,并且按幀分類通常會(huì)產(chǎn)生噪音甚至是錯(cuò)誤的結(jié)果.本文引入這個(gè)模塊是為了防止這些負(fù)面影響.分類器區(qū)分靜止時(shí)刻和活動(dòng)時(shí)期,它可以識(shí)別每個(gè)手勢(shì)的起點(diǎn)和終點(diǎn).這個(gè)階段是基于手工描述符實(shí)現(xiàn)的.標(biāo)記有一個(gè)手勢(shì)類的所有訓(xùn)練幀被用作正樣本參與訓(xùn)練,并且在這種手勢(shì)之前和之后的一組幀被用作負(fù)樣本.

        圖3 分割模塊的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Network structure diagram of segmentation module

        如圖3所示,為本文采用的網(wǎng)絡(luò)結(jié)構(gòu).由于模型是用姿態(tài)描述符訓(xùn)練的,它的輸入層有183個(gè)單元.此外,網(wǎng)絡(luò)包括2個(gè)隱藏層,分別包含100個(gè)單元,且第一個(gè)應(yīng)用ReLU作為激活函數(shù),第二個(gè)應(yīng)用雙曲正切激活函數(shù).輸出層只有一個(gè)神經(jīng)元,使用Sigmoid進(jìn)行激活.當(dāng)處理活動(dòng)周期時(shí),該層輸出1,否則輸出0.該網(wǎng)絡(luò)通過(guò)比例共軛梯度法進(jìn)行優(yōu)化.

        對(duì)于每個(gè)樣本,神經(jīng)網(wǎng)絡(luò)輸出的分?jǐn)?shù)個(gè)數(shù)與樣本的幀數(shù)一樣多.本文發(fā)現(xiàn)預(yù)測(cè)結(jié)果通常不夠穩(wěn)定,因此,本文進(jìn)一步采用最小二乘法和二次多項(xiàng)式通過(guò)局部回歸來(lái)平滑它們.之后,本文使用一個(gè)閾值來(lái)確定分?jǐn)?shù)高于0.4的所有幀都屬于一個(gè)運(yùn)動(dòng)周期.此外,本文只考慮持續(xù)至少12幀的活動(dòng)周期.

        3 手勢(shì)分類

        幀級(jí)別的分類是研究人員應(yīng)對(duì)靜態(tài)手勢(shì)的一個(gè)合理策略,因?yàn)閱螏臄?shù)據(jù)非常特殊.然而,本文的工作重心是動(dòng)態(tài)手勢(shì),針對(duì)這個(gè)目的,本文設(shè)計(jì)了三個(gè)合適的模型.方法A和方法B是基于滑動(dòng)窗口的方法,滑動(dòng)窗口可以連接來(lái)自不同時(shí)刻的空間信息.這些模型只關(guān)注上一節(jié)模型所劃分的動(dòng)作周期.方法C是用LSTM單元測(cè)試RNN的深度模型.

        3.1 方法A

        窗口的應(yīng)用導(dǎo)致動(dòng)態(tài)姿態(tài),它是在給定時(shí)間步長(zhǎng)采樣并連接以產(chǎn)生時(shí)空向量的描述符序列.本文的方法A用3個(gè)姿態(tài)描述符來(lái)構(gòu)建動(dòng)態(tài)的姿態(tài),即所選幀之間的步長(zhǎng)等于4.因此,這個(gè)窗口正好包含9幀.每次應(yīng)用后窗口的步長(zhǎng)等于2.此外,本文希望從每個(gè)活動(dòng)周期收集至少5個(gè)動(dòng)態(tài)姿態(tài),從而確保分類器有足夠的數(shù)據(jù)來(lái)輸出魯棒的預(yù)測(cè).當(dāng)周期的維度不足以滿足該條件時(shí),使用三次插值法將數(shù)據(jù)調(diào)整到最小長(zhǎng)度.

        圖4 分類模塊的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Network structure diagram of classification module

        如圖4所示,為將根據(jù)以上描述符建立的動(dòng)態(tài)姿態(tài)作為前饋網(wǎng)絡(luò)的輸入時(shí)所對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu).每個(gè)動(dòng)態(tài)姿態(tài)包括3個(gè)姿態(tài)描述符,因此,輸入層有549個(gè)單元.該網(wǎng)絡(luò)包括兩個(gè)隱藏層,第一層由300個(gè)單元組成,第二層僅由100個(gè)單元組成.兩層都應(yīng)用雙曲正切作為激活函數(shù).輸出層有20個(gè)單位,是類別數(shù),使用Softmax作為激活函數(shù).該網(wǎng)絡(luò)也是由共軛梯度法訓(xùn)練的.

        分類過(guò)程的最終細(xì)節(jié)可能因活動(dòng)周期的長(zhǎng)短而有所不同.根據(jù)對(duì)手勢(shì)平均長(zhǎng)度的研究,本文假設(shè)一個(gè)少于55幀的運(yùn)動(dòng)周期只包含一個(gè)手勢(shì).在這種情況下,本文在整個(gè)片段上滑動(dòng)窗口,網(wǎng)絡(luò)單獨(dú)評(píng)估動(dòng)態(tài)姿態(tài).對(duì)于每個(gè)動(dòng)態(tài)姿勢(shì),如果最大得分高于一個(gè)閾值,本文記錄對(duì)應(yīng)的類.最后,如果最常見的類別在記錄的類別中獲得絕大多數(shù),本文則將動(dòng)作周期分類為該類別.否則,該段將保持未標(biāo)記狀態(tài).當(dāng)周期長(zhǎng)度較大時(shí),假設(shè)它包括多個(gè)手勢(shì),目標(biāo)是檢測(cè)其中的每一個(gè)手勢(shì).同理,如果獲勝類的分?jǐn)?shù)大于一個(gè)閾值,則記錄那個(gè)類.每當(dāng)在至少3個(gè)連續(xù)窗口中識(shí)別到相同的手勢(shì)時(shí),則假設(shè)該手勢(shì)被有效地執(zhí)行.然后,被分類為同一類別的連續(xù)窗口所包含的所有幀都被標(biāo)記為該類別.

        3.2 方法B

        太寬的動(dòng)態(tài)姿勢(shì)會(huì)導(dǎo)致嘈雜的預(yù)測(cè),尤其是在手勢(shì)的初始和最終階段.另一方面,短的動(dòng)態(tài)姿勢(shì)是沒有區(qū)別的,因?yàn)橐恍┳藙?shì)類有相似的外觀.搜索不同的超參數(shù)組合可以改善某些預(yù)測(cè),但會(huì)惡化其他預(yù)測(cè).因此,本文引入了一種較為魯棒的方法,該方法應(yīng)用了3個(gè)滑動(dòng)窗口,這與方法A使用的方法非常相似,但是通過(guò)對(duì)具有不同時(shí)間步長(zhǎng)的描述符進(jìn)行采樣來(lái)創(chuàng)建動(dòng)態(tài)姿態(tài).這種關(guān)聯(lián)產(chǎn)生了一個(gè)適應(yīng)多種時(shí)間尺度的模型.

        根據(jù)上面的描述,這種方法使用3個(gè)滑動(dòng)窗口.第一個(gè)負(fù)責(zé)收集姿態(tài)描述符,所選幀之間的步長(zhǎng)等于4,第二個(gè)使用步長(zhǎng)3,最后一個(gè)應(yīng)用步長(zhǎng)2.監(jiān)控每個(gè)滑動(dòng)窗口的所有其他超參數(shù)與上面定義的那些保持一致.該模型包括3個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,每個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與圖3中描述的相同.

        當(dāng)窗口在每個(gè)活動(dòng)周期滑動(dòng)時(shí),可以得到3組分?jǐn)?shù).它們與優(yōu)化權(quán)重相結(jié)合.然后,分類過(guò)程遵循上面定義的準(zhǔn)則.

        3.3 方法C

        本文實(shí)現(xiàn)的第三種方法采用的是基于具有雙向LSTM單元的RNN,該過(guò)程與上面所述的有所不同,因?yàn)楸疚膩G棄了來(lái)自分割部分的所有信息.在每個(gè)訓(xùn)練樣本上滑動(dòng)一個(gè)10幀長(zhǎng)的窗口,從窗口內(nèi)的所有幀中收集數(shù)據(jù).因此,對(duì)于每一次迭代,都得到一個(gè)矩陣,它的維數(shù)是幀數(shù)乘以特征數(shù).如果窗口內(nèi)的所有幀都屬于靜態(tài)的,迭代之間的步長(zhǎng)等于5幀.否則,步長(zhǎng)只有2幀.

        這里應(yīng)用的深層網(wǎng)絡(luò)包括了3個(gè)具有雙向LSTM單元的隱藏層、2個(gè)隨機(jī)丟失層和1個(gè)具有完全連接單元的密集層.第一和第二隱藏層各有1 024個(gè)單元,使用Leaky-ReLU激活功能,后面是隨機(jī)丟失層,其丟失輸入元素的概率為60%.第三個(gè)LSTM層有512個(gè)單元.全連接層由21個(gè)單位組成,即類別數(shù)(包括靜止類),使用Softmax作為激活函數(shù).該網(wǎng)絡(luò)使用隨機(jī)梯度下降動(dòng)量(SGDM)優(yōu)化.學(xué)習(xí)率初始化為0.01,在每組10個(gè)迭代周期后,學(xué)習(xí)率下降0.85倍,直到最多150個(gè)迭代周期.此外,本文還使用批大小為128的數(shù)據(jù)樣本來(lái)加速收斂并防止模型過(guò)擬合.

        最后,從測(cè)試樣本中收集數(shù)據(jù)序列,每次迭代后的步長(zhǎng)等于窗口的長(zhǎng)度,這消除了序列之間的重疊.預(yù)測(cè)也是不穩(wěn)定的,它們需要平滑,就像對(duì)手勢(shì)分割所做的那樣.最后,本文只考慮當(dāng)手勢(shì)被有效地執(zhí)行至少15個(gè)連續(xù)的幀時(shí),賦予其相同的分類標(biāo)簽.

        4 實(shí)驗(yàn)

        4.1 ChaLearn Looking at People挑戰(zhàn)賽2014

        2014年,ChaLearn提出了一個(gè)多模態(tài)手勢(shì)識(shí)別競(jìng)賽.該數(shù)據(jù)集包括近14 000個(gè)手勢(shì),涵蓋了從意大利手語(yǔ)詞匯中提取的20個(gè)類別.它還包含多個(gè)詞匯之外的動(dòng)作.這個(gè)數(shù)據(jù)集提供了三維視頻,以及骨骼關(guān)節(jié)數(shù)據(jù).此外,數(shù)據(jù)集被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.盡管驗(yàn)證和測(cè)試集的真值已經(jīng)發(fā)布,但它僅用于每個(gè)模型的評(píng)估.

        本文沿用了競(jìng)賽主辦方提出的評(píng)估程序,使用Jaccard指數(shù)來(lái)量化模型的性能.因此,對(duì)于序列s中的第n個(gè)手勢(shì),Jaccard指標(biāo)被定義為:

        (1)

        其中,As,n是序列s中手勢(shì)n的真實(shí)標(biāo)注,Bs.n是同一序列中此手勢(shì)的預(yù)測(cè)結(jié)果.As,n和Bs.n分別是一個(gè)二維向量,其中執(zhí)行給定手勢(shì)的幀被設(shè)置為1.整體性能計(jì)算為所有類別和所有序列的平均Jaccard指數(shù).

        4.2 手勢(shì)分割

        本文測(cè)試了分割模型的幾種網(wǎng)絡(luò)結(jié)構(gòu),即具有不同數(shù)量的隱藏層和這些層中不同單元數(shù)量的網(wǎng)絡(luò).實(shí)驗(yàn)結(jié)果表明,具有兩個(gè)隱藏層的網(wǎng)絡(luò)比具有單個(gè)隱藏層的網(wǎng)絡(luò)表現(xiàn)稍好.此外,實(shí)驗(yàn)結(jié)果還發(fā)現(xiàn)使用ReLU作為第一個(gè)隱藏層的激活函數(shù)和雙曲正切函數(shù)作為第二個(gè)隱藏層的激活函數(shù)時(shí),可以獲得最佳性能.第2.2節(jié)中敘述了詳細(xì)的策略,它在對(duì)每一幀的分類上取得了96.8%的準(zhǔn)確率.如圖5所示,這是可視化的一個(gè)分割結(jié)果的例子.其中,柱狀區(qū)域是真實(shí)的標(biāo)注,虛線是平滑后的分?jǐn)?shù),實(shí)線代表最終分割結(jié)果.

        當(dāng)用戶以清晰的時(shí)間間隔執(zhí)行手勢(shì)時(shí),分割模型可以良好運(yùn)行.然而,一些受試者執(zhí)行連續(xù)的手勢(shì),而另一些受試者在整個(gè)樣本持續(xù)期間采用動(dòng)態(tài)的姿勢(shì).在這些情況下,分割是具有挑戰(zhàn)性的,模型只能檢測(cè)一個(gè)大的活動(dòng)周期.這就是為什么本文在第3.1節(jié)中針對(duì)更長(zhǎng)的活動(dòng)周期描述了不同的分類過(guò)程.

        如前所述,數(shù)據(jù)集包括多個(gè)詞匯外的手勢(shì).然而,分割模型可以檢測(cè)到用戶的任何顯著移動(dòng),即使是對(duì)于那些未知的手勢(shì)類別,如圖6的末尾部分所示.因此,未標(biāo)記的手勢(shì)是分類模型的任務(wù),分類模型必須足夠精確以預(yù)測(cè)那些序列不屬于詞匯.

        圖5 手勢(shì)分割結(jié)果示意圖Fig.5 Schematic diagram of gesture segmentation results圖6 未知手勢(shì)類別的分割結(jié)果示意圖Fig.6 Schematic diagram of segmentation results of unknown gesture categories

        4.3 手勢(shì)分類和機(jī)器人控制

        如表1所示,將所提方法與2014年挑戰(zhàn)賽前3名的提交方法進(jìn)行了比較.所有結(jié)果都是僅使用骨架數(shù)據(jù)獲得的.

        圖7 根據(jù)方法C得到的預(yù)測(cè)結(jié)果 計(jì)算的混淆矩陣示意圖Fig.7 Schematic diagram of confusion matrix calculated according to the prediction results obtained by method C

        本文手勢(shì)分類方法A從單個(gè)窗口構(gòu)建動(dòng)態(tài)姿勢(shì),獲得了0.692 8的Jaccard指數(shù).在方法B中,多個(gè)時(shí)間尺度的引入帶來(lái)了分?jǐn)?shù)的提高,分?jǐn)?shù)增加到0.704 7.實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),不同窗口的組合能夠適應(yīng)不同用戶的表現(xiàn)差異.此外,方法B中采用了獲得單個(gè)得分向量的權(quán)重,結(jié)果表明,動(dòng)態(tài)姿勢(shì)的辨別能力取決于所選幀之間的步長(zhǎng),并且對(duì)于更寬的窗口,該權(quán)重最大.方法C總結(jié)的深度學(xué)習(xí)法達(dá)到了0.746 7的Jaccard指數(shù).如圖7所示,該混淆矩陣直觀顯示了方法C的性能.另一方面,手勢(shì)類別通常引起多種手勢(shì)混淆.從實(shí)驗(yàn)結(jié)果可以觀察到#14和#15類相互混淆.如圖8所示.導(dǎo)致這種錯(cuò)誤標(biāo)注的原因(容易混淆的相似之處).此時(shí),骨架數(shù)據(jù)不足以區(qū)分它們.在左邊,用戶正在執(zhí)行手勢(shì)#14,在右邊是手勢(shì)#15.最后,右邊的列表示假陰性,假陰性是標(biāo)有某種手勢(shì)類別的幀,但被歸類為靜止類別,即有些手勢(shì)沒有被檢測(cè)到.另一方面,最后一行表示假陽(yáng)性,假陽(yáng)性是屬于靜止類的幀,但是預(yù)測(cè)出了手勢(shì)類別.這一結(jié)果的主要原因是有些詞匯外的手勢(shì)類別誤導(dǎo)了模型.

        圖8 導(dǎo)致錯(cuò)誤標(biāo)注的可視化例子(手勢(shì)#14和#15)Fig.8 Visualization example leading to incorrect annotation (hand gesture #14 and #15)

        圖9 方法C在測(cè)試集上的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的對(duì)比Fig.9 Comparison between the predicted results of method C and the ground-truth on the test set

        如圖9所示,為樣本#703的真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果的對(duì)比.本文選擇這個(gè)樣本的原因主要是為了與Di Wu等人[6]的結(jié)果進(jìn)行直接的比較.如圖7的頂部圖像所示,該視頻包括10個(gè)標(biāo)記的手勢(shì).正如在本文前面提到的,可以清楚地辨別由明確的時(shí)間間隔分隔的手勢(shì),但是也存在不同手勢(shì)的連續(xù)實(shí)例.本文方法克服了這個(gè)問(wèn)題,并正確地預(yù)測(cè)出所有的標(biāo)簽,以及準(zhǔn)確地定位每個(gè)手勢(shì)的起點(diǎn)和終點(diǎn).另一方面,該方法標(biāo)記出了一個(gè)超出詞匯范圍的手勢(shì).甚至這種行為也代表了一個(gè)很好的結(jié)論,因?yàn)樵谶@個(gè)視頻中,用戶至少執(zhí)行了4個(gè)詞匯外手勢(shì).實(shí)驗(yàn)結(jié)果表明,本文模型對(duì)這個(gè)樣本的預(yù)測(cè)比Di Wu等人[6]提出的要好得多.盡管有這個(gè)精確的預(yù)測(cè),這個(gè)樣本只達(dá)到了0.867 2的Jaccard指數(shù),這也側(cè)面反映了這個(gè)指數(shù)的累贅性質(zhì).

        本文提出了一個(gè)用于工業(yè)機(jī)器人協(xié)同的人機(jī)交互界面,目標(biāo)是開發(fā)一個(gè)真實(shí)的交互過(guò)程來(lái)完成一項(xiàng)有用的任務(wù).在這里,本文的首要任務(wù)是捕捉和移動(dòng)一個(gè)工具,它包括以下5個(gè)動(dòng)作:1)機(jī)器人向工具周圍的移動(dòng);2)夾持器的閉合;3)工具的翻譯;4)夾具的打開;5)并返回到默認(rèn)位置.為此,本文訓(xùn)練了一個(gè)模型,之前使用的數(shù)據(jù)集中只包含了20個(gè)手勢(shì)中的5個(gè).如圖10所示,為這個(gè)任務(wù)的可視化描述.因?yàn)橹恍枰獛讉€(gè)直觀的、容易學(xué)習(xí)的手勢(shì).這種與協(xié)作機(jī)器人的聯(lián)系代表了一種突破,因?yàn)檫€沒有研究人員發(fā)布過(guò)這種類型的應(yīng)用.本文使用KUKA Sunrise工具箱(KST),這是一個(gè)MATLAB工具箱,來(lái)操作KUKA Sunrise系統(tǒng)控制器[20].

        圖10 人機(jī)交互的不同階段示意圖Fig.10 Schematic diagram of different stages of human-computer interaction

        5 結(jié)語(yǔ)

        本文提出了一個(gè)手勢(shì)檢測(cè)模型,它基于一系列手工特征的描述符.它可以區(qū)分靜止和活動(dòng)區(qū)間,準(zhǔn)確率為96.8%.該方法報(bào)告了3種基于相同描述符的不同手勢(shì)分類方法.本文的方法C應(yīng)用具有雙向LSTM單元的RNN來(lái)同時(shí)執(zhí)行手勢(shì)的檢測(cè)和分類.這一策略實(shí)現(xiàn)了0.746 7的Jaccard指數(shù).最后,本文構(gòu)建了一個(gè)輕量版本的方法C,只包含了數(shù)據(jù)集內(nèi)20個(gè)手勢(shì)中的5個(gè),本文將其用作機(jī)器人的命令.

        計(jì)算機(jī)視覺社區(qū)的一個(gè)重要部分是將其努力與深度學(xué)習(xí)方法相結(jié)合.因此,未來(lái)的一個(gè)工作方向?qū)⑹怯米詣?dòng)學(xué)習(xí)的特征取代手工特征,本文正是應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)完成這項(xiàng)任務(wù).此外,本文還試圖將輸入通道擴(kuò)展到RGB-D圖像,使每個(gè)手勢(shì)的表示更加魯棒.

        猜你喜歡
        描述符手勢(shì)步長(zhǎng)
        基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
        基于Armijo搜索步長(zhǎng)的BFGS與DFP擬牛頓法的比較研究
        挑戰(zhàn)!神秘手勢(shì)
        V字手勢(shì)的由來(lái)
        Linux單線程并發(fā)服務(wù)器探索
        勝利的手勢(shì)
        利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
        基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥搜索算法
        一種新型光伏系統(tǒng)MPPT變步長(zhǎng)滯環(huán)比較P&O法
        一種新穎的光伏自適應(yīng)變步長(zhǎng)最大功率點(diǎn)跟蹤算法
        亚洲一区sm无码| 97碰碰碰人妻无码视频| 婷婷五月六月综合缴情| 69av视频在线观看| 女优免费中文字幕在线| 精品人妻一区二区三区视频| 国产精品毛片一区二区三区| 人妻无码人妻有码中文字幕| 国产精品国产三级国产AvkTV| 伊人精品成人久久综合97| 欧洲熟妇色xxxx欧美老妇软件| 人人妻人人澡人人爽欧美二区| 国产精品高清网站| 久久女人精品天堂av影院麻 | 亚洲av乱码国产精品观看麻豆| av天堂精品久久综合网| 亚洲av无码av男人的天堂| 精品无码久久久久久久久粉色| 亚洲一区二区三区资源| 绝顶高潮合集videos| 丰满人妻被黑人中出849| 欧美综合图区亚洲综合图区| 亚洲精品一区二区三区在线观| 夜夜爽妓女8888888视频| 在线观看免费a∨网站| 国产精品狼人久久久影院| 蜜桃臀av一区二区三区| 99久久国产综合精品女图图等你 | 真人作爱免费视频| 野外三级国产在线观看| 日本大片一区二区三区| 97se狠狠狠狠狼鲁亚洲综合色| 荡女精品导航| 亚洲中文字幕熟女五十| 国产精品一区二区三久久不卡| 日本熟妇色xxxxx欧美老妇| 成在线人视频免费视频| 蜜臀av在线一区二区尤物| 天堂网www资源在线| 亚洲国产成人久久一区www妖精| 美女草逼视频免费播放|