亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于手勢(shì)特征融合的操作動(dòng)作識(shí)別

        2021-07-28 12:36:54周小靜陳俊洪楊振國(guó)劉文印
        關(guān)鍵詞:手勢(shì)手部卷積

        周小靜,陳俊洪,楊振國(guó),劉文印

        廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州510006

        隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與深入研究,操作行為的理解作為建立任意動(dòng)作機(jī)制的基礎(chǔ)激發(fā)了廣大科研工作者的研發(fā)興趣,在智能家居、智能監(jiān)控、人機(jī)交互等多種應(yīng)用方面具備廣闊的應(yīng)用前景,使得人類(lèi)行為識(shí)別成為了一個(gè)很活躍的研究領(lǐng)域,并成為計(jì)算機(jī)領(lǐng)域中的前沿方向之一。

        當(dāng)前針對(duì)多種應(yīng)用,如視頻監(jiān)控、視頻搜索與人機(jī)交互等,有相當(dāng)多的研究者對(duì)人體動(dòng)作的識(shí)別進(jìn)行了研究。文獻(xiàn)[1]提出了一種基于部位密集軌跡的行為識(shí)別算法,通過(guò)人體姿態(tài)估計(jì)模塊檢測(cè)人體并定位后,對(duì)人體進(jìn)行密集點(diǎn)采樣,使用部位關(guān)鍵點(diǎn)軌跡來(lái)提升識(shí)別精度。文獻(xiàn)[2]提出了一種新穎的時(shí)空融合網(wǎng)絡(luò)(STFN),對(duì)整個(gè)視頻的外觀與運(yùn)動(dòng)信息的時(shí)間動(dòng)態(tài)進(jìn)行整合,然后聚合捕獲的時(shí)間動(dòng)態(tài)信息,從而獲取更好的視頻級(jí)動(dòng)作表示。文獻(xiàn)[3]提出一種基于低分辨率紅外陣列傳感器并使用VGGNet進(jìn)行分類(lèi)識(shí)別的方法,能夠有效地識(shí)別出人的身份與動(dòng)作。但是上述這些工作更多的是針對(duì)人類(lèi)全身動(dòng)作的識(shí)別,在處理更為精細(xì)的操作動(dòng)作時(shí)可靠性較低,尤其是針對(duì)家庭或工作環(huán)境中手部的操作動(dòng)作。手部操作動(dòng)作對(duì)于學(xué)習(xí)人類(lèi)行為的重要性不容小覷,從視覺(jué)感知中自動(dòng)理解手部操作動(dòng)作的能力在機(jī)器人領(lǐng)域具備多種潛在的應(yīng)用,對(duì)日常任務(wù)中手部的抓取行為的研究可以為機(jī)器人手部設(shè)計(jì)與開(kāi)發(fā)工作提供手部功能的重要信息[4-6]。通過(guò)對(duì)操作任務(wù)中不同組件,如手部、物體、動(dòng)作等之間的關(guān)系進(jìn)行研究,可以模擬抽象人類(lèi)行為并將操縱功能轉(zhuǎn)移至機(jī)器人來(lái)執(zhí)行任務(wù),能有效促進(jìn)機(jī)器人的動(dòng)作學(xué)習(xí)[7-8]。手部操作動(dòng)作與抓取方式具有較強(qiáng)的關(guān)聯(lián)性,手部抓取中包含了人類(lèi)行為的細(xì)粒度信息,對(duì)詳細(xì)地分析人類(lèi)手部操作動(dòng)作至關(guān)重要,除此之外,還有助于對(duì)人類(lèi)的行動(dòng)意圖進(jìn)行預(yù)測(cè)。Yang 等人[9]提出抓取類(lèi)型是表征人類(lèi)操作行為必不可少的一部分,人類(lèi)在執(zhí)行操作任務(wù)時(shí)手部對(duì)物體執(zhí)行的特定的動(dòng)作與此時(shí)手部的抓取方式具備相關(guān)性。文獻(xiàn)[10]指出抓取方式包含了有關(guān)動(dòng)作本身的信息,并且可以將其用于預(yù)測(cè)或作為識(shí)別動(dòng)作的功能。

        為了更好地識(shí)別手部操作動(dòng)作,本文提出了一個(gè)基于手勢(shì)特征融合的操作動(dòng)作識(shí)別框架,該框架主要包含三個(gè)模塊,分別為RGB視頻特征提取網(wǎng)絡(luò)、手勢(shì)特征提取網(wǎng)絡(luò)和動(dòng)作分類(lèi)器。其中第一個(gè)模塊主要利用I3D網(wǎng)絡(luò)對(duì)動(dòng)作進(jìn)行初步檢測(cè)與識(shí)別,結(jié)果作為動(dòng)作特征;第二個(gè)模塊利用Mask R-CNN 網(wǎng)絡(luò)檢測(cè)識(shí)別手部抓取類(lèi)型并將結(jié)果作為手勢(shì)特征;最后一個(gè)模塊用于融合動(dòng)作特征與手勢(shì)特征,并使用SVM 分類(lèi)器對(duì)動(dòng)作進(jìn)行識(shí)別分類(lèi)。與其他動(dòng)作識(shí)別方法相比,本文所提出的框架無(wú)論是性能還是識(shí)別效果均取得了最好的結(jié)果,證明了手勢(shì)特征在動(dòng)作識(shí)別中的可行性與有效性。

        1 相關(guān)研究

        近年來(lái),人類(lèi)動(dòng)作的識(shí)別與理解是人們?cè)谟?jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn),根據(jù)使用的特征信息的差異動(dòng)作識(shí)別方法大致可以劃分為三個(gè)類(lèi)別。第一類(lèi)是基于深度圖像與骨骼數(shù)據(jù)對(duì)人體動(dòng)作進(jìn)行識(shí)別[11-13],這些方法都是使用基于深度圖像模態(tài)信息的時(shí)空興趣點(diǎn)特征或人體關(guān)節(jié)點(diǎn)位置特征對(duì)動(dòng)作建模,能夠較為準(zhǔn)確地識(shí)別出人體動(dòng)作,但這類(lèi)方法僅適用于動(dòng)作數(shù)據(jù)集相對(duì)較小的特定動(dòng)作類(lèi)別的識(shí)別問(wèn)題,在實(shí)際的日常操作中應(yīng)用的可能性較小且可用數(shù)據(jù)集較少。第二類(lèi)方法的研究?jī)?nèi)容更多地集中于以運(yùn)動(dòng)與姿態(tài)變化(如走路、奔跑)為特征的全身運(yùn)動(dòng),這類(lèi)方法中的絕大多數(shù)通常是通過(guò)視頻序列來(lái)分析人類(lèi)的動(dòng)作姿態(tài)[14-15]。第三類(lèi)方法為使用人體運(yùn)動(dòng)軌跡來(lái)進(jìn)行動(dòng)作識(shí)別[16-18],由于使用到了人體姿態(tài)信息來(lái)助于識(shí)別,人們通常認(rèn)為這種方法更為可靠,但是在日常實(shí)際操作中,人類(lèi)與物體進(jìn)行交互時(shí)會(huì)產(chǎn)生遮擋,這種方法很容易識(shí)別失敗。目前動(dòng)作識(shí)別的研究?jī)?nèi)容更多地集中于從人體全身來(lái)識(shí)別分類(lèi)動(dòng)作,仍然缺乏表現(xiàn)執(zhí)行細(xì)微操作動(dòng)作的能力。

        手勢(shì)的識(shí)別更接近于物體操作動(dòng)作識(shí)別的問(wèn)題,目前的手勢(shì)識(shí)別方法根據(jù)訓(xùn)練數(shù)據(jù)的不同大致可以劃分為三類(lèi)。第一種方法是使用傳感器對(duì)手勢(shì)信息進(jìn)行感知與識(shí)別[19-20],通常這種方式具備較高的識(shí)別率并能夠?qū)?fù)雜動(dòng)態(tài)的手勢(shì)具備較好的可識(shí)別性,但這種識(shí)別方式成本較高,訓(xùn)練數(shù)據(jù)珍貴。第二種方式為使用RGB-D圖像數(shù)據(jù)訓(xùn)練學(xué)習(xí)手勢(shì)識(shí)別模型[21-22],通常使用Kinect等深度攝像機(jī)采集到的視覺(jué)信息,從手形、軌跡、點(diǎn)云等特征識(shí)別手勢(shì),這類(lèi)識(shí)別方法的計(jì)算復(fù)雜度較高,難度較大。第三種方式為基于RGB圖像的二維特征來(lái)識(shí)別分類(lèi)手勢(shì)[23-24],由于訓(xùn)練數(shù)據(jù)采集簡(jiǎn)單,研究者們更傾向于使用這種方式來(lái)研究手勢(shì)識(shí)別問(wèn)題。上述這些方法的目的通常是為了識(shí)別出手語(yǔ)手勢(shì),如揮手、握拳等,而不是人類(lèi)的手部與物體交互時(shí)的姿態(tài)(即抓取方式)。為了解決這個(gè)問(wèn)題,更好地理解人類(lèi)對(duì)手部的使用,許多學(xué)者對(duì)抓取已經(jīng)進(jìn)行了數(shù)十年的研究[8,25-26],還提出了抓取分類(lèi)的方法來(lái)促進(jìn)對(duì)手部抓取的分析[27-29]。Cai 等人[30]于2015年首次提出了一種基于外觀的方法,能夠在現(xiàn)實(shí)場(chǎng)景中使用可穿戴式相機(jī)識(shí)別出操作任務(wù)中的抓取類(lèi)型。

        目前,僅有少量的研究者使用抓取信息來(lái)進(jìn)行動(dòng)作識(shí)別工作[9,31-32]。Yang等人[32]基于語(yǔ)義,使用抓取信息將人類(lèi)動(dòng)作意圖劃分為三個(gè)粗略的抽象類(lèi)別,然后使用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別出抓取類(lèi)型從而理解推斷動(dòng)作類(lèi)別,但這種動(dòng)作模型相對(duì)較為簡(jiǎn)單,僅需要學(xué)習(xí)三個(gè)類(lèi)別,無(wú)法在更精細(xì)的級(jí)別上對(duì)操作動(dòng)作進(jìn)行識(shí)別分類(lèi),導(dǎo)致識(shí)別日常操作動(dòng)作并將處理復(fù)雜任務(wù)能力傳遞給機(jī)器人操作的可行性降低。為了解決該缺陷,本文提出手勢(shì)特征與細(xì)粒度動(dòng)作特征相融合后識(shí)別操作動(dòng)作,有效地提升了日常操作動(dòng)作的識(shí)別精度。

        2 本文方法

        圖1 是本文提出的方法框架。將整個(gè)模型劃分為手勢(shì)特征提取模塊、RGB 視頻特征提取模塊與動(dòng)作分類(lèi)模塊三個(gè)部分。手勢(shì)特征提取模塊用于檢測(cè)識(shí)別出當(dāng)前執(zhí)行的細(xì)粒度動(dòng)作所對(duì)應(yīng)的手部抓取類(lèi)型并將結(jié)果作為手勢(shì)特征;RGB 視頻特征提取模塊用于初步檢測(cè)識(shí)別視頻中細(xì)粒度動(dòng)作并將結(jié)果作為動(dòng)作特征;最后在動(dòng)作分類(lèi)模塊將動(dòng)作特征與操作手勢(shì)特征相融合后輸入分類(lèi)器推斷預(yù)測(cè)操作動(dòng)作類(lèi)別。

        圖1 基于手勢(shì)特征融合的操作動(dòng)作識(shí)別框架

        2.1 抓取方式識(shí)別

        抓取方式對(duì)于理解手部的操作非常重要,因?yàn)樗鼪Q定了操作過(guò)程中手部如何抓取物體以及表征了要實(shí)現(xiàn)的動(dòng)作功能。已經(jīng)有大量的工作將抓取的分類(lèi)劃分為離散類(lèi)型[27,33],以便于對(duì)抓取的研究。根據(jù)Feix 等人[27]提出的廣泛使用的抓取分類(lèi),選擇了6種常用抓取類(lèi)型,這些抓取類(lèi)型的日常使用頻率都很高,并且能基本涵蓋不同的抓取分類(lèi)標(biāo)準(zhǔn)。這些抓取類(lèi)型不但能夠用于分析大量的操作任務(wù),還能夠從圖像外觀中自動(dòng)地識(shí)別。

        手部抓取類(lèi)型識(shí)別的輸入是從視頻中分割出的RGB 圖像片段序列。首先將圖像統(tǒng)一裁剪為224×224的尺寸,然后使用Mask R-CNN網(wǎng)絡(luò)[34]對(duì)圖像中演示者的手部進(jìn)行檢測(cè)分割。Mask R-CNN為兩階段程序,第一階段使用區(qū)域提議網(wǎng)絡(luò)(RPN)對(duì)候選對(duì)象生成邊界框,在第二階段,網(wǎng)絡(luò)對(duì)對(duì)象進(jìn)行分類(lèi)并輸出標(biāo)簽、置信度、蒙版與邊界框。由于該網(wǎng)絡(luò)較為成熟且需要識(shí)別的對(duì)象單一,采用了網(wǎng)絡(luò)的默認(rèn)配置。作為識(shí)別輸出,獲得抓取類(lèi)型的置信分布(或給定圖像證據(jù)表示為P(G|I)的抓取類(lèi)型的后驗(yàn)概率)以及具備最高概率得分的預(yù)測(cè)抓取類(lèi)型。抓取類(lèi)型的識(shí)別可提供有關(guān)在操作過(guò)程中手部如何抓取操作物體的信息,在動(dòng)作分類(lèi)部分將作為手勢(shì)特征。

        2.2 操作動(dòng)作識(shí)別

        動(dòng)作所實(shí)現(xiàn)的功能是影響人類(lèi)手部抓取方式選擇的重要因素[35],因此可以從抓取類(lèi)型來(lái)推斷動(dòng)作。假設(shè)抓取類(lèi)型可以提供用于描述操作動(dòng)作的補(bǔ)充信息,所以在這項(xiàng)工作中,在識(shí)別分類(lèi)操作動(dòng)作時(shí),除了使用分類(lèi)網(wǎng)絡(luò)從動(dòng)作的視覺(jué)圖像信息中進(jìn)行視覺(jué)特征的提取與識(shí)別分類(lèi),還對(duì)手部抓取的語(yǔ)義特征進(jìn)行了應(yīng)用。

        將抓取類(lèi)型的語(yǔ)義信息用作訓(xùn)練動(dòng)作分類(lèi)器的中間特征,對(duì)操作動(dòng)作的識(shí)別分類(lèi)進(jìn)行補(bǔ)充,提出了如圖1所示的語(yǔ)義動(dòng)作模型,該模型建立在抓取類(lèi)型的語(yǔ)義信息與動(dòng)作的視覺(jué)特征信息的基礎(chǔ)上,獲取到二者的置信分布后,為每個(gè)動(dòng)作學(xué)習(xí)線(xiàn)性映射函數(shù),該函數(shù)使用抓取類(lèi)型與初步識(shí)別的動(dòng)作來(lái)進(jìn)一步識(shí)別分類(lèi)當(dāng)前動(dòng)作,表示為公式(1):

        PA=f(P(a|I),P(G|I)|θ) (1)

        其中,PA為操作動(dòng)作的概率估計(jì),P(G|I)為給定圖像下手部抓取類(lèi)型的置信分布,P(a|I)為根據(jù)給定圖像中視覺(jué)特征所得的動(dòng)作的置信分布,θ則為衡量每個(gè)動(dòng)作與抓取類(lèi)型之間關(guān)系的一組參數(shù)。

        在根據(jù)圖像中視覺(jué)特征進(jìn)行動(dòng)作初步識(shí)別時(shí),由于動(dòng)作是在時(shí)間與空間兩個(gè)維度上進(jìn)行變化的序列,考慮從時(shí)序與空間信息中共同提取動(dòng)作特征,從而有效地提高動(dòng)作識(shí)別的準(zhǔn)確性。主要采用了I3D 雙流網(wǎng)絡(luò)(Two-Stream Inflated 3D ConvNets)[36]對(duì)動(dòng)作進(jìn)行視覺(jué)特征的提取與分類(lèi)。

        與傳統(tǒng)的雙流卷積網(wǎng)絡(luò)類(lèi)似,分別對(duì)RGB 數(shù)據(jù)與光流信息進(jìn)行分開(kāi)訓(xùn)練,在測(cè)試時(shí)將它們的預(yù)測(cè)結(jié)果進(jìn)行平均。3D 卷積網(wǎng)絡(luò)能高精度獲取動(dòng)作的空間特征,還能學(xué)習(xí)RGB 流的時(shí)間模式,通過(guò)可見(jiàn)光流信息還能大大提高它們的性能。I3D網(wǎng)絡(luò)是基于Inception-V1架構(gòu)進(jìn)行了擴(kuò)展所得,該網(wǎng)絡(luò)中的2D 卷積核與池化均增加了一個(gè)時(shí)間維度,由原本的N×N擴(kuò)展為N×N×N,具體實(shí)現(xiàn)方式為沿著時(shí)間維度將2D濾波器權(quán)重重復(fù)N次,并通過(guò)除以N進(jìn)行歸一化,該模型通過(guò)將ImageNet上的二維圖像重復(fù)疊加為一個(gè)連續(xù)的視頻實(shí)現(xiàn)了從預(yù)先訓(xùn)練好的ImageNet模型來(lái)學(xué)習(xí)3D卷積核的參數(shù)。

        網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)為第一個(gè)卷積層步長(zhǎng)為(2,2,2),卷積核大小為7×7×7,并連接到BN(Batch Normalization,批處理歸一化)層,與一個(gè)步長(zhǎng)為(1,2,2),大小為1×3×3的最大池化層;第二個(gè)卷積層步長(zhǎng)為(1,1,1),卷積核大小為1×1×1,并連接到BN 層;第三個(gè)卷積層步長(zhǎng)為(1,1,1),卷積核大小為3×3×3,并連接到BN層,與一個(gè)步長(zhǎng)為(1,2,2),大小為1×3×3的最大池化層;接下來(lái)為兩個(gè)連續(xù)的Mixed層(結(jié)構(gòu)如圖2所示),連接到BN層,與一個(gè)步長(zhǎng)為(2,2,2),大小為3×3×3的最大池化層;經(jīng)過(guò)5個(gè)連續(xù)的Mixed層,連接到BN層與一個(gè)步長(zhǎng)為(2,2,2),大小為2×2×2的最大池化層;經(jīng)過(guò)兩個(gè)Mixed層,連接到BN層與一個(gè)步長(zhǎng)為(1,1,1),大小為2×7×7的平均池化層;最后為一個(gè)步長(zhǎng)為(1,1,1),卷積核大小為1×1×1的卷積層。整個(gè)網(wǎng)絡(luò)模型中,除了最后一個(gè)生成每一類(lèi)別分?jǐn)?shù)的卷積層,其他卷積層后均使用一個(gè)ReLU激活函數(shù)。

        圖2 I3D網(wǎng)絡(luò)中Mixed層結(jié)構(gòu)圖

        I3D 模型在TensorFlow 中實(shí)現(xiàn),訓(xùn)練過(guò)程中,將原始視頻幀尺寸修改為256×256,然后隨機(jī)裁剪為尺寸224×224的圖像后,分別對(duì)RGB流圖像與光流圖像進(jìn)行訓(xùn)練,每個(gè)流都使用了softmax分類(lèi)損失。在訓(xùn)練期間,使用動(dòng)量值為0.9的同步SGD作為優(yōu)化器,dropout設(shè)置為0.5,應(yīng)用最小批量大小為6的Batch Norm,使用的權(quán)重衰減值為1E-7,對(duì)RGB 流與光流分別以115 000 和155 000 步進(jìn)行訓(xùn)練,初始學(xué)習(xí)速率為1E-1,當(dāng)驗(yàn)證損失達(dá)到飽和時(shí),學(xué)習(xí)速率降低10倍。

        進(jìn)一步來(lái)說(shuō),對(duì)于每個(gè)訓(xùn)練圖像,視覺(jué)識(shí)別層被用于提取手部的語(yǔ)義信息與動(dòng)作視覺(jué)特征,結(jié)果表示為一個(gè)22 維特征向量,其中12 維由左右兩手的抓取置信度分布組成,剩下的10 維則由初步識(shí)別的動(dòng)作的置信分布組成,基于獲取的22 維特征向量,針對(duì)不同的動(dòng)作,使用線(xiàn)性SVM 對(duì)融合特征進(jìn)行分類(lèi),最終獲得操作動(dòng)作類(lèi)別。

        3 實(shí)驗(yàn)

        在該章主要了介紹數(shù)據(jù)集的細(xì)節(jié)與實(shí)驗(yàn)設(shè)置,然后進(jìn)行了三組實(shí)驗(yàn)來(lái)驗(yàn)證所提出的方法的不同組成部分:(1)抓取類(lèi)型識(shí)別;(2)動(dòng)作的初步識(shí)別;(3)抓取類(lèi)型對(duì)動(dòng)作識(shí)別分類(lèi)的改善。

        3.1 EPIC-Kitchens數(shù)據(jù)集

        烹飪是一項(xiàng)復(fù)雜而多樣的活動(dòng),它可以很好地揭示機(jī)器人的靈活性并有效地驗(yàn)證本文的框架性能。對(duì)從不受修飾的真實(shí)環(huán)境中收集的大型公開(kāi)烹飪視頻數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集稱(chēng)為EPIC Kitchens,為最大的第一人稱(chēng)視角數(shù)據(jù)集[37]。EPIC-Kitchens記錄了來(lái)自4個(gè)城市的32 位參與者使用頭戴式相機(jī)所捕獲的在廚房的一些日?;顒?dòng),記錄的視頻總時(shí)長(zhǎng)達(dá)55 h,共包含11 500 000 幀圖像,數(shù)據(jù)集作者對(duì)數(shù)據(jù)集進(jìn)行了密集標(biāo)記,以表示39 594個(gè)動(dòng)作片段。每一個(gè)動(dòng)作片段都有一個(gè)具備時(shí)間間隔的復(fù)合標(biāo)簽,標(biāo)簽內(nèi)容包括活動(dòng)描述、活動(dòng)的開(kāi)始時(shí)間與結(jié)束時(shí)間、細(xì)粒度的動(dòng)作與所操作的一組物體。

        本文實(shí)驗(yàn)設(shè)置的一些細(xì)節(jié)如下:(1)選擇了如圖3所示的最常用的6 種手勢(shì)與表1 所示的10 種常用烹飪動(dòng)作來(lái)表示抓取方式與動(dòng)作;(2)一共選取了26 711 個(gè)動(dòng)作片段作為本文的數(shù)據(jù)集,其中隨機(jī)選取了24 040個(gè)(90%)動(dòng)作片段作為訓(xùn)練集來(lái)訓(xùn)練動(dòng)作識(shí)別網(wǎng)絡(luò)I3D,剩余的2 671 個(gè)(10%)片段作為測(cè)試集,用于評(píng)估本文的框架性能;(3)從訓(xùn)練集中隨機(jī)選取了3 000 幀圖像并對(duì)其標(biāo)注手部輪廓與用于訓(xùn)練Mask R-CNN 的抓取類(lèi)型。

        表1 EPIC-Kitchens中10種常用烹飪動(dòng)作

        圖3 選定的6種常用抓取手勢(shì)

        3.2 抓取方式識(shí)別性能

        為了從EPIC-Kitchens 中識(shí)別手部抓取類(lèi)型,對(duì)數(shù)據(jù)集中隨機(jī)選取的3 000 張圖像進(jìn)行了抓取類(lèi)型標(biāo)注,用來(lái)訓(xùn)練抓取分類(lèi)器。在本文方法中,采用了Mask R-CNN作為抓取識(shí)別分類(lèi)器,在訓(xùn)練時(shí)將epochs 設(shè)置為100。在對(duì)抓取類(lèi)型進(jìn)行分類(lèi)時(shí),為了證明所提議的Mask RCNN方法的有效性,使用了一些常用的經(jīng)典分類(lèi)方法,如支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)、決策樹(shù)(Decision Tree)來(lái)進(jìn)行了比較。表2總結(jié)了應(yīng)用不同方法時(shí)抓取類(lèi)型的分類(lèi)性能,根據(jù)該表格內(nèi)容,可以觀察到所提出的方法在抓取分類(lèi)上取得了最好的性能,識(shí)別抓取類(lèi)型的準(zhǔn)確性達(dá)到了89.63%的性能。

        表2 不同方法的抓取類(lèi)型分類(lèi)結(jié)果

        3.3 操作動(dòng)作識(shí)別性能

        在本節(jié)中,主要展示了基于視覺(jué)特征的動(dòng)作識(shí)別模型的性能與基于抓取類(lèi)型的語(yǔ)義信息對(duì)操作動(dòng)作理解的有效性。采用EPIC-Kitchens中原始動(dòng)作標(biāo)簽的動(dòng)詞部分作為本工作中的動(dòng)作標(biāo)簽,例如,圖4 所顯示的一些視頻幀,盡管場(chǎng)景人物都不相同,但由于主要專(zhuān)注于需要雙手協(xié)調(diào)的運(yùn)動(dòng),不論是“切芝士”還是“切番茄”被認(rèn)為是相同的動(dòng)作,因此這些視頻幀均表示動(dòng)作“切”。

        圖4 EPIC-Kitchens數(shù)據(jù)集中的一些視頻幀

        在對(duì)手部動(dòng)作進(jìn)行初步識(shí)別時(shí),為了驗(yàn)證所采用的動(dòng)作識(shí)別網(wǎng)絡(luò)的有效性,除了本文所介紹的動(dòng)作識(shí)別網(wǎng)絡(luò),還采用了另外三種常用的與一種較新的動(dòng)作識(shí)別模型來(lái)進(jìn)行評(píng)估與比較,結(jié)果如表3 所示,在沒(méi)有應(yīng)用抓取類(lèi)型信息對(duì)動(dòng)作進(jìn)行識(shí)別時(shí),與其他的動(dòng)作識(shí)別模型CNN3D[38]、LSTM[39]、Two-stream[40]、GFA(Gated Feature Aggregator)[41]與TSN(Temporal Segment Network,時(shí)序分割網(wǎng)絡(luò))[37]相比,所采用的I3D模型,在回調(diào)值以及F1 分?jǐn)?shù)均取得了最高分?jǐn)?shù),整體來(lái)看模型達(dá)到了最好的性能。在實(shí)驗(yàn)過(guò)程中,CNN3D 與LSTM 這兩種模型僅僅是從RGB信息中直接提取空間特征與時(shí)序特征來(lái)識(shí)別分類(lèi)動(dòng)作,并且無(wú)法從光流數(shù)據(jù)中提取出時(shí)序特征,在很多情況下無(wú)法捕捉到手部的一些較為精細(xì)的動(dòng)作。雖然Two-stream 方法較好地利用了視頻的光流數(shù)據(jù),能夠分別從空間特征與時(shí)序特征兩個(gè)方面對(duì)動(dòng)作進(jìn)行預(yù)測(cè)并取平均,但該方法中的兩個(gè)網(wǎng)絡(luò)均采用2D CNN,在學(xué)習(xí)的過(guò)程中丟失了較多的時(shí)序信息,對(duì)于運(yùn)動(dòng)線(xiàn)索如何隨時(shí)間的演變不能很好地體現(xiàn),TSN是基于Two-stream 的改進(jìn),提升了長(zhǎng)范圍時(shí)間結(jié)構(gòu)建模的能力,這兩種方法對(duì)時(shí)間維度的利用非常有限(空間網(wǎng)絡(luò)僅使用動(dòng)作中的一幀RGB 圖像,而時(shí)序網(wǎng)絡(luò)采用10 幀光流圖像)。GFA模型主要是應(yīng)用視頻中動(dòng)作特征與物體特征的融合來(lái)識(shí)別分類(lèi)操作動(dòng)作,給網(wǎng)絡(luò)模型提供了補(bǔ)充性信息,有效提升了識(shí)別效果,但由于場(chǎng)景遮擋,物體的特征提取難度較大。所采用的I3D模型,分別使用兩個(gè)3D CNN對(duì)RGB數(shù)據(jù)與光流數(shù)據(jù)中的空間特征與時(shí)序特征進(jìn)行有效提取,盡可能地利用到數(shù)據(jù)流中的動(dòng)作特征信息,這個(gè)方法要優(yōu)于其他的方法,并取得了最好的結(jié)果。

        為了驗(yàn)證所提出的方法,即基于抓取方式理解操作行為的模型的有效性,在基于已知I3D網(wǎng)絡(luò)的優(yōu)越表現(xiàn)的條件下,比較了在應(yīng)用I3D網(wǎng)絡(luò)對(duì)動(dòng)作初步識(shí)別后是否應(yīng)用抓取類(lèi)型(GT,Grasp type)對(duì)動(dòng)作識(shí)別性能的影響,結(jié)果如表3 最后一項(xiàng)所示。根據(jù)實(shí)驗(yàn)結(jié)果,應(yīng)用抓取類(lèi)型(GT)信息可以有效提升動(dòng)作識(shí)別分類(lèi)的性能,大約提升了7%的分類(lèi)準(zhǔn)確度,證實(shí)了本文方法的可行性。

        4 結(jié)束語(yǔ)

        提出了基于手勢(shì)特征融合的操作動(dòng)作識(shí)別方法,有效提升了操作動(dòng)作的識(shí)別精度。從圖像中檢測(cè)識(shí)別抓取類(lèi)型,并初步識(shí)別當(dāng)前手部動(dòng)作,在此之后,探索抓取與動(dòng)作之間的語(yǔ)義關(guān)系,從而促進(jìn)對(duì)動(dòng)作的認(rèn)識(shí),提升動(dòng)作的識(shí)別分類(lèi)準(zhǔn)確性。

        通過(guò)實(shí)驗(yàn)驗(yàn)證了本文的想法:(1)抓取類(lèi)型識(shí)別的平均準(zhǔn)確度達(dá)到了89.63%。(2)使用視覺(jué)信息對(duì)動(dòng)作進(jìn)行初步識(shí)別時(shí),準(zhǔn)確度達(dá)到了67.51%。(3)使用手勢(shì)類(lèi)型語(yǔ)義信息后,動(dòng)作識(shí)別分類(lèi)的準(zhǔn)確性達(dá)到了74.67%,大約提升了7%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果證明了本文的假設(shè),即抓取類(lèi)型可以提供用于描述操作動(dòng)作的補(bǔ)充信息。研究抓取類(lèi)型與動(dòng)作之間的關(guān)系的工作可以指出一個(gè)從視覺(jué)理解手部操作行為的重要方向。

        在未來(lái)工作中,希望將當(dāng)前動(dòng)作下手部所操縱的物體也納入手部操作行為理解的研究范圍,考慮共同使用抓取信息與物體信息作為描述操作行為的補(bǔ)充信息,探究三者間的關(guān)系,達(dá)到更好地理解場(chǎng)景中操作的行為與目的。

        猜你喜歡
        手勢(shì)手部卷積
        手部皮膚軟組織缺損修復(fù)的皮瓣選擇
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        挑戰(zhàn)!神秘手勢(shì)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        V字手勢(shì)的由來(lái)
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        勝利的手勢(shì)
        兩種皮瓣修復(fù)手部軟組織缺損的比較
        發(fā)生于手部的硬下疳一例
        復(fù)明膠囊疑致手部腫痛1例
        国产精品综合日韩精品第一页| 国内精品嫩模av私拍在线观看| 日本免费看一区二区三区| 少妇激情高潮视频网站| 国产裸体美女永久免费无遮挡| 国产免费丝袜调教视频| 精品亚洲欧美高清不卡高清| 久久精品亚洲乱码伦伦中文| 国产欧美va欧美va香蕉在线| 18禁黄久久久aaa片| 亚洲av无码成人网站www| 亚洲av毛片一区二区久久| 黄色av一区二区在线观看| 国产精品成人观看视频| 亚洲自拍愉拍| 国产精品中文字幕日韩精品| 国产三级黄色大片在线免费看| 国产婷婷色一区二区三区在线| 精品久久久久久中文字幕大豆网| 久久精品国产只有精品96| 久久精品免费视频亚洲| 轻点好疼好大好爽视频| 国产一区免费观看| 国产人妖在线免费观看| 国产一级一级内射视频| 成人久久久久久久久久久| 欧美精品一区二区精品久久| 免费av一区男人的天堂| 国产精品日本一区二区在线播放 | 综合图区亚洲另类偷窥| 婷婷久久av综合一区二区三区| 精品午夜福利在线观看| 亚洲av无码av日韩av网站| 九一成人AV无码一区二区三区| 国产精品一区二区夜色不卡| 日日碰狠狠添天天爽五月婷| 欧美在线综合| 人妻精品久久久一区二区| 东北少妇不戴套对白第一次| 成 人 网 站 免 费 av| 亚洲天堂免费av在线观看|