亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人體部件的視頻行為識(shí)別方法研究

        2021-10-13 09:34:20王亞立
        集成技術(shù) 2021年5期
        關(guān)鍵詞:特征方法

        夏 鼎 王亞立 喬 宇*

        1(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)

        2(中國科學(xué)院大學(xué) 北京 100049)

        1 引 言

        行為識(shí)別是視頻任務(wù)的一個(gè)基礎(chǔ)問題,在越來越多的領(lǐng)域中得到應(yīng)用,如智能監(jiān)控、機(jī)器人交互、視頻推薦等。近年來,隨著深度學(xué)習(xí)的發(fā)展以及大規(guī)模視頻數(shù)據(jù)庫的出現(xiàn),行為識(shí)別研究逐步走向成熟。

        目前,大多數(shù)的方法都是將行為識(shí)別看作視頻分類,關(guān)注于更好地利用視頻幀的靜態(tài)特征與幀之間的動(dòng)態(tài)特征。Karpathy 等[1]提出使用一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò),獨(dú)立地提取每一幀的特征,然后融合時(shí)間信息的方法。然而,該方法沒有考慮幀之間的動(dòng)態(tài)特征。基于此,Simonyan 和Zisserman[2]提出了雙流架構(gòu)——一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)靜態(tài)圖片特征,另一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)光流動(dòng)態(tài)特征。此方法的雙流融合策略比較簡單,并被廣泛擴(kuò)展到其他方法。其中,時(shí)序分段網(wǎng)絡(luò)(Temporal Segement Network,TSN)[3]采用稀疏采樣策略來學(xué)習(xí)長視頻片段特征,并利用光流探索了不同組合策略來融合兩個(gè)流的特征。但計(jì)算光流對計(jì)算資源消耗太大,所以時(shí)空運(yùn)動(dòng)網(wǎng)絡(luò)(SpatioTemporal and Motion,STM)[4]采用一個(gè)模塊來學(xué)習(xí)幀級(jí)別的動(dòng)態(tài)特征,節(jié)省了計(jì)算光流的消耗。與 STM 直接將時(shí)空特征與動(dòng)態(tài)特征相加不同,時(shí)序激活與聚合網(wǎng)絡(luò)(Temporal Excitation and Aggregation,TEA)[5]利用動(dòng)態(tài)特征來重校準(zhǔn)時(shí)空特征,從而加強(qiáng)學(xué)習(xí)得到的運(yùn)動(dòng)模式。除了二維卷積神經(jīng)網(wǎng)絡(luò),三維神經(jīng)網(wǎng)絡(luò)也被設(shè)計(jì)用于學(xué)習(xí)動(dòng)態(tài)特征。C3D[6]模型將 2D 圖像模型擴(kuò)展到時(shí)空間領(lǐng)域,用相似的方法處理空間與時(shí)間維度。然而,3D 模型參數(shù)較多,對計(jì)算資源要求較高。R(2+1)D[7]模型將 3D 卷積分解成 2D 空間卷積加上 1D 時(shí)間卷積,節(jié)省計(jì)算資源。在 3D 模型的基礎(chǔ)上,為了更好地利用時(shí)間特征,SlowFast[8]使用 Slow 流與 Fast 流捕捉不同的空間與時(shí)間特征。這些方法都關(guān)注于視頻幀級(jí)別的高層次特征,易忽視掉動(dòng)作的細(xì)節(jié)特征,于是有些方法開始利用更細(xì)粒度的特征來提升視頻行為分類效果。例如,Wang 和 Gupta[9]利用Region Proposal Network[10]檢測出人體位置后,使用圖卷積神經(jīng)網(wǎng)絡(luò)提取人體級(jí)別特征,進(jìn)行視頻行為識(shí)別。之后,活動(dòng)者關(guān)系圖網(wǎng)絡(luò)(Actor Relation Graph,ARG)[11]也探索了利用圖卷積神經(jīng)網(wǎng)絡(luò)提取人體特征的群體行為識(shí)別方法。

        由于人體是由人體部件組成,且一個(gè)人的行為是由每個(gè)部件的動(dòng)作組合而成,所以本研究提出一種利用人體部件特征進(jìn)行視頻行為識(shí)別的方法。該方法更深入地挖掘出行為相關(guān)的細(xì)粒度特征并加以利用,與其他行為識(shí)別方法提取的高層特征(如視頻幀特征)具有很好的互補(bǔ)性,可以有效提升視頻行為識(shí)別精度。最終,在 UCF101[12]與 HMDB51[13]兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了人體部件特征對于視頻行為識(shí)別任務(wù)的有效性。本文方法具有以下優(yōu)點(diǎn):(1)提出了提取人體部件特征的方法用于視頻行為識(shí)別;(2)利用更細(xì)粒度的人體部件特征,將人體行為視為人體部件動(dòng)作在時(shí)空上的組合,有效提升傳統(tǒng)視頻行為識(shí)別方法的精度。

        2 基于人體部件的視頻行為識(shí)別方法

        視頻行為識(shí)別的目的是識(shí)別出視頻中人類的行為類別,相對于靜態(tài)圖像中的行為識(shí)別任務(wù)而言,視頻行為識(shí)別任務(wù)的復(fù)雜度更高。該任務(wù)的主要難點(diǎn)是,視頻中人類行為具有類間與類內(nèi)方差。具體來講,人類可以在不同的視角下以不同的速度做出同樣的行為。另外,一些具有相似動(dòng)作模式的行為難以區(qū)分。傳統(tǒng)上,視頻行為識(shí)別任務(wù)被認(rèn)作是一個(gè)高層視頻分類任務(wù)。目前,主流的二維卷積神經(jīng)網(wǎng)絡(luò)方法仍關(guān)注于提取更有效的視頻幀之間時(shí)空特征。然而,這種方法忽視了對人類行為細(xì)節(jié)的理解。人類行為是由一系列人體部件動(dòng)作在時(shí)空上的組合形成,通過自底向上地理解人體部件動(dòng)作以及它們的時(shí)空組合方式,可以更好地理解人類的高層語義行為。本研究通過提取人體部件特征,自底向上地將人體部件動(dòng)作組合成人體行為,利用更細(xì)粒度的行為特征提升視頻行為識(shí)別效果。模型架構(gòu)如圖 1所示。

        圖1 模型架構(gòu)Fig.1 Model framework

        2.1 特征提取

        目前,視頻行為數(shù)據(jù)集沒有針對人體部件位置的標(biāo)注,所以本研究通過自動(dòng)化的方法計(jì)算出每個(gè)人體部件的位置后,從視頻幀提取特征,具體流程如圖 2 所示。首先,使用在 Microsoft COCO[14]數(shù)據(jù)集上預(yù)訓(xùn)練的 KeypointRCNN[15]模型檢測出每個(gè)人的位置框與關(guān)節(jié)點(diǎn),之后通過關(guān)節(jié)點(diǎn)計(jì)算出每個(gè)人體部件的位置框。使用到的人體部件有:頭、左手臂、左手掌、右手臂、右手掌、臀、左腿、左腳、右腿、右腳。然后,使用在 ImageNet[16]數(shù)據(jù)集上預(yù)訓(xùn)練的 ResNet50[17]模型提取視頻幀特征,將倒數(shù)第 2 個(gè)全連接層特征作為視頻幀特征,記為fimg。同時(shí),在 stage1 輸出的特征圖上,根據(jù)人體位置框與人體部件位置框,利用 RoIAlign[10]技術(shù)提取出人體特征與人體部件特征,維度為 256×7×7,之后通過兩層卷積神經(jīng)網(wǎng)絡(luò),重排列成 2 048 維特征向量,記為fh、fp。

        圖2 特征提取流程Fig.2 Pipeline of feature extracting

        2.2 網(wǎng)絡(luò)模塊

        該網(wǎng)絡(luò)由 3 個(gè)模塊組成:部件特征增強(qiáng)模塊、部件特征融合模塊和人體特征增強(qiáng)模塊。其中,部件特征增強(qiáng)模塊負(fù)責(zé)利用人體特征與視頻幀特征等粗粒度的環(huán)境信息增強(qiáng)人體部件特征;部件特征融合模塊負(fù)責(zé)將人體部件特征融合成人體特征;人體特征增強(qiáng)模塊利用圖卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)視頻中所有人之間的關(guān)系,從而獲得視頻級(jí)人體表征,用于行為識(shí)別。

        2.2.1 部件特征增強(qiáng)模塊

        本文研究以人體部件特征為基礎(chǔ),所以需要增強(qiáng)直接從視頻幀上提取的原始人體部件特征fp,作為整個(gè)算法的基礎(chǔ)。相對人體部件而言,視頻幀與人體都屬于粗粒度環(huán)境信息。該模塊通過拼接的方式,將視頻幀特征與人體特征等環(huán)境信息融合到人體部件特征中,并經(jīng)過兩層全連接層以及一層 dropout[18]層進(jìn)行降維處理,得到增強(qiáng)的人體部件特征全連接層中間使用ReLU[19]作為激活函數(shù)。公式如下:

        2.2.2 部件特征融合模塊

        部件特征融合模塊的目標(biāo)是將增強(qiáng)的各人體部件特征融合成人體特征。由于人體具有自然的分級(jí)結(jié)構(gòu),所以本模塊自底向上地分級(jí)融合人體部件特征,過程如圖 3 所示。首先,融合手掌和手臂的特征,得到手的特征,之后融合左右手與頭的特征,得到上半身特征;然后,融合腳與大小腿的特征,得到腿的特征,隨后融合左右腿與臀部的特征,得到下半身特征;最后,融合上半身與下半身特征,得到新的人體特征。其中,融合操作由特征拼接操作與一層全連接層組成。

        圖3 部件特征融合模塊Fig.3 Body part feature fusion module

        2.2.3 人體特征增強(qiáng)模塊

        由于視頻行為識(shí)別需要綜合視頻中所有人的行為進(jìn)行判斷,所以人體特征增強(qiáng)模塊負(fù)責(zé)綜合所有人的行為與位置信息,增強(qiáng)每個(gè)人的人體特征,架構(gòu)如圖 4 所示。參考 ARG 網(wǎng)絡(luò),該模塊使用人體的圖像特征以及位置信息來學(xué)習(xí)每個(gè)特征之間的關(guān)聯(lián)性,構(gòu)建關(guān)系矩陣,計(jì)算公式如下:

        其中,Gij為關(guān)系矩陣第i行j列的值;N為所有視頻幀上的人體總數(shù);xi、xj表示第i和j個(gè)人的位置框左上角與右下角坐標(biāo);表示融合后的第i和j個(gè)人的人體特征;為對兩個(gè)人之間的圖像特征關(guān)系進(jìn)行建模;為對兩個(gè)人之間的位置信息關(guān)系進(jìn)行建模。

        由于多個(gè)人之間的關(guān)系比較復(fù)雜,所以在此模塊對所有人構(gòu)建了多個(gè)關(guān)系矩陣G1,G2,…,GNg,其中Ng表示關(guān)系矩陣的個(gè)數(shù),每個(gè)關(guān)系矩陣不共享參數(shù)。之后利用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳遞過程,計(jì)算公式如下:

        其中,Zout為中間層特征;Zin為由人體特征組成的特征矩陣;W為可學(xué)習(xí)的權(quán)重矩陣;為激活函數(shù),本文使用 ReLU[19]函數(shù);Z為增強(qiáng)的人體特征組成的特征矩陣,記增強(qiáng)的人體特征為fnewh。流程如圖 4 所示,每一層的計(jì)算如公式(7~8)所示。

        圖4 人體特征增強(qiáng)模塊Fig.4 Body feature enhancement module

        3 訓(xùn)練網(wǎng)絡(luò)

        訓(xùn)練網(wǎng)絡(luò)的主要功能是提取人體部件的細(xì)粒度行為特征,融合成人體特征fnewh。在視頻行為識(shí)別任務(wù)中,還需要結(jié)合作為環(huán)境信息的視頻幀特征fframe。記提取視頻幀特征的網(wǎng)絡(luò)為視頻特征提取網(wǎng)絡(luò),其可以使用 TSN、時(shí)序偏移網(wǎng)絡(luò)(Temporal Shift Module,TSM)[20]、STM、TEA等經(jīng)典的二維卷積神經(jīng)網(wǎng)絡(luò)。由于數(shù)據(jù)集的大小、數(shù)據(jù)分布不同,訓(xùn)練網(wǎng)絡(luò)可能造成過擬合問題,所以本文采用以下兩種策略:在出現(xiàn)過擬合問題的數(shù)據(jù)集上采取獨(dú)立訓(xùn)練策略,在未出現(xiàn)過擬合問題的數(shù)據(jù)集上采取聯(lián)合訓(xùn)練策略。

        (1)聯(lián)合訓(xùn)練。將每一視頻幀上的所有人體特征經(jīng)過平均池化層后,與視頻幀特征拼接,之后經(jīng)過全連接層預(yù)測出每一幀的行為分?jǐn)?shù)。隨后將所有幀上的行為分?jǐn)?shù)經(jīng)過平均池化層后得到預(yù)測的視頻行為分?jǐn)?shù),取分?jǐn)?shù)最大的類別為預(yù)測的視頻行為類別。此時(shí),該網(wǎng)絡(luò)與視頻特征提取網(wǎng)絡(luò)聯(lián)合訓(xùn)練參數(shù)。計(jì)算公式如下:

        (2)獨(dú)立訓(xùn)練。與聯(lián)合訓(xùn)練類似,該策略不拼接fframe、fhuman,而是使用它們獨(dú)立訓(xùn)練兩個(gè)網(wǎng)絡(luò)。測試時(shí)將兩個(gè)網(wǎng)絡(luò)預(yù)測的視頻行為分?jǐn)?shù)相加,作為最終視頻行為分?jǐn)?shù)的預(yù)測值。

        4 實(shí)驗(yàn)與討論

        本研究使用兩個(gè)經(jīng)典的視頻行為識(shí)別數(shù)據(jù)集HMDB51 與 UCF101 來驗(yàn)證方法效果。接下來將介紹使用的數(shù)據(jù)庫,以及針對各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        4.1 數(shù)據(jù)庫介紹

        HMDB51 數(shù)據(jù)集是通過各種渠道搜集到的真實(shí)視頻組成的視頻集,如電影和網(wǎng)絡(luò)視頻,包含51 個(gè)動(dòng)作類別的 6 766 個(gè)視頻片段。本文試驗(yàn)使用標(biāo)準(zhǔn)的 split1 劃分方式劃分訓(xùn)練與測試集。UCF101 數(shù)據(jù)集包含 101 個(gè)動(dòng)作類別,13 320 個(gè)視頻片段。本文實(shí)驗(yàn)在兩個(gè)數(shù)據(jù)集都采取標(biāo)準(zhǔn)的split1 劃分方式劃分訓(xùn)練與測試集。

        4.2 對比實(shí)驗(yàn)

        首先,本文在 HMDB51 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。由于該數(shù)據(jù)集比較小,聯(lián)合訓(xùn)練會(huì)造成嚴(yán)重的過擬合問題,所以在該數(shù)據(jù)集上的實(shí)驗(yàn)采取獨(dú)立訓(xùn)練策略?;A(chǔ)網(wǎng)絡(luò)分別使用 TSN、TSM、STM、TEA 網(wǎng)絡(luò)作為對比基準(zhǔn),它們的主干網(wǎng)絡(luò)都選擇 ResNet50[17],并在 ImageNet[16]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。訓(xùn)練時(shí)每個(gè)視頻等間隔采樣 8 幀,每幀選取面積最大的 3 個(gè)人。學(xué)習(xí)率為 0.001,在第 30 和 60 個(gè) epoch 時(shí)分別下降至 0.1 倍。采用帶動(dòng)量的隨機(jī)梯度下降策略,momentum 為0.9,同時(shí)加上 L2 正則化,參數(shù)為 0.000 5。將兩個(gè)網(wǎng)絡(luò)分別訓(xùn)練好后,測試時(shí)將二者的預(yù)測值經(jīng)過 Softmax 歸一化后相加,數(shù)值最大的類別為預(yù)測的視頻行為類別。表 1 結(jié)果顯示,對于 4 種基礎(chǔ)網(wǎng)絡(luò),加上本文方法后都能取得精度提升。例如,使用 TSN 時(shí),本文方法精度提升了 1.43%;使用 TEA 時(shí),達(dá)到了過擬合狀態(tài),然而使用了本文方法后精度提升了 2.61%。該實(shí)驗(yàn)結(jié)果表明,基于人體部件的細(xì)粒度行為特征與基于視頻幀的粗粒度行為特征具有很好的互補(bǔ)性,且能部分解決過擬合問題。

        表1 HMDB51 數(shù)據(jù)集對比實(shí)驗(yàn)Table 1 HMDB51 dataset ablation study

        其次,在 UCF101 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。由于該數(shù)據(jù)集較大,不會(huì)造成過擬合,所以采取聯(lián)合訓(xùn)練策略?;A(chǔ)網(wǎng)絡(luò)同樣采用 TSN、TSM、STM、TEA 作為對比基準(zhǔn),它們的主干網(wǎng)絡(luò)都選擇 ResNet50,并在 ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。學(xué)習(xí)率為 0.01,在第 30、45 和 55 個(gè) epoch時(shí)分別下降至 0.1 倍。其他參數(shù)與在 HMDB51上的實(shí)驗(yàn)相同。采用聯(lián)合訓(xùn)練策略,將兩個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練好后,測試時(shí)將視頻行為預(yù)測值經(jīng)過 Softmax 歸一化,選取數(shù)值最大的類別為預(yù)測的視頻行為類別。表 2 結(jié)果顯示,對于 4 種基礎(chǔ)網(wǎng)絡(luò),本文方法都能取得精度提升。例如,使用TSN 時(shí),本文方法精度提升了 2.67%;使用 TEA時(shí),本文方法精度提升了 1.22%。該實(shí)驗(yàn)結(jié)果同樣表明基于人體部件的細(xì)粒度行為特征的有效性。

        表2 UCF101 數(shù)據(jù)集對比實(shí)驗(yàn)Table 2 UCF101 dataset ablation study

        4.3 結(jié)果可視化分析

        首先,在 HMDB51 測試集上選取性能提升最大的 20 個(gè)動(dòng)作類別進(jìn)行詳細(xì)的精度對比。采用的基礎(chǔ)網(wǎng)絡(luò)為 TSN,結(jié)果如圖 5 所示。從圖 5可知,在與人體部件動(dòng)作強(qiáng)相關(guān)的行為類別上,本文方法取得了較大的精度提升,如 shoot_ball、throw、jump、pushup 等。圖 6 是基礎(chǔ)網(wǎng)絡(luò)為 TEA 時(shí)的對比結(jié)果,在 shake_hands、climb、shoot_ball 等與肢體動(dòng)作強(qiáng)相關(guān)的類別上,本文方法同樣取得了較大的精度提升。

        圖5 本文方法與 TSN 網(wǎng)絡(luò)在 HMDB51 測試集上的類別精度對比Fig.5 HMDB51 class accuracy comparison of ours and TSN

        圖6 本文方法與 TEA 網(wǎng)絡(luò)在 HMDB51 測試集上的類別精度對比Fig.6 HMDB51 class accuracy comparison of ours and TEA

        然后,在 UCF101 數(shù)據(jù)集的實(shí)驗(yàn)中,選取基礎(chǔ)網(wǎng)絡(luò)為 TSN 時(shí)性能提升最大的 20 個(gè)動(dòng)作類別的精度進(jìn)行對比。圖 7 結(jié)果顯示,在與人體部件動(dòng)作強(qiáng)相關(guān)的類別上,本文方法都能取得較大的分類精度提升,如 BodyWeightSquats、HandstandWalking。圖 8 是基礎(chǔ)網(wǎng)絡(luò)為 TEA 時(shí)的對比結(jié)果,在 JumpingJack、Lunges 等與肢體動(dòng)作強(qiáng)相關(guān)的類別上,本文方法同樣取得了較大的精度提升。

        圖7 本文方法與 TSN 網(wǎng)絡(luò)在 UCF101 測試集上的類別精度對比Fig.7 UCF101 class accuracy comparison of ours and TSN

        圖8 本文方法與 TEA 網(wǎng)絡(luò)在 UCF101 測試集上的類別精度對比Fig.8 UCF101 class accuracy comparison of ours and TEA

        由此可知,在與人體部件動(dòng)作強(qiáng)相關(guān)的類別中,細(xì)粒度的人體部件特征能與粗粒度的視頻幀特征形成良好的互補(bǔ),提升視頻行為分類效果。

        4.4 案例分析

        相較于傳統(tǒng)方法,本文方法在大部分行為類別上有比較大的精度提升,然而在部分類別上依然有所不足。在 UCF101 數(shù)據(jù)集上,本文方法在Haircut、HammerThrow 等類別上的錯(cuò)誤相對較多,如圖 9 所示。其中,Haircut 失敗樣例大部分都是誤識(shí)別為 BlowDryHair,從圖 9 樣例可知,Haircut 與 BlowDryHair 的主要區(qū)別是手持工具的不同,由于手掌級(jí)別的人體部件動(dòng)作相似,當(dāng)算法不能識(shí)別出工具時(shí),本文方法就容易進(jìn)行誤識(shí)別。對于 HammerThrow 類別,失敗樣例大部分都是誤識(shí)別為 ThrowDiscus。通過樣例分析可知,該方法主要通過物體與場景進(jìn)行兩個(gè)類別的區(qū)分。當(dāng)不能識(shí)別出物體時(shí),主要依靠場景進(jìn)行類別區(qū)分。在 HammerThrow 類別中,場景都比較相似,本文方法不能識(shí)別出該場景,故容易誤識(shí)別為 ThrowDiscus。

        圖9 UCF101 樣例分析Fig.9 UCF101 examples analysis

        從圖 9 可知,在與人體部件動(dòng)作強(qiáng)相關(guān)的類別上,本文方法精度有較好的提升,但在識(shí)別人體部件動(dòng)作相似,主要依靠物體與場景區(qū)分的易混淆類別時(shí),本文方法表現(xiàn)不足。由于本文使用的人體部件特征沒有更精細(xì)化到手指等級(jí)別,所以在部分人體部件動(dòng)作相似的類別上仍然需要依靠物體與場景進(jìn)行識(shí)別。

        5 討論與分析

        現(xiàn)階段對視頻行為識(shí)別的研究,主要集中在使用粗粒度特征的領(lǐng)域,如視頻幀特征或人體特征。然而每個(gè)人體部件的細(xì)節(jié)動(dòng)作都與視頻行為相關(guān),這些方法沒有更進(jìn)一步對細(xì)粒度的人體部件特征進(jìn)行探索,易忽視掉許多行為細(xì)節(jié)。在不使用 Kinetics[21]數(shù)據(jù)集預(yù)訓(xùn)練,且只使用視頻幀的圖像數(shù)據(jù)條件下,TSN 方法在 UCF101 數(shù)據(jù)集和 HMDB51 數(shù)據(jù)集上的精度分別為 84.59%、52.29%,此時(shí)只使用視頻幀特征進(jìn)行視頻行為識(shí)別的方法均達(dá)到過擬合的狀態(tài)。融合本文方法后,精度分別為 87.26%、53.72%,分別取得2.67%、1.43% 的提升。可見,對于視頻行為識(shí)別任務(wù)來說,人體部件特征與視頻幀特征具有非常好的互補(bǔ)性,同時(shí)能夠部分解決過擬合問題。本文初步提出一種使用人體部件特征的有效方法,然而相對于 ARG 等網(wǎng)絡(luò)使用人體特征的方法,本文研究利用人體部件特征的方法顯得比較直接。

        6 結(jié)論

        針對現(xiàn)有視頻行為識(shí)別使用特征層次過高,在關(guān)注動(dòng)作細(xì)節(jié)的類別上效果不是很好的問題,本文提出一種基于人體部件特征的視頻行為識(shí)別方法。該方法可以對人體部件進(jìn)行自動(dòng)定位,提取基于人體部件的細(xì)粒度行為特征,從而有效地進(jìn)行視頻行為識(shí)別。同時(shí),本文介紹了兩種訓(xùn)練策略,針對不同的數(shù)據(jù)集可以采取更合適的對應(yīng)策略。實(shí)驗(yàn)結(jié)果表明,使用不同的基礎(chǔ)網(wǎng)絡(luò),本文方法都可以有效地提升視頻行為識(shí)別效果。在實(shí)際的視頻行為數(shù)據(jù)中,每個(gè)人體部件都有各自的動(dòng)作,然而當(dāng)前的數(shù)據(jù)集的標(biāo)注只針對視頻級(jí)別或者幀級(jí)別進(jìn)行標(biāo)注,沒有提供每個(gè)人體部件級(jí)別的監(jiān)督信息,所以大部分的方法都沒有細(xì)化到提取人體部件特征。本文初步證明了人體部件特征的有效性。未來工作中,將重點(diǎn)關(guān)注人體部件特征融合方式的探索,以及如何更有效地將細(xì)粒度的人體部件特征與粗粒度的視頻幀特征結(jié)合起來,以提升視頻行為識(shí)別效果。

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产精品情侣呻吟对白视频| 日韩精品免费在线视频一区| 亚洲综合久久中文字幕专区一区 | 亚洲一区二区三区在线激情| 人妻系列中文字幕av| 中文字幕精品一区二区的区别| 日韩有码中文字幕在线观看| 久久99精品久久久久久琪琪| 蜜桃麻豆www久久囤产精品| √天堂中文官网8在线| 在线综合网| 日韩在线精品在线观看| 亚洲av永久久无久之码精| 99国语激情对白在线观看| 久久精品熟女亚洲av麻豆永永 | 美女一区二区三区在线视频| 亚洲写真成人午夜亚洲美女| 优优人体大尺大尺无毒不卡| 国产免费久久精品99re丫y| 中文字幕在线日亚州9| 免费观看日本一区二区三区| 亚洲av色香蕉一区二区三区| 国产国语熟妇视频在线观看 | 伦人伦xxxx国语对白| 国产成人啪精品| 麻豆国产成人AV网| 精品国产一区二区三广区| 日本成人午夜一区二区三区| 真实人与人性恔配视频| 蜜臀久久99精品久久久久久小说| 在线视频你懂的国产福利| 爆乳无码AV国内| 国产91精品在线观看| 免费成人电影在线观看| 国产在线无码制服丝袜无码| 狠狠色欧美亚洲综合色黑a| 精品亚洲国产亚洲国产| 国产精品亚洲av无人区一区香蕉| 精品国产一区二区三区av性色| a级毛片内射免费视频| 手机看片1024精品国产|