亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的多模態(tài)人體行為識別算法

        2022-03-30 14:03:08宋真東楊國超馬玉鵬馮曉毅
        計算機測量與控制 2022年2期
        關鍵詞:雙流注意力卷積

        宋真東,楊國超,馬玉鵬,3,馮曉毅

        (1.西北工業(yè)大學 電子信息學院,西安 710129;2.陜西華明普泰醫(yī)療設備有限公司,西安 710119)3.河北師范大學 計算機與網(wǎng)絡空間安全學院,石家莊 050024;

        0 引言

        傳統(tǒng)的行為識別方法使用普通的RGB數(shù)據(jù)來進行,但難以有效解決光照變化、背景復雜、遮擋等因素影響。近年來出現(xiàn)了許多方便操作、價格便宜的多模態(tài)攝像機,通過彩色深度傳感器(RGB-D,Red、Green、Blue和Depth)[1]可以同時采集RGB圖像和Depth圖像,能夠提供彩色圖像不具備的三維運動和結構信息,為提高行為識別系統(tǒng)的魯棒性和準確性提供有效支撐。因此,近年來基于RGB-D多模態(tài)數(shù)據(jù)的人體行為識別引起關注。

        深度學習在語言處理、計算機視覺和視頻理解等領域已有廣泛深入的應用。K.Simonyan等人[2]提出的Two-Stream雙流網(wǎng)絡是深度學習的一個主流方向,該算法使用兩個并行的網(wǎng)絡分支分別學習視頻的空間特征和時間特征,以單幀的RGB圖像輸入網(wǎng)絡提取空間場景和目標信息,將密集光流序列輸入網(wǎng)絡來學習時間特征,最后將兩個分支的判斷進行融合得到分類結果。C.Feichtenhofer等人[3]在Two-Stream網(wǎng)絡的基礎上利用CNN網(wǎng)絡進行時空特征融合,并將基礎網(wǎng)絡替換成VGG-16,提高了識別效果。Z.Liu等人[4]提出了3D卷積神經(jīng)網(wǎng)絡(3DCNN,3D-based deep convolutional neural network),3維卷積核相比2維卷積核多了一個時間維度,因此該網(wǎng)絡可以自動地學習時空特征,視頻描述子具有高效通用的特點。W.Du等人[5]將長短期記憶網(wǎng)絡(LSTM,long short-term memory)[6]與CNN結合提出了循環(huán)姿勢注意力網(wǎng)絡(RPAN,recurrent pose-attention network)算法,該算法包括特征生成、姿態(tài)注意機制和LSTM時序網(wǎng)絡三部分,LSTM解決了一般的循環(huán)神經(jīng)網(wǎng)絡(RNN,recurrent neural networks)[7]依賴前后長期信息的問題,適合提取時間維度特征。

        現(xiàn)有的行為識別方法主要是對視頻幀整體提取特征,沒有區(qū)分行為感興趣區(qū)域和靜止區(qū)域,且很多方法僅利用RGB單模態(tài)信息,因此,行為識別準確性難以滿足實際需求。針對面向行為識別的區(qū)域檢測問題,本文借鑒生物視覺系統(tǒng)的注意力機制,結合3D卷積網(wǎng)絡構建了基于注意力機制的3D卷積網(wǎng)絡(AM3DNet,attention mechanism 3D network),能有效提取與行為識別相關的肢體運動部位特征。針對RGB圖像和Depth圖像多模態(tài)輸入及特征融合問題,提出了基于注意力機制的RGB-D雙流特征融合3D網(wǎng)絡(TAM3DNet,two-stream attention mechanism RGB-D feature fusion 3D network),RGB圖像和Depth圖像作為雙流網(wǎng)絡的輸入,主干網(wǎng)絡采用AM3DNet分別提取RGB圖像特征和Depth圖像特征,再將融合后的特征輸入網(wǎng)絡分類層,得到最終的行為識別結果。

        1 3D卷積和注意力機制

        1.1 3D卷積

        2D卷積提取單張靜止圖像的空間特征,適用于圖像的分類、檢測等任務。2D卷積在行為識別任務中對每一幀圖像分別提取空間特征,一個卷積核只能得到一個特征圖,這種卷積方式?jīng)]有考慮時間維度幀間的物體運動信息,因此,2D卷積不適用于視頻和多幀圖像等具有時間維度信息的任務。

        為了提取視頻數(shù)據(jù)的時間維度特征,提出了3D卷積。3D卷積在卷積核中加入了時間維度,能同時提取視頻幀的空間和時間特征信息[8]。3D卷積與2D卷積的不同之處在于,輸入的數(shù)據(jù)和卷積核都增加了一個維度,多個連續(xù)的視頻幀組成一個立方體作為輸入,然后在立方體中運用3D卷積核,卷積層中的每一個特征圖都是從上一層中多個連續(xù)幀提取得到。因此,3D卷積能捕捉到運動信息,適用于行為識別任務。2D卷積和3D卷積操作如圖1所示。

        圖1

        1.2 注意力機制

        生物視覺系統(tǒng)通常不會關注場景中的所有區(qū)域,而是關注場景中的關鍵位置來獲取有用信息,這就是生物視覺的注意力機制[9-10]。基于注意力機制的模型在深度學習的各個領域中廣泛應用,可有效提高深度學習任務的性能?;谧⒁饬C制的模型,首先快速掃描全局圖像得到重點關注的目標區(qū)域,然后對這一區(qū)域集中注意力資源獲得更多關注目標的細節(jié)信息,抑制周圍的無關信息,極大提高了視覺信息處理的效率和準確度。

        近年來,深度學習與注意力機制結合的研究主要集中在使用掩碼(mask)來實現(xiàn)。掩碼的原理是通過一層新的權重,標識出圖像中關鍵的特征,通過訓練使神經(jīng)網(wǎng)絡學習每張圖像中需要重點關注的區(qū)域,從而實現(xiàn)注意力機制。這種方式演化為兩種類型的注意力,一種是軟注意力(soft attention),另一種是強注意力(hard attention),以下分別介紹:

        1)軟注意力:軟注意力是確定性的注意力,更加關注區(qū)域[11]或通道,學習完成后可以直接通過網(wǎng)絡生成權重,保留所有特征分量進行加權。最重要的一點是軟注意力是可微分的,首先可微分的注意力可以通過神經(jīng)網(wǎng)絡計算出梯度,然后梯度下降法通過目標函數(shù)及相應的優(yōu)化函數(shù)來學習注意力權重。

        2)強注意力:與軟注意力不同,強注意力更加關注像素點[12],圖像中每個點都可能得到注意力,而且強注意力更加強調動態(tài)變化,是一個隨機預測的過程,選取部分特征進行加權。最關鍵的是強注意力是不可導的注意力,往往通過強化學習(reinforcement learning)來完成訓練,強化學習通過收益函數(shù)(reward)來激勵,使模型關注局部的細節(jié)信息。

        2 模型與方法

        行為識別的關鍵問題在于準確提取感興趣行為特征和多模態(tài)特征的有效融合,目前行為識別方法對圖像整體提取特征,沒有區(qū)分肢體運動區(qū)域和其它區(qū)域[13],本文將注意力機制和3D卷積網(wǎng)絡相結合,使肢體運動部位的特征作為重點。針對RGBD多模態(tài)特征有效融合問題,通過實驗對比選擇特征層拼接融合方式,借鑒雙流網(wǎng)絡結構,用深度圖代替光流圖,提出基于注意力機制的雙流特征融合卷積網(wǎng)絡TA3D。

        2.1 基于注意力機制的3D卷積網(wǎng)絡

        視覺注意力機制本質是在圖像的不同區(qū)域加上不同權重,使用注意力機制有利于提高行為識別判斷的準確性。常規(guī)的3D卷積網(wǎng)絡對視頻幀所有空間區(qū)域的作用是一致的,不能區(qū)分運動區(qū)域和非運動區(qū)域。本文提出的結合注意力機制的3D卷積網(wǎng)絡對模型的學習能力進行分配,使圖像中與行為識別相關的區(qū)域權重增大,降低無關區(qū)域的權重。視覺注意力模塊如圖2所示。

        圖2 視覺注意力模塊

        其中:Xt表示第t幀視頻幀通過CNN卷積網(wǎng)絡后得到的特征圖,尺寸為K×K×C,其中K代表特征圖的空間大小,C代表特征圖的通道維度。lt表示對應于第t幀的注意力圖,其為K×K的向量。將注意力圖和卷積圖通過加權相結合后得到輸出xt,如式(1)所示,然后將xt輸入到后續(xù)網(wǎng)絡中,得到的輸出經(jīng)過非線性變換后作為網(wǎng)絡當前時刻的輸出。

        (1)

        式中,Xt是t時刻的特征立方體,Xt,i是t時刻特征立方體的第i個切片。lt,i是t時刻注意力圖的第i個權值向量,得到的xt是大小為C的特征向量,其中C是特征圖的通道維度。卷積神經(jīng)網(wǎng)絡輸出的特征圖尺寸為K×K×C,如果沿著特征圖的空間維度展開,可以當成是K×K個d維的向量,相當于將特征圖分塊表示,每個向量對應輸入視頻幀不同區(qū)域的特征值。如圖1所示,為了與特征圖相結合,注意力圖的尺寸應該與特征圖空間尺寸一致,且注意力圖不同部位的向量大小表示對應特征圖區(qū)域的權重大小。經(jīng)過加權運算后,加強運動區(qū)域的卷積特征,減弱背景和靜止區(qū)域的卷積特征。

        由于注意力機制在計算機視覺領域特別是視頻分類識別方面具有較大優(yōu)勢,本文將注意力機制(AM,attention mechanism)與原始3D卷積網(wǎng)絡相結合:在3D卷積層后加入注意力層,使用自注意力機制計算注意力圖,其余網(wǎng)絡結構不變,如圖 3所示。本文將改進后的網(wǎng)絡命名為注意力機制3D卷積網(wǎng)絡(AM3DNet,attention mechanism 3D network),該網(wǎng)絡首先通過3D卷積層提取視頻幀序列的特征圖,然后將視頻幀序列特征圖輸入注意力模塊獲得當前輸入的注意力圖,之后將序列特征圖和與之對應的注意力圖加權融合后得到加權特征,從而加強對當前行為識別任務重要的肢體運動區(qū)域特征并且抑制不重要的區(qū)域特征,再將加權后的特征輸入后續(xù)3D卷積層和全連接層,最后通過Softmax層得到行為類別預測結果。該網(wǎng)絡通過學習特征空間不同區(qū)域的權重分布,使網(wǎng)絡專注于對行為識別有意義的肢體運動部位,可提高行為識別網(wǎng)絡的性能。

        圖3 AM3DNet結構示意圖

        注意力圖是由嵌入在網(wǎng)絡中的注意力層得到,目的是動態(tài)地估計不同視頻幀之間的顯著性和相關性[14],假設視頻幀經(jīng)過前端3D卷積層后得到的特征圖F尺寸為K×K×C,C為通道數(shù)。注意力層是1×1×1的3D卷積核,在特征圖(i,j)處的單位立方體Fij內進行卷積得到值Aij,該值代表原始視頻幀中對應區(qū)域的權重,所有區(qū)域的權重值組合為一個尺寸與特征圖相同的矩陣A,區(qū)域注意力權重Aij的計算如式(2)所示:

        Aij=Sigmoid(WijFij+bij)

        (2)

        圖5 TAM3DNet結構示意圖

        式中,Wij是變換矩陣,F(xiàn)ij是(i,j)處的特征向量,bij是偏置項,使用Sigmoid函數(shù)作為激活函數(shù)將注意力權重約束在[0,1]區(qū)間內,注意力權重矩陣A與特征圖F逐項相乘后得到加權特征圖,然后輸入后續(xù)網(wǎng)絡進行特征提取和分類。該網(wǎng)絡使用的損失函數(shù)如式(3)所示:

        (3)

        式中,第一項為交叉熵損失函數(shù),是分類問題中常用的損失函數(shù),其中yt是數(shù)據(jù)標簽向量, 是t時刻的類別概率向量,T代表總的時間步數(shù),C代表輸出的類別數(shù)。第二項為隨機懲罰項,λ是注意力懲罰系數(shù),括號內是視頻幀中第i個區(qū)域對應注意力圖的權重值,其在所有區(qū)域內的和為1。

        2.2 RGB-D雙流網(wǎng)絡的融合方式

        多模態(tài)數(shù)據(jù)的網(wǎng)絡融合方式主要分為特征層融合和決策層融合[15-16]。其中,特征層融合是指多個網(wǎng)絡分支學習的特征融合在一起,然后將融合后的特征輸入分類器得到分類結果。決策層融合是指在預測級別進行融合,多個獨立網(wǎng)絡訓練后得到不同模型,測試時每個模型都會得到預測分數(shù),將預測分數(shù)進行融合后得到最終的預測結果。

        本文通過實驗選擇特征層融合,即首先將RGB圖像和Depth圖像分別輸入網(wǎng)絡中,獲得RGB圖像的特征與Depth圖像的特征;然后兩種特征在通道維度上進行融合,得到融合后特征;最后將融合后特征輸入分類器中得到預測結果。特征層融合機制如圖4所示。

        圖4 特征層融合機制

        2.3 基于注意力機制的RGB-D雙流特征融合3D網(wǎng)絡

        RGB-D圖像兩種模態(tài)作為輸入,借鑒Two-Stream網(wǎng)絡的結構[17],本文在AM3DNet的基礎上提出了基于注意力機制的RGB-D雙流特征融合3D網(wǎng)絡(TAM3DNet,two-stream attention mechansim RGB-D feature fusion 3D network),其為結合注意力的雙流特征融合網(wǎng)絡,TA3D的結構如圖5所示。首先將RGB數(shù)據(jù)和Depth數(shù)據(jù)預處理后作為雙流網(wǎng)絡兩條流的輸入,主干網(wǎng)絡使用結合注意力機制的AM3D卷積網(wǎng)絡,將注意力層嵌入卷積層后,分別提取兩類數(shù)據(jù)的注意力加權特征。TAM3D網(wǎng)絡選擇特征拼接方式將RGB和Depth圖像的注意力加權特征進行融合,最后將融合特征輸入分類層得到分類結果。

        表1 TAM3DNet模型參數(shù)

        (4)

        如果網(wǎng)絡是批量輸入的,假設batch的樣本數(shù)為m,則對應于一個batch批量的整體損失loss計算如式(5)所示:

        (5)

        本文提出的TAM3DNet分別在雙流網(wǎng)絡的兩個分支中計算各自的交叉熵,然后將兩類交叉熵損失之和作為TAM3DNet整體的損失函數(shù),針對該損失函數(shù)采用Adagrad優(yōu)化器進行優(yōu)化,尋找損失之和盡可能小的最優(yōu)參數(shù)值。

        基于注意力機制的雙流特征融合卷積網(wǎng)絡TAM3DNet參數(shù)如表1所示。

        3 實驗結果與分析

        3.1 數(shù)據(jù)集

        3.1.1 MSR DailyAction3D數(shù)據(jù)集

        MSR DailyAction 3D(MSRDA)日常行為數(shù)據(jù)集是由微軟的Wang等人[18]在雷德蒙研究院建立,該數(shù)據(jù)集由10個不同的人執(zhí)行16類日常行為動作得到。16類行為分別為:喝水、吃東西、讀書、打電話、寫字、歡呼、靜坐、使用筆記本電腦、使用吸塵器、走路、彈吉他、扔紙、打游戲、躺在沙發(fā)上、站起來、坐下,該數(shù)據(jù)集記錄了執(zhí)行每個動作的RGB視頻,以及動作對應的Depth圖像和20個骨架節(jié)點的空間位置信息。該數(shù)據(jù)集每種模態(tài)包括10×2×16=320個樣本,數(shù)據(jù)集的3種模態(tài)總共有960個樣本。

        3.1.2 NPUAction自建數(shù)據(jù)集

        NPUAction數(shù)據(jù)集由16個人執(zhí)行7類運動相關動作得到,包括:舉手、展臂、揮手、搖頭、打電話、彎腰、轉身。3D傳感攝像頭拍攝得到RGB視頻片段,同時將Depth圖像保存為oni格式。由于拍攝得到的是連續(xù)執(zhí)行7類動作的整段視頻,不符合深度學習數(shù)據(jù)按類別存放的要求,所以人工將整段視頻按照行為類別剪輯為7段短視頻,每段時長在10秒鐘左右,并按照類別和人物的順序依次命名,總共得到224段RGB視頻樣本。

        3.2 實驗環(huán)境

        由于視頻處理問題需要大量的計算資源,本文選擇在性能強大的Linux系統(tǒng)上運行,版本為Ubuntu 18.04 LTS,運行環(huán)境為Python3.6,使用RTX 2070顯卡進行運算,CUDA9.0并行計算架構能加快運算速度,開發(fā)工具為Visual Studio Code,深度學習框架為GPU版本的Tensorflow 1.8.0。

        3.3 與主流方法對比實驗及結果

        為了比較本文提出的基于注意力機制的RGB-D雙流特征融合3D卷積網(wǎng)絡TAM3DNet與目前主流行為識別算法的性能,在公開的RGBD數(shù)據(jù)集MSR DailyAction 3D日常行為數(shù)據(jù)集和自制NPUAction數(shù)據(jù)集上進行實驗。

        3.3.1 MSR DailyAction 3D數(shù)據(jù)集

        在MSR DailyAction3D數(shù)據(jù)集上訓練TA3D網(wǎng)絡模型,對測試集進行多次測試并取準確率平均值,實驗結果與改進密集軌跡算法iDT[19]和時間段網(wǎng)絡TSN[20]的準確率對比如表2所示。

        表2 MSR DailyAction 3D數(shù)據(jù)集上實驗結果

        由實驗結果表2可以看出,本文提出的TAM3DNet在公開的MSR DailyAction3D日常行為數(shù)據(jù)集上取得了92.19%的識別準確率,與傳統(tǒng)算法iDT相比識別準確率提高6.25%,與深度學習算法TSN相比提高3.13%,該結果說明本文提出的基于注意力機制的RGB-D雙流特征融合3D卷積網(wǎng)絡在RGBD數(shù)據(jù)行為識別問題上達到了目前先進水平。在MSRDailyAction 3D數(shù)據(jù)集上訓練過程的特征圖如圖6所示。

        圖6 可視化訓練特征圖

        3.3.2 NPUAction數(shù)據(jù)集

        為了證明本文提出的基于注意力機制的雙流特征融合卷積網(wǎng)絡TAM3DNet在智慧客廳場景中的識別效果,使用NPUAction數(shù)據(jù)集進行實驗,得到整體準確率和每種類別準確率如圖7所示。

        圖7 NPUAction按類別的識別準確率

        由實驗結果總結得到,本文提出的TAM3DNet在自建場景數(shù)據(jù)集NPUAction上的整體識別準確率達到了94.05%,由于公開數(shù)據(jù)集是在普通室內場景中采集的,視頻背景光照情況復雜,存在人物遮擋影響,自建RGB-D數(shù)據(jù)集是在實驗室模擬環(huán)境下采集的,光照和角度可控,更符合本文研究的智慧客廳場景。由圖5可以看出不同行為的識別準確率差別較大,動作幅度較小的搖頭、打電話等動作準確率較低,幅度較大的舉手、彎腰等動作識別準確率較高,這個結果也符合視覺系統(tǒng)容易識別大幅度動作的機理,同時也驗證了肢體運動部位對行為識別的重要性。實驗結果表明,本文提出的TAM3DNet在智慧客廳場景中是一個高效的RGBD多模態(tài)數(shù)據(jù)端到端行為識別網(wǎng)絡。

        3.4 注意力機制實驗及分析

        計算機視覺中的注意力機制是賦予神經(jīng)網(wǎng)絡"注意力"能力,使其能集中與圖像重點區(qū)域而忽略無關信息。為驗證注意力機制對人體行為識別所帶來的性能提升,在MSR DailyAction 3D數(shù)據(jù)集和NPUAction數(shù)據(jù)上,分別針對三通道RGB圖像、四通道RGBD圖像以及RGB-D雙流特征融合網(wǎng)絡進行消融實驗。

        從實驗結果可以看出,基于注意力機制的RGB-D雙流特征融合網(wǎng)絡TAM3DNet獲得了最好識別結果。在三通道、四通道和RGB-D雙流輸入中,通過增加注意力機制(AM)均能提升識別結果的準確率,從而驗證了注意力機制的有效性。四通道RGBD輸入是由Depth圖像與RGB圖像拼接組成,RGB圖像與Depth圖像是由兩個攝像頭獨立采集得到,成像原理、幀率以及保存格式據(jù)不相同,即便是在融合時進行歸一化處理,仍不能保證兩種圖像準確對齊,導致拼接融合后的識別結果低于三通道數(shù)據(jù)。同時也說明了RGB圖像與Depth圖像的雙流特征融合方式的可靠性。

        表3 注意力機制的消融實驗

        3.5 RGB-D雙流網(wǎng)絡融合方式實驗及分析

        多模態(tài)的融合方式有特征層融合和決策層融合兩種。為了對比決策層融合與特征層融合方式的優(yōu)劣,使用NPUAction數(shù)據(jù)集進行兩種融合方式對比實驗,同時輸入RGB圖像與Depth圖像,首先分別對兩類數(shù)據(jù)預處理,獲取所有視頻幀文件的索引,并以4:1的比例劃分為訓練集和測試集,索引中每行文件的類別要保持一致,才能保證每次輸入兩條流的數(shù)據(jù)是同一行為類別的數(shù)據(jù),對網(wǎng)絡進行有效訓練。clip length取16,即每次從文件中抽取16個視頻幀作為一個樣本輸入模型。

        由于雙流模型的數(shù)據(jù)量相對于單流模型大大增加了,限于計算機的硬件條件,本實驗將batch_size設置為2,即每次為訓練和測試從硬盤上讀取2個視頻文件,每個視頻取16幀圖像,組成2個clips作為每條流網(wǎng)絡的輸入。NPUAction數(shù)據(jù)集共有7類行為,將num_class設置為7,每幀統(tǒng)一裁剪為112×112的大小。RGB數(shù)據(jù)的通道數(shù)設置為3,Depth數(shù)據(jù)的通道數(shù)設置為1,對應的網(wǎng)絡通道數(shù)也作出相應改變。初始學習率設置為0.000 01,設置自適應的學習率衰減系數(shù)為0.5,即隨著訓練次數(shù)增加學習率逐漸衰減。網(wǎng)絡整體損失是兩條流的損失之和,采用Adagrad優(yōu)化器進行網(wǎng)絡優(yōu)化,尋找損失之和的全局最優(yōu)點。將訓練過程保存在指定文件中,并實現(xiàn)訓練過程可視化,兩種融合方式的訓練過程如圖8所示。

        圖8 特征層融合與決策層融合訓練過程

        本實驗的max_to_keep為5,即每次訓練保存最近的5個模型,輸入測試集依次對每個模型進行測試。每個模型測試10次并記錄每次的正確率和損失,取10次的平均值作為最終的結果,NPUAction數(shù)據(jù)集在兩種融合方式的網(wǎng)絡中平均測試準確率如表4所示。然后對每一類行為分別進行測試,得出NPUAction數(shù)據(jù)集在兩種融合方式下按行為類別的識別準確率比較圖,如圖6所示。

        表4 兩種融合方式在NPUAction數(shù)據(jù)集上的結果

        由實驗結果可以得到,雙流融合中準確率較低的決策加權融合網(wǎng)絡比單流網(wǎng)絡中表現(xiàn)最好的三通道數(shù)據(jù)88.75%的準確率高出0.54%,說明了雙流網(wǎng)絡能有效融合RGBD數(shù)據(jù)中兩種模態(tài)數(shù)據(jù)的優(yōu)勢,提高了行為識別的性能。特征拼接融合方式的準確率比決策加權融合方式高出4.76個百分點,取得了94.05%的準確率,達到了目前主流行為識別算法的水平。

        4 結束語

        本文首先在原始3D卷積網(wǎng)絡中結合注意力機制得到AM3D網(wǎng)絡,注意力機制對不同區(qū)域賦予不同的權重,有利于提高行為識別網(wǎng)絡的性能。提出了TAM3D網(wǎng)絡,將RGB和Depth兩種模態(tài)數(shù)據(jù)分別作為雙流網(wǎng)絡兩個分支的輸入,主干網(wǎng)絡使用結合注意力機制的AM3D,再將融合后的特征輸入網(wǎng)絡分類層,最終得到行為識別結果。實驗結果表明,本文提出的TAM3D算法在公開的RGB-D日常行為數(shù)據(jù)集上與傳統(tǒng)算法iDT相比識別準確率提高6.25%,與深度學習算法TSN相比提高3.13%,在自建智慧客廳場景RGB-D數(shù)據(jù)集上達到了94.05%的準確率,取得了較好的識別效果。

        猜你喜歡
        雙流注意力卷積
        方一帆
        四川省成都市雙流區(qū)東升迎春小學
        中小學校長(2022年7期)2022-08-19 01:36:36
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        雙流板坯側面鼓肚與邊角掛鋼原因與對策
        冶金設備(2020年2期)2020-12-28 00:15:22
        四川省成都雙流中學實驗學校
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        成年女人色毛片| 91国产精品自拍视频| 中文字幕一区在线直播| 夜夜躁狠狠躁日日躁2022| 国产精品人妻一区夜夜爱| 久久久亚洲精品蜜桃臀| 一区二区精品天堂亚洲av| 欧美老肥妇做爰bbww| 欧美日本国产va高清cabal| 日日噜噜夜夜狠狠2021| 亚洲一区二区在线观看av| 精品国产第一国产综合精品| 亚洲狠狠婷婷综合久久| 无码中文字幕久久久久久| 亚洲一区二区三区视频免费看| 亚洲国产精品色一区二区| 国产剧情一区二区三区在线| 免费无遮挡禁18污污网站| 国产色噜噜| 人妖与人妖免费黄色片| 日韩精品一二三区乱码| 亚洲av日韩aⅴ无码色老头| 久久久窝窝午夜精品| 午夜精品一区二区久久做老熟女 | 国产精品一区二区日本| 久热这里只有精品视频6| 一区二区韩国福利网站 | 日本高清乱码中文字幕| 国产成人精品999视频| 四虎影视一区二区精品| 国产福利一区二区三区视频在线看| 亚洲国产成人久久精品不卡| 国产裸体xxxx视频在线播放| 久久精品亚洲中文无东京热| 少妇太爽高潮在线播放| 日韩精品成人区中文字幕| а√天堂资源官网在线资源| 在线观看欧美精品| 国产精品成人久久a级片| 欧美奶涨边摸边做爰视频| 色妞色综合久久夜夜|