亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于異步多時域特征的動態(tài)手勢識別方法

2022-11-16 02:25:24黃仁婧陳青梅黃初華

計算機工程與應用 2022年21期

崔虎，黃仁婧，陳青梅，黃初華

貴州大學計算機科學與技術學院，貴陽 550025

手勢是人類的一種重要交互手段，隨著虛擬現(xiàn)實、增強現(xiàn)實、人機交互和手語翻譯等領域的發(fā)展，手勢識別已經(jīng)成為了計算機視覺領域的熱門課題之一[1]，與該領域的其他任務如圖像分類、語義分割、目標檢測、場景識別等類似，目前動作與手勢識別的研究主要是基于卷積神經(jīng)網(wǎng)絡。

動態(tài)手勢識別不僅需要關注手部的形狀特點，同時也需要關注手形變化以及運動過程，因此不僅需要解決與靜態(tài)手勢相同的環(huán)境干擾，如光線、紋理、攝像分辨率等外部問題，還需要解決手部運動與手形變化等問題，除此之外，動態(tài)手勢識別還存在以下技術難點[2]：（1）手勢速度差異性，即同一個含義的手勢動作可以以不同速度來完成。（2）手勢運行時間長度異同性，即不同的手勢完成時間往往是不同的。（3）手勢形狀的多樣性。靜態(tài)手勢不同形狀表示不同語義，而動態(tài)手勢中不同形狀的手形的相近運動卻往往可以表達相同的語義。動態(tài)手勢的時序復雜性和空間多樣性等特點為動態(tài)手勢識別帶來了諸多挑戰(zhàn)。

目前主流手勢與動作識別的工作都是基于RGB圖像、Depth圖像、光流圖以及骨骼關鍵點信息[3]。Simonyan等[4]提出了一種雙流網(wǎng)絡模型來對動態(tài)手勢和行為進行識別，核心思想是用RGB 信息流來表達動態(tài)手勢的空間特征，用光流信息流來表示手勢動作的運動特征，然而該方法并未考慮空間信息流和運動信息流間的內(nèi)在關系。Tran 等[5]對雙流網(wǎng)絡模型進行了改進，應用光流來指引RGB 信息流網(wǎng)絡分支的特征提取，使RGB 流特征擁有部分運動信息，但是該方法本質上還是雙流模型，而光流本身無法表達完整的運動信息。Liu等[6]提出了一種分段手勢識別方法，首先通過子神經(jīng)網(wǎng)絡估計手勢圖像深度，然后將深度信息與RGB信息結合，用來識別手勢，該方法同樣存在運動信息不完整的缺點。K?püklü等[7]提出了一種將檢測與分類相結合的方法來降低系統(tǒng)負載和提升手勢識別實時性，使得手勢識別更加容易部署于移動設備，但在識別算法方面改進有限。Hara 等[8]提出對二維卷積網(wǎng)絡（two-dimensional convolutional network，2DCNN）進行時間維度擴展得到三維卷積網(wǎng)絡（three-dimensional convolutional network，3DCNN）的方法，并將其應用于動作識別。而3DCNN因為參數(shù)量過大，如果沒有足夠多的訓練數(shù)據(jù)支持，其模型很容易過擬合。Min等[9]提出了一種基于點云和骨骼關鍵點的手勢識別方法，該方法將動態(tài)手勢的關鍵點云作為序列，應用長短期記憶網(wǎng)絡（long short-term memory，LSTM）對其進行建模，捕捉手勢的長期空間相關性，該方法不足之處在于需要預先提取手部關鍵點數(shù)據(jù)。

本文從手勢的速度和長度兩方面性質出發(fā)，提出了一種異步多時域網(wǎng)絡模型，其網(wǎng)絡結構如圖1 所示，首先通過輕量級3DCNN[8]網(wǎng)絡提取出手勢的短期異步時空特征，然后通過改進的卷積長短期記憶網(wǎng)絡[10]（ConvLSTM）對短期異步時空特征進行長期關系建模，使模型可以捕捉到不同速率和不同長度手勢的時空特征，最終達到對復雜動態(tài)手勢的有效識別。

本文的創(chuàng)新在于：

（1）提出一種從視頻數(shù)據(jù)抽取異步特征的方法，所得的異步特征對不同速率，不同大小手勢均有較強的魯棒性，從而顯著提高模型的識別能力。

（2）分段抽取動作的短期與長期時空特征，并融合兩種時域的異步特征，提升對不同時間長度的手勢的識別效果。

1 相關工作

動態(tài)手勢識別的關鍵和難點在于對手勢動作的時空信息處理[11]，處理方法可以分為傳統(tǒng)手工特征提取方法和深度學習方法。

傳統(tǒng)手工特征提取方法大多采用動態(tài)時間規(guī)整算法[12]（dynamic time warping，DTW）、時間金字塔[13]、隱馬爾可夫模型[14]（hidden Markov models，HMM）等來對手勢時空信息進行建模。其中DTW 方法是對捕捉到手勢的關鍵點軌跡應用動態(tài)時間規(guī)整進行模板匹配，捕捉手勢關鍵點坐標軌跡和形狀數(shù)據(jù)則需要專門的傳感器，模板匹配也需要設置特定的匹配模板；時間金字塔方法對完整的手勢幀進行不同時間長度采樣來處理手勢的時空特征；HMM 則只能關注較短時間內(nèi)的手勢歷史信息，從而忽略了手勢的連續(xù)性和完整性等特點。

在深度學習方法中，為了使模型能夠捕獲更加完整的手勢動作信息，Varol 等[15]將2DCNN 網(wǎng)絡與LSTM 網(wǎng)絡[16]相結合，對模型輸入視頻幀數(shù)量進行提升，使得模型輸入視頻幀從16 幀增加到60 幀，并應用雙流網(wǎng)絡模型[4]的思想，用光流進行運動信息補充。然而，輸入數(shù)據(jù)的增加使得模型變得更加臃腫，難以應用于實時設備。Zhu 等[17]將3DCNN 與時間金字塔方法結合，使模型可以捕獲手勢的長時間的歷史特征信息，然而模型的3DCNN 結構依然面臨參數(shù)量過大以及數(shù)據(jù)量不足的問題。Liu 等[18]為解決多尺度目標的檢測與回歸問題，從網(wǎng)絡的不同深度提取不同尺度的特征圖來做預測與回歸；Feichtenhofer 等[19]從時間尺度將雙流模型思想進行了擴展，引入快速流和慢速流的概念來進行人體行為識別；Chen 等[20]對大型卷積網(wǎng)絡進行纖維化改進，使得3DCNN 更加輕量化。受以上工作的啟發(fā)，本文對3DRestNet[8]進行結構調(diào)整，用來提取手勢的短期時空特征，然后應用改進的ConvLSTM對短期時空特征進行長期關系建模，從而得到多時域的時空特征。為了提高模型對不同運行狀態(tài)手勢的魯棒性，網(wǎng)絡采用了異步結構，最終模型對不同速率和不同時間長度的手勢均能準確的檢測與識別。

2 本文提出的異步多時域網(wǎng)絡模型

異步多時域網(wǎng)絡總體架構如圖1 所示，網(wǎng)絡特征提取部分由短期時空特征抽取模塊和長期時空關系構建模塊組成，預測解碼部分則由主要由微調(diào)后的MobileNetV2 網(wǎng)絡構成。其中短期時空特征抽取模塊由輕量級三維卷積網(wǎng)絡構成，負責進行短期異步時空特征的提取，長期時空關系構建模塊由改進的ConvLSTM網(wǎng)絡構成，負責對短期特征進行長期關系建模，使模型提取的手勢動作特征包含豐富的運動信息，如：手勢快慢、動作長度等信息。

2.1 短期異步時空特征抽取

2.1.1 三維卷積視頻序列特征

二維卷積用來對單幅圖像的空間特征的提取，在對視頻圖像序列處理的過程中，處理對象也是單個獨立的幀，并未考慮幀與幀之間的相關性，如圖2所示。

當時間維度卷積次數(shù)越多，所得到的特征圖中的歷史信息則越多，其數(shù)學表達如公式（1）所示：

其中，x,y為圖像坐標，*表示卷積運算，F(xiàn)t(x,y)為單通道輸入圖像，ω為二維卷積核，G(x,y)為運算后的特征圖，V2d(x,y,t)為整體的時空序列圖，從V2d(x,y,t)的結果可以看出整個視頻序列的各幀圖像的特征是時間無關的，而事實上視頻中的動作序列是緊密相關的，正因為這種相關性才構成了人眼所見的不同的動態(tài)行為。三維卷積是將二維卷積從空間尺度擴展到時間尺度的卷積，如圖3所示。

三維卷積是將視頻序列整體當做運算對象，其數(shù)學表達如公式（2）所示：

其中，ω此時為三維卷積核，F(xiàn)為整個視頻序列輸入，V3d(x,y,t)為F的時空特征，G3d(x,y,t)為t時刻的局部時空特征，kt為卷積核時間維度大小，可以看出，當kt=3 時，G3d是與前后相鄰幀有關的局部時空特征，這種具有時間維度相關性的視頻序列特征與一個動作的前后連續(xù)表達的性質是相符合的。

2.1.2 短期時空特征提取

3DCNN依據(jù)不同的架構策略形成了如C3D[21]、I3D[22]、R3D[8]等大型3D-CNN 模型，網(wǎng)絡深度的增加意味著網(wǎng)絡參數(shù)量增大和冗余噪聲信息的增多，消除負面影響的一種有效方法就是為模型提供足夠多的訓練數(shù)據(jù)，然而視頻是圖像三維擴展，構建一個類似于Imagenet[23]的通用大型視頻數(shù)據(jù)集無論在質量和數(shù)量上都面臨巨大的困難。

本文的短期時空特征提取模塊只負責提取視頻序列的短期時空特征，因此該部分3D 卷積網(wǎng)絡的深度并不要求足夠的深，只需要將現(xiàn)有的2D 卷積主流網(wǎng)絡（ResNet、DensNet、Efficient）中的卷積和池化層進行時間維度擴展即可，本文中短期時空特征提取網(wǎng)絡是將ResNet 進行時間維度擴展，并進行適當?shù)奈⒄{(diào)，最終的網(wǎng)絡結構如圖4所示，網(wǎng)絡由四個3D卷積塊組成，其中第一個卷積塊只包含一個3D 卷積，后三個卷積塊的結構相同，都是對前一個卷積塊的輸出進行多次3D 卷積殘差，不同的只是內(nèi)部各個卷積的具體參數(shù)設置，圖4中的各個卷積的具體參數(shù)如表1所示，網(wǎng)絡中所有卷積運算后都包含了批標準化和激活函數(shù)，其中激活函數(shù)為ReLU6。

表1 短期時空特征提取模塊網(wǎng)絡參數(shù)Table 1 Parameters of short-term spatiotemporal feature extraction network

2.1.3 短期異步時空特征

在對靈長類視網(wǎng)膜神經(jīng)節(jié)細胞的研究中[24]，研究者發(fā)現(xiàn)這些細胞中約80%為小細胞，15%～20%為大細胞，大細胞對高頻運動信號十分敏感，但對物體細節(jié)、顏色紋理以及低速運動信號無法作出準確的反饋，而小細胞相反，對物體的空間細節(jié)、顏色紋理和低頻運動敏感度較高，而對高頻運動信號的刺激反饋遲鈍。

基于以上生物學研究的啟發(fā)，將短期特征提取模塊得到四種不同時間跨度與不同分辨率的輸出特征序列進行調(diào)整與融合，組合成異步特征。從圖4 與表1 中可以看到短期時空特征提取模塊的四個輸出分別是64@32×56×56、64@32×56×56、128@16×28×28、256@16×28×28，第一個卷積塊和第二卷積塊輸出的特征圖是相同的，它們在時間維度的采樣頻率也是相同的，但是在時間維度的感受野卻不同，四個輸出的感受野分別是31、35、39、313，還可以看出第一、第二、第三和第四個卷積塊的時間步態(tài)是不同的，后兩個的時空特征感受野更大，但更偏于低頻，而前二的時空特征感受野偏小，但對高頻運動更加敏感。將不同步態(tài)和感受野的時空特征進行融合，得到異步時空特征，對變化快慢不同的手勢都可以進行全面特征描述，同時這種策略也符合生物的視覺感官直覺。

2.2 長期時空關系構建

對于一般用途的序列建模，LSTM作為一種特殊的RNN 結構，在以往的研究中已經(jīng)被證明是穩(wěn)定且有效的，它用來對序列進行長期依賴關系建模，在其基礎上的FC-LSTM[25]、ConvLSTM[10]等模型則專門用來對視頻序列的長期依賴關系進行建模。FC-LSTM、ConvLSTM等模型是直接應用于原始視頻序列數(shù)據(jù)，而本文的時間序列網(wǎng)絡的對象則是短期異步時空特征網(wǎng)絡的輸出，因此對ConvLSTM的內(nèi)部結構進行了調(diào)整和改進，以使序列預測模型部分更加高效和便捷。

2.2.1 ConvLSTM

FC-LSTM 和ConvLSTM 模型均是LSTM 與CNN的結合，所不同的是前者為串聯(lián)結合，后者則為內(nèi)部結構融合，圖5為LSTM內(nèi)部結構。

ConvLSTM中的各個門控運算均為卷積運算，其內(nèi)部結構如公式（3）所示：

其中，°表示哈達瑪乘積，* 表示卷積運算，σ表示sigmoid激活函數(shù)，tanh 表示tanh 激活函數(shù)，it表示輸入門，ft表示過濾門，ot為輸出門，Wx～和Wc～表示各個門與輸入向量權重，ht-1和ht表示歷史隱藏狀態(tài)和當前隱藏狀態(tài)，xt表示輸入序列，ConvLSTM結構中xt與Xt相同，表示視頻序列或者特征圖序列的第t個幀，因為ConvLSTM內(nèi)部的運算均為卷積運算，所以可以自動對圖像進行特征提取。而FC-LSTM 的結構則如公式（4）所示：

其中，⊙表示全連接運算，并且xt與Xt不同，Xt為視頻序列或者特征圖序列的第t幀，xt為Xt卷積后的一維向量，如公式（5）所示：

2.2.2 局部卷積的FC-ConvLSTM

考慮到從輕量級3D-CNN 網(wǎng)絡提取的是具有短期異步信息的時空特征序列，這種特征與2D-CNN所提取的序列特征具有極大的不同，這些特征序列是具有時空相關性的特征序列，其擁有寶貴的時間信息，這與ConvLSTM中的卷積的作用在某種程度是重復的，在這種情況下，只要專注于長序列關系建模即可，因此將FC-LSTM 和ConvLSTM 特點相結合，構建適合短期異步時空特征的序列模型FC-ConvLSTM，其內(nèi)部運算如公式（6）所示：

其中的Xt短期異步時空特征序列的當前特征幀，xˉt為對其進行通道全局平均得到的特征圖，hˉt為隱藏狀態(tài)通道全局平均值，輸入門it、過濾門ft，以及ot輸出門的運算因此都變成了單通道卷積或者全連接運算，但是候選記憶門gt的運算因為需要將原始序列特征的信息保存的歷史狀態(tài)信息ct中，所以依然保留對Xt進行卷積運算。

相比于Conv-LSTM，F(xiàn)C-ConvLST中的各個門控節(jié)點的計算量大大的減少，除此之外，本文以深度可分離卷積來代替FC-ConvLSTM 中的卷積操作，從而使模型的參數(shù)進一步降低。

2.3 異步特征融合與預測

在從FC-ConvLSTM 得到異步時空特征因為進行過空間尺度調(diào)整所以除了時間步不同，尺度統(tǒng)一為28×28×512，而本文所采用的融合策略則是將不同時間步的特征在各個通道進行concate，最終得到1/2×temstep×28×28×512×4大小的異步融合時空特征，將該特征送入MobileNetv2 預訓練網(wǎng)絡當中，得到時空特征序列尺度為1/2×temstep×4×4×1 024，之后經(jīng)過3Dpool、FC、softmax分別進行下采樣，全連接以及最終的概率估計得到預測結果。

3 實驗結果與分析

硬件環(huán)境：NVidia Tesla P40 24 GB顯卡Intel Xeon E5-2650v4-2.20 GHz 12核64 GB CPU。

軟件環(huán)境：Ubuntu18.04 操作系統(tǒng)Python2.7.1 版Tensorflow1.2.1版CUDA8.0 cuDNN5.0。

3.1 數(shù)據(jù)集及參數(shù)設置

為測試本文所提出算法的有效性，在兩個典型公開數(shù)據(jù)集The 20BN-jester Dataset V1（Jester）和Sheffield Kinect Gesture（SKIG）上進行了實驗。

Jester數(shù)據(jù)集[26]是一個最新的用于手勢識別的大型視頻數(shù)據(jù)集，它包含了27 種在攝像機前執(zhí)行的預定義手勢。它從原始視頻中以每秒12 幀的速度提取了148 092個手勢樣本。樣本分為三組，118 562個樣本用于訓練、14 787 個樣本用于驗證、14 743 個樣本用于測試，視頻的平均長度是35幀。

SKIG 數(shù)據(jù)集[27]是利用微軟Kinect 設備的RGB 攝像頭和深度攝像頭同步采集人體手勢而得到，分別采集了6人的手勢，每個手勢都擁有RGB和Depth兩種形式，共包含10 種手勢，總視頻數(shù)2 160，RGB 視頻和Depth視頻各占一半（6×10×3×3×2=1 080個），視頻的長度從80 幀到320 幀不等。本文將該數(shù)據(jù)集隨機分為三組，70%作為訓練集，20%作為驗證集，剩下的數(shù)據(jù)作為最終的測試集。

網(wǎng)絡總體架構如圖1所示，短期時空特征提取模塊是將ResNet 內(nèi)部卷積擴展為3D 卷積，具體參數(shù)如圖4和表1所示，該部分理論上可以用其他輕量級網(wǎng)絡來進行代替，在將短期異步特征序列送入FC-ConvLSTM 之前，需要對異步特征進行尺度調(diào)整，對1和2卷積塊的輸出進行平均池化操作，池化大小為（1，3，3），池化步為（1，2，2），邊緣擴展模式為“same”，而對3 和4 卷積塊的輸出則不需要進行調(diào)整，最終所有異步特征的空間尺度均為28×28；FC-ConvLSTM 部分結構如圖5 與公式（6）所示，內(nèi)部卷積采用可分離卷積結構，需要注意的是FC-ConvLSTM只適合于短期時空特征提取模塊的輸出特征，應用于其他2DCNN 處理的視頻序列的效果并不出色，該部分由兩層結構相同的FC-ConvLSTM組成，輸出通道為256，卷積核為3×3，stride=（1，1），參數(shù)初始化采用he_normal 方法，正則項均采用L2 正則化；最后將融合了短期和長期的異步時空特征進行concat 操作后再進行預測。

3.2 結果與分析

3.2.1 對比實驗

模型總共在Jester數(shù)據(jù)上訓練40個周期，學習率從0.001 到0.000 001 呈多項式衰減，輸入為16 個視頻段，每個視頻段均是通過隨機策略從原始視頻段中抽取的連續(xù)16個視頻幀，并進行統(tǒng)一的隨機圖像增強，視頻幀大小為112×112，訓練后對模型在測試集上進行測試，得到其混淆矩陣如圖6所示。

將結果與傳統(tǒng)的C3D[21]、3DrestNet101[8]及最新模型RT-C3D[28]、3D-GestNet[29]進行了對比，結果如表2所示。

表2 Jester數(shù)據(jù)集上手勢識別實驗結果Table 2 Gesture recognition results on Jester dataset

從表2中可以看出：（1）在Jester這種大型的動態(tài)手勢數(shù)據(jù)集中，3DCNN 網(wǎng)絡的參數(shù)可以充分地被訓練，相比2DCNN+LSTM 網(wǎng)絡，各種3DCNN 網(wǎng)絡的結果表現(xiàn)的更好。（2）與3D 系列網(wǎng)絡相比較，本文將3D 與FCConvLSTM 相結合后效果提升1.7%，一部分原因在于本文3DCNN 網(wǎng)絡部分提取的特征是異步時空特征，另一方面則在于使用FC-ConvLSTM對時空特征進行更廣泛時間域建模。

在SKIG數(shù)據(jù)集上，輸入為4個視頻段，每個視頻段為32 或16 個視頻幀，訓練過程中對視頻進行亮度色度等圖像增強預處理，視頻幀大小為112×112，實驗結果如表3所示。

表3 SKIG數(shù)據(jù)集上實驗結果Table 3 Gesture recognition results on SKIG dataset

從表3中可以看出：（1）2DCNN+LSTM網(wǎng)絡在較小的數(shù)據(jù)集上相比于3DResNet101 網(wǎng)絡的效果要好12 個百分點左右，值得說明的是其中的3DResNet101 是在Jester 數(shù)據(jù)集上預訓練集后經(jīng)過微調(diào)再訓練的結果，這表明在較小的數(shù)據(jù)集上，即便是使用了遷移學習的預訓練3DCNN網(wǎng)絡也依然存在過擬合問題。（2）相比于同樣經(jīng)過輕量化處理Dens3D+金字塔模型[31]，本文的算法也顯示出一定優(yōu)勢，當輸入幀數(shù)為16幀時，本文的結果可以達到Dens3D輸入為32幀的結果，從而驗證了異步結構的有效性。而當輸入同為32 幀時，本文的結果優(yōu)于Dens3D雙模態(tài)融合的結果，而本文所用的僅僅只有RGB模態(tài)，這從某種角度說明異步時空特征中不僅融合了異步時間尺度信息，同時融合類似深度信息的異步的空間尺度信息。

3.2.2 消融實驗

本文算法的核心在于通過短期時空特征提取模塊提取異步特征，之后通過微調(diào)FC-ConvLSTM 來使短期異步特征具有關注長期歷史信息的能力。為了更深入地對模型各個部分的貢獻進行研究，在SKIG 數(shù)據(jù)集上進行消融實驗，其結果如表4所示。

表4 不同網(wǎng)絡結構消融實驗結果Table 4 Ablation results on different structions of network

從表4 中可以看出：（1）當只使用短期異步時空特征進行手勢預測的結果達到了98.61%，在其基礎上應用ConvLSTM 進行長期時序建模后的預測結果反而下降到了98.33%，這表明對于3DCNN提取的異步時空特征，ConvLSTM內(nèi)部的卷積運算是冗余的，這從3DCNN+FC-LSTM的結果也可以看出。（2）在將ConvLSTM的各個門控卷積替換成為3Dpool 和全連接的結構后，模型的整體運算相比ConvLSTM的運算降低了接近一倍，同時準確率得到了提升。

將網(wǎng)絡每個階段的中間輸出前八幀的第一個通道特征進行可視化，效果如圖7所示。

從圖7中可以看出：短期時空特征抽取模塊中的四個卷積塊的時空特征表現(xiàn)有很大的不同，分別關注背景變化特征、前景紋理變化特征、手部位置變化信息、關鍵點移動信息，那么如果對該部分卷積塊數(shù)量進行擴充，能否得到更多有用的時空特征，為此本文對不同深度3DCNN 構成的短期時空特征抽取模塊進行了測試，結果如表5所示。

表5 不同深度的異步結構的效果Table 5 Effects of asynchronous structures of different

從表5中可以看出，當短期時空特征抽取模塊的卷積塊數(shù)量從1 增加到2 時，手勢識別結果的準確度提高了近6個百分點，而當增加至4個的時候，識別準確度達到最大，之后繼續(xù)增加block 數(shù)量結果并未再提高。這表明：（1）本算法的異步多尺度時空特征相比于單獨3DCNN提取非異步特征對原始視頻時空語義的表達更加充分。（2）本算法的短期異步時空特征提取模塊確實只需要根據(jù)應用場景構建合適的輕量級3DCNN網(wǎng)絡即可，這與“奧卡姆剃刀定律”不謀而合。

六種block組成的模型訓練曲線畫如圖8所示。

從圖8中可以看出，在訓練SKIG數(shù)據(jù)的過程中，短期異步時空網(wǎng)絡的卷積塊達到4個的時候，在保證測試準確率達到最高的前提下，其訓練效率是最好的，減少卷積塊數(shù)目會使驗證準確率降低，提高卷積塊數(shù)目則會使模型變大，訓練變慢，而準確率無明顯提升。

4 結束語

本文提出了異步多時域手勢識別方法，應用輕量級3DCNN 網(wǎng)絡提取動態(tài)手勢的短期異步時空特征，F(xiàn)C-ConvLSTM建立長短期異步時空特征。實驗結果表明，本文所提網(wǎng)絡在不同規(guī)模與平均長度的數(shù)據(jù)集上均取得了更好的結果，證明了模型的有效性和合理性。同時也發(fā)現(xiàn)對于訓練數(shù)據(jù)不均衡的相似動作未能得到較好的識別率。在未來工作中，將計劃在更多的模態(tài)上進行類似實驗，并嘗試結合提升方法來處理樣本不均衡問題。