亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多模態(tài)數(shù)據(jù)的人體動(dòng)作識(shí)別方法研究

        2022-09-15 06:59:20馬亞彤劉英芳
        計(jì)算機(jī)工程 2022年9期
        關(guān)鍵詞:模態(tài)深度動(dòng)作

        馬亞彤,王 松,2,劉英芳

        (1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.甘肅省人工智能與圖形圖像處理工程研究中心,蘭州 730070)

        0 概述

        人體動(dòng)作識(shí)別是指根據(jù)傳感器捕獲的行為數(shù)據(jù)識(shí)別人類(lèi)執(zhí)行的動(dòng)作[1]。人體動(dòng)作識(shí)別技術(shù)被廣泛應(yīng)用于各個(gè)領(lǐng)域,主要包括監(jiān)控、視頻分析、輔助生活、機(jī)器人技術(shù)、遠(yuǎn)程醫(yī)療和人機(jī)交互,同時(shí)它也是健身訓(xùn)練和康復(fù)醫(yī)療的一部分[2]。

        早期的人體動(dòng)作識(shí)別研究的數(shù)據(jù)主要采用RGB攝像機(jī)、Kinect 傳感器和可穿戴慣性傳感器等單模態(tài)傳感器收集。其中,利用傳統(tǒng)的RGB 攝像機(jī)獲取2D 圖像,對(duì)光照條件、復(fù)雜的背景和部分遮擋等影響因素非常敏感,并且RGB 攝像機(jī)獲取的2D 圖像包含被拍攝者大量的隱私信息。與RGB 相機(jī)相比,深度傳感器提供了3D 動(dòng)作數(shù)據(jù),在采集時(shí)對(duì)光線變化和照明程度不太敏感,所需的資源較少,并且可以很好地保護(hù)被監(jiān)視人員的隱私信息,如室內(nèi)監(jiān)控系統(tǒng),保護(hù)隱私信息是一個(gè)需要考慮的問(wèn)題。但是,在深度圖像的采集過(guò)程中,如視點(diǎn)變化、噪聲等都對(duì)采集結(jié)果存在一定影響[3],而這些缺點(diǎn)可以在多模態(tài)人體動(dòng)作識(shí)別中通過(guò)使用可穿戴慣性傳感器采集的數(shù)據(jù)來(lái)解決??纱┐鲬T性傳感器的主要部件包括加速度計(jì)和陀螺儀,主要用于提供加速度信號(hào)數(shù)據(jù)和角速度信號(hào)數(shù)據(jù)。與深度傳感器類(lèi)似,可穿戴慣性傳感器以高采樣率的形式提供3D 動(dòng)作數(shù)據(jù),可以在環(huán)境復(fù)雜的條件下工作,其局限性主要是傳感器采集數(shù)據(jù)的漂移[4]。因此,單一傳感器模式很難滿足實(shí)際應(yīng)用需求。

        針對(duì)單模態(tài)存在RGB 圖像遮擋、深度傳感器環(huán)境噪聲、可穿戴傳感器數(shù)據(jù)漂移等問(wèn)題,本文提出一種基于深度和慣性傳感器的多級(jí)多模態(tài)融合的人體動(dòng)作識(shí)別框架,從不同模態(tài)中獲取互補(bǔ)信息,找到不同模態(tài)的最佳融合階段。在此基礎(chǔ)上,采用特征級(jí)融合,在每個(gè)模態(tài)中分別增加一個(gè)附加模態(tài)提取互補(bǔ)特征,來(lái)彌補(bǔ)兩種類(lèi)型傳感器的不足,以準(zhǔn)確地執(zhí)行分類(lèi)任務(wù),從而提高人體動(dòng)作識(shí)別的性能。

        1 相關(guān)工作

        為滿足人體動(dòng)作識(shí)別在實(shí)際應(yīng)用場(chǎng)景中的要求,提高人體動(dòng)作識(shí)別效率,國(guó)內(nèi)外學(xué)者聚焦于多模態(tài)感知融合,通過(guò)對(duì)兩種或兩種以上的不同傳感器模式進(jìn)行融合,以達(dá)到提高識(shí)別率的目的。

        CHEN 等[2,5-6]提出基于深度相機(jī)和慣性傳感器兩種不同模態(tài)傳感器的融合方法,并采用協(xié)同表示分類(lèi)器對(duì)特征級(jí)融合和決策級(jí)融合進(jìn)行了研究。DAWAR 等[7-9]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的傳感器融合系統(tǒng),從連續(xù)動(dòng)作流中檢測(cè)和識(shí)別感興趣的動(dòng)作,最后使用決策級(jí)融合實(shí)現(xiàn)動(dòng)作識(shí)別。LIU 等[10]在隱馬爾科夫模型框架內(nèi)融合慣性傳感器和視覺(jué)傳感器的數(shù)據(jù),提高手勢(shì)識(shí)別的準(zhǔn)確性。TU 等[11]提出一種新穎的基于人類(lèi)相關(guān)區(qū)域的多流卷積神經(jīng)網(wǎng)絡(luò),其中通過(guò)改進(jìn)前景檢測(cè),可以在現(xiàn)實(shí)情況下穩(wěn)健地檢測(cè)與演員的外觀和運(yùn)動(dòng)相對(duì)應(yīng)的感興趣區(qū)域。HWANG 等[12]利用單個(gè)固定攝像機(jī)的RGB 圖像和單個(gè)手腕慣性傳感器獲取的數(shù)據(jù)進(jìn)行傳感器與人體動(dòng)作識(shí)別的融合,通過(guò)這兩種不同信息的互補(bǔ),彌補(bǔ)基于RGB 和基于慣性傳感器的人體動(dòng)作識(shí)別方法的不足。KAMEL 等[13]在3 個(gè)卷積神經(jīng)網(wǎng)絡(luò)通 道分別使用深度運(yùn)動(dòng)圖像、深度運(yùn)動(dòng)圖像和關(guān)節(jié)點(diǎn)、僅使用關(guān)節(jié)點(diǎn)進(jìn)行訓(xùn)練,并將3 個(gè)通道生成的動(dòng)作預(yù)測(cè)相融合用于最終的動(dòng)作分類(lèi)。LI 等[14]實(shí)現(xiàn)了在不同傳感器采集的實(shí)驗(yàn)數(shù)據(jù)中提取特征信息融合,指出使用單個(gè)傳感器的性能限制,并且通過(guò)組合異構(gòu)傳感器的信息提高系統(tǒng)的整體性能。

        多模態(tài)融合的方法主要是對(duì)模型的數(shù)據(jù)級(jí)(原始級(jí))、特征級(jí)和決策級(jí)(評(píng)分級(jí))之間進(jìn)行模態(tài)的融合[15]。數(shù)據(jù)級(jí)的缺點(diǎn)是對(duì)傳感器提供的數(shù)據(jù)未進(jìn)行任何處理即組合到一起;決策級(jí)的缺點(diǎn)是需要多個(gè)分類(lèi)器來(lái)訓(xùn)練和測(cè)試多個(gè)模態(tài),且決策級(jí)所需的相關(guān)數(shù)據(jù)不能在早期階段進(jìn)行組合。由于特征級(jí)包含了比數(shù)據(jù)級(jí)或分類(lèi)器輸出的決策級(jí)更豐富的輸入特征信息,因此特征級(jí)的模型融合效果更好。同時(shí),特征級(jí)融合了從模式中收集和集成相關(guān)的并發(fā)信息,而這些信息是分類(lèi)器做出正確決策所必須的。AHMAD 等[16-17]在提出的深度多模態(tài)融合框架上通過(guò)訓(xùn)練深度和信號(hào)圖像,將提取的特征相融合形成共享的特征層,將這些特征反饋給分類(lèi)器,并利用多級(jí)融合的優(yōu)勢(shì)提高人體動(dòng)作識(shí)別的精度。EHATISHAM 等[18]提出一種基于特征級(jí)融合的人體動(dòng)作識(shí)別方法,該方法利用視覺(jué)和慣性兩種不同感知方式的數(shù)據(jù),采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,融合從單個(gè)感知模式中提取的特征來(lái)識(shí)別動(dòng)作。RADU等[19]采用深度學(xué)習(xí)算法來(lái)解釋多傳感器系統(tǒng)捕獲用戶活動(dòng)的上下文的優(yōu)點(diǎn)。

        2 多模態(tài)融合框架

        本文提出的多模態(tài)網(wǎng)絡(luò)融合框架是建立在僅通過(guò)卷積神經(jīng)網(wǎng)絡(luò)處理的單模態(tài)模型上,利用殘差網(wǎng)絡(luò)充當(dāng)特征提取器,執(zhí)行兩階段的特征拼接,最后進(jìn)行基于判別相關(guān)分析[20](Discriminant Correlation Analysis,DCA)的多級(jí)特征融合。多模態(tài)融合框架如圖1 所示。ResNet101 從深度運(yùn)動(dòng)投影圖[21](Depth Motion Maps,DMM)和經(jīng)過(guò)局部三值模式[22](Local Ternary Patterns,LTP)處理過(guò)的深度運(yùn)動(dòng)投影圖中提取特征。同理,ResNet101 從信號(hào)圖像和經(jīng)過(guò)LTP 處理過(guò)的信號(hào)圖像中提取特征,分別對(duì)提取到的特征進(jìn)行特征級(jí)聯(lián)。然后將特征級(jí)聯(lián)得到的兩個(gè)特征進(jìn)行基于DCA 的融合,并與簡(jiǎn)單的特征向量拼接相比,DCA 將會(huì)產(chǎn)生高度區(qū)分的特征。最后將該特征向量作為支持向量機(jī)(Support Vector Machine,SVM)的輸入,以實(shí)現(xiàn)對(duì)人體動(dòng)作識(shí)別的研究。

        圖1 多級(jí)多模態(tài)融合框架Fig.1 Multi-level multimodal fusion framework

        2.1 信號(hào)圖像

        可穿戴慣性傳感器中的慣性測(cè)量單元為加速度計(jì)和陀螺儀,用來(lái)測(cè)量加速度信號(hào)和角速度信號(hào)。加速度計(jì)和陀螺儀的組合比單獨(dú)使用加速度計(jì)能獲得更好的結(jié)果[23]。慣性傳感器以多變量的時(shí)間序列生成數(shù)據(jù)。在UTD-MHAD 中有6 個(gè)信號(hào)序列,圖2所示為角速度信號(hào)和加速度信號(hào),其中,G-X、G-Y、G-Z 分別表示X、Y、Z 的角速度,A-X、A-Y、A-Z 分別表示X、Y、Z 的加速度。

        圖2 三軸加速度信號(hào)和三軸角速度信號(hào)Fig.2 Tri-axis acceleration and tri-axis angular velocity signals

        在文獻(xiàn)[23]算法的基礎(chǔ)上,本文將可穿戴慣性傳感器采集到的6 個(gè)信號(hào)序列逐行堆疊以形成信號(hào)圖像。在形成的信號(hào)圖像中,任何一個(gè)信號(hào)序列都與其他5 個(gè)信號(hào)序列相鄰,使殘差網(wǎng)絡(luò)可以提取各個(gè)相鄰信號(hào)序列之間的隱藏相關(guān)性,并且可以充分利用各個(gè)信號(hào)序列之間的時(shí)間相關(guān)性。其中,6個(gè)信號(hào)序列的行堆疊順序?yàn)椋?23456135246141525364326。

        在上述堆疊順序中,數(shù)字1~6 表示原始信號(hào)中對(duì)應(yīng)的6 個(gè)序列號(hào)。序列號(hào)的順序表明每個(gè)序列都和其他序列相鄰以形成信號(hào)圖像,每個(gè)信號(hào)在修改后的信號(hào)圖像中出現(xiàn)4 次,所以信號(hào)圖像的最終寬度是24。

        信號(hào)圖像的長(zhǎng)度通過(guò)數(shù)據(jù)集中信號(hào)數(shù)據(jù)的采樣率確定,而數(shù)據(jù)的采樣率為50 Hz。為保證能夠準(zhǔn)確捕捉信號(hào)圖像的運(yùn)動(dòng),本文將信號(hào)圖像的長(zhǎng)度確定為50,則最終確定的信號(hào)圖像的大小為24×50 像素。圖3 所示分別對(duì)應(yīng)不同動(dòng)作的信號(hào)圖像,每一個(gè)類(lèi)別的信號(hào)圖像都不同于其他類(lèi)別的信號(hào)圖像,這些圖像中的視覺(jué)差異表明卷積神經(jīng)網(wǎng)絡(luò)可能提取有區(qū)別的圖像特征進(jìn)行人體動(dòng)作識(shí)別。

        圖3 不同動(dòng)作的信號(hào)圖像Fig.3 Signal images of different actions

        2.2 深度運(yùn)動(dòng)投影圖

        人體動(dòng)作視圖中的深度視頻是一組深度圖像序列,包含了相當(dāng)豐富的時(shí)空信息。根據(jù)深度視頻序列對(duì)人體動(dòng)作進(jìn)行識(shí)別,不僅要考慮人體動(dòng)作在每一時(shí)刻的信息,還要考慮人體動(dòng)作的累加效果的影響。深度圖像用來(lái)捕捉人體的三維結(jié)構(gòu)信息,使用DMM 表達(dá)人體動(dòng)作的幾何形狀和特點(diǎn)。YANG等[24]提出的深度序列圖像投影到3 個(gè)正交笛卡爾平面上,用于表示人體動(dòng)作的運(yùn)動(dòng)過(guò)程。本文計(jì)算的DMM 為兩個(gè)連續(xù)幀之間的差值,對(duì)于具有N幀的深度視頻序列由式(1)計(jì)算獲得:

        其中:i表示每一幀圖像的索引;表示第i幀人體動(dòng)作圖像在平面v下的投影圖,v∈{f,s,t},f、s、t分別表示正面、側(cè)面和水平投影圖。

        本文實(shí)驗(yàn)中形成的DMM 并不是深度序列圖像中的所有幀。數(shù)據(jù)集中的不同人體動(dòng)作視頻序列形成的大小不相同,因此利用雙三次插值將人體動(dòng)作視頻序列形成的所有調(diào)整為大小相同,以減少每個(gè)組內(nèi)的變化。圖4 所示為一組“由坐到站”深度幀序列到合成DMM 的過(guò)程,其中左邊是深度序列圖像,右邊依次是DMM 的前視圖、側(cè)視圖和頂視圖。

        圖4 DMM 的形成過(guò)程Fig.4 The formation process of DMM

        2.3 局部三值模式

        TAN 等[22]提出一種新的紋理算子LTP 對(duì)噪聲更加魯棒。應(yīng)用LTP 為數(shù)據(jù)集創(chuàng)建了一個(gè)附加模態(tài),附加模態(tài)的目的是使ResNet101 網(wǎng)絡(luò)能夠進(jìn)一步提取不同模態(tài)的互補(bǔ)性和鑒別性的特征,豐富特征的可用性并且有助于分類(lèi)器準(zhǔn)確執(zhí)行人體動(dòng)作的分類(lèi)任務(wù)。其中,在寬度范圍內(nèi)的灰度量化為0,高于此范圍的灰度量化為+1,低于此范圍的灰度值量化為-1,LTP 的數(shù)學(xué)表達(dá)式如式(2)和式(3)所示:

        其中:gc表示圓的中心像素的灰度值;gb表示分布在半徑為R的圓的相鄰像素的灰度值;t為設(shè)定的閾值。

        2.4 判別相關(guān)分析

        典型相關(guān)分析[25](Canonical Correlation Analysis,CCA)是一種將兩個(gè)多維變量之間的線性關(guān)系進(jìn)行相關(guān)分析的方法。由于CCA 融合中忽略了樣本之間的類(lèi)結(jié)構(gòu),因此消除了特性之間的關(guān)系。為了解決基于CCA 的多模態(tài)融合中存在的問(wèn)題,本文提出了基于DCA 的多級(jí)多模態(tài)融合框架。DCA 是一種特征級(jí)融合技術(shù),在類(lèi)融合中考慮了類(lèi)結(jié)構(gòu),并且將類(lèi)中的關(guān)聯(lián)信息納入特征級(jí)相關(guān)分析中,同時(shí)消除了類(lèi)間相關(guān)性并將相關(guān)性限制在類(lèi)內(nèi),有助于在人體動(dòng)作識(shí)別中融合由不同傳感器捕獲的數(shù)據(jù)之間的相關(guān)性信息,并且最大化兩個(gè)特征級(jí)之間的成對(duì)相關(guān)性。

        通過(guò)映射Q→ΦbxQ獲得Sbx的r個(gè)特征向量,如式(7)所示:

        設(shè)Wbx=ΦbxQΛ-1 2是將Sbx白化并將數(shù)據(jù)矩陣X的維數(shù)由p降為r的變化,如式(8)和式(9)所示:

        其中,X′是X的空間投影;I為類(lèi)分散矩陣。

        與上述方法類(lèi)似,計(jì)算第2 個(gè)特征集Y和變換矩陣Wby,Wby使第2 個(gè)模態(tài)Sby的類(lèi)間散度矩陣單位化,并將Y的維數(shù)由q降為r,且矩陣是嚴(yán)格對(duì)角占優(yōu)矩陣。將變換后的特征集的集合間相關(guān)矩陣使用奇異分解值(SVD)對(duì)進(jìn)行對(duì)角化,即,使一個(gè)集合中的特征與另一個(gè)集合中相應(yīng)的特征具有非零相關(guān)性,如式(10)所示:

        其中:X′和Y′的秩為r;是非退化矩陣;Σ是一個(gè)主對(duì)角元素非零的對(duì)角矩陣。設(shè)Wcx=UΣ-1 2和Wcy=VΣ-12,則有:

        因此,對(duì)特征集進(jìn)行如下轉(zhuǎn)換,如式(12)和式(13)所示:

        DCA 的特征級(jí)融合與CCA 類(lèi)似,通過(guò)對(duì)變換后的特征向量進(jìn)行拼接或求和實(shí)現(xiàn)。由于變換后的特征向量求和時(shí),特征向量維數(shù)較少,計(jì)算簡(jiǎn)單方便,因此本文實(shí)驗(yàn)采用基于DCA 求和的方法進(jìn)行特征級(jí)融合。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)平臺(tái)

        本文實(shí)驗(yàn)環(huán)境為:Windows 10.0 操作系統(tǒng),Intel?Xeon?Gold 5115 CPU@2.40 GHz,顯卡NVIDIA Quadro P4000 GPU,采用Matlab 2019b 作為開(kāi)發(fā)環(huán)境。

        3.2 數(shù)據(jù)集及數(shù)據(jù)預(yù)處理

        為驗(yàn)證所使用的多模態(tài)融合技術(shù)在人體動(dòng)作識(shí)別方面的識(shí)別效率,本文使用UTD 多模態(tài)人類(lèi)行為數(shù)據(jù)集[26](UTD-MHAD)和UTD Kinect V2 多模態(tài)人類(lèi)行為數(shù)據(jù)集[27](UTD Kinect V2 MHAD)兩個(gè)公開(kāi)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與最新的研究進(jìn)行比較,同時(shí)采用消融實(shí)驗(yàn)驗(yàn)證本文提出的多模態(tài)融合框架的有效性。

        UTD-MHAD 是使用Microsoft Kinect 傳感器和可穿戴慣性傳感器在室內(nèi)環(huán)境中收集的。由8 名受試者(4 名女性和4 名男性)執(zhí)行的27 個(gè)動(dòng)作,每個(gè)受試者對(duì)每個(gè)動(dòng)作重復(fù)4 次。去除3 個(gè)損壞的序列后,數(shù)據(jù)集共有861 個(gè)數(shù)據(jù)序列,包含深度傳感器數(shù)據(jù)和慣性傳感器數(shù)據(jù)。

        UTD Kinect V2 MHAD是使用第2 代Kinect 捕獲的新數(shù)據(jù)集,包括6 名受試者(3 名男性和3 名女性)執(zhí)行的10 個(gè)動(dòng)作,每個(gè)受試者重復(fù)每個(gè)動(dòng)作5 次,包含深度傳感器數(shù)據(jù)和慣性傳感器數(shù)據(jù)。采用深度傳感器數(shù)據(jù)生成的深度圖像大小為424×512 像素。

        本文選擇UTD-MHAD 和UTD Kinect V2 MHAD兩個(gè)數(shù)據(jù)集。首先使用的兩個(gè)數(shù)據(jù)集用于涉及融合或同時(shí)使用深度傳感器和慣性傳感器。其次使用的兩個(gè)數(shù)據(jù)集中的動(dòng)作包含了比較全面的人體動(dòng)作類(lèi)別,如運(yùn)動(dòng)動(dòng)作(籃球投籃,打保齡球,棒球揮桿,網(wǎng)球揮桿和網(wǎng)球發(fā)球)、手勢(shì)動(dòng)作(手臂向左滑動(dòng),手臂向右滑動(dòng),右手揮手,拍手,投擲,胸前手臂交叉,畫(huà)x,畫(huà)三角形,畫(huà)勾,順時(shí)針畫(huà)圓,逆時(shí)針畫(huà)圓,手臂卷曲,雙手推,右手抓住物體和右手撿起東西并投擲)、日常動(dòng)作(敲門(mén),慢跑,步行,由坐到站和由站到坐)和訓(xùn)練動(dòng)作(拳擊,弓步,深蹲)。

        由于UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集中視頻序列的前5 幀和后5 幀大多處于靜止?fàn)顟B(tài),動(dòng)作比較輕微,對(duì)提取到的特征影響比較小,并且在轉(zhuǎn)換為DMM 時(shí),微小的動(dòng)作會(huì)導(dǎo)致大量的重建誤差。因此,在生成DMM 時(shí)需要?jiǎng)h除影響較小的開(kāi)始5 幀和最后5 幀的運(yùn)動(dòng)幀序列,使用剩余幀生成DMM。生成的DMM 圖像與信號(hào)圖像如圖5所示。

        圖5 UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集預(yù)處理后生成的DMM 和信號(hào)圖像Fig.5 DMM and signal images generated after pre-processing of UTD-MHAD and UTD Kinect V2 MHAD datasets

        為克服UTD-MHAD 和UTD Kinect V2 MHAD數(shù)據(jù)集中訓(xùn)練樣本較少的問(wèn)題,本文對(duì)原始數(shù)據(jù)生成的DMM 和信號(hào)圖像分別進(jìn)行數(shù)據(jù)增強(qiáng)[17],并將增強(qiáng)的數(shù)據(jù)集按照80%和20%的比例分為訓(xùn)練集和測(cè)試集。表1 所示為UTD-MHAD 和UTD Kinect V2 MHAD 的訓(xùn)練集和測(cè)試集的樣本。

        表1 UTD-MHAD 和Kinect V2 MHAD 在數(shù)據(jù)增強(qiáng)后的訓(xùn)練集和測(cè)試集Table 1 Training and test sets of UTD-MHAD and Kinect V2 MHAD after data enhancement

        通過(guò)隨機(jī)選擇相同百分比的訓(xùn)練和測(cè)試樣本進(jìn)行20 次實(shí)驗(yàn),并計(jì)算平均精度。為了對(duì)ResNet101 進(jìn)行訓(xùn)練,將圖像大小調(diào)整為224×224像素,直到驗(yàn)證損失停止。此外,為了和AHMAD等[16]的實(shí)驗(yàn)相比,訓(xùn)練過(guò)程中的詳細(xì)實(shí)驗(yàn)參數(shù)如表2 所示。

        表2 訓(xùn)練參數(shù)Table 2 Training parameters

        3.3 消融實(shí)驗(yàn)

        本文以圖6 所示的融合框架為基礎(chǔ),驗(yàn)證本文中提出的多級(jí)多模態(tài)融合框架中各個(gè)部分的有效性,以及使用基于DCA 多模態(tài)融合的有效性。

        圖6 消融實(shí)驗(yàn)融合框架Fig.6 Ablation experimental fusion framework

        3.3.1 深度運(yùn)動(dòng)投影圖和信號(hào)圖像

        本文在如圖6 所示的基礎(chǔ)多模態(tài)融合中分別與使用DMM 和信號(hào)圖像融合的實(shí)驗(yàn)進(jìn)行比較。從表3 可以看出,在UTD-MHAD 和Kinect V2 MHAD 數(shù)據(jù)集中DMM 和信號(hào)圖像的融合識(shí)別精度更高,因此DMM 相比深度序列圖像能得到較高的識(shí)別準(zhǔn)確率。

        表3 DMM 和深度序列圖像與信號(hào)圖像的CCA 融合Table 3 CCA fusion of DMM and depth sequence image with signal image %

        3.3.2 局部三值模式

        2.3 節(jié)提出的基于LTP 處理的DMM 和信號(hào)圖像,在圖像預(yù)處理階段增加一個(gè)通用的模態(tài),使輸入模態(tài)進(jìn)一步成為多模態(tài)。從表4 的實(shí)驗(yàn)結(jié)果可以看出,創(chuàng)建的附加模態(tài)使ResNet101 進(jìn)一步提取互補(bǔ)性和鑒別性的特征,因此更豐富的特征有利于提高SVM 分類(lèi)器的準(zhǔn)確率。

        表4 DMM、深度序列圖像和信號(hào)圖像的LTP模態(tài)Table 4 DMM,depth sequence image and signal image with LTP modality respectively %

        3.3.3 判別相關(guān)分析

        基于DCA 的特征級(jí)融合消除了類(lèi)間相關(guān)性并將相關(guān)性限制在類(lèi)內(nèi),有利于不同傳感器捕獲數(shù)據(jù)信息之間的融合。從表5 的實(shí)驗(yàn)結(jié)果可以看出,基于DCA 的多模態(tài)融合相較于CCA 的多模態(tài)融合,進(jìn)一步證明了基于DCA 的特征級(jí)融合在多模態(tài)融合中的優(yōu)勢(shì)。

        表5 DCA 與CCA 的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of DCA and CCA %

        3.4 結(jié)果分析

        對(duì)于UTD-MHAD 中的27 個(gè)動(dòng)作類(lèi)別在多級(jí)多模態(tài)融合后的混淆矩陣如圖7 所示。從圖7 可以看出,盡管多模態(tài)融合會(huì)誤判個(gè)別動(dòng)作類(lèi)別,但是整體表現(xiàn)較好。因?yàn)樵阱e(cuò)誤分類(lèi)的動(dòng)作中,除了極為相似的動(dòng)作外,其余動(dòng)作的識(shí)別率為100%。不同方法對(duì)UTDMHAD 中深度和慣性分量融合的精度對(duì)比如表6 所示。其中AHMAD 等[16]采用基于CCA 的特征級(jí)融合對(duì)不同模態(tài)的特征進(jìn)行融合。相比之下,本文所使用的多級(jí)多模態(tài)融合識(shí)別率更高,證明DCA 對(duì)多模態(tài)融合的人體動(dòng)作識(shí)別性能更好。

        表6 UTD-MHAD 中不同方法融合方式的識(shí)別準(zhǔn)確率對(duì)比Table 6 Comparison of recognition accuracy of different method fusion modes in UTD-MHAD %

        圖7 多級(jí)多模態(tài)融合在UTD-MHAD 數(shù)據(jù)集上的混淆矩陣Fig.7 Confusion matrix of multi-level multimodal fusion on the UTD-MHAD dataset

        對(duì)于Kinect V2 MHAD 中的10 個(gè)動(dòng)作類(lèi)別在多級(jí)多模態(tài)融合后的混淆矩陣如圖8 所示。在融合UTD Kinect V2 MHAD 數(shù)據(jù)集中的深度和慣性數(shù)據(jù),本文方法與其他不同方法的比較如表7 所示。與AHMAD 等[16]提出的方法相比,本文提出的多級(jí)多模態(tài)融合方法識(shí)別性能更好,相較于最新的研究識(shí)別進(jìn)度有所提高,證明了該方法的有效性。UTD Kinect V2 MHAD 與UTD-MHAD 數(shù)據(jù)集相比,不同類(lèi)間區(qū)分度更高。這也是UTD Kinect V2 MHAD 的識(shí)別精度高于UTD-MHAD 的原因。在訓(xùn)練樣本較少的情況下,基于深度學(xué)習(xí)的分類(lèi)模型通常會(huì)有潛在的過(guò)擬合影響,導(dǎo)致模型在訓(xùn)練集上的誤差很小,而在測(cè)試集上的誤差不夠理想。因此,本文首先在數(shù)據(jù)預(yù)處理階段對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理,然后通過(guò)ResNet101 訓(xùn)練深度模態(tài)和慣性模態(tài),在模型中使用BN、L2 正則化和Dropout 層用來(lái)抑制過(guò)擬合。在兩個(gè)數(shù)據(jù)集上的訓(xùn)練與測(cè)試誤差如圖9 所示,從圖9 可以看出,本文的實(shí)驗(yàn)沒(méi)有出現(xiàn)過(guò)擬合。

        圖9 UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集的損失變化曲線Fig.9 Loss variation curves for UTD-MHAD and UTD Kinect V2 MHAD datasets

        表7 Kinect V2 MHAD 中不同方法融合方式的識(shí)別準(zhǔn)確率對(duì)比Table 7 Comparison of recognition accuracy of different method fusion modes in Kinect V2 MHAD %

        圖8 多級(jí)多模態(tài)融合在Kinect V2 MHAD數(shù)據(jù)集上的混淆矩陣Fig.8 Confusion matrix for multi-level multimodal fusion on the Kinect V2 MHAD dataset

        UTD-MHAD 對(duì)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)主要有以下3 個(gè)局限:1)可穿戴慣性傳感器佩戴在志愿者的右手腕或者右大腿上,而傳感器僅佩戴在兩個(gè)位置上,用于收集27 個(gè)動(dòng)作的數(shù)據(jù),不足以捕獲所有數(shù)據(jù)的相關(guān)性和特征;2)當(dāng)使用UTD-MHAD 訓(xùn)練深度網(wǎng)絡(luò)時(shí),由于數(shù)據(jù)集的樣本數(shù)據(jù)較少,可能導(dǎo)致訓(xùn)練結(jié)果不夠準(zhǔn)確;3)在UTD-MHAD 中,有部分動(dòng)作的區(qū)分度不明顯,例如,右臂向左滑動(dòng)和右臂向右滑動(dòng),由坐到站和由站到坐具有很高的相似性。

        4 結(jié)束語(yǔ)

        為解決單模態(tài)人體動(dòng)作識(shí)別方法在實(shí)際應(yīng)用場(chǎng)景中的局限性和CCA 融合忽略樣本間類(lèi)結(jié)構(gòu)等問(wèn)題,本文提出一種基于DCA 的多級(jí)多模態(tài)融合的人體動(dòng)作識(shí)別方法。該識(shí)別方法從不同模態(tài)或者特征集捕獲與其他模態(tài)或者特征集互補(bǔ)的信息,找到不同模態(tài)的最佳融合階段,多模態(tài)融合的人體動(dòng)作識(shí)別可有效解決單模態(tài)方法的局限。實(shí)驗(yàn)結(jié)果表明,本文提出的多模態(tài)融合方法具有較高的識(shí)別準(zhǔn)確率。下一步把神經(jīng)架構(gòu)搜索技術(shù)應(yīng)用到多模態(tài)融合動(dòng)作識(shí)別中,利用其可以對(duì)不同時(shí)期網(wǎng)絡(luò)自動(dòng)確定網(wǎng)絡(luò)結(jié)構(gòu)的特性,將通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取到的不同模態(tài)的特征,利用神經(jīng)架構(gòu)搜索技術(shù)自動(dòng)搜索其融合結(jié)構(gòu),從而提高多模態(tài)人體動(dòng)作識(shí)別的效率。

        猜你喜歡
        模態(tài)深度動(dòng)作
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        動(dòng)作描寫(xiě)不可少
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        非同一般的吃飯動(dòng)作
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        欧洲freexxxx性少妇播放| 美国黄色av一区二区| 亚洲不卡一区二区视频| 亚洲国产精品无码久久| 台湾佬娱乐中文22vvvv | 亚洲综合色区另类av| 亚洲一级毛片免费在线观看| 日本激情视频一区在线观看 | 插鸡网站在线播放免费观看| 欧美饥渴熟妇高潮喷水水| 亚洲色欲久久久综合网| 激情视频在线播放一区二区三区| 国产自拍av在线观看视频| 婷婷中文字幕综合在线| 亚洲色欲Aⅴ无码一区二区| 亚洲国产精品成人一区二区三区| 丰满少妇被猛烈进入高清播放 | 在线看片免费人成视久网不卡| 日韩人妻精品中文字幕专区| 久久久久亚洲精品中文字幕| 亚洲国产一区二区三区网| 国产一区二区精品久久呦| 国产精品一区二区性色| 中文字幕一区二区三区人妻少妇| 久久久综合九色合综国产| 人妻av在线一区二区三区| 国产精品白浆在线观看免费| 亚洲欧洲中文日韩久久av乱码| 国语憿情少妇无码av| 一道之本加勒比热东京| 国产精品无码aⅴ嫩草| 亚洲精品视频久久| 美女偷拍一区二区三区| 公和我做好爽添厨房| 成人一区二区免费视频| 超级碰碰人妻中文字幕| 开心久久婷婷综合中文字幕| 欧美黑人xxxx又粗又长| 一区二区三区不卡在线| 日本精品一区二区三区试看 | 国产精品9999久久久久仙踪林|