UWB-HA4D-1.0:超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集

2022-03-05 14:34:18宋永坤戴永鵬胡錫坤宋勇平周小龍邱志峰

雷達(dá)學(xué)報(bào) 2022年1期

金添宋永坤戴永鵬胡錫坤宋勇平周小龍邱志峰

(國(guó)防科技大學(xué)電子科學(xué)學(xué)院長(zhǎng)沙 410073)

1 引言

人體動(dòng)作識(shí)別技術(shù)應(yīng)用于健康監(jiān)護(hù)、運(yùn)動(dòng)分析、智能家居、場(chǎng)景監(jiān)控等諸多領(lǐng)域，是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[1]。所謂動(dòng)作識(shí)別，即通過(guò)對(duì)視頻或圖像序列進(jìn)行處理分析，構(gòu)建視頻與人體動(dòng)作之間的映射關(guān)系，使計(jì)算機(jī)能夠像人一樣去理解視頻[2]。隨著深度學(xué)習(xí)的出現(xiàn)和傳感器技術(shù)的發(fā)展，大量的人體動(dòng)作數(shù)據(jù)可以使用低廉的攝像頭獲取，為深度學(xué)習(xí)的訓(xùn)練提供了數(shù)據(jù)支撐，以可見(jiàn)光、結(jié)構(gòu)光為探測(cè)手段的深度學(xué)習(xí)動(dòng)作識(shí)別研究取得了較大成效[3]，逐漸取代傳統(tǒng)算法。目前，在計(jì)算機(jī)視覺(jué)領(lǐng)域，已有眾多基于光學(xué)傳感器的人體動(dòng)作識(shí)別數(shù)據(jù)集，如KTH[4],UCF-101[5],HMDB[6],Kinetics[7],NTU RGB+D[8]等，這些數(shù)據(jù)集中樣本的數(shù)目由幾千到幾十萬(wàn)不等，為研究者提供了便利的研究條件，進(jìn)一步推動(dòng)了動(dòng)作識(shí)別技術(shù)的應(yīng)用落地。

隨著時(shí)代的進(jìn)步，人們對(duì)動(dòng)作識(shí)別系統(tǒng)的應(yīng)用場(chǎng)景和隱私保護(hù)等方面提出了更高的要求。傳統(tǒng)的光學(xué)傳感器無(wú)法在無(wú)光、遮蔽和非視距等復(fù)雜環(huán)境下工作且存在隱私泄露的風(fēng)險(xiǎn)，無(wú)法適應(yīng)多樣性的應(yīng)用需求。然而，以電磁波信號(hào)為信息傳遞載體的雷達(dá)是一種主動(dòng)探測(cè)系統(tǒng)，得益于電磁波的穿透性，雷達(dá)系統(tǒng)可以在遮擋環(huán)境下穩(wěn)定工作。同時(shí)，雷達(dá)系統(tǒng)通過(guò)分析人體目標(biāo)反射回波提取人體動(dòng)作信息，不直接獲取人體面部信息，具有較好的隱私保護(hù)性能[9]。因此，相比于被動(dòng)探測(cè)的光學(xué)傳感器，基于雷達(dá)傳感器的人體動(dòng)作識(shí)別系統(tǒng)有更廣泛的使用場(chǎng)景，具有較大的研究?jī)r(jià)值。

利用雷達(dá)進(jìn)行人體動(dòng)作識(shí)別的一般步驟是，首先選擇合適的人體動(dòng)作特征，然后從接收的雷達(dá)回波中提取有效特征，最后采用合適的分類(lèi)器實(shí)現(xiàn)動(dòng)作識(shí)別。早期的研究大多使用手工提取特征的方法，采用一定的雷達(dá)信號(hào)處理方法，首先提取雷達(dá)信號(hào)的幅度、頻率、相位等信號(hào)波形特性[10]，目標(biāo)的距離、方位、高度等目標(biāo)特性，以及微多普勒運(yùn)動(dòng)等信息作為特征，再使用支持向量機(jī)、貝葉斯分類(lèi)、決策樹(shù)等傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)[11]。然而，此類(lèi)方法在實(shí)現(xiàn)過(guò)程中涉及多項(xiàng)操作，需要大量人工干預(yù)，且動(dòng)作識(shí)別的精度不高，應(yīng)用受限。近年來(lái)，深度學(xué)習(xí)技術(shù)在光學(xué)動(dòng)作識(shí)別領(lǐng)域表現(xiàn)良好，實(shí)現(xiàn)了特征設(shè)計(jì)、提取和分類(lèi)識(shí)別的一體化的設(shè)計(jì)，動(dòng)作識(shí)別精度均優(yōu)于傳統(tǒng)算法，一些學(xué)者開(kāi)始將此技術(shù)應(yīng)用于雷達(dá)人體動(dòng)作識(shí)別的研究中[12]。加州大學(xué)的Kim等人[13]最早將雷達(dá)回波信號(hào)處理得到的微多普勒譜輸入3層卷積神經(jīng)網(wǎng)絡(luò)中，取得了較好的動(dòng)作識(shí)別準(zhǔn)確率。美國(guó)約翰霍普金斯大學(xué)Craley等人[14]引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)對(duì)雷達(dá)多普勒?qǐng)D像進(jìn)行分類(lèi)識(shí)別，充分利用了人體動(dòng)作特征中的時(shí)序信息。電子科技大學(xué)的Wang等人[15]設(shè)計(jì)了一種多個(gè)LSTM堆疊的網(wǎng)絡(luò)結(jié)構(gòu)，并在實(shí)測(cè)數(shù)據(jù)上進(jìn)行了驗(yàn)證，動(dòng)作識(shí)別精度優(yōu)于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)。北京郵電大學(xué)Li等人[16]采用遷移學(xué)習(xí)方法來(lái)解決小樣本雷達(dá)數(shù)據(jù)集下的人體行為識(shí)別問(wèn)題，提高了網(wǎng)絡(luò)對(duì)于新場(chǎng)景下人體行為識(shí)別的泛化能力。國(guó)防科技大學(xué)的Du等人[17]提出了基于距離-多普勒-時(shí)間的三維點(diǎn)云輸入模式，距離信息的引入提高了不同位置肢體的差異，進(jìn)一步改善了動(dòng)作識(shí)別率。北京大學(xué)李廉林等人[18]基于智能電磁感知技術(shù)使用低成本的超材料天線(xiàn)實(shí)現(xiàn)了個(gè)體和肢體動(dòng)作的智能識(shí)別，拓寬了人體感知的研究方向[19]。

目前基于雷達(dá)傳感器的人體動(dòng)作識(shí)別數(shù)據(jù)集相對(duì)稀缺，在一定程度上制約了深度學(xué)習(xí)在雷達(dá)人體動(dòng)作識(shí)別領(lǐng)域的發(fā)展。盡管部分學(xué)者公布了一些雷達(dá)動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集[20–22]，但這些數(shù)據(jù)集大都基于單通道或者較少通道的雷達(dá)回波信號(hào)的多普勒特征進(jìn)行動(dòng)作識(shí)別，而多普勒特征包含的信息量遠(yuǎn)不如光學(xué)傳感器提供的人體姿態(tài)圖像特征豐富，使得在人體動(dòng)作識(shí)別領(lǐng)域中雷達(dá)傳感器的實(shí)用化遠(yuǎn)遠(yuǎn)滯后于光學(xué)傳感器。近年來(lái)，低頻超寬帶多輸入多輸出(Multiple-Input Multiple-Output,MIMO)雷達(dá)技術(shù)逐漸成熟，在實(shí)現(xiàn)較好穿透性的同時(shí)，具有距離、方位和高度三維信息感知能力，能夠獲取與光學(xué)傳感器類(lèi)似的人體姿態(tài)圖像序列[23]。另外，相比于單通道或少通道雷達(dá)系統(tǒng)，MIMO雷達(dá)具有更好的空間分辨能力，可實(shí)現(xiàn)多目標(biāo)的探測(cè)和分離，有較大的研究?jī)r(jià)值。然而，由于缺少相關(guān)公開(kāi)數(shù)據(jù)集，嚴(yán)重限制了MIMO雷達(dá)傳感器在人體動(dòng)作識(shí)別領(lǐng)域的實(shí)用化進(jìn)程。

為了促進(jìn)雷達(dá)人體動(dòng)作識(shí)別研究的發(fā)展，豐富雷達(dá)數(shù)據(jù)集的多樣性，本文基于低頻超寬帶MIMO雷達(dá)，構(gòu)建了超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集(Ultra-Wideband radar Human Activity 4D imaging dataset,UWB-HA4D-1.0)。不同于傳統(tǒng)的基于微多普勒譜進(jìn)行動(dòng)作識(shí)別的數(shù)據(jù)集，該數(shù)據(jù)集是國(guó)際首個(gè)基于雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集，開(kāi)辟了人體動(dòng)作識(shí)別領(lǐng)域研究的新路線(xiàn)。本數(shù)據(jù)集包含人體目標(biāo)的距離-方位-高度-時(shí)間四維信息，共采集了11個(gè)不同體型人體目標(biāo)的10種不同動(dòng)作，以及3種不同場(chǎng)景的雷達(dá)數(shù)據(jù)。該數(shù)據(jù)集已可通過(guò)《雷達(dá)學(xué)報(bào)》官網(wǎng)的相關(guān)鏈接(https://radars.ac.cn/web/data/getData?dataType=UWB-HA4D)免費(fèi)下載使用。另外，本文以PaddlePaddle為網(wǎng)絡(luò)框架，使用了計(jì)算機(jī)視覺(jué)領(lǐng)域幾種常用的動(dòng)作識(shí)別深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證，為該數(shù)據(jù)集的使用和開(kāi)發(fā)提供參考，方便其他學(xué)者進(jìn)行更進(jìn)一步的探索研究。

2 UWB-HA4D-1.0數(shù)據(jù)集信息

2.1 超寬帶MIMO雷達(dá)系統(tǒng)

結(jié)合雷達(dá)人體動(dòng)作四維數(shù)據(jù)采集的任務(wù)需求，本節(jié)對(duì)所需雷達(dá)系統(tǒng)的參數(shù)進(jìn)行討論分析。關(guān)于雷達(dá)系統(tǒng)的工作頻段的選擇，已知工作于0～3 GHz頻段的低頻雷達(dá)有較好的穿透性，可穿透多種墻體介質(zhì)對(duì)遮擋目標(biāo)進(jìn)行探測(cè)[24]，適用于多種探測(cè)場(chǎng)景。而超寬帶雷達(dá)相比于窄帶雷達(dá)具有更優(yōu)的距離分辨率，可獲取目標(biāo)高精度距離信息[25]。對(duì)于雷達(dá)系統(tǒng)的信號(hào)體制而言，常見(jiàn)的有窄脈沖信號(hào)、線(xiàn)性調(diào)頻信號(hào)、步進(jìn)頻信號(hào)等，相比于其他兩種信號(hào)，步進(jìn)頻信號(hào)具有高發(fā)射功率，頻帶拓展性好、大時(shí)寬、大帶寬的特性，有效克服了窄脈沖信號(hào)平均功率較低的缺陷，廣泛應(yīng)用于超寬帶雷達(dá)領(lǐng)域[26]。關(guān)于雷達(dá)系統(tǒng)的陣列構(gòu)型，按照天線(xiàn)的排布可分為一維雷達(dá)、二維雷達(dá)和三維雷達(dá)[27]，其中一維雷達(dá)采用單發(fā)單收的天線(xiàn)形式，僅具有距離分辨能力；二維MIMO雷達(dá)的天線(xiàn)采用一維線(xiàn)陣排布，可提供目標(biāo)的距離、方位二維信息；三維MIMO超寬帶雷達(dá)的天線(xiàn)采用二維面陣排布，可獲取目標(biāo)的距離、方位、高度三維信息，對(duì)人體的肢體輪廓進(jìn)行描繪。相比于一維和二維雷達(dá)，三維雷達(dá)可提供更詳細(xì)的人體目標(biāo)信息，對(duì)判定人體目標(biāo)的行為狀態(tài)提供了良好的信息支撐。因此，本文采用二維MIMO雷達(dá)陣列發(fā)射低頻超寬帶步進(jìn)頻信號(hào)的雷達(dá)系統(tǒng)技術(shù)方案。

綜合考慮多種因素，本文設(shè)計(jì)了一款三維超寬帶MIMO雷達(dá)系統(tǒng)，系統(tǒng)參數(shù)指標(biāo)如表1所示。為了獲取更好的方位和高度向分辨率，保證雷達(dá)成像質(zhì)量，系統(tǒng)采用了10發(fā)10收的大規(guī)模MIMO陣列排布形式，陣列尺寸為60 cm×88 cm。由于采用了1.78～2.78 GHz的低頻電磁波信號(hào)，雷達(dá)系統(tǒng)具有較好的穿透性，可穿透幕布、木板、塑料、泡沫、磚墻等常見(jiàn)遮擋物進(jìn)行目標(biāo)探測(cè)。另外，本系統(tǒng)的信號(hào)發(fā)射功率僅為20 dBm，不會(huì)對(duì)人體造成傷害。

表1 雷達(dá)系統(tǒng)參數(shù)Tab.1 Radar system parameters

本文所設(shè)計(jì)的三維超寬帶MIMO雷達(dá)系統(tǒng)樣機(jī)如圖1所示，其中雷達(dá)系統(tǒng)進(jìn)行信號(hào)的發(fā)射和接收，計(jì)算機(jī)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和實(shí)時(shí)處理。二維MIMO陣列的等效圖如圖2(a)所示，左右兩側(cè)的陣列為發(fā)射天線(xiàn)，上下兩行的陣列為接收天線(xiàn)，10發(fā)10收的陣列等效為100個(gè)虛擬陣元，本陣列設(shè)計(jì)將發(fā)射天線(xiàn)在高度維不規(guī)則排布來(lái)降低旁瓣水平。二維MIMO陣列實(shí)物圖如圖2(b)所示，其中天線(xiàn)陣元結(jié)構(gòu)為寬帶蝶形陣子天線(xiàn)。

圖1 三維超寬帶MIMO雷達(dá)系統(tǒng)Fig.1 Three-dimensional UWB MIMO radar system

圖2 二維MIMO陣列Fig.2 Two-dimensional MIMO array

2.2 數(shù)據(jù)采集與處理

雷達(dá)回波信號(hào)的采集和處理流程如圖3所示，首先MIMO雷達(dá)發(fā)射電磁波信號(hào)，并接收人體目標(biāo)反射回波，對(duì)接收到的100個(gè)通道的雷達(dá)回波進(jìn)行動(dòng)目標(biāo)顯示(Moving Target Indication,MTI)處理[28]，濾除靜止雜波。然后進(jìn)行大范圍的方位-距離二維成像，成像區(qū)域?yàn)樵O(shè)定的系統(tǒng)探測(cè)范圍，對(duì)二維成像結(jié)果進(jìn)行恒虛警率(Constant False Alarm Rate,CFAR)檢測(cè)[29]和跟蹤處理來(lái)鎖定目標(biāo)在方位-距離二維平面的位置，最后對(duì)目標(biāo)所在位置的方位向±1 m、距離向±1 m、高度向0～2.5 m范圍進(jìn)行三維成像(假定目標(biāo)位于地平面)。最后，聯(lián)合時(shí)間維度信息構(gòu)成人體動(dòng)作4D雷達(dá)數(shù)據(jù)。關(guān)于人體目標(biāo)的成像，本文采取的先大范圍二維成像再小范圍三維成像的成像思路，不僅可以避免無(wú)目標(biāo)區(qū)域三維成像造成的運(yùn)算量浪費(fèi)，節(jié)約成像時(shí)間，還可以保證三維成像結(jié)果有足夠的成像網(wǎng)格密度，兼顧了成像效率和成像質(zhì)量。

圖3 數(shù)據(jù)采集與處理流程Fig.3 Data collection and processing flow

本文選擇后向投影(Back Projection,BP)算法[30]作為MIMO雷達(dá)成像算法，該算法是一種典型的時(shí)域成像算法，對(duì)陣元排布沒(méi)有特殊要求，廣泛應(yīng)用于各種MIMO陣列成像領(lǐng)域。BP算法的基本思想是對(duì)成像區(qū)域進(jìn)行網(wǎng)格劃分，計(jì)算在成像區(qū)域中的像素點(diǎn)到天線(xiàn)陣列的距離從而計(jì)算出傳輸?shù)臅r(shí)間延遲，根據(jù)這個(gè)時(shí)間延遲來(lái)搜索天線(xiàn)陣列接收到的雷達(dá)回波信號(hào)，將每個(gè)通道的回波信號(hào)進(jìn)行疊加計(jì)算[31]。雖然B P 成像算法運(yùn)算量稍大，但配合G P U強(qiáng)大的并行運(yùn)算能力，BP算法成像耗時(shí)通常并不顯著高于其他成像算法。因此，本數(shù)據(jù)集的數(shù)據(jù)生成階段采用BP算法進(jìn)行雷達(dá)成像。

2.3 數(shù)據(jù)采集場(chǎng)景

本數(shù)據(jù)集的采集場(chǎng)景有3個(gè)，分別是無(wú)遮擋場(chǎng)景S1,3 cm塑料板遮擋場(chǎng)景S2，以及27 cm磚墻遮擋場(chǎng)景S3，具體信息及場(chǎng)景照片如表2和圖4所示。本數(shù)據(jù)集中的訓(xùn)練集只是在S1場(chǎng)景下采集，而測(cè)試集包括了S1,S2,S3 3個(gè)場(chǎng)景的數(shù)據(jù)，其中場(chǎng)景S2和S3的數(shù)據(jù)可以用來(lái)測(cè)試所設(shè)計(jì)的動(dòng)作識(shí)別方法的環(huán)境適應(yīng)性。需要說(shuō)明的是，本文在不同的場(chǎng)景都采用直接成像的方式獲取四維雷達(dá)圖像，未根據(jù)不同材料墻體遮擋對(duì)電磁波信號(hào)造成的影響進(jìn)行補(bǔ)償。

圖4 數(shù)據(jù)集采集場(chǎng)景Fig.4 Dataset collection scenes

2.4 人體動(dòng)作信息

本數(shù)據(jù)集所采集的10種動(dòng)作類(lèi)別示意圖如圖5所示，10種動(dòng)作分別為開(kāi)雙臂、打拳、靜坐、踢腿、坐下、站立、向前走、向左走、向右走、揮手。相比于使用運(yùn)動(dòng)微多普勒信息進(jìn)行動(dòng)作識(shí)別的數(shù)據(jù)集僅有運(yùn)動(dòng)動(dòng)作，本數(shù)據(jù)集包含了目標(biāo)人體各個(gè)身體部位的位置和運(yùn)動(dòng)雙重信息，可以對(duì)運(yùn)動(dòng)和靜止人體動(dòng)作進(jìn)行識(shí)別。因此，本數(shù)據(jù)集中不僅有運(yùn)動(dòng)動(dòng)作還有像靜坐、站立這樣的靜止動(dòng)作，以及向左走、向右走這類(lèi)易混淆動(dòng)作，提供了更加豐富的動(dòng)作類(lèi)型。各個(gè)動(dòng)作的組數(shù)如表3所示，每個(gè)動(dòng)作的組數(shù)在269～278組，其中訓(xùn)練集組數(shù)都在149～158組，3個(gè)場(chǎng)景的測(cè)試集中每個(gè)動(dòng)作為40組，共120組。共采集2757組動(dòng)作，每組動(dòng)作40幀三維雷達(dá)數(shù)據(jù)，共110280幀數(shù)據(jù)。

表3 不同動(dòng)作的數(shù)據(jù)量(組)Tab.3 The amount of data for different actions (groups)

圖5 動(dòng)作類(lèi)型Fig.5 Activity types

取其中一組開(kāi)雙臂的雷達(dá)成像數(shù)據(jù)做方位-高度向最大值投影進(jìn)行數(shù)據(jù)預(yù)覽，結(jié)果如圖6所示，分別是第10幀、第24幀、第32幀、第40幀的參考光學(xué)圖像和雷達(dá)圖像投影。由圖6可知，本雷達(dá)系統(tǒng)的成像結(jié)果保留了人體目標(biāo)的身體輪廓和軀干運(yùn)動(dòng)信息，可以用于不同動(dòng)作的識(shí)別。

圖6 三維雷達(dá)圖像投影Fig.6 Projection of three-dimensional images

2.5 人體目標(biāo)信息

為了保證數(shù)據(jù)集中人體目標(biāo)的多樣性，本文采集了11個(gè)不同身高體重的人體目標(biāo)，具體信息如表4所示，其中身高范圍是163～186 cm，體重范圍是53～85 kg。本文對(duì)人體目標(biāo)進(jìn)行編號(hào)，分別是H1—H11，根據(jù)人體目標(biāo)的身高體重分布，選擇不同身高體重段具有代表性的H6和H8為測(cè)試目標(biāo)。另外，H1—H11只在S1場(chǎng)景錄制訓(xùn)練集，而H6和H8兩個(gè)人體目標(biāo)在S1,S2,S3 3個(gè)場(chǎng)景分別錄制測(cè)試集。

表4 人體目標(biāo)信息Tab.4 Human target information

2.6 數(shù)據(jù)格式

本數(shù)據(jù)集對(duì)10個(gè)不同的動(dòng)作分別標(biāo)號(hào)是A1—A10，真值標(biāo)號(hào)為0～9，具體如表5所示。數(shù)據(jù)以mat格式存儲(chǔ)，每個(gè)文件的命名規(guī)則為“Am_Hn_Sp_q.mat”，其中Am為動(dòng)作編號(hào)，m=1,2,···,10，Hn為人體目標(biāo)編號(hào)，n=1,2,···,11，Sp為場(chǎng)景，p=1,2,3，q為組號(hào)。以“A2_H5_S1_9.mat”為例，該文件名即指在S1場(chǎng)景下H5目標(biāo)的A2動(dòng)作的第9組數(shù)據(jù)。每組數(shù)據(jù)中，存儲(chǔ)雷達(dá)四維圖像的矩陣名稱(chēng)為“radar_data_sequence”，數(shù)據(jù)的大小為40×64×64×64，其中40是三維雷達(dá)圖像的幀數(shù)，64×64×64是三維雷達(dá)圖像的大小，所有三維成像結(jié)果均為歸一化后的幅度圖。同時(shí)，本數(shù)據(jù)集提供了4個(gè)標(biāo)注文件“train_label.txt”、“test_S1_label.txt”、“test_S2_label.txt”、“test_S3_label.txt”，分別對(duì)應(yīng)1個(gè)訓(xùn)練集和3個(gè)測(cè)試集的標(biāo)簽。標(biāo)簽內(nèi)容為“A2/A2_H5_S1_9.mat 3”，其中A2為動(dòng)作類(lèi)型文件夾名稱(chēng)，“A2_H5_S1_9.mat”為四維雷達(dá)數(shù)據(jù)名稱(chēng)，3為動(dòng)作類(lèi)型真值標(biāo)號(hào)，與數(shù)據(jù)名以空格隔開(kāi)。

表5 人體動(dòng)作標(biāo)號(hào)Tab.5 Human activity labels

3 動(dòng)作識(shí)別方法

現(xiàn)有的動(dòng)作識(shí)別方法可分為傳統(tǒng)動(dòng)作識(shí)別方法和基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法，其中傳統(tǒng)動(dòng)作識(shí)別方法包括基于模板匹配的方法[32]、基于時(shí)空興趣點(diǎn)檢測(cè)的方法[33]、基于關(guān)節(jié)點(diǎn)軌跡跟蹤的方法[34]。對(duì)于基于深度學(xué)習(xí)方法的動(dòng)作識(shí)別方法，根據(jù)網(wǎng)絡(luò)卷積維度的不同可以分為基于二維卷積神經(jīng)網(wǎng)絡(luò)(Two Dimensional Convolutional Neural Networks,2D CNN)的方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)(Three Dimensional Convolutional Neural Networks,3D CNN)的方法。由于基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法在實(shí)現(xiàn)復(fù)雜度和識(shí)別精度方面均有優(yōu)異的表現(xiàn)，逐漸取代了傳統(tǒng)動(dòng)作識(shí)別算法，因此，本節(jié)只介紹基于深度學(xué)習(xí)的幾種經(jīng)典動(dòng)作識(shí)別方法。

3.1 基于2D CNN的動(dòng)作識(shí)別方法

基于2D CNN的動(dòng)作識(shí)別方法研究主要有基于雙流網(wǎng)絡(luò)和基于時(shí)間特征提取模塊的兩個(gè)研究分支。Simonyan等人[35]最早提出了基于2D CNN的雙流網(wǎng)絡(luò)，該網(wǎng)絡(luò)包含了兩個(gè)相互獨(dú)立的流，分別是空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)，其中空間流用于構(gòu)建外觀特征，時(shí)間流用來(lái)構(gòu)建運(yùn)動(dòng)特征，最后將兩個(gè)網(wǎng)絡(luò)流的softmax結(jié)果融合，得到預(yù)測(cè)的動(dòng)作類(lèi)型。該網(wǎng)絡(luò)存在的缺點(diǎn)是僅考慮了相鄰幀之間的運(yùn)動(dòng)特征，對(duì)于長(zhǎng)時(shí)間運(yùn)動(dòng)特征的提取具有一定的局限性。為了解決這個(gè)問(wèn)題，Wang等人[36]在雙流網(wǎng)絡(luò)的基礎(chǔ)上提出了一種時(shí)域分段網(wǎng)絡(luò)(Time Segment Network,TSN)，該網(wǎng)絡(luò)引入了稀疏采樣的方法，將輸入網(wǎng)絡(luò)的視頻分割成若干個(gè)視頻片段，再進(jìn)行時(shí)空特征提取，最后對(duì)各個(gè)片段的特征提取結(jié)果進(jìn)行融合，得到預(yù)測(cè)結(jié)果。該方法具有全局時(shí)空特征的提取能力，有效解決了原始雙流網(wǎng)絡(luò)存在的長(zhǎng)時(shí)間運(yùn)動(dòng)特征提取能力差的問(wèn)題。但是，TSN的稀疏采樣無(wú)法保證有效動(dòng)作信息的提取。Lin等人[37]提出了一種時(shí)間移位模塊(Temporal Shift Module,TSM)用來(lái)捕獲時(shí)間域上的有效特征。該算法的核心思想是將部分信道沿時(shí)間維進(jìn)行移位，便于相鄰幀之間的信息交換，擴(kuò)大了時(shí)間感受野。其優(yōu)點(diǎn)是在完成有效時(shí)間信息建模的同時(shí)，幾乎沒(méi)有帶來(lái)額外的計(jì)算量，并取得了較好的動(dòng)作識(shí)別精度。

3.2 基于3D CNN的動(dòng)作識(shí)別方法

基于光學(xué)傳感器的視頻序列中的人體動(dòng)作是方位-高度-時(shí)間的三維數(shù)據(jù)，使用3D CNN可以直接獲取人體動(dòng)作在這3個(gè)維度上的特征。Ji等人[38]最早提出采用3D CNN視頻時(shí)空特征提取架構(gòu)，該架構(gòu)從相鄰幀數(shù)據(jù)中提取多通道的信息，分別進(jìn)行卷積處理，最后綜合各個(gè)通道的特征預(yù)測(cè)動(dòng)作類(lèi)型。Tran等人[39]在3D CNN的基礎(chǔ)上提出了C3D (Convolutional 3D)框架，該框架最終獲得了比2D CNN更加高效的特征提取。基于前期研究，Tran等人[40]將C3D架構(gòu)與Resnet網(wǎng)絡(luò)相結(jié)合，提出了新的Res3D網(wǎng)絡(luò)，進(jìn)一步提高了動(dòng)作識(shí)別精度。為了提高動(dòng)作識(shí)別網(wǎng)絡(luò)對(duì)于時(shí)空特征變化的適應(yīng)性，F(xiàn)eichtenhofer等人[41]提出了快慢網(wǎng)絡(luò)(SlowFast Networks,SFN)，該網(wǎng)絡(luò)包含慢幀率和快幀率兩條通道，其中慢幀率通道用來(lái)提取動(dòng)作的空間語(yǔ)義信息，快幀率通道用來(lái)提取精細(xì)的動(dòng)作特征，該網(wǎng)絡(luò)對(duì)變化快的動(dòng)作的識(shí)別具有較大的優(yōu)勢(shì)。

4 實(shí)驗(yàn)結(jié)果及分析

本文選取計(jì)算機(jī)視覺(jué)領(lǐng)域的幾種代表性動(dòng)作識(shí)別方法在UWB-HA4D-1.0數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，主要有基于2D CNN的TSN,TSM，以及基于3D CNN的Res3D,SFN這幾種算法。由于四維雷達(dá)圖像在網(wǎng)絡(luò)處理的過(guò)程中需要消耗大量的運(yùn)算單元，所以本文采取將人體目標(biāo)的三維成像結(jié)果做方位-距離、方位-高度、距離-高度3個(gè)二維平面上的最大值投影，來(lái)實(shí)現(xiàn)減少數(shù)據(jù)量的目的，即將大小為64×64×64的數(shù)據(jù)轉(zhuǎn)化為大小為3×64×64的數(shù)據(jù)，以下實(shí)驗(yàn)均基于投影后的數(shù)據(jù)進(jìn)行處理。

4.1 實(shí)驗(yàn)網(wǎng)絡(luò)設(shè)計(jì)

本文設(shè)計(jì)的基于TSN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)如圖7所示，首先將時(shí)間為T(mén)的一段四維雷達(dá)數(shù)據(jù)分割成N段，S1,S2,...,SN，分別從N段數(shù)據(jù)中取出一幀三維成像結(jié)果，進(jìn)行3個(gè)平面的最大值投影，并提取光流信息；然后分別使用二維空間卷積提取每一幀雷達(dá)圖像中的空間特征，使用二維時(shí)間卷積提取光流圖中的時(shí)間特征，最后再將時(shí)間和空間特征融合，得到最后的動(dòng)作識(shí)別結(jié)果。

圖7 TSN結(jié)構(gòu)圖Fig.7 TSN structure

基于TSM結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)的預(yù)處理與TSN網(wǎng)絡(luò)一致，首先將四維雷達(dá)數(shù)據(jù)分割成N段，然后分別從每段中取出一幀數(shù)據(jù)，共N幀數(shù)據(jù)。然后按照?qǐng)D8的時(shí)間移動(dòng)方法對(duì)N幀數(shù)據(jù)進(jìn)行處理，將數(shù)據(jù)分別沿著時(shí)間維進(jìn)行前移和后移，最后使用2D CNN同時(shí)提取時(shí)間和空間信息，得到動(dòng)作識(shí)別結(jié)果。

圖8 TSM網(wǎng)絡(luò)核心結(jié)構(gòu)Fig.8 The core structure of TSM network

基于Res3D網(wǎng)絡(luò)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)的處理思路是直接使用3D CNN同時(shí)提取連續(xù)幀雷達(dá)圖像中人體動(dòng)作的時(shí)間和空間特征，網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示，通過(guò)Resnet網(wǎng)絡(luò)提取特征，最后使用全卷積層實(shí)現(xiàn)動(dòng)作識(shí)別。

圖9 Res3D網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Res3D network structure

基于STN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別方法的實(shí)現(xiàn)框圖如圖10所示，由圖10可知，慢幀率通道相比于快幀率通道的數(shù)據(jù)采樣間隔較大，數(shù)據(jù)量較少，兩個(gè)通道分別使用3D CNN提取特征。另外，快速通道的特征通過(guò)側(cè)向連接與慢速通道相連，實(shí)現(xiàn)特征的融合，最后將兩個(gè)通道的結(jié)果融合得到最終的動(dòng)作預(yù)測(cè)結(jié)果。

圖10 SFN結(jié)構(gòu)圖Fig.10 SFN structure

4.2 實(shí)驗(yàn)設(shè)置與結(jié)果

本節(jié)使用在S1場(chǎng)景下采集的9人的10個(gè)動(dòng)作作為訓(xùn)練集對(duì)4.1節(jié)設(shè)計(jì)的TSN,TSM,Res3D,STN 4個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，將其他2人在S1,S2,S3 3個(gè)場(chǎng)景下采集的數(shù)據(jù)作為測(cè)試集。在訓(xùn)練的過(guò)程中，使用Momentum作為優(yōu)化算法，設(shè)置訓(xùn)練循環(huán)周期數(shù)為100，網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01，并分別在第25和第60個(gè)周期以十分之一遞減，batch size設(shè)置為8，num_workers設(shè)置為4。幾種算法的特征提取網(wǎng)絡(luò)是Resnet網(wǎng)絡(luò)，網(wǎng)絡(luò)實(shí)現(xiàn)是使用百度公司開(kāi)發(fā)的飛槳平臺(tái)PaddlePaddle框架。網(wǎng)絡(luò)的訓(xùn)練和測(cè)試環(huán)境為Ubuntu 20系統(tǒng)，顯卡為NVIDIA RXT2070，計(jì)算機(jī)運(yùn)行內(nèi)存為64GB。

對(duì)4種網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練，并對(duì)3個(gè)不同場(chǎng)景的數(shù)據(jù)進(jìn)行測(cè)試，得到結(jié)果如表6所示。由表可知，Res3D網(wǎng)絡(luò)在S1測(cè)試集上取得了最佳識(shí)別精度，達(dá)到了92.25%，優(yōu)于其他幾種方法。對(duì)比S1,S2,S3 3個(gè)測(cè)試場(chǎng)景的動(dòng)作識(shí)別精度可知，S2場(chǎng)景的識(shí)別精度與S1場(chǎng)景較為接近。而S3場(chǎng)景由于較厚墻體的遮擋，電磁波能量衰減較大，成像質(zhì)量與無(wú)遮擋的S1場(chǎng)景相比下降較多，所以動(dòng)作識(shí)別精度也大幅度降低。同時(shí)也可知，基于Res3D的方法在非同一探測(cè)場(chǎng)景下比其他網(wǎng)絡(luò)取得了更好的識(shí)別精度，具有更好的環(huán)境適應(yīng)性，而TSN方法的環(huán)境適應(yīng)性最差。

表6 實(shí)驗(yàn)結(jié)果對(duì)比表Tab.6 Experimental results comparison table

本節(jié)以TSM網(wǎng)絡(luò)為例展開(kāi)分析，由4.1節(jié)可知，基于2D CNN方法的TSN和TSM網(wǎng)絡(luò)需要對(duì)數(shù)據(jù)進(jìn)行分段處理，然后從每段數(shù)據(jù)中取出一幀輸入網(wǎng)絡(luò)，本文對(duì)網(wǎng)絡(luò)分段數(shù)與最終動(dòng)作識(shí)別的精度之間的關(guān)系進(jìn)行探究。以TSM網(wǎng)絡(luò)為例，網(wǎng)絡(luò)的輸入數(shù)據(jù)的長(zhǎng)度為40幀，為了減少非等間距采樣對(duì)結(jié)果的影響，本文將輸入數(shù)據(jù)分為可以被40整除的段數(shù)，即為4段、5段、8段、10段，以及20段。分別使用幾種分段數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，并使用S1數(shù)據(jù)進(jìn)行驗(yàn)證，得到100個(gè)訓(xùn)練周期對(duì)應(yīng)的測(cè)試結(jié)果，具體如圖11所示，其中圖11(a)為不同分割段數(shù)的TSM網(wǎng)絡(luò)測(cè)試在不同訓(xùn)練周期得到的動(dòng)作識(shí)別測(cè)試精度，圖11(b)是不同分割段數(shù)的最佳測(cè)試精度。由圖11可知，隨著分段數(shù)目的增多，網(wǎng)絡(luò)的數(shù)據(jù)量增大，獲取到更多的目標(biāo)運(yùn)動(dòng)信息，所以得到了較好的動(dòng)作識(shí)別精度。

圖11 TSM網(wǎng)絡(luò)測(cè)試結(jié)果Fig.11 TSM network test results

為了直觀了解不同動(dòng)作的識(shí)別率，本節(jié)對(duì)網(wǎng)絡(luò)在不同場(chǎng)景的測(cè)試結(jié)果進(jìn)行對(duì)比分析，以基于3D CNN的Res3D網(wǎng)絡(luò)為例，得到3個(gè)不同場(chǎng)景下的測(cè)試結(jié)果如表7所示。由表可知，S1和S2場(chǎng)景中的動(dòng)作識(shí)別率較高，而S3場(chǎng)景由于電磁波能量減弱，對(duì)揮手、踢腿等輕微動(dòng)作的識(shí)別率較低。同時(shí)，該網(wǎng)絡(luò)對(duì)坐下和靜坐兩個(gè)動(dòng)作的識(shí)別率都較高。

表7 Res3D網(wǎng)絡(luò)在不同場(chǎng)景下的動(dòng)作識(shí)別精度(%)Tab.7 Human activity recognition accuracy of Res3D networks in different scenes (%)

4.3 實(shí)驗(yàn)討論

本節(jié)借鑒計(jì)算機(jī)視覺(jué)領(lǐng)域的動(dòng)作識(shí)別算法實(shí)現(xiàn)了4種基于雷達(dá)四維成像數(shù)據(jù)集的動(dòng)作識(shí)別網(wǎng)絡(luò)，分別是TSN,TSM,Res3D和SFN，并對(duì)4種網(wǎng)絡(luò)的算法框架進(jìn)行了介紹。為了便于網(wǎng)絡(luò)處理，本文對(duì)四維數(shù)據(jù)進(jìn)行了3個(gè)方向的最大值投影，然后分別使用S1場(chǎng)景下9人的數(shù)據(jù)進(jìn)行訓(xùn)練，使用其他2人在3個(gè)場(chǎng)景下的數(shù)據(jù)分別進(jìn)行測(cè)試。對(duì)測(cè)試結(jié)果進(jìn)行分析可知，Res3D網(wǎng)絡(luò)在同一場(chǎng)景表現(xiàn)良好，測(cè)試識(shí)別精度達(dá)到了92.25%，同時(shí)Res3D網(wǎng)絡(luò)對(duì)非訓(xùn)練場(chǎng)景的動(dòng)作識(shí)別精度最高，網(wǎng)絡(luò)的魯棒性更強(qiáng)。與其他幾種方法相比，Res3D網(wǎng)絡(luò)沒(méi)有對(duì)數(shù)據(jù)進(jìn)行離散采樣，保留了所有幀的雷達(dá)數(shù)據(jù)，所以取得了較高的動(dòng)作識(shí)別精度，但也消耗了較多的運(yùn)算量。

需要說(shuō)明的是，本文實(shí)驗(yàn)中所采取的投影方式實(shí)現(xiàn)了數(shù)據(jù)的壓縮，同時(shí)也造成了數(shù)據(jù)的損失，該方法并非最優(yōu)，僅供數(shù)據(jù)庫(kù)使用者參考，實(shí)際應(yīng)用中也可以采取其他數(shù)據(jù)降維策略。另外，本文所使用的動(dòng)作識(shí)別網(wǎng)絡(luò)未根據(jù)雷達(dá)圖像屬性進(jìn)行相應(yīng)修改，識(shí)別率仍有較大的提升空間。因此，本文建議該數(shù)據(jù)集的未來(lái)研究可以從以下兩個(gè)方面入手。

(1) 數(shù)據(jù)降維預(yù)處理。四維雷達(dá)圖像區(qū)別于三維光學(xué)視頻數(shù)據(jù)，多了一維距離信息，現(xiàn)有網(wǎng)絡(luò)無(wú)法直接處理，因此如何設(shè)計(jì)方法對(duì)四維數(shù)據(jù)進(jìn)行降維，且最大限度保留人體運(yùn)動(dòng)信息具有一定的研究?jī)r(jià)值。

(2) 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。雷達(dá)系統(tǒng)與光學(xué)系統(tǒng)的成像機(jī)理存在差異，人體位置和運(yùn)動(dòng)特征分布略有不同。因此，可結(jié)合雷達(dá)系統(tǒng)提取雷達(dá)圖像特有屬性，如多普勒特征，合理設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)，進(jìn)一步提高動(dòng)作識(shí)別精度。

5 總結(jié)

針對(duì)基于雷達(dá)傳感器的人體行為感知領(lǐng)域公開(kāi)數(shù)據(jù)集缺乏的問(wèn)題，本文公開(kāi)了一種基于超寬帶雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集，稱(chēng)為UWB-HA4D-1.0。該數(shù)據(jù)集以具有距離-方位-高度三維空間分辨能力的超寬帶MIMO雷達(dá)為數(shù)據(jù)采集系統(tǒng)，通過(guò)MIMO雷達(dá)成像方法獲取人體目標(biāo)的三維成像結(jié)果，聯(lián)合時(shí)間信息構(gòu)成包含人體動(dòng)作信息的四維成像。數(shù)據(jù)集有11個(gè)身高體重不同的人體目標(biāo)、10種常見(jiàn)的動(dòng)作類(lèi)型、3種不同的測(cè)試場(chǎng)景，共計(jì)2757組人體動(dòng)作數(shù)據(jù)，其中訓(xùn)練集1557組，3個(gè)測(cè)試集共1200組數(shù)據(jù)。本文對(duì)數(shù)據(jù)集的采集和制作、人體目標(biāo)和動(dòng)作信息，以及系統(tǒng)標(biāo)注做了詳細(xì)介紹。同時(shí)，分析了當(dāng)前幾種主流的動(dòng)作識(shí)別方法。并使用了部分動(dòng)作識(shí)別網(wǎng)絡(luò)在本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)測(cè)試，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和討論，旨在為數(shù)據(jù)集使用者提供網(wǎng)絡(luò)設(shè)計(jì)和動(dòng)作識(shí)別精度參考。

本數(shù)據(jù)集是首個(gè)基于雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集，填補(bǔ)了此領(lǐng)域的空白。然而，本數(shù)據(jù)集仍存在一些問(wèn)題待解決，比如系統(tǒng)成像幀率偏低、人體目標(biāo)位置相對(duì)單一、動(dòng)作類(lèi)型豐富性不夠、未對(duì)動(dòng)作的起始幀和結(jié)束幀進(jìn)行標(biāo)注等問(wèn)題。針對(duì)現(xiàn)存問(wèn)題，下一步的任務(wù)有以下幾項(xiàng)。

(1) 優(yōu)化系統(tǒng)參數(shù)，提高信號(hào)幀率。較高的信號(hào)幀率可以更好地捕捉人體目標(biāo)的動(dòng)作信息，可基于高幀率雷達(dá)信號(hào)提取人體目標(biāo)的微多普勒信息，與雷達(dá)四維成像結(jié)合進(jìn)一步提高動(dòng)作識(shí)別精度。

(2) 增加多位置、多人數(shù)據(jù)，豐富人體動(dòng)作類(lèi)型。三維超寬帶雷達(dá)具有三維空間分辨能力，增加多人場(chǎng)景下的數(shù)據(jù)，可進(jìn)行多人動(dòng)作同時(shí)識(shí)別的方法研究，具有較大的實(shí)用意義。

(3) 對(duì)人體動(dòng)作信息做更加詳細(xì)的標(biāo)注。對(duì)人體運(yùn)動(dòng)的起始幀和結(jié)束幀進(jìn)行詳細(xì)標(biāo)注有助于人體目標(biāo)動(dòng)作進(jìn)行定位和識(shí)別的多任務(wù)研究，加速推動(dòng)雷達(dá)動(dòng)作識(shí)別系統(tǒng)的實(shí)用化進(jìn)程。

(4) 多傳感器融合。單一傳感器存在探測(cè)局限，未來(lái)可結(jié)合光學(xué)傳感器、分布式雷達(dá)傳感器等多源傳感器實(shí)現(xiàn)對(duì)人體目標(biāo)的全方位、多角度探測(cè)，提高人體行為感知能力。

附錄

超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集-1.0 (UWBHA4D-1.0)依托《雷達(dá)學(xué)報(bào)》官方網(wǎng)站發(fā)布，數(shù)據(jù)于每次更新后上傳至學(xué)報(bào)網(wǎng)站“超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集-1.0”頁(yè)面(附圖1)，網(wǎng)址為：https://radars.ac.cn/web/data/getData?dataType=UWBHA4D。由于網(wǎng)站存儲(chǔ)空間限制，本次只上傳了部分?jǐn)?shù)據(jù)，完整數(shù)據(jù)的獲取可以聯(lián)系編輯部或作者。

附圖1 超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集1.0發(fā)布網(wǎng)頁(yè)App.Fig.1 Release webpage of ultra-wideband radar human activity 4D imaging dataset

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放