金 添 宋永坤 戴永鵬 胡錫坤 宋勇平 周小龍 邱志峰
(國(guó)防科技大學(xué)電子科學(xué)學(xué)院 長(zhǎng)沙 410073)
人體動(dòng)作識(shí)別技術(shù)應(yīng)用于健康監(jiān)護(hù)、運(yùn)動(dòng)分析、智能家居、場(chǎng)景監(jiān)控等諸多領(lǐng)域,是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[1]。所謂動(dòng)作識(shí)別,即通過(guò)對(duì)視頻或圖像序列進(jìn)行處理分析,構(gòu)建視頻與人體動(dòng)作之間的映射關(guān)系,使計(jì)算機(jī)能夠像人一樣去理解視頻[2]。隨著深度學(xué)習(xí)的出現(xiàn)和傳感器技術(shù)的發(fā)展,大量的人體動(dòng)作數(shù)據(jù)可以使用低廉的攝像頭獲取,為深度學(xué)習(xí)的訓(xùn)練提供了數(shù)據(jù)支撐,以可見(jiàn)光、結(jié)構(gòu)光為探測(cè)手段的深度學(xué)習(xí)動(dòng)作識(shí)別研究取得了較大成效[3],逐漸取代傳統(tǒng)算法。目前,在計(jì)算機(jī)視覺(jué)領(lǐng)域,已有眾多基于光學(xué)傳感器的人體動(dòng)作識(shí)別數(shù)據(jù)集,如KTH[4],UCF-101[5],HMDB[6],Kinetics[7],NTU RGB+D[8]等,這些數(shù)據(jù)集中樣本的數(shù)目由幾千到幾十萬(wàn)不等,為研究者提供了便利的研究條件,進(jìn)一步推動(dòng)了動(dòng)作識(shí)別技術(shù)的應(yīng)用落地。
隨著時(shí)代的進(jìn)步,人們對(duì)動(dòng)作識(shí)別系統(tǒng)的應(yīng)用場(chǎng)景和隱私保護(hù)等方面提出了更高的要求。傳統(tǒng)的光學(xué)傳感器無(wú)法在無(wú)光、遮蔽和非視距等復(fù)雜環(huán)境下工作且存在隱私泄露的風(fēng)險(xiǎn),無(wú)法適應(yīng)多樣性的應(yīng)用需求。然而,以電磁波信號(hào)為信息傳遞載體的雷達(dá)是一種主動(dòng)探測(cè)系統(tǒng),得益于電磁波的穿透性,雷達(dá)系統(tǒng)可以在遮擋環(huán)境下穩(wěn)定工作。同時(shí),雷達(dá)系統(tǒng)通過(guò)分析人體目標(biāo)反射回波提取人體動(dòng)作信息,不直接獲取人體面部信息,具有較好的隱私保護(hù)性能[9]。因此,相比于被動(dòng)探測(cè)的光學(xué)傳感器,基于雷達(dá)傳感器的人體動(dòng)作識(shí)別系統(tǒng)有更廣泛的使用場(chǎng)景,具有較大的研究?jī)r(jià)值。
利用雷達(dá)進(jìn)行人體動(dòng)作識(shí)別的一般步驟是,首先選擇合適的人體動(dòng)作特征,然后從接收的雷達(dá)回波中提取有效特征,最后采用合適的分類(lèi)器實(shí)現(xiàn)動(dòng)作識(shí)別。早期的研究大多使用手工提取特征的方法,采用一定的雷達(dá)信號(hào)處理方法,首先提取雷達(dá)信號(hào)的幅度、頻率、相位等信號(hào)波形特性[10],目標(biāo)的距離、方位、高度等目標(biāo)特性,以及微多普勒運(yùn)動(dòng)等信息作為特征,再使用支持向量機(jī)、貝葉斯分類(lèi)、決策樹(shù)等傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)[11]。然而,此類(lèi)方法在實(shí)現(xiàn)過(guò)程中涉及多項(xiàng)操作,需要大量人工干預(yù),且動(dòng)作識(shí)別的精度不高,應(yīng)用受限。近年來(lái),深度學(xué)習(xí)技術(shù)在光學(xué)動(dòng)作識(shí)別領(lǐng)域表現(xiàn)良好,實(shí)現(xiàn)了特征設(shè)計(jì)、提取和分類(lèi)識(shí)別的一體化的設(shè)計(jì),動(dòng)作識(shí)別精度均優(yōu)于傳統(tǒng)算法,一些學(xué)者開(kāi)始將此技術(shù)應(yīng)用于雷達(dá)人體動(dòng)作識(shí)別的研究中[12]。加州大學(xué)的Kim等人[13]最早將雷達(dá)回波信號(hào)處理得到的微多普勒譜輸入3層卷積神經(jīng)網(wǎng)絡(luò)中,取得了較好的動(dòng)作識(shí)別準(zhǔn)確率。美國(guó)約翰霍普金斯大學(xué)Craley等人[14]引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)對(duì)雷達(dá)多普勒?qǐng)D像進(jìn)行分類(lèi)識(shí)別,充分利用了人體動(dòng)作特征中的時(shí)序信息。電子科技大學(xué)的Wang等人[15]設(shè)計(jì)了一種多個(gè)LSTM堆疊的網(wǎng)絡(luò)結(jié)構(gòu),并在實(shí)測(cè)數(shù)據(jù)上進(jìn)行了驗(yàn)證,動(dòng)作識(shí)別精度優(yōu)于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)。北京郵電大學(xué)Li等人[16]采用遷移學(xué)習(xí)方法來(lái)解決小樣本雷達(dá)數(shù)據(jù)集下的人體行為識(shí)別問(wèn)題,提高了網(wǎng)絡(luò)對(duì)于新場(chǎng)景下人體行為識(shí)別的泛化能力。國(guó)防科技大學(xué)的Du等人[17]提出了基于距離-多普勒-時(shí)間的三維點(diǎn)云輸入模式,距離信息的引入提高了不同位置肢體的差異,進(jìn)一步改善了動(dòng)作識(shí)別率。北京大學(xué)李廉林等人[18]基于智能電磁感知技術(shù)使用低成本的超材料天線(xiàn)實(shí)現(xiàn)了個(gè)體和肢體動(dòng)作的智能識(shí)別,拓寬了人體感知的研究方向[19]。
目前基于雷達(dá)傳感器的人體動(dòng)作識(shí)別數(shù)據(jù)集相對(duì)稀缺,在一定程度上制約了深度學(xué)習(xí)在雷達(dá)人體動(dòng)作識(shí)別領(lǐng)域的發(fā)展。盡管部分學(xué)者公布了一些雷達(dá)動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集[20–22],但這些數(shù)據(jù)集大都基于單通道或者較少通道的雷達(dá)回波信號(hào)的多普勒特征進(jìn)行動(dòng)作識(shí)別,而多普勒特征包含的信息量遠(yuǎn)不如光學(xué)傳感器提供的人體姿態(tài)圖像特征豐富,使得在人體動(dòng)作識(shí)別領(lǐng)域中雷達(dá)傳感器的實(shí)用化遠(yuǎn)遠(yuǎn)滯后于光學(xué)傳感器。近年來(lái),低頻超寬帶多輸入多輸出(Multiple-Input Multiple-Output,MIMO)雷達(dá)技術(shù)逐漸成熟,在實(shí)現(xiàn)較好穿透性的同時(shí),具有距離、方位和高度三維信息感知能力,能夠獲取與光學(xué)傳感器類(lèi)似的人體姿態(tài)圖像序列[23]。另外,相比于單通道或少通道雷達(dá)系統(tǒng),MIMO雷達(dá)具有更好的空間分辨能力,可實(shí)現(xiàn)多目標(biāo)的探測(cè)和分離,有較大的研究?jī)r(jià)值。然而,由于缺少相關(guān)公開(kāi)數(shù)據(jù)集,嚴(yán)重限制了MIMO雷達(dá)傳感器在人體動(dòng)作識(shí)別領(lǐng)域的實(shí)用化進(jìn)程。
為了促進(jìn)雷達(dá)人體動(dòng)作識(shí)別研究的發(fā)展,豐富雷達(dá)數(shù)據(jù)集的多樣性,本文基于低頻超寬帶MIMO雷達(dá),構(gòu)建了超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集(Ultra-Wideband radar Human Activity 4D imaging dataset,UWB-HA4D-1.0)。不同于傳統(tǒng)的基于微多普勒譜進(jìn)行動(dòng)作識(shí)別的數(shù)據(jù)集,該數(shù)據(jù)集是國(guó)際首個(gè)基于雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集,開(kāi)辟了人體動(dòng)作識(shí)別領(lǐng)域研究的新路線(xiàn)。本數(shù)據(jù)集包含人體目標(biāo)的距離-方位-高度-時(shí)間四維信息,共采集了11個(gè)不同體型人體目標(biāo)的10種不同動(dòng)作,以及3種不同場(chǎng)景的雷達(dá)數(shù)據(jù)。該數(shù)據(jù)集已可通過(guò)《雷達(dá)學(xué)報(bào)》官網(wǎng)的相關(guān)鏈接(https://radars.ac.cn/web/data/getData?dataType=UWB-HA4D)免費(fèi)下載使用。另外,本文以PaddlePaddle為網(wǎng)絡(luò)框架,使用了計(jì)算機(jī)視覺(jué)領(lǐng)域幾種常用的動(dòng)作識(shí)別深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,為該數(shù)據(jù)集的使用和開(kāi)發(fā)提供參考,方便其他學(xué)者進(jìn)行更進(jìn)一步的探索研究。
結(jié)合雷達(dá)人體動(dòng)作四維數(shù)據(jù)采集的任務(wù)需求,本節(jié)對(duì)所需雷達(dá)系統(tǒng)的參數(shù)進(jìn)行討論分析。關(guān)于雷達(dá)系統(tǒng)的工作頻段的選擇,已知工作于0~3 GHz頻段的低頻雷達(dá)有較好的穿透性,可穿透多種墻體介質(zhì)對(duì)遮擋目標(biāo)進(jìn)行探測(cè)[24],適用于多種探測(cè)場(chǎng)景。而超寬帶雷達(dá)相比于窄帶雷達(dá)具有更優(yōu)的距離分辨率,可獲取目標(biāo)高精度距離信息[25]。對(duì)于雷達(dá)系統(tǒng)的信號(hào)體制而言,常見(jiàn)的有窄脈沖信號(hào)、線(xiàn)性調(diào)頻信號(hào)、步進(jìn)頻信號(hào)等,相比于其他兩種信號(hào),步進(jìn)頻信號(hào)具有高發(fā)射功率,頻帶拓展性好、大時(shí)寬、大帶寬的特性,有效克服了窄脈沖信號(hào)平均功率較低的缺陷,廣泛應(yīng)用于超寬帶雷達(dá)領(lǐng)域[26]。關(guān)于雷達(dá)系統(tǒng)的陣列構(gòu)型,按照天線(xiàn)的排布可分為一維雷達(dá)、二維雷達(dá)和三維雷達(dá)[27],其中一維雷達(dá)采用單發(fā)單收的天線(xiàn)形式,僅具有距離分辨能力;二維MIMO雷達(dá)的天線(xiàn)采用一維線(xiàn)陣排布,可提供目標(biāo)的距離、方位二維信息;三維MIMO超寬帶雷達(dá)的天線(xiàn)采用二維面陣排布,可獲取目標(biāo)的距離、方位、高度三維信息,對(duì)人體的肢體輪廓進(jìn)行描繪。相比于一維和二維雷達(dá),三維雷達(dá)可提供更詳細(xì)的人體目標(biāo)信息,對(duì)判定人體目標(biāo)的行為狀態(tài)提供了良好的信息支撐。因此,本文采用二維MIMO雷達(dá)陣列發(fā)射低頻超寬帶步進(jìn)頻信號(hào)的雷達(dá)系統(tǒng)技術(shù)方案。
綜合考慮多種因素,本文設(shè)計(jì)了一款三維超寬帶MIMO雷達(dá)系統(tǒng),系統(tǒng)參數(shù)指標(biāo)如表1所示。為了獲取更好的方位和高度向分辨率,保證雷達(dá)成像質(zhì)量,系統(tǒng)采用了10發(fā)10收的大規(guī)模MIMO陣列排布形式,陣列尺寸為60 cm×88 cm。由于采用了1.78~2.78 GHz的低頻電磁波信號(hào),雷達(dá)系統(tǒng)具有較好的穿透性,可穿透幕布、木板、塑料、泡沫、磚墻等常見(jiàn)遮擋物進(jìn)行目標(biāo)探測(cè)。另外,本系統(tǒng)的信號(hào)發(fā)射功率僅為20 dBm,不會(huì)對(duì)人體造成傷害。
表1 雷達(dá)系統(tǒng)參數(shù)Tab.1 Radar system parameters
本文所設(shè)計(jì)的三維超寬帶MIMO雷達(dá)系統(tǒng)樣機(jī)如圖1所示,其中雷達(dá)系統(tǒng)進(jìn)行信號(hào)的發(fā)射和接收,計(jì)算機(jī)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和實(shí)時(shí)處理。二維MIMO陣列的等效圖如圖2(a)所示,左右兩側(cè)的陣列為發(fā)射天線(xiàn),上下兩行的陣列為接收天線(xiàn),10發(fā)10收的陣列等效為100個(gè)虛擬陣元,本陣列設(shè)計(jì)將發(fā)射天線(xiàn)在高度維不規(guī)則排布來(lái)降低旁瓣水平。二維MIMO陣列實(shí)物圖如圖2(b)所示,其中天線(xiàn)陣元結(jié)構(gòu)為寬帶蝶形陣子天線(xiàn)。
圖1 三維超寬帶MIMO雷達(dá)系統(tǒng)Fig.1 Three-dimensional UWB MIMO radar system
圖2 二維MIMO陣列Fig.2 Two-dimensional MIMO array
雷達(dá)回波信號(hào)的采集和處理流程如圖3所示,首先MIMO雷達(dá)發(fā)射電磁波信號(hào),并接收人體目標(biāo)反射回波,對(duì)接收到的100個(gè)通道的雷達(dá)回波進(jìn)行動(dòng)目標(biāo)顯示(Moving Target Indication,MTI)處理[28],濾除靜止雜波。然后進(jìn)行大范圍的方位-距離二維成像,成像區(qū)域?yàn)樵O(shè)定的系統(tǒng)探測(cè)范圍,對(duì)二維成像結(jié)果進(jìn)行恒虛警率(Constant False Alarm Rate,CFAR)檢測(cè)[29]和跟蹤處理來(lái)鎖定目標(biāo)在方位-距離二維平面的位置,最后對(duì)目標(biāo)所在位置的方位向±1 m、距離向±1 m、高度向0~2.5 m范圍進(jìn)行三維成像(假定目標(biāo)位于地平面)。最后,聯(lián)合時(shí)間維度信息構(gòu)成人體動(dòng)作4D雷達(dá)數(shù)據(jù)。關(guān)于人體目標(biāo)的成像,本文采取的先大范圍二維成像再小范圍三維成像的成像思路,不僅可以避免無(wú)目標(biāo)區(qū)域三維成像造成的運(yùn)算量浪費(fèi),節(jié)約成像時(shí)間,還可以保證三維成像結(jié)果有足夠的成像網(wǎng)格密度,兼顧了成像效率和成像質(zhì)量。
圖3 數(shù)據(jù)采集與處理流程Fig.3 Data collection and processing flow
本文選擇后向投影(Back Projection,BP)算法[30]作為MIMO雷達(dá)成像算法,該算法是一種典型的時(shí)域成像算法,對(duì)陣元排布沒(méi)有特殊要求,廣泛應(yīng)用于各種MIMO陣列成像領(lǐng)域。BP算法的基本思想是對(duì)成像區(qū)域進(jìn)行網(wǎng)格劃分,計(jì)算在成像區(qū)域中的像素點(diǎn)到天線(xiàn)陣列的距離從而計(jì)算出傳輸?shù)臅r(shí)間延遲,根據(jù)這個(gè)時(shí)間延遲來(lái)搜索天線(xiàn)陣列接收到的雷達(dá)回波信號(hào),將每個(gè)通道的回波信號(hào)進(jìn)行疊加計(jì)算[31]。雖然B P 成像算法運(yùn)算量稍大,但配合G P U強(qiáng)大的并行運(yùn)算能力,BP算法成像耗時(shí)通常并不顯著高于其他成像算法。因此,本數(shù)據(jù)集的數(shù)據(jù)生成階段采用BP算法進(jìn)行雷達(dá)成像。
本數(shù)據(jù)集的采集場(chǎng)景有3個(gè),分別是無(wú)遮擋場(chǎng)景S1,3 cm塑料板遮擋場(chǎng)景S2,以及27 cm磚墻遮擋場(chǎng)景S3,具體信息及場(chǎng)景照片如表2和圖4所示。本數(shù)據(jù)集中的訓(xùn)練集只是在S1場(chǎng)景下采集,而測(cè)試集包括了S1,S2,S3 3個(gè)場(chǎng)景的數(shù)據(jù),其中場(chǎng)景S2和S3的數(shù)據(jù)可以用來(lái)測(cè)試所設(shè)計(jì)的動(dòng)作識(shí)別方法的環(huán)境適應(yīng)性。需要說(shuō)明的是,本文在不同的場(chǎng)景都采用直接成像的方式獲取四維雷達(dá)圖像,未根據(jù)不同材料墻體遮擋對(duì)電磁波信號(hào)造成的影響進(jìn)行補(bǔ)償。
圖4 數(shù)據(jù)集采集場(chǎng)景Fig.4 Dataset collection scenes
本數(shù)據(jù)集所采集的10種動(dòng)作類(lèi)別示意圖如圖5所示,10種動(dòng)作分別為開(kāi)雙臂、打拳、靜坐、踢腿、坐下、站立、向前走、向左走、向右走、揮手。相比于使用運(yùn)動(dòng)微多普勒信息進(jìn)行動(dòng)作識(shí)別的數(shù)據(jù)集僅有運(yùn)動(dòng)動(dòng)作,本數(shù)據(jù)集包含了目標(biāo)人體各個(gè)身體部位的位置和運(yùn)動(dòng)雙重信息,可以對(duì)運(yùn)動(dòng)和靜止人體動(dòng)作進(jìn)行識(shí)別。因此,本數(shù)據(jù)集中不僅有運(yùn)動(dòng)動(dòng)作還有像靜坐、站立這樣的靜止動(dòng)作,以及向左走、向右走這類(lèi)易混淆動(dòng)作,提供了更加豐富的動(dòng)作類(lèi)型。各個(gè)動(dòng)作的組數(shù)如表3所示,每個(gè)動(dòng)作的組數(shù)在269~278組,其中訓(xùn)練集組數(shù)都在149~158組,3個(gè)場(chǎng)景的測(cè)試集中每個(gè)動(dòng)作為40組,共120組。共采集2757組動(dòng)作,每組動(dòng)作40幀三維雷達(dá)數(shù)據(jù),共110280幀數(shù)據(jù)。
表3 不同動(dòng)作的數(shù)據(jù)量(組)Tab.3 The amount of data for different actions (groups)
圖5 動(dòng)作類(lèi)型Fig.5 Activity types
取其中一組開(kāi)雙臂的雷達(dá)成像數(shù)據(jù)做方位-高度向最大值投影進(jìn)行數(shù)據(jù)預(yù)覽,結(jié)果如圖6所示,分別是第10幀、第24幀、第32幀、第40幀的參考光學(xué)圖像和雷達(dá)圖像投影。由圖6可知,本雷達(dá)系統(tǒng)的成像結(jié)果保留了人體目標(biāo)的身體輪廓和軀干運(yùn)動(dòng)信息,可以用于不同動(dòng)作的識(shí)別。
圖6 三維雷達(dá)圖像投影Fig.6 Projection of three-dimensional images
為了保證數(shù)據(jù)集中人體目標(biāo)的多樣性,本文采集了11個(gè)不同身高體重的人體目標(biāo),具體信息如表4所示,其中身高范圍是163~186 cm,體重范圍是53~85 kg。本文對(duì)人體目標(biāo)進(jìn)行編號(hào),分別是H1—H11,根據(jù)人體目標(biāo)的身高體重分布,選擇不同身高體重段具有代表性的H6和H8為測(cè)試目標(biāo)。另外,H1—H11只在S1場(chǎng)景錄制訓(xùn)練集,而H6和H8兩個(gè)人體目標(biāo)在S1,S2,S3 3個(gè)場(chǎng)景分別錄制測(cè)試集。
表4 人體目標(biāo)信息Tab.4 Human target information
本數(shù)據(jù)集對(duì)10個(gè)不同的動(dòng)作分別標(biāo)號(hào)是A1—A10,真值標(biāo)號(hào)為0~9,具體如表5所示。數(shù)據(jù)以mat格式存儲(chǔ),每個(gè)文件的命名規(guī)則為“Am_Hn_Sp_q.mat”,其中Am為動(dòng)作編號(hào),m=1,2,···,10,Hn為人體目標(biāo)編號(hào),n=1,2,···,11,Sp為場(chǎng)景,p=1,2,3,q為組號(hào)。以“A2_H5_S1_9.mat”為例,該文件名即指在S1場(chǎng)景下H5目標(biāo)的A2動(dòng)作的第9組數(shù)據(jù)。每組數(shù)據(jù)中,存儲(chǔ)雷達(dá)四維圖像的矩陣名稱(chēng)為“radar_data_sequence”,數(shù)據(jù)的大小為40×64×64×64,其中40是三維雷達(dá)圖像的幀數(shù),64×64×64是三維雷達(dá)圖像的大小,所有三維成像結(jié)果均為歸一化后的幅度圖。同時(shí),本數(shù)據(jù)集提供了4個(gè)標(biāo)注文件“train_label.txt”、“test_S1_label.txt”、“test_S2_label.txt”、“test_S3_label.txt”,分別對(duì)應(yīng)1個(gè)訓(xùn)練集和3個(gè)測(cè)試集的標(biāo)簽。標(biāo)簽內(nèi)容為“A2/A2_H5_S1_9.mat 3”,其中A2為動(dòng)作類(lèi)型文件夾名稱(chēng),“A2_H5_S1_9.mat”為四維雷達(dá)數(shù)據(jù)名稱(chēng),3為動(dòng)作類(lèi)型真值標(biāo)號(hào),與數(shù)據(jù)名以空格隔開(kāi)。
表5 人體動(dòng)作標(biāo)號(hào)Tab.5 Human activity labels
現(xiàn)有的動(dòng)作識(shí)別方法可分為傳統(tǒng)動(dòng)作識(shí)別方法和基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法,其中傳統(tǒng)動(dòng)作識(shí)別方法包括基于模板匹配的方法[32]、基于時(shí)空興趣點(diǎn)檢測(cè)的方法[33]、基于關(guān)節(jié)點(diǎn)軌跡跟蹤的方法[34]。對(duì)于基于深度學(xué)習(xí)方法的動(dòng)作識(shí)別方法,根據(jù)網(wǎng)絡(luò)卷積維度的不同可以分為基于二維卷積神經(jīng)網(wǎng)絡(luò)(Two Dimensional Convolutional Neural Networks,2D CNN)的方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)(Three Dimensional Convolutional Neural Networks,3D CNN)的方法。由于基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法在實(shí)現(xiàn)復(fù)雜度和識(shí)別精度方面均有優(yōu)異的表現(xiàn),逐漸取代了傳統(tǒng)動(dòng)作識(shí)別算法,因此,本節(jié)只介紹基于深度學(xué)習(xí)的幾種經(jīng)典動(dòng)作識(shí)別方法。
基于2D CNN的動(dòng)作識(shí)別方法研究主要有基于雙流網(wǎng)絡(luò)和基于時(shí)間特征提取模塊的兩個(gè)研究分支。Simonyan等人[35]最早提出了基于2D CNN的雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了兩個(gè)相互獨(dú)立的流,分別是空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò),其中空間流用于構(gòu)建外觀特征,時(shí)間流用來(lái)構(gòu)建運(yùn)動(dòng)特征,最后將兩個(gè)網(wǎng)絡(luò)流的softmax結(jié)果融合,得到預(yù)測(cè)的動(dòng)作類(lèi)型。該網(wǎng)絡(luò)存在的缺點(diǎn)是僅考慮了相鄰幀之間的運(yùn)動(dòng)特征,對(duì)于長(zhǎng)時(shí)間運(yùn)動(dòng)特征的提取具有一定的局限性。為了解決這個(gè)問(wèn)題,Wang等人[36]在雙流網(wǎng)絡(luò)的基礎(chǔ)上提出了一種時(shí)域分段網(wǎng)絡(luò)(Time Segment Network,TSN),該網(wǎng)絡(luò)引入了稀疏采樣的方法,將輸入網(wǎng)絡(luò)的視頻分割成若干個(gè)視頻片段,再進(jìn)行時(shí)空特征提取,最后對(duì)各個(gè)片段的特征提取結(jié)果進(jìn)行融合,得到預(yù)測(cè)結(jié)果。該方法具有全局時(shí)空特征的提取能力,有效解決了原始雙流網(wǎng)絡(luò)存在的長(zhǎng)時(shí)間運(yùn)動(dòng)特征提取能力差的問(wèn)題。但是,TSN的稀疏采樣無(wú)法保證有效動(dòng)作信息的提取。Lin等人[37]提出了一種時(shí)間移位模塊(Temporal Shift Module,TSM)用來(lái)捕獲時(shí)間域上的有效特征。該算法的核心思想是將部分信道沿時(shí)間維進(jìn)行移位,便于相鄰幀之間的信息交換,擴(kuò)大了時(shí)間感受野。其優(yōu)點(diǎn)是在完成有效時(shí)間信息建模的同時(shí),幾乎沒(méi)有帶來(lái)額外的計(jì)算量,并取得了較好的動(dòng)作識(shí)別精度。
基于光學(xué)傳感器的視頻序列中的人體動(dòng)作是方位-高度-時(shí)間的三維數(shù)據(jù),使用3D CNN可以直接獲取人體動(dòng)作在這3個(gè)維度上的特征。Ji等人[38]最早提出采用3D CNN視頻時(shí)空特征提取架構(gòu),該架構(gòu)從相鄰幀數(shù)據(jù)中提取多通道的信息,分別進(jìn)行卷積處理,最后綜合各個(gè)通道的特征預(yù)測(cè)動(dòng)作類(lèi)型。Tran等人[39]在3D CNN的基礎(chǔ)上提出了C3D (Convolutional 3D)框架,該框架最終獲得了比2D CNN更加高效的特征提取。基于前期研究,Tran等人[40]將C3D架構(gòu)與Resnet網(wǎng)絡(luò)相結(jié)合,提出了新的Res3D網(wǎng)絡(luò),進(jìn)一步提高了動(dòng)作識(shí)別精度。為了提高動(dòng)作識(shí)別網(wǎng)絡(luò)對(duì)于時(shí)空特征變化的適應(yīng)性,F(xiàn)eichtenhofer等人[41]提出了快慢網(wǎng)絡(luò)(SlowFast Networks,SFN),該網(wǎng)絡(luò)包含慢幀率和快幀率兩條通道,其中慢幀率通道用來(lái)提取動(dòng)作的空間語(yǔ)義信息,快幀率通道用來(lái)提取精細(xì)的動(dòng)作特征,該網(wǎng)絡(luò)對(duì)變化快的動(dòng)作的識(shí)別具有較大的優(yōu)勢(shì)。
本文選取計(jì)算機(jī)視覺(jué)領(lǐng)域的幾種代表性動(dòng)作識(shí)別方法在UWB-HA4D-1.0數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,主要有基于2D CNN的TSN,TSM,以及基于3D CNN的Res3D,SFN這幾種算法。由于四維雷達(dá)圖像在網(wǎng)絡(luò)處理的過(guò)程中需要消耗大量的運(yùn)算單元,所以本文采取將人體目標(biāo)的三維成像結(jié)果做方位-距離、方位-高度、距離-高度3個(gè)二維平面上的最大值投影,來(lái)實(shí)現(xiàn)減少數(shù)據(jù)量的目的,即將大小為64×64×64的數(shù)據(jù)轉(zhuǎn)化為大小為3×64×64的數(shù)據(jù),以下實(shí)驗(yàn)均基于投影后的數(shù)據(jù)進(jìn)行處理。
本文設(shè)計(jì)的基于TSN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)如圖7所示,首先將時(shí)間為T(mén)的一段四維雷達(dá)數(shù)據(jù)分割成N段,S1,S2,...,SN,分別從N段數(shù)據(jù)中取出一幀三維成像結(jié)果,進(jìn)行3個(gè)平面的最大值投影,并提取光流信息;然后分別使用二維空間卷積提取每一幀雷達(dá)圖像中的空間特征,使用二維時(shí)間卷積提取光流圖中的時(shí)間特征,最后再將時(shí)間和空間特征融合,得到最后的動(dòng)作識(shí)別結(jié)果。
圖7 TSN結(jié)構(gòu)圖Fig.7 TSN structure
基于TSM結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)的預(yù)處理與TSN網(wǎng)絡(luò)一致,首先將四維雷達(dá)數(shù)據(jù)分割成N段,然后分別從每段中取出一幀數(shù)據(jù),共N幀數(shù)據(jù)。然后按照?qǐng)D8的時(shí)間移動(dòng)方法對(duì)N幀數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)分別沿著時(shí)間維進(jìn)行前移和后移,最后使用2D CNN同時(shí)提取時(shí)間和空間信息,得到動(dòng)作識(shí)別結(jié)果。
圖8 TSM網(wǎng)絡(luò)核心結(jié)構(gòu)Fig.8 The core structure of TSM network
基于Res3D網(wǎng)絡(luò)的雷達(dá)圖像人體動(dòng)作識(shí)別網(wǎng)絡(luò)的處理思路是直接使用3D CNN同時(shí)提取連續(xù)幀雷達(dá)圖像中人體動(dòng)作的時(shí)間和空間特征,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示,通過(guò)Resnet網(wǎng)絡(luò)提取特征,最后使用全卷積層實(shí)現(xiàn)動(dòng)作識(shí)別。
圖9 Res3D網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Res3D network structure
基于STN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動(dòng)作識(shí)別方法的實(shí)現(xiàn)框圖如圖10所示,由圖10可知,慢幀率通道相比于快幀率通道的數(shù)據(jù)采樣間隔較大,數(shù)據(jù)量較少,兩個(gè)通道分別使用3D CNN提取特征。另外,快速通道的特征通過(guò)側(cè)向連接與慢速通道相連,實(shí)現(xiàn)特征的融合,最后將兩個(gè)通道的結(jié)果融合得到最終的動(dòng)作預(yù)測(cè)結(jié)果。
圖10 SFN結(jié)構(gòu)圖Fig.10 SFN structure
本節(jié)使用在S1場(chǎng)景下采集的9人的10個(gè)動(dòng)作作為訓(xùn)練集對(duì)4.1節(jié)設(shè)計(jì)的TSN,TSM,Res3D,STN 4個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將其他2人在S1,S2,S3 3個(gè)場(chǎng)景下采集的數(shù)據(jù)作為測(cè)試集。在訓(xùn)練的過(guò)程中,使用Momentum作為優(yōu)化算法,設(shè)置訓(xùn)練循環(huán)周期數(shù)為100,網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01,并分別在第25和第60個(gè)周期以十分之一遞減,batch size設(shè)置為8,num_workers設(shè)置為4。幾種算法的特征提取網(wǎng)絡(luò)是Resnet網(wǎng)絡(luò),網(wǎng)絡(luò)實(shí)現(xiàn)是使用百度公司開(kāi)發(fā)的飛槳平臺(tái)PaddlePaddle框架。網(wǎng)絡(luò)的訓(xùn)練和測(cè)試環(huán)境為Ubuntu 20系統(tǒng),顯卡為NVIDIA RXT2070,計(jì)算機(jī)運(yùn)行內(nèi)存為64GB。
對(duì)4種網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,并對(duì)3個(gè)不同場(chǎng)景的數(shù)據(jù)進(jìn)行測(cè)試,得到結(jié)果如表6所示。由表可知,Res3D網(wǎng)絡(luò)在S1測(cè)試集上取得了最佳識(shí)別精度,達(dá)到了92.25%,優(yōu)于其他幾種方法。對(duì)比S1,S2,S3 3個(gè)測(cè)試場(chǎng)景的動(dòng)作識(shí)別精度可知,S2場(chǎng)景的識(shí)別精度與S1場(chǎng)景較為接近。而S3場(chǎng)景由于較厚墻體的遮擋,電磁波能量衰減較大,成像質(zhì)量與無(wú)遮擋的S1場(chǎng)景相比下降較多,所以動(dòng)作識(shí)別精度也大幅度降低。同時(shí)也可知,基于Res3D的方法在非同一探測(cè)場(chǎng)景下比其他網(wǎng)絡(luò)取得了更好的識(shí)別精度,具有更好的環(huán)境適應(yīng)性,而TSN方法的環(huán)境適應(yīng)性最差。
表6 實(shí)驗(yàn)結(jié)果對(duì)比表Tab.6 Experimental results comparison table
本節(jié)以TSM網(wǎng)絡(luò)為例展開(kāi)分析,由4.1節(jié)可知,基于2D CNN方法的TSN和TSM網(wǎng)絡(luò)需要對(duì)數(shù)據(jù)進(jìn)行分段處理,然后從每段數(shù)據(jù)中取出一幀輸入網(wǎng)絡(luò),本文對(duì)網(wǎng)絡(luò)分段數(shù)與最終動(dòng)作識(shí)別的精度之間的關(guān)系進(jìn)行探究。以TSM網(wǎng)絡(luò)為例,網(wǎng)絡(luò)的輸入數(shù)據(jù)的長(zhǎng)度為40幀,為了減少非等間距采樣對(duì)結(jié)果的影響,本文將輸入數(shù)據(jù)分為可以被40整除的段數(shù),即為4段、5段、8段、10段,以及20段。分別使用幾種分段數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并使用S1數(shù)據(jù)進(jìn)行驗(yàn)證,得到100個(gè)訓(xùn)練周期對(duì)應(yīng)的測(cè)試結(jié)果,具體如圖11所示,其中圖11(a)為不同分割段數(shù)的TSM網(wǎng)絡(luò)測(cè)試在不同訓(xùn)練周期得到的動(dòng)作識(shí)別測(cè)試精度,圖11(b)是不同分割段數(shù)的最佳測(cè)試精度。由圖11可知,隨著分段數(shù)目的增多,網(wǎng)絡(luò)的數(shù)據(jù)量增大,獲取到更多的目標(biāo)運(yùn)動(dòng)信息,所以得到了較好的動(dòng)作識(shí)別精度。
圖11 TSM網(wǎng)絡(luò)測(cè)試結(jié)果Fig.11 TSM network test results
為了直觀了解不同動(dòng)作的識(shí)別率,本節(jié)對(duì)網(wǎng)絡(luò)在不同場(chǎng)景的測(cè)試結(jié)果進(jìn)行對(duì)比分析,以基于3D CNN的Res3D網(wǎng)絡(luò)為例,得到3個(gè)不同場(chǎng)景下的測(cè)試結(jié)果如表7所示。由表可知,S1和S2場(chǎng)景中的動(dòng)作識(shí)別率較高,而S3場(chǎng)景由于電磁波能量減弱,對(duì)揮手、踢腿等輕微動(dòng)作的識(shí)別率較低。同時(shí),該網(wǎng)絡(luò)對(duì)坐下和靜坐兩個(gè)動(dòng)作的識(shí)別率都較高。
表7 Res3D網(wǎng)絡(luò)在不同場(chǎng)景下的動(dòng)作識(shí)別精度(%)Tab.7 Human activity recognition accuracy of Res3D networks in different scenes (%)
本節(jié)借鑒計(jì)算機(jī)視覺(jué)領(lǐng)域的動(dòng)作識(shí)別算法實(shí)現(xiàn)了4種基于雷達(dá)四維成像數(shù)據(jù)集的動(dòng)作識(shí)別網(wǎng)絡(luò),分別是TSN,TSM,Res3D和SFN,并對(duì)4種網(wǎng)絡(luò)的算法框架進(jìn)行了介紹。為了便于網(wǎng)絡(luò)處理,本文對(duì)四維數(shù)據(jù)進(jìn)行了3個(gè)方向的最大值投影,然后分別使用S1場(chǎng)景下9人的數(shù)據(jù)進(jìn)行訓(xùn)練,使用其他2人在3個(gè)場(chǎng)景下的數(shù)據(jù)分別進(jìn)行測(cè)試。對(duì)測(cè)試結(jié)果進(jìn)行分析可知,Res3D網(wǎng)絡(luò)在同一場(chǎng)景表現(xiàn)良好,測(cè)試識(shí)別精度達(dá)到了92.25%,同時(shí)Res3D網(wǎng)絡(luò)對(duì)非訓(xùn)練場(chǎng)景的動(dòng)作識(shí)別精度最高,網(wǎng)絡(luò)的魯棒性更強(qiáng)。與其他幾種方法相比,Res3D網(wǎng)絡(luò)沒(méi)有對(duì)數(shù)據(jù)進(jìn)行離散采樣,保留了所有幀的雷達(dá)數(shù)據(jù),所以取得了較高的動(dòng)作識(shí)別精度,但也消耗了較多的運(yùn)算量。
需要說(shuō)明的是,本文實(shí)驗(yàn)中所采取的投影方式實(shí)現(xiàn)了數(shù)據(jù)的壓縮,同時(shí)也造成了數(shù)據(jù)的損失,該方法并非最優(yōu),僅供數(shù)據(jù)庫(kù)使用者參考,實(shí)際應(yīng)用中也可以采取其他數(shù)據(jù)降維策略。另外,本文所使用的動(dòng)作識(shí)別網(wǎng)絡(luò)未根據(jù)雷達(dá)圖像屬性進(jìn)行相應(yīng)修改,識(shí)別率仍有較大的提升空間。因此,本文建議該數(shù)據(jù)集的未來(lái)研究可以從以下兩個(gè)方面入手。
(1) 數(shù)據(jù)降維預(yù)處理。四維雷達(dá)圖像區(qū)別于三維光學(xué)視頻數(shù)據(jù),多了一維距離信息,現(xiàn)有網(wǎng)絡(luò)無(wú)法直接處理,因此如何設(shè)計(jì)方法對(duì)四維數(shù)據(jù)進(jìn)行降維,且最大限度保留人體運(yùn)動(dòng)信息具有一定的研究?jī)r(jià)值。
(2) 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。雷達(dá)系統(tǒng)與光學(xué)系統(tǒng)的成像機(jī)理存在差異,人體位置和運(yùn)動(dòng)特征分布略有不同。因此,可結(jié)合雷達(dá)系統(tǒng)提取雷達(dá)圖像特有屬性,如多普勒特征,合理設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),進(jìn)一步提高動(dòng)作識(shí)別精度。
針對(duì)基于雷達(dá)傳感器的人體行為感知領(lǐng)域公開(kāi)數(shù)據(jù)集缺乏的問(wèn)題,本文公開(kāi)了一種基于超寬帶雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集,稱(chēng)為UWB-HA4D-1.0。該數(shù)據(jù)集以具有距離-方位-高度三維空間分辨能力的超寬帶MIMO雷達(dá)為數(shù)據(jù)采集系統(tǒng),通過(guò)MIMO雷達(dá)成像方法獲取人體目標(biāo)的三維成像結(jié)果,聯(lián)合時(shí)間信息構(gòu)成包含人體動(dòng)作信息的四維成像。數(shù)據(jù)集有11個(gè)身高體重不同的人體目標(biāo)、10種常見(jiàn)的動(dòng)作類(lèi)型、3種不同的測(cè)試場(chǎng)景,共計(jì)2757組人體動(dòng)作數(shù)據(jù),其中訓(xùn)練集1557組,3個(gè)測(cè)試集共1200組數(shù)據(jù)。本文對(duì)數(shù)據(jù)集的采集和制作、人體目標(biāo)和動(dòng)作信息,以及系統(tǒng)標(biāo)注做了詳細(xì)介紹。同時(shí),分析了當(dāng)前幾種主流的動(dòng)作識(shí)別方法。并使用了部分動(dòng)作識(shí)別網(wǎng)絡(luò)在本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)測(cè)試,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和討論,旨在為數(shù)據(jù)集使用者提供網(wǎng)絡(luò)設(shè)計(jì)和動(dòng)作識(shí)別精度參考。
本數(shù)據(jù)集是首個(gè)基于雷達(dá)四維成像的人體動(dòng)作數(shù)據(jù)集,填補(bǔ)了此領(lǐng)域的空白。然而,本數(shù)據(jù)集仍存在一些問(wèn)題待解決,比如系統(tǒng)成像幀率偏低、人體目標(biāo)位置相對(duì)單一、動(dòng)作類(lèi)型豐富性不夠、未對(duì)動(dòng)作的起始幀和結(jié)束幀進(jìn)行標(biāo)注等問(wèn)題。針對(duì)現(xiàn)存問(wèn)題,下一步的任務(wù)有以下幾項(xiàng)。
(1) 優(yōu)化系統(tǒng)參數(shù),提高信號(hào)幀率。較高的信號(hào)幀率可以更好地捕捉人體目標(biāo)的動(dòng)作信息,可基于高幀率雷達(dá)信號(hào)提取人體目標(biāo)的微多普勒信息,與雷達(dá)四維成像結(jié)合進(jìn)一步提高動(dòng)作識(shí)別精度。
(2) 增加多位置、多人數(shù)據(jù),豐富人體動(dòng)作類(lèi)型。三維超寬帶雷達(dá)具有三維空間分辨能力,增加多人場(chǎng)景下的數(shù)據(jù),可進(jìn)行多人動(dòng)作同時(shí)識(shí)別的方法研究,具有較大的實(shí)用意義。
(3) 對(duì)人體動(dòng)作信息做更加詳細(xì)的標(biāo)注。對(duì)人體運(yùn)動(dòng)的起始幀和結(jié)束幀進(jìn)行詳細(xì)標(biāo)注有助于人體目標(biāo)動(dòng)作進(jìn)行定位和識(shí)別的多任務(wù)研究,加速推動(dòng)雷達(dá)動(dòng)作識(shí)別系統(tǒng)的實(shí)用化進(jìn)程。
(4) 多傳感器融合。單一傳感器存在探測(cè)局限,未來(lái)可結(jié)合光學(xué)傳感器、分布式雷達(dá)傳感器等多源傳感器實(shí)現(xiàn)對(duì)人體目標(biāo)的全方位、多角度探測(cè),提高人體行為感知能力。
附錄
超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集-1.0 (UWBHA4D-1.0)依托《雷達(dá)學(xué)報(bào)》官方網(wǎng)站發(fā)布,數(shù)據(jù)于每次更新后上傳至學(xué)報(bào)網(wǎng)站“超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集-1.0”頁(yè)面(附圖1),網(wǎng)址為:https://radars.ac.cn/web/data/getData?dataType=UWBHA4D。由于網(wǎng)站存儲(chǔ)空間限制,本次只上傳了部分?jǐn)?shù)據(jù),完整數(shù)據(jù)的獲取可以聯(lián)系編輯部或作者。
附圖1 超寬帶雷達(dá)人體動(dòng)作四維成像數(shù)據(jù)集1.0發(fā)布網(wǎng)頁(yè)App.Fig.1 Release webpage of ultra-wideband radar human activity 4D imaging dataset