摘 要:為了解決傳統(tǒng)方式利用攝像頭進(jìn)行人體活動識別抗干擾性差以及侵犯用戶隱私的問題,提出一種基于時空注意的毫米波雷達(dá)3D點云數(shù)據(jù)的人體活動識別網(wǎng)絡(luò),以實現(xiàn)智能應(yīng)用上下文的準(zhǔn)確感知。該網(wǎng)絡(luò)首先使用二級滑動時間窗口分別累積和分離人體活動產(chǎn)生的點云數(shù)據(jù)作為分類器的輸入,利用PointLSTM單元根據(jù)點云坐標(biāo)關(guān)系聚合點特征和狀態(tài)以提取人體活動的時間序列特征;然后拼接時空特征,通過采樣分組模塊降低整體網(wǎng)絡(luò)計算量以及提升網(wǎng)絡(luò)對局部特征的聚合能力;最后使用堆疊的注意力模塊深度融合動態(tài)點云數(shù)據(jù)時空上的全局和局部特征以完成對人體活動任務(wù)的準(zhǔn)確分類。利用毫米波雷達(dá)采集了多種人體活動點云數(shù)據(jù)集,實驗結(jié)果表明,提出的時空注意網(wǎng)絡(luò)平均準(zhǔn)確度可達(dá)98.64%,能夠有效識別復(fù)雜且差異小的人體活動類型,完成人體活動識別系統(tǒng)的要求。
關(guān)鍵詞:人體活動識別;毫米波雷達(dá);點云;二級滑動窗口;時空分布;注意力機(jī)制
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2023)08-049-2549-06
doi:10.19734/j.issn.1001-3695.2022.11.0792
Human activity recognition network for millimeter-wave radar
based on spatio-temporal attention
Zheng Yuanjie Huang Jun Chen Zhouquan
(a.School of Communication amp; Information Engineering,b.Chongqing Key Laboratory of Signal amp; Information Processing,Chongqing University of Posts amp; Telecommunications,Chongqing 400065,China)
Abstract:In order to solve the problems of poor anti-interference and invasion of user privacy in traditional methods of using cameras for human activity recognition,this paper proposed a human activity recognition network based on spatio-temporal attention of millimeter wave radar 3D point cloud data to achieve accurate perception of intelligent application context.The network firstly used a secondary sliding time window to accumulate and separate the point cloud data generated by human activities as the input of the classifier,then used the PointLSTM unit to aggregate point features and states according to the point cloud coordinate relationship to extract the time sequence features of human activities,and then spliced temporal-spatial features,reduced the overall network computation and enhanced the network’s aggregation ability for local featured through sampling grouping modules,and finally used a stacked attention module to deeply fuse global and local features in temporal-spatial point cloud data to complete the accurate classification of human activities.This paper used millimeter wave radar to collect point cloud datasets of various human activities,the experimental results show that the average accuracy of the proposed spatiotemporal attention network can reach 98.64%,which can effectively identify complex and small-difference human activities,and meet the requirements of the human activity recognition system.
Key words:human activity recognition;millimeter wave radar;point cloud;two-level sliding window;spatiotemporal distribution;attention mechanism
0 引言
人類活動識別可以為個性化的服務(wù)提供信息,如輔助監(jiān)測醫(yī)院病人、提供老年護(hù)理和康復(fù)服務(wù)等。傳統(tǒng)方式利用攝像頭以及基于慣性傳感器的可穿戴設(shè)備實現(xiàn)檢測,然而攝像頭會涉及用戶隱私問題,并且對環(huán)境光照有一定要求[1],同時,可穿戴設(shè)備的接觸方式會給用戶使用體驗造成影響,對于老人和小孩群體的使用具有復(fù)雜度。隨著自動化技術(shù)的發(fā)展,帶動了雷達(dá)從軍用領(lǐng)域向民用領(lǐng)域的轉(zhuǎn)變,特別是毫米波雷達(dá),其相較于激光雷達(dá)不但有價格上的優(yōu)勢,同時因為其對霧、灰塵等漂浮顆粒具有更強(qiáng)的穿透能力,在復(fù)雜場景有更好的表現(xiàn)[2],并且它可以保護(hù)用戶的隱私。以上特點使其成為了人體活動識別系統(tǒng)的未來發(fā)展方向之一。
研究人員主要利用毫米波雷達(dá)產(chǎn)生的點云數(shù)據(jù)、距離多普勒以及微多普勒等信息來提取人體活動特征。RadHar[1]框架從3D點云數(shù)據(jù)著手,利用體素化解決點云數(shù)據(jù)的稀疏和不均勻,使用滑動時間窗口的方式累積點云數(shù)據(jù),增加時間維度,實驗采集了五類不同的人類活動點云數(shù)據(jù),并且評估了在四種不同組合分類器下的表現(xiàn),其中性能最好的分類器由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)+雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM) 組成,可以達(dá)到90.47%的準(zhǔn)確率。文獻(xiàn)[3]融合點云和距離多普勒信息來進(jìn)行檢測,使用CNN+LSTM從體素化的點云中提取特征,并且同時使用CNN從距離多普勒中提取特征,最后將兩種特征融合后進(jìn)行分類,在作者自建的數(shù)據(jù)集中可以達(dá)到97.26%的準(zhǔn)確率。文獻(xiàn)[4]利用超寬帶雷達(dá)采集人體動作的四維成像數(shù)據(jù)集,包含人體目標(biāo)的距離—方位—高度—時間四維動作數(shù)據(jù),動作類型包含走路、揮手、打拳等十種動作,在無遮擋環(huán)境下采用Res3D網(wǎng)絡(luò)框架下,識別率可達(dá)92.25%。
點云數(shù)據(jù)的處理相較于圖像而言是不一樣的,點云數(shù)據(jù)是不均勻、無序并且無結(jié)構(gòu)的[5]。利用體素化點云數(shù)據(jù)可以解決點云數(shù)據(jù)稀疏不均勻的特性,但是由于毫米波雷達(dá)產(chǎn)生的稀疏點云數(shù)據(jù)是遠(yuǎn)小于體素化窗格數(shù)量的,經(jīng)過體素化后的毫米波雷達(dá)點云數(shù)據(jù)會顯著增加系統(tǒng)所需內(nèi)存和計算量,導(dǎo)致大量無效的卷積計算,這給網(wǎng)絡(luò)的設(shè)計帶來一定的挑戰(zhàn)。為了解決這個問題,基于端到端的點云數(shù)據(jù)處理出現(xiàn)了各種深度學(xué)習(xí)的學(xué)習(xí)方法。PointNet[5]使用多層感知器(multilayer perceptron,MLP)和最大池化(max-pooling,MP)來保證點特征的排列不變性,使用T-Net[5]結(jié)構(gòu)保證旋轉(zhuǎn)不變性。PointNet++[6]通過對點云進(jìn)行多層次PointNet操作對淺層次特征進(jìn)行提取,使得網(wǎng)絡(luò)能夠兼顧全局和局部的特征。但是上述基于池化算子和分組采樣再卷積的操作適用于具有清晰外部形狀的密集點云數(shù)據(jù),對于稀疏的毫米波雷達(dá)點云數(shù)據(jù)而言,其難以提取到點與點之間的深層次聯(lián)系[7]。
文獻(xiàn)[8~10]設(shè)計了基于注意力機(jī)制的點云處理網(wǎng)絡(luò),能夠捕獲點云中的上下文,取得了較好的分類效果。但注意力機(jī)制在靜態(tài)點云數(shù)據(jù)中能夠捕捉該幀中點與點之間的全局上下文特征,而難以提取動態(tài)點云中幀與幀之間的聯(lián)系。文獻(xiàn)[11,12]通過構(gòu)建移動點云序列中每個點的時空鄰域,聚合特征,可以較好地針對動態(tài)的原始點云序列進(jìn)行學(xué)習(xí)。
受PCT[8]和PointRNN[11]的啟發(fā),本文提出一種基于時空注意力機(jī)制下的毫米波雷達(dá)3D點云數(shù)據(jù)的人體活動分類網(wǎng)絡(luò),該網(wǎng)絡(luò)首先通過兩級時間滑動窗口收集人體活動產(chǎn)生的點云數(shù)據(jù),其中一級窗口稱為活動數(shù)據(jù)累積窗口,含有一級窗口長度下人體活動的分布特征,而二級窗口稱為活動數(shù)據(jù)分離窗口,使用二級窗口長度在一級窗口中進(jìn)行滑動,從而對人體活動的數(shù)據(jù)進(jìn)行分離。二級窗口數(shù)據(jù)序列的順序集合作為網(wǎng)絡(luò)輸入數(shù)據(jù),數(shù)據(jù)中包含人體活動的分布特征以及未被提取的時序特征,將二級窗口數(shù)據(jù)序列利用PointLSTM[11]單元根據(jù)點坐標(biāo)聚合點特征和狀態(tài),從而在分離窗口中提取人體動態(tài)活動的時序特征。將提取到的時序特征增加到對應(yīng)序列數(shù)據(jù)的特征維度中,處理后的數(shù)據(jù)將同時含有人體活動的空間和時間特征,最后利用堆疊的注意力層處理拼接后的時空點云數(shù)據(jù)以深度學(xué)習(xí)人體活動的高維特征,從而對人體活動進(jìn)行分類。
本文對五類人體活動(開合跳、上下跳、下蹲、拳擊、以及行走)進(jìn)行了分類,實驗結(jié)果表明:在與文獻(xiàn)[1]相同的實驗數(shù)據(jù)下,本文提出的網(wǎng)絡(luò)分類準(zhǔn)確度能夠達(dá)到97.68%,鑒于上述數(shù)據(jù)集缺少速度維度的問題,在七位志愿者的幫助下建立了相同動作類型下的毫米波雷達(dá)點云數(shù)據(jù)集(擴(kuò)充速度維度數(shù)據(jù))。在自建數(shù)據(jù)集上,能夠達(dá)到98.64%的識別準(zhǔn)確率。
1 數(shù)據(jù)采集以及預(yù)處理
1.1 數(shù)據(jù)采集
本文選用德州儀器(TI)的IWR6843ISK[13]毫米波雷達(dá)產(chǎn)生點云數(shù)據(jù),其包含3根發(fā)射天線和4根接收天線,使用調(diào)頻連續(xù)波作為發(fā)射信號,可在60~64 GHz頻段工作。毫米波雷達(dá)放置于目標(biāo)上部分并且往下傾斜,以便天線波束可以覆蓋感興趣的區(qū)域,但是不能夠下傾過大,否則地面雜波的噪聲會增加,有效采集面積會減小[14]。本文將雷達(dá)放置高度1.6 m,向下傾斜5°,數(shù)據(jù)采集環(huán)境如圖1所示。
圖2是一個IWR6843ISK毫米波雷達(dá)信號處理鏈,毫米波雷達(dá)前端接收回波的模數(shù)轉(zhuǎn)換數(shù)據(jù)作為輸入,然后進(jìn)行距離和多普勒的快速傅里葉變換(fast Fourier transform,F(xiàn)FT),為了濾除噪聲和干擾,使用恒虛警算法(constant 1 alarm rate detector,CFAR)進(jìn)行非相干檢測,最后利用三維的FFT計算角度。
1.2 數(shù)據(jù)預(yù)處理
2 網(wǎng)絡(luò)架構(gòu)
2.1 輸入嵌入部分(input embedding)
2.2 時序提取部分(PointLSTM)
2.3 局部特征增強(qiáng)部分(set abstraction)
2.4 注意力機(jī)制(attention)
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集構(gòu)建
3.2 評價指標(biāo)
3.3 實驗環(huán)境及模型設(shè)置
3.4 實驗結(jié)果對比分析
4 結(jié)束語
本文提出一種基于毫米波雷達(dá)3D點云數(shù)據(jù)實現(xiàn)對人體活動識別的網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用二級滑動窗口分離人體活動點云數(shù)據(jù),使用PointLSTM單元有效學(xué)習(xí)動作時序特征,然后使用采樣分組+MLP操作逐步減少模型計算量以及提升模型的局部特征提取能力,最后利用堆疊的注意力層深度學(xué)習(xí)數(shù)據(jù)的時空特征以完成人體活動分類。實驗結(jié)果表明該網(wǎng)絡(luò)能夠有效識別復(fù)雜且差異小的人體活動類型,并且有更好的識別準(zhǔn)確度,能夠更好地完成人體活動識別系統(tǒng)的要求。由于二級滑動窗口多參數(shù)的可調(diào)性,后續(xù)工作考慮對二級滑動窗口參數(shù)和人體活動持續(xù)時間相關(guān)性和自適應(yīng)性進(jìn)行研究。
參考文獻(xiàn):
[1]Singh A D,Sandha S S,Garcia L,et al.RadHar:human activity recognition from point clouds generated through a millimeter-wave radar[C]//Proc of the 3rd ACM Workshop on Millimeter-Wave Networks and Sensing Systems.New York:ACM Press,2019:51-56.
[2]Darlis A R,Ibrahim N,Kusumoputro B.Performance analysis of 77 GHz mmWave radar based object behavior[J].Journal of Communications,2021,16(12):576-582.
[3]Huang Yuchen,Li Wei,Dou Zhiyang,et al.Activity recognition based on millimeter-wave radar by fusing point cloud and Range-Doppler information[J].Signals,2022,3(2):266-283.
[4]金添,宋永坤,戴永鵬,等.UWB-HA4D-1.0:超寬帶雷達(dá)人體動作四維成像數(shù)據(jù)集[J].雷達(dá)學(xué)報,2022,11(1):27-39.(Jin Tian,Song Yongkun,Dai Yongpeng,et al.UWB-HA4D-1.0:an ultra-wideband radar human activity 4D imaging dataset[J].Journal of Radars,2022,11(1):27-39.)
[5]Qi C R,Su Hao,Mo Kaichun,et al.PointNet:deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:77-85.
[6]Qi C R,Yi Li,Su Hao,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space[EB/OL].(2017-06-07).https://arxiv.org/abs/1706.02413.
[7]Wu Zhirong,Song Shuran,Khosla A,et al.3D ShapeNets:a deep representation for volumetric shapes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1912-1920.
[8]Guo Menghao,Cai Junxiong,Liu Zhengning,et al.PCT:point cloud transformer[J].Computational Visual Media,2021,7(2):187-199.
[9]Zhao Hengshuang,Jiang Li,Jia Jiaya,et al.Point transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16259-16268.
[10]Engel N,Belagiannis V,Dietmayer K.Point transformer[J].IEEE Access,2021,9:134826-134840.
[11]Fan Hehe,Yang Yi.PointRNN:point recurrent neural network for moving point cloud processing[EB/OL].(2019-11-24).https://arxiv.org/abs/1910.08287.
[12]Liu Xingyu,Yan Mengyuan,Bohg J.MeteorNet:deep learning on dynamic 3D point cloud sequences[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9246-9255.
[13]Texas Instruments.IWR6843 intelligent mmWave sensor standard antenna plug-in module[EB/OL].(2022-06-15)[2022-08-23].https://www.ti.com.cn/tool/cn/IWR6843ISK.
[14]Texas Instruments.People_Counting[EB/OL].(2022-06-15)[2022-08-23].https://dev.ti.com/tirex/explore/content/mmwave_industrial_toolbox_4_12_0/labs/People_Counting/3D_People_Counting/docs/3d_people_counting_user_guide.html.
[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[16]Cho K,van Merriёnboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-09-03).https://arxiv.org/abs/1406.1078.
[17]Caesar H,Bankiti V,Lang A H,et al.nuScenes:a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11621-11631.
[18]Wang Yizhou,Jiang Zhongyu,Li Yudong,et al.RODNet:a real-time radar object detection network cross-supervised by camera-radar fused object 3D localization[J].IEEE Journal of Selected Topics in Signal Processing,2021,15(4):954-967.
[19]Kramer A,Harlow K,Williams C,et al.ColoRadar:the direct 3D millimeter wave radar dataset[J].The International Journal of Robo-tics Research,2022,41(4):351-360.
[20]Wu Wenxuan,Qi Zhongang,Li Fuxin.PointConv:deep convolutional networks on 3D point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9621-9630.