亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于毫米波雷達(dá)稀疏點(diǎn)云的人體行為識(shí)別方法

2024-02-29 04:21:58李育臣張之江

計(jì)算機(jī)測(cè)量與控制 2024年2期

李育臣，張之江，曾丹，李佳

(上海大學(xué) 通信與信息工程學(xué)院，上海 200444)

0 引言

隨著人口老齡化程度的加深以及護(hù)理服務(wù)需求的增多，老人跌倒監(jiān)測(cè)以及其他人體行為感知逐漸成為輔助生活的關(guān)鍵技術(shù)[1-3]。目前，攝像頭、WIFI、雷達(dá)等設(shè)備均可以用于非接觸式行為感知。利用攝像頭監(jiān)控人體行為已經(jīng)成為非常成熟的技術(shù)[4-6]，但是也存在一些問題阻礙了其發(fā)展。在家庭環(huán)境下，人們?cè)絹碓疥P(guān)注的隱私問題限制了攝像監(jiān)控的應(yīng)用；同時(shí)，攝像頭對(duì)環(huán)境的干擾比較敏感，易受到光線條件和周圍物體遮擋的影響。此外，利用WIFI[7]也可用于探測(cè)人體的行為，但它們精度較低。相比于其他的無線設(shè)備，毫米波雷達(dá)具有精度高和探測(cè)距離較遠(yuǎn)的優(yōu)點(diǎn)，并且不會(huì)涉及隱私問題，也不易受到光照影響，在黑暗環(huán)境下也可正常工作，具有一定的穿透性，因此毫米波雷達(dá)在行為感知方面具有很大的優(yōu)勢(shì)[8-10]。

目前較為主流的手段是利用多普勒雷達(dá)收發(fā)毫米波，然后使用時(shí)頻分析法將原始信號(hào)映射到時(shí)頻圖上，并觀察不同行為的微多普勒效應(yīng)[2，9，11]。但是這種基于微多普勒?qǐng)D的行為識(shí)別有一定的局限性，即需要對(duì)雷達(dá)回波信號(hào)進(jìn)行運(yùn)算量比較大的時(shí)頻分析，同時(shí)特征的定義和分類器的設(shè)計(jì)也比較復(fù)雜，并且只通過速度信息來判斷跌倒在某些場(chǎng)合的準(zhǔn)確度并不高。Singh等人[12]在2019年證明了稀疏點(diǎn)云的時(shí)間窗口體素表示可以用于人類行為識(shí)別。通過將點(diǎn)云體素化，利用基于深度學(xué)習(xí)的分類器進(jìn)行了測(cè)試，可以達(dá)到甚至超過基于微多普勒?qǐng)D特征分類的效果。但該方法計(jì)算量較大，實(shí)時(shí)處理能力較弱，并且復(fù)雜環(huán)境中的噪聲對(duì)點(diǎn)云體素化的效果有較大影響。Gong等人[13]嘗試用圖的方式來表示點(diǎn)云，雖然取得了不錯(cuò)的分類效果，但是由于毫米波雷達(dá)的特殊性，對(duì)于人體行為識(shí)別系統(tǒng)的抗干擾能力、實(shí)時(shí)性以及魯棒性有著很大的要求，在滿足實(shí)時(shí)性的同時(shí)也要具備很強(qiáng)的抗干擾能力和模型泛化能力，該方法并不能滿足要求。因此，如何在復(fù)雜的環(huán)境中準(zhǔn)確地、快速地識(shí)別人類行為仍然存在著巨大挑戰(zhàn)。

現(xiàn)有方法無法在復(fù)雜環(huán)境下有效地提取稀疏點(diǎn)云的空間特征和時(shí)序特征，同時(shí)模型的抗干擾能力和泛化能力較差。綜上，提出了一種通用的基于毫米波雷達(dá)稀疏點(diǎn)云的人體行為識(shí)別方法，該方法根據(jù)毫米波雷達(dá)所產(chǎn)生點(diǎn)云的特性，既保留了點(diǎn)云的原始特征，提高了網(wǎng)絡(luò)計(jì)算的效率，同時(shí)使用基于注意力特征融合的點(diǎn)云活動(dòng)分類網(wǎng)絡(luò)(MM-PCANet，MMwave radar point cloud activity network)進(jìn)行稀疏點(diǎn)云的特征提取和識(shí)別。在MMActivity數(shù)據(jù)集[12]和MMGesture數(shù)據(jù)集[14]上評(píng)估了所提的方法，分別取得97.50%和94.10%的準(zhǔn)確率，均優(yōu)于所有其它基線。從而證明了所提方法具有很好的魯棒性，也適用于解決毫米波雷達(dá)點(diǎn)云相關(guān)的其它問題。

1 相關(guān)工作

1.1 毫米波雷達(dá)點(diǎn)云生成

在過去幾年中，單片毫米波雷達(dá)有著快速的發(fā)展和應(yīng)用，美國(guó)德克薩斯儀器公司的毫米波雷達(dá)就是其中一個(gè)具有代表性的設(shè)備，可以利用這些毫米波雷達(dá)來捕獲人體活動(dòng)相關(guān)的點(diǎn)云。點(diǎn)云指的是一系列包含空間坐標(biāo)、速度以及其它信息的離散點(diǎn)集合，以此來表示人體在空間上的形狀以及姿態(tài)等信息。毫米波雷達(dá)點(diǎn)云生成的整體流程如圖1所示。

圖1 毫米波雷達(dá)點(diǎn)云生成過程

這些毫米波雷達(dá)采用調(diào)頻連續(xù)波(FMCW)，其在一個(gè)調(diào)頻周期內(nèi)發(fā)射信號(hào)[15]可以表示為：

(1)

式中，AT為發(fā)射信號(hào)的幅值，fc為載波中心頻率，B為帶寬，Tc為信號(hào)調(diào)頻周期，φ(t)為相位噪聲。經(jīng)過目標(biāo)和環(huán)境反射后，接收天線得到回波信號(hào)，回波信號(hào)可以表示為：

SR(t)=

(2)

式中，AR為發(fā)射信號(hào)的幅值，td表示從雷達(dá)發(fā)射至接收到人體反射信號(hào)的時(shí)間，td=R/c，其中R表示目標(biāo)距離，c為光速。

發(fā)射信號(hào)與回波信號(hào)混頻處理并低通濾波得到中頻信號(hào)，對(duì)中頻信號(hào)執(zhí)行距離快速傅里葉變換(FFT，fast fourier transform)運(yùn)算以分離不同的頻率分量，從而獲得每個(gè)目標(biāo)與雷達(dá)之間的距離。對(duì)中頻信號(hào)執(zhí)行多普勒FFT操作以測(cè)量中頻信號(hào)的相位變化，來獲取目標(biāo)的速度信息。

除此之外為了得到目標(biāo)的空間坐標(biāo)x、y和z，還需進(jìn)行角度估計(jì)，利用天線之間的相位差計(jì)算出目標(biāo)的方位角和俯仰角。在經(jīng)過角度估計(jì)之后，獲取了目標(biāo)的距離R、方位角θ以及俯仰角φ。假設(shè)笛卡爾坐標(biāo)系中的點(diǎn)坐標(biāo)為(x，y，z)，其中x表示橫軸，y表示縱軸，z表示高度，則雷達(dá)坐標(biāo)系轉(zhuǎn)換為笛卡爾坐標(biāo)系的計(jì)算如式(3)所示：

x=R*cos(φ)* sin(θ)

y=R*cos(φ)*cos(θ)

z=R*sin(φ)

(3)

以上是毫米波雷達(dá)生成點(diǎn)云的大致流程，至此就可以獲取到目標(biāo)的三維坐標(biāo)、距離以及速度等信息，供后續(xù)數(shù)據(jù)集構(gòu)建、數(shù)據(jù)處理以及數(shù)據(jù)可視化使用。連續(xù)多幀的點(diǎn)云信息就是后續(xù)方法的輸入，每一幀包含n個(gè)離散的點(diǎn)，每個(gè)點(diǎn)都包含空間位置x、y和z以及速度等信息。

1.2 點(diǎn)云分類網(wǎng)絡(luò)PointNet++

在上述所提到的MM-PCANet當(dāng)中，采用PointNet++[16]作為主干網(wǎng)絡(luò)，從3D點(diǎn)云中提取空間分層特征。PointNet[17]是使用深度學(xué)習(xí)的方法提取點(diǎn)云特征的先驅(qū)工作，之后出現(xiàn)了類似于PointNet++等許多新穎的基于深度學(xué)習(xí)的點(diǎn)云網(wǎng)絡(luò)，但大多數(shù)都是以PointNet為基礎(chǔ)。在PointNet當(dāng)中使用多層感知機(jī)(MLP，multilayer perceptron)來進(jìn)行點(diǎn)云的高級(jí)特征表示，并選擇用最大池化來進(jìn)行特征的聚合，PointNet提取特征的方式是對(duì)所有點(diǎn)云數(shù)據(jù)提取一個(gè)全局特征，這會(huì)帶來很大的局限性，即無法提取到點(diǎn)云的空間局部特征，使得它很難對(duì)復(fù)雜場(chǎng)景進(jìn)行分析。PointNet++采用了分層抽取特征的思想，把每一次特征提取操作稱為Set Abstraction。Set Abstraction又分為三部分，分別是采樣層、分組層、特征提取層，它能夠在不同尺度提取局部特征，通過多層網(wǎng)絡(luò)結(jié)構(gòu)得到更深層次的特征，同時(shí)兼顧全局特征以及空間局部特征。因此，在點(diǎn)云稀疏或其它復(fù)雜的場(chǎng)景下，PointNet++有著更好的特征提取能力。

2 方法

2.1 點(diǎn)云采樣策略

在實(shí)際的人體行為數(shù)據(jù)采集過程中，不同幀的點(diǎn)云數(shù)量是不相同的，在一些復(fù)雜的動(dòng)作當(dāng)中，生成的點(diǎn)云數(shù)量可能會(huì)比簡(jiǎn)單動(dòng)作的要多，為了使每幀點(diǎn)云數(shù)量保持一致，作為后續(xù)分類網(wǎng)絡(luò)的輸入，同時(shí)方便比較每幀固定不同點(diǎn)云數(shù)量時(shí)分類方法的整體性能差異，采用基于K-means++聚類算法進(jìn)行點(diǎn)云的采樣，如果當(dāng)前幀的點(diǎn)云個(gè)數(shù)小于設(shè)定的閾值，則通過重復(fù)一些原有點(diǎn)和聚類中心點(diǎn)，完成點(diǎn)云的擴(kuò)充。如果大于設(shè)定的閾值，則只保留聚類中心點(diǎn)，剔除中心點(diǎn)以外的其它點(diǎn)。整體流程如圖2所示。

圖2 點(diǎn)云采樣整體流程

2.1.1 方法介紹

K-means聚類是最常用的聚類算法。它的基本思想是通過迭代尋找K個(gè)簇的一種劃分方案，使得聚類結(jié)果對(duì)的損失函數(shù)最小。它的優(yōu)點(diǎn)是計(jì)算復(fù)雜度較低，收斂速度較快，但是容易受初始值的影響，為了減少初始值帶來的影響，選擇利用K-means++中選擇初始聚類中心的方法初始化聚類中心。通過給定具體的K值，將點(diǎn)云數(shù)據(jù)聚類成K個(gè)簇，通過保留或重復(fù)聚類中心點(diǎn)，完成點(diǎn)云的采樣。具體步驟如下：

1)先從數(shù)據(jù)當(dāng)中隨機(jī)選擇一個(gè)點(diǎn)作為聚類中心。

2)對(duì)于其它每個(gè)點(diǎn)，都計(jì)算其和最近的一個(gè)聚類中心的歐式距離。

3)用加權(quán)的方式選取聚類中心點(diǎn)，離已確定的中心點(diǎn)距離越遠(yuǎn)，越有可能被選擇為下一個(gè)中心點(diǎn)。

4)重復(fù)步驟2)和3)，直到K個(gè)聚類中心選擇完成。

5)針對(duì)每個(gè)點(diǎn)計(jì)算其到所有聚類中心的歐式距離，并將其歸屬到距離最小的聚類中心所對(duì)應(yīng)的類別。

6)針對(duì)每個(gè)簇類，重新計(jì)算該簇的聚類中心并對(duì)聚類中心進(jìn)行更新。

7)重新迭代5)、6)兩步，直到簇的聚類中心不發(fā)生改變或達(dá)到迭代上限。

8)迭代完成后，保留每個(gè)簇的聚類中心作為最終的結(jié)果。

2.1.2 參數(shù)分析

隨機(jī)選取一幀點(diǎn)云個(gè)數(shù)為109的數(shù)據(jù)，將聚類中心分別設(shè)置為16、32、64、128和256，代表著將點(diǎn)云個(gè)數(shù)采樣至對(duì)應(yīng)的數(shù)值，迭代次數(shù)設(shè)置為300次，選擇用歐式距離作為距離的衡量標(biāo)準(zhǔn)，采樣的效果如圖3所示，分別對(duì)應(yīng)不同采樣值的采樣效果，可以看出利用所提出的K-means++聚類算法可以很好地保留關(guān)鍵的特征點(diǎn)以及原始的點(diǎn)云空間特征，在進(jìn)行采樣的同時(shí)，不會(huì)造成點(diǎn)云空間結(jié)構(gòu)的變化。

圖3 點(diǎn)云采樣效果圖

2.2 分類網(wǎng)絡(luò)結(jié)構(gòu)

基于毫米波雷達(dá)的特殊性，人體行為識(shí)別需要面臨如下兩個(gè)挑戰(zhàn)：第一是所采集到人體行為點(diǎn)云較為稀疏；第二是人體的行為并不是單幀的三維點(diǎn)云，而是多幀三維點(diǎn)云的聚合，因此如何從這些連續(xù)且無序的三維點(diǎn)云中高效地提取特征是主要問題。如圖4所示，是所提出的MM-PCANet分類網(wǎng)絡(luò)的整體結(jié)構(gòu)圖，其中主要包含基礎(chǔ)模塊、全局幀模塊、全局點(diǎn)模塊以及注意力特征融合模塊等。

圖4 MM-PCANet分類網(wǎng)絡(luò)

2.2.1 基礎(chǔ)模塊

該模塊的輸入維度是T×N×D，其中T代表著時(shí)間序列幀的個(gè)數(shù)，N代表每幀當(dāng)中點(diǎn)云的數(shù)量，D代表每個(gè)點(diǎn)的特征個(gè)數(shù)，在所提出的方法中，每個(gè)點(diǎn)有4個(gè)特征，分別是空間位置x、y、z以及速度。該模塊的作用是利用MLP提取出每一幀點(diǎn)云的高級(jí)表示，同時(shí)為了提取到幀間的局部特征以及減少計(jì)算量，采用了幀間分組與采樣模塊[18]，其包含兩個(gè)部分，即幀間分組模塊和采樣模塊。幀間分組模塊可以通過在短周期內(nèi)找到k個(gè)相鄰點(diǎn)來構(gòu)造局部點(diǎn)云集，從而能夠在更密集的點(diǎn)云中學(xué)習(xí)出更精細(xì)的行為特征，當(dāng)人體快速移動(dòng)時(shí)，也可以學(xué)習(xí)更多的全局運(yùn)動(dòng)信息。采樣模塊旨在通過在每個(gè)時(shí)刻采樣點(diǎn)云特征來收集局部時(shí)空信息，以降低計(jì)算成本并識(shí)別不同尺度的人體行為。

2.2.2 全局幀模塊

因?yàn)槿梭w的行為是連續(xù)幀所疊加而成的，所以幀與幀之間的時(shí)序信息是很重要的，全局幀模塊旨在利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[19](LSTM，long short-term memory)來提取連續(xù)幀之間的時(shí)序信息。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊自回歸模型，通過加入長(zhǎng)期記憶單元和改變門結(jié)構(gòu)，緩解了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度彌散和梯度爆炸問題，已廣泛應(yīng)用在序列數(shù)據(jù)處理中。該模塊具體的步驟是首先經(jīng)過了幀間分組與采樣模塊以及MLP多層感知機(jī)，進(jìn)一步將每一幀的點(diǎn)云特征進(jìn)行更高級(jí)的表示，然后送入LSTM層提取連續(xù)幀之間的時(shí)序信息，最后送入注意力特征融合模塊和后續(xù)全局點(diǎn)模塊所輸出的特征相融合。具體計(jì)算方法如公式(4)所示：

ft=σ(Wf[ht-1，yt]+bf)

it=σ(Wi·[ht-1，yt]+bi)

ot=σ(Wo[ht-1，yt]+bo)

ht=ot*tanh(Ct)

(4)

2.2.3 全局點(diǎn)模塊

上述的全局幀模塊是以每一幀的點(diǎn)云信息作為整體，提取幀與幀之間的時(shí)序信息，但是由于點(diǎn)云的特殊性，不僅要關(guān)注幀與幀之間的時(shí)序信息，還要關(guān)注每一幀點(diǎn)云當(dāng)中每個(gè)點(diǎn)在整個(gè)時(shí)間序列當(dāng)中的時(shí)序信息，這樣有助于模型獲取每個(gè)點(diǎn)在整個(gè)行為過程中的一個(gè)特征變化，從而進(jìn)一步的提取到更有用的點(diǎn)特征。受PointLSTM[20]的啟發(fā)，通過共享的LSTM層對(duì)每個(gè)點(diǎn)云的時(shí)序特征進(jìn)行提取。

h(t)，c(t)=LSTM(y(t)，h(t-1)，c(t-1))

(5)

(6)

(7)

2.2.4 注意力特征融合模塊

上述通過全局幀模塊和全局點(diǎn)模塊之后，分別提取到了幀與幀之間的時(shí)序信息以及每一幀點(diǎn)云當(dāng)中點(diǎn)的空間和時(shí)序特征，最后利用基于注意力的特征融合模塊[21]將這兩部分的特征融合。如圖5所示，其中MS-CAM模塊是當(dāng)中提到的多尺度通道注意力模塊[21]，該模塊是為了更好地融合語義和尺度不一致的特征，解決了融合不同尺度給出的特征時(shí)出現(xiàn)的問題。同時(shí)針對(duì)初始特征集成對(duì)于注意力特征融合影響比較大的問題，使用額外一層注意力特征融合模塊生成更好的初始特征，故稱之為迭代注意力特征融合模塊。具體的計(jì)算方法如下：

(8)

圖5 迭代注意力特征融合模塊

式中，M是MS-CAM多尺度通道注意力模塊[21]，X和Y是兩個(gè)維度T×N×D的輸入特征，Z是維度T×N×D的融合特征。

2.2.5 損失函數(shù)

多分類交叉熵(Multiclass Cross-entropy)是一種常用的損失函數(shù)，用于衡量多分類問題中模型輸出的概率分布與真實(shí)標(biāo)簽的差距，具體計(jì)算方法如下：

(9)

式中，N代表樣本數(shù)，K代表類別數(shù)，yic代表真實(shí)標(biāo)簽中第i個(gè)樣本屬于類別c的概率，pic代表模型預(yù)測(cè)的第i個(gè)樣本屬于類別c的概率。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

在MMActivity數(shù)據(jù)集[12]和MMGesture數(shù)據(jù)集[14]兩個(gè)毫米波雷達(dá)人體數(shù)據(jù)集上進(jìn)行了驗(yàn)證，從而來證明所提方法的魯棒性和通用性。

1)MMActivity數(shù)據(jù)集：該數(shù)據(jù)集是第一個(gè)使用毫米波雷達(dá)收集人體行為點(diǎn)云信息的數(shù)據(jù)集，使用IWR 1 443毫米波雷達(dá)采集來自兩個(gè)不同實(shí)驗(yàn)者的5種人體行為數(shù)據(jù)，5種行為分別是跳躍、拳擊、行走、蹲起和開合跳躍，每個(gè)行為在兩秒內(nèi)完成，采樣頻率是每秒30幀，一共收集了93 min的數(shù)據(jù)。

2)MMGesture數(shù)據(jù)集：該數(shù)據(jù)集是第一個(gè)使用毫米波雷達(dá)收集手勢(shì)點(diǎn)云信息的數(shù)據(jù)集，使用的是IWR 1 443毫米波雷達(dá)，將在其遠(yuǎn)程方案的數(shù)據(jù)當(dāng)中進(jìn)行實(shí)驗(yàn)，一共有79個(gè)不同性別的參與者執(zhí)行4種手勢(shì)，包含左滑動(dòng)，右滑動(dòng)，敲擊和旋轉(zhuǎn)，其中不僅直接感應(yīng)了手勢(shì)動(dòng)作，而且在有某些堵塞物的情況下進(jìn)行了感測(cè)，收集的點(diǎn)云包含空間坐標(biāo)x、y和z、速度以及反射強(qiáng)度5個(gè)特征信息。

3.2 訓(xùn)練和推理

該工作在單塊的3090TI顯卡上完成模型的訓(xùn)練和推理，其余工作是在具有Inteli7-10750H的處理器以及16GB運(yùn)行內(nèi)存的筆記本電腦上完成，使用了PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)所有模型。設(shè)置初始學(xué)習(xí)率為0.000 1，并采用衰減率為0.005的階梯式學(xué)習(xí)率衰減的Adam優(yōu)化器[22]來訓(xùn)練模型，訓(xùn)練集和測(cè)試集的比例為8：2，采用的是多分類交叉熵?fù)p失函數(shù)。其中上述基礎(chǔ)模塊里兩個(gè)MLP層輸出的特征維度分別為64和128，全局幀模塊和全局點(diǎn)模塊里MLP層輸出的特征維度分別為256和1 024，LSTM的層數(shù)為2且單向，輸入輸出的特征維度分別為256和1 024，PointLSTM輸入輸出的特征維度分別為132和256。在3個(gè)幀間分組與采樣模塊中，分別選擇相鄰的4、8、4個(gè)點(diǎn)進(jìn)行分組，并且點(diǎn)云采樣率為0.5。

3.3 基線

本小節(jié)將所提出的MM-PCANet劃分為3個(gè)主要部分作為基線，以此來驗(yàn)證網(wǎng)絡(luò)每一部分的特征提取能力以及所做出的改進(jìn)。

1)基礎(chǔ)模塊+全局幀模塊(Baseline A)：在該基線中選擇保留了基礎(chǔ)模塊和全局幀模塊，并且將注意力特征融合模塊刪除，其余保持不變。該基線可以作為參照以此來證明全局幀模塊的作用。

2)基礎(chǔ)模塊+全局點(diǎn)模塊(Baseline B)：在該基線中選擇保留了基礎(chǔ)模塊和全局點(diǎn)模塊，并將注意力特征融合層去掉，其余保持不變。該基線可以作為參照以此來證明全局點(diǎn)的作用。

3)基礎(chǔ)模塊+全局幀模塊+全局點(diǎn)模塊+特征拼接(Baseline C)：在該基線中選擇保留了基礎(chǔ)模塊、全局幀模塊以及全局點(diǎn)模塊，并選擇直接用特征拼接的方法代替注意力特征融合層，其余保持不變，以此來證明全局幀模塊和全局點(diǎn)模塊的互補(bǔ)作用以及注意力特征融合層的作用。

3.4 指標(biāo)

通過以下4個(gè)指標(biāo)來評(píng)判所提出模型的可行性。

準(zhǔn)確率：準(zhǔn)確率是最常見的評(píng)價(jià)指標(biāo)，指的是被分對(duì)的樣本數(shù)除以所有的樣本數(shù)，通常來說，正確率越高，分類器越好。

(10)

精確率：又稱為查準(zhǔn)率，指的是在模型預(yù)測(cè)結(jié)果為正樣本中，真正樣本所占的百分比。

(11)

混淆矩陣：主要用于比較分類結(jié)果和實(shí)際測(cè)得值，可以把分類結(jié)果的精度顯示在一個(gè)混淆矩陣?yán)锩?，并直觀地表明所提出模型在哪一類樣本里面表現(xiàn)得不是很好。

推理速度：神經(jīng)網(wǎng)絡(luò)執(zhí)行一次前向傳播所需要的時(shí)間是推理時(shí)間。通常用一秒鐘內(nèi)模型能夠執(zhí)行的推理次數(shù)來表示模型的推理速度，單位用fps表示。

4 結(jié)果

4.1 消融實(shí)驗(yàn)

為了驗(yàn)證MM-PCANet網(wǎng)絡(luò)每個(gè)模塊的有效性以及所作出的改進(jìn)，利用K-means++方法將點(diǎn)云采樣至64個(gè)點(diǎn)，分別在MMActivity和MMGesture兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。如圖6和圖7所示，分別按照3.3所提出的3個(gè)基線進(jìn)行了測(cè)試，其中Baseline A在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了93.6%和77.6%，說明所提出的基礎(chǔ)模塊和全局幀模塊是具備一定的序列點(diǎn)云特征提取能力。Baseline B在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了95.3%和85.3%，證明了全局點(diǎn)模塊的特征提取效果要略微強(qiáng)于全局幀模塊，能夠更準(zhǔn)確地完成人體行為的識(shí)別。Baseline C在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了96.5%和89.5%，該基線將全局幀模塊和全局點(diǎn)模塊同時(shí)利用起來，并通過直接拼接的方式進(jìn)行特征融合，效果要強(qiáng)于Baseline A和Baseline B，證明全局幀模塊和全局點(diǎn)模塊具有互補(bǔ)作用，不僅提取了幀與幀之間的序列信息同時(shí)也很好地提取到了幀中點(diǎn)云的時(shí)序的信息。用注意力特征融合模塊代替了特征的直接拼接，形成了所提出的MM-PCANet模型，在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了97.50%和94.10%，直接說明了注意力特征融合模塊的有效性，能夠更好地融合全局幀模塊和全局點(diǎn)模塊所輸出的特征信息。

圖6 在MMActivity數(shù)據(jù)集上的表現(xiàn)

圖7 在MMGesture數(shù)據(jù)集上的表現(xiàn)

4.2 點(diǎn)云采樣實(shí)驗(yàn)

為了驗(yàn)證K-means++采樣方法的有效性，在兩個(gè)數(shù)據(jù)集上分別利用K-means++采樣和隨機(jī)采樣在不同采樣值的情況下進(jìn)行了實(shí)驗(yàn)，如圖8所示，上方的兩條線分別代表MM-PCANet在MMActivity數(shù)據(jù)集上兩種采樣方法的表現(xiàn)，下方的兩條線分別代表在MMGesture數(shù)據(jù)集上兩種采樣方法的表現(xiàn)，可以得出，在不同采樣值下K-means++采樣方法比隨機(jī)采樣方法準(zhǔn)確率平均提升了0.4個(gè)百分點(diǎn)，證實(shí)了所提出的K-means++采樣方法的有效性。

圖8 不同點(diǎn)云采樣值在兩個(gè)數(shù)據(jù)集上的表現(xiàn)

4.3 方法對(duì)比實(shí)驗(yàn)

從表1中可以看出8種不同方法在MMActivity數(shù)據(jù)集上的表現(xiàn)，其中不同的模型點(diǎn)云的表示方式不同，將點(diǎn)云體素化表示的RadHAR[12]準(zhǔn)確率表現(xiàn)不是很好，隨著體素分辨率的增加，該方法的空間成本和計(jì)算復(fù)雜性呈立方增長(zhǎng)，同時(shí)點(diǎn)云的密度不均勻也會(huì)造成體素分布的不均勻，導(dǎo)致空間特征的丟失，在稀疏點(diǎn)云的數(shù)據(jù)集上這種問題會(huì)更加嚴(yán)重。除此之外是傳統(tǒng)的直接對(duì)點(diǎn)云處理網(wǎng)絡(luò)PointNet[17]、PointLSTM[20]以及Pantomime[23]和用圖表示點(diǎn)云的MMPointGNN[13]分類網(wǎng)絡(luò)，分類準(zhǔn)確率均不如所提出的MM-PCANet，該準(zhǔn)確率達(dá)到了97.50%，是表1所有方法當(dāng)中表現(xiàn)最好的，造成這種現(xiàn)象更多的是因?yàn)樯鲜?個(gè)基線網(wǎng)絡(luò)無法兼顧幀序列的時(shí)序特征和具體點(diǎn)云的時(shí)序特征，而MM-PCANet可以很好地解決這個(gè)問題。如圖9所示MM-PCANet在MMActivity數(shù)據(jù)集的混淆矩陣可以看出整體的分類效果是非常好的，盡管由于跳躍和行走之間的相似性，兩者有點(diǎn)混淆，但并不影響MM-PCANet的整體優(yōu)良表現(xiàn)。

表1 不同方法在MMActivity數(shù)據(jù)集上的表現(xiàn)

圖9 MM-PCANet在MMActivity數(shù)據(jù)集的混淆矩陣

從圖10中可以看出，由于獨(dú)特的運(yùn)動(dòng)軌跡，旋轉(zhuǎn)手勢(shì)具有最高的準(zhǔn)確性，不容易被誤判。其他3個(gè)手勢(shì)的準(zhǔn)確度不夠高，因?yàn)檫@3種手勢(shì)的運(yùn)動(dòng)模型相似。表2是不同方法在MMGesture數(shù)據(jù)集上的表現(xiàn)，其中PointNet+LSTM的準(zhǔn)確率僅為70.41%，這是因?yàn)槭芟抻赑ointNet的空間特征提取能力，在較為稀疏的手勢(shì)數(shù)據(jù)集上表現(xiàn)較差。PointLSTM和MMPointGNN的準(zhǔn)確率分別為90.35%和92.67%，而MM-PCANet有著更高的準(zhǔn)確率94.10%，表明所提出的MM-PCANet在基于毫米波雷達(dá)稀疏點(diǎn)云的手勢(shì)識(shí)別場(chǎng)景有著更好的特征提取能力。

表2 不同方法在MMGesture數(shù)據(jù)集上的表現(xiàn)

圖10 MM-PCANet在MMGesture數(shù)據(jù)集的混淆矩陣

4.4 推理速度

如表3所示，分別在兩個(gè)數(shù)據(jù)集上測(cè)試了MM-PCANet的平均推理速度，可以看出Batch Size越大，網(wǎng)絡(luò)的平均推理速度也越快，在Batch Size為1時(shí)，在這兩個(gè)數(shù)據(jù)集上的平均推理速度分別達(dá)到了每秒19.40次和每秒50.02次，也完全滿足使用毫米波雷達(dá)進(jìn)行人體感知的實(shí)時(shí)性。

表3 不同Batch Size下MM-PCANet的平均推理速度 fps

5 結(jié)束語

本文提出了一種通用的基于毫米波雷達(dá)稀疏點(diǎn)云的人體行為識(shí)別方法，該方法直接對(duì)人體原始點(diǎn)云進(jìn)行處理，無需將點(diǎn)云進(jìn)行體素化或者其它方式的表示，利用K-means++算法進(jìn)行點(diǎn)云采樣，在不破壞點(diǎn)云空間結(jié)構(gòu)的同時(shí)有效地提高了模型的計(jì)算效率。此外，使用MM-PCANet進(jìn)行人體行為特征的提取和識(shí)別，兼顧點(diǎn)云的空間特征以及時(shí)序特征，對(duì)稀疏點(diǎn)云的運(yùn)動(dòng)有著靈敏的感知能力，同時(shí)也具有較強(qiáng)的抗干擾能力。實(shí)驗(yàn)結(jié)果表明該方法在兩個(gè)毫米波雷達(dá)人體點(diǎn)云數(shù)據(jù)集(MMActivity和MMGesture)上的表現(xiàn)均優(yōu)于所有其它基線，證明所提出方法的魯棒性和通用性。但由于要融合多方面的特征，導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)略顯復(fù)雜，因此未來會(huì)嘗試將網(wǎng)絡(luò)變得更輕量化。