謝曉蘭,陳梓涵
(桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541004)
利用雷達開展人體動作特征的研究始于20世紀(jì)90年代,隨后發(fā)展較為迅速,但研究大多集中于人體目標(biāo)的微動特征[1-2],且以微多普勒特征為主。人體微多普勒特征主要來自于人的肢體,部分來自于軀干。由于人體是一個復(fù)雜的介質(zhì)體,在做動作時,軀干和肢體之間的相對運動與姿態(tài)變化形成的微多普勒特征十分復(fù)雜,不僅是時變的[3],而且有時比較微弱且不易穩(wěn)定提取[3-4]。如軀干的雷達回波強度一般都明顯強于肢體,會造成軀干多普勒回波遮蔽肢體多普勒回波的現(xiàn)象,這對提取慢速動作的微多普勒特征十分不利,給基于微多普勒特征的人體動作識別帶來了挑戰(zhàn)。對于一些微多普勒特征較弱的人體動作,運動期間軀干或肢體的空間位置仍然會發(fā)生較顯著變化,如果能夠獲取人體這些位置相對于雷達的距離變化信息,將有助于提高人體動作的分類識別能力。Erol等[5]利用超寬帶雷達(ultra-wide band, UWB)獲取了老人摔倒動作的距離信息,降低了摔倒動作誤判的虛警率。
近幾年來,在雷達目標(biāo)識別領(lǐng)域,深度學(xué)習(xí)方法也已得到研究者的關(guān)注:Feng等[6]利用堆棧校正自編碼器進行了基于高分辨距離像的雷達自動目標(biāo)識別;Chen等[7]將改進后的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)成功應(yīng)用于SAR圖像目標(biāo)分類,克服了有限訓(xùn)練集導(dǎo)致的低識別精度問題;Kim等[8]也使用DCNN對7種手勢的微多普勒特征進行識別,獲得了93.1%的識別精度。與傳統(tǒng)方法相比, 深度學(xué)習(xí)網(wǎng)絡(luò)可以逐層非線性組合低層特征,形成更加抽象的高層特征用于目標(biāo)分類識別,在一定程度上避免或減輕了傳統(tǒng)方法因特征不穩(wěn)定而導(dǎo)致識別精度下降的問題。
目前在人體動作雷達識別研究中, 應(yīng)用深度學(xué)習(xí)方法的報道還比較少。 本文采用NVA6100單片沖激脈沖雷達, 對近距離人體動作進行了高距離分辨測量, 利用采集的人體動作回波數(shù)據(jù)構(gòu)建了每個動作的時間-距離像, 然后通過DCNN對時間-距離像進行了分類識別處理。 設(shè)計了9種較典型的體育動作, 包括揮手、 打乒乓球、 拍籃球、 立定跳遠(yuǎn)、 投保齡球 、踢足球、 墊排球、 投籃和拳擊等動作,并從3個不同人體目標(biāo)錄取了5 000多組雷達回波數(shù)據(jù)。 數(shù)據(jù)經(jīng)過DCNN處理, 9個動作獲得了96.67%的平均分類精度, 驗證了DCNN算法應(yīng)用于人體動作雷達分類的可行性和有效性。
本文的實驗研究以人們熟知的若干體育動作為主, 開展人體動作的雷達分類識別研究。人體動作的雷達回波是研究人體動作散射特征提取和分類識別的基礎(chǔ),在此首先分析人體目標(biāo)雷達回波的獲取及其可能存在的特征。
大多數(shù)人體動作都存在肢體和/或軀干在空間位置上的較顯著變化,變化范圍通常在數(shù)厘米到數(shù)米。對于雷達來說,要獲取這些人體動作在空間位置的變化信息,必須采用寬帶雷達發(fā)射信號。眾所周知,雷達的測距能力與雷達發(fā)射信號帶寬有關(guān),雷達的極限距離分辨率可表示為ΔR=c/2B(c為光速,B為雷達發(fā)射信號帶寬)。由此可見,要在距離上分辨小至厘米級的人體動作位置變化,雷達信號帶寬要達到幾GHz,甚至十幾GHz,在現(xiàn)有常用雷達工作頻段上,這種雷達一般都稱之超寬帶(UWB)雷達。
目前,較常用的UWB雷達發(fā)射波形有無載波沖激脈沖、線性調(diào)頻連續(xù)波、步進頻率連續(xù)波以及正交離散頻率編碼連續(xù)波等,其中無載波沖激脈沖是應(yīng)用最多的一種UWB雷達信號,因受限于可產(chǎn)生的脈沖發(fā)射功率,該雷達的作用距離一般較近。無載波沖激脈沖UWB雷達由于具有超寬的信號頻譜和極高的距離分辨能力等優(yōu)點,對于人體目標(biāo)探測來說,能夠獲取豐富的人體動作位置信息和多普勒信息,對人體動作的分類識別十分有利。在本文的實驗研究中,采用了Novelda公司出品的NVA6100單片沖激脈沖雷達收發(fā)器,其發(fā)射波形為一階高斯脈沖,脈沖寬度約為300 ps,-10 dB發(fā)射頻譜覆蓋0.85~9.55 GHz,極限距離分辨率可達到2 cm,所以能夠滿足常規(guī)人體動作分類識別的要求。NVA6100單片雷達發(fā)射的時域波形和頻譜如圖1所示。
NVA6100雷達發(fā)射的一階高斯脈沖波形是基本高斯脈沖的一階微分形式,可表示為
(1)
圖1 NVA6100雷達的脈沖波形Fig.1 Pulse waveform of Radar NVA6100
沖的成形因子。若雷達目標(biāo)是由M個靜止的理想點目標(biāo)組成,點目標(biāo)僅對波形的幅度和時延有影響,則沖激脈沖雷達接收信號(回波)可表示為
(2)
其中:Lp(i)是第i個點目標(biāo)含衰減的幅度因子;GT(t)和GR(t)分別是發(fā)射和接收天線的增益系數(shù);n為微分次數(shù);τi為第i個點目標(biāo)的雙程時延。沖激脈沖雷達的接收信號與發(fā)射信號之間呈現(xiàn)高階微分關(guān)系,是由收發(fā)天線對超寬帶沖激脈沖響應(yīng)來決定的;n的取值與具體天線形式有關(guān)。
該式是理想目標(biāo)沖激脈沖雷達回波的信號表達式,通常僅用于雷達回波的定性分析和仿真。而人體目標(biāo)是一種多枝節(jié)柔性復(fù)雜介質(zhì)目標(biāo),即使在靜止情況下,人體的電磁散射情況也是十分復(fù)雜的,要獲得較精確的人體目標(biāo)雷達回波模型十分困難。不僅如此,對于運動中的人體目標(biāo),目前還沒有有效的雷達回波建模方法,所以在人體目標(biāo)的雷達探測與分類識別中,實際測量還是經(jīng)常采用實驗研究方式。
為了獲取人體目標(biāo)的UWB雷達回波,開展人體動作的分類識別實驗研究,利用NVA6100單片沖激脈沖雷達搭建了一個室內(nèi)實驗測量環(huán)境,UWB雷達實驗布局如圖2所示。雷達放置在高度約為0.8 m的測試臺上,人體面向雷達并相距1.5~2.0 m。為了降低對面墻壁的直接反射、地面和天花板的二次反射對人體回波測量的干擾,提高人體目標(biāo)相對于背景環(huán)境的信雜比,在人體目標(biāo)后面和左右兩側(cè)的2~4 m處設(shè)置了高度約為2.5 m的吸波材料墻。
圖2 UWB雷達實驗布局示意圖Fig.2 Experimental layouts of Radar UWB
在人體動作實驗中,選擇和設(shè)計了9種較具典型性的體育動作,可以覆蓋推、拉、鞭打、緩沖、蹬伸、擺動、扭動和相向運動等基本動作類型,包括揮手、打乒乓球、拍籃球、立定跳遠(yuǎn)、投保齡球、踢足球、墊排球、投籃球和拳擊等動作,如圖3所示。除了立定跳遠(yuǎn)需要在一定距離范圍進行以外,其余動作均在原地完成。在重復(fù)多次進行同一動作的過程中,UWB雷達進行連續(xù)探測,并作回波數(shù)據(jù)的錄取。
雷達每發(fā)射一個脈沖信號,與人體目標(biāo)相互作用之后,都會有一部分電磁能量從人體反射回來,雷達接收后形成一次目標(biāo)回波。由于人體各個部位相對雷達的距離不盡相同,因此它們分別反射回來的脈沖在到達雷達的延遲時間(即時延)上是存在差異的。對于具有很高時延分辨力的UWB雷達來說,時延差異會使得人體不同部位脈沖回波在疊加形成總的人體回波時呈現(xiàn)出沿時間(也即距離)的回波幅度擴展現(xiàn)象, 人們通常把這種擴展的回波稱為目標(biāo)的高分辨距離像(high resolution range profile, HRRP)。
獲取一次目標(biāo)距離像相當(dāng)于對目標(biāo)進行一次快速“照相”(俗稱快拍), 在近距離人體目標(biāo)探測中,這種一次快拍通??梢栽?0 ns~1 ms以內(nèi)完成,遠(yuǎn)遠(yuǎn)小于完成一次人體動作所需時間,所以可將一副距離像看成人體動作的一個時間切片,在切片的持續(xù)時間內(nèi)可忽略人體動作的變化。由于人體動作一般都存在一定的持續(xù)時間,一次快拍得到的人體距離像不能完整體現(xiàn)動作的全過程,若僅使用一副距離像對人體動作進行分類識別,明顯是不可靠的,這就好比利用一張照片來判斷一個動作遠(yuǎn)不如一段視頻更可靠。
圖3 9個體育動作的剪影(箭頭表示動作方向)Fig.3 Profiles of 9 typical sports actions
為了提高人體動作的分類識別能力,可以使用人體動作回波構(gòu)成的時間-距離像。時間-距離像是由雷達等時間間隔獲取的多幀距離像按時間順序并行排列而成,類似于視頻是由多幀圖片按時間順序構(gòu)成。圖4給出了9種體育動作在一個動作持續(xù)期上的時間-距離像,其中縱軸表示目標(biāo)到雷達的距離;橫軸表示動作測量的持續(xù)時間; 灰度等級代表回波的(歸一化)幅度。NVA6100雷達對回波采取并行采樣方式,以39 GS/s采樣率對當(dāng)前回波連續(xù)采樣512點,構(gòu)成一幅目標(biāo)的距離像,然后再間隔10 ms采集下一幅距離像,所以圖4橫軸的最小時間間隔為10 ms。每個時間間隔點上,沿縱軸方向都是當(dāng)前時刻獲得的人體動作高分辨距離像。
圖4 9個體育動作的時間-距離像Fig.4 Time-range profiles of 9 typical sports actions
由于軀干是人體最主要的散射源,所以每張圖像中最強的回波幅度主要來自于軀干部分。立定跳遠(yuǎn)動作存在較明顯的軀干運動,所以軀干回波在時間-距離像中呈現(xiàn)密集的傾斜亮線,而原地完成的其他動作的軀干回波大多呈現(xiàn)接近水平且有一定起伏的密集粗亮線。雖然上下肢相比軀干是較弱的散射源,但是在運動變化的幅度范圍和頻度上則要顯著于軀干,這從每張圖中變化范圍較大且較快起伏的細(xì)曲線上可見一斑。不僅如此, 在每種動作的時間-距離像中, 上下肢變化形成的細(xì)亮曲線形態(tài)都不相同,可以認(rèn)為這代表了不同動作的差異化特征,是每種動作的專有屬性,為分類識別不同的人體動作提供了可能。
圖4h中還可以看到一些較為顯著的亮度較低的水平細(xì)線,這些水平細(xì)線在采集到的每個動作回波數(shù)據(jù)中都會隨即出現(xiàn),這些脫離目標(biāo)本體位置顯現(xiàn)出來的水平細(xì)線可能與周圍環(huán)境的隨機干擾有關(guān)。
在傳統(tǒng)的人體目標(biāo)雷達分類識別技術(shù)中,大多采用基于回波統(tǒng)計特性或者設(shè)置人為先驗的特征提取與分類識別方法。目前的傳統(tǒng)特征提取技術(shù)在面對復(fù)雜的人體目標(biāo)時,無論是在特征提取的穩(wěn)定性上還是在目標(biāo)變化的適應(yīng)性上,都還難以滿足實用化的要求,給特征提取技術(shù)提出了更高的要求。由于人體目標(biāo)的雷達散射特性十分復(fù)雜,人體動作和姿態(tài)也是千變?nèi)f化的。根據(jù)前述時間-距離像的圖像特征,借鑒圖像識別中已廣泛使用的深度卷積神經(jīng)網(wǎng)絡(luò)算法,對獲取的人體動作時間-距離像進行直接處理,探究DCNN對人體目標(biāo)特征提取的能力,初步驗證深度學(xué)習(xí)方法應(yīng)用于人體動作分類的可行性和有效性。
深度卷積神經(jīng)網(wǎng)絡(luò)是一種專門用來處理結(jié)構(gòu)化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),一般由卷積層、池化層、全連接層三部分組成。卷積層用以完成卷積核與輸入數(shù)據(jù)的卷積操作,該操作可以得到一系列特征映射。這里可將時間-距離像I作為輸入,在卷積核K的作用下,得到的卷積操作輸出為
S(i,j)=(I*K)(i,j)
(3)
其中: 卷積核K的大小被稱為感受野,其作用相當(dāng)于一個濾波器,可看作對輸入數(shù)據(jù)做特征提取的窗口。相比于普通全連接網(wǎng)絡(luò),卷積操作具有局部連接和權(quán)值共享的性質(zhì),這可以顯著減少網(wǎng)絡(luò)參數(shù)的個數(shù),并能夠提取到更有效的特征。卷積操作的輸出結(jié)果通常需要經(jīng)過一個激活函數(shù),將線性映射轉(zhuǎn)換為非線性映射模式,這里選擇激活函數(shù)的形式為修正線性單元(rectified linear unit, ReLU),具體形式為f(i,j)=max(0,S(i,j))。ReLU具有分段線性特征,可以構(gòu)建較好的經(jīng)驗結(jié)果,同時可以減少網(wǎng)絡(luò)訓(xùn)練時間,避免反向傳播中的梯度消失問題。
在每個卷積層之后都要進行特征提取的池化操作,池化可以理解為一個降采樣過程。假設(shè)上一層卷積非線性特征映射的輸出為f(i,j),則池化操作后的特征變?yōu)?/p>
(4)
式中:L代表池化尺度,s代表步長。式(4)是將一個鄰域內(nèi)的像素值用一個最大值來代替,因而可進一步減少數(shù)據(jù)量,同時特征可以保持平移不變。上述卷積、池化操作可采取多層形式,其輸出為一系列抽象特征映射,將其向量化后形成樣本數(shù)據(jù)的特征向量,并與樣本標(biāo)簽相匹配,可構(gòu)成有監(jiān)督訓(xùn)練的學(xué)習(xí)模式。
在一系列的卷積池化操作后要添加了一個Dropout層[9],其作用是對隨機抽取特征進行組合,以避免過擬合問題。在Dropout之后,將特征進行向量化以得到特征向量。多個人體動作識別屬于多分類問題,這里使用多項Logistic回歸方法進行分類操作,使用的是softmax函數(shù),它將訓(xùn)練得到的特征向量作為函數(shù)的輸入,能夠得到判為各個類別的后驗概率結(jié)果,并選取概率最高的類別作為最終判別結(jié)果,從而完成動作的分類識別。對于給定的一組特征向量Vi(i=1,…,N),向量Vi的softmax值可表示為
(5)
優(yōu)化得到的DCNN結(jié)構(gòu)如圖5所示。該網(wǎng)絡(luò)有4個卷積層和最大池化層,卷積核的大小為5×5,池化尺度為2×2。另外,在算法中利用提取的特征向量與樣本標(biāo)簽聯(lián)合構(gòu)建了代價函數(shù),使用了隨機梯度下降法(stochastic gradient descent, SGD)對網(wǎng)絡(luò)反向傳播更新網(wǎng)絡(luò)參數(shù),使得代價函數(shù)達到最小,然后將測試樣本正向傳播就可得到分類的結(jié)果。
圖5 帶結(jié)構(gòu)參數(shù)的DCNN示意圖Fig.5 DCNN diagram with structural parametrs
在圖2所示的實驗場景中, 對3個不同人徒手完成的9種體育動作回波進行了數(shù)據(jù)采集, 每人每個動作重復(fù)采集約200組, 總體數(shù)據(jù)達到5 000多組。每組動作的數(shù)據(jù)采集時間與動作的持續(xù)時間有關(guān),約為2~3 s,因此每個動作的數(shù)據(jù)長短不一。按照圖4所示的時間-距離像構(gòu)成方法,將每個動作的每組數(shù)據(jù)統(tǒng)一處理為一個100×100的數(shù)據(jù)矩陣,每個動作隨機抽取30組作為測試集,剩余作為訓(xùn)練集。
在網(wǎng)絡(luò)訓(xùn)練方面,采用的開源工具Keras是以谷歌公司開發(fā)的Tensorflow為后端的頂層API接口,具有易于訓(xùn)練和配置等特點。整個DCNN網(wǎng)絡(luò)采用SGD進行訓(xùn)練,相比于普通梯度下降方法,隨機梯度可以選取一個mini-batch為一組進行梯度更新,使得網(wǎng)絡(luò)具有更好的收斂性能,實驗中mini-batch值設(shè)為50,梯度更新學(xué)習(xí)率設(shè)為0.001。同時,在梯度更新過程中,加入了動量(momentum)因子,可以使得梯度更新方向更加平滑,其中動量權(quán)重取為0.9,衰減因子權(quán)重取為0.004。網(wǎng)絡(luò)中所有的初始化參數(shù)均設(shè)置為滿足均值為0、方差為0.01的高斯分布參數(shù)。
為了驗證網(wǎng)絡(luò)的收斂性和平均分類識別性能, 對網(wǎng)絡(luò)進行了400次循環(huán)更新迭代測試, DCNN對測試集的分類精度和收斂性如圖6所示。 經(jīng)過50次迭代后, 網(wǎng)絡(luò)就已達到90%以上的分類精度, 隨著進一步迭代,分類精度快速趨于收斂,并最終達到96.67%。
為了分析錯誤分類樣本,表1給出了9種體育動作的測試混淆矩陣,其中(a—i)分別對應(yīng)圖3中的9種動作?;煜仃嚨拿恳恍写韺嶋H動作,每一列代表網(wǎng)絡(luò)識別的動作??梢?揮手a、 打乒乓球b、 拍籃球c、 立定跳遠(yuǎn)d、 投籃球h和拳擊i等6個動作都具有高于平均精度的分類效果, 而投保齡球e、 踢足球f和墊排球g等3個動作的分類精度則低于平均精度。從圖4的時間-距離像對比可見,這3種動作中的上下肢特征曲線與其他動作存在局部的相似性,這種相似性提高了動作錯誤分類的可能性。
為了驗證深度卷積神經(jīng)網(wǎng)絡(luò)方法的有效性,選取了目前比較通用的隨機森林(random forest, RF)、 最近鄰(k-nearest neighbors, kNN)、 支持矢量機(support vector machine, SVM)等分類算法進行對比,對比實驗采用了相同的數(shù)據(jù)訓(xùn)練集和測試集,對比結(jié)果如表2所示。
圖6 DCNN對測試集的分類精度隨迭代次數(shù)的變化Fig.6 Classification accuracy for test set changes with iterations of DCNN
表1 測試集混淆矩陣
表2 本文DCNN算法與3種傳統(tǒng)方法的對比
在缺乏有效的特征提取方法前提下,傳統(tǒng)分類方法對測試數(shù)據(jù)的分類會產(chǎn)生較高的誤判概率,而DCNN則通過多層特征提取可以有效識別動作中的關(guān)鍵性特征,并且通過大量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,對人體動作分類具有更好的泛化能力,所以能夠獲得很高的測試精度和計算穩(wěn)定性。因此,深度卷積神經(jīng)網(wǎng)絡(luò)算法是有效的,在人體目標(biāo)雷達識別中具有潛在的應(yīng)用前景。
利用UWB雷達獲取了人體的高分辨距離信息,使用DCNN對人體動作進行了分類識別研究。將人體動作的時間-距離像作為DCNN的輸入數(shù)據(jù),對9種典型體育動作進行了分類處理,取得了96.67%的高分類精度,DCNN對人體動作測試集的計算收斂性好,收斂速度也較快,這說明基于時間-距離像的DCNN具備潛在的分類識別人體動作的良好能力,特別是在穩(wěn)定提取人體動作特征上存在十分明顯的優(yōu)勢。由于未利用人體動作回波中所包含的多普勒信息,也沒有考慮不同觀測視角下同一動作回波存在的差異(僅采集了面向雷達的人體動作數(shù)據(jù)),亦未對其他深度學(xué)習(xí)算法進行有益的嘗試,這些都將在下一步工作中開展深入的研究。