韓 崇 韓 磊 孫力娟② 郭 劍②
①(南京郵電大學(xué)計(jì)算機(jī)學(xué)院 南京 210003)
②(江蘇省無(wú)線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室 南京 210003)
手勢(shì)識(shí)別作為一種自然直觀的人機(jī)交互方式,是人機(jī)交互中最常用、最有效的方法之一[1]。現(xiàn)有手勢(shì)識(shí)別技術(shù)有很多種,如基于圖像視覺(jué)技術(shù)、基于可穿戴設(shè)備技術(shù)、基于生物信號(hào)技術(shù)以及基于雷達(dá)探測(cè)技術(shù)?;趫D像視覺(jué)的手勢(shì)識(shí)別中一些研究人員利用微軟公司的Kinect深度體感攝影機(jī)進(jìn)行了手勢(shì)識(shí)別的相關(guān)研究[2–4]。然而,基于圖像視覺(jué)的手勢(shì)識(shí)別方法不能在非視線、光線條件差或被遮擋的情況下工作。同時(shí)這種方法還有一些隱私和功耗的問(wèn)題?;诳纱┐髟O(shè)備的手勢(shì)識(shí)別通過(guò)穿戴傳感設(shè)備捕獲手勢(shì)運(yùn)動(dòng)的變化[5],常用的信號(hào)有肌電圖、壓力、加速度。但是,這類方法只有用戶佩戴傳感器時(shí)才能起作用?;谏镄盘?hào)的手勢(shì)識(shí)別利用眼動(dòng)、腦電信號(hào)、肌電信號(hào)等生物信號(hào)經(jīng)過(guò)處理進(jìn)行手勢(shì)識(shí)別處理,現(xiàn)有方法主要利用肌電圖(ElectroMyoGram, EMG)[6]來(lái)進(jìn)行手勢(shì)分類識(shí)別。但是,基于生物信號(hào)的手勢(shì)識(shí)別不具有普適性,用戶的生物信號(hào)都不盡相同,另外基于生物信號(hào)的手勢(shì)識(shí)別方法也需要佩戴相應(yīng)設(shè)備,造成使用不便。
隨著毫米波通信和雷達(dá)技術(shù)的發(fā)展,使用毫米波雷達(dá)進(jìn)行無(wú)接觸式人機(jī)交互[7]逐漸引起了相關(guān)研究者的關(guān)注。以毫米波雷達(dá)的方式進(jìn)行手勢(shì)識(shí)別的優(yōu)點(diǎn)尤為突出[8]:(1)雷達(dá)信號(hào)不受光照環(huán)境的影響;(2)數(shù)據(jù)信號(hào)是射頻信號(hào),具有隱私安全性;(3)毫米波雷達(dá)具有能耗低、體積小的特點(diǎn),這為嵌入到便攜式設(shè)備中提供了可能。
基于毫米波雷達(dá)的手勢(shì)識(shí)別作為新興技術(shù),克服了傳統(tǒng)手勢(shì)識(shí)別方法的諸多問(wèn)題,已經(jīng)得到了一些實(shí)際應(yīng)用案例,最具代表性的是谷歌Touchstone團(tuán)隊(duì)的Soli項(xiàng)目[9]通過(guò)自制毫米波雷達(dá)芯片,在芯片體積、功耗以及算法效率上進(jìn)行優(yōu)化,并初步應(yīng)用于Google Pixel 4系列手機(jī)中,但是由于各種原因,Pixel后續(xù)版本中相關(guān)功能被取消了?,F(xiàn)有關(guān)于毫米波雷達(dá)手勢(shì)識(shí)別研究已經(jīng)取得了很多的成果,但是基于毫米波雷達(dá)硬件,例如信號(hào)回波和垂直/水平天線等特征,在手勢(shì)信息的利用度[10]、手勢(shì)動(dòng)作的連貫性[11]、雷達(dá)信號(hào)角分辨率利用等方面還有待改進(jìn)的問(wèn)題。
基于此,本文基于調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave, FMCW)毫米波雷達(dá)平臺(tái),利用其高距離分辨率、天線尺寸小、功耗低的優(yōu)點(diǎn)進(jìn)行手勢(shì)分類,針對(duì)現(xiàn)有手勢(shì)識(shí)別研究中的數(shù)據(jù)預(yù)處理和特征利用問(wèn)題,面向手勢(shì)識(shí)別應(yīng)用,提出一種用于毫米波雷達(dá)手勢(shì)識(shí)別的時(shí)空壓縮特征表示和學(xué)習(xí)方法。本文方法主要包括3個(gè)步驟:首先,對(duì)接收到的FMCW回波反射信號(hào)距離-多普勒?qǐng)D進(jìn)行靜態(tài)干擾去除和動(dòng)目標(biāo)點(diǎn)篩選,減少雜波對(duì)手勢(shì)信號(hào)的干擾,同時(shí)大大減少數(shù)據(jù)量的計(jì)算;然后,對(duì)處理過(guò)的距離-多普勒?qǐng)D進(jìn)行壓縮,利用動(dòng)目標(biāo)點(diǎn)的主導(dǎo)速度來(lái)表示手勢(shì)的運(yùn)動(dòng)特征,實(shí)現(xiàn)多維特征的壓縮映射,并不丟失手勢(shì)運(yùn)動(dòng)的關(guān)鍵特征信息;最后設(shè)計(jì)了一個(gè)單通道的卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)和分類多維手勢(shì)特征信息在多用戶和多位置的手勢(shì)場(chǎng)景。本文方法主要使用了距離多普勒時(shí)間圖特征(Range Doppler Time Image, RDTI),因此下文中本文方法就稱為RDTI方法。本文的主要貢獻(xiàn)如下:
(1) 利用特征預(yù)處理,進(jìn)行靜態(tài)干擾去除和動(dòng)目標(biāo)點(diǎn)篩選,有效凸顯手勢(shì)信號(hào)和減少無(wú)效點(diǎn)的計(jì)算,準(zhǔn)確提取手勢(shì)的目標(biāo)位置;
(2) 提出一種基于手勢(shì)時(shí)空運(yùn)動(dòng)模型的手勢(shì)識(shí)別算法,針對(duì)單一特征手勢(shì)識(shí)別精度不高、多維特征多流網(wǎng)絡(luò)的識(shí)別模型復(fù)雜的問(wèn)題,提出手勢(shì)時(shí)空壓縮算法,為了利用距離、多普勒和時(shí)間信息,在距離-多普勒特征圖上利用手勢(shì)主導(dǎo)速度來(lái)表示手勢(shì)目標(biāo)的頻率響應(yīng)實(shí)現(xiàn)空間上的壓縮,并將主導(dǎo)速度信息映射到距離-時(shí)間圖上實(shí)現(xiàn)時(shí)間上的壓縮,構(gòu)成手勢(shì)時(shí)空壓縮特征圖。針對(duì)此特征并設(shè)計(jì)了一種輕量級(jí)網(wǎng)絡(luò),在保證了準(zhǔn)確率的同時(shí),簡(jiǎn)化了算法和網(wǎng)絡(luò)模型,易于嵌入到便攜式設(shè)備中。
本文其余章節(jié)安排如下:首先,第2節(jié)回顧手勢(shì)識(shí)別的相關(guān)工作;第3節(jié)主要介紹雷達(dá)的相關(guān)知識(shí)以及手勢(shì)特征的提取原理;第4節(jié)對(duì)手勢(shì)的信號(hào)模型進(jìn)行預(yù)處理和特征提取,獲得壓縮的手勢(shì)時(shí)空運(yùn)動(dòng)圖用來(lái)表示手勢(shì)的時(shí)空運(yùn)動(dòng);第5節(jié)給出手勢(shì)識(shí)別中基于壓縮的手勢(shì)時(shí)空特征的實(shí)驗(yàn)對(duì)比結(jié)果和分析;第6節(jié)是本文的總結(jié)。
基于毫米波雷達(dá)信號(hào)的手勢(shì)識(shí)別當(dāng)前采用的主要方法是利用雷達(dá)設(shè)備采集手勢(shì)信號(hào),然后通過(guò)信號(hào)處理提取手勢(shì)特征,最后通過(guò)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法進(jìn)行手勢(shì)分類[12]。那么如何對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,選用什么樣的手勢(shì)特征的提取,設(shè)計(jì)何種分類算法,對(duì)最終的手勢(shì)識(shí)別率都有一定的影響,同時(shí)也是手勢(shì)識(shí)別技術(shù)研究和應(yīng)用的關(guān)鍵。根據(jù)雷達(dá)手勢(shì)識(shí)別的處理過(guò)程,分別對(duì)基于雷達(dá)的手勢(shì)信號(hào)處理和基于深度學(xué)習(xí)的特征提取兩個(gè)方面進(jìn)行研究現(xiàn)狀分析。
在雷達(dá)回波信號(hào)手勢(shì)特征處理方面,Zhang等人[10]采用5.8 GHz雷達(dá)采集手勢(shì)信號(hào),利用短時(shí)傅里葉變換和連續(xù)小波變換兩種時(shí)頻分析方法,對(duì)雷達(dá)接收到的信號(hào)進(jìn)行分析。但是,該工作中的雷達(dá)信號(hào)僅僅提取時(shí)頻信息,無(wú)法獲取到手勢(shì)更豐富的信息,對(duì)一些微動(dòng)手勢(shì)、易混淆手勢(shì)的識(shí)別效果不佳。Molchanov等人[11]通過(guò)2維快速傅里葉變換(2 Dimensions Fast Fourier Transform, 2D-FFT)得到包含手勢(shì)距離和速度信息的距離-多普勒?qǐng)D(Range-Doppler Map, RDM)來(lái)表征手勢(shì)。為了更好地利用手勢(shì)的多維特征,Sun等人[13,14]使用多特征編碼器來(lái)編碼手勢(shì)關(guān)鍵點(diǎn)的5D特征,其中關(guān)鍵點(diǎn)為距離-多普勒?qǐng)D中幅度最大,然而人工選擇的關(guān)鍵點(diǎn)容易受到動(dòng)態(tài)干擾,很難具有普適性,難以適應(yīng)復(fù)雜的場(chǎng)景。文獻(xiàn)[15,16]基于77 GHz毫米波雷達(dá),建立手勢(shì)運(yùn)動(dòng)模型來(lái)追蹤手勢(shì)的運(yùn)動(dòng),對(duì)手勢(shì)模型中的最佳反射點(diǎn)提取多普勒-時(shí)間特征圖、垂直角度-時(shí)間圖、水平角度時(shí)間圖,然后基于3通道卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN)學(xué)習(xí)特征并進(jìn)行手勢(shì)分類,該方法在下文中稱為通道平均的多普勒時(shí)間圖加水平角度時(shí)間圖加垂直角度時(shí)間圖方法(Channel Agerage - Doppler Time Image + Horizontal Angle Time Image +Vertical Angle Time Image, CA–DTI+HATI+VATI)。由于毫米波雷達(dá)平臺(tái)的角度分辨率不高,因此該方法提取的角度特征對(duì)微動(dòng)作手勢(shì)的表示能力有一定的限制。
為了有效地對(duì)手勢(shì)特征進(jìn)行提取,Karpathy等人[17]提出了使用CNN提取各幀圖像的特征。CNN可以提取和保留每一幀圖像中的手勢(shì)特征,并對(duì)手勢(shì)進(jìn)行分類,但沒(méi)有考慮幀間的相干性信息。基于此問(wèn)題,Tran等人[18]提出了3維卷積來(lái)替代2維卷積,由此生成的3維卷積神經(jīng)網(wǎng)絡(luò)(3 Dimensions Convolutional Neural Networks, 3D-CNN)來(lái)提取多幀連續(xù)信息。由于卷積核是單一的,提取的特征不足以完全有效地表示整個(gè)手勢(shì)運(yùn)動(dòng)且3D-CNN使得模型變得復(fù)雜,不易于嵌入到便攜式設(shè)備中。為了克服3D-CNN的不足,Wang等人[19]采用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)來(lái)提取手勢(shì)時(shí)間信息,但該工作采用多流網(wǎng)絡(luò)融合來(lái)提取手勢(shì)的時(shí)間信息,增加了網(wǎng)絡(luò)的開(kāi)銷,難以做到實(shí)時(shí)性。
本文提出基于FMCW雷達(dá)的手勢(shì)識(shí)別RDTI方法,考慮改善采用多普勒雷達(dá)只能測(cè)量單個(gè)運(yùn)動(dòng)物體引起的多普勒頻移,多根手指的相互協(xié)調(diào)動(dòng)作會(huì)使多普勒頻移特征重疊在一起的問(wèn)題。使用FMCW雷達(dá)的高距離分辨率特性將不同范圍的多個(gè)手勢(shì)進(jìn)行分離,從而提高手勢(shì)識(shí)別精度。另外本文針對(duì)單一特征手勢(shì)識(shí)別精度不高、多維特征多流網(wǎng)絡(luò)的識(shí)別模型復(fù)雜的問(wèn)題,提出一種基于時(shí)空壓縮特征圖的手勢(shì)識(shí)別算法,在保證了準(zhǔn)確率的同時(shí),簡(jiǎn)化了算法和網(wǎng)絡(luò)模型,易于嵌入到便攜式設(shè)備中做到實(shí)時(shí)的手勢(shì)識(shí)別。
本文基于毫米波雷達(dá)平臺(tái)采用發(fā)射FMCW信號(hào)接收回波的方式,以測(cè)量距離、角度和速度。FMCW體制雷達(dá)的信號(hào)為線性調(diào)頻脈沖信號(hào),隨時(shí)間變化頻率呈線性增加,下面介紹其測(cè)距、測(cè)速、測(cè)角原理。
上述流程即是對(duì)一個(gè)線性調(diào)頻信號(hào)chirp的處理過(guò)程,對(duì)連續(xù)多個(gè)chirp進(jìn)行相同的處理然后拼接成一幀數(shù)據(jù)。式(4)中距離-FFT結(jié)果顯示了不同范圍內(nèi)接收到的頻率響應(yīng)。圖1是手勢(shì)信號(hào)處理的原理圖,其中圖1(a)反映了對(duì)原始信號(hào)進(jìn)行距離-FFT處理后的結(jié)果。由于毫米波雷達(dá)平臺(tái)厘米級(jí)的距離分辨率,距離測(cè)量精確,可以檢測(cè)手指間的位置,從而能夠分辨微小動(dòng)作。
通過(guò)對(duì)每個(gè)chirp信號(hào)使用傅里葉變換,將會(huì)產(chǎn)生一個(gè)個(gè)具有不同的分離峰值的頻譜,每個(gè)峰值表示在特定距離處存在物體。如果速度不同的多個(gè)運(yùn)動(dòng)手指在測(cè)量時(shí)距離相同,將無(wú)法區(qū)分,因此需要進(jìn)一步提取每個(gè)chirp信號(hào)同一距離下的相位做FFT,在同一距離下區(qū)分速度不同的多個(gè)目標(biāo)。運(yùn)動(dòng)速度V的目標(biāo)在相鄰的兩個(gè)距離-FFT中應(yīng)該有不同的相位,這與目標(biāo)在一個(gè)chrip時(shí)間內(nèi)運(yùn)動(dòng)的距離V×Tc經(jīng)過(guò)做相位FFT后,就可以得到每個(gè)目標(biāo)的相位差ω,進(jìn)而得到速度不同的目標(biāo),運(yùn)動(dòng)速度V 表示為
其中,λ為波長(zhǎng),為了同時(shí)使用距離和速度來(lái)區(qū)分多個(gè)手指之間的位置,沿著距離-FFT列進(jìn)行另一個(gè)FFT即多普勒-FFT,如圖1(a)所示,以顯示同一距離下多個(gè)手指的不同速度。圖1(b)的不同顏色的索引位置顯示了兩個(gè)速度相同的目標(biāo)。
距離測(cè)量只給出手勢(shì)在射頻信號(hào)視距中的距離,進(jìn)一步本文使用信號(hào)達(dá)到角(Angle Of Arrival, AOA)來(lái)描繪目標(biāo)在空間笛卡兒坐標(biāo)系中的確切位置。利用FMCW雷達(dá)的多個(gè)接收天線推導(dǎo)出的AOA為
其中,dIR是相鄰接收天線之間的距離,為了進(jìn)一步區(qū)分手指在距離-多普勒域中的重疊,在所有接收信道上執(zhí)行第3次FFT即角度-FFT。例如,在圖1(c)上應(yīng)用角度-FFT后,可以捕獲多個(gè)目標(biāo)具有相同的距離和速度的AOA。
圖1 手勢(shì)信號(hào)處理原理圖
基于毫米波雷達(dá)平臺(tái)進(jìn)行手勢(shì)識(shí)別時(shí),利用手勢(shì)的角度信息作為特征識(shí)別,往往會(huì)因?yàn)橛布O(shè)備角度分率的不足,導(dǎo)致對(duì)微小手勢(shì)的識(shí)別效果會(huì)很差。硬件設(shè)備的距離分辨率和多普勒分辨率相比之下就會(huì)精確很多,在進(jìn)行手勢(shì)特征提取時(shí),可以準(zhǔn)確提取到微小手勢(shì)的變化,因此本文主要基于距離-FFT、多普勒-FFT高分辨率的特點(diǎn),提取手勢(shì)運(yùn)動(dòng)的時(shí)間、距離、多普勒信息,構(gòu)建一種壓縮的手勢(shì)時(shí)空運(yùn)動(dòng)特征,以提高基于毫米波雷達(dá)平臺(tái)的手勢(shì)識(shí)別精度。
本文手勢(shì)識(shí)別系統(tǒng)的整體框架可以分為毫米波雷達(dá)系統(tǒng)、原始數(shù)據(jù)處理、手勢(shì)時(shí)空壓縮特征提取、CNN分類4個(gè)部分。系統(tǒng)整體框架如圖2所示,首先對(duì)3發(fā)4收的毫米波雷達(dá)進(jìn)行手勢(shì)信號(hào)采集,得到12通道的手勢(shì)數(shù)據(jù),然后對(duì)手勢(shì)數(shù)據(jù)進(jìn)行預(yù)處理,主要包括距離維度處理和多普勒維度處理,處理后得到距離-多普勒特征圖,此時(shí)需要進(jìn)一步的雷達(dá)信號(hào)處理,主要包括靜態(tài)干擾去除和動(dòng)目標(biāo)點(diǎn)篩選,處理后的距離-多普勒?qǐng)D已經(jīng)可以作為手勢(shì)識(shí)別的特征圖進(jìn)行輸入識(shí)別,但此特征圖缺乏手勢(shì)運(yùn)動(dòng)的時(shí)間信息,本文提出RDTI方法在此基礎(chǔ)上進(jìn)一步融入手勢(shì)的時(shí)間信息。時(shí)空壓縮旨在將距離-多普勒和距離-時(shí)間這兩種傳統(tǒng)的手勢(shì)特征圖從時(shí)間維度和空間維度進(jìn)行壓縮,構(gòu)成手勢(shì)時(shí)空壓縮特征圖即RDTI。需要在距離-多普勒特征圖上利用手勢(shì)主導(dǎo)速度來(lái)表示手勢(shì)目標(biāo)的頻率響應(yīng)實(shí)現(xiàn)空間上的壓縮,并將主導(dǎo)速度信息映射到距離-時(shí)間圖上實(shí)現(xiàn)時(shí)間上的壓縮。最后將得到的手勢(shì)時(shí)空壓縮特征圖輸入到CNN中進(jìn)行學(xué)習(xí)和分類。
圖2 系統(tǒng)整體框架圖
為了從距離和速度方面提取用戶特定的手勢(shì)模式,將接收到的原始FMCW信號(hào)轉(zhuǎn)換為距離-多普勒域。具體來(lái)說(shuō),首先對(duì)接收的信號(hào)進(jìn)行距離-FFT,得到目標(biāo)的距離信息。一個(gè)明顯的頻率響應(yīng)FP是由目標(biāo)在距離雷達(dá)FP×c/2S處將反射信號(hào)反彈所引起的,其中S為FMCW信號(hào)的掃描的斜率。需要注意的是,手勢(shì)識(shí)別的信號(hào)會(huì)被許多物體(如手臂部位、墻體、天花板等)反射,每一種都會(huì)產(chǎn)生強(qiáng)烈的頻率響應(yīng)。為了進(jìn)一步計(jì)算這些反射物體的各種速度,將FFT應(yīng)用在距離-FFT的相位上,稱為多普勒-FFT,以手勢(shì)動(dòng)作先遠(yuǎn)離雷達(dá)后再靠近雷達(dá)為例,詳細(xì)說(shuō)明手勢(shì)特征信號(hào)的處理過(guò)程,如圖3顯示了該手勢(shì)產(chǎn)生的多普勒-FFT信號(hào),其中x軸(距離-FFT分辨率)對(duì)應(yīng)反射面對(duì)雷達(dá)的移動(dòng)速度,其中0表示反射面是靜態(tài)的。y軸(多普勒-FFT分辨率)對(duì)應(yīng)反射面到雷達(dá)的距離。
在圖3所示的距離-多普勒?qǐng)D包含了移動(dòng)手掌、靜態(tài)物體(墻壁、天花板)和多徑效應(yīng)的信息。為了準(zhǔn)確地獲取用戶的手勢(shì)動(dòng)作信息,需要消除靜態(tài)干擾的影響。
圖3 先遠(yuǎn)離雷達(dá)后靠近雷達(dá)手勢(shì)信號(hào)特征圖(第3幀)
本文采用的毫米波雷達(dá)平臺(tái)為捕捉實(shí)時(shí)的手勢(shì)變化,采用25幀/s的幀率。因此,對(duì)于每一幀,用戶的頻率響應(yīng)出現(xiàn)在不同的距離-多普勒位置,而對(duì)于一些靜態(tài)物體相關(guān)的頻率響應(yīng)發(fā)現(xiàn)在距離-多普勒?qǐng)D中隨時(shí)間是保持一致的。這就意味著可以通過(guò)計(jì)算距離-多普勒域中平均頻率響應(yīng)來(lái)粗略估計(jì)來(lái)自靜態(tài)目標(biāo)的干擾,這樣可以大大減少對(duì)每個(gè)距離-多普勒位置上目標(biāo)相關(guān)頻率響應(yīng)的干擾。圖4顯示了2 s窗口導(dǎo)出的靜態(tài)干擾分布圖,包含50幀。為了消除干擾,從每幀的距離-多普勒域頻率響應(yīng)中減去估計(jì)的靜止干擾。
圖4 靜態(tài)干擾分布圖
去除靜止干擾后的距離-多普勒?qǐng)D如圖5所示,主要包含目標(biāo)的手勢(shì)引起的頻率響應(yīng)。
圖5 去除靜態(tài)干擾后的距離-多普勒?qǐng)D
在處理距離-多普勒數(shù)據(jù)時(shí),可以注意到大量的背景噪聲積累導(dǎo)致了頻率響應(yīng)的偏差。為了消除這種影響,同時(shí)保留用戶手勢(shì)在距離-多普勒?qǐng)D中的運(yùn)動(dòng)特征,采用多普勒動(dòng)目標(biāo)點(diǎn)篩選的方法,使用基于恒虛警率(Constant False-Alarm Rate,CFAR)的閾值濾波,在距離-多普勒數(shù)據(jù)的距離維度和多普勒維度分別進(jìn)行CFAR計(jì)算,分別得到距離維度的閾值τR和多普勒維度閾值τD,具體描述如式(8)和式(9)所示
圖6 動(dòng)目標(biāo)篩選后的距離-多普勒?qǐng)D
至此,已經(jīng)完成了對(duì)距離-多普勒數(shù)據(jù)的靜態(tài)干擾去除、降噪以及多徑抑制的過(guò)程,可以發(fā)現(xiàn),從距離分辨率的角度解決了一個(gè)物體在多個(gè)相鄰chrip中的速度。因此,可以采用一個(gè)主導(dǎo)速度表示用戶每幀的手部速度,采用的公式為
其中,R(i,j,k)代表歸一化后的頻率響應(yīng),i, j, k分別為距離、速度、幀數(shù)對(duì)應(yīng)的索引值,Vj對(duì)應(yīng)于頻率響應(yīng)R(i,j,k)的速度,NR,ND分別表示距離-FFT的個(gè)數(shù)和多普勒-FFT的個(gè)數(shù)。主導(dǎo)速度集成了頻率響應(yīng)和速度,將2維距離-多普勒?qǐng)D壓縮成1維陣列。將壓縮后的距離-速度數(shù)據(jù)按時(shí)間順序排列映射到距離-時(shí)間2維數(shù)據(jù)上,構(gòu)成手勢(shì)時(shí)空壓縮特征圖,顯示用戶的手勢(shì)特征(手勢(shì)運(yùn)動(dòng)的方向、手勢(shì)的主導(dǎo)速度、持續(xù)時(shí)間等),如圖7所示。其中,距離隨時(shí)間的變化反映了手部相對(duì)于雷達(dá)的位置;手勢(shì)的持續(xù)時(shí)間由完成手勢(shì)所需的幀數(shù)表示。手勢(shì)的瞬時(shí)速度用主導(dǎo)速度來(lái)表示,手相對(duì)于雷達(dá)位置不同手勢(shì)的主導(dǎo)速度也不同,圖7中當(dāng)手遠(yuǎn)離雷達(dá)運(yùn)動(dòng)時(shí)如菱形所表示的運(yùn)動(dòng)軌跡時(shí),手勢(shì)的主導(dǎo)速度為正,當(dāng)手靠近雷達(dá)運(yùn)動(dòng)時(shí)如矩形所表示的運(yùn)動(dòng)軌跡時(shí),手勢(shì)的主導(dǎo)速度為負(fù),速度的正負(fù)之分可以進(jìn)一步判斷手勢(shì)的運(yùn)動(dòng)方向,由此表明手勢(shì)的時(shí)空壓縮特征可以準(zhǔn)確地反映出用戶不同手勢(shì)運(yùn)動(dòng)的特有模態(tài)。
圖7 手勢(shì)時(shí)空壓縮特征圖
為了能夠從手勢(shì)特征圖像中提取更深層次的特征,本文設(shè)計(jì)了一個(gè)輕量級(jí)的CNN架構(gòu)進(jìn)行手勢(shì)識(shí)別深度特征提取、訓(xùn)練和分類識(shí)別,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖8所示,其關(guān)鍵層包含3個(gè)2維卷積層和2個(gè)1維全連接層。CNN的輸入圖像大小為64×64×3。
圖8 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
CNN由于手勢(shì)像素尺寸小,輪廓特征簡(jiǎn)單,所以其卷積層的卷積核3較小,最大池化層的步幅2較小,全連接層的神經(jīng)元數(shù)量較少。Softmax層的輸出維數(shù)為Ncla×1,對(duì)應(yīng)于各種手勢(shì)分類的概率密度分布。設(shè)定恒定的學(xué)習(xí)率為0.001,batch size為32,迭代的epoch為50,所設(shè)計(jì)的網(wǎng)絡(luò)模型參數(shù)大小僅為約6 MB,在GPU1080ti計(jì)算機(jī)上對(duì)單個(gè)樣本進(jìn)行分類僅需約10 ms。
本文選擇CNN的主要原因是:首先,用于分類的多維特征是最適合CNN的2維圖像;其次,深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)從大量的數(shù)據(jù)樣本中學(xué)習(xí)通用特征,這有助于手勢(shì)識(shí)別算法增強(qiáng)多用戶的泛化能力。
本文采用的手勢(shì)識(shí)別系統(tǒng)包含4個(gè)部分:毫米波雷達(dá)系統(tǒng)、原始數(shù)據(jù)處理、手勢(shì)時(shí)空壓縮特征圖提取和CNN分類。首先利用FMCW毫米波雷達(dá)平臺(tái)接收到原始手勢(shì)數(shù)據(jù),利用提出的壓縮時(shí)空運(yùn)動(dòng)特征的算法得到壓縮后的手勢(shì)時(shí)空運(yùn)動(dòng)圖,從而制作不同手勢(shì)的數(shù)據(jù)集,最后利用不同的手勢(shì)識(shí)別算法對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè),驗(yàn)證不同手勢(shì)識(shí)別算法的性能。
為了評(píng)估本文的手勢(shì)識(shí)別體系設(shè)計(jì),設(shè)計(jì)了毫米波雷達(dá)采集手勢(shì)數(shù)據(jù)系統(tǒng)。如圖9所示,系統(tǒng)由兩個(gè)功能模塊組成:德州儀器(Texas Instruments,TI)毫米波雷達(dá)評(píng)估板AWR6843BOOST-ODS和實(shí)時(shí)高速數(shù)據(jù)采集適配器。數(shù)據(jù)捕獲適配器通過(guò)低壓差分信號(hào)(Low Voltage Differential Signaling,LVDS)接口從雷達(dá)芯片中捕獲原始數(shù)模轉(zhuǎn)換數(shù)據(jù),通過(guò)USB接口輸出到計(jì)算機(jī)進(jìn)行進(jìn)一步處理。本毫米波雷達(dá)系統(tǒng)采用的線性調(diào)頻脈沖信號(hào)初始頻率為60 GHz,帶寬為4 GHz?;跁r(shí)分復(fù)用多輸入多輸出(Time Division Multiplexing - Multiple Input Multiple Output, TDM-MIMO)方案,設(shè)計(jì)了3個(gè)發(fā)射天線和4個(gè)接收天線形成一個(gè)2維虛擬天線陣列,包括12個(gè)數(shù)據(jù)通道,虛擬天線陣元如圖10所示。在水平和垂直方向上最多有4個(gè)虛擬通道,分別對(duì)應(yīng)29°和29°的角分辨率?;谑謩?shì)動(dòng)作的特性,雷達(dá)系統(tǒng)的配置參數(shù)列于表1。手勢(shì)特征的滑動(dòng)窗口長(zhǎng)度設(shè)置為50幀或2 s。
表1 手勢(shì)識(shí)別系統(tǒng)中雷達(dá)的參數(shù)設(shè)置
圖9 FMCW毫米波雷達(dá)平臺(tái)
圖10 多輸入輸出虛擬天線陣元
本文招募10個(gè)用戶(7名男性,3名女性)執(zhí)行7種手勢(shì)動(dòng)作構(gòu)成了本文自建手勢(shì)數(shù)據(jù)集,每種手勢(shì)在相對(duì)于雷達(dá)1 m距離內(nèi)完成,每個(gè)動(dòng)作重復(fù)30次。10個(gè)用戶分為8個(gè)訓(xùn)練用戶和2個(gè)測(cè)試用戶,測(cè)試用戶對(duì)應(yīng)的數(shù)據(jù)集不參與訓(xùn)練,用來(lái)在后期進(jìn)行算法泛化能力的對(duì)比。
7種手勢(shì)包括手指雙擊(0)、手指繞圈(1)、向左滑動(dòng)(2)、向右滑動(dòng)(3)、向上移動(dòng)(4)、向下移動(dòng)(5)、先上后下移動(dòng)(6),前兩類為手指運(yùn)動(dòng)的微動(dòng)手勢(shì),后5類為全手運(yùn)動(dòng),為了驗(yàn)證本文手勢(shì)識(shí)別方法的穩(wěn)定性,還包含了一種無(wú)手勢(shì)的狀態(tài)(7)。通過(guò)不同的處理方法得到了多普勒-時(shí)間圖(Doppler Time Image, DTI)、水平角度-時(shí)間圖(Horizontal Angle Time Image, HATI)、垂直角度-時(shí)間圖(Vertical Angle Time Image, VATI)、距離-多普勒?qǐng)D(Range Doppler Image, RDI)、距離-時(shí)間圖(DTI+HATI+VATI)、壓縮的距離-多普勒-時(shí)間圖(Range Doppler Time Image, RDTI)的6幅信號(hào)特征圖像,并將所有圖像尺寸縮放到64×64。最后得到了由8人×8類×30幅圖像組成的手勢(shì)特征數(shù)據(jù)集。各種手勢(shì)的示例和不同特征提取方法如圖11所示。根據(jù)手勢(shì)運(yùn)動(dòng)的特性,有效手勢(shì)范圍為在1 m×1 m,同時(shí)這些數(shù)據(jù)是在不同情況下收集的,例如不同的時(shí)間點(diǎn)、不同的運(yùn)動(dòng)速度、不同的姿勢(shì)標(biāo)準(zhǔn)。以8:2劃分?jǐn)?shù)據(jù)集,即80%的數(shù)據(jù)用于構(gòu)建手勢(shì)識(shí)別模型,將20%數(shù)據(jù)輸入到訓(xùn)練好的模型中,用于分類預(yù)測(cè),訓(xùn)練樣本數(shù)量和驗(yàn)證樣本數(shù)量分別為1536張和384張。
圖11 手勢(shì)圖和特征圖
為了驗(yàn)證本文所提出的距離-多普勒-時(shí)間圖(RDTI)在手勢(shì)識(shí)別中的性能,首先與谷歌Soli的手勢(shì)識(shí)別方法在Soli數(shù)據(jù)集上進(jìn)行手勢(shì)識(shí)別精度對(duì)比,Soli采用距離-多普勒?qǐng)D(RDI)[20]作為網(wǎng)絡(luò)的輸入,為了有效提取手勢(shì)運(yùn)動(dòng)的時(shí)間信息,設(shè)計(jì)了CNN+LSTM的網(wǎng)絡(luò)架構(gòu),首先將RDI輸入不同卷積層中提取卷積特征,然后將經(jīng)CNN輸出的特征圖再作為L(zhǎng)STM的輸入,利用其記憶單元建立起手勢(shì)序列前后信息之間的聯(lián)系,最后依此利用softmax進(jìn)行分類。Soli采用的數(shù)據(jù)集為40 Hz的原始距離-多普勒?qǐng)D像,10名用戶執(zhí)行11種手勢(shì),每種手勢(shì)重復(fù)25次,構(gòu)成10人×11類×25次手勢(shì)序列。基于該Soli數(shù)據(jù)集,本文提取出距離-多普勒-時(shí)間圖輸入到CNN網(wǎng)絡(luò)中進(jìn)行識(shí)別分類,在Soli數(shù)據(jù)集上的11種手勢(shì)類別對(duì)比結(jié)果如圖12所示。
從圖12可以看出采用RDI的手勢(shì)識(shí)別的平均精度為94.15,采用RDTI的手勢(shì)識(shí)別的平均精度為95.2,由此可見(jiàn),本文提出的利用主導(dǎo)速度來(lái)表示手勢(shì)運(yùn)動(dòng)速度特征的方法是可行的,RDTI特征包含了距離、多普勒、時(shí)間信息,而不再需要LSTM網(wǎng)絡(luò)另行提取時(shí)間信息,簡(jiǎn)化了模型,提供了更加輕便的手勢(shì)識(shí)別方法。兩種手勢(shì)識(shí)別方法的網(wǎng)絡(luò)模型如表2所示,可以看出基于RDTI的手勢(shì)識(shí)別模型比基于RDI的手勢(shì)識(shí)別模型小了約4倍,這為手勢(shì)識(shí)別系統(tǒng)的實(shí)時(shí)性和可嵌入性提供了可能。
表2 RDI與RDTI網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)模型大小對(duì)比
圖12 RDI與RDTI算法在Soli手勢(shì)數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比
為了進(jìn)一步驗(yàn)證不同手勢(shì)特征的識(shí)別能力,根據(jù)RDTI, RDI[20], CA-DTI+HATI+VATI[15]特征提取方法在本文自建的手勢(shì)數(shù)據(jù)集上進(jìn)行特征提取,并輸入到CNN進(jìn)行訓(xùn)練和識(shí)別測(cè)試。圖13是3種對(duì)比算法的各手勢(shì)特征預(yù)測(cè)準(zhǔn)確率。
在識(shí)別精度方面,從圖13 3種不同手勢(shì)特征的預(yù)測(cè)準(zhǔn)確率可以看出,總體上來(lái)看大部分情況下,基于RDTI特征和基于CA-DTI+HATI+VATI特征的分類效果要比沒(méi)有的時(shí)間信息的RDI特征的分類效果要好,平均分類精度分別高出4%, 3%。由此可見(jiàn)多特征信息對(duì)手勢(shì)識(shí)別有很大的影響。同時(shí)可以看到融合了角度信息的CA-DTI+HAVTI+VATI對(duì)手指雙擊、手指繞圈兩種微動(dòng)手勢(shì)的識(shí)別,效果并不是很理想。因?yàn)樵诂F(xiàn)有的毫米波雷達(dá)平臺(tái)中,大部分都存在角度分辨率不高的問(wèn)題,而采用CADTI+HATI+VATI的多維特征融合方法,增加了垂直和水平角度信息,導(dǎo)致提取的角度特征對(duì)微動(dòng)作手勢(shì)的表示能力不強(qiáng),反而影響了手勢(shì)的識(shí)別精度。此外,多維特征信息的提取也需要加入更多的計(jì)算,首先在特征提取時(shí),需要準(zhǔn)確找到手勢(shì)運(yùn)動(dòng)的角度信息,需要進(jìn)行MUSIC算法的計(jì)算得到不同的角度圖,然后多通道的特征信息在神經(jīng)網(wǎng)絡(luò)中也增加了計(jì)算量,過(guò)多的計(jì)算會(huì)導(dǎo)致手勢(shì)識(shí)別系統(tǒng)變得復(fù)雜,難以做到實(shí)時(shí)性和可嵌入性。
圖13 3種不同算法的手勢(shì)特征預(yù)測(cè)準(zhǔn)確率
相比之下,本文提出的基于壓縮的手勢(shì)時(shí)空運(yùn)動(dòng)圖RDTI在具備較高的識(shí)別精度的同時(shí),也大大減少了計(jì)算量。通過(guò)壓縮速度信息的方式,將距離、時(shí)間、速度特征都融合起來(lái),利用手勢(shì)的主導(dǎo)速度來(lái)提取手勢(shì)的主要特征,沒(méi)有加入手勢(shì)的角度信息,無(wú)論是面對(duì)手指的微動(dòng)手勢(shì)還是手掌的全手手勢(shì)都有較好的識(shí)別效果。
為了進(jìn)一步檢驗(yàn)對(duì)比3種不同手勢(shì)特征在手勢(shì)識(shí)別上的泛化能力,利用訓(xùn)練用戶的數(shù)據(jù)集訓(xùn)練好的模型對(duì)測(cè)試用戶的數(shù)據(jù)集進(jìn)行評(píng)估,由表3可以看出,對(duì)比另外兩種手勢(shì)識(shí)別方法,本文提出的RDTI手勢(shì)特征在用戶4與用戶9上都有較好的泛化能力。
表3 3種不同手勢(shì)特征的泛化能力(%)
本文基于TI毫米波雷達(dá)平臺(tái),利用FMCW雷達(dá)的高距離分辨率,對(duì)不同距離的多個(gè)手勢(shì)進(jìn)行分離,以提高手勢(shì)識(shí)別的準(zhǔn)確性。同時(shí)針對(duì)單特征手勢(shì)識(shí)別精度低、多維特征多流網(wǎng)絡(luò)識(shí)別模型復(fù)雜的問(wèn)題,提出了基于時(shí)空壓縮特征圖的手勢(shì)識(shí)別算法,該算法不僅保證了手勢(shì)識(shí)別的準(zhǔn)確性,而且提高了識(shí)別的準(zhǔn)確率,同時(shí)簡(jiǎn)化了算法和網(wǎng)絡(luò)模型。在后續(xù)的工作中,擬研究如何追蹤更為準(zhǔn)確精細(xì)的運(yùn)動(dòng)手勢(shì)目標(biāo),以有效抑制運(yùn)動(dòng)雜波的干擾,考慮借鑒基于圖像視覺(jué)的手勢(shì)識(shí)別方法,構(gòu)建準(zhǔn)確追蹤手勢(shì)的運(yùn)動(dòng)模型,將感興趣的區(qū)域進(jìn)一步聚焦在有效的運(yùn)動(dòng)手勢(shì)目標(biāo)上,提取更多的手部散射和運(yùn)動(dòng)特征,從而更準(zhǔn)確地識(shí)別手勢(shì)。