張 力,常 俊,武 浩,黃 彬,劉 歡云南大學 信息學院,昆明 650500
在當前主流的人體感知研究項目中,主要分為兩部分,一部分是人類行為識別,另一部分是室內(nèi)定位。在以往傳統(tǒng)的人體感知研究工作中,無論是行為識別或者室內(nèi)定位,通常依賴于可穿戴傳感器[1]、攝像頭[2]或者一些特定設(shè)備來進行,這些系統(tǒng)都存在各自的問題?;诳纱┐鱾鞲衅鞯南到y(tǒng)需要用戶隨身攜帶設(shè)備,會對用戶帶來不便,基于攝像頭的系統(tǒng)對場景中環(huán)境光條件存在一定要求,并且存在泄露個人隱私的風險,而特定設(shè)備則部署復(fù)雜,并且相對而言成本較高。而近幾年,蓬勃發(fā)展的無線感知技術(shù)已在各個領(lǐng)域中大放異彩,特別是基于WiFi信道狀態(tài)信息(CSI)的無線感知技術(shù),擁有部署廣泛,成本較低,無需額外設(shè)備,相對安全等優(yōu)點。因此WiFi 感知在當下的新興物聯(lián)網(wǎng)應(yīng)用如智能家居,室內(nèi)導(dǎo)航等人機交互場景中都具有著廣泛的發(fā)展前景。
由于在WiFi無線感知中,同一種行為,在不同的地點進行,所帶來的意義也各不相同。例如在餐廳坐著和在書桌前坐著,其背后所蘊含的信息相差甚大,因此物聯(lián)網(wǎng)時代新的人機交互應(yīng)用中也提出了相應(yīng)的要求,不僅要求設(shè)備能對人體位置進行精準定位,而且也需要對人類活動進行準確識別。在目前的多數(shù)研究中,僅使用CSI 信息探討同一場景中定位[3]或者行為識別[4]中的一種。例如Wi-Act[5]探討了人體運動與CSI中的幅值信息之間的相關(guān)性,進而對不同活動進行分類。Wang等人在提出的基于CSI直方圖的E-Eyes[6],針對單一環(huán)境下的動作和房間走動情況進行識別。Wi-SD[7]探究了將CSI幅度和相位混合起來進行行為識別的方法。CrossSense[8]則使用了遷移學習的思想,構(gòu)建了一個可以容納多個模型的框架,僅使用較少的數(shù)據(jù)訓(xùn)練,但實現(xiàn)了高精度的步態(tài)識別和行為識別,Widar2.0[9]結(jié)合多個AoA、ToF、DFS等參數(shù)的優(yōu)化估計,實現(xiàn)了在二維平面的高精度定位,文獻[10]使用WiFi 指紋構(gòu)建離線數(shù)據(jù)庫,同時參考節(jié)點的密度關(guān)系對目標定位。目前在基于信號相關(guān)的多任務(wù)聯(lián)合識別方面,文獻[11]提出了基于雷達譜圖進行人體動作與身份識別的系統(tǒng),利用雷達實現(xiàn)了高精度的多任務(wù)識別,但易受噪聲影響,噪聲較大時正確率下降明顯,且使用的CNN結(jié)構(gòu)隨著網(wǎng)絡(luò)深度的增加,存在梯度消失,梯度爆炸等問題;Koike-Akino等人[12]提出了一種利用毫米波的信噪比進行定位與方向的聯(lián)合識別,采用三任務(wù)的分類結(jié)構(gòu)在辦公室內(nèi)達到了高精度的位置與方向的聯(lián)合識別,但其對WiFi 毫米波路由器的擺放位置,以及設(shè)備的硬件要求和數(shù)量均有較高要求。文獻[13]提出了一種可以跟蹤多個用戶并識別多個用戶同時進行的活動的系統(tǒng)。在多用戶場景下,該系統(tǒng)可以達到分米定位精度和92%以上的活動識別精度,但需要對但它需要對設(shè)備進行修改使信道達到600 MHz帶寬;文獻[14]提出了一種雙任務(wù)卷積神經(jīng)網(wǎng)絡(luò),創(chuàng)建了位置與手勢的WiFi指紋,進行手勢識別和室內(nèi)定位的聯(lián)合任務(wù),但它使用的設(shè)備為價格較為高昂的USPR,同時僅采用簡化后的Resnet網(wǎng)絡(luò)結(jié)構(gòu),沒有考慮到通道間的特征重要程度不一致,混有無關(guān)特征信息,識別效果下降。
針對以上問題,本文設(shè)計了一種基于深度殘差收縮網(wǎng)絡(luò)在場景中實現(xiàn)定位與行為聯(lián)合識別方法。首先對從WiFi 接收設(shè)備中采集到的原始數(shù)據(jù)進行預(yù)處理,消除了CSI 在信道傳播中除人體變化外其他障礙物產(chǎn)生的噪聲和高斯白噪聲,然后通過一維線性插值法對數(shù)據(jù)進行填充,并對相關(guān)信號進行地點標記和行為標記,構(gòu)建WiFi 指紋數(shù)據(jù)庫,建立CSI 中信息與位置、信息與行為之間的相關(guān)性,基于深度殘差收縮網(wǎng)絡(luò)構(gòu)建兩條神經(jīng)網(wǎng)絡(luò)分支分別進行定位與行為識別,使用改進后的殘差項增強網(wǎng)絡(luò)的表達能力,使用注意力結(jié)構(gòu)消除無關(guān)特征信息影響,通過兩條分支分別識別出環(huán)境中的12 個地點和6種行為。該方法的主要創(chuàng)新點在于:
相較于使用昂貴的軟件無線電USPR 或者WiFi 毫米波路由器,僅使用兩臺帶有Intel5300網(wǎng)卡的主機進行CSI數(shù)據(jù)的收集,設(shè)備易于部署且價格低廉。提出了基于深度殘差收縮網(wǎng)絡(luò)在場景中實現(xiàn)定位與行為聯(lián)合任務(wù)識別的方法。使用改進后的殘差項在模型中進行訓(xùn)練,降低了多層訓(xùn)練過程中的樣本特征損失;通過殘差收縮結(jié)構(gòu)針對不同的樣本設(shè)定不同的自適應(yīng)閾值,增強與任務(wù)相關(guān)的特征而抑制無關(guān)特征,消除無關(guān)信息影響,并且構(gòu)建兩條神經(jīng)網(wǎng)絡(luò)分支分別進行定位與行為識別,實現(xiàn)在場景中同時對室內(nèi)位置和行為識別的聯(lián)合感知任務(wù)。引入標簽平滑[15](label smoothing)后的交叉熵損失函數(shù)對網(wǎng)絡(luò)進行泛化,提高模型性能。針對三種場景下的室內(nèi)定位的平均識別率達到97.29%,針對行為識別的平均識別率達到90.02%。
WiFi 在無線信道傳播CSI 描述了WiFi 設(shè)備從發(fā)送端到接收端之間的變化,包含衰落、反射等對信號產(chǎn)生影響的因素,一般地,發(fā)送端信號X(fi,t)與接收端信號Y(f,t)之間的關(guān)系可以表示為:
其中,N(fi,t)表示信道中存在的噪聲,H(fi,t)表示在第i個子載波在時間t時,頻率為f的信道頻率狀態(tài)響應(yīng)(CFR),對CFR 進行以O(shè)FDM 子載波頻率為采樣間隔進行離散值采樣,得到CSI 數(shù)據(jù)。因此,對于單根收發(fā)天線,CSI矩陣可以表示為:
其中,‖H(fi,t) ‖和∠H(fi,t)分別表示子載波的幅值和相位。在MIMO 系統(tǒng)中,給定的30 個OFDM 子載波在時間段T內(nèi)接收到的CSI 數(shù)據(jù)包數(shù)量為30×T×NTx×NRx,其中NTx和NRx分別代表發(fā)送端和接收端的天線數(shù)量。
本文構(gòu)建了基于深度殘差收縮網(wǎng)絡(luò)的CSI 分類模型,本章將展示系統(tǒng)的總體架構(gòu),如圖1所示,主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征提取、結(jié)果分析四個部分。首先在兩個實驗場景中收集CSI原始數(shù)據(jù),再對數(shù)據(jù)進行預(yù)處理,得到標注了行為與地點的CSI 數(shù)據(jù)樣本,然后構(gòu)建殘差收縮神經(jīng)網(wǎng)絡(luò)模型,并在訓(xùn)練集上進行模型訓(xùn)練和優(yōu)化,最后在測試集上進行結(jié)果分析。
由于實驗測量得到的數(shù)據(jù)存在環(huán)境噪聲干擾,首先需要進行濾波以剔除異常值。Hampel濾波器把任何落在閉區(qū)間[μ-γσ,μ+γσ]之外的點視為異常值并進行剔除,其中μ是CSI數(shù)據(jù)的中位數(shù),σ是中值絕對偏差,γ是與應(yīng)用相關(guān)的參數(shù),在本次濾波中γ=3。
主成分分析法(PCA)是一種數(shù)據(jù)降維算法,在信號處理中,PCA能將原信號分別映射到信號子空間和噪聲子空間,然后通過提取信號子空間的特征值用來還原信號矩陣,重構(gòu)原始數(shù)據(jù),文獻[16]說明了PCA 可以有效去除CSI 數(shù)據(jù)的噪聲,CRAM[17]選擇使用第二主成分和第三主成分,WiAG[18]選擇使用第三主成分,經(jīng)過實驗觀察,本次實驗選擇第二主成分重構(gòu)原始信號。
由于本次實驗中,OFDM 子載波數(shù)目為30,設(shè)CSI矩陣為:
求出協(xié)方差矩陣的特征值和特征向量,采用奇異值分解法求解,求得最大的特征值和特征向量,即包含最大的信息量。
由于可能存在丟包和人工誤差等原因,每次測量所得到的數(shù)據(jù)包長度存在區(qū)別,需要對數(shù)據(jù)包長度進行填充,在這里采用一維線性插值法對數(shù)據(jù)進行填充,使每個CSI數(shù)據(jù)包長度為500。
Zhao 等人基于注意力機制提出了深度殘差收縮網(wǎng)絡(luò)[19],軟閾值化[20]通常應(yīng)用在信號降噪領(lǐng)域中,是一種特殊的注意力機制。原理將輸入信號數(shù)據(jù)中絕對值小于閾值的特征全部置為零,同時絕對值兩旁的特征也在朝零進行“收縮”,設(shè)x為輸入,y為輸出,閾值α為網(wǎng)絡(luò)中自動學習得到。其中,軟閾值的轉(zhuǎn)化公式為:
在深度殘差收縮網(wǎng)絡(luò)中,軟閾值化作為非線性變換層加入到殘差學習單元中,閾值α在殘差收縮網(wǎng)絡(luò)中通過注意力機制進行自動調(diào)整,增強與當前任務(wù)有關(guān)的特征而抑制與當前任務(wù)無關(guān)的特征。
本文結(jié)合深度殘差收縮網(wǎng)絡(luò),構(gòu)建了一種能夠同時對室內(nèi)位置和人體行為進行分類的深度殘差收縮網(wǎng)絡(luò)模型(DRSN),設(shè)計的網(wǎng)絡(luò)整體結(jié)構(gòu)由三部分組成,特征提取模塊、殘差收縮模塊和分類模塊,圖2 展示了學習模型具體示意圖,由3 個卷積層組成的Conv 層,4 個[1,1,1,1]結(jié)構(gòu)的RS-block 殘差單元,兩個分類分支包括1 個卷積層、SReLU 層、Avgpool 層和全連接層組成。
特征提取模塊由三個卷積核大小為3 的小卷積層(Conv 層)、歸一化層(BN 層),ReLU 層和最大池化層(Maxpooling)組成,與一般的大小為7的大卷積核相比,3個小卷積核需要的參數(shù)減小,而感受野大小不變,同時非線性增加,對于特征的學習能力更強。
殘差收縮模塊是使用ResNetV2[21]架構(gòu)改進的殘差收縮網(wǎng)絡(luò)。相對于文獻[10]所使用的ResNetV1 架構(gòu),ResNetV2將BN層移到了前面且在相加后去掉了ReLU層,這是因為首先使用BN層作為預(yù)激活函數(shù)可以加強對模型的正則化,同時如果將ReLU放在殘差分支的最后部分,由于ReLU 函數(shù)的非負特性,殘差分支的結(jié)果將永遠非負,在進行前向傳播過程的時候輸入只會單調(diào)遞增,從而會影響特征的表達能力。
殘差收縮網(wǎng)絡(luò)使用了通道間有著各自獨立閾值的結(jié)構(gòu),相對于通道間共享閾值的結(jié)構(gòu),在本次聯(lián)合識別任務(wù)中正確率更高。
在閾值學習中,首先對輸入特征圖內(nèi)的所有特征進行取絕對值(absolute value)和全局均值池化(global average pooling,GAP)操作,得到一個一維向量的特征A,將特征輸入一個兩層的全連接網(wǎng)絡(luò),其中神經(jīng)元數(shù)等于輸入特征圖的通道數(shù),最后通過一個Sigmoid 激活函數(shù),將輸出調(diào)整到0和1之間,記為α,其中α有:
最后閾值學習結(jié)果為α′=A×α,閾值始終是正數(shù),并且被保持在一個合理范圍內(nèi),從而防止輸出特征都是零的情況。輸入經(jīng)過兩層卷積隱藏層后,得到輸出xl+2,在此處進行軟閾值化操作,有:
設(shè)恒等映射連接后的輸出為F(x),最后輸出結(jié)果為F(x)+y。
x通過RS-block后,得到的輸出為:
圖3展示了RS-block的具體結(jié)構(gòu)圖。
因為需要同時對位置和行為進行分類識別,因此特征分類模塊擁有兩條分支,兩者都是將經(jīng)過殘差收縮模塊后得到的輸出經(jīng)過卷積層、激活函數(shù)層和自適應(yīng)平均池化層,最后進入全連接層進行分類,激活函數(shù)為SReLU,可以避免梯度消失和爆炸,將學習到的特征數(shù)據(jù)分別映射到12 個位置和6 種行為,得到位置信息和行為信息。
實驗采用配有Intel 5300 網(wǎng)卡的主機作為收發(fā)端,發(fā)送端網(wǎng)卡配有一根全向天線,接收端網(wǎng)卡配有三根呈均勻線陣排列的全向天線,收發(fā)端均距地45 cm,工作頻率為5.825 GHz,每秒傳輸約1 000 個數(shù)據(jù)包,在收發(fā)端利用Linux802.11n CSI Tool工具獲取CSI數(shù)據(jù)包。
為全面評估分類任務(wù)的性能,實驗場景包括15×10 m2的暗室、8×6 m2的會議室和3 m 寬的走廊,如圖4所示。暗室周圍部署了大量吸波材料,不僅能最大限度降低外界電磁波信號的干擾,而且能減少由于墻壁和天花板反射造成的多徑效應(yīng),屬于信號傳輸理想環(huán)境;會議室?guī)в凶酪蔚却罅糠瓷湮矬w,模擬現(xiàn)實中信號傳輸環(huán)境;走廊內(nèi)較為空曠,但靠近墻壁,墻壁反射造成的多徑效應(yīng)較為顯著。本實驗共邀請了4 名志愿者,包括2 名男生和2 名女生,分別進行站起、坐下、跳躍、深蹲、跌倒、撿起共6 種動作,數(shù)據(jù)標注為1~6,同種動作的時間盡量保持一致,每個動作進行5 次,每個環(huán)境12 個位置,數(shù)據(jù)標注為1~12,三個環(huán)境共4 320 個數(shù)據(jù),在剔除異常數(shù)據(jù)后,剩下4 225 個數(shù)據(jù),其中暗室1 422 個 數(shù) 據(jù)、會 議 室1 374 個 數(shù) 據(jù),走 廊1 429 個 數(shù)據(jù)。80%的數(shù)據(jù)用作訓(xùn)練集,剩下20%的數(shù)據(jù)用作測試集。
本文程序均在七彩虹GeForce GTX 1660 SUPER Ultra 6 GB上進行,運行環(huán)境為Pytorch 1.7.1,每個Batch包括64 個樣本數(shù)據(jù),訓(xùn)練100 個Epoch。采用Adam 優(yōu)化器進行訓(xùn)練,初始學習率為0.001,每10個epoch學習率下降一半,損失函數(shù)采用標簽平滑(label smoothing)后的交叉熵損失函數(shù),損失函數(shù)在模型反向傳播過程中,更新網(wǎng)絡(luò)參數(shù)。Label Smoothing 學習的編碼形式如下所示,其中ε是預(yù)定義好的一個超參數(shù),本次實驗取值0.1,K是該分類問題的類別個數(shù):
實驗具體場景模擬圖如圖4所示。
圖5顯示了系統(tǒng)在暗室、會議室和走廊中定位和活動識別中的正確率曲線,在暗室的定位正確識別率約為98.56%,行為正確識別率約為91.73%。考慮到多徑效應(yīng)等影響因素,兩種任務(wù)在會議室和走廊的正確識別率均有所下降。在會議室的定位正確識別率約為96.04%,行為正確識別率約為88.47%,在走廊的定位正確識別率約為96.76%,行為正確識別率約為89.86%。在三種場景下都得到了較高的定位和行為識別率,因此可以認為該模型,能夠有效同時進行目標的定位與行為識別任務(wù)。
圖6 和圖7 顯示了在暗室、會議室和走廊中6 種活動識別與12個位置定位的混淆矩陣,縱軸為真實標簽,橫軸為預(yù)測標簽,右側(cè)顏色條數(shù)值的深淺表示正確率的高低變化。從結(jié)果上來看,兩種任務(wù)在暗室中的整體識別率均優(yōu)于會議室和走廊,兩種任務(wù)中定位識別率都優(yōu)于行為識別率。在行為識別中,三種場景下深蹲、坐下兩種動作識別率相對較低,容易混淆,主要原因應(yīng)為兩者的運動方向主要集中在垂直向下方向上,持續(xù)時間接近,存在相似性,影響了分類效果。在定位識別中,在兩者相近的位置例如左右或前后容易發(fā)生誤判,但定位總體識別率較高,較少發(fā)生誤判現(xiàn)象。
5.2.1 方法對比
實驗選擇ResNet-50、DensetNet-121、MobileNet V2和ShuffleNet V2神經(jīng)網(wǎng)絡(luò)進行實驗對比。使用暗室數(shù)據(jù),每種方法進行10 次實驗并統(tǒng)計兩種任務(wù)的平均準確識別率,結(jié)果如圖8 所示,各種網(wǎng)絡(luò)的算法復(fù)雜度結(jié)果如表1 所示,其中行為識別損失函數(shù)曲線如圖9 所示,其中ResNet-50 僅使用了普通殘差單元進行分類。DensetNet-121[22]是一種具有密集連接的卷積神經(jīng)網(wǎng)絡(luò),每層輸出都來自于前面所有層輸出,使用的密集連接結(jié)構(gòu)在一定程度上減少了參數(shù)量和浮點運算。MobileNet V2[23]和ShuffleNet V2[24]均為輕量級神經(jīng)網(wǎng)絡(luò),MobileNet V2 隱藏層節(jié)點設(shè)置為[64,16,24,32,64,96,160,320,512],ShuffleNet V為[128,256,512,1 024,512]。DRSN由于采用了殘差收縮單元,通過軟閾值化增強與當前任務(wù)有關(guān)的特征而抑制與當前任務(wù)無關(guān)的特征,同時與兩個輕量級網(wǎng)絡(luò)相比在網(wǎng)絡(luò)開銷增加較少,從而無論是活動識別或者是定位識別正確率較其他模型均有所提高。綜上所述,基于DRSN的識別分類方法能在本次分類任務(wù)中取得了最優(yōu)檢測效果。
表1 開銷對比Table 1 Comparison of expenses
5.2.2 優(yōu)化器對比
本文對各類優(yōu)化器進行了性能驗證,分別針對Adam、AdamW、SGD、Nesterov、Adagrad、RMSprop 等優(yōu)化器進行了實驗,如表2。默認模型為DRSN,學習率均為0.001,其他參數(shù)均為默認。Adam優(yōu)化器吸取了動量法和RMSprop的優(yōu)點,不僅使用動量作為參數(shù)更新方向,而且可以自適應(yīng)調(diào)整學習率,而AdamW 則是在Adam的基礎(chǔ)上將權(quán)重衰減與學習率解耦改進得來。經(jīng)過實驗對比,優(yōu)化器的區(qū)別主要體現(xiàn)在活動識別率方面,Adam 取得了最優(yōu)效果,而AdamW 與Adam 效果差距不大。
表2 優(yōu)化器對比Table 2 Comparison of optimizers單位:%
5.2.3 發(fā)包率對比
除了對本文模型的性能進行驗證,本文還驗證了CSI 發(fā)包率對同一場景下模型的性能影響。在實驗場景中修改了每秒的發(fā)包個數(shù),依次是每秒50、100、500、1 000、2 000 個包,實驗結(jié)果如圖10 所示,隨著CSI 發(fā)包率的提高,模型檢測性能有所上升,但隨著發(fā)包率達到每秒2 000個包時,識別率反而略微下降,可能的原因是CSI數(shù)據(jù)包在高速率傳輸過程中產(chǎn)生了丟包現(xiàn)象,造成部分有效信息的丟失,最終導(dǎo)致識別率下降。
本文提出了一種基于深度殘差收縮網(wǎng)絡(luò)的CSI 定位與行為聯(lián)合識別方法。本文利用商用WiFi設(shè)備在兩種室內(nèi)場景(暗室和會議室)下進行評估,首先將接收到的CSI原始信息進行預(yù)處理并進行標簽標注,然后構(gòu)建帶有軟閾值學習分支的深度殘差收縮網(wǎng)絡(luò),通過閾值學習與軟閾值化增強與聯(lián)合識別任務(wù)相關(guān)的特征而抑制無關(guān)特征,最后通過兩條特征分類分支,實現(xiàn)了6 種動作在12 個位置上的聯(lián)合識別任務(wù)。實驗結(jié)果表明,本文模型在定位與行為聯(lián)合識別任務(wù)性能上較其他模型有所提升,能夠?qū)崿F(xiàn)較高的準確識別率。
本文不足之處在于更換復(fù)雜場景后,聯(lián)合識別任務(wù)的準確率會有一定程度的下降,因此探究如何提取出與場景無關(guān)的特征信息,提高識別的準確率是將是未來的重點研究方向。