孫彥璽,趙婉婉,武東輝,陳繼斌,仇 森
(1.鄭州輕工業(yè)大學(xué) 建筑環(huán)境工程學(xué)院,鄭州 450002;2.大連理工大學(xué) 控制科學(xué)與工程學(xué)院,遼寧 大連 116024)
人們的日?;顒?dòng)是構(gòu)成社會(huì)生產(chǎn)、生活的重要組成部分,人體行為識(shí)別在日常生活中起著重要的作用,被廣泛應(yīng)用在醫(yī)療康復(fù)、智能看護(hù)、運(yùn)動(dòng)監(jiān)測(cè)、人機(jī)交互等領(lǐng)域[1-2]。根據(jù)數(shù)據(jù)來源不同,人體行為識(shí)別分為基于視頻圖像的人體行為識(shí)別和基于可穿戴傳感器的人體行為識(shí)別[3]。基于視頻圖像的人體行為識(shí)別是利用圖像、視頻處理等相關(guān)技術(shù),通過對(duì)攝像設(shè)備獲取的人體運(yùn)動(dòng)圖像集合或視頻片段進(jìn)行分析,從而實(shí)現(xiàn)對(duì)人體行為識(shí)別和特定目標(biāo)檢測(cè)[4-5]?;诳纱┐鱾鞲衅鞯娜梭w行為識(shí)別能夠從低級(jí)別的原始傳感器數(shù)據(jù)中尋求關(guān)于人體行為中所蘊(yùn)含的深層次知識(shí),傳感器數(shù)據(jù)主要由加速度計(jì)、陀螺儀、磁力計(jì)等傳感器采集得到[6]。隨著微電子機(jī)械系統(tǒng)和無線通信技術(shù)的飛速發(fā)展,這些傳感器可以被集成在可穿戴設(shè)備、智能手機(jī)或智能手表中,極大地方便了人們?nèi)粘y帶,且在實(shí)際使用時(shí)不受場(chǎng)所和周圍環(huán)境的限制,也不會(huì)給用戶帶來侵犯?jìng)€(gè)人隱私的威脅[7],促進(jìn)了基于可穿戴傳感器的人體行為識(shí)別在人們?nèi)粘I钪械膽?yīng)用。
人體行為識(shí)別屬于典型的模式識(shí)別問題,傳統(tǒng)模式識(shí)別主要采用人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、樸素貝葉斯、K 最近鄰、隱馬爾科夫模型等機(jī)器學(xué)習(xí)算法[8-9]。過去十幾年,這些機(jī)器學(xué)習(xí)算法在人體行為識(shí)別的問題上取得了巨大的進(jìn)步,但也存在一些不可回避的缺點(diǎn)。例如,利用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行人體行為識(shí)別時(shí),需要提前手工提取人體行為數(shù)據(jù)特征,而手工特征提取受特定領(lǐng)域知識(shí)和人們已有知識(shí)與經(jīng)驗(yàn)的限制[10]。一些淺層次特征(如均值、方差、頻率等統(tǒng)計(jì)信息)只能用于識(shí)別人體行為的低級(jí)活動(dòng)(如站立、行走、跑步等),很難識(shí)別出更為復(fù)雜和高級(jí)的人體行為(如洗盤子、使用吸塵器等),尤其是在當(dāng)前多模態(tài)和高維傳感器數(shù)據(jù)涌現(xiàn)的情況下,這些特征無法有效處理復(fù)雜的活動(dòng)和實(shí)現(xiàn)對(duì)人體活動(dòng)的準(zhǔn)確分類[11]。
為進(jìn)一步提高人體行為識(shí)別分類性能,同時(shí)又不依賴手工特征提取,本文提出基于空時(shí)特征融合的深度學(xué)習(xí)模型(CLT-net)的人體行為識(shí)別方法。CLT-net 模型通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)自動(dòng)提取數(shù)據(jù)特征,采用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)學(xué)習(xí)時(shí)序數(shù)據(jù)的相關(guān)性優(yōu)點(diǎn)并利用softmax 分類器實(shí)現(xiàn)人體行為分類。
近年來,深度學(xué)習(xí)技術(shù)得到蓬勃發(fā)展,在圖像識(shí)別[12]、目標(biāo)檢測(cè)[13]、視頻動(dòng)作識(shí)別[14-15]、自然語言處理[16]、時(shí)間序列預(yù)測(cè)[17]等領(lǐng)域取得了良好的效果。與傳統(tǒng)機(jī)器學(xué)習(xí)算法不同,深度學(xué)習(xí)網(wǎng)絡(luò)在很大程度上減輕了研究人員手工提取特征的工作量,模型通過更深層次的網(wǎng)絡(luò)訓(xùn)練,可以自動(dòng)提取到更高級(jí)別、更有意義的數(shù)據(jù)特征,使其在面對(duì)復(fù)雜的人體行為識(shí)別時(shí)更顯優(yōu)勢(shì)[18]。CNN 和LSTM 是現(xiàn)階段最常用于人體行為識(shí)別的兩種深度學(xué)習(xí)網(wǎng)絡(luò)。文獻(xiàn)[19]提出一種基于一維CNN 方法來進(jìn)行人體行為識(shí)別,該方法對(duì)基于智能手機(jī)加速度傳感器走路、跑步、靜止3 種人體行為的識(shí)別準(zhǔn)確率達(dá)到了92.71%。文獻(xiàn)[20]提出一種基于二維和三維的CNN 模型學(xué)習(xí)人體行為數(shù)據(jù)特征,并結(jié)合手工提取特征用于人體行為識(shí)別,在UCI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法的準(zhǔn)確率達(dá)到了96.95%。文獻(xiàn)[21]設(shè)計(jì)一種長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)來進(jìn)行人體行為識(shí)別,該方法實(shí)現(xiàn)特征自動(dòng)提取和融合,分類效果較好。文獻(xiàn)[22]提出一種基于雙向長(zhǎng)短期記憶(BiLSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并采用主成分分析(Principal Component Analysis,PCA)來降低數(shù)據(jù)集的維度,在mHealth 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,PCABiLSTM 模型的準(zhǔn)確率達(dá)到了97.64%。
雖然深度學(xué)習(xí)網(wǎng)絡(luò)在圖像分類、人臉識(shí)別、自然語言處理等領(lǐng)域已經(jīng)取得較好的效果,但是在序列信號(hào)分類應(yīng)用上還沒有得到一種公認(rèn)的結(jié)構(gòu)。因此,本文在LeNet-5基礎(chǔ)上設(shè)計(jì)了CNN模型用于人體行為識(shí)別。相比LeNet-5,本文CNN模型輸入層數(shù)據(jù)格式為24×410序列,并且在每個(gè)最大池化層之后加入批歸一化層(Batch Normalization)、激活層(Leaky Relu)。CNN 結(jié)構(gòu)如圖1 所示,主要包括序列輸入層、折疊層、CNN 特征提取層(Convolution Maxpooling Batch Normalization Leaky Relu)、解折疊層、flatten 層、全連接層、softmax 分類層。從圖1 可以看出,CNN 模型共包含3 個(gè)CNN 特征提取層。每個(gè)特征提取層的卷積層可以提取人體行為數(shù)據(jù)特征,是CNN 模型的關(guān)鍵一層;最大池化層具有壓縮數(shù)據(jù)、降低維度的作用;批歸一化層對(duì)提取出的特征進(jìn)行歸一化處理;非線性激活層(Leaky Relu)可以促進(jìn)批歸一化之后特征的映射。全連接層可以減少提取特征的信息損失。Softmax 分類層最終實(shí)現(xiàn)對(duì)人體行為的分類。
圖1 CNN 模型結(jié)構(gòu)Fig.1 Structure of CNN model
谷歌于2015 年提出批歸一化技術(shù),其應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練不僅可以加快模型的收斂速度,而且一定程度緩解了深層網(wǎng)絡(luò)中“梯度彌散”的問題,使訓(xùn)練的深度學(xué)習(xí)模型更穩(wěn)定。Leaky Relu 激活函數(shù)是為解決Relu 輸入值為負(fù)時(shí),輸出始終為0,同時(shí)一階導(dǎo)數(shù)也始終為0,導(dǎo)致神經(jīng)元參數(shù)不更新,神經(jīng)元不學(xué)習(xí)的情況下出現(xiàn)的,定義如式(1)所示:
其中:s為一個(gè)不小于1 的非負(fù)數(shù),當(dāng)s取0 時(shí),Leaky Relu 激活函數(shù)退化為Relu 函數(shù)。softmax 分類層如式(2)所示:
其中:xi為提取得到的人體行為數(shù)據(jù)的特征序列;K為人體行為類別數(shù)。softmax 函數(shù)的分類結(jié)果代表輸入樣本被劃分為每個(gè)類別時(shí)的所屬概率,且所屬概率和為1。
由于CNN 能自動(dòng)提取人體行為數(shù)據(jù)的深層特征,可以避免手工特征提取帶來的諸多問題,因此本文將CNN 特征提取層作為所提CLT-net 網(wǎng)絡(luò)模型的特征提取單元引入。CNN 特征提取層實(shí)現(xiàn)特征提取的具體過程是3 個(gè)卷積層的卷積核個(gè)數(shù)依次設(shè)為32、128、32,卷積核大小分別設(shè)為(1,11),(1,9),(1,7),步長(zhǎng)為(1,2),即垂直方向步長(zhǎng)為1,水平方向步長(zhǎng)為2,同時(shí)模型采用same 方式進(jìn)行“padding”;3 個(gè)最大池化層的池化核大小均為(1,3),步長(zhǎng)為(1,2)。當(dāng)單個(gè)樣本的輸入數(shù)據(jù)規(guī)模為24×410×1 時(shí),經(jīng)過3 個(gè)CNN 特征提取層得到的人體行為特征序列規(guī)模分別為24×102@32、24×25@128、24×6@32。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的改進(jìn),由HOCHREITER 和SCHMIDHUBER 于1997 年提出[23]。LSTM 網(wǎng)絡(luò)的核心部分是序列輸入層和LSTM 層,序列輸入層可以將序列或時(shí)間序列數(shù)據(jù)輸入網(wǎng)絡(luò),LSTM 層可以學(xué)習(xí)序列數(shù)據(jù)時(shí)間步長(zhǎng)之間的長(zhǎng)期依賴關(guān)系,很好地解決RNN 梯度消失問題[24]。由于LSTM 是一種強(qiáng)大的時(shí)序信號(hào)處理和預(yù)測(cè)方法,人體行為傳感器數(shù)據(jù)又屬于時(shí)間序列上的信號(hào),因此本文將LSTM 層作為所提CLT-net 網(wǎng)絡(luò)模型的特征篩選單元引入。LSTM 模型結(jié)構(gòu)如圖2 所示,主要包括序列輸入層、flatten 層、LSTM 層、全連接層、softmax 分類層。
圖2 LSTM 模型結(jié)構(gòu)Fig.2 Structure of LSTM model
從圖2可以看出,序列輸入層樣本大小為24×410×1,經(jīng)過flatten 層將多維數(shù)據(jù)一維化后作為L(zhǎng)STM 層輸入,LSTM 層隱藏單元數(shù)量設(shè)置為50,全連接層隱藏節(jié)點(diǎn)設(shè)置為13,最終由softmax 分類層實(shí)現(xiàn)對(duì)不同人體行為分類。
LSTM 層的細(xì)胞(cell)為輸入數(shù)據(jù)提供時(shí)間依賴性,賦予了數(shù)據(jù)時(shí)間特征,LSTM 網(wǎng)絡(luò)通過細(xì)胞實(shí)現(xiàn)長(zhǎng)期控制,進(jìn)而用于時(shí)序信號(hào)的分類預(yù)測(cè)。細(xì)胞功能主要是通過遺忘門、輸入門和輸出門實(shí)現(xiàn)。LSTM 層細(xì)胞內(nèi)部結(jié)構(gòu)如圖3 所示。
圖3 LSTM 細(xì)胞內(nèi)部結(jié)構(gòu)Fig.3 The internal structure of LSTM cell
LSTM 層可學(xué)習(xí)權(quán)值為輸入權(quán)重W、遞歸權(quán)重R和偏差b。矩陣W、R和b分別是輸入權(quán)重、遞歸權(quán)重和每個(gè)分量偏差的串聯(lián),如式(3)所示:
t時(shí)刻細(xì)胞狀態(tài)輸出和隱藏狀態(tài)輸出如式(4)、式(5)所示:
其中:⊙為Hadamard 乘積(向量的元素相乘);σc為雙曲正切函數(shù)(tanh)狀態(tài)激活函數(shù)。
圖3 中t時(shí)刻遺忘激活ft、輸入激活it、輸出激活ot、候選單元輸入gt如式(6)~式(9)所示:
其中:ht-1為上一時(shí)刻隱藏狀態(tài)的輸出信息;xt為當(dāng)前時(shí)刻的輸入信息。將ht-1與xt共同作為當(dāng)前時(shí)間步的輸入信息參與網(wǎng)絡(luò)訓(xùn)練。這些信息經(jīng)過門激活函數(shù)σg后,最終得到輸出介于[0,1]的值。
遺忘激活ft越大,代表遺忘上一時(shí)刻細(xì)胞狀態(tài)輸出ct-1越少;輸入激活it越大,代表候選輸入gt被寫進(jìn)當(dāng)前時(shí)刻的信息越多,即遺忘激活ft和輸入激活it共同決定了當(dāng)前時(shí)刻細(xì)胞狀態(tài)輸出ct對(duì)不同輸入信息的接收程度;輸出激活ot則確定了當(dāng)前時(shí)刻隱藏狀態(tài)的輸出ht,以上控制策略便實(shí)現(xiàn)了人體行為數(shù)據(jù)在時(shí)間步長(zhǎng)序列上的長(zhǎng)期依賴性。
由于慣性傳感器采集的人體行為數(shù)據(jù)可以看作是時(shí)間序列信號(hào),以及當(dāng)前機(jī)器學(xué)習(xí)算法嚴(yán)重依賴手工設(shè)計(jì)的特征,可能會(huì)導(dǎo)致信息利用不充分,無法有效實(shí)現(xiàn)對(duì)復(fù)雜人體活動(dòng)識(shí)別等問題。本文提出了基于空時(shí)特征融合的深度學(xué)習(xí)模型(CLT-Net)用于人體行為識(shí)別。CLT-Net模型充分結(jié)合CNN 自動(dòng)提取數(shù)據(jù)深層特征和LSTM 學(xué)習(xí)時(shí)序數(shù)據(jù)之間相關(guān)性的優(yōu)點(diǎn),采用與上述CNN 模型相同的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)使用LSTM 層替換CNN 模型的第一個(gè)全連接層。CLT-Net網(wǎng)絡(luò)模型各項(xiàng)參數(shù)設(shè)置和規(guī)范函數(shù)選擇與對(duì)應(yīng)結(jié)構(gòu)的CNN 模塊和LSTM 模塊一致,其結(jié)構(gòu)如圖4 所示,主要包括序列輸入層、折疊層、CNN 特征提取層(Convolution Maxpooling Batch Normalization Leaky Relu)、解折疊層、flatten 層、LSTM 層、全連接層、softmax 分類層。
圖4 CLT-net 模型結(jié)構(gòu)Fig.4 Structure of CLT-net model
基于CLT-net 模型的人體行為識(shí)別方法分類過程為:首先將輸入的人體行為數(shù)據(jù)序列經(jīng)過CNN 模塊進(jìn)行二維空間上的特征提取,將得到的二維數(shù)據(jù)特征經(jīng)過flatten 層展開成一維后輸入LSTM 層進(jìn)行時(shí)間序列上的特征篩選;然后再經(jīng)過全連接層將篩選后得到的人體行為特征通過權(quán)重矩陣映射至樣本標(biāo)記空間;最終通過softmax 層進(jìn)行分類計(jì)算,并選擇具有最大預(yù)測(cè)概率的類別作為輸入數(shù)據(jù)樣本的預(yù)測(cè)類別。模型在訓(xùn)練時(shí)會(huì)根據(jù)前向傳播得到的預(yù)測(cè)類別與真實(shí)樣本標(biāo)簽之間的誤差,并依據(jù)模型采用的損失函數(shù)和優(yōu)化器進(jìn)行反向傳播,以不斷修正網(wǎng)絡(luò)中的權(quán)值和偏置項(xiàng),最終實(shí)現(xiàn)模型訓(xùn)練并得到較優(yōu)模型。
本文基于可穿戴傳感器數(shù)據(jù)進(jìn)行人體行為識(shí)別研究,實(shí)驗(yàn)采用公開的DaLiAc(Daily Life Activities)數(shù)據(jù)集[25]。該數(shù)據(jù)集的數(shù)據(jù)采集過程由分別放置在受試者右臀部、胸部、右手腕和左腳踝4 個(gè)6 軸慣性傳感器節(jié)點(diǎn)完成,每個(gè)傳感器節(jié)點(diǎn)由一個(gè)三軸加速度計(jì)和一個(gè)三軸陀螺儀組成。加速度計(jì)的量程為±6 g,手腕、胸部、臀部傳感器節(jié)點(diǎn)的陀螺儀范圍為±500(°)/s,踝關(guān)節(jié)傳感器節(jié)點(diǎn)的陀螺儀范圍為±2 000(°)/s,數(shù)據(jù)的采樣頻率為204.8 Hz。數(shù)據(jù)采集實(shí)驗(yàn)共有19名健康受試者參與(女性8名,男性11名,年齡26±8 歲,身高177±11 cm,體重75.2±14.2 kg,偏差mean±std),共采集了13 項(xiàng)活動(dòng)?;顒?dòng)及對(duì)應(yīng)標(biāo)簽如表1 所示。
表1 活動(dòng)及對(duì)應(yīng)標(biāo)簽Table 1 Activities and corresponding labels
本文所有模型均在配置為Core i5-6500U CPU@3.20 GHz,16 GB 內(nèi)存的計(jì)算機(jī)上進(jìn)行訓(xùn)練和測(cè)試,該計(jì)算機(jī)系統(tǒng)為Windows 10 專業(yè)版64 位,并且所有模型使用Matlab2020b Deep Learning Toolbox 框架實(shí)現(xiàn)。
首先對(duì)人體行為數(shù)據(jù)進(jìn)行樣本劃分,取滑動(dòng)窗口長(zhǎng)度為410(2 倍的采樣頻率取整),且相鄰窗口之間存在50%的數(shù)據(jù)重疊,因此單個(gè)樣本序列大小為24×410(4 個(gè)6 軸傳感器)。將經(jīng)過數(shù)據(jù)分割后的樣本打亂順序,取前90%的樣本作為訓(xùn)練集,剩下10%作為測(cè)試集。實(shí)驗(yàn)參數(shù)設(shè)置如表2 所示,仿真實(shí)驗(yàn)時(shí)所有模型的初始化參數(shù)都使用相同配置,目的是使所有模型都在相對(duì)公平的條件進(jìn)行對(duì)比,從而更利于準(zhǔn)確反映CNN 模型、LSTM 模型和CLT-net 模型的真實(shí)性能。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameters setting
CNN 層和全連接層的權(quán)系數(shù)初始化采用Kaiming 法,該方法有利于加快模型的收斂速度,采用正交方法作為L(zhǎng)STM 層的權(quán)系數(shù)初始化方法。所有模型的優(yōu)化器都使用自適應(yīng)矩估計(jì)優(yōu)化算法(Adam 算法)[26],該方法具有更快的收斂速度和更低的內(nèi)存消耗需求,并且在模型訓(xùn)練過程中可以不使用驗(yàn)證集。
3.4.1 模型收斂速度
LSTM 模型、CNN 模型和CLT-net 模型是在訓(xùn)練集上進(jìn)行訓(xùn)練的,模型訓(xùn)練過程的準(zhǔn)確率對(duì)比如圖5所示。從圖5 可以看出,3 種模型訓(xùn)練過程的準(zhǔn)確率隨著迭代次數(shù)的增加逐漸趨近于100%,說明模型對(duì)不同人體行為的分類結(jié)果越來越好。
圖5 訓(xùn)練過程中LSTM、CNN 和CLT-net 模型準(zhǔn)確率對(duì)比Fig.5 Accuracy comparison between LSTM,CNN and CLT-net models in training process
訓(xùn)練過程中LSTM、CNN 和CLT-net模型損失函數(shù)曲線如圖6 所示。從圖6 可以看出,3 種模型訓(xùn)練過程的損失函數(shù)曲線隨著迭代次數(shù)的增加逐漸趨近于0,說明模型各項(xiàng)參數(shù)的修正更新逐漸向較優(yōu)值靠近。
圖6 訓(xùn)練過程中LSTM、CNN和CLT-net模型損失函數(shù)值對(duì)比Fig.6 Loss function value comparison between LSTM,CNN and CLT-net models in training process
CLT-net模型具有最快的收斂速度,使得訓(xùn)練集的分類準(zhǔn)確率和損失函數(shù)值接近穩(wěn)定狀態(tài)。隨著迭代次數(shù)的增加CLT-net模型的分類準(zhǔn)確率逐漸達(dá)到最高,損失值逐漸降低至最小,而CNN 模型和LSTM 模型次之,CLT-net 模型在人體行為識(shí)別中具有高效性。
3.4.2 模型準(zhǔn)確性
對(duì)應(yīng)訓(xùn)練好的LSTM 模型、CNN 模型和CLT-net模型在測(cè)試集上的預(yù)測(cè)分類混淆矩陣如圖7~圖9 所示。作為對(duì)比建立的BP 神經(jīng)網(wǎng)絡(luò)模型在測(cè)試集上的預(yù)測(cè)分類混淆矩陣如圖10 所示。4 個(gè)混淆矩陣分別為14 行14 列。底側(cè)數(shù)字1~13 代表待分類的13 種人體行為,左側(cè)數(shù)字1~13 代表預(yù)測(cè)分類出的13 種人體行為。最后一行格子(右下角格子除外)上面和下面的百分比分別表示模型對(duì)某一人體行為做出正確或錯(cuò)誤分類的準(zhǔn)確率(召回率)和錯(cuò)誤率。最后一列格子(右下角格子除外)上面和下面的百分比分別表示模型預(yù)測(cè)分類為某一人體行為的準(zhǔn)確率(精確率)和錯(cuò)誤率。右下角格子上面的百分比代表模型對(duì)13 種人體行為做出正確分類的總體平均分類準(zhǔn)確率,下面的百分比為總體平均分類錯(cuò)誤率。其他格子下面百分比則表示該分類樣本數(shù)占全部測(cè)試集樣本數(shù)的比例。
圖7 測(cè)試集上LSTM 模型的預(yù)測(cè)分類混淆矩陣Fig.7 Prediction classification confusion matrix of LSTM model on test set
圖8 測(cè)試集上CNN 模型的預(yù)測(cè)分類混淆矩陣Fig.8 Prediction classification confusion matrix of CNN model on test set
圖9 測(cè)試集上CLT-net 模型的預(yù)測(cè)分類混淆矩陣Fig.9 Prediction classification confusion matrix of CLT-net model on test set
圖10 測(cè)試集上BP 模型的預(yù)測(cè)分類混淆矩陣Fig.10 Prediction classification confusion matrix of BP model on test set
從4 個(gè)混淆矩陣中可以看出,BP、LSTM 和CNN模型的總體平均分類準(zhǔn)確率分別為61.7%、77.6%和96.4%,本文提出CLT-net 模型達(dá)到了97.6%,分別提高了35.9、20.0 和1.2 個(gè)百分點(diǎn)。CNN 模型能夠提取人體行為數(shù)據(jù)的特征,這些特征最大限度代表了原始人體行為數(shù)據(jù),用這些特征進(jìn)行人體行為識(shí)別分類具有較好的表現(xiàn)。相比LSTM 模型,CNN 模型具有更高的識(shí)別率。LSTM 模型只用于時(shí)序數(shù)據(jù)建模以學(xué)習(xí)數(shù)據(jù)間的相關(guān)性,并不能實(shí)現(xiàn)特征提取,這也說明了特征提取是進(jìn)行分類識(shí)別的關(guān)鍵,CNN 特征提取模塊是CLT-net 模型最重要的組成部分。
3.4.3 模型分類結(jié)果可視化
t 分布隨機(jī)近鄰嵌入(t-Distribution Stochastic Neighbour Embedding,t-SNE)是一種適合高維數(shù)據(jù)可視化的降維算法[27-28]。t-SNE 將高維點(diǎn)嵌入低維點(diǎn),同時(shí)尊重點(diǎn)之間的相似性,高維空間中的附近點(diǎn)對(duì)應(yīng)于附近嵌入的低維點(diǎn),高維空間中的遠(yuǎn)處點(diǎn)對(duì)應(yīng)于遠(yuǎn)處嵌入的低維點(diǎn),通過可視化低維點(diǎn)以查看原始高維數(shù)據(jù)中的自然簇。本文利用t-SNE高維數(shù)據(jù)可視化方法,將人體行為的分類結(jié)果通過可視化手段直觀呈現(xiàn)出來。LSTM 模型、CNN模型和CLT-net在測(cè)試集上的人體行為分類結(jié)果如圖11~圖13所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。
圖11 LSTM 模型的人體行為分類可視化結(jié)果Fig.11 Visualization results of human activity classification based on LSTM model
圖12 CNN 模型的人體行為分類可視化結(jié)果Fig.12 Visualization results of human activity classification based on CNN model
圖13 CLT-net 模型的人體行為分類可視化結(jié)果Fig.13 Visualization results of human activity classification based on CLT-net model
從3 個(gè)模型的t-SNE 可視化圖形中可以看出,基于CLT-net 模型的t-SNE 數(shù)據(jù)可視化將13 種人體行為很好分類(13 種人體行為分別被聚成一簇),說明CLT-net 模型具有優(yōu)越的人體行為分類識(shí)別性能。CNN 模型和LSTM 模型次之。
3.4.4 模型評(píng)價(jià)指標(biāo)
為更好說明CLT-net 模型的泛化能力,進(jìn)一步統(tǒng)計(jì)了LSTM、CNN、CLT-net 和傳統(tǒng)BP 模型在測(cè)試集上測(cè)試結(jié)果的宏查準(zhǔn)率(macro precision)、宏查全率(macro recall)和宏F1 值(macro F1-score),即對(duì)13 種人體行為類別中每類行為的精確率、召回率和F1-score 進(jìn)行求和再取平均值[29],4 種模型的評(píng)價(jià)指標(biāo)對(duì)比如表3 所示。
表3 BP、LSTM、CNN、CLT-net 模型的評(píng)價(jià)指標(biāo)對(duì)比Table 3 Evaluation indexes comparison between BP,LSTM,CNN,CLT-net models
精確率評(píng)價(jià)指標(biāo)是衡量正確預(yù)測(cè)出的正樣本數(shù)占實(shí)際預(yù)測(cè)出正樣本數(shù)的比例;召回率評(píng)價(jià)指標(biāo)是衡量正確預(yù)測(cè)出的正樣本數(shù)占總正樣本數(shù)的比例;F1-score 評(píng)價(jià)指標(biāo)作為精確率和召回率指標(biāo)的調(diào)和平均值。從表3 可以看出,CLT-net 模型的精確率、召回率和F1-score 評(píng)價(jià)指標(biāo)均最高,而BP 模型的所有指標(biāo)均最低,表明CLT-net 模型對(duì)不同人體行為的識(shí)別分類結(jié)果具有良好的穩(wěn)定性與可靠性。
本文提出基于空時(shí)特征融合技術(shù)的深度學(xué)習(xí)模型CLT-net。該模型結(jié)合CNN 可以自動(dòng)提取數(shù)據(jù)特征和LSTM 能夠?qū)W習(xí)時(shí)序數(shù)據(jù)之間的相關(guān)性優(yōu)點(diǎn),并利用softmax 分類器對(duì)人體行為進(jìn)行分類。在DaLiAc 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比LSTM、CNN、BP 模型,CLT-net 模型收斂速度更快且人體行為識(shí)別分類性能更優(yōu)。后續(xù)將通過構(gòu)建輕量級(jí)的深度學(xué)習(xí)模型,對(duì)基于傳感器的人體行為識(shí)別方法進(jìn)行優(yōu)化,進(jìn)一步提高特征識(shí)別準(zhǔn)確率。