金 博,王景林,劉泓鑠,張建鋒
(西北農(nóng)林科技大學(xué) 信息工程學(xué)院,陜西 楊凌 712100)
目前人體行為識(shí)別根據(jù)獲取數(shù)據(jù)的方式不同可以分為5種:基于視覺數(shù)據(jù)[1]的人體行為識(shí)別技術(shù)有著較高的識(shí)別準(zhǔn)確率,但是對(duì)于數(shù)據(jù)集質(zhì)量要求非常嚴(yán)格;基于無線網(wǎng)絡(luò)數(shù)據(jù)[2]的人體行為識(shí)別是利用無線信號(hào)在傳輸過程中遇到人體的遮擋而產(chǎn)生的信號(hào)變化特征來識(shí)別各類行為,對(duì)設(shè)備要求較高,部署成本高昂;基于音頻信號(hào)數(shù)據(jù)[3]的人體行為識(shí)別是對(duì)采集到的音頻信號(hào)編解碼處理來識(shí)別人體行為,然而采集到的數(shù)據(jù)存在大量環(huán)境噪聲;基于環(huán)境傳感器數(shù)據(jù)[4]的行為識(shí)別是根據(jù)各類行為所觸發(fā)的傳感器數(shù)據(jù)事件流來對(duì)行為進(jìn)行識(shí)別,但設(shè)備需要的部署環(huán)境要求較高,應(yīng)用場(chǎng)景局限大;基于可穿戴傳感器數(shù)據(jù)[5]的人體行為識(shí)別通過利用人體所佩戴的加速度計(jì)、磁力計(jì)、陀螺儀等傳感器進(jìn)行數(shù)據(jù)采集,通過使用識(shí)別算法實(shí)現(xiàn)各類行為識(shí)別。
綜合以上分析,本文提出一種基于可穿戴傳感器數(shù)據(jù)和雙注意力時(shí)間卷積網(wǎng)絡(luò)的人體行為識(shí)別模型。該模型通過改進(jìn)時(shí)間卷積網(wǎng)絡(luò)[6](temporal convolutional network,TCN)來提升人體行為識(shí)別準(zhǔn)確率。首先在TCN中引入雙模塊注意力以便更有效地提取時(shí)序傳感器數(shù)據(jù)中的深層特征信息。其次使用三元組損失(triplet loss)函數(shù)來區(qū)分傳感器數(shù)據(jù)相似的異類行為。最后,該模型在公共行為數(shù)據(jù)集PAMAP2上獲得了較好的識(shí)別效果,優(yōu)于其它行為識(shí)別模型。
在基于可穿戴傳感器數(shù)據(jù)的人體行為識(shí)別工作中,常用的識(shí)別算法有機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法。這兩者的主要區(qū)別在于深度學(xué)習(xí)算法可以主動(dòng)從數(shù)據(jù)中獲得高級(jí)的特征,而機(jī)器學(xué)習(xí)算法通過人工進(jìn)行特征提取。在深度學(xué)習(xí)還未大規(guī)模應(yīng)用時(shí),主要使用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)[7]、決策樹[8]、樸素貝葉斯[9]、隱馬爾科夫[10]和K近鄰[11]等算法,但這些算法對(duì)缺失的數(shù)據(jù)比較敏感,不適用于特征數(shù)較多的樣本,且對(duì)相似行為的識(shí)別效果較差,在識(shí)別準(zhǔn)確率上還需要進(jìn)一步的提高。
在深度學(xué)習(xí)算法中,常用于處理可穿戴傳感器時(shí)序數(shù)據(jù)的網(wǎng)絡(luò)有循環(huán)神經(jīng)網(wǎng)絡(luò)[12](recurrent neural network,RNN)、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)[13](long short-term network,LSTM)及其各類改進(jìn)網(wǎng)絡(luò)模型,但RNN無法捕捉時(shí)間序列的長(zhǎng)期依賴性,LSTM無法并行處理,這些都影響了行為識(shí)別的準(zhǔn)確率。如文獻(xiàn)[14]提出了一種基于深度卷積的LSTM網(wǎng)絡(luò)模型(DeepConvLSTM),通過卷積層對(duì)數(shù)據(jù)進(jìn)行特征提取,之后利用LSTM層對(duì)提取的特征建立行為識(shí)別模型,但對(duì)于本文實(shí)驗(yàn),該網(wǎng)絡(luò)較為復(fù)雜,容易過擬合。文獻(xiàn)[15]提出了基于殘差網(wǎng)絡(luò)的雙向LSTM(Res-BiLSTM)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)使用雙向LSTM保證輸出不僅與當(dāng)前時(shí)刻之前的序列數(shù)據(jù)有關(guān),也與后續(xù)的序列數(shù)據(jù)有一定的結(jié)合,引入殘差模塊來解決網(wǎng)絡(luò)模型復(fù)雜的問題,相較于本研究,該模型在人體行為識(shí)別上的準(zhǔn)確率還有待提高。文獻(xiàn)[6]首次提出時(shí)間卷積網(wǎng)絡(luò)模型TCN,該模型相較于RNN和LSTM能夠擁有更快的訓(xùn)練速度,更好地捕捉時(shí)序數(shù)據(jù)的依賴關(guān)系,通過使用因果卷積和膨脹卷積,可以利用靈活的感受野捕捉到更長(zhǎng)的時(shí)間序列信息特征。文獻(xiàn)[16]首次使用TCN模型進(jìn)行人體行為識(shí)別,實(shí)驗(yàn)結(jié)果表明相較于其它網(wǎng)絡(luò)模型,該模型具有接收可變長(zhǎng)序列的能力,且時(shí)間復(fù)雜度低,運(yùn)算速度比較快,可以更好地捕捉時(shí)序數(shù)據(jù)長(zhǎng)期依賴關(guān)系,在人體行為識(shí)別研究中有較好的表現(xiàn)。但該模型在傳感器數(shù)據(jù)高相似的異類行為中的識(shí)別準(zhǔn)確率仍有待提高。
注意力機(jī)制是根據(jù)模仿人類大腦感知行為進(jìn)行的一種仿生研究。當(dāng)網(wǎng)絡(luò)模型處理時(shí)序數(shù)據(jù)時(shí)會(huì)出現(xiàn)長(zhǎng)距離的信息被弱化的情況,導(dǎo)致模型對(duì)特征提取不足。通過加入注意力機(jī)制之后,可以快速提取數(shù)據(jù)中的重要特征,為各類特征分配不同的權(quán)重,減少其對(duì)外部信息的依賴,因此在處理時(shí)序數(shù)據(jù)時(shí),注意力機(jī)制可以發(fā)揮更好的性能[17]。故本文引入注意力機(jī)制,解決模型提取行為識(shí)別深層特征不足的問題。
三元組損失(triplet loss)函數(shù)是在人臉識(shí)別領(lǐng)域應(yīng)用較為廣泛的一種損失函數(shù)[18],其目的是做到非同類極相似圖片樣本的區(qū)分,但尚未應(yīng)用于基于可穿戴傳感器序列數(shù)據(jù)的人體行為識(shí)別。Triplet Loss函數(shù)的主要優(yōu)勢(shì)在于可以很好地進(jìn)行高相似度樣本區(qū)分,當(dāng)兩個(gè)輸入相似時(shí),Triplet Loss函數(shù)能夠更好地對(duì)細(xì)節(jié)進(jìn)行建模,相當(dāng)于為模型加入了兩個(gè)輸入差異性的度量,學(xué)習(xí)到輸入的更精確表示。故本文引入Triplet Loss函數(shù)作為模型的損失函數(shù),解決模型在非同類極相似傳感器數(shù)據(jù)的行為識(shí)別準(zhǔn)確率不高的問題。
本文所提出的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)結(jié)構(gòu)主要由SMA(sensor-modality attention)模塊、TCN(temporal convolutional networks)模塊、LGA(local-global attention)模塊、全連接層和softmax激活函數(shù)組成。
圖1 本文所提模型結(jié)構(gòu)
本文以公共行為數(shù)據(jù)集PAMAP2[19]的多傳感器時(shí)序數(shù)據(jù)為研究對(duì)象,該數(shù)據(jù)由佩戴在腳踝、胸部和手腕3個(gè)身體部位的MPU-6050傳感器獲取。首先,SMA模塊基于傳感器數(shù)據(jù)與行為之間的關(guān)聯(lián)性為不同部位的傳感器分配注意力權(quán)重值;其次,TCN模塊進(jìn)一步提取傳感器數(shù)據(jù)的深層時(shí)域特征;再次,LGA模塊對(duì)不同時(shí)間節(jié)點(diǎn)的傳感器特征信息進(jìn)行加權(quán)計(jì)算,進(jìn)而獲得相應(yīng)的注意力權(quán)重值;最后,全連接層和softmax激活函數(shù)對(duì)特征信息進(jìn)行分類,從而實(shí)現(xiàn)人體各類行為識(shí)別。
在基于多傳感數(shù)據(jù)的行為識(shí)別任務(wù)中,不同部位的傳感器對(duì)不同行為的識(shí)別結(jié)果有著重要的影響,如跑步時(shí),腳踝上的傳感器對(duì)行為識(shí)別有更大的作用;在熨燙時(shí),腕部的傳感器數(shù)據(jù)對(duì)行為識(shí)別的影響更大。因此,本文利用SMA模塊為采集于身體不同部位的傳感器數(shù)據(jù)分配注意力分?jǐn)?shù)值。
該模塊首先將初始的傳感器數(shù)據(jù)調(diào)整為Dinitial∈T×6N, 其中T=33表示為傳感器時(shí)序數(shù)據(jù)的時(shí)間窗口大小,N=3為傳感器的數(shù)目以及6表示加速度計(jì)的X、Y和Z軸和陀螺儀的X、Y和Z軸的數(shù)目之和,共計(jì)6軸。其次使用128個(gè)3×3大小的卷積核對(duì)輸入數(shù)據(jù)進(jìn)行二維卷積操作,該操作完成之后使用一維卷積核將特征信息調(diào)整為一維數(shù)據(jù);再次使用式(1)計(jì)算不同傳感器數(shù)據(jù)的權(quán)重值。在本研究中,根據(jù)不同身體部位傳感器數(shù)據(jù)對(duì)行為分類的貢獻(xiàn)程度,SMA模塊為腕部、胸部和腳踝處的傳感器數(shù)據(jù)自適應(yīng)地分配注意力權(quán)重值,其輸出的特征向量定義為S=[s1,s2,s3,…st]
(1)
TCN通過因果卷積、膨脹卷積和殘差結(jié)構(gòu)在保持梯度穩(wěn)定傳播的同時(shí)捕獲最優(yōu)的局部特征信息以及數(shù)據(jù)間的長(zhǎng)期依賴性,其結(jié)構(gòu)如圖2所示。
圖2 TCN結(jié)構(gòu)模型
因果卷積只利用上一層t時(shí)刻以及t時(shí)刻之前的時(shí)序性歷史信息作為當(dāng)前層t時(shí)刻的特征表示,而時(shí)刻t之后的數(shù)據(jù)不影響當(dāng)前時(shí)刻的特征提?。慌蛎浘矸e通過增大膨脹因子使卷積核的感受野涵蓋較大范圍的特征信息。TCN模塊的輸入序列,經(jīng)過TCN模塊處理之后,輸出到LGA模塊。TCN的第i+1層的第n元素處膨脹卷積計(jì)算公式如下
(2)
式中:k為卷積核的尺寸,d表示為膨脹因子,其一般按指數(shù)變化 (d=O(2i) 其中i為層數(shù))。當(dāng)膨脹因子增大時(shí),其輸出數(shù)據(jù)的長(zhǎng)度更長(zhǎng),從而保證數(shù)據(jù)的長(zhǎng)時(shí)有效性。在本研究中,膨脹卷積可以嵌入較長(zhǎng)時(shí)間范圍的時(shí)序傳感器數(shù)據(jù),進(jìn)而提升特征信息的可靠性。
卷積神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性隨著時(shí)序數(shù)據(jù)的長(zhǎng)度和網(wǎng)絡(luò)的深度增加而衰減,TCN通過引入殘差結(jié)構(gòu)[20]來解決網(wǎng)絡(luò)的梯度消失問題從而增強(qiáng)其穩(wěn)定性。由于殘差結(jié)構(gòu)中的縱向歸一化函數(shù)WN(weight normalization)受Batch-Size的影響較大而LN(layer normalization)橫向歸一化函數(shù)可以綜合衡量每一層中所有維度的數(shù)據(jù),計(jì)算該層的輸入方差和平均輸入值以及將每個(gè)維度的樣本數(shù)據(jù)都?xì)w一化到相同的分布上,因此本研究對(duì)殘差結(jié)構(gòu)進(jìn)行改進(jìn),使用LN替換原始的WN。
本研究使用TCN模塊可以有效地捕捉到時(shí)間序列數(shù)據(jù)的長(zhǎng)期依賴性,進(jìn)而可以充分提取時(shí)間序列數(shù)據(jù)中的特征。與此同時(shí),TCN具有良好的并行計(jì)算能力,有助于提升模型訓(xùn)練速度。
為了提升網(wǎng)絡(luò)模型學(xué)習(xí)高維的深層特征的能力,進(jìn)而提升模型的識(shí)別準(zhǔn)確率,本研究在TCN模塊的輸出之后引入LGA模塊。該模塊由Local-Attention子模塊和Global-Attention子模塊組合而成。
Local-Attention子模塊通過對(duì)比當(dāng)前時(shí)刻的特征與序列中其余所有時(shí)刻的特征之間的相似性,進(jìn)一步獲得特征序列(一個(gè)時(shí)間窗口時(shí)序數(shù)據(jù)的特征)中每個(gè)時(shí)刻的相對(duì)注意力分?jǐn)?shù)。如圖3所示,該模塊使用多頭注意力機(jī)制來捕捉輸入數(shù)據(jù)的深層信息,圖中的FV表示TCN模塊輸出的特征向量。具體流程如下:
圖3 注意力機(jī)制
首先,本文通過3個(gè)線性變換f(x)、g(x)和h(x)將特征向量轉(zhuǎn)化為鍵值向量k、查詢向量q和值向量v,之后利用式(3)計(jì)算時(shí)間窗口域的每個(gè)時(shí)刻下采集于不同傳感器的數(shù)據(jù)的權(quán)重值
(3)
式中:n代表多頭注意力機(jī)制的頭數(shù),在本次實(shí)驗(yàn)中被設(shè)置為4。t代表在時(shí)間窗口的某個(gè)時(shí)刻,t∈(1,2,…T)。 因此每個(gè)傳感器數(shù)據(jù)在時(shí)間窗口上的權(quán)重值的計(jì)算方式如式(4)所示
(4)
其次,如式(5)所示,利用學(xué)習(xí)參數(shù)Wl將多頭注意力的輸出聚合并調(diào)整為單注意頭的尺寸,從而得到時(shí)間窗口的注意力加權(quán)特征矩陣SLA
(5)
最后,Global-Attention子模塊以SLA作為輸入,如式(6)所示,利用學(xué)習(xí)參數(shù)Wg、bg和si進(jìn)行變換后使用非線性激活函數(shù)tanh得到gi; 根據(jù)式(7)計(jì)算注意力權(quán)重值向量ai, 并傳入式(8)中,其中g(shù)s表示為當(dāng)前時(shí)刻與前后時(shí)刻的關(guān)聯(lián)參數(shù);利用式(8)獲得各個(gè)時(shí)刻特征向量的加權(quán)平均值,隨后將這些具有權(quán)重值的特征向量傳入全連接層和softmax激活函數(shù)以獲取各類行為的識(shí)別結(jié)果
gi=tanh(Wg·si+bg)
(6)
(7)
(8)
本文所研究的部分人體行為在傳感器的數(shù)據(jù)表示上具有極高的相似度,以坐和站這兩類動(dòng)作為例,志愿者在靜坐時(shí),其上半身處于挺直狀態(tài),上半身姿態(tài)與站立時(shí)的姿態(tài)無明顯差異,加速度儀和陀螺儀無法判斷當(dāng)前所處高度,因此這兩類行為在數(shù)據(jù)特征表示上具有極高的相似性。然而,現(xiàn)有算法模型無法有效解決這一問題,從而行為識(shí)別的準(zhǔn)確率還有進(jìn)一步提高的空間。
Triplet Loss函數(shù)的優(yōu)勢(shì)在于能夠很好地區(qū)分細(xì)節(jié)信息,當(dāng)輸入的兩類數(shù)據(jù)具有較高的相似度時(shí),Triplet Loss函數(shù)利用困難三元組(hard-batch)對(duì)相似的行為進(jìn)行有效區(qū)分。因此,本文使用Triplet Loss函數(shù)對(duì)模型進(jìn)行訓(xùn)練。與其它損失函數(shù)相比,該損失函數(shù)可以學(xué)習(xí)到更加豐富的特征。在訓(xùn)練過程中,根據(jù)模型訓(xùn)練的需要對(duì)Triplet Loss函數(shù)設(shè)置相關(guān)閾值,本次實(shí)驗(yàn)中將閾值設(shè)置為0.2,其公式為
(9)
在本研究中,以站和坐為例,Triplet Loss函數(shù)的示意圖如圖4所示,anchor樣本和positive樣本是不同志愿者的坐行為,negative樣本是志愿者的站立行為。Triplet Loss函數(shù)將本研究中從行為數(shù)據(jù)中所提取的深層特征作為度量指標(biāo)信息,縮小同類行為的高維空間距離及增大不同行為的高維空間距離,從而進(jìn)一步實(shí)現(xiàn)高相似度傳感器數(shù)據(jù)的異類行為識(shí)別。
圖4 坐和站—Triplet Loss函數(shù)
實(shí)驗(yàn)首先針對(duì)TCN進(jìn)行優(yōu)化策略進(jìn)行對(duì)比實(shí)驗(yàn),其次對(duì)TCN損失函數(shù)與標(biāo)準(zhǔn)化層進(jìn)行對(duì)比實(shí)驗(yàn),再對(duì)TCN添加不同模塊注意力進(jìn)行對(duì)比實(shí)驗(yàn),最后將本文所提模型與現(xiàn)有模型進(jìn)行對(duì)比實(shí)驗(yàn)。
本實(shí)驗(yàn)所采用的數(shù)據(jù)集來源于加州大學(xué)機(jī)器學(xué)習(xí)人工智能實(shí)驗(yàn)室所公布的人體行為數(shù)據(jù)集PAMAP2[19]。該數(shù)據(jù)集由9名年齡在24歲~30歲的志愿者在身體的腕部、胸部和腳踝這3個(gè)不同的部位佩戴內(nèi)置加速度計(jì)、陀螺儀和磁力計(jì)等傳感器進(jìn)行數(shù)據(jù)的采集。該數(shù)據(jù)集包含躺、坐、站、熨衣服、吸塵、上樓梯、下樓梯、慢走、快走、騎車、跑步和跳繩這12種行為數(shù)據(jù)。原始數(shù)據(jù)以100 Hz的頻率采集,共采集2 872 352條數(shù)據(jù)。為了減少非同源數(shù)據(jù)的量綱和單位的影響,在實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行歸一化處理,保證所有數(shù)據(jù)點(diǎn)處于相同的數(shù)量級(jí),便于后續(xù)數(shù)據(jù)的分析。數(shù)據(jù)被分為70%的訓(xùn)練集和30%的測(cè)試集。
為了驗(yàn)證基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)模型的識(shí)別效果,本實(shí)驗(yàn)采用總體分類精度(Accuracy)、召回率(Recall)和精確率(Precision)作為行為識(shí)別的評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)的公式如下
(10)
(11)
(12)
式中:TP表示正確預(yù)測(cè)到正分類結(jié)果,即正類被正確地預(yù)測(cè)為正類;FP表示錯(cuò)誤預(yù)測(cè)到正分類結(jié)果,即反類被錯(cuò)誤預(yù)測(cè)為正類;TN表示正確到預(yù)測(cè)負(fù)分類結(jié)果,即反類被正確預(yù)測(cè)為反類;FN表示錯(cuò)誤預(yù)測(cè)到負(fù)分類結(jié)果,即正類被錯(cuò)誤地預(yù)測(cè)為反類。
基于PAMAP2人體行為數(shù)據(jù)集,本研究分別使用SGD、RMSprop和Adam策略對(duì)TCN進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果見表1,當(dāng)使用Adam作為優(yōu)化策略時(shí),其最高識(shí)別準(zhǔn)確率為89.64%。相較于RMSprop和SGD這兩種優(yōu)化算法,有效地提高了1.71%~3.55%。實(shí)驗(yàn)結(jié)果表明,結(jié)合了多種優(yōu)化算法的Adam算法可以有效提高模型的識(shí)別準(zhǔn)確率,但對(duì)TCN模型提升能力有限,還需要進(jìn)一步改進(jìn)。
表1 不同優(yōu)化策略方式對(duì)準(zhǔn)確率的影響
為了驗(yàn)證三元組損失函數(shù)對(duì)TCN識(shí)別準(zhǔn)確率的影響,使用該損失函數(shù)與交叉熵?fù)p失函數(shù)(cross entropy loss,CE Loss)、指數(shù)損失函數(shù)(exponential loss,Exp Loss)、二進(jìn)制交叉熵?fù)p失函數(shù)(binary cross entropy loss,BCE Loss)和負(fù)對(duì)數(shù)似然損失函數(shù)(negative log likelihood loss,NLL Loss)進(jìn)行對(duì)比實(shí)驗(yàn)。
本實(shí)驗(yàn)的結(jié)果見表2,在相同的標(biāo)準(zhǔn)化層中,當(dāng)使用Triplet Loss函數(shù)作為損失函數(shù)時(shí),模型準(zhǔn)確率有一定的提升;在相同的損失函數(shù)下,使用LN層優(yōu)化時(shí),準(zhǔn)確率高區(qū)其它標(biāo)準(zhǔn)化層。實(shí)驗(yàn)結(jié)果表明,調(diào)整損失函數(shù)為三元組損失函數(shù)并使用LN層優(yōu)化可以有效地提升模型的識(shí)別準(zhǔn)確率,提升了1.11%~3.91%。
表2 不同損失函數(shù)與不同標(biāo)準(zhǔn)化層對(duì)準(zhǔn)確率影響
為了驗(yàn)證注意力機(jī)制對(duì)TCN識(shí)別準(zhǔn)確率的影響,使用TCN、引入單模塊注意力的TCN模型以及引入雙模塊注意力的TCN模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表3,當(dāng)TCN加入SMA模塊時(shí),準(zhǔn)確率提升了1.46%,加入LGA子模塊時(shí),準(zhǔn)確率提升了2.77%。實(shí)驗(yàn)結(jié)果表明,當(dāng)引入雙注意力模塊時(shí),TCN模型的準(zhǔn)確率得到顯著性提升,提高了5.98%。
表3 不同注意力模塊對(duì)注意力影響
為了驗(yàn)證所提模型的有效性和先進(jìn)性,本文將所提出的模型與現(xiàn)有模型如RNN[12]、LSTM[13]、Res-BiLSTM[15]、GRU-RNN[21]、BiLSTM[22]和LSTM-DeepRNN[23]進(jìn)行對(duì)比,對(duì)每個(gè)模型進(jìn)行10次實(shí)驗(yàn),并使用其平均值為最終結(jié)果。
本文所提出的模型在訓(xùn)練集和測(cè)試集上的Loss值和Accuracy值如圖5和圖6所示。首先,在50個(gè)Epoch內(nèi),圖5顯示模型的Loss值呈下降趨勢(shì),降至0.02以內(nèi);其次,50個(gè)Epoch內(nèi),圖6顯示模型的Accuracy值在不斷提升,上升至95%以上;最后,模型的Loss值降至平穩(wěn)的趨勢(shì)且Accuracy值也上升至平緩,穩(wěn)定在98%附近。與此同時(shí),訓(xùn)練集和測(cè)試集之間的差值較小,表明了本文所提出的模型不僅有較高的識(shí)別準(zhǔn)確率,且具有良好的穩(wěn)定性。
圖5 訓(xùn)練集和測(cè)試集損失值
圖6 訓(xùn)練集和測(cè)試集準(zhǔn)確率值
圖7表示在測(cè)試過程中各類行為組成的混淆矩陣,該混淆矩陣能夠顯示各類行為的識(shí)別準(zhǔn)確率。由圖7可知,模型對(duì)各類行為的識(shí)別精度均較高,尤其對(duì)坐和站這兩類具有高相似度傳感器數(shù)據(jù)的行為,識(shí)別準(zhǔn)確率均高于98%,這反映了三元組損失函數(shù)能夠提升模型的學(xué)習(xí)能力,進(jìn)而提升各類行為的識(shí)別準(zhǔn)確率。
圖7 各類行為準(zhǔn)確率的混淆矩陣
本文所提出的模型與其它模型在PAMAP2數(shù)據(jù)集上的準(zhǔn)確率對(duì)比結(jié)果見表4,其中RNN和LSTM這兩類非混合算法模型的識(shí)別準(zhǔn)確率最低,其它混合算法模型的準(zhǔn)確率相對(duì)于二者雖有一定程度的提升,但仍有進(jìn)一步提升的潛力。實(shí)驗(yàn)結(jié)果表明,本文的模型相較于表中的非混合算法模型,識(shí)別準(zhǔn)確率提升了6.48%~8.65%,與表中的混合算法模型相比,識(shí)別準(zhǔn)確率提高了2.56%~4.83%。
表4 不同算法模型準(zhǔn)確率對(duì)比
為了觀察各類行為和穿戴于不同身體部位上的傳感器之間的關(guān)系,本文利用SMA模塊中的輸出權(quán)重來繪制注意力權(quán)重圖。如圖8所示,不同部位的傳感器對(duì)行為的貢獻(xiàn)度不同。如熨燙和吸塵這兩類行為,腕部的傳感器權(quán)重得分較高,驗(yàn)證腕部操作對(duì)該類行為的貢獻(xiàn)較大。騎車、跑步和跳繩這幾種行為的腳踝部位傳感器權(quán)重得分較高,驗(yàn)證該類行為與腳踝部位關(guān)聯(lián)性較大。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型可以自適應(yīng)地為不同部位傳感器分配注意力權(quán)重值。
圖8 各傳感器在不同行為中的權(quán)重分值
本文從TCN模型在使用可穿戴傳感器數(shù)據(jù)進(jìn)行人體行為識(shí)別的準(zhǔn)確率低的角度出發(fā),針對(duì)不同身體部位的可穿戴傳感器數(shù)據(jù)提出了基于雙注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)人體行為識(shí)別模型。首先通過引入SMA和LGA這兩類注意力模塊改進(jìn)原始TCN的網(wǎng)絡(luò)結(jié)構(gòu);隨后創(chuàng)新性地將三元組損失函數(shù)應(yīng)用于傳感器數(shù)據(jù)行為識(shí)別研究中,促使網(wǎng)絡(luò)模型提高了對(duì)具有高相似度傳感器數(shù)據(jù)的異類行為識(shí)別準(zhǔn)確率;最后將該模型應(yīng)用于公共數(shù)據(jù)集PAMAP2上,識(shí)別結(jié)果優(yōu)于原始TCN及其它現(xiàn)有模型,取得了高達(dá)98.25%的平均識(shí)別準(zhǔn)確率。未來研究中,擬將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到多傳感器的人體姿態(tài)估計(jì),進(jìn)而實(shí)現(xiàn)更細(xì)粒度的行為識(shí)別。