朱連章,陳殿明,郭加樹(shù),張紅霞
(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
隨著科學(xué)技術(shù)的飛速發(fā)展,便攜式和穿戴式智能設(shè)備逐漸在生活與工作領(lǐng)域中發(fā)揮著重要的作用,如人機(jī)交互、虛擬現(xiàn)實(shí)、運(yùn)動(dòng)和醫(yī)療保健等[1]。而通過(guò)利用智能設(shè)備和計(jì)算機(jī)技術(shù)處理人體行為數(shù)據(jù)從而實(shí)現(xiàn)行為識(shí)別成為了國(guó)內(nèi)外的研究熱點(diǎn)。
目前人體行為識(shí)別的研究主要有兩種方式,一是通過(guò)錄像、拍照的方式獲取人體行為的視頻、圖像數(shù)據(jù)[2-3],并對(duì)數(shù)據(jù)進(jìn)行處理分析。然而該方法較為復(fù)雜,不僅對(duì)采集、處理數(shù)據(jù)的設(shè)備要求較高,而且計(jì)算量龐大,另一方面可能存在各種無(wú)法預(yù)料的環(huán)境因素對(duì)數(shù)據(jù)處理造成不同程度的干擾,并且在隱私保護(hù)、便攜性等方面也表現(xiàn)出不足;另一種通過(guò)單一或多種傳感器獲得多維動(dòng)作數(shù)據(jù)[4],再對(duì)數(shù)據(jù)進(jìn)行處理分析從而實(shí)現(xiàn)行為識(shí)別。
隨著智能終端設(shè)備領(lǐng)域的不斷發(fā)展與進(jìn)步,在智能終端上集成豐富的傳感設(shè)備已經(jīng)非常方便,例如加速度傳感器、磁力計(jì)、陀螺儀、全球定位系統(tǒng)等已經(jīng)可以集成在如智能手機(jī)、智能手環(huán)等可便攜、穿戴的設(shè)備上,這樣就為智能終端設(shè)備應(yīng)用于行為識(shí)別提供了可行性[5-6]。
Ling等[7]用5個(gè)小雙軸加速度傳感器同時(shí)佩戴在四肢和右髖部位來(lái)收集個(gè)體日常動(dòng)作數(shù)據(jù),并比較不同分類(lèi)器后發(fā)現(xiàn)使用決策樹(shù)能夠獲得最佳性能,識(shí)別準(zhǔn)確率為84%。Tapia等[8]利用心率監(jiān)視器以及附在四肢及腰部的五個(gè)三軸加速度計(jì)來(lái)組成識(shí)別系統(tǒng),對(duì)三十個(gè)體育項(xiàng)目動(dòng)作進(jìn)行識(shí)別,獲得了80.6%的識(shí)別準(zhǔn)確率。文獻(xiàn)[9-10]中使用了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),雖然特征提取工程量小,但是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,且識(shí)別準(zhǔn)確率不足。李鋒等[11]使用單一的加速度傳感器進(jìn)行識(shí)別,雖然識(shí)別準(zhǔn)確率達(dá)到96.13%,但特征提取工程量太大,需要專(zhuān)業(yè)的運(yùn)動(dòng)領(lǐng)域知識(shí),實(shí)用性不足。
針對(duì)上述問(wèn)題,提出了一種改進(jìn)的基于協(xié)同長(zhǎng)短期記憶模塊的神經(jīng)網(wǎng)絡(luò),并基于該神經(jīng)網(wǎng)絡(luò)構(gòu)建了人體行為識(shí)別模型,并通過(guò)實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證。
RNN是包含循環(huán)的網(wǎng)絡(luò),在RNN網(wǎng)絡(luò)結(jié)構(gòu)中,隱層節(jié)點(diǎn)讀取輸入層的信息,然后在輸出信息的同時(shí),通過(guò)循環(huán)結(jié)構(gòu)將信息輸入下一步從而實(shí)現(xiàn)信息的傳遞。RNN的鏈?zhǔn)浇Y(jié)構(gòu)與時(shí)間序列類(lèi)的數(shù)據(jù)結(jié)構(gòu)契合,是一種適合處理該類(lèi)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。RNN在語(yǔ)音識(shí)別、語(yǔ)言建模等領(lǐng)域都取得了一定的成就。但是隨著RNN模塊之間的間距增加,RNN會(huì)很難達(dá)到長(zhǎng)范圍的依賴(lài),從而出現(xiàn)梯度消失[12]問(wèn)題。
長(zhǎng)短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)由Hochreiter & Schmidhuber在1997提出[13]。Alex Graves近期對(duì)其進(jìn)行了改良和推廣,將LSTM應(yīng)用在很多領(lǐng)域,并取得了相當(dāng)大的成功[14-16]。
RNN模塊結(jié)構(gòu)簡(jiǎn)單,比如有的結(jié)構(gòu)中只有一個(gè)單一的tanh層,而LSTM通過(guò)刻意的設(shè)計(jì)來(lái)避免梯度消失問(wèn)題。
圖1是標(biāo)準(zhǔn)LSTM模塊的內(nèi)部結(jié)構(gòu)。
圖1 單個(gè)LSTM模塊結(jié)構(gòu)
LSTM的關(guān)鍵就在細(xì)胞狀態(tài)Ct-1→Ct,細(xì)胞狀態(tài)類(lèi)與傳送帶相似,直接在整個(gè)鏈上運(yùn)行,只有少量的線性信息交互,使得細(xì)胞信息便于保持。
LSTM通過(guò)特別設(shè)計(jì)的一種被稱(chēng)為“門(mén)”(gates)的結(jié)構(gòu)來(lái)?yè)碛性黾踊蛉コ?xì)胞狀態(tài)上的信息的能力。
遺忘門(mén)的原理如式1所示:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
輸入門(mén)的原理如式2所示:
(2)
細(xì)胞更新?tīng)顟B(tài)的方式如式3所示:
(3)
輸出門(mén)原理如式4所示:
(4)
Gers & Schmidhuber提出了基于peephole connection變體結(jié)構(gòu)的LSTM[17],該結(jié)構(gòu)使各門(mén)層也接受細(xì)胞狀態(tài)的輸入,實(shí)驗(yàn)結(jié)果表示基于這種變體結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)比普通的LSTM網(wǎng)絡(luò)表現(xiàn)更好。楊年峰研究了步態(tài)特征及其影響因素,并為量化描述人體運(yùn)動(dòng)協(xié)調(diào)規(guī)律提供了有效手段[18]。受peephole connection結(jié)構(gòu)與人體運(yùn)動(dòng)協(xié)調(diào)規(guī)律的啟發(fā),文中對(duì)LSTM模塊的結(jié)構(gòu)進(jìn)行了改進(jìn)。
設(shè)計(jì)了協(xié)同LSTM模塊(synergistical LSTM,S-LSTM),新的結(jié)構(gòu)中對(duì)于更新細(xì)胞狀態(tài)信息時(shí),遺忘門(mén)與輸入門(mén)以同步互補(bǔ)的方式替換標(biāo)準(zhǔn)結(jié)構(gòu)中的分離式更新方法,更改后的細(xì)胞狀態(tài)信息更新方法如式5所示:
(5)
S-LSTM模塊的內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 S-LSTM模塊結(jié)構(gòu)
模塊中將peephole connection結(jié)構(gòu)應(yīng)用在細(xì)胞歷史狀態(tài)與遺忘門(mén)之間,由于式5中的更改方式使得遺忘門(mén)與輸入門(mén)同步互補(bǔ)更新,記憶細(xì)胞狀態(tài)在輸出部分于式4中已有體現(xiàn),故而輸入門(mén)與輸出門(mén)部分不再添加peephole connection結(jié)構(gòu)。此時(shí)遺忘門(mén)與輸入門(mén)的更新方式如式6所示:
(6)
文中所用的S-LSTM神經(jīng)網(wǎng)絡(luò)由以下部分構(gòu)成:輸入層、6個(gè)S-LSTM層、Softmax分類(lèi)層和輸出層。
文中構(gòu)建了基于S-LSTM網(wǎng)絡(luò)的人體行為識(shí)別模型,如圖3所示。
圖3 基于S-LSTM網(wǎng)絡(luò)的人體行為識(shí)別模型
使用調(diào)整后的Z-score標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,Z-score標(biāo)準(zhǔn)化公式如式7所示:
(7)
其中,μ為均值;σ為標(biāo)準(zhǔn)差。
文中對(duì)式7做了一定的變更,如式8所示:
(8)
為避免特定動(dòng)作使某一軸數(shù)據(jù)固定從而導(dǎo)致式7出現(xiàn)除零錯(cuò)誤,引入極小量ε。
使用的數(shù)據(jù)集來(lái)自公開(kāi)的UCI機(jī)器學(xué)習(xí)知識(shí)庫(kù)(smartphone-based recognition of human activities and postural transitions data set)[19],實(shí)驗(yàn)數(shù)據(jù)由30名年齡在19~48歲的志愿者完成,采集設(shè)備為Samsung Galaxy S Ⅱ,通過(guò)使用加速度傳感器與陀螺儀以50 Hz的頻率獲取加速度與角速度數(shù)據(jù)。志愿者在實(shí)驗(yàn)中執(zhí)行了由6項(xiàng)行為動(dòng)作組成的活動(dòng):3項(xiàng)靜態(tài)活動(dòng)(站立、坐立和躺平)和3項(xiàng)動(dòng)態(tài)活動(dòng)(行走、上樓和下樓)。傳感器信號(hào)數(shù)據(jù)通過(guò)噪聲濾波處理,在50%重疊的固定寬度的滑動(dòng)窗口(2.56 s)中采樣,然后使用Butterworth低通濾波器分離身體加速度和重力,最終得到10 929個(gè)樣本。
實(shí)驗(yàn)基于Windows 10專(zhuān)業(yè)版(版本號(hào)1607),處理器為Intel Core i7(2.5 GHz),內(nèi)存為8 G,使用支持訓(xùn)練神經(jīng)網(wǎng)絡(luò)的NVIDIA顯卡來(lái)提升訓(xùn)練速度。為了驗(yàn)證提出模型的有效性,選擇深度卷積神經(jīng)網(wǎng)絡(luò)CNN和標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比。
實(shí)驗(yàn)所用數(shù)據(jù)集被分為兩部分:訓(xùn)練集占70%,測(cè)試集占30%。將樣本標(biāo)簽數(shù)據(jù)做one-hot處理,使其與樣本數(shù)據(jù)對(duì)應(yīng)。鑒于顯存容量有限,使用mini-batches方法來(lái)進(jìn)行批梯度下降。由于已經(jīng)做了標(biāo)準(zhǔn)化處理(見(jiàn)式8),L2損失函數(shù)相比于L1損失函數(shù)變現(xiàn)更佳,所以實(shí)驗(yàn)中均使用L2,優(yōu)化器使用Adam,各模型的學(xué)習(xí)率都設(shè)為0.002,迭代次數(shù)為1 000。
三種網(wǎng)絡(luò)模型在實(shí)驗(yàn)中隨著迭代次數(shù)增加,不斷優(yōu)化參數(shù),并在數(shù)據(jù)集上進(jìn)行識(shí)別準(zhǔn)確率的驗(yàn)證對(duì)比。各模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)分別如圖4和圖5所示。
圖4 各模型在訓(xùn)練過(guò)程中的識(shí)別準(zhǔn)確率
圖5 各模型在測(cè)試過(guò)程中的識(shí)別準(zhǔn)確率
可以看到,隨著迭代次數(shù)的增加,各模型的準(zhǔn)確率不斷上升,剛開(kāi)始CNN的收斂速度最快,S-LSTM次之,LSTM最慢,各模型在測(cè)試集上的識(shí)別準(zhǔn)確率要低于在訓(xùn)練集上的表現(xiàn)。
因?yàn)閷?shí)驗(yàn)本身在一定程度上受參數(shù)隨機(jī)初始化效果的影響,所以對(duì)各模型在測(cè)試集上都進(jìn)行5次實(shí)驗(yàn),然后取其平均準(zhǔn)確率作為對(duì)比依據(jù),其對(duì)比結(jié)果如表1所示。
表1 各模型在測(cè)試集上的平均識(shí)別準(zhǔn)確率 %
由表1可知,三種模型中,S-LSTM表現(xiàn)最好,準(zhǔn)確率達(dá)到95.81%,而CNN表現(xiàn)平穩(wěn),識(shí)別準(zhǔn)確率為91.53%,而標(biāo)準(zhǔn)LSTM在迭代過(guò)程中的識(shí)別準(zhǔn)確率波動(dòng)較大,但最終與CNN相差較小,為90.47%。實(shí)驗(yàn)結(jié)果表明,提出的基于S-LSTM神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別模型表現(xiàn)最好,是一種有效的人體行為識(shí)別方法。
基于S-LSTM神經(jīng)網(wǎng)絡(luò)的模型實(shí)現(xiàn)了人體行為識(shí)別,通過(guò)與CNN、標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)模型在UCI人體行為識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比,表明該方法識(shí)別效果最好,說(shuō)明該方法適合處理人體行為時(shí)域數(shù)據(jù),能夠充分挖掘其數(shù)據(jù)特征,提高識(shí)別準(zhǔn)確率。實(shí)驗(yàn)使用的是加速度傳感器與陀螺儀獲取的6軸傳感數(shù)據(jù),目前隨著科技的發(fā)展,更多的傳感器可以集成在便攜智能終端設(shè)備上,比如磁力計(jì)、GPS、攝像頭和麥克風(fēng)等,可以大大豐富數(shù)據(jù)的多維性。相信在未來(lái)的工作中,人們可以通過(guò)使用更優(yōu)秀的網(wǎng)絡(luò)模型和方法處理基于多傳感器的人體行為數(shù)據(jù),從而更好地提升識(shí)別準(zhǔn)確率。