艾 達(dá),王 倩,樊煒鑫,郝 瑞,劉 穎
(1.西安郵電大學(xué) 公安部電子信息勘驗(yàn)應(yīng)用技術(shù)實(shí)驗(yàn)室,陜西 西安 710121;2.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
隨著智能手機(jī)的普及,基于智能手機(jī)傳感器的人體行為識(shí)別逐漸成為研究熱點(diǎn)。人體行為識(shí)別(human activity recognition,HAR)[1]是通過(guò)分析人類(lèi)活動(dòng)的運(yùn)動(dòng)信息,從而對(duì)運(yùn)動(dòng)行為進(jìn)行分類(lèi)認(rèn)識(shí),已廣泛應(yīng)用在人機(jī)交互、醫(yī)療輔助和公共安全等領(lǐng)域。
根據(jù)使用設(shè)備和檢測(cè)方法的不同,人體行為識(shí)別可分為基于計(jì)算機(jī)視覺(jué)和基于智能終端傳感器兩種方法。基于計(jì)算機(jī)視覺(jué)方法是從監(jiān)控設(shè)備中獲取人體運(yùn)動(dòng)信息,并對(duì)獲取的圖像或視頻進(jìn)行處理,但這種方法會(huì)受到光照條件不同、視角多樣性和空間復(fù)雜等諸多因素的影響[2];基于智能終端傳感器方法通過(guò)分析手持式傳感器、穿戴式傳感器和智能手機(jī)多傳感器,獲取傳感器數(shù)據(jù)進(jìn)行分析,具有設(shè)備體積小、功能豐富和人體活動(dòng)數(shù)據(jù)采集便捷等優(yōu)點(diǎn)[3]。
智能手機(jī)相對(duì)于其他終端設(shè)備,能夠同時(shí)完成數(shù)據(jù)的采集、處理、傳輸和接收[4],并能與其他設(shè)備或傳感器連接[5],已在人體行為識(shí)別技術(shù)中取得了一定的進(jìn)展。本文通過(guò)歸納智能手機(jī)傳感器數(shù)據(jù)采集和處理方法,總結(jié)現(xiàn)有人體行為特征的提取和分類(lèi)方法,討論基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)各類(lèi)算法的優(yōu)缺點(diǎn)。對(duì)比常用的手機(jī)傳感器行為數(shù)據(jù)集,展望基于智能手機(jī)傳感器的行為識(shí)別技術(shù)在刑偵領(lǐng)域的應(yīng)用,指出人體行為識(shí)別技術(shù)的發(fā)展趨勢(shì)。
智能手機(jī)開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)板上集成傳感器類(lèi)型在最初的加速度傳感器、重力傳感器、陀螺儀、距離傳感器、壓力傳感器、磁力傳感器和光感應(yīng)器等8種傳感器的基礎(chǔ)上,又集成了霍爾感應(yīng)器、電子羅盤(pán)、指紋識(shí)別、面部識(shí)別等傳感器,各傳感器功能介紹如表1所示。利用嵌入智能手機(jī)的多傳感器進(jìn)行數(shù)據(jù)采集,給獲取數(shù)據(jù)提供了高效便捷的方式。
表1 常用多傳感器功能介紹
目前,利用傳感器進(jìn)行行為識(shí)別較為常用的方法是從加速度傳感器和陀螺儀進(jìn)行數(shù)據(jù)采集,從中提取特征,建立行為識(shí)別模型[6]。利用獨(dú)立加速度傳感器采集步態(tài)特征數(shù)據(jù),驗(yàn)證了基于加速度傳感器進(jìn)行人體識(shí)別的可行性[7];結(jié)合加速度和陀螺儀傳感器,可實(shí)時(shí)讀取人體運(yùn)動(dòng)的加速度和角速度信息,從而識(shí)別跌倒行為[8];通過(guò)增加光線傳感器和距離傳感器,可在行為識(shí)別過(guò)程中表現(xiàn)出較強(qiáng)的特征代表,提高識(shí)別準(zhǔn)確率[9];增加壓力傳感器,采集人體足部的運(yùn)動(dòng)數(shù)據(jù)進(jìn)行分析,進(jìn)而識(shí)別行為運(yùn)動(dòng)[10]。
數(shù)據(jù)采集過(guò)程中由于受到外界環(huán)境和人為誤差等因素干擾,傳感器原始數(shù)據(jù)通常含有噪聲(缺失值、錯(cuò)誤值或異常值等),并且數(shù)據(jù)量較大,持續(xù)時(shí)間較長(zhǎng)[11],因此,需對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。常用的數(shù)據(jù)預(yù)處理方法主要為數(shù)據(jù)濾波和加窗分割。
數(shù)據(jù)濾波是為了清除傳感器原始數(shù)據(jù)中的噪聲,使數(shù)據(jù)更接近實(shí)際值。使用信號(hào)處理領(lǐng)域常用特定濾波技術(shù)可以消除噪聲以及平滑數(shù)據(jù),主要方法有低通濾波、巴特沃斯濾波、卡爾曼濾波和滑動(dòng)均值濾波等。
加窗分割有助于解決人體行為活動(dòng)持續(xù)時(shí)間不同,活動(dòng)準(zhǔn)確邊界難以界定的問(wèn)題。常用的數(shù)據(jù)分割方法為滑動(dòng)窗口法[12],窗口理想大小是在時(shí)間為2~5 s、頻率為20~50 Hz之間變化。
傳感器數(shù)據(jù)是由一系列信號(hào)組成,需對(duì)其進(jìn)行數(shù)據(jù)轉(zhuǎn)換后提取特征,通過(guò)構(gòu)建特征向量再進(jìn)行識(shí)別。特征提取方法主要包括時(shí)域特征提取和頻域特征提取兩大類(lèi)。
特征選擇是在獲取到行為活動(dòng)的各種特征后,選擇適合表征的特定行為構(gòu)成運(yùn)動(dòng)行為識(shí)別所需的特征向量。例如,文獻(xiàn)[13]通過(guò)分析特征的信息增益和每個(gè)特征之間的相互關(guān)系,提取重要特征;文獻(xiàn)[14]將多特征融合技術(shù)應(yīng)用于特征提取步驟。
特征通常維數(shù)較高,數(shù)量過(guò)多,導(dǎo)致行為識(shí)別過(guò)程變得復(fù)雜,所以要對(duì)數(shù)據(jù)進(jìn)行降維。常見(jiàn)降維方法主要有主成分分析法(principal component analysis,PCA)[15]、線性判別分析法(linear discriminant analysis,LDA)[16]以及核判別分析法(kernel discriminant analysis,KDA)[17]。例如,利用非參數(shù)加權(quán)特征提取方法結(jié)合PCA減小慣性信號(hào)的特征尺寸,降低了慣性信號(hào)的特征維數(shù)[15];提取原始傳感器數(shù)據(jù)時(shí)域特征,利用KDA對(duì)非線性重要特征進(jìn)行鑒別,達(dá)到了降維目的[17];從原始傳感器數(shù)據(jù)中提取時(shí)域和頻域特征,結(jié)合LDA可大幅度降低特征向量維數(shù)[18]。
在特征提取工作中,利用PCA的降維方法使用較為廣泛,降維的計(jì)算開(kāi)銷(xiāo)小,適合于無(wú)監(jiān)督學(xué)習(xí)分類(lèi);LDA主要以類(lèi)別為主要因素,生成的特征適合于有監(jiān)督學(xué)習(xí)分類(lèi),但LDA可能會(huì)過(guò)度擬合數(shù)據(jù);KDA可以對(duì)非線性重要特征進(jìn)行標(biāo)記處理,以提高識(shí)別精度[15]。
分類(lèi)算法通過(guò)生成分類(lèi)模型推斷人體行為活動(dòng),從特征提取角度可分為傳統(tǒng)機(jī)器學(xué)習(xí)算法(人工特征提取)和深度學(xué)習(xí)算法(自動(dòng)特征提取)。
2.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)算法
目前傳統(tǒng)機(jī)器學(xué)習(xí)算法有支持向量機(jī)(support vector machine,SVM)、決策樹(shù)(decision tree,DT)、樸素貝葉斯(naive bayes,NB)和K近鄰(K-nearest neighbor,KNN)算法等。
SVM[19]是一種廣泛使用的監(jiān)督學(xué)習(xí)模型,其基本思想是通過(guò)非線性變換將數(shù)據(jù)從原空間映射到高維空間,然后在這個(gè)高維空間構(gòu)造線性分類(lèi)器,常用于解決二分類(lèi)問(wèn)題。例如,利用歐拉角法解決傳感器坐標(biāo)系漂移問(wèn)題時(shí),結(jié)合SVM可對(duì)用戶步態(tài)特征變化進(jìn)行分類(lèi)識(shí)別[20];將提取加速度計(jì)數(shù)據(jù)的自回歸系數(shù)作為活動(dòng)識(shí)別的特征,利用SVM對(duì)跑步、站立、跳躍和行走等人類(lèi)活動(dòng)行為進(jìn)行分類(lèi)識(shí)別,取得了良好的識(shí)別效果[20]。
DT[21]是一種高效的分類(lèi)算法,其基本思想是構(gòu)建一個(gè)樹(shù)狀的層次決策圖,每個(gè)非葉子節(jié)點(diǎn)表示特征屬性的判斷條件,每個(gè)分支表示在其父節(jié)點(diǎn)上特征屬性分類(lèi)的結(jié)果,葉子節(jié)點(diǎn)表示所判定的最終類(lèi)別,它的復(fù)雜程度只與樹(shù)的層數(shù)有關(guān)。文獻(xiàn)[22]利用加速度計(jì),構(gòu)建了基于DT算法的位置無(wú)關(guān)的活動(dòng)識(shí)別模型,對(duì)五類(lèi)日常行為分類(lèi)取得了較好識(shí)別效果。
NB是一種基于統(tǒng)計(jì)的分類(lèi)算法,其基本思想是通過(guò)計(jì)算待分類(lèi)數(shù)據(jù)在各類(lèi)別中的概率,判定的類(lèi)別即為概率最大類(lèi)別。文獻(xiàn)[23]采用NB算法,計(jì)算每個(gè)日常行為動(dòng)作的閾值,提高動(dòng)作識(shí)別的準(zhǔn)確率。
KNN[24]算法的基本思想是通過(guò)計(jì)算待測(cè)樣本與實(shí)際樣本間的歐式距離,統(tǒng)計(jì)距離最小的k個(gè)樣本所屬類(lèi)別,待測(cè)樣本的類(lèi)別即為出現(xiàn)頻率最高的類(lèi)別。文獻(xiàn)[25]提取了5種不同步行運(yùn)動(dòng)時(shí)足底壓力數(shù)據(jù)的特征,利用KNN實(shí)現(xiàn)對(duì)步行、跑步和跳躍等不同行走類(lèi)型的分類(lèi)識(shí)別,結(jié)果較為理想。
傳統(tǒng)機(jī)器學(xué)習(xí)算法優(yōu)缺點(diǎn)如表2所示。
表2 傳統(tǒng)機(jī)器學(xué)習(xí)算法性能的優(yōu)缺點(diǎn)
由表2可知,在傳統(tǒng)機(jī)器算法中,進(jìn)行傳感器缺失數(shù)據(jù)處理時(shí),NB和KNN對(duì)缺失數(shù)據(jù)不敏感,穩(wěn)定性較優(yōu),而SVM對(duì)缺失數(shù)據(jù)較敏感,穩(wěn)定性較差;對(duì)站立、靜坐和躺下等靜止行為識(shí)別時(shí),SVM性能優(yōu)于DT和NB;對(duì)跑步、跳躍和步行等動(dòng)態(tài)行為識(shí)別時(shí),KNN性能優(yōu)于其他算法,DT 性能較差;對(duì)步行和慢跑等特征較為相似行為識(shí)別時(shí),KNN 性能最優(yōu),SVM和NB性能較差。
2.2.2 基于深度學(xué)習(xí)算法
深度學(xué)習(xí)方法[27]與傳統(tǒng)模式識(shí)別方法的最大不同在于,改變了傳統(tǒng)方法的提取和特征選擇步驟,在分類(lèi)模型訓(xùn)練時(shí)可以自動(dòng)生成特征,而非采用手工設(shè)計(jì)的特征,針對(duì)復(fù)雜場(chǎng)景和數(shù)據(jù)類(lèi)型能更準(zhǔn)確地表征真實(shí)人體行為特征[28]。
目前常用的分類(lèi)算法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network ,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network ,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory ,LSTM)和受限玻爾茲曼機(jī)(restricted boltzmann machine ,RBM)。
CNN處理運(yùn)動(dòng)數(shù)據(jù)時(shí),可采集相同時(shí)間內(nèi)多個(gè)傳感器通道的數(shù)據(jù),將一維的時(shí)間列重組成“圖像”數(shù)據(jù)輸入網(wǎng)絡(luò)。利用遞歸圖捕獲時(shí)間序列動(dòng)態(tài)特征,結(jié)合CNN對(duì)動(dòng)態(tài)特征進(jìn)行活動(dòng)分類(lèi),對(duì)步行、上樓和下樓等動(dòng)態(tài)活動(dòng)識(shí)別效果較好[29];利用CNN進(jìn)行局部特征提取,分析時(shí)間序列長(zhǎng)度對(duì)識(shí)別精度的影響,可對(duì)連續(xù)的實(shí)時(shí)活動(dòng)進(jìn)行分類(lèi)[30]。
RNN是一種具有記憶功能的網(wǎng)絡(luò),它能夠存儲(chǔ)過(guò)去的輸入,并在當(dāng)前時(shí)間產(chǎn)生所需的輸出,但是無(wú)法訓(xùn)練較長(zhǎng)的時(shí)間序列數(shù)據(jù),容易出現(xiàn)梯度消失問(wèn)題[31]。
三電平逆變器在通信電源的AC-DC變換、DC-DC變換和DC-AC變換以及高壓大功率交流電源(UPS)等領(lǐng)域得到了廣泛的應(yīng)用[1-2]。
LSTM和RNN結(jié)構(gòu)相似,解決了RNN結(jié)構(gòu)中梯度點(diǎn)消失的問(wèn)題,可以長(zhǎng)時(shí)間保存信息。通過(guò)建立LSTM網(wǎng)絡(luò),自動(dòng)選擇對(duì)分類(lèi)有決定性影響的時(shí)間序列,獲取最重要的時(shí)間相關(guān)性特征作為網(wǎng)絡(luò)輸入,可提高識(shí)別的精確度[32];利用多層LSTM網(wǎng)絡(luò)從原始傳感器數(shù)據(jù)中自動(dòng)提取時(shí)間序列特征,并增加 LSTM并行單元以降低計(jì)算復(fù)雜度[33];建立基于LSTM-RNN深度神經(jīng)結(jié)構(gòu)識(shí)別結(jié)構(gòu)模型,結(jié)合二者優(yōu)點(diǎn),對(duì)6種行為進(jìn)行實(shí)時(shí)預(yù)測(cè),并具有較好的泛化能力[34]。
RBM是一種隨機(jī)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的神經(jīng)元節(jié)點(diǎn)被激活時(shí)會(huì)有隨機(jī)行為,隨機(jī)取值。通過(guò)建立RBM網(wǎng)絡(luò),在特征提取之前利用訓(xùn)練數(shù)據(jù)訓(xùn)練模型,確定模型參數(shù),能較好地提取局部特征,對(duì)拳擊和拍手等較為復(fù)雜行為的識(shí)別效果優(yōu)于傳統(tǒng)算法[35];通過(guò)歸一化訓(xùn)練數(shù)據(jù)的特征(方差和均值),利用RBM網(wǎng)絡(luò)訓(xùn)練,達(dá)到了較好地識(shí)別效果[36]。
深度學(xué)習(xí)算法的優(yōu)缺點(diǎn)如表3所示。
表3 深度學(xué)習(xí)算法性能的優(yōu)缺點(diǎn)
由表3可知,在深度學(xué)習(xí)算法中,CNN對(duì)重復(fù)性動(dòng)態(tài)行為分類(lèi)效果最優(yōu);RNN對(duì)跳躍和下蹲等識(shí)別短時(shí)行為分類(lèi)效果最優(yōu);LSTM對(duì)跑步、步行、上樓和下樓等長(zhǎng)時(shí)間周期性行為分類(lèi)效果最優(yōu);RBM對(duì)打拳和拍手等復(fù)雜行為分類(lèi)效果最優(yōu),對(duì)步行和慢跑等特征較為相似行為分類(lèi)效果較差。
目前國(guó)內(nèi)外有多個(gè)公開(kāi)人體行為數(shù)據(jù)集,使用公共數(shù)據(jù)庫(kù)能方便地驗(yàn)證相關(guān)算法的可行性及對(duì)比不同算法的性能,手機(jī)傳感器常用的公開(kāi)數(shù)據(jù)集如表4所示。
表4 手機(jī)傳感器常用公開(kāi)數(shù)據(jù)集
除此之外,還有瑞士洛桑理工學(xué)院的OPPORTUNITY數(shù)據(jù)集[41],主要記錄日常手勢(shì)、生活和運(yùn)動(dòng)行為;社區(qū)密集活動(dòng)數(shù)據(jù)集PlaceLab[42],可提供長(zhǎng)期的日常活動(dòng)行為記錄。
在常用數(shù)據(jù)庫(kù)中,為更好的表征人體行為特性,實(shí)驗(yàn)通常使用加速度傳感器和陀螺儀進(jìn)行數(shù)據(jù)采集,且大多數(shù)都為步行、跑步、上樓梯、下樓梯、站立、靜坐和躺下等日常簡(jiǎn)單基礎(chǔ)行為的識(shí)別分類(lèi)。
從文獻(xiàn)計(jì)量學(xué)角度,檢索2016-2019年以來(lái)人體行為識(shí)別技術(shù)在國(guó)際學(xué)術(shù)研究論文發(fā)表情況。分別對(duì)IEL、web of science、Science Direct、SpringerLink和ACM等5個(gè)常用的數(shù)據(jù)庫(kù)文獻(xiàn)標(biāo)題進(jìn)行human activity recognition(HAR)、HAR &sensor、HAR &phone sensor 和HAR &phone security等關(guān)鍵詞查詢(xún),得到的文獻(xiàn)計(jì)量統(tǒng)計(jì)結(jié)果如表5所示。
由表5可知,題目中包含關(guān)鍵詞“human activity recognition” 的論文共計(jì)920篇;含有關(guān)鍵詞“human activity recognition & sensor”的論文共計(jì)295篇;含“human activity recognition &phone sensors”的論文共計(jì)6篇;含“human activity recognition&phone sensor&security”關(guān)鍵字的論文有1篇。上述所有檢索文獻(xiàn)中,主要是對(duì)人體行為識(shí)別的相關(guān)技術(shù)進(jìn)行研究,而涉及實(shí)際應(yīng)用場(chǎng)景的并不多見(jiàn),在刑偵相關(guān)研究領(lǐng)域僅有文獻(xiàn)[43]1篇。
表5 文獻(xiàn)計(jì)量統(tǒng)計(jì)結(jié)果
刑偵現(xiàn)場(chǎng)環(huán)境復(fù)雜、數(shù)據(jù)量大、數(shù)據(jù)屬性多,使得犯罪行為特征識(shí)別更加復(fù)雜。若將基于智能手機(jī)傳感器人體行為識(shí)別技術(shù)擴(kuò)展到公安刑偵領(lǐng)域,為公安偵查和預(yù)防違法犯罪提供有力支撐,則有很大的實(shí)際應(yīng)用價(jià)值,但相關(guān)研究工作仍需要研究。
從傳感器數(shù)據(jù)采集、特征提取、分類(lèi)算法和常用公開(kāi)數(shù)據(jù)集等4個(gè)方面對(duì)基于智能手機(jī)傳感器的人體活動(dòng)識(shí)別技術(shù)進(jìn)行了分析總結(jié)?,F(xiàn)有的基于智能手機(jī)傳感器數(shù)據(jù)的HAR研究都已取得了較好的實(shí)驗(yàn)結(jié)果,在未來(lái)進(jìn)一步研究中提出以下6點(diǎn)建議。
1)擴(kuò)大數(shù)據(jù)量。目前的研究中,樣本數(shù)據(jù)多是人工采集,數(shù)據(jù)數(shù)量較少,且需手工標(biāo)記訓(xùn)練數(shù)據(jù)標(biāo)簽,無(wú)法快速獲得大量的訓(xùn)練數(shù)據(jù),為達(dá)到更好的識(shí)別效果,需擴(kuò)大數(shù)據(jù)量。
2)優(yōu)化傳感器選擇方案。選取更能表征行為特性的傳感器,進(jìn)行多傳感器關(guān)聯(lián),如結(jié)合加速度計(jì)和陀螺儀更能有效識(shí)別跑、跳、上下樓梯等動(dòng)態(tài)活動(dòng)。
3)優(yōu)化數(shù)據(jù)特征。合理融合特征,降低維度,有效降低類(lèi)內(nèi)方差和增大類(lèi)間方差。
4)優(yōu)化活動(dòng)識(shí)別的通用模型。智能手機(jī)位于身體不同位置會(huì)給識(shí)別造成一定影響,因此生成活動(dòng)識(shí)別的通用模型仍是一個(gè)需要克服的挑戰(zhàn)。
5)豐富人體行為活動(dòng)種類(lèi)。目前人體活動(dòng)識(shí)別大多是對(duì)簡(jiǎn)單日常活動(dòng)的識(shí)別,探索結(jié)合實(shí)際情景 (如刑偵勘驗(yàn)現(xiàn)場(chǎng)) 進(jìn)行更高語(yǔ)義行為上的識(shí)別也是待研究的方向。
6)面向刑偵領(lǐng)域,包括涉案?jìng)鞲衅鲾?shù)據(jù)集的構(gòu)建、數(shù)據(jù)特征的分析、案件現(xiàn)場(chǎng)還原等,相關(guān)研究工作有待開(kāi)展。