鄭增威, 杜俊杰,2,霍梅梅*,吳劍鐘
(1.浙江大學(xué)城市學(xué)院杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,杭州310015; 2.浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州310015)(*通信作者電子郵箱huomm@zucc.edu.cn)
近十幾年來,物聯(lián)網(wǎng)行業(yè)快速發(fā)展,隨著各種傳感器、電子設(shè)備體積的縮小,性能的提高,成本的降低,這些電子元件在生活中得到更加廣泛的應(yīng)用。特別是可穿戴智能設(shè)備的研發(fā)以及人體活動(dòng)識(shí)別在人體健康監(jiān)控、娛樂、運(yùn)動(dòng)等方面的良好應(yīng)用前景,使得基于傳感器的人體活動(dòng)識(shí)別成為研究熱點(diǎn)之一。相比部署外部設(shè)備來識(shí)別人體活動(dòng)狀態(tài)方式成本昂貴、可移植性差的缺點(diǎn),可穿戴傳感器可以方便地通過集成傳感器采集人體的各項(xiàng)行為數(shù)據(jù),以此識(shí)別人體的活動(dòng)狀態(tài)。
實(shí)際上,人體活動(dòng)識(shí)別的研究早在20世紀(jì)90年代末就已經(jīng)展開:Foerster等[1]的實(shí)驗(yàn)結(jié)果表明人體的行為活動(dòng)與運(yùn)動(dòng)學(xué)之間存在緊密聯(lián)系,使用三軸加速度計(jì)采集行為數(shù)據(jù)來判斷人體的姿態(tài)和動(dòng)作是切實(shí)可行的;Mantyjarvi等[2]使用主成分分析(Principal Component Analysis,PCA)和小波變換從原始傳感器數(shù)據(jù)中提取特征,在簡(jiǎn)單人體活動(dòng)(站立、上下樓梯、行走)識(shí)別中使用多層感知器使得識(shí)別精度達(dá)到了83% ~90%;Olguin等[3]使用了隱馬爾可夫模型(Hidden Markov Model,HMM)作為分類模型,對(duì)比了不同傳感器位置對(duì)最終分類結(jié)果的影響,實(shí)驗(yàn)結(jié)果表明增加傳感器數(shù)量能提高分類精度;Wang等[4]提出了耦合HMM來識(shí)別智能家居環(huán)境中的多用戶行為,并開發(fā)了一個(gè)多模態(tài)傳感平臺(tái)來區(qū)分單用戶和多用戶的活動(dòng);Kwapisz等[5]提出了使用智能手機(jī)自帶傳感器來進(jìn)行人體活動(dòng)識(shí)別,在將上下樓梯視為同一動(dòng)作時(shí),分類精度達(dá)到了90%以上;Altun等[6]從計(jì)算成本、分類精度等方面對(duì)比了貝葉斯決策、最小二乘法、K最近鄰等多種分類方法在體育活動(dòng)上的分類效果,實(shí)驗(yàn)結(jié)果表明貝葉斯決策在計(jì)算復(fù)雜度最小的同時(shí)達(dá)到了最好的分類精度。
目前,典型的人體活動(dòng)識(shí)別過程如圖1所示。首先數(shù)據(jù)采集系統(tǒng)從人體各處傳感器獲取運(yùn)動(dòng)數(shù)據(jù),其中傳感器位置與具體的活動(dòng)緊密相關(guān);然后將傳感器數(shù)據(jù)進(jìn)行去噪、平滑處理;接著對(duì)數(shù)據(jù)進(jìn)行分段并提取出特征,其中最常見的分段技術(shù)的是滑動(dòng)窗口技術(shù),特征選擇的目的是為了降維,選擇與特定運(yùn)動(dòng)相關(guān)性比較強(qiáng)的特征,減少后續(xù)的計(jì)算量,提高分類精度;最后通過特征樣本訓(xùn)練得到的分類器來識(shí)別出當(dāng)前的人體活動(dòng)。
圖1 典型的人體活動(dòng)識(shí)別框架Fig.1 Framework of typical human activity recognition
人體活動(dòng)識(shí)別的最終結(jié)果與數(shù)據(jù)集密切相關(guān),在不同數(shù)據(jù)集上的實(shí)驗(yàn)方法無法互相比較,目前已有的基于傳感器的公開數(shù)據(jù)庫如表1所示,這些數(shù)據(jù)集包含人體日常的幾個(gè)基本活動(dòng):站立、行走、坐、上下樓梯。
表1 公開數(shù)據(jù)集Tab.1 Public datasets
WISDM數(shù)據(jù)集[5]由使用三種不同手機(jī)上的傳感器在29個(gè)人身上測(cè)得的日常基本行為數(shù)據(jù)所構(gòu)成;UCI HAR數(shù)據(jù)集[7]由戴在30個(gè)年齡在19~48歲的志愿者手腕上的智能手機(jī)傳感器采集得到,包括了三軸加速度計(jì)數(shù)據(jù)以及陀螺儀數(shù)據(jù);tFall數(shù)據(jù)集[8]也由手機(jī)傳感器采集,不僅包括跌倒數(shù)據(jù),也包含了人體日常行為數(shù)據(jù),這些數(shù)據(jù)包括了志愿者一個(gè)星期的行為數(shù)據(jù);Shoaib SA數(shù)據(jù)集[9]從10位男性志愿者身上采集得到,傳感器置于5個(gè)位置:左、右側(cè)的褲袋,右臂,右腕,腰部;MobiFall數(shù)據(jù)集[10]包含跌倒數(shù)據(jù)和日常行為數(shù)據(jù),也采用手機(jī)中的傳感器來采集行為數(shù)據(jù);UCI HAPT數(shù)據(jù)集[11]由從30個(gè)志愿者身上采集了5 h的運(yùn)動(dòng)數(shù)據(jù)構(gòu)成,其運(yùn)動(dòng)類型還包括了過渡性的行為,比如從躺到坐的過程;MobiAct數(shù)據(jù)集[12]由MobiFall數(shù)據(jù)集擴(kuò)展而來,包括57個(gè)志愿者的行為數(shù)據(jù);UniMiB SHAR數(shù)據(jù)集[13]也使用手機(jī)傳感器作為數(shù)據(jù)采集裝置,手機(jī)位于志愿者左右褲袋,各占一半采集時(shí)長(zhǎng)。
對(duì)于人體行為活動(dòng),身體不同部位所傳遞出運(yùn)動(dòng)數(shù)據(jù)不同,這些數(shù)據(jù)對(duì)于識(shí)別精度的影響也不同。例如,在識(shí)別人體日?;顒?dòng)時(shí),來自頭部的傳感器數(shù)據(jù)重要性相對(duì)來說比較低,然而在泳姿識(shí)別中卻十分重要,因此,對(duì)于特定的活動(dòng)識(shí)別,尋找出具有最好識(shí)別效果的數(shù)據(jù)源十分有意義。
Kefer等[14]進(jìn)行了動(dòng)態(tài)手勢(shì)識(shí)別的最佳傳感器位置的研究,他們使用了手腕、手肘兩個(gè)不同位置的運(yùn)動(dòng)數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明由于動(dòng)態(tài)手勢(shì)在手腕上有著更大的運(yùn)動(dòng)半徑,位于手腕的傳感器數(shù)據(jù)的識(shí)別精度要明顯高于手肘;Cleland等[15]研究了不同傳感器數(shù)據(jù)組合對(duì)人體日常行為(Activities of Daily Living,ADL)(包括行走、站立、上下樓梯、躺、坐等日常行為)的識(shí)別效果,傳感器分別位于胸部、腕部、背部、臀部、大腿以及腳踝,實(shí)驗(yàn)結(jié)果表明在使用單一傳感器的時(shí)候,使用位于臀部的傳感器表現(xiàn)出的識(shí)別效果最好,識(shí)別精度達(dá)到了97.8%;Pannurat等[16]在兩組不同年齡段數(shù)據(jù)集上研究了傳感器位置對(duì)識(shí)別精度的影響,傳感器位置分別位于頭部、手腕、胸部、手臂、腰部、大腿以及腳踝,實(shí)驗(yàn)結(jié)果表明大腿、胸部、手腕部位的傳感器數(shù)據(jù)對(duì)于活動(dòng)識(shí)別有著較好的效果,識(shí)別精度達(dá)到了96%以上。
以上研究表明,由不同人體部位運(yùn)動(dòng)數(shù)據(jù)訓(xùn)練得到分類器的識(shí)別效果差異非常大,因此,針對(duì)具體的行為活動(dòng)識(shí)別,尋找出最具識(shí)別能力的傳感器數(shù)據(jù)是達(dá)到最好識(shí)別精度的前提。
特征工程是人體活動(dòng)識(shí)別中的關(guān)鍵,對(duì)后續(xù)識(shí)別結(jié)果有直接的影響。而對(duì)于不同的人體活動(dòng)識(shí)別,特征的選擇不是明確的。特征的數(shù)量十分多,簡(jiǎn)單來說,可以分成時(shí)域特征、頻域特征以及時(shí)頻域特征。
1)時(shí)域特征。時(shí)域特征通常直接從原始數(shù)據(jù)中提取,是原始數(shù)據(jù)的統(tǒng)計(jì)量。常用的時(shí)域特征如表2所示。
2)頻域特征。時(shí)域特征在行為識(shí)別中使用十分廣泛,但是,時(shí)域特征對(duì)噪聲、測(cè)量誤差不夠魯棒,受噪聲數(shù)據(jù)的影響較大,而頻域信息能夠很好地規(guī)避這一點(diǎn)。將時(shí)域信息轉(zhuǎn)換到頻域可以將這些噪聲數(shù)據(jù)過濾,并提取出有效的頻域特征來識(shí)別時(shí)域特征不能很好區(qū)分的行為活動(dòng)。從時(shí)域轉(zhuǎn)換到頻域的過程中,使用較多的技術(shù)是快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)[17]。常用頻域特征包括光譜能量、頻率范圍、平均頻率、光譜熵、光譜質(zhì)心等。
3)時(shí)頻域特征。小波變換[18]是提取時(shí)頻域特征的常用方法,是時(shí)域到頻域的局部變換,可以同時(shí)顯示信號(hào)的時(shí)間與頻率特征。Preece等[19]在實(shí)驗(yàn)中對(duì)比了不同特征類型對(duì)分類結(jié)果的影響,研究表明時(shí)頻域特征能有效區(qū)分不同行為活動(dòng)。
由于加速度計(jì)本身的測(cè)量誤差、電噪聲以及外界的因素干擾,采集得到的傳感器數(shù)據(jù)總是夾雜著一些噪聲數(shù)據(jù),這些噪聲會(huì)使得分類器產(chǎn)生分類偏差,因此,需要對(duì)數(shù)據(jù)進(jìn)行濾波。常見的濾波方法包括均值濾波、高斯濾波、滑動(dòng)平均濾波、小波濾波[25]等。
滑動(dòng)均值濾波 滑動(dòng)均值濾波是一種低通濾波器,對(duì)于高頻噪聲信號(hào)以及隨機(jī)誤差有較好的過濾效果。Xiao等[23]在泳姿識(shí)別研究中使用了三種不同的濾波器,分別是均值濾波、滑動(dòng)均值濾波以及Prewitt邊緣濾波器,實(shí)驗(yàn)結(jié)果證明滑動(dòng)濾波器的效果最佳。滑動(dòng)均值濾波如式(1)所示:
其中:G為原始數(shù)據(jù),M為滑動(dòng)窗口大小,Gfilter為濾波之后的數(shù)據(jù)。
三次平滑算法 在去除噪聲的過程中,不僅要考慮去噪效果,也要考慮計(jì)算代價(jià),例如卡爾曼濾波器[24],它是一種遞推的純粹時(shí)域?yàn)V波器,濾波效果好,但是它的缺點(diǎn)是計(jì)算復(fù)雜度高,在計(jì)算資源有限的環(huán)境中難以應(yīng)用。Chen等[21]同時(shí)考慮到去噪效果及計(jì)算復(fù)雜度,使用五點(diǎn)三次平滑算法來去除噪聲數(shù)據(jù)并取得了較好的結(jié)果,如式(2)所示:
其中:(Gt-2,Gt-1,Gt,Gt+1,Gt+2) 為原始數(shù)據(jù)中相鄰的 5 個(gè)點(diǎn),(Gt-2',Gt-1',Gt',Gt+1',Gt+2') 為過濾之后的數(shù)據(jù)。
小波濾波 小波濾波的基本思想是利用小波對(duì)原始數(shù)據(jù)在不同尺度上進(jìn)行分解,有效信息的小波系數(shù)在不同尺度下相關(guān)性較強(qiáng),而噪聲的系數(shù)相關(guān)性較弱,利用這點(diǎn)特性將噪聲數(shù)據(jù)從原始數(shù)據(jù)中去除。
在人體活動(dòng)識(shí)別中,傳感器數(shù)據(jù)是時(shí)間序列數(shù)據(jù),難以將這些數(shù)據(jù)直接進(jìn)行特征提取。目前,大多數(shù)活動(dòng)分類方法都會(huì)使用分段方法將傳感器信號(hào)分成更小的時(shí)間段,對(duì)每個(gè)時(shí)間段進(jìn)行特征提取,然后使用分類算法進(jìn)行訓(xùn)練,其中最常用的分段技術(shù)是滑動(dòng)窗口技術(shù)。由于不同的行為活動(dòng)中動(dòng)作的持續(xù)時(shí)間不同,因此確定合適的滑動(dòng)窗口的大小以及每次的滑動(dòng)長(zhǎng)度是該技術(shù)的關(guān)鍵。Chen等[21]在基于手機(jī)傳感器的人體活動(dòng)識(shí)別研究中使用了窗口大小為1 s,窗口重疊率為50%(即每次向前滑動(dòng)0.5 s)的滑動(dòng)窗口,并根據(jù)峰值點(diǎn)來劃分不同的動(dòng)作段。Xiao等[23]在泳姿識(shí)別中使用窗口大小2 s,滑動(dòng)長(zhǎng)度0.5 s的滑動(dòng)窗口技術(shù)來獲取傳感器的數(shù)據(jù)(采樣頻率100 Hz)。Sztyler等[26]使用了窗口大小為1 s,滑動(dòng)長(zhǎng)度為0.5 s的窗口技術(shù)來對(duì)數(shù)據(jù)進(jìn)行劃分(數(shù)據(jù)采樣頻率為50 Hz)。
表2 常用時(shí)域特征Tab.2 Time-domain features
以上研究工作使用的窗口大小均是固定不變的,但在實(shí)際中對(duì)于不同的動(dòng)作,它們的信號(hào)特性是不同的。在一個(gè)完整活動(dòng)過程中,固定大小的時(shí)間窗口無法對(duì)所有的動(dòng)作做到良好的分割。因此,Noor等[27]提出了一種窗口大小可變的滑動(dòng)窗口技術(shù)來適應(yīng)不同動(dòng)作的信號(hào)特性。該方法的基本思想是首先使用一個(gè)固定大小的窗口,并在劃分的過程中不斷通過概率密度函數(shù)來判斷是否需要調(diào)整窗口大小,以此來最終得到最佳的窗口大小,實(shí)驗(yàn)結(jié)果表明,可變大小的窗口技術(shù)有效提高了活動(dòng)識(shí)別精度。
原始數(shù)據(jù)經(jīng)過特征提取可以得到一個(gè)特征集,這個(gè)特征集有可能十分龐大,其中存在某些冗余的,甚至?xí)?duì)識(shí)別精度造成負(fù)面影響的特征,同時(shí)也會(huì)增加不必要的計(jì)算。為了更精準(zhǔn)地分類,確定一組具有較高辨別能力的特征集極其重要,一個(gè)好的特征集應(yīng)該在相同行為之間顯示出很小的差異,同時(shí)在不同行為之間具有較大差異。
從評(píng)價(jià)準(zhǔn)則的角度,特征選擇方法可以大致分成3大類,分別是過濾式(Filter)方法、封裝式(Wrapper)方法以及嵌入式(Embedded)方法[28]。其中:Filter方法的選擇過程僅僅與當(dāng)前的特征集相關(guān),它直接利用某種評(píng)價(jià)準(zhǔn)則從特征集中選擇出最合適的特征子集,因此,這類方法的效率普遍較高。而Wrapper特征選擇過程還與后續(xù)學(xué)習(xí)分類的結(jié)果相關(guān),它需要后續(xù)的學(xué)習(xí)結(jié)果作為反饋來調(diào)整特征集,因此這種方法效率相比來說不是很高,但是它的精度相對(duì)較高。Embedded方法是結(jié)合上述兩者方法優(yōu)點(diǎn)的方法。目前在人體活動(dòng)識(shí)別研究中,F(xiàn)ilter方法使用得更為廣泛,按照評(píng)價(jià)函數(shù),可以分為距離度量、信息度量、相關(guān)系數(shù)度量[29]等方法。
2.4.1 距離度量
距離度量的基本思想是使用距離來評(píng)價(jià)樣本之間的相似度,常用的距離包括歐氏距離、馬氏距離、平方距離[29]等。Relief算法[30]是一種經(jīng)典的基于距離度量的特征權(quán)重迭代算法,它的運(yùn)行效率非常高,與樣本的采樣次數(shù)以及特征集的大小成線性關(guān)系,因此應(yīng)用十分廣泛。它的基本思想是根據(jù)式(3)對(duì)特征進(jìn)行權(quán)重更新,權(quán)重越大,該特征的分類能力越強(qiáng),當(dāng)該特征的權(quán)重大于預(yù)先給定的閾值時(shí),則將其加入特征子集。但是,Relief算法沒有將特征之間的關(guān)系考慮在內(nèi),因此該算法無法去除冗余的特征。其中:W(i)是特征i的權(quán)重值,diff(i,R,H)是與相同類別H中樣本的最近距離,diff(i,R,M)是不同類別M中樣本的最近距離。
Pannurat等[16]使用Relief-F對(duì)身體不同部位的行為數(shù)據(jù)進(jìn)特征選擇排序,Relief-F是Relief算法的擴(kuò)展,適用于多類別的情況。實(shí)驗(yàn)結(jié)果表明不同部位的不同特征對(duì)于區(qū)分活動(dòng)的重要程度也不盡相同。
2.4.2 信息度量
基于信息度量的特征選擇方法一般使用信息增益或者互信息[28]來衡量特征的作用,它的基本思想是篩選出具有最小不確定性的特征來進(jìn)行訓(xùn)練分類工作。mRMR算法[31]是典型的基于互信息的特征選擇方法,在考慮特征區(qū)分類別能力的同時(shí),將特征之間的關(guān)系考慮在內(nèi),因而能去除冗余特征。mRMR算法的基本思想是使用互信息作為度量標(biāo)準(zhǔn)來計(jì)算特征子集與類別之間的相關(guān)性以及特征之間的冗余度,如式(4)所示。但是該算法未考慮特征的權(quán)重,無法體現(xiàn)不同特征的重要程度。
I(x,y)越大,說明x和y的相關(guān)性越高。利用這點(diǎn)特性,mRMR算法使用了最大相關(guān)性D和最小冗余度R的度量標(biāo)準(zhǔn),并選擇使得D-R達(dá)到最大值的特征子集作為最終選擇出的特征集。
最大相關(guān)性:
最小冗余度:
其中:S是特征子集,x是某個(gè)具體的特征,c是類別。
Atallah等[20]在實(shí)驗(yàn)中對(duì)比了 Relief-F、Simba Feature Selection、mRMR三種特征選擇方法,實(shí)驗(yàn)結(jié)果表明根據(jù)不同語義層次的活動(dòng)識(shí)別,選擇恰當(dāng)?shù)奶卣鲗?duì)于提高分類精度十分重要。
2.4.3 相關(guān)系數(shù)度量
皮爾森相關(guān)系數(shù)[32]是Pearson提出的用于衡量隨機(jī)變量X、Y之間的線性相關(guān)程度的指標(biāo)。相關(guān)系數(shù)r的計(jì)算方法如式(7)所示:
其中:Cov(X,Y)為隨機(jī)變量X與Y之間的協(xié)方差,σx和σy分別是X和Y的標(biāo)準(zhǔn)差。
在特征選擇中,通常使用相關(guān)系數(shù)來計(jì)算特征之間、特征與類別之間的相關(guān)程度,從而完成特征的選擇。
人體活動(dòng)識(shí)別從本質(zhì)上可以被認(rèn)為是一個(gè)分類問題,即每個(gè)類別對(duì)應(yīng)一個(gè)活動(dòng)。目前,機(jī)器學(xué)習(xí)是構(gòu)建分類器最常用的方法,按照模型的訓(xùn)練類型可以分成為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)[33]。在有監(jiān)督學(xué)習(xí)方法中,輸入數(shù)據(jù)是帶有標(biāo)簽的訓(xùn)練樣本集,訓(xùn)練的目的是根據(jù)某種評(píng)價(jià)準(zhǔn)則來獲得一個(gè)最優(yōu)的分類器。根據(jù)分類原理的不同,有監(jiān)督學(xué)習(xí)模型又可以分成生成模型、判別模型等。半監(jiān)督學(xué)習(xí)是有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的結(jié)合,它同時(shí)使用了未標(biāo)記數(shù)據(jù)以及有標(biāo)記數(shù)據(jù)來進(jìn)行訓(xùn)練,在降低訓(xùn)練成本的同時(shí)保證了分類效果。無監(jiān)督學(xué)習(xí)方法不需要有事先標(biāo)記好的數(shù)據(jù)作為訓(xùn)練樣本,它能自動(dòng)根據(jù)數(shù)據(jù)之間的性質(zhì)并對(duì)其進(jìn)行聚類操作,但是由于人體活動(dòng)的復(fù)雜多樣性,因此,在完全無監(jiān)督的學(xué)習(xí)下識(shí)別不同的行為活動(dòng)還比較困難。強(qiáng)化學(xué)習(xí)是一種邊獲得樣例邊學(xué)習(xí)的方式,每次使用獲得的樣例來更新現(xiàn)有模型,并根據(jù)該模型來指導(dǎo)下一步的行動(dòng),不斷重復(fù)迭代直至模型收斂。深度學(xué)習(xí)本質(zhì)不是一種分類模型,而是一種學(xué)習(xí)方式,它能挖掘出更深層次、更具區(qū)分能力的特征,因此在模式識(shí)別中,深度學(xué)習(xí)成為研究的熱點(diǎn)。
判別模型的思想是直接從有限的樣本中學(xué)習(xí)到?jīng)Q策函數(shù)Y=f(x)或者條件概率分布函數(shù)P(Y|X)。它并不關(guān)注輸出X與輸出Y之間的生成關(guān)系,學(xué)習(xí)的是不同類別Y之間的特征差異,利用這種差異來對(duì)X進(jìn)行分類。典型的判別模型算法包括支持向量機(jī)、決策樹、人工神經(jīng)網(wǎng)絡(luò)等。
3.1.1 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)[20]是一種目前廣泛使用的分類器。它的思想是通過非線性的算法將數(shù)據(jù)從輸入空間映射到另一個(gè)特征空間,使得數(shù)據(jù)在這個(gè)空間中線性可分:Altun等[6]在19個(gè)不同人體日常行為識(shí)別的研究工作使用了7種不同的分類方法,在留1驗(yàn)證法中,SVM分類器獲得了最好的結(jié)果,識(shí)別精度為87.6%;Beily等[34]使用了SVM模型來區(qū)分網(wǎng)球運(yùn)動(dòng)中四種活動(dòng)(跑步、正手擊球、反手擊球、發(fā)球),在離線的訓(xùn)練以及10折的交叉驗(yàn)證實(shí)驗(yàn)中,該分類方法的準(zhǔn)確度為100%,在線分類實(shí)驗(yàn)中,SVM分類器也達(dá)到了96.25%的準(zhǔn)確度。
3.1.2 決策樹
決策樹構(gòu)建一個(gè)樹狀的層次決策圖,是一種十分直觀便于理解的統(tǒng)計(jì)概率模型,其中每一個(gè)非葉子節(jié)點(diǎn)表示特征屬性的判斷條件,每一個(gè)分支表示在其父節(jié)點(diǎn)上特征屬性分類的結(jié)果,葉子節(jié)點(diǎn)表示最終的每一個(gè)類別[35]。由于其樹型的結(jié)構(gòu),每次分類的計(jì)算量不會(huì)超過樹的深度,因此決策樹具有計(jì)算量小的特點(diǎn)。決策樹的深度與特征的選擇密切相關(guān),合適的特征作為屬性判斷節(jié)點(diǎn)可以減少?zèng)Q策樹的深度,從而提高分類效率。常用的決策樹算法主要包括ID3、C4.5、分類回歸樹(Classification and Regression Tree,CART)。Ohgi等[36]在蝶泳、蛙泳、仰泳自由泳4種泳姿識(shí)別中使用決策樹算法C4.5構(gòu)建了深度為5的決策樹,最終的分類精度達(dá)到了91.1%。隨機(jī)森林是基于CART的一種分類器,本質(zhì)上由多棵決策樹組成,這些決策樹相互獨(dú)立,即采用不同的樣本集訓(xùn)練得到,最終根據(jù)多棵決策樹的投票結(jié)果來進(jìn)行分類。Lombriser等[37]采用了隨機(jī)森林的方法來對(duì)8種不同的行為(上下樓梯、跳、躺、站立、坐、跑步、行走)進(jìn)行識(shí)別分類,達(dá)到了89%的分類精度。
3.1.3 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代興起的研究熱點(diǎn),它的基本思想是模仿生物學(xué)上的神經(jīng)網(wǎng)絡(luò)來構(gòu)建大量神經(jīng)元實(shí)現(xiàn)信息的處理[38],人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2所示。
圖2 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of artificial neural network
每個(gè)神經(jīng)元Uk的輸出如式(9)所示,其中θ為神經(jīng)元內(nèi)部閾值,一般會(huì)隨著神經(jīng)元的興奮程度而變化。
人工神經(jīng)網(wǎng)絡(luò)在模式識(shí)別、智能控制等領(lǐng)域有著廣泛的應(yīng)用,目前針對(duì)神經(jīng)網(wǎng)絡(luò)的研究主要集中在網(wǎng)絡(luò)的構(gòu)建和網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)能自動(dòng)從復(fù)雜數(shù)據(jù)中學(xué)習(xí)有用的特征、模式,因此在方法在人體活動(dòng)識(shí)別應(yīng)用十分廣泛。Panhwar等[39]使用了兩層的前饋神經(jīng)網(wǎng)絡(luò)來識(shí)別5種不同的行為活動(dòng),在對(duì)比實(shí)驗(yàn)中,神經(jīng)網(wǎng)絡(luò)模型的識(shí)別效果要遠(yuǎn)遠(yuǎn)好于SVM;Kharrat等[40]在神經(jīng)網(wǎng)絡(luò)模型中訓(xùn)練了20個(gè)隱藏神經(jīng)元,在溺水行為識(shí)別研究中,達(dá)到了100%的準(zhǔn)確率。
生成模型是相對(duì)判別模型的另一種有監(jiān)督學(xué)習(xí)算法,與判別模型直接求解決策函數(shù)或者條件概率分布不同,生成模型是通過數(shù)據(jù)建立聯(lián)合概率密度分布函數(shù)P(X,Y),然后根據(jù)式(10)來求解后驗(yàn)概率P(Y|X),從而完成分類,因此,生成模型關(guān)注的是數(shù)據(jù)生成過程。
其中,X是輸入信號(hào),U是神經(jīng)元,Wn,k是輸入信號(hào)n與神經(jīng)元k之間的連接權(quán)重值,φ(i)為激活函數(shù)。每一個(gè)神經(jīng)元Uk的輸入是輸入信號(hào)之間的加權(quán)和,如式(8)所示:n
常用的生成模型包括樸素貝葉斯模型、隱馬爾可夫模型[41]等。
3.2.1 樸素貝葉斯模型
樸素貝葉斯模型是一種基于統(tǒng)計(jì)的分類方法,它的基本思想是根據(jù)給定的待分類數(shù)據(jù),分別求解在該數(shù)據(jù)屬于各個(gè)類別的概率,概率最大的類別即為最終的類別,如式(11)所示:
其中y是類別,x是待分類項(xiàng)。在樸素貝葉斯中,特征屬性之間相互獨(dú)立的,因此p(yi|x)可以通過式(12)進(jìn)行求解。
其中a是x的各項(xiàng)特征屬性。
Pannurat[16]在人體日常行為的識(shí)別研究中根據(jù)不同位置的傳感器數(shù)據(jù)使用了7種不同的分類方法,從整體分類效果而言,樸素貝葉斯模型要明顯好于其他幾種分類算法。
3.2.2 隱馬爾可夫模型
隱馬爾可夫模型是一種統(tǒng)計(jì)模型,是一個(gè)由隱含狀態(tài)、可見狀態(tài)、轉(zhuǎn)換概率、輸出概率來描述隱含位置參數(shù)的馬爾可夫過程,如圖3所示,其中Xi表示隱含狀態(tài),Yi表示可見狀態(tài),a表示隱含狀態(tài)間的轉(zhuǎn)換概率,b表示隱含狀態(tài)到可見狀態(tài)的輸出概率。
圖3 隱馬爾可夫鏈Fig.3 Hidden Markov chain
在人體活動(dòng)識(shí)別中,隱含狀態(tài)即活動(dòng)的類別,可見狀態(tài)即測(cè)得的傳感器數(shù)據(jù)。Cheng等[42]在人體活動(dòng)識(shí)別研究中對(duì)每一個(gè)活動(dòng)類別分別建立一個(gè)隱馬爾可夫模型,并對(duì)待識(shí)別活動(dòng)的傳感器數(shù)據(jù)使用這些模型計(jì)算概率,概率最大的模型類別即為最終識(shí)別結(jié)果。
強(qiáng)化學(xué)習(xí)的基本原理是通過Agent與環(huán)境進(jìn)行交互,并獲得反饋信息,這個(gè)反饋信息有可能是強(qiáng)化Agent的對(duì)應(yīng)行為,也有可能是抑制Agent的對(duì)應(yīng)行為,它的最終目標(biāo)是使得Agent選擇的行為能獲得環(huán)境的最大獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)的基本框架如圖4所示,其中有4個(gè)非常重要的概念:策略(policy)、獎(jiǎng)懲反饋(reward)、值函數(shù)(value function)以及環(huán)境模型(environment model)[33]。
圖4 強(qiáng)化學(xué)習(xí)基本框架Fig.4 Framework of reinforcement learning
其中:t是時(shí)間點(diǎn),A(t)是t時(shí)刻Agent的行為,S(t)是t時(shí)刻的狀態(tài),R(t)是t時(shí)刻環(huán)境模型的獎(jiǎng)懲反饋。
策略 規(guī)則是狀態(tài)到行為的映射,定義了Agent的行為方式,可以分成確定策略和隨機(jī)策略。
獎(jiǎng)懲反饋 獎(jiǎng)懲反饋是Agent執(zhí)行相關(guān)動(dòng)作后從環(huán)境中獲得的反饋信號(hào)。這個(gè)信號(hào)反映了在當(dāng)前情景下,執(zhí)行該動(dòng)作的好壞,Agent根據(jù)這個(gè)反饋信號(hào)來調(diào)整自己的策略。
值函數(shù) 獎(jiǎng)懲反饋反映當(dāng)前動(dòng)作的即時(shí)收益,而值函數(shù)定義了從開始狀態(tài)到達(dá)到目標(biāo)所能得到最大獎(jiǎng)懲反饋。
環(huán)境模型 環(huán)境模型定義了動(dòng)作轉(zhuǎn)移概率以及動(dòng)作的獎(jiǎng)懲,即環(huán)境根據(jù)Agent的行為生成下一時(shí)刻的狀態(tài)和獎(jiǎng)懲。
深度學(xué)習(xí)作為最近幾年的研究熱點(diǎn)得到了快速的發(fā)展,在圖像識(shí)別、行為識(shí)別等領(lǐng)域得到了非常好的應(yīng)用。深度學(xué)習(xí)的實(shí)質(zhì)是構(gòu)建具有很多隱含層的學(xué)習(xí)模型從海量的數(shù)據(jù)中學(xué)習(xí)到更相關(guān)、更有意義的特征,因此許多研究者將其應(yīng)用到人體活動(dòng)識(shí)別的特征學(xué)習(xí)中。Ronao等[43]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來挖掘人體活動(dòng)行為的內(nèi)在聯(lián)系,并提出了一種自動(dòng)提取魯棒特征的方法,實(shí)驗(yàn)結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)在對(duì)于傳統(tǒng)方法難以分辨的相似行為有著很好的區(qū)分能力,在6種不同日常行為活動(dòng)的識(shí)別中達(dá)到了95.75%的分類精度。Hammerla等[44]在基于傳感器的人體活動(dòng)識(shí)別中對(duì)比了三種不同的深度學(xué)習(xí)方法,分別是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。實(shí)驗(yàn)結(jié)果表明:在大型的基準(zhǔn)數(shù)據(jù)集上以及短時(shí)活動(dòng)的識(shí)別上,LSTM相對(duì)來說具有最好的識(shí)別效果;而CNN更適用在重復(fù)性行為活動(dòng)的識(shí)別。
表3 不同分類方法的比較Tab.3 Comparison of different classification methods
目前,盡管基于可穿戴傳感器的人體活動(dòng)識(shí)別研究已取得較好的實(shí)驗(yàn)結(jié)果,分類精度令人滿意,但是仍然存在以下問題值得進(jìn)一步的研究。
第一,由于可穿戴傳感器本身的局限性以及外界環(huán)境的干擾,使得采集到的傳感器數(shù)據(jù)往往含有許多噪聲,目前存在滑動(dòng)均值濾波、小波濾波等濾波技術(shù)只能在一定程度上去除噪聲,如何有效去除噪聲仍是待解決的難點(diǎn)。
第二,可穿戴設(shè)備在日常生活中的使用比較隨意,然而目前現(xiàn)有算法與設(shè)備擺放的位置、方式緊密聯(lián)系,因此,提取出與設(shè)備放置無關(guān),能有效區(qū)分各種不同行為活動(dòng)的特征仍是目前的研究熱點(diǎn)與難點(diǎn)之一。
第三,個(gè)體之間行為活動(dòng)的差異性導(dǎo)致傳統(tǒng)靜態(tài)模型識(shí)別精確度不高,如何有效消除個(gè)體的差異,使得分類模型更具有廣泛適用性也是待解決的難點(diǎn)[45]。
第四,人體日常行為活動(dòng)復(fù)雜多樣,目前人體活動(dòng)識(shí)別大都集中在簡(jiǎn)單活動(dòng)的識(shí)別,比如:行走、跑步、上下樓梯等,如何結(jié)合情景環(huán)境信息(例如:全球定位系統(tǒng)信息)進(jìn)行更高語義上行為上的識(shí)別[46]也是待研究的方向。
本文從4個(gè)方面對(duì)基于可穿戴傳感器的人體活動(dòng)識(shí)別進(jìn)行了分析總結(jié)。人體活動(dòng)識(shí)別流程一般經(jīng)過數(shù)據(jù)采集,特征提取,特征選擇以及分類器的構(gòu)建。人體不同部位的數(shù)據(jù)與行為活動(dòng)緊密相關(guān),針對(duì)區(qū)分不同行為,選擇合適數(shù)據(jù)源十分重要。特征工程是人體活動(dòng)識(shí)別中的關(guān)鍵,提取的特征類型、處理方式直接影響后續(xù)的識(shí)別精度。特征選擇一方面降低后續(xù)計(jì)算量,另一方面有利于提高分類精度。在分類器方面,傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用十分廣泛并取得了一定的識(shí)別效果,深度學(xué)習(xí)作為新的研究熱點(diǎn)也在活動(dòng)識(shí)別中得到應(yīng)用。最后分析了人體活動(dòng)識(shí)別中各個(gè)環(huán)節(jié)還存在的問題并展望了基于可穿戴傳感器的人體活動(dòng)識(shí)別的發(fā)展方向。