廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院 譚火媛 羅曉牧
?
人體動作識別中的深度學(xué)習(xí)模型選擇
廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院譚火媛羅曉牧
目前深度學(xué)習(xí)已成為機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向,在眾多應(yīng)用領(lǐng)域取得良好的效果,這使得不少深度學(xué)習(xí)愛好者躍躍欲試。然而,雖然關(guān)于深度學(xué)習(xí)的研究論文日益增多,但是仍然缺乏如何針對不同的應(yīng)用場景選擇合適的深度學(xué)習(xí)模型的指導(dǎo)。本文探討了根據(jù)可穿戴式傳感器在人體動作識別中的信號特點(diǎn),為如何根據(jù)不同的動作識別任務(wù)選擇合適的深度學(xué)習(xí)模型提供參考。
深度學(xué)習(xí);動作識別;卷積神經(jīng)網(wǎng)絡(luò)(CNN);遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
在普適計(jì)算 (Ubiquitous Computing) 中,基于深度學(xué)習(xí)的人體動作識別開始逐漸地取代現(xiàn)存依賴于人工手動特征提取和分類的分析方法。但是對于各種不同的動作識別任務(wù),包括精準(zhǔn)手勢動作識別、跑步、上樓梯等不同粒度的行為,如何選擇合適的模型仍然沒有一個(gè)統(tǒng)一的分析方法。本文通過結(jié)合深度學(xué)習(xí)領(lǐng)域最新的論文,探索卷積神經(jīng)網(wǎng)絡(luò) (Convolutional networks, CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, RNN)在人體動作識別中的應(yīng)用。通過大量隨機(jī)采樣模型配置的動作識別實(shí)驗(yàn),比較不同模型在人體動作識別的不同任務(wù)上的適用性,可以為對深度學(xué)習(xí)感興趣的研究人員提供一定的參考。
在過去十年中,深度學(xué)習(xí)已成為機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向,并且在學(xué)術(shù)研究和商業(yè)用途的驅(qū)動下,出現(xiàn)越來越多的變體。通過 Torch7[1]等機(jī)器學(xué)習(xí)框架,深度學(xué)習(xí)能被大眾所使用,并且在很多應(yīng)用領(lǐng)域中發(fā)揮重要作用。
1.1人體動作識別的研究現(xiàn)狀
普適計(jì)算中的人體動作識別是受益于深度學(xué)習(xí)的領(lǐng)域之一。人體動作識別中相關(guān)的研究方法包括:對穿戴設(shè)備時(shí)序數(shù)據(jù)的滑動窗口分段、手動特征提取過程以及一系列的(有監(jiān)督)分類方法。很多情況下,這些相對簡單的方法已經(jīng)能夠獲得較高的識別準(zhǔn)確度。然而,一些更復(fù)雜的行為動作對這些需要手動設(shè)計(jì)的方法提出了一定的挑戰(zhàn),例如在醫(yī)療應(yīng)用中的動作識別等[2]。
1.2深度學(xué)習(xí)在人體動作識別中的應(yīng)用障礙
深度學(xué)習(xí)將對普適計(jì)算中的人體動作識別帶來巨大影響,它將取代缺乏魯棒性且需要手動設(shè)置的特征提取過程。然而,對于研究者而言,為他們的具體應(yīng)用場景選擇合適的深度學(xué)習(xí)模型是一件比較困難的事情。很多促進(jìn)深度學(xué)習(xí)發(fā)展的研究幾乎都只是呈現(xiàn)了系統(tǒng)的最優(yōu)效果,而很少介紹這些看起來最優(yōu)的參數(shù)是如何確定的。在參數(shù)探索過程中,對于最佳效果是如何與一般情況下的效果比較,也沒有做出很好的解釋。
盡管已經(jīng)有一些關(guān)于深度模型在動作識別的各種應(yīng)用場景中的探索,但是缺乏一個(gè)系統(tǒng)的關(guān)于深度模型適用性的分析。各種論文的作者報(bào)告他們在初步實(shí)驗(yàn)中探索參數(shù)空間,但是通常忽略細(xì)節(jié)。實(shí)驗(yàn)的整個(gè)過程不但不清晰,而且難以復(fù)制。一些論文中展現(xiàn)單個(gè)實(shí)例,例如卷積神經(jīng)網(wǎng)絡(luò)在某一特定場景獲得較好的識別效果,然而單單報(bào)告峰值性能數(shù)據(jù)并不能反映一種方法在普適計(jì)算中的所有識別任務(wù)具有適用性,因?yàn)檫€需要花費(fèi)多少精力去優(yōu)化提出的方法以及調(diào)試與之比較的方法仍然是未知的。一個(gè)研究者尋找到跟論文中效果同樣好的參數(shù)配置的可能性有多大?在參數(shù)探索的過程中報(bào)告的與其他模型比較的識別效果有多大的代表性?哪一個(gè)參數(shù)對識別效果的影響最大?這些問題對于研究者是非常重要的,但是目前在相關(guān)研究中很少有提及,這很大程度上限制了深度學(xué)習(xí)在人體動作識別中的應(yīng)用和推廣。
使用可穿戴傳感器收集的人體運(yùn)動數(shù)據(jù)是多變量時(shí)間序列數(shù)據(jù),在普適計(jì)算中分析這些數(shù)據(jù)通常是使用基于管道(pipelinebased)的方法。首先是將這些時(shí)間序列數(shù)據(jù)分割成連續(xù)的段或者幀,可以基于一些信號特征例如信號能量來劃分,或者通過時(shí)間滑窗的方法分段。然后從每一幀或每一段提取一組特征,其中最常見的包括統(tǒng)計(jì)特性或頻域特性。
2.1卷積神經(jīng)網(wǎng)絡(luò)在人體動作識別中的應(yīng)用
目前在普適計(jì)算中比較受歡迎的是基于卷積神經(jīng)網(wǎng)絡(luò)的模型,許多研究人員都在探索它們在不同動作識別任務(wù)中的識別效果。卷積神經(jīng)網(wǎng)絡(luò)因其可以采用原始信號直接作為網(wǎng)絡(luò)輸入而避免了復(fù)雜的特征提取過程,已經(jīng)應(yīng)用在特定領(lǐng)域,例如檢測自閉癥的典型動作[3],這一應(yīng)用很顯然優(yōu)于之前領(lǐng)先的識別方法。
2.2遞歸神經(jīng)網(wǎng)絡(luò)在人體動作識別中的應(yīng)用
在普適計(jì)算中,幀與幀之間通常被看作是統(tǒng)計(jì)獨(dú)立的,因此生成模型的應(yīng)用也是非常成功的,例如隱馬爾科夫模型(HMM)。那些能夠利用時(shí)序數(shù)據(jù)的時(shí)間相關(guān)性的方法,自然也就成為構(gòu)建人體運(yùn)動模型的選擇。深度遞歸神經(jīng)網(wǎng)絡(luò),尤其是那些依靠長期短期記憶單元(LSTMs)的遞歸神經(jīng)網(wǎng)絡(luò),最近在各種應(yīng)用場景中已經(jīng)取得了令人印象深刻的識別效果。 首先,Neverova等利用記錄在人們手機(jī)上的運(yùn)動數(shù)據(jù)研究了各種遞歸方法在人體識別中的識別效果[4]。接著Ordonez和 Roggen等在OpportunityDataset和SkodaDataset兩個(gè)動作識別數(shù)據(jù)集上將遞歸神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合使用[5]。實(shí)驗(yàn)表明,在OpportunityDataset這個(gè)數(shù)據(jù)集中,遞歸神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合使用的識別效果優(yōu)于其他方法;在SkodaDataset數(shù)據(jù)集中,使用遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)于不使用遞歸方法的模型。應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)僅僅是為了在更抽象的層面上更有效地?cái)M合時(shí)間相關(guān)性。目前,遞歸神經(jīng)網(wǎng)絡(luò)還沒有用于擬合更低層面的用傳感器采集到的相互獨(dú)立動作數(shù)據(jù)。
本文探討了目前最常用的深度學(xué)習(xí)方法應(yīng)用于基于可穿戴式傳感器人體動作識別的識別效果。從研究者的角度來看,他們感興趣的并不是每種模型的最好識別效果是多少,而是探索參數(shù)的過程和理解每種模型的本質(zhì)并知道它們在不同動作識別任務(wù)中的適用性。
通過探討大量最新的論文,本文得出[6]:(1)對于那些持續(xù)時(shí)間短但是有序的動作,遞歸神經(jīng)網(wǎng)絡(luò)的識別效果明顯優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。因?yàn)檫f歸方法在一段長時(shí)間序列內(nèi)可以聯(lián)系上下文,結(jié)合上下文做出判斷。(2)在大部分?jǐn)?shù)據(jù)集中,對于雙向的遞歸神經(jīng)網(wǎng)絡(luò)(bi-directional RNNs),每一層的單元個(gè)數(shù)對于模型最終的識別效果有很大的影響。(3)對于持續(xù)時(shí)間長且不斷重復(fù)的動作例如走或者跑,推薦使用卷積神經(jīng)網(wǎng)絡(luò)。研究者在實(shí)驗(yàn)過程中可能會發(fā)現(xiàn)有些數(shù)據(jù)集使用遞歸神經(jīng)網(wǎng)絡(luò)識別效果會和卷積神經(jīng)網(wǎng)絡(luò)相差無幾,甚至是優(yōu)于卷積神經(jīng)網(wǎng)絡(luò),但是研究者可以通過平均識別效果選擇適合的結(jié)構(gòu)模型。(4)在開始優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)之前,建議先探索學(xué)習(xí)速率,因?yàn)閷W(xué)習(xí)到的參數(shù)對于模型的識別效果有很大的影響。
通過對論文的探討發(fā)現(xiàn),對于不同模型的不同參數(shù)設(shè)置,最終的識別效果會有很大的區(qū)別。普通的深度神經(jīng)網(wǎng)絡(luò)對于研究人員來說也許是最容易應(yīng)用到不同的數(shù)據(jù)集中的模型,但它需要投入大量的精力來調(diào)試參數(shù)。所以,盡管在初始的模型探索中模型的識別效果較差,但是研究人員也不應(yīng)該丟棄該模型。更加復(fù)雜的方法例如卷積神經(jīng)網(wǎng)絡(luò)或者遞歸神經(jīng)網(wǎng)絡(luò)的識別率差異較小,這樣就更有可
能在僅僅幾步的迭代中找到一個(gè)識別效果較好的模型。
[1]Ronan Collobert,Koray Kavukcuoglu,and Clement Farabet. Torch7:A matlab-like environment for machine learning.In BigLearn,NIPS Workshop,2011.
[2]Nils Y Hammerla,James M Fisher, Peter Andras, Lynn Rochester,Richard Walker,and Thomas Plotz.Pd disease state assessment in naturalistic environments using deep learning.In AAAI,2015.
[3]Nastaran Mohammadian Rad,Andrea Bizzego,Seyed Mostafa Kia,Giuseppe Jurman,Paola Venuti,and Cesare Furlanello.Convolutional neural network for stereotypical motor movement detection in autism. arXiv:1511.01865,2015.
[4]Natalia Neverova,Christian Wolf,Griffin Lacey,Lex Fridman,Deepak Chandra,Brandon Barbello,and Graham Taylor. Learning human identity from motion patterns. arXiv:1511.03908, 2015.
[5]Francisco Javier Ordonez and Daniel Roggen. Deep convolutional and lstm recurrent neural networks for multimodal wearable activity recognition. Sensors,16(1):115, 2016.
[6]Nils Y.Hammerla,Shane Halloran and Thomas Ploetz.Deep,Convolutional,and Recurrent Models for Human Activity Recognition using Wearables.arXiv:1604.08880[cs.LG].
譚火媛(1993-),女,廣東云浮人,本科在讀,醫(yī)學(xué)信息工程專業(yè),研究方向:機(jī)器學(xué)習(xí)。
羅曉牧(1980-),男,廣東廣州人,講師,工科博士研究生畢業(yè),研究方向:機(jī)器學(xué)習(xí),無線傳感器網(wǎng)絡(luò),生物信號獲取。
國家自然科學(xué)基金(No.61301294)、2016年廣東省大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(No. 201610572084)。