王震宇,張雷,高文彬,權(quán)威銘
基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的人體運(yùn)動(dòng)識(shí)別
王震宇,張雷*,高文彬,權(quán)威銘
(南京師范大學(xué) 電氣與自動(dòng)化工程學(xué)院,南京 210023)( ? 通信作者電子郵箱leizhang@njnu.edu.cn)
為了解決基于傳感器數(shù)據(jù)的運(yùn)動(dòng)識(shí)別問(wèn)題,利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在公開的OPPORTUNITY傳感器數(shù)據(jù)集上進(jìn)行運(yùn)動(dòng)識(shí)別,提出了一種改進(jìn)的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(PNAS)算法。首先,神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)過(guò)程中不再依賴于合適拓?fù)浣Y(jié)構(gòu)的手動(dòng)選擇,而是通過(guò)PNAS算法來(lái)設(shè)計(jì)最優(yōu)拓?fù)浣Y(jié)構(gòu)以最大化F1分?jǐn)?shù);其次,使用基于序列模型的優(yōu)化(SMBO)策略,在該策略中將按照復(fù)雜度從低到高的順序搜索結(jié)構(gòu)空間,同時(shí)學(xué)習(xí)一個(gè)代理函數(shù)以引導(dǎo)對(duì)結(jié)構(gòu)空間的搜索;最后,將搜索過(guò)程中表現(xiàn)最好的20個(gè)模型在OPPORTUNIT數(shù)據(jù)集上進(jìn)行完全訓(xùn)練,并從中選出表現(xiàn)最好的模型作為搜索到的最優(yōu)架構(gòu)。通過(guò)這種方式搜索到的最優(yōu)架構(gòu)在OPPORTUNITY數(shù)據(jù)集上的F1分?jǐn)?shù)達(dá)到了93.08%,與進(jìn)化算法搜索到的最優(yōu)架構(gòu)及DeepConvLSTM相比分別提升了1.34%和1.73%,證明該方法能夠改進(jìn)以前手工設(shè)計(jì)的模型結(jié)構(gòu),且是可行有效的。
人體運(yùn)動(dòng)識(shí)別;深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索;卷積神經(jīng)網(wǎng)絡(luò);基于序列模型的優(yōu)化
移動(dòng)智能設(shè)備的不斷普及給研究人員提供了一系列新的研究方向。由于在運(yùn)動(dòng)跟蹤[1]、健康監(jiān)測(cè)[2]和智能家居[3]中的廣泛應(yīng)用,基于可穿戴傳感器數(shù)據(jù)的人體運(yùn)動(dòng)識(shí)別(Human Activity Recognition, HAR)已經(jīng)成為一個(gè)重要的研究領(lǐng)域。常見(jiàn)的傳感器包括加速度計(jì)、磁性傳感器和陀螺儀[4],它們被嵌入移動(dòng)設(shè)備中收集佩戴者的活動(dòng)數(shù)據(jù)。經(jīng)典的機(jī)器學(xué)習(xí)識(shí)別技術(shù),如樸素貝葉斯、改進(jìn)隨機(jī)森林和支持向量機(jī)(Support Vector Machine, SVM)等,通常都會(huì)從傳感器數(shù)據(jù)中人工提取特征。近年來(lái),深度學(xué)習(xí)技術(shù)由于能夠從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征而備受關(guān)注。深度學(xué)習(xí)技術(shù)在HAR中的有效性已經(jīng)在一些公開數(shù)據(jù)集中得到了驗(yàn)證。
隨著傳感器數(shù)量的不斷增加,有關(guān)HAR的傳感器公開數(shù)據(jù)集也在不斷增加。OPPORTUNITY數(shù)據(jù)集被廣泛使用,其中包含了一組在布滿傳感器的環(huán)境中收集到的人類活動(dòng)數(shù)據(jù)。該數(shù)據(jù)集已被用于公開的活動(dòng)識(shí)別挑戰(zhàn)賽中,參賽者需要在運(yùn)動(dòng)模式識(shí)別和手勢(shì)識(shí)別兩種任務(wù)中比拼識(shí)別性能。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是目前流行的深度學(xué)習(xí)技術(shù),具有充當(dāng)特征提取器的能力。該模型可以自動(dòng)學(xué)習(xí)多層次的特征結(jié)構(gòu),這項(xiàng)技術(shù)先前已在Ordó?ez等[5]和Hammerla等[6]工作中被應(yīng)用于HAR和OPPORTUNITY數(shù)據(jù)集。盡管這些模型在HAR中表現(xiàn)良好,但設(shè)計(jì)出這些模型都是依賴于設(shè)計(jì)者的不斷嘗試和其豐富的先驗(yàn)知識(shí)。神經(jīng)網(wǎng)絡(luò)的性能極易受到網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的影響,在目前的HAR領(lǐng)域中如果想要獲得一個(gè)表現(xiàn)良好的架構(gòu),設(shè)計(jì)者就需要調(diào)整大量模型超參數(shù),手動(dòng)嘗試不同的拓?fù)渲钡秸业揭粋€(gè)合適的網(wǎng)絡(luò)結(jié)構(gòu)[7-9]。這種依靠人工不斷試錯(cuò)的過(guò)程是極度耗時(shí)的,同時(shí)也使得深度學(xué)習(xí)技術(shù)的應(yīng)用有較高的門檻,因?yàn)橹挥薪?jīng)驗(yàn)豐富的專家才能在有限的時(shí)間內(nèi)設(shè)計(jì)出良好的架構(gòu)?;谶@些HAR領(lǐng)域中普遍存在的問(wèn)題,人們希望有一種更高效的方法來(lái)自動(dòng)設(shè)計(jì)CNN的結(jié)構(gòu)。
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Neural Architecture Search, NAS)是自動(dòng)機(jī)器學(xué)習(xí)的一部分,它采用一些搜索策略優(yōu)化神經(jīng)網(wǎng)絡(luò)超參數(shù)。搜索策略的最新進(jìn)展大致可分為三類,分別是進(jìn)化算法(Evolutionary Algorithm, EA)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)和基于代理的優(yōu)化(Surrogate-based Optimization, SO)。當(dāng)使用進(jìn)化算法(EA)[10-13]時(shí),每個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被編碼為字符串,在搜索過(guò)程中執(zhí)行字符串的隨機(jī)突變和重組,每個(gè)字符串都將在驗(yàn)證集上進(jìn)行訓(xùn)練和評(píng)估,表現(xiàn)最好的模型將會(huì)產(chǎn)生新的后代繼續(xù)重復(fù)這一過(guò)程;當(dāng)使用強(qiáng)化學(xué)習(xí)(RL)[14-17]時(shí),控制器產(chǎn)生一系列動(dòng)作,該動(dòng)作指定模型的結(jié)構(gòu),然后對(duì)該模型進(jìn)行訓(xùn)練,并返回其驗(yàn)證集上的準(zhǔn)確度作為獎(jiǎng)勵(lì),用于更新循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)控制器。雖然EA和RL都能夠設(shè)計(jì)出優(yōu)于人工設(shè)計(jì)的體系結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),但它們需要大量的計(jì)算資源,不太適合于目前的HAR任務(wù)。
與進(jìn)化算法和強(qiáng)化學(xué)習(xí)直接搜索完全指定的結(jié)構(gòu)空間不同,基于代理的優(yōu)化(SO)方法可以按照復(fù)雜度從低到高的順序搜索結(jié)構(gòu)空間。最近,漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Progressive Neural Architecture Search, PNAS)算法成功在多個(gè)圖像分類數(shù)據(jù)集上取得了最優(yōu)表現(xiàn)[18]。該算法能夠?qū)λ阉骺臻g進(jìn)行漸進(jìn)式掃描,在每一步中選擇最優(yōu)的個(gè)架構(gòu),并在數(shù)據(jù)集上對(duì)所選架構(gòu)進(jìn)行訓(xùn)練和評(píng)估。評(píng)估結(jié)果將被用來(lái)訓(xùn)練一個(gè)代理模型,它可以在不訓(xùn)練神經(jīng)網(wǎng)絡(luò)架構(gòu)的情況下預(yù)測(cè)架構(gòu)的性能。代理模型通過(guò)減少實(shí)際訓(xùn)練的神經(jīng)網(wǎng)絡(luò)數(shù)量,使得算法能夠更高效地探索搜索空間。雖然該算法的效率已經(jīng)比之前的方法要高得多,但是其計(jì)算代價(jià)仍然很高,需要在100個(gè)GPU上訓(xùn)練兩天才能得到最佳效果。
為了能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)架構(gòu)搜索成功應(yīng)用于HAR中,本文重新定義了PNAS方法中的搜索空間和CNN結(jié)構(gòu),提出了一種改進(jìn)的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法。得益于新的搜索空間和CNN結(jié)構(gòu),改進(jìn)后的PNAS將不再依賴于上百個(gè)GPU耗時(shí)數(shù)天的并行計(jì)算,僅需單塊GPU即可完成神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的任務(wù)。通過(guò)在OPPORTUNITY數(shù)據(jù)集上與神經(jīng)網(wǎng)絡(luò)進(jìn)化算法以及手工設(shè)計(jì)模型的對(duì)比實(shí)驗(yàn),證明了該方法設(shè)計(jì)出的模型能夠達(dá)到目前最高分類精度。
在過(guò)去的數(shù)十年中,神經(jīng)網(wǎng)絡(luò)已經(jīng)解決了很多具有挑戰(zhàn)性的問(wèn)題,然而,它們的性能很大程度上取決于其拓?fù)浣Y(jié)構(gòu)。目前使用的大多數(shù)神經(jīng)網(wǎng)絡(luò)架構(gòu)都是由設(shè)計(jì)者通過(guò)反復(fù)實(shí)驗(yàn)手工設(shè)計(jì)的,這需要設(shè)計(jì)者投入大量的時(shí)間和精力,因此,研究者對(duì)自動(dòng)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的算法越來(lái)越感興趣。
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索可以采用多種不同的搜索策略,包括隨機(jī)搜索、貝葉斯優(yōu)化、進(jìn)化算法、強(qiáng)化學(xué)習(xí)和基于代理的優(yōu)化。隨機(jī)搜索無(wú)法利用先驗(yàn)知識(shí)來(lái)指導(dǎo)對(duì)超參數(shù)的選擇,當(dāng)模型很復(fù)雜時(shí)會(huì)導(dǎo)致訓(xùn)練成本很高,盡管隨機(jī)搜索最終能得到最優(yōu)解,但是其搜索時(shí)間過(guò)長(zhǎng),僅具有理論可行性,不具備實(shí)際實(shí)施的條件。貝葉斯優(yōu)化(Bayesian Optimization, BO)不同于隨機(jī)搜索,該方法會(huì)先建立目標(biāo)函數(shù)的概率模型,之后再基于概率模型來(lái)選擇最有潛力的超參數(shù),最后利用目標(biāo)函數(shù)對(duì)所選的超參數(shù)進(jìn)行性能評(píng)估,同時(shí)依據(jù)之前的信息來(lái)不斷更新概率模型;然而,貝葉斯優(yōu)化不能處理可變大小和可變連接模型。
2002年,Stanley等[10]提出了一種可同時(shí)優(yōu)化模型結(jié)構(gòu)及其權(quán)重的進(jìn)化系統(tǒng)。然而,將具有數(shù)百萬(wàn)權(quán)值的現(xiàn)代神經(jīng)網(wǎng)絡(luò)用于監(jiān)督學(xué)習(xí)任務(wù)上時(shí),基于隨機(jī)梯度下降的權(quán)重優(yōu)化方法的表現(xiàn)會(huì)優(yōu)于進(jìn)化算法。因此,近年來(lái)的工作[11-13]僅使用進(jìn)化算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)本身,并使用基于梯度的方法來(lái)優(yōu)化權(quán)重。一種基于語(yǔ)法進(jìn)化的神經(jīng)網(wǎng)絡(luò)進(jìn)化算法已經(jīng)被應(yīng)用于可穿戴傳感器數(shù)據(jù)的人體運(yùn)動(dòng)識(shí)別[19]。該算法被用于設(shè)計(jì)能夠最大化OPPORTUNITY數(shù)據(jù)集上F1分?jǐn)?shù)的最優(yōu)架構(gòu),證明了進(jìn)化算法能夠設(shè)計(jì)出在OPPORTUNITY數(shù)據(jù)集上表現(xiàn)優(yōu)異的分類模型。
許多研究者將神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索定義為強(qiáng)化學(xué)習(xí)問(wèn)題,將網(wǎng)絡(luò)結(jié)構(gòu)的生成過(guò)程看作是智能體選擇動(dòng)作的過(guò)程,其動(dòng)作空間與搜索空間相同,將網(wǎng)絡(luò)結(jié)構(gòu)在測(cè)試集上的性能評(píng)估結(jié)果作為獎(jiǎng)勵(lì)返還給智能體更新參數(shù)。不同的強(qiáng)化學(xué)習(xí)方法使用不同的策略來(lái)訓(xùn)練智能體,包括策略梯度[14]、Q學(xué)習(xí)[15]和近端策略優(yōu)化方法[16]。Zoph等[17]提出了一種基于cell的搜索空間,最終的網(wǎng)絡(luò)結(jié)構(gòu)由cell堆疊組成。由于cell的層數(shù)通常比整體結(jié)構(gòu)的層數(shù)少很多,因此其搜索空間大大減小。
最近,基于代理的優(yōu)化方法因其高效的評(píng)估策略而受到人們的關(guān)注,核心是基于序列模型的優(yōu)化(Sequential Model-Based Optimization, SMBO),該方法需要學(xué)習(xí)一個(gè)能預(yù)測(cè)抽樣模型的驗(yàn)證準(zhǔn)確度的代理函數(shù)。每一步都只選擇預(yù)測(cè)性能最優(yōu)秀的個(gè)候選架構(gòu)用于進(jìn)一步的順序搜索。Negrinho等[20]首次將SMBO應(yīng)用到神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索中,但是由于其扁平的CNN結(jié)構(gòu),最后搜索得到的網(wǎng)絡(luò)架構(gòu)表現(xiàn)并不是很好。最近,Liu等[18]率先將SO方法和cell搜索空間結(jié)合并成功在多個(gè)圖像分類數(shù)據(jù)集上搜索到了性能優(yōu)異的網(wǎng)絡(luò)架構(gòu)。
本文方法建立在Zoph等[17]提出的分層方法之上,首先在搜索空間中學(xué)習(xí)cell的結(jié)構(gòu),然后將得到的cell進(jìn)行堆疊以生成最終的網(wǎng)絡(luò)。
所有的候選操作都是由2個(gè)卷積層堆疊而成,本文最終構(gòu)建的CNN模型的層數(shù)相較于圖像識(shí)別模型的層數(shù)更少,相較于使用單個(gè)卷積層,堆疊的卷積層擁有更好的性能。
要評(píng)估1個(gè)cell的結(jié)構(gòu),首先得將其轉(zhuǎn)換為最終的CNN,為此將3個(gè)cell進(jìn)行了堆疊形成最終的CNN,如圖1所示。3個(gè)cell的步長(zhǎng)均為2,卷積核數(shù)量分別為16、32和64。網(wǎng)絡(luò)的最后兩層為全局平均池化層和softmax分類層,之后將在傳感器數(shù)據(jù)集上對(duì)堆疊好的模型進(jìn)行訓(xùn)練。
圖1 堆疊成的CNN結(jié)構(gòu)
本文CNN的構(gòu)造過(guò)程只使用了步長(zhǎng)為2的cell而沒(méi)有使用步長(zhǎng)為1的cell,這是因?yàn)閭鞲衅鲾?shù)據(jù)的特征相對(duì)于圖像特征更容易提取,無(wú)需使用更深層的網(wǎng)絡(luò)即可完成特征提?。黄浯卧谟诒疚目蛇x的操作和輸入更少,基于cell的搜索空間略小。
許多搜索算法直接探索基于cell的搜索空間,如NAS網(wǎng)絡(luò)[17]是由50步的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)控制器直接生成的完整cell結(jié)構(gòu)堆疊成的。然而在指數(shù)大的搜索空間中找對(duì)探索的方向是非常困難的,特別是在一開始控制器并不知道好的模型是什么樣時(shí)。
采用學(xué)習(xí)代理函數(shù)來(lái)預(yù)測(cè)候選結(jié)構(gòu)已經(jīng)用于許多工作[21-23]中。由于循環(huán)神經(jīng)網(wǎng)絡(luò)非常適合處理漸進(jìn)式搜索算法所產(chǎn)生的可變長(zhǎng)度的序列結(jié)構(gòu),本文采用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)作為代理函數(shù)來(lái)處理長(zhǎng)度為2的輸入序列,每一步都將2個(gè)操作的one-hot編碼經(jīng)過(guò)一個(gè)嵌入層的輸出作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入。LSTM最后一步的隱藏狀態(tài)將傳入一層全連接層,全連接層的輸出經(jīng)過(guò)sigmoid激活函數(shù)轉(zhuǎn)換為對(duì)輸入的序列結(jié)構(gòu)在驗(yàn)證集上識(shí)別準(zhǔn)確度的回歸預(yù)測(cè)。輸入的序列結(jié)構(gòu)都會(huì)被存儲(chǔ)起來(lái),每次訓(xùn)練新的結(jié)構(gòu)時(shí)都先與存儲(chǔ)的結(jié)構(gòu)進(jìn)行對(duì)比,以避免訓(xùn)練重復(fù)的網(wǎng)絡(luò)結(jié)構(gòu)。代理函數(shù)訓(xùn)練時(shí)使用的優(yōu)化器為Adam,損失函數(shù)由網(wǎng)絡(luò)結(jié)構(gòu)實(shí)際準(zhǔn)確度和預(yù)測(cè)準(zhǔn)確度之間的均方誤差加上L2正則項(xiàng)組成。
圖2 當(dāng)最大塊數(shù)為B=3時(shí)PNAS過(guò)程說(shuō)明
本文全部實(shí)驗(yàn)都是在OPPORTUNITY數(shù)據(jù)集上進(jìn)行的。OPPORTUNITY數(shù)據(jù)集[24]包含一組從布滿傳感器的環(huán)境中采集的人類日常活動(dòng)(Activities of Daily Living, ADL)數(shù)據(jù)和按規(guī)定流程執(zhí)行的活動(dòng)(drill)數(shù)據(jù),傳感器的采樣頻率為30 Hz。此數(shù)據(jù)集的一個(gè)子集還被用于OPPORTUNITY運(yùn)動(dòng)識(shí)別挑戰(zhàn)賽,該子集由5名受試者的運(yùn)動(dòng)記錄組成,傳感器設(shè)置方面只考慮了放置在受試者身上的傳感器。將每個(gè)傳感器軸都視為一個(gè)維度,數(shù)據(jù)尺寸一共有113個(gè)維度。
本文實(shí)驗(yàn)部分集中解決挑戰(zhàn)賽中定義的對(duì)非周期性手勢(shì)進(jìn)行識(shí)別的任務(wù)。本文對(duì)傳感器數(shù)據(jù)進(jìn)行了預(yù)處理,先用線性插值填充缺失值,再對(duì)每個(gè)通道進(jìn)行歸一化處理,最后利用固定寬度為2.13 s(窗口寬度為64)滑動(dòng)窗口以50%重疊的滑動(dòng)步長(zhǎng)對(duì)數(shù)據(jù)進(jìn)行了分割。表1統(tǒng)計(jì)了數(shù)據(jù)集中不同動(dòng)作類型的具體數(shù)目。
本文將使用與挑戰(zhàn)賽相同的數(shù)據(jù)集設(shè)置,將第一個(gè)受試者的所有ADL和drill以及受試者2和3的ADL1、ADL2和drill用作模型訓(xùn)練。使用由受試者2和3的ADL4和ADL5組成的測(cè)試集評(píng)估模型分類性能,受試者2和3的ADL3數(shù)據(jù)集被留下來(lái)作為驗(yàn)證集搜索最優(yōu)架構(gòu)。在全部21 144個(gè)樣本中,訓(xùn)練集和驗(yàn)證集共包含17 435個(gè)樣本,測(cè)試集包含3 709個(gè)樣本。每個(gè)候選CNN都會(huì)在訓(xùn)練集上訓(xùn)練5個(gè)epochs并在驗(yàn)證集上進(jìn)行分類驗(yàn)證,驗(yàn)證集上的分類準(zhǔn)確率將被保存下來(lái)用于訓(xùn)練代理函數(shù)。
表1 數(shù)據(jù)統(tǒng)計(jì)信息
本文采用基于LSTM的代理函數(shù)來(lái)預(yù)測(cè)候選網(wǎng)絡(luò)的表現(xiàn)。整個(gè)網(wǎng)絡(luò)由嵌入層、LSTM循環(huán)層和全連接層組成,其中嵌入層的作用是將不同的序列結(jié)構(gòu)轉(zhuǎn)化成向量作為L(zhǎng)STM的輸入。嵌入層輸出維數(shù)和LSTM循環(huán)層神經(jīng)元個(gè)數(shù)都為100,嵌入層使用均勻分布初始化將參數(shù)初始化到區(qū)間[-1,1],LSTM循環(huán)層使用全零初始化將參數(shù)初始化為0。模型訓(xùn)練時(shí)采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。
按照cell結(jié)構(gòu)復(fù)雜度的順序?qū)蜻xCNN模型進(jìn)行訓(xùn)練和評(píng)估。當(dāng)cell只有一個(gè)block時(shí),cell只有28種不同的結(jié)構(gòu),所以第一階段只評(píng)估這28個(gè)網(wǎng)絡(luò),在其余階段將評(píng)估128個(gè)網(wǎng)絡(luò)。限定cell最多由=5塊block組成,每個(gè)子網(wǎng)絡(luò)都由3個(gè)cell串聯(lián)而成,訓(xùn)練子網(wǎng)絡(luò)時(shí)的初始學(xué)習(xí)率為0.001,為使模型在訓(xùn)練時(shí)更加穩(wěn)定,采用余弦衰減來(lái)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。本文的深度神經(jīng)網(wǎng)絡(luò)算法都是基于Python 語(yǔ)言的 TensorFlow2.0 神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)的。所有的實(shí)驗(yàn)都是在 Ubuntu linux 服務(wù)器上進(jìn)行的,服務(wù)器上的 CPU 為 Intel Core i7-6850K,GPU 為 NVIDIA GTX 2080ti。
表2展示了整個(gè)搜索過(guò)程中表現(xiàn)最好的5個(gè)模型的識(shí)別準(zhǔn)確度和它們的拓?fù)浣Y(jié)構(gòu),后續(xù)將它們整體稱為top5模型。表現(xiàn)最優(yōu)的子網(wǎng)絡(luò)的識(shí)別準(zhǔn)確度為0.943 8,這是在訓(xùn)練集上訓(xùn)練5個(gè)epochs后在驗(yàn)證集上取得的識(shí)別準(zhǔn)確度。此外,其余的子網(wǎng)絡(luò)也取得了與最優(yōu)子網(wǎng)絡(luò)相當(dāng)?shù)谋憩F(xiàn),識(shí)別準(zhǔn)確度都在0.94以上。需要注意的是表中展示的僅為驗(yàn)證集上的準(zhǔn)確度,并不代表模型的最終表現(xiàn)。
表2 排名前五的模型的拓?fù)浣Y(jié)構(gòu)和準(zhǔn)確度
從表2中可以統(tǒng)計(jì)出不同操作組合被選擇的次數(shù),其中被選取次數(shù)最多的組合為(5×5-5×5, 3×3-3×3),總共被選取了10次;(3×5-5×3,5×5-5×5)位列第2,總共被選取了5次;(5×5-5×5,5×5-5×5)和(5×5-5×5,2×6-6×2)并列第3,都被選取了2次。Top5模型中只有一個(gè)模型是由包含4個(gè)block的cell構(gòu)成的,其余4個(gè)模型的cell都包含5個(gè)block,這證明了多個(gè)block并聯(lián)的序列結(jié)構(gòu)能夠有效提高模型識(shí)別準(zhǔn)確度。識(shí)別準(zhǔn)確度排在第1位的模型只包含4個(gè)block,而其中有3個(gè)block都是被選取次數(shù)最多的組合方式,這也是為什么該模型在少1個(gè)block的情況下還能排在第一位。同時(shí)沒(méi)有模型選擇1×5-5×1的操作,說(shuō)明該操作在提升識(shí)別性能上效果并不顯著。
值得一提的是在評(píng)估只包含1個(gè)block的模型時(shí),性能表現(xiàn)排在前5位的組合方式與top5模型中選取次數(shù)最多的組合方式是高度重合的,這意味著代理函數(shù)能夠根據(jù)現(xiàn)有子網(wǎng)絡(luò)的表現(xiàn)有效篩選出更有潛力的候選網(wǎng)絡(luò)。此外,還可以看到所有模型都至少選擇了四種選取次數(shù)最多的操作組合中的兩種,這種不同個(gè)體之間在結(jié)構(gòu)上的一致性也證明了這些組合方式的優(yōu)越性。
在漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索完成對(duì)所有子網(wǎng)絡(luò)的評(píng)估之后,本文使用整個(gè)訓(xùn)練集對(duì)表現(xiàn)最好的20個(gè)模型進(jìn)行60個(gè)epoch的訓(xùn)練,并在測(cè)試集上進(jìn)行評(píng)估,當(dāng)模型在20個(gè)epoch內(nèi)測(cè)試集準(zhǔn)確度沒(méi)有提高就提前結(jié)束訓(xùn)練,最后30個(gè)epoch的F1分?jǐn)?shù)將用來(lái)計(jì)算統(tǒng)計(jì)值,最終統(tǒng)計(jì)結(jié)果見(jiàn)圖3和表3。
圖3 表現(xiàn)最好的20個(gè)模型的F1分?jǐn)?shù)分布
表3 表現(xiàn)最好的20個(gè)模型的F1分?jǐn)?shù)的統(tǒng)計(jì)信息
表3中模型F1分?jǐn)?shù)最大值達(dá)到了0.930 8,高于現(xiàn)有記錄中手工設(shè)計(jì)模型的最高得分0.927[6],同時(shí)顯著高于由進(jìn)化算法搜索得到的單個(gè)模型的最高得分0.918 5[19],模型得分對(duì)比見(jiàn)表4。其中:DeepConvLSTM是由卷積層和LSTM循環(huán)層組成的深度學(xué)習(xí)框架,b-LSTM-S是基于雙向LSTM的神經(jīng)網(wǎng)絡(luò)架構(gòu),EA-single-best是進(jìn)化算法搜索到的最優(yōu)架構(gòu),EA-Ensemble-best是進(jìn)化算法搜索到的表現(xiàn)最好的前20個(gè)模型組成的集成模型,PNASNet-best是漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法搜索到的最優(yōu)架構(gòu)。
從表3中可以看到前20個(gè)模型的表現(xiàn)基本都與目前最優(yōu)秀的手工設(shè)計(jì)模型相當(dāng),這不僅依賴于模型本身的結(jié)構(gòu)更依賴于搜索算法從成千上萬(wàn)個(gè)模型中篩選出這些最具潛力的模型。表3中表現(xiàn)最好的兩個(gè)模型分別是13號(hào)和18號(hào)模型,兩個(gè)模型的F1分?jǐn)?shù)最大值均達(dá)到了0.93,其中13號(hào)模型在均值、中位數(shù)以及最大值得分上均略高于18號(hào)模型,這說(shuō)明13號(hào)模型的表現(xiàn)更加優(yōu)異,所以將13號(hào)模型作為搜索到的最優(yōu)架構(gòu),模型的cell結(jié)構(gòu)見(jiàn)圖4。
表4 不同模型的最優(yōu)結(jié)果比較
圖5是最優(yōu)架構(gòu)在OPPORTUNITY數(shù)據(jù)集上的混淆矩陣?;煜仃嚭心P皖A(yù)測(cè)類別和實(shí)際類別的信息,可以確定分類錯(cuò)誤的類別和數(shù)量,方便對(duì)分類錯(cuò)誤的原因進(jìn)行分析。由于類別數(shù)量分布不均衡,本文對(duì)每一個(gè)類別都進(jìn)行了歸一化處理以便可視化。不足1%的情況都已經(jīng)被遮蓋,因此一行中的數(shù)字之和可能不等于1。大多數(shù)動(dòng)作都或多或少地被歸類為“無(wú)動(dòng)作”,這種情況在關(guān)閉抽屜1、擦桌子和撥開關(guān)這幾類中最為明顯。打開動(dòng)作和關(guān)閉動(dòng)作也非常容易混淆,然而這種混淆主要發(fā)生在開關(guān)門1時(shí),另一扇門并沒(méi)有出現(xiàn)這種情況。系統(tǒng)有時(shí)無(wú)法區(qū)分抽屜1和抽屜2,唯一一個(gè)召回率低于50%的動(dòng)作就是打開抽屜2(31%),有19%的該動(dòng)作被錯(cuò)誤地分類為打開抽屜1。這可能是因?yàn)椴煌某閷隙际窍噜彽摹?/p>
模型對(duì)撥開關(guān)和擦桌子兩種行為識(shí)別也不夠準(zhǔn)確。對(duì)撥開關(guān)識(shí)別不準(zhǔn)確的原因可能是撥開關(guān)的動(dòng)作幅度非常小,因此模型可能無(wú)法識(shí)別到受試者已經(jīng)執(zhí)行了一個(gè)動(dòng)作;而對(duì)擦桌子識(shí)別不準(zhǔn)確可能是因?yàn)闆](méi)有具體指定擦桌子的方式和范圍,導(dǎo)致不同受試者執(zhí)行該動(dòng)作時(shí)行為存在差異。另一方面,模型在識(shí)別開關(guān)門和開關(guān)冰箱時(shí)擁有更高的準(zhǔn)確性,這可能是因?yàn)椴煌茉囌咴趫?zhí)行這些動(dòng)作時(shí)行為非常相似。
圖4 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法找到的最優(yōu)cell結(jié)構(gòu)
圖5 OPPORTUNITY數(shù)據(jù)集上的混淆矩陣
在大多數(shù)情況下,打開某個(gè)對(duì)象總是容易和關(guān)閉某個(gè)對(duì)象混淆,反之亦然。例如59%的開門1被正確分類,但27%的該動(dòng)作被錯(cuò)誤分類為關(guān)門1;同樣地,77%的關(guān)門1被正確分類,23%的關(guān)門1被錯(cuò)誤分類為開門1。這種錯(cuò)誤在所有對(duì)象上都有不同程度的體現(xiàn)。然而,在對(duì)象為抽屜時(shí)行為間的混淆更為嚴(yán)重,錯(cuò)誤的分類不僅僅發(fā)生在打開和關(guān)閉之間,同樣也出現(xiàn)在不同抽屜之間。例如,19%的關(guān)閉抽屜3被認(rèn)為是關(guān)閉抽屜2,但是這些錯(cuò)誤是可以被接受的,因?yàn)檫@三個(gè)抽屜是在同一個(gè)家具內(nèi)相互挨著的[24]。盡管抽屜和洗碗機(jī)并沒(méi)有彼此挨著,還是有17%的關(guān)閉抽屜2被錯(cuò)誤地分類為關(guān)閉洗碗機(jī)。
本文的主要貢獻(xiàn)是通過(guò)實(shí)驗(yàn)證明了在基于可穿戴傳感器的人體運(yùn)動(dòng)識(shí)別任務(wù)中應(yīng)用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索能夠取得良好的結(jié)果。與許多之前的方法相比,本文最終使用的神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是自動(dòng)設(shè)計(jì)的,避免了手工設(shè)計(jì)拓?fù)浣Y(jié)構(gòu)時(shí)需要大量時(shí)間和專家先驗(yàn)知識(shí)的問(wèn)題,這是大多數(shù)深度學(xué)習(xí)應(yīng)用中的顯著缺陷。此外,OPPORTUNIY數(shù)據(jù)集上獲得的最優(yōu)架構(gòu)在應(yīng)用到其他具有不同傳感器設(shè)置或不同人類活動(dòng)的識(shí)別任務(wù)上時(shí)可能無(wú)法正常工作,在這種情況下能夠自動(dòng)搜索最優(yōu)拓?fù)涞募軜?gòu)搜索算法可以更加便捷地將深度學(xué)習(xí)應(yīng)用于各種領(lǐng)域和問(wèn)題。
在未來(lái)的工作中,計(jì)劃將該方法應(yīng)用于涉及更多傳感器的數(shù)據(jù)集或使用更常見(jiàn)的傳感器設(shè)置的人類運(yùn)動(dòng)識(shí)別任務(wù)中,如利用智能手機(jī)或其他可穿戴設(shè)備中的傳感器數(shù)據(jù);在傳感器通道數(shù)、傳感器設(shè)置等任務(wù)參數(shù)存在差異但整體相似的情況下,研究不同任務(wù)中學(xué)習(xí)到的最優(yōu)拓?fù)涫欠窨梢韵嗷ミw移。
[1] 鄭浦,白宏陽(yáng),李政茂,等. 抖動(dòng)干擾下運(yùn)動(dòng)目標(biāo)精準(zhǔn)檢測(cè)與跟蹤算法設(shè)計(jì)[J]. 儀器儀表學(xué)報(bào), 2019, 40(11):90-98.(ZHENG P, BAI H Y, LI Z M, et al. Design of accurate detection and tracking algorithm for moving target under jitter interference[J]. Chinese Journal of Scientific Instrument, 2019, 40(11): 90-98.)
[2] 吳天舒,陳蜀宇,吳朋. 全生命周期健康監(jiān)測(cè)診斷系統(tǒng)研究[J]. 儀器儀表學(xué)報(bào), 2018, 39(8):204-211.(WU T S, CHEN S Y, WU P. Research on the life cycle health monitoring and diagnosis system[J]. Chinese Journal of Scientific Instrument, 2018, 39(8): 204-211.)
[3] ALAA M, ZAIDAN A A, ZAIDAN B B, et al. A review of smart home applications based on internet of things[J]. Journal of Network and Computer Applications, 2017, 97: 48-65.
[4] CORNACCHIA M, OZCAN K, ZHENG Y, et al. A survey on activity detection and classification using wearable sensors[J]. IEEE Sensors Journal, 2017, 17(2): 386-403.
[5] ORDó?EZ F J, ROGGEN D. Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition[J]. Sensors, 2016, 16(1): No.115.
[6] HAMMERLA N Y, HALLORAN S, PL?TZ T. Deep, convolutional, and recurrent models for human activity recognition using wearables[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California: IJCAI.org, 2016: 1533-1540.
[7] WANG K, HE J, ZHANG L. Attention-based convolutional neural network for weakly labeled human activities’ recognition with wearable sensors[J]. IEEE Sensors Journal, 2019, 19(17): 7598-7604.
[8] TENG Q, WANG K, ZHANG L, et al. The layer-wise training convolutional neural networks using local loss for sensor-based human activity recognition[J]. IEEE Sensors Journal, 2020, 20(13): 7265-7274.
[9] 鄭增威,杜俊杰,霍梅梅,等. 基于可穿戴傳感器的人體活動(dòng)識(shí)別研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(5):1223-1229, 1238.(ZHENG Z W, DU J J, HUO M M, et al, Review of human activity recognition based on wearable sensors[J]. Journal of Computer Applications, 2018, 38(5): 1223-1229, 1238.)
[10] STANLEY K O, MIIKKULAINEN R. Evolving neural networks through augmenting topologies[J]. Evolutionary Computation, 2002, 10(2): 99-127.
[11] REAL E, MOORE S, SELLE A, et al. Large-scale evolution of image classifiers[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 2902-2911.
[12] SUGANUMA M, SHIRAKAWA S, NAGAO T. A genetic programming approach to designing convolutional neural network architectures[C]// Proceedings of the 2017 Genetic and Evolutionary Computation Conference. New York: ACM, 2017: 497-504.
[13] ELSKEN T, METZEN J H, HUTTER F. Efficient multi-objective neural architecture search via Lamarckian evolution[EB/OL]. (2019-02-26) [2021-05-17].https://arxiv.org/pdf/1804.09081.pdf.
[14] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3/4): 229-256.
[15] BAKER B, GUPTA O, NAIK N, et al. Designing neural network architectures using reinforcement learning[EB/OL]. (2017-03-22) [2021-05-17].https://arxiv.org/pdf/1611.02167.pdf.
[16] ZOPH B, LE QUOC V. Neural architecture search with reinforcement learning[EB/OL]. (2017-02-15) [2021-05-17].https://arxiv.org/pdf/1611.01578.pdf.
[17] ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8697-8710.
[18] LIU C X, ZOPH B, NEUMANN M, et al. Progressive neural architecture search[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11205. Cham: Springer, 2018: 19-35.
[19] BALDOMINOS A, SAEZ Y, ISASI P. Evolutionary design of convolutional neural networks for human activity recognition in sensor-rich environments[J]. Sensors, 2018, 18(4): No.1288.
[20] NEGRINHO R, GORDON G. DeepArchitect: automatically designing and training deep architectures[EB/OL]. (2017-04-28) [2021-05-17].https://arxiv.org/pdf/1704.08792.pdf.
[21] BROCK A, LIM T, RITCHIE J M, et al. SMASH: one-shot model architecture search through HyperNetworks[EB/OL]. (2017-08-17) [2021-05-17].https://arxiv.org/pdf/1708.05344.pdf.
[22] DOMHAN T, SPRINGENBERG J T, HUTTER F. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3460-3468.
[23] BAKER B, GUPTA O, RASKAR R, et al. Accelerating neural architecture search using performance prediction[EB/OL]. (2017-11-08) [2021-05-17].https://arxiv.org/pdf/1705.10823.pdf.
[24] CHAVARRIAGA R, SAGHA H, CALATRONI A, et al. The opportunity challenge: a benchmark database for on-body sensor-based activity recognition[J]. Pattern Recognition Letters, 2013, 34(15): 2033-2042.
[25] YANG J B, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3995-4001.
WANG Zhenyu, born in 1996, M. S. candidate. His research interests include deep learning, pattern recognition, natural language processing.
ZHANG Lei, born in 1979, Ph. D., associate professor. Hisresearch interests include motion recognition, machine learning.
GAO Wenbin, born in 1996, M. S. candidate. His research interests include computer vision, signal processing, object detection.
QUAN Weiming, born in 1996, M. S. candidate. His research interests include artificial intelligence.
Human activity recognition based on progressive neural architecture search
WANG Zhenyu, ZHANG Lei*, GAO Wenbin, QUAN Weiming
(,,210023,)
Concerning the sensor data based activity recognition problem, deep Convolutional Neural Network (CNN) was used to perform activity recognition on public OPPORTUNITY sensor dataset, and an improved Progressive Neural Architecture Search (PNAS) algorithm was proposed. Firstly, in the process of neural network model design, without manual selection of suitable topology, PNAS algorithm was used to design the optimal topology in order to maximize the F1 score. Secondly, a Sequential Model-Based Optimization (SMBO) strategy was used, in which the structure space was searched in the order of low complexity to high complexity, while a surrogate function was learned to guide the search of the structure space. Finally, the top 20 models with the best performance in the search process were fully trained on OPPORTUNIT dataset, and the best performing model was selected as the optimal architecture searched. The F1 score of the optimal architecture searched in this way reaches 93.08% on OPPORTUNITY dataset, which is increased by 1.34% and 1.73% respectively compared with those of the optimal architecture searched by evolutionary algorithm and DeepConvlSTM, which indicates that the proposed method can improve previously manually-designed architectures and is feasible and effective.
Human Activity Recognition (HAR); deep learning; Neural Architecture Search (NAS); Convolutional Neural Network (CNN); Sequential Model-Based Optimization (SMBO)
This work is partially supported by National Natural Science Foundation of China (61971228), Natural Science Foundation of Jiangsu Province (BK20191371).
TP391.4
A
1001-9081(2022)07-2058-07
10.11772/j.issn.1001-9081.2021050798
2021?05?17;
2021?09?13;
2021?09?22。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61971228);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20191371)。
王震宇(1996—),男,江蘇揚(yáng)州人,碩士研究生,主要研究方向:深度學(xué)習(xí)、模式識(shí)別、自然語(yǔ)言處理; 張雷(1979—),男,江蘇南京人,副教授,博士,主要研究方向:運(yùn)動(dòng)識(shí)別、機(jī)器學(xué)習(xí); 高文彬(1996—),男,江蘇鹽城人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、信號(hào)處理、目標(biāo)檢測(cè); 權(quán)威銘(1996—),男,安徽宿州人,碩士研究生,主要研究方向:人工智能。