倪洪科 王斌 王英超 高慧敏
摘? 要: 提出一種基于粒子群優(yōu)化(PSO)的隨機(jī)森林(RF)識(shí)別方法。利用PSO算法搜尋最優(yōu)的RF超參數(shù)n_estimators和max_depth,構(gòu)建了PSO-RF人體活動(dòng)識(shí)別模型?;谌A盛頓州立大學(xué)CASAS項(xiàng)目數(shù)據(jù)集的實(shí)驗(yàn)共識(shí)別30種日?;顒?dòng)。仿真結(jié)果表明,PSO-RF模型的識(shí)別準(zhǔn)確率達(dá)到95%,Accuracy、Precision、Recall和F1-score評(píng)價(jià)指標(biāo)均優(yōu)于其他經(jīng)典的分類模型,具有較好的預(yù)測(cè)精度和泛化能力,可為智能家居系統(tǒng)個(gè)性化服務(wù)提供輔助決策。
關(guān)鍵詞: 隨機(jī)森林; 粒子群優(yōu)化; 人體活動(dòng)識(shí)別; 傳感數(shù)據(jù)
中圖分類號(hào):TP391.4? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ?文章編號(hào):1006-8228(2023)05-131-04
Application of RF model based on PSO in human activity recognition
Ni Hongke1, Wang Bin2, Wang Yingchao3, Gao Huimin2
(1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018,China; 2. School of Information Science and Engineering, Jiaxing University; 3. Suzhou Lanhepenbo Intelligent Technology Co., Ltd)
Abstract: In this paper, an RF recognition method based on PSO is proposed. Using PSO algorithm to search for the optimal RF hyper-parameters n_estimators and max_depth, the PSO-RF human activity recognition model is constructed. An experiment is conducted on the CASAS project dataset of Washington State University, and a total of 30 daily activities are identified. The simulation results show that the recognition accuracy of the PSO-RF model reaches 95%, and the evaluation indicators of Accuracy, Precision, Recall and F1-score are superior to other classic classification models. It has good prediction accuracy and generalization ability, and can provide auxiliary decision-making for personalized service of smart home system.
Key words: random forest (RF); particle swarm optimization (PSO); human activity recognition; sensor data
0 引言
早在二十世紀(jì)九十年代,人體活動(dòng)識(shí)別(Human Activity Recognition, HAR)研究就掀起了一陣熱潮[1]。基于傳感器數(shù)據(jù)是當(dāng)下主流的人體活動(dòng)識(shí)別方式之一,常用的識(shí)別方法包括樸素貝葉斯、k近鄰和支持向量機(jī)等[2-3],但由于分類器數(shù)量單一且活動(dòng)本身具有多樣性和復(fù)雜性,識(shí)別準(zhǔn)確率普遍不高。隨機(jī)森林[4](Random Forest, RF)作為一種多決策樹集成的分類器,引入了隨機(jī)性,具備預(yù)測(cè)精度高、不易陷入過(guò)擬合、訓(xùn)練效率高的優(yōu)點(diǎn)。然而,到目前為止關(guān)于隨機(jī)森林超參數(shù)的研究文獻(xiàn)較少,加上超參數(shù)種類繁多,無(wú)法通過(guò)一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)流程給出最優(yōu)解,通常只能根據(jù)經(jīng)驗(yàn)設(shè)定或通過(guò)網(wǎng)格搜索的方法獲取,而超參數(shù)的選取對(duì)模型分類的準(zhǔn)確性有較為顯著的影響[5]。針對(duì)上述問(wèn)題,本文結(jié)合環(huán)境傳感器數(shù)據(jù)的特征,引入了隨機(jī)森林算法進(jìn)行人體活動(dòng)識(shí)別,并進(jìn)一步利用粒子群優(yōu)化[6](Particle Swarm Optimization, PSO)算法來(lái)解決隨機(jī)森林超參數(shù)選取問(wèn)題。PSO算法由于概念簡(jiǎn)單、易于和其他算法結(jié)合以及收斂速度快的優(yōu)點(diǎn),被廣泛應(yīng)用于參數(shù)優(yōu)化問(wèn)題[7-9]。通過(guò)隨機(jī)初始化粒子群(RF超參數(shù)n_estimators和max_depth),選用合適的評(píng)價(jià)指標(biāo)作為相應(yīng)的適應(yīng)度函數(shù),不斷迭代更新粒子的速度和位置來(lái)達(dá)到最佳的適應(yīng)度,從而搜索到RF最優(yōu)超參數(shù)組合,以提高模型的收斂速度和分類識(shí)別性能。
1 特征提取
智能家居環(huán)境中會(huì)產(chǎn)生大量的傳感器事件,每個(gè)傳感器事件由Date、Time、HighLevelSensorID、LowLevelSensorID、SensorValue和Label這六種元素組成。其中,Date表示傳感器事件發(fā)生的具體日期,格式為“年-月-日”;Time表示傳感器事件發(fā)生的具體時(shí)間,格式為“小時(shí):分鐘:秒.毫秒”;HighLevelSensorID表示結(jié)合傳感器類型的房間名稱,LowLevelSensorID是傳感器具體描述,表示房間中的特定對(duì)象或區(qū)域;SensorValue表示當(dāng)前傳感器生成的消息,Label表示傳感器事件對(duì)應(yīng)的活動(dòng)標(biāo)簽,部分傳感器事件示例如表1所示。
使用模型識(shí)別人體活動(dòng)之前,一個(gè)重要的步驟是從原始數(shù)據(jù)中提取有用的特征或?qū)傩浴1疚睦没瑒?dòng)窗口技術(shù)(窗口大小固定為30)分割時(shí)間序列,基于上下文傳感器事件提取特征,包括時(shí)間信息(例如窗口中事件發(fā)生的時(shí)間和持續(xù)時(shí)長(zhǎng)等)和傳感器信息(事件發(fā)生的區(qū)域、次數(shù)等),所提取的特征如表2所示。
2 PSO-RF識(shí)別模型
RF模型包含多個(gè)超參數(shù),選取的超參數(shù)不同,相應(yīng)的模型預(yù)測(cè)精度和泛化能力也大相徑庭,相關(guān)實(shí)驗(yàn)表明決策樹數(shù)目(n_estimators)和決策樹最大深度(max_depth)對(duì)RF的分類性能影響較為明顯。由于粒子群算法具有高效的搜索能力且通用性比較好,容易與傳統(tǒng)的機(jī)器學(xué)習(xí)方法結(jié)合加以改進(jìn),能更高效地解決實(shí)際問(wèn)題。因此本文將粒子群優(yōu)化算法引入隨機(jī)森林模型,對(duì)模型中的超參數(shù)n_estimators和max_depth進(jìn)行迭代優(yōu)化,來(lái)實(shí)現(xiàn)對(duì)傳統(tǒng)隨機(jī)森林模型的改進(jìn)優(yōu)化?;赑SO-RF活動(dòng)識(shí)別模型的構(gòu)建如圖1所示,具體步驟描述如下。
Step1 將ADL數(shù)據(jù)樣本利用滑動(dòng)窗口技術(shù)分割時(shí)間序列進(jìn)行特征提取,合理劃分出訓(xùn)練集和測(cè)試集。
Step2 初始化粒子群(n_estimators和max_depth)并建立隨機(jī)森林模型,用Step1獲得的訓(xùn)練集樣本進(jìn)行訓(xùn)練。
Step3 確定PSO-RF模型適應(yīng)度函數(shù),計(jì)算每個(gè)粒子的適應(yīng)度。本文選用“Accuracy”評(píng)價(jià)指標(biāo)作為適應(yīng)度函數(shù),計(jì)算方法如下:
[Accuracy=TP+TNTP+TN+FP+FN]? ⑴
其中,TP指被預(yù)測(cè)為正類的正類樣本;FP指被預(yù)測(cè)為正類的負(fù)類樣本;TN指被預(yù)測(cè)為負(fù)類的負(fù)類樣本;FN則指被預(yù)測(cè)為負(fù)類的負(fù)類樣本。
Step4 迭代更新粒子的速度和位置,計(jì)算過(guò)程如公式⑵所示。計(jì)算相應(yīng)的適應(yīng)度,將其適應(yīng)度與個(gè)體極值pbest和全局極值gbest相比較,迭代更新獲取最優(yōu)適應(yīng)度。
[vk+1id=ωvkid+c1r1pkid,pbest-xkid+c2r2pkid,gbest-xkidxk+1id=xkid+vk+1id]? ⑵
其中,ω代表慣性權(quán)重,c1和c2依次代表個(gè)體學(xué)習(xí)因子和群體學(xué)習(xí)因子,r1和r2代表[0,1]區(qū)間的隨機(jī)數(shù),用來(lái)提高搜索的隨機(jī)性。
Step5 重復(fù)Step4,直至滿足設(shè)定的最大迭代次數(shù)k,輸出PSO全局最優(yōu)位置和對(duì)應(yīng)的適應(yīng)度,此時(shí)獲得的超參數(shù)n_estimators和max_depth即待優(yōu)化RF模型的最優(yōu)解。
Step6 將PSO優(yōu)化得到的超參數(shù)n_estimators和max_depth代入RF模型,用于構(gòu)建最優(yōu)參數(shù)識(shí)別模型,輸出人體活動(dòng)識(shí)別結(jié)果并進(jìn)行模型性能評(píng)估。
3 實(shí)驗(yàn)結(jié)果與分析
本文使用CASAS項(xiàng)目ADL數(shù)據(jù)集(http://casas.wsu.edu)來(lái)驗(yàn)證和評(píng)估模型性能。該數(shù)據(jù)集來(lái)源于一位中年女性,在2011年6月15日至7月14日一個(gè)月內(nèi)的日常生活,涵蓋了61577個(gè)傳感器事件。為了衡量模型的性能,選用Precision、Recall、Accuracy和F1-score作為綜合評(píng)價(jià)指標(biāo),同時(shí)將宏平均(Macro avg)和加權(quán)平均(Weighted avg)作為二級(jí)評(píng)價(jià)指標(biāo),宏平均是對(duì)各個(gè)分類評(píng)價(jià)指標(biāo)求算術(shù)平均,而加權(quán)平均是對(duì)各個(gè)分類評(píng)價(jià)指標(biāo)求加權(quán)平均,權(quán)重為該類別在總樣本中的占比。各項(xiàng)指標(biāo)的計(jì)算方法如下:
[Precision=TPTP+FP]? ?⑶
[Recall=TPTP+FN]? ?⑷
[F1-score=2·Precision·RecallPrecision+Recall]? ? ⑸
PSO算法中,設(shè)置粒子群規(guī)模N為100,粒子維度D為2,迭代次數(shù)k為50,學(xué)習(xí)因子c1和c2均為2,慣性權(quán)重ω為0.8,隨機(jī)初始化粒子群。整個(gè)迭代尋優(yōu)過(guò)程共持續(xù)8小時(shí)15分鐘,當(dāng)?shù)Y(jié)束,輸出最優(yōu)參數(shù)n_estimators為85,max_depth為12。進(jìn)行3倍交叉驗(yàn)證評(píng)估,適應(yīng)度函數(shù)隨迭代次數(shù)的變化如圖2所示。采用PSO-RF模型對(duì)本文分析數(shù)據(jù)集進(jìn)行測(cè)試,仿真結(jié)果如表3所示。由表3可以看出,模型準(zhǔn)確率達(dá)到了95%。為了可視化預(yù)測(cè)結(jié)果與實(shí)際情況之間存在的離散度,分類得到的標(biāo)準(zhǔn)混淆矩陣如圖3所示。
由圖3可以看出,最具影響力的權(quán)重分布在混淆矩陣的對(duì)角線上。這表明大多數(shù)識(shí)別結(jié)果都是準(zhǔn)確的,模型能正確地識(shí)別出發(fā)生在同一房間或空間非常相近的活動(dòng),同時(shí)可以可以根據(jù)時(shí)序區(qū)分執(zhí)行過(guò)程相同的活動(dòng)(例如Morning_Meds和Evening_Meds活動(dòng)),能夠有效改善家庭健康用藥(忘記吃藥、重復(fù)吃藥、不按時(shí)吃藥等)問(wèn)題。為進(jìn)一步驗(yàn)證模型的有效性,將PSO-RF模型和與樸素貝葉斯、邏輯回歸、多層感知機(jī)、線性判別分析、支持向量機(jī)進(jìn)行仿真對(duì)比,結(jié)果如表4所示。由表4可以看出,本文提出的PSO-RF模型各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于其他分類算法,相比其余算法的最優(yōu)指標(biāo),Precision提高了15.85%,Recall提高了15.85%,F(xiàn)1-score提高了17.5%,Accuracy提高了15.85%。然而,為了獲取更精確的結(jié)果,模型訓(xùn)練時(shí)間相對(duì)比較長(zhǎng)。
4 結(jié)束語(yǔ)
結(jié)合隨機(jī)森林高效的分類性能和粒子群優(yōu)化算法較強(qiáng)的全局搜索能力,本文提出了一種基于粒子群優(yōu)化的隨機(jī)森林模型用于人體活動(dòng)識(shí)別,通過(guò)粒子群優(yōu)化算法搜索最優(yōu)超參數(shù)n_estimators和max_depth,從而將優(yōu)化改進(jìn)后的隨機(jī)森林作為識(shí)別模型。結(jié)果表明,與傳統(tǒng)的分類算法相比,PSO-RF模型具有較高的預(yù)測(cè)精度和泛化能力,將其應(yīng)用到智能家居場(chǎng)景個(gè)性化服務(wù)推薦是下一步需要研究的。另外,由于模型本身的復(fù)雜性,使其在獲得更高精度的同時(shí)也需要更多的時(shí)間來(lái)訓(xùn)練。因此,在今后的工作中,將會(huì)對(duì)模型的訓(xùn)練進(jìn)行優(yōu)化,以減少訓(xùn)練成本。
參考文獻(xiàn)(References):
[1] Rashidi P,Cook D J.Multi home transfer learning for
resident activity discovery and recognition[J].Kdd Knowledge Discovery from Sensor Data,2010:56-63
[2] 石俊豪,左德承,張展,等.基于傳感器的人體活動(dòng)識(shí)別技術(shù)
綜述[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(9):1-5
[3] SEDKY M, HOWARD C, Alshammari T, et al. Evaluating
machine learning techniques for activity classification in smart home environments[J]. International Journal of Information Systems and Computer Sciences,2018,12(2):48-54
[4] De'ath G, Fabricius K E. Classification and regression trees:
a powerful yet simple technique for ecological data analysis[J]. Ecology,2000,81(11):3178-3192
[5] 呂紅燕,馮倩.隨機(jī)森林算法研究綜述[J].河北省科學(xué)院
學(xué)報(bào),2019,36(3):37-41
[6] Ishigame A, Yasuda K. Swarm Intelligence:Particle Swarm
Optimization[J]. Journal of Japan Society for Fuzzy Theory and Intelligent Informatics,2008,20(6):829-839
[7] 管雪梅,吳馬超,李文峰,黃青龍.基于粒子群優(yōu)化Friele模型
木材染色配色算法研究[J].西北林學(xué)院學(xué)報(bào),2020,35(6):244-248
[8] 楊峻山,紀(jì)震,謝維信,朱澤軒.基于粒子群優(yōu)化的生物組學(xué)數(shù)
據(jù)分類模型選擇[J].深圳大學(xué)學(xué)報(bào)(理工版),2016,33(3):264-271
[9] 劉洋,肖偉.粒子群優(yōu)化的改進(jìn)機(jī)場(chǎng)車輛調(diào)度模型研究[J].
計(jì)算機(jī)工程與應(yīng)用,2015,51(11):252-255,270