黃 勃, 王忠震, 陳 歡, 王中森
(1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620; 2.邵陽學(xué)院 電氣工程學(xué)院,湖南 邵陽 422000)
針對人體日常行為活動(dòng)的分類問題越來越受到國內(nèi)外專家學(xué)者的關(guān)注。文獻(xiàn)[1]提出一種基于加速度信息與腳底壓力的下肢運(yùn)動(dòng)信息采集系統(tǒng),通過采集腳底壓力信息監(jiān)測關(guān)鍵步態(tài)事件,對4種常見行為(走路、跑步、上樓和下樓)進(jìn)行識別。文獻(xiàn)[2]提出一種非參數(shù)聚類的方法,通過加速度計(jì)對人體運(yùn)動(dòng)的特征數(shù)據(jù)進(jìn)行采集。已有文獻(xiàn)的關(guān)于人體姿態(tài)識別方法,其更加注重的是姿態(tài)信息數(shù)據(jù)的獲取,而忽略了獲取數(shù)據(jù)自身類別分布的特性。在現(xiàn)實(shí)生活場景中,由于年齡、所處環(huán)境以及場所的不同,人體所展現(xiàn)的姿態(tài)分布并不是理想狀態(tài)下的均衡分布,呈現(xiàn)出不平衡的類別分布狀態(tài)。例如年青人的姿態(tài)分布,“運(yùn)動(dòng)”姿態(tài)的數(shù)量遠(yuǎn)多于“靜止”的姿態(tài),老年人則是相反的狀態(tài)。
基于此,本文提出一種基于不平衡數(shù)據(jù)分類的人體姿態(tài)分類算法。該算法首先針對數(shù)據(jù)集中存在噪聲樣本影響分類效果的情況,提出K-means噪聲樣本濾除算法,對少數(shù)類樣本集中的噪聲樣本進(jìn)行濾除。其次通過采樣算法SMOTE來生成少數(shù)類樣本,使數(shù)據(jù)達(dá)到平衡。最后使用以J48決策樹為基分類器的Adaboost學(xué)習(xí)框架,利用集成學(xué)習(xí)的思想提高整體樣本的分類精度。采用G-mean、F-value及AUC作為評價(jià)標(biāo)準(zhǔn),通過將本文提出的算法與CUS-Boost、SMOTEBoost以及RUS-Boost算法相對比,在AReMr人體姿態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法的預(yù)測性能優(yōu)于其他三種算法。
在已有的多數(shù)分類算法中,模型的訓(xùn)練往往是基于數(shù)據(jù)集中各類樣本分布,處于一個(gè)較為平衡的狀態(tài)下進(jìn)行訓(xùn)練的,但在現(xiàn)實(shí)世界中,樣本的分布確是不平衡的。在不平衡數(shù)據(jù)集中,通常把樣本數(shù)量較多的類稱為多數(shù)類,樣本數(shù)量較少的類稱為少數(shù)類[3]。而在一些領(lǐng)域少數(shù)類樣本所包含的信息更加重要,例如信用卡欺詐、故障檢測、醫(yī)療診斷以及網(wǎng)絡(luò)入侵等領(lǐng)域。
K-means算法[4]核心思想是中心探索法[5],從數(shù)據(jù)集中選取K個(gè)簇心zt1,zt2,……,ztK,使得每一個(gè)樣本點(diǎn)xi到其最近簇心ztj的距離之和達(dá)到相對最小。通過選取樣本之間的歐氏距離作為樣本相似性的判斷準(zhǔn)則,計(jì)算各類簇中樣本到簇心ztj的距離平方和
(1)
式中j=1,2,…,K;i=1,2,…,|Cj|,|Cj|為第j個(gè)類簇包含的樣本數(shù);xi∈Cj表示第j個(gè)類簇中的第i個(gè)樣本;聚類的過程便是使式(2)中J(C)被最小化的過程
(2)
本文提出的基于K-means不平衡數(shù)據(jù)分類模型共分為兩階段:噪聲樣本濾除階段、數(shù)據(jù)平衡以及模型訓(xùn)練分類階段。分類模型如圖1所示。
圖1 基于K-means不平衡數(shù)據(jù)分類模型
在現(xiàn)實(shí)場景條件下,在進(jìn)行人體姿態(tài)數(shù)據(jù)監(jiān)測過程中,由于人體動(dòng)作幅度、動(dòng)作頻率等其他客觀情形的影響,極易使傳感器產(chǎn)生噪聲樣本數(shù)據(jù),進(jìn)而影響分類性能。尤其在少數(shù)類樣本數(shù)目較小且樣本抗干擾能力較弱的情況下,噪聲數(shù)據(jù)所產(chǎn)生的影響越大。所以,本文在對少數(shù)類樣本采樣之前,提出K-means噪聲樣本濾除算法。
K-means噪聲樣本濾除算法根據(jù)樣本集中樣本的分布特性:同類樣本之間分布較為緊密,異類樣本之間分布相對稀疏。對樣本集中所包含的噪聲樣本予以識別、濾除。本文關(guān)于噪聲樣本的定義如下:若某一樣本距離其簇心的距離大于該類簇最遠(yuǎn)樣本到簇心距離的98 %,則該樣本定義為噪聲樣本。
算法1K-means噪聲樣本濾除算法
Input:少數(shù)類樣本集Sm
Output:去噪后少數(shù)類樣本樣本集S'm
1)定義K-means算法,類簇?cái)?shù)為K
2)使用K-means算法將少數(shù)類樣本集Sm劃分為K個(gè)類簇
3)根據(jù)式(1)計(jì)算各類簇中樣本到其類簇簇心的距離
4)Forj=1,2,…,K:
a.以類簇中距離簇心最遠(yuǎn)樣本距離的98 %為半徑Rj,簇心為圓心,定義類簇邊界
b.根據(jù)類簇邊界,若一樣本在其類簇邊界之內(nèi)則定義為安全樣本,反之定義為噪聲樣本
5)End For∥結(jié)束循環(huán)
6)根據(jù)第(4)步,將Sm所有定義為噪聲的樣本刪除,安全樣本保存到S'm
7)ReturnS'm
針對數(shù)據(jù)集中存在噪聲樣本干擾的情形,本文提出算法1基于K-means噪聲樣本濾除算法。數(shù)據(jù)集中的少數(shù)類樣本集經(jīng)過算法1處理后,會(huì)得到一個(gè)相對“干凈”的數(shù)據(jù)集。其次為了獲得類別數(shù)目相對平衡的數(shù)據(jù)集,本文采用經(jīng)典的采樣算法SMOTE,對去噪后數(shù)據(jù)集進(jìn)行采樣操作。最后對于采樣后的數(shù)據(jù)集,本文選用以J48決策樹為基分類器的Adaboost模型[6,7],進(jìn)行分類模型的訓(xùn)練。詳細(xì)算法訓(xùn)練過程如算法2所示。
算法2基于K-means不平衡數(shù)據(jù)集成分類算法
1)通過算法1對少數(shù)類樣本集中噪聲樣本識別、濾除
2)使用SMOTE算法對去噪后的樣本集進(jìn)行新樣本的合成,平衡樣本集
3)初始化樣本分布權(quán)重D1(i)=1/n,i=1,2,3,…,n,(n表示平衡樣本集中樣本數(shù)據(jù)目)
4)Fort=1toT:(T表示迭代次數(shù))
根據(jù)樣本分布Dt訓(xùn)練弱分類器ft:X→Y
5)End For
7)ReturnH(X)
實(shí)驗(yàn)數(shù)據(jù)選自UCI公開數(shù)據(jù)庫中的AReM人體姿態(tài)數(shù)據(jù)集[8]。該數(shù)據(jù)集中的所有數(shù)據(jù)是通過對人體3個(gè)部分(胸部—右腳踝,胸部—左腳踝,右腳踝—左腳踝)佩戴無線傳感器收集得到。數(shù)據(jù)信息分類:bending、cycling、lying down、sitting、standing、walking,共42 240條且每條有6個(gè)屬性。
文獻(xiàn)[9]提出意外摔倒是老年人尤其是獨(dú)居老人面臨的一個(gè)威脅生命的嚴(yán)重風(fēng)險(xiǎn),住院率乃至死亡率都很高。有報(bào)告曾統(tǒng)計(jì),有10 %~15 %的摔倒甚至?xí)苯油{老年人的生命。由此本文針對所選數(shù)據(jù)集選取lying down動(dòng)作為少數(shù)類標(biāo)記為1占比15.4 %,其他動(dòng)作為多數(shù)類標(biāo)記為0占比84.6 %。預(yù)處理數(shù)據(jù)信息如表1所示。
表1 預(yù)處理后數(shù)據(jù)集
針對不平衡數(shù)據(jù)分類問題,分類模型性能的優(yōu)劣采用以往分類準(zhǔn)確率的方式來評價(jià),已經(jīng)不在適用。因此,本文采用被國內(nèi)外廣泛使用的不平衡分類器評價(jià)指標(biāo):G-mean、F-value及AUC,對提出的不平衡數(shù)據(jù)分類模型進(jìn)行評定,依據(jù)表2所示的混淆矩陣得到。
表2 混淆矩陣
AUC即ROC(receiver operating characteristic)曲線下的面積。ROC曲線反映敏感性和特異性連續(xù)變量的綜合指標(biāo),曲線下面積越大,模型的準(zhǔn)確性越高。
為驗(yàn)證本文所提出方法的優(yōu)越性,將本文算法與已有的三種經(jīng)典不平衡分類模型,在上述數(shù)據(jù)集上在G-mean、F-value及AUC進(jìn)行對比。三種對比模型:CUS-Boost[10]、SMOTEBoost[11]以及RUS-Boost[12]算法。實(shí)驗(yàn)數(shù)據(jù)取自通過10折交叉驗(yàn)證后的平均值。
表3列出了4種不同算法在G-mean、F-value及AUC的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,本文所提出的不平衡分類算法,相對于其他三種算法,分類效果最優(yōu)。在AUC衡量指標(biāo)上,本文算法在AReMr數(shù)據(jù)集上取值達(dá)到了94.6 %,相對于其他算法,最高提高了21.1 %。在G-mean上最低提高了10.1 %,以及F-value上最高提高了16.6 %。
表3 四種不同分類模型的分類結(jié)果對比
在AReMr數(shù)據(jù)集上與經(jīng)典的三種不平衡分類模型實(shí)驗(yàn)對比表明:本文方法相對于其他算法識別率更高,更能準(zhǔn)確判斷出人體姿態(tài),分類性能更優(yōu)。然而本文所提出的算法是基于二分類情況下提出的,但是在較多應(yīng)用領(lǐng)域中,樣本類別的分類還是以多類別為主。因此,下一步的研究工作將會(huì)是對本文算法進(jìn)行改進(jìn),使其可以應(yīng)用在多類別樣本預(yù)測中。