胡 悅,李 昂,張春雷,李金寶,*
(1.哈爾濱商業(yè)大學(xué) 體育學(xué)院,哈爾濱 150080;2.哈爾濱市第三中學(xué),哈爾濱 150001;3.黑龍江大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,哈爾濱 50080)
人類睡眠數(shù)據(jù)的特征提取和分析方法的研究
胡 悅1,李 昂2,張春雷3,李金寶3,*
(1.哈爾濱商業(yè)大學(xué) 體育學(xué)院,哈爾濱 150080;2.哈爾濱市第三中學(xué),哈爾濱 150001;3.黑龍江大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,哈爾濱 50080)
使用智能手機(jī)來(lái)搜集聲音和體動(dòng)數(shù)據(jù),對(duì)其進(jìn)行預(yù)處理,提出聯(lián)合特征提取和特征選擇的TSFS方法。單純的使用一種方法來(lái)選擇特征,都會(huì)存在著一定的弊端。該方法是將特征提取和特征選擇兩種方法的聯(lián)合,不僅可以篩選出符合實(shí)際情況的特征,而且還提高了分類的準(zhǔn)確度。針對(duì)人類睡眠識(shí)別過(guò)程中的分類方法問(wèn)題,提出基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法。單純的使用一種分類方法,分類準(zhǔn)確度難以得到提升。該方法是將多個(gè)SVM分類器組合成單枝的二叉樹的形狀,且樹的每個(gè)節(jié)點(diǎn)都用一個(gè)二分類的SVM來(lái)分類。不僅降低了分類誤差的積累,同時(shí)也提高了分類準(zhǔn)確度。
可穿戴;睡眠監(jiān)測(cè);特征提??;特征選擇;分類器融合
人類生命的1/3是處在睡眠中,可見(jiàn)睡眠的質(zhì)量無(wú)論在人類的身體、精神,還是情感上都起著至關(guān)重要的作用。睡眠充足可提高工作效率、精力充沛、促進(jìn)人體生長(zhǎng)發(fā)育,這也是健康的必備條件之一。睡眠不足會(huì)導(dǎo)致疲勞、精神渙散、注意力下降、記憶力差,更甚者可能導(dǎo)致糖尿病、肥胖、抑郁、睡眠紊亂、睡眠呼吸暫停綜合征等疾病[1]。同樣不好的睡眠習(xí)慣也會(huì)導(dǎo)致心血管疾病和神經(jīng)問(wèn)題,如壓力、焦慮等。所以,對(duì)人類睡眠數(shù)據(jù)的獲取和分析,及對(duì)睡眠質(zhì)量的評(píng)估和睡眠疾病的診斷都有極其重要的應(yīng)用價(jià)值和研究?jī)r(jià)值。
隨著科技的發(fā)展,人們?cè)絹?lái)越對(duì)可穿戴智能睡眠健康監(jiān)測(cè)設(shè)備感興趣。這些設(shè)備可以對(duì)病人的睡眠及身體各項(xiàng)指數(shù)進(jìn)行實(shí)時(shí)監(jiān)測(cè),將搜集的數(shù)據(jù)上傳到云端,專家和醫(yī)護(hù)人員足不出戶就可觀察到病人的健康狀況并傳達(dá)給護(hù)理人員處理意見(jiàn),這樣有助于增加醫(yī)療診斷的效率和準(zhǔn)確度。相比傳統(tǒng)問(wèn)診模式,這種智能模式具有更多優(yōu)勢(shì)。當(dāng)今,最流行的可穿戴智能睡眠健康監(jiān)測(cè)設(shè)備如蘋果iWatch智能手表[2]、Jawbone Up手環(huán)[3]、脈搏血氧飽和儀等。這些設(shè)備內(nèi)部嵌入某些傳感器,并實(shí)現(xiàn)特殊功能。
現(xiàn)階段老齡化的加劇及社會(huì)對(duì)人類醫(yī)療投入的增加,推動(dòng)了可穿戴智能睡眠健康監(jiān)測(cè)設(shè)備迅猛發(fā)展。先進(jìn)的科學(xué)技術(shù)和醫(yī)療技術(shù)的結(jié)合,促使人們?cè)絹?lái)越看好這個(gè)市場(chǎng)前景。所以,也要對(duì)人類睡眠有更深入、更細(xì)致的了解和認(rèn)識(shí)。并將先進(jìn)的知識(shí)和理念融入到人類睡眠監(jiān)測(cè)過(guò)程中,開發(fā)出更符合人們需求的睡眠監(jiān)測(cè)系統(tǒng)。
如果在夜深時(shí),經(jīng)常會(huì)出現(xiàn)打鼾、呼吸暫停、呼吸不足、呼吸紊亂、睡眠障礙等癥狀的人們,為防患于未然,需要在家里對(duì)睡眠進(jìn)行實(shí)時(shí)監(jiān)測(cè),對(duì)睡眠有一定的分析和質(zhì)量評(píng)估,并找出影響睡眠的因素,改善睡眠,提高身體健康。本文主要對(duì)人類睡眠數(shù)據(jù)獲取和分析方法進(jìn)行研究。
1.1 特征提取的研究現(xiàn)狀
提取特征越多,分類準(zhǔn)確度會(huì)越高,但有時(shí)特征達(dá)到一定限度的時(shí)候,再增加特征,準(zhǔn)確度反而會(huì)下降[4]。所以,控制特征的維度是非常重要的,既不能太少,也不能太多。Zoubek L等[5]利用PSG中的EEG、EOG、EMG信道的信號(hào)采用序列前向選擇(Sequential forward selection,SFS)、序列后向選擇(Sequential back selection,SBS)迭代式的特征選擇算法,根據(jù)標(biāo)準(zhǔn)J的值來(lái)增加或減少特征數(shù)量,并選擇出最優(yōu)的時(shí)域和頻域特征,可以識(shí)別Sleep、Wake兩類。實(shí)驗(yàn)結(jié)果表明僅僅使用EEG信道的特征,分類準(zhǔn)確度達(dá)到71%左右。若再加入EOG、EMG信道的特征,分類準(zhǔn)確度可達(dá)到80%。Khabou M A等[6]評(píng)估了基于Actigraphy信號(hào)用于分類的63個(gè)不同特征的有效性,實(shí)現(xiàn)了兩個(gè)特征選擇算法去排列這些特征的有效性,即Add-One特征選擇算法和Entropy-Minimization算法,實(shí)驗(yàn)結(jié)果表明Add-One特征選擇算法效果更優(yōu)。且這兩種算法都是從排好序的這些特征中選出最優(yōu)的特征,一旦特征選擇好之后,利用最小距離分類器把這些Actigraphy信號(hào)分成不同的類別。這個(gè)最小距離分類器使用兩種K-Mean和Max-Min聚集算法去生成模型。實(shí)驗(yàn)結(jié)果表明僅使用1~5個(gè)特征,分類的準(zhǔn)確度達(dá)到95%~100%。GüneS等[7]利用PSG中的ECG、EOG、EMG信道的信號(hào)、氣流、血氧飽和度、胸廓運(yùn)動(dòng)等信息,提出Multi-Class F-Score特征選擇方法,采用多對(duì)F-Score值來(lái)決定增加或減少特征數(shù)量,結(jié)合多層感知機(jī)人工神經(jīng)網(wǎng)絡(luò)識(shí)別出4種不同程度的阻塞性睡眠呼吸暫停,實(shí)驗(yàn)結(jié)果表明準(zhǔn)確度達(dá)到84.14%。但以往的研究都沒(méi)有分析用于分類器的這些個(gè)人特征,也沒(méi)有說(shuō)明為什么選擇這些特征等問(wèn)題。
1.2 分類方法的研究現(xiàn)狀
Gautam A等[8]使用嵌入手機(jī)的加速度傳感器來(lái)預(yù)測(cè)睡眠,提出3種方法將加速度數(shù)據(jù)分成睡眠和覺(jué)醒兩個(gè)狀態(tài),如Kushida’s方程式、基于統(tǒng)計(jì)的方法、基于訓(xùn)練的HMM方法。實(shí)驗(yàn)結(jié)果表明3者中最優(yōu)的基于訓(xùn)練的HMM方法分類的準(zhǔn)確度達(dá)到84%。Gu W等[9]實(shí)現(xiàn)了Sleep Hunter的智能睡眠監(jiān)測(cè)系統(tǒng),利用手機(jī)里的加速度傳感器、麥克風(fēng)、光傳感器等來(lái)識(shí)別與睡眠相關(guān)的事件。通過(guò)加速度數(shù)據(jù)可預(yù)測(cè)出體動(dòng)的數(shù)量,通過(guò)麥克風(fēng)可預(yù)測(cè)出咳嗽、說(shuō)夢(mèng)話、打鼾等事件發(fā)生的次數(shù),通過(guò)光傳感器可預(yù)測(cè)出照明條件,及睡眠的持續(xù)時(shí)間和個(gè)人因素綜合在一起,使用一個(gè)非監(jiān)督的統(tǒng)計(jì)模型條件隨機(jī)場(chǎng)來(lái)預(yù)測(cè)睡眠階段、睡眠質(zhì)量,并在淺度睡眠階段提供叫醒服務(wù)。
存在一些特殊模型和特殊監(jiān)測(cè)系統(tǒng)來(lái)識(shí)別睡眠,Oliver N等[10]實(shí)現(xiàn)了HealthGear,一個(gè)實(shí)時(shí)可穿戴智能系統(tǒng)來(lái)監(jiān)測(cè)、分析生理信號(hào)SpO2和心率,它是由一些非侵入式生理傳感器(如脈搏血氧計(jì))構(gòu)成。這些傳感器通過(guò)藍(lán)牙將監(jiān)測(cè)數(shù)據(jù)傳送到手機(jī)端,在手機(jī)端進(jìn)行存儲(chǔ)、轉(zhuǎn)換、分析,及使用時(shí)域和頻域分析算法來(lái)自動(dòng)預(yù)測(cè)呼吸暫停事件。Harada T等[11]實(shí)現(xiàn)了將多個(gè)壓力傳感器排列在枕頭內(nèi)部來(lái)實(shí)時(shí)地監(jiān)測(cè)在睡眠過(guò)程中的呼吸和體動(dòng)的睡眠監(jiān)測(cè)系統(tǒng),通過(guò)頭部壓力分布的改變創(chuàng)建一個(gè)簡(jiǎn)單的監(jiān)測(cè)模型,基于這個(gè)模型又提出了一個(gè)呼吸計(jì)數(shù)算法,實(shí)驗(yàn)結(jié)果表明準(zhǔn)確度非常高,達(dá)到專業(yè)醫(yī)療設(shè)備的水平。與傳統(tǒng)的監(jiān)測(cè)呼吸系統(tǒng)相比,Nishida Y等[12]把人們從可穿戴設(shè)備中解放出來(lái)。利用放在屋頂?shù)柠溈孙L(fēng)來(lái)收集呼吸數(shù)據(jù),利用攝像頭來(lái)記錄身體位置、姿勢(shì)等信息,利用210個(gè)壓力傳感器構(gòu)成的床墊來(lái)監(jiān)測(cè)體動(dòng)、呼吸曲線,通過(guò)呼吸曲線評(píng)估出血氧的頻率分布。由此就構(gòu)成了一個(gè)非侵入式、非約束性的生活環(huán)境感知(SELF)系統(tǒng)自動(dòng)識(shí)別人類的呼吸、阻塞性呼吸暫停。此系統(tǒng)不僅提高了準(zhǔn)確度,還提供了一個(gè)無(wú)干擾、舒適的睡眠環(huán)境。但是,由于不同的分類方法會(huì)有不同的要求,且適用于不同的情景。所以,要選擇出切合實(shí)際情況的分類方法。
針對(duì)以上現(xiàn)狀,本文提出基于特征提取的特征選擇TSFS方法和基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法來(lái)對(duì)睡眠數(shù)據(jù)進(jìn)行處理和分析。
2.1 睡眠數(shù)據(jù)獲取
本文采用的是利用智能手機(jī)中的加速度傳感器、陀螺儀傳感器、重力傳感器來(lái)搜集體動(dòng)數(shù)據(jù),利用麥克風(fēng)來(lái)搜集聲音數(shù)據(jù)。智能手機(jī)是一種非入侵式的監(jiān)測(cè)設(shè)備,對(duì)監(jiān)測(cè)者身體不會(huì)產(chǎn)生影響。它既可以通過(guò)身體運(yùn)動(dòng)情況,也可以通過(guò)聲音情況來(lái)識(shí)別睡眠,身體運(yùn)動(dòng)同時(shí)會(huì)帶動(dòng)床上的手機(jī)產(chǎn)生運(yùn)動(dòng),手機(jī)內(nèi)傳感器的加速度、角速度、運(yùn)動(dòng)方向等數(shù)據(jù)都會(huì)發(fā)生變化,將變化的數(shù)據(jù)記錄下來(lái)就可以準(zhǔn)確的識(shí)別出體動(dòng)信息。聲音數(shù)據(jù)轉(zhuǎn)換成頻域信息,由于說(shuō)夢(mèng)話、打鼾、呼吸、咳嗽等睡眠事件的頻率是不同的,所以可以通過(guò)聲音數(shù)據(jù)來(lái)識(shí)別睡眠情況。
手機(jī)監(jiān)測(cè)過(guò)程中無(wú)需整晚的佩戴,對(duì)睡眠無(wú)影響。手機(jī)人人都有,無(wú)需額外去購(gòu)買,節(jié)約成本。它不僅存儲(chǔ)能力大,而且運(yùn)算速度快、傳感器的靈敏度高。智能手機(jī)還可以做到實(shí)時(shí)監(jiān)聽和上傳數(shù)據(jù),方便用戶及時(shí)對(duì)自己及家人的睡眠數(shù)據(jù)進(jìn)行觀察和分析。
2.2 睡眠數(shù)據(jù)預(yù)處理
加速度傳感器、陀螺儀傳感器、重力傳感器在監(jiān)測(cè)過(guò)程中,由于噪聲或是不規(guī)則地使用造成測(cè)量值的不準(zhǔn)確,產(chǎn)生錯(cuò)誤的數(shù)據(jù),在結(jié)果中引入了誤差。所以,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是非常有必要的。采用卡爾曼濾波器來(lái)處理加速度傳感器、陀螺儀、重力傳感器數(shù)據(jù)。其工作原理是通過(guò)前一時(shí)刻的估計(jì)值和現(xiàn)在時(shí)刻的觀測(cè)值來(lái)估計(jì)出現(xiàn)在時(shí)刻的估計(jì)值,并將現(xiàn)在時(shí)刻的估計(jì)值返回到濾波器中更新估計(jì)算法中的一些重要參數(shù),以此構(gòu)成一個(gè)循環(huán)往復(fù)的遞推過(guò)程。信號(hào)系統(tǒng)中的狀態(tài)量為x(n)={x(t0),x(t1),…,x(tn)},觀測(cè)量為ζ(m)={z(t0),z(t1),…,z(tm)},如算法1所示。
算法1卡爾曼濾波算法(KF)輸入:(1)狀態(tài)方程:x(n)=T(n,n-1)×x(n-1)+Γ(n,n-1)× ω(n-1)其中,x(n)為N×1的狀態(tài)矩陣,T(n,n-1)為N×N的狀態(tài)轉(zhuǎn)移矩陣,Γ(n,n-1)為N×S的狀態(tài)噪聲矩陣, ω(n-1)為系統(tǒng)噪聲。(2)觀測(cè)方程:z(n)=c(n)×x(n)+v(n)其中z(n)為M×1的觀測(cè)向量,c(n)為M×N的觀測(cè)矩陣,v(n)為觀測(cè)噪聲。(3)系統(tǒng)狀態(tài)噪聲矩陣為E( ω(n)× ω(n)H)=Q1(n),H在實(shí)數(shù)域表示矩陣的轉(zhuǎn)置,測(cè)量噪聲相關(guān)矩陣為E(v(n)×v(n)H)=Q2(n)。輸出:^x(n|ζ(n))為系統(tǒng)狀態(tài)預(yù)測(cè)量1 初始狀態(tài),^x(0|ζ(0))=E(x(0))P(0)=E{[x(0)-E(x(0))]×[x(0)-E(x(0))]H}2 狀態(tài)一步預(yù)測(cè)^x(n|ζ(n-1))=T(n,n-1)×^x(n-1|ζ(n-1))∈CN×13 觀測(cè)z(n)計(jì)算新息ε(n)=z(n)-^z(n|ζ(n-1))=c(n)×x(n)+v(n)-c(n)×^x(n|ζ(n-1))-^v(n|ζ(n-1))=c(n)×x(n)+v(n)-c(n)×^x(n|ζ(n-1))∈CM×1由于噪聲與前一時(shí)刻的觀測(cè)量相互獨(dú)立,即E(v(n)×zH(k))=0,k=0,1,…,n-1,所以^v(n|ζ(n-1))=04 一步預(yù)測(cè)誤差自相關(guān)矩陣P(n,n-1)=T(n,n-1)×P(n-1)×TH(n,n-1)+Γ(n,n-1)×Q1(n-1)×ΓH(n,n-1)∈CN×N其中,初始時(shí)P(n-1)=E[ψ(n-1)×ψH(n-1)]∈CN×Nψ(n-1)=x(n-1)-^x(n-1|ζ(n-2))5 新息過(guò)程自相關(guān)矩陣H(n)=c(n)×P(n,n-1)×cH(n)+Q2(n)∈CM×M6 卡爾曼增益G(n)=P(n,n-1)×cH(n)×H-1(n)∈CN×M7 更新狀態(tài)估計(jì)^x(n|ζ(n))=^x(n|ζ(n-1))+G(n)×ε(n)∈CN×18 更新狀態(tài)估計(jì)誤差自相關(guān)矩陣P(n)=[I-G(n)×c(n)]×P(n,n-1)∈CN×N9 回到步驟2,遞推濾波
對(duì)于聲音數(shù)據(jù),本文采用快速傅里葉變換(FFT)來(lái)進(jìn)行預(yù)處理,把時(shí)域信息變換成頻域信息,且在頻域上提取特征,能更好的區(qū)分睡眠階段。而FFT正是離散傅里葉變換(DFT)的一種比較快速的算法?;?2 FFT算法是將計(jì)算一個(gè)N點(diǎn)的DFT,轉(zhuǎn)換成了計(jì)算2個(gè)N/2點(diǎn)的DFT的過(guò)程。同時(shí)對(duì)2個(gè)N/2點(diǎn)的DFT,繼續(xù)迭代下去,轉(zhuǎn)換成4個(gè)N/4 的DFT??梢?jiàn),F(xiàn)FT算法將時(shí)間復(fù)雜度從O(n2)變成O(nlogn)。
(1)
3.1 預(yù)選先驗(yàn)特征
在分類識(shí)別過(guò)程中,先驗(yàn)特征不僅包括時(shí)域特征,同時(shí)還存在頻域特征。這些特征對(duì)人類睡眠的識(shí)別都起著非常好的作用。所以,首選先驗(yàn)特征,對(duì)于加速度數(shù)據(jù)和陀螺儀數(shù)據(jù)、重力加速度數(shù)據(jù)及它們的振幅中選擇最大值、最小值、均值、中值、方差、峰值、傾斜度、均方根等8個(gè)特征。且其中一些特征也應(yīng)用在文獻(xiàn)[13]中對(duì)身體運(yùn)動(dòng)進(jìn)行區(qū)分,分別介紹一下均方根、峰值和傾斜度的公式。
(2)
(3)
(4)
對(duì)于聲音數(shù)據(jù)選擇Entopy、Centriod、Flux、Bandwidth、Rolloff等5個(gè)特征,且其中一些特征也應(yīng)用在文獻(xiàn)[14-15,21]中對(duì)聲音進(jìn)行分類,文獻(xiàn)[9]中說(shuō)明它們?cè)诓煌穆曇羰录项l譜有不同的分布,易于區(qū)分。經(jīng)過(guò)快速傅里葉變換得到的一個(gè)窗口的數(shù)據(jù)為f1,f2,…,fN,分別介紹一下公式。
(5)
(6)
(7)
(8)
(9)
3.2 選擇特征的方法
對(duì)于特征,有兩種主要的處理方法:特征提取和特征選擇。特征提取是對(duì)特征進(jìn)行適當(dāng)?shù)淖儞Q,這樣的變換分為線性的和非線性的。線性的常用方法有PCA、LDA、獨(dú)立成分分析[16,20]等。不考慮特征本身所具有的含義和聯(lián)系,選出的特征可能不符合實(shí)際情況,可理解性差,無(wú)關(guān)特征也有可能被選入到最優(yōu)特征子集中。
而特征選擇是通過(guò)遍歷特征集,以一定的評(píng)價(jià)準(zhǔn)則來(lái)選擇出最優(yōu)的特征子集,難點(diǎn)在于評(píng)價(jià)準(zhǔn)則的制定,而且遍歷特征集的搜索過(guò)程也是一個(gè)NP難的問(wèn)題。特征選擇中的搜索方法一般分為“啟發(fā)式搜索”“完全搜索”“隨機(jī)搜索”[17],具體分類見(jiàn)圖1。
圖1 特征選擇方法Fig.1 Methods of feature selection
3.3 聯(lián)合特征提取和特征選擇的TSFS方法
單獨(dú)使用任一種選擇特征方法,都存在它的弊端,達(dá)不到最佳的效果,所以,本文提出聯(lián)合特征提取和特征選擇的TSFS方法。在特征提取領(lǐng)域中基于核的主成分分析Kernel PCA方法利用核將PCA方法推廣到非線性的樣本空間,而在特征選擇領(lǐng)域中啟發(fā)式搜索中的增L減R的特征選擇LRFS方法處理速度快、效果好,由此把它們二者相結(jié)合。
首先,PCA方法,它是將高維度的線性原始樣本空間經(jīng)過(guò)空間映射變換到低維度的新的樣本空間,并提取一些最能表現(xiàn)樣本的新特征,也叫主要成分,使特征間的冗余度降低。同時(shí)它也是基于統(tǒng)計(jì)信息的方差最優(yōu)的一種特征提取方法,如算法2所示。
算法2 PCA方法輸入:X={X1,X2,…,XN}為原始樣本集合輸出:Y={Y1,Y2,…,YM}為新樣本集合1 為消除不同評(píng)價(jià)標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)的差異,影響分析,要先進(jìn)行標(biāo)準(zhǔn)化。選取樣本與均值的差作為原始數(shù)據(jù),計(jì)算均值矩陣E(X)=μ2 計(jì)算樣本與均值的差,記為 x=X-μ3 構(gòu)造Λ協(xié)方差矩陣,記為Λ=1N x xT4 計(jì)算Λ的特征值λ1,λ2,…,λD,且按降序排列λ1≥λ2≥…≥λD,及它們相應(yīng)的特征向量T={T1,T2,…,TD}5 計(jì)算主成分的貢獻(xiàn)值η=∑Mi=1λi/∑Di=1λi,選出η符合范圍前M個(gè)主要成分,得到a={T1,T2,…,TM}6 計(jì)算出新樣本值,Y=aT x7 returnY
KPCA方法是將原始非線性樣本空間使用非線性變換核的手段映射到高維的特征空間上,在特征空間上使用線性變換PCA方法進(jìn)行壓縮,降低特征空間的維度。這樣,問(wèn)題的重點(diǎn)轉(zhuǎn)換為核方法的選擇上。
核技巧[18]是變換成向量的內(nèi)積,設(shè)X是輸入空間,H為特征空間,如果存在一個(gè)從X到H的映射
φ(x):X→H,使得?xi,xj∈X,都有公式10成立。
K(xi,xj)為
(xi,xj)→K(xi,xj)=φ(xi)·φ(xj)
(10)
核函數(shù),φ(xi)為映射函數(shù),φ(xi)·φ(xj)為φ(xi)和φ(xj)的內(nèi)積。一般通過(guò)φ(xi)和φ(xj)來(lái)計(jì)算K(xi,xj)并不十分容易。所以,直接計(jì)算K(xi,xj),而無(wú)需關(guān)注具體的映射φ。因?yàn)榻o定K(xi,xj)時(shí),φ并不唯一。然而,想要成為核函數(shù),只需滿足Mercer條件即可。
1.線性
K(x,y)=x·y
2.N階多項(xiàng)式
K(x,y)=[(x·y)+1]N
3.高斯徑向基
本文選用高斯徑向基函數(shù)(RBF)作為核函數(shù)。具體描述KPCA方法,如算法3所示。
算法3KernelPCA方法輸入:樣本空間X={X1,X2,…,Xn}T,Xi=[Xi1,Xi2,…,Xim],i=1,2,…,n,參數(shù)σ2輸出:Y={Y1,Y2,…,YM}為新樣本集1 樣本空間映射到特征空間,X→M={φ(H1),φ(H2),…,φ(Hm)}2 特征空間中心化,μ=∑mi=1φ(Hi),M?={φ(H1)-μ,φ(H2)-μ,…,φ(Hm)-μ}3 特征空間上數(shù)據(jù)的協(xié)方差矩陣為:C=1m∑mi=1[φ(Hi)-μ]·[φ(Hi)-μ]T4 接下來(lái),求協(xié)方差矩陣C的特征值和特征向量,即滿足CV=λV,λ為矩陣C的特征值,V為矩陣C的特征向量。5 CV=λV左右兩邊同乘φ(Hi)得,φ(Hi)CV=φ(Hi)λV6 又因特征向量可以由數(shù)據(jù)集M?線性表示,即 V=∑mj=1αj·φ(Hj)7 φ(Hi)CV=φ(Hi)λV,可表示為1m[∑mj=1αjφ(Hj)]×[∑mk=1[φ(Hk)-μ][φ(Hk)-μ]T]·φ(Hi)=λ∑mi=1αj(φ(Hj)·φ(Hi))8 本文選擇高斯徑向基函數(shù),K(Hi,Hj)=φ(Hi)·φ(Hj)。令K~ij=Kij-1m[∑mw=1Kiw+∑mw=1Kwj]+1m2∑mw,t=1Kwt。所以,化簡(jiǎn)為,mλK~α=K~2α,即mλα=K~α9 對(duì)mλα=K~α求解K~的特征值λ1,λ2, ,λD,且按降序排列λ1≥λ2≥…≥λD,及它們相應(yīng)的特征向量T={T1,T2,…,TD}10 計(jì)算主成分的貢獻(xiàn)值η=∑Mi=1λi/∑Di=1λi,選出η符合范圍前M個(gè)主要成分,得到a={T1,T2,…,TM}11 計(jì)算出新樣本值,Y=aTK~12.returnY
其次,假如原始特征集合個(gè)數(shù)為D,最優(yōu)特征子集個(gè)數(shù)為d。序列前向特征選擇SFS初始特征個(gè)數(shù)從0開始,每次迭代都從候選集中選出評(píng)價(jià)標(biāo)準(zhǔn)中最佳的一個(gè)特征增加到最優(yōu)特征子集中,并保證特征間冗余度小,直到最優(yōu)特征子集個(gè)數(shù)達(dá)到d為止。缺點(diǎn)是無(wú)法將已經(jīng)加入到最優(yōu)子集中的特征再剔除出去。相反,序列后向特征選擇SBS初始特征個(gè)數(shù)從D開始, 每次迭代都從最優(yōu)特征子集中選擇評(píng)價(jià)標(biāo)準(zhǔn)中最差的一個(gè)特征剔除出去,并保證所選的特征與最優(yōu)子集中的特征差異很大,直到最優(yōu)特征子集個(gè)數(shù)達(dá)到d為止。缺點(diǎn)無(wú)法將已經(jīng)從最優(yōu)特征子集中剔除的特征再加回來(lái)。而增L減R的特征選擇LRFS方法是根據(jù)L和R的大小關(guān)系,分兩種情況處理:
1.LR。每次迭代先使用SFS方法增加評(píng)價(jià)標(biāo)準(zhǔn)中最優(yōu)的L個(gè)特征到最優(yōu)特征子集中去,再使用SBS方法從最優(yōu)特征子集中剔除評(píng)價(jià)標(biāo)準(zhǔn)中最差的R個(gè)特征。
2.L LRFS折中了SFS和SBS的優(yōu)缺點(diǎn)的一種回溯方法,該算法比SBS處理速度快,比SFS實(shí)驗(yàn)效果好。特征既能被選入,同時(shí)可能被剔除,如算法4所示。 算法4增L減R的特征選擇LRFS(L>R)輸入:包含i個(gè)特征的特征子集F(i),i≤D,κ1(?)、κ2(?)為評(píng)價(jià)標(biāo)準(zhǔn),t為臨時(shí)變量輸出:包含d個(gè)特征的最優(yōu)特征子集F(d)1 采用SFS方法在候選集F(D)-F(i)中按照評(píng)價(jià)標(biāo)準(zhǔn)κ1(?)選出最優(yōu)的L個(gè)加入到特征子集F(i)中,并生成新的特征子集F,元素個(gè)數(shù)為i+L2 更新循環(huán)變量t=i+LF(t)=Fi=t3 采用SBS方法在最優(yōu)的特征子集F(i)中按照評(píng)價(jià)標(biāo)準(zhǔn)κ2(?)剔除最差的R個(gè)特征,并生成新的最優(yōu)特征子集F`,元素個(gè)數(shù)為i-R4 更新循環(huán)變量t=i-RF(t)=F′5 if(t=d)6 returnF(t)7 else8 更新循環(huán)變量i=tF(i)=F(t)9 回到步驟1,繼續(xù)計(jì)算 最后,TSFS方法分兩層來(lái)完成,第一層使用KPCA方法,將原始特征集進(jìn)行非線性變換,再使用PCA方法將高維空間壓縮到低維空間,以實(shí)現(xiàn)降維。但仍會(huì)存留一些冗余的特征沒(méi)被過(guò)濾掉。第二層使用LRFS方法過(guò)濾掉與類別不相關(guān)的特征,評(píng)價(jià)標(biāo)準(zhǔn)為與類別的相似度,并選擇最優(yōu)的L個(gè)特征加入到最優(yōu)特征子集中,并用評(píng)價(jià)標(biāo)準(zhǔn)為特征間的余弦距離,并剔除最差的R個(gè)特征,以這樣的過(guò)程迭代下去選出最優(yōu)的特征。這樣保證選取的最優(yōu)特征符合類內(nèi)距離緊密、類間距離很大等特點(diǎn)。具體過(guò)程如算法5所示。 算法5聯(lián)合特征提取和特征選擇的TSFS方法輸入:F={F1,F(xiàn)2,…,F(xiàn)D}為本文預(yù)選的所有先驗(yàn)特征的集合,參數(shù)σ2,臨時(shí)變量Y={Y1,Y2,…,YM},κ1(?)、κ2(?)為評(píng)價(jià)標(biāo)準(zhǔn)輸出:最優(yōu)特征子集Fopt={Fopt1,F(xiàn)opt2,…,F(xiàn)optd}1 Y=KPCA(F,σ2),執(zhí)行KPCA方法2 設(shè)定評(píng)價(jià)標(biāo)準(zhǔn)增L的評(píng)價(jià)標(biāo)準(zhǔn):κ1(x,y)=ρ(x,y)=cov(x,y)D(x)×D(y) 減R的評(píng)價(jià)標(biāo)準(zhǔn):κ2=cos(x,y)=x·y(x·y)3 Fopt=LRFS(Y,κ1,κ2),執(zhí)行LRFS方法4 returnFopt 4.1 分類器融合技術(shù) 不同的分類方法對(duì)于不同的分類屬性會(huì)得到不同的分類準(zhǔn)確度,特點(diǎn)和要求也各不相同,所以針對(duì)實(shí)際情況,選擇適合且效果最佳的分類方法是非常有挑戰(zhàn)的。單一的分類方法在性能上的提升以達(dá)到一定限度,那如何降低分類的錯(cuò)誤率,研究將多個(gè)分類方法有機(jī)組合成一個(gè)效果最佳的分類方法,即產(chǎn)生了分類方法的融合技術(shù)。 定義1:設(shè)訓(xùn)練數(shù)據(jù)集為I={(x1,c1),(x2,c2),…,(xn,cn)},xi表示第i個(gè)訓(xùn)練樣本數(shù)據(jù),ci表示第i個(gè)類別。基礎(chǔ)分類器的集合為T={T1,T2,…,Tm},m 4.2 基于Bagging多分類器選擇融合 基于Bagging(Bootstrap Aggregating)多分類器選擇融合是指定一個(gè)基礎(chǔ)分類器集合T和原始訓(xùn)練數(shù)據(jù)集I,在原始訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上進(jìn)行多次有放回等概率抽樣得到新的數(shù)據(jù)集Ii,且二者大小完全相同。多次迭代這樣的過(guò)程,將產(chǎn)生許多新的訓(xùn)練數(shù)據(jù)集,在此基礎(chǔ)上,使用基礎(chǔ)分類器T預(yù)測(cè),得到分類結(jié)果為ci。目標(biāo)函數(shù)S設(shè)定為投票法,即選擇基礎(chǔ)分類器輸出的分類結(jié)果中出現(xiàn)次數(shù)最多的那一類為最終的分類結(jié)果c*,具體過(guò)程見(jiàn)圖2。 圖2 Bagging實(shí)現(xiàn)過(guò)程Fig.2 Process of Baaging implementation 4.3 基于AdaBoost多分類器組合融合 基于AdaBoost多分類器組合融合是一種提升方法,將一系列弱分類器組合成強(qiáng)分類器的過(guò)程。通過(guò)修改原始訓(xùn)練數(shù)據(jù)集的權(quán)重而得到新的訓(xùn)練數(shù)據(jù)集,使當(dāng)前的弱分類器受前一輪弱分類器分類結(jié)果的影響。其目的是提高在前一輪弱分類器中被錯(cuò)誤分類的數(shù)據(jù)的權(quán)重,降低被正確分類的數(shù)據(jù)的權(quán)重,由于權(quán)重的改變激勵(lì)下一輪弱分類器加大力度處理由上一輪弱分類器中被錯(cuò)誤分類的數(shù)據(jù),以此構(gòu)成循環(huán)迭代的過(guò)程,算法已在文獻(xiàn)[18]中詳細(xì)介紹。這些弱分類器采用分治的方法解決了一些難于處理的分類問(wèn)題,即每一輪都加大難于處理的那部分?jǐn)?shù)據(jù)的權(quán)重,減小容易處理的那部分?jǐn)?shù)據(jù)的權(quán)重,將難于處理的那部分?jǐn)?shù)據(jù)留給下一輪優(yōu)先處理。 4.4 基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合 圖3 二叉樹的Multi-SVM分類器融合Fig.3 Binary tree of Multi - SVM classifier fusion 支持向量機(jī)(Support Vector Machines,SVM)[18]作為基礎(chǔ)分類器,它是在特征空間上的間隔最大的線性分類器,擁有完善的統(tǒng)計(jì)學(xué)理論基礎(chǔ),適用于二分類且分類準(zhǔn)確度優(yōu)于其他基礎(chǔ)分類器。這里的間隔最大化實(shí)際上就是求解凸二次規(guī)劃的最優(yōu)化問(wèn)題,并且可以找到全局最優(yōu)解。在多分類的情況下,可以組織多個(gè)SVM。例如基于二叉樹的Multi-SVM分類器融合,根為所有類別構(gòu)成的一個(gè)總的類別,由根出發(fā)進(jìn)行二分,將一個(gè)類別分裂為兩個(gè)子類別,再對(duì)子類別繼續(xù)分裂,直到葉節(jié)點(diǎn)為單獨(dú)的類別為止,這樣就將一個(gè)多類別問(wèn)題轉(zhuǎn)換成諸多二分類問(wèn)題,其中每個(gè)內(nèi)部節(jié)點(diǎn)的二分類問(wèn)題都使用一個(gè)SVM分類器來(lái)訓(xùn)練。這樣的結(jié)構(gòu)建立非常簡(jiǎn)單,c個(gè)類別的分類問(wèn)題只需使用c-1個(gè)SVM分類器,識(shí)別速度較快。結(jié)構(gòu)見(jiàn)圖3、圖4。圖4的結(jié)構(gòu)更容易產(chǎn)生誤差的積累,也就是說(shuō)當(dāng)某個(gè)內(nèi)部節(jié)點(diǎn)將一些樣本分類錯(cuò)誤,那么這個(gè)錯(cuò)誤會(huì)延續(xù)到此內(nèi)部節(jié)點(diǎn)的后代節(jié)點(diǎn)上。如果這樣的內(nèi)部節(jié)點(diǎn)離根特別近的地方,誤差積累越多,分類效果就越差,嚴(yán)重影響識(shí)別過(guò)程。而圖3的結(jié)構(gòu)在誤差積累方面更優(yōu)一些,假如事先根據(jù)識(shí)別的難易程度將類別設(shè)定一些優(yōu)先級(jí),能準(zhǔn)確識(shí)別的類別優(yōu)先處理,比較復(fù)雜的類別留到后面處理,這樣誤差積累就會(huì)降低。對(duì)類別設(shè)定優(yōu)先級(jí)成為了關(guān)鍵。 圖4 平衡二叉樹的Multi-SVM分類器融合Fig.4 Balance Binary tree of Multi - SVM classifier fusion 用距離、相關(guān)性、信息增益來(lái)衡量樣本間的相似程度。使用距離來(lái)計(jì)算相似性是把所有樣本的特征參數(shù)都當(dāng)做同等條件計(jì)算,忽略不同屬性之間的差異。而使用信息增益來(lái)計(jì)算相似性是利用熵來(lái)表示樣本分布的密集程度,只能看出特征對(duì)分類系統(tǒng)的影響,而無(wú)法具體到某個(gè)類別上。所以,針對(duì)以上兩種方法的優(yōu)缺點(diǎn),將二者結(jié)合為類別優(yōu)先級(jí)的判定標(biāo)準(zhǔn)為最佳,產(chǎn)生了定義2。 定義2:假設(shè)樣本X=[x1,x2,…,xN]屬于類cα,且xi=(Fi1,F(xiàn)i2,…,F(xiàn)iN),i∈[1,M],樣本Y=[y1,y2,…,yN]屬于類cβ,且yj=(Fj1′,F(xiàn)j2′,…,F(xiàn)jN′),j∈[1,M],則改進(jìn)的類間距離d(cα,cβ): (11) 在式(11)中,|Fij|表示Fij在X中出現(xiàn)的次數(shù),|Fij(cα)|表示屬于cα的Fij樣本個(gè)數(shù),φ(Fij)和φ(Fij′)分別表示Fij和Fij′對(duì)于樣本歸屬類別cα和cβ的熵。其中,當(dāng)有P個(gè)類別時(shí),此式d(ci,cj)具有自反性和對(duì)稱性,d(ci,ci)=0,d(ci,cj)=d(cj,ci),i,j∈[1,P],且i≠j??梢?jiàn),熵越大,特征的不確定性越大。所以距離越大,類別間更容易區(qū)分。首先找出一個(gè)類別ci距離剩下的P-1個(gè)類別最遠(yuǎn),此時(shí)ci的優(yōu)先級(jí)是較高的。若出現(xiàn)兩個(gè)類別距離其他類別同樣遠(yuǎn),則選擇類下標(biāo)較小的優(yōu)先級(jí)高。以此類推,直到剩下最后兩個(gè)類別進(jìn)行比較時(shí),類標(biāo)號(hào)較小的優(yōu)先級(jí)高。改進(jìn)二叉樹的Multi-SVM睡眠分類器融合算法,如算法6所示。 算法6改進(jìn)二叉樹的Multi?SVM睡眠分類器融合算法輸入:原始訓(xùn)練數(shù)據(jù)集I={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Rn,yi∈{c1,c2,…,cp},i=1,2,…,n輸出:基于二叉樹的多類別SVM分類模型T1 根據(jù)式(11)計(jì)算類與類之間的距離d(ci,cj),i,j∈[1,P],且i≠j2 每一個(gè)類別ci,都存在P-1個(gè)距離值,將其構(gòu)成A是P×(P-1)的矩陣3 計(jì)算每一個(gè)類別ci的P-1個(gè)距離值之和si,產(chǎn)生S是1×P的矩陣4 對(duì)矩陣S按照從大到小的順序排序,相應(yīng)的類別存入矩陣(dij)∈D1×P中5 將S中第一個(gè)元素所對(duì)應(yīng)的類別d11的優(yōu)先級(jí)定為最高,并存入c′為1×P的矩陣中。若S中同時(shí)存在多個(gè)元素為最大時(shí),取類別dij值中較小的優(yōu)先級(jí)定為最高6 此時(shí),將已找到的最高優(yōu)先級(jí)的類別與其他類別劃分開,將重新計(jì)算剩下P-1個(gè)類別互相之間的距離,重復(fù)步驟2~6的過(guò)程。直到只剩下兩個(gè)類進(jìn)行劃分時(shí),類下標(biāo)小的類別優(yōu)先級(jí)高,并將二者共同加入到c′,轉(zhuǎn)到步驟77 根據(jù)排好序的類別c′∈{c1′,c2′,…,cp′},生成改進(jìn)的二叉樹T8.returnT 5.1 數(shù)據(jù)集 圖5 實(shí)驗(yàn)環(huán)境Fig.5 Experimental environment 本文挑選了15名年齡在20~30歲的實(shí)驗(yàn)對(duì)象,其中7名女性和8名男性,分別測(cè)試15 d內(nèi)睡眠情況。睡眠數(shù)據(jù)既包括體動(dòng)數(shù)據(jù),即加速度計(jì)數(shù)據(jù)、陀螺儀數(shù)據(jù)、重力傳感器數(shù)據(jù)及每個(gè)數(shù)據(jù)的振幅值和時(shí)間戳,維度大小為4×3+1=13。也包括聲音數(shù)據(jù)和時(shí)間戳。從睡眠數(shù)據(jù)中選取特征樣本的維度為12×8+1+5=102。其中,時(shí)域特征的維度為12×8=96,對(duì)12維原始數(shù)據(jù)的每一維提取8個(gè)時(shí)域特征。頻域特征的維度為5,還有一維是時(shí)間戳。數(shù)據(jù)的窗口大小為2 s,覆蓋率為50%。數(shù)據(jù)的采樣頻率分別為100 Hz、16 000 Hz。在搜集到的睡眠數(shù)據(jù)中隨機(jī)抽取80%作為訓(xùn)練數(shù)據(jù),剩下的20%作為測(cè)試數(shù)據(jù)。在模型的訓(xùn)練階段,本文選擇Zeo頭戴對(duì)睡眠階段的劃分做為真實(shí)數(shù)據(jù)。因?yàn)閆eo監(jiān)測(cè)的準(zhǔn)確度可達(dá)到75%左右[19],相比于PSG(80%)差一些,但已接近監(jiān)測(cè)睡眠的真實(shí)情況。而且Zeo相比于PSG成本更低,也更利于攜帶。PSG需要在特定的環(huán)境下監(jiān)測(cè),此時(shí)由于監(jiān)測(cè)設(shè)備的各種限制,用戶不一定反映出自己的真實(shí)睡眠情況。實(shí)驗(yàn)環(huán)境見(jiàn)圖5。 5.2 預(yù)處理結(jié)果 原始加速度數(shù)據(jù)中含有一定的隨機(jī)噪聲,原始數(shù)據(jù)的波動(dòng)情況見(jiàn)圖6(a)。使用卡爾曼濾波之后波動(dòng)更加明顯,它的濾波效果圖見(jiàn)圖6(b)。 圖6 加速度數(shù)據(jù)Fig.6 Acceleration data 原始聲音數(shù)據(jù)見(jiàn)圖7(a),F(xiàn)FT變換后的數(shù)據(jù)見(jiàn)圖7(b)。因?yàn)樵肼曒^多是高頻信號(hào),所以使用FFT之后要繼續(xù)消除高頻信號(hào),效果見(jiàn)圖7(c)。 圖7 聲音數(shù)據(jù)Fig.7 Sound data 5.3 最優(yōu)特征子集 數(shù)據(jù)集中,特征維度為102。TSFS方法第一層采用的是KPCA方法,對(duì)102維的數(shù)據(jù)集進(jìn)行降維,并降到F維,將不同維度的數(shù)據(jù)集送入到SVM中進(jìn)行預(yù)測(cè),并觀察F的變化對(duì)分類準(zhǔn)確影響程度(圖8(a)),當(dāng)降到30維的時(shí)候,分類的準(zhǔn)確度最高。接下來(lái),將通過(guò)KPCA方法得到的30維的特征送入第二層LRFS方法中去,挑選出與類別最相關(guān),且與特征內(nèi)部最無(wú)關(guān)的特征,維度為M維。將不同維度的數(shù)據(jù)集送入到SVM中進(jìn)行預(yù)測(cè),并觀察M的變化對(duì)分類準(zhǔn)確影響程度(圖8(b)),可見(jiàn),當(dāng)降到15維的時(shí)候,分類的準(zhǔn)確度最高。 圖8 TSFS的識(shí)別準(zhǔn)確度Fig.8 Accuracy of TSFS 不同的參數(shù)σ2對(duì)實(shí)驗(yàn)效果的準(zhǔn)確度也有著不同的影響(表1)。由表1可見(jiàn),隨著σ2增加,分類準(zhǔn)確度增加。所以,本文選取σ2=100。 聯(lián)合特征提取和特征選擇的TSFS方法和基于增L減R的特征選擇LRFS方法、KPCA方法3個(gè)方法的準(zhǔn)確度比較,見(jiàn)圖9。TSFS方法優(yōu)于LRFS方法和KPCA方法,且在特征個(gè)數(shù)為15時(shí),準(zhǔn)確度達(dá)到最高。KPCA在特征為30時(shí)準(zhǔn)確度最高。LRFS在特征為15時(shí)準(zhǔn)確度最高。特征選擇少量時(shí),誤分類較多,準(zhǔn)確度不高,但再增加特征時(shí)準(zhǔn)確度會(huì)有顯著的提升。達(dá)到上限時(shí),再增加特征準(zhǔn)確度就會(huì)下降。 表1 參數(shù)σ2對(duì)準(zhǔn)確度的影響 圖9 TSFS、LRFS和KPCA 3種方法的準(zhǔn)確度比較Fig.9 The accuracy of TSFS,LRFS and KPCA 在精準(zhǔn)率、召回率、F值等方面的比較,見(jiàn)表2所示??梢?jiàn),TSFS方法的精準(zhǔn)率和F值最高,而KPCA的召回率最高。充分說(shuō)明,TSFS方法優(yōu)于KPCA方法和LRFS方法。 通過(guò)TSFS方法選擇出15個(gè)特征,其中12個(gè)時(shí)域特征和3個(gè)頻域特征。分別為加速度模和重力加速度模的均值、方差、中值、rms、kurt、skew等12個(gè)時(shí)域特征,Entopy、Centriod、Bandwidth等3個(gè)頻域特征,用于睡眠階段的劃分。 表2 評(píng)價(jià)標(biāo)準(zhǔn)比較Table 2 Comparation of evaluation standard 5.4 睡眠階段劃分結(jié)果 圖10 基于改進(jìn)二叉樹的Multi-SVM睡眠分類融合布局Fig.10 Layout on the improved binary tree structure of Multi-SVM sleep classification fusion 基于Bagging多分類器選擇融合、基于AdaBoost多分類器組合融合兩種方法的基礎(chǔ)分類器為SVM進(jìn)行分類。并將它們與基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法在準(zhǔn)確度上對(duì)比(圖11)。由圖11可見(jiàn),本文提出的方法優(yōu)于AdaBoost、Bagging。 本文將睡眠階段劃分為覺(jué)醒Wake、快速眼動(dòng)睡眠REM、淺度睡眠Light、深度睡眠Deep等4個(gè)階段。在這里針對(duì)使用基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法對(duì)覺(jué)醒Wake、快速眼動(dòng)睡眠REM、淺度睡眠Light、深度睡眠Deep 4個(gè)睡眠階段的精準(zhǔn)率、召回率、F值進(jìn)行對(duì)比,見(jiàn)圖12。 圖11 3種方法的準(zhǔn)確度Fig.11 Accuracy of three methods 圖12 睡眠階段的比較Fig.12 Comparison of sleep stages 由圖12可見(jiàn),Wake階段精確率、召回率和F值都是最高,Deep階段的精確率和F值都是比較高的,而REM階段的召回率比較高,Light階段的精確率和召回率、F值都是最低的。所以,Wake階段識(shí)別的準(zhǔn)確程度最高,Deep階段識(shí)別的準(zhǔn)確程度要優(yōu)于REM、Light階段。實(shí)驗(yàn)證明了算法6的有效性,4個(gè)睡眠階段的優(yōu)先級(jí)由高到低分別Wake、Deep、REM、Light。 由于人類睡眠占據(jù)了人類生命活動(dòng)的大部分,所以對(duì)它的研究尤為重要。伴隨著可穿戴智能監(jiān)測(cè)設(shè)備的發(fā)展,人們慢慢地對(duì)自己的睡眠有一定了解,但能否準(zhǔn)確識(shí)別出睡眠的階段及睡眠質(zhì)量的評(píng)估成為一個(gè)非常嚴(yán)重的問(wèn)題?;谝陨厦枋觯疚难芯苛藬?shù)據(jù)獲取、特征選擇方法和分類模型。提出了聯(lián)合特征提取和特征選擇的TSFS方法。該方法解決了特征維數(shù)災(zāi)難問(wèn)題,選擇出與類別相關(guān),且不冗余的特征。提出了基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法。該方法可減少在分類過(guò)程中的誤差積累,提高了模型分類的準(zhǔn)確度。 在聯(lián)合特征提取和特征選擇的TSFS方法中,本文采用的都是一些比較常見(jiàn)的時(shí)域或頻域特征,數(shù)量有限。后續(xù)會(huì)增加更有利于實(shí)際情境且更利于模型分類的特征。且環(huán)境過(guò)于嘈雜時(shí),信號(hào)過(guò)濾效果不佳,后續(xù)會(huì)提高過(guò)濾效果。在基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法中,模型僅能實(shí)現(xiàn)離線的,后續(xù)會(huì)增加在線的識(shí)別。 [1] Parish J M.Sleep-related problems in common medical conditions[J].Chest Journal, 2009, 135(2): 563-572. [2] http://www.apple.com/cn/. [3] https://jawbone.com/up. [4] Molina L C, Belanche L, Nebot à.Feature selection algorithms: A survey and experimental evaluation[C]//Data Mining, 2002.ICDM 2003.Proceedings.2002 IEEE International Conference on.IEEE, 2002: 306-313. [5] Zoubek L, Charbonnier S, Lesecq S, et al.Feature selection for sleep/wake stages classification using data driven methods[J].Biomedical Signal Processing and Control, 2007, 2(3): 171-179. [6] Khabou M, Parlato M V.Classification and feature analysis of actigraphy signals[C]//Southeastcon, 2013 Proceedings of IEEE.IEEE, 2013: 1-5. [7] Günes S, Polat K, Yosunkaya S.Multi-class f-score feature selection approach to classification of obstructive sleep apnea syndrome[J].Expert Systems with Applications, 2010, 37(2): 998-1004. [8] Gautam A, Naik V, Gupta A, et al.An smartphone-based algorithm to measure and model quantity of sleep[C]//Communication Systems and Networks(COMSNETS),2015 7th International Conference on IEEE,2015:1-6. [9] Gu W, Yang Z, Shangguan L, et al.Intelligent sleep stage mining service with smartphones[C]//Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing.ACM, 2014: 649-660. [10] Oliver N, Flores-Mangas F.HealthGear: a real-time wearable system for monitoring and analyzing physiological signals[C]//Wearable and Implantable Body Sensor Networks, 2006.BSN 2006.International Workshop on.IEEE, 2006: 4-64. [11] Harada T, Sakata A, Mori T, et al.Sensor pillow system: monitoring respiratory system by sensorized environment[C]//Sensors, 2002.Proceedings of IEEE.IEEE, 2002, 1: 705-710. [12] Nishida Y, Hori T.Non-invasive and unrestrained monitoring of human respiratiry system by sensorized environment[C]//Sensors,2002.Proceedings of IEEE, 2002, 1:705-710. [13] Hao T, Xing G, Zhou G.iSleep: unobtrusive sleep quality monitoring using smartphones[C]//Proceedings of the 11th ACM Conference on Embedded Networked Sensor Systems.ACM, 2013: 4. [14] Saunders J.Real-time discrimination of broadcast speech/music[C]//Acoastics,Speech, and Signal Processing,1996.ICASSP-96.Conference Proceeding,1996 IEEE International Conference on IEEE, 1996,2: 993-996. [15] Lu H, Pan W, Lane N D, et al.SoundSense: scalable sound sensing for people-centric applications on mobile phones[C]//Proceedings of the 7th international conference on Mobile systems, applications, and services.ACM, 2009: 165-178. [16] Ben-Hur A,Brutlag D.Feature extraction, foundations and applications[J].Studies in Fuzziness and Soft ComputingSpringer-Verlag, 2006: 315-324. [17] http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html. [18] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社, 2012. [19] Shambroom J R, Fabregas S E, Johnstone J.Validation of an automated wireless system to monitor sleep in healthy adults[J].Journal of Sleep Research, 2012, 21(2): 221-230. [20] Waltisberg D,Amft O,Brunner D P,et al.Detecting disordered breathing and limb movement using in-bed force sensors[J].IEEE Journal of Bitmedical and Health Informatics,2017,21(4):930-938. [21] Gu W,Shangguan L,Yang Z,et al.Sleep hunter:lowards fine grained sleep stage tracking with smartphones[J].IEEE Transactions on Mobile Computing,2016,15(6):1514-1527. Research on the feature extraction and analysis method of human sleep data HU Yue1, LI Ang2,ZHANG Chun-Lei3, LI Jin-Bao3,* (1.SchoolofPhysicalEducation,HarbinUniversityofCommerce,Harbin150080,China; 2.HarbinNo.3HighSchool,Harbin150001,China;3.SchoolofComputerScienceandTechnology,HeilongjiangUniversity,Harbin150080,China) Using smart phones collect sound and body moving data, and these data are preprocessed, and the combination of feature extraction and feature selection is proposed, which is called TSFS method. Only using a method to select features, there will be some drawbacks. The method is a combination of two methods of feature extraction and feature selection, and not only can be screened out the characteristics of the actual situation, but also improve the accuracy of classification. For the classification of human sleep recognition process, a classifier fusion method of Multi-SVM sleep based on improved binary tree is proposed. Only using one classification method, the classification accuracy is difficult to be improved. The method is combining multiple SVM classifiers into a single branch of the shape of binary tree, and each node of the tree is classified by a two SVM. Not only the accumulation of classification error is reduced, but also the classification accuracy is improved. wearable; sleep monitoring; feature extraction; feature selection; classifier fusion 10.13524/j.2095-008x.2017.03.042 TP391 A 2095-008X(2017)03-0056-015 2017-07-18 國(guó)家自然科學(xué)基金資助項(xiàng)目(61370222);哈爾濱市優(yōu)秀學(xué)科帶頭人資助項(xiàng)目(2015RAXXJ0042015RAXXJ004) 胡 悅(1972-),女,遼寧沈陽(yáng)人,講師,研究方向:體育心理學(xué)、體育管理學(xué)、網(wǎng)絡(luò)群體消費(fèi),E-mail:15804510068@139.com;* 李金寶(1969-),男,黑龍江慶安人,教授,博士,研究方向:無(wú)線傳感器網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)原理、移動(dòng)計(jì)算和并行計(jì)算,E-mail:jbli@hlju.edu.cn。4 基于改進(jìn)二叉樹的Multi-SVM睡眠分類器融合方法
5 實(shí)驗(yàn)結(jié)果和分析
6 結(jié) 論