李玉平, 夏 斌
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
?
樣本不平衡的睡眠數(shù)據(jù)分期研究
李玉平, 夏斌
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
睡眠數(shù)據(jù)中各個階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動分期是一個典型的樣本不平衡的機(jī)器學(xué)習(xí)問題。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數(shù)據(jù)的不同階段的樣本,并且結(jié)合多域特征(時域、頻域、時頻域以及非線性)和隨機(jī)森林分類算法進(jìn)行分類預(yù)測。比較分析了樣本均衡處理和非均衡處理的分類結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類效果。
睡眠分期;數(shù)據(jù)不平衡;隨機(jī)森林
引用格式:李玉平, 夏斌. 樣本不平衡的睡眠數(shù)據(jù)分期研究[J].微型機(jī)與應(yīng)用,2016,35(18):55-57,61.
睡眠是生命過程中必不可少且十分重要的生理現(xiàn)象。依據(jù)國際R&K標(biāo)準(zhǔn)[1],睡眠期可分為快速眼動期、非快速眼動期(S1,S2,S3,S4)以及清醒期,區(qū)別分期主要以眼球是否進(jìn)行了陣發(fā)性快速運(yùn)動為標(biāo)準(zhǔn)。根據(jù)上述睡眠分期標(biāo)準(zhǔn),睡眠數(shù)據(jù)可分為6類,且不同類別的數(shù)據(jù)量之間具有較大的差異性,即睡眠數(shù)據(jù)分期存在樣本不平衡的問題。在應(yīng)用機(jī)器學(xué)習(xí)研究睡眠分期過程中,樣本不平衡會導(dǎo)致睡眠分期結(jié)果不準(zhǔn)確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數(shù)據(jù)特征的提取以及分類算法的選取[2-4],并沒有研究睡眠分期樣本不平衡問題。本文采用EEG、EOG、EMG 3種信號5個通道的睡眠數(shù)據(jù),研究中發(fā)現(xiàn),EOG信號會出現(xiàn)在EEG信號的一些睡眠分期(如清醒狀態(tài)和快速眼動狀態(tài))中,這種數(shù)據(jù)會對睡眠分期產(chǎn)生不好的影響[5]。本文通過對睡眠分期樣本不平衡的研究以及信號混雜的處理,進(jìn)一步提高睡眠分期的準(zhǔn)確度,同時對相關(guān)睡眠疾病的診斷和治療提供重要的參考意義。
基于以上睡眠數(shù)據(jù)分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問題,同時研究睡眠數(shù)據(jù)的特征提取以減少信號混雜對睡眠分期的影響。
1.1特征提取
睡眠數(shù)據(jù)的特征主要劃分為時域特征、頻域特征、時頻域特征以及非線性特征。本文中,提取EEG、EOG和EMG每種信號各38種特征。
特征參數(shù)如下:第1~6種是6個時域特征[6-8]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[8-10]:對4個子節(jié)律波分別提取各自范圍的功率譜能量(SP_),計算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規(guī)范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時頻域特征[8-10]:4個子節(jié)律波在當(dāng)前頻帶范圍上小波系數(shù)的均值、能量、標(biāo)準(zhǔn)差以及相對于總頻帶范圍的絕對平均值;第36~38種特征分別是Petrosian分形指數(shù)、Hurst指數(shù)、排列熵[11-12]。
1.2均衡采樣
睡眠數(shù)據(jù)存在樣本不平衡的問題,在6類的數(shù)據(jù)中,最多一類的數(shù)據(jù)集與最少的一類數(shù)據(jù)集的比例達(dá)到10倍以上,存在嚴(yán)重不平衡現(xiàn)象。本文應(yīng)用均衡采樣的方法處理樣本失衡的問題[13]:(1)分別計算6類睡眠分期數(shù)據(jù)的個數(shù)n1、n2、n3、n4、n5、n6;(2)去掉個數(shù)最少和個數(shù)最多的個數(shù)值,剩余為n1、n2、n3、n4,計算這4類個數(shù)的平均值n;(3)對6類數(shù)據(jù)按個數(shù)平均值n采樣,不足平均個數(shù)的類別重復(fù)采樣,超過平均個數(shù)的類別欠采樣;(4)整合6類數(shù)據(jù)采樣得到的新數(shù)據(jù)集即為均衡處理后的數(shù)據(jù)[4,14]。
1.3隨機(jī)森林分類器
隨機(jī)森林模型是決策樹集成的算法,并且由一隨機(jī)向量決定決策樹的構(gòu)造。通過訓(xùn)練集得到隨機(jī)森林模型后,當(dāng)有一個新的輸入樣本進(jìn)入時,就讓隨機(jī)森林的每一棵決策樹分別進(jìn)行判斷,判斷樣本所屬類別,然后計算哪一個類別被選擇最多,就預(yù)測該樣本所屬的類別。隨機(jī)森林算法特征參數(shù)較多,測試結(jié)果不會出現(xiàn)過擬合的情形;能夠處理高維度特征的睡眠數(shù)據(jù),不用做特征選擇,對數(shù)據(jù)集的適應(yīng)能力強(qiáng);訓(xùn)練速度快,能夠檢測不同特征之間的影響[13,15]。
隨機(jī)森林實現(xiàn)過程為:(1)原始訓(xùn)練集為N,采用集成算法有放回地隨機(jī)選取k個樣本集構(gòu)建k棵分類樹,每次沒有被抽到的樣本組成k個袋外數(shù)據(jù);(2)設(shè)定mall變量,在每棵樹的每個節(jié)點(diǎn)處隨機(jī)抽取mtry個變量(mtry,n,mall),然后在mtry中選擇一個最佳的分類變量,變量分類的閾值通過檢查每一個分類點(diǎn)確定;(3)每一棵樹最大限度地生長,不做任何修剪;(4)將構(gòu)造的多棵分類樹組成隨機(jī)森林,用隨機(jī)森林分類器對新的數(shù)據(jù)進(jìn)行判別與分類,分類的結(jié)果按樹分類器投票數(shù)確定。
2.1數(shù)據(jù)
本文采用9名受試者的睡眠數(shù)據(jù)來驗證分類方法和數(shù)據(jù)不平衡處理的可行性。數(shù)據(jù)集記錄了這9名志愿者一晚上的睡眠數(shù)據(jù),以1~9命名這些數(shù)據(jù)集。數(shù)據(jù)包含15個通道的睡眠時的信號數(shù)據(jù)以及呼吸頻率和身體溫度。對應(yīng)的EEG、EOG、EMG信號按100 Hz進(jìn)行采樣。數(shù)據(jù)集處理部分,分別進(jìn)行了7/3分和留一方法,采用這兩種方法驗證睡眠分期樣本不平衡的處理效果。
2.2數(shù)據(jù)預(yù)處理
首先采用巴特沃夫濾波器提取原始睡眠數(shù)據(jù)中0.01~35 Hz的數(shù)據(jù),并應(yīng)用高斯歸一化方法對數(shù)據(jù)進(jìn)行歸一化處理。由于采樣的睡眠數(shù)據(jù)可能存在標(biāo)簽不正確的問題,因此會剔除不正確的標(biāo)簽數(shù)據(jù)。具體方法是,首先找出空標(biāo)簽或標(biāo)簽異常(不在已有類別中的標(biāo)簽),根據(jù)標(biāo)簽對應(yīng)的位置,剔除這些標(biāo)簽對應(yīng)的數(shù)據(jù)集,最后更新數(shù)據(jù)集。采用以上方法進(jìn)行數(shù)據(jù)預(yù)處理之后,得到7 461條數(shù)據(jù)。
2.3均衡采樣數(shù)據(jù)
經(jīng)預(yù)處理和特征提取之后,對9個受試者的數(shù)據(jù)進(jìn)行整合,數(shù)據(jù)總量為59 680。采用7/3分?jǐn)?shù)據(jù)集,即70%數(shù)據(jù)做訓(xùn)練集,30%數(shù)據(jù)做測試集,訓(xùn)練集數(shù)據(jù)量為41 773,測試集數(shù)據(jù)量為17 907。為了驗證均衡采樣的可行性,對訓(xùn)練集做均衡處理,得到22 465條新的訓(xùn)練集。
2.4結(jié)果
本文第一種驗證方法是7/3數(shù)據(jù)集,結(jié)果如下:表1是所有數(shù)據(jù)集7/3分,對訓(xùn)練集進(jìn)行均衡處理的分類結(jié)果準(zhǔn)確率;表2是均衡采樣數(shù)據(jù)集和普通數(shù)據(jù)集分類結(jié)果對比;表3是不同信號組合,均衡采樣分類結(jié)果對比。
表1 均衡處理測試結(jié)果
表2 分類結(jié)果對比 (%)
表3 不同信號組合分類結(jié)果對比 (%)
圖1 均衡處理留一驗證準(zhǔn)確率
第二種驗證方法是對9個受試者的數(shù)據(jù)集進(jìn)行留一驗證。分別提取其中8個受試者的數(shù)據(jù)集作為訓(xùn)練集做均衡處理,剩下1個受試者的數(shù)據(jù)集作為測試集。分類結(jié)果如圖1所示。
由表1得知,同時考慮EEG、EOG、EMG 3種信號5個通道的數(shù)據(jù)集,得到的分類準(zhǔn)確率達(dá)到84.33%,wake類別的分類準(zhǔn)確率最高,模型對wake類別的泛化能力最好,而S1類別數(shù)據(jù)量最少,同時分類效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類睡眠分期結(jié)果得到了提升,S4基本一致,S2的結(jié)果降低了。由表3知:提取一種信號EEG時,睡眠分期準(zhǔn)確率比同時提取多種信號時的準(zhǔn)確率低。由圖1留一驗證知,2、5、9號受試者睡眠分期的結(jié)果達(dá)到了80%以上,分類效果較好;3、6號受試者睡眠分期準(zhǔn)確率較低。
本研究采用了EEG、EOG、EMG 3種信號5個通道數(shù)據(jù)集,并且應(yīng)用均衡采樣的方法處理訓(xùn)練集數(shù)據(jù)不平衡問題,睡眠分期結(jié)果較好,平均分類準(zhǔn)確率得到了提升,并且有4個睡眠分期的分類結(jié)果都得到了提升。在今后對睡眠分期樣本不平衡的研究中,可以采用加權(quán)隨機(jī)森林或其他的方法處理睡眠數(shù)據(jù)集不平衡的問題。
[1] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.
[2] 李谷,范影樂,龐全.基于排列組合熵的腦電信號睡眠分期研究[J].生物醫(yī)學(xué)工程學(xué)志,2009,26(4):869-872.
[3] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.
[4] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.
[5] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.
[6] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.
[7] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.[8]EN B, PEKER M, A ?AVULU A, et al. A comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.
[9] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.
[10] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.
[11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.
[12] PEREDA E, GAMUNDI A, RIAL R, et al. Non-linear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.
[13] 毛文濤,王金婉,等.面向貫序不均衡數(shù)據(jù)的混合采樣極限學(xué)習(xí)機(jī)[J].計算機(jī)應(yīng)用,2015, 35(8):2221-2226.
[14] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.
[15] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5-32.
Research on the stage of sleep data with imbalanced sample
Li Yuping, Xia Bin
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)
Sleep data in each stage is different, and the automatic staging of sleep data is a typical problem of sample imbalance.Balanced sampling method balances samples by sampling, and it is the main method to solve the problem of sample imbalance.In this paper, we use a balanced sample method to balance the different stages of sleep data in a sample,and combine multi domain features (time domain, frequency domain, time domain and nonlinear) with random forest classification algorithm for classification and prediction.We compare the classification results of sample equalization processing and non equalization processing, and find that the better classification results are obtained after balancing the processed data.
sleep stage;data imbalance;random forest
TP391.9
ADOI: 10.19358/j.issn.1674- 7720.2016.18.016
2016-04-18)
李玉平(1990-),通信作者,男,碩士研究生,主要研究方向:智能信息處理。E-mail:liyuping_love@126.com。
夏斌(1975-),男,博士,副教授,碩士生導(dǎo)師,主要研究方向:腦-機(jī)接口、云計算及人工智能。