李令環(huán), 奚崢皓, 曹 樂(lè), 張文艷
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
早期睡眠分期主要是通過(guò)專(zhuān)家進(jìn)行手動(dòng)分期,由于不同睡眠時(shí)期之間的相似性較高,導(dǎo)致不同專(zhuān)家的判讀結(jié)果一致性只有83 %左右。針對(duì)人工睡眠分期效率低、準(zhǔn)確性不高的問(wèn)題,研究人員提出自動(dòng)分期的方法。睡眠自動(dòng)分期模型大多是由一個(gè)睡眠特征空間再結(jié)合機(jī)器學(xué)習(xí)算法組成?,F(xiàn)階段睡眠特征提取大多是基于時(shí)域[1]、頻域和非線(xiàn)性特征[2]。其中,使用較多的機(jī)器學(xué)習(xí)算法有決策樹(shù)(decision tree,DT)[3]、隨機(jī)森林(random forest,RF)[4]、支持向量機(jī)(support vector machine,SVM)[5]等。
睡眠腦電(electroencephalography,EEG)是研究人腦活動(dòng)以及診斷和監(jiān)測(cè)神經(jīng)系統(tǒng)疾病的重要來(lái)源。其中,中樞性睡眠呼吸暫停和額葉癲癇等疾病常見(jiàn)于N1期與N2期,許多神經(jīng)系統(tǒng)疾病(如帕金森氏病)則多出現(xiàn)在REM期。因此,N1期與REM的檢測(cè)在睡眠分期中具有特殊的意義。但是,N1期的低識(shí)別率是眾多分期模型普遍存在的問(wèn)題,一方面是N1期比其他時(shí)期樣本量少,另一方面是N1期與REM期背景波相似,二者存在非線(xiàn)性特征混疊現(xiàn)象[6],這就導(dǎo)致易將N1期誤分類(lèi)為REM期。研究人員正在設(shè)計(jì)出越來(lái)越多細(xì)粒度的特征信號(hào)解決這一問(wèn)題。
睡眠EEG具有非平穩(wěn)性和易受噪聲擾動(dòng)的特性[7]。因此,在進(jìn)行分期前,本文提出一種基于符號(hào)化振幅差值(symbolic amplitude difference,SAD)的預(yù)處理方法,并對(duì)符號(hào)化結(jié)果計(jì)算排列熵 (permutation entropy,PE)。接著將符號(hào)化重構(gòu)子向的均值作為權(quán)重加入到PE的計(jì)算,得到符號(hào)化振幅差值排列熵(SAD-PE),并給出影響SAD-PE特異性的尺度因子的計(jì)算模型。然后提取31個(gè)多域特征,并通過(guò)ReliefF算法計(jì)算SAD-PE和31個(gè)特征的貢獻(xiàn)度排名并降維。最后選擇貢獻(xiàn)度累積超過(guò)90 %的特征組合送入分類(lèi)器中進(jìn)行自動(dòng)分期。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自Sleep-EDF數(shù)據(jù)庫(kù)。SC庫(kù)的數(shù)據(jù)(sc4002e0,sc4012e0,sc4102e0和sc4112e0)是包括受試者全天活動(dòng)的數(shù)據(jù),而ST庫(kù)的數(shù)據(jù)(st7022j0,st7052j0,st7121j0和st7132j0)則是在醫(yī)院采集的整晚睡眠數(shù)據(jù)。由于頂尖波是N1期的一個(gè)標(biāo)志,而在中樞/額葉腦區(qū)經(jīng)常出現(xiàn)頂尖波,并且睡眠EEG中的大部分節(jié)律可以在Fpz-Cz通道捕捉,因此,本文選擇Fpz-Cz通道的數(shù)據(jù)進(jìn)行睡眠分期。該數(shù)據(jù)集中W,N1,N2,N3和REM期占比大約為68 %,2.6 %,16.7 %,5.4 %和7.2 %[8]。本文將數(shù)據(jù)庫(kù)中SC和ST庫(kù)中的樣本分別標(biāo)記為SC1,SC2,SC3,SC4和ST1,ST2,ST3,ST4,表1列出了本文使用的實(shí)驗(yàn)數(shù)據(jù)。
表1 各睡眠時(shí)期的數(shù)量
隨著睡眠深度的增加,大腦活動(dòng)由強(qiáng)變?nèi)?圖1為5個(gè)睡眠階段振幅差值(amplitude difference,AD)的計(jì)算結(jié)果。
圖1 各睡眠階段的AD
由圖1可知,REM期的AD基本在20 μV以下。而N1期,超過(guò)20的點(diǎn)明顯多于REM期。為了更好地描述AD的分布,本文設(shè)置閾值T,統(tǒng)計(jì)各睡眠階段AD大于T的點(diǎn)的個(gè)數(shù),記為n。本文將閾值設(shè)置在20附近,步長(zhǎng) 1,逐點(diǎn)統(tǒng)計(jì)不同閾值下n的平均值。
結(jié)果顯示,N1期與REM期在不同閾值下呈現(xiàn)出較為明顯的差別。在T>21時(shí),REM期n的個(gè)數(shù)出現(xiàn)小于1的情況,而N1期仍存在較多大于21 μV的點(diǎn)。本文提出用SAD-PE 進(jìn)一步刻畫(huà)這一特性。具體計(jì)算過(guò)程為:假設(shè)睡眠EEG信號(hào)X=(X1,X2,…,Xn),n=1,2,3,…,N,其中,N=3 000,對(duì)睡眠EEG相鄰兩點(diǎn)求差并取絕對(duì)值得到AD。然后將AD進(jìn)行符號(hào)化,公式如下
(1)
本文取比例因子a調(diào)整AD的帶寬。a的選取一定程度上決定了SAD-PE的特異性。假定符號(hào)化后的EEG為Xi=(x1,x2,…,xn),n=1,2,3,…,N。當(dāng)嵌入維數(shù)為m時(shí),對(duì)符號(hào)化結(jié)果進(jìn)行相空間重構(gòu)可得到
i=1,2,…,N-(m-1)
(2)
(3)
(4)
Pwi=Pi×wi
(5)
(6)
式中 log以2為底,HSAD-PE(m)達(dá)到最大值時(shí)為log(4m),將HSAD-PE(m)進(jìn)行標(biāo)準(zhǔn)化,得到SAD-PE
(7)
傳統(tǒng)PE計(jì)算時(shí),建議取3,4,5,6,7[9]。計(jì)算SAD-PE時(shí),取m=3(43=64),排列模式數(shù)量少,無(wú)法全面表征EEG的振幅波動(dòng)性,取m=7(47=16 384)沒(méi)有意義,因此,本文給出當(dāng)m取4,5,6時(shí),ST1連續(xù)1 h睡眠EEG的SAD-PE曲線(xiàn),如圖2所示。
圖2 不同m值下的SAD-PE曲線(xiàn)
當(dāng)m取4,5,6時(shí),基本上不影響整體變化趨勢(shì),為了提高計(jì)算速度,取m=4。本文將8個(gè)樣本在α取不同值時(shí),得到的SAD-PE繪制如圖3、圖4。
圖3 SC樣本在a取不同值時(shí)的SAD-PE
圖4 ST樣本在a取不同值時(shí)的SAD-PE
SC樣本與ST樣本總體趨勢(shì)表現(xiàn)出一致性,均隨著睡眠深度的增加,SAD-PE逐漸變小,這符合大腦活動(dòng)由強(qiáng)變?nèi)醯纳磉^(guò)程。為了確定a為何值時(shí),SAD-PE在睡眠各期,尤其是在N1期與REM期特異性最高,本文結(jié)合現(xiàn)階段研究成果中[8,10]的混淆矩陣,定義評(píng)價(jià)指標(biāo)(evaluation index,EI)
EI=W1×|HSAD-PEN1-HSAD-PEREM|+W2×|HSAD-PEN1-HSAD-PEN2|+
W3×|HSAD-PEN2-HSAD-PEN3|+W4×|HSAD-PEN2-HSAD-PEREM|
(8)
為減小數(shù)據(jù)不平衡對(duì)分類(lèi)準(zhǔn)確度的影響,W1,W2,W3,W4的值根據(jù)睡眠時(shí)期數(shù)量占比確定。本文以W1為例
(9)
(10)
同理求出W2,W3,W4。本文W1,W2,W3,W4分別取0.500 6,0.077 8,0.240 9,0.180 7。基于式(8),計(jì)算樣本的EI平均值,如表2所示。
表2 a取不同值時(shí)EI的平均值
在a=0.7時(shí),各樣本EI值均處于前2名,本文在后續(xù)特征提取時(shí),取a=0.7。
本文從時(shí)域、頻域、時(shí)頻和非線(xiàn)性4個(gè)方面提取31個(gè)特征,加入a=0.7時(shí)的SAD-PE,一共32個(gè)特征用于自動(dòng)分期。本文用ReliefF算法驗(yàn)證SAD-PE的貢獻(xiàn)度并進(jìn)行特征降維。在ReliefF算法運(yùn)行50次后,結(jié)果顯示,排名靠前的20維特征向量累積貢獻(xiàn)量達(dá)90.65 %。為了提高計(jì)算效率,本文選擇20維特征向量進(jìn)行模式識(shí)別。將20維特征重新用ReliefF算法運(yùn)行50次,表3給出了具體特征和歸一化的特征貢獻(xiàn)度值。
表3 特征和特征貢獻(xiàn)度值對(duì)照表
其中,D4—1,D4—3,D5—(1—4)表示基于Daubechies小波分解的睡眠EEG信號(hào)的D4,D5層細(xì)節(jié)子頻帶系數(shù)。本文提出的SAD-PE的特征貢獻(xiàn)度排名靠前,表明其能夠作為睡眠自動(dòng)分期的有效特征。
使用召回率Rec、精度Pre,F1-Score(F1)三個(gè)指標(biāo)來(lái)評(píng)價(jià)各個(gè)睡眠時(shí)期的性能。用K系數(shù)和準(zhǔn)確性Acc評(píng)價(jià)整體分類(lèi)性能,公式如下
(11)
(12)
(13)
(14)
(15)
式中TP,TN,FP和FN分別為真陽(yáng)性,真陰性,假陽(yáng)性和假陰性。假設(shè)每類(lèi)的真實(shí)樣本個(gè)數(shù)為T(mén)1,T2,…,TN,而預(yù)測(cè)每類(lèi)樣本的個(gè)數(shù)為P1,P2,…,PN,總樣本個(gè)數(shù)為N,則Pe計(jì)算公式如下
(16)
在8個(gè)樣本的睡眠EEG中截取5 760組數(shù)據(jù)作為本文數(shù)據(jù)集。每次隨機(jī)抽取3 840組數(shù)據(jù)作為訓(xùn)練集,其余1 920組數(shù)據(jù)作為測(cè)試集,將表3中的20個(gè)特征輸入到C4.5,RF和SVM中進(jìn)行分類(lèi)測(cè)試。經(jīng)過(guò)10 次驗(yàn)證,將結(jié)果最佳的1組如表4~表6。由表可知:C4.5、RF、SVM分類(lèi)的Acc分別為85.68%,87.50%,86.72%,Kappa分別為80.31 %,82.54 %,81.84 %。
表4 C4.5分類(lèi)結(jié)果混淆矩陣
表5 RF分類(lèi)結(jié)果混淆矩陣
表6 SVM分類(lèi)結(jié)果混淆矩陣
其中,識(shí)別率最高的是W期,準(zhǔn)確度都在90 %以上,因?yàn)閃期腦電活動(dòng)豐富,本文提出將子向量的均值作為權(quán)重加入到SAD-PE的計(jì)算中,擴(kuò)大了W期與其它時(shí)期的差異性。 N2期、N3期和REM期準(zhǔn)確度和都在85 %以上,因?yàn)镹2和N3期的特征波形為振幅最大的睡眠紡錘波,而REM期因?yàn)殇忼X波的存在,導(dǎo)致REM期AD在一個(gè)相對(duì)平穩(wěn)的范圍,使得N1期、N2期和N3期的SAD-PE都大于REM期。N1期的分類(lèi)準(zhǔn)確度在50 %以上,相較于其他時(shí)期識(shí)別率較低。但是,本文所提方法在N1時(shí)期的分類(lèi)準(zhǔn)確度仍高于列表7中列出的其他模型。
表7 N1期分期準(zhǔn)確度比較 %
對(duì)比實(shí)驗(yàn)中,3個(gè)分類(lèi)器中表現(xiàn)最好的是RF,其為87.50 %,為82.54 %,本文將RF的結(jié)果與相同實(shí)驗(yàn)條件下的已有分期模型進(jìn)行對(duì)比,如表8所示。
表8 結(jié)果對(duì)比 %
本文的Acc和Kappa略高于現(xiàn)有成果。值得一提的是在N1期的分類(lèi)準(zhǔn)確度明顯高于其他模型,歸因于本文對(duì)PE的改進(jìn)。首先,在確定值時(shí),結(jié)合誤分類(lèi)程度和原始數(shù)據(jù)占比給出EI的計(jì)算模型,一定程度上減小了數(shù)據(jù)不平衡對(duì)分類(lèi)結(jié)果的影響;其次,考慮到N1期大腦仍處于比較活躍的狀態(tài),AD變化較REM期更明顯,且REM期出現(xiàn)的鋸齒波使得AD分布在較小范圍,提出將重構(gòu)子向量的均值作為權(quán)重更新PE的計(jì)算結(jié)果,從而擴(kuò)大N1期與REM期的差異,一定程度上解決了N1期與REM期在非線(xiàn)性特征提取時(shí)出現(xiàn)特征值混疊的問(wèn)題。
提出一種SAD的預(yù)處理方法,將睡眠EEG相鄰兩點(diǎn)的振幅差值進(jìn)行4符號(hào)化。并針對(duì)傳統(tǒng)PE算法只保留重構(gòu)子向量順序結(jié)構(gòu)、丟失波形振幅信息的問(wèn)題,提出將重構(gòu)子向量均值作為權(quán)重,添加到PE的計(jì)算中,得到SAD-PE。然后,結(jié)合8位受試者的真實(shí)睡眠EEG繪出不同值下的SAD-PE,并給出了影響SAD-PE特異性的計(jì)算模型。利用ReliefF算法驗(yàn)證SAD-PE的有效性并進(jìn)行降維,將降維后的20個(gè)特征送入3種分類(lèi)器中進(jìn)行自動(dòng)分期。結(jié)果表明,本文所提基于SAD-PE的自動(dòng)睡眠分期模型可以有效地表征睡眠EEG的振幅波動(dòng)性,并且對(duì)N1期的識(shí)別準(zhǔn)確度高于現(xiàn)有方法,給分析N1期與REM期相關(guān)的異態(tài)睡眠提供了新的思路,具有較好的應(yīng)用前景。