陳玲玲,畢曉君
(1.哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001;2.中央民族大學 信息工程學院,北京 100081)
睡眠分期是睡眠監(jiān)測領域的一項基礎研究,通過對睡眠時期進行劃分,可以幫助醫(yī)學專家更好地認識睡眠結構,并為失眠、嗜睡等相關睡眠疾病的診斷與治療提供依據(jù)。AASM 標準[1]指出,睡眠可分為清醒期(wake,W)、非快速動眼期(non-rapid eye movements,NREM)和快速動眼期(rapid eye movements,REM)。NREM 又被細分為N1、N2、N3 期[2]。而睡眠多導圖(polysomnogram,PSG)被稱為睡眠分期的“黃金標準”,其包含睡眠過程中腦電(electroencephalogram,EEG)、眼電(electrooculogram,EOG)、肌電(electromyography,EMG)等信號的記錄。通過綜合分析睡眠多導圖中的各模態(tài)信息,能實現(xiàn)睡眠階段的劃分[1],但耗費了睡眠專家大量時間和精力,因此睡眠多導圖的分期任務成為了熱點問題[3]。
通過非線性時域、頻域分析等操作可實現(xiàn)睡眠PSG 特征的提取[4],利用支持向量機等技術進行分類,但易出現(xiàn)錯分,且模型泛化能力不高[5]。近年來深度學習在圖像領域取得突破性進展,結合深度學習利用睡眠PSG 進行睡眠分期研究逐漸成為研究的熱點。一些在圖像領域取得顯著效果的模型如VGG[6]、ResNet[7]、膨脹卷積[8]、深度可分離卷積[9]等都被應用到睡眠分期中,取得了較好的效果。但是,由于輸入模態(tài)的多樣性與差異性,如何實現(xiàn)多模態(tài)信息的有機融合成為亟待解決的問題。目前睡眠分期領域最常用的模態(tài)融合方法分別是從數(shù)據(jù)[10-14]和特征[15]兩個角度進行融合。Phan 等[10]從數(shù)據(jù)融合的角度,將PSG經短時傅里葉變換為含EEG、EOG 信息的多通道時頻圖,然后利用2 維卷積神經網絡提取時不變特征。除此之外,小波變化[11]、希爾伯特變換[12]等方法也被應用到了睡眠分期中。這種方法雖然綜合考慮了多模態(tài)的信息,但是轉換為時頻圖時會丟失關鍵的時域信息[13]。隨后,從特征角度進行融合的方法成為主流,其中代表性的有Duan等[15]利用卷積神經網絡提取各個模態(tài)的時不變特征,利用多模態(tài)聯(lián)合網絡實現(xiàn)睡眠分期。
雖然從特征角度進行模態(tài)融合的實驗效果優(yōu)于從數(shù)據(jù)角度融合,但是沒有充分考慮各模態(tài)在不同時期的差異性,而主要依據(jù)了EEG 特征,例如在REM 期會出現(xiàn)明顯的眼球運動,EOG 信號更為重要。
本文針對睡眠PSG 中各模態(tài)特征存在差異性導致的特征融合不充分的問題,主要進行了如下工作:
1)設計了一種基于通道注意力機制的睡眠PSG 的不變提取特征網絡,根據(jù)各通道特征的重要性對模態(tài)特征進行重標定,得到睡眠多導圖的時不變特征;
2)設計了一種基于自適應門控機制的多模態(tài)門控模塊,對各模態(tài)特征及時不變特征按照重要性程度進行加權融合;
3)利用睡眠分期最常用的Sleep-EDF 數(shù)據(jù)集的多導圖數(shù)據(jù)設計20 折交叉驗證實驗,通過與對比算法比較,證明了算法具有一定的有效性和先進性。
基于通道注意力機制和多模態(tài)門控機制的睡眠分期模型如圖1 所示,首先利用各模態(tài)特征提取網絡分別提取不同模態(tài)的高維特征,并利用通道注意力機制對在通道維度上拼接的各模態(tài)高維特征進行重標定,得到睡眠多導圖的時不變特征,然后設計多模態(tài)門控模塊實現(xiàn)不同模態(tài)特征的融合,得到能充分表征各模態(tài)信息的融合特征,最后,將其輸入到時序特征提取網絡中,提取信號的時序特征。下面將詳細介紹本文所設計的模型框架。
圖1 基于多模態(tài)融合的睡眠分期網絡結構Fig.1 Network structure of sleep staging based on multimodal fusion
針對PSG 中各模態(tài)信號中含有噪聲的問題,本文首先利用殘差收縮網絡設計各個模態(tài)的特征提取網絡,然后利用通道注意力機制學習不同模態(tài)特征間的相關性,進而得到睡眠多導圖的時不變特征,本文采用的時不變特征提取網絡如圖2所示。
圖2 時不變特征提取網絡Fig.2 Architecture of time-invariant feature extraction
首先利用各模態(tài)特征提取網絡分別提取不同模態(tài)的高維特征,分別將每個模態(tài)信息輸入到卷積尺度為30,步長為6 的1 維卷積提取原始信號的低維特征。然后利用2 個并行的最大池化層實現(xiàn)下采樣,提取不同尺度的關鍵信息。
利用殘差收縮網絡去除融合特征的冗余信息[16],殘差收縮網絡結構如圖3 所示,進而得到每個模態(tài)信息的高維抽象特征。
圖3 殘差收縮網絡Fig.3 Residual shrinkage network
由圖3 可知,殘差收縮網絡由ResNet 網絡(residual neural network)、閾值學習網絡和軟閾值化函數(shù)組成。利用ResNet 學習抽象特征表示,然后通過閾值學習網絡學習反映信息重要程度的閾值,其中閾值學習網絡的表達式為
式中 α表示由全連接層和Sigmoid 函數(shù)得到的權值。通過閾值學習網絡可以確保 τ是一個很小的正實數(shù)。然后利用軟閾值化函數(shù)將特征中不重要的信息置為0,其中軟閾值化函數(shù)是小波降噪算法中的核心步驟,其表達式為
通過軟閾值化函數(shù)的引入,可以有效地增強有效的信息,抑制冗余的信息,進而消除信號中噪聲的影響,得到高效的各模態(tài)抽象特征表示。
將各模態(tài)的抽象特征在通道維度上進行拼接,如式(3)所示,得到初步融合特征。
式中:ZF,ZP,ZO,ZM∈Rl×C,代表各個模態(tài)特征,l為特征圖的尺度,C為輸出濾波器的個數(shù);Z代表拼接特征,Z∈Rl×nC,n代表模態(tài)的個數(shù)。
隨后利用通道注意力機制學習不同通道特征間的相關性。本文利用SE-ResNeXt 模塊[17]根據(jù)不同通道特征重要程度對特征進行整合。其中,SE-ResNeXt 由ResNeXt 和SENet (squeeze and excitation network)兩部分組成,如圖4 所示。殘差網絡通過增加模型深度和寬度來提高特征提取的質量,但會造成模型參數(shù)量增加、計算開銷增加的問題,ResNet 在此基礎上引入了基數(shù)的超參數(shù),即卷積支路的個數(shù)。通過增加基數(shù),在不增加網絡參數(shù)量的前提下有效提高了模型的特征提取能力。
圖4 SE-ResNeXt 結構Fig.4 Architecture of SE-ResNeXt
SENet 通過自適應獲得各個通道特征的重要程度,對輸出特征進行重標定,進而提升有用的通道特征,抑制重要程度低的特征。圖中l(wèi)為特征圖尺度,c為通道數(shù),ratio 為特征維度縮放比。SENet 分別經過壓縮和激勵變換,建模各通道特征的重要權重,最后各通道特征逐點相乘的操作將歸一化的權重加權到輸入特征中,得到含通道重要程度的特征向量。式(4)~(6)分別給出了壓縮、激勵、加權的公式。
式中:W1和W2分別代表兩個全連接層的權重;δ代表ReLu 函數(shù);σ代表Sigmoid 函數(shù);Fsq、Fex、Fscale分別代表壓縮、激勵和尺度變換的效果。
多模態(tài)學習中模態(tài)融合對模型性能有很大的影響,為了充分發(fā)揮不同模態(tài)間的差異性[18],本文模擬人工判讀以關鍵信號為主,其他信號為輔的判讀模式,引入了多模態(tài)門控模塊,建模各個模態(tài)特征對于睡眠分期任務的重要程度,通過自適應門控機制[19]對不同模態(tài)特征按照重要程度進行加權,根據(jù)不同模態(tài)特征的組合自適應地找到更適合睡眠分期任務的特征表示。設計的多模態(tài)門控模塊如圖5 所示。圖中Zv為睡眠多導圖的時不變特征,ZF、ZP、ZO、ZM分別為各模態(tài)高維抽象特征表示。
圖5 多模態(tài)門控模塊Fig.5 Multimodal gating module
將睡眠多導圖的時不變特征分別首先經過全局平均池化層得到全局信息,然后經過兩層全連接層和Sigmoid 函數(shù)增加特征的非線性,通過式(7)~(10)分別學習各個模態(tài)特征的權重,然后通過式(11)得到輸出特征的最優(yōu)組合,尋找對于輸出貢獻度最大的各個模態(tài)的特征組合,進而得到更豐富的融合特征表示。
睡眠PSG 是一種時序信號,相鄰樣本間具有時序相關性。在對t時刻的樣本進行分期時,可以利用t-1 和t+1 時刻的特征或分期結果輔助進行t時刻樣本階段的分類。
本文利用雙向長短時記憶網絡(bi-directional long short-term memory,Bi-LSTM)[20]設計時序特征提取網絡。與長短時記憶網絡只能學習序列前向傳播規(guī)律不同的是Bi-LSTM 分別由一個前向傳播和一個反向傳播的LSTM 組成,保證了時序特征提取網絡既可以學習前向傳播規(guī)律,還可以學習序列的反向傳播規(guī)律。最后將Bi-LSTM 學習到的時序特征與多模態(tài)特征進行融合得到睡眠PSG 的時序特征,得到的時序特征表達式為
為了驗證本文創(chuàng)新工作的有效性和先進性,進行了3 個方面的實驗:1)分別利用PSG 中不同的模態(tài)組合設置相關實驗,進而驗證本文利用多模態(tài)信號進行睡眠分期的有效性,并且得到最優(yōu)的模態(tài)組合;2)設計不同初步融合方式的對比實驗,驗證本文采用SE-ResNeXt 進行特征重標定的有效性;3)將本文提出的MSN 算法與4 種先進的方法進行對比,驗證本文算法的先進性。
利用Sleep-EDF 數(shù)據(jù)集[21]設計相關的實驗共包括39 個完整夜晚的PSG 記錄。每個PSG 包含個兩模態(tài)的EEG,分別是Fpz-Cz 和Pz-Cz,一個模態(tài)的EOG 和一個模態(tài)的EMG[22]。每個樣本都已由睡眠專家標記為W、N1、N2、N3、N4、REM,根據(jù)AASM 標準將N3 和N4 合并為N3。最后,W、N1、N2、N3、REM 各個類別的樣本量分別為7 927、2 804、17 799、5 703、7 717,共41 950 個樣本。
本文所有實驗均是在64 位的Ubuntu16.04 系統(tǒng)中進行,采用的深度學習框架為tensorflow 1.14.0,在訓練過程中利用GeForce RTX 980Ti 顯卡進行加速,并且采用python3.5 編程語言完成代碼的編寫。
優(yōu)化過程中采用Adam 函數(shù),學習率設為0.001,序列學習過程中batch size 為25,子序列長度為10,ResNeXt 中的基數(shù)設置為8,ratio 設置為4。利用丟失率為0.5 dropout 層來防止過擬合。進行20折交叉驗證,按19∶1 劃分訓練集和驗證集。
采用分數(shù)(macro-averagingF1-score,)、整體準確率(overall-accuracy,ACC)作為評價指標,具體公式為
式中:N代表樣本總數(shù);C代表類別總數(shù);代表類別i的F1分數(shù),即
由于EEG 是睡眠分期的主要判讀依據(jù),在驗證利用多模態(tài)信息有效性時選擇在EEG 的基礎上加入不同模態(tài)的數(shù)據(jù),驗證不同模態(tài)數(shù)據(jù)對睡眠分期的影響。得到的結果如表1 所示,表中1 代表兩個模態(tài)的EEG 組合,2 代表兩個模態(tài)EEG 加EOG 的組合,3 代表兩個模態(tài)EEG 加EOG 加EMG 的組合。
表1 多模態(tài)信息有效性驗證Table 1 Verification of the multimodal information %
從表1 中可以看出,僅用兩模態(tài)EEG 進行睡眠研究時平均準確率為86.1%,為80.3%,但是當加入眼電信號后平均準確率達到了87.3%,相較于僅利用腦電信號提高了1.4%,達到了81.4%,提高了1.4%。并且由于快速眼動是REM 期的典型特征,在加入眼電信號后,REM 期的F1有了較大的提升,提升了2.0%,同時對于W 期、N1 期、N2期也有了一定的提升,說明眼電的加入可以有效地豐富信息特征,增強模型對于睡眠各階段的識別能力。在腦電、眼電信號的基礎上加入肌電后,平均準確率達到了87.6%,與利用腦電和眼電相比提升了0.3%,達到了82%,提升了0.7%,說明肌電信號的加入進一步豐富了信息特征,可以讓網絡模型學習到更豐富的分期特征,特別是肌肉運動明顯的時期如W 和N1 期的識別精度有了明顯的提升,其中W 期的F1提升了1.3%,N1 期的F1提升了2.8%,說明肌電信號的加入有效地增大了W、N1 期與其他類別的階段差異性,進而提高了網絡模型的分期性能。綜上證明了同時利用EEG、EOG、EMG 可以得到更好的睡眠分期結果。
本文將各模態(tài)特征在通道維度上進行拼接,然后利用通道注意力機制對拼接特征進行重標定的方式實現(xiàn)各模態(tài)的初步融合,為了進一步驗證該方法的有效性,分別與逐點相加、通道拼接的特征融合方式進行對比,表2 分別給出了不同融合方式得到的分期結果。從表2 中可以看出,采用各通道特征逐點相加進行特征融合的整體準確率為86.4%,為80.4%,但是將特征融合的方式變?yōu)樵谕ǖ谰S度上拼接后,準確率提高了0.5%,提高了1.1%,證明利用在通道維度上拼接的方式能夠更好地利用不同特征之間的差異性,進而得到更充分的初步融合特征。隨后加入通道注意力機制后準確率提高了0.9%,提高了0.8%,并且各個類別的F1都有了一定的提高,進而證明了本文采用SE-ResNeXt 對特征按照通道重要性權重進行重標定,能夠讓特征融合得更充分,進而驗證了本文采用通道維度拼接和SE-ResNeXt 對特征進行初步融合的有效性。
表2 特征融合方式有效性驗證Table 2 Verification of modal fusion %
為了驗證本文算法的先進性與目前4 種先進的算法進行對比,表3 給出了對比結果。
表3 算法先進性驗證Table 3 Verification of algorithm advancement %
從表3 中可以看出,本文提出的模型的平均準確率為87.6%,為82.0%,均高于目前先進的對比算法,并且除N1 期外,各個類別的F1分數(shù)均取得了最優(yōu)的水平,證明本文算法能夠充分學習不同睡眠階段的特征,取得了優(yōu)異的睡眠分期性能,進而證明了本文算法的先進性。
采用混淆矩陣對本文提出的算法進行可視化操作。圖6 給出了本文算法利用兩個模態(tài)EEG、一個模態(tài)EOG 和一個模態(tài)EMG 達到的最好分類效果時的混淆矩陣。圖中每一行代表實際標簽為該類別的樣本數(shù),每一列代表預測為該類別的樣本數(shù),并且顏色越深代表預測為該類別的樣本數(shù)越多。從混淆矩陣中可以看出,本文利用所提出的多模態(tài)融合的方法進行睡眠分期研究,大多數(shù)樣本都能被正確分類,并且主要的錯分出現(xiàn)在相鄰階段的樣本中,這主要是因為轉換階段的樣本特征中存在一定的中和,甚至睡眠專家也無法對轉換期的樣本進行正確分類,導致模型學到的轉換期特征邊界較模糊,進而造成了錯分主要出現(xiàn)在相鄰階段轉換期的樣本。由于睡眠本身的特征,N1 期存在時間短于其他時期,樣本量較小,所以N1 期的F1低于其他類別。
圖6 混淆矩陣Fig.6 Confusion matrix
本文為了充分利用睡眠PSG 中各模態(tài)信息,利用通道注意力機制和多模態(tài)門控機制設計了基于多模態(tài)融合的睡眠分期模型。首先利用殘差收縮網絡設計各模態(tài)特征提取網絡提取各個模態(tài)的高維特征,并將各個模態(tài)的高維特征在通道維度上進行融合得到初步融合特征,然后利用SE-Res-NeXt 根據(jù)各通道信息的重要性程度對特征進行重標定,得到睡眠多導圖的時不變特征。然后輸入到多模態(tài)門控模塊中,利用全連接層和非線性函數(shù),學習各個模態(tài)信息的重要性程度,結合乘法門對各模態(tài)特征進行加權,進而找到能充分表示各模態(tài)信息的最優(yōu)組合。隨后,利用Bi-LSTM提取相鄰樣本間的時序相關性。本文利用Sleep-EDF 中的Fpz-Cz、Pz-Oz、EOG、EMG 模態(tài)信息進行了二十折交叉驗證實驗,并通過與目前先進的4 種對比算法進行比較,本文提出的算法無論是整體準確率還是均高于對比算法,進而證明了本文算法的有效性和先進性。