能文鵬,陸 軍+,趙彩虹
1.黑龍江大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,哈爾濱150080
2.黑龍江大學(xué) 黑龍江省數(shù)據(jù)庫與并行計(jì)算重點(diǎn)實(shí)驗(yàn)室,哈爾濱150080
+通信作者E-mail:lujun111_lily@sina.com
人類的睡眠時(shí)間大概占總生命的1/3。睡眠質(zhì)量與人的身心健康直接相關(guān),在人類生活中占有重要的地位[1]。影響人類睡眠的關(guān)鍵因素之一是睡眠障礙,如失眠、抑郁癥、嗜睡癥、帕金森病、阻塞性肺病、睡眠呼吸暫停和晝夜節(jié)律紊亂等。睡眠障礙不僅會(huì)導(dǎo)致白天身體機(jī)能下降,而且會(huì)對身體功能產(chǎn)生負(fù)面影響,如思考能力下降、警覺力與判斷力削弱、免疫功能失去平衡,甚至死亡[2]。睡眠障礙的診斷和治療的關(guān)鍵是對睡眠階段進(jìn)行準(zhǔn)確的分類,即睡眠分期。
早期的分類方法一般由經(jīng)過訓(xùn)練的專業(yè)人員進(jìn)行視覺劃分,這種方法不僅要求該領(lǐng)域?qū)<一ㄙM(fèi)幾小時(shí)甚至數(shù)天的時(shí)間及精力,而且由于不同專家以及信號的非平穩(wěn)性特點(diǎn)往往不同專家得到的結(jié)論不一致甚至同一專家在多次劃分也有差別。使用機(jī)器學(xué)習(xí)可以解決人們對于分類器以及對于部分特征選擇的難題,然而機(jī)器學(xué)習(xí)高度依賴于手工提取特征。這些人工提取的特征可解釋性比較強(qiáng),并且針對某種特性分類效果明顯,但是往往不同的分類系統(tǒng)所需求的特征不盡相同,甚至是同一分類系統(tǒng)的不同數(shù)據(jù)集以及同一數(shù)據(jù)集中不同通道上的表現(xiàn)也有較大差距。更重要的是這些手工設(shè)計(jì)的特征往往需要研究該領(lǐng)域的專家花費(fèi)大量時(shí)間和精力進(jìn)行設(shè)計(jì)、驗(yàn)證才能對特征有良好的認(rèn)知及使用。這使得機(jī)器學(xué)習(xí)方法一方面對于熟悉該領(lǐng)域的專家是一種浪費(fèi),另一方面設(shè)計(jì)的特征也不具有通用性,在實(shí)踐中很難大面積推廣。
近年來,深度學(xué)習(xí)的快速發(fā)展為睡眠分期帶來了新的解決思路。深度學(xué)習(xí)的出現(xiàn)使得人們不再花費(fèi)大量的時(shí)間精力去提取特征,實(shí)現(xiàn)了端對端的系統(tǒng)。深度學(xué)習(xí)方法是聯(lián)結(jié)主義,采用互相連接人工神經(jīng)元對輸入進(jìn)行非線性變換,這使得特征能夠以隱式的方式使用神經(jīng)元之間的連接及權(quán)重表示。神經(jīng)元的連接方式代表了一種特定的關(guān)系歸納偏置[3]。在深度學(xué)習(xí)中常見基本結(jié)構(gòu)帶有不同的關(guān)系歸納偏置,如表1 所示。
Table 1 Relation induction bias of basic structure of neural network表1 神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的關(guān)系歸納偏置
全連接層的神經(jīng)元是相互連接的,因此神經(jīng)元之間沒有產(chǎn)生偏置,關(guān)系歸納偏置非常弱。卷積層的神經(jīng)元是局部連接的,因此它們的關(guān)系歸納偏置也是局部性的,具有空間不變性。循環(huán)層的神經(jīng)元在時(shí)間步驟上共享,關(guān)系歸納偏置是馬爾可夫序列約束,具有時(shí)間不變性。此外深度學(xué)習(xí)中分層處理、注意力機(jī)制、跳躍連接和自編碼器等結(jié)構(gòu)在基本結(jié)構(gòu)的基礎(chǔ)上施加了額外的約束。
多導(dǎo)睡眠圖(polysomnography,PSG)是一種多參數(shù)測量儀器,可以同時(shí)記錄多種生理信號,如腦電圖(EEG)、心電圖(ECG)、眼電圖(EOG)和肌電圖(EMG)等[4]。通常PSG 數(shù)據(jù)是在睡眠實(shí)驗(yàn)室中通過在患者的體表放置許多電極和傳感器采集的。因此PSG 數(shù)據(jù)具有準(zhǔn)確、全面、低噪聲等優(yōu)點(diǎn)。一般由睡眠專家根據(jù)美國睡眠醫(yī)學(xué)學(xué)會(huì)(American Academy of Sleep Medicine,AASM)手冊[5]將PSG 數(shù)據(jù)分為5個(gè)睡眠階段:覺醒階段(wake,W)、快速眼動(dòng)睡眠階段(rapid eye movements,REM)、非快速眼動(dòng)睡眠階段1(non REM1,N1)、非快速眼動(dòng)睡眠階段2(non REM2,N2)和非快速眼動(dòng)睡眠階段3(non REM3,N3)。
現(xiàn)階段主要使用具有統(tǒng)一化標(biāo)準(zhǔn)的公共數(shù)據(jù)庫。Sleep-EDF 數(shù)據(jù)庫包含兩個(gè)不同研究的子集:健康受試者的年齡效應(yīng)(sleep cassette,SC)和替馬西泮對睡眠的影響(sleep telemetry,ST),共計(jì)197 條記錄[6]。SVUH-UCD 數(shù)據(jù)庫是由圣文森特大學(xué)醫(yī)院和都柏林大學(xué)學(xué)院提供,包含25 個(gè)懷疑有睡眠障礙的成年人的記錄[6]。MIT-BIH 數(shù)據(jù)庫由波士頓貝斯以色列醫(yī)院睡眠實(shí)驗(yàn)室采集,包含16 條PSG 記錄[6]。MASS 數(shù)據(jù)庫包含97名男性和103名女性的200份PSG記錄[7]。ISRUC-Sleep 數(shù)據(jù)庫包括來自健康受試者、患有睡眠障礙的受試者以及在睡眠藥物作用下的受試者的99條PSG 記錄[8]。CAP 數(shù)據(jù)庫存儲(chǔ)了16 名健康受試者和92 名病理患者的108 項(xiàng)PSG 記錄[9]。
本章給出了一個(gè)用于睡眠分期的深度學(xué)習(xí)基本框架示意圖,其中包含核心模塊神經(jīng)網(wǎng)絡(luò)以及數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換等可選的模塊,如圖1 所示。
Fig.1 Basic framework of deep learning圖1 深度學(xué)習(xí)基本框架
數(shù)據(jù)預(yù)處理不僅僅是對數(shù)據(jù)進(jìn)行濾波去除噪聲,更為重要是數(shù)據(jù)平衡、數(shù)據(jù)增強(qiáng)。數(shù)據(jù)變換是信號處理的關(guān)鍵步驟,對生理信號進(jìn)行適當(dāng)?shù)淖儞Q可以提取信號中的頻域、時(shí)頻域等與生理機(jī)能高度相關(guān)的信息??蛇x模塊在一定程度上減少了模型解決方案空間的復(fù)雜度,增加了模型的魯棒性,但是由于目前大量的數(shù)據(jù)和廉價(jià)的計(jì)算資源使得用樣本效率換取更靈活的學(xué)習(xí)成為一種理性的選擇。
神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行信號的自動(dòng)特征提取和分類,關(guān)系歸納偏置不同會(huì)導(dǎo)致提取的特征有一定的偏差。在一個(gè)神經(jīng)網(wǎng)絡(luò)中可能具有多種關(guān)系歸納偏置,如同時(shí)包含卷積層、循環(huán)層、全連接和注意力機(jī)制等。但是對于睡眠信號而言,其中最關(guān)鍵和最基本的是具有平移不變性的關(guān)系歸納偏置的卷積層與具有時(shí)間不變性的關(guān)系歸納偏置的循環(huán)層。這是因?yàn)樗鼈儧Q定了對信號使用哪種基本假設(shè)進(jìn)行特征提取,而其他的關(guān)系歸納偏置則可以作為額外的假設(shè)附加于基本假設(shè)。因此為了簡化分析難度,本文采用神經(jīng)網(wǎng)絡(luò)中是否包含卷積層與循環(huán)層將神經(jīng)網(wǎng)絡(luò)模塊分為卷積神經(jīng)網(wǎng)絡(luò)框架、循環(huán)神經(jīng)網(wǎng)絡(luò)框架和混合框架。為了進(jìn)一步分析網(wǎng)絡(luò)框架中包含的關(guān)系歸納偏置,將信號按照時(shí)域劃分為幀、片段和序列,如圖2 所示。
Fig.2 Time domain hierarchical division of physiological signals圖2 生理信號的時(shí)域?qū)哟蝿澐?/p>
圖中片段為專家評分階段的最小單位長度,一般為30 s,Xt為第t片段,為第t片段中第n幀。此外本文使用X′t、Y′t表示中間變量,α、β表示不同權(quán)重,Yt表示預(yù)測標(biāo)簽。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的基本思想是將局部感知和權(quán)值共享相結(jié)合,提取符合移位不變性的最小假設(shè)的任務(wù)相關(guān)特征。本文按照特征提取層次將CNN 分為三種不同的基本模型:片段模型、序列優(yōu)化的片段模型和序列模型。
2.1.1 片段模型
生理信號在睡眠階段表現(xiàn)出不同的特征。CNN的片段模型是將片段層次信號視為獨(dú)立同分布的模型,然后使用卷積來提取特征,如圖3 所示。
Fig.3 CNN fragment model圖3 CNN 片段模型
Manzano等人[10]和Sors等人[11]直接對單通道EEG信號進(jìn)行了片段層次1DCNN。Tsinalis 等人將單通道EEG 信號通過1DCNN 進(jìn)行濾波后將得到的多通道拼接為二維數(shù)據(jù)并進(jìn)行了2DCNN[12]。李玉花等人提出了具有多尺度和空間金字塔的CNN 模型,并在輸入數(shù)據(jù)前加入了可訓(xùn)練的系數(shù)矩陣[13]。賈子鈺等人提出了自動(dòng)學(xué)習(xí)原始信號的時(shí)域特征和頻域特征的多支路CNN 并通過空洞卷積和殘差連接進(jìn)行多特征融合,該網(wǎng)絡(luò)使用兩階段方法進(jìn)行訓(xùn)練[14]。為了進(jìn)一步提高1DCNN 的學(xué)習(xí)能力,Zhang 等人在2017 年提出了一種快速判別復(fù)值卷積神經(jīng)網(wǎng)絡(luò)(fast discriminant complex-valued convolutional neural networks,F(xiàn)DCCNN)模型[15],在2018 年提出了復(fù)值無監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)(complex-valued unsupervised convolutional neural networks,CUCNN)[16]。2019 年Humayun 等人使用34 層的一維ResNet 對單通道EEG 信號進(jìn)行了端對端的訓(xùn)練[17]。
將一維信號分解為多個(gè)子信號或者變換為二維信號進(jìn)行2DCNN 可以更進(jìn)一步提取信號中的特征。Wei 等人對單通道EEG 信號進(jìn)行希爾伯特黃變換[18]。Phan等人對單通道EEG信號進(jìn)行短時(shí)傅里葉變換,然后使用計(jì)算匹配度的池化策略的1-Max Pooling CNN 進(jìn)行分類[19]。Zhang 等人利用希爾伯特黃變換,將單通道EEG 信號轉(zhuǎn)換為時(shí)頻圖,并使用參數(shù)保持正交性質(zhì)的正交卷積神經(jīng)網(wǎng)絡(luò)(orthogonal convolutional neural network,OCNN)提高了分類性能[20]。
除使用單通道信號的方法外,還使用了具有信息冗余的多通道信號的方法。Fernández-Varela 等人使用具有多個(gè)堆棧的1DCNN 模塊對組合信號進(jìn)行了分類[21]。Niroshana 等人將多個(gè)通道組合為二維信號進(jìn)行了多支路多尺度的2DCNN 特征提取[22]。Phan等人將多通道信號變換為3D 信號進(jìn)行2DCNN 的特征提取[23]。Olesen 等人使用了具有50 層的2DResNet對多通道信號進(jìn)行端對端的訓(xùn)練[24]。
2.1.2 序列優(yōu)化的片段模型
生理信號不僅睡眠階段表現(xiàn)出不同的特征,并且在睡眠階段之間也存在狀態(tài)轉(zhuǎn)化關(guān)系。CNN 的序列優(yōu)化的片段模型將當(dāng)前片段的前后k階段信息聚合得到具有序列關(guān)聯(lián)的標(biāo)簽,如圖4 所示。
Fig.4 CNN sequence optimized fragment model圖4 CNN 序列優(yōu)化的片段模型
Chambon 等人將相鄰的前后k個(gè)片段進(jìn)行特征融合[25]。Cui 等人將序列的當(dāng)前段和后段重組,并基于細(xì)粒度來優(yōu)化序列長度[26]。馬家睿等人通過添加殘差網(wǎng)絡(luò)加深卷積神經(jīng)網(wǎng)絡(luò)層數(shù)提取高維特征,并通過狀態(tài)轉(zhuǎn)移規(guī)則優(yōu)化分類結(jié)果[27]。這種方式雖然行之有效,但本質(zhì)上是將多個(gè)前后相鄰的特征向量加權(quán)平均,一定程度上來說并沒有學(xué)習(xí)到真正意義上的序列轉(zhuǎn)化關(guān)系。
2.1.3 序列模型
CNN 的序列模型直接使用序列層次信號來學(xué)習(xí)信號的波形特征及狀態(tài)轉(zhuǎn)化關(guān)系,如圖5 所示。
Fig.5 CNN sequence model圖5 CNN 序列模型
Perslev 等人將在圖像分割領(lǐng)域的U-Net 基礎(chǔ)結(jié)構(gòu)改進(jìn)為U-time,應(yīng)用于一維的原始信號[28]。具體來說,U-time 使用了編碼-解碼的卷積結(jié)構(gòu),并在同一特征層次上添加了跳躍連接恢復(fù)在編碼過程中下采樣所丟失的細(xì)節(jié)信息。該模型直接采用卷積提取到了序列層次的特征。
2.1.4 CNN 框架的關(guān)系歸納偏置
睡眠階段中出現(xiàn)特征波形在一個(gè)周期內(nèi)關(guān)系緊密,而在遠(yuǎn)距離之間并沒有比較明顯的信息聯(lián)系,體現(xiàn)了局部性。整個(gè)序列中的不同位置的特征波具有相同的規(guī)則,對應(yīng)了平移不變性。本文匯總了關(guān)于CNN 框架的相關(guān)研究,如表2 所示。本文所有表中出現(xiàn)的“—”表示相關(guān)論文沒有使用或給出。
表2 中的片段層次列體現(xiàn)了在局部性和平移不變性的基礎(chǔ)上增加額外的歸納偏置,試圖提取更加簡單且高效的特征,并使網(wǎng)絡(luò)更易優(yōu)化。如文獻(xiàn)[15]將CNN 拓展到了復(fù)數(shù)域,對卷積核施加了實(shí)部與虛部正交的決策邊界的約束,使神經(jīng)網(wǎng)路的非線性擬合能力極大提高。文獻(xiàn)[18]使用二維數(shù)據(jù)的同時(shí)使用二維卷積不僅在時(shí)域提取特征,并且擴(kuò)展到了時(shí)頻域。文獻(xiàn)[19]采用1-Max Pooling CNN 的池化策略,改善了普通池化對于信息流失的缺點(diǎn)。文獻(xiàn)[18]使用正交卷積對參數(shù)施加了正交約束,使神經(jīng)網(wǎng)絡(luò)的參數(shù)量降低的同時(shí)提高了模型的性能,并使用通道注意力機(jī)制進(jìn)行校正以得到最佳的特征組合。文獻(xiàn)[17,24]使用跳躍連接對網(wǎng)絡(luò)的信息流與梯度流的拓?fù)浣Y(jié)構(gòu)施加約束,使網(wǎng)絡(luò)具有更深更強(qiáng)的擬合能力的同時(shí)更容易優(yōu)化。文獻(xiàn)[28]使用了具有自編碼器結(jié)構(gòu)的CNN,并加入跳躍連接恢復(fù)池化過程中丟失的細(xì)節(jié)信息。
使用這些額外的關(guān)系歸納偏置具有不同程度的性能提升,因此這些關(guān)系歸納偏置具有一定的匹配性,但是與CNN 本身的提取能力相比提升效果比較少。如ResNet 的模型復(fù)雜但是并沒有提升很大的性能,說明簡單的CNN 模塊可以提取信號的基本特征,并且很難通過優(yōu)化CNN 模塊來提升大幅度性能,而引入這些額外的關(guān)系歸納偏置會(huì)增加網(wǎng)絡(luò)的冗余性和復(fù)雜性。CNN 框架中網(wǎng)絡(luò)簡單且具有高性能的是U-time 模型,該模型使用原始信號并在序列層次上提取特征,說明序列層次的特征對于網(wǎng)絡(luò)分類結(jié)果具有重要意義,并且原始信號具有足夠的信息來支撐分類而不需要額外的轉(zhuǎn)化。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的基本思想是增加延時(shí)單元和反饋連接,使前一狀態(tài)的信息可用于后一狀態(tài),提取符合時(shí)間不變性的最小假設(shè)的任務(wù)相關(guān)特征。按照特征提取層次將RNN 分為三種不同的基本模型:片段模型、序列模型和多層模型。
2.2.1 片段模型
RNN 的片段模型在片段層次上學(xué)習(xí)短期序列時(shí)變特征,輸入一般是由多個(gè)幀進(jìn)行數(shù)據(jù)變換或特征提取的特征向量,如圖6 所示。
Phan 等人將單通道EEG 信號分解并使用離散傅里葉變換轉(zhuǎn)換成一系列幀特征向量,然后送入RNN中并通過注意力機(jī)制聚合特征向量[29]。Michielli 等人從單通道EEG 信號中提取幀層級的時(shí)域和頻域特征,然后使用級聯(lián)結(jié)構(gòu)的RNN,對N1 階段分類性能進(jìn)行了增強(qiáng)[30]。
Table 2 CNN framework research summary表2 CNN 框架研究匯總
Fig.6 RNN fragment model圖6 RNN 片段模型
2.2.2 序列模型
RNN 的序列模型在序列層次上學(xué)習(xí)長期序列的時(shí)變特征及轉(zhuǎn)化關(guān)系,輸入一般是由多個(gè)片段進(jìn)行數(shù)據(jù)變換或特征提取的特征向量,如圖7 所示。
Zhang 等人將可穿戴設(shè)備的數(shù)據(jù)進(jìn)行片段特征提取,并使用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)學(xué)習(xí)序列關(guān)系[31]。Zhang等人提出了在第一個(gè)階段進(jìn)行片段特征學(xué)習(xí),在第二階段使用Bi-LSTM學(xué)習(xí)睡眠階段之間的轉(zhuǎn)化關(guān)系[32]。
2.2.3 多層模型
Fig.7 RNN sequence model圖7 RNN 序列模型
RNN 的多層模型在片段層次上學(xué)習(xí)短期序列時(shí)變特征,并且在序列層次上學(xué)習(xí)長期序列時(shí)變特征及轉(zhuǎn)化關(guān)系,輸入一般是由多個(gè)幀進(jìn)行數(shù)據(jù)變換或特征提取的特征向量,如圖8 所示。
Phan等人提出學(xué)習(xí)兩個(gè)層次特征的SeqSleepNet[33]。該網(wǎng)絡(luò)首先將組合信號經(jīng)過短時(shí)傅里葉變換為二維時(shí)頻圖,然后使用頻域?yàn)V波器進(jìn)行幀層次特征提取后送到片段層級Bi-GRU,并通過注意力進(jìn)行信息融合,最后送到序列層級Bi-GRU 進(jìn)行序列到序列的學(xué)習(xí)。
2.2.4 RNN 框架的關(guān)系歸納偏置
時(shí)間不變性反映了序列轉(zhuǎn)化關(guān)系與時(shí)間無關(guān),如從W 階段過渡到N1 或N2 階段與睡眠階段發(fā)生時(shí)的時(shí)間無關(guān)。馬爾可夫結(jié)構(gòu)對序列中的位置施加偏差反映了多個(gè)狀態(tài)之間的轉(zhuǎn)化關(guān)系,比如W 階段經(jīng)常過渡到N1 和N2 階段,但很少過渡到N3 或REM 階段。事實(shí)上,睡眠的所有階段都高度依賴于前一階段。本文匯總了關(guān)于RNN 框架的相關(guān)研究,如表3所示。
Fig.8 RNN multi-layer model圖8 RNN 多層模型
Table 3 RNN framework research summary表3 RNN 框架研究匯總
表3 中的片段層次列和序列層次列體現(xiàn)了在時(shí)間不變性的基礎(chǔ)上增加額外的歸納偏置,來匹配序列的特性。如循環(huán)層的變體通常施加前向和后向的序列轉(zhuǎn)化信息,盡管睡眠階段并不是一個(gè)對稱的變化關(guān)系,比如N1階段很可能轉(zhuǎn)化為N2階段,但是N2階段很少轉(zhuǎn)化到N1 階段。此外睡眠階段的狀態(tài)轉(zhuǎn)化關(guān)系并不是一個(gè)隨機(jī)的過程,文獻(xiàn)[26,31]使用序列注意力機(jī)制可以將狀態(tài)轉(zhuǎn)化關(guān)系以權(quán)重關(guān)系進(jìn)行組合優(yōu)化。
從表3 中可以看到對于Sleep-EDF 數(shù)據(jù)集僅使用序列層次的RNN 相對于僅使用片段層次的RNN 性能有所提升。對于多層模型的表現(xiàn)超過了僅使用片段或序列層級的RNN,雖然并不是同一數(shù)據(jù)集,但是現(xiàn)有方法通常在MASS 數(shù)據(jù)集上比Sleep-EDF 數(shù)據(jù)集上更加難以分類。因此對于序列的特征提取使用多層的形式更加匹配生理信號的特征。
CNN 非常適合提取時(shí)不變特征,而RNN 非常適合提取時(shí)變特征,包括短期的片段層級以及長期的序列層級特征,因此很自然地可以將CNN 和RNN 結(jié)合起來共同學(xué)習(xí)。按照特征提取層次將混合框架分為三種不同的基本模型:片段CNN/RNN 混合模型、幀CNN-片段RNN 混合模型和片段CNN-序列RNN混合模型。
2.3.1 片段CNN/RNN 混合模型
該模型使用片段層次的CNN 和RNN 共同學(xué)習(xí)時(shí)變特征和時(shí)不變特征,如圖9 所示。
該模型沒有用到序列層次的特征關(guān)系,很難預(yù)測到狀態(tài)之間的潛在轉(zhuǎn)化規(guī)則。Huang 等人對單通道EEG 信號使用了兩支路不同尺度的CNN 提取全局特征和局部特征來共同學(xué)習(xí)時(shí)不變特征,并且在并行的另一支路使用LSTM 學(xué)習(xí)時(shí)序特征[34]。
2.3.2 幀CNN-片段RNN 混合模型
該模型使用幀層次的CNN提取最小的局部特征,使用片段層級RNN 提取時(shí)不變特征,如圖10 所示。
Fig.9 Fragment CNN/RNN hybrid model圖9 片段CNN/RNN 混合模型
Fig.10 Frame CNN-fragment RNN hybrid model圖10 幀CNN-片段RNN 混合模型
該模型也沒有用到序列層次的特征關(guān)系,并且由于使用幀層次的CNN 無法感知片段層次的局部不變性,丟失重要特征信息。如紡錘波通常在一個(gè)片段內(nèi)才具有一個(gè)完整的周期,而幀中只能得到局部的波形。該方法通常進(jìn)行幀層次的CNN 特征提取,然后將不同幀的特征向量送入到片段層次的Bi-LSTM 中學(xué)習(xí)長期的時(shí)變特征。
2.3.3 片段CNN-序列RNN 混合模型
該模型通過使用CNN 提取片段層次的時(shí)不變特征,以及RNN 提取序列層次的時(shí)變特征可以將序列中粗粒度的信息提取出來,如圖11 所示。
Fig.11 Fragment CNN-sequence RNN hybrid model圖11 片段CNN-序列RNN 混合模型
Yang 等人[35]提出使用多尺度卷積核提取片段層次信息和RNN 提取序列層次信息的混合神經(jīng)網(wǎng)絡(luò)。盡管如此,該方法仍然在細(xì)粒度上有所不足,因此研究者們提出了很多基于此框架的變體,例如使用多支路多尺度的卷積核來提取不同尺度的局部信息[36];對原始信號進(jìn)行特征矩陣構(gòu)建得到二維數(shù)據(jù)[37];使用時(shí)頻變換來補(bǔ)充CNN 對于頻域特征的提取能力[38];使用注意力機(jī)制來校正不同通道之間的權(quán)重[38];使用帶有殘差的RNN 來增強(qiáng)片段與序列層次的特征融合[39];使用具有自編碼器結(jié)構(gòu)的RNN 來增強(qiáng)序列層次的轉(zhuǎn)化關(guān)系[40];使用具有殘差連接的深層CNN 來增強(qiáng)卷積特征提取能力[41]。
2.3.4 混合框架的關(guān)系歸納偏置
混合框架包含了卷積層和循環(huán)層的關(guān)系歸納偏置,在不同層次不同分支中使用不同的關(guān)系歸納偏置,可以避免因使用單一的關(guān)系歸納偏置而導(dǎo)致特征提取不完備的缺點(diǎn)。本文匯總了關(guān)于混合框架的相關(guān)研究,如表4 所示。
表4 中主要網(wǎng)絡(luò)結(jié)構(gòu)使用不同層次的不同關(guān)系歸納偏置來匹配序列特性的同時(shí),使用一些額外的歸納偏置來增強(qiáng)網(wǎng)絡(luò)性能,如跳躍連接、注意力機(jī)制和自編碼器等。文獻(xiàn)[34]使用并行的不同支路的關(guān)系歸納偏置基本結(jié)構(gòu)來同時(shí)學(xué)習(xí)時(shí)變特征和時(shí)不變特征。文獻(xiàn)[38]使用片段層次的通道注意力和序列層次的時(shí)間注意力來對特征的重要程度進(jìn)行校準(zhǔn)。文獻(xiàn)[39]使用改進(jìn)的跳躍連接將CNN 提取片段層次特征添加到RNN 的輸出,使CNN 和RNN 都可以直接從損失函數(shù)中獲取梯度。文獻(xiàn)[40]使用具有自編碼器結(jié)構(gòu)的雙向RNN 對序列長期信息進(jìn)行編碼。文獻(xiàn)[41]使用深度網(wǎng)絡(luò)來提取片段層次的時(shí)不變特征。
在表4 中由于數(shù)據(jù)集不同導(dǎo)致沒法直接比較不同網(wǎng)絡(luò)結(jié)構(gòu)的直接表現(xiàn),但是這些研究均比同期方法在性能上具有較大提升。在使用匹配的多層次不同的關(guān)系歸納偏置時(shí),網(wǎng)絡(luò)的性能會(huì)有提升,尤其是當(dāng)網(wǎng)絡(luò)中出現(xiàn)具有新的關(guān)系歸納偏置時(shí)。如僅CNN不如CNN 與RNN 共同學(xué)習(xí),僅片段層次不如片段層和序列層次共同學(xué)習(xí)。此外在具有相同的層次及基本關(guān)系歸納偏置時(shí),加入匹配的額外的歸納偏置會(huì)提升性能,如文獻(xiàn)[40]相比文獻(xiàn)[39]加入了自編碼器結(jié)構(gòu)以后效果提升了0.02。
現(xiàn)有的框架使用不同的關(guān)系歸納偏置來提取生理信號的特征,但是并沒有在信號的所有層次上使用匹配的關(guān)系歸納偏置,這可能導(dǎo)致信息提取方式不完備。本文中的一個(gè)脈絡(luò)是隨著對于信號的不斷細(xì)分并施加與之匹配的關(guān)系歸納偏置會(huì)帶來性能的提升,并且在施加一定的額外關(guān)系歸納偏置時(shí)也能帶來小幅度提升,這取決于能否帶來更優(yōu)的組合方式。因此本文認(rèn)為設(shè)計(jì)深度學(xué)習(xí)框架需要引入與任務(wù)相匹配的關(guān)系歸納偏置,特別的,應(yīng)該將信號以某種方式進(jìn)行分解,然后在對應(yīng)的子集中施加與之匹配的關(guān)系歸納偏置。對信號進(jìn)行時(shí)域的劃分是目前使用最廣的一種方式,本節(jié)列出了對于信號不同層次中使用的最基本的關(guān)系歸納偏置,如表5 所示。
Table 4 Hybrid framework research summary表4 混合框架研究匯總
Table 5 Relational induction bias in different levels of signal表5 信號的不同層次中的關(guān)系歸納偏置
幀層次CNN 模塊使用較小卷積核提取信號中的細(xì)節(jié)特征,如幅值、相位及斜率等信號基本屬性。片段層次CNN 模塊使用較大卷積核提取信號中的波形特征,如K-復(fù)合波、紡錘體及各種節(jié)律等信號波形特征。片段層次RNN 模塊學(xué)習(xí)來自幀層次不同時(shí)間的細(xì)節(jié)特征之間的時(shí)變特征。序列層次的輸入將來自幀層次細(xì)節(jié)特征、片段層次波形特征及片段層次時(shí)變特征進(jìn)行聚合,然后使用RNN 學(xué)習(xí)信號在序列層次上的轉(zhuǎn)化關(guān)系。
深度學(xué)習(xí)是基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,并將特征學(xué)習(xí)融入到建立模型的過程中,從而減少了人為設(shè)計(jì)特征造成的不完備性。從概念上講,深度學(xué)習(xí)從信息減少轉(zhuǎn)向知識提取,即強(qiáng)調(diào)最小化先驗(yàn)表征和計(jì)算假設(shè),并避免明確的結(jié)構(gòu)和手工設(shè)計(jì)結(jié)構(gòu),遵循端對端的設(shè)計(jì)理念。相對人類分類方法或傳統(tǒng)機(jī)器學(xué)習(xí)方法,基于深度學(xué)習(xí)的睡眠分期系統(tǒng)具有高效實(shí)時(shí)準(zhǔn)確的分類性能,并且不需要人工設(shè)計(jì)特征,更適合實(shí)際應(yīng)用,如長期睡眠階段監(jiān)測。
深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的,需要大量的睡眠分期階段數(shù)據(jù)訓(xùn)練,必須對信號進(jìn)行大量的準(zhǔn)確標(biāo)記,而在長遠(yuǎn)規(guī)劃中是很難實(shí)現(xiàn)的。當(dāng)只能提供有限數(shù)據(jù)時(shí),深度學(xué)習(xí)算法不能夠?qū)?shù)據(jù)的規(guī)律進(jìn)行無偏差的估計(jì)。深度學(xué)習(xí)經(jīng)常遵循獨(dú)立同分布(independent and identically distributed,IID)的數(shù)據(jù)假設(shè),IID 數(shù)據(jù)具備統(tǒng)計(jì)學(xué)理論中的強(qiáng)泛相合性,這確保深度學(xué)習(xí)算法可以最小風(fēng)險(xiǎn)獲得收斂。但是當(dāng)數(shù)據(jù)不再遵循IID 假設(shè)時(shí),如僅使用片段層次信號,則深度學(xué)習(xí)算法將很難準(zhǔn)確地解決這類問題。此外深度學(xué)習(xí)需要大量的計(jì)算資源進(jìn)行訓(xùn)練。
對于睡眠分期來說,如何進(jìn)一步引入匹配的關(guān)系歸納偏置適應(yīng)相應(yīng)任務(wù)尚未可知。深度學(xué)習(xí)強(qiáng)調(diào)最小化先驗(yàn)表征和計(jì)算假設(shè),這與人類智慧更偏向于提取抽象的表達(dá)并不相同。人類能夠以一種更加統(tǒng)一的方式進(jìn)行學(xué)習(xí),而不是為每個(gè)任務(wù)單獨(dú)學(xué)習(xí)一組獨(dú)立的參數(shù)。在解決實(shí)際問題時(shí),人類通常會(huì)將隱性知識與顯性語言化知識結(jié)合起來。然而,深度學(xué)習(xí)試圖將所有知識通過隱式的先驗(yàn)表征和計(jì)算假設(shè)進(jìn)行編碼至可學(xué)習(xí)的參數(shù)中。這將導(dǎo)致設(shè)計(jì)上的困難:對于人類十分簡單的顯性表達(dá)并不能容易地轉(zhuǎn)化成深度學(xué)習(xí)的形式。這對于驗(yàn)證引入的關(guān)系歸納偏置是否與任務(wù)相匹配增加了巨大的難度。
目前易于獲取的數(shù)據(jù)以及低成本的計(jì)算資源使深度學(xué)習(xí)成為主流的睡眠分期方法,但是由于全監(jiān)督的深度學(xué)習(xí)依賴于人工標(biāo)記,這對于具有個(gè)體差異的個(gè)人而言很難實(shí)現(xiàn),無法應(yīng)用于精準(zhǔn)的個(gè)性化分類。使用大數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練以后再對個(gè)人實(shí)現(xiàn)微訓(xùn)練的半監(jiān)督方式,甚至是開發(fā)無監(jiān)督的深度學(xué)習(xí)方法可以緩解這種困境。單信號完全具有足夠的信息以支持理想系統(tǒng)的分類,因此開發(fā)基于單信號的準(zhǔn)確自動(dòng)分期系統(tǒng)是一個(gè)重要研究方向。由于采集PSG 數(shù)據(jù)只能在實(shí)驗(yàn)室進(jìn)行,因此使用可穿戴設(shè)備的數(shù)據(jù)在長期監(jiān)控病人的睡眠階段具有重要意義。將深度學(xué)習(xí)模型參數(shù)量減少到可以植入移動(dòng)設(shè)備是實(shí)時(shí)睡眠分期系統(tǒng)的關(guān)鍵。
深度學(xué)習(xí)模型的輸入到輸出的直接幾何變形和人類思考和學(xué)習(xí)的方式有本質(zhì)上的區(qū)別。人類從自我認(rèn)知和對外界的經(jīng)驗(yàn)認(rèn)識中不斷學(xué)習(xí),這和機(jī)器學(xué)習(xí)的學(xué)習(xí)路徑不同,除了不同的學(xué)習(xí)過程之外,底層表征的性質(zhì)存在根本性差異。對于深度學(xué)習(xí)而言,或許需要更加高級的關(guān)系歸納偏置對人類的知識進(jìn)行更加抽象的表達(dá)是未來可研究的方向。因此,目前深度學(xué)習(xí)方法并不具有類人的學(xué)習(xí)能力,將深度學(xué)習(xí)與其他人工智能方案相結(jié)合或許是未來的發(fā)展方向。如基于獎(jiǎng)懲機(jī)制的強(qiáng)化學(xué)習(xí)系統(tǒng),基于進(jìn)化策略的進(jìn)化學(xué)習(xí),基于任意關(guān)系歸納偏置的圖神經(jīng)網(wǎng)絡(luò),基于可復(fù)用和模塊化子程序的元學(xué)習(xí)系統(tǒng),基于非平凡條件獨(dú)立性屬性的因果關(guān)系推理系統(tǒng)。
本文回顧了深度學(xué)習(xí)在睡眠分期中的應(yīng)用,通過分析框架的基本關(guān)系歸納偏置,將其分為三類:卷積神經(jīng)網(wǎng)絡(luò)框架、循環(huán)神經(jīng)網(wǎng)絡(luò)框架和混合神經(jīng)網(wǎng)絡(luò)框架。根據(jù)這些方法中使用的關(guān)系歸納偏置及其表現(xiàn)出的優(yōu)缺點(diǎn),認(rèn)為設(shè)計(jì)深度學(xué)習(xí)框架需要引入與任務(wù)相匹配的歸納偏置?,F(xiàn)有框架使用不同的關(guān)系歸納偏置來提取生理信號的特征,但是并沒有在信號所有層次上使用匹配的關(guān)系歸納偏置,這可能導(dǎo)致信息提取方式不完備,從而帶來模型的理論性能上限。目前深度學(xué)習(xí)與人類學(xué)習(xí)之間存在著根本性的差異。未來可能需要更加高級的關(guān)系歸納偏置對知識進(jìn)行更加抽象的表達(dá)并與其他人工智能技術(shù)相結(jié)合。