王鳳琴,柯亨進
1.湖北師范大學 物理與電子科學學院,湖北 黃石435106
2.武漢大學 計算機學院,武漢435001
作為腦健康服務(wù)的核心部件,在線腦電分類能遠程監(jiān)測和評估腦障礙狀態(tài)(如癲癇[1]和抑郁癥(MDD)[2])而蓬勃發(fā)展。對于MDD,準確評估腦狀態(tài)并及時跟蹤其發(fā)展狀態(tài)可以將其陷入危險和自殺的風險降為最低[3]。EEG通常是弱信號、強噪聲和非平穩(wěn)的混合體,對其準確分類仍然是一個亟需解決的問題[4]。幾十年來,其活躍在兩個研究領(lǐng)域:(1)預(yù)處理;(2)特征提取。預(yù)處理旨在去除腦電信號中的噪聲與偽逆。在大多數(shù)情況下,噪聲和干擾與患者密切相關(guān),其去除即使理論上可行,也需要昂貴的人工處理[5];特征提取能夠?qū)崿F(xiàn)降維,并支持對感興趣信號的有效探索[6]。在眾多特征提取方法中,共有空間模式的精度最高,達到87.4%[7],矩陣分解方法精度達到86.61%,近年來,作為腦電特征提取的主導方法,時頻分析的精度達到87.5%[8]。傳統(tǒng)的預(yù)處理與特征提取方法不僅需要昂貴的計算量,而且分類性能仍落后于臨床實踐應(yīng)用日益增長的精度需求。
EEG分類一直是腦神經(jīng)科學研究和臨床實踐中的重要課題?,F(xiàn)有工作大多依賴特征提取,最近,機器學習方法蓬勃發(fā)展。沿著這一方向最突出的工作介紹如下:Mumtaz等人[8]提出了一種基于小波變換的時頻分解的分類方法,對MDD患者和健康對照組的診斷準確率為87.5%。為了有效地識別嚴重抑郁癥的異質(zhì)性病變,提出了一種基于腦電信號的頻譜空間特征提取方法,達到平均81.23%的準確率[9]。與傳統(tǒng)的支持向量機等分類器相比,卷積神經(jīng)網(wǎng)絡(luò)(CNN[10])在噪聲數(shù)據(jù)分類方面有著明顯的優(yōu)勢,在癲癇發(fā)作[1]和帕金森病[11]的識別方面取得了令人滿意的性能,同時具有良好的抗噪聲[12]。基于特征提取的機器學習通常呈現(xiàn)出高的計算密集性,只適用于離線腦電信號分類。
近年來,雖然神經(jīng)網(wǎng)絡(luò)在AI領(lǐng)域中發(fā)揮關(guān)鍵作用,但它們只是有限可解釋性的黑盒函數(shù)近似器。如何判斷并解釋神經(jīng)網(wǎng)絡(luò)是否做出正確的預(yù)測[13]是一個極其重要的問題。當人工智能系統(tǒng)易于理解時,可幫助做出更好的決策,進而改進模型的設(shè)計,得出更重大的發(fā)現(xiàn),深化對AI的信任。拿抑郁癥分類來說,當神經(jīng)網(wǎng)絡(luò)通過識別能刻畫腦疾病的關(guān)鍵特征而做出正確分類時,該系統(tǒng)被認為是合理的,反之,雖然最終結(jié)果識別正確,但是神經(jīng)網(wǎng)絡(luò)并沒有分析出關(guān)鍵特征,而是外圍因素甚至是由于噪聲或者干擾的正確識別而做出決定,顯然,該神經(jīng)網(wǎng)絡(luò)由于過高的假陽性不能滿足醫(yī)學要求。為此,需要在腦疾病發(fā)生時通過度量腦區(qū)與模型間的復(fù)雜性關(guān)系,以期對神經(jīng)網(wǎng)絡(luò)黑盒進行解耦。與現(xiàn)有的研究工作相比,本研究旨在尋找一種能夠(1)對原始腦電信號進行準確的在線分類,(2)減輕預(yù)處理和特征提取的工作量,以及(3)對神經(jīng)網(wǎng)絡(luò)提供定量解釋。
綜上所述,本文的主要貢獻如下:
(1)設(shè)計并實現(xiàn)一個基于云服務(wù)的在線腦電信號分類平臺,該平臺以一個CNN為核心,其模型訓練于云服務(wù)器,而在本地網(wǎng)關(guān)上實現(xiàn)熱部署與在線分類任務(wù)。
(2)提出基于AP聚類信息熵方法,實現(xiàn)分類器模型的定量分析服務(wù),實現(xiàn)對神經(jīng)網(wǎng)絡(luò)黑盒進行解耦。
本文首先介紹了圖1中所示的系統(tǒng)架構(gòu),接下來討論了系統(tǒng)的核心部件——CNN的設(shè)計。
圖1 系統(tǒng)體系結(jié)構(gòu)
腦電時間片首先被傳送到網(wǎng)關(guān)。網(wǎng)關(guān)主要完成模型下載和基于用戶請求的數(shù)據(jù)上傳功能,從云端下載最新訓練好的分類器后,網(wǎng)關(guān)通過熱部署加載到網(wǎng)關(guān)中。然后直接對腦電片段進行分類,并在相關(guān)智能設(shè)備(如臺式機和智能手機)中顯示分類結(jié)果。經(jīng)過用戶授權(quán)的腦電數(shù)據(jù)經(jīng)醫(yī)生校準后上傳到云服務(wù)器。最后,云服務(wù)器將增量地對模型進行訓練。管理員對訓練后的模型進行評估后,保存相應(yīng)的分類器模型文件供網(wǎng)關(guān)下載。
云計算平臺提供按需和可擴展的存儲,以及能夠滿足物聯(lián)網(wǎng)需求的處理服務(wù)。云維護的主要功能如下:對分類器進行訓練并評估分類器。
1.1.1 CNN網(wǎng)絡(luò)結(jié)構(gòu)
圖2 顯示出了CNN的體系結(jié)構(gòu),該CNN試圖利用盡可能少的隱含層,同時獲得高分類性能。分類器從一個獨立的dropout層開始,接著是兩個卷積層和一個最大池化層以及三個全連接層(模型的超參數(shù)通過貝葉斯超參數(shù)優(yōu)化算法調(diào)優(yōu)得到,并顯示在圖2中,關(guān)于卷積層,其參數(shù)格式為:過濾器數(shù)目@[感受野大小],所有全連接層FC的激活函數(shù)都為Sigmoid,其他層的激活函數(shù)顯示在Activation中,None表示無激活函數(shù))。CNN的最終Sigmoid激活函數(shù)輸出特定腦電時間片的分類結(jié)果,主要設(shè)計要點總結(jié)如下:
(1)“高卷積層”旨在通過在一個卷積層上放置大量卷積濾波器來處理高維原始腦電片段,每個濾波器只處理一個通道數(shù)據(jù)。對于每個時間窗口,來自每個電極的每個時間序列數(shù)據(jù)(1 024)將被重塑為一個正方形矩陣(32×32),然后整個段將被組織為通道層疊的3D數(shù)據(jù)塊。
圖2 CNN的網(wǎng)絡(luò)結(jié)構(gòu)
(2)“沙漏(Hourglass)”全連接(FC)層塊旨在快速減少神經(jīng)元數(shù)量,減少模型參數(shù)數(shù)量。它包含幾個FC層。輸出層越近,神經(jīng)元數(shù)量就越少。本研究中的“沙漏”全連接層塊是最后三個FC層。
1.1.2 模型訓練與測試
CNN采用動量SGD算法進行優(yōu)化。為減少模型誤差,本文采用一個非常小的動量衰減因子[14],其初始化策略沿用文獻[15]中的設(shè)置,同時設(shè)置和文獻[16]相同的批規(guī)范化。對樣本空間進行洗牌后,將樣本空間分為訓練集、驗證集和測試集。采用5倍交叉驗證算法對訓練集和驗證集分類器的訓練性能進行評估。用測試集報告分類性能。然后用反向傳播算法訓練CNN的參數(shù)[14]:
其中,i是迭代次數(shù),v是動量變量,ε是學習率,是目標函數(shù)關(guān)于連接權(quán)值ω在Di批上的偏導數(shù),其顯示了當前批次的優(yōu)化方向。
模型訓練后,可以在測試集(或新EEG時間片)上進行測試。當輸入經(jīng)過Dropout層、兩個卷積層和一對一映射層后,中間的三維數(shù)據(jù)塊將被展平成一個矢量。矢量通過最后三個FC層,輸出尺寸分別為300、60和1。最后,輸出腦電片的狀態(tài)。
云服務(wù)器加載最新的模型,從網(wǎng)關(guān)增量訓練新的校準腦電數(shù)據(jù)。將有兩種情況:分類性能將提高或降低。導致性能下降超過閾值(精度降低1%)的分類器將不會被保存。
本節(jié)主要討論了輸入層的激活最大化,基礎(chǔ)神經(jīng)元的特征可視化將提供網(wǎng)絡(luò)的全局視圖,網(wǎng)絡(luò)很少孤立地使用神經(jīng)元,同時理解停留在主觀層面。為此,通過度量輸入模式的信息熵,以期驗證模型決策的合理性,以及增強解釋的客觀性。
1.2.1 激活最大化
激活最大化是尋找一個給定的隱含層單元激活值最大的輸入模式。第一層的每一個節(jié)點的激活函數(shù)都是輸入的線性函數(shù),所以對第一層來說,它的輸入模式和濾波器本身是成比例的。形式化的,
其中,θ表示CNN的模型參數(shù),hij(θ,x)為神經(jīng)網(wǎng)絡(luò)中第j層第i個神經(jīng)元的激活值,hij是輸入x和模型參數(shù)θ的聯(lián)合函數(shù),λ(x)為輸入x的正則項。x*為需要尋找的最大激活。該優(yōu)化問題由于h不是具體函數(shù),所以在大部分情況下為一個非凸優(yōu)化問題。基于梯度下降法可以近似求解該問題,即至少能求解局部最小值,計算hij(θ,x)的梯度并沿著該梯度方向移動x:
當移動x的量小于某個預(yù)先設(shè)置好的閾值時,算法達到收斂。鑒于分類器的輸入(第一層)是基于通道的,為了表征神經(jīng)網(wǎng)絡(luò)的激活模式,計算第一層的激活最大化值。因此,根據(jù)層的大?。?0×32×32)對層的激活進行編碼并計算為20個激活矩陣,其中每個矩陣表達了每個通道的最大化激活特征。
1.2.2 基于近鄰傳播聚類劃分的信息熵
信息的基本作用就是消除事物的復(fù)雜性,信息熵刻畫了信息的不確定性和復(fù)雜程度:
其中,X為隨機變量,p(x)是隨機變量X的概率。
圖3 顯示了兩種不同劃分計算的信息熵,屬于同一分區(qū)的數(shù)據(jù)將歸入相應(yīng)的分區(qū)后利用公式(4)來計算信息熵。不同點在于傳統(tǒng)方法假定神經(jīng)數(shù)據(jù)服從均勻分布而進行等距離劃分(在圖3B中,數(shù)據(jù)被等分為6份),在數(shù)據(jù)樣本點足夠多的時候,計算結(jié)果會接近真實情況,但是,當數(shù)據(jù)不足時,這種等距離計算熵的誤差比較大,無法有效度量隨機變量的不確定關(guān)系;而聚類劃分考慮到了序列自身的差異性而進行合理的劃分(在圖3A中,由于數(shù)據(jù)分布差異,被劃分成3份,且每一份的劃分區(qū)間不相同),刻畫數(shù)據(jù)本身的特征進行信息熵的精確計算。在度量所有激活矩陣的熵后,被投射到大腦通道。根據(jù)10-20國際腦電系統(tǒng),對應(yīng)于大腦區(qū)域的大腦狀態(tài)的平均特征進行可視化,腦區(qū)劃分規(guī)則如表1所示。
圖3 基于近鄰傳播聚類劃分(A)與傳統(tǒng)(B)的信息熵計算
表1 基于10-20國際腦電系統(tǒng)的腦區(qū)劃分
1.2.3 AP聚類算法
近鄰傳播(AP)聚類[17]是一種基于數(shù)據(jù)點間信息傳遞的聚類算法。與經(jīng)典的聚類分析算法相比,它不需要在運行前確定聚類的個數(shù),通過對每個樣本點的競爭聚類中心進行迭代,以獲得最佳的聚類性能。
AP聚類算法的輸入是樣本數(shù)據(jù)s[i,j](i,j=1,2,…,N)之間的相似性。本文用歐式距離表示相似矩陣S中的元素值,S對角線上的元素是一個參考矩陣P,它表示每個采樣點被選為劃分中心的概率。AP算法遍歷樣本數(shù)據(jù),構(gòu)造吸引度矩陣(responsibility)和歸屬度矩陣(availability),直到找到合適的聚類中心xk,迭代公式如下:
與K-means方法相比,該方法的主要優(yōu)點是:(1)不需要人工初始聚類中心;(2)聚類中心是真實存在的數(shù)據(jù)樣本,而不是虛擬的新數(shù)據(jù)樣本;(3)對初始值不敏感;(4)結(jié)果的平方誤差較小。
1.2.4 基于AP聚類的數(shù)據(jù)劃分的信息熵
基于AP聚類的數(shù)據(jù)劃分的信息熵(APM)的計算包括三個階段。首先,對信號X進行排序(升序),加快AP聚類的收斂速度。其次,用AP聚類算法分別對變量進行分區(qū),得到每個分區(qū)i的最大值和最小值的坐標,分區(qū)中心Ci和相應(yīng)的分區(qū)半徑Ri計算如下(Z表示一個分區(qū)中心的坐標):
求出數(shù)據(jù)的劃分后,對落入不同劃分的數(shù)據(jù)求相應(yīng)的概率,進而求取該序列的信息熵。
為了刻畫腦區(qū)與模型間的復(fù)雜性關(guān)系,首先獲取每個通道的最大化激活特征矩陣(見第1.2.1節(jié)),所有矩陣展平成序列后計算其基于AP聚類的數(shù)據(jù)劃分信息熵,該信息熵被投射為通道水平的復(fù)雜性,之后依據(jù)10-20國際腦電系統(tǒng)對腦區(qū)進行劃分(表1),求腦區(qū)內(nèi)復(fù)雜性的平均值作為腦區(qū)與模型間的復(fù)雜性。
公共數(shù)據(jù)集包含了嚴重抑郁癥患者和健康對照組的腦電數(shù)據(jù)[8](MPHC),所有樣本都采集自馬來西亞塞因斯大學醫(yī)院的34個抑郁癥患者(17名男性,平均年齡=40.3±12.9)和30名健康受試者(21名男性,平均年齡=38.227±15.64)。該樣本集已經(jīng)排除有精神病癥狀、孕婦、酗酒者、吸煙者和癲癇患者的MDD參與者。健康對照組也排除可能的精神疾病或身體疾病。腦電圖傳感器按照國際系統(tǒng)10-20在256 Hz的頻率下進行采集,該數(shù)據(jù)集選取前面20個電極(Fp1、Fp2、F3、F4、F7、T3、T5、C3、C4、Fz、Cz、Pz、F8、T4、T6、P3、P4、O1、O2、A2)的腦電數(shù)據(jù)。時間窗口設(shè)置為1 024(4 s);因此,整個樣本空間被劃分成18 442個片段(其中抑郁癥的時間片:9 789,健康的時間片:8 653)。
本文實驗所用的測試環(huán)境為英特爾i7CPU(3.33 GHz)、24 GB運行內(nèi)存和64 bit Win7個人電腦。本文所提出的分類器是基于子卷積神經(jīng)網(wǎng)絡(luò)和子全連接神經(jīng)網(wǎng)絡(luò)。首先討論子卷積神經(jīng)網(wǎng)絡(luò)的時間復(fù)雜度。其時間復(fù)雜度正比于網(wǎng)絡(luò)層數(shù)(L)及其相應(yīng)的隱藏神經(jīng)元個數(shù)(N)。整個子卷積神經(jīng)絡(luò)的時間復(fù)雜度計算如下:
其中,l是卷積層的索引,d是深度;nl為第l層的過濾器的個數(shù)(也叫寬度);nl-1表示第l層的輸入通道的個數(shù);sl和ml分別表示過濾器的空間大小以及輸出特征映射的大?。╢eature map)。
對于子全連接神經(jīng)網(wǎng)絡(luò),假設(shè)網(wǎng)絡(luò)的層數(shù)為L,每一層的神經(jīng)元數(shù)為U,分類器的時間復(fù)雜度為O(UL)。因此,CNN的計算復(fù)雜度為O(S(N,L))+O(UL)。
本節(jié)比較了CNN中不同的優(yōu)化方法,包括本文的動量SGD、RMSprop[18]、Adagrad[18]、Adadelta[18]、Adam[18]、Adamax[18]和Nadam[18],圖4顯示了SGD獲得了最好的性能,而三種優(yōu)化方法(Adagrad、Adam和Nadam)在本研究中表現(xiàn)欠佳。Adagrad方法是在每個時間步中,根據(jù)過往已計算的參數(shù)梯度,來為每個參數(shù)修改對應(yīng)的學習率,學習率總是在降低和衰減,模型的學習能力迅速降低,極有可能沒有跨越局部最小值而性能低下,Adadelta方法作為Adagrad的延伸,解決其學習率衰減的問題,性能得到提升。基于動量的方法如本文的動量SGD和RMSprop優(yōu)化方法在訓練過程中優(yōu)化的幅度跳過函數(shù)的范圍,也就是可能跳過局部最優(yōu)點?;贏dam的優(yōu)化方法如Adam、Adamax和Nadam旨在快速訓練結(jié)構(gòu)復(fù)雜的神經(jīng)網(wǎng)絡(luò),但是對于層數(shù)不多的神經(jīng)網(wǎng)絡(luò)(如本文網(wǎng)絡(luò))來說,越接近優(yōu)化目標,其震蕩更容易發(fā)生,造成性能不能滿足要求。
圖4 不同的優(yōu)化方法比較曲線
在評估分類器性能時,需要進行多次重復(fù)實驗。在每一次重復(fù)實驗中,都進行十次完整迭代過程,每個迭代過程都包括訓練階段(應(yīng)用五次交叉驗證)和測試階段。在訓練階段,對特征矩陣進行洗牌,將其分為5個部分:4個部分作為訓練數(shù)據(jù),1個部分作為驗證數(shù)據(jù)。然后將訓練好的模型應(yīng)用于測試集中,根據(jù)其敏感性、特異性和準確性報告分類器的平均性能。
圖5 顯示了分類器在嚴重抑郁癥數(shù)據(jù)集上的學習曲線。分類模型在訓練階段,其在訓練集和驗證集上的準確率保持一致,并無明顯的大范圍間隔,同時測試集上優(yōu)異的分類性能表明:分類器在該數(shù)據(jù)集進行抑郁癥篩選時具有很好的泛化能力,并沒有產(chǎn)生過擬合或欠擬合。
圖5 訓練和驗證過程學習曲線
在同一數(shù)據(jù)集(MPHCs EEG數(shù)據(jù))上,應(yīng)用不同的分類器進行抑郁狀態(tài)分類,其分類性能指標顯示在表2中。這些分類器中,除了MLRW[8]之外,本文重新實現(xiàn)了幾個代表性的神經(jīng)網(wǎng)絡(luò)模型,包括Resnet-16[19]、CapsuleNet[20]和LeNet[21],所有分類器只是修改了模型的輸入(20×32×32)和輸出維度(1),其他關(guān)于神經(jīng)架構(gòu)及每一層的超參數(shù)都未加修改。該表顯示:(1)本文提出的分類器在所有分類指標上都最優(yōu),同時較高的敏感度和特異度也昭示出分類器不僅能有效地篩選出抑郁癥患者,同時也能有效地篩選出正常人;(2)分類器的性能與其模型的層數(shù)不相關(guān),比如層數(shù)更多的Resnet和CapsuleNet,并沒有取得期望的性能指標,反而需要更長的時間進行訓練,出現(xiàn)此情形的原因可能性是分類器過于復(fù)雜,在擬合數(shù)據(jù)時出現(xiàn)過分擬合,導致分類性能下降,如何使得分類器更好地擬合不同數(shù)據(jù)的非線性將極大地影響分類器的性能,而為了理解這一差異性將是理解神經(jīng)網(wǎng)絡(luò)黑盒的關(guān)鍵問題之一,這將作為未來研究的重點方向之一。
表2 相關(guān)方法分類性能比較
設(shè)計該組實驗的目的是對CNN在進行抑郁癥的分類任務(wù)時實現(xiàn)病理相關(guān)性解釋,鑒于CNN的輸入是通道相關(guān)的,為理解分類器處理腦電數(shù)據(jù)的機理,可視化了分類器第一層的激活最大化。根據(jù)輸入層的大?。?0×(32×32)),輸入層的激活被編碼成20個大小為(32×32)的激活矩陣,其中,每個矩陣刻畫每個通道的特征。再利用AP聚類劃分計算信息熵,獲取每個激活矩陣的信息熵,并以通道級別投影到頭皮地形圖上。此外,在10-20個國際系統(tǒng)中,大腦區(qū)域?qū)?yīng)的腦狀態(tài)平均特征被可視化。
在分類領(lǐng)域,分類器總是傾向于根據(jù)差異較大的特征進行分類,而這些特征往往具有確定性。熵是隨機變量不確定性的度量。顯然,信息熵越大,變量包含的信息量越大,變量的不確定性也越大。解決分類問題的過程可以看作是降低不確定性(復(fù)雜性)以獲得較低熵的過程。因此,計算每個激活矩陣的熵,找出CNN作用在哪些通道實現(xiàn)分類。
圖6 顯示了MPHC EEG數(shù)據(jù)上CNN的3D頭皮地形圖,通道級(A)和腦區(qū)級(B)。圖6A中顯示,Cz、T3、T4、T6等通道的熵值低于其他通道,說明該分類器主要是根據(jù)這些通道的電壓幅值來區(qū)分抑郁和健康。圖6B顯示了與腦區(qū)水平相對應(yīng)的三維頭皮地形圖,左顳葉和右顳葉顯示了較低的平均熵值,證實了左顳葉和右顳葉腦區(qū)抑郁通道存在顯著差異,這個結(jié)果同時也和數(shù)據(jù)提供者[8]的病理性解釋一致。
圖6 卷積神經(jīng)網(wǎng)絡(luò)的三維頭皮地形圖在通道級(A)和腦區(qū)級(B)上的可視化
本文提出的方法在公開嚴重抑郁癥數(shù)據(jù)集上能夠獲得高分類精度:抑郁癥以99.08%精確度,98.77%敏感度和99.42%特異度進行判別,超過了現(xiàn)有方法的分類性能(基于相同數(shù)據(jù)集)。此外,通過基于近鄰傳播聚類劃分計算信息熵方法,度量CNN在進行抑郁癥分類任務(wù)時,對CNN網(wǎng)絡(luò)的復(fù)雜性解釋結(jié)果表明分類器有效地刻畫了抑郁癥的內(nèi)在特征。
總體而言,本研究顯示了物聯(lián)網(wǎng)技術(shù)在腦保健領(lǐng)域的巨大潛力。該系統(tǒng)直接應(yīng)用于原始腦電信號,無需進行預(yù)處理和特征提取,能精準、快速判別抑郁癥狀態(tài)。