谷明軒,范冰冰
(華南師范大學計算機學院,廣東 廣州 510631)
抑郁癥是一種常見的精神疾病,根據世界衛(wèi)生組織(WHO)的不完全統(tǒng)計,全球約有3.4 億人患有不同程度的抑郁癥。據中國的統(tǒng)計數據顯示,超過3000萬中國公民患有抑郁癥[1]。近年來,抑郁癥患病年齡呈年輕化趨勢,越來越多的青少年患有抑郁癥。這是由于青少年處于生理與心理快速發(fā)展階段,面對成長環(huán)境的壓力和心理教育的缺乏,更容易產生各種心理問題[2]。研究表明,抑郁癥會對個體的學習、認知和記憶能力造成很大影響,其主要特征包括持續(xù)地情緒低落、快感缺失以及認知障礙,患者難以控制自己的情緒且嚴重者可能出現自殺傾向并付諸行動[3]。
由于不清楚潛在的神經機制和病理學原理,抑郁癥的臨床診斷比較困難。精神疾病患者在外觀表現上與正常人沒有區(qū)別,因此臨床醫(yī)生只能根據患者的自我描述和相關信息進行主觀診斷,診斷的結果往往取決于醫(yī)生的經驗[4-5],因此這種診斷方法具有較強的主觀性和不準確性。另外,在臨床上,醫(yī)生的診斷更多依賴于抑郁量表,如抑郁篩查量表(PHQ-9)[6]、漢密爾頓抑郁評定量表(HDRS)或貝克抑郁量表(BDI)等。由于抑郁癥篩查所使用的問卷涉及患者的主觀描述,通過問卷篩查經常出現假陽性或假陰性的情況。綜上所述,僅通過醫(yī)生診斷和問卷篩查的抑郁癥診斷方法是不嚴謹的。
面對抑郁癥識別遇到的問題和挑戰(zhàn),計算機研究界開始使用行為線索來學習識別抑郁癥、創(chuàng)傷后應激障礙等相關精神障礙[7]。面部表情、語音韻律等行為特征已經被證明是預測抑郁癥的重要特征[8-9]。而且,人的自然語言和社交活動中也包含了重要的信息。例如人的面部表情和身體姿勢[9]被用作抑郁癥識別。另外,社交網絡中文本數據、圖片數據也可以被用于抑郁癥識別[10],幫助心理學家和精神科醫(yī)生評估患者的抑郁水平。
另外,研究者發(fā)現抑郁癥與腦功能異常有著密切的關系[11]。許多成像技術被用于探索和輔助治療抑郁癥等精神疾病,如功能磁共振成像(fMRI)、正電子發(fā)射斷層掃描(PET)和單光子發(fā)射計算機斷層掃描(SPECT)等。其中PET 和SPECT 需要往受試者體內注射放射性物質,通過局部腦血流灌注斷層顯像技術進行分析[12]。腦電圖(Electroencephalogram)是一種常見的無痛、無創(chuàng)的腦功能評估方法,常用于抑郁癥、癲癇、阿爾茲海默癥、精神分裂癥等疾病的輔助診斷,其優(yōu)點在于成本低、靈敏度高且便于記錄大腦活動。研究表明,抑郁癥患者的認知能力受到情緒變化的影響而變化[13],這些變化可以在一定程度上影響腦電圖。因此,本文選擇腦電模態(tài)數據作為多模態(tài)特征融合的其中一種模態(tài)進行研究。
傳統(tǒng)的腦電研究都是使用腦電圖中的線性特征和非線性特征來進行識別,如Erguzel 等人[14]提取腦電圖頻譜的線性特征,結合反向傳播神經網絡(BPNN)和遺傳算法(GA)進行抑郁癥患者的分類,準確率達到了89.12%。Hosseinifard 等人[15]提取了4 種非線性特征,包括去趨勢波動分析、Higuchi 分形、相關維數和Lyapunov 指數對抑郁癥患者和正常人進行分類,使用邏輯回歸(LR)分類器,準確率達到了90.12%。
除了線性與非線性特征外,功能連通性也被作為判斷抑郁癥患者與正常人之間的差異的特征,并基于功能連通性進行區(qū)分。Orgo 等人[16]通過提取功能連通性特征以及相干性、聚類系數等圖論特征,采用支持向量機(SVM)和遺傳算法對64 名受試者進行分類,準確率達到了88.10%。Peng 等人[17]提取用相位滯后指數值(PLI 值),使用支持向量機和肯德爾秩相關系數進行分類,且分類效果理想。因此,本文借鑒Peng的方法進行特征提取,使用PLI值來描述EEG 通道間的功能連通性并用于訓練。
除了通過上述所說的文本、圖片、腦電等方式識別抑郁癥,語音識別也是一種廣泛用于抑郁癥識別的方式。語音能夠反映人的情緒,因此可以通過分析語音的情感來識別抑郁癥。如Balano 等人[18]分析了正常人與抑郁癥患者之間的語音差異,發(fā)現抑郁癥患者的聲音更為沙啞、結巴、低沉。Flint 等人[19]發(fā)現抑郁癥患者存在一定程度的語言障礙,他們的思維邏輯更為緩慢,停頓時間更長,停頓的次數更多。于是本文選擇使用音頻模態(tài)作為特征融合的另一種模態(tài),提高抑郁癥識別的準確率。
本文通過結合音頻模態(tài)和腦電模態(tài)的信息進行抑郁癥識別,從預處理后的腦電圖數據中提取PLI 值作為腦電特征,從預處理后的音頻數據中提取常用的語音識別系數如MFCC 等作為音頻特征,以特征融合的方式識別抑郁癥,并與單模態(tài)抑郁癥識別的準確率進行對比,另外在對比實驗中加入決策融合和機器學習的方法。
本章將介紹多模態(tài)數據融合的常見方法。
多模態(tài)的融合方法大致可以分為2 大類,分別是模型無關的融合方法和基于模型的分類方法[20]。模型無關的分類方法是根據融合的時期進行分類,共分為特征融合(又稱為早期融合)、決策融合(又稱為晚期融合)和混合融合。本文所使用的就是其中的特征融合。
特征融合是指對各個模態(tài)的數據特征提取后對特征進行融合的一種方式,其優(yōu)勢在于可以在模型訓練前充分利用各個模態(tài)特征之間的相關性,適用于模態(tài)高度相關的情況,如Cai 等人[21]對3 種模態(tài)下的EEG 數據(中性音頻刺激、負性音頻刺激和正性音頻刺激)進行特征融合,將不同模態(tài)下提取的特征進行線性組合,并使用t 檢驗從組合后的特征矩陣中選出新的特征作為分類器的輸入,通過使用多個分類器進行對比實驗,最高分類準確率可達86.98%。
決策融合是指在每個模態(tài)都做出決策(分類或回歸)后再進行融合,在深度學習模型中,決策融合的做法是先使用不同模態(tài)單獨進行訓練,訓練后將訓練的結果進行融合[22]。決策融合不需要模型之間有很強的相關性即可融合,其主要通過采用不同規(guī)則或采用深度學習模型來確定最終融合的方式,如最大值融合、平均值融合等融合方法[23]。Yang 等人[24]使用由深度卷積神經網絡(DCNN)和深度神經網絡(DNN)模型組成的多模態(tài)融合框架,通過融合音頻、視頻和文本的特征對患者的抑郁程度進行測量。首先對各個模態(tài)都通過DCNN 學習高級全局特征,然后將特征輸入DNN 獲得預測的PHQ-8 的分數,最后將3 個模態(tài)預測的PHQ-8分數使用DNN進行決策融合得到最終的PHQ-8分數。張迎輝等人[25]提出基于深度森林的多模態(tài)決策級融合方法,其通過選擇出能夠用于融合的特征進行基于深度森林的多粒度掃描和級聯,實現了深度森林各級的決策融合,提高了抑郁癥檢測正確率。
混合融合既包含了特征融合,又包含了決策融合,在綜合兩者優(yōu)點的同時也復雜化了模型的結構,增加了訓練的難度,但由于其結構靈活和多樣,在手勢識別和多媒體[26]等領域應用廣泛。Lan 等人[27]利用混合融合進行多媒體事件檢測,結合了特征融合和決策融合的方法,捕捉模態(tài)間的特征關系,解決了模型過擬合的問題,這種混合融合的方式使模型達到88.10%的準確率。
上述3 種方法各有優(yōu)缺點,考慮到音頻模態(tài)和腦電模態(tài)之間的聯系,本文基于深度學習使用全連接神經網絡進行多模態(tài)的特征融合:先通過全連接神經網絡分別對2 種模態(tài)數據進行單獨訓練,降低特征維度并得到2 種模態(tài)抽象的特征。其次,將2 種模態(tài)抽象的特征融合并使用前饋神經網絡作為分類模型,將融合后的特征映射到分類空間進行分類,最終完成抑郁癥的識別。
本文提出一種基于全連接神經網絡的多模態(tài)特征融合方法,使用2 種模態(tài)進行研究:腦電模態(tài)和音頻模態(tài)。腦電模態(tài)記錄了受試者靜息狀態(tài)下的腦電信息,而音頻模態(tài)則記錄了受試者在訪談、閱讀和圖片描述過程中的語音信息。
由于模態(tài)包含的信息和特性具有一定的相關性,因此使用全連接神經網絡分別對不同模態(tài)的特征進行訓練并融合,對融合后的特征使用前饋神經網絡進行抑郁癥識別。模型的整體框架如圖1 所示,整個模型主要由3 個部分組成:腦電模態(tài)特征提取與選擇,音頻模態(tài)的特征提取與選擇以及對雙模態(tài)融合的特征進行訓練與分類。
圖1 多模態(tài)特征融合框架
2.1.1 腦電預處理
本文使用蘭州大學建立的MODMA數據集[28],數據通過128 通道HydroCel 傳感器和Net Station 軟件進行采集,采樣率為250 Hz,參考電極為頂點電極(CZ電極)。針對原始數據,本文使用MATLAB 中的EEGLAB[29]工具包對數據進行預處理,主要流程如下:
1)進行電極重定位和重參考(全腦平均參考)。2)使用Sinc FIR 濾波器[30]進行濾波,帶通為1~40 Hz,去除線噪聲和電干擾。
3)對EEG 數據進行分段(每段長為2 s)并去除偽跡。
4)使用獨立成分分析(ICA)去除眼電(EOG)和肌電(EMG)偽影。
2.1.2 腦電特征提取與特征選擇
對預處理后的數據進行特征提取,計算相位滯后指數PLI。PLI值[31]用于估計EEG雙通道之間相位差分布的不對稱性,可以在一定程度上描述通道之間的功能連通性。對于給定的2 個EEG 信號x和y,PLI 值的計算方法如公式(1)所示:
其中,θx(h)表示該通道信號的瞬時相位,θx(h)-θy(h)表示信號x和y在頻率h下的相位差,sign(·)代表符號函數。PLI 值的取值區(qū)間在0 到1 之間,0 表示不耦合,1 表示完全相位同步。通過上述計算方程,利用PLIxy值評估每對通道之間的功能連通性。因此,對于每個受試者,可以獲得一個128×128 的功能連通矩陣F:
對于功能連通矩陣F,將矩陣的對角元素fii設為1,非對角元素fij(i≠j)設為PLIxy值。矩陣的每一列和每一行對應一個不同的通道,矩陣第i行第j列表示通道i和通道j之間連通性的強度。由于矩陣關于對角線對稱,因此剔除無意義的對角元素和重復的下三角元素,提取矩陣的上三角元素作為分類特征。因此腦電特征提取后得到的特征維數為128×(128-1)/2=8128。
為了去除不相關和冗余的特征,提高模型的泛化能力,本文采用特征選擇算法來對提取的特征進行降維。ReliefF[32]是一種特征權重算法,其不僅具有效果好、效率高的特點,還可以在一定程度上保留特征原有的物理意義。ReliefF算法的主要步驟如下:
1)從所有樣本中隨機取一個樣本x。
2)從與樣本x相同分類的樣本集中取出k個最近鄰樣本。
3)從其他與樣本x不同分類的樣本集中也取出k個最近鄰樣本。
4)最后,計算特征的權重并從大到小進行排序,權重值越大,排名越靠前則代表該特征越重要,對樣本的分類效果越好。
通過ReliefF 特征選擇方法,本文提取權重排名前500維的特征用于多模態(tài)特征融合。
2.2.1 音頻數據預處理
本文使用的是蘭州大學MODMA 數據集的音頻部分,語音采集軟件為Adobe Audition CS6,采樣頻率為44.1 Hz,采樣深度為24 bit,單聲道。音頻內容為受試者對主試提出的問題作出的回答。針對原始數據,對數據進行的預處理流程如下:
1)對音頻數據進行預加重[33],其作用就是在傳輸線的始端增強信號的高頻成分,補償其在傳輸過程中的衰減,提高輸出信噪比。語音信號的預加重可以通過一階FIR 高通數字濾波器來實現,設時刻n的語音信號采樣值為X(n),則預加重的輸出信號Y(n)的計算公式如下:
其中,預加重系數μ的值應介于0.9 和1.0 之間,本文中μ的值取為0.97。
2)對音頻信號進行分幀,將原始語音信號分成大小固定的N段語音信號,將每一段語音信號稱為一幀,幀長通常取10~30 ms 之間,本文幀長取25 ms。在分幀過程中,相鄰的2 幀之間有所重疊,重疊部分被稱為幀移,本文幀移取10 ms。
3)為了消除各幀兩端可能存在的信號不連續(xù)問題,采用窗函數加權法對音頻信號進行加窗,窗函數選用長度為L的漢明窗,設時刻n的窗函數輸出為w(n),則窗函數公式如下:
將時刻n的窗函數w(n)與信號f(n)相乘,得到加窗后的語音信號fw(n):
2.2.2 音頻特征提取與特征選擇
對預處理后的數據進行特征提取,本文將音頻分為沉默段和語音段,共提取1600 維特征。其中沉默段指的是音頻信號中語音的沉默部分,即上一句話的結束到下一句話的開始之間的語音段。通過語音端點檢測技術[34]提取8 個維度特征,包括最大沉默時間、總暫停時間等。通過Open Smile[35]提取語音段特征,共1582 維特征,其中包括梅爾頻率倒譜系數(MFCC)等重要特征,使用配置文件為emobase2010。
對于音頻特征,本文同樣使用ReliefF 特征選擇方法進行特征選擇,提取權重排名前500 維的特征用于多模態(tài)特征融合。
決策融合是子模型做出決策后再融合的方法,其特點在于可以選擇合適的模型對不同的模態(tài)進行訓練,然后根據子模型的訓練結果選擇合適的方式進行融合。本文設計一種多模態(tài)決策融合方法來作為對比實驗。對于不同的模態(tài),本文使用2 種不同的子模型分別進行訓練,然后使用線性加權的方式進行決策融合,決策融合的網絡結構如圖2所示。
圖2 多模態(tài)決策融合網絡結構
對于音頻模態(tài)數據,本文在特征提取后使用全連接神經網絡進行訓練,其中包括1層輸入層、5層全連接層和1 層Softmax 輸出層。其中全連接層神經元數目分別為1200、1200、850、600和500。由于實驗數據較少,而神經網絡參數較多,因此在神經網絡中加入了Dropout,如圖2 中虛線部分所示。在每次訓練過程中,每個神經元都會以一定概率被停止,這樣就使得一個神經元的訓練不依賴于另一個神經元,因此可以減少過擬合現象并提升模型的泛化能力。
對于腦電模態(tài),由于其是關于時間序列記錄的數據,且經過實驗發(fā)現對于腦電數據引入長短期記憶神經網絡(LSTM)比全連接神經網絡表現更好,因此在決策模型中,本文對腦電模態(tài)引入LSTM 網絡進行訓練,其中包括1 層輸入層,2 層LSTM 層、1 層線性層和1層Softmax輸出層。
音頻模態(tài)數據和腦電模態(tài)數據經過各子模型訓練和Softmax 層分類后,得到單一模態(tài)下,受試者是否患有抑郁癥的概率。分類概率如公式(6)所示:
其中:Pi表示輸出為第i類的概率,zi表示最后一層神經元中第i個值,分母為對所有神經元的值指數求和。得到各子模型的分類概率Pi之后,在Softmax 層使用線性加權的方式融合,最終得到抑郁癥識別的概率。
實驗共設置2 個權重參數w1和w2,Softmax 層線性加權如公式(7)所示:
多模態(tài)特征融合是指對各個模態(tài)數據特征先進行融合,再用于分類任務的一種融合方式。其優(yōu)勢在于可以充分結合模態(tài)間的相關性信息,更好地提升模型的分類效果。多模態(tài)特征融合的做法主要是將不同模態(tài)的特征向量經過特定的映射后形成一個新的特征向量[36]。由于音頻數據記錄了受試者訪談、閱讀等任務下的語音信息,而腦電數據記錄了同一名受試者進行音頻任務前靜息狀態(tài)下的腦電信息,2 種數據之間存在一定的互補性,因此可以對這2 種模態(tài)進行特征融合。
神經網絡的本質是通過一層層隱藏層的線性和非線性變換對輸入的數據特征進行計算和變形,直至可以很容易地區(qū)分不同的類別。神經網絡的逐層計算,就是對原始數據的逐層抽象,后一層神經元的輸入是前一層神經元輸出的加權和,前一層的特征在后一層就被抽象出來。因此,神經網絡學習的過程就是調節(jié)和優(yōu)化權重和閾值,并不斷抽象的過程。
綜上,本文提出一種基于全連接神經網絡的多模態(tài)特征融合模型,模型的具體結構如圖3所示。
圖3 多模態(tài)特征融合網絡結構
首先,分別將2 種模態(tài)的特征使用全連接神經網絡進行抽象。由于神經網絡的層數越多,輸入特征抽象的層次就越深,對其理解的準確度也就越深。因此,本文先對2種模態(tài)數據進行抽象,使用3層隱藏層進行訓練,均得到200 維的抽象特征,并將其用于特征融合。
在特征融合部分,本文使用特征拼接的方法,即將200 維腦電特征[x1,x2,…,x200]與200 維音頻特征[y1,y2,…,y200]直接拼接成400 維的特征[x1,x2,…,x200,y1,y2,…,y200]。由于神經網絡可以自動訓練特征之間的權重值,因此本文將融合后的特征直接輸入前饋神經網絡中,讓網絡自動學習權重之間的關系。在前饋神經網絡中,使用ReLU 激活函數為模型加入非線性因素,使用反向傳播算法收斂損失值并更新網絡參數。網絡中共添加3 層隱藏層,神經元個數分別為300、200 和100,epoch 設置為350。網絡多次訓練和迭代后,經過Softmax 層的輸出得到最終的模型分類結果。
本文采用蘭州大學MODMA 數據集,該數據集包括53 例受試者靜息狀態(tài)下的128 電極腦電圖信號以及52 名受試者在訪談、閱讀和圖片描述過程中記錄的音頻,其中每個受試者包含29 個音頻文件。由于數據集中采集靜息態(tài)數據的受試者與采集音頻數據的受試者并不完全相同,而對非同一對象的多模態(tài)數據的訓練沒有意義,因此剔除其中只有單個模態(tài)數據的受試者,保留38名受試者的數據用于訓練和分類。
本文使用基于全連接神經網絡的模型來進行多模態(tài)特征融合,使用Adam 作為優(yōu)化器,NLLLoss 作為損失函數,學習率設置為0.00001。由于數據集樣本的數量較少,可能會對模型的分類準確率產生一定影響,因此本文所有的實驗均采用留一交叉驗證法(LOOCV)[37]來評估模型的泛化能力,即對于每一次實驗均使用37個樣本作為訓練集,1個作為測試集。
本文通過設置機器學習和深度學習的多個對比實驗來驗證多模態(tài)特征融合的效果。采用支持向量機SVM 和K 近鄰算法(KNN)來設置機器學習的對比實驗,采用多模態(tài)決策融合來設置深度學習的對比實驗。其中SVM 類型為C-SVC,核函數為線性核函數,KNN 中K的取值為3。在進行上述分類之前,將所有的特征進行歸一化。
為了驗證模型的效果,本文對數據集設計了對比實驗。首先對單個模態(tài),分別計算在KNN、SVM 以及全連接神經網絡下抑郁癥識別的準確率,其次計算多模態(tài)決策融合下抑郁癥識別的準確率,最后計算多模態(tài)特征融合模型的抑郁癥識別準確率,所有實驗的對比結果如表1與表2所示。
表1 單模態(tài)機器學習方法與深度學習方法準確率對比
表2 多模態(tài)特征融合與其他方法準確率對比
由表1與表2可知,對于單模態(tài)抑郁癥識別,使用深度學習方法的準確率相較于機器學習的方法來說有所提升,其中在音頻模態(tài)上表現更為明顯,而在腦電模態(tài)上KNN 也表現較好,與全連接神經網絡有相同的準確率。
而對于多模態(tài)抑郁癥識別,特征融合具有最高的準確率,且明顯高于其他融合方法,而決策融合的方法與之相比表現較差。
通過上述實驗對比,基于全連接神經網絡的特征融合模型相較于其他方法在準確率方面有不同程度的提升,表明了該方法的有效性,說明了特征融合的思想可以應用于腦電和音頻模態(tài)的抑郁癥識別。同時表明了簡單加權求和方式下的決策融合表現較差,當模態(tài)之間相關性較強時,特征融合的效果更好。
本文針對抑郁癥臨床診斷困難的問題,在深度學習的基礎上提出了基于全連接神經網絡的多模態(tài)特征融合模型,融合音頻和腦電模態(tài)的抽象特征并用于訓練,保留了模態(tài)間的相關性。并且通過在MODMA數據集上的對比驗證,特征融合模型相對于單模態(tài)抑郁癥識別和決策融合模型具有更高的準確率。
由于本文只使用MODMA 多模態(tài)抑郁癥數據集,且數據集數據較少,因此本文所提出的方法只局限于音頻和腦電這2 種模態(tài)。在接下來的研究中,可以對數據集的數據量進行擴充或者對其他的模態(tài)領域進行探索,增加多模態(tài)特征融合的適用性。