趙 張,汪靜瑩,耿馨佚,朱廷劭,王守巖
(1. 復(fù)旦大學(xué) 類腦智能科學(xué)與技術(shù)研究院,上海 200433; 2. 復(fù)旦大學(xué) 計(jì)算神經(jīng)科學(xué)與類腦智能教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433; 3. 復(fù)旦大學(xué) 上海智能機(jī)器人工程技術(shù)研究中心,上海 200433; 4. 復(fù)旦大學(xué) 智能機(jī)器人教育部工程研究中心,上海 200433; 5. 中國(guó)科學(xué)院 心理研究所,北京 100101)
抑郁癥是一種在世界范圍內(nèi)常見的精神疾病,全球患者人數(shù)超過2.64億[1].抑郁癥不同于通常的情緒波動(dòng),當(dāng)情況比較嚴(yán)重并且持續(xù)時(shí)間長(zhǎng)時(shí)會(huì)造成嚴(yán)重的健康問題,讓患者在工作生活中承受巨大痛苦甚至無法工作,在最壞的情況下會(huì)導(dǎo)致患者自殺.
目前,抑郁癥的評(píng)估方法主要依賴于患者的主觀報(bào)告和醫(yī)生的臨床評(píng)分.這些方法需要患者準(zhǔn)確地描述疾病,并且要求醫(yī)生具有豐富的臨床經(jīng)驗(yàn).為了幫助臨床醫(yī)生更準(zhǔn)確地判斷患者的病情,研究人員試圖找尋一種客觀有效的評(píng)估方法.語音是除表情之外情緒的另一種重要的外部表現(xiàn),加之其方便獲取,因此使其成為一種備受期待的評(píng)估手段[2].
過去基于語音識(shí)別抑郁的研究還有若干值得改進(jìn)的地方.
首先,特征的特異性.隨著人們對(duì)語音和抑郁之間關(guān)系研究的深入,越來越多的特征如韻律特征、頻域特征等皆被用于建模識(shí)別抑郁.但這些特征并非專門針對(duì)抑郁設(shè)計(jì)的,不能完全反映聲音中與抑郁相關(guān)的信息,建模識(shí)別效果有限,因此如何從語音中提取能夠有效反映抑郁的特征尤為關(guān)鍵.近年來,深度學(xué)習(xí)在語音識(shí)別領(lǐng)域取得了突破性的進(jìn)展[3],其中長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)通過“門”的概念建立了基于時(shí)間序列的長(zhǎng)期聯(lián)合記憶機(jī)制,避免了產(chǎn)生梯度消失現(xiàn)象,具備長(zhǎng)時(shí)記憶的能力[4],神經(jīng)網(wǎng)絡(luò)的瓶頸層向量可用于表征抑郁相關(guān)的高維信息.
其次,權(quán)重系數(shù).過去的研究對(duì)一段語音每個(gè)部分都給予相同的權(quán)重,但在實(shí)際中部分語音片段能集中地反應(yīng)抑郁相關(guān)的信息.注意力機(jī)制[5]是一系列權(quán)重參數(shù),對(duì)于一段語音并不是從頭到尾每個(gè)部分都保持同樣的關(guān)注度,而是通過自動(dòng)學(xué)習(xí)的方式重點(diǎn)觀察語音的某一些片段.最后,訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布存在差異.不同語音之間的特征差異受到被試本人發(fā)聲特點(diǎn)的影響,遷移學(xué)習(xí)[6]的方法則可以減小訓(xùn)練樣本和測(cè)試樣本之間數(shù)據(jù)分布差異對(duì)模型造成的影響.
據(jù)此,本文提出一種融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來提取深度學(xué)習(xí)特征,通過高維度的特征定義與選擇結(jié)合遷移學(xué)習(xí)的方法來提升該算法基于語音分析的抑郁狀態(tài)辨識(shí)的能力,并在抑郁癥患者和健康被試者數(shù)據(jù)集上驗(yàn)證了該方法的效果.
基于語音分析的抑郁狀態(tài)分類辨識(shí)算法的流程如圖1所示,主要包括預(yù)處理、特征提取、特征選擇、遷移學(xué)習(xí)、分類5個(gè)關(guān)鍵步驟.
圖1 基于語音分析的抑郁識(shí)別方法的流程圖Fig.1 Flow chart of depression recognition method based on acoustical signal processing
為避免低頻噪音的干擾,采用截止頻率為137.8 Hz的2階巴特沃斯濾波器進(jìn)行高通濾波.另外語音信號(hào)原始采樣頻率為44 100 Hz,為控制文件大小以方便未來對(duì)語音的流程化處理,采用librosa[7]將信號(hào)降采樣到最常用的16 000 Hz.最后通過Pyaudioanalysis[8]對(duì)每份語音去除長(zhǎng)時(shí)間的靜音段(非語音片段),提取有聲片段后合并成一個(gè)數(shù)據(jù)段.
本文提取的特征包括6類: 聲學(xué)特征、頻域特征、停頓特征、Mel頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)[9]特征、色度特征和深度學(xué)習(xí)特征.其中,前5類特征是常用的語音信號(hào)不同方面性質(zhì)的特征,深度學(xué)習(xí)特征則是本文自主提出的針對(duì)語音分析的新特征.
1.2.1 常用語音特征的提取
聲學(xué)特征包括基頻、能量和過零率相關(guān)特征,共6個(gè),其中能量特征包括聲強(qiáng)和聲強(qiáng)包絡(luò),過零率相關(guān)特征包括過零率、過零幅度(即兩個(gè)過零點(diǎn)間信號(hào)的最大幅值)和過零間隔(即兩個(gè)過零點(diǎn)間的時(shí)間間隔);頻域特征包括頻譜中心、頻譜延展度、頻譜通量、譜熵和頻譜滾降點(diǎn),共5個(gè);MFCC特征將人耳的聽覺感知特性和語音信號(hào)產(chǎn)生機(jī)制有效結(jié)合,共13個(gè);色度[10]特征代表一段時(shí)間內(nèi)12個(gè)音級(jí)中的能量,不同八度的同一音級(jí)能量累加,共12個(gè);將原始語音中開頭和結(jié)尾以外的靜音段視作停頓片段,停頓相關(guān)的特征在數(shù)據(jù)預(yù)處理時(shí)提取,包括停頓次數(shù)、停頓比(停頓片段總時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))和平均停頓比(停頓片段平均時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))3個(gè).
對(duì)于聲學(xué)特征、頻域特征、Mel頻率倒譜系數(shù)特征和色度特征,采用提取特征統(tǒng)計(jì)量的方法來獲取能夠反映語音整體變化的特征信息.
選擇不同的窗長(zhǎng)和滑動(dòng)步長(zhǎng)會(huì)對(duì)特征提取的結(jié)果造成影響,為了獲取能夠反映語音整體變化的長(zhǎng)時(shí)特征,采用提取特征統(tǒng)計(jì)量的方法來獲取整體而非局部的特征信息.使用的12個(gè)統(tǒng)計(jì)量分別是: 最大值、最小值、極差、均值、中位數(shù)、線性回歸的截距(時(shí)間作為自變量)、線性回歸的系數(shù)(時(shí)間作為自變量)、線性回歸的R2(時(shí)間作為自變量)、標(biāo)準(zhǔn)偏差、偏度、峰度和變異系數(shù).
因此,本文提取的常用語音特征共有12×{6(聲學(xué))+5(頻域)+12(色度)+13(MFCC)}+3(停頓相關(guān))=435個(gè).
1.2.2 深度學(xué)習(xí)特征的提取
深度學(xué)習(xí)技術(shù)在語音信號(hào)處理領(lǐng)域取得了良好的成果,它可以學(xué)習(xí)生成高級(jí)語音信息,豐富手工設(shè)計(jì)特征.本文設(shè)計(jì)的抑郁檢測(cè)語音網(wǎng)絡(luò)(Depression Detection Audio Net, DD-AudioNet)由卷積神經(jīng)網(wǎng)絡(luò)融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Attention-Bi-LSTM)組成.如圖2所示,DD-AudioNet將語音信號(hào)通過短時(shí)傅里葉變換映射到時(shí)頻圖作為神經(jīng)網(wǎng)絡(luò)的輸入,水平軸代表時(shí)間,垂直軸代表頻率,以語音對(duì)應(yīng)的被試是否抑郁(0或1)作為標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),提取神經(jīng)網(wǎng)絡(luò)的瓶頸層特征作為深度學(xué)習(xí)的特征.
圖2 抑郁檢測(cè)語音網(wǎng)絡(luò)Fig.2 Depression detection audionet
單向LSTM只利用到前向信息,而雙向LSTM可以融合前向和后向語義信息.在卷積神經(jīng)網(wǎng)絡(luò)模式識(shí)別中,輸入圖像和卷積核都是2維的,而語音信號(hào)是1維的.為充分利用卷積的優(yōu)勢(shì),采用短時(shí)傅里葉變換將語音映射到時(shí)頻域.神經(jīng)網(wǎng)絡(luò)的輸入維度必須一致否則無法訓(xùn)練,然而收集到的語音在時(shí)間上無法保證一致等長(zhǎng).因此將一段語音切分為以2 s為一個(gè)小段的多段,每2 s的小段經(jīng)過短時(shí)傅里葉變換得到時(shí)頻矩陣,放入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,對(duì)應(yīng)的標(biāo)簽即表示所屬被試是否抑郁.若語音時(shí)長(zhǎng)不是2 s的整數(shù)倍,則去掉語音開頭多余的時(shí)間,如一段5.4 s的語音去掉開頭的1.4 s,剩余4 s以2 s為一個(gè)單位劃分為兩段,然后將這兩段語音放入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練.每個(gè)2 s的單位片段都會(huì)輸出一個(gè)瓶頸層特征,所以每段語音可以得到若干個(gè)神經(jīng)網(wǎng)絡(luò)提取的瓶頸層特征.因此,語音無論被分為幾個(gè)小片段都在瓶頸層維度上求平均值,由此保證不等長(zhǎng)的語音片段得到的深度學(xué)習(xí)特征維度的一致性.本文所用的DD-AudioNet的損失函數(shù)設(shè)置為交叉熵,使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò).LSTM的單元維度設(shè)置為64,雙向LSTM的輸出層是128維的向量.因此,本文提取的深度學(xué)習(xí)特征共有128個(gè).
注意力機(jī)制結(jié)構(gòu)如圖3所示.將Bi-LSTM的輸出通過一層的多層感知機(jī)得到ut,作為ht的隱式表達(dá),之后用ut與整個(gè)語音段的矢量uω的相似性來衡量每一片段的重要性.然后通過一個(gè)Softmax函數(shù)得到標(biāo)準(zhǔn)化后的權(quán)重系數(shù)αt,最后語音矢量s經(jīng)過ht加權(quán)求和得到.語音矢量s可以被視為一段語音的高維特征表示,類似于自然語音處理任務(wù)中對(duì)一段query經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)提取到的特征.uω是通過訓(xùn)練學(xué)習(xí)得到的最終參數(shù),初始時(shí)是隨機(jī)的矢量.且
圖3 注意力機(jī)制結(jié)構(gòu)的示意圖Fig.3 Schematic diagram of the structure of attention mechanism
其中:Wω,bω是隨機(jī)初始化的可訓(xùn)練參數(shù),會(huì)隨著訓(xùn)練不斷更新.
Lasso[11]是一種基于一范式的特征選擇方法,通過對(duì)系數(shù)的壓縮舍棄系數(shù)低于閾值的變量,然后保留剩下的變量作為有效特征.本文的目標(biāo)是分類任務(wù),所以采用特征選擇模型的本質(zhì)是Lasso-Logistic回歸[12],在Logistic回歸模型參數(shù)固定的基礎(chǔ)上比較不同的Lasso參數(shù),根據(jù)最優(yōu)的準(zhǔn)確率確定參數(shù)[13].在本文所有實(shí)驗(yàn)中,模型懲罰系數(shù)λ設(shè)置為0.005,Lasso不僅能夠準(zhǔn)確地選擇出與類標(biāo)簽強(qiáng)相關(guān)的變量,同時(shí)還具有特征選擇的穩(wěn)定性.
在分類算法中,為保證模型的準(zhǔn)確性和魯棒性,都假設(shè)訓(xùn)練樣本與測(cè)試樣本滿足獨(dú)立同分布的條件,但實(shí)際中這個(gè)條件往往無法滿足.遷移學(xué)習(xí)的目的是通過遷移已有的知識(shí)來解決訓(xùn)練樣本與測(cè)試樣本分布不一致的問題[14].采用無監(jiān)督的源適應(yīng)遷移方法CORAL(Correlation Alignment)[15],通過對(duì)齊訓(xùn)練集特征和測(cè)試集特征之間的2階協(xié)方差矩陣信息,拉近訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布.CORAL算法的具體描述如下:
輸入: 訓(xùn)練集特征DS為Ns×Nfeature的矩陣;測(cè)試集特征DT為NT×Nfeature的矩陣;訓(xùn)練集樣本數(shù)Ns;測(cè)試集樣本數(shù)NT;特征維度Nfeature
CS=cov(DS)+eye(size(DS,2))size(DS,2)為Nfeature矩陣的列數(shù);eye(n)為n×n的單位矩陣;cov為協(xié)方差矩陣;CS為中間變量
CT=cov(DT)+eye(size(DT,2))CT為中間變量
1.5.1 分類器
本文使用的分類模型包括邏輯回歸、隨機(jī)森林和XgBoost 3種.邏輯回歸是一種廣義線性模型,假設(shè)因變量y服從伯努利分布,是一種解決二分類問題常見的機(jī)器學(xué)習(xí)算法.高翔[29]的研究表明集成學(xué)習(xí)模型可以提升其分類效果,因此本文也采用隨機(jī)森林、XgBoost這兩種以二叉樹為基分類器的集成學(xué)習(xí)算法.隨機(jī)森林屬于聚集類方法,通過加入屬性擾動(dòng)降低方差來提高性能,而XgBoost屬于提升類方法,通過降低偏差來提升性能.
1.5.2 模型評(píng)價(jià)指標(biāo)
模型所得分類結(jié)果的混淆矩陣如表1所示.用kTP表示事實(shí)為抑郁被試的語音被正確識(shí)別的數(shù)量;用kFP表示事實(shí)為正常被試的語音被錯(cuò)誤識(shí)別為抑郁被試的數(shù)量;用kTN表示事實(shí)為正常被試的語音被正確識(shí)別的數(shù)量;用kFN表示事實(shí)為抑郁被試的語音被錯(cuò)誤識(shí)別為正常被試的數(shù)量.
表1 分類結(jié)果的混淆矩陣Tab.1 The confusion matrix of classification result
本文采用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率λACC、F1分?jǐn)?shù)F1和AUC(Area under curve)值SAUC.定義
語音數(shù)據(jù)采集自112名抑郁患者和69名健康被試,抑郁組和健康組之間的年齡和性別均無統(tǒng)計(jì)學(xué)意義上的差異.所有被試排除物質(zhì)濫用、物質(zhì)依賴、人格障礙等其他精神疾病,無嚴(yán)重的軀體疾病或自殺行為.本研究的語音任務(wù)“模擬訪談”,包括正、中、負(fù)3種誘發(fā)情緒.任務(wù)中,被試需要對(duì)不同的問題進(jìn)行回答,從而獲得語音數(shù)據(jù).每名被試對(duì)每個(gè)問題的回答都會(huì)單獨(dú)生成一段語音數(shù)據(jù).模擬訪談任務(wù)的3種情緒條件下各有3道相同情緒效價(jià)的問題,因此每個(gè)被試產(chǎn)生9條語音片段,本研究一共采集181×9=1 629條語音片段.
從抑郁被試和健康被試中各隨機(jī)抽取25人,共50人的語音片段作為測(cè)試集,其他131名被試的語音片段作為訓(xùn)練集.對(duì)于時(shí)長(zhǎng)不足2 s的語音片段由于其信息量不足而不予采用,最終得到400個(gè)語音片段作為測(cè)試集,1 060個(gè)語音片段作為訓(xùn)練集,其中訓(xùn)練集和測(cè)試集中的語音片段來自于不同的被試.
表2展示的是根據(jù)不同特征集分別建模的結(jié)果.無論哪種分類方法,深度學(xué)習(xí)特征的結(jié)果普遍優(yōu)于其他類特征,其最高的準(zhǔn)確率、F1分?jǐn)?shù)、AUC分別為0.833、0.808、0.881.其他特征中表現(xiàn)較好的Mel頻率倒譜系數(shù)和聲學(xué)特征的準(zhǔn)確率可以達(dá)到0.7以上.上述結(jié)果說明利用DD-AudioNet提取的深度學(xué)習(xí)特征相比其他特征有更好的效果.
表2 不同方法對(duì)6類特征的分類結(jié)果Tab.2 Classification results of six types of features by different methods
在比較6類特征分別建模的效果之外,將6類特征進(jìn)行不同組合以比較不同組合的分布結(jié)果.特征組合包括3種: 1) 全特征組,通過Lasso對(duì)6類共563個(gè)特征進(jìn)行特征選擇后得到26個(gè)特征;2) 非深組,通過Lasso對(duì)深度學(xué)習(xí)特征以外的5類共435個(gè)特征進(jìn)行特征選擇后得到17個(gè)特征;3) 獨(dú)立特征組,對(duì)6類特征分別進(jìn)行特征選擇,選擇各類特征數(shù)目,如表2所示,再合并共得到77個(gè)特征.圖4(見第738頁)展示了3種特征組合的特征分布情況,深度學(xué)習(xí)特征在全特征組中的占比達(dá)到了84.6%,遠(yuǎn)高于其他各類特征之和.表3(見第738頁)為3種特征組合的分類結(jié)果,發(fā)現(xiàn)當(dāng)特征組合中有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率就能超過0.8,而特征組合中沒有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率不及0.7.全特征組表現(xiàn)最佳,其最高的準(zhǔn)確率、F1分?jǐn)?shù)和AUC值分別為0.840、0.815和0.885.
圖4 特征組合特征的分布圖Fig.4 Distribution of combined feature sets
表3 不同方法對(duì)特征組的分類結(jié)果
本文設(shè)計(jì)了一種用于抑郁識(shí)別的融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的算法.該算法的特點(diǎn)在于從網(wǎng)絡(luò)結(jié)構(gòu)中提取瓶頸層向量作為深度學(xué)習(xí)特征,并引入遷移學(xué)習(xí)來降低訓(xùn)練集和測(cè)試集數(shù)據(jù)分布差異帶來的影響.經(jīng)實(shí)驗(yàn)驗(yàn)證該算法在中文數(shù)據(jù)集上取得了較以往算法更好的預(yù)測(cè)效果.通過比較深度學(xué)習(xí)特征和常用的5類語音特征的預(yù)測(cè)效果,發(fā)現(xiàn)深度學(xué)習(xí)特征的識(shí)別效果最佳.特征組合的結(jié)果發(fā)現(xiàn),特征選擇后的特征集中保留的深度學(xué)習(xí)特征所占比例顯著高于其他特征,說明其可能包涵更多抑郁的信息.進(jìn)一步的分類結(jié)果也顯示包含更多深度學(xué)習(xí)特征的特征組合的識(shí)別結(jié)果更佳.通過非侵入、易采集的信息去識(shí)別抑郁是實(shí)現(xiàn)抑郁快速篩查的基礎(chǔ),未來可嘗試將本研究的算法應(yīng)用于臨床,實(shí)踐其在真實(shí)就診環(huán)境中的檢測(cè)效果.