吳情 胡維平 陳丹丹 肖婷
(廣西師范大學(xué)電子工程學(xué)院桂林 541000)
抑郁癥屬于一種精神疾病,在臨床上主要表現(xiàn)為明顯的長(zhǎng)久性心境低落,主要由心理、生理等因素引起,影響著患者的日常生活,長(zhǎng)期性的治療會(huì)造成極大的經(jīng)濟(jì)負(fù)擔(dān),并可能導(dǎo)致極端的厭世,做出自殺等行為,需要及時(shí)治療[1]。
可喜的是,抑郁癥是一種可以治愈的疾病。目前,診斷抑郁癥的主要方法是靠醫(yī)生根據(jù)患者對(duì)癥狀的自我報(bào)告和心理健康問(wèn)卷進(jìn)行臨床評(píng)估,這種診斷方法的準(zhǔn)確度主要依賴(lài)于患者對(duì)治療的配合程度、對(duì)問(wèn)卷的理解程度以及醫(yī)師的專(zhuān)業(yè)水平和經(jīng)驗(yàn)。隨著社會(huì)的飛速發(fā)展,人們處于快節(jié)奏、高壓力的生活中,抑郁癥患者數(shù)量不斷攀升,抑郁癥的診斷面臨著醫(yī)生短缺的問(wèn)題。因此,通過(guò)計(jì)算機(jī)技術(shù)提供一種客觀有效的方法迫在眉睫。
近年來(lái),很多研究者致力于利用生物、生理、行為等多模態(tài)去對(duì)抑郁癥患者的患病情況進(jìn)行評(píng)估,語(yǔ)聲、血漿蛋白、面部表情、眼球移動(dòng)、體態(tài)、步態(tài)、腦電、核磁等多種信息被用于抑郁識(shí)別的研究之中。由于聲音狀態(tài)與情緒密切相關(guān)[2],且語(yǔ)聲具有非侵入、易獲取、低成本等優(yōu)勢(shì),基于語(yǔ)聲信號(hào)的抑郁檢測(cè)成為近幾年的研究熱點(diǎn)之一[3]。
語(yǔ)聲情感識(shí)別的通常做法是先進(jìn)行特征選擇。特征的選擇直接關(guān)系到情感識(shí)別結(jié)果的好壞,常用的聲頻特征有梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)[4]、語(yǔ)譜圖[5]、共振峰[6]等。提取特征后再采用分類(lèi)算法來(lái)研究特征與抑郁程度之間的關(guān)系,分類(lèi)方法分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類(lèi),經(jīng)典的機(jī)器學(xué)習(xí)方法包括高斯混合模型(Gaussian mixture model,GMM)、支持向量回歸(Support vector regression,SVR)、隨機(jī)森林(Random forest,RF)[7]等。隨著近幾年計(jì)算機(jī)的發(fā)展,深度學(xué)習(xí)取得了突破性的進(jìn)展,與機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)可以更好地提取高層語(yǔ)義特征,適應(yīng)性強(qiáng),易于遷移。
國(guó)外對(duì)語(yǔ)聲抑郁識(shí)別的研究相比國(guó)內(nèi)較早,一些研究人員發(fā)現(xiàn)并證實(shí)了人的聲頻特征與抑郁癥之間有著明顯的相關(guān)性,這給利用語(yǔ)聲信號(hào)來(lái)識(shí)別抑郁癥提供了理論基礎(chǔ)。Rejaibia等[8]提出將MFCC及基頻特征送進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)進(jìn)行識(shí)別,證明了MFCC在抑郁識(shí)別中的有效性。He等[9]利用語(yǔ)聲信號(hào)提取改進(jìn)的語(yǔ)譜圖特征和eGeMAPS(Extended Geneva minimalistic acoustic parameter set)特征集,利用深度卷積網(wǎng)絡(luò)通過(guò)特征融合進(jìn)行識(shí)別,證明了改進(jìn)的語(yǔ)譜圖特征效果較好。Sun等[10]利用級(jí)聯(lián)的RF進(jìn)行語(yǔ)聲、文本及視頻的多模態(tài)抑郁識(shí)別,發(fā)現(xiàn)RF分類(lèi)對(duì)抑郁識(shí)別有著較好的效果。Ma等[11]提出了一種基于CNN+長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long-short term memory,LSTM)的深度模型DeepAudioNet用于處理語(yǔ)聲抑郁信號(hào)的語(yǔ)譜圖特征,證明了該模型的有效性。
國(guó)內(nèi)對(duì)語(yǔ)聲抑郁識(shí)別研究較為著名的是蘭州大學(xué)的普適計(jì)算實(shí)驗(yàn)室基于國(guó)家973項(xiàng)目支持[12],與北京安定醫(yī)院和蘭州大學(xué)第二附屬醫(yī)院等著名醫(yī)院合作,通過(guò)實(shí)地采集被試者的語(yǔ)聲信號(hào),基于語(yǔ)聲分析進(jìn)行抑郁癥識(shí)別并評(píng)估被試者抑郁的嚴(yán)重程度,整個(gè)實(shí)驗(yàn)的過(guò)程全部是由該實(shí)驗(yàn)組完成,未采用國(guó)外的抑郁癥語(yǔ)聲庫(kù),通過(guò)實(shí)驗(yàn)達(dá)到78.9%的識(shí)別率。考慮到患者隱私等問(wèn)題,其數(shù)據(jù)集是不對(duì)外公開(kāi)的,無(wú)法獲取。湖南師范大學(xué)從生物信息研究方向出發(fā),利用醫(yī)療上功能磁共振方法從醫(yī)學(xué)專(zhuān)業(yè)層面來(lái)進(jìn)行抑郁癥識(shí)別,實(shí)現(xiàn)了84.21%的識(shí)別率,該研究方法也為國(guó)內(nèi)現(xiàn)階段基于生理信號(hào)進(jìn)行抑郁癥識(shí)別起到了一定程度上的借鑒意義。劉美[13]從語(yǔ)聲出發(fā),利用語(yǔ)譜圖特征,結(jié)合生成式對(duì)抗網(wǎng)絡(luò)和CNN來(lái)進(jìn)行抑郁癥識(shí)別,實(shí)現(xiàn)了62%的識(shí)別率。
本文探究了幾種經(jīng)典的傳統(tǒng)手工特征對(duì)抑郁癥識(shí)別的效果,在基礎(chǔ)的LSTM模型上引入注意力機(jī)制,通過(guò)對(duì)比發(fā)現(xiàn),注意力機(jī)制對(duì)于語(yǔ)聲抑郁識(shí)別效果有著一定的提高,在此模型的基礎(chǔ)上進(jìn)行改進(jìn),提出了CNN和結(jié)合注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶
(Bidirectional long short-term memory,BLSTM)
特征融合模型,經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,取得了較好的語(yǔ)聲抑郁識(shí)別結(jié)果。
注意力機(jī)制的提出受人類(lèi)自身的啟發(fā):比如在看一個(gè)場(chǎng)景的時(shí)候,不會(huì)每次都把場(chǎng)景內(nèi)的所有東西全部看一遍,而是只看感興趣的東西[14]。換句話說(shuō),如果最想看的那個(gè)東西總是出現(xiàn)在某一部分時(shí),以后再在相似的場(chǎng)景中,就會(huì)把注意力放到這部分上,盡量不去看其他部分,節(jié)省時(shí)間以提高效率。
注意力機(jī)制最關(guān)鍵的部分就是計(jì)算一串權(quán)重參數(shù),它從序列中學(xué)習(xí)每一個(gè)元素的重要程度,然后按重要程度將元素合并[15]。這串權(quán)重參數(shù)也稱(chēng)為注意力分配系數(shù),它決定了給哪個(gè)元素分配多少注意力,權(quán)重參數(shù)越大,則代表這個(gè)元素對(duì)于結(jié)果更有效。
模型如圖1所示,由兩部分組成。第一部分是BLSTM,第二部分是注意力機(jī)制,它為L(zhǎng)STM的隱藏狀態(tài)提供了一組求和權(quán)向量。這些加權(quán)向量的集合與LSTM隱藏狀態(tài)進(jìn)行點(diǎn)乘,得到的加權(quán)LSTM隱藏狀態(tài)被認(rèn)為是最終的特征向量。
圖1 結(jié)合注意力機(jī)制的BLSTM模型Fig.1 BLSTM model combining attention mechanism
假設(shè)一條聲頻有n幀,則可以用s表示:
其中,wi代表語(yǔ)聲中第i幀的特征向量,每一幀有d維,因此,s是一個(gè)n×d的二維矩陣。
首先,將s通過(guò)BLSTM,每個(gè)前向ht與后向ht連接起來(lái)得到一個(gè)隱藏狀態(tài)ht。若每個(gè)單向LSTM的隱藏單元數(shù)為u,將所有n個(gè)ht記為H,它的大小為n×2u。然后通過(guò)注意力機(jī)制,將LSTM的整個(gè)隱藏狀態(tài)H作為輸入,首先將輸入經(jīng)過(guò)Dense層,且使用softmax變換將Dense層輸出結(jié)果轉(zhuǎn)化為[0,1]之間的數(shù),確保所有計(jì)算出的權(quán)重之和為1,從而得到注意力權(quán)重a:
其中,ws1、ws2都是可以學(xué)習(xí)的模型參數(shù),ws1大小為2u×d,ws2大小為d,則a的大小為n。
然后將a和LSTM隱藏狀態(tài)H進(jìn)行求和,得到輸入特征向量表示m。向量m只集中在一幀中,它反映一幀語(yǔ)聲中的情感,然而,一句語(yǔ)聲中可以有多幀,它們共同構(gòu)成整個(gè)語(yǔ)聲句子的情感。為了完整全面地識(shí)別語(yǔ)聲的整體情感,需要多個(gè)“m”。因此,可能需要進(jìn)行多次注意力權(quán)重的計(jì)算。假設(shè)想要從語(yǔ)聲中提取r個(gè)不同的部分,需將ws2擴(kuò)展為一個(gè)r×d的矩陣,記為Ws2,由此得到的注意向量a成為注意矩陣A:
然后根據(jù)注意矩陣A提供的權(quán)值與LSTM隱藏狀態(tài)H相乘,計(jì)算加權(quán)和,更新隱藏狀態(tài),得到最終的隱藏狀態(tài):
此時(shí)矩陣M大小為r×2u,A為r×n。
最后,把矩陣M送進(jìn)全連接層和softmax層進(jìn)行最終的抑郁二分類(lèi)。
隨著深度學(xué)習(xí)在語(yǔ)聲情感識(shí)別上的廣泛應(yīng)用,基于CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的模型被廣泛用于語(yǔ)聲情感識(shí)別,然而這些模型都是單純地使用了一種或者兩種方法串行實(shí)現(xiàn),并不能捕捉足夠的情感特征。從各種文獻(xiàn)中知道CNN可以有效地處理空間信息,而每個(gè)語(yǔ)聲序列包含不同比例的抑郁情感信息,可以通過(guò)BLSTM上下文關(guān)系從語(yǔ)聲中獲取更豐富的抑郁特征。本文提出一種基于CNN學(xué)習(xí)的語(yǔ)聲抑郁信息的空間特征和BLSTM-ATT上下文特征融合方法實(shí)現(xiàn)語(yǔ)聲抑郁識(shí)別。模型如圖2所示。
圖2 基于CNN和BLSTM-ATT的特征融合模型Fig.2 Feature fusion model based on CNN and BLSTM-ATT
圖2中CNN支路是由4個(gè)Conv2D black組成,而每個(gè)Conv2D black是個(gè)二維卷積塊,里面由5個(gè)部分組成:
(1)二維卷積層:卷積核大小為3×3,步長(zhǎng)為1,padding為1。
(2)歸一化層:加速神經(jīng)網(wǎng)絡(luò)的收斂過(guò)程以及提高訓(xùn)練過(guò)程中的穩(wěn)定性[16]。
(3)Relu層:引入非線性因素。
(4)最大池化層:核大小為4×4,步長(zhǎng)為4×2,對(duì)特征進(jìn)行壓縮,減小模型大小。
(5)Dropout層:防止過(guò)擬合,提升模型泛化能力。
BLSTM-ATT支路是由一個(gè)最大池化層和一個(gè)結(jié)合注意力機(jī)制的BLSTM層構(gòu)成,最大池化層核大小為2×4,步長(zhǎng)大小為2×4,BLSTM的隱藏層單元個(gè)數(shù)設(shè)為128,最后通過(guò)拼接層將空間特征和上下文特征進(jìn)行融合并分類(lèi)。
采用公開(kāi)的遇事分析訪談?wù)Z料庫(kù)DAIC-WOZ中的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)[17],該數(shù)據(jù)集共189條數(shù)據(jù),其中抑郁56條,非抑郁133條,由189位參與者和一位虛擬采訪者Ellie共同錄制,每段語(yǔ)聲時(shí)長(zhǎng)7~33 min不等,采樣率16 kHz。數(shù)據(jù)集包含錄制的聲頻文件、參與者和采訪者的對(duì)話內(nèi)容記錄、聲頻提取的Covarep特征集、聲頻提取的前5個(gè)共振峰特征以及醫(yī)生根據(jù)參與者自身健康調(diào)查表得分結(jié)果進(jìn)行的標(biāo)簽標(biāo)記,標(biāo)簽中給出了問(wèn)卷調(diào)查結(jié)果的具體分?jǐn)?shù)、性別以及是否抑郁的標(biāo)注,其中0為非抑郁個(gè)體,1為抑郁個(gè)體,根據(jù)這個(gè)二元標(biāo)簽進(jìn)行對(duì)語(yǔ)聲抑郁癥的二分類(lèi)。
剪接:將采訪者的話語(yǔ)從原語(yǔ)聲中剪掉,然后剔除被采訪者話語(yǔ)中小于1 s的片段,最后將被采訪者話語(yǔ)中大于1 s的片段進(jìn)行拼接(原始語(yǔ)聲包含參與者和采訪者,是一問(wèn)一答的形式,參與者的每句話都是對(duì)采訪者問(wèn)題的獨(dú)立回答,是完整的一句話,沒(méi)有語(yǔ)意中斷,參與者小于1 s的語(yǔ)聲回答一般是語(yǔ)氣詞或者禮貌用語(yǔ)和雜音,對(duì)于實(shí)驗(yàn)是不需要的)。
數(shù)據(jù)增強(qiáng):本文采用的數(shù)據(jù)增強(qiáng)方法共有兩種,包括添加噪聲和改變音調(diào)[18]。(1)添加噪聲:在語(yǔ)聲中添加隨機(jī)噪聲,提高模型的泛化能力,噪聲因子設(shè)為0.01。(2)改變音調(diào):改變語(yǔ)聲信號(hào)的音調(diào),擴(kuò)張倍數(shù)設(shè)為1.5。
語(yǔ)聲切片:將拼接好的語(yǔ)聲按15 s進(jìn)行切分,總共得到5395個(gè)樣本(其中80%用于訓(xùn)練,20%用于測(cè)試)進(jìn)行訓(xùn)練和測(cè)試。
2.3.1 特征提取
(1)MFCC:漢明窗,幀長(zhǎng)25 ms,幀移10 ms,濾波器個(gè)數(shù)26,對(duì)189個(gè)聲頻進(jìn)行分幀,最后每個(gè)聲頻得到(幀數(shù),39)維數(shù)據(jù)。
(2)基頻:漢明窗,幀長(zhǎng)25 ms,幀移10 ms,最后每個(gè)聲頻得到(幀數(shù),1)維數(shù)據(jù)。
(3)共振峰:將數(shù)據(jù)集里自帶的聲頻前5個(gè)共振峰特征結(jié)合參與者和采訪者的對(duì)話內(nèi)容記錄,將只有參與者聲頻的前5個(gè)共振峰特征提取出來(lái),最后每個(gè)聲頻得到(幀數(shù),5)維數(shù)據(jù)。
(4)語(yǔ)譜圖:漢明窗,幀長(zhǎng)500 ms,幀移250 ms,將一幀設(shè)為一個(gè)塊(chunk),一組梅爾濾波器組包含128個(gè)梅爾濾波器,最后每個(gè)聲頻得到(128,126)維數(shù)據(jù)。
(5)Opensmile:使用的特征為Interspeech 2009 Emotion Challenge中的基準(zhǔn)特征,所用窗函數(shù)為漢明窗,幀長(zhǎng)25 ms,幀移10 ms。特征包含過(guò)零率、能量、基頻、諧波噪聲比1~12階MFCC,共16維的低級(jí)描述符(Low-level descriptor,LLD),然后計(jì)算這16維LLD的一階差分,可以得到32維LLD,最后在這32維基礎(chǔ)上應(yīng)用均值、標(biāo)準(zhǔn)差等12個(gè)統(tǒng)計(jì)函數(shù),每個(gè)聲頻得到(1,384)維特征。
(6)Coverap:將數(shù)據(jù)集里自帶的聲頻Coverap特征結(jié)合參與者和采訪者的對(duì)話內(nèi)容記錄,將只有參與者聲頻的Coverap特征提取出來(lái),特征包含基頻、發(fā)聲/不發(fā)聲,歸一化幅度參數(shù)、擬開(kāi)熵、前兩次諧波的振幅差異化聲門(mén)的源譜、拋物面反射光譜參數(shù)、最大分散熵、峰值斜率、聲門(mén)脈沖動(dòng)力學(xué)、Rd_conf、0~24階MFCC、諧波模型和相位畸變均值,最后每個(gè)聲頻得到(幀數(shù),74)維數(shù)據(jù)。
2.3.2 實(shí)驗(yàn)測(cè)試
實(shí)驗(yàn)1結(jié)合注意力機(jī)制的BLSTM算法
用上述提取的手工特征,分別送進(jìn)結(jié)合注意力機(jī)制的LSTM模型中對(duì)抑郁癥進(jìn)行分類(lèi),觀察實(shí)驗(yàn)結(jié)果,模型如圖3所示。以不加注意力機(jī)制的LSTM模型做實(shí)驗(yàn)對(duì)比(不加注意力機(jī)制模型除少了注意力機(jī)制模型外,其他參數(shù)和圖3均相同),實(shí)驗(yàn)結(jié)果如表1和表2所示。
圖3 手工特征結(jié)合注意力機(jī)制的LSTM模型Fig.3 LSTM model of manual features combined with attention mechanism
表1 不同的手工特征在沒(méi)加注意力的LSTM模型上的性能對(duì)比Table 1 The performance comparison of different manual features on the LSTM model without attention
從表1和表2中可以看出,對(duì)于所探究的6個(gè)特征而言,網(wǎng)絡(luò)加上注意力機(jī)制之后,分類(lèi)效果都有一定的提高,其中MFCC、Opensmile、語(yǔ)譜圖這3種特征對(duì)于語(yǔ)聲抑郁識(shí)別有著較好的結(jié)果。加注意力機(jī)制時(shí),MFCC的精確度達(dá)到77.19%,比不加時(shí)提高了2.5%,F(xiàn)1分?jǐn)?shù)達(dá)到74%,比不加時(shí)提高了12%;Opensmile的精確度達(dá)到76.16%,比不加時(shí)提高了2.48%,F(xiàn)1分?jǐn)?shù)達(dá)到76%,比不加時(shí)提高了13%;語(yǔ)譜圖的精確度也提高了1.92%,F(xiàn)1分?jǐn)?shù)提高了8.44%。由此可得出,注意力機(jī)制對(duì)于分類(lèi)結(jié)果指標(biāo)都有一定幅度的提高。
表2 不同的手工特征在加注意力的LSTM模型上的性能對(duì)比Table 2 Performance comparison of different manual features in the attentionadded LSTM model
實(shí)驗(yàn)2 CNN和結(jié)合注意力機(jī)制的BLSTM特征融合算法
實(shí)驗(yàn)1得出,在所研究的手工特征中,MFCC的效果最好,所以在實(shí)驗(yàn)2中,采用MFCC特征來(lái)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 MFCC在基于CNN和結(jié)合注意力機(jī)制的BLSTM特征融合模型上的性能Table 3 Performance of MFCC in BLSTM feature fusion model based on CNN and combining attention mechanism
從表3的結(jié)果可以看出,由于實(shí)驗(yàn)2比實(shí)驗(yàn)1多了一條CNN支路以獲取空間信息,對(duì)于語(yǔ)聲信號(hào)的抑郁識(shí)別效果有了一定的提升,模型精確度達(dá)到78.06%,比實(shí)驗(yàn)1提高了0.87%;F1分?jǐn)?shù)達(dá)到74.68%,比實(shí)驗(yàn)1提高了0.68%。
從兩個(gè)實(shí)驗(yàn)和前人研究的結(jié)果中都可以看出,在語(yǔ)聲抑郁識(shí)別的眾多聲頻特征中,MFCC相對(duì)其他手工特征而言效果都是較好的,可能是因?yàn)槊窢栴l率反映了人耳的感知頻率與聲音的真實(shí)頻率之間的關(guān)系,而MFCC就是在梅爾頻譜的基礎(chǔ)上提取的。兩個(gè)實(shí)驗(yàn)也證明了注意力機(jī)制的加入,使網(wǎng)絡(luò)的識(shí)別效果得到提升。
研究發(fā)現(xiàn),不同的語(yǔ)聲特征對(duì)于抑郁癥的識(shí)別具有不同的效果。本文對(duì)幾個(gè)常用的特征進(jìn)行了比較,客觀地得出MFCC能較好且穩(wěn)定地識(shí)別是否有抑郁癥。本文在結(jié)合注意力機(jī)制的LSTM模型上進(jìn)行改進(jìn),提出了基于CNN和結(jié)合注意力機(jī)制的BLSTM特征融合的語(yǔ)聲抑郁識(shí)別模型,效果有了一定的提升。
目前語(yǔ)聲抑郁識(shí)別具有一定的難度,因?yàn)樯婕盎颊叩碾[私,所以對(duì)外公開(kāi)的抑郁語(yǔ)聲數(shù)據(jù)集很少,如何在數(shù)據(jù)集上進(jìn)行數(shù)據(jù)擴(kuò)充是有必要研究的。而且數(shù)據(jù)集中正負(fù)樣本的數(shù)量相差很大,抑郁患者的數(shù)量遠(yuǎn)遠(yuǎn)小于非抑郁患者的數(shù)量,如何使數(shù)據(jù)達(dá)到平衡也是需要探究的。除此之外,人類(lèi)情感具有模糊的邊界,且一句話可能包含多種情感,比如抑郁和傷心的大多數(shù)語(yǔ)聲特征是相似的,這就會(huì)造成識(shí)別混淆,所以如何實(shí)現(xiàn)長(zhǎng)時(shí)語(yǔ)聲的復(fù)雜情感識(shí)別,也是未來(lái)的研究方向。
抑郁癥檢測(cè)是一個(gè)較為復(fù)雜的研究課題,單純語(yǔ)聲參數(shù)不足以反映抑郁癥患者的特點(diǎn),在未來(lái)的研究中,可參考醫(yī)生的經(jīng)驗(yàn),結(jié)合表情、眼神等圖像特征,嘗試用多模態(tài)方法來(lái)提高檢測(cè)正確率。