亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的基于語音分析的抑郁識(shí)別方法

2022-01-18 02:00:36汪靜瑩耿馨佚朱廷劭王守巖

復(fù)旦學(xué)報(bào)(自然科學(xué)版) 2021年6期

趙張，汪靜瑩，耿馨佚，朱廷劭，王守巖

(1. 復(fù)旦大學(xué) 類腦智能科學(xué)與技術(shù)研究院，上海 200433; 2. 復(fù)旦大學(xué) 計(jì)算神經(jīng)科學(xué)與類腦智能教育部重點(diǎn)實(shí)驗(yàn)室，上海 200433; 3. 復(fù)旦大學(xué) 上海智能機(jī)器人工程技術(shù)研究中心，上海 200433; 4. 復(fù)旦大學(xué) 智能機(jī)器人教育部工程研究中心，上海 200433; 5. 中國(guó)科學(xué)院心理研究所，北京 100101)

抑郁癥是一種在世界范圍內(nèi)常見的精神疾病，全球患者人數(shù)超過2.64億[1].抑郁癥不同于通常的情緒波動(dòng)，當(dāng)情況比較嚴(yán)重并且持續(xù)時(shí)間長(zhǎng)時(shí)會(huì)造成嚴(yán)重的健康問題，讓患者在工作生活中承受巨大痛苦甚至無法工作，在最壞的情況下會(huì)導(dǎo)致患者自殺.

目前，抑郁癥的評(píng)估方法主要依賴于患者的主觀報(bào)告和醫(yī)生的臨床評(píng)分.這些方法需要患者準(zhǔn)確地描述疾病，并且要求醫(yī)生具有豐富的臨床經(jīng)驗(yàn).為了幫助臨床醫(yī)生更準(zhǔn)確地判斷患者的病情，研究人員試圖找尋一種客觀有效的評(píng)估方法.語音是除表情之外情緒的另一種重要的外部表現(xiàn)，加之其方便獲取，因此使其成為一種備受期待的評(píng)估手段[2].

過去基于語音識(shí)別抑郁的研究還有若干值得改進(jìn)的地方.

首先，特征的特異性.隨著人們對(duì)語音和抑郁之間關(guān)系研究的深入，越來越多的特征如韻律特征、頻域特征等皆被用于建模識(shí)別抑郁.但這些特征并非專門針對(duì)抑郁設(shè)計(jì)的，不能完全反映聲音中與抑郁相關(guān)的信息，建模識(shí)別效果有限，因此如何從語音中提取能夠有效反映抑郁的特征尤為關(guān)鍵.近年來，深度學(xué)習(xí)在語音識(shí)別領(lǐng)域取得了突破性的進(jìn)展[3]，其中長(zhǎng)短時(shí)記憶(Long Short-Term Memory， LSTM)網(wǎng)絡(luò)通過“門”的概念建立了基于時(shí)間序列的長(zhǎng)期聯(lián)合記憶機(jī)制，避免了產(chǎn)生梯度消失現(xiàn)象，具備長(zhǎng)時(shí)記憶的能力[4]，神經(jīng)網(wǎng)絡(luò)的瓶頸層向量可用于表征抑郁相關(guān)的高維信息.

其次，權(quán)重系數(shù).過去的研究對(duì)一段語音每個(gè)部分都給予相同的權(quán)重，但在實(shí)際中部分語音片段能集中地反應(yīng)抑郁相關(guān)的信息.注意力機(jī)制[5]是一系列權(quán)重參數(shù)，對(duì)于一段語音并不是從頭到尾每個(gè)部分都保持同樣的關(guān)注度，而是通過自動(dòng)學(xué)習(xí)的方式重點(diǎn)觀察語音的某一些片段.最后，訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布存在差異.不同語音之間的特征差異受到被試本人發(fā)聲特點(diǎn)的影響，遷移學(xué)習(xí)[6]的方法則可以減小訓(xùn)練樣本和測(cè)試樣本之間數(shù)據(jù)分布差異對(duì)模型造成的影響.

據(jù)此，本文提出一種融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network， CNN)來提取深度學(xué)習(xí)特征，通過高維度的特征定義與選擇結(jié)合遷移學(xué)習(xí)的方法來提升該算法基于語音分析的抑郁狀態(tài)辨識(shí)的能力，并在抑郁癥患者和健康被試者數(shù)據(jù)集上驗(yàn)證了該方法的效果.

1 語音分析抑郁識(shí)別方法介紹

基于語音分析的抑郁狀態(tài)分類辨識(shí)算法的流程如圖1所示，主要包括預(yù)處理、特征提取、特征選擇、遷移學(xué)習(xí)、分類5個(gè)關(guān)鍵步驟.

圖1 基于語音分析的抑郁識(shí)別方法的流程圖Fig.1 Flow chart of depression recognition method based on acoustical signal processing

1.1 數(shù)據(jù)預(yù)處理

為避免低頻噪音的干擾，采用截止頻率為137.8 Hz的2階巴特沃斯濾波器進(jìn)行高通濾波.另外語音信號(hào)原始采樣頻率為44 100 Hz，為控制文件大小以方便未來對(duì)語音的流程化處理，采用librosa[7]將信號(hào)降采樣到最常用的16 000 Hz.最后通過Pyaudioanalysis[8]對(duì)每份語音去除長(zhǎng)時(shí)間的靜音段(非語音片段)，提取有聲片段后合并成一個(gè)數(shù)據(jù)段.

1.2 特征提取

本文提取的特征包括6類：聲學(xué)特征、頻域特征、停頓特征、Mel頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient， MFCC)[9]特征、色度特征和深度學(xué)習(xí)特征.其中，前5類特征是常用的語音信號(hào)不同方面性質(zhì)的特征，深度學(xué)習(xí)特征則是本文自主提出的針對(duì)語音分析的新特征.

1.2.1 常用語音特征的提取

聲學(xué)特征包括基頻、能量和過零率相關(guān)特征，共6個(gè)，其中能量特征包括聲強(qiáng)和聲強(qiáng)包絡(luò)，過零率相關(guān)特征包括過零率、過零幅度(即兩個(gè)過零點(diǎn)間信號(hào)的最大幅值)和過零間隔(即兩個(gè)過零點(diǎn)間的時(shí)間間隔)；頻域特征包括頻譜中心、頻譜延展度、頻譜通量、譜熵和頻譜滾降點(diǎn)，共5個(gè)；MFCC特征將人耳的聽覺感知特性和語音信號(hào)產(chǎn)生機(jī)制有效結(jié)合，共13個(gè)；色度[10]特征代表一段時(shí)間內(nèi)12個(gè)音級(jí)中的能量，不同八度的同一音級(jí)能量累加，共12個(gè)；將原始語音中開頭和結(jié)尾以外的靜音段視作停頓片段，停頓相關(guān)的特征在數(shù)據(jù)預(yù)處理時(shí)提取，包括停頓次數(shù)、停頓比(停頓片段總時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))和平均停頓比(停頓片段平均時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))3個(gè).

對(duì)于聲學(xué)特征、頻域特征、Mel頻率倒譜系數(shù)特征和色度特征，采用提取特征統(tǒng)計(jì)量的方法來獲取能夠反映語音整體變化的特征信息.

選擇不同的窗長(zhǎng)和滑動(dòng)步長(zhǎng)會(huì)對(duì)特征提取的結(jié)果造成影響，為了獲取能夠反映語音整體變化的長(zhǎng)時(shí)特征，采用提取特征統(tǒng)計(jì)量的方法來獲取整體而非局部的特征信息.使用的12個(gè)統(tǒng)計(jì)量分別是：最大值、最小值、極差、均值、中位數(shù)、線性回歸的截距(時(shí)間作為自變量)、線性回歸的系數(shù)(時(shí)間作為自變量)、線性回歸的R2(時(shí)間作為自變量)、標(biāo)準(zhǔn)偏差、偏度、峰度和變異系數(shù).

因此，本文提取的常用語音特征共有12×{6(聲學(xué))+5(頻域)+12(色度)+13(MFCC)}+3(停頓相關(guān))=435個(gè).

1.2.2 深度學(xué)習(xí)特征的提取

深度學(xué)習(xí)技術(shù)在語音信號(hào)處理領(lǐng)域取得了良好的成果，它可以學(xué)習(xí)生成高級(jí)語音信息，豐富手工設(shè)計(jì)特征.本文設(shè)計(jì)的抑郁檢測(cè)語音網(wǎng)絡(luò)(Depression Detection Audio Net, DD-AudioNet)由卷積神經(jīng)網(wǎng)絡(luò)融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Attention-Bi-LSTM)組成.如圖2所示，DD-AudioNet將語音信號(hào)通過短時(shí)傅里葉變換映射到時(shí)頻圖作為神經(jīng)網(wǎng)絡(luò)的輸入，水平軸代表時(shí)間，垂直軸代表頻率，以語音對(duì)應(yīng)的被試是否抑郁(0或1)作為標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò)，提取神經(jīng)網(wǎng)絡(luò)的瓶頸層特征作為深度學(xué)習(xí)的特征.

圖2 抑郁檢測(cè)語音網(wǎng)絡(luò)Fig.2 Depression detection audionet

單向LSTM只利用到前向信息，而雙向LSTM可以融合前向和后向語義信息.在卷積神經(jīng)網(wǎng)絡(luò)模式識(shí)別中，輸入圖像和卷積核都是2維的，而語音信號(hào)是1維的.為充分利用卷積的優(yōu)勢(shì)，采用短時(shí)傅里葉變換將語音映射到時(shí)頻域.神經(jīng)網(wǎng)絡(luò)的輸入維度必須一致否則無法訓(xùn)練，然而收集到的語音在時(shí)間上無法保證一致等長(zhǎng).因此將一段語音切分為以2 s為一個(gè)小段的多段，每2 s的小段經(jīng)過短時(shí)傅里葉變換得到時(shí)頻矩陣，放入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，對(duì)應(yīng)的標(biāo)簽即表示所屬被試是否抑郁.若語音時(shí)長(zhǎng)不是2 s的整數(shù)倍，則去掉語音開頭多余的時(shí)間，如一段5.4 s的語音去掉開頭的1.4 s，剩余4 s以2 s為一個(gè)單位劃分為兩段，然后將這兩段語音放入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練.每個(gè)2 s的單位片段都會(huì)輸出一個(gè)瓶頸層特征，所以每段語音可以得到若干個(gè)神經(jīng)網(wǎng)絡(luò)提取的瓶頸層特征.因此，語音無論被分為幾個(gè)小片段都在瓶頸層維度上求平均值，由此保證不等長(zhǎng)的語音片段得到的深度學(xué)習(xí)特征維度的一致性.本文所用的DD-AudioNet的損失函數(shù)設(shè)置為交叉熵，使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò).LSTM的單元維度設(shè)置為64，雙向LSTM的輸出層是128維的向量.因此，本文提取的深度學(xué)習(xí)特征共有128個(gè).

注意力機(jī)制結(jié)構(gòu)如圖3所示.將Bi-LSTM的輸出通過一層的多層感知機(jī)得到ut，作為ht的隱式表達(dá)，之后用ut與整個(gè)語音段的矢量uω的相似性來衡量每一片段的重要性.然后通過一個(gè)Softmax函數(shù)得到標(biāo)準(zhǔn)化后的權(quán)重系數(shù)αt，最后語音矢量s經(jīng)過ht加權(quán)求和得到.語音矢量s可以被視為一段語音的高維特征表示，類似于自然語音處理任務(wù)中對(duì)一段query經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)提取到的特征.uω是通過訓(xùn)練學(xué)習(xí)得到的最終參數(shù)，初始時(shí)是隨機(jī)的矢量.且

圖3 注意力機(jī)制結(jié)構(gòu)的示意圖Fig.3 Schematic diagram of the structure of attention mechanism

其中：Wω，bω是隨機(jī)初始化的可訓(xùn)練參數(shù)，會(huì)隨著訓(xùn)練不斷更新.

1.3 特征選擇

Lasso[11]是一種基于一范式的特征選擇方法，通過對(duì)系數(shù)的壓縮舍棄系數(shù)低于閾值的變量，然后保留剩下的變量作為有效特征.本文的目標(biāo)是分類任務(wù)，所以采用特征選擇模型的本質(zhì)是Lasso-Logistic回歸[12]，在Logistic回歸模型參數(shù)固定的基礎(chǔ)上比較不同的Lasso參數(shù)，根據(jù)最優(yōu)的準(zhǔn)確率確定參數(shù)[13].在本文所有實(shí)驗(yàn)中，模型懲罰系數(shù)λ設(shè)置為0.005，Lasso不僅能夠準(zhǔn)確地選擇出與類標(biāo)簽強(qiáng)相關(guān)的變量，同時(shí)還具有特征選擇的穩(wěn)定性.

1.4 遷移學(xué)習(xí)

在分類算法中，為保證模型的準(zhǔn)確性和魯棒性，都假設(shè)訓(xùn)練樣本與測(cè)試樣本滿足獨(dú)立同分布的條件，但實(shí)際中這個(gè)條件往往無法滿足.遷移學(xué)習(xí)的目的是通過遷移已有的知識(shí)來解決訓(xùn)練樣本與測(cè)試樣本分布不一致的問題[14].采用無監(jiān)督的源適應(yīng)遷移方法CORAL(Correlation Alignment)[15]，通過對(duì)齊訓(xùn)練集特征和測(cè)試集特征之間的2階協(xié)方差矩陣信息，拉近訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布.CORAL算法的具體描述如下：

輸入：訓(xùn)練集特征DS為Ns×Nfeature的矩陣；測(cè)試集特征DT為NT×Nfeature的矩陣；訓(xùn)練集樣本數(shù)Ns；測(cè)試集樣本數(shù)NT；特征維度Nfeature

CS=cov(DS)+eye(size(DS,2))size(DS,2)為Nfeature矩陣的列數(shù)；eye(n)為n×n的單位矩陣；cov為協(xié)方差矩陣；CS為中間變量

CT=cov(DT)+eye(size(DT,2))CT為中間變量

1.5 分類模型

1.5.1 分類器

本文使用的分類模型包括邏輯回歸、隨機(jī)森林和XgBoost 3種.邏輯回歸是一種廣義線性模型，假設(shè)因變量y服從伯努利分布，是一種解決二分類問題常見的機(jī)器學(xué)習(xí)算法.高翔[29]的研究表明集成學(xué)習(xí)模型可以提升其分類效果，因此本文也采用隨機(jī)森林、XgBoost這兩種以二叉樹為基分類器的集成學(xué)習(xí)算法.隨機(jī)森林屬于聚集類方法，通過加入屬性擾動(dòng)降低方差來提高性能，而XgBoost屬于提升類方法，通過降低偏差來提升性能.

1.5.2 模型評(píng)價(jià)指標(biāo)

模型所得分類結(jié)果的混淆矩陣如表1所示.用kTP表示事實(shí)為抑郁被試的語音被正確識(shí)別的數(shù)量；用kFP表示事實(shí)為正常被試的語音被錯(cuò)誤識(shí)別為抑郁被試的數(shù)量；用kTN表示事實(shí)為正常被試的語音被正確識(shí)別的數(shù)量；用kFN表示事實(shí)為抑郁被試的語音被錯(cuò)誤識(shí)別為正常被試的數(shù)量.

表1 分類結(jié)果的混淆矩陣Tab.1 The confusion matrix of classification result

本文采用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率λACC、F1分?jǐn)?shù)F1和AUC(Area under curve)值SAUC.定義

2 抑郁語音識(shí)別實(shí)驗(yàn)

2.1 實(shí)驗(yàn)過程

語音數(shù)據(jù)采集自112名抑郁患者和69名健康被試，抑郁組和健康組之間的年齡和性別均無統(tǒng)計(jì)學(xué)意義上的差異.所有被試排除物質(zhì)濫用、物質(zhì)依賴、人格障礙等其他精神疾病，無嚴(yán)重的軀體疾病或自殺行為.本研究的語音任務(wù)“模擬訪談”，包括正、中、負(fù)3種誘發(fā)情緒.任務(wù)中，被試需要對(duì)不同的問題進(jìn)行回答，從而獲得語音數(shù)據(jù).每名被試對(duì)每個(gè)問題的回答都會(huì)單獨(dú)生成一段語音數(shù)據(jù).模擬訪談任務(wù)的3種情緒條件下各有3道相同情緒效價(jià)的問題，因此每個(gè)被試產(chǎn)生9條語音片段，本研究一共采集181×9=1 629條語音片段.

從抑郁被試和健康被試中各隨機(jī)抽取25人，共50人的語音片段作為測(cè)試集，其他131名被試的語音片段作為訓(xùn)練集.對(duì)于時(shí)長(zhǎng)不足2 s的語音片段由于其信息量不足而不予采用，最終得到400個(gè)語音片段作為測(cè)試集，1 060個(gè)語音片段作為訓(xùn)練集，其中訓(xùn)練集和測(cè)試集中的語音片段來自于不同的被試.

2.2 實(shí)驗(yàn)結(jié)果

表2展示的是根據(jù)不同特征集分別建模的結(jié)果.無論哪種分類方法，深度學(xué)習(xí)特征的結(jié)果普遍優(yōu)于其他類特征，其最高的準(zhǔn)確率、F1分?jǐn)?shù)、AUC分別為0.833、0.808、0.881.其他特征中表現(xiàn)較好的Mel頻率倒譜系數(shù)和聲學(xué)特征的準(zhǔn)確率可以達(dá)到0.7以上.上述結(jié)果說明利用DD-AudioNet提取的深度學(xué)習(xí)特征相比其他特征有更好的效果.

表2 不同方法對(duì)6類特征的分類結(jié)果Tab.2 Classification results of six types of features by different methods

在比較6類特征分別建模的效果之外，將6類特征進(jìn)行不同組合以比較不同組合的分布結(jié)果.特征組合包括3種： 1) 全特征組，通過Lasso對(duì)6類共563個(gè)特征進(jìn)行特征選擇后得到26個(gè)特征；2) 非深組，通過Lasso對(duì)深度學(xué)習(xí)特征以外的5類共435個(gè)特征進(jìn)行特征選擇后得到17個(gè)特征；3) 獨(dú)立特征組，對(duì)6類特征分別進(jìn)行特征選擇，選擇各類特征數(shù)目，如表2所示，再合并共得到77個(gè)特征.圖4(見第738頁)展示了3種特征組合的特征分布情況，深度學(xué)習(xí)特征在全特征組中的占比達(dá)到了84.6%，遠(yuǎn)高于其他各類特征之和.表3(見第738頁)為3種特征組合的分類結(jié)果，發(fā)現(xiàn)當(dāng)特征組合中有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率就能超過0.8，而特征組合中沒有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率不及0.7.全特征組表現(xiàn)最佳，其最高的準(zhǔn)確率、F1分?jǐn)?shù)和AUC值分別為0.840、0.815和0.885.

圖4 特征組合特征的分布圖Fig.4 Distribution of combined feature sets

表3 不同方法對(duì)特征組的分類結(jié)果

3 結(jié) 語

本文設(shè)計(jì)了一種用于抑郁識(shí)別的融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的算法.該算法的特點(diǎn)在于從網(wǎng)絡(luò)結(jié)構(gòu)中提取瓶頸層向量作為深度學(xué)習(xí)特征，并引入遷移學(xué)習(xí)來降低訓(xùn)練集和測(cè)試集數(shù)據(jù)分布差異帶來的影響.經(jīng)實(shí)驗(yàn)驗(yàn)證該算法在中文數(shù)據(jù)集上取得了較以往算法更好的預(yù)測(cè)效果.通過比較深度學(xué)習(xí)特征和常用的5類語音特征的預(yù)測(cè)效果，發(fā)現(xiàn)深度學(xué)習(xí)特征的識(shí)別效果最佳.特征組合的結(jié)果發(fā)現(xiàn)，特征選擇后的特征集中保留的深度學(xué)習(xí)特征所占比例顯著高于其他特征，說明其可能包涵更多抑郁的信息.進(jìn)一步的分類結(jié)果也顯示包含更多深度學(xué)習(xí)特征的特征組合的識(shí)別結(jié)果更佳.通過非侵入、易采集的信息去識(shí)別抑郁是實(shí)現(xiàn)抑郁快速篩查的基礎(chǔ)，未來可嘗試將本研究的算法應(yīng)用于臨床，實(shí)踐其在真實(shí)就診環(huán)境中的檢測(cè)效果.