亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的基于語音分析的抑郁識(shí)別方法

        2022-01-18 02:00:36汪靜瑩耿馨佚朱廷劭王守巖
        關(guān)鍵詞:特征選擇語音神經(jīng)網(wǎng)絡(luò)

        趙 張,汪靜瑩,耿馨佚,朱廷劭,王守巖

        (1. 復(fù)旦大學(xué) 類腦智能科學(xué)與技術(shù)研究院,上海 200433; 2. 復(fù)旦大學(xué) 計(jì)算神經(jīng)科學(xué)與類腦智能教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433; 3. 復(fù)旦大學(xué) 上海智能機(jī)器人工程技術(shù)研究中心,上海 200433; 4. 復(fù)旦大學(xué) 智能機(jī)器人教育部工程研究中心,上海 200433; 5. 中國(guó)科學(xué)院 心理研究所,北京 100101)

        抑郁癥是一種在世界范圍內(nèi)常見的精神疾病,全球患者人數(shù)超過2.64億[1].抑郁癥不同于通常的情緒波動(dòng),當(dāng)情況比較嚴(yán)重并且持續(xù)時(shí)間長(zhǎng)時(shí)會(huì)造成嚴(yán)重的健康問題,讓患者在工作生活中承受巨大痛苦甚至無法工作,在最壞的情況下會(huì)導(dǎo)致患者自殺.

        目前,抑郁癥的評(píng)估方法主要依賴于患者的主觀報(bào)告和醫(yī)生的臨床評(píng)分.這些方法需要患者準(zhǔn)確地描述疾病,并且要求醫(yī)生具有豐富的臨床經(jīng)驗(yàn).為了幫助臨床醫(yī)生更準(zhǔn)確地判斷患者的病情,研究人員試圖找尋一種客觀有效的評(píng)估方法.語音是除表情之外情緒的另一種重要的外部表現(xiàn),加之其方便獲取,因此使其成為一種備受期待的評(píng)估手段[2].

        過去基于語音識(shí)別抑郁的研究還有若干值得改進(jìn)的地方.

        首先,特征的特異性.隨著人們對(duì)語音和抑郁之間關(guān)系研究的深入,越來越多的特征如韻律特征、頻域特征等皆被用于建模識(shí)別抑郁.但這些特征并非專門針對(duì)抑郁設(shè)計(jì)的,不能完全反映聲音中與抑郁相關(guān)的信息,建模識(shí)別效果有限,因此如何從語音中提取能夠有效反映抑郁的特征尤為關(guān)鍵.近年來,深度學(xué)習(xí)在語音識(shí)別領(lǐng)域取得了突破性的進(jìn)展[3],其中長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)通過“門”的概念建立了基于時(shí)間序列的長(zhǎng)期聯(lián)合記憶機(jī)制,避免了產(chǎn)生梯度消失現(xiàn)象,具備長(zhǎng)時(shí)記憶的能力[4],神經(jīng)網(wǎng)絡(luò)的瓶頸層向量可用于表征抑郁相關(guān)的高維信息.

        其次,權(quán)重系數(shù).過去的研究對(duì)一段語音每個(gè)部分都給予相同的權(quán)重,但在實(shí)際中部分語音片段能集中地反應(yīng)抑郁相關(guān)的信息.注意力機(jī)制[5]是一系列權(quán)重參數(shù),對(duì)于一段語音并不是從頭到尾每個(gè)部分都保持同樣的關(guān)注度,而是通過自動(dòng)學(xué)習(xí)的方式重點(diǎn)觀察語音的某一些片段.最后,訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布存在差異.不同語音之間的特征差異受到被試本人發(fā)聲特點(diǎn)的影響,遷移學(xué)習(xí)[6]的方法則可以減小訓(xùn)練樣本和測(cè)試樣本之間數(shù)據(jù)分布差異對(duì)模型造成的影響.

        據(jù)此,本文提出一種融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來提取深度學(xué)習(xí)特征,通過高維度的特征定義與選擇結(jié)合遷移學(xué)習(xí)的方法來提升該算法基于語音分析的抑郁狀態(tài)辨識(shí)的能力,并在抑郁癥患者和健康被試者數(shù)據(jù)集上驗(yàn)證了該方法的效果.

        1 語音分析抑郁識(shí)別方法介紹

        基于語音分析的抑郁狀態(tài)分類辨識(shí)算法的流程如圖1所示,主要包括預(yù)處理、特征提取、特征選擇、遷移學(xué)習(xí)、分類5個(gè)關(guān)鍵步驟.

        圖1 基于語音分析的抑郁識(shí)別方法的流程圖Fig.1 Flow chart of depression recognition method based on acoustical signal processing

        1.1 數(shù)據(jù)預(yù)處理

        為避免低頻噪音的干擾,采用截止頻率為137.8 Hz的2階巴特沃斯濾波器進(jìn)行高通濾波.另外語音信號(hào)原始采樣頻率為44 100 Hz,為控制文件大小以方便未來對(duì)語音的流程化處理,采用librosa[7]將信號(hào)降采樣到最常用的16 000 Hz.最后通過Pyaudioanalysis[8]對(duì)每份語音去除長(zhǎng)時(shí)間的靜音段(非語音片段),提取有聲片段后合并成一個(gè)數(shù)據(jù)段.

        1.2 特征提取

        本文提取的特征包括6類: 聲學(xué)特征、頻域特征、停頓特征、Mel頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)[9]特征、色度特征和深度學(xué)習(xí)特征.其中,前5類特征是常用的語音信號(hào)不同方面性質(zhì)的特征,深度學(xué)習(xí)特征則是本文自主提出的針對(duì)語音分析的新特征.

        1.2.1 常用語音特征的提取

        聲學(xué)特征包括基頻、能量和過零率相關(guān)特征,共6個(gè),其中能量特征包括聲強(qiáng)和聲強(qiáng)包絡(luò),過零率相關(guān)特征包括過零率、過零幅度(即兩個(gè)過零點(diǎn)間信號(hào)的最大幅值)和過零間隔(即兩個(gè)過零點(diǎn)間的時(shí)間間隔);頻域特征包括頻譜中心、頻譜延展度、頻譜通量、譜熵和頻譜滾降點(diǎn),共5個(gè);MFCC特征將人耳的聽覺感知特性和語音信號(hào)產(chǎn)生機(jī)制有效結(jié)合,共13個(gè);色度[10]特征代表一段時(shí)間內(nèi)12個(gè)音級(jí)中的能量,不同八度的同一音級(jí)能量累加,共12個(gè);將原始語音中開頭和結(jié)尾以外的靜音段視作停頓片段,停頓相關(guān)的特征在數(shù)據(jù)預(yù)處理時(shí)提取,包括停頓次數(shù)、停頓比(停頓片段總時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))和平均停頓比(停頓片段平均時(shí)長(zhǎng)/語音片段總時(shí)長(zhǎng))3個(gè).

        對(duì)于聲學(xué)特征、頻域特征、Mel頻率倒譜系數(shù)特征和色度特征,采用提取特征統(tǒng)計(jì)量的方法來獲取能夠反映語音整體變化的特征信息.

        選擇不同的窗長(zhǎng)和滑動(dòng)步長(zhǎng)會(huì)對(duì)特征提取的結(jié)果造成影響,為了獲取能夠反映語音整體變化的長(zhǎng)時(shí)特征,采用提取特征統(tǒng)計(jì)量的方法來獲取整體而非局部的特征信息.使用的12個(gè)統(tǒng)計(jì)量分別是: 最大值、最小值、極差、均值、中位數(shù)、線性回歸的截距(時(shí)間作為自變量)、線性回歸的系數(shù)(時(shí)間作為自變量)、線性回歸的R2(時(shí)間作為自變量)、標(biāo)準(zhǔn)偏差、偏度、峰度和變異系數(shù).

        因此,本文提取的常用語音特征共有12×{6(聲學(xué))+5(頻域)+12(色度)+13(MFCC)}+3(停頓相關(guān))=435個(gè).

        1.2.2 深度學(xué)習(xí)特征的提取

        深度學(xué)習(xí)技術(shù)在語音信號(hào)處理領(lǐng)域取得了良好的成果,它可以學(xué)習(xí)生成高級(jí)語音信息,豐富手工設(shè)計(jì)特征.本文設(shè)計(jì)的抑郁檢測(cè)語音網(wǎng)絡(luò)(Depression Detection Audio Net, DD-AudioNet)由卷積神經(jīng)網(wǎng)絡(luò)融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Attention-Bi-LSTM)組成.如圖2所示,DD-AudioNet將語音信號(hào)通過短時(shí)傅里葉變換映射到時(shí)頻圖作為神經(jīng)網(wǎng)絡(luò)的輸入,水平軸代表時(shí)間,垂直軸代表頻率,以語音對(duì)應(yīng)的被試是否抑郁(0或1)作為標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),提取神經(jīng)網(wǎng)絡(luò)的瓶頸層特征作為深度學(xué)習(xí)的特征.

        圖2 抑郁檢測(cè)語音網(wǎng)絡(luò)Fig.2 Depression detection audionet

        單向LSTM只利用到前向信息,而雙向LSTM可以融合前向和后向語義信息.在卷積神經(jīng)網(wǎng)絡(luò)模式識(shí)別中,輸入圖像和卷積核都是2維的,而語音信號(hào)是1維的.為充分利用卷積的優(yōu)勢(shì),采用短時(shí)傅里葉變換將語音映射到時(shí)頻域.神經(jīng)網(wǎng)絡(luò)的輸入維度必須一致否則無法訓(xùn)練,然而收集到的語音在時(shí)間上無法保證一致等長(zhǎng).因此將一段語音切分為以2 s為一個(gè)小段的多段,每2 s的小段經(jīng)過短時(shí)傅里葉變換得到時(shí)頻矩陣,放入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,對(duì)應(yīng)的標(biāo)簽即表示所屬被試是否抑郁.若語音時(shí)長(zhǎng)不是2 s的整數(shù)倍,則去掉語音開頭多余的時(shí)間,如一段5.4 s的語音去掉開頭的1.4 s,剩余4 s以2 s為一個(gè)單位劃分為兩段,然后將這兩段語音放入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練.每個(gè)2 s的單位片段都會(huì)輸出一個(gè)瓶頸層特征,所以每段語音可以得到若干個(gè)神經(jīng)網(wǎng)絡(luò)提取的瓶頸層特征.因此,語音無論被分為幾個(gè)小片段都在瓶頸層維度上求平均值,由此保證不等長(zhǎng)的語音片段得到的深度學(xué)習(xí)特征維度的一致性.本文所用的DD-AudioNet的損失函數(shù)設(shè)置為交叉熵,使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò).LSTM的單元維度設(shè)置為64,雙向LSTM的輸出層是128維的向量.因此,本文提取的深度學(xué)習(xí)特征共有128個(gè).

        注意力機(jī)制結(jié)構(gòu)如圖3所示.將Bi-LSTM的輸出通過一層的多層感知機(jī)得到ut,作為ht的隱式表達(dá),之后用ut與整個(gè)語音段的矢量uω的相似性來衡量每一片段的重要性.然后通過一個(gè)Softmax函數(shù)得到標(biāo)準(zhǔn)化后的權(quán)重系數(shù)αt,最后語音矢量s經(jīng)過ht加權(quán)求和得到.語音矢量s可以被視為一段語音的高維特征表示,類似于自然語音處理任務(wù)中對(duì)一段query經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)提取到的特征.uω是通過訓(xùn)練學(xué)習(xí)得到的最終參數(shù),初始時(shí)是隨機(jī)的矢量.且

        圖3 注意力機(jī)制結(jié)構(gòu)的示意圖Fig.3 Schematic diagram of the structure of attention mechanism

        其中:Wω,bω是隨機(jī)初始化的可訓(xùn)練參數(shù),會(huì)隨著訓(xùn)練不斷更新.

        1.3 特征選擇

        Lasso[11]是一種基于一范式的特征選擇方法,通過對(duì)系數(shù)的壓縮舍棄系數(shù)低于閾值的變量,然后保留剩下的變量作為有效特征.本文的目標(biāo)是分類任務(wù),所以采用特征選擇模型的本質(zhì)是Lasso-Logistic回歸[12],在Logistic回歸模型參數(shù)固定的基礎(chǔ)上比較不同的Lasso參數(shù),根據(jù)最優(yōu)的準(zhǔn)確率確定參數(shù)[13].在本文所有實(shí)驗(yàn)中,模型懲罰系數(shù)λ設(shè)置為0.005,Lasso不僅能夠準(zhǔn)確地選擇出與類標(biāo)簽強(qiáng)相關(guān)的變量,同時(shí)還具有特征選擇的穩(wěn)定性.

        1.4 遷移學(xué)習(xí)

        在分類算法中,為保證模型的準(zhǔn)確性和魯棒性,都假設(shè)訓(xùn)練樣本與測(cè)試樣本滿足獨(dú)立同分布的條件,但實(shí)際中這個(gè)條件往往無法滿足.遷移學(xué)習(xí)的目的是通過遷移已有的知識(shí)來解決訓(xùn)練樣本與測(cè)試樣本分布不一致的問題[14].采用無監(jiān)督的源適應(yīng)遷移方法CORAL(Correlation Alignment)[15],通過對(duì)齊訓(xùn)練集特征和測(cè)試集特征之間的2階協(xié)方差矩陣信息,拉近訓(xùn)練樣本與測(cè)試樣本的數(shù)據(jù)分布.CORAL算法的具體描述如下:

        輸入: 訓(xùn)練集特征DS為Ns×Nfeature的矩陣;測(cè)試集特征DT為NT×Nfeature的矩陣;訓(xùn)練集樣本數(shù)Ns;測(cè)試集樣本數(shù)NT;特征維度Nfeature

        CS=cov(DS)+eye(size(DS,2))size(DS,2)為Nfeature矩陣的列數(shù);eye(n)為n×n的單位矩陣;cov為協(xié)方差矩陣;CS為中間變量

        CT=cov(DT)+eye(size(DT,2))CT為中間變量

        1.5 分類模型

        1.5.1 分類器

        本文使用的分類模型包括邏輯回歸、隨機(jī)森林和XgBoost 3種.邏輯回歸是一種廣義線性模型,假設(shè)因變量y服從伯努利分布,是一種解決二分類問題常見的機(jī)器學(xué)習(xí)算法.高翔[29]的研究表明集成學(xué)習(xí)模型可以提升其分類效果,因此本文也采用隨機(jī)森林、XgBoost這兩種以二叉樹為基分類器的集成學(xué)習(xí)算法.隨機(jī)森林屬于聚集類方法,通過加入屬性擾動(dòng)降低方差來提高性能,而XgBoost屬于提升類方法,通過降低偏差來提升性能.

        1.5.2 模型評(píng)價(jià)指標(biāo)

        模型所得分類結(jié)果的混淆矩陣如表1所示.用kTP表示事實(shí)為抑郁被試的語音被正確識(shí)別的數(shù)量;用kFP表示事實(shí)為正常被試的語音被錯(cuò)誤識(shí)別為抑郁被試的數(shù)量;用kTN表示事實(shí)為正常被試的語音被正確識(shí)別的數(shù)量;用kFN表示事實(shí)為抑郁被試的語音被錯(cuò)誤識(shí)別為正常被試的數(shù)量.

        表1 分類結(jié)果的混淆矩陣Tab.1 The confusion matrix of classification result

        本文采用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率λACC、F1分?jǐn)?shù)F1和AUC(Area under curve)值SAUC.定義

        2 抑郁語音識(shí)別實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)過程

        語音數(shù)據(jù)采集自112名抑郁患者和69名健康被試,抑郁組和健康組之間的年齡和性別均無統(tǒng)計(jì)學(xué)意義上的差異.所有被試排除物質(zhì)濫用、物質(zhì)依賴、人格障礙等其他精神疾病,無嚴(yán)重的軀體疾病或自殺行為.本研究的語音任務(wù)“模擬訪談”,包括正、中、負(fù)3種誘發(fā)情緒.任務(wù)中,被試需要對(duì)不同的問題進(jìn)行回答,從而獲得語音數(shù)據(jù).每名被試對(duì)每個(gè)問題的回答都會(huì)單獨(dú)生成一段語音數(shù)據(jù).模擬訪談任務(wù)的3種情緒條件下各有3道相同情緒效價(jià)的問題,因此每個(gè)被試產(chǎn)生9條語音片段,本研究一共采集181×9=1 629條語音片段.

        從抑郁被試和健康被試中各隨機(jī)抽取25人,共50人的語音片段作為測(cè)試集,其他131名被試的語音片段作為訓(xùn)練集.對(duì)于時(shí)長(zhǎng)不足2 s的語音片段由于其信息量不足而不予采用,最終得到400個(gè)語音片段作為測(cè)試集,1 060個(gè)語音片段作為訓(xùn)練集,其中訓(xùn)練集和測(cè)試集中的語音片段來自于不同的被試.

        2.2 實(shí)驗(yàn)結(jié)果

        表2展示的是根據(jù)不同特征集分別建模的結(jié)果.無論哪種分類方法,深度學(xué)習(xí)特征的結(jié)果普遍優(yōu)于其他類特征,其最高的準(zhǔn)確率、F1分?jǐn)?shù)、AUC分別為0.833、0.808、0.881.其他特征中表現(xiàn)較好的Mel頻率倒譜系數(shù)和聲學(xué)特征的準(zhǔn)確率可以達(dá)到0.7以上.上述結(jié)果說明利用DD-AudioNet提取的深度學(xué)習(xí)特征相比其他特征有更好的效果.

        表2 不同方法對(duì)6類特征的分類結(jié)果Tab.2 Classification results of six types of features by different methods

        在比較6類特征分別建模的效果之外,將6類特征進(jìn)行不同組合以比較不同組合的分布結(jié)果.特征組合包括3種: 1) 全特征組,通過Lasso對(duì)6類共563個(gè)特征進(jìn)行特征選擇后得到26個(gè)特征;2) 非深組,通過Lasso對(duì)深度學(xué)習(xí)特征以外的5類共435個(gè)特征進(jìn)行特征選擇后得到17個(gè)特征;3) 獨(dú)立特征組,對(duì)6類特征分別進(jìn)行特征選擇,選擇各類特征數(shù)目,如表2所示,再合并共得到77個(gè)特征.圖4(見第738頁)展示了3種特征組合的特征分布情況,深度學(xué)習(xí)特征在全特征組中的占比達(dá)到了84.6%,遠(yuǎn)高于其他各類特征之和.表3(見第738頁)為3種特征組合的分類結(jié)果,發(fā)現(xiàn)當(dāng)特征組合中有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率就能超過0.8,而特征組合中沒有深度學(xué)習(xí)特征時(shí)準(zhǔn)確率不及0.7.全特征組表現(xiàn)最佳,其最高的準(zhǔn)確率、F1分?jǐn)?shù)和AUC值分別為0.840、0.815和0.885.

        圖4 特征組合特征的分布圖Fig.4 Distribution of combined feature sets

        表3 不同方法對(duì)特征組的分類結(jié)果

        3 結(jié) 語

        本文設(shè)計(jì)了一種用于抑郁識(shí)別的融合注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的算法.該算法的特點(diǎn)在于從網(wǎng)絡(luò)結(jié)構(gòu)中提取瓶頸層向量作為深度學(xué)習(xí)特征,并引入遷移學(xué)習(xí)來降低訓(xùn)練集和測(cè)試集數(shù)據(jù)分布差異帶來的影響.經(jīng)實(shí)驗(yàn)驗(yàn)證該算法在中文數(shù)據(jù)集上取得了較以往算法更好的預(yù)測(cè)效果.通過比較深度學(xué)習(xí)特征和常用的5類語音特征的預(yù)測(cè)效果,發(fā)現(xiàn)深度學(xué)習(xí)特征的識(shí)別效果最佳.特征組合的結(jié)果發(fā)現(xiàn),特征選擇后的特征集中保留的深度學(xué)習(xí)特征所占比例顯著高于其他特征,說明其可能包涵更多抑郁的信息.進(jìn)一步的分類結(jié)果也顯示包含更多深度學(xué)習(xí)特征的特征組合的識(shí)別結(jié)果更佳.通過非侵入、易采集的信息去識(shí)別抑郁是實(shí)現(xiàn)抑郁快速篩查的基礎(chǔ),未來可嘗試將本研究的算法應(yīng)用于臨床,實(shí)踐其在真實(shí)就診環(huán)境中的檢測(cè)效果.

        猜你喜歡
        特征選擇語音神經(jīng)網(wǎng)絡(luò)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        三级网站亚洲三级一区| 户外精品一区二区三区 | 亚洲日本一区二区在线| 无套内谢孕妇毛片免费看| 国产精品99久久久久久猫咪| 成人做爰高潮尖叫声免费观看| 国产成人精品三上悠亚久久| 亚洲一区二区三区一站| 国产三级在线观看不卡| 精品久久综合日本久久综合网| 国产在线一区二区三区乱码| 日本妇人成熟免费2020| 精品免费久久久久久久 | 国产精品国产午夜免费看福利| 一个人在线观看免费视频www| 精品亚洲女同一区二区| 国产啪啪视频在线观看| av在线免费观看网站,| 国产精品成人免费视频一区| 欧洲美女黑人粗性暴交| 无码一区二区波多野结衣播放搜索 | 久久久久久欧美精品se一二三四| 国产成人无码一区二区三区在线| 国产色综合天天综合网| 日韩不卡av高清中文字幕| 精品少妇后入一区二区三区| 男女上床免费视频网站| 色偷偷888欧美精品久久久| 久久久久女人精品毛片| 欧美成人免费看片一区| 日本黄色高清视频久久| 久久综合激情的五月天| 免费人成在线观看视频高潮| 宅男666在线永久免费观看| 欧美 国产 日产 韩国 在线| 精品高清国产乱子伦| 日本一区二区不卡二区| 亚洲人成精品久久久久| 亚洲一区av无码少妇电影| 超级少妇一区二区三区| 谷原希美中文字幕在线|