亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的音頻抑郁癥識別

2019-09-13 03:37:50李金鳴付小雁

計(jì)算機(jī)應(yīng)用與軟件 2019年9期

李金鳴付小雁,2*

1(首都師范大學(xué)信息工程學(xué)院北京 100048)2(電子系統(tǒng)可靠性技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室北京 100048)

0 引言

隨著現(xiàn)代生活的快速發(fā)展，心理健康問題得到社會各界越來越多的關(guān)注。抑郁癥(major depressive disorder，MDD)是心境障礙的主要類別，以顯著而持久的心境低落或喪失興趣與愉悅感為主要臨床特征[1]。輕度患者會伴有情緒低落、心情壓抑、焦慮、興趣喪失、自我評價(jià)過低等癥狀；重度抑郁癥患者會悲觀厭世、絕望、幻覺妄想、身體功能減退，甚至產(chǎn)生自殺行為。雖然抑郁癥嚴(yán)重影響人們的生活與日常工作，但是抑郁癥患者可以通過藥物、心理和物理方式治愈或緩解病情。

貝克抑郁量表II(Beck Depression Inventory-II, BDI-II)是目前應(yīng)用最為廣泛的抑郁癥狀自評量表[2]。BDI-II具有良好的信度與效度,可以作為自評工具用于評估患抑郁癥的程度。在BDI-II中有21個(gè)單項(xiàng)選擇題，受試者必須根據(jù)自己的真實(shí)情況在每個(gè)問題的4個(gè)選項(xiàng)中選擇最符合的一個(gè)，4個(gè)答案對應(yīng)的評分分別是0、1、2、3，BDI-II最終分值范圍為0～63。不同的分?jǐn)?shù)段代表不同的抑郁程度：0～13表示沒有抑郁癥；14～19表示患有輕度抑郁癥；20～28表示患有中度抑郁癥；29～63表示患有重度抑郁癥。BDI-II值越大，表示個(gè)體的抑郁程度越嚴(yán)重，對患者和他人的傷害也就越大。

目前，抑郁癥的診斷以問卷調(diào)查為主，以醫(yī)師判斷為輔。其準(zhǔn)確度嚴(yán)重依賴于患者的配合程度以及醫(yī)師的專業(yè)水平和經(jīng)驗(yàn)，并且抑郁癥患者的早期診斷和再評估會受到很多限制。近年來，隨著抑郁癥患者數(shù)量的不斷增加，快速并準(zhǔn)確地診斷抑郁癥是相關(guān)醫(yī)療人員面臨的重大問題。因此，通過計(jì)算機(jī)技術(shù)提供一種客觀的評估和快速識別抑郁程度的方法將有助于抑郁癥患者的早期診斷和治療。

隨著生物特征識別技術(shù)的發(fā)展，研究人員通過分析語音信號，可以得到講話人身份信息、年齡、性別、講話內(nèi)容和情感等多種信息[3-6]。同時(shí)，國外的研究人員也發(fā)現(xiàn)并證實(shí)人的音頻特征與抑郁程度之間具有顯著的關(guān)聯(lián)性。文獻(xiàn)[7-8]表明，抑郁癥患者人群與正常人群在語音特征行為方面存在語速偏慢、語調(diào)單一且悲觀等明顯的差異。又由于語音具有容易采集，所受限制少和成本低的特點(diǎn)，基于音頻的抑郁癥識別已成為自動抑郁癥檢測的主要手段之一。自動語音抑郁檢測(Automatic Speech Depression Detection, ASDD)是利用計(jì)算機(jī)分析說話人的語音信號及其變化過程，發(fā)現(xiàn)說話人內(nèi)心的情緒和心理活動。目前ASDD的方法可以分為兩類:傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。

特征選擇是傳統(tǒng)ASDD機(jī)器學(xué)習(xí)方法的關(guān)鍵，特征的選擇直接關(guān)系到抑郁癥識別結(jié)果的準(zhǔn)確性。目前，最常用的特征包括梅爾頻率倒譜系數(shù)(MFCCs)、能量、過零率、共振峰特征、光譜特征等。提取特征后再采用機(jī)器學(xué)習(xí)方法研究特征與抑郁程度的關(guān)系，這些機(jī)器學(xué)習(xí)方法包括高斯混合模型(GMM)[9]、偏最小二乘(PLS)[10]和支持向量回歸(SVR)[11]。這種方法的主要優(yōu)點(diǎn)是可以在不需要大量數(shù)據(jù)的情況下對模型進(jìn)行訓(xùn)練。缺點(diǎn)是很難判斷特征的質(zhì)量，可能會丟失一些關(guān)鍵特征，從而降低識別的準(zhǔn)確性。

與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比，深度學(xué)習(xí)技術(shù)具有可以提取高層語義特征的優(yōu)點(diǎn)，在最近幾年取得了突破性的進(jìn)展[12-13]。目前，有研究者將深度學(xué)習(xí)方法應(yīng)用于ASDD。Huang等[14]在2016年AVEC中介紹了一種基于音頻的抑郁癥分類的深度學(xué)習(xí)方法，提取音頻的MFCCs特征作為模型的輸入，其中設(shè)計(jì)了兩層卷積神經(jīng)網(wǎng)絡(luò)(CNN)、一層長短時(shí)期記憶網(wǎng)絡(luò)(LSTM)和兩層全連接層(FC)用于預(yù)測音頻受試者是否抑郁。在文獻(xiàn)[15]中，作者基于局部二值模式(LBP)特征做了改進(jìn)，設(shè)計(jì)了中值魯棒擴(kuò)展的局部二值模式(MRELBP)，然后運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)進(jìn)行預(yù)測抑郁分值。Chao等[16]提取了音頻和視頻的特征，并將其融合為異常行為的標(biāo)志，然后利用長短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)來描述動態(tài)時(shí)間信息。他們采用多任務(wù)學(xué)習(xí)來提高結(jié)果的準(zhǔn)確性，并在AVEC2014數(shù)據(jù)集上評估了模型的預(yù)測能力。

雖然之前的研究取得了一定的成果，但是仍存在一些挑戰(zhàn)。研究表明，抑郁癥患者與正常人在情緒上存在顯著差異，比如抑郁癥患者常伴有抑郁、悲傷、焦慮、擔(dān)憂的情緒。為了解決訓(xùn)練數(shù)據(jù)較少的問題和充分利用情感特征，本文設(shè)計(jì)了基于上下文情感信息的多尺度音頻差分歸一化(MADN)特征和新的網(wǎng)絡(luò)模型框架。在不減少樣本數(shù)量的情況下，增加樣本長度可以獲得更多的訓(xùn)練數(shù)據(jù)。首先，將當(dāng)前樣本的特征輸入模型對抑郁相關(guān)特征進(jìn)行編碼。然后，將當(dāng)前樣本的相鄰兩段的MADN特征再按次序分別輸入上面訓(xùn)練好的模型進(jìn)行微調(diào)和優(yōu)化。通過與目前最優(yōu)的方法對比表明，本文提出的音頻抑郁癥識別算法在抑郁癥的診斷中提高了預(yù)測精確度。

1 音頻特征提取和設(shè)計(jì)

1.1 數(shù)據(jù)庫

AVEC2014[17]抑郁癥數(shù)據(jù)庫是視聽抑郁語言語料庫(AVid-Corpus)的一個(gè)子集。音頻是在自然條件下通過麥克風(fēng)采集的，被試者的年齡在18歲到63歲之間，平均年齡為31.5歲。每個(gè)受試者被記錄一次到四次不等，同一個(gè)受試者的每兩次采集時(shí)間間隔大約為兩周。AVEC2014數(shù)據(jù)庫中的每個(gè)音頻的時(shí)長在6秒到4分8秒之間。AVEC2014數(shù)據(jù)庫分為NORTHWIND和FREEFORM兩部分：

(1) NORTHWIND: 提供文章給每個(gè)錄制者朗讀，例如“Die Sonne und der Wind”，然后通過麥克風(fēng)分別記錄他們朗讀的音頻信息。

(2) FREEFORM: 這一部分是被試者與工作人員通過耳機(jī)麥克風(fēng)交流，由工作人員詢問一個(gè)或多個(gè)問題，然后被試者進(jìn)行回答，例如“What is your favorite dish?”，“What was your best gift, and why?”，“Discuss a sad childhood memory”等，此時(shí)麥克風(fēng)采集的只是被試者一端的音頻信息。

AVEC2014數(shù)據(jù)庫中的150對NORTHWIND和FREEFORM音頻分成了訓(xùn)練集、驗(yàn)證集和測試集，各包含50個(gè)音頻，并且根據(jù)錄制者的BDI-II值為每個(gè)音頻設(shè)置標(biāo)簽。

1.2 數(shù)據(jù)預(yù)處理

為了獲得最優(yōu)的特征，對音頻樣本進(jìn)行預(yù)處理。由于被試者在聽問題時(shí)是沒有語音信息的，所以要把這一部分非語音段裁剪掉。首先，對于每一個(gè)音頻文件，去除長時(shí)間的靜音段(非語音)，其余部分被拼接成一個(gè)新的音頻文件。然后，每個(gè)有效的音頻文件被分割成相同長度的且沒有重疊的音頻片段，每個(gè)音頻段由60幀組成，音頻分幀時(shí)選用漢明窗，每幀1 024個(gè)數(shù)據(jù)點(diǎn)，前一幀與后一幀的交疊部分是幀長的1/2。音頻采樣率為44 100 Hz，所以一個(gè)音頻片段覆蓋的時(shí)間為[(60+1)×1 024/2]/44 100=0.708 s。對于2014AVEC數(shù)據(jù)庫中的數(shù)據(jù)，經(jīng)過預(yù)處理后一共得到7 548個(gè)音頻片段樣本，其中訓(xùn)練集包含5 100段，測試集包含2 448段。

1.3 音頻特征提取

(1) 梅爾頻率倒譜系數(shù)(MFCCs)。MFCCs是語音信號處理中最常用的特征，它具有符合人類聽覺和低維度的優(yōu)點(diǎn)[18]。Mel頻率倒譜系數(shù)將人耳的聽覺感知特性和語音信號產(chǎn)生機(jī)制有效結(jié)合。下式解釋了如何將音頻的普通頻域尺度轉(zhuǎn)換為Mel頻率刻度：

(1)

式中:fmel表示Mel頻率刻度，fHz代表普通頻率。通常，MFCCs的計(jì)算使用一組濾波器，這組濾波器的中心頻率是按照Mel頻率刻度均勻間隔排列的，每個(gè)濾波器的三角形的兩個(gè)底點(diǎn)的頻率分別等于相鄰的兩個(gè)濾波器的中心頻率。設(shè)濾波器的個(gè)數(shù)為M，濾波后得到的輸出為X(m),m=1,2,…,M；設(shè)l(m)、c(m)、h(m)分別為第m個(gè)三角形濾波器的下限頻率、中心頻率和上限頻率，則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系:

c(m)=h(m-1)=l(m+1)

(2)

將濾波器組d的輸出進(jìn)行對數(shù)運(yùn)算，然后再進(jìn)行反離散余弦變換即得到MFCCs。

(3)

式中:L為MFCCs系數(shù)的個(gè)數(shù)，通常取值為12～16，濾波器的個(gè)數(shù)取值在20～40之間。本文取L=12、M=40。

(2) 共振峰、能量、過零率。短時(shí)能量是指一幀語音信號的平均能量，反映了語音信號的幅度變化。短時(shí)能量可以用來區(qū)分有聲與無聲，由于抑郁癥患者會有吐字不清和停頓變長的癥狀，而且隨著抑郁程度的增加這些癥狀會更明顯突出，所以短時(shí)能量特征用來進(jìn)一步分析講話過程中的停頓信息。

短時(shí)過零率可以從背景聲中找出語音信號，也可以反映有話和無話的信息，因此采用短時(shí)能量和短時(shí)過零率相結(jié)合來提取講話的持續(xù)時(shí)間和停頓時(shí)間信息。

為了能更加準(zhǔn)確地識別抑郁癥，我們以發(fā)聲器官為出發(fā)點(diǎn)尋找相關(guān)的研究來幫助選取合適的特征，進(jìn)而提高算法的預(yù)測精度。文獻(xiàn)[19]表明，抑郁癥患者的聲道會比正常人的更緊張，聲帶動力也會隨著抑郁程度而變化,而且人的神經(jīng)所處的緊張程度不同，導(dǎo)致聲道在發(fā)相同音的時(shí)候產(chǎn)生形變，從而出現(xiàn)差異。而共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域，反映了聲道(共振腔)的物理特征，并且，共振峰代表了發(fā)音信息的最直接的來源。因此選取共振峰特征來進(jìn)一步的分析抑郁癥患者與正常人的音頻信息的不同。

1.4 多尺度的音頻差分歸一化算法

眾所周知，臨床醫(yī)生得到的患者音頻信息越多，那么對于此患者的抑郁診斷結(jié)果就越準(zhǔn)確。然而，抑郁癥數(shù)據(jù)庫的音頻數(shù)據(jù)有限，由于音頻段數(shù)與單個(gè)樣本的音頻時(shí)長是反比例關(guān)系，所以單個(gè)樣本時(shí)長增加會導(dǎo)致總樣本段數(shù)的減少，單個(gè)樣本的數(shù)據(jù)維度增加也會大大增加計(jì)算的復(fù)雜度，影響運(yùn)算速度和識別的準(zhǔn)確率。這也是當(dāng)前研究基于音頻的抑郁癥識別急需解決的問題。

在現(xiàn)實(shí)生活中，不同的說話者有不同的音量和音色特點(diǎn)，有的人天生說話嗓門比較高，有的人天生聲音渾厚，說話者的這種個(gè)性化說話特點(diǎn)會導(dǎo)致抑郁癥識別的準(zhǔn)確率下降。對每一幀音頻提取的MFCCs、短時(shí)能量、短時(shí)過零率和共振峰頻率特征除了包含大量與抑郁相關(guān)的特征外，還摻雜了說話者個(gè)性說話特點(diǎn)，這是由于其靜態(tài)特性導(dǎo)致的，而說話者的個(gè)性化說話特點(diǎn)會減弱抑郁癥識別模型的泛化能力。因此，我們提出了多尺度的音頻差分歸一化(Multiscale Audio Delta Normalization, MADN)的算法，用于獲取局部非個(gè)性化的抑郁特征?；谝纛l差分的特征反映同一個(gè)說話者說話過程中的音頻變化信息，不易受到個(gè)性化說話特點(diǎn)的影響。由于不同特征的數(shù)據(jù)量級是不同的，因此采用不同的尺度對特征進(jìn)行歸一化處理。為了獲得說話者音頻的局部變化信息，根據(jù)滑動窗口選取相應(yīng)的語音幀進(jìn)行歸一化，而不是通過與一整段的音頻進(jìn)行比較。按照滑動窗口選取相應(yīng)的語音幀可以增強(qiáng)局部音頻變化的動態(tài)性，更有效地體現(xiàn)了非個(gè)性化音頻特征。為便于理解，MADN算法流程如下:

1) 輸入原始音頻文件。

2) 讀取音頻文件并對所有的音頻文件進(jìn)行預(yù)處理。

3) 提取MFCCs、短時(shí)能量、過零率和共振峰頻率特征且用V(n,f)表示，f是語音的幀數(shù)，每一幀包含n個(gè)元素。

4) 通過相鄰兩幀音頻特征V(n,f)進(jìn)行差分計(jì)算得到D(n,f)。D(n,f)代表了音頻的時(shí)序變化，減弱了說話者的講話個(gè)性化信息，在同一抑郁程度下特征值的分布相對比較穩(wěn)定。計(jì)算方法如下：

D(n,f)=V(N,f+1)-V(n,f)

(4)

f=1,2,…,F-1

5) 對不同特征進(jìn)行不同尺度的歸一化:

(5)

n=1,2,…,N

式中：Fn與fn的取值代表不同的尺度和滑動窗口，其公式如下：

(6)

(7)

6) 輸出:F(n,f)即為不同尺度歸一化后的特征。

2 基于深度學(xué)習(xí)的音頻抑郁癥識別

2.1 音頻抑郁回歸預(yù)測網(wǎng)絡(luò)

深度學(xué)習(xí)技術(shù)在近幾年得到快速發(fā)展，在語音信號處理領(lǐng)域取得了良好的成果，它可以學(xué)習(xí)生成高級語義信息，豐富手工設(shè)計(jì)特征。Huang等[14]在2016年AVEC競賽中設(shè)計(jì)了一個(gè)用于識別是否抑郁的二分類的網(wǎng)絡(luò)結(jié)構(gòu)，主要由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)組成，此模型的輸入是音頻信息，輸出是對應(yīng)的個(gè)體是否抑郁音頻。本文基于這個(gè)網(wǎng)絡(luò)模型做了兩個(gè)方面的優(yōu)化和改進(jìn):(1) 基于只用MFCCs特征作為網(wǎng)絡(luò)的輸入的缺點(diǎn)，提出了MFCCs、短時(shí)能量、短時(shí)過零率以及共振峰特征的互補(bǔ)結(jié)合作為模型的輸入;(2) 基于抑郁分類的模型改進(jìn)為抑郁回歸預(yù)測的模型，由于不同程度的抑郁癥患者需要不同的治療，所以預(yù)測抑郁癥患者的BDI-II值是很有必要的。本文優(yōu)化的深度模型，即音頻抑郁回歸預(yù)測網(wǎng)絡(luò)(Depression Regression AudioNet, DRAudioNet)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模式識別中，輸入圖像和卷積核的形狀往往都是方形的，而語音信號的數(shù)據(jù)維數(shù)是一維的，不能直接使用圖像處理的方法進(jìn)行處理。為了解決這個(gè)問題，在實(shí)驗(yàn)中對音頻段中每一幀語音都提取了MFCCs、過零率、能量和共振峰頻率特征，然后，每個(gè)片段的60幀語音的特征組成一個(gè)二維的矩陣。

圖1 Depression AudioNet網(wǎng)絡(luò)結(jié)構(gòu)圖

在語音特征的二維矩陣表示中，水平軸表示時(shí)間，垂直軸表示頻率信息。相同的頻譜模式在不同的頻率區(qū)間可以表示完全不同的音頻，而CNN用于圖像處理的方形的卷積核和池化操作會造成不同的音頻之間的混淆，削弱識別能力[20]。因此，實(shí)驗(yàn)中嘗試在整個(gè)頻率軸上使用一維卷積代替方形濾波器來解決這個(gè)問題。卷積層可以有效地捕獲豐富的高階語義信息；池化層的目的是降低特征圖的維度，對于相對位置的小變化引入不變性，以此提高精度和減少運(yùn)算復(fù)雜度。二維的輸入特征經(jīng)過卷積和池化操作得到一維深層特征，然后，將這些特征導(dǎo)入LSTM層以提取長期依賴信息。最后，在網(wǎng)絡(luò)架構(gòu)的末端是兩個(gè)全連接層，用于在時(shí)間軸上編碼音頻的長期變化并預(yù)測抑郁得分。

2.2 基于DR AudioNet的改進(jìn)

DR AudioNet網(wǎng)絡(luò)只運(yùn)用了當(dāng)前音頻片段的特征，為了能夠運(yùn)用MADN算法提取當(dāng)前段的前后相鄰兩段音頻的非個(gè)性化抑郁特征，本文研究了目前常用的網(wǎng)絡(luò)模型融合的方法和特點(diǎn)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)融合通常是將幾個(gè)網(wǎng)絡(luò)的預(yù)測值進(jìn)行線性加權(quán)或者采用隨機(jī)梯度的方式進(jìn)行加權(quán)融合，參與訓(xùn)練的樣本數(shù)量并沒有增加，只是增加了特征的種類，是一種并行的融合方式。

根據(jù)MADN算法得到非個(gè)性化抑郁特征是在DR AudioNet網(wǎng)絡(luò)中輸入特征的前后相鄰兩段音頻上得到的，它們具有相同的尺寸和BDI-II值，以及時(shí)間上的關(guān)聯(lián)性。因此，本文提出一種新的網(wǎng)絡(luò)模型。整體架構(gòu)圖如圖2所示。可以看到，后一個(gè)模型在前一個(gè)模型的基礎(chǔ)上訓(xùn)練，也就是說，前面模型的參數(shù)共享給后面的模型。首先，使用DR AudioNet網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)集提取MFCCs、短時(shí)能量、短時(shí)過零率和共振峰頻率特征(統(tǒng)稱：特征V1)進(jìn)行訓(xùn)練。DR AudioNet網(wǎng)絡(luò)可以單獨(dú)預(yù)測抑郁分值，但是在說話者個(gè)性化信息上處理欠佳，因而在此模型的基礎(chǔ)上，運(yùn)用當(dāng)前音頻段的前一段的MADN特征(稱為特征V2)進(jìn)行訓(xùn)練模型二，學(xué)習(xí)到了與抑郁相關(guān)的特征又減弱了說話者個(gè)性化語音的干擾。最后在模型二的基礎(chǔ)上，提取當(dāng)前音頻段的后一段的MADN特征(稱為特征V3)進(jìn)行訓(xùn)練模型三。通過結(jié)合兩種不同特征的優(yōu)點(diǎn)，提取出更加準(zhǔn)確的抑郁特征信息。

圖2 本文提出的網(wǎng)絡(luò)模型整體架構(gòu)圖

3 實(shí)驗(yàn)結(jié)果與分析

(8)

RMSE表示所有預(yù)測值與真實(shí)值之間誤差的均方根，被用來衡量預(yù)測值與真實(shí)值之間的偏差，計(jì)算公式如下:

(9)

為了證明本文提出的提取特征算法以及深度模型在抑郁癥回歸預(yù)測的有效性，在2014AVEC數(shù)據(jù)集上分別進(jìn)行了三個(gè)模型的實(shí)驗(yàn)。

DR AudioNet網(wǎng)絡(luò)的輸入特征尺寸為17×60，設(shè)定batchsize為32，兩層卷積層都有64個(gè)卷積核，卷積核的大小都為3×1，LSTM層的cell個(gè)數(shù)設(shè)置為128個(gè)，第一層全連接層的節(jié)點(diǎn)數(shù)也是128，最后一層全連接層只有一個(gè)節(jié)點(diǎn)輸出預(yù)測分?jǐn)?shù)。將2014AVEC中的驗(yàn)證集歸并到訓(xùn)練集，在測試集上評估DR AudioNet網(wǎng)絡(luò)模型的整體性能。結(jié)果如表1所示，可以看出，得到的RMSE和MAE分別為9.70和7.52。

表1 在2014AVEC測試集上三個(gè)模型識別抑郁癥的結(jié)果比較

為了驗(yàn)證本文提出的特征V1和DR AudioNet網(wǎng)絡(luò)的有效性，我們與目前最優(yōu)的基于音頻的抑郁癥識別的研究結(jié)果進(jìn)行了對比，結(jié)果如表2所示。其中，文獻(xiàn)[21]分別提取了MFCCs特征和AVEC2014委員會提供的低水平描述子(low level descriptors，LLD)，然后運(yùn)用PLS、LR回歸方法進(jìn)行抑郁癥的預(yù)測;文獻(xiàn)[15]設(shè)計(jì)了深度學(xué)習(xí)模型并運(yùn)用MRELBP和LLD特征進(jìn)行訓(xùn)練。AVEC2014委員會提供的LLD特征包括MFCCs、短時(shí)能量和短時(shí)過零率在內(nèi)的38種音頻描述子。分析文獻(xiàn)[21]的研究可以發(fā)現(xiàn)，運(yùn)用MFCCs特征得到的效果比運(yùn)用LLD的實(shí)驗(yàn)結(jié)果要好，這也就是說明多種特征的結(jié)合反而會降低識別精度。而本文有效融合了與抑郁癥狀最為相關(guān)的MFCCs、共振峰、短時(shí)能量和短時(shí)過零率特征，比只運(yùn)用MFCCs更有優(yōu)勢。

表2 相關(guān)性實(shí)驗(yàn)在2014AVEC測試集上的結(jié)果比較

文獻(xiàn)[15]中的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型由卷積層、池化層和全連接層組成。由于音頻是隨時(shí)間變化的語音信號，為了提取音頻之間的時(shí)序信息，本文設(shè)計(jì)的DR AudioNet模型由CNN、MP、LSTM和FC組成，其中CNN對音頻的短期深度特征進(jìn)行編碼，LSTM提取音頻之間的長期依賴信息。通過結(jié)果對比發(fā)現(xiàn)，本文模型M1的實(shí)驗(yàn)效果優(yōu)于目前最新的文獻(xiàn)[21]和文獻(xiàn)[15]的方法效果。

在模型M2中，利用MADN算法對模型M1中當(dāng)前音頻段的前一段音頻進(jìn)行處理，得到特征V2，V2表達(dá)了前一段音頻的抑郁變化特征。模型M2運(yùn)用特征V2對模型V1進(jìn)行微調(diào)。從表1可以看出，模型M2得到的RMSE和MAE分別為9.46和7.30。通過MADN特征以及模型M2在模型M1的基礎(chǔ)上微調(diào)減少了個(gè)性化特征對抑郁識別的影響，同時(shí)能夠提取更加豐富的語義信息和更加準(zhǔn)確的特征信息，使得模型M2的RMSE與MAE分別比模型M1降低了0.24和0.18，進(jìn)一步證明了模型優(yōu)化的有效性。

在模型M3中，選取特征V3對模型M2進(jìn)行聯(lián)合優(yōu)化。同樣，此時(shí)特征V3的樣本是模型M1中的特征V1樣本的后一段音頻。利用MADN算法對模型M1中當(dāng)前音頻段的后一段音頻進(jìn)行處理，得到特征V3。從表1可以看到，經(jīng)過特征V3聯(lián)合優(yōu)化之后模型的RMSE和MAE分別為9.15和7.17，相比于模型M2又進(jìn)一步降低了誤差。圖3是三個(gè)模型的損失函數(shù)變化曲線，可以看到模型M3的損失函數(shù)收斂速度更快。這三個(gè)模型的實(shí)驗(yàn)結(jié)果表明，本文提出的在DR AudioNet網(wǎng)絡(luò)的基礎(chǔ)上運(yùn)用相鄰兩段音頻的MADN特征對網(wǎng)絡(luò)模型進(jìn)行聯(lián)合優(yōu)化進(jìn)一步降低了音頻抑郁識別誤差，有效地融合了MADN特征對說話人非個(gè)性化的抑郁特征，更加有利于抑郁識別模型的回歸預(yù)測。圖4顯示了模型M3在2014AVEC測試集中的預(yù)測值與真值標(biāo)簽(BDI-II)的比較。文獻(xiàn)[15]運(yùn)用不同的特征分別訓(xùn)練深度模型，然后設(shè)計(jì)了四個(gè)全連接層(FC)對前面提到的分支模型進(jìn)行融合，最終進(jìn)行抑郁分?jǐn)?shù)的預(yù)測。本文提出的網(wǎng)絡(luò)聯(lián)合優(yōu)化模型與文獻(xiàn)[15]提出的融合多個(gè)深度模型的實(shí)驗(yàn)結(jié)果對比如表3所示，可以看出，本文提出的聯(lián)合優(yōu)化模型框架有更好的性能。

圖3 三個(gè)模型訓(xùn)練的損失函數(shù)變化曲線

圖4 真實(shí)標(biāo)簽與預(yù)測值的比較圖

表3 聯(lián)合優(yōu)化的相關(guān)性實(shí)驗(yàn)在2014AVEC測試集上的結(jié)果比較

與包括2014AVEC提供的Baseline在內(nèi)的其他僅僅使用音頻數(shù)據(jù)的最新技術(shù)的識別效果比較見表4。通過對比實(shí)驗(yàn)可以得出結(jié)論，本文提出的運(yùn)用特征V1與DR AudioNet網(wǎng)絡(luò)能有效地進(jìn)行抑郁癥程度的回歸預(yù)測。在提取特征時(shí)運(yùn)用不同的尺度對特征進(jìn)行的歸一化，有效地融合了不同的特征并保留了更加重要的音頻抑郁特征。同時(shí)，運(yùn)用V2和V3對DR AudioNet進(jìn)行聯(lián)合優(yōu)化，有效地融合了MADN特征對說話人非個(gè)性化的抑郁特征。相比于其他目前最優(yōu)的只用音頻數(shù)據(jù)的算法有效地降低了抑郁識別誤差，在2014AVEC數(shù)據(jù)集上的RMSE和MAE分別降到了9.15和7.17，證明了本文提出的基于音頻的特征算法和網(wǎng)絡(luò)模型在識別效果上優(yōu)于其他方法。

表4 在2014AVEC測試集上的只用音頻數(shù)據(jù)的相關(guān)實(shí)驗(yàn)的結(jié)果比較

4 結(jié) 語

本文提出了獲取局部音頻的相鄰兩段的非個(gè)性化的抑郁特征(MADN)，這種基于音頻時(shí)序變化的特征反映了講話者的音頻變化信息，并減少了講話人的講話個(gè)性化特點(diǎn)，顯示了與BDI-II值的較強(qiáng)的關(guān)聯(lián)性。本文設(shè)計(jì)了一種新的網(wǎng)絡(luò)模型，通過當(dāng)前音頻段的前后相鄰兩段的MADN特征，對前一個(gè)模型進(jìn)行優(yōu)化，提高了模型和特征的表達(dá)能力，進(jìn)一步提高了模型預(yù)測BDI-II值的準(zhǔn)確度。在今后的工作中，我們將探索自然語言處理中的文本處理，分析個(gè)體回答問題的文本信息，然后運(yùn)用語音特征和文本特征的多模態(tài)融合，以進(jìn)一步提高識別抑郁癥的準(zhǔn)確率。