亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音情感識別研究綜述

        2022-11-16 02:24:24羅德虎冉啟武
        計算機工程與應(yīng)用 2022年21期
        關(guān)鍵詞:深度特征情感

        羅德虎,冉啟武,楊 超,豆 旺

        陜西理工大學(xué) 電氣工程學(xué)院,陜西 漢中 723001

        語音是人與人之間最直接自然的交流方式,隨著使用移動設(shè)備的人數(shù)增加,也成為了人機交互的主要形式。帶有情感的語音使得人人、人機交流變得高效和有吸引力。然而現(xiàn)實生活中語音情感多樣,往往是混合的,微妙而復(fù)雜且是處于變動狀態(tài)的,所以檢測識別語音中的情感就成為了一項比較有挑戰(zhàn)性的任務(wù)。語音情感識別(speech emotion recognition,SER)是情感智能的一個研究熱點,利用計算機分析預(yù)處理后的各種情感信息,提取出描述情感的特征,將特征值與情感進行對應(yīng),然后對情感信息進行分類,進而推斷出情感狀態(tài)的過程。其流程主要包括預(yù)處理、特征提取和情感分類3 部分。傳統(tǒng)SER 流程圖如圖1 所示。SER 經(jīng)過幾十年的發(fā)展,取得了豐碩的成果,圖2 為SER 的發(fā)展示意圖。隨著深度學(xué)習(xí)的發(fā)展,端到端的深度SER就開始受到了關(guān)注,可直接將原始情感語音信號或者手工特征作為深度學(xué)習(xí)模型的輸入,基于深度學(xué)習(xí)的SER流程圖如圖3所示。

        1 情感描述模型

        一般從離散標(biāo)簽和連續(xù)維度兩個角度對情感進行量化描述。離散標(biāo)簽是指使用與情感相關(guān)的形容詞來描述基本情感的集合。離散情感的描述方式更容易理解,所描述的情感種類單一純凈,但是對生活中常見的細微、復(fù)雜和混合的情感就無法表述了?,F(xiàn)實生活中人的情感處于連續(xù)動態(tài)變化中,維度情感描述模型的出現(xiàn)能夠?qū)崿F(xiàn)對該動態(tài)過程的建模,提高了計算機對復(fù)雜情感的處理能力。維度情感描述模型相比離散方法更具體,從多個維度對情感進行量化,在一定程度上對情緒的強度和波動進行描繪,適合用來描述日常的自發(fā)情感,從理論上來講能完全覆蓋現(xiàn)實生活中的情感,但是在某些維度上比較抽象,沒有離散情感那么好理解。

        兩種情感描述模型的區(qū)別如表1所示[1]。維度情感描述模型中常用的維度是效價維(Valence)、喚醒維(Arousal)和支配維(Dominance)。有研究者加入期望維(Expectation)和強度維(Intensity),以使該情感描述模型更全面,該五個維度的介紹如表2所示。

        表1 兩種情感描述模型的區(qū)別Table 1 Difference between two emotion description models

        表2 維度概述Table 2 Dimension overview

        2 語音情感數(shù)據(jù)庫和情感標(biāo)注

        2.1 語音情感數(shù)據(jù)庫

        語音情感語料庫有多種分類方式,可按語種、類型、自然度和情感描述模型來分。按類型來分如表3所示,按情感描述模型來分,分為維度情感語料庫以及離散情感語料庫,兩種類別中常見的語料庫如表4、5所示。廣泛使用的表達情感的形式主要有兩種,一類是明顯的情感線索,另一類是隱含的情感刺激[2]。明顯的情感線索是在現(xiàn)實生活中誘導(dǎo)人所產(chǎn)生的包含語音在內(nèi)的情感信息可以直接觀察到并收集的,隱含的情感刺激是來源于多媒體網(wǎng)絡(luò)用戶分享自己的生活和表達自己的觀點。從語音情感數(shù)據(jù)庫的建立可知,語音情感語料來源于這兩方面,其中收集來源于多媒體網(wǎng)絡(luò)的語音情感語料具有可行性和吸引力。大規(guī)模的情感語料庫大部分是來自于外國,中文情感語料庫規(guī)模較小且通常只包含單一模態(tài)如語音,最近出現(xiàn)了大型的中文情感語料庫,有中文自然情感視聽語料庫(CHEAVD)[3]、NTHU-NTUA中文交互式多模態(tài)情感語料庫(NNIME)[4]和CH-SIMS[5],三者都是包含語音的多模態(tài)情感語料庫。

        表3 不同類型的數(shù)據(jù)庫對比Table 3 Comparison of different types of databases

        表4 常見離散情感語音數(shù)據(jù)庫Table 4 Common discrete emotional speech database

        隨著多媒體的急劇發(fā)展以及多模態(tài)情感分析成為研究熱點,可以看出情感語料庫建立的趨勢,首先,更多地摘引來自廣播、短視頻等平臺的內(nèi)容作為語料,如情感語料庫ShEMO[6]、OMG[7]、MSP-PODCAST[8]等,其次,語料庫更多建立為包含語音的多模態(tài)情感數(shù)據(jù)庫,有BAUM-1[9]、CREMA-D[10]等。最后,語料庫趨向建立為同時包含離散和維度情感的數(shù)據(jù)庫,有CMU-MOSEI[11]、DEMoS[12]等。除此之外,還出現(xiàn)了合并現(xiàn)有語料庫的大型語料庫,如Gerczuk等[13]收集來自于26個SER語料庫的語料創(chuàng)建情感語音的大型語料庫EmoNet。

        表5 常見維度語音情感數(shù)據(jù)庫Table 5 Common dimensional speech emotion database

        2.2 情感標(biāo)注

        情感注釋依賴于標(biāo)注者,由于標(biāo)注者在進行情感標(biāo)注時,存在一定的情感偏見,以及在標(biāo)注視聽數(shù)據(jù)存在反應(yīng)時的時間延遲[14]。另外有研究表明說話人自我報告的情感與聽者標(biāo)注出的情感存在很大的差異[15]。為了解決這些問題,通常的做法是多人對同一來源的數(shù)據(jù)進行評注,并將結(jié)果進行融合,但是當(dāng)有注釋者的標(biāo)注有巨大分歧時,這些方法并不穩(wěn)定,因此需要建立廣泛認(rèn)可的情感評注標(biāo)準(zhǔn)??山柚鷺?biāo)注工具的便利性和結(jié)果可對比性來解決上述問題,Stappen 等[16]開發(fā)了一個情感標(biāo)注工具箱MuSe-Toolbox,該工具箱是基于Python的開源工具箱,用于創(chuàng)建離散和連續(xù)的情感黃金標(biāo)準(zhǔn),并可將連續(xù)維度轉(zhuǎn)換為離散情感,方便了包括語音在內(nèi)的多模態(tài)情感分析的評注工作。深度學(xué)習(xí)模型需要更大和更多樣化的數(shù)據(jù)集,于是研究者一方面繼續(xù)開發(fā)高性能的標(biāo)注工具,另一方面使用半監(jiān)督方法充分利用已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù),來促進深度學(xué)習(xí)模型在SER中的應(yīng)用。如Deng等[17]利用半監(jiān)督自動編碼器結(jié)合少量的有標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)提高了SER的性能。

        3 語音情感特征

        3.1 語音情感特征提取

        語音情感特征是進行SER研究必不可少的模塊,特征提取是任何模式識別系統(tǒng)的重要組成部分,目的是提取表示情感狀態(tài)的關(guān)鍵信息。聲學(xué)特征主要分為兩類,即低級特征和深度特征,第一類是指使用時間算法和頻率算法所提取的特征,通常分為三大類,韻律特征、譜特征和音質(zhì)特征[18]。第二類是指使用深度學(xué)習(xí)直接從原始語音信號或者從低級特征中提取的高級特征[19]。聲學(xué)情感特征根據(jù)四個不同的分類角度可分為不同類型,如表6所示。具體的特征描述見表7。

        表6 聲學(xué)情感特征歸類Table 6 Acoustic emotional characteristics categorization

        表7 聲學(xué)情感特征描述Table 7 Acoustic emotional characterization

        韻律特征在SER領(lǐng)域廣受研究者的認(rèn)可,最常使用的韻律特征為基頻、能量和時長。文獻[20]使用較少數(shù)量的韻律特征達到92.32%的識別率,表明了韻律信息對情感識別非常有用。文獻[21]提取語音韻律的統(tǒng)計信息,但特征數(shù)量不足以區(qū)分七種情緒,只實現(xiàn)了51%的識別率,然而對于高喚醒情緒的識別率達到89.1%,表明了韻律特征能很好地區(qū)分具有不同喚醒度的情緒,然而對于有相同喚醒度或效價的情緒區(qū)分度較低。

        頻譜特征是通過傅里葉變換將時域信號變換為頻域信號來獲得的,廣泛使用的譜特征有Mel頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCCs),線性預(yù)測倒譜系數(shù)(LPCC)和感知線性預(yù)測系數(shù)等特征(PLP)。近年來有新的譜特征被發(fā)現(xiàn)并成功應(yīng)用于SER,Liu[22]發(fā)現(xiàn)伽馬酮頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCCs)在SER中的表現(xiàn)相比MFCC平均提高了3.6%的準(zhǔn)確度。Jiang等[23]提出情感感知譜特征,在三個數(shù)據(jù)庫上做實驗,其中最高的識別率為81.5%。Tao等[24]提出GSLHu-PCA特征,在Emo-DB語料庫上較HuWSF、PLP 和MFCC 特征分別提高了1.6%、5.53%和12.68%。Peng等[25]提出一種新的基于聽覺的特征,稱之為多分辨率調(diào)制濾波耳蝸圖特征,將其用于維度情感識別以獲取時間動態(tài)信息,實驗表明,在效價維和喚醒維上取得了較好的性能。

        音質(zhì)特征主要用于評價語音的干凈程度和辨識度等。廣泛使用的音質(zhì)特征有頻率微擾,振幅微擾和諧波噪聲比等。文獻[26]表明了語音質(zhì)量與情感內(nèi)容存在很大的相關(guān)性。文獻[27]利用在不同頻段分布的共振峰、諧波噪聲比等音質(zhì)特征,得出音質(zhì)特征更適合區(qū)分具有相同喚醒度和不同效價度情緒的結(jié)論。因此,這些特征可以和韻律特征相結(jié)合提高情感識別率。文獻[28]結(jié)合音質(zhì)特征和韻律特征,與單獨使用韻律特征相比提高了約10%。文獻[29]研究頻率微擾和振幅微擾對印地語SER 的影響,獲得了83.3%的識別率。文獻[30]在譜特征的基礎(chǔ)上加入頻率微擾和振幅微擾,在所有實驗條件下均得到提高。文獻[31]提出傅里葉參數(shù)特征,與MFCC相結(jié)合比單獨使用MFCC性能得到進一步提高,充分表明了音質(zhì)特征比主特征更具有補充性。

        情感隨著時間變化,并非均勻分布在語音中所有位置上,研究者根據(jù)研究目標(biāo)選擇提取局部特征或全局特征[32]。文獻[33]和文獻[34]都提取了韻律的局部特征和全局特征,并進行了對比,局部特征的識別率均低于全局特征。文獻[35]提取局部序列特征,實驗結(jié)果優(yōu)于現(xiàn)有方法,平均準(zhǔn)確率提高了9%。文獻[36]利用基音輪廓的統(tǒng)計量進行分析,準(zhǔn)確率高出對比文獻27%。在分類時間、準(zhǔn)確度和效率方面,全局特征的性能優(yōu)于局部特征。然而文獻[37]提出全局特征對具有相似喚醒度的情緒并不適用。表8給出兩種特征的優(yōu)缺點對比情況,通常將兩者組合用于情感識別。

        表8 局部特征vs全局特征Table 8 Local features vs.global features

        傳統(tǒng)特征要么專注時域信息,要么僅注重頻域信息,缺乏結(jié)合時域和頻域的特征,Wu等[38]提出了長期調(diào)制譜特征,用于捕獲語音信號的時頻信息。唐閨臣等[39]提取語音信號的時域和頻域信息,將其組合形成語譜圖。如今可以直接應(yīng)用深度學(xué)習(xí)技術(shù)自動提取特征,如利用卷積神經(jīng)網(wǎng)絡(luò)從語譜圖中自動提取有用特征,這成為了一種流行趨勢,避免了繁復(fù)的人工提取特征過程。Han等[40]利用深度神經(jīng)網(wǎng)絡(luò)從低級聲學(xué)特征中提取高級特征,取得了SER研究的巨大進步。為了有效描述情感語音的時間動態(tài)信息,Luo 等[41]利用卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的卷積遞歸神經(jīng)網(wǎng)絡(luò)從不同時間尺度的語譜圖中提取上下文特征。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)所捕捉的語譜圖特征中缺失空間信息,為此Wu 等[42]利用序列膠囊網(wǎng)絡(luò)提取特征空間信息。

        OpenSMILE[43]是較為常用的特征提取工具包,最初為提取語音特征而開發(fā),常用于Interspeech副語言信息提取挑戰(zhàn)賽,可提取的語音特征包括信號能量、語音質(zhì)量、光譜和共振峰等,現(xiàn)在已經(jīng)開發(fā)了2.0 版本,可以提取的特征不僅包含語音特征,還包括音樂特征和視頻特征,可以對特征進行聯(lián)合處理,實現(xiàn)多模態(tài)特征提取。其他特征提取工具見表9[44]。

        表9 常用語音情感特征提取工具Table 9 Commonly used speech emotion feature extraction tools

        3.2 融合特征

        融合特征相較于傳統(tǒng)特征在不同語種的數(shù)據(jù)集及不同分類器上的性能較好且識別性能穩(wěn)定。融合特征包含傳統(tǒng)特征之間的融合,Bandela等[45]將Teo能量算子與MFCC 特征相結(jié)合,準(zhǔn)確率明顯高于MFCC。Rao等[46]將全局韻律特征和局部韻律特征結(jié)合,準(zhǔn)確率高于單一特征。此外融合特征還包括深度特征與傳統(tǒng)特征之間的融合以及深度特征之間的結(jié)合。傳統(tǒng)特征與深度特征的結(jié)合結(jié)果表明,特征工程可以幫助提高端到端系統(tǒng)的魯棒性,其中具有區(qū)分性的傳統(tǒng)特征,相比于復(fù)雜的深度學(xué)習(xí)特征集,擁有更優(yōu)秀的表現(xiàn)[47]。王怡等[48]將低層次手工特征集、高級統(tǒng)計特征、基于深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)所提取的深度特征相融合,相比未融合之前提高了分類性能。Wang等[49]結(jié)合手工特征與深度神經(jīng)網(wǎng)絡(luò)所提取的特征優(yōu)點,提高了整體識別效果。對于深度特征之間的結(jié)合,Sun 等[50]融合卷積神經(jīng)網(wǎng)絡(luò)所提取的深層特征與淺層特征,在大多數(shù)測試數(shù)據(jù)集上取得了很好的結(jié)果。

        4 語音情感識別方法

        在過去的幾十年中,SER研究一直以傳統(tǒng)的機器學(xué)習(xí)算法為主,取得了許多成果,現(xiàn)如今,隨著深度學(xué)習(xí)在SER 領(lǐng)域的發(fā)展,許多研究表明,與傳統(tǒng)情感識別方法相比,深度學(xué)習(xí)有更好的表現(xiàn)。每種分類器都有各自的優(yōu)缺點,然而,由于情感的復(fù)雜性和主觀性,還沒有一個普遍認(rèn)可的通用分類器可以使用。傳統(tǒng)分類器所需要數(shù)據(jù)量相比深度學(xué)習(xí)分類器要少,但深度學(xué)習(xí)分類器可以省去人工提取特征的步驟,表10 簡要介紹兩大分類器的區(qū)別。以下從傳統(tǒng)分類器、深度學(xué)習(xí)分類器以及兩者的混合模型三個角度對SER算法分別進行闡述。

        表10 傳統(tǒng)分類器與深度學(xué)習(xí)分類器的比較Table 10 Comparison of traditional classifiers and deep learning classifiers

        4.1 基于傳統(tǒng)分類器的語音情感識別方法

        常用的傳統(tǒng)分類器有高斯混合模型(Gaussian mixture model,GMM)、支持向量機(support vector machines,SVM)和隱馬爾可夫模型(hidden Markov model,HMM)等。

        SVM算法使用核函數(shù)將樣本從原始空間映射到高維空間使其線性可分,因為其泛化能力強,不易受高維特征的影響而在SER 研究中使用廣泛。文獻[51]將SVM 與線性判別分類器,k近鄰分類器和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的SER任務(wù)性能進行比較,SVM的性能最高,然而只分類了四種情緒。文獻[52]利用SVM 確定SER中最優(yōu)的特征集,提取七種情緒的基頻、能量和MFCC特征組合,三個語料庫中最低的識別率為89.8%,最高的識別率為98%。文獻[53]提出深度SVM,基于單獨使用MFCC及使用MFCC與其他特征的融合特征,相比標(biāo)準(zhǔn)SVM分別提高約7%和8%,驗證了深度SVM的可行性。

        HMM 是關(guān)于時序的概率模型,它能夠很好地模擬情緒的時間動態(tài)。文獻[54]使用HMM 和SVM 對五種情感分類,在丹麥情感語音數(shù)據(jù)庫上進行實驗,與說話人無關(guān)的情況下,HMM 取得了99.5%的最優(yōu)識別率。文獻[37]利用短時對數(shù)頻率功率系數(shù)結(jié)合HMM,與使用線性預(yù)測倒譜系數(shù)和MFCC特征參數(shù)的性能做比較,結(jié)果表明,該方案達到最好的識別率89%,超過人類評估的65.8%。

        GMM 是連續(xù)HMM 的特例,它使用混合的高斯分量來捕獲每一類的概率分布。文獻[55]將GMM、HMM和深度信念網(wǎng)絡(luò)用于在Emo-DB 與EMOVO 相結(jié)合的跨語言語料庫上進行二分類和六分類實驗對比,結(jié)果GMM 的識別率都優(yōu)于另外兩個,在二分類上的識別率為83.4%,在六分類實驗上的平均識別率為70.1%??紤]到GMM 對訓(xùn)練數(shù)據(jù)的依賴性較強,文獻[56]提出變分高斯混合模型,在使用20%、50%、80%和100%的原始訓(xùn)練數(shù)據(jù)的情況下進行與GMM 的對比實驗,結(jié)果表明了變分GMM 在同樣數(shù)據(jù)量的情況下其表現(xiàn)都優(yōu)于GMM。

        各類分類器各有優(yōu)缺點,研究表明各分類器集成的表現(xiàn)通常優(yōu)于單獨分類器。分類器的組合方式一般有兩種,一種是將數(shù)據(jù)送入每個分類器,每個分類器的輸出結(jié)果通過多數(shù)投票機制而獲得最終結(jié)果。另一種方式是分類器以分層的方式進行組合,首個分類器的輸出結(jié)果再送入其他分類器,然后給出最終結(jié)果。文獻[57]提出基于維度情感模型的多級分類方案,先進行喚醒維度分類,接下來的分類器進行效價維度分類,在丹麥語情感語料庫上取得了81%的識別率,但其訓(xùn)練集和測試集都是來源于同一個語料庫,為了挖掘集成分類器的通用性,文獻[58]利用集成分類器使用多數(shù)投票機制的方式進行跨語料庫的多語言SER研究,兩組實驗分別將烏爾都語作為訓(xùn)練集和測試集,與相應(yīng)研究文獻對比識別率最高增加15%,表明利用集成分類器進行跨語料庫的SER研究是比較有效的方法。

        4.2 基于深度學(xué)習(xí)的語音情感識別方法

        用于SER 任務(wù)具有代表性深度學(xué)習(xí)技術(shù)有CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、膠囊網(wǎng)絡(luò)(capsulenetworks,CapsNet)、自編碼器(autoencoders,AE)等。SER 最近的研究更多的在于對各深度學(xué)習(xí)模型改進和整合上。

        CNN是專門用于處理如時間序列和圖像數(shù)據(jù)這種具有類似網(wǎng)格拓撲結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),被廣泛用作SER的基本框架。深度CNN(deep convolutional neural networks,DCNN)被認(rèn)為是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的擴展,相關(guān)研究成果見表11[59-60]。文獻[59]受到DCNN在計算機視覺領(lǐng)域較好表現(xiàn)的啟發(fā),將其用于建立SER 系統(tǒng),同時提出了判別時間金字塔匹配算法用于匯集深度特征,實驗結(jié)果表明了該模型與算法結(jié)合的有效性,另外該研究將預(yù)先訓(xùn)練好的深度模型用于小型語音情感數(shù)據(jù)集時進行微調(diào)為SER 的研究提供了較好的思路。i-vector[61]與深度學(xué)習(xí)結(jié)合的研究較少,2015 年,文獻[62]首次結(jié)合RNN與i-vector特征進行SER研究。2019年,文獻[63]提出將DCNN與i-vector相結(jié)合的情感識別方法,結(jié)果顯示了該方法的有效性。

        表11 基于深度卷積神經(jīng)網(wǎng)絡(luò)的SERTable 11 Deep convolutional neural network based SER

        RNN 是專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),容易出現(xiàn)梯度消失的問題,由于該問題的影響,使得RNN在捕獲序列數(shù)據(jù)的長期依賴關(guān)系方面存在局限性,因此開發(fā)了長短期記憶網(wǎng)絡(luò)來解決這個問題。相關(guān)研究工作見表12,其中文獻[64]提出雙序列LSTM 模型,用來同時處理兩個Mel 譜圖,在IEMOCAP 上的準(zhǔn)確率相比目前最優(yōu)的單模型提高了6%。有研究表明無語義的發(fā)聲如笑聲、嘆息聲等有助于SER[65]。文獻[66]利用SVM檢測語音和無語義的發(fā)聲,使用韻律短語提取器將兩種類型的聲音進行分離,然后使用深度殘差網(wǎng)絡(luò)提取各自的特征進行決策級融合,之后輸入基于注意力機制的LSTM的序列到序列模型進行分類,結(jié)果準(zhǔn)確率優(yōu)于基于特征級和模型級的融合方法。

        表12 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SERTable 12 Recurrent neural network based SER

        文獻[67]首次將標(biāo)注者之間的不一致程度即感知不確定性融入SER,可以用來調(diào)整情緒預(yù)測過程,他們利用BLSTM-RNN回歸模型,在效價維和喚醒維對情感進行預(yù)測,結(jié)果表明感知不確定性可以在一定程度上改善識別性能。LSTM 通常與CNN 結(jié)合用于SER 任務(wù),兩者的各種組合成為了SER領(lǐng)域的一種流行趨勢,其組合結(jié)構(gòu)通常優(yōu)于單獨的模型。文獻[68]構(gòu)建1維和2維的CNN LSTM 學(xué)習(xí)局部特征和長期上下文關(guān)系,2 維CNN LSTM在EMO-DB、IEMOCAP語料庫上與說話人相關(guān)和無關(guān)的實驗取得了較好的識別率,優(yōu)于深度信念網(wǎng)絡(luò)和CNN 等傳統(tǒng)方法。近期文獻[69]提出了基于注意力的3維CNN LSTM,將語譜圖、MFCC圖、耳蝸圖和分形圖拼接成4 維作為該模型的輸入,在SAVEE、RAVDESS 和RML 數(shù)據(jù)集的實驗準(zhǔn)確率相較于以往文獻在這三個數(shù)據(jù)集上的實驗結(jié)果分別改進了2.71%、8.75%和7.81%。

        文獻[70]提出CapsNet,其每一個膠囊都由許多神經(jīng)元組成,輸入和輸出都是向量,而非CNN 的標(biāo)量,它具有平移同變性,因此其可以克服CNN 捕捉空間信息能力不足的局限性。相關(guān)研究工作見表13,有研究人員將其用于提取語譜圖空間信息,文獻[71]研究了基于CapsNet 的SER,提出有效的匯集方法獲得全局特征以及提出循環(huán)連接來獲取時間信息,與CNN-LSTM 模型基于IEMOCAP語料庫在四種情緒下的準(zhǔn)確率對比,其準(zhǔn)確率達到72.73%。由于CNN的壓縮方法不能直接應(yīng)用于CapsNet[72]。且CapsNet 算法速度較慢,因此文獻[73]提出了雙通道LSTM 壓縮CapsNet 算法,在多個語料庫上與多種分類算法進行對比,結(jié)果表明該方法優(yōu)于多種分類算法,但是訓(xùn)練和測試的運行時間相比傳統(tǒng)方法要長,特征提取也比所對比方法要復(fù)雜。

        表13 基于膠囊網(wǎng)絡(luò)的SERTable 13 Capsule network based SER

        AE 將原始數(shù)據(jù)重建為輸出,包含編碼器和解碼器兩個組件。相關(guān)研究工作見表14。針對源域與目標(biāo)域失配問題,文獻[74]提出了基于自適應(yīng)去噪自動編碼器的無監(jiān)督域自適應(yīng)方法,在三個公開語料庫上的實驗結(jié)果表明,該方法顯著減少了訓(xùn)練集和測試集之間的差異所帶來的對情感分類準(zhǔn)確率的影響。文獻[75]使用去噪自動編碼器、變分自動編碼器、對抗性自動編碼器和對抗性變分貝葉斯作為特征學(xué)習(xí)器結(jié)合CNN作為與說話人無關(guān)的SER系統(tǒng),與沒有應(yīng)用無監(jiān)督特征學(xué)習(xí)并使用手工特征作為輸入的CNN和SVM進行對比,自動編碼器顯著改善了SER 的性能。文獻[17]提出一種基于半監(jiān)督自動編碼器的語音情感識方法,結(jié)合少量標(biāo)簽樣本和未標(biāo)注樣本,實驗表明,所提出的方法足以取得與監(jiān)督學(xué)習(xí)方法競爭性的結(jié)果。

        表14 基于自編碼器的SERTable 14 Autoencoder based SER

        由于Transformer 模型[77]在自然語言處理方面的優(yōu)異成績,且在長序列建模方面表現(xiàn)突出,在一定程度上可以替代CNN 和RNN,因此有研究者將其用于SER。相關(guān)研究工作見表15,文獻[78]提出一種新的端到端的SER 架構(gòu),在其中加入了堆疊Transformer 層,與在IEMOCAP上做實驗所取得較好結(jié)果的各種方法進行對比,取得了相對20%的改進。由于Transformer中多頭注意單元的Softmax消耗的時間和內(nèi)存占用過大,文獻[79]提出了類Transformer模型,并提出泰勒線性注意算法,雖與基本方法相對比沒有顯著差異,但是在內(nèi)存占用和時間開銷上卻大大減少。

        表15 基于Transformer的SER Table 15 Transformer-based SER

        4.3 基于混合模型結(jié)構(gòu)的語音情感識別方法

        將傳統(tǒng)機器學(xué)習(xí)方法與深度學(xué)習(xí)方法相結(jié)合而形成混合模型結(jié)構(gòu)也是SER研究的一種有效方式。相關(guān)研究工作見表16,其中文獻[81]提出了一種基于DNN-HMMs的SER方法,與四個模型分別基于eNTERFACE’05數(shù)據(jù)庫和柏林?jǐn)?shù)據(jù)庫上進行實驗對比,結(jié)果表明,該模型在第一個數(shù)據(jù)庫上的準(zhǔn)確率都比其他四個模型率提高了10%以上,在第二個數(shù)據(jù)庫上該模型相較于其他模型所提升的識別率整體上沒有在第一個數(shù)據(jù)庫上的高,但依舊能取得最好的結(jié)果。文獻[82]研究了一種基于DNN-決策樹SVM 的SER 方法,將多層決策思想與深度學(xué)習(xí)相結(jié)合,通過建立基于情感混淆程度的決策樹SVM 框架,使用DNN提取瓶頸特征用于訓(xùn)練SVM分類器。與SVM和DNN-SVM相比,平均識別率分別提高了6.25%和2.91%,一定程度上解決了隨著情感類別增加而識別率下降的問題。

        表16 基于混合模型結(jié)構(gòu)的SERTable 16 Hybrid model structure based SER

        5 跨語料庫語音情感識別方法

        以往大多數(shù)SER研究都是基于同一語料庫的,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有相同的分布。為了提高模型的泛化性能,研究者利用不同來源的數(shù)據(jù)庫分別訓(xùn)練和測試模型,然而由于各種數(shù)據(jù)庫的文化背景,語言和分布模式等不同,這不可避免地導(dǎo)致了情感識別率的下降,進而阻礙SER技術(shù)的推廣。由于需要考慮的因素眾多,因此跨語料庫SER成為了極具挑戰(zhàn)性的研究,眾多研究者主要針對如何減小跨庫數(shù)據(jù)分布差異進行了廣泛的探索。以下從傳統(tǒng)方法和深度學(xué)習(xí)方法兩方面來闡述跨庫SER 研究進展和所存在的問題。文獻[83]較早研究跨庫SER,提出了說話人歸一化,數(shù)據(jù)庫歸一化以及說話人和數(shù)據(jù)庫都一化來處理數(shù)據(jù)庫之間的差異。遷移學(xué)習(xí)是跨庫研究中常用的方法,將一個語料庫獲得的信息遷移至另外一個語料庫,克服兩庫失配的困難,其中研究較多的遷移學(xué)習(xí)方法為域適應(yīng)方法。文獻[84]提出基于特征遷移學(xué)習(xí)方法,利用最大均值差異和降維算法,旨在尋求源庫和目標(biāo)庫之間的鄰近低維特征空間。文獻[85]提出域適應(yīng)最小二乘回歸模型,結(jié)合目標(biāo)庫無標(biāo)簽數(shù)據(jù)和源庫有標(biāo)簽數(shù)據(jù)共同訓(xùn)練模型,且在損失函數(shù)中加入正則化約束來減小兩庫之間的分布差異。

        近年來,由于深度學(xué)習(xí)的突出表現(xiàn),研究者利用領(lǐng)域自適應(yīng)方法結(jié)合深度學(xué)習(xí)進行跨庫SER 研究。對于跨庫SER,模型的泛化能力尤其重要,由于深度信念網(wǎng)絡(luò)(deep belief network,DBN)具有較強的泛化能力,文獻[86]研究基于DBN 在5 個情感語音數(shù)據(jù)庫上的遷移學(xué)習(xí),結(jié)果優(yōu)于稀疏自動編碼器和SVM的研究工作,另外還發(fā)現(xiàn)將一部分目標(biāo)領(lǐng)域數(shù)據(jù)用來擴充訓(xùn)練數(shù)據(jù),識別率顯著提高。最近,有研究者提出利用領(lǐng)域?qū)褂?xùn)練神經(jīng)網(wǎng)絡(luò)來提取訓(xùn)練域和測試域的通用表示[87]。文獻[88]基于領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)進行跨庫維度情感預(yù)測,創(chuàng)建了可區(qū)分的特征表示,縮小了源域和目標(biāo)域特征空間的差距。當(dāng)來自目標(biāo)領(lǐng)域的標(biāo)記樣本很少時,少樣本學(xué)習(xí)可用作解決方案,因此,文獻[89]提出基于少樣本學(xué)習(xí)和無監(jiān)督域適應(yīng)的跨庫語音情感識別方法,該方法訓(xùn)練從源域樣本中學(xué)習(xí)情感相似性并適應(yīng)目標(biāo)域。實驗結(jié)果表明所提方法可以有效提高跨庫SER 的性能。當(dāng)目標(biāo)樣本較少時,文獻[90]研究利用生成對抗網(wǎng)絡(luò)合成樣本作為額外訓(xùn)練數(shù)據(jù)的效用,然而生成對抗網(wǎng)絡(luò)難以訓(xùn)練。最近基于Transformer 的SER 研究逐漸增多,但未見將其用于跨庫SER的相關(guān)研究,與之前的方法相結(jié)合研究跨庫SER是將來的一個方向。

        6 語音情感識別的應(yīng)用

        SER在工作、娛樂和日常生活等場景下的應(yīng)用較為廣泛,以下列舉了部分應(yīng)用領(lǐng)域。

        在醫(yī)療護理領(lǐng)域,SER系統(tǒng)的應(yīng)用及時反饋患者和醫(yī)務(wù)人員的情緒狀態(tài),可以優(yōu)化治療過程改善醫(yī)患關(guān)系[91]。在航空、航天及航海等特殊環(huán)境下,航天人員與地面通信中應(yīng)用SER技術(shù),偵測焦慮與煩躁等應(yīng)激性情緒苗頭,利于地面心理專家及時進行疏導(dǎo)[92]。

        在教育領(lǐng)域,對網(wǎng)絡(luò)課堂學(xué)生學(xué)習(xí)過程中的情緒狀態(tài)進行跟蹤識別,老師根據(jù)反饋結(jié)果調(diào)整教學(xué)進度,針對不同的學(xué)生形成個性化的教育[93]。在服務(wù)領(lǐng)域,檢測客服人員以及客戶的情感激烈程度并采取相應(yīng)措施,提升服務(wù)效率和服務(wù)質(zhì)量[94]。

        在娛樂領(lǐng)域,交互式電影中運用語音情感識別,提升觀影者的參與度[95]。云游戲投入市場,運用包括SER在內(nèi)的多模態(tài)情感識別技術(shù)來根據(jù)玩家的游戲體驗情緒對游戲本身進行調(diào)整[96]。在影視領(lǐng)域,識別音樂情感與電影的氛圍進行匹配以及為動漫電影人物配音[97]。在文化領(lǐng)域,通過識別戲劇情感并結(jié)合觀眾的反應(yīng),提升戲劇情感表現(xiàn)力[98]。

        在交通領(lǐng)域,對于下一代智能交通[99],自動駕駛車輛的車載SER系統(tǒng)結(jié)合5G技術(shù)可以根據(jù)用戶的指示及結(jié)合智能交通系統(tǒng)進行安全駕駛,對自動開關(guān)窗,導(dǎo)航等方面為乘客和駕駛員提供個性化的體驗。在音頻信息檢索方面[100],可以使用SER 技術(shù)對音頻內(nèi)容及某些片段進行所需要情緒信息的檢索。在對老人的關(guān)注方面,可用陪護機器人與老年人進行交流談話,關(guān)注老年人的身心健康[101]。

        7 語音情感識別的結(jié)論與展望

        SER技術(shù)通過幾十年的研究發(fā)展,拓寬了許多應(yīng)用場景,從以下幾方面可以看出其存在的問題以及發(fā)展方向。

        第一,缺少通用的情感描述模型。情感定義沒能達成共識,現(xiàn)存情感描述模型多樣,研究人員只能根據(jù)研究目標(biāo)進行選擇,一定程度上限制了結(jié)果對比。從不同情感模型的演化過程可以發(fā)現(xiàn),情感的表示一方面從簡單地將情感分類為積極和消極到逐步演化為更復(fù)雜細微的情感表示方向發(fā)展,另一方面,也正在從離散的情感特征標(biāo)簽向連續(xù)長期的維度情感度量方向深化。

        第二,缺乏規(guī)模與質(zhì)量兼?zhèn)洳⒛軌蛲ㄓ霉蚕淼淖匀磺楦姓Z音數(shù)據(jù)庫。現(xiàn)存數(shù)據(jù)庫數(shù)量多,規(guī)模較小,并不通用,研究人員按研究目標(biāo)各自選擇不同的庫,為研究成果的比較設(shè)下了障礙。首先可以進行跨庫、跨語言合并高質(zhì)量語料庫,但各庫的建庫標(biāo)準(zhǔn)及建庫方法不同,將各庫進行組建可能會存在問題,因此需要研究一個泛化性的方案。針對跨庫SER,遷移學(xué)習(xí)的研究還不夠充分,可將其他模態(tài)如文本和視頻的知識遷移到跨庫研究中,同時研究減小負遷移帶來的影響。針對現(xiàn)有高質(zhì)量語料庫,使用數(shù)據(jù)生成技術(shù),在基礎(chǔ)上擴充。另一方面,結(jié)合科研人員,心理專家以及標(biāo)注公司的努力,確立統(tǒng)一泛化性的記錄方法、建庫標(biāo)準(zhǔn)、標(biāo)注標(biāo)準(zhǔn)以及數(shù)據(jù)庫質(zhì)量評價標(biāo)準(zhǔn)。

        第三,探索與情感強相關(guān)的特征。針對已提出的情感特征,探究優(yōu)化方式和特征最優(yōu)數(shù)量,融合優(yōu)化顯著特征,構(gòu)成情感語音最優(yōu)特征集合。融合同一深度網(wǎng)絡(luò)不同層信息以及融合不同深度網(wǎng)絡(luò)學(xué)習(xí)到的不同深度特征的方法也是值得深入研究的。對于跨語言、跨庫研究,找到普適特征,發(fā)掘情感特征通用性,是未來的一個研究方向。

        第四,缺乏可解釋性的深度神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的出現(xiàn)給SER 的研究帶來了很大的變革,加速了其發(fā)展,但是深度神經(jīng)網(wǎng)絡(luò)作為典型的“黑箱”算法,最終的分類結(jié)果是如何得出的,在“黑箱”中發(fā)生了什么,網(wǎng)絡(luò)的具體實現(xiàn)卻不易描述,為了更好地理解為SER研究所設(shè)計的深度網(wǎng)絡(luò),需要探索內(nèi)部細節(jié),構(gòu)建解釋能力強的深度神經(jīng)網(wǎng)絡(luò)來促進SER發(fā)展。

        第五,SER 研究沒有進一步從腦科學(xué)、認(rèn)知科學(xué)等學(xué)科的研究成果中得到啟示。現(xiàn)有的SER 研究只是將其作為模式識別問題,對人腦情感信息內(nèi)在處理機制深入分析利用的研究還處在初級階段,情感的復(fù)雜性以及心理學(xué),腦科學(xué)和認(rèn)知學(xué)等各學(xué)科的發(fā)展水平還不足以建立起模擬人腦情感處理機制的模型。因此,還需要結(jié)合各學(xué)科的發(fā)展共同致力于這一交叉研究。除此之外,結(jié)合腦科學(xué)、生理學(xué)學(xué)科研究表達的情感與經(jīng)歷的情感之間的差異,并建立一個通用模型是未來的一個研究方向。

        第六,缺少對語音情感數(shù)據(jù)隱私保護的研究?,F(xiàn)代是萬物互聯(lián)的時代,可將SER 系統(tǒng)集成到物聯(lián)網(wǎng)中,語音情感處理系統(tǒng)放在云端,但語音數(shù)據(jù)被上傳到服務(wù)器并進行處理時,可能會泄露私人敏感信息,而導(dǎo)致收集不同來源的數(shù)據(jù)受限,對構(gòu)建有效的SER模型可能造成挑戰(zhàn),為應(yīng)對該問題,有研究者提出基于聯(lián)邦學(xué)習(xí)的隱私保護SER模型[102],但該方面的研究還比較少。

        猜你喜歡
        深度特征情感
        如何在情感中自我成長,保持獨立
        深度理解一元一次方程
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        不忠誠的四個特征
        深度觀察
        深度觀察
        如何在情感中自我成長,保持獨立
        深度觀察
        国产美女主播视频一二三区| 日本视频一区二区三区三州| 精品国产黄一区二区三区| 国产三级精品三级| 免费男人下部进女人下部视频| 国产成人丝袜网站在线看| 97中文乱码字幕在线| 男人国产av天堂www麻豆| 人妻暴雨中被强制侵犯在线| 99国产精品丝袜久久久久| 亚洲天堂一区二区精品| 日本一区二区三区视频在线观看| 337p西西人体大胆瓣开下部| 国产欧美精品一区二区三区,| 国产精品av免费网站| 风韵丰满熟妇啪啪区99杏| 女人被狂躁高潮啊的视频在线看 | 国产精品一区二区 尿失禁| 国产裸体AV久无码无遮挡| 亚洲av乱码一区二区三区人人| 熟女人妇 成熟妇女系列视频| 蜜臀av免费一区二区三区| 狠狠亚洲超碰狼人久久老人| av黄色在线免费观看| 人妻聚色窝窝人体www一区| 精品国产香蕉伊思人在线又爽又黄| 亚洲国产不卡免费视频| 日日噜噜夜夜狠狠视频| 色婷婷久久综合中文久久蜜桃av| 亚洲欧美成人中文在线网站| 在线国产丝袜自拍观看| 精品国产一区二区三区av性色| 在线观看欧美精品| 亚洲一区二区三区在线观看| 免费人成视频网站在在线| 男人j进女人j啪啪无遮挡| 日本精品一区二区三本中文| 国产蜜桃传媒在线观看| 亚洲中文字幕无码中文字| 欧美视频在线观看一区二区| 亚洲大胆视频在线观看|